BR112020026433A2

BR112020026433A2 - chamadas de base baseadas em inteligência artificial

Info

Publication number: BR112020026433A2
Application number: BR112020026433-4A
Authority: BR
Inventors: Kishore JAGANATHAN; John Randall GOBBEL; Amirali KIA
Original assignee: Illumina, Inc.
Priority date: 2019-03-21
Filing date: 2020-03-21
Publication date: 2021-03-23
Also published as: AU2020256047A1; US20230004749A1; AU2020241586A1; SG11202012463YA; CN112689875A; JP2022535306A; AU2020240383A1; IL279525A; IL279522A; AU2020240141A1; JP2022525267A; BR112020026455A2; EP3942072A1; EP3942070A1; CN112789680A; US11210554B2; IL279533A; BR112020026426A2; CN112334984A; MX2020014288A

Abstract

A tecnologia revelada processa dados de entrada através de uma rede neural, e produz uma representação alternativa dos dados de entrada. Os dados de entrada incluem dados de imagem por ciclo para cada um dentre um ou mais ciclos de sequenciamento de uma rodada de sequenciamento. Os dados de imagem por ciclo representam emissões de intensidade de um ou mais analitos e seus respectivos planos de fundo circundantes capturados em um respectivo ciclo de sequenciamento. A tecnologia revelada processa a representação alternativa através de uma camada de saída e a produção de uma saída, e faz uma chamada de base a um ou mais dos analitos em um ou mais dos ciclos de sequenciamento com base na saída.

Description

CHAMADAS DE BASE BASEADAS EM INTELIGÊNCIA ARTIFICIAL PRIORIDADE APLICAÇÕES

[0001] Este pedido reivindica a prioridade ou o benefício dos seguintes pedidos de patente: pedido de patente provisório US n° 62/821.602, intitulado "Training Data Generation for Artificial IntelligenceBased Sequencing", depositado em 21 de março de 2019 (n° do documento do procurador ILLM 1008-1/IP- 1693-PRV); pedido de patente provisório US n° 62/821.618, intitulado "Artificial Intelligence-Based Generation of Sequencing Metadata", depositado em 21 de março de 2019 (n° do documento do procurador ILLM 1008-3/IP-1741- PRV); pedido de patente provisório US n° 62/821.681, intitulado "Artificial Intelligence-Based Base Calling", depositado em 21 de março de 2019 (n° do documento do procurador ILLM 1008-4/IP-1744-PRV); pedido de patente provisório US n° 62/821.724, intitulado "Artificial Intelligence-Based Quality Scoring", depositado em 21 de março de 2019 (n° do documento do procurador ILLM 1008-7/IP-1747-PRV); pedido de patente provisório US n° 62/821.766, intitulado "Artificial Intelligence-Based Sequencing", depositado em 21 de março de 2019 (n° do documento do procurador ILLM 1008-9/IP-1752-PRV); pedido NL n° 2023310, intitulado "Training Data Generation for Artificial Intelligence-Based Sequencing", depositado em 14 de junho de 2019 (n° do documento do procurador ILLM 1008-11/IP-1693-NL); pedido NL n° 2023311, intitulado "Artificial Intelligence-Based Generation of Sequencing Metadata", depositado em 14 de junho de 2019 (n° do documento do procurador ILLM 1008-12/IP-1741-NL); pedido NL n° 2023312, intitulado "Artificial Intelligence-Based Base Calling", depositado em 14 de junho de 2019 (n° do documento do procurador ILLM 1008-13/IP-1744-NL);

pedido NL n° 2023314, intitulado "Artificial Intelligence-Based Quality Scoring", depositado em 14 de junho de 2019 (n° do documento do procurador ILLM 1008-14/IP-1747-NL); e pedido NL n° 2023316, intitulado "Artificial Intelligence-Based Sequencing", depositado em 14 de junho de 2019 (n° do documento do procurador ILLM 1008-15/IP-1752-NL). pedido de patente não provisório US n° 16/825.987, intitulado "Training Data Generation for Artificial Intelligence-Based Sequencing", depositado em 20 de março de 2020 (n° do documento do procurador ILLM 1008-16/IP-1693-US); pedido de patente não provisório US n° 16/825.991, intitulado "Training Data Generation for Artificial Intelligence-Based Sequencing", depositado em 20 de março de 2020 (n° do documento do procurador ILLM 1008-17/IP-1741-US); pedido de patente não provisório US n° 16/826.126, intitulado "Artificial Intelligence-Based Base Calling", depositado em 20 de março de 2020 (n° do documento do procurador ILLM 1008-18/IP-1744-US); pedido de patente não provisório US n° 16/826.134, intitulado "Artificial Intelligence-Based Quality Scoring", depositado em 20 de março de 2020 (n° do documento do procurador ILLM 1008-19/IP-1747-US); pedido de patente provisório US n° 16/826.168, intitulado "Artificial Intelligence-Based Sequencing", depositado em 21 de março de 2020 (n° do documento do procurador ILLM 1008-20/IP-1752-PRV); pedido de patente PCT n° PCT___________, intitulado "Training Data Generation for Artificial Intelligence-Based Sequencing", (n° do documento do procurador ILLM 1008-21/IP-1693-PCT) depositado simultaneamente, subsequentemente publicado como publicação PCT n° WO ____________; pedido de patente PCT n° PCT___________, intitulado "Artificial Intelligence-Based Generation of Sequencing Metadata", (n° do documento do procurador ILLM 1008-22/IP-1741-PCT) depositado simultaneamente, subsequentemente publicado como publicação PCT n° WO ____________; pedido de patente PCT n° PCT___________, intitulado "Artificial Intelligence-Based Quality Scoring", (n° do documento do procurador ILLM 1008-24/IP-1747-PCT) depositado simultaneamente, subsequentemente publicado como publicação PCT n° WO ____________; e pedido de patente PCT n° PCT___________, intitulado "Artificial Intelligence-Based Sequencing", (n° do documento do procurador ILLM 1008-25/IP-1752-PCT) depositado simultaneamente, subsequentemente publicado como publicação PCT n° WO ____________;

[0002] Os pedidos de prioridade estão aqui incorporados a título de referência para todos os propósitos como se estivessem completamente aqui apresentados.

INCORPORAÇÕES

[0003] Os documentos a seguir estão aqui incorporados, a título de referência, para todos os propósitos como se completamente apresentados no presente documento: pedido de patente provisório US n° 62/849.091, intitulado, "Systems and Devices for Characterization and Performance Analysis of Pixel-Based Sequencing", depositado em 16 de maio de 2019 (n° do documento do procurador ILLM 1011-1/IP-1750-PRV); pedido de patente provisório US n° 62/849.132, intitulado,"Base Calling Using Convolutions", depositado em 16 de maio de 2019 (n° do documento do procurador ILLM 1011-2/IP-1750-PR2); pedido de patente provisório US n° 62/849.133, intitulado, "Base Calling Using Compact Convolutions", depositado em 16 de maio de 2019 (n° do documento do procurador ILLM 1011-3/IP-1750-PR3); pedido de patente provisório US n° 62/979.384, intitulado, "Artificial Intelligence-Based Base Calling of Index Sequences", depositado em 20 de fevereiro de 2020 (n° do documento do procurador ILLM 1015-1/IP- 1857-PRV); pedido de patente provisório US n° 62/979.414, intitulado, "Artificial Intelligence-Based Many-To-Many Base Calling", depositado em 20 de fevereiro 2020 (n° do documento do procurador ILLM 1016-1/IP-1858-PRV); pedido de patente provisório US n° 62/979.385, intitulado, "Knowledge Distillation-Based Compression of Artificial Intelligence-Based Base Caller", depositado em 20 de fevereiro de 2020 (n° do documento do procurador ILLM 1017-1/IP-1859-PRV); pedido de patente provisório US n° 62/979.412, intitulado, "Multi- Cycle Cluster Based Real Time Analysis System", depositado em 20 de fevereiro de 2020 (n° do documento do procurador ILLM 1020-1/IP-1866- PRV); pedido de patente provisório US n° 62/979.411, intitulado, "Data Compression for Artificial Intelligence-Based Base Calling", depositado em 20 de fevereiro de 2020 (n° do documento do procurador ILLM 1029-1/IP-1964- PRV); pedido de patente provisório US n° 62/979.399, intitulado, "Squeezing Layer for Artificial Intelligence-Based Base Calling", depositado em 20 de fevereiro de 2020 (n° do documento do procurador ILLM 1030-1/IP-1982- PRV); Liu P, Hemani A, Paul K, Weis C, Jung M, Wehn N. 3D-Stacked Many-Core Architecture for Biological Sequence Analysis Problems.

Int J Parallel Prog. 2017; 45(6):1420–60; Z.

Wu, K.

Hammad, R.

Mittmann, S.

Magierowski, E.

Ghafar-Zadeh, e X.

Zhong, "FPGA-Based DNA Basecalling Hardware Acceleration", em Proc.

IEEE 61° Int.

Midwest Symp.

Circuits Syst., agosto de 2018, páginas 1098–1101; Z.

Wu, K.

Hammad, E.

Ghafar-Zadeh, e S.

Magierowski, "FPGA- Accelerated 3rd Generation DNA Sequencing", em IEEE Transactions on

Biomedical Circuits and Systems, volume 14, número 1, fevereiro de 2020, páginas 65–74; Prabhakar et al., "Plasticine: A Reconfigurable Architecture for Parallel Patterns", ISCA ’17, junho de 24-28, 2017, Toronto, ON, Canadá; M.

Lin, Q.

Chen, e S.

Yan, "Network in Network", em Proc. of ICLR, 2014; L.

Sifre, "Rigid-motion Scattering for Image Classification", tese de Ph.D., 2014; L.

Sifre e S.

Mallat, "Rotation, Scaling and Deformation Invariant Scattering for Texture Discrimination", em Proc. de CVPR, 2013; F.

Chollet, "Xception: Deep Learning with Depthwise Separable Convolutions", em Proc. of CVPR, 2017; X.

Zhang, X.

Zhou, M.

Lin, e J.

Sun, "ShuffleNet: An Extremely Efficient Convolutional neural Network for Mobile Devices", em arXiv:1707.01083, 2017; K.

He, X.

Zhang, S.

Ren, e J.

Sun, "Deep Residual Learning for Image Recognition", em Proc. of CVPR, 2016; S.

Xie, R.

Girshick, P.

Dollár, Z.

Tu, e K.

He, "Aggregated Residual Transformations for Deep neural Networks", em Proc. of CVPR, 2017; A.

G.

Howard, M.

Zhu, B.

Chen, D.

Kalenichenko, W.

Wang, T.

Weyand, M.

Andreetto, e H.

Adam, "Mobilenets: Efficient Convolutional neural Networks for Mobile Vision Applications", em arXiv:1704.04861, 2017; M.

Sandler, A.

Howard, M.

Zhu, A.

Zhmoginov, e L.

Chen, "MobileNetV2: Inverted Residuals and Linear Bottlenecks", em arXiv:1801.04381v3, 2018; Z.

Qin, Z.

Zhang, X.

Chen, e Y.

Peng, "FD-MobileNet: Improved MobileNet with a Fast Downsampling Strategy", em arXiv:1802.03750, 2018;

Liang-Chieh Chen, George Papandreou, Florian Schroff, e Hartwig Adam. Rethinking atrous convolution for semantic image segmentation. CoRR, abs/1706.05587, 2017; J. Huang, V. Rathod, C. Sun, M. Zhu, A. Korattikara, A. Fathi, I. Fischer, Z. Wojna, Y. Song, S. Guadarrama, et al. Speed/accuracy trade-offs for modern convolutional object detectors. arXiv preprint arXiv:1611.10012, 2016; S. Dieleman, H. Zen, K. Simonyan, O. Vinyals, A. Graves, N. Kalchbrenner, A. Senior, e K. Kavukcuoglu, "WAVENET: A GENERATIVE MODEL FOR RAW AUDIO", arXiv:1609.03499, 2016; S. Ö. Arik, M. Chrzanowski, A. Coates, G. Diamos, A. Gibiansky, Y. Kang, X. Li, J. Miller, A. Ng, J. Raiman, S. Sengupta e M. Shoeybi, "DEEP VOICE: REAL-TIME NEURAL TEXT-TO-SPEECH", arXiv:1702.07825, 2017; F. Yu e V. Koltun, "MULTI-SCALE CONTEXT AGGREGATION BY DILATED CONVOLUTIONS", arXiv:1511.07122, 2016; K. He, X. Zhang, S. Ren, e J. Sun, "DEEP RESIDUAL LEARNING FOR IMAGE RECOGNITION", arXiv:1512.03385, 2015; R.K. Srivastava, K. Greff, e J. Schmidhuber, "HIGHWAY NETWORKS", arXiv: 1505.00387, 2015; G. Huang, Z. Liu, L. van der Maaten e K. Q. Weinberger, "DENSELY CONNECTED CONVOLUTIONAL NETWORKS", arXiv:1608.06993, 2017; C. Szegedy, W. Liu, Y. Jia, P. Sermanet, S. Reed, D. Anguelov, D. Erhan, V. Vanhoucke, e A. Rabinovich, "GOING DEEPER WITH CONVOLUTIONS", arXiv: 1409.4842, 2014; S. Ioffe e C. Szegedy, "BATCH NORMALIZATION: ACCELERATING

DEEP NETWORK TRAINING BY REDUCING INTERNAL COVARIATE SHIFT", arXiv: 1502.03167, 2015; J. M. Wolterink, T. Leiner, M. A. Viergever, e I. Išgum, "DILATED

CONVOLUTIONAL NEURAL NETWORKS FOR CARDIOVASCULAR MR

SEGMENTATION IN CONGENITAL HEART DISEASE", arXiv:1704.03669, 2017; L.

C.

Piqueras, "AUTOREGRESSIVE MODEL BASED ON A DEEP CONVOLUTIONAL NEURAL NETWORK FOR AUDIO GENERATION", Tampere University of Technology, 2016; J.

Wu, "Introduction to Convolutional neural Networks", Nanjing University, 2017; "Illumina CMOS Chip and One-Channel SBS Chemistry", Illumina, Inc. 2018, 2 páginas; "skikit-image/peak.py at master", GitHub, 5 páginas, [recuperado em 2018-11-16]. Recuperado da Internet <URL: https://github.com/scikit- image/scikit-image/blob/master/skimage/feature/peak.py#L25>; "3.3.9.11. Watershed and random walker for segmentation", Scipy lecture notes, 2 páginas, [recuperado em 2018-11-13]. Recuperado da Internet <URL: http://scipy-lectures.org/packages/scikit- image/auto_examples/plot_segmentations.html>; Mordvintsev, Alexander e Revision, Abid K., "Image Segmentation with Watershed Algorithm", Revisão 43532856, 2013, 6 páginas [recuperado em 2018-11-13]. Recuperado da Internet <URL: https://opencv-python- tutroals.readthedocs.io/en/latest/py_tutorials/py_imgproc/py_watershed/py_w atershed.html>; Mzur, "Watershed.py", 25 October 2017, 3 páginas, [recuperado em 2018-11-13]. Recuperado da Internet <URL: https://github.com/mzur/watershed/blob/master/Watershed.py>; Thakur, Pratibha, et. al. "A Survey of Image Segmentation Techniques", International Journal of Research in Computer Applications and Robotics, volume 2, número 4, abril de 2014, páginas: 158-165; Long, Jonathan, et. al., "Fully Convolutional Networks for Semantic Segmentation", IEEE Transactions on Pattern Analysis and Machine Intelligence, volume 39, número 4, 1 abril de 2017, 10 páginas;

Ronneberger, Olaf, et. al., "U-net: Convolutional networks for biomedical image segmentation". In International Conference on Medical image computing and computer-assisted intervention, 18 de maio de 2015, 8 páginas; Xie, W., et. al., "Microscopy cell counting and detection with fully convolutional regression networks", Computer methods in biomechanics and biomedical engineering: Imaging & Visualization,6(3), páginas.283-292, 2018; Xie, Yuanpu, et al., "Beyond classification: structured regression for robust cell detection using convolutional neural network", International Conference on Medical Image Computing and Computer-Assisted Intervention. Outubro de 2015, 12 páginas; Snuverink, I. A. F., "Deep Learning for Pixelwise Classification of Hyperspectral Images", Master of Science Thesis, Delft University of Technology, 23 de novembro de 2017, 19 páginas; Shevchenko, A., "Keras weighted categorical_crossentropy", 1 página, [recuperado em 2019-01-15]. Recuperado da Internet <URL: https://gist.github.com/skeeet/cad06d584548fb45eece1d4e28cfa98b>; van den Assem, D.C.F., "Predicting periodic and chaotic signals using Wavenets", Master of Science Thesis, Delft University of Technology, 18 de agosto de 2017, páginas 3-38; I. J. Goodfellow, D. Warde-Farley, M. Mirza, A. Courville, e Y. Bengio, "CONVOLUTIONAL NETWORKS", Deep Learning, MIT Press, 2016; e J. Gu, Z. Wang, J. Kuen, L. Ma, A. Shahroudy, B. Shuai, T. Liu, X. Wang, e G. Wang, "RECENT ADVANCES IN CONVOLUTIONAL NEURAL NETWORKS", arXiv:1512.07108, 2017.

CAMPO DA TECNOLOGIA REVELADA

[0004] A tecnologia revelada se refere a computadores do tipo inteligência artificial e a sistemas de processamento de dados digitais e correspondentes métodos e produtos de processamento de dados para emulação de inteligência (isto é, sistemas baseados em conhecimento,

sistemas de raciocínio, e sistemas de aquisição de conhecimentos); e incluindo sistemas de raciocínio com incertezas (por exemplo, sistemas de lógica difusa), sistemas adaptativos, sistemas de aprendizado de máquina, e redes neurais artificiais. Em particular, a tecnologia revelada se refere ao uso de redes neurais profundas como redes neurais convolucionais profundas para a análise de dados.

ANTECEDENTES

[0005] Não se deve presumir que o assunto discutido nesta seção seja técnica anterior apenas como resultado de sua menção nesta seção. De modo similar, não se deve presumir que um problema mencionado nesta seção ou associado com o assunto fornecido como antecedente foi reconhecido anteriormente na técnica anterior. O assunto nesta seção meramente representa diferentes abordagens, que em si mesmas podem também corresponder às implantações da tecnologia reivindicada.

[0006] As redes neurais profundas são um tipo de redes neurais artificiais que usam múltiplas camadas de transformação não linear e complexa para sucessivamente modelar características de alto nível. As redes neurais profundas fornecem retroinformação através retropropagação que carrega a diferença entre saída observada e predita para ajustar os parâmetros. As redes neurais profundas evoluíram com a disponibilidade de grandes conjuntos de dados de treinamento, o poder de computação paralela e distribuída, e sofisticados algoritmos de treinamento. As redes neurais profundas facilitaram grandes avanços em inúmeros domínios como visão computacional, reconhecimento de fala e processamento de linguagem natural.

[0007] As redes neurais convolucional ("CNN" - convolutional neural networks) e a redes neurais recorrentes ("RNN" - recurrent neural networks) são componentes de redes neurais profundas. As redes neurais convolucionais têm sido usadas com sucesso particularmente no reconhecimento de imagem com uma arquitetura que compreende camadas de convolução, camadas não lineares, e camadas de pooling. As redes neurais recorrentes são projetadas para utilizar informações sequenciais de dados de entrada com conexões cíclicas entre os blocos de construção como perceptrons, unidades de memória de longo e curto prazo ("LSTM" - long short-term memory), e unidades recorrentes gated ("GRU" - gated recurrent units, unidades recorrentes com portas, ou fechadas ou bloqueadas). Além disso, muitas outras redes neurais profundas emergentes foram propostas para contextos limitados, como redes neurais espaço-temporais profundas, redes neurais recorrentes multidimensionais, e autocodificadores convolucionais.

[0008] O objetivo das redes neurais profundas de treinamento é a otimização dos parâmetros de peso em cada camada, que gradualmente combina características mais simples em características complexas de modo que as representações hierárquicas mais adequadas podem ser aprendidas dos dados. Um simples ciclo do processo de otimização é organizado como se segue. Em primeiro lugar, dado um conjunto de dados de treinamento, o passo para frente ("forward pass") computa sequencialmente a saída em cada camada e propaga os sinais de função para frente ("forward") através da rede. Na última camada de saída, uma função da perda de objetivo mede o erro entre as saídas inferidas e os rótulos determinados. Para minimizar o erro do treinamento, o passo para trás ("backward pass") usa a regra da cadeia para retropropagar os sinais de erro e computa os gradientes com relação a todos os pesos através da rede neural. Finalmente, os parâmetros de peso são atualizados com o uso de algoritmos de otimização com base na descida de gradiente estocástico. A descida do gradiente em lote ("batch gradient descent") realiza atualizações para cada conjunto de dados completos, enquanto que a descida de gradiente estocástico ("stochastic gradient descent") fornece aproximações estocásticas mediante a realização das atualizações para cada conjunto pequeno de exemplos de dados. Vários algoritmos de otimização resultam da descida de gradiente estocástico. Por exemplo, os algoritmos de treinamento Adagrad e Adam executam a descida de gradiente estocástico ao menos tempo que adaptativamente modificam as taxas de aprendizado com base nos momentos e frequência atualizados dos gradientes para cada parâmetro, respectivamente.

[0009] Outro elemento central no treinamento de redes neurais profundas é regularização, que se refere a estratégias destinadas a evitar sobreajustamento e deste modo obter bom desempenho de generalização. Por exemplo, o decaimento de peso adiciona um termo de penalidade à função de perda de modo que os parâmetros de peso convergem para valores absolutos menores. O abandono aleatoriamente remove unidades ocultas das redes neuras durante o treinamento e pode ser considerado um conjunto de sub-redes possíveis. Para aumentar a capacidade de abandono escolar, uma nova função de ativação, maxout, e uma variante de abandono para redes neurais recorrentes chamadas rmnDrop ("recurrent neural network"), foram propostas. Além disso, a normalização em lote fornece um novo método de normalização através de normalização das características escalares para cada ativação em um mini-lote e aprendizado de cada meio e variância como parâmetros.

[0010] Uma vez que os dados sequenciados são multidimensionais e de alta dimensão, as redes neurais profundas contêm uma grande promessa para a investigação em bioinformática devido a sua ampla aplicabilidade e maior poder de predição. As redes neurais convolucionais foram adaptadas para resolver problemas com base na sequência genômica como descoberta de motivo, identificação de variante patogênica, e inferência de expressão gênica. As redes neurais convolucionais usam uma estratégia de compartilhamento de peso que é especialmente usada estudar o DNA uma vez ela pode capturar motivos de sequência, que são padrões locais curtos, recorrente em DNA que se presume terem funções biológicas significativas. Uma característica distinta das redes neurais convolucionais é o uso de filtros de convolução.

[0011] Diferentemente das abordagens de classificação tradicionais que são baseadas em características elaboradamente projetadas e manualmente criadas, os filtros de convolução realizam aprendizagem adaptativa de características análogas a um processo de mapeamento de dados de entrada brutos para a representação informativa de conhecimento. Neste sentido, os filtros de convolução servem como uma série de scanners de motivo, uma vez que um conjunto de tais filtros é capaz de reconhecer padrões relevantes na entrada e ser atualizado durante o processo de treinamento. Redes neurais recorrentes podem capturar dependências de longo alcance em dados sequenciais de comprimentos variados, como sequências de proteína ou DNA.

[0012] Portanto, surge uma oportunidade de se usar um framework baseado em aprendizado profundo com princípios para geração de gabarito e chamada de base.

[0013] Na era da tecnologia de alto desempenho, que reúne o rendimento mais alto de dados interpretáveis ao custo mais baixo por esforço permanece um desafio significativo. Os métodos baseados em agrupamento de sequenciamento de ácidos nucleico, como os que usam amplificação em ponte para a formação de agrupamentos, têm contribuído muito para aumentar a velocidade de sequenciamento de ácidos nucleico. Esses métodos baseados em agrupamento dependem de sequenciamento de uma densa população de ácidos nucleicos imobilizados em um suporte sólido, e tipicamente envolvem o uso de software de análise de imagens para desconvolucionar sinais ópticos gerados no curso do sequenciamento simultâneo de múltiplos agrupamentos situados em locais distintos em um suporte sólido.

[0014] Entretanto, essas tecnologias de sequenciamento baseadas em agrupamentos de ácido nucleico de fase sólida ainda enfrentam consideráveis obstáculos que limitam a quantidade de rendimento que pode ser obtida. Por exemplo, em métodos de sequenciamento baseados em agrupamento, a determinação das sequências de ácidos nucleicos de dois ou mais agrupamentos que estão fisicamente muitos próximos um do outro para serem resolvidos espacialmente, ou que de fato se sobrepõem fisicamente no suporte sólido, pode constituir um obstáculo. Por exemplo, um software de análise de imagem atual pode exigir um tempo considerável e recursos computacionais para determinar de qual dos dois agrupamentos sobrepostos foi emanado um sinal óptico. Como consequência, os compromissos são inevitáveis para uma variedade de plataformas de detecção em relação à quantidade e/ou qualidade das informações de sequência de ácido nucleico que podem ser obtidas.

[0015] Os métodos genômicos baseados em agrupamentos de ácido nucleico de alta densidade se estendem também para outras áreas da análise genômica. Por exemplo, a genômica baseada em agrupamentos de ácido nucleico pode ser usada em aplicações de sequenciamento, diagnóstico e triagem, análise de expressão gênica, análise epigenética, análise genética de polimorfismos e similares. Cada uma dessas tecnologias genômicas baseadas em ácidos nucleicos, também, é limitada quando há uma inabilidade de resolução de dados gerados de agrupamentos de ácido nucleico muito próximos ou que se sobrepõem espacialmente.

[0016] Existe claramente uma necessidade de aumentar a qualidade e a quantidade de dados de sequenciamento de ácido nucleico que podem ser obtidos rapidamente e a um custo mais baixo para uma ampla variedade de usos, incluindo para a genômica (por exemplo, para caracterização genômica de todas e quaisquer espécies animal, vegetal, microbiana ou outras espécies biológicas ou populações), farmacogenômica, transcriptômica, diagnóstico, prognóstico, avaliação de risco biomédico, genética clínica e pesquisa, medicina personalizada, avaliação da eficácia de medicamentos e das interações medicamentosas, medicina veterinária, agricultura, estudos de evolução e biodiversidade,

aquacultura, silvicultura, oceanografia, gestão ecológica e ambiental, e outros propósitos.

[0017] A tecnologia revelada fornece métodos e sistemas baseados em rede neural que tratam dessas necessidades e similares, incluindo o aumento do nível de performance em tecnologias de sequenciamento de ácido nucleico de alto rendimento, e oferece outras vantagens relacionadas.

BREVE DESCRIÇÃO DOS DESENHOS

[0018] A patente ou o arquivo de pedido de patente contém ao menos um desenho executado em cor. Cópias desta patente ou da publicação do pedido de patente com desenho coloridos serão fornecidas pelo escritório de patente mediante solicitação e pagamento da taxa necessária. Os desenhos em cor podem também estar disponíveis no PAIR através de uma aba de conteúdo suplementar.

[0019] Nos desenhos, os caracteres de referência similares geralmente se referem a partes similares em todas as diferentes vistas. Além disso, os desenhos não estão necessariamente em escala e em vez disto ênfase é colocada para ilustrar os princípios da tecnologia revelada. Na descrição a seguir, várias implementações da tecnologia revelada são descritas com referência aos desenhos a seguir, nos quais:

[0020] A Figura 1 mostra estágios de processamento usados pelo chamador de base RTA para a realizar chamada de base, de acordo com uma implementação.

[0021] A Figura 2 ilustra uma implementação de chamada de base usando o chamador de base baseado em rede neural revelado.

[0022] A Figura 3 é uma implementação de transformar, de domínio de subpixel para domínio de pixel, informações de localização/posição de centros de agrupamento identificadas a partir da saída do gerador de gabarito baseado em rede neural.

[0023] A Figura 4 é uma implementação do uso de transformações específicas de ciclo e específicas de canal de imagem para derivar os assim chamados "centros de agrupamento transformados" a partir dos centros de agrupamento de referência.

[0024] A Figura 5 ilustra um fragmento de imagem que faz parte dos dados de entrada fornecidos ao chamador de base baseado em rede neural.

[0025] A Figura 6 retrata uma implementação de determinação de valores de distância para um canal de distância quando um único agrupamento alvo estiver recebendo chamada de base pelo chamador de base baseado em rede neural.

[0026] A Figura 7 mostra uma implementação de codificação em pixel dos valores de distância calculados entre os pixels e o agrupamento alvo.

[0027] A Figura 8a retrata uma implementação de determinar valores de distância para um canal de distância quando múltiplos agrupamentos alvo estão recebendo simultaneamente chamadas de base pelo chamador de base baseado em rede neural.

[0028] A Figura 8b mostra, para cada um dos agrupamentos alvo, alguns pixels mais próximos determinados com base nas distâncias de centro de pixel para centro de agrupamento mais próximo.

[0029] A Figura 9 mostra uma implementação de codificação em pixel dos valores mínimos de distância que são calculados entre os pixels e o mais próximo dos agrupamentos.

[0030] A Figura 10 ilustra uma implementação com o uso de classificação/atribuição/categorização de pixel para agrupamento, referido na presente invenção como "dados de formato de agrupamento".

[0031] A Figura 11 mostra uma implementação de cálculo dos valores de distância com o uso dos dados de formato de agrupamento.

[0032] A Figura 12 mostra uma implementação de codificação em pixel dos valores de distância que são calculados entre os pixels e os agrupamentos atribuídos.

[0033] A Figura 13 ilustra uma implementação da arquitetura especializada do chamador de base baseado em rede neural que é usada para segregar o processamento de dados para diferentes ciclos de sequenciamento.

[0034] A Figura 14 retrata uma implementação de convoluções segregadas.

[0035] A Figura 15a retrata uma implementação de convoluções combinatórias.

[0036] A Figura 15b retrata outra implementação das convoluções combinatórias.

[0037] A Figura 16 mostra uma implementação das camadas de convolução do chamador de base baseado em rede neural em que cada camada de convolução tem um banco de filtros de convolução.

[0038] A Figura 17 retrata duas configurações do canal de redimensionamento que suplementa os canais de imagem.

[0039] A Figura 18a ilustra uma implementação de dados de entrada para um único ciclo de sequenciamento que produz uma imagem vermelha e uma imagem verde.

[0040] A Figura 18b ilustra uma implementação dos canais de distância suprindo tendência aditiva que é incorporada nos mapas de recurso gerados a partir dos canais de imagem.

[0041] As Figuras 19a, 19b e 19c retratam uma implementação de chamada de base em um único agrupamento alvo.

[0042] A Figura 20 mostra uma implementação de chamada de base simultânea em múltiplos agrupamentos alvo.

[0043] A Figura 21 mostra uma implementação de chamada de base simultânea em múltiplos agrupamentos alvo em uma pluralidade de ciclos sucessivos de sequenciamento, produzindo simultaneamente assim uma sequência de chamada de base para cada um dos múltiplos agrupamentos alvo.

[0044] A Figura 22 ilustra o diagrama de dimensionalidade para a implementação de chamada de base do único agrupamento.

[0045] A Figura 23 ilustra o diagrama de dimensionalidade para a implementação de chamada de base de único ciclo de sequenciamento e múltiplos agrupamentos.

[0046] A Figura 24 ilustra o diagrama de dimensionalidade para a implementação de chamada de base de múltiplos ciclos de sequenciamento e múltiplos agrupamentos.

[0047] A Figura 25a retrata uma configuração de entrada em matriz exemplificadora dos dados de entrada de múltiplos ciclos.

[0048] A Figura 25b mostra uma configuração de entrada empilhada exemplificadora dos dados de entrada de múltiplos ciclos.

[0049] A Figura 26a retrata uma implementação de novo enquadramento dos pixels de um fragmento de imagem para centralizar a um centro de um agrupamento alvo que recebem chamadas de base em um pixel central.

[0050] A Figura 26b retrata outro fragmento exemplificativo de imagem enquadrado novamente/deslocado no qual (i) o centro do pixel central coincide com o centro do agrupamento-alvo e (ii) os pixels não centrais são equidistantes a partir do centro do agrupamento-alvo.

[0051] A Figura 27 representa uma implementação da chamada de base a um único agrupamento-alvo em um ciclo de sequenciamento atual usando uma rede neural convolucional e a entrada enquadrada novamente.

[0052] A Figura 28 mostra uma implementação de chamada de base em múltiplos agrupamentos alvos no ciclo de sequenciamento atual usando a rede neural de convolução padrão e a entrada alinhada.

[0053] A Figura 29 mostra uma implementação de chamada de base em múltiplos agrupamentos alvo em uma pluralidade de ciclos de sequenciamento usando a rede neural de convolução padrão e a entrada alinhada.

[0054] A Figura 30 mostra uma implementação de treinamento do chamador de base baseado em rede neural.

[0055] A Figura 31a retrata uma implementação de uma rede neural híbrida que é usada como o chamador de base baseado em rede neural.

[0056] A Figura 31b mostra uma implementação de convoluções 3D usadas pelo módulo recorrente da rede neural híbrida para produzir as representações de estado oculto atual.

[0057] A Figura 32 ilustra uma implementação de processamento, através de uma cascata de camadas de convolução do módulo de convolução, dados de entrada por ciclo para um único ciclo de sequenciamento entre a série de t ciclos de sequenciamento a receberem chamada de base.

[0058] A Figura 33 retrata uma implementação da mistura dos dados de entrada por ciclo do ciclo de sequenciamento único com suas representações convoluídas correspondentes produzidas pela cascata de camadas de convolução do módulo de convolução.

[0059] A Figura 34 mostra uma implementação de dispor representações mistas achatadas de ciclos de sequenciamento sucessivos como uma pilha.

[0060] A Figura 35a ilustra uma implementação de submeter a pilha da Figura 34 para aplicação recorrente de convoluções 3D em direções para frente e para trás e produzir chamadas de base para cada um dos agrupamentos em cada um dos ciclos de sequenciamento t na série.

[0061] A Figura 35b mostra uma implementação de processamento de um volume de entrada 3D x(t), que compreende grupos de representações mistas achatadas, através de uma porta de entrada, uma porta de ativação, uma porta de esquecimento e uma porta de saída de uma rede de longa memória de curto prazo (LSTM) que aplica as convoluções 3D. A rede LSTM é parte do módulo recorrente da rede neural híbrida.

[0062] A Figura 36 mostra uma implementação de trinucleotídeos de equilíbrio (3 mers) nos dados de treinamento usados para treinar o chamador de base baseado em rede neural.

[0063] A Figura 37 compara a precisão de chamada de base do chamador de base RTA contra o chamador de base baseado em rede neural.

[0064] A Figura 38 compara a generalização de ladrilho para ladrilho do chamador de base RTA com a do chamador de base baseado em rede neural em um mesmo ladrilho.

[0065] A Figura 39 compara a generalização de ladrilho para ladrilho do chamador de base RTA com a do chamador de base baseado em rede neural em um mesmo ladrilho e em diferentes ladrilhos.

[0066] A Figura 40 também compara a generalização de ladrilho para ladrilho do chamador de base RTA com a do chamador de base baseado em rede neural em diferentes ladrilhos.

[0067] A Figura 41 mostra como diferentes tamanhos dos fragmentos de imagem fornecidos como entrada para o chamador de base baseado em rede neural afeta a precisão de chamada de base.

[0068] As Figuras 42, 43, 44 e 45 mostram generalização de canaleta para canaleta do chamador de base baseado em rede neural nos dados de treinamento de A.baumanni e E.coli.

[0069] A Figura 46 retrata um perfil de erro para a generalização de canaleta para canaleta discutida acima em relação às Figuras 42, 43, 44 e 45.

[0070] A Figura 47 atribui a fonte do erro detectado pelo erro da Figura 46 para reduzir a intensidade de agrupamento no canal verde.

[0071] A Figura 48 compara os perfis de erro do chamador de base de RTA e do chamador de base baseado em rede neural para duas rodadas de sequenciamento (Leitura 1 e Leitura 2).

[0072] A Figura 49a mostra generalização de rodada para rodada do chamador de base baseado em rede neural em quatro diferentes instrumentos.

[0073] A Figura 49b mostra generalização de rodada para rodada do chamador de base baseado em rede neural em quatro diferentes rodadas executadas em um mesmo instrumento.

[0074] A Figura 50 mostra as estatísticas de genoma dos dados de treinamento usados para treinar o chamador de base baseado em rede neural.

[0075] A Figura 51 mostra o contexto de genoma dos dados de treinamento usados para treinar o chamador de base baseado em rede neural.

[0076] A Figura 52 mostra a precisão de chamada de base do chamador de base baseado em rede neural nas leituras longas de chamada de base (por exemplo, 2 x 250).

[0077] A Figura 53 ilustra uma implementação de como o chamador de base baseado em rede neural atende ao pixel (ou pixels) de agrupamento central e seus pixels vizinhos ao longo de fragmentos de imagem.

[0078] A Figura 54 mostra vários componentes e configurações de hardware usados para treinar e executar o chamador de base baseado em rede neural, de acordo com uma implementação. Em outras implementações, diferentes componentes de hardware e configurações são usados.

[0079] A Figura 55 mostra várias tarefas de sequenciamento que podem ser realizadas com o uso do chamador de base baseado em rede neural.

[0080] A Figura 56 é uma plotagem de dispersão visualizada pela Incorporação Estocástica de Vizinhos t-Distribuída ("t-SNE" - t-Distributed Stochastic Neighbor Embedding) e retrata os resultados de chamada de base do chamador de base baseado em rede neural.

[0081] A Figura 57 ilustra uma implementação de selecionar as probabilidades de confiança de chamada de base feitas pelo chamador de base baseado em rede neural para pontuação de qualidade.

[0082] A Figura 58 mostra uma implementação da pontuação de qualidade baseada em rede neural.

[0083] As Figuras 59a e 59b retratam uma implementação de correspondência entre as pontuações de qualidade e as previsões de confiança de chamada de base feitas pelo chamador de base baseado em rede neural.

[0084] A Figura 60 mostra uma implementação de inferir pontuações de qualidade a partir de previsões de confiança de chamada de base feitas pelo chamador de base baseado em rede neural durante a inferência.

[0085] A Figura 61 mostra uma implementação de treinar o pontuador de qualidade baseado em rede neural para processar dados de entrada derivados das imagens de sequenciamento e produzir diretamente indicações de qualidade.

[0086] A Figura 62 mostra uma implementação de produzir diretamente indicações de qualidade como saídas do pontuador de qualidade baseado em rede neural durante a inferência.

[0087] As Figuras 63A e 63B representam uma implementação de um sistema de sequenciamento. O sistema de sequenciamento compreende um processador configurável.

[0088] A Figura 63C é um diagrama de blocos simplificado de um sistema de análise de dados de sensor a partir do sistema de sequenciamento, tais como saídas do sensor de chamada de base.

[0089] A Figura 64A é um diagrama simplificado mostrando aspectos da operação de chamada de base, incluindo funções de um programa em tempo de execução executado por um processador hospedeiro.

[0090] A Figura 64B é um diagrama simplificado de uma configuração de um processador configurável como o retratado na Figura 63C.

[0091] A Figura 65 é um sistema de computador que pode ser usado pelo sistema de sequenciamento da Figura 63A para implementar a tecnologia aqui revelada.

[0092] A Figura 66 mostra implementações diferentes de pré- processamento de dados, que pode incluir normalização de dados e de aumento de dados.

[0093] A Figura 67 mostra que a técnica de normalização de dados (DeepRTA (normalização)) e a técnica de aumento de dados (DeepRTA (aumento)) da Figura 66 reduzem a porcentagem de erro de chamada de base quando o chamador de base baseado em rede neural é treinado com dados bacterianos e testado em dados humanos, em que os dados bacterianos e os dados de seres humanos compartilham o mesmo ensaio (por exemplo, ambos contêm dados intrônicos).

[0094] A Figura 68 mostra que a técnica de normalização de dados (DeepRTA (normalização)) e a técnica de aumento de dados (DeepRTA (aumento)) da Figura 66 reduzem a porcentagem de erro de chamada de base de chamador de base baseado em rede neural é treinado em dados não exônicos (por exemplo, dados intrônicos) e testadas em dados exônicos.

DESCRIÇÃO DETALHADA

[0095] A discussão a seguir é apresentada para permitir que a tecnologia revelada seja produzida e usada por qualquer versado na técnica, e é fornecida no contexto de uma aplicação específica e suas exigências. Diversas modificações às implementações reveladas ficarão prontamente evidentes aos versados na técnica, e os princípios gerais definidos na presente invenção podem ser aplicados a outras implementações e aplicações sem se afastar do espírito e escopo da tecnologia revelada. Dessa forma, a tecnologia revelada não se destina a ser limitado às implementações mostradas, mas é a que foi concedida o escopo mais amplo consistente com os princípios e características reveladas na presente invenção. Introdução

[0096] Quando as bases são classificadas em sequências de imagens digitais, a rede neural processa múltiplos canais de imagem em um ciclo atual juntamente com canais de imagem de ciclos passados e futuros. Em um agrupamento, alguns dos cordões podem se adiantar ou ficar atrás do curso principal de síntese, cuja rotulação fora de fase é conhecida como pré-faseamento ou faseamento. Dada as baixas taxas de pré-faseamento e pós-faseamento observadas empiricamente, quase todo o ruído no sinal resultante de pré-faseamento e pós-faseamento pode ser administrado por uma rede neural que processa imagens digitais em ciclos atuais, passados e futuros, em apenas três ciclos.

[0097] Entre os canais de imagem digital no ciclo atual, um registo cuidadoso para alinhar as imagens dentro de um ciclo contribui fortemente para a classificação precisa de base. Uma combinação de comprimentos de onda e fontes de iluminação não coincidentes, entre outras fontes de erro, produz uma pequena diferença corrigível em localizações medidas de centro de agrupamento. Uma transformação afim geral, com translação, rotação e escalonamento, pode ser usada para trazer os centros de agrupamento ao longo de um ladrilho de imagem em alinhamento preciso. Uma transformação afim pode ser usada para enquadrar novamente os dados de imagem e para resolver as compensações para centros de agrupamento.

[0098] Enquadrar dados de imagem novamente significa interpolação dos dados de imagem, tipicamente mediante a aplicação de uma transformação afim. O novo enquadramento pode colocar um centro de agrupamento de interesse no meio do pixel central de um fragmento de pixel. Ou, ele pode alinhar uma imagem com um gabarito, para superar a tremulação e outras discrepâncias durante a coleta de imagens. O novo enquadramento envolve o ajuste de valores de intensidade de todos os pixels no fragmento de pixel. A interpolação bilinear e bicúbica e os ajustes de área ponderada são estratégias alternativas.

[0099] Em algumas implementações, as coordenadas do centro de agrupamento podem ser fornecidas a uma rede neural como um canal de imagem adicional.

[00100] Sinais de distância podem também contribuir para uma classificação de base. Vários tipos de sinais distância refletem a separação de regiões de centros de agrupamento. O sinal óptico mais forte é considerado coincidir com o centro do agrupamento. O sinal óptico ao longo do perímetro de agrupamento às vezes inclui um sinal de dispersão de um agrupamento próximo. A classificação foi observada ser mais precisa quando a contribuição de sinal de componente é atenuada de acordo com sua separação do centro do agrupamento. Os sinais de distância que funcionam incluem um canal de distância de único agrupamento, um canal de distância de múltiplos agrupamentos e um canal de distância à base de formato de múltiplos agrupamentos. Um canal de distância de único agrupamento se aplica a um fragmento com um centro de agrupamento no pixel central. Então, a distância de todas as regiões no fragmento é uma distância do centro de agrupamento no pixel central. Os pixels que não pertencem ao mesmo agrupamento que o pixel central podem ser marcados como plano de fundo, em vez de ser dado uma distância calculada. Um canal de distância de múltiplos agrupamentos pré-calcula a distância de cada região para o centro de agrupamento mais próximo. Isso tem o potencial de conectar uma região ao centro de agrupamento errado, mas esse potencial é baixo. Um canal de distância à base de formato de múltiplos agrupamentos associa regiões (subpixels ou pixels) através de regiões contíguas a um centro de pixel que produz uma classificação de mesma base. Com algum custo computacional, isso evita a possibilidade de medir uma distância até o pixel errado. As abordagens com base em múltiplos agrupamentos e formato de múltiplos agrupamentos para sinais de distância têm a vantagem de serem submetidas a pré-cálculo e uso com múltiplos agrupamentos em uma imagem.

[00101] As informações de formato podem ser usadas por uma rede neural para separar sinal do ruído, para otimizar a razão sinal/ruído. Na discussão acima, várias abordagens para uma classificação de região e para fornecer informações de canal de distância foram identificadas. Em qualquer uma das abordagens, regiões podem ser marcadas como plano de fundo, como não sendo parte de um pequeno agrupamento, para definir bordas de agrupamento. Uma rede neural pode ser treinada para tirar vantagem das informações resultantes sobre formatos irregulares de agrupamento. As informações de distância e a classificação de plano de fundo podem ser combinadas ou usadas separadamente. Separar sinais de agrupamentos contíguos será cada vez mais importante à medida que a densidade de agrupamento aumenta.

[00102] Uma direção para aumentar a escala do processamento em paralelo é aumentar a densidade de agrupamento no meio imageado. A densidade crescente tem a desvantagem de aumentar o ruído de plano de fundo durante a leitura de um agrupamento que tem um vizinho adjacente. Usar dados de formato, em vez de um fragmento arbitrário (por exemplo, de pixels 3 x 3), por exemplo, ajuda a manter a separação de sinal à medida que a densidade de agrupamento aumenta.

[00103] Aplicando um aspecto da tecnologia revelada, as pontuações de classificação de base podem também ser aproveitadas para predizer a qualidade. A tecnologia revelada inclui correlacionar pontuações de classificação, diretamente ou através de um modelo de predição, com pontuações de qualidade Q tradicionais de Sanger ou Phred. As pontuações como Q20, Q30 ou Q40 são relacionadas de modo logarítmico com probabilidades de erro de classificação de base, by Q = -10 log10 P. A correlação de pontuações de classe com pontuações Q pode ser realizada com o uso de uma rede neural de múltiplas saídas ou análise de regressão de múltiplos variados. Uma vantagem de cálculo em tempo real de pontuações de qualidade, durante a classificação de base, é que uma rodada de sequenciamento com falha pode ser terminada cedo. O requerente constatou que as (raras) decisões ocasionais para interromper as rodadas podem ser feitas de um oitavo a um quarto do caminho através da sequência de análise. Uma decisão de interromper pode ser feita após 50 ciclos ou após 25 a 75 ciclos. Em um processo sequencial que executaria de outro modo 300 a 1.000 ciclos, uma interrupção antecipada resulta em economia substancial de recursos.

[00104] Arquiteturas de rede neural convolucional especializada (CNN) podem ser usadas para classificar as bases ao longo de múltiplos ciclos. Uma especialização envolve a segregação entre canais de imagem digital durante as camadas iniciais de processamento. Pilhas de filtros de convolução podem ser estruturadas para segregar processamento entre ciclos, evitando a diafonia entre conjuntos de imagens digitais a partir de diferentes ciclos. A motivação para segregar processamento entre ciclos é que as imagens tomadas em diferentes ciclos têm erro de registro residual e são, portanto, desalinhadas e têm desvios translacionais aleatórios em relação uma à outra. Isso ocorre devido à precisão finita dos movimentos do estágio de movimento do sensor e também devido ao fato de que as imagens tomadas em diferentes canais de frequência têm diferentes trajetórias ópticas e comprimentos de onda.

[00105] A motivação para o uso de conjuntos de ciclos sucessivos é que a contribuição de pré-faseamento e pós-faseamento aos sinais em um ciclo em particular é uma contribuição de segunda ordem. Disso decorre que pode ser útil para a rede neural convolucional segregar estruturalmente a convolução de camada inferior dos conjuntos de imagem digital entre os ciclos de coleta de imagens.

[00106] A estrutura de rede neural convolucional pode também ser especializada em administrar informações sobre o agrupamento. Gabaritos para centros e/ou formatos de agrupamento fornecem informações adicionais, que a rede neural convolucional combina com os dados de imagem digital. Os dados de classificação e de distância de centro de agrupamento podem ser aplicados repetidamente ao longo de ciclos.

[00107] A rede neural convolucional pode ser estruturada para classificar múltiplos agrupamentos em um campo de imagem. Quando múltiplos agrupamentos são classificados, o canal de distância para um pixel ou subpixel pode conter de modo mais compacto as informações de distância com relação ao centro de agrupamento mais próximo ou ao centro de agrupamento contíguo, ao qual um pixel ou subpixel pertence. Alternativamente, um grande vetor de distância poderia ser fornecido para cada pixel ou subpixel, ou pelo menos para cada um que contenha um centro de agrupamento, o que dá informações de distância completa de um centro de agrupamento a todos os outros pixels que são contexto para o dado pixel.

[00108] Algumas combinações de geração de gabarito com chamada de base podem usar variações sobre a ponderação de área para suplantar um canal de distância. A discussão agora se volta para como a saída do gerador de gabarito pode ser usada diretamente, em vez de um canal de distância.

[00109] Discute-se três considerações que impactam a aplicação direta de imagens de gabarito para modificação de valor de pixel: a possibilidade de os conjuntos de imagens serem processados no domínio de pixel ou subpixel; em qualquer um dos domínios, como pesos de área são calculados; e no domínio de subpixel, aplicar uma imagem de gabarito como máscara para modificar os valores de intensidade interpolados.

[00110] Realizar classificação de base no domínio de pixel tem a vantagem de não exigir um aumento nos cálculos, como 16 vezes, o que resulta da upsampling. No domínio de pixel, mesmo a camada superior de convoluções pode ter densidade de agrupamento suficiente para justificar a realização de cálculos de que não seriam coletados, em vez da adição de lógica para cancelar os cálculos desnecessários. Começamos com exemplos no domínio de pixel diretamente com o uso dos dados de imagem de gabarito sem um canal de distância.

[00111] Em algumas implementações, a classificação se concentra em um agrupamento específico. Nesses casos, os pixels no perímetro de um agrupamento podem ter diferentes valores de intensidade modificada, dependendo de qual agrupamento contíguo é o foco de classificação. A imagem de gabarito no domínio de subpixel pode indicar que um valor de intensidade de pixel de sobreposição contribui para dois diferentes agrupamentos. É feita referência a um pixel óptico como um "pixel de sobreposição" quando dois ou mais agrupamentos adjacentes ou contíguos sobrepõem, ambos, o pixel; ambos contribuem para a leitura de intensidade de pixel óptica. Análise do tipo watershed, nomeada a partir da separação de fluxos de chuva em diferentes bacias hidrográficas em uma linha de crista, pode ser aplicada para separar mesmo agrupamentos contíguos. Quando os dados são recebidos para classificação em uma base de agrupamento por agrupamento, a imagem de gabarito pode ser usada para modificar dados de intensidade para pixels de sobreposição ao longo do perímetro de agrupamentos. Os pixels de sobreposição podem ter diferentes intensidades modificadas, dependendo de qual agrupamento é o foco de classificação.

[00112] A intensidade de um pixel modificado pode ser reduzida com base na contribuição de subpixel no pixel de sobreposição para um agrupamento inicial (isto é, o agrupamento ao qual o pixel pertence ou o agrupamento cujas emissões de intensidade o pixel retrata principalmente), ao contrário de um agrupamento afastado (isto é, o agrupamento não inicial cujas emissões de intensidade o pixel retrata). Suponha-se que 5 subpixels fazem parte do agrupamento de inicial e 2 fazem parte do agrupamento afastado. Então, 7 subpixels contribuem para a intensidade do agrupamento inicial ou afastado. Durante o foco no agrupamento inicial, em uma implementação o pixel de sobreposição tem a intensidade reduzida em 7/16, devido ao fato de que 7 dos 16 subpixels contribuem para a intensidade do agrupamento inicial ou afastado. Em outra implementação, intensidade é reduzida em 5/16, com base na área de subpixels que contribuem para o agrupamento inicial dividido pelo número total de subpixels. Em uma terceira implementação, a intensidade é reduzida em 5/7, com base na área de subpixels que contribuem para o agrupamento inicial dividida pela área total dos subpixels contribuintes. Os dois últimos cálculos mudam quando o foco se volta para o agrupamento afastado, produzindo frações com "2" no numerador.

[00113] Naturalmente, a redução adicional na intensidade pode ser aplicada se um canal de distância estiver sendo considerado juntamente com um mapa de subpixel de formatos de agrupamento.

[00114] Uma vez que as intensidades de pixel para um agrupamento que é o foco da classificação foram modificadas com o uso da imagem de gabarito, os valores de pixel modificados são convoluídos através de camadas de um classificador baseado em rede neural para produzir imagens modificadas. As imagens modificadas são usadas para classificar bases em ciclos de sequenciamento sucessivos.

[00115] Alternativamente, a classificação no domínio de pixel pode prosseguir em paralelo para todos os pixels ou todos os agrupamentos em um pedaço de uma imagem. Apenas uma modificação de um valor de pixel pode ser aplicada nesse cenário para assegurar a reutilização de cálculos intermediários. Qualquer uma das frações fornecidas acima podem ser usadas para modificar a intensidade de pixel, dependendo de se uma atenuação menor ou maior da intensidade é desejada.

[00116] Uma vez que as intensidades de pixel para o pedaço de imagem foram modificadas com o uso da imagem de gabarito, pixels e contexto circundante podem ser convoluídos através de camadas de um classificador baseado em rede neural para produzir imagens modificadas. Realizar convoluções em um pedaço de imagem permite a reutilização de cálculos intermediários entre os pixels que têm contexto compartilhado. As imagens modificadas são usadas para classificar bases em ciclos de sequenciamento sucessivos.

[00117] Esta descrição pode ser usada de forma similar para aplicação de pesos de área no domínio de subpixel. A forma similar é que pesos podem ser calculados para subpixels individuais. Os pesos podem, mas não precisam, ser iguais para diferentes partes de subpixel de um pixel óptico. A repetição do cenário acima de agrupamentos iniciais e afastados, com 5 e 2 subpixels do pixel de sobreposição, respectivamente, a atribuição de intensidade para um subpixel pertencente ao agrupamento inicial pode ser 7/16, 5/16 ou 5/7 da intensidade de pixel. Novamente, uma redução adicional na intensidade pode ser aplicada se um canal de distância estiver sendo considerado juntamente com um mapa de subpixel de formatos de agrupamento.

[00118] Uma vez que as intensidades de pixel para o pedaço de imagem foram modificadas com o uso da imagem de gabarito, subpixels e contexto circundante podem ser convoluídos através de camadas de um classificador baseado em rede neural para produzir imagens modificadas.

Realizar convoluções em um pedaço de imagem permite a reutilização de cálculos intermediários entre subpixels que têm contexto compartilhado. As imagens modificadas são usadas para classificar bases em ciclos de sequenciamento sucessivos.

[00119] Outra alternativa é aplicar a imagem de gabarito como uma máscara binária, no domínio de subpixel, a dados de imagem interpolados para dentro do domínio de subpixel. A imagem de gabarito pode ser disposta para exigir um pixel de plano de fundo entre agrupamentos ou para permitir que subpixels a partir de diferentes agrupamentos estejam em contiguidade. A imagem de gabarito pode ser aplicada como uma máscara. A máscara determina se um pixel interpolado mantém o valor atribuído por interpolação ou recebe um valor de plano de fundo (por exemplo, zero) se o mesmo for classificado na imagem de gabarito como plano de fundo.

[00120] Novamente, uma vez que as intensidades de pixel para o pedaço de imagem foram mascaradas com o uso da imagem de gabarito, subpixels e contexto circundante podem ser convoluídos através de camadas de um classificador baseado em rede neural para produzir imagens modificadas. Realizar convoluções em um pedaço de imagem permite a reutilização de cálculos intermediários entre subpixels que têm contexto compartilhado. As imagens modificadas são usadas para classificar bases em ciclos de sequenciamento sucessivos.

[00121] Recursos da tecnologia revelada são combináveis para classificar um número arbitrário de agrupamentos dentro de um contexto compartilhado, reutilizando cálculos intermediários. Na resolução óptica de pixel, em uma implementação, cerca de dez por cento de pixels contêm centros de agrupamento para serem classificados. Em sistemas herdados, pixels ópticos três por três foram agrupados para análise como potenciais contribuintes para um centro de agrupamento, visto a observação de agrupamentos com formato irregular. Mesmo um filtro 3 por 3 na direção oposta à camada de convolução de topo, densidades de agrupamento são propensas a enrolar em pixels em sinais ópticos de centros de agrupamento a partir de substancialmente mais da metade dos pixels ópticos. Apenas em uma resolução superamostrada faz a densidade de centro de agrupamento para a camada de convolução de topo cair abaixo de um por cento.

[00122] O contexto compartilhado é substancial em algumas implementações. Por exemplo, o contexto de pixel óptico de 15 por 15 pode contribuir para uma classificação de base precisa. Um contexto submetido a upsampling 4X equivalente seria de 60 por 60 subpixels. Essa extensão de contexto ajuda a rede neural a reconhecer os impactos de iluminação não uniforme e de plano de fundo durante o imageamento.

[00123] A tecnologia revelada usa pequenos filtros em uma camada de convolução inferior para combinar contornos de agrupamento na entrada de gabarito com contornos detectados na entrada de imagem digital. Contornos de agrupamento ajudam a rede neural a separar sinal de condições de plano de fundo e normalizar o processamento de imagens contra o plano de fundo.

[00124] A tecnologia divulgada substancialmente reutiliza cálculos intermediários. Suponha que 20 a 25 centros de agrupamento apareçam dentro de uma área de contexto de pixels ópticos 15 por 15. Então, as convoluções de primeira camada podem ser reutilizadas 20 a 25 vezes em operações roll-up de convolução em blocos. O fato de reutilização é reduzido camada por camada até a penúltima camada, que é a primeira vez que o fator de reutilização em resolução óptica cai abaixo de 1x.

[00125] O treinamento e a interferência de operação roll-up em blocos a partir de múltiplas camadas de convolução aplica operações roll- up sucessivas a um bloco de pixels ou subpixels. Em torno de um perímetro de bloco, existe uma zona de sobreposição na qual dados usados durante a operação roll-up de um primeiro bloco de dados se sobrepõem a um segundo bloco de operações roll-up e podem ser reutilizados para o mesmo. Dentro do bloco, em uma área central circundada pela zona de sobreposição, estão valores de pixel e cálculos intermediários que podem ser submetidos a operações roll-up e que podem ser reutilizados. Com uma zona de sobreposição, os resultados de convolução que reduzem progressivamente o tamanho de um campo de contexto, por exemplo, de 15 por 15 a 13 por 13 mediante a aplicação de um filtro 3 por 3, podem ser gravados no mesmo bloco de memória que mantém os valores convoluídos, conservando a memória sem prejudicar a reutilização dos cálculos subjacentes dentro do bloco. Com blocos maiores, compartilhar cálculos intermediários na zona de sobreposição requer menos recursos. Com blocos menores, pode ser possível calcular múltiplos blocos em paralelo, para compartilhar os cálculos intermediários nas zonas de sobreposição.

[00126] Filtros e dilatações maiores reduziriam o número de camadas de convolução, que pode ser cálculo de velocidade sem prejudicar a classificação, depois de camadas de convolução inferiores terem reagido a contornos de agrupamento nos dados de gabarito e/ou imagem digital.

[00127] Os canais de entrada para dados de gabarito podem ser escolhidos para produzir a estrutura de gabarito consistente com a classificação de múltiplos centros de agrupamento em um campo de imagem digital. Duas alternativas descritas acima não satisfazem esses critérios de coerência: novo enquadramento e mapeamento de distância sobre todo um contexto. O novo enquadramento coloca o centro de apenas um agrupamento no centro de um pixel óptico. Melhor para classificar múltiplos agrupamentos é fornecer deslocamentos de centro para pixels classificados como centros de agrupamento de retenção.

[00128] Mapeamento de distância, se fornecido, é difícil realizar ao longo de uma área de contexto inteiro a não ser que cada pixel tenha seu próprio mapa de distâncias ao longo de um contexto inteiro. Mapas mais simples fornecem a consistência útil para classificar múltiplos agrupamentos a partir de um bloco de entrada de imagem digital.

[00129] Uma rede neural pode aprender com a classificação em um gabarito de pixels ou subpixels no contorno de um agrupamento, então um canal de distância pode ser suplantado por um gabarito que fornece classificação binária ou ternária, acompanhado por um canal de deslocamento de centro de agrupamento. Quando usado, um mapa de distâncias pode dar uma distância de um pixel a partir de um centro de agrupamento ao qual o pixel (ou subpixel) pertence. Ou o mapa de distâncias pode dar uma distância ao centro de agrupamento mais próximo. O mapa de distâncias pode codificar classificação binária com um valor sinalizador atribuído aos pixels de plano de fundo ou pode ser um canal separado de classificação de pixels. Combinado com deslocamentos de centro de agrupamento, o mapa de distâncias pode codificar classificação ternária. Em algumas implementações, particularmente aquelas que codificam classificações de pixel com um ou dois bits, pode ser desejável, pelo menos durante o desenvolvimento, usar canais separados para classificação de pixel e para distância.

[00130] A tecnologia revelada pode incluir redução de cálculos para salvar alguns recursos de cálculo em camadas superiores. O canal de deslocamento de centro de agrupamento ou um mapa de classificação ternária pode ser usado para identificar centros de convoluções de pixels que não contribuem para uma classificação definitiva de um centro de pixel. Em muitas implementações de hardware/software, realizar uma consulta durante a inferência e ignorar uma operação roll-up de convolução pode ser mais eficiente na camada (ou camadas) superior do que executar até nove multiplicações e oito adições para aplicar um filtro 3 por 3. Em hardware personalizado que executa pipeline em cálculos para execução paralela, cada pixel pode ser classificado dentro do gasoduto. Então, o mapa de centro de agrupamento pode ser usado depois da última convolução para colher resultados para apenas pixels que coincidem com centros de agrupamento, devido ao fato de que uma classificação definitiva só é desejada para esses pixels. Mais uma vez, no domínio de pixel óptico, em densidades de agrupamento atualmente observadas, cálculos de operação roll-up para cerca de dez por cento dos pixels seriam colhidos. Em um domínio submetido a upsampling 4x, mais camadas poderiam se beneficiar de convoluções ignoradas, em algum hardware, devido ao fato de que menos de um por cento das classificações de subpixels na camada superior seria colhido. Chamada de base baseada em rede neural

[00131] A Figura 1 mostra estágios de processamento usados pelo chamador de base para a realizar chamada de base, de acordo com uma implementação. A Figura 1 mostra, também, os estágios de processamento usados pelo chamador de base baseado em rede neural apresentado para chamada de base, de acordo com duas implementações. Conforme mostrado na Figura 1, o chamador de base baseado em rede neural 218 pode simplificar o processo de chamado de base tornando óbvios muitos dos estágios de processamento usados pelo chamador de base RTA. A simplificação melhora a escala e a precisão de chamada de base. Em uma primeira implementação do chamador de base baseado em rede neural 218, ele executa a chamada de base com o uso de informações de localização/posição de centros de agrupamento identificados a partir da saída do gerador de gabarito baseado em rede neural 1512. Em uma segunda implementação, o chamador de base baseado em rede neural 218 não usa as informações de localização/posição dos centros de agrupamento para a chamada de base. A segunda implementação é usada quando um projeto de célula de fluxo dotada de um padrão é usado para geração de agrupamento. A célula de fluxo dotada de um padrão contém nanopoços que são precisamente posicionados em relação a locais fiduciais conhecidos e fornecer distribuição de agrupamentos disposta previamente na célula de fluxo dotada de um padrão. Em outras implementações, o chamador de base baseado em rede neural 218 realizada chamada de base em agrupamentos gerados em células de fluxo aleatório.

[00132] A discussão se volta agora para a chamada de base baseada em rede neural na qual uma rede neural é treinada para mapear imagens de sequenciamento para chamadas de base. A discussão é organizada como segue. Primeiro, as entradas para a rede neural são descritas. Então, a estrutura e a forma da rede neural são descritas. Por último, as saídas da rede neural são descritas. Entrada

[00133] A Figura 2 ilustra uma implementação de chamada de base usando a rede neural 206. Entrada principal: Canais de imagem

[00134] A entrada principal para a rede neural 206 são os dados de imagem 202. Os dados de imagem 202 são derivados das imagens de sequenciamento 108 produzidas pelo sequenciador 222 durante uma rodada de sequenciamento. Em uma implementação, os dados de imagem 202 compreendem fragmentos de imagem n × n extraídos das imagens de sequenciamento 222, em que n é qualquer número na faixa de 1 e 10.000. A rodada de sequenciamento produz m imagem (ou imagens) por ciclo de sequenciamento para canais de imagem m correspondentes, e um fragmento de imagem é extraído de cada uma das imagens m para preparar os dados de imagem para um ciclo de sequenciamento específico. Em implementações diferentes, como químicas de canal 4, 2 e 1, m é 4 ou

2. Em outras implementações, m é 1, 3 ou maior que 4. Os dados de imagem 202 estão no domínio óptico de pixel em algumas implementações, e no domínio de subpixel submetido a upsampling em outras implementações.

[00135] Os dados de imagem 202 compreendem dados para múltiplos ciclos de sequenciamento (por exemplo, um ciclo de sequenciamento atual, um ou mais dos ciclos de sequenciamento anteriores, e um ou mais ciclos de sequenciamento sucessivos). Em uma implementação, os dados de imagem 202 compreendem dados para três ciclos de sequenciamento, de modo que os dados para um ciclo de sequenciamento atual (tempo t) a receber chamada de base sejam acompanhados pelos (i) dados para um ciclo de sequenciamento de flanqueamento esquerdo/contexto/prévio/anterior/antecedente (tempo t-1) e (ii) dados para um ciclo de sequenciamento de flanqueamento direito/contexto/próximo/sucessivo/subsequente (tempo t+1). Em outras implementações, os dados de imagem 202 compreendem dados para um único ciclo de sequenciamento.

[00136] Os dados de imagem 202 retratam emissões de intensidade de um ou mais agrupamentos e o seu plano de fundo circundante. Em uma implementação, quando um único agrupamento alvo estiver para receber chamada de base, os fragmentos de imagem são extraídos a partir das imagens de sequenciamento 108 de tal maneira que cada fragmento de imagem contenha o centro do agrupamento alvo em seu pixel central, um conceito referido na presente invenção como a "extração de fragmento centrado em agrupamento alvo".

[00137] Os dados de imagem 202 são codificados nos dados de entrada 204 com o uso de canais de intensidade (também chamados de canais de imagem). Para cada uma das imagens m obtidas a partir do sequenciador 222 para um ciclo de sequenciamento específico, um canal de imagem separado é usado para codificar seus dados de sinal de intensidade. Considere, por exemplo, que a rodada de sequenciamento usa química de dois canais, que produz uma imagem vermelha e uma imagem verde em cada ciclo de sequenciamento, então os dados de entrada 204 compreendem (i) um primeiro canal vermelho de imagem com pixels n x n que retratam emissões de intensidade dos um ou mais agrupamentos e o seu plano de fundo circundante capturadas na imagem vermelha e (ii) um segundo canal verde de imagem com pixels n x n que retratam emissões de intensidade dos um ou mais agrupamentos e o seu plano de fundo circundante capturadas na imagem verde.

[00138] Em uma implementação, um biossensor compreende uma matriz de sensores de luz. Um sensor de luz é configurado para detectar informações a partir de uma área de pixel correspondente (por exemplo, um local/poço/nanopoço de reação) na superfície de detecção do biossensor. Um analito disposto em uma área de pixel é dito estar associado com a área de pixel, isto é, o analito associado. Em um ciclo de sequenciamento, o sensor de luz que corresponde à área de pixels é configurado para detectar/captura/emissões/fótons a partir do analito associado e, em resposta, gerar um sinal de pixel para cada canal imageado. Em uma implementação, cada canal imageado corresponde a uma banda de comprimento de onda de filtro dentre uma pluralidade de bandas de comprimento de onda de filtro. Em outra implementação, cada canal imageado corresponde a um evento de imageamento dentre uma pluralidade de eventos de imageamento em um ciclo de sequenciamento. Em ainda outra implementação, cada canal imageado corresponde a uma combinação de iluminação com um laser e imageamento específicos através de um filtro óptico específico.

[00139] Os sinais de pixel dos sensores de luz são comunicados a um processador de sinal acoplado ao biossensor (por exemplo, através de uma porta de comunicação). Para cada ciclo de sequenciamento e cada canal imageado, o processador de sinal produz uma imagem cujos pixels respectivamente mostram/contêm denotam representam/caracterizam sinais de pixel obtidos dos sensores de luz correspondentes. Desta forma, um pixel na imagem corresponde a: (i) um sensor de luz do biossensor que gerou o sinal de pixel representado pelo pixel, (ii) um analito associado cujas emissões foram detectadas pelo sensor de luz correspondente e convertidas no sinal de pixel, e (iii) uma área de pixel na superfície de detecção do biossensor que contém o analito associado.

[00140] Considere, por exemplo, que uma corrida de sequenciamento usa dois canais imageados diferentes: um canal vermelho e um canal verde. Então, em cada ciclo sequenciamento, o processador de sinal produz uma imagem vermelha e uma imagem verde. Dessa forma, para uma série de k ciclos de sequenciamento da corrida de sequenciamento, uma sequência com k pares de imagens vermelha e verde é produzida como saída.

[00141] Os pixels nas imagens vermelha e verde (isto é, diferentes canais imageados) têm uma correspondência de 1 para 1 em um ciclo de sequenciamento. Isso significa que pixels correspondentes em um par das imagens vermelha e verde representam dados de intensidade para o mesmo analito associado, embora em diferentes chamais imageados. De modo similar, os pixels nos pares de imagens vermelha e verde têm uma a uma correspondência de 1 para 1 entre os ciclos de sequenciamento. Isso significa que pixels correspondentes em pares diferentes das imagens vermelha e verde representam dados de intensidade para o mesmo analito associado, embora para diferentes eventos/etapas de tempo de aquisição (ciclos de sequenciamento) da corrida de sequenciamento.

[00142] Os pixels correspondentes nas imagens vermelha e verde (isto é, diferentes canais imageados) podem ser considerados um pixel de uma "imagem por ciclo" que expressa dados de intensidade em um primeiro canal vermelho e em um segundo canal verde. Uma imagem por ciclo cujos pixels representam sinais de pixel para um subconjunto das áreas de pixel, isto é, uma região (ladrilho) da superfície de detecção do biossensor, é chamada de uma "imagem de ladrilho por ciclo". Um fragmento extraído de uma imagem de ladrilho por ciclo é chamado de um

"fragmento de imagem por ciclo". Em uma implementação, a extração de fragmento é realizada por um preparador de entrada.

[00143] Os dados de imagem compreendem uma sequência de fragmentos de imagem por ciclo gerados para uma série de ciclos de sequenciamento k de uma corrida de sequenciamento. Os pixels nos fragmentos de imagem por ciclo contêm dados de intensidade para os analitos associados e os dados de intensidade são obtidos para um ou mais canais imageados (por exemplo, um canal vermelho e um canal verde) por sensores de luz correspondentes configurados para determinar emissões a partir dos analitos associados. Em uma implementação, quando um único agrupamento-alvo deve receber chamada de base, os fragmentos de imagem por ciclo são centralizados em um pixel de centro que contém dados de intensidade para um analito-alvo associado e pixels não de centro nos fragmentos de imagem por ciclo contêm dados de intensidade para analitos associados adjacentes ao analito-alvo associado. Em uma implementação, os dados de imagem são preparados por um preparador de entrada. Dados de não imagem

[00144] Em outra implementação, os dados de entrada para o chamador de base baseado em rede neural 218 e o pontuador de qualidade baseado em rede neural 6102 são baseados em alterações de pH induzidas pela liberação de íons de hidrogênio durante a extensão da molécula. As alterações de pH são detectadas e convertidos em uma alteração de tensão que é proporcional ao número de bases incorporadas (por exemplo, no caso de Íon Torrent).

[00145] Em ainda outra implementação, os dados de entrada para o chamador de base baseado em rede neural 218 e o pontuador de qualidade baseado em rede neural 6102 são construídos a partir de detecção de nanoporos que usa biossensores para medir a perturbação na corrente conforme um analito passa através de um nanoporo ou próximo de sua abertura enquanto determina a identidade da base. Por exemplo, o sequenciamento de Oxford Nanopore Technologies (ONT) é baseado no seguinte conceito: passar uma única fita de DNA (ou RNA) através de uma membrana através de nanoporo e aplicar uma diferença de tensão ao longo da membrana. Os nucleotídeos presentes no poro irão afetar a resistência elétrica do poro, de modo que as medições de corrente ao longo do tempo podem indicar a sequência de bases de DNA que passam através do poro. Este sinal de corrente elétrica (o ‘rabisco’ devido à sua aparência quando plotado) são os dados brutos coletados por um sequenciador ONT. Essas medições são armazenadas como valores de aquisição de dados ("DAC" - data acquisition) de 16-bit, obtidos na frequência de 4 kHz (por exemplo). Com uma velocidade de fita DNA de ~450 pares de base por segundo, isso dá aproximadamente nove observações brutas por base em média. Este sinal é então processado para identificar rupturas no sinal de poros abertos correspondentes às leituras individuais. Esses trechos de sinal bruto são chamados por base – o processo de conversão de valores DAC em uma sequência de bases de DNA. Em algumas implementações, os dados de entrada compreendem valores DAC normalizados ou em escala. Entrada suplementar: Canais de distância

[00146] Os dados de imagem 202 são acompanhados com dados de distância suplementares (também chamado de canais de distância). Os canais de distância fornecem tendência aditiva que é incorporada nos mapas de características gerados a partir dos canais de imagem. Essa tendência aditiva contribui para a precisão de chamada de base devido ao fato de que é baseada nas distâncias de centro de pixel para centro (ou centros) de agrupamento, que são codificadas em pixel nos canais de distância.

[00147] Em uma implementação de chamada de base em "agrupamento alvo único", para cada canal de imagem (fragmento de imagem) nos dados de entrada 204, um canal de distância suplementar identifica distâncias de seus centros de pixels a partir do centro de um agrupamento alvo contendo seu pixel central e a receber chamada de base. O canal de distância indica, dessa forma, respectivas distâncias de pixels de um fragmento de imagem a partir de um pixel central do fragmento de imagem.

[00148] Em uma implementação de chamada de base em "múltiplos agrupamentos", para cada canal de imagem (fragmento de imagem) nos dados de entrada 204, um canal de distância suplementar identifica cada distância de centro para centro de pixel a partir do agrupamento mais próximo dentre os agrupamentos selecionados com base em distâncias de centro para centro entre o pixel e cada um dos agrupamentos.

[00149] Em uma implementação de chamada de base "baseada em formato de múltiplos agrupamentos", para cada canal de imagem (fragmento de imagem) nos dados de entrada 204, um canal de distância suplementar identifica cada distância de centro para centro de pixel de agrupamento a partir de um agrupamento atribuído selecionado com base na classificação de cada pixel de agrupamento em apenas um agrupamento. Entrada suplementar: Canal de redimensionamento

[00150] Os dados de imagem 202 são acompanhados pelos dados de redimensionamento suplementares (também chamados de canal de redimensionamento) que respondem por diferentes tamanhos de agrupamento e condições de iluminação irregular. Canal de redimensionamento também fornece tendência aditiva que é incorporada nos mapas de recurso gerados a partir dos canais de imagem. Essa tendência aditiva contribui para a precisão de chamada de base devido ao fato de que se baseia nas intensidades médias do pixel (ou pixels) de centro de agrupamento, que são codificadas em pixels no canal de redimensionamento. Entrada suplementar: Coordenadas de centro de agrupamento

[00151] Em algumas implementações, as informações de localização/posição 216 (por exemplo, coordenadas x-y) centro (ou centros) de agrupamento identificado a partir da saída do gerador de gabarito baseado em rede neural 1512 são fornecidas como entrada suplementar à rede neural 206. Entrada suplementar: Informações de atribuição de agrupamento

[00152] Em algumas implementações, a rede neural 206 recebe, como entrada suplementar, informações de atribuição de agrupamento que classifica quais pixels ou subpixels são: pixels ou subpixels de plano de fundo, pixels ou subpixels de centro de agrupamento, e pixels ou subpixels de agrupamento/interior de agrupamento retratando/contribuindo para/pertencendo a um mesmo agrupamento. Em outras implementações, o mapa de decaimento, o mapa binário e/ou o mapa ternário ou uma variação desses é fornecida como entrada suplementar à rede neural 206. Pré-processamento: Modificação de intensidade

[00153] Em algumas implementações, os dados de entrada 204 não contêm os canais de distância, mas em vez disso a rede neural 206 recebe, como entrada, dados de imagem modificados que são modificados de com base na saída do gerador de gabarito baseado em rede neural 1512, isto é, o mapa de decaimento, o mapa binário, e/ou o mapa ternário. Em tais implementações, as intensidades dos dados de imagem 202 são modificadas para levar em conta a ausência dos canais de distância.

[00154] Em outras implementações, os dados de imagem 202 são submetidos as uma ou mais operações de transformação sem perdas (por exemplo, convoluções, desconvoluções, fourier) e os dados de imagem modificados resultantes são fornecidos como entrada à rede neural 206. Forma e estrutura de rede

[00155] A rede neural 206 é também chamada na presente invenção de "chamador de base baseado em rede neural" 218. Em uma implementação, o chamador de base baseado em rede neural 218 é um perceptron multicamada ("MLP" - multilayer perceptron). Em outra implementação, o chamador de base baseado em rede neural 218 é uma rede neural sem realimentação (feedforward). Em ainda outra implementação, o chamador de base baseado em rede neural 218 é uma rede neural totalmente conectada. Em uma implementação adicional, o chamador de base baseado em rede neural 218 é uma rede neural totalmente convolucional. Em ainda uma implementação adicional, o chamador de base baseado em rede neural 218 é uma rede neural de segmentação semântica.

[00156] Em uma implementação, o chamador de base baseado em rede neural 218 é uma rede neural convolucional ("CNN" - convolutional neural network) com uma pluralidade de camadas de convolução. Em outra implementação, é uma rede neural recorrente ("RNN" - recurrent neural network) tal como uma rede de memória de longo prazo ("LSTM" - long short- term memory network), LSTM bidirecional ("Bi-LSTM" - bi-directional LSTM), ou uma unidade recorrente fechada ("GRU" - gated recurrent unit). Em ainda outra implementação, a mesma inclui tanto uma CNN quanto uma RNN.

[00157] Em ainda outras implementações, o chamador de base baseada em rede neural 218 pode usar convoluções 1D, convoluções 2D, convoluções 3D, convoluções 4D, convoluções 5D, convoluções dilatadas ou do tipo atrous, convoluções de transposição, convoluções separáveis em profundidade, convoluções pontuais, convoluções 1 x 1, convoluções de grupo, convoluções achatadas, convoluções espaciais e de canal cruzado, convoluções agrupadas e embaralhadas, convoluções espaciais separáveis e desconvoluções. Ele pode usar uma ou mais funções de perda, como regressão logística/perda logarítmica, perda softmax/entropia cruzada multiclasse, perda por entropia cruzada binária, perda por erro quadrático médio, perda L1, perda L2, perda L1 suave, e perda de Huber. Ele pode usar quaisquer esquemas de paralelismo, eficiência e compressão como

TFRecords, codificação comprimida (por exemplo, PNG), nidificação, chamadas paralelas para transformação de mapa, batching, prefetching, paralelismo de modelo, paralelismo de dados e SGD síncrono/assíncrono. Ele pode incluir camadas de upsampling, camadas de downsampling, conexões recorrentes, portas ("gates") e unidades de memória restritas (como uma LSTM ou GRU), blocos residuais, conexões residuais, conexões highway, conexões de salto ("skip connections"), conexões peephole, funções de ativação (por exemplo, funções de transformação não linear como unidade linear retificada ("ReLU" - rectifying linear unit), ReLU com vazamento, unidade linear exponencial ("ELU" - exponential linear unit), tangente sigmoide e hiperbólica (tahn)), camadas de normalização em lote, camadas de regularização, abandono ("dropout"), camadas de pooling (por exemplo, pooling máximo ou médio), camadas de pooling médio global e mecanismos de atenção.

[00158] O chamador de base baseado em rede neural 218 processa os dados de entrada 204 e produz uma representação alternativa 208 dos dados de entrada 204. A representação alternativa 208 é uma representação convoluída em algumas implementações e uma representação oculta em outras implementações. A representação alternativa 208 é então processada por uma camada de saída 210 para produzir uma saída 212. A saída 212 é usada para produzir a chamada (ou chamadas) de base, conforme discutido abaixo. Saída

[00159] Em uma implementação, o chamador de base baseado em rede neural 218 emite uma chamada de base para um único agrupamento alvo para um ciclo de sequenciamento específico. Em outra implementação, o mesmo emite uma chamada de base para cada agrupamento alvo em uma pluralidade de agrupamentos alvo para o ciclo de sequenciamento específico. Em ainda outra implementação, o mesmo emite uma chamada de base para cada agrupamento alvo em uma pluralidade de agrupamentos alvo para cada ciclo de sequenciamento em uma pluralidade de ciclos de sequenciamento, produzindo assim uma sequência de chamada de base para cada agrupamento alvo. Cálculo de canal de distância

[00160] A discussão agora se volta para como as informações de localização/posição adequadas (por exemplo, coordenadas x - y) do centro (ou centros) de agrupamento são obtidas para uso no cálculo dos valores de distância dos canais de distância. Redimensionamento decrescente de coordenadas

[00161] A Figura 3 é uma implementação de transformar, de domínio de subpixel para domínio de pixel, informações de localização/posição de centros de agrupamento identificadas a partir da saída do gerador de gabarito baseado em rede neural 1512.

[00162] As informações de localização/posição de centro de agrupamento são usadas para a chamada de base baseada em rede neural ao menos (i) para construir os dados de entrada mediante a extração de fragmentos de imagem das imagens de sequenciamento 108 que contêm os centros de agrupamentos alvo a receberem chamada de base em seus pixels centrais, e/ou (ii) construir o canal de distância que identifica distâncias dos centros de pixels de um fragmento de imagem a partir do centro de um agrupamento alvo contido em seu pixel central, e/ou (iii) como uma entrada suplementar 216 ao chamador de base baseado em rede neural 218.

[00163] Em algumas implementações, as informações de localização/posição de agrupamento de centro são identificadas a partir da saída do gerador de gabarito baseado em rede neural 1512 na resolução de subpixel submetida a upsampling. Entretanto, em algumas implementações, o chamador de base baseado em rede neural 218 opera em dados de imagem que estão na resolução óptica de pixel. Portanto, em uma implementação, as informações de posição/localização de agrupamento central são transformadas no domínio de pixel redimensionando-se de modo decrescente as coordenadas dos centros de agrupamentos pelo mesmo fator de upsampling usado para submeter a upsampling os dados de imagem fornecidos como entrada ao gerador de gabarito baseado em rede neural 1512.

[00164] Considere, por exemplo, que os dados de fragmentos de imagem fornecidos como entrada ao gerador de gabarito baseado em rede neural 1512 são derivados por upsampling imagens de sequenciamento 108 de alguns ciclos de sequenciamento iniciais por um fator de upsampling f. Então, em uma implementação, as coordenadas dos centros de agrupamento 302, produzidas pelo gerador de gabarito baseado em rede neural 1512 pelo pós-processador 1814 e armazenadas no gabarito/imagem de gabarito 304, são divididas por f (o divisor). Essas coordenadas de centro de agrupamento redimensionadas de modo decrescente são referidas na presente invenção como os "centros de agrupamento de referência" 308 e armazenadas no gabarito/imagem de gabarito 304. Em uma implementação, o redimensionamento decrescente é realizado por um redimensionador decrescente 306. Transformação de coordenadas

[00165] A Figura 4 é uma implementação do uso de transformações específicas de ciclo e específicas de canal de imagem para derivar os chamados "centros de agrupamento transformados" 404 a partir dos centros de agrupamento de referência 308. A motivação para fazer isso é discutida primeiro.

[00166] As imagens de sequenciamento tomadas em diferentes ciclos de sequenciamento estão desalinhadas e têm desvios translacionais aleatórios umas em relação às outras. Isso ocorre devido à precisão finita dos movimentos do estágio de movimento do sensor e também devido ao fato de que imagens tomadas em diferentes canais de frequência/imagem têm diferentes trajetórias ópticas e comprimentos de onda.

Consequentemente, um deslocamento existe entre os centros de agrupamento de referência e localizações/posições dos centros de agrupamento nas imagens de sequenciamento. Esse deslocamento varia entre imagens capturadas em diferentes ciclos de sequenciamento e dentro das imagens capturadas em um mesmo ciclo de sequenciamento em diferentes canais de imagem.

[00167] Para levar em conta esse deslocamento, as transformações específicas de ciclo e específicas de canal de imagem são aplicadas aos centros de agrupamento de referência para produzir respectivos centros de agrupamento transformados para fragmentos de imagem de cada ciclo de sequenciamento. As transformações específicas de ciclo e específicas de canal de imagem são derivadas por um processo de registro de imagem que usa correlacionamento de imagem para determinar uma transformação afim total de seis parâmetros (por exemplo, translação, rotação, redimensionamento, cisalhamento, reflexo direito, reflexo esquerdo) ou uma transformação de Procrustes (por exemplo, translação, rotação, redimensionamento, opcionalmente estendido à razão de aspecto), os detalhes adicionais podem ser encontrados nos Apêndices 1, 2, 3 e 4.

[00168] Considere, por exemplo, que os centros de agrupamento de referência para quatro centros de agrupamento são ( x1 , y1 );( x2 , y2 );( x3 , y3 );( x4 , y4 ) e a rodada de sequenciamento usa química de dois canais na qual uma imagem vermelha e uma imagem verde são produzidas em cada ciclo de sequenciamento. Então, por exemplo o ciclo de sequenciamento 3, as transformações específicas de ciclo e específicas de canal de imagem são {r , r , r ,  r ,  r , r } para a imagem 3 3 3 3 3 3 vermelha e { g ,  g ,  g ,  g ,  g , g } para a imagem verde. 3 3 3 3 3 3

[00169] De modo similar, por exemplo o ciclo de sequenciamento 9, as transformações específicas de ciclo e específicas de canal de imagem são {r , r , r ,  r ,  r ,r } para a imagem vermelha e { g ,  g ,  g ,  g ,  g , g } para a 9 9 9 9 9 9 9 9 9 9 9 9 imagem verde.

[00170] Então, os centros de agrupamento transformados para a imagem vermelha do ciclo de sequenciamento 3 ( xˆ1 , yˆ1 );( xˆ2 , yˆ 2 );( xˆ3 , yˆ3 );( xˆ4 , yˆ 4 ) são derivados aplicando-se a transformação {r , r , r ,  r ,  r , r } aos 3 3 3 3 3 3 centros de agrupamento de referência ( x1 , y1 );( x2 , y2 );( x3 , y3 );( x4 , y4 ) , e os centros de agrupamento transformados para a imagem verde do ciclo de sequenciamento 3 { g ,  g ,  g ,  g ,  g , g } são derivados aplicando-se a 3 3 3 3 3 3 transformação ( x1 , y1 );( x2 , y2 );( x3 , y3 );( x4 , y4 ) aos centros de agrupamento de referência ( x1 , y1 );( x2 , y2 );( x3 , y3 );( x4 , y4 ) .

[00171] De modo similar, os centros de agrupamento transformados para a imagem vermelha do ciclo de sequenciamento 9 ( x1 , y1 );( x2 , y2 );( x3 , y3 );( x4 , y4 ) são derivadas aplicando-se a transformação {r9 , r9 , r9 ,  r9 ,  r9 , r9} aos centros de agrupamento de referência ( x1 , y1 );( x2 , y2 );( x3 , y3 );( x4 , y4 ) , e os centros de agrupamento transformados para a imagem verde de ciclo de sequenciamento 9 ( x1 , y1 );( x2 , y2 );( x3 , y3 );( x4 , y4 ) são derivados aplicando-se a transformação { g ,  g ,  g ,  g ,  g , g } aos centros 9 9 9 9 9 9 de agrupamento de referência ( x1 , y1 );( x2 , y2 );( x3 , y3 );( x4 , y4 ) .

[00172] Em uma implementação, as transformações são executadas por um transformador 402.

[00173] Os centros de agrupamento transformados 404 são armazenados no gabarito/imagem de gabarito 304 e respectivamente usados (i) para fazer a extração de fragmento a partir das imagens de sequenciamento correspondentes 108 (por exemplo, por um extrator de fragmento 406), (ii) na fórmula de ( d = ( x2 − x1 ) + ( y2 − y1 ) ) para calcular os 2 2 canais de distância para os fragmentos de imagem correspondentes, e (iii) como entrada suplementar para o chamador de base baseado em rede neural 218 para o ciclo de sequenciamento correspondente recebendo chamada de base. Em outras implementações, uma fórmula de distância diferente pode ser usada como a distância ao quadrado, e^-distância e e^-distância ao quadrado. Fragmento de imagem

[00174] A Figura 5 ilustra um fragmento de imagem 502 que faz parte dos dados de entrada fornecidos ao chamador de base baseado em rede neural 218. Os dados de imagem compreendem uma sequência de conjuntos de fragmento de imagem por ciclo gerados para uma série de ciclos de sequenciamento de uma rodada de sequenciamento. Cada conjunto de fragmento de imagem por ciclo na sequência tem um fragmento de imagem para um respectivo canal dentre um ou mais canais de imagem.

[00175] Considere, por exemplo, que a rodada de sequenciamento usa a química de 2 canais que produz uma imagem vermelha e uma imagem verde em cada ciclo de sequenciamento, e os dados de entrada compreendem dados abrangendo uma série de três ciclos de sequenciamento da rodada de sequenciamento: um ciclo de sequenciamento atual (tempo t) a receber chamada de base, um ciclo de sequenciamento anterior (tempo t-1) e um próximo ciclo de sequenciamento (tempo t+1).

[00176] Então, os dados de entrada compreendem a seguinte sequência de conjuntos de fragmento de imagem por ciclo: um conjunto de fragmento de imagem de ciclo atual com um fragmento de imagem vermelha atual e um fragmento de imagem verde atual respectivamente extraídos das imagens de sequenciamento vermelhas e verdes capturadas no ciclo de sequenciamento atual, um conjunto de fragmento de imagem de ciclo anterior com um fragmento de imagem vermelha anterior e um fragmento de imagem verde anterior respectivamente extraídos das imagens de sequenciamento vermelhas e verdes capturadas no ciclo de sequenciamento anterior, e um conjunto de fragmento de imagem de ciclo seguinte com um fragmento de imagem vermelha seguinte e um fragmento de imagem verde seguinte respectivamente extraídos das imagens de sequenciamento vermelhas e verdes capturadas no ciclo de sequenciamento seguinte.

[00177] O tamanho de cada fragmento de imagem pode ser n × n, em que n pode ser qualquer número que varia de 1 a 10.000. Cada fragmento de imagem pode ser no domínio de pixel óptico ou no domínio de subpixel submetido a upsampling. Na implementação ilustrada na Figura 5, a página de imagem extraída 502 tem dados de intensidade de pixel para os pixels que cobrem/retratam uma pluralidade de agrupamentos 1-m e seu plano de fundo circundante. Além disso, na implementação ilustrada, o fragmento de imagem 502 é extraído de modo que contenha em seu pixel central o centro de um agrupamento alvo recebendo chamada de base.

[00178] Na Figura 5, os centros de pixel são retratados por um retângulo preto e têm um número inteiro de coordenadas de localização/posição, e os centros de agrupamento são retratados por um círculo roxo e têm números reais de coordenadas de localização/posição. Cálculo de distância para um único agrupamento alvo

[00179] A Figura 6 retrata uma implementação de determinação dos valores de distância 602 para um canal de distância quando um único agrupamento alvo está recebendo chamada de base do chamador de base baseado em rede neural 218. O centro do agrupamento alvo está contido nos pixels centrais dos fragmentos de imagem que são fornecidos como entrada ao chamador de base baseado em rede neural 218. Os valores de distância são calculados em uma base de pixel por pixel, de modo que, para cada pixel, a distância entre seu centro e o centro do agrupamento alvo seja determinada. Consequentemente, um valor de distância é calculado para cada pixel em cada um dos fragmentos de imagem que são parte dos dados de entrada.

[00180] A Figura 6 mostra três valores de distância d1, dc e dn para um fragmento de imagem específico. Em uma implementação, os valores de distância 602 são calculados com o uso da seguinte fórmula distância: d = ( x2 − x1 ) + ( y2 − y1 ) , que opera nos centros de agrupamento 2 2 transformados 404. Em outras implementações, uma fórmula de distância diferente pode ser usada como a distância ao quadrado, e^-distância e e^- distância ao quadrado.

[00181] Em outras implementações, quando os fragmentos de imagem estão na resolução de subpixel submetida a upsampling, os valores de distância 602 são calculados no domínio de subpixel.

[00182] Dessa forma, na implementação de chamada de base de agrupamento único, os canais de distância são calculados apenas em relação ao agrupamento alvo recebendo chamada de base.

[00183] A Figura 7 mostra uma implementação de codificação em pixel 702 dos valores de distância 602 que são calculados entre os pixels e o agrupamento alvo. Em uma implementação, nos dados de entrada, os valores de distância 602, como parte do canal de distância, suplementam cada canal de imagem correspondente (fragmento de imagem) como "dados de distância de pixel". Retornando para o exemplo de uma imagem vermelha e uma imagem verde sendo geradas por ciclo de sequenciamento, os dados de entrada compreendem um canal vermelho de distância e um canal verde de distância que suplementam o canal vermelho de imagem e o canal verde de imagem como dados de distância de pixel, respectivamente.

[00184] Em outras implementações, quando os fragmentos de imagem estão na resolução de subpixel submetida a upsampling, os canais de distância são codificados em uma base de subpixel por subpixel. Cálculo de distância para múltiplos agrupamentos alvo

[00185] A Figura 8a retrata uma implementação de determinar valores de distância 802 por um canal de distância quando múltiplos agrupamentos alvo 1-m estão recebendo simultaneamente chamada de base do chamador de base baseado em rede neural 218. Os valores de distância são calculados em uma base de pixel por pixel, de modo que, para cada pixel, a distância entre seu centro e respectivos centros de cada um dos múltiplos agrupamentos 1-m é determinada e o valor de distância mínimo (em vermelho) é atribuído ao pixel.

[00186] Consequentemente, o canal de distância identifica a distância de centro para centro de cada pixel a partir do agrupamento mais próximo dentre os agrupamentos selecionados com base nas distâncias de centro para centro entre o pixel e cada um dos agrupamentos. Na implementação ilustrada, a Figura 8a mostra distâncias de centro de pixel para centro de agrupamento para dois pixels e quatro centros de agrupamento. O pixel 1 é o mais próximo ao agrupamento 1 e o pixel n é o mais próximo ao agrupamento 3.

[00187] Em uma implementação, os valores de distância 802 são calculados com o uso da seguinte fórmula de distância: d = ( x2 − x1 )2 + ( y2 − y1 )2 , que opera nos centros de agrupamento transformados 404. Em outras implementações, uma fórmula de distância diferente pode ser usada como a distância ao quadrado, e^-distância e e^- distância ao quadrado.

[00188] Em outras implementações, quando os fragmentos de imagem estão na resolução de subpixel submetida a upsampling, os valores de distância 802 são calculados no domínio de subpixel.

[00189] Dessa forma, na implementação de chamada de base de múltiplas agrupamentos, os canais de distância são calculados em relação ao agrupamento mais próximo dentre uma pluralidade de agrupamentos.

[00190] A Figura 8b mostra, para cada um dos agrupamentos alvo 1-m, alguns pixels mais próximos determinados com base nas distâncias de centro de pixel para centro de agrupamento mais próximo 804 (d1, d2, d23, d29, d24, d32, dn, d13, d14 e etc.).

[00191] A Figura 9 mostra uma implementação de codificação em pixel 902 dos valores mínimos de distância que são calculados entre os pixels e o mais próximo dos agrupamentos. Em outras implementações, quando os fragmentos de imagem estão na resolução de subpixel submetida a upsampling, os canais de distância são codificados em uma base de subpixel por subpixel. Cálculo de distância para múltiplos agrupamentos alvo com base em formatos de agrupamento

[00192] A Figura 10 ilustra uma implementação com o uso de classificação/atribuição/categorização de pixel para agrupamento 1002, chamada na presente invenção de "dados de formato de agrupamento" ou "informações de formato de agrupamento", para determinar os valores de distância do agrupamento 1102 para um canal de distância quando múltiplos agrupamentos alvo 1-m estão recebendo simultaneamente a chamada de base do chamador de base baseado em rede neural 218. Primeiro, o que segue é uma breve revisão de como os dados de formato de agrupamento são gerados.

[00193] Conforme discutido acima, a saída do gerador de gabarito baseado em rede neural 1512 é usada para classificar os pixels como: pixels de plano de fundo, pixels centrais e pixels de agrupamento/interior de agrupamento que retratam/contribuem para/pertencem a um mesmo agrupamento. Essas informações de classificação de pixel para agrupamento são usadas para atribuir cada pixel a apenas um agrupamento, independentemente das distâncias entre os centros de pixel e os centros de agrupamento, e são armazenadas como os dados de formato de agrupamento.

[00194] Na implementação ilustrada na Figura 10, os pixels de plano de fundo são coloridos em cinza, os pixels pertencentes ao agrupamento 1 são coloridos em amarelo (pixels de agrupamento 1), pixels pertencentes ao agrupamento 2 são coloridos em verde (pixels de agrupamento 2), pixels pertencentes ao agrupamento 3 são coloridos em vermelho (pixels de agrupamento 3), e pixels pertencentes ao agrupamento m são coloridos em azul (pixels de agrupamento m).

[00195] A Figura 11 mostra uma implementação de calcular os valores de distância 1102 usando os dados de formato de agrupamento. Em primeiro lugar, explica-se por que as informações de distância calculadas sem contabilizar formatos de agrupamento são propensas a erro. Explica-se, então, como os dados de formato de agrupamento superam esta limitação.

[00196] Na implementação de chamada base de "múltiplos agrupamento" que não usa dados de formato de agrupamento (Figuras 8a a 8b e 9), o valor de distância de centro para centro para um pixel é calculado em relação ao agrupamento mais próximo dentre uma pluralidade de agrupamentos. Agora, considere-se o cenário quando um pixel que pertence ao agrupamento A está mais distante do centro do agrupamento A, mas mais próximo ao centro de agrupamento B. Em tal caso, sem os dados de formato de agrupamento, é atribuído ao pixel um valor de distância que é calculado com relação ao agrupamento B (ao qual o mesmo não pertence), em vez de ser atribuído ao pixel um valor de distância frente a frente ao agrupamento A (ao qual o mesmo pertence verdadeiramente).

[00197] A implementação de chamada de base "baseada em formato de múltiplos agrupamentos" evita isso usando o verdadeiro mapeamento de pixel para agrupamento, como definido nos dados de imagem bruta e produzido pelo gerador de gabarito baseado em rede neural 1512.

[00198] O contraste entre as duas implementações pode ser visto no que diz respeito aos pixels 34 e 35. Na Figura 8b, valores de distância de pixels 34 e 35 são calculados em relação ao centro mais próximo do conjunto 3, sem contabilizar os dados de formato de agrupamento. Entretanto, na Figura 11, com base nos dados de formato de agrupamento, os valores de distância 1102 de pixels 34 e 35 são calculados em relação ao agrupamento 2 (ao qual pertencem efetivamente).

[00199] Na Figura 11, os pixels de agrupamento retratam intensidades de agrupamento e os pixels de plano de fundo retratam intensidades de plano de fundo. Os valores de distância de agrupamento identificam a distância de centro para centro de cada pixel de agrupamento a partir de um agrupamento atribuído dentre os agrupamentos selecionados com base na classificação de cada pixel de agrupamento a apenas um dos agrupamentos. Em algumas implementações, são atribuídos aos pixels de plano de fundo um valor de distância de plano de fundo predeterminado, como 0 ou 0,1, ou algum outro valor mínimo.

[00200] Em uma implementação, conforme discutido acima, os valores de distância de agrupamento 1102 são calculados com o uso da seguinte fórmula de distância: d = ( x2 − x1 ) + ( y2 − y1 ) , que opera nos centros 2 2 de agrupamento transformados 404. Em outras implementações, uma fórmula de distância diferente pode ser usada como a distância ao quadrado, e^- distância e e^-distância ao quadrado.

[00201] Em outras implementações, quando a fragmentos de imagem estão na resolução de subpixel submetida a upsampling, os valores de distância de agrupamento 1102 são calculados no domínio de subpixel e a atribuição de agrupamento e plano de fundo 1002 ocorre em uma base de subpixel por subpixel.

[00202] Dessa forma, na implementação de chamada de base baseada em formato de múltiplos agrupamentos, os canais de distância são calculados em relação a um agrupamento atribuído dentre uma pluralidade de agrupamentos. O agrupamento atribuído é selecionado com base na classificação de cada pixel de agrupamento a apenas um dos agrupamentos de acordo com o verdadeiro mapeamento de pixel para agrupamento definido nos dados de imagem bruta.

[00203] A Figura 12 mostra uma implementação de codificação em pixel dos valores de distância 1002 que são calculados entre os pixels e os agrupamentos atribuídos. Em outras implementações, quando os fragmentos de imagem estão na resolução de subpixel submetida a upsampling, os canais de distância são codificados em uma base de subpixel por subpixel.

[00204] Aprendizado profundo é uma poderosa técnica de aprendizado de máquina que usa redes neurais de muitas camadas. Uma estrutura de rede particularmente bem sucedida em visão de computador e domínios de processamento de imagens é a rede neural convolucional (CNN), em que cada camada executa transformações convolucionais de propagação unidirecional (feed-forward) a partir de um tensor de entrada (uma matriz densa, multidimensional, similar a imagens) a um tensor de saída de formato diferente. As CNNs são particularmente adequadas para entrada similar a imagens devido à coerência espacial de imagens e ao advento de unidades de processamento gráfico de propósito geral ("GPUs" - general purpose graphics processing units) que torna o treinamento rápido em matrizes até 3D ou 4D. Explorar essas propriedades similares a imagens leva a um desempenho empírico superior em comparação com outros métodos de aprendizagem como máquina de vetores de suporte ("SVM" - support vector machine) ou perceptron de múltiplas camadas ("MLP" - multi- layer perceptron).

[00205] Introduziu-se uma arquitetura especializada que amenta uma CNN padrão para lidar tanto com dados de imagem quanto com dados de distância e redimensionamento suplementares. Mais detalhes seguem a seguir. Arquitetura especializada

[00206] A Figura 13 ilustra uma implementação da arquitetura especializada do chamador de base baseado em rede neural 218 que é usado para segregar o processamento de dados para diferentes ciclos de sequenciamento. A motivação para o uso da arquitetura especializada é primeiramente descrita.

[00207] Conforme discutido acima, o chamador de base baseado em rede neural 218 processa dados para um ciclo de sequenciamento atual, um ou mais ciclos de sequenciamento anteriores e um ou mais ciclos de sequenciamento sucessivos. Os dados para ciclos de sequenciamento adicionais fornecem contexto específico de sequência. O chamador de base baseado em rede neural 218 aprende o contexto específico de sequência durante o treinamento e realiza chamada de base nos mesmos. Além disso, os dados para ciclos de pré-sequenciamento e pós-sequenciamento fornecem uma contribuição de segunda ordem de sinais de pré-faseamento e faseamento ao ciclo de sequenciamento atual. Camadas de convolução espacial

[00208] Entretanto, conforme discutido acima, as imagens capturadas em diferentes ciclos de sequenciamento e em diferentes canais de imagem estão desalinhadas e têm erro de registro residual uma em relação à outra. Para levar em conta esse desalinhamento, a arquitetura especializada compreende camadas de convolução espacial que não misturam informações entre ciclos de sequenciamento e misturam apenas informações dentro de um ciclo de sequenciamento.

[00209] As camadas de convolução espacial usam as chamadas "convoluções segregadas" que operacionalizam a segregação processando- se independentemente dados para cada um dentre uma pluralidade de ciclos de sequenciamento através de uma sequência " dedicada e não compartilhada" de convoluções. As convoluções segregadas convoluem em dados e mapas de recurso resultantes de apenas um dado ciclo de sequenciamento, isto é, intraciclo, sem convoluir em dados e mapas de recurso resultantes de qualquer outro ciclo de sequenciamento.

[00210] Considere, por exemplo, que os dados de entrada compreendem (i) dados atuais para um ciclo de sequenciamento atual (tempo t) a receber chamada de base, (ii) dados anteriores para um ciclo de sequenciamento anterior (tempo t-1), e (iii) dados seguintes para um ciclo de sequenciamento seguinte (tempo t+1). A arquitetura especializada inicia então três pipelines separados de processamento de dados (ou pipelines de convolução), a saber, um pipeline de processamento de dados atuais, um pipeline de processamento de dados anteriores e um pipeline de processamento de dados seguintes. O pipeline de processamento de dados atuais recebe como entrada os dados atuais para o ciclo de sequenciamento atual (tempo t) e independentemente processa os mesmos através de uma pluralidade de camadas de convolução espacial para produzir uma chamada "representação atual espacialmente convoluída" como a saída de uma camada final de convolução espacial. O pipeline de processamento de dados anteriores recebe como entrada os dados anteriores para o ciclo de sequenciamento anterior (tempo t-1) e independentemente processa os mesmos através da pluralidade de camadas de convolução espacial para produzir uma chamada "representação anterior espacialmente convoluída" como a saída da camada final de convolução espacial. O pipeline de processamento de dados seguintes recebe como entrada os dados seguintes para o ciclo de sequenciamento seguinte (tempo t+1) e independentemente processa os mesmos através da pluralidade de camadas de convolução espacial para produzir uma chamada "representação seguinte espacialmente convoluída" como a saída da camada final de convolução espacial.

[00211] Em algumas implementações, os pipelines de processamento atual, anterior e seguinte são executados em paralelo.

[00212] Em algumas implementações, as camadas de convolução espacial são parte de uma rede (sub-rede) convolucional espacial dentro da arquitetura especializada. Camadas de convolução temporal

[00213] O chamador de base baseado em rede neural 218 compreende adicionalmente camadas de convolução temporal que misturam informações entre ciclos de sequenciamento, isto é, interciclos. As camadas de convolução temporal recebem suas entradas a partir da rede convolucional espacial e operam nas representações espacialmente convoluídas produzidas pela camada final de convolução espacial para os respectivos pipelines de processamento de dados.

[00214] A liberdade de operabilidade entre ciclos das camadas de convolução temporal emana do fato de a propriedade de desalinhamento, que existe nos dados de imagem fornecidos como entrada à rede convolucional espacial, é purgada das representações espacialmente convoluídas pela cascata de convoluções segregadas realizadas pela sequência de camadas de convolução espacial.

[00215] As camadas de convolução temporal usam as camadas "convoluções combinatórias" convoluem em grupo em canais de entrada em sucessivas entradas em uma base de janela deslizante. Em uma implementação, as entradas sucessivas são saídas sucessivas produzidas por uma camada de convolução espacial anterior ou uma camada de convolução temporal anterior.

[00216] Em algumas implementações, as camadas de convolução temporal são parte de uma rede (ou sub-rede) convolucional temporal dentro da arquitetura especializada. A rede convolucional temporal recebe suas entradas a partir da rede convolucional espacial. Em uma implementação, uma primeira camada de convolução temporal da rede convolucional temporal combina em grupo as representações espacialmente convoluídas entre os ciclos de sequenciamento. Em outra implementação, camadas de convolução temporal subsequentes da rede convolucional temporal combinam saídas sucessivas de camadas de convolução temporal anteriores.

[00217] A saída da camada final de convolução temporal é fornecida a uma camada de saída que produz uma saída. A saída é usada para realizar chamada de base em um ou mais agrupamentos em um ou mais ciclos de sequenciamento.

[00218] O que se segue é uma discussão mais detalhada sobre as convoluções segregadas e combinatórias. Convoluções segregadas

[00219] Durante uma propagação, a arquitetura especializada processa informações de uma pluralidade de entradas em dois estágios. No primeiro estágio, convoluções de segregação são usadas para impedir a mistura de informações entre as entradas. No segundo estágio, convoluções combinatórias são usadas para misturar informações entre as entradas. Os resultados do segundo estágio são usados para produzir uma inferência única para a pluralidade de entradas.

[00220] Isso é diferente da técnica de modo de lote na qual uma camada de convolução processa múltiplas entradas em um lote ao mesmo tempo e faz uma inferência correspondente para cada entrada no lote. Em contrapartida, a arquitetura especializada mapeia a pluralidade de entradas na única inferência. A inferência única pode compreender mais de uma predição, como uma pontuação de classificação para cada uma das quatro bases (A, C, T e G).

[00221] Em uma implementação, as entradas têm ordenação temporal de modo que cada entrada é gerada em uma etapa de tempo diferente e tem uma pluralidade de canais de entrada. Por exemplo, a pluralidade de entradas pode incluir as seguintes três entradas: uma entrada atual gerada por um ciclo de sequenciamento atual na etapa de tempo (t), uma entrada anterior gerada por um ciclo de sequenciamento anterior na etapa de tempo (t-1), e a entrada seguinte gerada por um ciclo de sequenciamento seguinte na etapa de tempo (t+1). Em outra implementação, cada entrada é respectivamente derivada das entradas atuais, anteriores e seguintes por uma ou mais camadas anteriores de convolução e inclui k mapas de recursos.

[00222] Em uma implementação, cada entrada pode incluir os seguintes cinco canais de entrada: um canal vermelho de imagem (em vermelho), um canal vermelho de distância (em amarelo), um canal verde de imagem (em verde), um canal verde de distância (em roxo), e um canal de redimensionamento (em azul). Em outra implementação, cada entrada pode incluir k mapas de recursos produzidos por uma camada de convolução anterior e cada mapa de recurso é tratado como um canal de entrada.

[00223] A Figura 14 retrata uma implementação das convoluções segregadas. As convoluções segregadas processam a pluralidade de entradas de uma só vez através da aplicação de um filtro de convolução a cada entrada em paralelo. Com as convoluções segregadas, o filtro de convolução combina canais de entrada em uma mesma entrada e não combina canais de entrada em diferentes entradas. Em uma implementação, um mesmo filtro de convolução é aplicado a cada entrada em paralelo. Em outra implementação, um filtro de convolução diferente é aplicado a cada entrada em paralelo. Em algumas implementações, cada camada de convolução espacial compreende um banco de k filtros de convolução, cada um dos quais se aplica a cada entrada em paralelo. Convoluções combinatórias

[00224] As convoluções combinatórias misturam informações entre diferentes entradas agrupando-se canais de entrada correspondentes das entradas diferentes e aplicando-se um filtro de convolução a cada grupo. O agrupamento dos canais de entrada correspondentes e a aplicação do filtro de convolução ocorrem em uma base de janela deslizante. Nesse contexto, uma janela expande dois ou mais canais de entrada sucessivos que representam, por exemplo, saídas para dois ciclos de sequenciamento sucessivos. Visto que a janela é uma janela deslizante, a maioria dos canais de entrada são usados em duas ou mais janelas.

[00225] Em algumas implementações, as diferentes entradas se originam de uma sequência de saída produzida por uma camada anterior de convolução espacial ou temporal. Na sequência de saída, as diferentes entradas são dispostas como saídas sucessivas e portanto visualizadas por uma camada de convolução temporal seguinte como entradas sucessivas. Então, na camada de convolução temporal seguinte, as convoluções combinatórias aplicam o filtro de convolução a grupos de canais de entrada correspondentes nas entradas sucessivas.

[00226] Em uma implementação, as sucessivas entradas têm ordenação temporal de modo que uma entrada atual é gerada por um clico de sequenciamento atual na etapa de tempo (t) de tempo, uma entrada anterior é gerada por um ciclo de sequenciamento anterior na etapa de tempo (t-1), e a entrada seguinte é gerada por um ciclo de sequenciamento seguinte na etapa de tempo (t+1). Em outra implementação, cada entrada sucessiva é respectivamente derivada das entradas atuais, anteriores e seguintes por uma ou mais camadas anteriores de convolução e inclui k mapas de recurso.

[00227] Em uma implementação, cada entrada pode incluir os seguintes cinco canais de entrada: um canal vermelho de imagem (em vermelho), um canal vermelho de distância (em amarelo), um canal verde de imagem (em verde), um canal verde de distância (em roxo), e um canal de redimensionamento (em azul). Em outra implementação, cada entrada pode incluir k mapas de recursos produzidos por uma camada de convolução anterior e cada mapa de recurso é tratado como um canal de entrada.

[00228] A profundidade B do filtro de convolução depende do número de entradas sucessivas cujos canais de entrada correspondentes são convoluídos em grupo pelo filtro de convolução em uma base de janela deslizante. Em outras palavras, a profundidade B é igual ao número de entradas sucessivas em cada janela deslizante e ao tamanho do grupo.

[00229] Na Figura 15a, os canais de entrada correspondentes de duas entradas sucessivas são combinados em cada janela deslizante, e portanto B = 2. Na Figura 15b, os canais de entrada correspondentes de três entradas sucessivas são combinados em cada janela deslizante, e portanto B = 3.

[00230] Em uma implementação, as janelas deslizantes compartilham um mesmo filtro de convolução. Em outra implementação, um filtro de convolução diferente é usado para cada janela deslizante. Em algumas implementações, cada camada de convolução temporal compreende um banco de k filtros de convolução, cada um dos quais se aplica às entradas sucessivas em uma base de janela deslizante. Bancos de filtro

[00231] A Figura 16 mostra uma implementação das camadas de convolução do chamador de base baseado em rede neural 218 no qual cada camada de convolução tem um banco de filtros de convolução. Na Figura 16, cinco camadas de convolução são mostradas, cada uma das quais tem um banco de 64 filtros de convolução. Em algumas implementações, cada camada de convolução espacial tem um banco de k filtros de convolução, em que k pode ser qualquer número como 1, 2, 8, 64, 128, 256, e assim por diante. Em algumas implementações, cada camada de convolução temporal tem um banco de k filtros de convolução, em que k pode ser qualquer número como 1, 2, 8, 64, 128, 256, e assim por diante.

[00232] A discussão se volta agora para o canal de redimensionamento suplementar e como ele é calculado. Canal de redimensionamento

[00233] A Figura 17 retrata duas configurações do canal de redimensionamento que suplementa os canais de imagem. O canal de redimensionamento é codificado em pixel nos dados de entrada que são fornecidos ao chamador de base baseado em rede neural 218. Diferentes tamanhos de agrupamento e condições de iluminação irregular resultam em uma ampla gama de intensidades de agrupamento sendo extraída. A tendência aditiva fornecida pelo canal de redimensionamento torna intensidades de agrupamento comparáveis ao longo de em agrupamentos. Em outras implementações, quando os fragmentos de imagem estão na resolução de subpixel submetida a upsampling, o canal de redimensionamento é codificado em uma base de subpixel por subpixel.

[00234] Quando um único agrupamento alvo está recebendo chamada de base, o canal de redimensionamento atribui um mesmo valor de redimensionamento a todos os pixels. Quando múltiplos agrupamentos alvo estão recebendo simultaneamente chamada de base, os canais de redimensionamento atribuem diferentes valores de redimensionamento a grupos de pixels com base nos dados de formato de agrupamento.

[00235] O canal de redimensionamento 1710 tem um mesmo valor de redimensionamento (s1) para todos os pixels. O valor de redimensionamento (s1) tem por base uma intensidade média do pixel central que contém o centro do agrupamento alvo. Em uma implementação, a intensidade média é calculada pela média de valores de intensidade do pixel central observado durante dois ou mais ciclos de sequenciamento anteriores que produziram uma chamada de base A e T para o agrupamento alvo.

[00236] O canal de redimensionamento 1708 tem diferentes valores de redimensionamento (s1, s2, s3, sm) para respectivos agrupamentos de pixels atribuídos a agrupamentos correspondentes com base nos dados de formato de agrupamento. Cada agrupamento de pixels inclui um agrupamento central de pixel que contém um centro do agrupamento correspondente. O valor de redimensionamento para um agrupamento de pixels específico tem por base a intensidade média de seu pixel de agrupamento central. Em uma implementação, a intensidade média é calculada pela média de valores de intensidade do agrupamento de pixels centrais que observam durante dois ou mais ciclos de sequenciamento anteriores que produziram uma chamada de base A e T para o agrupamento correspondente.

[00237] Em algumas implementações, os pixels de plano de fundo são atribuídos a um valor de redimensionamento de plano de fundo (sb), que pode ser 0 ou 0,1, ou algum outro valor mínimo.

[00238] Em uma implementação, os canais de redimensionamento 1706 e seus valores de redimensionamento são determinados por um redimensionador de intensidade 1704. O redimensionador de intensidade 1704 usa os dados de intensidade de agrupamento 1702 de ciclos de sequenciamento anteriores para calcular as intensidades médias.

[00239] Em outras implementações, o canal de redimensionamento suplementar pode ser fornecido como entrada de uma maneira diferente, como antes da última camada do chamador de base baseado em rede neural 218 ou à mesma, antes das uma ou mais camadas intermediárias do chamador de base baseado em rede neural 218 ou às mesmas, e como um único valor em vez de codificá-lo em pixel para corresponder ao tamanho de imagem.

[00240] A discussão se volta agora para os dados de entrada que são fornecidos ao chamador de base baseado em rede neural 218 Dados de entrada: Canais de imagem, canais de distância, e canal de redimensionamento

[00241] A Figura 18a ilustra uma implementação de dados de entrada 1800 para um único ciclo de sequenciamento que produz uma imagem vermelha e uma imagem verde. Os dados de entrada 1800 compreendem o seguinte:  Os dados de intensidade vermelha 1802 (em vermelho) para pixels em um fragmento de imagem extraída da imagem vermelha. Os dados de intensidade vermelha 1802 são codificados em um canal vermelho de imagem.  Os dados de distância vermelha 1804 (em amarelo) que suplementa em pixel os dados de intensidade vermelha 1802. Os dados de distância vermelha 1804 são codificados em um canal vermelho de distância.  Os dados de intensidade verde 1806 (em verde) para pixels em um fragmento de imagem extraído da imagem verde. Os dados de intensidade verde 1806 são codificados em um canal verde de imagem.  Os dados de distância verde 1808 (em roxo) que suplementa em pixel os dados de intensidade verde 1806. Os dados de distância verde 1808 são dados codificados em um canal verde de distância.  Os dados de redimensionamento 1810 (em azul) que suplementa em pixel os dados de intensidade vermelha 1802 e dados de intensidade verde 1806. Os dados de redimensionamento 1810 são codificados em um canal de redimensionamento.

[00242] Em outras implementações, os dados de entrada podem incluir um número menor ou maior de canais de imagem e canais de distância suplementares. Em um exemplo, para uma rodada de sequenciamento que usa química de 4 canais, os dados de entrada compreendem quatro canais de imagem para cada ciclo de sequenciamento e quatro canais de distância suplementares.

[00243] A discussão agora se volta para como os canais de distância e o canal de redimensionamento contribuem para a precisão de chamada de base. Tendência aditiva

[00244] A Figura 18b ilustra uma implementação dos canais de distância suprindo tendência aditiva que é incorporada nos mapas de recurso gerados a partir dos canais de imagem. Essa tendência aditiva contribui para a precisão de chamada de base devido ao fato de que é baseada nas distâncias de centro de pixel para centro (ou centros) de agrupamento, que são codificadas em pixel nos canais de distância.

[00245] Em média, pixels de cerca de 3 x 3 compreendem um agrupamento. A densidade no centro de um agrupamento é esperada ser maior do que na margem devido ao fato de que o agrupamento cresce para fora a partir de uma localização substancialmente central. Os pixels de agrupamento de perímetro podem conter sinais conflitantes de agrupamentos próximos. Portanto, o pixel de agrupamento central é considerado a região de intensidade máxima e serve como um sinalizador que identifica confiavelmente o agrupamento.

[00246] Os pixels de um fragmento de imagem retratam emissões de intensidade de uma pluralidade de agrupamentos (por exemplo, 10 a 200 agrupamentos) e seu plano de fundo circundante. Agrupamentos adicionais incorporam informações de um raio mais amplo e contribuem para uma previsão de chamada de base discernindo-se a base subjacente cujas emissões de intensidade são retratadas no fragmento de imagem. Em outras palavras, as emissões de intensidade de um grupo de agrupamentos cumulativamente criam um padrão de intensidade que pode ser atribuído a uma base discreta (A, C, T ou G).

[00247] Observa-se que explicitamente comunicar aos filtros de convolução a distância de cada pixel do centro (ou centros) de agrupamento nos canais de distância suplementares resulta em uma maior precisão de chamada de base. Os canais de distância transmitem aos filtros de convolução quais pixels contêm os centros de agrupamento e quais pixels estão mais distantes dos centros de agrupamento. Os filtros de convolução usam essas informações para atribuir um sinal de sequenciamento a seu agrupamento de origem adequado mediante a atenção (a) aos pixels centrais do agrupamento, seus pixels vizinhos e mapas de recurso derivados a partir dos mesmos que (b) aos pixels perimetrais do agrupamento, pixels de plano de fundo e mapas de recurso derivados dos mesmos. Em um exemplo da atenção, os canais de distância fornecem tendências aditivas positivas que são incorporadas nos mapas de recurso que resultam de (a), mas fornecem tendências aditivas negativas que são incorporadas nos mapas de recurso resultantes de (b).

[00248] Os canais de distância têm a mesma dimensionalidade que os canais de imagem. Isso permite aos filtros de convolução avaliar separadamente os canais de imagem e os canais de distância dentro de um campo receptivo local e combinar coerentemente as avaliações.

[00249] Quando um único agrupamento alvo está recebendo chamada de base, os canais de distância identificam apenas um pixel de agrupamento central no centro dos fragmentos de imagem. Quando múltiplos agrupamentos alvo estão recebendo simultaneamente chamada de base, os canais de distância identificam múltiplos pixels de agrupamento centrais distribuídos ao longo dos fragmentos de imagem.

[00250] Um canal de distância de "único agrupamento" se aplica a um fragmento de imagem que contém o centro de um único agrupamento alvo a ser receber chamada de base em seu pixel central. O canal de distância de único agrupamento inclui distância de centro para centro de cada pixel no fragmento de imagem para o único agrupamento alvo. Nessa implementação, o fragmento de imagem inclui também agrupamentos adicionais que são adjacentes ao único agrupamento alvo, mas os agrupamentos adicionais não recebem chamada de base.

[00251] Um canal de distância de "múltiplos agrupamento" se aplica a um fragmento de imagem que contém os centros de múltiplos agrupamentos alvo a receberem chamada de base em seus respectivos pixels de agrupamento central. O canal de distância de múltiplos agrupamentos inclui a distância de centro para centro de cada pixel no fragmento de imagem para o agrupamento mais próximo dentre os múltiplos agrupamentos alvo. Isso tem o potencial de medir uma distância de centro para centro para o agrupamento errado, mas esse potencial é baixo.

[00252] Um canal de distância "baseado em formato de múltiplos agrupamentos" se aplica a um fragmento de imagem que contém os centros de múltiplos agrupamentos alvo a receberem chamada de base em seus respectivos pixels de agrupamento centrais e para os quais as informações de atribuição de pixel para agrupamento são conhecidas. O canal de distância de múltiplos agrupamentos inclui a distância de centro para centro de cada pixel de agrupamento no fragmento de imagem para o agrupamento ao qual pertence ou é atribuído a um agrupamento algo dentre os múltiplos agrupamentos alvo. Os pixels de plano de fundo podem ser sinalizados como plano de fundo, em vez de uma dada distância calculada.

[00253] A Figura 18b também ilustra uma implementação do canal de redimensionamento de fornecimento de tendência aditiva que é incorporado nos mapas de recurso gerados a partir dos canais de imagem. Essa tendência aditiva contribui para a precisão de chamada de base devido ao fato de que se baseia nas intensidades médias do pixel (ou pixels) de centro de agrupamento, que são codificadas em pixels no canal de redimensionamento. A discussão sobre a tendência aditiva no contexto dos canais de distância analogamente se aplica ao canal de redimensionamento. Exemplo de tendência aditiva

[00254] A Figura 18b mostra adicionalmente um exemplo de como as tendências aditivas são derivadas a partir dos canais de distância e redimensionamento e incorporadas nos mapas de recurso gerados a partir dos canais de imagem.

[00255] Na Figura 18b, o filtro de convolução i 1814 avalia um campo receptivo local 1812 (em magenta) ao longo dos dois canais de imagem 1802 e 1806, dos dois canais de distância 1804 e 1808 e do canal de redimensionamento 1810. Devido ao fato de que os canais de distância e redimensionamento são separadamente codificados, a tendência aditiva ocorre quando as saídas intermediárias 1816a a 1816e de cada um dos núcleos de convolução específico de canal (ou detectores de recurso) 1816a a 1816e (mais tendência 1816f) são acumulados em canal 1818 como o elemento de mapa de recurso/saída final 1820 para o campo receptivo local

1812. Nesse exemplo, a tendência aditiva fornecida pelos dois canais de distância 1804 e 1808 são as saídas intermediárias 1816b e 1816d, respectivamente. A tendência aditiva fornecida pelo canal de redimensionamento 1810 é a saída intermediária 1816e.

[00256] A tendência aditiva orienta o processo de compilação de mapa de recurso colocando-se maior ênfase naqueles recursos nos canais de imagem que são considerados mais importantes e confiáveis para a chamada de base, isto é, intensidades de pixel dos pixels de centro de agrupamento e seus pixels vizinhos. Durante o treinamento, a retropropagação de gradientes computados a partir da comparação com as chamadas de base de verdade absoluta atualiza pesos dos núcleos de convolução para produzir ativações mais fortes dos pixels de agrupamento central e seus pixels vizinhos.

[00257] Considere, por exemplo, que um pixel no grupo de pixels adjacentes cobertos pelo campo receptivo local 1812 contém um centro de agrupamento, então os canais de distância 1804 e 1808 refletem a proximidade dos pixels ao centro do agrupamento. Como resultado, quando as saídas de intensidade intermediárias 1816a e 1816c são mescladas com as tendências aditivas de canal de distância 1816b e 1816d na acumulação em canal 1818, o resultado é uma representação convoluída de tendência positiva 1820 dos pixels.

[00258] Em contrapartida, se os pixels cobertos pelo campo receptivo local 1812 não estão perto de um centro de agrupamento, então os canais de distância 1804 e 1808 refletem sua separação do centro de agrupamento. Como resultado, quando as saídas de intensidade intermediárias 1816a e 1816c são mescladas com as tendências aditivas de canal de distância 1816b e 1816d na acumulação em canal 1818, o resultado é uma representação convoluída de tendência negativa 1820 dos pixels.

[00259] De modo similar, a tendência aditiva de canal de redimensionamento 1816e derivada do canal de redimensionamento 1810 pode tender de modo positivo ou negativo a representação convoluída 1820 dos pixels.

[00260] Visando a clareza, a Figura 18b mostra a aplicação de um único filtro de convolução i 1814 nos dados de entrada 1800 para um único ciclo de sequenciamento. O versado na técnica reconhecerá que a discussão pode se estender a múltiplos filtros de convolução (por exemplo, um banco de filtros de k filtros, em que k pode ser 8, 16, 32, 64, 128, 256, e assim por diante), a múltiplas camadas convolucionais (por exemplo, múltiplas camadas de convolução espacial e temporal), e múltiplos ciclos de sequenciamento (por exemplo, t, t+1, t-1).

[00261] Em outras implementações, os canais de distância e redimensionamento, em vez de serem codificados separadamente, são diretamente aplicados aos canais de imagem para gerar multiplicação de pixels modulado) visto que os canais de distância e redimensionamento e os canais de imagem têm a mesma dimensionalidade. Em outras implementações, os pesos do núcleo de convolução são determinados com base nos canais de distância e imagem de modo a detectar características mais importantes nos canais de imagem durante a multiplicação por elemento. Em ainda outras implementações, em vez de serem fornecidos a uma primeira camada, os canais de distância e redimensionamento são fornecidos como entrada auxiliar para camadas e/ou redes a jusante (por exemplo, a uma rede totalmente conectada ou uma camada de classificação). Em ainda outras implementações, os canais de distância e redimensionamento são fornecidos à primeira camada e fornecidos novamente às camadas e/ou redes a jusante (por exemplo, por meio de uma conexão residual).

[00262] A discussão acima é para dados de entrada 2D com k canais de entrada. A extensão a entrada 3D será entendida pelo versado na técnica. Brevemente, a entrada volumétrica é um tensor 4D com dimensões k x l x w x h, em que l é a dimensão adicional, comprimento. Cada núcleo individual é um tensor 4D varrido em um tensor 4D, resultando em um tensor 3D (o canal de dimensão é recolhido devido ao fato de que não é varrido ao longo).

[00263] Em outras implementações, quando os dados de entrada 1800 estão na resolução de subpixel submetida a upsampling, os canais de distância e redimensionamento são separadamente codificados em uma base de subpixel por subpixel e a tendência aditiva ocorre no nível de subpixel. Chamado de base usando a arquitetura especializada e a entrada de dados

[00264] A discussão agora se volta para como a arquitetura especializada e os dados de entrada são usados para a chamada de base baseada em rede neural. Chamado de base de agrupamento único

[00265] As Figuras 19a, 19b e 19c retratam uma implementação de chamada de base em um único agrupamento alvo. A arquitetura especializada processa os dados de entrada para três ciclos de sequenciamento, a saber, um ciclo de sequenciamento atual (tempo t) a receber chamada de base, um ciclo de sequenciamento anterior (tempo t-1), e o ciclo de sequenciamento seguinte (tempo t +1) e produz uma chamada de base para o único agrupamento alvo no ciclo de sequenciamento atual (tempo t).

[00266] As Figuras 19a e 19b mostram as camadas de convolução espacial. A Figura 19c mostra as camadas de convolução temporal, juntamente com algumas outras camadas de convolução. Nas

Figuras 19a e 19b, linhas pontilhadas verticais demarcam camadas de convolução espacial dos mapas de recurso e linhas pontilhadas e tracejadas horizontais demarcam os três pipelines de convolução que correspondem aos três ciclos de sequenciamento.

[00267] Para cada ciclo de sequenciamento, os dados de entrada incluem um tensor de dimensionalidade n x n x m (por exemplo, o tensor de entrada 1800 na Figura 18a), em que n representa a largura e a altura de um tensor quadrado e m representa o número de canais de entrada, tornando a dimensionalidade dos dados de entrada para os três ciclos n x n x m x t.

[00268] Aqui, cada tensor por ciclo contém, no pixel central de seus canais de imagem, um centro do único agrupamento alvo. O mesmo também retrata emissões de intensidade do único agrupamento alvo, de alguns agrupamentos adjacentes, e do seu plano de fundo circundante capturado em cada um dos canais de imagem em um ciclo de sequenciamento específico. Na Figura 19a, dois canais de imagem exemplificadores são retratados, a saber, o canal vermelho de imagem e o canal verde de imagem.

[00269] Cada tensor por ciclo inclui também canais de distância que suplementam canais de imagem correspondentes (por exemplo, um canal vermelho de distância e um canal verde de distância). Os canais de distância identificam a distância de centro para centro de cada pixel nos canais de imagem correspondentes para o único agrupamento alvo. Cada tensor por ciclo inclui adicionalmente um canal de redimensionamento que redimensiona em pixels os valores de intensidade em cada um dos canais de imagem.

[00270] A arquitetura especializada tem cinco camadas de convolução espacial e duas camadas de convolução temporal. Cada camada de convolução espacial aplica convoluções segregadas com uso de bancos de k filtros de convolução de dimensionalidade j x j x ∂, em que j representa a largura e a altura de um filtro quadrado e ∂ representa sua profundidade. Cada camada de convolução temporal aplica convoluções combinatórias usando um banco de k filtros de convolução de dimensionalidade j x j x α, em que j representa a largura e a altura de um filtro quadrado e α representa sua profundidade.

[00271] A arquitetura especializada tem camadas de pré- classificação (por exemplo, uma camada plana e uma camada densa) e uma camada de saída (por exemplo, uma camada de classificação softmax). As camadas de pré-classificação preparam a entrada para a camada de saída. A camada de saída produz a chamada de base para o único agrupamento alvo no ciclo de sequenciamento atual (tempo t). Redução consistente da dimensionalidade espacial

[00272] As Figuras 19a, 19b e 19c mostram também os mapas de recurso resultantes (representações convoluídas ou representações convoluídas intermediárias ou recursos convoluídos ou mapas de ativação) produzidos pelos filtros de convolução. Começando a partir dos tensores por ciclo, a dimensionalidade espacial dos mapas de recurso resultantes reduz em um tamanho de etapa constante de uma camada de convolução para a próxima um conceito chamado na presente invenção de "a redução consistente de dimensionalidade espacial". Nas Figuras 19a, 19b e 19c, um tamanho de etapa constante exemplificadora de dois é usado para a redução consistente de dimensionalidade espacial.

[00273] A redução consistente de dimensionalidade espacial é expressada pela seguinte formulação: "a dimensionalidade espacial de mapa de recurso atual = a dimensionalidade espacial de mapa de recurso anterior - dimensionalidade espacial de filtro de convolução + 1". A redução consistente de dimensionalidade espacial faz com que os filtros de convolução para progressivamente estreitem o foco de atenção sobre os pixels de agrupamento central e seus pixels vizinhos e gerem mapas de recurso com recursos que capturam as dependências locais entre os pixels centrais de agrupamento e seus pixels vizinhos. Isto por sua vez ajuda com a chamada de base precisa nos agrupamentos cujos centros estão contidos nos pixels centrais de agrupamento.

[00274] As convoluções segregadas das cinco camadas de convolução espacial evitam a mistura de informações entre os três ciclos de sequenciamento e mantêm os três pipelines de convolução.

[00275] As convoluções combinatórias das duas camadas de convolução temporal mistura informações entre os três ciclos de sequenciamento. A primeira camada de convolução temporal convolui ao longo das representações espacialmente convoluídas seguinte e atual respectivamente produzidas para os ciclos de sequenciamento seguinte e atual por uma camada final de convolução espacial. Isso produz uma primeira saída temporal. A primeira camada de convolução temporal também convolui nas representações espacialmente convoluídas atual e anterior respectivamente produzidas para os ciclos de sequenciamento atual e anterior pela camada final de convolução espacial. Isso produz uma segunda saída temporal. A segunda camada de convolução temporal se convolui na primeira e na segunda saídas temporais e produz uma saída temporal final.

[00276] Em algumas implementações, a saída temporal final é fornecida à camada plana para produzir uma saída achatada. A saída achatada é, então, fornecida à camada densa para produzir uma saída densa. A saída densa é processada pela camada de saída para produzir a chamada de base para o único agrupamento alvo no ciclo de sequenciamento atual (tempo t).

[00277] Em algumas implementações, a camada de saída produz semelhanças (pontuações de classificação) de uma base incorporada no único agrupamento alvo no ciclo de sequenciamento atual sendo A, C, T e G, e classifica a base como A, C, T ou G com base nas semelhanças (por exemplo, a base com a semelhança máxima é selecionada, tal como a base A na Figura 19a). Em tais implementações,

as semelhanças são pontuações exponencialmente normalizadas produzidas por uma camada de classificação softmax e soma à unidade.

[00278] Em algumas implementações, a camada de saída deriva um par de saídas para o único agrupamento alvo. O par de saídas identifica um rótulo de classe de uma base incorporada no único agrupamento alvo no ciclo de sequenciamento atual sendo A, C, T ou G, e realizada chamada de base no único agrupamento alvo com base no rótulo de classe. Em uma implementação, um rótulo de classe de 1, 0 identifica uma base A, um rótulo de classe de 0, 1 identifica uma base C, um rótulo de classe de 1, 1 identifica uma base T, e um rótulo de classe de 0, 0 identifica uma base G. Em outra implementação, um rótulo de classe de 1, 1 identifica uma base A, um rótulo de classe de 0, 1 identifica uma base C, um rótulo de classe de 0,5, 0,5 identifica uma base T, e um rótulo de classe de 0, 0 identifica uma base G. Em ainda outra implementação, um rótulo de classe de 1, 0 identifica uma base A, um rótulo de classe de 0, 1 identifica uma base C, um rótulo de classe de 0,5, 0,5 identifica uma base T, e um rótulo de classe de 0, 0 identifica uma base G. Em ainda uma implementação adicional, um rótulo de classe de 1, 2 identifica uma base A, um rótulo de classe de 0, 1 identifica uma base C, um rótulo de classe de 1, 1 identifica uma base T, e um rótulo de classe de 0, 0 identifica uma base G.

[00279] Em algumas implementações, a camada de saída deriva um rótulo de classe para o único agrupamento alvo que identifica uma base incorporada no único agrupamento alvo no ciclo de sequenciamento atual sendo A, C, T ou G, e realiza chamada de base no único agrupamento alvo com base no rótulo de classe. Em uma implementação, um rótulo de classe de 0,33 identifica uma base A, um rótulo de classe de 0,66 identifica uma base C, um rótulo de classe de 1 identifica uma base T, e um rótulo de classe de 0 identifica uma base G. Em outra implementação, um rótulo de classe de 0,50 identifica uma base A, um rótulo de classe de 0,75 identifica uma base C, um rótulo de classe de 1 identifica uma base T, e um rótulo de classe de 0,25 identifica uma base G.

[00280] Em algumas implementações, a camada de saída deriva um único valor de saída, compara o único valor de saída com faixas de valor de classe correspondentes às bases A, C, T e G, com base na comparação, atribui o único valor de saída a uma faixa de valor de classe específica, e realiza chamada de base no único agrupamento alvo com base na atribuição. Em uma implementação, o único valor de saída é derivado com o uso de uma função sigmoide e o único valor de saída está na faixa de 0 a 1. Em outra implementação, uma faixa de valor de classe de 0 a 0,25 representa uma base A, uma faixa de valor de classe de 0,25 a 0,50 representa um intervalo de valores de base C, uma faixa de valor de classe de 0,50 a 0,75 representa uma base T, e uma faixa de valor de classe de 0,75 a 1 representa uma base G.

[00281] O versado na técnica compreenderá que, em outras implementações, a arquitetura especializada pode processar dados de entrada para um número menor ou maior de ciclos de sequenciamento e pode compreender um número menor ou maior de camadas de convolução espacial e temporal. Além disso, a dimensionalidade dos dados de entrada, os tensores por ciclo nos dados de entrada, os filtros de convolução, os mapas de recurso resultantes e a saída podem ser diferentes. Além disso, o número de filtros de convolução em uma camada de convolução pode ser diferente. A mesma pode usar diferentes configurações de preenchimento (padding) e de stride. A mesma pode usar diferentes funções de classificação (por exemplo, sigmoide ou regressão) e pode ou não incluir uma camada totalmente conectada. Ele pode usar convoluções 1D, convoluções 2D, convoluções 3D, convoluções 4D, convoluções 5D, convoluções dilatadas ou atrous, convoluções de transposição, convoluções separáveis em profundidade, convoluções pontuais, convoluções 1 x 1, convoluções de grupo, convoluções achatadas, convoluções espaciais e de canal cruzado, convoluções agrupadas e embaralhados, convoluções espaciais separáveis, e desconvoluções. Ele pode usar uma ou mais funções de perda, como regressão logística/perda logarítmica, perda softmax/entropia cruzada multiclasse, perda por entropia cruzada binária, perda por erro quadrático médio, perda L1, perda L2, perda L1 suave, e perda de Huber. Ele pode usar quaisquer esquemas de paralelismo, eficiência e compressão como TFRecords, codificação comprimida (por exemplo, PNG), nidificação, chamadas paralelas para transformação de mapa, batching, prefetching, paralelismo de modelo, paralelismo de dados e SGD síncrono/assíncrono. Ele pode incluir camadas de upsampling, camadas de downsampling, conexões recorrentes, portas ("gates") e unidades de memória restritas (como uma LSTM ou GRU), blocos residuais, conexões residuais, conexões highway, conexões de salto ("skip connections"), conexões peephole, funções de ativação (por exemplo, funções de transformação não linear como unidade linear retificada (ReLU), ReLU com vazamento, unidade linear exponencial (ELU), tangente sigmoide e hiperbólica (tahn)), camadas de normalização em lote, camadas de regularização, abandono ("dropout"), camadas de pooling (por exemplo, pooling máximo ou médio), camadas de pooling médio global e mecanismos de atenção.

[00282] Tendo descrito a chamado de base em agrupamento único, a discussão se volta agora para a chamada de base em múltiplos agrupamentos. Chamada de base em múltiplos agrupamentos

[00283] Dependendo do tamanho dos dados de entrada e da densidade de agrupamento na célula de fluxo, algo entre dez a trezentos mil agrupamentos recebem simultaneamente chamada de base do chamador de base baseado em rede neural 218 em uma base por entrada. Estendendo isso para as estratégias de paralelismo de dados e/ou paralelismo de modelo implementadas em processadores paralelos,

o uso de um lote ou minilote de tamanho dez resulta em centenas a três milhões de agrupamentos recebendo simultaneamente chamada de base em uma base por lote ou por minilote.

[00284] Dependendo da configuração de sequenciamento (por exemplo, densidade de agrupamento, número de ladrilhos na célula de fluxo), um ladrilho inclui vinte mil a trezentos mil agrupamentos. Em outra implementação, o sequenciador novaSeq da Illumina tem até quatro milhões de agrupamentos por ladrilho. Portanto, uma imagem de sequenciamento do ladrilho (imagem de ladrilho) pode retratar emissões de intensidade de vinte mil a trezentos mil agrupamentos e seu plano de fundo circundante. Assim, em uma implementação, o uso de dados de entrada que incluem toda a imagem do ladrilho resulta em trezentos mil agrupamentos recebendo simultaneamente chamada de base em uma base por entrada. Em outra implementação, o uso de fragmentos de imagem de 15 x 15 pixels de tamanho nos dados de entrada resulta em menos de cem agrupamentos de base recebendo simultaneamente chamada em uma base por base na entrada. O versado na técnica compreenderá que esses números podem variar dependendo da configuração de sequenciamento, da estratégia de paralelismo, dos detalhes da arquitetura (por exemplo, com base nos hiperparâmetros de arquitetura ideal) e da computação disponível.

[00285] A Figura 20 mostra uma implementação de chamada de base simultânea de múltiplos agrupamentos alvo. Os dados de entrada têm três tensores para os três ciclos de sequenciamento discutidos acima. Cada tensor por ciclo (por exemplo, o tensor de entrada 1800 na Figura 18a) retrata a emissões de intensidade de múltiplos agrupamentos alvo a receber chamada de base e o seu plano de fundo circundante capturado em cada um dos canais de imagem em um ciclo de sequenciamento específico. Em outras implementações, alguns agrupamentos adjacentes adicionais, que não recebem chamada de base, também estão incluídos para contexto.

[00286] Na implementação de chamada de base em múltiplos agrupamentos, cada tensor por ciclo inclui canais de distância que suplementam canais de imagem correspondentes (por exemplo, um canal vermelho de distância e um canal verde de distância). Os canais de distância identificam a distância de centro para centro de cada pixel nos canais de imagem correspondentes para o agrupamento mais próximo dentre os múltiplos agrupamentos alvo.

[00287] Na implementação de chamada de base baseada em formato de múltiplos agrupamentos, cada tensor por ciclo inclui canais de distância que suplementam canais de imagem correspondentes (por exemplo, um canal vermelho de distância e um canal verde de distância). Os canais de distância identificam a distância de centro para centro de cada pixel de agrupamento nos canais de imagem correspondentes para o agrupamento ao qual o mesmo pertence ou é atribuído a um agrupamento alvo dentre os múltiplos agrupamentos alvo.

[00288] Cada tensor por ciclo inclui adicionalmente um canal de redimensionamento que redimensiona em pixels os valores de intensidade em cada um dos canais de imagem.

[00289] Na Figura 20, a dimensionalidade espacial de cada tensor por ciclo é maior que aquela mostrada na Figura 19a. Ou seja, na implementação de chamada de base de único agrupamento alvo na Figura 19a, a dimensionalidade espacial de cada tensor por ciclo é 15 x 15, enquanto que na implementação de chamada base de múltiplos agrupamentos na Figura 20, a dimensionalidade espacial de cada tensor de ciclo é 114 x 114. Tendo uma maior quantidade de dados pixelados que retratam emissões de intensidade de agrupamentos adicionais aprimora a precisão de chamadas de base simultaneamente previstas para os múltiplos agrupamentos, de acordo com algumas implementações. Evitando convoluções redundantes

[00290] Além disso, os canais de imagem em cada tensor por ciclo são obtidos a partir dos fragmentos de imagem extraídos das imagens de sequenciamento. Em algumas implementações, existem pixels de sobreposição entre fragmentos de imagem extraída que são espacialmente contíguos (por exemplo, contíguos pela esquerda, direita, topo e fundo). Consequentemente, em uma implementação, os pixels sobrepostos não são submetidos a convoluções redundantes e os resultados de uma convolução anterior são reutilizados em instâncias posteriores quando os pixels sobrepostos são parte das entradas subsequentes.

[00291] Considere, por exemplo, que um primeiro fragmento de imagem de pixels de tamanho n × n é extraído a partir de uma imagem de sequenciamento e um segundo fragmento de imagem de pixels de tamanho m x m é também extraído a partir da mesma imagem de sequenciamento, de modo que o primeiro e o segundo fragmentos de imagem são espacialmente contíguos e compartilham uma região de sobreposição de pixels o x o. Adicionalmente considerar que os pixels o x o são convoluídos como parte do primeiro fragmento de imagem para produzir uma primeira representação convoluída que é armazenada na memória. Então, quando o segundo fragmento de imagem é convoluído, os pixels o x o não são convoluídos novamente e em vez disso a primeira representação convoluída é recuperada a partir da memória e reutilizada. Em algumas implementações, n = m. Em outras implementações, os mesmos não são iguais.

[00292] Os dados de entrada são então processados através das camadas de convolução espacial e temporal da arquitetura especializada para produzir uma saída final de dimensionalidade w x w x k. Também aqui, sob a redução consistente do fenômeno de dimensionalidade espacial, a dimensionalidade espacial é reduzida por um tamanho de etapa constante de dois em cada camada de convolução. Ou seja, começando com uma dimensionalidade espacial de n × n dos dados de entrada, uma dimensionalidade espacial de w x w da saída temporal final é derivada.

[00293] Então, com base na saída temporal final da dimensionalidade espacial de w x w, uma camada de saída produz uma chamada de base para cada unidade no conjunto w x w de unidades. Em uma implementação, a camada de saída é uma camada softmax que produz pontuações de classificação de quatro vias para as quatro bases (A, C, T e G) em uma base de unidade por unidade. Ou seja, é atribuída a cada unidade no conjunto w x w de unidades uma chamada de base com base na pontuação máxima de classificação em um quádruplo softmax correspondente, conforme retratado na Figura 20. Em algumas implementações, o conjunto w x w de unidades é derivado como um resultado do processamento da saída final através de uma camada plana e uma camada densa para produzir uma saída achatada e uma saída densa, respectivamente. Em tais implementações, a saída achatada tem w x w x k elementos e a saída densa tem w x w elementos que formam o conjunto w x w de unidades.

[00294] As chamadas base para os múltiplos agrupamentos alvo são obtidas pela identificação de quais das unidades que receberam chamadas base no conjunto w x w de unidades coincidem com ou correspondem a pixels de agrupamento centrais, isto é, pixels nos dados de entrada que contêm os respectivos centros dos múltiplos agrupamentos alvo. Um dado agrupamento alvo é atribuído à chamada de base da unidade que coincide com ou corresponde ao pixel que contém o centro do dado agrupamento alvo. Em outras palavras, chamadas de base de unidades que não coincidem com ou correspondem aos pixels de agrupamento centrais são filtradas. Essa funcionalidade é operacionalizada por uma camada de filtração de chamada de base, que faz parte da arquitetura especializada em algumas implementações, ou implementada como um módulo de pós-processamento em outras implementações.

[00295] Em outras implementações, as chamadas de base para os múltiplos agrupamentos são obtidas mediante a identificação de quais grupos de unidades de chamada de base no conjunto w x w de unidades cobrem um mesmo agrupamento, isto é, a identificação de grupos de pixels nos dados de entrada que retratam um mesmo agrupamento. Então, para cada agrupamento e seu grupo de pixels correspondente, uma média de pontuações de classificação (probabilidades softmax) das respectivas quatro classes de base (A, C, T e G) é calculada ao longo de pixels no grupo de pixels e a classe de base que tem a mais alta pontuação de classificação média é selecionada para a chamada de base no agrupamento.

[00296] Durante o treino, em algumas implementações, a comparação de verdade absoluta e computação de erro ocorre apenas para aquelas unidades que coincidem com ou correspondem a pixels de agrupamento centrais, de modo que suas chamadas de base previstas são avaliadas em relação às chamadas de base corretas como rótulos de verdade absoluta.

[00297] Tendo descrito a chamada de base em múltiplos agrupamentos, a discussão se volta agora para chamada de base em múltiplos agrupamentos e múltiplos ciclos. Chamada de base em múltiplos agrupamentos e múltiplos ciclos

[00298] A Figura 21 mostra uma implementação de chamada de base simultânea em múltiplos agrupamentos alvo em uma pluralidade de ciclos sucessivos de sequenciamento, produzindo simultaneamente assim uma sequência de chamada de base para cada um dos múltiplos agrupamentos alvo.

[00299] Nas implementações de chamada de base única ou múltipla, a chamada de base em um ciclo de sequenciamento (o ciclo de sequenciamento atual (tempo t)) é prevista com o uso de dados para três ciclos de sequenciamento (os ciclos de sequenciamento atual (tempo t),

anterior/flaqueamento esquerdo (tempo t-1) e seguinte/flanqueamento direito (tempo t+1)), em que os ciclos de sequenciamento de flanqueamento direito e esquerdo fornecem contexto específico de sequência para motivos de tripleto de base e contribuição de segunda ordem de sinais de pré- faseamento e faseamento. Essa relação é expressa pela seguinte formulação: "número de ciclos de sequenciamento para os quais dados estão incluídos nos dados de entrada (t) = número de ciclos de sequenciamento recebendo chamada de base (y) + número de ciclos de sequenciamento de flanqueamento direito e esquerdo (x)."

[00300] Na Figura 21, os dados de entrada incluem t tensores por ciclo para t ciclos de sequenciamento, tornando sua dimensionalidade n x n x m x t, em que n = 114, m = 5 e t = 15. Em outras implementações, essas dimensionalidades são diferentes. Dos t ciclos de sequenciamento, o t° ciclo de sequenciamento e o primeiro ciclo de sequenciamento servem como contextos de flanqueamento direito e esquerdo x, e y ciclos de sequenciamento entre os mesmos recebem chamada de base. Dessa forma, y = 13, x = 2, e t = y + x. Cada tensor por ciclo inclui canais de imagem, canais de distância correspondentes, e um canal de redimensionamento, como o tensor de entrada 1800 na Figura 18a.

[00301] Os dados de entrada com t tensores por ciclo são então processados através das camadas de convolução espacial e temporal da arquitetura especializada para produzir y saídas temporais finais, cada uma das quais corresponde a um respectivo ciclo de sequenciamento dentre y os ciclos de sequenciamento recebendo chamada de base. Cada uma das y saídas temporais finais têm uma dimensionalidade de w x w x k. Também aqui, sob a redução consistente do fenômeno de dimensionalidade espacial, a dimensionalidade espacial é reduzida por um tamanho de etapa constante de dois em cada camada de convolução. Ou seja, começando com uma dimensionalidade espacial n x n dos dados de entrada, uma dimensionalidade espacial w x w de cada uma das saídas dentre as y saídas temporais finais é derivada.

[00302] Então, cada uma das y saídas finais temporais é processada em paralelo por meio de uma camada de saída. Para cada uma das y saídas finais temporais, a camada de saída produz uma chamada de base para cada unidade no conjunto w x w de unidades. Em uma implementação, a camada de saída é uma camada softmax que produz pontuações de classificação de quatro vias para as quatro bases (A, C, T e G) em uma base de unidade por unidade. Ou seja, é atribuída a cada unidade no conjunto w x w de unidades uma chamada de base com base na pontuação máxima de classificação em um quádruplo softmax correspondente, conforme retratado na Figura 20. Em algumas implementações, o conjunto w x w de unidades é derivado para cada uma das y saídas finais temporais como resultado de processar respectivamente a última através de uma camada plana e uma camada densa para produzir saídas achatadas e saídas densas correspondentes. Em tais implementações, cada saída achatada tem w x w x k elementos e cada saída densa tem w x w elementos que formam os conjuntos w x w de unidades.

[00303] Para cada um dos y ciclos de sequenciamento, chamadas de base para os múltiplos agrupamentos alvo são obtidas mediante a identificação de quais das unidades que receberam chamada de base no conjunto w x w correspondente de unidades coincidem com o centro de agrupamento de pixels ou correspondem ao mesmo, isto é, pixels nos dados de entrada que contêm os respectivos centros dos múltiplos agrupamentos alvo. Um dado agrupamento alvo é atribuído à chamada de base da unidade que coincide com ou corresponde ao pixel que contém o centro do dado agrupamento alvo. Em outras palavras, chamadas de base de unidades que não coincidem com ou correspondem aos pixels de agrupamento centrais são filtradas. Essa funcionalidade é operacionalizada por uma camada de filtração de chamada de base, que faz parte da arquitetura especializada em algumas implementações, ou implementada como um módulo de pós-processamento em outras implementações.

[00304] Durante o treino, em algumas implementações, a comparação de verdade absoluta e computação de erro ocorre apenas para aquelas unidades que coincidem com ou correspondem a pixels de agrupamento centrais, de modo que suas chamadas de base previstas são avaliadas em relação às chamadas de base corretas como rótulos de verdade absoluta.

[00305] Em uma base por entrada, o resultado é uma chamada de base para cada um dos múltiplos agrupamentos alvo em cada um dos y ciclos de sequenciamento, isto é, uma sequência de chamada de base de comprimento y para cada um dos múltiplos agrupamentos alvo. Em outras implementações, y é 20, 30, 50, 150, 300, e assim por diante. O versado na técnica compreenderá que esses números podem variar dependendo da configuração de sequenciamento, da estratégia de paralelismo, dos detalhes da arquitetura (por exemplo, com base nos hiperparâmetros de arquitetura ideal) e da computação disponível. Diagramas de dimensionalidade de extremidade a extremidade

[00306] A discussão a seguir usa diagramas de dimensionalidade para ilustrar implementações diferentes de mudanças de dimensionalidade de dados subjacentes envolvidas na produção de chamadas de base a partir de dados de imagem, juntamente com a dimensionalidade dos operadores de dados que efetuam as ditas mudanças de dimensionalidade de dados.

[00307] Nas Figuras 22, 23 e 24, retângulos representam operadores de dados como camadas de convolução espacial e temporal e camada de classificação softmax, e retângulos de canto arredondado representam dados (por exemplo, mapas de recurso) produzidos pelos operadores de dados.

[00308] A Figura 22 ilustra o diagrama de dimensionalidade 2200 para a implementação de chamada de base de agrupamento único. Observe que a "dimensão de ciclo" da entrada é três e continua a ser isso para os mapas de recurso resultantes até a primeira camada de convolução temporal. A dimensão de ciclo de três apresenta os três ciclos de sequenciamento, e sua continuidade representa que mapas de recurso para os três ciclos de sequenciamento são separadamente gerados e convoluídos e recurso algum é misturado entre os três ciclos de sequenciamento. Os pipelines de convolução segregados são efetuados pelos filtros de convolução segregados em profundidade das camadas de convolução espacial. Observe que a "dimensionalidade de profundidade" dos filtros de convolução segregados em profundidade das camadas de convolução espacial é um. Isto é o que capacita os filtros de convolução segregados em profundidade para convoluir sobre dados e mapas de recurso resultantes de um único dado ciclo de sequenciamento, isto é, intraciclo, e impede os mesmos de convoluir sobre dados e mapas de recurso resultantes de qualquer outro ciclo de sequenciamento.

[00309] Em contrapartida, observe que a dimensionalidade de profundidade dos filtros de convolução combinatórios em profundidade das camadas de convolução temporal é dois. Isto é o que capacita os filtros de convolução combinatórios em profundidade para convoluir em grupo sobre mapas de recurso resultantes a partir de múltiplos ciclos de sequenciamento e misturar recursos entre os ciclos de sequenciamento.

[00310] Observe também a redução consistente da "dimensionalidade espacial" por um tamanho de etapa constante de dois.

[00311] Além disso, um vetor com quatro elementos é exponencialmente normalizado pela camada softmax para produzir pontuações de classificação (isto é, pontuações de confiança, probabilidades, semelhanças, pontuações softmax) para as quatro bases (A, C, T e G). A base com a pontuação softmax mais alta (máxima) é atribuída ao único agrupamento alvo recebendo chamada de base no ciclo de sequenciamento atual.

[00312] O versado na técnica compreenderá que, em outras implementações, as dimensionalidades podem variar dependendo da configuração de sequenciamento, a estratégia de paralelismo, os detalhes da arquitetura (por exemplo, com base nos hiperparâmetros de arquitetura ideal), e computação disponível.

[00313] A Figura 23 ilustra o diagrama de dimensionalidade 2300 para a implementação de chamada de base de ciclo de sequenciamento único e múltiplos agrupamentos. A discussão acima sobre o ciclo, profundidade, e dimensionalidade espacial em relação à chamada de base de agrupamento único se aplica a essa implementação.

[00314] Aqui, a camada softmax que opera independentemente em cada uma das 10.000 unidades e produz um respectivo quádruplo de pontuações softmax para cada uma das 10.000 unidades. O quádruplo corresponde às quatro bases (A, C, T e G). Em algumas implementações, as 10.000 unidades são derivadas a partir da transformação de 64.0000 unidades achatadas em 10.000 unidades densas.

[00315] Então, a partir do quádruplo da pontuação softmax de cada uma das 10.000 unidades, a base com a pontuação softmax mais alta em cada quádrupla é atribuída a uma respectiva unidade das 10.000 unidades.

[00316] Então, das 10.000 unidades, aquelas 2.500 unidades são selecionadas que correspondem a 2.500 pixels de agrupamento centrais contendo respectivos centros dos 2.500 agrupamentos alvo recebendo simultaneamente chamada de base no ciclo de sequenciamento atual. As bases atribuídas às 2.500 unidades selecionadas são por sua vez atribuídas aos agrupamentos alvo correspondentes dentre os 2.500 agrupamentos alvo.

[00317] O versado na técnica compreenderá que, em outras implementações, as dimensionalidades podem variar dependendo da configuração de sequenciamento, da estratégia de paralelismo, dos detalhes da arquitetura (por exemplo, com base nos hiperparâmetros de arquitetura ideal), e computação disponível.

[00318] A Figura 24 ilustra o diagrama de dimensionalidade 2400 para a implementação de chamada em múltiplos agrupamentos em múltiplos ciclos de sequenciamento. A discussão acima sobre o ciclo, a profundidade e a dimensionalidade espacial em relação à chamada de base em agrupamento único se aplica a essa implementação.

[00319] Adicionalmente, a discussão acima sobre a classificação de chamada de base baseada em softmax em relação à chamada de base em múltiplos agrupamentos também se aplica aqui. No entanto, aqui, a classificação de chamada de base baseada em softmax dos 2.500 agrupamentos alvo ocorre em paralelo para cada um dos treze ciclos de sequenciamento que receberam chamada de base, produzindo simultaneamente assim treze chamadas de base para cada um dos 2.500 agrupamentos alvo.

[00320] O versado na técnica compreenderá que, em outras implementações, as dimensionalidades podem variar dependendo da configuração de sequenciamento, da estratégia de paralelismo, dos detalhes da arquitetura (por exemplo, com base nos hiperparâmetros de arquitetura ideal), e computação disponível. Entrada arranjada em matriz v/s entrada empilhada

[00321] A discussão se volta agora para as duas configurações nas quais os dados de entrada de múltiplos ciclos para o chamador baseado em rede neural podem ser dispostos. A primeira configuração é chamada de "entrada arranjada em matriz" e a segunda configuração é chamada de "entrada empilhada". A entrada arranjada em matriz é mostrada na Figura 25a e é discutida acima em relação às Figuras 19a a 24. A entrada arranjada em matriz codifica cada entrada do ciclo de sequenciamento em uma coluna/bloco separado devido ao fato de que os fragmentos de imagem nas entradas por ciclo estão desalinhados uns em relação aos outros devido ao erro de registro residual. A arquitetura especializada é usada com a entrada arranjada em matriz para segregar o processamento de cada uma das colunas/blocos separados. Além disso, os canais de distância são calculados com o uso de centros de agrupamento transformados para levar em conta os desalinhamentos entre fragmentos de imagem em um ciclo e entre fragmentos de imagem ao longo de ciclos.

[00322] Em contrapartida, a entrada empilhada, mostrada na Figura 25b, codifica as entradas de diferentes ciclos de sequenciamento em uma única coluna/bloco. Em uma implementação, isso elimina a necessidade de usar a arquitetura especializada devido ao fato de que os fragmentos de imagem na entrada empilhada estão alinhados uns com os outros através de transformação afim e interpolação de intensidade, que eliminam o erro de registro residual entre ciclos e dentro dos ciclos. Em algumas implementações, a entrada empilhada tem um canal de redimensionamento comum para todas as entradas.

[00323] Em outra implementação, a interpolação de intensidade é usada para enquadrar novamente ou deslocar os fragmentos de imagem de modo que o centro do pixel central de cada fragmento de imagem coincida com o centro do único agrupamento-alvo recebendo chamada de base. Isso elimina a necessidade de usar os canais de distância suplementares devido ao fato de que todos os pixels não centrais são equidistantes do centro do único agrupamento alvo. Entrada empilhada sem os canais de distância é mencionada neste documento como a "entrada enquadrada novamente" e é ilustrada na Figura 27.

[00324] No entanto, o novo enquadramento pode não ser viável com implementações de chamada de base envolvendo múltiplos agrupamentos devido ao fato de que os fragmentos de imagem contêm múltiplos pixels de agrupamento central que recebem chamada de base. Entrada empilhada sem os canais de distância e sem o novo enquadramento é mencionada neste documento como a "entrada alinhada" e é ilustrada nas Figuras 28 e 29. Entrada alinhada pode ser usada quando o cálculo dos canais de distância não é desejado (por exemplo, devido a limitações de computação) e o novo enquadramento não é viável.

[00325] A seção seguinte discute várias implementações de chamada de base que não usam a arquitetura especializada e os canais de distância suplementares, em vez de usar camadas e filtros de convolução padrão. Entrada enquadrada novamente: Fragmentos de imagem alinhados sem os canais de distância

[00326] A Figura 26a retrata uma implementação de novo enquadramento de pixels 2600a de um fragmento de imagem 2602 para centralizar um centro de um agrupamento alvo recebendo chamada de base em um pixel central. O centro do agrupamento alvo (em roxo) cai dentro do pixel central do fragmento de imagem 2602, mas está em um deslocamento (em vermelho) a partir do centro do pixel central, conforme retratado na Figura 2600a.

[00327] Para eliminar o deslocamento, um re-enquadrador 2604 desloca o fragmento de imagem 2602 mediante a interpolação da intensidade dos pixels para compensar o novo enquadramento e produz um fragmento de imagem enquadrado novamente/deslocada 2606. No fragmento de imagem deslocado 2606, o centro do pixel central coincide com o centro do agrupamento alvo. Além disso, os pixels não centrais são equidistantes do centro do agrupamento alvo. A interpolação pode ser realizada por extração de intensidade do vizinho mais próximo, extração de intensidade baseada em gauss, extração de intensidade com base na média da área de subpixel 2 x 2, extração de intensidade baseada na área de subpixel mais brilhante de 2 x 2, extração de intensidade baseada na média da área de subpixel 3 x 3, extração de intensidade bilinear, extração de intensidade bicúbica e/ou extração de intensidade baseada na cobertura da área ponderada. Essas técnicas são descritas em detalhe no Apêndice intitulado "Intensity Extraction Methods".

[00328] A Figura 26b retrata outro fragmento exemplificativo de imagem 2600b enquadrado novamente/deslocado no qual (i) o centro do pixel central coincide com o centro do agrupamento alvo e (ii) os pixels não centrais são equidistantes do centro do agrupamento alvo. Esses dois fatores eliminam a necessidade de fornecer um canal de distância suplementar devido ao fato de que todos os pixels não centrais têm o mesmo grau de proximidade com o centro do agrupamento alvo.

[00329] A Figura 27 representa uma implementação da chamada de base a um único agrupamento-alvo em um ciclo de sequenciamento atual usando uma rede neural convolucional e a entrada enquadrada novamente. Na implementação ilustrada, a entrada enquadrada novamente inclui um conjunto de fragmentos de imagem atual para um ciclo de sequenciamento atual (t) recebendo chamada de base, um conjunto de fragmentos de imagem anterior para um ciclo de sequenciamento anterior (t-1), e um conjunto de fragmentos de imagem seguinte para um ciclo de sequenciamento seguinte (t+1). Cada conjunto de fragmento de imagem tem um fragmento de imagem para um respectivo canal dentre um ou mais canais de imagem. A Figura 27 retrata dois canais de imagem, um canal vermelho e um canal verde. Cada fragmento de imagem tem dados de intensidade de pixel para pixels que cobrem um agrupamento alvo recebendo chamado de base, alguns agrupamentos adjacentes e seu plano de fundo circundante. A entrada enquadrada novamente inclui também um canal de redimensionamento comum.

[00330] A entrada enquadrada novamente não inclui quaisquer canais de distância devido ao fato de que fragmentos de imagem são enquadrados novamente ou deslocados para o centro no centro do agrupamento-alvo, conforme explicado acima em relação às Figuras 26a a 26b. Além disso, os fragmentos de imagem são alinhados entre si para remover o erro de registro residual entre ciclos e intra-ciclo. Em uma implementação, isso é feito com o uso de transformação afim e interpolação de intensidade, detalhes adicionais podem ser encontrados nos Apêndices 1, 2, 3, e 4. Esses fatores removem a necessidade de usar a arquitetura especializada, e em vez disso uma rede neural convolucional padrão é usada com a entrada enquadrada novamente.

[00331] Na implementação ilustrada, a rede neural convolucional padrão 2700 inclui sete camadas de convolução padrão que usam de filtros de convolução padrão. Isto significa que não existem pipelines de convolução segregados para evitar a mistura de dados entre os ciclos de sequenciamento (uma vez que os dados estão alinhados e podem ser misturados). Em algumas implementações, o fenômeno redução consistente de dimensionalidade espacial é usado para ensinar os filtros de convolução padrão a atender o centro de agrupamento central e seus pixels vizinhos mais do que outros pixels.

[00332] A entrada enquadrada novamente é então processada através das camadas de convolução padrão para produzir uma representação convoluída final. Com base na última representação convoluída, a chamada de base para o agrupamento alvo no ciclo de sequenciamento atual é obtida da forma similar com o uso de camadas planas, densas e de classificação conforme discutido acima em relação à Figura 19c.

[00333] Em algumas implementações, o processo é iterado em uma pluralidade de ciclos de sequenciamento para produzir uma sequência de chamadas de base para o agrupamento alvo.

[00334] Em outras implementações, o processo é iterado em uma pluralidade de ciclos de sequenciamento para uma pluralidade de agrupamentos alvo para produzir uma sequência de chamadas de base para cada agrupamento alvo na pluralidade de agrupamentos alvo. Entrada alinhada: Fragmentos de imagem alinhados sem os canais de distância e o novo enquadramento

[00335] A Figura 28 mostra uma implementação de chamada de base em múltiplos agrupamentos alvos no ciclo de sequenciamento atual usando a rede neural de convolução padrão e a entrada alinhada. O novo enquadramento não é viável aqui devido ao fato de que fragmentos de imagem contêm múltiplos pixels de agrupamento central que estão recebendo chamada de base. Como resultado, os fragmentos de imagem na entrada alinhada não são enquadrados novamente. Adicionalmente, os canais de distância suplementares não estão incluídos devido a considerações de computação, de acordo com uma implementação.

[00336] A entrada alinhada é, então, processada através das camadas de convolução padrão para produzir uma representação convoluída final. Com base na representação convoluída final, uma chamada de base para cada um dos agrupamentos alvo é obtida ao ciclo de sequenciamento atual do modo similar com o uso de camadas plana (opcional), densa (opcional), de classificação e de filtração de chamada de base conforme discutido acima em relação à Figura 20.

[00337] A Figura 29 mostra uma implementação de chamada de base em múltiplos agrupamentos alvo em uma pluralidade de ciclos de sequenciamento usando a rede neural de convolução padrão e a entrada alinhada. A entrada alinhada é processada através das camadas de convolução padrão para produzir uma representação convoluída final para cada um dos y ciclos de sequenciamento recebendo chamada de base. Com base nas y representações convoluídas finais, uma chamada de base para cada um dos agrupamentos alvo é obtida para cada um dos y ciclos de sequenciamento recebendo chamada de base de maneira similar com o uso de camadas plana (opcional), densa (opcional), de classificação e de filtração de chamada de base conforme discutido acima em relação à Figura 21.

[00338] O indivíduo versado na técnica compreenderá que, em outras implementações, a rede neural convolucional padrão pode processar entrada enquadrada novamente para um número menor ou maior de ciclos de sequenciamento e pode compreender um número menor ou maior de camadas de convolução padrão. Além disso, a dimensionalidade da entrada enquadrada novamente, os tensores por ciclo na entrada enquadrada novamente, os filtros de convolução, os mapas de recurso resultante e a saída podem ser diferentes. Além disso, o número de filtros de convolução em uma camada de convolução pode ser diferente. Ele pode usar convoluções 1D, convoluções 2D, convoluções 3D, convoluções 4D, convoluções 5D, convoluções dilatadas ou atrous, convoluções de transposição, convoluções separáveis em profundidade, convoluções pontuais, convoluções 1 x 1, convoluções de grupo, convoluções achatadas, convoluções espaciais e de canal cruzado, convoluções agrupadas e embaralhados, convoluções espaciais separáveis, e desconvoluções. Ele pode usar uma ou mais funções de perda, como regressão logística/perda logarítmica, perda softmax/entropia cruzada multiclasse, perda por entropia cruzada binária, perda por erro quadrático médio, perda L1, perda L2, perda L1 suave, e perda de Huber. Ele pode usar quaisquer esquemas de paralelismo, eficiência e compressão como TFRecords, codificação comprimida (por exemplo, PNG), nidificação, chamadas paralelas para transformação de mapa, batching, prefetching, paralelismo de modelo, paralelismo de dados e SGD síncrono/assíncrono. Ele pode incluir camadas de upsampling, camadas de downsampling, conexões recorrentes, portas ("gates") e unidades de memória restritas (como uma LSTM ou GRU), blocos residuais, conexões residuais, conexões highway, conexões de salto ("skip connections"), conexões peephole, funções de ativação (por exemplo, funções de transformação não linear como unidade linear de retificação

(ReLU), ReLU com vazamento, unidade linear exponencial (ELU), tangente de sigmoide e hiperbólica (tanh)), camadas de normalização em lote, camadas de regularização, abandono ("dropout"), camadas de pooling (por exemplo, pooling máximo ou médio), camadas de pooling médio global e mecanismos de atenção. Treinamento

[00339] A Figura 30 mostra uma implementação do treinamento 3000 do chamador de base baseado em rede neural 218. Com ambas as arquiteturas especializada e padrão, o chamador de base baseado em rede neural 218 é treinado com o uso de uma técnica de atualização de gradiente baseada em retropropagação que compara as chamadas de base previstas 3004 contra as chamadas de base corretas 3008 e computa um erro 3006 com base na comparação. O erro 3006 é então usado para calcular gradientes, que são aplicados aos pesos e parâmetros do chamador de base baseado em rede neural 218 durante a retropropagação

3010. O treinamento 3000 é operacionalizado pelo treinador 1510 com o uso de um algoritmo de atualização do gradiente estocástico como ADAM.

[00340] O treinador 1510 usa os dados de treinamento 3002 (derivados a partir das imagens de sequenciamento 108) para treinar o chamador de base baseado em rede neural 218 ao longo de milhares e milhões de iterações da propagação 3012 que produz as chamadas de base previstas 3004 e a retropropagação 3010 que atualiza os pesos e parâmetros com base no erro 3006. Detalhes adicionais sobre o treinamento 3000 podem ser encontrados no Apêndice intitulado "Deep Learning Tools". Chamador base baseado em CNN-RNN Rede neural híbrida

[00341] A Figura 31a retrata uma implementação de uma rede neural híbrida 3100a que é usada como o chamador de base baseado em rede neural 218. A rede neural híbrida 3100a compreende ao menos um módulo de convolução 3104 (ou rede neural convolucional (CNN)) e ao menos um módulo recorrente 3108 (ou rede neural recorrete (RNN)). O módulo recorrente 3108 usa e/ou recebe entradas do módulo de convolução 3104.

[00342] O módulo de convolução 3104 processa os dados de entrada 3102 através de uma ou mais camadas de convolução e produz saída de convolução 3106. Em uma implementação, os dados de entrada 3102 incluem apenas canais de imagem ou dados de imagem como a entrada principal, conforme discutido acima na seção intitulada "Entrada ". Os dados de imagem fornecidos à rede neural híbrida 3100a podem ser iguais aos dados de imagem 202 descritos acima.

[00343] Em outra implementação, os dados de entrada 3102, além dos canais de imagem ou dos dados de imagem, incluem também canais suplementares como os canais de distância, o canal de redimensionamento, as coordenadas de centro de agrupamento e/ou as informações de atribuição de agrupamento, conforme discutido acima na seção intitulada "Entrada ".

[00344] Os dados de imagem (isto é, os dados de entrada 3102) retratam emissões de intensidade de um ou mais agrupamentos e o seu plano de fundo circundante. O módulo de convolução 3104 processa os dados de imagem para uma série de ciclos de sequenciamento de uma rodada de sequenciamento através das camadas de convolução e produz uma ou mais representações convoluídas dos dados de imagem (isto é, a saída convoluída 3106).

[00345] A série de ciclos de sequenciamento pode incluir dados de imagem para t ciclos de sequenciamento estão para receber chamada de base, em que t é qualquer número entre 1 e 1.000. Observa-se resultados de chamada de base precisos quando t está entre quinze e vinte um.

[00346] O módulo recorrente 3110 convolui a saída convoluída 3106 e produz saída recorrente 3110. Em particular, o módulo recorrente 3110 produz representações de estado oculto atuais (isto é, a saída recorrente 3110) com base na convolução das representações convoluídas e representações de estado oculto anteriores.

[00347] Em uma implementação, o módulo recorrente 3110 aplica convoluções tridimensionais (3D) às representações convoluídas e representações de estado oculto anteriores e produz as representações de estado oculto atuais, matematicamente formuladas como: ht =W13DCONV Vt +W 23DCONV ht −1 , em que ht representa uma representação de estado oculto atual produzida em uma etapa de tempo atual t , Vt representa um conjunto ou grupo de representações convolvidas que formam um volume de entrada em uma janela deslizante atual na etapa de tempo atual t , W 13 D CONV representa pesos de um primeiro filtro de convolução 3D aplicado a Vt , ht −1 representa uma representação de estado oculto anterior produzida em uma etapa de tempo anterior t − 1 , e W 23 D CONV representa pesos de um segundo pesos de filtro de convolução 3D aplicado a ht −1 .

[00348] Em algumas implementações, W 13 D CONV e W 23 D CONV são iguais porque os pesos são compartilhados.

[00349] Um módulo de saída 3112 produz então chamadas de base 3114 com base na saída recorrente 3110. Em algumas implementações, o módulo de saída 3112 compreende uma ou mais camadas totalmente conectadas e uma camada de classificação (por exemplo, softmax). Em tais implementações, as representações de estado oculto atuais são processadas através das camadas totalmente conectadas e as saídas das camadas totalmente conectadas são processadas através da camada de classificação para produzir as chamadas de base 3114.

[00350] As chamadas de base 3114 incluem uma chamada de base para ao menos um dentre os agrupamentos e para ao menos um dos ciclos de sequenciamento. Em algumas implementações, as chamadas de base 3114 incluem uma chamada de base para cada um dos agrupamentos e para cada um dos ciclos de sequenciamento. Assim, por exemplo, quando os dados de entrada 3102 incluem dados de imagem para vinte e cinco agrupamentos e por quinze ciclos de sequenciamento, as chamadas de base 3102 incluem uma sequência de chamada de base de quinze chamadas de base para cada um dos vinte e cinco agrupamentos. Convoluções 3D

[00351] A Figura 31b mostra uma implementação de convoluções 3D 3100b usada pelo módulo recorrente 3110 da rede neural híbrida 3100b para produzir as representações de estado oculto atuais.

[00352] Uma convolução 3D é uma operação matemática em que cada voxel presente no volume de entrada é multiplicado por um voxel na posição equivalente do núcleo de convolução. No fim, a soma dos resultados é adicionada ao volume de saída. Na Figura 31b, é possível observar a representação da operação de convolução 3D, em que os voxels 3116a destacados na entrada 3116 são multiplicados com seus respectivos voxels no núcleo 3118. Após esses cálculos, sua soma 3120a é adicionada à saída 3120.

[00353] Visto que as coordenadas da entrada de volume são dadas por (x, y, z) e o núcleo de convolução tem tamanho (P, Q, R), a operação de convolução 3D pode ser matematicamente definida como: P −1 Q −1 R −1 Oxyz =    p =0 q =0 r =0 K pqr I ( x + p ) ( y + q ) ( z + r ) , em que O é o resultado da convolução, I é o volume de entrada, K é o núcleo de convolução, e ( p, q, r ) são as coordenadas de K .

[00354] O termo tendência é omitido da equação acima para melhorar a clareza.

[00355] As convoluções 3D, além de extrair informações espaciais de matrizes como convoluções 2D, extraem informações presentes entre matrizes consecutivas. Isto lhes permite mapear tanto as informações espaciais de objetos 3D quanto informações temporais de um conjunto de imagens sequenciais. Módulo de convolução

[00356] A Figura 32 ilustra uma implementação de processamento, através de uma cascata de camadas de convolução 3200 do módulo de convolução 3104, dados de entrada por ciclo 3202 para um único ciclo de sequenciamento entre a série de t ciclos de sequenciamento a receber chamada de base.

[00357] O módulo de convolução 3104 processa separadamente cada dado de entrada por ciclo em uma sequência de dados de entrada por ciclo através da cascata de camadas de convolução 3200. A sequência de dados de entrada por ciclo é gerada para uma série de t ciclos de sequenciamento de uma rodada de sequenciamento que estão para receber chamada de base, em que t é qualquer número entre 1 e 1.000. Assim, por exemplo, quando a série inclui quinze ciclos de sequenciamento, a sequência de dados de entrada por ciclo compreende quinze dados de entrada por ciclo diferentes.

[00358] Em uma implementação, cada dado de entrada por ciclo inclui apenas canais de imagem (por exemplo, um canal vermelho e um canal verde) ou dados de imagem (por exemplo, os dados de imagem 202 descritos acima). Os canais de imagem ou os dados de imagem por ciclo retratam emissões de intensidade de um ou mais agrupamentos e seu plano de fundo circundante capturado em um respectivo ciclo de sequenciamento na série. Em outra implementação, cada dado de entrada por ciclo, para além dos canais de imagem ou dos dados de imagem, inclui também canais suplementares como os canais de distância e o canal de redimensionamento (por exemplo, os dados de entrada 1800 descritos acima).

[00359] Na implementação ilustrada, os dados de entrada por ciclo 3202 incluem dois canais de imagem, a saber, um canal vermelho e um canal verde, para o ciclo de sequenciamento único dentre a série de t ciclos de sequenciamento a receber chamada de base. Cada canal de imagem é codificado em um fragmento de imagem de tamanho 15 x 15. O módulo de convolução 3104 compreende cinco camadas de convolução. Cada camada de convolução tem um banco de vinte e cinco filtros de convolução de tamanho 3 x 3. Adicionalmente, os filtros de convolução usam o chamado preenchimento SAME que preserva a altura e a largura das imagens ou tensores de entrada. Com o preenchimento SAME, um preenchimento é adicionado aos recursos de entrada de modo que o mapa de recurso de saída tem o mesmo tamanho que os recursos de entrada. Em contrapartida, o chamado preenchimento VALID significa sem preenchimento.

[00360] A primeira camada de convolução 3204 processa os dados de entrada por ciclo 3202 e produz uma primeira representação convoluída 3206 de tamanho 15 x 15 x 25. A segunda camada de convolução 3208 processa a primeira representação convoluída 3206 e produz uma segunda representação convoluída 3210 de tamanho 15 x 15 x

25. A terceira camada de convolução 3212 processa a segunda representação convoluída 3210 e produz uma terceira representação convoluída 3214 de tamanho 15 x 15 x 25. A quarta camada de convolução 3216 processa a terceira representação convoluída 3214 e produz uma quarta representação convoluída 3218 de tamanho 15 x 15 x 25. A quinta camada de convolução 3220 processa a quarta representação convoluída 3218 e produz uma quinta representação convoluída 3222 de tamanho 15 x 15 x 25. Observe que o preenchimento SAME preserva as dimensões espaciais das representações convoluídas resultantes (por exemplo, 15 x 15). Em algumas implementações, o número de filtros de convolução nas camadas de convolução é uma potência de dois, como 2, 4, 16, 32, 64, 128, 256, 512 e 1.024.

[00361] À medida que as convoluções se tornam mais profundas, as informações podem ser perdidas. Para levar isso em conta, em algumas implementações, utiliza-se conexões de ignorar (1) para reintroduzir os dados de entrada por ciclo originais e (2) para combinar recursos espaciais de baixo nível extraídos pelas camadas de convolução anteriores com recursos espaciais de alto nível extraídos por camadas de convolução posteriores. Observa-se que isso melhora a precisão de chamada de base.

[00362] A Figura 33 retrata uma implementação de mistura 3300 dos dados de entrada por ciclo do único ciclo de sequenciamento 3202 com suas representações convoluídas correspondentes 3206, 3210, 3214, 3218 e 3222 produzidas pela cascata de camadas de convolução 3200 do módulo de convolução 3104. As representações convoluídas 3206, 3210, 3214, 3218 e 3222 são concatenadas para formar uma sequência de representações convoluídas 3304, que por sua vez é concatenada com os dados de entrada por ciclo 3202 para produzir uma representação mista

3306. Em outras implementações, soma é usada em vez de concatenação. Além disso, a mistura 3300 é operacionalizada pelo misturador 3302.

[00363] Um achatador 3308 então achata a representação mista 3306 e produz uma representação mista achatada por ciclo 3310. Em algumas implementações, a representação mista achatada 3310 é uma matriz de vetor dimensional ou bidimensional (2D) alta que compartilha pelo menos um tamanho de dimensão com os dados de entrada por ciclo 3202 e as representações convoluídas 3206, 3210, 3214, 3218 e 3222 (por exemplo, 15 x 1905, isto é, dimensão em mesma fileira). Isso induz a simetria nos dados que facilita a extração de recursos em convoluções 3D a jusante.

[00364] As Figuras 32 e 33 ilustram o processamento dos dados de imagem por ciclo 3202 para o ciclo de sequenciamento único dentre a série de t ciclos de sequenciamento a receber chamada de base. O módulo de convolução 3104 separadamente processa respectivos dados de imagem por ciclo para cada um dentre os t ciclos de sequenciamento e produz uma respectiva apresentação mista achatada por ciclo para cada um dos t ciclos de sequenciamento. Empilhamento

[00365] A Figura 34 mostra uma implementação de dispor representações mistas achatadas de ciclos de sequenciamento sucessivos como uma pilha 3400. Na implementação ilustrada, quinze representações mistas achatadas 3204a a 3204o para quinze ciclos de sequenciamento são empilhadas na pilha 3400. A pilha 3400 é um volume de entrada 3D que disponibiliza os recursos de ambas as dimensões espaciais e temporais (isto é, múltiplos ciclos de sequenciamento) em um mesmo campo receptivo de um filtro de convolução 3D. O empilhamento é operacionalizado pelo empilhador 3402. Em outras implementações, a pilha 3400 pode ser um tensor de qualquer dimensionalidade (por exemplo, 1D, 2D, 4D, 5D, etc.). Módulo recorrente

[00366] Usou-se processamento recorrente para capturar dependências a longo prazo nos dados de sequenciamento e, em particular, para levar em conta as contribuições de segunda ordem nas imagens de sequenciamento ao longo de ciclos de pré-faseamento e faseamento. O processamento recorrente é usado para a análise de dados sequenciais devido ao uso de etapas de tempo. Uma representação de estado oculto atual em uma etapa de tempo atual é uma função (i) da representação anterior de estado oculto de uma etapa de tempo anterior e (ii) da entrada atual na etapa de tempo atual.

[00367] O módulo recorrente 3108 submete a pilha 3400 a aplicação recorrente de convoluções 3D (isto é, processamento recorrente 3500) em direções para frente e para trás e produz chamadas de base para cada um dos agrupamentos em cada um dos t ciclos de sequenciamento na série. As convoluções 3D são usadas para extrair os recursos espaço-temporais de um subconjunto das representações mistas achatadas na pilha 3400 em uma base de janela deslizante. Cada janela deslizante (w) corresponde a um respectivo ciclo de sequenciamento e é destaque na Figura 35a em laranja. Em algumas implementações, w é parametrizado para ser 1, 2, 3, 5, 7, 9, 15, 21, etc., dependendo do número total de ciclos de sequenciamento recebendo simultaneamente chamada de base. Em uma implementação, w é uma fração do número total de ciclos de sequenciamento recebendo simultaneamente chamada de base.

[00368] Assim, por exemplo, considere que cada janela deslizante contém três representações mistas achatadas sucessivas da pilha 3400 que compreende as quinze representações achatadas 3204a a 3204o. Então, as três primeiras representações mistas achatadas 3204a a 3204c na primeira janela deslizante correspondem ao primeiro ciclo de sequenciamento, as três representações mistas seguintes 3204b a 3204d na segunda janela deslizante correspondem ao segundo ciclo de sequenciamento, e assim por diante. Em algumas implementações, o preenchimento é usado para codificar o número adequado de representações mistas achatadas na janela deslizante final correspondente ao ciclo de sequenciamento final, começando com a representação mista achatada final 3204o.

[00369] Em cada etapa de tempo, o módulo recorrente 3108 aceita (1) a entrada atual x(t) e (2) a representação anterior de estado oculto h(t-1) e computa a representação atual de estado oculto h(t). A entrada atual x(t) inclui apenas um subconjunto das representações mistas achatadas da pilha 3400 que se encontram na janela deslizante atual ((w), em laranja). Portanto, cada entrada atual x(t), em cada etapa de tempo, é um volume 3D de uma pluralidade de representações mistas achatadas (por exemplo, 1, 2, 3, 5, 7, 9, 15 ou 21 representações mistas achatadas, dependendo de w). Por exemplo, quando (i) uma única representação mista achatada for bidimensional (2D) com dimensões 15 x 1905 e (ii) w é 7, então cada entrada atual x(t), em cada etapa de tempo, é um volume 3D com dimensões 15 x 1905 x 7.

[00370] O módulo recorrente 3108 aplica uma primeira convolução 3D ( W 13 D CONV ) à entrada atual x(t) e uma segunda convolução 3D ( W 23 D CONV ) à representação de estado oculto anterior h(t-1) para produzir a representação de estado oculto atual h(t). Em algumas implementações, W 13 D CONV e W 23 D CONV são iguais porque os pesos são compartilhados.

Processamento restrito

[00371] Em uma implementação, o módulo recorrente 3108 processa a entrada atual x(t) e a representação de estado oculto anterior h(t-1) através de uma rede restrita como uma rede de memória de longo prazo (LSTM) ou uma rede de unidade recorrente bloqueada (GRU). Por exemplo, na implementação LSTM, a entrada atual x(t), juntamente com a representação de estado oculto anterior h(t-1), é processada através de cada uma das quatro portas de uma unidade LSTM: porta de entrada, porta de ativação, porta de esquecimento e porta de saída. Isso é ilustrado na Figura 35b, que mostra uma implementação de processamento 3500b da entrada atual x(t) e da representação de estado oculto anterior h(t-1) através de uma unidade de LSTM que aplica convoluções 3D na entrada atual x(t) e na representação de estado oculto anterior h(t-1) e produz a representação de estado oculto atual h(t) como saída. Em um tipo de implementação, os pesos das portas de entrada, ativação, esquecimento e saída aplicam convoluções 3D.

[00372] Em algumas implementações, as unidades selecionadas (LSTM ou GRU) não usam as funções de não linearidade/squashing como sigmoide e tangente hiperbólica.

[00373] Em uma implementação, a entrada atual x(t), a representação de estado oculto anterior h (t-1) e a representação de estado oculto atual h(t) são todas volume 3D com a mesma dimensionalidade e são processadas através das portas de entrada, ativação, esquecimento e saída ou produzidas pelas mesmas como volume 3D.

[00374] Em uma implementação, as convoluções 3D do módulo recorrente 3108 usam um banco de vinte e cinco de filtros de convolução de tamanho 3 x 3, juntamente com o preenchimento SAME. Em algumas implementações, o tamanho dos filtros de convolução é 5 x 5. Em algumas implementações, o número de filtros de convolução usados pelo módulo recorrente 3108 são fatorados por uma potência de dois, como 2, 4, 16, 32, 64, 128, 256, 512 e 1.024. Processamento bidirecional

[00375] O módulo recorrente 3108 primeiro processa a pilha 3400 desde o começo até o fim (de cima para baixo) na base de janela deslizante e produz uma sequência de representações de estado oculto → → atuais (vetores) para a travessia para frente h t = 3DCONV ( xt + h t −1 ) .

[00376] O módulo recorrente 3108 então processa a pilha 3400 a partir do fim até o começo (de baixo para cima) na base de janela deslizante e produz uma sequência de representações de estado oculto atuais (vetores) para a travessia para trás-para frente   h t = 3DCONV ( xt + h t −1 ) .

[00377] Em algumas implementações, para ambas as direções, em cada etapa de tempo, o processamento usa as portas de uma LSTM ou uma GRU. Por exemplo, em cada etapa de tempo, uma entrada atual para frente x(t) é processada através das portas de entrada, ativação,

esquecimento e saída de uma unidade de LSTM para produzir uma → representação de estado oculto atual para frente h t e uma entrada atual para trás x(t) é processada através das portas de entrada, ativação, esquecimento e saída de outra unidade de LSTM para produzir uma  representação de estado oculto atual para trás h t .

[00378] Então, para cada etapa/janela deslizante/ciclo de sequenciamento, o módulo recorrente 3108 combina (concatena ou soma ou calcula a média) as representações de estado oculto atuais para frente e para trás correspondentes e produz uma representação de estado oculto c →   ht =  h t ; h t  combinada  . c

[00379] A representação de estado oculto combinada ht é então processada através de uma ou mais redes totalmente conectadas de modo a produzir uma representação densa. A representação densa é então processada através de uma camada softmax para produzir semelhanças de bases incorporadas em cada um dos agrupamentos em um dado ciclo de sequenciamento sendo A, C, T e G. As bases são classificadas como A, C, T ou G com base nas semelhanças. Isso é feito para cada um dos t ciclos de sequenciamento na série (ou cada etapa de tempo/janela deslizante), em paralelo ou sequencialmente.

[00380] O versado na técnica compreenderá que, em outras implementações, a arquitetura híbrida pode processar dados de entrada para um número menor ou maior de ciclos de sequenciamento e pode compreender um número menor ou maior de camadas de convolução e camadas recorrentes. Além disso, a dimensionalidade dos dados de entrada, as representações de estado oculto atual e anterior, os filtros de convolução, os mapas de recurso resultantes e a saída podem ser diferentes. Além disso, o número de filtros de convolução em uma camada de convolução pode ser diferente. A mesma pode usar diferentes configurações de preenchimento (padding) e de stride.

A mesma pode usar diferentes funções de classificação (por exemplo, sigmoide ou regressão) e pode ou não incluir uma camada totalmente conectada.

Ele pode usar convoluções 1D, convoluções 2D, convoluções 3D, convoluções 4D, convoluções 5D, convoluções dilatadas ou atrous, convoluções de transposição, convoluções separáveis em profundidade, convoluções pontuais, convoluções 1 x 1, convoluções de grupo, convoluções achatadas, convoluções espaciais e de canal cruzado, convoluções agrupadas e embaralhados, convoluções espaciais separáveis, e desconvoluções.

Ele pode usar uma ou mais funções de perda, como regressão logística/perda logarítmica, perda softmax/entropia cruzada multiclasse, perda por entropia cruzada binária, perda por erro quadrático médio, perda L1, perda L2, perda L1 suave, e perda de Huber.

Ele pode usar quaisquer esquemas de paralelismo, eficiência e compressão como TFRecords, codificação comprimida (por exemplo, PNG), nidificação, chamadas paralelas para transformação de mapa, batching, prefetching, paralelismo de modelo, paralelismo de dados e SGD síncrono/assíncrono.

Ele pode incluir camadas de upsampling, camadas de downsampling, conexões recorrentes, portas ("gates") e unidades de memória restritas (como uma LSTM ou GRU), blocos residuais, conexões residuais, conexões highway, conexões de salto ("skip connections"), conexões peephole, funções de ativação (por exemplo, funções de transformação não linear como unidade linear retificada ("ReLU" - rectifying linear unit), ReLU com vazamento, unidade linear exponencial ("ELU" - exponential linear unit), tangente sigmoide e hiperbólica (tahn)), camadas de normalização em lote, camadas de regularização, abandono ("dropout"), camadas de pooling (por exemplo, pooling máximo ou médio), camadas de pooling médio global e mecanismos de atenção.

Resultados e observações experimentais

[00381] A Figura 36 mostra uma implementação de trinucleotídeos de equilíbrio (3 mers) nos dados de treinamento usados para treinar o chamador de base baseado em rede neural 218. Equilibrando resulta em pouquíssima aprendizagem de estatísticas sobre genoma nos dados de treinamento e por sua vez melhora a generalização. O mapa de calor 3602 mostra 3 mers equilibrados nos dados de treinamento para um primeiro organismo chamado "A.baumanni". O mapa de calor 3604 mostra 3 mers equilibrados nos dados de treinamento para um segundo organismo chamado "E.coli".

[00382] A Figura 37 compara a precisão de chamada de base do chamador de base RTA contra o chamador de base baseado em rede neural 218. Conforme ilustrado na Figura 37, o chamador de base RTA tem uma porcentagem de erro mais alta em duas rodadas de sequenciamento (Leitura: 1 e Leitura: 2. Ou seja, o chamador de base baseado em rede neural 218 executa o chamador de base RTA em ambas as rodadas de sequenciamento.

[00383] A Figura 38 compara a generalização de ladrilho para ladrilho do chamador de base RTA com a do chamador de base baseado em rede neural 218 em um mesmo ladrilho. Ou seja, com o chamador de base baseado em rede neural 218, a inferência (teste) é realizada em dados para o mesmo ladrilho cujos dados são usados no treinamento.

[00384] A Figura 39 compara a generalização de ladrilho para ladrilho do chamador de base RTA com a do chamador de base baseado em rede neural 218 em um mesmo ladrilho e em diferentes ladrilhos. Ou seja, o chamador de base baseado em rede neural 218 é treinado em dados para agrupamentos em um primeiro ladrilho, mas realiza inferência em dados de agrupamentos em um segundo ladrilho. Na implementação de mesmo ladrilho, o chamador de base baseado em rede neural 218 é treinado com base em dados de agrupamentos sobre o ladrilho cinco e testado em dados de agrupamentos sobre o ladrilho cinco. Na implementação de ladrilhos diferentes, o chamador de base baseado em rede neural 218 é treinado com base em dados de agrupamentos sobre o ladrilho dez e testado em dados de agrupamentos sobre o ladrilho cinco.

[00385] A Figura 40 também compara a generalização de ladrilho para ladrilho do chamador de base RTA com a do chamador de base baseado em rede neural 218 em diferentes ladrilhos. Nas implementações de ladrilhos diferentes, o chamador de base baseado em rede neural 218 é treinado uma vez com base em dados de agrupamentos sobre o ladrilho dez e testado em dados de agrupamentos sobre o ladrilho cinco, e então treinado com base em dados de agrupamentos sobre o ladrilho vinte e testado em dados de agrupamentos sobre o ladrilho cinco.

[00386] A Figura 41 mostra como diferentes tamanhos dos fragmentos de imagem fornecidos como entrada para o chamador de base baseado em rede neural 218 afetam a precisão de chamada de base. Em ambas as rodadas de sequenciamento (Leitura: 1 e Leitura: 2), a porcentagem de erro diminui conforme o tamanho do fragmento aumenta de 3 x 3 para 11 x 11. Ou seja, o chamador de base baseado em rede neural 218 produz chamadas de base mais precisas com fragmentos de imagem maiores. Em algumas implementações, a precisão de chamada de base é equilibrada contra eficiência de computação usando fragmentos de imagem que não são maiores do que pixels 100 x 100. Em outras implementações, os fragmentos de imagem tão grande quanto pixels 3000 x 3000 (e maiores) são usados.

[00387] As Figuras 42, 43, 44 e 45 mostram a generalização de canaleta para canaleta do chamador de base baseado em rede neural 218 nos dados de treinamento de A.baumanni e E.coli.

[00388] Voltando para a Figura 43, em uma implementação, o chamador de base baseado em rede neural 218 é treinado em dados de E.coli a partir de agrupamentos em uma primeira canaleta de uma célula de fluxo e testados em dados de A.baumanni de agrupamentos em ambas a primeira e a segunda canaleta da célula de fluxo. Em outra implementação, o chamador de base baseado em rede neural 218 é treinado em dados de A.baumanni de agrupamentos na primeira canaleta e testado nos dados de A.baumanni de agrupamentos tanto na primeira quanto na segunda canaletas. Ainda em outra implementação, o chamador de base baseado em rede neural 218 é treinado em dados de E.coli de agrupamentos na segunda canaleta e testado nos dados de A.baumanni de agrupamentos tanto na primeira quanto na segunda canaletas. Ainda em uma implementação adicional, o chamador de base baseado em rede neural 218 é treinado em dados de A.baumanni de agrupamentos na segunda canaleta e testado nos dados de A.baumanni de agrupamentos tanto na primeira quanto na segunda canaletas.

[00389] Em uma implementação, o chamador de base baseado em rede neural 218 é treinado em dados de E.coli de agrupamentos em uma primeira canaleta de uma célula de fluxo e testado em dados de E.coli de agrupamentos tanto na primeira quanto na segunda canaletas da célula de fluxo. Em outra implementação, o chamador de base baseado em rede neural 218 é treinado em dados de A.baumanni de agrupamentos na primeira canaleta e testado nos dados de E.coli de agrupamentos tanto na primeira quanto na segunda canaletas. Ainda em outra implementação, o chamador de base baseado em rede neural 218 é treinado em dados de E.coli de agrupamentos na segunda canaleta e testado nos dados de E.coli de agrupamentos na primeira canaleta. Ainda em uma implementação adicional, o chamador de base baseado em rede neural 218 é treinado em dados de A.baumanni de agrupamentos na segunda canaleta e testado nos dados de E.coli de agrupamentos tanto na primeira quanto na segunda canaletas.

[00390] Na Figura 43, a precisão de chamada de base (medida pela porcentagem de erro) é mostrada para cada uma dessas implementações para duas rodadas de sequenciamento (por exemplo, Leitura: 1 e Leitura: 2.

[00391] Voltando para a Figura 44, em uma implementação, o chamador de base baseado em rede neural 218 é treinado em dados de E.coli de agrupamentos em uma primeira canaleta de uma célula de fluxo e testado em dados de A.baumanni de agrupamentos na primeira canaleta. Em outra implementação, o chamador de base baseado em rede neural 218 é treinado em dados de A.baumanni de agrupamentos na primeira canaleta e testado nos dados de A.baumanni de agrupamentos na primeira canaleta. Ainda em outra implementação, o chamador de base baseado em rede neural 218 é treinado em dados de E.coli de agrupamentos na segunda canaleta e testado nos dados de A.baumanni de agrupamentos na primeira canaleta. Ainda em uma implementação adicional, o chamador de base baseado em rede neural 218 é treinado em dados de A.baumanni de agrupamentos na segunda canaleta e testado nos dados de A.baumanni de agrupamentos na primeira canaleta.

[00392] Em uma implementação, o chamador de base baseado em rede neural 218 é treinado em dados de E.coli de agrupamentos em uma primeira canaleta de uma célula de fluxo e testado em dados de E.coli de agrupamentos na primeira canaleta. Em outra implementação, o chamador de base baseado em rede neural 218 é treinado em dados de A.baumanni de agrupamentos na primeira canaleta e testado nos dados de E.coli de agrupamentos na primeira canaleta. Ainda em outra implementação, o chamador de base baseado em rede neural 218 é treinado em dados de E.coli de agrupamentos na segunda canaleta e testado nos dados de E.coli de agrupamentos na primeira canaleta. Ainda em uma implementação adicional, o chamador de base baseado em rede neural 218 é treinado em dados de A.baumanni de agrupamentos na segunda canaleta e testado nos dados de E.coli de agrupamentos na primeira canaleta.

[00393] Na Figura 44, a precisão de chamada de base (medida pela porcentagem de erro) é mostrada para cada uma dessas implementações para duas rodadas de sequenciamento (por exemplo, Leitura: 1 e Leitura: 2. Comparando-se a Figura 43 com a Figura 44, pode- se ver que as implementações cobertas pelas últimas resultam em uma redução de erro entre cinquenta a oitenta por cento.

[00394] Voltando para a Figura 45, em uma implementação, o chamador de base baseado em rede neural 218 é treinado em dados de E.coli de agrupamento em uma primeira canaleta de uma célula de fluxo e testada em dados de A.baumanni de agrupamentos na segunda canaleta. Em outra implementação, o chamador de base baseado em rede neural 218 é treinado em dados de A.baumanni de agrupamentos na primeira canaleta e testado nos dados de A.baumanni de agrupamentos na segunda canaleta. Ainda em outra implementação, o chamador de base baseado em rede neural 218 é treinado em dados de E.coli de agrupamentos na segunda canaleta e testado nos dados de A.baumanni de agrupamentos na primeira canaleta. Na segunda primeira canaleta. Ainda em uma implementação adicional, o chamador de base baseado em rede neural 218 é treinado em dados de A.baumanni de agrupamentos na segunda canaleta e testado nos dados de A.baumanni de agrupamentos na segunda canaleta.

[00395] Em uma implementação, o chamador de base baseado em rede neural 218 é treinado em dados de E.coli de agrupamentos em uma primeira canaleta de uma célula de fluxo e testado em dados de E.coli de agrupamentos na segunda canaleta. Em outra implementação, o chamador de base baseado em rede neural 218 é treinado em dados de A.baumanni de agrupamentos na primeira canaleta e testado nos dados de E.coli de agrupamentos na segunda canaleta. Ainda em outra implementação, o chamador de base baseado em rede neural 218 é treinado em dados de E.coli de agrupamentos na segunda canaleta e testado nos dados de E.coli de agrupamentos na segunda canaleta. Ainda em uma implementação adicional, o chamador de base baseado em rede neural 218 é treinado em dados de A.baumanni de agrupamentos na segunda canaleta e testado nos dados de E.coli de agrupamentos na segunda canaleta.

[00396] Na Figura 45, a precisão de chamada de base (medida pela porcentagem de erro) é mostrada para cada uma dessas implementações para duas rodadas de sequenciamento (por exemplo, Leitura: 1 e Leitura: 2. Comparando-se a Figura 43 com a Figura 45, pode- se ver que as implementações cobertas pelas últimas resultam em uma redução de erro entre cinquenta a oitenta por cento.

[00397] A Figura 46 retrata um perfil de erro para a generalização de canaleta para canaleta discutida acima em relação às Figuras 42, 43, 44 e 45. Em uma implementação, o erro perfil detecta erro na chamada de base em bases A e T no canal verde.

[00398] A Figura 47 atribui a fonte do erro detectado pelo erro da Figura 46 para reduzir a intensidade de agrupamento no canal verde.

[00399] A Figura 48 compara os perfis de erro do chamador de base RTA e do chamador de base baseado em rede neural 218 para duas rodadas de sequenciamento (Leitura 1 e Leitura 2). A comparação confirma precisão de chamada de base superior do chamador de base baseado em rede neural 218.

[00400] A Figura 49a mostra a generalização de rodada para rodada do chamador de base baseado em rede neural 218 em quatro diferentes instrumentos.

[00401] A Figura 49b mostra a generalização de rodada para rodada do chamador de base baseado em rede neural 218 em quatro rodadas diferentes executadas em um mesmo instrumento.

[00402] A Figura 50 mostra as estatísticas do genoma dos dados de treinamento usados para treinar o chamador de base baseado em rede neural 218.

[00403] A Figura 51 mostra o contexto do genoma dos dados de treinamento usados para treinar o chamador de base baseado em rede neural

218.

[00404] A Figura 52 mostra a precisão de chamada de base do chamador de base baseado em rede neural 218 em leituras longas de chamada de base (por exemplo, 2 x 250).

[00405] A Figura 53 ilustra uma implementação de como o chamador de base baseado em rede neural 218 atende ao pixel (ou pixels) de agrupamento central e seus pixels vizinhos através de fragmentos de imagem.

[00406] A Figura 54 mostra vários componentes e configurações de hardware usados para treinar e executar o chamador de base baseado em rede neural 218, de acordo com uma implementação. Em outras implementações, diferentes componentes de hardware e configurações são usados.

[00407] A Figura 55 mostra várias tarefas de sequenciamento que podem ser realizadas com o uso do chamador de base baseado em rede neural 218. Alguns exemplos incluem pontuação de qualidade (QScoring) e classificação de variantes. A Figura 55 também lista alguns instrumentos de sequenciamento exemplificadores para os quais o chamador de base baseado em rede neural 218 realiza a chamada de base.

[00408] A Figura 56 é uma plotagem de dispersão 5600 visualizada pela Incorporação Estocástica de Vizinhos t-Distribuída (t sNE) e retrata os resultados de chamada de base do chamador de base baseado em rede neural 218. O gráfico de dispersão 5600 mostra que os resultados de chamada base são agrupados em 64 grupos (43), com cada grupo correspondendo principalmente a uma entrada específica de 3 mers (padrão de repetição de trinucleotídeo). Esse é o caso devido ao fato de que o chamador de base baseado em rede neural 218 processa dados de entrada para ao menos três ciclos de sequenciamento e aprende motivos específicos de sequência para produzir uma chamada de base atual com base nas chamadas de base anteriores e sucessivas. Pontuação de qualidade

[00409] A pontuação de qualidade se refere ao processo de atribuir uma pontuação de qualidade a cada chamada de base. As pontuações de qualidade são definidas de acordo com o framework Phred, que transforma os valores de previsão das características dos traços de sequenciamento em uma probabilidade com base em uma tabela de qualidade. A tabela de qualidade é obtida por treinamento em conjuntos de dados de calibração e é atualizada quando características da plataforma de sequenciamento mudam. A interpretação propabilística de pontuações de qualidade permite integração justa de diferentes leituras de sequenciamento na análise a jusante como chamada de variante e montagem de sequência. Dessa forma, um modelo válido para definir pontuações de qualidade é indispensável para qualquer chamador de base.

[00410] Descreve-se primeiramente o que pontuações de qualidade são. A pontuação de qualidade é uma medida da probabilidade de um erro de sequenciamento em uma chamada de base. A pontuação de alta qualidade implica que uma chamada de base seja mais confiável e menos provável de ser incorreta. Por exemplo, se a pontuação de qualidade de uma base for Q30, a probabilidade de que essa base seja chamada incorretamente é 0,001. Isso também indica que a precisão de chamada de base é 99,9%.

[00411] A tabela a seguir mostra a relação entre as pontuações de qualidade de chamada de base e sua probabilidade de erro, taxa de precisão de chamada de base, e taxa de erro de chamada de base correspondentes: Pontuação Probabilidade de erro Taxa de erro Taxa de de qualidade de chamada precisão de base chamada base Q10 0,1 (1 em 10) 10% 90% Q20 0,01 (1 em 100) 1% 99%

Q30 0,001 (1 em 1.000) 0,1% 99,9% Q40 0,0001 (1 em 10.000) 0,01% 99,99% Q50 0,00001 (1 em 100.000) 0,001% 99,999% Q60 0,000001 (1 em 0,0001% 99,9999%

1.000.000)

[00412] Descreve-se agora como pontuações de qualidade são geradas. Durante uma rodada de sequenciamento, uma pontuação de qualidade é atribuída a cada chamada de base para cada agrupamento, em cada ladrilho, para cada ciclo de sequenciamento. As pontuações de qualidade da Illumina são calculadas para cada chamada de base em um processo de duas etapas. Para cada chamada de base, um número de valores preditores de qualidade são computados. Os valores preditores de qualidade são propriedades observáveis de agrupamentos a partir dos quais chamadas de base são extraídas. Estas incluem propriedades como perfis de intensidade e razões sinal/ruído e medem vários aspectos da confiabilidade de chamada base. Elas têm sido determinadas empiricamente para correlacionar com a qualidade da chamada de base.

[00413] O modelo de qualidade, também conhecido como uma tabela de qualidade Q-table, lista combinações de valores preditores de qualidade e relaciona os mesmos a pontuações de qualidade correspondentes; essa relação é determinada por um processo de calibração com o uso de dados empíricos. Para estimar uma nova pontuação de qualidade, os valores preditores de qualidade são calculados para uma nova chamada de base e comparados a valores na tabela de qualidade pré- calibrada.

[00414] Descreve-se agora como uma tabela de qualidade é calibrada. A calibração é um processo no qual uma tabela de qualidade estatística é derivada de dados empíricos que incluem várias amostras humanas e não humanas bem caracterizadas em vários instrumentos. Usando uma versão modificada do algoritmo Phred, uma tabela de qualidade é desenvolvida e refinada com o uso de características dos sinais brutos e taxas de erro determinadas pelo alinhamento de leituras com as referências adequadas.

[00415] Descreve-se agora por que tabelas de qualidade mudam de tempos em tempos. As tabelas de qualidade fornecem pontuações de qualidade nas rodadas geradas por configurações específicas de instrumento e versões de química. Quando características significativas da plataforma de sequenciamento mudam, tal como hardware, software ou versões de química novos, o modelo de qualidade exige recalibração. Por exemplo, melhorias na química de sequenciamento exigem recalibração de tabela de qualidade para pontuar com precisão os novos dados, o que consome uma quantidade substancial de tempo de processamento e recursos computacionais. Pontuação de qualidade baseada em rede neural

[00416] Revela-se técnicas baseadas em rede neural para pontuação de qualidade que não usam os valores preditores de qualidade ou as tabelas de qualidade e em vez disso inferem pontuações de qualidade a partir da confiança em previsões de redes neurais de bem calibradas. No contexto de redes neurais, "calibração" se refere à consistência ou correlação entre previsões subjetivas e frequências de longo prazo empíricas. Essa é uma noção frequencista de certeza: se uma rede neural afirma que 90% do tempo um rótulo específico é o rótulo correto, então, durante a avaliação, 90% de todos os rótulos que receberam 90% de probabilidade de serem corretos, o rótulo deve ser correto. Observe que a calibração é uma preocupação ortogonal para precisão: as previsões de uma rede neural podem ser precisas e ainda descalibradas.

[00417] As redes neurais reveladas são bem calibradas devido ao fato de que são treinadas em conjuntos de treinamento de grande escala com diversas características de sequenciamento que adequadamente modelam o domínio de chamada de base de rodadas de sequenciamento do mundo real. Em particular, as imagens de sequenciamento obtidas a partir de uma variedade de plataformas de sequenciamento, instrumentos de sequenciamento, protocolos de sequenciamento, químicas de sequenciamento, reagentes de sequenciamento, densidade de agrupamentos e células de fluxo são usados como exemplos de treinamento para treinar as redes neurais. Em outras implementações, diferentes modelos de chamada de base e pontuação de qualidade são respectivamente usados para diferentes plataformas de sequenciamento, instrumentos de sequenciamento, protocolos de sequenciamento, químicas de sequenciamento, reagentes de sequenciamento, densidade de agrupamentos e/ou células de fluxo.

[00418] Para cada uma das quatro classes de chamada de base (A, C, T e G), um grande número de imagens de sequenciamento é usado como exemplos de treinamento que identificam padrões de intensidade representativos da respectiva classe de chamada de base sob uma ampla gama de condições de sequenciamento. Isto por sua vez torna elimina a necessidade de estender as capacidades de classificação das redes neurais a novas classes não presentes no treinamento. Além disso, cada exemplo de treinamento é precisamente rotulado com uma verdade absoluta correspondente com base em alinhar as leituras às referências adequadas. O resultado são redes neurais bem calibradas cuja confiança sobre previsões pode ser interpretada como uma medida de certeza para pontuação de qualidade, expressada matematicamente abaixo.

[00419] Deixa-se que Y = { A, C , T , G} denote o conjunto de rótulos de classe para as classes de chamada de base A, C, T e G e X denote um espaço de entradas. Deixa-se que N ( y | x) denote a distribuição de probabilidade que uma das redes neurais reveladas prevê em uma entrada x  X e  denote os parâmetros da rede neural. Para um exemplo de treinamento xi com rótulo correto yi , a rede neural prevê rótulo yˆ i = argmax yY N ( y | xi ) . A previsão recebe pontuação de correção ci =1 se yˆi = yi e 0 de outra forma e uma pontuação de confiança ri = N ( yˆi | xi ) .

[00420] A rede neural N ( y | x) é bem calibrada sobre uma distribuição de dados D porque, acima de tudo, ( xi , yi ) D e ri =  a probabilidade que ci =1 é  . Por exemplo, de uma amostra de D , dado 100 previsões, cada uma com confiança 0,8, 80 são classificadas corretamente pela rede neural N ( y | x) . Mais formalmente, P , D (r , c) denota a distribuição sobre valores de r e c das previsões da rede neural N ( y | x) em D e é expresso como P , D (c =1| r = I ) =  [0,1] , em I  que denota um pequeno intervalo em diferente de zero em torno de  .

[00421] Devido ao fato de que as redes neurais bem calibradas são treinadas em diversos conjuntos de treinamento, ao contrário dos valores preditores de qualidade ou das tabelas de qualidade, as mesmas não são específicas de configurações de instrumento e versões de química. Isso tem duas vantagens. Em primeiro lugar, para diferentes tipos de instrumentos de sequenciamento, as redes neurais bem calibradas evidenciam a necessidade de derivar diferentes tabelas de qualidade a partir de processos de calibração separados. Segundo, para um mesmo instrumento de sequenciamento, as mesmas evidenciam a necessidade de recalibração quando as características do instrumento de sequenciamento mudam. Mais detalhes seguem a seguir. Inferir pontuações de qualidade a partir probabilidades de confiança de softmax

[00422] A primeira rede neural bem calibrada é o chamador de base baseado em rede neural 218 que processa dados de entrada derivados das imagens de sequenciamento 108 e produz probabilidades de confiança de chamada de base para a base sendo A, C, T e G. As probabilidades de confiança de chamada de base podem também ser consideradas semelhanças ou pontuações de classificação. Em uma implementação, o chamador de base baseado em rede neural 218 usa uma função softmax para gerar as probabilidades de confiança de chamada base como pontuações softmax.

[00423] As pontuações de qualidade são inferidas a partir das probabilidades de confiança de chamada de base geradas pela função softmax do chamador de base baseado em rede neural 218 devido ao fato de que as pontuações softmax que são calibradas (isto é, as mesmas são representativas da semelhança de precisão de verdade absoluta) e dessa forma naturalmente correspondem às pontuações de qualidade.

[00424] Demonstra-se a correspondência entre as probabilidades de confiança de chamada de base e as pontuações de qualidade mediante a seleção de um conjunto das probabilidades de confiança de chamada de base produzidas pelo chamador de base baseado em rede neural 218 durante o treinamento e a determinação de sua taxa de erro de chamada de base (ou taxa de precisão de chamada de base).

[00425] Então, por exemplo, selecionou-se a probabilidade de confiança de chamada base "0,90" produzida pelo chamador de base baseado em rede neural 218. Tomou-se numerosas (por exemplo, na faixa de 10.000 a 1.000.000) instâncias quando a chamador de base baseado em rede neural 218 fez a previsão de chamada de base com pontuação softmax de 0,90. As numerosas instâncias podem ser obtidas ou a partir do conjunto de validação ou do conjunto de teste. Determinou-se então, com base na comparação a chamadas de base de verdade absoluta correspondentes associadas com as respectivas instâncias dentre as várias instâncias, em quantos das várias instâncias a predição de chamada de base estava correta.

[00426] Observou-se que a chamada de base foi prevista corretamente em noventa por cento das numerosas instâncias, com dez por cento de chamadas erradas. Isto significa que para a pontuação softmax de 0,90, a taxa de erro de chamada base é 10% e a taxa de precisão de chamada base é 90%, o que por sua vez corresponde à pontuação de qualidade Q10 (consulte a tabela acima). De modo similar, para outras pontuações softmax como 0,99, 0,999, 0,9999, 0,99999 e

0,999999, observa-se a correspondência com pontuações de qualidade Q20, Q30, Q40, Q50 e Q60, respectivamente. Isso é ilustrado na Figura 59a. Em outras implementações, observa-se a correspondência entre as pontuações softmax e pontuações de qualidade como Q9, Q11, Q12, Q23, Q25, Q29, Q27 e Q39.

[00427] Observou-se também correspondência com pontuações de qualidade binadas. Por exemplo, a pontuação softmax 0,80 corresponde à pontuação de qualidade binada Q06, a pontuação softmax 0,95 corresponde à pontuação de qualidade binada Q15, a pontuação softmax 0,993 corresponde à pontuação de qualidade binada Q22, a pontuação softmax 0,997 corresponde à pontuação de qualidade binada Q27, a pontuação softmax 0,9991 corresponde à pontuação de qualidade binada Q33, a pontuação softmax 0,9995 corresponde à pontuação de qualidade binada Q37, e a pontuação softmax 0,9999 corresponde à pontuação de qualidade binada Q40. Isso é ilustrado na Figura 59b.

[00428] O tamanho da amostra usada na presente invenção é grande para evitar questões de amostra pequena e se encontram, por exemplo, na faixa de 10.000 a 1.000.000. Em algumas implementações, o tamanho da amostra de instâncias usadas para determinar as taxas de erro de chamada de base (ou as taxas de precisão de chamada de base) é selecionado com base na pontuação softmax que está sendo avaliada. Por exemplo, para a pontuação softmax 0,99, a amostra inclui uma centena de instâncias, para a pontuação softmax 0,999, a amostra inclui mil instâncias, para a pontuação softmax 0,9999, a amostra inclui dez mil instâncias, para a pontuação softmax 0,99999, a amostra inclui cem mil instâncias, e para a pontuação softmax 0,999999, a amostra inclui um milhão de instâncias.

[00429] No que se refere à softmax, a softmax que é uma função de ativação de saída com várias categorias para classificação. Formalmente, treinar um chamado classificador softmax é regressão a uma probabilidade de classe, em vez de um verdadeiro classificador visto que o mesmo não retorna a classe, mas sim uma previsão de confiança da semelhança de cada classe. A função softmax toma uma classe de valores e converte os mesmos em probabilidades que somam a uma. A função softmax limita (squashing) um vetor k -dimensional de valores reais arbitrários a um vetor k -dimensional de valores reais dentro da faixa de zero a um. Dessa forma, o uso da função softmax assegura que a saída seja uma função de massa de probabilidade válida e exponencialmente normalizada (não negativa e somando a um).

[00430] Considera-se que yi é o i -ésimo elemento do vetor y = [ y1 , y2 , . . . yn ]: exp( zi ) yi = (softmax(z))i = j=N  exp( z ) , em que j =1 j y é um vetor de comprimento n , em que n é o número de classes na classificação. Esses elementos têm valores entre zero e um, e somam a um de modo que representam uma distribuição de probabilidade válida.

[00431] Uma função de ativação softmax exemplificadora 5706 é mostrada na Figura 57. Softmax 5706 é aplicada a três classes como z z softmax ([z; ;-2z]) . Observa-se que as três saídas sempre somam um. 10 As mesmas definem, assim, uma função de massa de probabilidade discreta.

[00432] Quando usado para classificação, yi dá a probabilidade de estar na classe i . P(Y = i | z ) = (softmax (z ))i = yi

[00433] O nome "softmax" pode ser um tanto confuso. A função é mais estreitamente relacionada à função argmax do que a função máxima. O termo "macio (soft)" deriva do fato de que a função softmax é contínua e diferenciável. A função argmax, com seu resultado representado como um vetor quente, não é contínua ou diferenciável. A função softmax fornece dessa forma uma versão "amaciada" do argmax. Talvez fosse melhor para chamar a função "softargmax", mas o nome atual é uma convenção enraizada.

[00434] A Figura 57 ilustra uma implementação de selecionar 5700 as probabilidades de confiança de chamada de base 3004 do chamador de base baseado em rede neural 218 para pontuação de qualidade. As probabilidades de confiança de chamada de base 3004 do chamador de base baseado em rede neural 218 podem ser pontuações de classificação (por exemplo, pontuações softmax que ou pontuações sigmoide) ou pontuações de regressão. Em uma implementação, as probabilidades de confiança de chamada de base 3004 são produzidos durante o treinamento 3000.

[00435] Em algumas implementações, a seleção 5700 é feita com base em quantização, que é realizada por um quantificador 5702 que acessa as probabilidades de confiança de chamada de base 3004 e produz pontuações de classificação quantificadas 5704. As pontuações de classificação quantificadas 5704 podem ser qualquer número real. Em uma implementação, as pontuações de classificação quantificadas 5704 são selecionadas com base em uma seleção fórmula definida como .

Em outra implementação, as pontuações de classificação quantificadas 5704 são selecionadas com base em uma fórmula de seleção definida como .

[00436] A Figura 58 mostra uma implementação da pontuação de qualidade baseada em rede neural 5800. Para cada uma das pontuações de classificação quantificadas 5704, uma taxa de erro de chamada de base 5808 e/ou uma taxa de precisão de chamada de base 5810 é determinada comparando-se suas previsões de chamada de base 3004 contra chamadas de base de verdade absoluta correspondentes 3008 (por exemplo, ao longo de lotes com diferentes tamanhos de amostra). A comparação é realizada por um comparador 5802, que por sua vez inclui um determinador de taxa de erro de chamada de base 5804 e um determinador de taxa de precisão de chamada de base 5806.

[00437] Então, para estabelecer a correspondência entre as pontuações de classificação quantificadas 5704 e as pontuações de qualidade, um ajuste é determinado entre as pontuações de classificação quantificadas 5704 e sua taxa de erro de chamada de base 5808 (e/ou sua taxa de precisão de chamada de base 5810) por um determinador de ajuste 5812. Em uma implementação, o determinador de ajuste 5812 é um modelo de regressão.

[00438] Com base no ajuste, as pontuações de qualidade estão correlacionadas com as pontuações de classificação quantificadas 5704 por um correlacionador 5814.

[00439] As Figuras 59a e 59b retratam uma implementação de correspondência 5900 entre as pontuações de qualidade e as previsões de confiança de chamada de base feitas pelo chamador de base baseado em rede neural 218. As probabilidades de confiança de chamada de base do chamador de base baseado em rede neural 218 podem ser pontuações de classificação (por exemplo, pontuações softmax ou pontuações sigmoide) ou pontuações de regressão. A Figura 59a é um esquema de correspondência de pontuação de qualidade 5900a para pontuações de qualidade. A Figura 59b é um esquema de correspondência de pontuação de qualidade 5900a para pontuações de qualidade binadas. Inferência

[00440] A Figura 60 mostra uma implementação de inferir pontuações de qualidade a partir de previsões de confiança de chamada de base feitas pelo chamador de base baseado em rede neural 218 durante a inferência 6000. As probabilidades de confiança de chamada de base do chamador de base baseado em rede neural 218 podem ser pontuações de classificação (por exemplo, pontuações softmax ou pontuações sigmoide) ou pontuações de regressão.

[00441] Durante a inferência 6000, é atribuída à chamada de base prevista 6006 a pontuação de qualidade 6008 à qual a sua probabilidade de confiança de chamada de base (isto é, a pontuação de softmax mais alta (em vermelho)) corresponde mais. Em algumas implementações, a correspondência de pontuação de qualidade 5900 é feita por consulta aos esquemas de correspondência de pontuação de qualidade 5900a a 5900b e é operacionalizada por um inferidor de pontuação de qualidade 6012.

[00442] Em algumas implementações, um filtro de castidade 6010 termina a chamada de base de um dado agrupamento quando a pontuação de qualidade 6008 atribuída à sua base chamada, ou uma pontuação de qualidade média ao longo de ciclos de chamada de base sucessivos, cai abaixo de um limiar predefinido.

[00443] A inferência 6000 inclui centenas, milhares, e/ou milhões de iterações de propagação para frente 6014, incluindo técnicas de paralelização como batching. A inferência 6000 é realizada em dados de inferência 6002 que incluem os dados de entrada (com os canais de imagem derivados das imagens de sequenciamento 108 e/ou os canais suplementares (por exemplo, os canais de distância, o canal de redimensionamento)). A inferência 6000 é operacionalizada por um testador 6004. Prevendo diretamente a qualidade de chamada de base

[00444] A segunda rede neural bem calibrada é o pontuador de qualidade baseado em rede neural 6102 que processa dados de entrada derivados das imagens de sequenciamento 108 e produz diretamente uma indicação de qualidade.

[00445] Em uma implementação, o pontuador de qualidade baseado em rede neural 6102 é um perceptron multicamada (MLP). Em outra implementação, o pontuador de qualidade baseado em rede neural 6102 é uma rede neural sem realimentação (feedforward). Em outra implementação, o pontuador de qualidade baseado em rede neural 6102 é uma rede neural totalmente conectada. Em uma implementação, o pontuador de qualidade baseado em rede neural 6102 é uma rede neural totalmente convolucional. Em ainda outra implementação, o pontuador de qualidade baseado em rede neural 6102 é uma rede neural de segmentação semântica.

[00446] Em uma implementação, o pontuador de qualidade baseado em rede neural 6102 é uma rede neural convolucional (CNN) com uma pluralidade de camadas convoluídas. Em outra implementação, é uma rede neural recorrente ("RNN" - recurrent neural network) tal como uma rede de memória de longo prazo ("LSTM" - long short-term memory network), LSTM bidirecional ("Bi-LSTM" - bi-directional LSTM), ou uma unidade recorrente fechada ("GRU" - gated recurrent unit). Em ainda outra implementação, a mesma inclui tanto uma CNN quanto uma RNN.

[00447] Em ainda outras implementações, o pontuador de qualidade baseado em rede neural 6102 pode usar convoluções 1D, convoluções 2D, convoluções 3D, convoluções 4D, convoluções 5D, convoluções dilatadas ou do tipo atrous, convoluções de transposição, convoluções separáveis em profundidade, convoluções pontuais, convoluções 1 x 1, convoluções de grupo, convoluções achatadas, convoluções espaciais e de canal cruzado, convoluções agrupadas e embaralhadas, convoluções espaciais separáveis e desconvoluções. Ele pode usar uma ou mais funções de perda, como regressão logística/perda logarítmica, perda softmax/entropia cruzada multiclasse, perda por entropia cruzada binária, perda por erro quadrático médio, perda L1, perda L2, perda L1 suave, e perda de Huber. Ele pode usar quaisquer esquemas de paralelismo, eficiência e compressão como TFRecords, codificação comprimida (por exemplo, PNG), nidificação, chamadas paralelas para transformação de mapa, batching, prefetching, paralelismo de modelo, paralelismo de dados e SGD síncrono/assíncrono. Ele pode incluir camadas de upsampling, camadas de downsampling, conexões recorrentes, portas ("gates") e unidades de memória restritas (como uma LSTM ou GRU), blocos residuais, conexões residuais, conexões highway, conexões de salto ("skip connections"), conexões peephole, funções de ativação (por exemplo, funções de transformação não linear como unidade linear de retificação (ReLU), ReLU com vazamento, unidade linear exponencial (ELU), tangente de sigmoide e hiperbólica (tanh)), camadas de normalização em lote, camadas de regularização, abandono ("dropout"), camadas de pooling (por exemplo, pooling máximo ou médio), camadas de pooling médio global e mecanismos de atenção.

[00448] Em algumas implementações, o pontuador de qualidade baseado em rede neural 6102 tem a mesma arquitetura que o chamador de base baseado em rede neural 218.

[00449] Os dados de entrada podem incluir os canais de imagem derivados dos canais de sequenciamento e/ou imagens 108 suplementares (por exemplo, os canais de distância, o canal de redimensionamento). O pontuador de qualidade baseado em rede neural 6102 processa os dados de entrada e produz uma representação alternativa dos dados de entrada. A representação alternativa é uma representação convoluída em algumas implementações e uma representação oculta em outras implementações. A representação alternativa é então processada por uma camada de saída para produzir uma saída. A saída é usada para produzir a indicação de qualidade.

[00450] Em uma implementação, os mesmos dados de entrada são fornecidos para o chamador de base baseado em rede neural 218 e o pontuador de qualidade baseado em rede neural 6102 para produzir (i) uma chamada de base do chamador de base baseado em rede neural 218 (ii) e uma indicação de qualidade correspondente do pontuador de qualidade baseado em rede neural 6102. Em algumas implementações, o chamador de base baseado em rede neural 218 e o pontuador de qualidade baseado em rede neural 6102 são treinados conjuntamente com retropropagação de extremidade a extremidade.

[00451] Em uma implementação, o pontuador de qualidade baseado em rede neural 6102 emite uma indicação de qualidade para um único agrupamento alvo para um ciclo de sequenciamento específico. Em outra implementação, o mesmo emite uma indicação de qualidade para cada agrupamento alvo em uma pluralidade de agrupamentos alvo para o ciclo de sequenciamento específico. Em ainda outra implementação, o mesmo emite uma indicação de qualidade para cada agrupamento alvo em uma pluralidade de agrupamentos alvo para cada ciclo de sequenciamento em uma pluralidade de ciclos de sequenciamento, produzindo assim uma sequência de indicação de qualidade para cada agrupamento alvo.

[00452] Em uma implementação, o pontuador de qualidade baseado em rede neural 6102 é uma rede neural convolucional treinada em exemplos de treinamento compreendendo dados das imagens de sequenciamento 108 e rotulada com verdades absolutas de qualidade de chamada de base. O pontuador de qualidade baseado em rede neural 6102 é treinado com o uso de uma técnica de atualização de gradiente baseado em retropropagação que progressivamente corresponde previsões de qualidade de chamada de base 6104 da rede neural convolucional 6102 com as verdades absolutas de qualidade de chamada de base 6108. Em algumas implementações, rotula-se uma base como 0 se fosse uma base errada e 1 se fosse o contrário. Como resultado, a saída corresponde à probabilidade de erro. Em uma implementação, isso elimina a necessidade de usar o contexto de sequência como recursos de entrada.

[00453] Um módulo de entrada da rede neural convolucional 6102 fornece dados das imagens de sequenciamento 108 capturadas em um ou mais ciclos de sequenciamento à rede neural convolucional 6102 para determinar a qualidade de uma ou mais bases chamadas para um ou mais agrupamentos.

[00454] Um módulo de saída da rede neural convolucional 6102 traduz análise pela rede neural convolucional 6102 em uma saída 6202 que identifica a qualidade das uma ou mais bases chamadas para os um ou mais agrupamentos.

[00455] Em uma implementação, o módulo de saída compreende adicionalmente uma camada de classificação softmax que produz semelhanças para o estado de qualidade que são de alta qualidade, média qualidade (opcional, conforme indicado por linhas pontilhadas) e baixa qualidade. Em outra implementação, o módulo de saída compreende adicionalmente uma camada de classificação softmax que produz semelhanças para o estado de qualidade sendo de alta qualidade e baixa qualidade. Um versado na técnica entenderá que outras classes que classificam pontuações de qualidade de forma diferente e discernível podem ser usadas. A camada de classificação softmax produz semelhanças para a qualidade à qual está sendo atribuída uma pluralidade de pontuações de qualidade. Com base nas semelhanças, é atribuída à qualidade uma pontuação de qualidade de uma dentre a pluralidade de pontuações de qualidade. As pontuações de qualidade são baseadas de modo logarítmico em probabilidades de erro de chamada de base. A pluralidade de pontuações de qualidade inclui Q6, Q10, Q15, Q20, Q22, Q27, Q30, Q33, Q37, Q40 e Q50. Em outra implementação, o módulo de saída compreende adicionalmente uma camada de regressão que produz valores contínuos que identificam a qualidade.

[00456] Em algumas implementações, o pontuador de qualidade baseado em rede neural 6102 compreende adicionalmente um módulo de entrada de suplementar que suplementa os dados das imagens de sequenciamento 108 com valores preditores de qualidade para as bases chamadas e fornece os valores preditores de qualidade à rede neural convolucional 6102 juntamente com os dados das imagens de sequenciamento.

[00457] Em algumas implementações, os valores preditores de qualidade incluem sobreposição em linha, pureza, faseamento, start5, pontuação de hexâmero, acumulação de motivo, endiness, homopolímero aproximado, decaimento de intensidade, penúltima castidade, sobreposição de sinal com plano de fundo ("SOWB" - signal overlap with background), e/ou ajuste G de pureza deslocada. Em outras implementações, os valores preditores de qualidade incluem a altura de pico, largura de pico, local de pico, localizações de pico relativas, razão de altura de pico, razão de espaçamento de pico e/ou correspondência de pico. Detalhes adicionais sobre os valores preditores de qualidade podem ser encontrados na publicação de patente nos US 2018/0274023 e 2012/0020537, que são incorporadas a título de referência como se estivessem completamente apresentadas na presente invenção. Treinamento

[00458] A Figura 61 mostra uma implementação de treinamento 6100 do pontuador de qualidade baseado em rede neural 6102 para processar dados de entrada derivados das imagens de sequenciamento 108 e produzir diretamente indicações de qualidade. O pontuador de qualidade baseado em rede neural 6102 é treinado com o uso de uma técnica de atualização de gradiente baseada em retropropagação que compara as indicações de qualidade previstas 6104 com as indicações de qualidade corretas 6108 e computa um erro 6106 com base na comparação. O erro 6106 é então usado para calcular gradientes, que são aplicados aos pesos e parâmetros do pontuador de qualidade baseado em rede neural 6102 durante a retropropagação 6110. O treinamento 6100 é operacionalizado pelo treinador 1510 com o uso de um algoritmo de atualização do gradiente estocástico como ADAM.

[00459] O treinador 1510 usa os dados de treinamento 6112 (derivados das imagens de sequenciamento 108) para treinar o pontuador de qualidade baseado em rede neural 6102 ao longo de milhares e milhões de iterações da propagação 6116 que produz as indicações de qualidade previstas e a retropropagação 6110 que atualiza os pesos e parâmetros com base no erro 6106. Em algumas implementações, os dados de treinamento 6112 são suplementados com os valores preditores de qualidade 6114. Detalhes adicionais sobre o treinamento 6100 podem ser encontrados no Apêndice intitulado "Deep Learning Tools". Inferência

[00460] A Figura 62 mostra uma implementação de produção direta de indicações de qualidade como saídas do pontuador de qualidade baseado em rede neural 6102 durante a inferência 6200. A inferência 6200 inclui centenas, milhares, e/ou milhões de iterações de propagação para frente 6208, incluindo técnicas de paralelização como batching. A inferência 6200 é realizada em dados de inferência 6204 que incluem dados de entrada (com os canais de imagem derivados das imagens de sequenciamento 108 e/ou os canais suplementares (por exemplo, os canais de distância, o canal de redimensionamento)). Em algumas implementações, os dados de inferência 6204 são suplementados com os valores preditores de qualidade 6206. A inferência 6200 é operacionalizada por um testador 6210. Pré-processamento de dados

[00461] Em algumas implementações, a tecnologia divulgada usa pré técnicas de processamento que se aplicam aos pixels nos dados de imagem 202 e produzem dados de imagem pré-processados 202p. Em tais implementações, em vez dos dados de imagem 202, os dados de imagem pré-processados 202p são fornecidos como entrada ao chamador de base baseado em rede neural 218. Os dados pré-processamento são operacionalizados por um pré-processador de dados 6602, que por sua vez pode conter um normalizador 6632 um aumentador de dados 6634.

[00462] A Figura 66 mostra implementações diferentes de pré- processamento de dados, que pode incluir normalização de dados e de aumento de dados. Normalização de dados

[00463] Em uma implementação, a normalização de dados é aplicada nos pixels nos dados de imagem 202 em uma base de fragmento de imagem por fragmento de imagem. Isso inclui a normalização de valores de intensidade de pixels em um fragmento de imagem de modo que um histograma de intensidade de pixel do fragmento de imagem normalizada resultante tenha um quinto percentil de zero e nonagésimo quinto percentil de um. Ou seja, no fragmento de imagem normalizado, (i) 5% dos pixels têm valores de intensidade menor que zero e (ii) outros 5% dos pixels têm valores de intensidade maior do que um. Os respectivos fragmentos de imagem dos dados de imagem 202 podem ser normalizados separadamente, ou os dados de imagem 202 podem ser normalizados todos de uma vez. O resultado são fragmentos de imagem normalizados 6616, que são um exemplo dos dados de imagem pré-processados 202p. A normalização de dados é operacionalizada pelo normalizador de dados

6632. Aumento de dados

[00464] Em uma implementação, o aumento de dados é aplicado nos valores de intensidade dos pixels nos dados de imagem 202. Isso inclui (i) multiplicar os valores de intensidade de todos os pixels nos dados de imagem 202 com um mesmo fator de redimensionamento e (ii) adicionar um mesmo valor de deslocamento aos valores de intensidade redimensionados de todos os pixels nos dados de imagem 202. Para um único pixel, isso pode ser expresso pela seguinte formulação: intensidade de pixel aumentada (API) = aX + b em que a é o fator de escala, X é a intensidade original de pixel, b é o valor de compensação, aX é a intensidade de pixel em escala

[00465] O resultado são fragmentos de imagem aumentados 6626, que são também um exemplo dos dados de imagem pré- processados 202p. O aumento de dados é operacionalizado pelo aumentador de dados 6634.

[00466] A Figura 67 mostra que a técnica de normalização de dados (DeepRTA (normalização)) e a técnica de aumento de dados

(DeepRTA (aumento)) da Figura 66 reduzem a porcentagem de erro de chamada de base quando o chamador de base baseado em rede neural 218 é treinado com dados de bactérias e testados em dados de seres humanos, em que os dados bacterianos e os dados de seres humanos compartilham o mesmo ensaio (por exemplo, ambos contêm dados intrônicos).

[00467] A Figura 68 mostra que a técnica de normalização de dados (DeepRTA (normalização)) e a técnica de aumento de dados (DeepRTA (aumento)) da Figura 66 reduzir a porcentagem de erro de chamada de base quando de chamador de base baseado em rede neural 218 é treinado com dados não exônicos (por exemplo, dados intrônicos) e testadas em dados exônicos.

[00468] Em outras palavras, a normalização de dados e as técnicas de aumento de dados da Figura 66 permitem ao chamador de base baseado em rede neural 218 generalizar melhor sobre dados não vistos no treinamento e reduzir dessa forma o ajuste em excesso (overfitting).

[00469] Em uma implementação, o aumento de dados é aplicado tanto durante o treinamento quanto a inferência. Em outra implementação, o aumento de dados é aplicado apenas durante o treinamento. Em ainda outra implementação, o aumento de dados é aplicado apenas durante a inferência. Sistema de sequenciamento

[00470] As Figuras 63A e 63B mostram uma implementação de um sistema de sequenciamento 6300A. O sistema de sequenciamento 6300A compreende um processador configurável 6346. O processador configurável 6346 implementa as técnicas de chamada de base reveladas na presente invenção. O sistema de sequenciamento é também chamado de "sequenciador".

[00471] O sistema de sequenciamento 6300A pode operar para obter quaisquer informações ou dados que se referem a ao menos um de uma substância biológica ou química. Em algumas implementações, o sistema de sequenciamento 6300A é uma estação de trabalho que pode ser similar a um dispositivo de bancada ou computador do tipo desktop. Por exemplo, uma maioria (ou todos) dos sistemas e componentes para conduzir as reações desejadas pode estar dentro de um compartimento comum 6302.

[00472] Em implementações específicas, o sistema de sequenciamento 6300A é um sistema de sequenciamento de ácidos nucleicos configurado para várias aplicações, incluindo, porém sem limitação, sequenciamento de novo de genomas inteiros ou de regiões genômicas alvo, e metagenômicas. O sequenciador pode também ser usado para análise de DNA ou RNA. Em algumas implementações, o sistema de sequenciamento 6300A pode também ser configurado para gerar locais de reação em um biossensor. Por exemplo, o sistema de sequenciamento 6300A pode ser configurado para receber uma amostra e gerar agrupamentos fixados a superfície de ácidos nucleicos clonalmente amplificados derivados da amostra. Cada agrupamento pode constituir ou ser parte de um local de reação no biossensor.

[00473] O sistema de sequenciamento exemplificador 6300A pode incluir um receptáculo ou interface de sistema 6310 que é configurado para interagir com um biossensor 6312 para realizar reações desejadas dentro do biossensor 6312. Na descrição a seguir em relação à Figura 63A, o biossensor 6312 é carregado no receptáculo de sistema

6310. Entretanto, é entendido que um cartucho que inclui o biossensor 6312 pode ser inserido no receptáculo de sistema 6310, e em alguns estados o cartucho pode ser removido temporariamente ou permanentemente. Conforme descrito acima, o cartucho pode incluir, entre outras coisas, componentes de controle fluídico e componentes e armazenamento fluídico.

[00474] Em implementações específicas, o sistema de sequenciamento 6300A é configurado para executar um grande número de reações paralelas dentro do biossensor 6312. O biossensor 6312 inclui um ou mais locais de reação onde reações desejadas podem ocorrer. Os locais de reação podem ser, por exemplo, imobilizados para uma superfície sólida do biossensor ou imobilizados para microesferas (ou outros substratos móveis) que estão localizados em câmaras de reação correspondentes do biossensor. Os locais de reação podem incluir, por exemplo, agrupamentos de ácidos nucleicos clonalmente amplificados. O biossensor 6312 pode incluir um dispositivo de imageamento de estado sólido (por exemplo, imageador CCD ou CMOS) e uma célula de fluxo montada no mesmo. A célula de fluxo pode incluir um ou mais canais de fluxo que recebem uma solução do sistema de sequenciamento 6300A e direcionam a solução para os locais de reação. Opcionalmente, o biossensor 6312 pode ser configurado para engatar um elemento térmico para transferir energia térmica para dentro ou para fora do canal de fluxo.

[00475] O sistema de sequenciamento 6300A pode incluir vários componentes, conjuntos e sistemas (ou subsistemas) que interagem entre si para executar um método ou protocolo de ensaio predeterminado para análise biológica ou química. Por exemplo, o sistema de sequenciamento 6300A inclui um controlador de sistema 6306 que podem se comunicar com os vários componentes, conjuntos, e subsistemas do sistema de sequenciamento 6300A e também com o biossensor 6312. Por exemplo, além do receptáculo de sistema 6310, o sistema de sequenciamento 6300A pode incluir também um sistema de controle de fluido 6308 para controlar o fluxo de fluido ao longo de uma rede de fluido do sistema de sequenciamento 6300A e do biossensor 6312; um sistema de armazenamento de fluido 6314 que é configurado para conter todos os fluidos (por exemplo, gás ou líquidos) que pode ser usado pelo sistema de bioensaio; um sistema de controle de temperatura 6304 que pode regular a temperatura do fluido na rede de fluido,

o sistema de armazenamento de fluido 6314 e/ou o biossensor 6312; e um sistema de iluminação 6316 que é configurada para iluminar o biossensor

6312. Conforme descrito acima, se um cartucho que tem o biossensor 6312 é carregado no receptáculo de sistema 6310, o cartucho pode incluir também componentes de controle de fluido e armazenamento de fluido.

[00476] Também mostrado, o sistema de sequenciamento 6300A pode incluir uma interface de usuário 6318 que interage com o usuário. Por exemplo, a interface de usuário 6318 pode incluir um visor 6320 para exibir ou solicitar informações de um usuário e um dispositivo de entrada de usuário 6322 para receber entradas de usuário. Em algumas implementações, o visor 6320 e o dispositivo de entrada de usuário 6322 são o mesmo dispositivo. Por exemplo, a interface de usuário 6318 pode incluir um visor sensível ao toque configurado para detectar a presença do toque de um indivíduo e também identificar um local do toque no visor. Entretanto, outros dispositivos de entrada de usuário 6322 podem ser usados, como um mouse, touchpad, teclado, teclado numérico, scanner de mão, sistema de reconhecimento de voz, sistema de reconhecimento de movimento, e similares. Conforme será discutido em maiores detalhes abaixo, o sistema de sequenciamento 6300A pode se comunicar com vários componentes, incluindo o biossensor 6312 (por exemplo, sob a forma de um cartucho), para realizar as reações desejadas. O sistema de sequenciamento 6300A pode também ser configurado para analisar dados obtidos a partir do biossensor para fornecer ao usuário as informações desejadas.

[00477] O controlador de sistema 6306 pode incluir qualquer sistema baseado em processador ou baseado em microprocessador, incluindo sistemas que usam microcontroladores, computadores com um conjunto reduzido de instruções ("RISC" - reduced instruction set computer), circuitos integrados de aplicação específica ("ASICs" - application specific integrated circuits), arranjos de portas programáveis em campo ("FPGAs" - field programmable gate array), arquiteturas reconfiguráveis de grão grosso ("CGRAs" - coarse-grained reconfigurable architectures), circuitos lógicos, e qualquer outro circuito ou um processador capaz de executar as funções descritas na presente invenção. Os exemplos acima são meramente exemplificadores, e não se destinam a limitar de maneira nenhuma a definição e/ou o significado do termo controlador de sistema. Na implementação exemplificadora, o controlador de sistema 6306 executa um conjunto de instruções que são armazenadas em um ou mais elementos para armazenamento, memórias ou módulos para ao menos um dentre obter e analisar dados de detecção. Os dados de detecção podem incluir uma pluralidade de sequências de sinais de pixel, de modo que uma sequência de sinais de pixel de cada um dos milhões de sensores (ou pixels) pode ser detectada em muitos ciclos de chamada de base. Os elementos para armazenamento podem estar sob a forma de fontes de informações ou elementos de memória física no sistema de sequenciamento 6300A.

[00478] O conjunto de instruções pode incluir vários comandos que instruem o sistema de sequenciamento 6300A ou biossensor 6312 a executar operações específicas como os métodos e processos das várias implementações descritas na presente invenção. O conjunto de instruções pode estar sob a forma de um programa de software, que pode fazer parte de uma mídia ou mídias legíveis por computador tangíveis e não transitórias. Como usado aqui, os termos "software" e "firmware" são intercambiáveis, e incluem qualquer programa de computador armazenado na memória para execução por um computador, incluindo memória RAM, memória ROM, memória EPROM, memória EEPROM e memória RAM não volátil (NVRAM). Os tipos de memória acima são apenas exemplificadores, e não são limitadores quanto aos tipos de memória usáveis para armazenamento de um programa de computador.

[00479] O software pode ser sob várias formas como software de sistema ou software aplicativo. Adicionalmente, o software pode ser sob a forma de uma coleção de programas separados, ou um módulo de programa dentro de um programa maior ou uma porção de um módulo de programa. O software pode incluir também programação modular sob a forma de programação orientada a objetos. Depois de obter os dados de detecção, os dados de detecção podem ser processados automaticamente pelo sistema de sequenciamento 6300A, processados em resposta a entradas de usuário, ou processados em resposta a uma solicitação feita por outra máquina de processamento (por exemplo, uma solicitação remota através de um link de comunicação). Na implementação ilustrada, o controlador de sistema 6306 inclui um módulo de análise 6344. Em outras implementações, o controlador de sistema 6306 não inclui o módulo de análise 6344 e em vez disso tem acesso ao módulo de análise 6344 (por exemplo, o módulo de análise 6344 pode ser separadamente hospedado em nuvem).

[00480] O controlador de sistema 6306 pode ser conectado ao biossensor 6312 e a outros componentes do sistema de sequenciamento 6300A através de links de comunicação. O controlador de sistema 6306 pode também ser conectado de modo comunicativo a sistemas ou servidores fora do local. Os links de comunicação podem ser com fio, cordados ou sem fio. O controlador de sistema 6306 pode receber os dados inseridos pelo usuário, ou comandos, a partir da interface de usuário 6318 e do dispositivo de entrada de usuário 6322.

[00481] O sistema de controle 6308 inclui uma rede de fluido e é configurado para direcionar e regular o fluxo de um ou mais fluidos através da rede de fluido. A rede de fluido pode estar em comunicação fluida com o biossensor 6312 e o sistema de armazenamento de fluidos 6314. Por exemplo, fluidos seletos podem ser extraídos a partir do sistema de armazenamento de fluido 6314 e direcionados para o biossensor 6312 de uma maneira controlada, ou os fluidos podem ser extraídos do biossensor 6312 e direcionados para, por exemplo, um reservatório de resíduos no sistema de armazenamento de fluidos 6314. Embora não mostrado, o sistema de controle fluídico 6308 pode incluir sensores de fluxo que detectam uma taxa ou pressão de fluxo dos fluidos dentro da rede de fluido. Os sensores podem se comunicar com o controlador de sistema

6306.

[00482] O sistema de controle de temperatura 6304 é configurado para regular a temperatura de fluidos em diferentes regiões da rede de fluido, do sistema de armazenamento de fluidos 6314 e/ou do biossensor 6312. Por exemplo, o sistema de controle de temperatura 6304 pode incluir um termociclador que faz interface com o biossensor 6312 e controla a temperatura do fluido que flui ao longo dos locais de reação no biossensor 6312. O sistema de controle de temperatura 6304 pode também regular a temperatura dos elementos ou componentes sólidos do sistema de sequenciamento 6300A ou do biossensor 6312. Embora não mostrado, o sistema de controle de temperatura 6304 pode incluir sensores para detectar a temperatura do fluido ou outros componentes. Os sensores podem se comunicar com o controlador de sistema 6306.

[00483] O sistema de armazenamento de fluido 6314 está em comunicação fluida com o biossensor 6312 e pode armazenar vários componentes de reação ou reagentes que são usados para conduzir as reações desejadas no mesmo. O sistema de armazenamento de fluido 6314 pode também armazenar fluidos de lavagem ou limpeza da rede fluída e do biossensor 6312 e para diluir os reagentes. Por exemplo, o sistema de armazenamento de fluido 6314 pode incluir vários reservatórios para armazenar amostras, reagentes, enzimas, outras biomoléculas, soluções tampão, soluções aquosas e soluções não polares, e similares. Além disso, o sistema de armazenamento de fluidos 6314 pode incluir também reservatórios de resíduos para receber produtos residuais do biossensor

6312. Em implementações que incluem um cartucho, o cartucho pode incluir um ou mais dentre um sistema de armazenamento de fluido, um sistema de controle de fluido ou um sistema de controle de temperatura. Consequentemente, um ou mais dos componentes aqui apresentados em relação a esses sistemas podem estar contidos no interior de um compartimento do cartucho. Por exemplo, um cartucho pode ter vários reservatórios para armazenar amostras, reagentes, enzimas, outras biomoléculas, soluções tampão, soluções aquosas, e soluções resíduos, e similares. Como tal, um ou mais dentre um sistema de armazenamento de fluido, um sistema de controle de fluido ou um sistema de controle de temperatura pode ser engatado de modo removível com um sistema de bioensaio por meio de um cartucho ou outro biossensor.

[00484] O sistema de iluminação 6316 pode incluir uma fonte de luz (por exemplo, um ou mais LEDs) e uma pluralidade de componentes ópticos para iluminar o biossensor. Exemplos de fontes de luz pode incluem lasers, lâmpadas de arco, LEDs, ou DIODOS laser. Os componentes ópticos podem ser, por exemplo, refletores, dicroicos, divisores de feixe, colimadores, lentes, filtros, cunhas, prismas, espelhos, detectores, e similares. Em implementações que usam um sistema de iluminação, o sistema de iluminação 6316 pode ser configurado para direcionar uma luz de excitação aos locais de reação. Como um exemplo, fluoróforos podem ser excitados por comprimentos de onda de luz verde, como tal o comprimento de onda da luz de excitação pode ser de aproximadamente 532 nm. Em uma implementação, o sistema de iluminação 6316 é configurado para produzir iluminação que é paralela a uma normal de superfície de uma superfície do biossensor 6312. Em outra implementação, o sistema de iluminação 6316 é configurado para produzir iluminação que está fora de ângulo em relação à normal de superfície da superfície do biossensor 6312. Em ainda outra implementação, o sistema de iluminação

6316 é configurado para produzir iluminação que tem diversos ângulos, incluindo alguma iluminação paralela e alguma iluminação fora de ângulo.

[00485] O receptáculo ou interface de sistema 6310 é configurado para engatar o biossensor 6312 em ao menos um dentre um modo mecânico, elétrico e fluídico. O receptáculo do sistema 6310 pode prender o biossensor 6312 em uma orientação desejada para facilitar o fluxo de fluido através do biossensor 6312. O receptáculo do sistema 6310 pode incluir também contatos elétricos que são configurados para engatar o biossensor 6312 de modo que o sistema de sequenciamento 6300A possa se comunicar com o biossensor 6312 e/ou fornecer energia ao biossensor 6312. Além disso, o receptáculo de sistema 6310 pode incluir portas fluídicas (por exemplo, bocais) que são configuradas para engatar o biossensor 6312. Em algumas implementações, o biossensor 6312 é acoplado de modo removível ao receptáculo de sistema 6310 de maneira mecânica, de maneira elétrica e também de maneira fluídica.

[00486] Além disso, o sistema de sequenciamento 6300A pode se comunicar remotamente com outros sistemas ou redes ou com outros sistemas de bioensaio 6300A. Os dados de detecção obtidos pelos sistemas de bioensaio 6300A podem ser armazenados em um banco de dados remoto.

[00487] A Figura 63B é um diagrama de blocos de um controlador de sistema 6306 que pode ser usado no sistema da Figura 63A. Em uma implementação, o controlador de sistema 6306 inclui um ou mais processadores ou módulos que podem se comunicar entre si. Cada um dos processadores ou módulos pode incluir um algoritmo (por exemplo, instruções armazenadas em meio tangível e/ou não transitória de armazenamento legível por computador) ou sub-algoritmos para executar processos específicos. O controlador de sistema 6306 é ilustrado conceitualmente como uma coleção de módulos, mas pode ser implementado com o uso de qualquer combinação de placas de hardware dedicadas, DSPs, processadores, etc. Alternativamente, o controlador de sistema 6306 pode ser implementado com o uso de um PC pronto com um único processador ou múltiplos processadores, com as operações funcionais distribuídas entre os processadores. Como uma opção adicional, os módulos descritos abaixo podem ser implementados com o uso de uma configuração híbrida na qual certas funções modulares são realizadas com o uso de hardware dedicado, enquanto as demais funções modulares são realizadas com o uso de um PC comercial, e similares. Os módulos podem também ser implementados como módulos de software em uma unidade de processamento.

[00488] Durante a operação, uma porta de comunicação 6350 pode transmitir informações (por exemplo, comandos) para ou receber informações (por exemplo, dados) a partir do biossensor 6312 (Figura 63A) e/ou dos subsistemas 6308, 6314, 6304 (Figura 63A). Em algumas implementações, a porta de comunicação 6350 pode gerar uma pluralidade de sequências de sinais de pixel. Um link de comunicação 6334 pode receber os dados inseridos pelo usuário a partir da interface de usuário 6318 (Figura 63A) e transmitir dados ou informações para a interface de usuário 6318. Os dados do biossensor 6312 ou dos subsistemas 6308, 6314, 6304 podem ser processados pelo controlador de sistema 6306 em tempo real durante uma sessão de bioensaio. Adicional ou alternativamente, os dados podem ser armazenados temporariamente em uma memória do sistema durante uma sessão do bioensaio e processados em uma operação fora de linha ou mais lento do que o tempo real.

[00489] Conforme mostrado na Figura 63B, o controlador de sistema 6306 pode incluir uma pluralidade de módulos 6326 a 6348 que se comunicam com um módulo de controle principal 6324, juntamente com uma unidade de processamento central (CPU) 6352. O módulo de controle principal 6324 pode se comunicar com a interface de usuário 6318 (Figura 63A). Embora os módulos 6326 a 6348 sejam mostrados como se comunicando diretamente com o módulo de controle principal 6324, os módulos 6326 a 6348 podem também se comunicar diretamente uns com os outros, com a interface de usuário 6318, e com o biossensor 6312. Além disso, os módulos 6326 a 6348 podem se comunicar com o módulo de controle principal 6324 através dos outros módulos.

[00490] A pluralidade de módulos 6326 a 6348 incluem os módulos de sistema 6328 a 6332, 6326 que se comunicam com os subsistemas 6308, 6314, 6304, e 6316, respectivamente. O módulo de controle fluídico 6328 pode se comunicar com o sistema de controle fluídico 6308 para controlar as válvulas e sensores de fluxo da rede de fluido para controlar o fluxo de um ou mais fluidos através da rede de fluido. O módulo de armazenamento de fluidos 6330 pode notificar o usuário quando os fluidos estão baixos ou quando o reservatório de resíduos está em ou próximo da capacidade total. O módulo de armazenamento de fluidos 6330 pode também se comunicar com o módulo de controle de temperatura 6332 de modo que os fluidos possam ser armazenados a uma temperatura desejada. O módulo de iluminação 6326 pode se comunicar com o sistema de iluminação 6316 para iluminar os locais de reação em momentos designados durante um protocolo, como após as reações desejadas (por exemplo, eventos de ligação) ocorrerem. Em algumas implementações, o módulo de iluminação 6326 pode se comunicar com o sistema de iluminação 6316 para iluminar os locais de reação em ângulos designados.

[00491] A pluralidade de módulos 6326 a 6348 pode incluir também um módulo de dispositivo 6336 que se comunica com o biossensor 6312 e um módulo de identificação 6338 que determina as informações de identificação relacionadas com o biossensor 6312. O módulo de dispositivo 6336 pode, por exemplo, se comunicar com o receptáculo de sistema 6310 para confirmar que o biossensor estabeleceu uma conexão eléctrica ou fluídica com o sistema de sequenciamento 6300A. O módulo de identificação 6338 pode receber sinais que identificam o biossensor 6312.

O módulo de identificação 6338 pode usar a identidade do biossensor 6312 para fornecer outras informações ao usuário. Por exemplo, o módulo de identificação 6338 pode determinar e então exibir um número de lote, uma data de fabricação, ou um protocolo que é recomendado para ser executado com o biossensor 6312.

[00492] A pluralidade de módulos 6326 a 6348 inclui também um módulo de análise 6344 (também chamado de módulo de processamento de sinal ou processador de sinal) que recebe e analisa os dados de sinal (por exemplo, dados de imagem) a partir do biossensor 6312. O módulo de análise 6344 inclui memória (por exemplo, RAM ou Flash) para armazenar dados de imagem/detecção. Os dados de detecção podem incluir uma pluralidade de sequências de sinais de pixel, de modo que uma sequência de sinais de pixel de cada um dos milhões de sensores (ou pixels) pode ser detectada em muitos ciclos de chamada de base. Os dados de sinal podem ser armazenados para análise subsequente ou podem ser transmitidos para a interface de usuário 6318 para exibir as informações desejadas ao usuário. Em algumas implementações, os dados de sinal podem ser processados pelo imageador de estado sólido (por exemplo, sensor de imagem CMOS) antes do módulo de análise 6344 receber os dados de sinal.

[00493] O módulo de análise 6344 é configurado para obter dados de imagem provenientes dos detectores de luz em cada um dentre uma pluralidade de ciclos de sequenciamento. Os dados de imagem são derivados de sinais de emissão detectados pelos detectores de luz e processam os dados de imagem para cada um dentre a pluralidade de ciclos de sequenciamento através do pontuador de qualidade baseado em rede neural 6102 e/ou do chamador de base baseado em rede neural 218 e produzem uma chamada de base para ao menos alguns dos analitos em cada um dentre a pluralidade de ciclo de sequenciamento. Os detectores de luz podem ser parte de uma ou mais câmeras de topo (por exemplo, câmera CDD de GAIIx da Illumina que obtém imagens dos agrupamentos no biossensor 6312 a partir do topo), ou podem ser parte do biossensor 6312 em si (por exemplo, sensores de imagem CMOS de iSeq da Illumina subjacentes aos agrupamentos no biossensor 6312 e obter imagens dos agrupamentos a partir do plano de fundo).

[00494] A saída dos detectores de luz é o sequenciamento de imagens, cada uma representando emissões de intensidade dos agrupamentos e seu plano de fundo circundante. As imagens de sequenciamento representam emissões de intensidade geradas como resultado da incorporação de nucleotídeos nas sequências durante o sequenciamento. As emissões de intensidade são de analitos associados e seu fundo circundante. As imagens de sequenciamento são armazenadas na memória 6348.

[00495] Os módulos de protocolo 6340 e 6342 se comunicam com o módulo de controle principal 6324 para controlar a operação dos subsistemas 6308, 6314 e 6304 quando conduzem os protocolos de ensaio predeterminados. Os módulos de protocolo 6340 e 6342 podem incluir conjuntos de instruções para instruir o sistema de sequenciamento 6300A para executar operações específicas em conformidade com os protocolos predeterminados. Conforme mostrado, o módulo de protocolo pode ser um módulo de sequenciamento por síntese (SBS) 6340 que é configurado para emitir vários comandos para executar os processos de sequenciamento por síntese. Na SBS, a extensão de um iniciador de ácido nucleico ao longo de um gabarito de ácido nucleico é monitorada para determinar a sequência de nucleotídeos no gabarito. O processo químico subjacente pode ser polimerização (por exemplo, como catalisada por uma enzima polimerase) ou ligação (por exemplo, catalisada por uma enzima de ligase). Em uma implementação específica de SBS baseada em polimerase, nucleotídeos marcados fluorescentemente são adicionados a um iniciador (estendendo assim o iniciador) de uma maneira dependente de gabarito, de modo que a detecção da ordem e do tipo de nucleotídeos adicionados ao iniciador possa ser usada para determinar a sequência do gabarito. Por exemplo, para iniciar um primeiro ciclo da SBS, comandos podem ser dados para liberar um ou mais nucleotídeos marcados, DNA polimerase, etc., em/através de uma célula de fluxo que abriga um conjunto de gabaritos de ácidos nucleicos. Os gabaritos de ácidos nucleicos podem estar localizados em locais de reação correspondentes. Esses locais de reação em que a extensão do iniciador gerar um nucleotídeo marcado para ser incorporado podem ser detectados através de um evento de imageamento. Durante um evento de imageamento, o sistema de iluminação 6316 pode fornecer uma luz de excitação aos locais de reação. Opcionalmente, os nucleotídeos podem incluir adicionalmente uma propriedade de terminação reversível que termina mais a extensão de iniciadores após um nucleotídeo ter sido adicionado a um iniciador. Por exemplo, um análogo de nucleotídeo tendo uma porção de terminador reversível pode ser adicionado a um iniciador, de modo que uma subsequente extensão não pode ocorrer até que um agente de desbloqueamento remova a porção. Dessa forma, para implementações que usam terminação reversível, um comando pode ser dado para liberar um agente de desbloqueamento à célula de fluxo (antes ou após a detecção ocorrer). Um ou mais comandos podem ser dados para realizar as lavagens entre as várias etapas de aplicação. O ciclo pode, então, ser repetido n vezes para estender o iniciador por n nucleotídeos, detectando, assim, uma sequência de comprimento n. Técnicas de sequenciamento exemplificadoras são descritas, por exemplo, em Bentley et al., Nature 456:53 a 59 (20063); WO 04/0163497; US n° 7.057.026; WO 91/066763; WO 07/123744; US n° 7.329.492; US n°

7.211.414; US n° 7.315.019; US n° 7.405.2631 e US n° 20063/01470630632, cada um dos quais está incorporado na presente invenção a título de referência.

[00496] Para a etapa de liberação de nucleotídeos de um ciclo SBS, um único tipo de nucleotídeo pode ser liberado em um momento, ou múltiplos tipos de nucleotídeos diferentes (por exemplo, A, C, T e G juntos) podem ser aplicados. Para uma configuração de aplicação de nucleotídeos em que apenas um tipo único de nucleotídeo está presente em um momento, os diferentes nucleotídeos não precisam ter diferentes rótulos uma vez que eles podem ser distinguidos com base em separação temporal inerente na liberação individualizada. Consequentemente, um método ou aparelho de sequenciamento pode usar detecção de cor única. Por exemplo, uma fonte de excitação precisa apenas fornecer excitação em um único comprimento de onda ou em uma única faixa de comprimentos de onda. Para uma configuração de aplicação de nucleotídeos na qual a aplicação resulta na presença de múltiplos nucleotídeos diferentes na célula de fluxo de uma vez, os locais que incorporam diferentes tipos de nucleotídeos podem ser distinguidos com base em diferentes marcadores fluorescentes que são fixados aos respectivos tipos de nucleotídeos na mistura. Por exemplo, quatro nucleotídeos diferentes podem ser usados, cada um tendo um dentre quatro diferentes fluoróforos. Em uma implementação, os quatro diferentes fluoróforos podem ser distinguidos com o uso de excitação em quatro regiões diferentes do espectro. Por exemplo, quatro fontes diferentes de radiação de excitação podem ser usadas. Alternativamente, menos de quatro diferentes fontes de excitação podem ser usadas, mas filtração óptica da radiação de excitação a partir de uma única fonte pode ser usada para produzir diferentes faixas de radiação de excitação na célula de fluxo.

[00497] Em algumas implementações, menos de quatro cores diferentes podem ser detectadas em uma mistura que tem quatro nucleotídeos diferentes. Por exemplo, pares de nucleotídeos podem ser detectados no mesmo comprimento de onda, mas distinguidos com base em uma diferença de intensidade para um membro do par em comparação com os outros, ou com base em uma alteração a um membro do par (por exemplo, por meio de modificação química, modificação fotoquímica ou modificação física) que causa o aparecimento ou desaparecimento de um sinala aparente em comparação com o sinal detectado para o outro membro do par. Aparelhos e métodos exemplificadores para distinguir quatro nucleotídeos diferentes com o uso de detecção de menos de quatro cores são descritos, por exemplo, nos pedidos de patente US n°s de série 61/5363.294 e 61/619.63763, que estão aqui incorporados a título de referência em suas totalidades. O pedido de patente US n° 13/624.200, que foi depositado em 21 de setembro de 2012, está também incorporada na presente invenção, a título de referência, em sua totalidade.

[00498] A pluralidade de módulos de protocolo pode incluir também um módulo de preparação de amostra (ou geração) 6342 que é configurado para emitir comandos para o sistema de controle fluídico 6308 e para o sistema de controle de temperatura 6304 para amplificar um produto dentro do biossensor 6312. Por exemplo, o biossensor 6312 pode ser engatado ao sistema de sequenciamento 6300A. O módulo de amplificação 6342 pode emitir instruções para o sistema de controle fluídico 6308 para liberar componentes de amplificação necessários para as câmaras de reação dentro do biossensor 6312. Em outras implementações, os locais de reação podem já conter alguns componentes para a amplificação, como o DNA de gabarito e/ou iniciadores. Após liberar os componentes de amplificação componentes para as câmaras de reação, o módulo de amplificação 6342 pode instruir o sistema de controle de temperatura 6304 a circular por diferentes estágios de temperatura de acordo com os protocolos de amplificação conhecidos. Em algumas implementações, a amplificação e/ou incorporação de nucleotídeos é realizada isotermicamente.

[00499] O módulo SBS 6340 pode emitir comandos para executar PCR de ponte em que agrupamentos de amplicons clonais são formados em áreas localizadas dentro de um canal de uma célula de fluxo. Após gerar os amplicons por meio de PCT de ponte, os amplicons podem ser "linearizados" para fazer DNA de gabarito de fita única, ou sstDNA e um iniciador de sequenciamento pode ser hibridizado para uma sequência universais que flanqueia uma região de interesse. Por exemplo, um sequenciamento baseado em terminador reversível por método de síntese pode ser usado como apresentado acima ou da forma a seguir.

[00500] Cada chamada de base ou ciclo sequenciamento pode estender uma sstDNA por uma base única que pode ser obtida, por exemplo, com o uso de uma DNA polimerase modificada e uma mistura de quatro tipos de nucleotídeos. Os diferentes tipos de nucleotídeos podem ter marcadores fluorescentes exclusivos, e cada nucleotídeo pode ter, adicionalmente, um terminador reversível que permite que apenas uma única incorporação de base ocorra em cada ciclo. Após uma única base ser adicionada ao sstDNA, a luz de excitação pode ser incidente sobre os locais de reação e as emissões fluorescentes podem ser detectadas. Após a detecção, o marcador fluorescente e o terminador podem ser quimicamente clivados do sstDNA. Outra chamada de base similar ou ciclo de sequenciamento pode se seguir. Em tal protocolo de sequenciamento, o módulo de SBS 6340 pode instruir o sistema de controle fluídico 6308 a direcionar um fluxo de reagente e soluções de enzima através do biossensor 6312. Os métodos SBS baseados em terminador reversível exemplificadores que podem ser utilizados com os aparelhos e métodos aqui apresentados são descritos na publicação de pedido de patente US n° 2007/0166705 A1, publicação de pedido de patente US n° 2006/016363901 A1, patente US n° 7.057.026, publicação de pedido de patente US n° 2006/0240439 A1, publicação de pedido de patente US n° 2006/026314714709 A1, publicação PCT n° WO 05/0656314, publicação de pedido de patente US n° 2005/014700900 A1, publicação PCT n° WO 06/063B199 e publicação PCT n° WO 07/01470251, cada uma das quais está aqui incorporada a título de referência em sua totalidade. Reagentes exemplificadores para o SBS baseado em terminador reversível são descritos nos documentos US n° 7.541.444; US n° 7.057.026; US n°

7.414.14716; US n° 7.427.673; US n° 7.566.537; US n° 7.592.435 e WO 07/1463353663, cada um dos quais está aqui incorporado a título de referência em sua totalidade.

[00501] Em algumas implementações, os módulos de amplificação e SBS podem operar em um único protocolo de ensaio de onde, por exemplo, o ácido nucleico de gabarito é amplificado e subsequentemente sequenciado dentro do mesmo cartucho.

[00502] O sistema de sequenciamento 6300A pode também permitir que o usuário reconfigura um protocolo de ensaio. Por exemplo, o sistema de sequenciamento 6300A pode oferecer opções ao usuário através da interface de usuário 6318 para modificar o determinado protocolo. Por exemplo, se for determinado que o biossensor 6312 deve ser usado para amplificação, o sistema de sequenciamento 6300A pode solicitar uma temperatura para o ciclo de anelamento. Além disso, o sistema de sequenciamento 6300A pode emitir avisos a um usuário se um usuário tiver fornecido entradas de usuário inseriu que são geralmente não aceitáveis para o protocolo de ensaio selecionado.

[00503] Em algumas implementações, o biossensor 6312 inclui milhões de sensores (ou pixels), cada um dos quais gera uma pluralidade de sequências de sinais de pixel ao longo de sucessivos ciclos de chamadas de base. O módulo de análise 6344 detecta a pluralidade de sequências de sinais de pixels e as atribui para os sensores (ou pixels) correspondentes de acordo com a localização por fileira e/ou por coluna dos sensores em uma matriz de sensores.

[00504] A Figura 63C é um diagrama de blocos simplificado de um sistema para análise de dados de sensor a partir do sistema de sequenciamento 6300A, como saídas do sensor de chamada de base. No exemplo da Figura 63C, o sistema inclui o processador configurável 6346. O processador configurável 6346 pode executar um chamador de base (por exemplo, o pontuador de qualidade baseado em rede neural 6102 e/ou o chamador de base baseado em rede neural 218) em coordenação com um programa em tempo de execução executado pela unidade de processamento central (CPU) 6352 (isto é, um processador hospedeiro). O sistema de sequenciamento 6300A compreende o biossensor 6312 e as células de fluxo. As células de fluxo podem compreender um ou mais ladrilhos nos quais agrupamentos de material genético são expostos a uma sequência de fluxos de analito usada para causar reações nos agrupamentos para identificar as bases no material genético. Os sensores detectam as reações para cada ciclo da sequência em cada ladrilho da célula de fluxo para fornecer dados de ladrilho. O sequenciamento genético é uma operação intensiva de dados, que traduz dados de sensor da chamada de base em sequências de chamadas de base para cada agrupamento do material genético detectado durante uma operação de chamada de base.

[00505] O sistema neste exemplo inclui a CPU 6352, que executa um programa em tempo de execução para coordenar as operações de chamada de base, a memória 6348B para armazenar as sequências de matrizes de dados de ladrilho, as leituras de chamada de base produzidas pela operação de chamada de base, e outras informações usadas na operação de chamada de base. Além disso, nesta ilustração, o sistema inclui memória 6348A para armazenar um arquivo de configuração (ou arquivos), como arquivos FPGA bit, e parâmetros de modelo para as redes neurais usados para configurar e reconfigurar o processador 6346 configuráveis, e executar as redes neurais. O sistema de sequenciamento 6300A pode incluir um programa para configurar um processador configurável e, em algumas modalidades, um processador reconfigurável para executar as redes neurais.

[00506] O sistema de sequenciamento 6300A é acoplado por um barramento 6389 ao processador configurável 6346. O barramento 6389 pode ser implementado com o uso de uma tecnologia de alto rendimento,

como em uma tecnologia de barramento exemplificadora compatível com os padrões PCIe ("Peripheral component interconnect express", interconexão expressa de componentes periféricos) atualmente mantidos e desenvolvido pela PCI-SIG (PCI-Special interest group). Também neste exemplo, uma memória 6348A é acoplada ao processador configurável 6346 pelo barramento 6393. A memória 6348A pode ser uma memória na placa, disposta em uma placa de circuito com o processador configurável 6346. A memória 6348A é usada para acesso em alta velocidade pelo processador configurável 6346 de dados de trabalho usados na operação de chamada de base. O barramento 6393 pode também ser implementado com o uso de uma tecnologia de alto rendimento, como tecnologia de barramento compatível com os padrões do PCIe.

[00507] Processadores configuráveis, incluindo arranjos de portas programáveis em campo FPGAs, arranjos reconfiguráveis de grão grosso CGRAs, e outros dispositivos configuráveis e reconfiguráveis, podem ser configurados para executar uma variedade de funções de forma mais eficiente ou mais rápida do que pode seria alcançado com o uso de um processador de propósito geral que executa um programa de computador. A configuração dos processadores configuráveis envolve compilar uma descrição funcional para produzir um arquivo de configuração, chamado às vezes de bitstream ou arquivo bit, e distribuir o arquivo de configuração para os elementos configuráveis no processador. O arquivo de configuração define as funções de lógica a serem executadas pelo processador configurável, configurando o circuito para estabelecer padrões de fluxo de dados, uso de memória distribuída e outros recursos de memória on-chip, conteúdos de tabela de consulta, operações de blocos lógicos configuráveis e unidades de execução configuráveis como unidades de multiplicar e acumular, interconexões configuráveis e outros elementos da matriz configurável. Um processador configurável é reconfigurável se o arquivo de configuração pode ser alterado no campo, mediante alteração do arquivo de configuração carregado. Por exemplo, o arquivo de configuração pode ser armazenado em elementos de SRAM voláteis, em elementos de memória de leitura-escrita não voláteis, e em combinações dos mesmos, distribuídos entre as matrizes de elementos configuráveis no processador configurável ou reconfigurável. Uma variedade de processadores configuráveis comercialmente disponíveis são adequados para uso em uma operação de chamada de base conforme descrito na presente invenção. Exemplos incluem Tensor Processing Unit (TPU)™ da Google, rackmount solutions like GX4 Rackmount Series™, GX9 Rackmount Series™, NVIDIA DGX-1™, Stratix V FPGA™ da Microsoft, Graphcore’s Intelligent Processor Unit (IPU)™, Qualcomm’s Zeroth Platform™ com processadores Snapdragon™, NVIDIA’s Volta™, NVIDIA’s DRIVE PX™, NVIDIA’s JETSON TX1/TX2 MODULE™, Intel’s Nirvana™, Movidius VPU™, Fujitsu DPI™, ARM’s DynamicIQ™, IBM TrueNorth™, Lambda GPU Server com Testa V100s™, Xilinx Alveo™ U200, Xilinx Alveo™ U250, Xilinx Alveo™ U280, Intel/Altera Stratix™ GX2800, Intel/Altera Stratix™ GX2800, e Intel Stratix™ GX10M. Em alguns exemplos, uma CPU hospedeira pode ser implementada no mesmo circuito integrado como o processador configurável.

[00508] As modalidades descritas na presente invenção implementam o pontuador de qualidade baseado em rede neural 6102 e/ou o chamador de base baseado em rede neural 218 com o uso do processador configurável 6346. O arquivo de configuração para o processador configurável 6346 pode ser implementado mediante especificação das funções de lógica a serem executadas com o uso de uma especificação de linguagem de descrição de alto nível HDL ou uma especificação de linguagem RTL nível de transferência de registro. A especificação pode ser compilada com o uso dos recursos projetados para o processador configurável selecionado para gerar o arquivo de configuração. A mesma ou similar especificação pode ser compilada com o propósito de gerar um design para um circuito integrado específico de aplicação que pode não ser um processador configurável.

[00509] Alternativas para o processador configurável 6346, em todas as modalidades descritas na presente invenção, incluem, portanto, um processador configurado que compreende um circuito integrado de aplicação específica ASIC ou de propósito especial ou conjunto de circuitos integrados, ou um dispositivo sistema-em um-chip SOC ("system-on-a- chip"), ou um processador de unidade de processamento gráfico (GPU) ou um processador de arquitetura reconfigurável de grão grosso (CGRA), configurados para executar uma operação de chamada de base baseada em rede neural, conforme descrito na presente invenção.

[00510] Em geral, os processadores configuráveis e os processados configurados aqui descritos, como configurados para executar corridas de uma rede neural, são chamados na presente invenção de processadores de rede neural.

[00511] O processador configurável 6346 é configurado, nesse exemplo, por um arquivo de configuração carregado com o uso de um programa executado pela CPU 6352, ou por outras fontes, que configura a matriz de elementos configuráveis 6391 (por exemplo, blocos lógicos de configuração ("CLB" - configuration logic blocks) como tabelas de consulta ("LUTs" - look up tables), flip-flops, unidades de processamento de computação ("PMUs" - compute processing units) e unidades de memória de computação ("CMUs" - compute memory units), blocos I/O configuráveis, interconexões programáveis), no processador configurável para executar a função de chamada de base. Neste exemplo, a configuração inclui lógica de fluxo de dados 6397 que é acoplada aos barramentos 6389 e 6393 e executa funções para distribuir dados e parâmetros de controle entre os elementos usados na operação de chamada de base.

[00512] Além disso, o processador configurável 6346 é configurado com lógica de execução de chamada de base 6397 para executar o pontuador de qualidade baseado em rede neural 6102 e/ou o chamador de base baseado em rede neural 218. A lógica 6397 compreende agrupamentos de execução de múltiplos ciclos (por exemplo, 6379) que, neste exemplo, incluem o agrupamento de execução 1 até o agrupamento de execução X. O número de agrupamentos de execução de múltiplos ciclos pode ser selecionado de acordo com uma decisão de compensação que envolve o rendimento desejado da operação, e os recursos disponíveis no processador configurável

6346.

[00513] Os agrupamentos de execução de múltiplos ciclos são acoplados à lógica de fluxo de dados 6397 por trajetórias de fluxo de dados 6399 implementadas com o uso de interconexão configurável e recursos de memória no processador configurável 6346. Além disso, os agrupamentos de execução de múltiplos ciclos são acoplados à lógica de fluxo de dados 6397 por trajetórias de controle 6395 implementadas com o uso de interconexão configurável e recursos de memória, por exemplo, no processador configurável 6346, que fornecem sinais de controle indicando agrupamentos de execução disponíveis, prontidão para fornecer unidades de entrada para a execução de uma rodada do pontuador de qualidade baseado em rede neural 6102 e/ou o chamador de base baseado em rede neural 218 aos agrupamentos de execução disponíveis, prontidão para fornecer parâmetros treinados para o pontuador de qualidade baseado em rede neural 6102 e/ou o chamador de base baseado em rede neural 218, prontidão para fornecer fragmentos de saída de dados de classificação de chamada de base, e outros dados de controle usados para a execução do pontuador de qualidade baseado em rede neural 6102 e/ou do chamador de base baseado em rede neural 218.

[00514] O processador configurável 6346 é configurado para executar as rodadas do pontuador de qualidade baseado em rede neural 6102 e/ou do chamador de base baseado em rede neural 218 com o uso de parâmetros treinados para produzir dados de classificação para os ciclos de detecção da operação de chamada de base. Uma rodada do pontuador de qualidade baseado em rede neural 6102 e/ou do chamador de base baseado em rede neural 218 é executada para produzir dados de classificação para um ciclo de detecção de sujeito da operação de chamada de base. Uma rodada do pontuador de qualidade baseado em rede neural 6102 e/ou do chamador de base baseado em rede neural 218 opera em uma sequência que inclui um número N de matrizes de dados de ladrilho a partir dos respectivos ciclos de detecção dentre N ciclos de detecção, sendo que os N ciclos de detecção fornecem dados de sensor para diferentes operações de chamadas de base para uma posição de base por operação em sequência de tempo nos exemplos descritos na presente invenção. Opcionalmente, alguns dos N ciclos de detecção podem estar fora de sequência, se necessário, de acordo com um modelo de rede neural específico sendo executado. O número N pode ser qualquer número maior que um. Em alguns exemplos aqui descritos, os ciclos de detecção dos N ciclos de detecção representam um conjunto de ciclos de detecção para ao menos um ciclo de detecção que precede o ciclo de detecção dependente e ao menos um ciclo de detecção após o ciclo dependente na sequência de tempo. Exemplos são descritos na presente invenção na qual o número N é um número inteiro igual a ou maior que cinco.

[00515] A lógica de fluxo de dados 6397 é configurada para mover dados de ladrilho e ao menos alguns parâmetros treinados dos parâmetros do modelo a partir da memória 6348A para o processador configurável 6346 para as rodadas do pontuador de qualidade baseado em rede neural 6102 e/ou do chamador de base baseado em rede neural 218, com o uso de unidades de entrada para uma determinada rodada, incluindo dados de ladrilho para fragmentos espacialmente alinhados das matrizes N. As unidades de entrada podem ser movidas pelas operações de acesso direto de memória em uma operação DMA, ou em unidades menores movidas durante faixas de tempo disponíveis em coordenação com a execução da rede neural implantada.

[00516] Os dados de ladrilho para um ciclo de detecção conforme descrito na presente invenção podem compreender uma matriz de dados de sensor que tem um ou mais recursos. Por exemplo, os dados do sensor podem compreender duas imagens que são analisadas para identificar uma das quatro bases em uma posição de base em uma sequência genética de DNA, RNA ou outro material genético. Os dados de ladrilho podem incluir também metadados sobre as imagens e os sensores. Por exemplo, nas modalidades da operação de chamada de base, os dados de ladrilho podem compreender informações sobre alinhamento das imagens com os agrupamentos, como a distância das informações de centro indicando a distância de cada pixel na matriz do sensor de dados a partir do centro de um agrupamento de material genético no ladrilho.

[00517] Durante a execução do pontuador de qualidade baseado em rede neural 6102 e/ou do chamador de base baseado em rede neural 218, conforme descrito a seguir, os dados de ladrilho podem incluir também dados produzidos durante a execução do pontuador de qualidade baseado em rede neural 6102 e/ou do chamador de base baseado em rede neural 218, chamados de dados intermediários, que podem ser reutilizados em vez de recomputados durante uma rodada do pontuador de qualidade baseado em rede neural 6102 e/ou do chamador de base baseado em rede neural 218. Por exemplo, durante a execução do pontuador de qualidade baseado em rede neural 6102 e/ou do chamador de base baseado em rede neural 218, a lógica de fluxo de dados 6397 pode gravar dados intermediários na memória 6348A no lugar dos dados de sensor para um dado fragmento de uma matriz de dados de ladrilho. Modalidades como esses são descritos abaixo com mais detalhes.

[00518] Conforme ilustrado, um sistema é descrito para análise de saída de sensor de chamada de base, que compreende memória (por exemplo, 6348A) acessível pelo programa em tempo de execução que armazena dados de ladrilho incluindo os dados de sensor para um ladrilho a partir de ciclos de detecção de uma operação de chamada de base. Além disso, o sistema inclui um processador de rede neural, como o processador configurável 6346 tendo acesso à memória. O processador de rede neural é configurado para executar corridas de uma rede neural com o uso de parâmetros treinados para produzir dados de classificação para ciclos de detecção. Conforme descrito na presente invenção, uma corrida da rede neural está operando em uma sequência de N matrizes de dados de ladrilho a partir dos respectivos ciclos de detecção dentre os N ciclos de detecção, incluindo um ciclo dependente, para produzir os dados de classificação para o ciclo dependente. A lógica do fluxo de dados 908 é fornecida para mover dados de ladrilho e os parâmetros treinados da memória para o processador da rede neural para execuções da rede neural com o uso das unidades de entrada que incluem dados para fragmentos espacialmente alinhados das N matrizes a partir dos respectivos ciclos de detecção dentre os N ciclos de detecção.

[00519] Além disso, um sistema é descrito no qual o processador da rede neural tem acesso à memória e inclui uma pluralidade de agrupamentos de execução, sendo os agrupamentos de execução na pluralidade de agrupamentos de execução configurados para executar uma rede neural. A lógica do fluxo de dados 6397 tem acesso à memória e a agrupamentos de execução na pluralidade de agrupamentos de execução, para fornecer unidades de entrada dos dados de ladrilho para agrupamentos de execução disponíveis na pluralidade de agrupamentos de execução, sendo que as unidades de entrada incluem um número N de fragmentos espacialmente alinhados de matrizes de dados de ladrilho a partir dos respectivos ciclos de detecção, incluindo um ciclo de detecção dependente, e para fazer com que os agrupamentos de execução apliquem os N fragmentos espacialmente alinhados à rede neural para produzir fragmentos de saída de dados de classificação para o fragmento alinha espacialmente do ciclo de detecção dependente, sendo que N é maior que 1.

[00520] A Figura 64A é um diagrama simplificado mostrando aspectos da operação de chamada de base, incluindo funções de um programa em tempo de execução executado por um processador hospedeiro.

Nesse diagrama, a saída de sensores de imagem a partir de uma célula de fluxo é fornecida nas linhas 6400 para threads de processamento de imagem 6401, que podem executar processos em imagens, como alinhamento e arranjo, em uma matriz de dados de sensor para os ladrilhos individuais e reamostragem das imagens, e podem ser usados por processos que calculam uma máscara de agrupamento de ladrilho para cada ladrilho na célula de fluxo, que identifica os pixels na matriz de dados de sensor que correspondem a agrupamentos de material genético no ladrilho correspondente da célula de fluxo.

As saídas das threads de processamento de imagem 6401 são fornecidas nas linhas 6402 para uma lógica de expedição 6410 na CPU que roteia as matrizes dos dados de ladrilho para um cache de dados 6404 (por exemplo, armazenamento SSD) em um barramento de alta velocidade 6403, ou no barramento de alta velocidade 6405 para o hardware do processador de rede neural 6420, como o processador configurável 6346 da Figura 63C, de acordo com o estado da operação de chamada de base.

As imagens processadas e transformadas podem ser armazenadas no cache de dados 6404 para detecção dos ciclos que foram anteriormente usados.

O hardware 6420 retorna a saída de dados de classificação pela rede neural para a lógica de expedição 6464, que passa as informações ao cache de dados 6404, ou nas linhas 6411 para as threads 6402 que executam a chamada de base e as computações de pontuação de qualidade com o uso dos dados classificação, e podem dispor os dados nos formatos padrão para leituras de chamadas de base.

As saídas das threads 6402 que realizam as chamadas de base e as computações das pontuações de qualidade são fornecidas em linhas 6412 a threads 6403 que agregam as leituras de chamada de base, realizam outras operações como compressão de dados, e escrevem as saídas de chamada de base resultantes para destinos especificados para utilização pelos clientes.

[00521] Em algumas modalidades, o hospedeiro pode incluir threads (não mostradas) que realizam processamento final da saída do hardware 6420 em suporte da rede neural. Por exemplo, o hardware 6420 pode fornecer saídas de dados de classificação a partir de uma camada final da rede neural de múltiplos agrupamentos. O processador hospedeiro pode executar uma função de ativação de saída, como uma função softmax nos dados de classificação para configurar os dados para uso pela chamada de base e as threads de pontuação de qualidade 6402. Além disso, o processador hospedeiro pode executar operações de entrada (não mostradas), como em normalização de lote dos dados de ladrilho antes da entrada para o hardware 6420.

[00522] A Figura 64B é um diagrama simplificado de uma configuração de um processador configurável 6346 como o da Figura 63C. Na Figura 64B, o processador configurável 6346 compreende um FPGA com uma pluralidade de interfaces de PCIe de alta velocidade. A FPGA é configurada com um wrapper 6490 que compreende a lógica de fluxo de dados 6397 descrita com referência à Figura 63C. O wrapper 6490 gerencia a interface e a coordenação com um programa em tempo de execução na CPU através do link de comunicação com a CPU 6477 e gerencia a comunicação com a DRAM integrada 6499 (por exemplo, a memória 6348A) através do link de comunicação com a DRAM 6497. A lógica do fluxo de dados 6397 no wrapper 6490 fornece dados de fragmento recuperados pelo atravessamento das matrizes dos dados de ladrilho na DRAM na placa 6499 para o número de N ciclos a um agrupamento 6485, e recupera os dados de processo 6487 do agrupamento 6485 para entrega de volta para a DRAM na placa 6499. O wrapper 6490 também gerencia a transferência de dados entre o DRAM integrada 6499 e memória do hospedeiro, para as matrizes de entrada dos dados de ladrilho e para os fragmentos de saída dos dados de classificação. O wrapper transfere os dados de fragmento na linha 6483 para o agrupamento alocado 6485. O wrapper fornece parâmetros treinados, como pesos e tendências na linha 6481 para o agrupamento 6485 recuperado da DRAM integrada 6499. O wrapper fornece dados de configuração e controle na linha 6479 para o agrupamento 6485 fornecido de, ou gerado em resposta ao programa em tempo de execução no hospedeiro através do link de comunicação com a CPU 6477. O agrupamento também pode fornecer sinais de status na linha 6489 para o wrapper 6490, que são usados em cooperação com os sinais de controle do hospedeiro para gerenciar a travessia das matrizes de dados de ladrilho para fornecer dados de fragmento espacialmente alinhados, e para executar a rede neural de múltiplos ciclos nos dados de fragmento com o uso dos recursos do agrupamento 6485.

[00523] Conforme mencionado acima, pode haver múltiplos agrupamentos em um único processador configurável gerenciado pelo wrapper 6490 configurado para executar nos fragmentos correspondentes dentre os múltiplos fragmentos dos dados de ladrilho. Cada agrupamento pode ser configurado para fornecer dados de classificação para chamadas de base em um ciclo de detecção dependente com o uso dos dados de ladrilhos de múltiplos ciclos de detecção aqui descritos.

[00524] Em exemplos do sistema, dados de modelo, incluindo dados de núcleo como pesos de filtros e tendências podem ser enviados a partir da CPU hospedeira para o processador configurável, de modo que o modelo possa ser atualizado como uma função do número de ciclos. A operação da chamada de base pode compreender, para um exemplo representativo, na ordem de centenas de ciclos de detecção. A operação de chamada de base pode incluir leituras de extremidade pareadas em algumas modalidades. Por exemplo, os parâmetros de modelo treinados podem ser atualizados uma vez a cada 20 ciclos (ou outro número de ciclos), ou de acordo com padrões de atualização implementadas para sistemas e modelos de rede neural específicos. Em algumas modalidades incluindo as leituras das extremidades pareadas nas quais uma sequência para uma dada string em um agrupamento genético em um ladrilho inclui uma primeira parte que se estende de uma primeira extremidade para baixo (ou para cima) da string, e uma segunda parte que se estende de uma segunda extremidade para cima (ou para baixo) da string, os parâmetros treinados podem ser atualizados na transição da primeira parte para a segunda parte.

[00525] Em alguns exemplos, os dados de imagem para múltiplos ciclos de dados de detecção para um ladrilho podem ser enviados da CPU para o wrapper 6490. O wrapper 6490 pode opcionalmente fazer algum pré-processamento e transformação dos dados de detecção e gravar as informações na DRAM integrada 6499. Os dados de entrada de ladrilho para cada ciclo de detecção podem incluir matrizes de dados de sensor que incluem na ordem de 4.000 x 3.000 pixels por ciclo de detecção por ladrilho ou mais, com duas características representando cores de duas imagens do ladrilho, e um ou dois bites por característica por pixel. Para uma modalidade na qual o número N é três ciclos de detecção a serem usados em cada passagem da rede neural de múltiplos ciclo, a matriz de dados de ladrilho para cada corrida da rede neural de múltiplos ciclos pode consumir na ordem de centenas de megabytes por ladrilho. Em algumas modalidades do sistema, os dados de ladrilho incluem também uma matriz de dados DFC, armazenados uma vez por ladrilho, ou outro tipo de metadados sobre os dados do sensor e os ladrilhos.

[00526] Em operação, quando um agrupamento de múltiplos ciclos está disponível, o wrapper aloca um fragmento ao agrupamento. O wrapper busca um novo fragmento de dados de ladrilho na transversal do ladrilho e o envia para o agrupamento alocado junto com informações adequadas de controle e configuração. O agrupamento pode ser configurado com memória suficiente no processador configurável para manter um fragmento de dados incluindo fragmentos de múltiplos ciclos em alguns sistemas, no qual se está trabalhando, no lugar, e um fragmento de dados no qual deve ser trabalhado quando o fragmento atual de processamento for terminado com o uso de uma técnica de buffer de ping-pong ou uma técnica de varredura raster em várias modalidades.

[00527] Quando um agrupamento alocado completa sua execução da rede neural para o fragmento atual e produz um fragmento de saída, ele sinaliza o wrapper. O wrapper irá ler o fragmento de saída a partir do agrupamento alocado ou, alternativamente, o agrupamento alocado irá empurrar os dados para o wrapper. Então, o wrapper irá montar fragmentos de saída para o ladrilho processado na DRAM 6499. Quando o processamento de todo o ladrilho tiver sido concluído, e os fragmentos de saída de dados transferidos para a DRAM, o wrapper envia a matriz de saída processada para o ladrilho de volta para o hospedeiro/CPU em um formato determinado. Em algumas modalidades, a DRAM na placa 6499 é gerenciada pela lógica de gerenciamento de memória no wrapper 6490. O programa em tempo de execução pode controlar as operações de sequenciamento para completar a análise de todas as matrizes de dados de ladrilho para todos os ciclos na corrida em um fluxo contínuo para fornecer análise em tempo real. Melhoramentos técnicos e terminologia técnica

[00528] A chamada de base inclui incorporação ou fixação de uma etiqueta marcada fluorescentemente com um analito. O analito pode ser um nucleotídeo ou um oligonucleotídeo, e a etiqueta pode ser para um tipo de nucleotídeo específico (A, C, T, ou G). A luz de excitação é direcionada para o analito tendo a etiqueta, e a etiqueta emite um sinal fluorescente ou intensidade de emissão, detectáveis. A intensidade de emissão é indicativa de fótons emitidos pela etiqueta excitada que é quimicamente ligada ao analito.

[00529] Ao longo deste pedido, incluindo nas reivindicações, quando frases como ou similares a "imagens, dados de imagem ou regiões de imagem representando emissões de intensidade de analitos e seu fundo circundante" são usadas, elas se referem às emissões de intensidade das etiquetas fixadas aos analitos. Um versado na técnica irá apreciar que as emissões de intensidade das etiquetas fixadas são representativas de ou equivalentes às emissões de intensidade dos analitos aos quais as etiquetas estão fixadas, e são, portando, usadas de forma intercambiável. De modo similar, as propriedades dos analitos se referem às propriedades das etiquetas fixadas aos analitos ou das emissões de intensidade das etiquetas fixadas. Por exemplo, um centro de um analito se refere ao centro das emissões de intensidade emitidas por uma etiqueta fixada à ao analito. Em outro exemplo, o fundo circundante de um analito se refere a fundo em redor das emissões de intensidade emitida por uma etiqueta fixada ao analito.

[00530] Toda a literatura e material similar citados neste pedido, incluindo, mas não se limitando a, patentes, pedidos de patente, artigos, livros, tratados e páginas da web, independentemente do formato de tal literatura e materiais similares, estão expressamente incorporados a título de referência em sua totalidade. No caso em que um ou mais dentre a literatura incorporada e materiais similares diferem ou contradizem esta aplicação, incluindo, mas não se limitando a, termos definidos, uso de termo, técnicas descritas ou similares, este pedido controla.

[00531] A tecnologia revelada usa redes neurais para melhorar a qualidade e a quantidade de informações de sequência de ácidos nucleicos que podem ser obtidas a partir de uma amostra de ácido nucleico, como um gabarito de ácido nucleico ou seu complemento, por exemplo, um polinucleotídeo de DNA ou RNA ou outra amostra de ácido nucleico. Consequentemente, certas implementações da tecnologia revelada fornecem maior produtividade de sequenciamento de polinucleotídeo, por exemplo, taxas mais elevadas de recolha de dados de sequência de DNA ou RNA, maior eficiência em sequência a recolha de dados, e/ou reduzir os custos de obtenção de tais dados de sequência, em relação às metodologias anteriormente disponíveis.

[00532] A tecnologia revelada usa redes neurais para identificar o centro de um agrupamento de ácido nucleico de fase sólida e para analisar os sinais ópticos que são gerados durante o sequenciamento de tais agrupamentos, para distinguir inequivocamente entre agrupamentos adjacentes, contíguos ou sobrepostos a fim de atribuir um sinal de sequenciamento para um único agrupamento de fonte discreto. Essas implementações e implementações relacionadas permitem, portanto, a recuperação de informações significativas, como dados de sequência, de regiões de alta densidade de matrizes de agrupamento em que informações úteis não puderam ser, anteriormente, obtidas de tais regiões devido aos efeitos confusos de agrupamentos adjacentes sobrepostos ou espaçados muito próximos, incluindo os efeitos de sinais de sobreposição (por exemplo, conforme usado no sequenciamento de ácido nucleico) que emanam dos mesmos.

[00533] Conforme descrito em maiores detalhes abaixo, em certas implementações, é fornecida uma composição que compreende um suporte sólido tendo imobilizado ao mesmo um ou uma pluralidade de agrupamentos de ácidos nucleicos conforme fornecido na presente invenção. Cada agrupamento compreende uma pluralidade de ácidos nucleicos imobilizados da mesma sequência e tem um centro identificável que tem um rótulo de centro detectável, conforme aqui fornecido, pelo qual o centro identificável é distinguível de ácidos nucleicos imobilizados em uma região circundante no agrupamento. Também são aqui descritos métodos para a produção e uso de tais agrupamentos que têm centros identificáveis.

[00534] As implementações reveladas na presente invenção encontram usos em inúmeras situações em que as vantagens são obtidas a partir da capacidade de identificar, determinar, anotar, registrar ou de outro modo atribuir a posição de um local substancialmente central dentro de um agrupamento, como sequenciamento de ácido enucleio de alto rendimento, desenvolvimento de algoritmos de análise de imagens para atribuição de sinais ópticos ou outros para agrupamentos de fonte discretas, e outras aplicações onde o reconhecimento do centro de um agrupamento de ácido nucleico imobilizado é desejável e benéfico.

[00535] Em certas implementações, a presente invenção contempla métodos que se relacionam à análise de ácido nucleico de alto rendimento como determinação de sequências de ácidos nucleicos (por exemplo, "sequenciamento"). As análises de ácidos nucleicos de alto rendimento exemplificadoras incluem sem limitação sequenciamento de novo, ressequenciamento, sequenciamento de genomas completos, análise de expressão gênica, monitoramento de expressão gênica, análise epigenética, análise de metilação do genoma, extensão de iniciadores específicos para o alelo ("APSE" - allele specific primer extension), perfilamento de diversidade genética, descoberta e análise de polimorfismo de genoma inteiro, análise de polimorfismo um único polimorfismo, métodos de determinação de sequência baseados em hibridização, e similares. O versado na técnica compreenderá que uma variedade de diferentes ácidos nucleicos pode ser analisada com o uso dos métodos e composições da presente invenção.

[00536] Embora as implementações da presente invenção sejam descritas em relação ao sequenciamento de ácidos nucleico, elas são aplicáveis em qualquer campo onde são analisados dados de imagens adquiridos em diferentes pontos de tempo, localizações espaciais outras perspectivas temporais ou físicas. Por exemplo, os métodos e sistemas aqui descritos são úteis nos campos da biologia molecular e celular onde dados de imagem de microarranjos, espécimes biológicos, células, organismos e similares são capturados e em diferentes pontos de tempo ou perspectivas e analisados. As imagens podem ser obtidas com o uso de qualquer número de técnicas conhecidas na técnica incluindo, mas não se limitando a, microscopia de fluorescência, microscopia de luz, microscopia confocal, imageamento óptico, imageamento por ressonância magnética, varredura por tomografia ou similares. Como outro exemplo, os métodos e sistemas aqui descritos podem ser aplicados onde dados de imagem obtidos por tecnologias de imageamento aéreo ou satélite de vigilância e similares são adquiridos em diferentes pontos de tempo ou perspectivas e analisados. Os métodos e sistemas são particularmente úteis para analisar as imagens obtidas por um campo de visão na qual os analitos sendo visualizados permanecer nos mesmos locais relativos uns aos outros no campo de visão. Os analitos podem, no entanto, ter características que diferem em imagens separadas, por exemplo, os analitos podem parecer diferentes em imagens separadas do campo de visão. Por exemplo, os analitos podem parecer diferentes no que diz respeito à cor de um dado analito detectada em diferentes imagens, uma alteração na intensidade de sinal detectada para um dado analito em imagens diferentes, ou até mesmo a aparência de um sinal para um dado analito em uma imagem e desaparecimento do sinal para o analito em outra imagem.

[00537] Os exemplos aqui descritos podem ser usados em vários processos químicos ou biológicos e sistemas para análise acadêmica ou comerciais. Mais especificamente, os exemplos aqui descritos podem ser usados em vários processos e sistemas onde se deseja detectar um evento, propriedade, qualidade, ou característica que é indicativo de uma reação designada. Por exemplo, os exemplos aqui descritos incluem dispositivos de detecção de luz, biossensores e seus componentes, bem como sistemas de bioensaio que operam com biossensores. Em alguns exemplos, os dispositivos, biossensores e sistemas podem incluir uma célula de fluxo e um ou mais sensores de luz que são acoplados juntos (de modo removível ou fixo) em uma estrutura substancialmente unitária.

[00538] Os sistemas de dispositivos, biossensores e bioensaio podem ser configurados para executar uma pluralidade de reações designadas que podem ser detectadas individualmente ou coletivamente. Os sistemas de dispositivos, biossensores e bioensaio podem ser configurados para realizar inúmeros ciclos na qual a pluralidade de reações designadas ocorre em paralelo. Por exemplo, os sistemas de dispositivos, biossensores e bioensaio podem ser usados para sequenciar uma matriz densa de características de DNA através de ciclos iterativos de manipulação enzimática e aquisição/detecção de luz ou imagem. Como tal, os sistemas de dispositivos, biossensores e bioensaio (por exemplo, através de um ou mais cartuchos) podem incluir um ou mais reagentes ou canais microfluídicos que liberam reagentes ou outros componentes de reação em uma solução de reação para um local de reação dos sistemas de dispositivos, biossensores e bioensaio. Em alguns exemplos, a solução de reação pode ser substancialmente ácida, como compreendendo um pH menor que ou igual a cerca de 5, ou menor que ou igual a cerca de 4, ou menor que ou igual a cerca de 3. Em alguns outros exemplos, a solução de reação pode ser substancialmente alcalina/básica, como compreendendo um pH de maior que ou igual a cerca de 8, ou maior que ou igual a cerca de 9, ou maior que ou igual a cerca de 10. Como usado na presente invenção, o termo "acidez" e variantes gramaticais do mesmo se referem a um valor de pH menor que cerca de 7, e os termos "basicidade", "alcalinidade" e variantes gramaticais dos mesmos se referem a um valor de pH maior que cerca de 7.

[00539] Em alguns exemplos, os locais de reação são fornecidos ou espaçados de uma maneira predeterminada, como em um padrão de repetição ou uniforme. Em alguns outros exemplos, os locais de reação são distribuídos de modo aleatório. Cada um dos locais de reação pode ser associado as uma ou mais guias de luz e um ou mais sensores de luz que detectam luz a partir do local de reação associado. Em alguns exemplos, os locais de reação estão localizados em reentrâncias ou câmaras de reação, que podem ao menos parcialmente compartimentar a reações designados nos mesmos.

[00540] Como usado aqui, uma "reação designada" inclui uma alteração em ao menos uma propriedade dentre propriedade (ou qualidade) química, elétrica, física, óptica de uma substância química ou biológica de interesse, como um analito de interesse. Em exemplos específicos, uma reação designada é um evento de ligação positivo, como a incorporação de uma biomolécula marcados fluorescentemente com um analito de interesse, por exemplo. De modo mais genérico, uma reação designada por ser uma transformação química, alteração química, ou interação química. Uma reação designada pode também ser uma alteração nas propriedades elétricas. Em exemplos específicos, uma reação designada inclui a incorporação de uma molécula marcada fluorescentemente com um analito. O analito pode ser um oligonucleotídeo e a molécula marcada fluorescentemente pode ser um nucleotídeo. Uma reação designada pode ser detectada quando uma luz de excitação é direcionada para o oligonucleotídeo que tem o nucleotídeo marcado, e o fluoróforo emite um sinal fluorescente detectável. Em exemplos alternativos, a fluorescência detectada é um resultado da quimioluminescência ou bioluminescência. Uma reação designada pode também aumentar transferência de energia de ressonância por fluorescência ("FRET" - Fluorescence Resonance Energy Transfer), por exemplo, através da colocação de um fluoróforo doador em proximidade com um fluoróforo receptor, para diminuir FRERT pela separação dos fluoróforos doadores e aceptores, para aumentar a fluorescência por separação de inativador de um fluoróforo, ou para diminuir a fluoresceínas por colocação de um inativador e um fluoróforo.

[00541] Como usado aqui, uma "solução de reação", "componente de reação" ou "reagente" inclui qualquer substância que pode ser usada para obter ao menos uma reação designada. Por exemplo, possíveis componentes de reação incluem reagentes, enzimas, amostras, outras biomoléculas, e soluções tampão, por exemplo. Os componentes da reação podem ser liberados em um local de reação em uma solução e/ou imobilizados em um local de reação. Os componentes da reação podem interagir diretamente ou indiretamente com outra substância, como um analito de interesse imobilizado em um local de reação. Conforme observado acima, a solução de reação pode ser substancialmente ácida (isto é, incluir uma acidez relativamente elevada) (por exemplo, compreendendo um pH de menor que ou igual a cerca de 5, um pH menor que ou igual a cerca de 4, ou um pH menor que ou igual a cerca de 3) ou substancialmente alcalina/básica (isto é, incluir uma alcalinidade/basicidade relativamente alta) (por exemplo, compreendendo um pH de maior que ou igual a cerca de 8, um pH de maior que ou igual a cerca de 9, ou um pH de maior que ou igual a cerca de 10).

[00542] Como usado na presente invenção, o termo "local de reação" é uma região localizada onde ao menos uma reação designada pode ocorrer. Um local de reação pode incluir superfícies de suporte de uma estrutura de reação ou substrato onde uma substância pode ser imobilizada no mesmo. Por exemplo, um local de reação pode incluir uma superfície de uma estrutura de reação (que pode ser posicionada em um canal de célula de fluxo) que tem um componente de reação sobre a mesma, como uma colônia de ácidos nucleicos sobre a mesma. Em alguns desses exemplos, os ácidos nucleicos na colônia têm a mesma sequência, sendo, por exemplo, cópias clonais de um gabarito de fita única ou de fita dupla. Entretanto, em alguns exemplos, um local de reação pode conter apenas uma única molécula de ácido nucleico, por exemplo, em uma forma de fita única ou de fita dupla.

[00543] Uma pluralidade de locais de reação pode ser distribuída de modo aleatório ao longo da estrutura de reação ou disposta de uma maneira predeterminada (por exemplo, lado a lado em uma matriz, como em microarranjos). Um local de reação pode incluir também uma câmara de reação ou reentrância que define ao menos parcialmente uma região espacial ou volume configurado para compartimentar a reação designada. Como usado na presente invenção, o termo "câmara de reação" ou

"reentrância de reação" inclui uma região espacial definida da estrutura de suporte (que está frequentemente em comunicação fluida com um canal de fluxo). Uma reentrância de reação pode estar ao menos parcialmente separada do ambiente circundante ou outras regiões espaciais. Por exemplo, uma pluralidade de reentrâncias de reação podem ser separadas umas das outras por paredes compartilhadas, como uma superfície de detecção. Como um exemplo mais específico, as reentrâncias de reação podem ser nanopoços compreendendo uma endentação, poço, sulco, cavidade ou depressão definidos pelas superfícies interiores de uma superfície de detecção e ter uma abertura (isto é, ter um lado aberto), de modo que os nanopoços podem estar em comunicação fluida com um canal de fluxo.

[00544] Em alguns exemplos, as reentrâncias de reação da estrutura de reação são dimensionadas e conformadas em relação aos sólidos (incluindo semissólidos) de modo que os sólidos podem ser inseridos, total ou parcialmente, em seu interior. Por exemplo, as reentrâncias de reação podem ser dimensionadas e conformadas para acomodar uma microesfera de captura. A microesfera de captura pode ter DNA clonalmente amplificado ou outras substâncias na mesma. Alternativamente, as reentrâncias de reação podem ser dimensionadas e conformadas para receber um número aproximado de microesferas ou substratos sólidos. Como outro exemplo, as reentrâncias de reação podem ser preenchidas com um gel ou substância porosa que é configurada para controlar a difusão ou filtrar fluidos ou soluções que pode fluir para o interior das reentrâncias de reação.

[00545] Em alguns exemplos, sensores de luz (por exemplo, fotodiodos) estão associados com locais de reação correspondentes. Um sensor de luz que está associado a um local de reação é configurado para detectar emissões de luz a partir do local de reação associado através de ao menos um guia de luz quando uma reação designada ocorreu no local de reação associado. Em alguns casos, uma pluralidade de sensores de luz

(por exemplo, vários pixels de uma detecção de luz ou dispositivo de câmera) pode estar associada a um único local de reação. Em outros casos, um único sensor de luz (por exemplo um único pixel) pode estar associado a um único local de reação ou com um grupo de locais de reação. O sensor de luz, o local de reação, e outros recursos do biossensor podem ser configurados de modo que ao menos uma parte da luz é detectada diretamente pelo sensor de luz sem ser refletida.

[00546] Como usado na pressente invenção, uma "substância biológica ou química" inclui biomoléculas, amostras de interesse, analitos de interesse e outros compostos químicos. Uma substância biológica ou química pode ser usada para detectar, identificar ou analisar outros compostos químicos, ou funcionar como intermediária para estudar ou analisar outros compostos químicos. Em exemplos específicos, as substâncias biológicas ou químicas incluem uma biomolécula. Como usado aqui, uma "biomolécula" inclui ao menos um dentre um biopolímero, nucleosídeo, ácido nucleico, polinucleotídeo, oligonucleotídeo, proteína, enzima, polipeptídeo, anticorpo, antígeno, ligando, receptor, polissacarídeo, carboidrato, polifosfato, célula, tecido, organismo ou fragmento do mesmo ou qualquer outro composto químico biologicamente ativo como análogos ou miméticos das espécies anteriormente mencionadas. Em um exemplo adicional, uma substância biológica ou química ou uma biomolécula inclui uma enzima ou reagente usado em uma reação acoplada para detectar o produto de outra reação como uma enzima ou reagente, como uma enzima ou reagente usado para detectar pirofosfato em uma reação de pirosequenciamento. Enzimas e reagentes úteis para detecção de pirofosfato são descritos, por exemplo, na publicação de patente US n° 2005/0244870 A1 que está incorporado a título de referência em sua totalidade.

[00547] As biomoléculas, as amostras, e as substâncias biológicas ou químicas podem ser de ocorrência natural ou sintética e podem estar suspensas em uma solução ou mistura dentro de uma reentrância de reação ou região. As biomoléculas, as amostras e as substâncias biológicas ou químicas podem também estar ligadas a uma fase sólida ou material de gel. As biomoléculas, as amostras, e as substâncias biológicas ou químicas podem incluir também uma composição farmacêutica. Em alguns casos, as biomoléculas, as amostras, e as substâncias biológicas ou químicas de interesse podem ser chamadas de alvos, sondas, ou analitos.

[00548] Como usado aqui, um "biossensor" inclui um dispositivo que inclui uma estrutura de reação com uma pluralidade de locais de reação que é configurado para detectar reações designadas que ocorrem em ou próxima dos locais de reação. Um biossensor pode incluir um dispositivo de detecção de luz de estado sólido ou um dispositivo de "imageamento" (por exemplo, dispositivo de detecção de luz CCD ou CMOS) e, opcionalmente, uma célula de fluxo montada no mesmo. A célula de fluxo pode incluir pelo menos um canal de fluxo que está em comunicação fluida com os locais de reação. Como um exemplo específico, o biossensor é configurado para fluidicamente e eletricamente se acoplar a um sistema de bioensaio. O sistema de biosensaio pode fornecer uma solução de reação aos locais de reação de acordo com um protocolo predeterminado (por exemplo, sequenciamento por síntese) e executar uma pluralidade de eventos de imageamento. Por exemplo, o sistema de bioensaio pode direcionar soluções de reação para fluir ao longo dos locais de reação. Ao menos uma das soluções de reação pode incluir quatro tipos de nucleotídeos tendo o mesmo ou diferentes marcadores fluorescentes. Os nucleotídeos podem se ligar aos locais de reação, como a oligonucleotídeos correspondentes nos locais de reação. O sistema de bioensaio pode, então, iluminar os locais de reação com o uso de uma fonte de luz de excitação (por exemplo, fontes de luz de estado sólido, como diodos emissores de luz (LEDs)). A luz de excitação pode ter um comprimento de onda ou comprimentos de onda predeterminados, incluindo uma faixa de comprimentos de onda. Os marcadores fluorescentes excitados pela luz de excitação incidente podem fornecer sinais de emissão (por exemplo, a luz de um comprimento de onda ou comprimentos de onda que diferem da luz de excitação e, potencialmente, entre si) que podem ser detectados pelos sensores de luz.

[00549] Como usado na pressente invenção, o termo "imobilizado" quando usado em relação a uma biomolécula ou substância biológica ou química, inclui substancialmente fixar a biomolécula ou substância biológica ou química em um nível molecular a uma superfície, como a uma superfície de detecção de um dispositivo de detecção de luz ou estrutura de reação. Por exemplo, uma biomolécula ou substância biológica ou química pode ser imobilizada em uma superfície da estrutura de reação com o uso de técnicas de adsorção que incluem interações não covalentes (por exemplo, forças eletrostáticas, de van der Waals, e desidratação de interfaces hidrofóbicas) e técnicas de ligação covalente onde grupos funcionais ou conectores facilitam a fixação das biomoléculas à superfície. A imobilização das biomoléculas ou substâncias biológicas ou químicas à superfície pode ser com base nas propriedades da superfície, do meio líquido que transporta a biomolécula ou substância biológica ou química, e nas próprias propriedades das biomoléculas ou substâncias biológicas ou químicas. Em alguns casos, a superfície pode ser funcionalizada (por exemplo, quimicamente ou fisicamente modificadas) para facilitar a imobilização das biomoléculas (ou substâncias biológicas ou químicas) à superfície.

[00550] Em alguns exemplos, os ácidos nucleicos podem ser imobilizados à estrutura de reação, como às superfícies das reentrâncias de reação dos mesmos. Em exemplos específicos, os sistemas de dispositivos, biossensores, bioensaio e os métodos aqui descritos podem incluir o uso de nucleotídeos naturais e também enzimas que são configurados para interagir com os nucleotídeos naturais. Os nucleotídeos naturais incluem, por exemplo, ribonucleotídeos ou desoxirribonucleotídeos. Os nucleotídeos naturais podem ser formas de mono, di, ou trifosfato e podem ter uma base selecionada dentre adenina (A), tiamina (T), uracila (U), guanina (G) ou citosina (C). Deve-se compreender, entretanto, que nucleotídeos não naturais, nucleotídeos modificados ou análogos dos nucleotídeos anteriormente mencionados podem ser usados.

[00551] Conforme observado acima, uma biomolécula ou substância biológica ou química pode ser imobilizada em um local de reação em uma reentrância de reação de uma estrutura de reação. Essa biomolécula ou substância biológica pode ser fisicamente presa ou imobilizada dentro das reentrâncias de reação através de um encaixe por interferência, adesão, ligação covalente, ou aprisionamento. Exemplos de itens ou sólidos que podem ser dispostos no interior das reentrâncias de reação incluem microesferas de polímero, péletes, gel de agarose, pós, pontos quânticos, ou outros sólidos que podem ser comprimidos e/ou mantidos dentro da câmara de reação. Em certas implementações, as reentrâncias de reação podem ser revestidas ou preenchidas com uma camada de hidrogel capaz de ligação covalente de oligonucleotídeos de DNA. Em exemplos específicos, uma superestrutura de ácido nucleico, como uma bola de DNA, pode ser disposta em ou na reentrância de reação, por exemplo, por fixação a uma superfície interna da reentrância de reação ou por residência em um líquido no interior da reentrância de reação. A bola de DNA ou outra superestrutura de ácido nucleico pode ser executada e então disposta em ou na reentrância de reação. Alternativamente, uma bola de DNA pode ser sintetizada localmente em uma reentrância de reação. Uma substância que é imobilizada em uma reentrância de reação pode estar em um estado sólido, líquido ou gasoso.

[00552] Como usado na pressente invenção, o termo "analito" se destina a significar um ponto ou área em um padrão que pode ser distinguido de outros pontos ou áreas de acordo com localização relativa. Um analito individual pode incluir uma ou mais moléculas de um tipo específico. Por exemplo, um analito pode incluir uma única molécula de ácido nucleico alvo tendo uma sequência específica ou um analito pode incluir várias moléculas de ácido nucleico que tendo a mesma sequência (e/ou sequência complementar, dos mesmos). Diferentes moléculas que estão em diferentes analitos de um padrão podem ser diferenciadas umas das outras de acordo com as localizações dos analitos no padrão. Analitos exemplificadores incluem mas não se limitam a, poços em um substrato, microesferas (ou outras partículas) em ou sobre um substrato, projeções a partir de um substrato, cristas em um substrato, blocos de material de gel sobre um substrato, ou canais em um substrato.

[00553] Qualquer um de uma variedade de analitos alvo que é para ser detectado, caracterizado, ou identificado pode ser usado em um aparelho, sistema ou método aqui apresentado. Analitos exemplificadores incluem, mas não se limitam a, ácidos nucleicos (por exemplo, o DNA, RNA ou análogos dos mesmos), proteínas, polissacarídeos, células, anticorpos, epítopos, receptores, ligantes, enzimas (por exemplo quinases, fosfatases ou polimerases), candidatos a fármaco de moléculas pequenas, células, vírus, organismos, ou similares.

[00554] Os termos "analito", "ácido nucleico", "molécula de ácido nucleico" e "polinucleotídeo" são usados de maneira intercambiável na presente invenção. Em várias implementações, os ácidos nucleicos podem ser usados como gabaritos conforme fornecido na presente invenção (por exemplo, um gabarito de ácido nucleico, ou um complemento de ácido nucleico que é complementar a um gabarito de ácido nucleico) para tipos específicos de análise de ácidos nucleicos, incluindo mas não se limitando a, amplificação de ácido nucleico, análise de expressão de ácido nucleico, e/ou determinação de sequência de ácido nucleico ou combinações adequadas dos mesmos. Ácidos nucleicos em certas implementações incluem, por exemplo, polímeros lineares de desoxirribonucleotídeos em 3'-5' fosfodiéster ou outras ligações, como ácidos desoxirribonuclêicos (DNA), por exemplo, DNA de fita simples ou dupla, DNA genômico, cópia de DNA ou DNA complementar (cDNA), DNA recombinante, ou qualquer forma de DNA sintética ou modificada. Em outras implementações, os ácidos nucleicos incluem, por exemplo, polímeros lineares de ribonucleotídeos em 3'-5' fosfodiéster ou outras ligações, como ácidos ribonucleicos (RNA), por exemplo, RNA de fita simples ou dupla, RNA mensageiro (mRNA), cópia de RNA ou RNA complementar (cRNA), alternativamente mRNA spliced, RNA ribossomal, RNA nucleolar pequeno (snoRNA), microRNAs (miRNA), RNAs interferente pequeno (sRNA), RNAs piwi (piRNA), ou qualquer forma de RNA sintético ou modificado. Os ácidos nucléicos usados nas composições e métodos da presente invenção podem variar em comprimento e podem ser moléculas ou fragmentos intactos ou de comprimento total ou partes menores de moléculas de ácido nucleico maiores. Em implementações específicas, o ácido nucleico pode ter um ou mais marcadores detectáveis, como descrito em outro lugar na presente invenção.

[00555] Os termos "analito", "agrupamento", "agrupamento de ácido nucleico", "colônia de ácido nucleico", e "agrupamento de DNA" são usados de forma intercambiável e se referem a uma pluralidade de cópias de um gabarito de ácido nucleico e/ou complementos dos mesmos fixados a um suporte sólido. Tipicamente e em certas implementações preferenciais, o agrupamento de ácido nucleico compreende uma pluralidade de cópias de gabarito de ácido nucleico e/ou complementos do mesmo, fixadas ao mesmo através de suas terminações 5’ ao suporte sólido. As cópias de fitas de ácido nucleico que compõem os agrupamentos de ácido nucleico podem ser em uma forma de fita única ou dupla. Cópias de gabaritos de ácido nucleico que estão presentes em um agrupamento podem ter nucleotídeos em posições correspondentes que diferem umas das outras, por exemplo, devido à presença de uma porção de marcador. As posições correspondentes podem também conter estruturas análogas tendo diferentes estruturas químicas mas propriedades semelhantes de pareamento de base de Watson e Crick, como é o caso para uracil e timina.

[00556] As colônias de ácidos nucleicos podem também ser chamadas de "agrupamentos de ácidos nucleicos". As colônias de ácidos nucleicos podem opcionalmente ser criadas por técnicas de amplificação de agrupamento ou amplificação em ponte conforme apresentado em mais detalhes em outro lugar na presente invenção. Múltiplas repetições de uma sequência-alvo podem estar presente em uma única molécula de ácido nucleico, como um concatamer criado com o uso de um procedimento de amplificação por círculo rolante.

[00557] Os agrupamentos de ácidos nucleicos da invenção podem ter diferentes formatos, tamanhos e densidades dependendo das condições usadas. Por exemplo, os agrupamentos podem ter um formato que é substancialmente redondo, multifacetado, formato de rosca ou formato de anel. O diâmetro de um agrupamento de ácido nucleico pode ser projetado para ser de cerca de 0,2 µm a cerca de 6 µm, cerca de 0,3 µm a cerca de 4 µm, cerca de 0,4 µm a cerca de 3 µm, cerca de 0,5 µm a cerca de 2 µm, cerca de 0,75 µm a cerca de 1,5 µm, ou qualquer diâmetro entre os mesmos. Em uma implementação específica, o diâmetro de um agrupamento de ácido nucleico é de cerca de 0,5 µm, cerca de 1 µm, cerca de 1,5 µm, cerca de 2 µm, cerca de 2,5 µm, cerca de 3 µm, cerca de 4 µm, cerca de 5 µm, ou cerca de 6 µm. O diâmetro de um agrupamento de ácido nucleico pode ser influenciado por uma série de parâmetros, incluindo, mas não se limitando a, o número de ciclos de amplificação executados na produção do agrupamento, o comprimento do gabarito de ácido nucleico ou a densidade de iniciadores fixados à superfície sobre a qual os agrupamentos são formados. A densidade dos agrupamentos de ácido nucleico pode ser projetada para ser tipicamente na faixa de 0,1/mm2, 1/mm2, 10/mm2, 100/mm2, 1.000/mm2, 10.000/mm2 a 100.000/mm2. A presente invenção contempla ainda, em parte, agrupamentos de ácido nucleico com densidades mais altas, por exemplo, 100.000/mm2 a

1.000.000/mm2 e 1.000.000/mm2 a 10.000.000/mm2.

[00558] Como usado aqui, um "analito" é uma área de interesse no interior de um espécime ou campo de visão. Quando usados em conexão com dispositivos de micromatriz ou outros dispositivos analíticos moleculares, um analito se refere à área ocupada por moléculas similares ou idênticas. Por exemplo, um analito pode ser um oligonucleotídeo amplificado ou qualquer outro grupo de um polinucleotídeo ou polipeptídeo com uma sequência igual ou similar. Em outras implementações, um analito pode ser qualquer elemento ou grupo de elementos que ocupam uma área física em um espécime. Por exemplo, um analito poderia ser uma parcela de terra, um corpo de água ou similares. Quando um analito é imageado, cada analito terá alguma área. Dessa forma, em muitas implementações, um analito não é meramente um pixel.

[00559] As distâncias entre os analitos podem ser descritas em qualquer número de formas. Em algumas implementações, as distâncias entre os analitos podem ser descritas a partir do centro de um analito até o centro de outro analito. Em outras implementações, as distâncias podem ser descritas a partir da borda de um analito até a borda de outro analito, ou entre os pontos externos mais identificáveis de cada analito. A borda de um analito pode ser descrita como um limite físico teórico ou real em um chip, ou algum ponto dentro do limite do analito. Em outras implementações, as distâncias podem ser descritas em relação a um ponto fixo no espécime ou na imagem do espécime.

[00560] Geralmente várias implementações serão aqui descritas aqui em relação a um método de análise. Será entendido que os sistemas também são fornecidos para executar os métodos em uma automatizada ou semi automatizada. Consequentemente, essa revelação fornece gerador de gabarito baseado em rede neural e sistemas de chamada de base, sendo que os sistemas podem incluir um processador; um dispositivo de armazenamento; e um programa para análise de imagens, sendo que o programa inclui instruções para executar um ou mais dos métodos apresentados na presente invenção. Consequentemente, os métodos apresentados na presente invenção podem ser executados em um computador, por exemplo, tendo componentes apresentados no presente documento ou de outro modo conhecidos na técnica.

[00561] Os métodos e sistemas aqui apresentados são úteis para analisar qualquer objeto de uma variedade de objetos. Objetos particularmente úteis são suportes sólidos ou superfícies de fase sólida com analitos fixados. Os métodos e sistemas aqui apresentados fornecem vantagens quando usados com objetos que têm um padrão repetitivo de analitos em um plano xy. Um exemplo é uma micromatriz que tem um conjunto de células fixadas, vírus, ácidos nucleicos, proteínas, anticorpos, carboidratos, moléculas pequenas (como candidatos a fármaco), moléculas biologicamente ativas ou outros analitos de interesse.

[00562] Um número crescente de aplicações foram desenvolvidas para matrizes com analitos que têm moléculas biológicas como ácidos nucleicos e polipeptídeos. Tais micromatrizes tipicamente incluem sondas de ácido desoxirribonucleico (DNA) ou de ácido ribonucleico (RNA). Estas são específicas para sequências de nucleotídeos presentes em seres humanos e outros organismos. Em certas aplicações, por exemplo, as sondas de DNA ou RNA individuais podem ser fixadas a analitos individuais de uma matriz. Uma amostra de teste, como de uma pessoa ou organismo conhecido, pode ser exposta a uma matriz, de modo que ácidos nucleicos alvo (por exemplo, fragmentos de gene, mRNA, ou amplicons dos mesmos) hibridizam as sondas complementares nos respectivos analitos na matriz. As sondas podem ser marcadas em um processo específico alvo (por exemplo, devido a rótulos presentes nos ácidos nucleicos alvo ou devido a rotulagem enzimática das sondas ou alvos que estão presentes em forma hibridizado nos analitos). A matriz pode então ser examinada por varredura de frequências específicas de luz ao longo dos analitos para identificar quais ácidos nucleicos alvo estão presentes na amostra.

[00563] Micromatrizes biológicas podem ser usadas para sequenciamento genético e aplicações similares. Em geral, o sequenciamento genético compreende determinar a ordem de nucleotídeos em um comprimento de ácido nucleico alvo, como um fragmento de DNA ou RNA. Sequências relativamente curtas são tipicamente sequenciadas em cada analito, e as informações de sequência resultantes podem ser usadas em vários métodos de bioinformática para logicamente ajustar os fragmentos de sequência juntos de modo a determinar de maneira confiável a sequência de muitos comprimentos extensivos de material genético a partir do qual os fragmentos foram derivados. Algoritmos automatizados baseados em computador para fragmentos característicos foram desenvolvidos, e foram usados mais recentemente em mapeamento de genoma, identificação de genes e sua função, e assim por diante. Os microarranjos são particularmente úteis para caracterizar conteúdo genômico porque um grande número de variantes estão presentes e isso suplanta a alternativa de realizar muitos experimentos em sondas e alvos individuais. A micromatriz é um formato ideal para realizar tais investigações de maneira prática.

[00564] Qualquer de uma variedade de matrizes de analito (também chamadas de "micromatrizes") conhecidas na técnica podem ser usadas em um método ou sistema apresentado na presente invenção. Uma matriz típica contém analitos, sendo que cada um tem uma sonda individual ou uma população de sondas. No último caso, a população de sondas em cada analito é tipicamente homogênea tendo uma única espécie de sonda. Por exemplo, no caso de uma matriz de ácido nucleico, cada analito pode ter múltiplas moléculas de ácido nucleico e cada uma tendo uma sequência comum. No entanto, em algumas implementações as populações em cada analito de uma matriz podem ser heterogêneas. De modo similar, matrizes de proteína podem ter analitos com uma única proteína ou uma população de proteínas tipicamente, mas nem sempre, tendo a mesma sequência de aminoácidos. As sondas podem ser fixadas à superfície de uma matriz, por exemplo, por meio de ligação covalente das sondas à superfície ou através de interação não covalente (ou interações não covalentes) das sondas com a superfície. Em algumas implementações, as sondas, como moléculas de ácido nucleico, podem ser fixadas a uma superfície por meio de uma camada de gel conforme descrito, por exemplo, no pedido de patente US n° de série 13/784.368 e na publicação de pedido de patente US n° 2011/0059865 A1, cada uma das quais está aqui incorporada por referência.

[00565] Matrizes exemplificadoras incluem, sem limitação, uma matriz BeadChip disponível junto à Illumina, Inc. (San Diego, Califórnia, EUA) ou outras como sondas fixadas a microesferas que estão presentes em uma superfície (por exemplo, microesferas em poços em uma superfície) como as descritas nas patentes US n°s 6.266.459; 6.355.431; 6.770.441; 6.859.570; ou 7.622.294; ou publicação PCT n° WO 00/63437, cada uma das quais está aqui incorporada por referência. Exemplos adicionais de micromatrizes comercialmente disponíveis que podem ser usadas incluem, por exemplo, uma micromatriz Affymetrix® GeneChip® ou outra micromatriz sintetizada de acordo com técnicas algumas vezes conhecidas como tecnologias VLSIPS™ (Very Large Scale Immobilized Polymer Synthesis). Uma micromatriz "spotted" pode também ser usado em um método ou sistema de acordo com algumas implementações da presente revelação. Um exemplo de micromatriz "spotted" é uma matriz CodeLink™ disponível junto à Amersham Biosciences. Outra micromatriz que é útil é a micromatriz fabricada com o uso de métodos de impressão como impressão por jato de tinta SurePrint™ Technology disponível junto à Agilent Technologies.

[00566] Outras matrizes úteis incluem aqueles que são usadas em aplicações de sequenciamento de ácidos nucleicos. Por exemplo, matrizes tendo amplicons de fragmentos genômicos (frequentemente chamados de "agrupamentos") são particularmente úteis como aquelas descritas em Bentley et al., Nature 456:53 a 59 (2008), WO 04/018497; WO 91/06678; WO 07/123744; patentes US n° 7.329.492; 7.211.414;

7.315.019; 7.405.281 ou 7.057.026; ou publicação de pedido de patente US n° 2008/0108082 A1, cada uma das quais está aqui incorporada por referência. Outro tipo de matriz que é útil para sequenciamento de ácido nucleico é uma matriz de partículas produzidas a partir de uma técnica de emulsão por PCR. Exemplos são descritos em Dressman et al., Proc. Natl. Acad. Sci. EUA 100:8.817 a 8.822 (2003), WO 05/010145, publicação do pedido de patente US n° 2005/0130173 ou publicação do pedido de patente US n° 2005/0064460, cada um dos quais está aqui incorporado a título de referência em sua totalidade.

[00567] As matrizes usadas para sequenciamento de ácido nucleico frequentemente têm padrões espaciais aleatórios de analitos de ácido nucleico. Por exemplo, as plataformas de sequenciamento HiSeq ou MiSeq disponíveis junto à Illumina Inc. (San Diego, Califórnia, EUA.) utilizam células de fluxo nas quais as matrizes de ácido nucleico são formadas por semeadura aleatória, seguida de amplificação por ponte. Entretanto, matrizes dotadas de um padrão podem também ser usadas para o sequenciamento de ácido nucleico ou outras aplicações analíticas. Matrizes dotadas de um padrão exemplificadoras, métodos para a sua fabricação e métodos para seu uso são apresentados nos documentos US n° de série 13/787.396; US n° de série 13/783.043; US n° de série 13/784.368; publicação de pedido de patente US n° 2013/0116153 A1; e na publicação de pedido de patente US n° 2012/0316086 A1, cada um dos quais está aqui incorporado por referência. Os analitos de tais matrizes dotadas de padrão podem ser usados para capturar uma única molécula de gabarito de ácido nucleico para semear formação subsequente de uma colônia homogênea, por exemplo, através de amplificação por ponte. Tais matrizes padronizadas são particularmente úteis para aplicações de sequenciamento de ácido nucleico.

[00568] O tamanho de um analito em um arranjo (ou outro objeto usado em um método ou sistema da presente invenção) podem ser selecionados para se adequar a uma aplicação específica.

Por exemplo, em algumas implementações, um analito de uma matriz pode ter um tamanho que acomoda apenas uma única molécula de ácido nucleico.

Uma superfície que tem uma pluralidade de analitos nessa faixa de tamanho é útil para a construção de uma matriz de moléculas para detecção em resolução de molécula única.

Os analitos nessa faixa de tamanho são também úteis para uso em matrizes tendo analitos que contêm, cada um, uma colônia de moléculas de ácido nucleico.

Dessa forma, cada analito de uma matriz pode ter uma área que é maior que cerca de 1 mm2, não maior que cerca de 500 µm2, não maior que cerca de 100 µm2, não maior que cerca de 10 µm2, não maior que cerca de 1 µm2, não maior que cerca de 500 nm2, ou não maior que cerca de 100 nm2, não maior que cerca de 10 nm2, não maior que cerca de 5 nm2, ou não maior que cerca de 1 nm2. Alternativamente ou adicionalmente, os analitos de uma matriz não serão menores que cerca de 1 mm2, não serão menores que cerca de 500 µm2, não serão menores que cerca de 100 µm2, não serão menores que cerca de 10 µm2, não serão menores que cerca de 1 µm2, não serão menores que cerca de 500 nm2, não serão menores que cerca de 100 nm2, não serão menores que cerca de 10 nm2, não serão menores que cerca de 5 nm2, ou não serão menores que cerca de 1 nm2. De fato, um analito pode ter um tamanho que está em uma faixa entre um limite superior e um inferior selecionados dentre aqueles exemplificados acima.

Embora várias faixas de tamanho para analitos de uma superfície tenham sido exemplificadas no que diz respeito aos ácidos nucleicos e na escala de ácidos nucleicos, será entendido que analitos nessas faixas de tamanho podem ser usados para aplicações que não incluem ácidos nucleicos.

Será adicionalmente entendido que o tamanho dos analitos não precisa necessariamente ser confinado a uma escala usada para aplicações de ácido nucleico.

[00569] Para implementações que incluem um objeto que tem uma pluralidade de analitos, como uma matriz de analitos, os analitos podem ser distintos, sendo separados com espaços entre si. Uma matriz útil na invenção pode ter analitos que são separados por uma distância de borda a borda de no máximo 100 µm, 50 µm, 10 µm, 5 µm, 1 µm, 0,5 µm ou menos. Alternativamente ou adicionalmente, uma matriz pode ter analitos que são separados por uma distância de borda a borda de ao menos 0,5 µm, 1 µm, 5 µm, 10 µm, 50 µm, 100 µm, ou mais. Essas faixas podem se aplicar ao espaçamento médio de borda a borda para analitos bem como aos espaçamentos mínimo ou máximo.

[00570] Em algumas implementações os analitos de uma matriz não precisas ser distintos e em vez disso analitos vizinhos podem ser contíguos um ao outro. Se ou não a analitos são distintos, o tamanho dos analitos e/ou o passo dos analitos podem variar de modo que as matrizes podem ter uma densidade desejada. Por exemplo, o passo médio do analito em um padrão regular pode ser no máximo 100 µm, 50 µm, 10 µm, 5 µm, 1 µm, 0,5 µm ou menos. Alternativa ou adicionalmente, o passo médio do analito em um padrão regular pode ser de ao menos 0,5 µm, 1 µm, 5 µm, 10 µm, 50 µm, 100 µm ou mais. Essas faixas podem se aplicar também ao passo máximo ou mínimo para um padrão regular. Por exemplo, o passo máximo de analito para um padrão regular pode ser de no máximo 100 µm, 50 µm, 10 µm, 5 µm, 1 µm, 0,5 µm, ou menos; e/ou o passo mínimo de analito em um padrão regular pode ser de ao menos 0,5 µm, 1 µm, 5 µm, 10 µm, 50 µm, 100 µm, ou mais.

[00571] A densidade de analitos em uma matriz pode também ser entendida em termos do número de analitos presentes por unidade de área. Por exemplo, a densidade média de analitos para uma matriz pode ser ao menos cerca de 1x10 3 analitos/mm2, 1x104 analitos/mm2, 1x105 analitos/mm2, 1x106 analitos/mm2, 1x107 analitos/mm2, 1x108 analitos/mm2, ou 1x109 analitos/mm2, ou mais alta. Alternativamente ou adicionalmente, a densidade média de analitos para uma matriz pode ser ao menos cerca de 1x10 9 analitos/mm2, 1x108 analitos/mm2, 1x107 analitos/mm2, 1x106 analitos/mm2, 1x105 analitos/mm2, 1x104 analitos/mm2, ou 1x103 analitos/mm2, ou menos.

[00572] As faixas acima podem se aplicar a todo ou parte de um padrão regular incluindo, por exemplo, a totalidade ou parte de uma matriz de analitos.

[00573] Os analitos em um padrão podem ter qualquer um dentre uma variedade de formatos. Por exemplo, quando observada em um plano bidimensional, como sobre a superfície de uma matriz, os analitos podem parecer arredondados, circulares, ovais, retangulares, quadrados, simétricos, assimétricos, triangulares, poligonais, ou similares. Os analitos podem ser dispostos em um padrão de repetição regular incluindo, por exemplo, um padrão hexagonal ou retilíneo. Um padrão pode ser selecionado para alcançar um nível desejado de empacotamento. Por exemplo, os analitos redondos são otimamente empacotados em uma disposição hexagonal. É claro que outras disposições de empacotamento podem ser usadas para analitos redondos e vice-versa.

[00574] Um padrão pode ser caracterizado em termos de número de analitos que estão presentes em um subconjunto que forma a menor unidade geométrica do padrão. O subconjunto pode incluir, por exemplo, ao menos cerca de 2, 3, 4, 5, 6, 10 ou mais analitos. Dependendo do tamanho e densidade dos analitos a unidade geométrica pode ocupar uma área menor que 1 mm2, 500 µm2, 100 µm2, 50 µm2, 10 µm2, 1 µm2, 500 nm2, 100 nm2, 50 nm2, 10 nm2, ou menos. Alternativamente ou adicionalmente, a unidade geométrica pode ocupar uma área de maior que 10 nm2, 50 nm2, 100 nm2, 500 nm2, 1 µm2, 10 µm2, 50 µm2, 100 µm2, 500 µm2, 1 mm2, ou mais. As características dos analitos em uma unidade geométrica, como formato, tamanho, passo e similares, podem ser selecionadas a partir daquelas aqui apresentadas de uma forma mais geral no que diz respeito aos analitos em uma matriz ou um padrão.

[00575] Uma matriz que tem um padrão regular de analitos pode ser ordenada em relação às localizações relativas dos analitos, mas aleatória em relação as uma ou mais de outras características de cada analito. Por exemplo, no caso de uma matriz de ácido nucleico, os analitos de ácido nucleico podem ser ordenados com relação a sua localização relativa, mas aleatórios com relação ao conhecimento da sequência para a espécie de ácido nucleico presentes em qualquer analito específico. Como um exemplo mais específico, matrizes de ácido nucleico formadas por semeadura um padrão repetitivo de analitos com ácidos nucleicos de gabarito e amplificação do gabarito em cada analito para formar cópias do gabarito no analito (por exemplo, por meio de amplificação de agrupamento ou amplificação em ponte) terá um padrão regular de analitos de ácido nucleico, mas será aleatória no que diz respeito à distribuição de sequências de ácidos nucleicos através da matriz. Dessa forma, a detecção da presença de material de ácido nucleico, em geral, na matriz pode produzir um padrão repetitivo de analitos, enquanto a detecção específica de sequência pode produzir distribuição não repetitiva de sinais através da matriz.

[00576] Será entendido que a descrição aqui feita de padrões, ordem, aleatoriedade e similares se referem não apenas a analitos em objetos, como analitos em matrizes, mas também aos analitos em imagens. Como tal, padrões, ordem, aleatoriedade e similares podem estar presentes em qualquer de uma variedade de formatos que são usados para armazenar, manipular ou comunicar dados da imagem incluindo, mas não se limitando a, uma mídia legível por computador ou um componente de computador como uma interface gráfica de usuário ou outro dispositivo de saída.

[00577] Como usado na pressente invenção, o termo "imagem" se destina a significar uma representação de todo ou parte de um objeto. A representação pode ser uma reprodução opticamente detectada. Por exemplo, uma imagem pode ser obtida a partir de sinais fluorescentes, luminescentes, de dispersão ou de absorção. A parte do objeto que está presente em uma imagem pode ser a superfície ou outro plano xy do objeto. Tipicamente, uma imagem é uma representação de 2 dimensões, mas em alguns casos as informações na imagem podem ser de 3 ou mais dimensões. Uma imagem não precisa incluir sinais opticamente detectados. Em vez disso, sinais não ópticos podem estar presentes. Uma imagem pode ser fornecida em um formato legível por computador ou mídia de armazenamento em um ou mais dentre aqueles apresentados no presente documento.

[00578] Como usado na pressente invenção, "imagem" se refere a uma reprodução ou representação de ao menos uma porção de um espécime ou outro objeto. Em algumas implementações, a reprodução é uma reprodução óptico, por exemplo, produzida por uma câmera ou outro detector óptico. A reprodução pode ser uma reprodução não óptica, por exemplo, uma representação de sinais elétricos obtidos a partir de uma matriz de analitos de nanoporo ou uma representação de sinais elétricos obtidos a partir de um detector CMOS sensível a íons. Em implementações específicas, reproduções não ópticas podem ser excluídas de um método ou aparelho aqui apresentado. Uma imagem pode ter uma resolução capaz de distinguir analitos de um espécime que estão presentes em qualquer dentre uma variedade de espaçamentos incluindo, por exemplo, aqueles que são separados por menos que 100 µm, 50 µm, 10 µm, 5 µm, 1 µm ou 0,5 µm.

[00579] Como usado na pressente invenção, "capturar", "captura", "adquirir" e termos similares se referem a qualquer parte do processo de obtenção de um arquivo de imagem. Em algumas implementações, a captura de dados pode incluir gerar uma imagem de um espécime, procurar um sinal em um espécime, instruir um dispositivo de detecção para procurar ou gerar uma imagem de um sinal, dar instruções para adicional análise ou transformação de um arquivo de imagem, e qualquer número de transformações ou manipulações de um arquivo de imagem.

[00580] Como usado na pressente invenção, o termo "gabarito" se refere a uma representação da localização ou da relação entre sinais ou analitos. Dessa forma, em algumas implementações, um gabarito é uma rede física com uma representação de sinais que correspondem aos analitos em um espécime. Em algumas implementações, um gabarito pode ser um gráfico, tabela, arquivo de texto ou outro tipo de arquivo de computador indicativo dos locais correspondentes a analitos. Em implementações apresentadas na presente invenção, um gabarito é gerado para rastrear a localização de analitos de um espécime através de um conjunto de imagens da espécime capturadas em diferentes pontos de referência. Por exemplo, um gabarito poderia ser um conjunto de coordenadas x,y ou um conjunto de valores que descrevem a direção e/ou a distância de um analito em relação a outro analito.

[00581] Como usado aqui, o termo "espécime" pode se referir a um objeto ou área de um objeto do qual uma imagem é capturada. Por exemplo, em algumas implementações onde imagens são adquiridas da superfície da terra, uma parcela de terra pode ser um espécime. Em outras implementações onde a análise de moléculas biológicas é realizada em uma célula de fluxo, a célula de fluxo pode ser dividida em qualquer quantidade de subdivisões, cada uma dos quais pode ser um espécime. Por exemplo, uma célula de fluxo pode ser dividida em vários canais de fluxo ou canaletas ("lanes") e cada canaleta pode ser dividida adicionalmente em 2, 3, 4, 5, 6, 7, 8, 9, 10, 20, 30, 40, 50, 60 70, 80, 90, 100, 110, 120, 140, 160, 180, 200, 400, 600, 800, 1000 ou mais regiões separadas que são imageadas. Um exemplo de uma célula de fluxo tem 8 canaletas, com cada canaleta dividido em 120 espécimes ou ladrilhos. Em outra implementação, um espécime pode ser composto de uma pluralidade de ladrilhos ou mesmo toda uma célula de fluxo. Dessa forma, a imagem de cada espécime pode representar uma região de uma superfície maior que é imageada.

[00582] Será entendido que as referências a faixas e listas sequenciais de números aqui descritos incluem não apenas o número mencionado, mas todos os números reais entre os números enumerados.

[00583] Como usado aqui, um "ponto de referência" se refere a qualquer distinção temporal ou física entre as imagens. Em uma implementação preferencial, um ponto de referência é um ponto no tempo. Em uma implementação mais preferencial, um ponto de referência é um ponto no tempo ou ciclo durante uma reação de sequenciamento. Entretanto, o termo "ponto de referência" pode incluir outros aspectos que distinguem ou separam imagens, como aspectos de angulares, rotacionais, temporais outros aspectos que podem distinguir ou separar imagens.

[00584] Como usado aqui, um "subconjunto de imagens" se refere a um grupo de imagens dentro de um conjunto. Por exemplo, um subconjunto pode conter 1, 2, 3, 4, 6, 8, 10, 12, 14, 16, 18, 20, 30, 40, 50, 60 ou qualquer número de imagens selecionadas a partir de um conjunto de imagens. Em implementações específicas, um subconjunto pode conter não mais que 1, 2, 3, 4, 6, 8, 10, 12, 14, 16, 18, 20, 30, 40, 50, 60 ou qualquer número de imagens selecionadas a partir de um conjunto de imagens. Em uma implementação preferencial, as imagens são obtidas a partir de um ou mais ciclos de sequenciamento com quatro imagens correlacionadas para cada ciclo. Dessa forma, por exemplo, um subconjunto pode ser um grupo de 16 imagens obtidas através de quatro ciclos.

[00585] Uma base se refere a uma base de nucleotídeo ou nucleotídeo, A (adenina), C (citosina), T (timina), ou G (guanina). Este pedido usa "base(s)" e "nucleotídeo(s)" de forma intercambiável.

[00586] O termo "cromossomo" se refere ao transportador do gene portador da hereditariedade de uma célula viva, que é derivado de fitas de cromatina que compreendem DNA e componentes de proteína (especialmente histonas). O sistema convencional de numeração de cromossomos de genoma humano individual reconhecido internacionalmente é usado na presente invenção.

[00587] O termo "local" se refere a uma posição única (por exemplo, ID do cromossomo, posição e orientação no cromossomo) em um genoma de referência. Em algumas implementações, um local pode ser um resíduo, uma etiqueta de sequência, ou uma posição do segmento em uma sequência. O termo "locus" pode ser usado para se referir ao local específico de uma sequência de ácidos nucleicos ou ao polimorfismo em um cromossomo de referência.

[00588] O termo "amostra" na presente invenção se refere a uma amostra, tipicamente derivado de um fluido biológico, célula, tecido, órgão, ou organismo contendo um ácido nucleico ou uma mistura de ácidos nucleicos contendo ao menos uma sequência de ácidos nucleicos que é para ser sequenciada e/ou em fases. Tais amostras incluem, mas não se limitam a, fluido sputum/oral, fluido amniótico, sangue, uma fração de sangue, amostras de biópsia de agulha fina (por exemplo, biópsia cirúrgica, biópsia de agulha fina, etc.), urina, fluido peritoneal, fluido pleural, explante de tecido, cultura de órgãos e qualquer outra preparação de tecido ou célula, ou isolada da mesma. Embora a amostra seja geralmente obtida de um indivíduo humano (por exemplo, paciente), as amostras podem ser obtidas a partir de qualquer organismo que têm cromossomos, incluindo, mas não se limitando a cães, gatos, cavalos, cabras, ovelhas, gado, porcos, etc. A amostra pode ser usada diretamente como obtida a partir da fonte biológica ou após um tratamento prévio para modificar o caráter da amostra. Por exemplo, tal tratamento prévio pode incluir a preparação de plasma de sangue, diluição de fluidos viscosos e assim por diante. Os métodos de tratamento prévio podem também envolver, mas não se limitam a, filtração, precipitação, diluição, destilação, misturar, centrifugação, congelamento, liofilização, concentração, amplificação, fragmentação de ácido nucleico, inativação de componentes interferentes, a adição de reagentes, lise, entre outros.

[00589] O termo "sequência" inclui ou representa uma fita de nucleotídeos acoplados uns aos outros. Os nucleotídeos podem ser à base de DNA ou RNA. Deve ser entendido que uma sequência pode incluir múltiplas subsequências. Por exemplo, uma única sequência (por exemplo, de um amplicon de PCR) pode ter 350 nucleotídeos. A leitura da amostra pode incluir múltiplas subsequências dentro desses 350 nucleotídeos. Por exemplo, a leitura da amostra pode incluir primeira e segunda subsequências de flanqueamento tendo, por exemplo, 20 a 50 nucleotídeos. A primeira e a segunda subsequências de flanqueamento podem estar situadas em cada lado de um segmento repetitivo que tem uma subsequência correspondente (por exemplo, 40 a 100 nucleotídeos). Cada uma das subsequências de flanqueamento podem incluir (ou incluir porções de) uma subsequência de iniciador (por exemplo, 10 a 30 nucleotídeos). Para facilitar a leitura, o termo "subsequência" será chamado de "sequência", mas é entendido que duas sequências não são necessariamente separadas uma da outra em uma fita comum. Para diferenciar as várias sequências aqui descritas, as sequências podem receber diferentes rótulos (por exemplo, sequência-alvo, sequência iniciadora, sequência flanqueadora, sequência de referência e similares). Outros termos, como "alelo", podem receber rótulos diferentes para diferenciar entre objetos similares. A aplicação usa "leitura(s)" e "leitura(s) de sequência" de forma intercambiável.

[00590] O termo "sequenciamento de extremidade pareada" se refere a métodos de sequenciamento que sequenciam ambas as extremidades de um fragmento-alvo. O sequenciamento de extremidade pareada pode facilitar a detecção de rearranjos genômicos e segmentos repetitivos, bem como fusões de genes e transcritos inovadores. Metodologia para sequenciamento de extremidades pareadas são descritas na publicação WO07010252, no pedido PCT n° de série PCTGB2007/003798, e na publicação do pedido de patente US 2009/0088327, cada um dos quais está aqui incorporado a título de referência. Em um exemplo, uma série de operações podem ser realizadas da seguinte forma: (a) gerar agrupamentos de ácidos nucleicos; (b) linearizar os ácidos nucleicos; (c) hibridizar um primeiro iniciador de sequenciamento e realizar ciclos repetidos de extensão, varredura e desbloqueamento, conforme apresentado acima; (d) "inverter" os ácidos nucleicos alvo na superfície de uma célula de fluxo mediante a síntese de uma cópia complementar; (e) linearizar a fita ressintentizada; e (f) hibridizar um segundo iniciador de sequenciamento e efetuar ciclos repetidos de extensão, varredura e desbloqueamento, conforme apresentado acima. A operação de inversão pode ser executada por reagentes de liberação conforme apresentado acima para um único ciclo de amplificação em ponte.

[00591] O termo "genoma de referência" ou "sequência de referência" se refere a qualquer sequência de genoma específico conhecida, parcial ou completa, de qualquer organismo que pode ser usado para referência de sequências identificadas a partir de um indivíduo. Por exemplo, um genoma de referência usado para indivíduos humanos bem como muitos outros organismos é encontrado no National Center For Biotechnology Information em ncbi.nlm.nih.gov. Um "genoma" se refere às informações genéticas completas de um organismo ou vírus, expressas em sequências de ácidos nucleicos. Um genoma inclui ambos os genes e as sequências não codificantes do DNA. A sequência de referência pode ser maior que as leituras que são alinhadas para ele. Por exemplo, pode ser ao menos cerca de 100 vezes maior, ou ao menos cerca de 1000 vezes maior, ou a menos cerca de 10.000 vezes maior, ou ao menos cerca de 105 vezes maior, ou ao menos cerca de 106 vezes maior, ou ao menos cerca de 107 vezes maior.

Em um exemplo, a sequência do genoma de referência é aquela de um genoma humano de comprimento total.

Em outro exemplo, a sequência de genoma de referência é limitada a um cromossomo humano específico como o cromossomo 13. Em algumas implementações, um cromossomo de referência é uma sequência de cromossomo de genoma humano versão hg19. Essas sequências podem ser chamadas de sequências de referência de cromossomo, embora o termo genoma de referência se destina a cobrir tais sequências.

Outros exemplos de sequências de referência incluem genomas de outras espécies, bem como cromossomos, regiões subcromossômicas (como fitas), etc., de qualquer espécie.

Em várias implementações, o genoma de referência é uma sequência de consenso ou outra combinação derivada de múltiplos indivíduos.

Entretanto, em certas aplicações, a sequência de referência pode ser tomada a partir de um indivíduo específico.

Em outras implementações, o "genoma" também abrange os chamados "genomas gráficos", que usam um formato específico de armazenamento e representação da sequência do genoma.

Em uma implementação, os genomas gráficos armazenam dados em um arquivo linear.

Em outra implementação, os genomas gráficos se referem a uma representação onde sequências alternativas (por exemplo, diferentes cópias de um cromossomo com pequenas diferenças) são armazenadas como trajetórias diferentes em um gráfico.

Informações complementares sobre implementação de genoma gráfico podem ser encontradas em https://www.biorxiv.org/content/biorxiv/early/2018/03/20/194530.full.pdf, cujo conteúdo está aqui incorporado a título de referência em sua totalidade.

[00592] O termo "ler" se refere a uma coleção de dados de sequência que descreve um fragmento de uma amostra ou referência de nucleotídeo. O termo "ler" pode se referir a uma leitura de amostra e/ou a uma leitura de referência. Tipicamente, embora não necessariamente, uma leitura representa uma sequência curta de pares de bases contíguas na amostra ou referência. A leitura pode ser representada simbolicamente pela sequência de pares de base (em ATCG) do fragmento da amostra ou da referência. A mesma pode ser armazenada em um dispositivo de memória e processada conforme for adequado para determinar se a leitura corresponde a uma sequência de referência ou atende outros critérios. Uma leitura pode ser obtida diretamente a partir de um aparelho de sequenciamento ou indiretamente a partir de informações de sequência armazenadas referentes à amostra. Em alguns casos, uma leitura é uma sequência de DNA de comprimento suficiente (por exemplo, ao menos cerca de 25 pb) que pode ser usada para identificar uma sequência maior ou região, por exemplo, que pode ser alinhada e especificamente designada para um cromossomo ou região genômica ou gene.

[00593] Os métodos de sequenciamento de próxima geração incluem, por exemplo, sequenciamento por tecnologia de síntese (Illumina), pirosequenciamento (454), tecnologia de semicondutor íon (sequenciamento de Ion Torrent), sequenciamento de tempo real de molécula única (Pacific Biosciences) e sequenciamento por ligação (sequenciamento SOLiD). Dependendo dos métodos de sequenciamento], o comprimento de cada leitura pode estar na faixa de 30 pb ou mais que

10.000 pb. Por exemplo, o método de sequenciamento de DNA com o uso do sequenciador SOLiD gera leituras de ácido nucleico de cerca de 50 pb. Para outro exemplo, o sequenciamento Ion Torrent gera leituras de ácido nucleico de até é 400 pb e pirossequenciamento 454 gera leituras de ácido nucleico de cerca de 700 pb. Em ainda outro exemplo, métodos de sequenciamento de molécula única em tempo real podem gerar leitura de

10.000 pb a 15.000 pb. Portanto, em certas implementações, as leituras de sequência de ácidos nucleicos têm um comprimento de 30 a 100 pb, 50 a 200 pb, ou 50 a 400 pb.

[00594] Os termos "leitura de amostra", "sequência de amostra" ou "fragmento de amostra" se referem a dados de sequência para uma sequência genômica de interesse a partir de uma amostra. Por exemplo, a leitura da amostra compreende dados de sequência de um amplicon de PCR tendo uma sequência de iniciador para frente e reverso. A sequência de dados pode ser obtida a partir de qualquer metodologia selecionada de sequência. A leitura da amostra pode ser, por exemplo, a partir de uma reação de sequenciamento por síntese (SBS). uma reação de sequenciamento por ligação, ou qualquer outra metodologia adequada para sequenciamento para o qual se deseja determinar o comprimento e/ou identidade de um elemento repetitivo. A leitura da amostra pode ser uma sequência consenso (por exemplo, média ou ponderada) derivada de múltiplas leituras da amostra. Em certas implementações, fornecer uma sequência de referência compreende identificar um locus de interesse com base na sequência iniciadora do amplicon de PCR.

[00595] O termo "fragmento bruto" se refere a dados de sequência para uma porção de uma sequência genômica de interesse que ao menos parcialmente se sobrepõe a uma posição designada ou posição secundária de interesse dentro de uma leitura da amostra ou fragmento de amostra. Exemplos não limitadores de fragmentos brutos incluem um fragmento costurado duplex, um fragmento costurado simplex, um fragmento não costurado duplex e um fragmento não costurado simplex. O termo "bruto" é usado para indicar que o fragmento bruto inclui dados de sequência tendo alguma relação com os dados de sequência em uma leitura de amostra, independentemente de o fragmento bruto apresentar uma variante de suporte que corresponde a e autentica ou confirma uma variante potencial em uma leitura da amostra. O termo "fragmento bruto"

não indica que o fragmento inclui necessariamente uma variante de suporte que valida uma chamada de variante em uma leitura da amostra. Por exemplo, quando uma leitura da amostra é determinada por uma aplicação de chamada de variante para exibir uma primeira variante, a aplicação de chamada de variante pode determinar que um ou mais fragmentos brutos não têm um tipo correspondente de variante de "suporte" que pode de outro modo ser esperado ocorrer dada a variante na leitura da amostra.

[00596] Os termos "mapeamento", "alinhado", "alinhamento" ou "que alinha" se referem ao processo de comparar uma leitura ou etiqueta a uma sequência de referência e desse modo determinar se a sequência de referência contém a sequência lida. Se a sequência de referência contiver a leitura, a leitura pode ser mapeada para a sequência de referência ou, em certas implementações, a um local específico na sequência de referência. Em alguns casos, o alinhamento simplesmente informa se ou não uma leitura é um membro de uma sequência de referência específica (isto é, se a leitura está presente ou ausente na sequência de referência). Por exemplo, o alinhamento de uma leitura para a sequência de referência para o cromossomo humano 13 dirá se a leitura está presente na sequência de referência para o cromossomo 13. Uma ferramenta que fornece essas informações pode ser chamada de testador de adesão definida. Em alguns casos, um alinhamento adicional indica um local na sequência de referência ao qual a leitura ou etiqueta se mapeia. Por exemplo, se a sequência de referência é toda a sequência de genoma humano, um alinhamento pode indicar que uma leitura está presente no cromossomo 13, e pode adicionalmente indicar que a leitura está em uma fita e/ou local específico do cromossomo 13.

[00597] O termo "indel" se refere à inserção e/ou à deleção de bases no DNA de um organismo. Um micro-indel representa um indel que resulta em uma alteração líquida de 1 a 50 nucleotídeos. Nas regiões codificadoras do genoma, a menos que o comprimento de um indel seja múltiplo de 3, ele produzirá uma mutação "frameshift" (mutação por deslocamento da matriz de leitura). Indels pode ser contrastado com mutações pontuais. Um indel insere e deleta nucleotídeos a partir de uma sequência, enquanto uma mutação pontual é uma forma de substituição que substitui um dos nucleotídeos sem alterar o número total no DNA. Os indels podem também ser contrastados com uma mutação de base em série (TBM), que pode ser definida como substituição em nucleotídeos adjacentes (principalmente substituições em dois nucleotídeos adjacentes, mas substituições em três nucleotídeos adjacentes têm sido observadas.

[00598] O termo "variante" se refere a uma sequência de ácidos nucleicos que é diferente de uma referência de ácidos nucleicos. Uma variante típica de sequência de ácidos nucleicos inclui sem limitação polimorfismo de nucleotídeo único (SNP), polimorfismo de deleção e inserção curtas (Indel), variação do número de cópias (CNV), marcadores de microssatélites ou repetições curtas em tandem e variação estrutural. Chamada de variantes somáticas é o esforço para identificar variantes presentes em uma baixa frequência na amostra de DNA. A chamada de variantes somáticas é de interesse no contexto de tratamento de câncer. O câncer é causado por uma acumulação de mutações no DBA. Uma amostra de DNA de um tumor é geralmente heterogênea, incluindo algumas células normais, algumas células em um estágio inicial da progressão do câncer (com menos mutações), e algumas células de estágio tardio (com mais mutações). Devido a esta heterogeneidade, quando um tumor é sequenciado (por exemplo, a partir de uma amostra FFPE), mutações somáticas aparecerão em uma frequência baixa. Por exemplo, um SNV poderia ser visto em apenas 10% das leituras que cobrem uma determinada base. Uma variante que é para ser classificada como somática ou linhagem germinativa pelo classificador de variante é também na presente invenção de o "teste sob variante".

[00599] O termo "ruído" se refere a uma chamada errônea da variante que resulta de um ou mais erros no processo de sequenciamento e/ou na aplicação da chamada da variante.

[00600] O termo "frequência variante" representa a frequência relativa de um alelo (variante de um gene) em um locus específico em uma população, expressa como uma fração ou porcentagem. Por exemplo, a fração ou porcentagem pode ser a fração de todos os cromossomos na população que carrega aquele alelo. A título de exemplo, e frequência da amostra variante representa a frequência relativa de um alelo/variante em um locus /posição específica ao longo de uma sequência genômica de interesse em relação a uma "população" correspondente ao número de leituras e/ou amostras obtidas para a sequência genômica de interesse de um indivíduo. Como outro exemplo, uma frequência de variante de linha de base representa a frequência relativa de um alelo/variante em um locus/posição específica ao longo de uma ou mais sequências genômicas de linha de base onde a "população" corresponde ao número de leituras e/ou amostras obtidas para as uma ou mais sequências genômicas de linha de base a partir de uma população de indivíduos normais.

[00601] O termo "frequência variante de alelo (VAF)" se refere à porcentagem de leituras sequenciadas observadas que correspondem à variante dividida pela cobertura total na posição-alvo. VAF é uma medida da proporção de leituras sequenciadas transportando a variante.

[00602] Os termos "posição", "posição designada" e "locus" se referem a um local ou coordenada de um ou mais nucleotídeos dentro de uma sequência de nucleotídeos. Os termos "posição", "posição designada" e "locus" também se referem a um local ou coordenada de um ou mais pares de base em uma sequência de nucleotídeos.

[00603] O termo "haplótipo" se refere a uma combinação de alelos em locais adjacentes em um cromossomo que são herdados juntos. Um haplótipo pode ser um locus, vários loci, ou um cromossomo inteiro dependendo do número de eventos de recombinação que ocorreram entre um dado conjunto de loci, se algum ocorreu.

[00604] O termo "limite" na presente invenção se refere a um valor numérico ou não numérico que é usado como um corte para caracterizar uma amostra, um ácido nucleico ou porção do mesmo (por exemplo, uma leitura). Um limite pode ser variado com base na análise empírica. O limite pode ser comparado a um valor medido ou calculado para determinar se a fonte que dá origem a tal valor sugere deve ser classificada de uma maneira específica. Os valores-limite podem ser identificados empiricamente ou analiticamente. A escolha de um limite é dependente do nível de confiança que o usuário deseja ter que fazer a classificação. O limite pode ser escolhido para um propósito específico (por exemplo, para equilibrar a sensibilidade e a seletividade). Como usado na presente invenção, o termo "limite" indica um ponto no qual um curso de análise pode ser alterado e/ou um ponto no qual uma ação pode ser acionada. Um limite não é precisa ser um número predeterminado. Em vez disso, o limite pode ser, por exemplo, uma função que tem por base uma pluralidade de fatores. O limite pode ser adaptativo às circunstâncias. Além disso, um limite pode indicar um limite superior, um limite inferior ou uma faixa entre limites.

[00605] Em algumas implementações, uma métrica ou escore que é baseada em dados de sequenciamento pode ser comparada com o limite. Como usado na pressente invenção, os termos "métrica" ou "escore" podem incluir valores ou resultados que foram determinados a partir dos dados de sequenciamento ou podem incluir funções que têm por base os valores ou resultados que foram determinados a partir dos dados de sequenciamento. Como um limite, a métrica ou escore pode ser adaptativa às circunstâncias. Por exemplo, a métrica ou escore pode ser um valor normalizado. Como um exemplo de um escore ou métrica, uma ou mais implementações podem usar contagem de escores quando os dados são analisados. Um escore de contagem pode ser com base no número de leituras da amostra. As leituras da amostra podem ter sido submetidas a um ou mais estágios de filtração de modo que as leituras da amostra têm ao menos uma característica ou qualidade comum. Por exemplo, cada uma das leituras da amostra que são usados para determinar um escore de contagem pode ter sido alinhada com uma sequência de referência ou pode ser atribuída como um alelo potencial. O número de leituras da amostra que têm uma característica comum pode ser contado para determinar uma contagem de leituras. Os escores de contagem podem ser baseados em contagem de leitura. Em algumas implementações, o escore de contagem pode ser um valor que é igual à contagem de leituras. Em outras implementações, o escore de contagem pode ser com base na contagem de leituras e outras informações. Por exemplo, um escore de contagem pode ser com base na contagem de leituras para um determinado alelo de um locus genético e um número total de leituras para o locus genético. Em algumas implementações, o escore de contagem pode ser com base na contagem de leituras e dados anteriormente obtidos para o locus genético. Em algumas implementações, os escores de contagem podem ser escores normalizados entre valores predeterminados. O escore de contagem pode também ser uma função das contagens de leitura de outros loci de uma amostra ou uma função de contagens de leitura de outras amostras que foram simultaneamente executadas com a amostra de interesse. Por exemplo, o escores de contagem pode ser uma função da contagem de leituras de um alelo específico e das contagens de leitura de outros loci na amostra e/ou das contagens de leitura de outras amostras. Como um exemplo, as contagens de leitura de outros loci e/ou as contagens de leitura de outras amostras podem ser usadas para normalizar o escore de contagem para o alelo específico.

[00606] Os termos "cobertura" ou "cobertura de fragmento" se referem a uma contagem ou outra medida de um número de leituras da amostra para o mesmo fragmento de uma sequência. Uma contagem de leituras pode representar uma contagem do número de leituras que cobrem um fragmento correspondente. Alternativamente, a cobertura pode ser determinada multiplicando-se a contagem de leituras por um fator designado que é baseado em conhecimento histórico, conhecimento da amostra, conhecimento do locus, entre outros.

[00607] O termo "profundidade de leitura" (convencionalmente um número seguido por "×") se refere ao número de leituras sequenciadas com alinhamento de sobreposição na posição-alvo. Isso é muitas vezes expresso como uma média ou percentagem que excede um valor de corte acima de um conjunto de intervalos (como éxons, genes, ou painéis). Por exemplo, um laudo clínico poderia dizer que uma média de cobertura de painel é 1.105× com 98% de bases alvejadas cobertas >100×.

[00608] Os termos "escore de qualidade de chamada de base" ou "escore Q" se referem a uma probabilidade na escala PHRED na faixa de 0 a 50 inversamente proporcional à probabilidade de que uma única base sequenciada está correta. Por exemplo, uma chamada de base T com Q de 20 é considerada provavelmente corrigida com uma probabilidade de 99,99%. Qualquer chamada de base com Q<20 deve ser considerada de baixa qualidade, e qualquer variante identificada onde uma proporção substancial de leituras sequenciadas que suportam a variante são de baixa qualidade deve ser considerada potencialmente falso positivo.

[00609] Os termos "leituras da variante" ou "número de leituras da variante" se referem ao número de leituras que suportam a presença da variante.

[00610] Em relação à "composição das fitas" (ou composição das fitas de DNA), a mensagem genética no DNA pode ser representada como uma string de letras A, G, C, e T. Por exemplo, 5’ – AGGACA – 3’. Muitas vezes, a sequência é escrita na direção mostrada aqui, isto é, com a extremidade 5' à esquerda e a extremidade 3’ à direita. O DNA pode, às vezes, ocorrer como uma molécula de fita simples (como em certos vírus), mas normalmente encontramos DNA como uma unidade de fita dupla. O DNA tem uma estrutura helicoidal dupla com duas fitas antiparalelas. Neste caso, a palavra "antiparalela" significa que as duas fitas correm em paralelo, mas têm polaridade oposta. O DNA de fita dupla é mantido junto pelo emparelhamento entre as bases e o emparelhamento é sempre tal que adenina (A) é pareada com timina (T) e citosina (C) é pareada com guanina (G). Esse pareamento é chamado de complementaridade, e uma fita de DNA é dita ser o complemento da outra. O DNA de fita dupla pode, dessa forma, ser representado como duas strings, como esta: 5’ – AGGACA – 3’ e 3’ – TCCTGT – 5’. Note que as duas fitas têm polaridade oposta. Consequentemente, a composição das fitas das duas fitas de DNA pode ser chamada de a fita de referência e seu complemento, fitas forward e reversa, fitas de topo e fundo, fitas senso e antissenso, ou fitas Watson e Crick.

[00611] O alinhamento das leituras (também chamado de mapeamento de leituras) é o processo de descobrir de onde uma sequência é no genoma. Após o alinhamento ser realizado, a "qualidade de mapeamento" ou o "escore da qualidade do mapeamento (MAPQ)" de uma determinada leitura quantifica a probabilidade de sua posição no genoma estar correta. A qualidade do mapeamento é codificada na escala Phred em que P é a probabilidade de o alinhamento não estar correto. A probabilidade é calculada como: P = 10( − MAQ /10) , em que MAPQ é a qualidade do mapeamento. Por exemplo, uma qualidade de mapeamento de 40 = 10 na potência de -4, significa que há uma chance de 0,01% de que a leitura foi alinhada de forma incorreta. A qualidade do mapeamento é, portanto, associada a vários fatores de alinhamento, como a qualidade de base da leitura, a complexidade do genoma de referência, e as informações das extremidades pareadas. Quanto ao primeiro, se a qualidade de base da leitura for baixa, isso significa que a sequência observada pode estar errada e dessa forma seu alinhamento está errado. Relativamente ao segundo, a mapeabilidade se refere à complexidade do genoma. As regiões repetidas são mais difíceis de mapear e as leituras nessas regiões normalmente são de baixa qualidade de mapeamento. Neste contexto, o MAPQ reflete o fato de que as leituras não são exclusivamente alinhadas e que sua origem real não pode ser determinada. Relativamente ao terceiro, no caso de dados de sequenciamento de extremidades pareadas, pares concordantes são mais propensos a serem bem alinhados. Quanto maior for a qualidade do mapeamento, melhor será o alinhamento. Uma leitura alinhada com uma boa qualidade de mapeamento geralmente significa que a sequência das leituras era boa e foi alinhada com poucos desemparelhamentos em uma região de alta capacidade de mapeamento. O valor MAPQ pode ser usada como um controle de qualidade dos resultados de alinhamento. A proporção de leituras alinhadas com uma MAPQ maior que 20 é geralmente para análise a jusante.

[00612] Como usado aqui, um "sinal" se refere a um evento detectável como uma emissão, de preferência emissão de luz, por exemplo, em uma imagem. Dessa forma, em implementações preferenciais, um sinal pode representar qualquer emissão de luz detectável que é capturada em uma imagem (isto é, um "ponto"). Dessa forma, como usado na presente invenção, "sinal" pode se referir tanto a uma emissão real de um analito do espécime, e pode se referir a uma emissão espúria que não se correlaciona com um analito real. Dessa forma, um sinal poderia surgir de ruído e poderia ser depois descartado como não representativo de um analito real de um espécime.

[00613] Como usado na presente invenção, o termo "aglomerado" se refere a um grupo de sinais. Em implementações particulares, os Sinais são derivadas de diferentes analitos. Em uma implementação preferencial, um aglomerado de sinais é um grupo de sinais que se agrupam em conjunto. Em uma implementação mais preferencial, um aglomerado de sinais representa uma região física abrangida por um oligonucleotídeo amplificado. Cada aglomerado de sinais deve ser idealmente observado como vários sinais (um por ciclo de gabarito, e possivelmente mais devido à interferência). Consequentemente, sinais duplicados são detectados onde dois (ou mais) sinais são incluídos em um gabarito a partir do mesmo aglomerado de sinais.

[00614] Como usado na pressente invenção, termos como "mínimo", "máximo", "minimizar" e "maximizar" e variações gramaticais dos mesmos podem incluir valores que não são os máximos ou mínimos absolutos. Em algumas implementações, os valores incluem valores próximos do máximo e valores próximos do mínimo. Em outras implementações, os valores podem incluir valores máximos locais e/ou valores mínimos locais. Em algumas implementações, os valores incluem apenas valores máximos ou mínimos absolutos.

[00615] Como usado na pressente invenção, "interferência" se refere à detecção de sinais em uma imagem que também são detectados em uma imagem separada. Em uma implementação preferencial, a interferência pode ocorrer quando um sinal emitido é detectado em dois canais de detecção. Por exemplo, onde um sinal emitido ocorre em uma cor, o espectro de emissão desse sinal pode se sobrepor com outro sinal emitido em outra cor. Em uma implementação preferencial, moléculas fluorescentes usadas para indicar a presença de bases de nucleotídeo A, C, G e T são detectadas em canais separados. No entanto, porque os espectros de emissão de A e C se sobrepõem, alguns dos sinais de cor de C podem ser detectados durante a detecção com o uso do canal de cor de A. Consequentemente, a interferência entre os sinais de A e C permite que sinais de uma imagem de cor apareçam na imagem da outra cor. Em algumas implementações, é a interferência de G e T. Em algumas implementações, a quantidade de interferência entre canais é assimétrica. Será entendido que a quantidade de interferência entre canais pode ser controlada por, entre outras coisas, a seleção de moléculas de sinal tendo um espectro de emissão adequado bem como a seleção do tamanho e faixa de comprimento de onda do canal de detecção.

[00616] Como usado na pressente invenção, "registro". "registrar", e termos similares se referem a qualquer processo para correlacionar os sinais em uma imagem ou conjunto de dados a partir de um primeiro ponto de tempo ou perspectiva com sinais em uma imagem ou conjunto de dados a partir de outro ponto de tempo ou perspectiva. Por exemplo, o registro pode ser usado para alinhar os sinais a partir de um conjunto de imagens para formar um gabarito. Em outro exemplo, o registro pode ser usado para alinhar os sinais de outras imagens a um gabarito. Um sinal pode ser registrado direta ou indiretamente a outro sinal. Por exemplo, um sinal de imagem "S" pode ser registrado para a imagem "G" diretamente. Como outro exemplo, um sinal de imagem "N" pode ser diretamente registrado para a imagem "G", ou alternativamente, o sinal da imagem "N" pode ser registrado para a imagem "S", que foi anteriormente registrado para a imagem "G". Dessa forma, o sinal de imagem "N" é indiretamente registado para a imagem "G".

[00617] Como usado na pressente invenção, o termo "fiducial" se destina a significar um ponto de referência distinguível em ou sobre um objeto. O ponto de referência pode ser, por exemplo, uma marca, segundo objeto, formato, borda, área, irregularidade, canal, poço, pós ou similares. O ponto de referência pode estar presente em uma imagem do objeto ou em outro conjunto de dados derivados da detecção do objeto. O ponto de referência pode ser especificado por uma coordenada x e/ou y em um plano do objeto. Alternativamente ou adicionalmente, o ponto de referência pode ser especificado por uma coordenada z que é ortogonal ao plano xy, por exemplo, sendo definido pelas localizações relativas do objeto e de um detector. Uma ou mais coordenadas para um ponto de referência podem ser especificadas em relação a um ou mais outros analitos de um objeto ou de uma imagem ou outro conjunto de dados derivados do objeto.

[00618] Como usado na pressente invenção, o termo "sinal óptico" se destina a incluir, por exemplo, sinais fluorescentes, luminescentes, de dispersão ou de absorção. Os sinais ópticos podem ser detectados na faixa do ultravioleta (UV) (cerca de 200 a 390 nm) na faixa visível (VIS) (cerca de 391 a 770 nm), na faixa do infravermelho (IR) (cerca de 0,771 a 25 mícrons), ou outra faixa do espectro eletromagnético. Os sinais ópticos pode, ser detectados de uma forma que exclui toda ou parte de uma ou mais dessas faixas.

[00619] Como usado na pressente invenção, o termo "nível de sinal" se destina a significar uma quantidade ou quantidade de energia detectada ou informações codificadas que tem uma característica desejada ou predefinida. Por exemplo, um sinal óptico pode ser quantificado por um ou mais dentre intensidade, comprimento de onda, energia, frequência, potência, luminância ou similares. Outros sinais podem ser quantificados de acordo com características como tensão, corrente, resistência do campo elétrico, intensidade do campo magnético, frequência, energia, temperatura, etc. Ausência de sinal é entendido como sendo um nível de sinal zero ou um nível de sinal que não é significativamente distinguido do barulho.

[00620] Como usado na pressente invenção, o termo "simular" se destina a significar criar uma representação ou modelo de uma coisa ou ação física que prevê características da coisa ou ação. A representação ou modelo pode em muitos casos ser distinguível da coisa ou ação. Por exemplo, a representação ou modelo podem ser distinguíveis de uma coisa com respeito as uma ou mais características como cor, intensidade de sinais detectados a partir de toda ou parte da coisa, tamanho, ou formato. Em implementações particulares, a representação ou modelo pode ser idealizada, exagerada, silenciada, ou incompleta quando comparada com a coisa ou ação. Dessa forma, em algumas implementações, uma representação do modelo pode ser distinguível da coisa ou ação que a representa, por exemplo, em relação a ao menos uma das características apresentadas acima. A representação ou modelo pode ser fornecido em um formato ou mídia legível por computador como um ou mais dos apresentados no presente documento.

[00621] Como usado na pressente invenção, o termo "sinal específico" se destina a significar energia detectada ou informações codificadas que são seletivamente observadas em relação a outras energias ou informações como energia de fundo ou informações. Por exemplo, um sinal específico pode ser um sinal óptico detectado em uma intensidade, comprimento de onda ou cor específicos; um sinal elétrico detectado em uma frequência, potência ou intensidade de campo específicos; ou outros sinais conhecidos na técnica relacionados à espectroscopia e detecção analítica.

[00622] Como usado na pressente invenção, o termo "faixa" se destina a significar uma porção retangular de um objeto. A faixa pode ser uma tira alongada que é submetida à varredura por movimento relativo entre o objeto e um detector em uma direção que é paralela à dimensão mais longa da tira. Em geral, a largura da porção retangular ou tira será constante ao longo de seu comprimento total. Múltiplos faixas de um objeto podem ser paralelas umas às outras. Múltiplas faixas de um objeto podem ser adjacentes umas às outras, sobrepostas umas com as outras, em contiguidade entre si, ou separadas umas das outras por uma área intersticial.

[00623] Como usado na pressente invenção, o termo "variância" se destina a significar uma diferença entre o que é esperado e o que é observado ou uma diferença entre duas ou mais observações. Por exemplo, a variância pode ser a discrepância entre um valor esperado e um valor medido. A variância pode ser representada com o uso de funções estatísticas como desvio padrão, o quadrado do desvio padrão, coeficiente de variação ou similares.

[00624] Como usado na pressente invenção, o termo "coordenadas xy" se destina a significar informações que especificam localização, tamanho, formato, e/ou orientação em um plano xy. As informações podem ser, por exemplo, coordenadas numéricas em um sistema cartesiano. As coordenadas podem ser fornecidas em relação a um ou ambos os eixos x e y ou podem ser fornecidas em relação a outro local no plano xy. Por exemplo, as coordenadas de um analito de um objeto podem especificar o local do analito em relação ao local de uma fiducial ou outro analito do objeto.

[00625] Como usado na pressente invenção, o termo "plano xy" se destina a significar uma área bidimensional definida pelos eixos de linha reta x e y. Quando usada em referência a um detector e a um objeto observado pelo detector, a área pode ser ainda especificada como sendo ortogonal à direção de observação entre o detector e o objeto sendo detectado.

[00626] Como usado na pressente invenção, o termo "coordena z" se destina a significar informações que especificam a localização de um ponto, linha ou área ao longo de um dos eixos que é ortogonal a um plano xy. Em implementações específicas, o eixo z é ortogonal a uma área de um objeto que é observado por um detector. Por exemplo, a direção de foco para um sistema óptico pode ser especificada ao longo do eixo z.

[00627] Em algumas implementações, dados de sinal capturados são transformados com o uso de uma transformação afim. Em algumas dessas implementações, a geração do gabarito usa o fato de que as transformações afim entre os canais coloridos são consistentes entre execuções. Devido a essa consistência, um conjunto de deslocamentos de padrão pode ser usado para determinar as coordenadas dos analitos em um espécime. Por exemplo, um arquivo padrão de deslocamentos pode conter a transformação relativa (deslocamento, escala, inclinação) para os diferentes canais em relação a um canal, como o canal A. Em outras implementações, entretanto, os deslocamentos entre canais de cor se deslocam durante uma operação e/ou entre as operações, tornando difícil a geração de gabarito acionado por deslocamento. Em tais implementações, os métodos e sistemas aqui fornecidos podem usar geração de gabarito menos compensada, que é descrita adicionalmente abaixo.

[00628] Em alguns aspectos das implementações acima, o sistema pode compreender uma célula de fluxo. Em alguns aspectos, a célula de fluxo compreende canaletas, ou outras configurações, de ladrilhos, sendo que ao menos alguns dos ladrilhos compreendem uma ou mais matrizes de analitos. Em alguns aspectos, os analitos compreendem uma pluralidade de moléculas como ácidos nucleicos. Em certos aspectos, a célula de fluxo é configurada para liberar um nucleotídeo marcado para uma base de conjunto de ácidos nucleicos, assim estender um iniciador hibridizado para um ácido nucleico dentro de um analito de modo a produzir um sinal que corresponde a um analito que compreende o ácido nucleico. Em implementações preferenciais, os ácidos nucleicos dentro de um analito são idênticos ou substancialmente idênticos entre si.

[00629] Em alguns dos sistemas para a análise de imagens aqui descritas, cada imagem no conjunto de imagens inclui sinais de cor, sendo que uma cor diferente corresponde a uma base de nucleotídeos diferentes. Em alguns aspectos, cada imagem do conjunto de imagens compreende sinais que têm uma única cor selecionada dentre ao menos quatro cores diferentes. Em alguns aspectos, cada imagem no conjunto de imagens compreende sinais que têm uma única cor selecionada dentre quatro cores diferentes. Em alguns dos sistemas aqui descritos, ácidos nucleicos podem ser sequenciados pelo fornecimento de quatro diferentes bases de nucleotídeos marcados ao arranjo de moléculas de modo a produzir quatro imagens diferentes, cada imagem compreende sinais que têm uma única cor, sendo que a cor do sinal é diferente para cada uma das quatro imagens, produzindo assim um ciclo de quatro imagens coloridas que corresponde aos quatro nucleotídeos possíveis presentes em uma posição específica no ácido nucleico. Em determinados aspectos, o sistema compreende uma célula de fluxo que é configurada para fornecer as bases de nucleotídeo identificadas adicionais ao arranjo de moléculas, produzindo assim uma pluralidade de ciclos de imagens coloridas.

[00630] Em implementações preferenciais, os métodos aqui fornecidos podem incluir determinar se um processador está ativamente adquirindo dados ou se o processador está em um estado de baixa atividade. Capturar e armazenar um grande número de imagens de alta qualidade tipicamente exige enormes quantidades de capacidade de armazenamento. Adicionalmente, uma vez adquirida e armazenada, a análise dos dados de imagem pode se tornar um recurso intensivo e pode interferir com a capacidade de processamento de outras funções, como a permanente e o armazenamento de dados de imagem adicionais. Consequentemente, como usado na presente invenção, o termo baixo estado de atividade se refere à capacidade de processamento de um processador em um dado momento. Em algumas implementações, um baixo estado de atividade ocorre quando um processador não está adquirindo e/ou armazenando dados. Em algumas implementações, um estado de atividade baixo ocorre quando alguma aquisição e/ou armazenamento de dados ocorre, mas a capacidade de processamento adicional permanece de modo que a análise das imagens pode ocorrer ao mesmo tempo sem interferir com outras funções.

[00631] Como usado na presente invenção, "identificar um conflito" se refere a identificar uma situação em que múltiplos processos competem por recursos. Em algumas dessas implementações, um processo é dado prioridade sobre outro processo. Em algumas implementações, um conflito pode estar relacionado à necessidade de dar prioridade para alocação de tempo, capacidade de processamento,

capacidade de armazenamento ou qualquer outro recurso para o qual é dado prioridade. Dessa forma, em algumas implementações, onde o tempo de processamento ou capacidade é para ser distribuído entre dois processos como a análise de um conjunto de dados e aquisição e/ou armazenamento d conjunto de dados, um conflito entre os dois processos existe e pode ser resolvido dando prioridade a um dos processos.

[00632] Também são aqui fornecidos sistemas para realizar a análise de imagens. Os sistemas podem incluir um processador; uma capacidade de armazenamento; e um programa para análise de imagens, o programa compreendendo instruções para processar um primeiro conjunto de dados para armazenamento e o segundo conjunto de dados para análise, sendo que o processamento compreende capturar e/ou armazenar o primeiro conjunto de dados no dispositivo de armazenamento e analisar o segundo conjunto de dados quando o processador não está adquirindo o primeiro conjunto de dados. Em determinados aspectos, o programa inclui instruções para identificar ao menos uma ocorrência de um conflito entre a aquisição e/ou o armazenamento do primeiro conjunto de dados e a análise do segundo conjunto de dados; e resolver o conflito em favor de capturar e/ou armazenar dados de imagem de modo que capturar e/ou armazenar o primeiro conjunto de dados é dada prioridade. Em determinados aspectos, o primeiro conjunto de dados compreende arquivos de imagem obtidos a partir de um dispositivo de imageamento óptico. Em determinados aspectos, o sistema compreende adicionalmente um dispositivo de imageamento óptico. Em alguns aspectos, o dispositivo de imageamento óptico compreende uma fonte de luz e um dispositivo de detecção.

[00633] Como usado na pressente invenção, o termo "programa" se refere a instruções ou comandos para realizar uma tarefa ou processo. O termo "programa" pode ser usado de maneira intercambiável com o termo módulo. Em certas implementações, um programa pode ser uma compilação de várias instruções executadas sob o mesmo conjunto de comandos. Em outras implementações, um programa pode se referir a um lote ou arquivo distinto.

[00634] Apresentados abaixo são alguns dos efeitos surpreendentes de se usar os métodos e sistemas para executar a análise de imagens apresentadas na presente invenção. Em algumas implementações de sequenciamento, uma medida importante da utilidade do sistema de sequenciamento é sua eficiência geral. Por exemplo, a quantidade de dados produzidos por dia mapeável o custo total da instalação e a execução do instrumento são aspectos importantes de uma solução econômica de sequenciamento. Para reduzir o tempo necessário para gerar dados mapeáveis e para aumentar a eficiência do sistema, a chamada de base em tempo real pode ser habilitada em um instrumento computador e pode funcionar em paralelo com a química de sequenciamento e o imageamento. Isso permite que a maior parte do processamento de dados e análise seja completada antes da química de sequenciamento terminar. Adicionalmente, isso pode reduzir o armazenamento necessário para dados intermediários e limitar a quantidade de dados que precisam se deslocar ao longo da rede.

[00635] Embora a saída da sequência tenha aumentado, os dados por corrida transferidos dos sistemas aqui fornecidos para a rede e para o hardware de processamento da análise secundária diminuíram substancialmente. Pela transformação de dados no instrumento computador (computador de aquisição), as cargas de rede são drasticamente reduzidas. Sem estas técnicas de redução de dados no instrumento, fora da rede, as saídas de imagem de um grupo de instrumentos de sequenciamento de DNA iriam inviabilizar a maioria das redes inviáveis.

[00636] A adoção generalizada dos instrumentos de sequenciamento de DNA de alta velocidade foi conduzida em parte pela facilidade de uso, suporte para uma faixa de aplicações e adequação para virtualmente qualquer ambiente de laboratório. Os algoritmos altamente eficientes aqui apresentados permitem que uma funcionalidade de análise significativa seja adicionada a uma estação de trabalho simples que pode controlar instrumentos de sequenciamento. Esta redução nos requisitos para o hardware computacional tem vários benefícios práticos que se tornarão ainda mais importantes à medida que os níveis de saída de sequenciamento continuam a aumentar. Por exemplo, na execução da análise de imagens e do chamado de base em uma torre simples, a produção de calor, a pegada de laboratório, e o consumo de energia são mantidos em um mínimo. Em contraste, outras tecnologias de sequenciamento comercial recentemente aumentaram sua infraestrutura de computação para análise primária, com até cinco vezes mais poder de processamento, levando a aumentos comensuráveis em saída de calor e consumo de energia. Dessa forma, em algumas implementações, a eficiência computacional dos métodos e sistemas aqui fornecidos permite aos clientes aumentar a sua velocidade de sequenciamento mantendo despesas de hardware do servidor em um mínimo.

[00637] Consequentemente, em algumas implementações, os métodos e/ou sistemas apresentados na presente invenção agem como uma máquina de estado, mantêm o controle do estado individual de cada espécime, e quando ele detecta que um espécime está pronto para avançar para o próximo estado, ele faz o processamento adequado e avança o espécime para esse estado. Um exemplo mais detalhado de como a máquina de estado monitora um sistema de arquivos para determinar quando um espécime está pronto para avançar para o próximo estado de acordo com uma implementação preferencial é apresentado no Exemplo 1 abaixo.

[00638] Em implementações preferenciais, os métodos e sistemas aqui fornecidos são múltiplos threads podem trabalhar com um número configurável de threads. Dessa forma, por exemplo no contexto de sequenciamento de ácido nucleico, os métodos e sistemas aqui fornecidos são capazes de trabalhar no fundo durante uma corrida ao vivo para sequenciamento de análise de tempo real, ou pode ser executado com o uso de um conjunto de dados de imagem pré-existentes para análise fora de linha. Em certas implementações preferenciais, os métodos e sistemas gerenciam múltiplos threads dando a cada thread seu próprio subconjunto de espécime para o qual ele é responsável. Isso minimiza a possibilidade de contenção de threads.

[00639] Um método da presente revelação pode incluir uma etapa de obtenção de uma imagem alvo de um objeto com o uso de um aparelho de detecção, sendo que a imagem inclui um padrão de repetição de analitos no objeto. Os aparelhos de detecção que são capazes de imageamento de alta resolução de superfícies são particularmente úteis. Em implementações específicas, o aparelho de detecção terá resolução suficiente para distinguir analitos nas densidades, passos, e/ou tamanhos apresentados na presente invenção. Particularmente úteis são os aparelhos de detecção capazes de obter imagens ou dados de imagem a partir de superfícies. Exemplo de detectores são aqueles que são configurados para manter um objeto e o detector em uma relação estática enquanto obtém uma área imagem. Um aparelho de varredura pode também ser usado. Por exemplo, um aparelho que obtém imagens sequenciais de área (por exemplo, os chamados detetores "step and shoot") pode ser usado. Também úteis são os dispositivos que varrem continuamente um ponto ou linha sobre a superfície de um objeto para acumular dados para construir uma imagem da superfície. Os detectores de varredura de ponto podem ser configurados para varrer um ponto (isto é, uma pequena área de detecção) sobre a superfície de um objeto através de um movimento de raster no plano x-y da superfície. Os detectores de varredura de linha podem ser configurados para varrer uma linha ao longo da dimensão y da superfície de um objeto, a dimensão mais longa da linha ocorrendo ao longo da dimensão x. Será entendido que o dispositivo de detecção, objeto ou ambos podem ser movidos para alcançar a detecção de varredura. Os aparelhos de detecção que são particularmente úteis, por exemplo, em aplicações de sequenciamento de ácidos nucleicos, são descritos nas publicações de pedido de patente US n°s 2012/0270305 A1; 2013/0023422 A1; 2013/0260372 A1; e nas patentes US n°s 5.528.050;

5.719.391; 8.158.926 e 8.241.573, cada um dos quais está aqui incorporado por referência.

[00640] As implementações aqui reveladas podem ser implementadas como um método, aparelho, sistema ou artigo de fabricação com o uso de técnicas de programação ou engenharia para produzir software, firmware, hardware ou qualquer combinação dos mesmos. O termo "artigo de manufatura" como usado aqui se refere a código ou lógica implementados em hardware ou mídias legíveis por computador como dispositivos de armazenamento óptico, e dispositivos de memória volátil ou não volátil. Tal hardware pode incluir, mas não se limita a, matrizes de portas programáveis em campo (FPGAs), arquiteturas reconfiguráveis de grade grossa (CGRAs), circuitos integrados específicos de aplicação (CPLDs), dispositivos lógicos programáveis complexos (CPLDs), matrizes lógicas programáveis (PLAs), microprocessadores ou outros dispositivos de processamento similares. Em implementações específicas, as informações ou algoritmos aqui apresentados estão presentes em uma mídia de armazenamento não transitório.

[00641] Em implementações específicas, um método implementado por computador aqui apresentado pode ocorrer em tempo real enquanto múltiplas imagens de um objeto estão sendo obtidas. Tais análises em tempo real são particularmente úteis para aplicações de sequenciamento de ácidos nucleicos em que uma matriz de ácidos nucleicos é submetida a ciclos repetidos de etapas fluídicas e de detecção. A análise dos dados de sequenciamento pode frequentemente ser computacionalmente intensiva de modo que ela pode ser benéfica para executar os métodos apresentados na presente invenção em tempo real ou no fundo enquanto outros algoritmos de análise ou captura de dados estão em processo. Exemplo de análise em tempo real de métodos que podem ser usados com os presentes métodos são aqueles usados para os dispositivos de sequenciamento MiSeq HiSeq comercialmente disponíveis junto à Illumina, Inc. (San Diego, Califórnia, EUA.) e/ou descritos na publicação de pedido de patente US n° 2012/0020537 A1, que está aqui incorporado a título de referência.

[00642] Um sistema de análise de dados exemplificador, formado por um ou mais computadores programados, com programação sendo armazenados em uma ou mais mídias legíveis por máquina com código executado para executar uma ou mais etapas de métodos aqui descritos. Em uma implementação, por exemplo, o sistema inclui uma interface projetada para permitir a rede do sistema a um ou mais sistemas de detecção (por exemplo, sistemas de imageamento óptico) que são configurados para capturar dados de objetos-alvo. A interface pode receber e condicionar dados, quando adequado. Em implementações específicas, o sistema de detecção emitirá dados de imagem digital, por exemplo, dados de imagem que são representativos de elementos ou pixels de figuras individuais, juntos, formam uma imagem de uma matriz ou outro objeto. Um processador processa os dados de detecção recebidos de acordo com uma ou mais rotinas definidas pelo código de processamento. O código de processamento pode ser armazenado em vários tipos de circuitos de memória.

[00643] De acordo com as implementações atualmente contempladas, o código de processamento executado sobre os dados de detecção inclui uma rotina de análise de dados projetados para analisar os dados de detecção para determinar as localizações e metadados de analitos individuais visíveis ou codificados nos dados, bem como locais nos quais nenhuma analito é detectado (isto é, onde não existe qualquer analito, ou onde nenhum sinal significativo foi detectado a partir de um analito existentes). Em implementações específicas, as localizações do analito em uma matriz irão parecer mais brilhantes que as localizações não de analito devido à presença de corantes fluorescentes fixados aos analitos imageados. Será entendido que os analitos não precisam aparecer mais brilhantes que sua área circundante, por exemplo, quando um alvo para a sonda no analito não está presente em uma matriz sendo detectada. A cor na qual os analitos individuais aparecem pode ser uma função do corante empregado, bem como do comprimento de onda da luz usada pelo sistema de imageamento para propósitos de imageamento. Os analitos aos quais os alvos não estão ligados ou que são de modo desprovidos de um determinado rótulo podem ser identificados de acordo com outras características, como a sua localização esperada no microarranjo.

[00644] Uma vez que a rotina de análise de dados localizou analitos individuais nos dados, uma atribuição de valor pode ser executada. Em geral, a atribuição de valor irá atribuir um valor digital para cada analito com base nas características dos dados representados pelos componentes do detector (por exemplo, os pixels) no local correspondente. Isto é, por exemplo, quando os dados de imageamento são processados, a rotina de atribuição de valor pode ser projetada para reconhecer que uma cor ou um comprimento de onda de luz específico foi detectado em um local específico, conforme indicado por um grupo ou agrupamento de pixels no local. Em uma aplicação de imageamento de DNA típica, por exemplo, os quatro nucleotídeos comum serão representados por quatro cores distinguíveis e separadas. Cada cor, então, pode ser atribuída a um valor correspondente àquele nucleotídeo.

[00645] Como usado aqui, os termos "módulo", "sistema" ou "controlador de sistema" podem incluir um sistema de hardware e/ou software e um circuito que opera para executar uma ou mais funções. Por exemplo, um módulo, sistema ou controlador de sistema pode incluir um processador de computador, controlador ou outro dispositivo baseado em lógica que realiza operações com base nas instruções armazenadas em uma mídia de armazenamento legível por computador tangível e não transitória, como uma memória de computador. Alternativamente, um módulo, sistema, ou controlador de sistema pode incluir um dispositivo com fio que realiza operações com base na lógica e circuitos com fio. O módulo, sistema, ou controlador de sistema mostrado nas figuras em anexo pode representar o hardware e um circuito que opera com base em software ou instruções programadas, o software que direciona um hardware para executar as operações, ou uma combinação dos mesmos. O módulo, sistema, ou controlador de sistema pode incluir circuitos de hardware ou circuitos ou representar e/ou que incluem são conectados com um ou mais processadores, como um computador ou microprocessadores.

[00646] Como usado aqui, os termos "software" e "firmware" são intercambiáveis, e incluem qualquer programa de computador armazenado na memória para execução por um computador, incluindo memória RAM, memória ROM, memória EPROM, memória EEPROM e memória RAM não volátil (NVRAM). Os tipos de memória acima são apenas exemplos, e não são limitadores quanto aos tipos de memória usáveis para armazenamento de um programa de computador.

[00647] No campo da biologia molecular, um dos processos para sequenciamento de ácido nucleico em uso é o sequenciamento por síntese. A técnica pode ser aplicada a projetos de sequenciamento massivamente paralelos. Por exemplo, mediante o uso de uma plataforma automatizada, é possível realizar centenas de milhares de reações de sequenciamento simultaneamente. Dessa forma, uma das implementações da presente invenção se refere a instrumentos e métodos para adquirir, armazenar, e análise de dados de imagem gerados durante o sequenciamento de ácido nucleico.

[00648] Ganhos enormes na quantidade de dados que podem ser capturados e armazenados torna os métodos simplificados de análise de imagens ainda mais benéficos. Por exemplo, os métodos para análise de imagens descritos na presente invenção permitem que os designers e os usuários finais façam uso eficiente dos hardwares de computador existentes. Consequentemente, são apresentados aqui métodos e sistemas que reduzem a carga computacional de processar dados em face de aumentar rapidamente saída de dados. Por exemplo, no campo do sequenciamento de DNA, os rendimentos aumentaram 15 vezes ao longo de um ano recente, e agora podem alcançar centenas de gigabases em uma única operação de um dispositivo de sequenciamento de DNA. Se os requisitos de infraestrutura computacional cresceram proporcionalmente, experimentos com genoma em grande escala permaneceriam fora de alcance para a maioria dos pesquisadores. Dessa forma, a geração de mais dados brutos de sequência aumentará a necessidade de análise secundária e armazenamento de dados, tornando a otimização do transporte e armazenamento de dados extremamente valiosa. Algumas implementações dos métodos e sistemas aqui apresentados podem reduzir o tempo, hardware, rede e requisitos de infraestrutura de laboratório necessários para produzir dados de sequência utilizáveis.

[00649] A presente revelação descreve vários métodos e sistemas para executar os métodos. Exemplos de alguns dos métodos são descritos como uma série de etapas. Entretanto, deve ser entendido que as implementações não são limitadas às etapas específicas e/ou ordem das etapas aqui descritas. As etapas podem ser omitidas, etapas podem ser modificada, e/ou outras etapas podem ser adicionadas. Além disso, as etapas aqui descritas podem ser combinadas, as etapas podem ser realizadas simultaneamente, as etapas podem ser realizadas ao mesmo tempo, as etapas podem ser divididas em múltiplas subetapas, as etapas podem ser realizadas em uma ordem diferente, ou as etapas (ou uma série de etapas) podem ser novamente realizadas em um modo iterativo. Além disso, embora diferentes métodos sejam apresentados na presente invenção, deve ser entendido que os diferentes métodos (ou etapas dos métodos diferentes) podem ser combinados de outras implementações.

[00650] Em algumas implementações, uma unidade de processamento, processador, módulo, ou sistema de computação que é

"configurado para" executar uma tarefa ou operação pode ser compreendido como sendo particularmente estruturado para executar a tarefa ou operação (por exemplo, tendo um ou mais programas ou instruções armazenadas no mesmo ou usado em conjunto com o mesmo adaptado ou destinado a executar a tarefa ou operação, e/ou que tem uma disposição de circuitos de processamento ajustado ou destinado a executar a tarefa ou operação). Para os propósitos de clareza e evitar dúvidas, um computador de propósito geral (que pode se tornar "configurado para" executar a tarefa ou operação se devidamente programado) não é "configurado para" executar uma tarefa ou operação salvo se especificamente programado ou estruturalmente modificado para executar a tarefa ou operação.

[00651] Além disso, as operações dos métodos descritos na presente invenção podem ser suficientemente complexas de modo que as operações não podem ser realizadas mentalmente por um ser humano médio ou a uma pessoa de habilidade comum na técnica dentro de um período de tempo comercialmente razoável. Por exemplo, os métodos podem contar com computações relativamente complexas de modo que tal pessoa não possa completar os métodos dentro de um período comercialmente razoável.

[00652] Ao longo deste pedido, várias publicações, patentes ou pedidos de patente foram referenciadas. As revelações dessas publicações em suas totalidades estão aqui incorporadas a título de referência para descrever mais completamente o estado da técnica ao qual esta invenção pertence.

[00653] O termo "compreendendo" pretende significar na presente invenção ilimitado, incluindo não apenas os elementos mencionados, mas ainda abrangendo quaisquer elementos adicionais.

[00654] Como usado na pressente invenção, o termo "cada", quando usado em referência a uma coleção de itens, se destina a identificar um item individual na coleção mas não se refere necessariamente a cada item na coleção. Exceções podem ocorrer se explícita revelação ou contexto claramente determine de outro modo.

[00655] Embora a invenção tenha sido descrita com referência aos exemplos apresentados acima, deve ser entendido que várias modificações podem ser feitas sem que se afaste da invenção.

[00656] Os módulos constantes do presente pedido podem ser implementados em hardware ou software, e não precisam ser divididos em precisamente os mesmos blocos conforme mostrado nas figuras. Alguns podem também ser implementados em diferentes processadores ou computadores, ou disseminados entre inúmeros processadores ou computadores diferentes. Além disso, será entendido que alguns dos módulos podem ser combinados, operados em paralelo ou em uma sequência diferente daquela mostrada nas figuras sem afetar as funções alcançadas. Também como usado aqui, o termo "módulo" pode incluir "submódulos", que podem ser considerados na presente invenção para constituir módulos. Os blocos nas figuras designados como módulos podem também ser considerados como etapas de fluxograma em um método.

[00657] Como usado aqui, a "identificação" de um item de informação não exige necessariamente a especificação direta daquele de informações. As informações podem ser "identificadas" em um campo por simples referência às informações reais através de uma ou mais camadas de indireção, ou mediante a identificação de um ou mais itens de informações diferentes que estão juntos o suficiente para determinar o item real de informação. Além disso, o termo "especificar" é usado na presente invenção para significar o mesmo que "identificar".

[00658] Como usado na pressente invenção, um dado sinal, evento ou valor está "em dependência de" um sinal, evento ou valor anterior do sinal, evento ou valor anterior influenciado pelo dado sinal, evento ou valor. Se houver um elemento, etapa ou período de tempo de processamento interveniente, o dado sinal, evento ou valor ainda pode estar "dependente" do sinal, evento ou valor predecessor. Se o elemento ou etapa de processamento interveniente combina mais do que um sinal, evento ou valor, a saída de sinal do elemento ou etapa de processamento é considerada "em dependência de" cada sinal, evento ou entradas de valor. Se o dado sinal, evento ou valor é o mesmo que o sinal, evento ou valor anterior, isso é meramente um caso degenerado em que o dado sinal, evento ou valor ainda é considerado como estando "na dependência" ou "dependente" ou "com base em" o sinal, evento ou valor anterior. A "responsividade" de um dado sinal, evento ou valor sobre outro sinal, evento ou valor é definida de modo similar.

[00659] Como usado na pressente invenção, "simultaneamente" ou "em paralelo" não exige simultaneidade exata. É suficiente que a avaliação de um dos indivíduos comece antes da avaliação de outro dos indivíduos se completar. Sistema de computador

[00660] A Figura 65 é um sistema de computador 6500 que pode ser usado pelo sistema de sequenciamento 800A para implementar a tecnologia revelada na presente invenção. O sistema de computador 6500 inclui ao menos uma unidade de processamento central (CPU) 6572 que se comunica com vários dispositivos periféricos através do subsistema de barramento 6555. Estes dispositivos periféricos podem incluir um subsistema de armazenamento 6510 incluindo, por exemplo, dispositivos de memória e um subsistema de armazenamento de arquivo 6536, dispositivos de entrada de interface de usuário 6538, dispositivos de saída de interface de usuário 6576, e um subsistema de interface de rede 6574. Os dispositivos de entrada e saída permitem interação de usuário com o sistema de computador 6500. O subsistema de interface de rede 6574 fornece uma interface a redes externas, incluindo uma interface a dispositivos de interface correspondentes em outros sistemas de computador.

[00661] Em uma implementação, o controlador de sistema 7806 está comunicavelmente ligado ao subsistema de armazenamento 6510 e aos dispositivos de entrada de interface de usuário 6538.

[00662] Os dispositivos de entrada de interface de usuário 6538 podem incluir um teclado; dispositivos apontadores como um mouse, trackball, touchpad ou tablet gráfico; um scanner; uma tela sensível ao toque incorporada no visor; dispositivos de entrada de áudio como sistemas de reconhecimento de voz e microfones; e outros tipos de dispositivos de entrada. Em geral, o uso do termo "dispositivo de entrada" se destina a incluir todos os tipos possíveis de dispositivos e maneiras de inserir informações no sistema de computador 6500.

[00663] Os dispositivos de saída de interface de usuário 6576 podem incluir um subsistema de exibição, uma impressora, uma máquina de fax ou telas não visuais como dispositivos de saída de áudio. O subsistema de exibição pode incluir uma tela LED, um tubo de raios catódicos (CRT), um dispositivo de painel plano como uma tela de cristal líquido (LCD), um dispositivo de projeção ou algum outro mecanismo para criar uma imagem visível. O subsistema de exibição pode também fornecer uma exibição não visual, como dispositivos de saída de áudio. Em geral, o uso do termo "dispositivo de saída" se destina a incluir todos os tipos possíveis de dispositivos e maneiras de emitir informações a partir do sistema de computar 6500 para o usuário ou para outra máquina ou sistema de computador.

[00664] O subsistema de armazenamento 6510 armazena construtos de programação e dados que fornecem a funcionalidade de alguns ou todos dentre os módulos e métodos descritos na presente invenção. Esses módulos de software são geralmente executados por processadores de aprendizado profundo 6578.

[00665] Os processadores de aprendizado profundo 6578 podem ser unidades de processamento gráfico (GPUs), matrizes de porta programáveis em campo (FPGAs), circuitos integrados de aplicação específica (ASICs) e/ou arquiteturas reconfiguráveis de grão grosso (CGRAs). Os processadores de aprendizado profundo 6578 podem ser hospedados por uma plataforma em nuvem de aprendizado profundo como Google Cloud Platform™, Xilinx™ e Cirrascale™. Exemplos de processadores de aprendizado profundo 6578 incluem Tensor Processing Unit (TPU)™ da Google, rackmount solutions como GX4 Rackmount Series™, GX65 Rackmount Series™, NVIDIA DGX-1™, Stratix V FPGA™ da Microsoft, Intelligent Processor Unit (IPU)™ da Graphcore, Zeroth Platform™ da Qualcomm com processadores Snapdragon™, Volta™ da NVIDIA, DRIVE PX™ da NVIDIA, JETSON TX1/TX2 MODULE™ da NVIDIA, Nirvana™ da Intel, Movidius VPU™, Fujitsu DPI™, DynamicIQ™ da ARM, IBM TrueNorth™, Lambda GPU Server com Testa V100s™ e outros.

[00666] O subsistema de memória 6522 usado no subsistema de armazenamento 6510 pode incluir uma série de memórias incluindo memória de acesso aleatório ("RAM" - random access memory) principal 6532 para armazenamento de instruções e dados durante a execução do programa e uma memória somente de leitura ("ROM" - read only memory) 6534 na qual instruções fixas são armazenadas. Um subsistema de armazenamento de arquivo 6536 pode fornecer armazenamento persistente para arquivos de programa e dados, e pode incluir uma unidade de disco rígido, uma unidade de disquete juntamente com mídias removíveis associadas, uma unidade de CD-ROM, uma unidade óptica, ou cartuchos de mídias removíveis. Os módulos de implementação da funcionalidade de certas implementações podem ser armazenados pelo subsistema de armazenamento de arquivo 6536 no subsistema de armazenamento 6510, ou em outras máquinas acessíveis pelo processador.

[00667] O subsistema de barramento 6555 fornece um mecanismo para permitir que os vários componentes e subsistemas do sistema de computador 6500 se comuniquem entre si como pretendido.

Embora o subsistema de barramento 6555 seja mostrado esquematicamente como um único barramento, implementações alternativas do subsistema de barramento podem usar múltiplos barramentos.

[00668] O próprio sistema de computador 6500 pode ser de tipos variados, incluindo um computador pessoal, um computador portátil, uma estação de trabalho, um terminal de computador, um computador de rede, uma televisão, um mainframe, um farm de servidores, um conjunto amplamente distribuído de computadores com rede frouxa, ou qualquer outro sistema de processamento de dados ou dispositivo de usuário. Devido à natureza em constante mudança de computadores e redes, a descrição do sistema de computador 6500 retratado na Figura 65 é destinada apenas como um exemplo específico para os propósitos de ilustrar as implementações preferenciais da presente invenção. Muitas outras configurações de sistema de computador 6500 são possíveis tendo mais ou menos componentes do que o sistema de computador representado na Figura 65. Implementações específicas

[00669] Descrevemos várias implementações de gerador de gabarito baseado em rede neural e chamada de base baseado em rede neural. Um ou mais recursos de uma implementação podem ser combinados com a implementação de base. Implementações que não são mutuamente exclusivas são ensinadas a serem combináveis. Um ou mais recursos de uma implementação podem ser combinados com outras implementações. Esta revelação periodicamente relembra o usuário dessas opções. A omissão de algumas implementações de menções que repetem estas opções não deve ser tomada como limitadora das combinações ensinadas nas seções anteriores - estas menções são aqui incorporadas a título de referência na frente de cada uma das seguintes implementações.

Chamada de base - Canal de distância de analito único

[00670] É aqui revelado um método implementado por rede neural de analitos de chamada de base sintetizados em um ladrilho de uma célula de fluxo durante uma execução de sequenciamento, em que a execução de sequenciamento tem a pluralidade de ciclos de sequenciamento, em que cada um dentre a pluralidade de ciclos de sequenciamento gera um conjunto de imagens com uma ou mais imagens, e cada uma das imagens representa as emissões de intensidade dos analitos e seus planos de fundo circundantes em um respectivo dentre um ou mais canais de imagem. O método inclui processamento de conjuntos de imagens iniciais respectivamente geradas nos iniciais da pluralidade de ciclos de sequenciamento através de um gerador de gabarito para identificar os centros de referência dos analitos em uma imagem de gabarito. O método inclui o acesso as uma ou mais imagens em cada um dentre um conjunto de imagens atual gerado em um atual dentre uma pluralidade de ciclos de sequenciamento, de um ou mais conjuntos de imagens anteriores, gerados respectivamente em um ou mais dentre a pluralidade de ciclos de sequenciamento anteriores ao atual dentre a pluralidade de ciclos de sequenciamento, e de um ou mais conjuntos de imagens sucessores, gerados respectivamente em um ou mais dentre a pluralidade de ciclos de sequenciamento sucedendo o atual dentre a pluralidade de ciclos de sequenciamento. O método inclui registrar cada uma das imagens nos conjuntos de imagens atual, anterior e sucesso com a imagem de gabarito para determinar transformações específicas do ciclo e específicas do canal de imagem. O método inclui aplicar as transformações aos centros de referência dos analitos para identificar centros transformados dos analitos em cada uma das imagens. O método inclui um específico dentre os analitos receber chamada de base, extrair um fragmento de imagem a partir de cada uma das imagens nos conjuntos de imagens atual, anterior, sucessor, de modo que cada fragmento de imagem contenha em seu pixel central um centro transformado do específico dentre os analitos identificado em uma respectiva dentre as imagens, e representa as emissões de intensidade do específico dentre os analitos, de alguns adjacentes dentre os analitos, e do seu plano de fundo circundante em um correspondente dentre os canais de imagem. O método inclui, para cada fragmento de imagem, gerar as informações de distância que identificam as distâncias de seus centros de pixels do centro transformado do específico dentre os analitos contidos em seu pixel central. O método inclui a construção de dados de entrada por codificação em pixel das informações de distância em cada fragmento de imagem. O método inclui convoluir os dados de entrada através de uma rede neural convolucional, a fim de gerar uma representação convoluída dos dados de entrada. O método inclui o processamento da representação convolvida através de uma camada de saída para produzir semelhanças de uma base incorporada no específico dentre os analitos no atual da pluralidade de ciclos de sequenciamento sendo A, C, T e G. O método inclui classificar a base como A, C, T ou G com base nas semelhanças.

[00671] Cada uma das características discutidas na seção da implementação específica para outras implementações se aplica igualmente a esta implementação. Conforme indicado acima, todas as outras características não são repetidas aqui e devem ser consideradas repetidas a título de referência. O leitor entenderá como os recursos identificados nessas implementações podem ser prontamente combinados com conjuntos de características de base identificadas em outras implementações.

[00672] Em uma implementação, o método inclui, para cada fragmento de imagem, gerar informações de atribuição de analito que identificam quais de seus pixels cobrem o específico dentre os analitos e quais dos seus pixels não o fazem, e construir os dados de entrada por codificação em pixel das informações de atribuição de analito para cada fragmento de imagem. Em uma implementação, os pixels que cobrem o analito específico dos analitos recebem um valor diferente de zero nas informações de atribuição de analito. Em uma implementação, os pixels que não cobrem o analito específico dentre os analitos são atribuídos um valor zero nas informações de atribuição de analito. Em uma implementação, o método inclui fornecer, como entrada para a rede neural convolucional, coordenadas de posição dos centros transformados dos analitos. Em uma de tal implementação, a entrada é fornecida a uma primeira camada da rede neural convolucional. Em outra de tal implementação, a entrada é fornecida as uma ou mais camadas intermediárias da rede neural convolucional. Ainda em outra de tal implementação, a entrada é fornecida a uma camada final da rede neural convolucional. Em uma implementação, o método inclui fornecer, como entrada à rede neural convolucional, um canal de alteração de escala de intensidade que tem valores de alteração de escala correspondentes aos pixels do fragmento de imagem. Em tal implementação, os valores de alteração de escala são baseados em uma intensidade média do pixel central do fragmento de imagem contendo o centro do analito específico dentre os analitos. Em uma implementação, a alteração de escala de intensidade em canal de pixel inclui um mesmo valor de alteração de escala para todos os pixels do fragmento de imagem. Em uma implementação, a intensidade média do pixel central é determinada para cada um dos correspondentes dentre os canais de imagem.

[00673] Em uma implementação, a intensidade média do pixel central é determinada para um primeiro canal de imagem pela média de valores de intensidade do pixel central observados durante dois ou mais ciclos de sequenciamento anteriores que produziram uma chamada de base A e uma T para o analito específico dentre os analitos. Em uma implementação, a intensidade média do pixel central é determinada para um segundo canal de imagem pela média de valores de intensidade do pixel central observados durante os dois ou mais ciclos de sequenciamento anteriores que produziram uma chamada de base A e uma C para o analito específico dentre os analitos. Em uma implementação, a intensidade média do pixel central é determinada para um primeiro canal de imagem pela média de valores de intensidade do pixel central observados durante dois ou mais ciclos de sequenciamento anteriores que produziram uma chamada de base A para o analito específico dentre os analitos. Em uma implementação, a intensidade média do pixel central é determinada para um segundo canal de imagem pela média de valores de intensidade do pixel central observados durante os dois ou mais ciclos de sequenciamento anteriores que produziram uma chamada de base G para o analito específico dentre os analitos. Em uma implementação, a intensidade média do pixel central é determinada para um terceiro canal de imagem pela média de valores de intensidade do pixel central observados durante os dois ou mais ciclos de sequenciamento anteriores que produziram uma chamada de base T para o analito específico dentre os analitos. Em uma implementação, a intensidade média do pixel central é determinada para um terceiro canal de imagem pela média de valores de intensidade do pixel central observados durante dois ou mais ciclos de sequenciamento anteriores que produziram uma chamada de base C para o analito específico dentre os analitos.

[00674] Em uma implementação, a rodada de sequenciamento implementa de sequenciamento de extremidade pareada que sequencia ambas as extremidades de fragmentos no analitos em uma direção para frente e uma direção reversa com o uso de um primeiro iniciador de leitura e um segundo iniciador de leitura, produzindo, assim, um par para de leituras para cada fragmento, o par de leituras tendo uma leitura para frente e uma leitura reversa. Em uma implementação, ambas as extremidades dos fragmentos são sequenciadas em série para produzir as leituras para frente e para trás, uma após a outra. Em uma implementação, ambas as extremidades dos fragmentos são sequenciadas simultaneamente para produzir as leituras para frente e para trás, simultaneamente. Em uma implementação, cada uma dentre as leituras para frente e para trás contêm um ou mais dos fragmentos. Em uma implementação, os um ou mais dentre os fragmentos são sequenciados em série. Em uma implementação, os um ou mais dentre os fragmentos são sequenciados, simultaneamente. Em uma implementação, a rodada de sequenciamento implementa o sequenciamento de leitura única que sequencia os fragmentos em uma direção com o uso de um iniciador de leitura única. Em uma implementação, a rodada de sequenciamento implementa o sequenciamento circular que sequencia as cópias de fita dupla dos fragmentos em um laço, e o laço realiza iteração sobre uma cópia de fita dupla de um dado fragmento múltiplas vezes. Em uma implementação, a rodada de sequenciamento implementa o sequenciamento empilhado que sequencia cópias empilhadas dos fragmentos, e as cópias empilhadas de um dado fragmento são empilhadas vertical ou horizontalmente. Em uma implementação, o tamanho das faixas de fragmento de imagem varia de pixels de 3 x 3 a pixels de 10.000 x 10.000.

[00675] Em uma implementação, o centro transformado é um valor de coordenada de ponto flutuante. Em tal implementação, o método inclui arredondar o valor de coordenada de ponto flutuante com o uso de uma operação de arredondamento para produzir um valor de coordenada de número inteiro para o centro transformado, e identificar o pixel central com base em uma sobreposição entre suas coordenadas de número inteiro e o valor de coordenada de número inteiro produzido para o centro transformado. Em uma implementação, a operação de arredondamento é ao menos uma dentre a função de piso, função ceil e/ou função de arredondamento. Em uma implementação, a operação de arredondamento é ao menos uma dentre função de números inteiros e/ou função de sinal positivo de número inteiro.

Em uma implementação, o gerador de gabarito é um gerador de gabarito baseado em rede neural. Em uma implantação, a camada de saída é uma camada softmax que é, e as semelhanças são distribuição de pontuação exponencialmente normalizada da base incorporada no analito específico dentre os analitos no atual dentre a pluralidade de ciclos de sequenciamento sendo A, C, T e G.

[00676] Em uma implementação, cada um dos canais de imagem é uma dentre uma pluralidade de bandas de comprimento de onda de filtro. Em outra implementação, cada um dos canais de imagem é um dentre uma pluralidade de eventos de imagem. Em uma implementação, a célula de fluxo tem ao menos uma superfície dotada de um padrão com uma matriz de poços que ocupam os analitos. Em outra implementação, a célula de fluxo tem pelo menos uma superfície não dotada de padrão e os analitos são espalhados não uniformemente sobre a superfície não dotada de padrão. Em uma implementação, o conjunto de imagens tem quatro imagens. Em outra implementação, o conjunto de imagens tem duas imagens. Em ainda outra implementação, o conjunto de imagens tem uma imagem. Em uma implementação, a corrida de sequenciamento utiliza química de quatro canais. Em outra implementação, a corrida de sequenciamento utiliza química de dois canais. Em ainda outra implementação, a corrida de sequenciamento utiliza química de um canal.

[00677] Outras implementações do método descrito nesta seção podem incluir uma mídia de armazenamento não transitório legível por computador que armazena instruções executáveis por um processador para executar qualquer dos métodos descritos acima. Ainda outra implementação do método descrito nesta seção pode incluir um sistema que inclui memória e um ou mais processadores operáveis para executar instruções, armazenadas na memória, para executar qualquer dos métodos descritos acima.

[00678] É aqui revelado um método implementado por rede neural de analitos de chamada de base sintetizados durante uma rodada de sequenciamento. O método inclui convoluir dados de entrada através de uma rede neural convolucional, a fim de gerar uma representação convoluída dos dados de entrada. Os dados de entrada incluem fragmentos de imagem extraídos de uma ou mais imagens em cada um dentre um conjunto de imagens atual gerado em um ciclo de sequenciamento atual da rodada de sequenciamento, dentre um ou mais conjuntos de imagens anteriores respectivamente gerados em um ou mais ciclos de sequenciamento da rodada de sequenciamento anterior ao ciclo de sequenciamento atual, e dentre um ou mais conjuntos de imagens posteriores respectivamente gerados em um ou mais ciclos de sequenciamento da rodada de sequenciamento posterior ao ciclo de sequenciamento atual. Cada um dos fragmentos de imagem representa emissões de intensidade de um analito alvo recebendo chamada de base, de alguns analitos adjacentes, e do seu plano de fundo circundante em um canal de imagem correspondente. Os dados de entrada incluem adicionalmente as informações de distância que são codificadas em pixels em cada um dos fragmentos de imagem para identificar as distâncias dos centros dos pixels de um fragmento de imagem a partir de um centro do analito alvo localizado em um pixel central do fragmento de imagem. O método inclui processar a representação convoluída através de uma camada de saída para produzir uma saída. O método inclui fazer chamadas de base ao analito alvo no ciclo de sequenciamento atual com base na saída.

[00679] Cada uma das características discutidas na seção da implementação específica para outras implementações se aplica igualmente a esta implementação. Conforme indicado acima, todas as outras características não são repetidas aqui e devem ser consideradas repetidas a título de referência. O leitor entenderá como os recursos identificados nessas implementações podem ser prontamente combinados com conjuntos de características de base identificadas em outras implementações.

[00680] Em uma implementação, o método inclui processar a representação convolvida através da camada de saída para produzir semelhanças de uma base incorporada no analito alvo no atual ciclo de sequenciamento atual sendo A, C, T e G, e classificar a base como A, C, T ou G com base nas semelhanças. Em uma implementação, as semelhanças são pontuações exponencialmente normalizadas produzidas por uma camada softmax.

[00681] Em uma implementação, o método inclui a derivação, a partir da saída, de um par de saídas para o analito alvo que identifica um rótulo de classe de uma base incorporada no analito alvo no ciclo de sequenciamento atual sendo A, C, T ou G, e chamada de base do analito alvo com base no rótulo de classe. Em uma implementação, um rótulo de classe de 1, 0 identifica uma base A, um rótulo de classe de 0, 1 identifica uma base C, um rótulo de classe de 1, 1 identifica uma base T, e um rótulo de classe de 0, 0 identifica uma base G. Em outra implementação, um rótulo de classe de 1, 1 identifica uma base A, um rótulo de classe de 0, 1 identifica uma base C, um rótulo de classe de 0,5, 0,5 identifica uma base T, e um rótulo de classe de 0, 0 identifica uma base G. Em ainda outra implementação, um rótulo de classe de 1, 0 identifica uma base A, um rótulo de classe de 0, 1 identifica uma base C, um rótulo de classe de 0,5, 0,5 identifica uma base T, e um rótulo de classe de 0, 0 identifica uma base G. Em ainda uma implementação adicional, um rótulo de classe de 1, 2 identifica uma base A, um rótulo de classe de 0, 1 identifica uma base C, um rótulo de classe de 1, 1 identifica uma base T, e um rótulo de classe de 0, 0 identifica uma base G. Em uma implementação, o método inclui a derivação, a partir da saída, de um rótulo de classe para o analito alvo que identifica uma base incorporada no analito alvo no atual ciclo de sequenciamento sendo A, C, T ou G, e chamada de base do analito alvo com base no rótulo de classe. Em uma implementação, um rótulo de classe de 0,33 identifica uma base A, um rótulo de classe de 0,66 identifica uma base C, um rótulo de classe de 1 identifica uma base T, e um rótulo de classe de 0 identifica uma base G. Em outra implementação, um rótulo de classe de 0,50 identifica uma base A, um rótulo de classe de 0,75 identifica uma base C, um rótulo de classe de 1 identifica uma base T, e um rótulo de classe de 0,25 identifica uma base G. Em uma implementação, o método inclui a derivação, a partir da saída, de um único valor de saída, a comparação do valor de saída único contra as faixas de valor de classe correspondentes às bases A, C, T e G, com base na comparação, a atribuição do valor de saída único para uma faixa de valores de classe específica, e a chamada de base do analito alvo com base na atribuição. Em uma implementação, o único valor de saída é derivado com o uso de uma função sigmoide e o único valor de saída está na faixa de 0 a 1. Em outra implementação, uma faixa de valor de classe de 0 a 0,25 representa uma base A, uma faixa de valor de classe de 0,25 a 0,50 representa um intervalo de valores de base C, uma faixa de valor de classe de 0,50 a 0,75 representa uma base T, e uma faixa de valor de classe de 0,75 a 1 representa uma base G.

[00682] Outras implementações do método descrito nesta seção podem incluir uma mídia de armazenamento não transitório legível por computador que armazena instruções executáveis por um processador para executar qualquer dos métodos descritos acima. Ainda uma outra implementação do método descrito nesta seção pode incluir um sistema que inclui memória e um ou mais processadores operáveis para executar instruções, armazenadas na memória, para executar qualquer dos métodos descritos acima.

[00683] É aqui revelado um método implementado por rede neural de analitos de chamada de base sintetizados em um ladrilho de uma célula de fluxo durante uma execução de sequenciamento, em que a execução de sequenciamento tem a pluralidade de ciclos de sequenciamento, em que cada um dentre a pluralidade de ciclos de sequenciamento gera um conjunto de imagens com uma ou mais imagens, e cada uma das imagens representa as emissões de intensidade dos analitos e seus planos de fundo circundantes em um respectivo dentre um ou mais canais de imagem.

O método inclui processamento de conjuntos de imagens iniciais respectivamente geradas nos iniciais da pluralidade de ciclos de sequenciamento através de um gerador de gabarito para identificar os centros de referência dos analitos em uma imagem de gabarito.

O método inclui o acesso a uma ou mais imagens em cada um dentre um conjunto de imagens atual gerado em um atual dentre uma pluralidade de ciclos de sequenciamento, de um ou mais conjuntos de imagens anteriores, gerados respectivamente em um ou mais dentre a pluralidade de ciclos de sequenciamento anteriores ao atual dentre a pluralidade de ciclos de sequenciamento, e de um ou mais conjuntos de imagens sucessores, gerados respectivamente em um ou mais dentre a pluralidade de ciclos de sequenciamento sucedendo o atual dentre a pluralidade de ciclos de sequenciamento.

O método inclui registrar cada uma das imagens nos conjuntos de imagens atual, anterior e sucesso com a imagem de gabarito para determinar transformações específicas do ciclo e específicas do canal de imagem.

O método inclui aplicar as transformações aos centros de referência dos analitos para identificar centros transformados dos analitos em cada uma das imagens.

O método inclui um específico dentre os analitos receber chamada de base, extrair um fragmento de imagem a partir de cada uma das imagens nos conjuntos de imagens atual, anterior, sucessor, de modo que cada fragmento de imagem contenha em seu pixel central um centro transformado do específico dentre os analitos identificado em uma respectiva dentre as imagens, e representa as emissões de intensidade do específico dentre os analitos, de alguns adjacentes dentre os analitos, e do seu plano de fundo circundante em um correspondente dentre os canais de imagem.

O método inclui, para cada fragmento de imagem, gerar as informações de distância que identificam as distâncias de seus centros de pixels a partir do centro transformado do específico dentre os analitos contidos em seu pixel central. O método inclui a construção de dados de entrada por codificação em pixel das informações de distância em cada fragmento de imagem. O método inclui convoluir os dados de entrada através de uma rede neural convolucional, a fim de gerar uma representação convoluída dos dados de entrada. O método inclui processar a representação convoluída através de uma camada de saída para produzir uma saída. O método inclui a chamada de base do analito específico dentre os analitos no atual dentre a pluralidade de ciclos de sequenciamento com base na saída.

[00684] Cada uma das características discutidas na seção da implementação específica para outras implementações se aplica igualmente a esta implementação. Conforme indicado acima, todas as outras características não são repetidas aqui e devem ser consideradas repetidas a título de referência. O leitor entenderá como os recursos identificados nessas implementações podem ser prontamente combinados com conjuntos de características de base identificadas em outras implementações.

[00685] Em uma implementação, o método inclui o processamento da representação convolvida através da camada de saída para produzir semelhanças de uma base incorporada no específico dentre os analitos no atual da pluralidade de ciclos de sequenciamento sendo A, C, T e G, e classificar a base como A, C, T ou G com base nas semelhanças.

[00686] Outras implementações do método descrito nesta seção podem incluir uma mídia de armazenamento não transitório legível por computador que armazena instruções executáveis por um processador para executar qualquer dos métodos descritos acima. Ainda outra implementação do método descrito nesta seção pode incluir um sistema que inclui memória e um ou mais processadores operáveis para executar instruções, armazenadas na memória, para executar qualquer dos métodos descritos acima.

[00687] Em uma implementação, o método implementado por computador inclui processar dados de entrada por meio de uma rede neural e produzir uma representação alternativa dos dados de entrada. Os dados de entrada incluem dados de imagem por ciclo para cada um dentre um ou mais ciclos de sequenciamento de uma rodada de sequenciamento. Os dados de imagem por ciclo representam emissões de intensidade de um ou mais analitos e seus respectivos planos de fundo circundantes capturados em um respectivo ciclo de sequenciamento. O método inclui processar a representação alternativa através de uma camada de saída e produzir uma saída. O método inclui fazer chamadas de base a um ou mais dentre os analitos em um ou mais dentre os ciclos de sequenciamento com base na saída.

[00688] Cada uma das características discutidas na seção da implementação específica para outras implementações se aplica igualmente a esta implementação. Conforme indicado acima, todas as outras características não são repetidas aqui e devem ser consideradas repetidas a título de referência. O leitor entenderá como os recursos identificados nessas implementações podem ser prontamente combinados com conjuntos de características de base identificadas em outras implementações.

[00689] Em uma implementação, o método inclui acompanhar os dados de imagem por ciclo com informações de distância suplementares que identificam distâncias entre pixels dos dados de imagem por ciclo e um ou mais dos analitos. Em tal implementação, as distâncias incorporam contexto sobre centros, formatos e/ou contornos de um ou mais dos analitos no processamento pela rede neural e a camada de saída. Em uma implementação, o método inclui acompanhar os dados de imagem por ciclo com informações suplementares de escala que atribuem valores de alteração de escala para os pixels dos dados de imagem por ciclo. Em tal implementação, os valores de alteração de escala representam a variância nas intensidades de um ou mais dos analitos.

[00690] Outras implementações do método descrito nesta seção podem incluir uma mídia de armazenamento não transitório legível por computador que armazena instruções executáveis por um processador para executar qualquer dos métodos descritos acima. Ainda outra implementação do método descrito nesta seção pode incluir um sistema que inclui memória e um ou mais processadores operáveis para executar instruções, armazenadas na memória, para executar qualquer dos métodos descritos acima. Chamada de base - Canal de distância de múltiplos analitos

[00691] É aqui revelado um método implementado por rede neural de analitos de chamada de base sintetizados durante uma rodada de sequenciamento. O método inclui acessar dados de entrada que incluem uma sequência de fragmentos de imagem por ciclo gerados para uma série de ciclos de sequenciamento de uma rodada de sequenciamento. Cada conjunto de fragmento de imagem por ciclo na sequência tem um fragmento de imagem para um respectivo canal dentre um ou mais canais de imagem. Cada fragmento de imagem tem dados de intensidade de pixel para pixels que cobrem uma pluralidade de analitos e seu plano de fundo circundante, e dados de distância de pixel que identificam a distância de centro a centro de cada pixel a partir de um dos analitos mais próximos dentre os analitos selecionados com base nas distâncias de centro a centro entre o pixel e cada um dos analitos. O método inclui convoluir os dados de entrada através de uma rede neural convolucional, a fim de gerar uma representação convoluída dos dados de entrada. O método inclui o processamento da representação convolvida através de uma camada de saída para produzir uma distribuição de pontuação para cada um dos analitos que identifica semelhanças de uma base incorporada em um respectivo dentre os analitos em um ciclo de sequenciamento atual sendo

A, C, T e G. O método inclui a chamada de base a cada um dos analitos com base nas semelhanças.

[00692] Cada uma das características discutidas na seção da implementação específica para outras implementações se aplica igualmente a esta implementação. Conforme indicado acima, todas as outras características não são repetidas aqui e devem ser consideradas repetidas a título de referência. O leitor entenderá como os recursos identificados nessas implementações podem ser prontamente combinados com conjuntos de características de base identificadas em outras implementações.

[00693] Em uma implementação, os dados de distância de pixel são codificados em pixel em cada fragmento de imagem. Em uma implementação, a distância de centro a centro é derivada de uma fórmula de distância que usa coordenadas de posição de centros transformados dos analitos e coordenadas de posição de centros de pixel. Em uma implementação, o método inclui fornecer como entrada para os canais de alteração de escala de intensidade de rede neural convolucional que têm valores de alteração de escala correspondentes a pixels de cada fragmento de imagem, e os valores de alteração de escala têm por base uma combinação de intensidades médias de pixels centrais em cada fragmento de imagem que contém os centros transformados dos analitos. Em uma implementação, os canais de alteração de escala de intensidade em pixel aplicam os mesmos valores de alteração de escala aos dados de intensidade de pixel de todos os pixels de um fragmento de imagem. Em uma implementação, os canais de alteração de escala de intensidade em pixel aplicam valores de alteração de escala diferentes aos dados de intensidade de pixel dos pixels do fragmento de imagem com base em vizinhança de pixel, de modo que um primeiro valor de alteração de escala derivado de uma intensidade média de um primeiro pixel central seja aplicado a uma primeira vizinhança de pixel de pixels adjacentes que são sucessivamente contíguos ao primeiro pixel central, e outro valor de alteração de escala derivado de uma intensidade média de outro pixel central seja aplicado a outra vizinhança de pixel de pixels adjuntos que são sucessivamente contíguos a outro pixel central.

Em uma implementação, a vizinhança de pixel é um fragmento de pixel m x n centralizado nos pixels centrais, e o fragmento de pixel consiste em pixels de 3 x 3. Em uma implementação, a vizinhança de pixel é uma vizinhança de pixel n- conectada centralizada nos pixels centrais.

Em uma implementação, as intensidades dos pixels centrais são determinadas para cada um dos correspondentes dentre os canais de imagem.

Em uma implementação, as intensidades médias dos pixels centrais são determinadas para um primeiro canal de imagem pela média de valores de intensidade dos pixels centrais observados durante dois ou mais ciclos de sequenciamento anteriores que produziram uma chamada de base A e uma T para os analitos respectivos dentre os analitos.

Em uma implementação, as intensidades médias do pixel central são determinadas para um segundo canal de imagem pela média de valores de intensidade dos pixels centrais observados durante os dois ou mais ciclos de sequenciamento anteriores que produziram uma chamada de base A e uma C para os analitos respectivos dentre os analitos.

Em uma implementação, as intensidades médias dos pixels centrais são determinadas para um primeiro canal de imagem pela média de valores de intensidade do pixel central observados durante dois ou mais ciclos de sequenciamento anteriores que produziram uma chamada de base A para os analitos respectivos dentre os analitos.

Em uma implementação, as intensidades médias dos pixels centrais são determinadas para um segundo canal de imagem pela média de valores de intensidade do pixel central observados durante os dois ou mais ciclos de sequenciamento anteriores que produziram uma chamada de base G para os analitos respectivos dentre os analitos.

Em uma implementação, as intensidades médias do pixel central são determinadas para um terceiro canal de imagem pela média de valores de intensidade dos pixels centrais observados durante os dois ou mais ciclos de sequenciamento anteriores que produziram uma chamada de base T para os analitos respectivos dentre os analitos. Em uma implementação, as intensidades médias dos pixels centrais são determinadas para um terceiro canal de imagem pela média de valores de intensidade do pixel central observados durante dois ou mais ciclos de sequenciamento anteriores que produziram uma chamada de base C para os analitos respectivos dentre os analitos. Em uma implementação, o método inclui, para cada fragmento de imagem, gerar informações de atribuição de analito que identificam quais de seus pixels cobrem os analitos e quais dos seus pixels não o fazem, e construir os dados de entrada por codificação em pixel das informações de atribuição de analito para cada fragmento de imagem. Em uma implementação, os pixels que cobrem os analitos recebem um valor diferente de zero nas informações de atribuição de analito. Em uma implementação, os pixels que não cobrem os analitos são atribuídos um valor zero nas informações de atribuição de analito. Em uma implementação, o tamanho de cada uma das faixas de fragmento de imagem varia de pixels de 3 x 3 a pixels de 10.000 x

10.000. Em uma implementação, a camada de saída é uma camada softmax, e a distribuição de pontuação é uma distribuição de pontuação exponencialmente normalizada.

[00694] Outras implementações do método descrito nesta seção podem incluir uma mídia de armazenamento não transitório legível por computador que armazena instruções executáveis por um processador para executar qualquer dos métodos descritos acima. Ainda outra implementação do método descrito nesta seção pode incluir um sistema que inclui memória e um ou mais processadores operáveis para executar instruções, armazenadas na memória, para executar qualquer dos métodos descritos acima.

[00695] É aqui revelado um método implementado por rede neural de analitos de chamada de base sintetizados durante uma rodada de sequenciamento. O método inclui acessar dados de entrada que incluem uma sequência de fragmentos de imagem por ciclo gerados para uma série de ciclos de sequenciamento de uma rodada de sequenciamento. Cada conjunto de fragmento de imagem por ciclo na sequência tem um fragmento de imagem para um respectivo canal dentre um ou mais canais de imagem. Cada fragmento de imagem tem dados de intensidade de pixel para pixels que cobrem uma pluralidade de analitos e seu plano de fundo circundante, e dados de distância de pixel que identificam a distância de centro a centro de cada pixel a partir de um dos analitos mais próximos dentre os analitos selecionados com base nas distâncias de centro a centro entre o pixel e cada um dos analitos. O método inclui convoluir os dados de entrada através de uma rede neural convolucional, a fim de gerar uma representação convoluída dos dados de entrada. O método inclui processar a representação convoluída através de uma camada de saída para produzir uma saída. O método inclui a chamada de base a cada um dos analitos em um ciclo de sequenciamento atual com base na saída.

[00696] Cada uma das características discutidas na seção da implementação específica para outras implementações se aplica igualmente a esta implementação. Conforme indicado acima, todas as outras características não são repetidas aqui e devem ser consideradas repetidas a título de referência. O leitor entenderá como os recursos identificados nessas implementações podem ser prontamente combinados com conjuntos de características de base identificadas em outras implementações.

[00697] Em uma implementação, o método inclui derivar, a partir da saída, uma distribuição de pontuação para cada um dos analitos que identifica semelhanças de uma base incorporada em um respectivo dentre os analitos no ciclo de sequenciamento atual sendo A, C, T e G, e chamada de base a cada um dos analitos com base nas semelhanças. Em uma implementação, a camada de saída é uma camada softmax, e a distribuição de pontuação é uma distribuição de pontuação exponencialmente normalizada. Em uma implementação, o método inclui a derivação, a partir da saída, de um par de saídas para cada um dos analitos que identifica um rótulo de uma classe de uma base incorporada em um respectivo dentre os analitos no ciclo de sequenciamento atual sendo A, C, T e G, e a chamada de base a cada um dos analitos com base no rótulo de classe. Em uma implementação, o método inclui a derivação, a partir da saída, de um único valor de saída, a comparação do valor de saída único contra as faixas de valor de classe correspondentes às bases A, C, T e G, com base na comparação, a atribuição do valor de saída único para uma faixa de valores de classe específica, e a chamada de base a cada um dos analitos com base na atribuição. Em uma implementação, o único valor de saída é derivado com o uso de uma função sigmoide e o único valor de saída está na faixa de 0 a 1.

[00698] Outras implementações do método descrito nesta seção podem incluir uma mídia de armazenamento não transitório legível por computador que armazena instruções executáveis por um processador para executar qualquer dos métodos descritos acima. Ainda outra implementação do método descrito nesta seção pode incluir um sistema que inclui memória e um ou mais processadores operáveis para executar instruções, armazenadas na memória, para executar qualquer dos métodos descritos acima. Chamada de base - Canal de distância com base em formato de múltiplos analitos

[00699] É aqui revelado um método implementado por rede neural de analitos de chamada de base sintetizados durante uma rodada de sequenciamento. O método inclui acessar dados de entrada que incluem uma sequência de fragmentos de imagem por ciclo gerados para uma série de ciclos de sequenciamento de uma rodada de sequenciamento. Cada conjunto de fragmento de imagem por ciclo na sequência tem um fragmento de imagem para um respectivo canal dentre um ou mais canais de imagem. Cada fragmento de imagem representa as emissões de intensidade de uma pluralidade de analitos e seu plano de fundo circundante com o uso de pixels de analito que representam intensidades de analito e pixels de plano de fundo que representam intensidades de plano de fundo. Cada fragmento de imagem é codificado com dados de distância de analito que identificam cada distância de centro a centro do pixel de analito de um analito atribuído dentre os analitos selecionados com base na classificação de cada pixel de analito para apenas um dos analitos. O método inclui convoluir os dados de entrada através de uma rede neural convolucional, a fim de gerar uma representação convoluída dos dados de entrada. O método inclui o processamento da representação convolvida através de uma camada de saída para produzir uma distribuição de pontuação para cada um dos analitos que identifica semelhanças de uma base incorporada em um respectivo dentre os analitos em um ciclo de sequenciamento atual sendo A, C, T e G. O método inclui a chamada de base a cada um dos analitos com base nas semelhanças.

[00700] Cada uma das características discutidas na seção da implementação específica para outras implementações se aplica igualmente a esta implementação. Conforme indicado acima, todas as outras características não são repetidas aqui e devem ser consideradas repetidas a título de referência. O leitor entenderá como os recursos identificados nessas implementações podem ser prontamente combinados com conjuntos de características de base identificadas em outras implementações.

[00701] Em uma implementação, os analitos têm formatos irregulares que abrangem múltiplos pixels de analito e a classificação de pixel para analito tem por base os formatos irregulares. Em uma implementação, todos os pixels de plano de fundo são atribuídos a uma mesma distância mínima de centro a centro nos dados de distância de analito. Em uma implementação, todos os pixels de plano de fundo são atribuídos a uma mesma intensidade mínima. Em uma implementação, cada pixel de analito é classificado para apenas um dos analitos com base em um mapa de decaimento produzido por um gerador de gabarito baseado em rede neural. Em uma implementação, o mapa de decaimento identifica os analitos como regiões disjuntas de pixels adjacentes, centros dos analitos como pixels centrais de massa das respectivas dentre as regiões disjuntas e seu plano de fundo circundante como pixels de plano de fundo não pertencentes a nenhuma das regiões disjuntas. Em uma implementação, os pixels adjacentes nas respectivas regiões disjuntas dentre as regiões disjuntas têm valores de intensidade pesados de acordo com a distância de um pixel adjacente a partir de um pixel central em uma região disjunta à qual o pixel adjacente pertence. Em uma implementação, os pixels adjacentes nas respectivas dentre as regiões disjuntas são categorizados como pixels interiores de analitos pertencentes a e que correpresentam um mesmo analito e armazenados na memória em uma base de analito por analito. Em uma implementação, os pixels de centro têm valores de intensidade mais elevados nas respectivas regiões disjuntas dentre as regiões disjuntas. Em uma implementação, todos os pixels de plano de fundo têm um mesmo valor de intensidade mais baixo no mapa de decaimento. Em uma implementação, os dados de distância de analito codificam em pixel em cada fragmento de imagem. Em uma implementação, a distância de centro a centro é derivada de uma fórmula de distância que usa coordenadas de posição de centros transformados dos analitos e coordenadas de posição de centros de pixel. Em uma implementação, os centros transformados dos analitos são derivados aplicando transformações específicas do ciclo e específicas de canal de imagem aos centros dos analitos identificados pelo mapa de decaimento.

[00702] Em uma implementação, o método inclui fornecer, como entrada para a rede neural convolucional, canais de alteração de escala de intensidade que têm valores de alteração de escala correspondentes a pixels de cada fragmento de imagem. Em tal implementação, os valores de alteração de escala são com base em uma combinação de intensidades médias dos pixels centrais em cada fragmento de imagem que contém os centros transformados dos analitos. Em uma implementação, os canais de alteração de escala de intensidade em pixel aplicam valores de alteração de escala diferentes aos dados de intensidade de pixel dos pixels de um fragmento de imagem em uma base de grupo de pixels, de modo que um primeiro valor de alteração de escala derivado de uma intensidade média de outro pixel central contendo um centro de um primeiro analito seja aplicado a um primeiro grupo de pixels de pixels adjacentes que pertencem a e correpresentam o primeiro analito, e outro valor de alteração de escala derivado de uma intensidade média de outro pixel central contendo um centro de outro analito seja aplicado a outro grupo de pixels de pixels adjacentes que pertencem a e correpresentam o outro analito. Em uma implementação, as intensidades dos pixels centrais são determinadas para cada um dos correspondentes dentre os canais de imagem. Em uma implementação, o método inclui, para cada fragmento de imagem, gerar informações de atribuição de analito que identificam quais de seus pixels cobrem os analitos e quais dos seus pixels não o fazem, e construir os dados de entrada por codificação em pixel das informações de atribuição de analito para cada fragmento de imagem. Em uma implementação, os pixels que cobrem os analitos recebem um valor diferente de zero nas informações de atribuição de analito. Em outra implementação, os pixels que não cobrem os analitos são atribuídos a um valor zero nas informações de atribuição de analito.

[00703] Outras implementações do método descrito nesta seção podem incluir uma mídia de armazenamento não transitório legível por computador que armazena instruções executáveis por um processador para executar qualquer dos métodos descritos acima. Ainda outra implementação do método descrito nesta seção pode incluir um sistema que inclui memória e um ou mais processadores operáveis para executar instruções, armazenadas na memória, para executar qualquer dos métodos descritos acima.

[00704] É aqui revelado um método implementado por rede neural de analitos de chamada de base sintetizados durante uma rodada de sequenciamento. O método inclui acessar dados de entrada que incluem uma sequência de fragmentos de imagem por ciclo gerados para uma série de ciclos de sequenciamento de uma rodada de sequenciamento. Cada conjunto de fragmento de imagem por ciclo na sequência tem um fragmento de imagem para um respectivo canal dentre um ou mais canais de imagem. Cada fragmento de imagem representa as emissões de intensidade de uma pluralidade de analitos e seu plano de fundo circundante com o uso de pixels de analito que representam intensidades de analito e pixels de plano de fundo que representam intensidades de plano de fundo. Cada fragmento de imagem é codificado com dados de distância de analito que identificam cada distância de centro a centro do pixel de analito de um analito atribuído dentre os analitos selecionados com base na classificação de cada pixel de analito para apenas um dos analitos. O método inclui convoluir os dados de entrada através de uma rede neural convolucional, a fim de gerar uma representação convoluída dos dados de entrada. O método inclui processar a representação convoluída através de uma camada de saída para produzir uma saída. O método inclui a chamada de base a cada um dos analitos em um ciclo de sequenciamento atual com base na saída.

[00705] Cada uma das características discutidas na seção da implementação específica para outras implementações se aplica igualmente a esta implementação. Conforme indicado acima, todas as outras características não são repetidas aqui e devem ser consideradas repetidas a título de referência. O leitor entenderá como os recursos identificados nessas implementações podem ser prontamente combinados com conjuntos de características de base identificadas em outras implementações. Outras implementações do método descrito nesta seção podem incluir uma mídia de armazenamento não transitório legível por computador que armazena instruções executáveis por um processador para executar qualquer dos métodos descritos acima. Ainda outra implementação do método descrito nesta seção pode incluir um sistema que inclui memória e um ou mais processadores operáveis para executar instruções, armazenadas na memória, para executar qualquer dos métodos descritos acima. Arquitetura especializada

[00706] É revelado um método implementado por rede com de chamada de base a analitos usando imagens de sequenciamento que tenham erro de registro uma em relação à outra. O método inclui acessar uma sequência de conjuntos de fragmento de imagem por ciclo gerados para uma série de ciclos de sequenciamento de uma rodada de sequenciamento. A sequência tem erro de registro entre fragmentos de imagem através dos conjuntos de fragmento de imagem por ciclo e dentro dos conjuntos de fragmento de imagem por ciclo. Cada fragmento de imagem na sequência representa informações de intensidade de um analito alvo recebendo chamada de base, de alguns analitos adjacentes, e do seu plano de fundo circundante em um canal de imagem correspondente em um ciclo de sequenciamento correspondente na série. Cada fragmento de imagem na sequência é codificado em pixel com informações de distância que identificam as distâncias dos centros de seus pixels a partir de um centro do analito alvo localizado em seu pixel central. O método inclui processar separadamente cada conjunto de fragmentos de imagem por ciclo através de uma primeira sub-rede convolucional para produzir uma representação convoluída intermediária para cada ciclo de sequenciamento, inclusive aplicando convoluções que combinem as informações de intensidade e de distância e combinem as representações convoluídas resultantes somente dentro de um ciclo de sequenciamento e não entre ciclos de sequenciamento. O método inclui processar por grupo as representações convoluídas intermediárias durante sucessivos ciclos de sequenciamento na série através de uma segunda subrede convolucional, a fim de produzir uma representação convoluída final para a série, inclusive aplicando convoluções que combinam as representações convoluídas intermediárias e combinam as representações convoluídas resultantes entre os ciclos de sequenciamento. O método inclui processar a representação convoluída final através de uma camada de saída para produzir uma saída. O método inclui fazer chamadas de base ao analito alvo em um ciclo de sequenciamento atual com base na saída.

[00707] Cada uma das características discutidas na seção da implementação específica para outras implementações se aplica igualmente a esta implementação. Conforme indicado acima, todas as outras características não são repetidas aqui e devem ser consideradas repetidas a título de referência. O leitor entenderá como os recursos identificados nessas implementações podem ser prontamente combinados com conjuntos de características de base identificadas em outras implementações.

[00708] Em uma implementação, cada fragmento de imagem na sequência tem dados de intensidade de pixel para pixels que cobrem uma pluralidade de analitos e seus planos de fundo circundantes, e dados de distância de pixel que identificam a distância de centro a centro de cada pixel a partir de um dos analitos selecionados com base nas distâncias de centro a centro entre o pixel e cada um dos analitos. Em tal implementação, o método inclui a chamada de base a cada um dos analitos no ciclo de sequenciamento atual com base na saída. Em uma implementação, cada fragmento de imagem na sequência representa as emissões de intensidade de uma pluralidade de analitos e seus planos de fundo circundantes com o uso de pixels de analito que representam intensidades de analito e pixels de plano de fundo que representam intensidades de plano de fundo, e é codificado com dados de distância de analito que identificam a distância de centro a centro de cada pixel de analito a partir de um analito atribuído dentre os analitos selecionados com base na classificação de cada pixel de analito para apenas um dos analitos. Em tal implementação, o método inclui a chamada de base a cada um dos analitos no ciclo de sequenciamento atual com base na saída. Em uma implementação, o método inclui fornecer, como entrada para a primeira sub-rede convolucional, as coordenadas de posição do analito alvo e/ou analitos adjacentes. Em uma implementação, o método inclui fornecer como entrada à segunda sub-rede convolucional, coordenadas de posição do analito alvo e/ou analitos adjacentes. Em uma implementação, o método inclui fornecer, como entrada para a camada de saída, coordenadas de posição do alvo analito e/ou analitos adjacentes.

[00709] Outras implementações do método descrito nesta seção podem incluir uma mídia de armazenamento não transitório legível por computador que armazena instruções executáveis por um processador para executar qualquer dos métodos descritos acima. Ainda outra implementação do método descrito nesta seção pode incluir um sistema que inclui memória e um ou mais processadores operáveis para executar instruções, armazenadas na memória, para executar qualquer dos métodos descritos acima.

[00710] É revelado um método implementado por rede de chamada de base a analitos com o uso de dados de imagem erro de registro. O método inclui acessar dados de entrada para uma série de ciclos de sequenciamento de uma rodada de sequenciamento. Os dados de entrada têm um tensor de imagem para cada ciclo de sequenciamento. Cada tensor de imagem tem dados para um ou mais canais de imagem, incluindo, para cada canal de imagem, dados de intensidade de pixel para os pixels cobrindo um analito alvo recebendo chamada de base, alguns analitos adjacentes e plano de fundo circundante, e dados de distância de pixel para distâncias a partir de um centro do analito alvo para centros dos pixels. Os dados de entrada têm erro de registro através do ciclo entre os pixels através dos tensores de imagem e erro de registro de canal através de imagem entre pixels dentro dos tensores de imagem. O método inclui processar separadamente cada tensor de entrada através de uma rede convolucional espacial com uma sequência de camadas de convolução espacial para produzir uma representação convolvida espacialmente para cada ciclo de sequenciamento, inclusive começando com uma primeira camada de convolução espacial que combina as intensidades e distâncias de pixel apenas dentro de um ciclo de sequenciamento, e não entre ciclos de sequenciamento, e continuando com camadas de convolução espacial sucessivas que combinam saídas de camadas de convolução espacial anteriores apenas dentro de cada ciclo de sequenciamento na série de ciclos de sequenciamento, e não entre os ciclos de sequenciamento. O método inclui processamento em grupo de representações convolvidas espacialmente para ciclos de sequenciamento sucessivos através de uma rede convolucional temporal com uma sequência de camadas de convolução temporais para produzir uma representação convolvidas temporalmente para a série, inclusive começando com uma primeira camada de convolução temporal que combina as representações convolvidas espacialmente entre os ciclos de sequenciamento na série de ciclos de sequenciamento, e continuando com camadas de convolução temporal sucessivas que combinam saídas sucessivas de camadas de convolução temporal anteriores. O método inclui processar a representação convoluída temporal através de uma camada de saída para produzir uma saída. O método inclui fazer chamadas de base ao analito alvo em um ciclo de sequenciamento atual com base na saída.

[00711] Cada uma das características discutidas na seção da implementação específica para outras implementações se aplica igualmente a esta implementação. Conforme indicado acima, todas as outras características não são repetidas aqui e devem ser consideradas repetidas a título de referência. O leitor entenderá como os recursos identificados nessas implementações podem ser prontamente combinados com conjuntos de características de base identificadas em outras implementações.

[00712] Em uma implementação, o processamento em grupo inclui adicionalmente convoluir através de representações convolvidas intermediárias sucessivas nas janelas deslizantes de sobreposição.

Em uma implementação, as camadas de convolução temporal sucessivas combinam as saídas sucessivas dentro de janelas deslizantes de sobreposição.

Em uma implementação, os dados de distância de pixel são codificados em pixel em cada tensor de imagem.

Em uma implementação, cada tensor de imagem na sequência tem dados de intensidade de pixel para pixels que cobrem uma pluralidade de analitos e seus planos de fundo circundantes, e dados de distância de pixel que identificam a distância de centro a centro de cada pixel a partir de um dos analitos selecionados com base nas distâncias de centro a centro entre o pixel e cada um dos analitos.

Em uma implementação, o método inclui a chamada de base a cada um dos analitos no ciclo de sequenciamento atual com base na saída.

Em uma implementação, cada tensor de imagem na sequência representa as emissões de intensidade de uma pluralidade de analitos e seus planos de fundo circundantes com o uso de pixels de analito que representam intensidades de analito e pixels de plano de fundo que representam intensidades de plano de fundo, e é codificado com dados de distância de analito que identificam a distância de centro a centro de cada pixel de analito a partir de um analito atribuído dentre os analitos selecionados com base na classificação de cada pixel de analito para apenas um dos analitos.

Em uma implementação, o método inclui fornecer, como entrada para a primeira sub-rede convolucional, as coordenadas de posição do analito alvo e/ou analitos adjacentes.

Em uma implementação, o método inclui fornecer como entrada à segunda sub- rede convolucional, coordenadas de posição do analito alvo e/ou analitos adjacentes.

Em uma implementação, o método inclui fornecer, como entrada para a camada de saída, coordenadas de posição do alvo analito e/ou analitos adjacentes.

[00713] Outras implementações do método descrito nesta seção podem incluir uma mídia de armazenamento não transitório legível por computador que armazena instruções executáveis por um processador para executar qualquer dos métodos descritos acima. Ainda outra implementação do método descrito nesta seção pode incluir um sistema que inclui memória e um ou mais processadores operáveis para executar instruções, armazenadas na memória, para executar qualquer dos métodos descritos acima. Novo enquadramento

[00714] É aqui revelado um método implementado por rede neural de analitos de chamada de base sintetizados durante uma rodada de sequenciamento. O método inclui acessar uma sequência de conjuntos de fragmento de imagem por ciclo gerados para uma série de ciclos de sequenciamento de uma rodada de sequenciamento. Cada conjunto de fragmento de imagem por ciclo na sequência tem um fragmento de imagem para um respectivo canal dentre um ou mais canais de imagem. Cada fragmento de imagem tem dados de intensidade de pixel para pixels que cobrem um analito alvo recebendo chamado de base, alguns analitos adjacentes e plano de fundo circundante. O método inclui o novo enquadramento dos pixels de cada fragmento de imagem para centralizar um centro do analito alvo em um pixel central. O método inclui convoluir fragmentos de imagem enquadrados novamente através de uma rede neural convolucional para gerar uma representação convoluída dos fragmentos de imagem enquadrados novamente. O método inclui processar a representação convoluída através de uma camada de saída para produzir uma saída. O método inclui fazer chamadas de base ao analito alvo em um ciclo de sequenciamento atual com base na saída.

[00715] Cada uma das características discutidas na seção da implementação específica para outras implementações se aplica igualmente a esta implementação. Conforme indicado acima, todas as outras características não são repetidas aqui e devem ser consideradas repetidas a título de referência. O leitor entenderá como os recursos identificados nessas implementações podem ser prontamente combinados com conjuntos de características de base identificadas em outras implementações.

[00716] Em uma implementação, o novo enquadramento inclui adicionalmente interpolação de intensidade dos pixels de cada fragmento de imagem para compensar o novo enquadramento. Em uma implementação, a interpolação de intensidade incluir adicionalmente ao menos uma dentre extração de intensidade de vizinhos mais próximos, extração de intensidade baseada em Gauss, extração de intensidade com base na média da área de subpixel de 2 x 2, extração de intensidade baseada na área de subpixel mais brilhante de 2 x 2, extração de intensidade baseada na média da área de subpixel de 3 x 3, extração de intensidade linear, extração de intensidade bicúbica e/ou extração de intensidade baseada na cobertura da área pesada. Em uma implementação, antes do novo enquadramento, o centro do analito-alvo está situado no pixel central de cada fragmento de imagem em um deslocamento a partir de um centro do pixel central. Em uma implementação, o novo enquadramento inclui adicionalmente exigir que pixels não centrais de cada fragmento de imagem sejam equidistantes dos respectivos centros do analito alvo. Em uma implementação, cada fragmento de imagem na sequência tem dados de intensidade de pixel para pixels que representam uma pluralidade de analitos e seus planos de fundo circundantes, e dados de distância de pixel que identificam a distância de centro a centro de cada pixel a partir de um dos analitos selecionados com base nas distâncias de centro a centro entre o pixel e cada um dos analitos. Em uma implementação, o método inclui a chamada de base a cada um dos analitos no ciclo de sequenciamento atual com base na saída. Em uma implementação, cada fragmento de imagem na sequência representa as emissões de intensidade de uma pluralidade de analitos e seus planos de fundo circundantes com o uso de pixels de analito que representam intensidades de analito e pixels de plano de fundo que representam intensidades de plano de fundo, e é codificado com dados de distância de analito que identificam a distância de centro a centro de cada pixel de analito a partir de um analito atribuído dentre os analitos selecionados com base na classificação de cada pixel de analito para apenas um dos analitos. Em uma implementação, o método inclui a chamada de base a cada um dos analitos no ciclo de sequenciamento atual com base na saída. Em uma implementação, o método inclui fornecer, como entrada para a primeira sub-rede convolucional, as coordenadas de posição do analito alvo e/ou analitos adjacentes. Em uma implementação, o método inclui fornecer como entrada à segunda sub-rede convolucional, coordenadas de posição do analito alvo e/ou analitos adjacentes. Em uma implementação, o método inclui fornecer, como entrada para a camada de saída, coordenadas de posição do alvo analito e/ou analitos adjacentes.

[00717] A presente invenção revela um método implementado por rede neural de chamada de base a analitos em uma célula de fluxo. O método inclui acessar uma sequência de conjuntos de imagem gerados durante uma pluralidade de ciclos de sequenciamento de uma rodada de sequenciamento que sintetiza os analitos na célula de fluxo. Cada imagem na sequência de conjuntos de imagem cobre uma região não sobreposta da célula de fluxo e representa as emissões de intensidade de um subconjunto dos analitos na região não sobreposta e seu plano de fundo circundante capturado em um canal de imagem correspondente em um respectivo dentre a pluralidade de ciclos de sequenciamento. O método inclui determinar uma base do nucleotídeo (A, C, T ou G) incorporada em um específico dentre a pluralidade de ciclos de sequenciamento em um específico dentre o subconjunto dos analitos pela seleção, a partir da sequência de conjuntos de imagem, de um conjunto de imagens atual gerado no específico dentre a pluralidade de ciclos de sequenciamento, um ou mais conjuntos de imagem anteriores gerados respectivamente em um ou mais dentre a pluralidade de ciclos de sequência anteriores ao específico dentre a pluralidade de ciclos de sequenciamento, e um ou mais conjuntos de imagem posteriores gerados respectivamente em um ou mais dentre a pluralidade de ciclos de sequenciamento sucedendo o específico dentre a pluralidade de ciclos de sequenciamento. O método inclui extrair fragmentos de imagens a partir de imagens em cada um dos conjuntos de imagens selecionados. Os fragmentos de imagens são centralizados no específico dentre o subconjunto dos analitos e incluem analitos adjacentes adicionais a partir do subconjunto dos analitos. O método inclui a convolução dos fragmentos de imagens através de uma ou mais camadas de uma rede neural convolucional para gerar uma representação convolvida dos fragmentos de imagem. O método inclui o processamento da representação convolvida através de uma camada de saída para produzir semelhanças para a base de nucleotídeo sendo A, C, T e G. O método inclui classificar a base de nucleotídeo como A, C, T ou G com base nas semelhanças.

[00718] Cada uma das características discutidas na seção da implementação específica para outras implementações se aplica igualmente a esta implementação. Conforme indicado acima, todas as outras características não são repetidas aqui e devem ser consideradas repetidas a título de referência. O leitor entenderá como os recursos identificados nessas implementações podem ser prontamente combinados com conjuntos de características de base identificadas em outras implementações.

[00719] Em uma implementação, o método inclui produzir uma sequência de chamadas de base para o específico dentre o subconjunto dos analitos ao longo da pluralidade de ciclos de sequenciamento iterando-se a seleção, a extração, a convolução, o processamento e a classificação para cada um dentre a pluralidade de ciclos de sequenciamento. Em uma implementação, o método inclui produzir uma sequência de chamadas de base para uma pluralidade de analitos no subconjunto ao longo da pluralidade de ciclos de sequenciamento iterando a seleção, a extração, a convolução, o processamento e a classificação para cada um dentre a pluralidade de ciclos de sequenciamento para cada um da pluralidade de analitos no subconjunto. Em uma implementação, a região não sobreposta da célula de fluxo é um ladrilho. Em uma implementação, o canal de imagem corresponde a uma dentre uma pluralidade de bandas de comprimento de onda de filtro. Em uma implementação, o canal de imagem correspondente é um dentre uma pluralidade de eventos de imagem.

[00720] Outras implementações do método descrito nesta seção podem incluir uma mídia de armazenamento não transitório legível por computador que armazena instruções executáveis por um processador para executar qualquer dos métodos descritos acima. Ainda outra implementação do método descrito nesta seção pode incluir um sistema que inclui memória e um ou mais processadores operáveis para executar instruções, armazenadas na memória, para executar qualquer dos métodos descritos acima. Chamada de base simultaneamente a múltiplos agrupamentos em múltiplos ciclos

[00721] A presente invenção revela um método implementado por rede neural de chamada de base a analitos em uma célula de fluxo. O método inclui obter dados de imagem de entrada a partir de uma sequência de conjuntos de imagem. A sequência de conjuntos de imagem é gerada durante uma pluralidade de ciclos de sequenciamento de uma rodada de sequenciamento que sintetiza os analitos na célula de fluxo. Cada imagem na sequência de conjuntos de imagem cobre uma região não sobreposta da célula de fluxo e representa as emissões de intensidade de um subconjunto dos analitos na região não sobreposta e seu plano de fundo circundante capturado em um canal de imagem correspondente em um respectivo dentre a pluralidade de ciclos de sequenciamento. O método inclui processar os dados de imagem de entrada através de uma ou mais camadas de uma rede neural e gerar uma representação alternativa dos dados de imagem de entrada. O método inclui o processamento da representação alternativa através de uma camada de saída para gerar uma saída que identifica uma base de nucleotídeo (A, C, T ou G) incorporada em pelo menos alguns dos analitos no subconjunto em cada um dentre a pluralidade de ciclos de sequenciamento, produzindo, assim, uma sequência de chamadas de base para cada um dos pelo menos alguns dos analitos no subconjunto ao longo da pluralidade de ciclos de sequenciamento.

[00722] Cada uma das características discutidas na seção da implementação específica para outras implementações se aplica igualmente a esta implementação. Conforme indicado acima, todas as outras características não são repetidas aqui e devem ser consideradas repetidas a título de referência. O leitor entenderá como os recursos identificados nessas implementações podem ser prontamente combinados com conjuntos de características de base identificadas em outras implementações.

[00723] Em uma implantação, a camada de saída é uma camada softmax, e a saída é uma distribuição de pontuação exponencialmente normalizada da base de nucleotídeo incorporada em cada um dentre a pluralidade de ciclos de sequenciamento em cada uma dos ao menos alguns dos analitos no subconjunto sendo A, C, T e G. Em uma implementação, os dados de imagem de entrada incluem imagens na sequência de conjuntos de imagem. Em uma implementação, os dados da imagem de entrada incluem ao menos um fragmento de imagem de cada uma das imagens na sequência de conjuntos de imagens. Em uma implementação, a rede neural é uma rede neural convolucional. Em outra implementação, a rede neural é uma rede neural residual. Em ainda outra implementação, a rede neural é uma rede neural recorrente.

[00724] Outras implementações do método descrito nesta seção podem incluir uma mídia de armazenamento não transitório legível por computador que armazena instruções executáveis por um processador para executar qualquer dos métodos descritos acima. Ainda outra implementação do método descrito nesta seção pode incluir um sistema que inclui memória e um ou mais processadores operáveis para executar instruções, armazenadas na memória, para executar qualquer dos métodos descritos acima. Chamada de base baseada em convolução recorrente

[00725] É divulgado um sistema baseado em rede neural para chamada de base. O sistema compreende uma rede neural híbrida com um módulo recorrente e um módulo de convolução. O módulo recorrente usa entradas a partir no módulo de convolução. O módulo de convolução processa dados de imagem para uma série de ciclos de sequenciamento de uma rodada de sequenciamento através de uma ou mais camadas de convolução e produz uma ou mais representações de convolvidas dos dados de imagem. Os dados de imagem representam emissões de intensidade de um ou mais analitos e seu plano de fundo circundante. O módulo recorrente produz representações de estado oculto atuais com base na convolução das representações convoluídas e as representações de estado oculto anteriores. O módulo de saída produz uma chamada de base para ao menos um dentre os analitos e para ao menos um dentre os ciclos de sequenciamento, com base nas representações de estado oculto atuais.

[00726] Cada uma das características discutidas na seção da implementação específica para outras implementações se aplica igualmente a esta implementação. Conforme indicado acima, todas as outras características não são repetidas aqui e devem ser consideradas repetidas a título de referência. O leitor entenderá como os recursos identificados nessas implementações podem ser prontamente combinados com conjuntos de características de base identificadas em outras implementações.

[00727] É divulgado um método implementado por rede neural de chamada de base. O método inclui processar separadamente cada dado de entrada por ciclo em uma sequência de dados de entrada por ciclo através de uma cascata de camadas de convolução de uma rede neural convolucional. A sequência de dados de entrada por ciclo é gerada para uma série de ciclos de sequenciamento de uma rodada de sequenciamento, e cada dado de entrada por ciclo inclui canais de imagem que retratam emissões de intensidade de um ou mais analitos e seus planos de fundo circundantes capturados em um respectivo ciclo de sequenciamento. O método inclui, para cada ciclo de sequenciamento, com base no processamento separado, produzir uma representação convoluída em cada uma das camadas de convolução, produzindo assim uma sequência de representações convoluídas, misturar seus dados de entrada por ciclo com sua sequência correspondente de representações convoluídas e produzir uma representação mista e achatar sua representação mista e produzir uma representação mista achatada. O método inclui dispor as representações mistas achatadas de sucessivos ciclos de sequenciamento sob a forma de uma pilha. O método inclui dispor as processar a pilha em direções para frente e para trás através de uma rede neural recorrente que convolui em um subconjunto das representações misturadas planas na pilha em uma base de janela deslizante, com cada janela deslizante correspondendo a um respectivo ciclo de sequenciamento, e produz sucessivamente um estado oculto atual em cada etapa de tempo para cada ciclo de sequenciamento com base (i) no subconjunto das representações mistas achatadas em uma janela deslizante atual através de uma pilha e (ii) uma representação de estado oculto anterior. O método inclui dispor as fazer chamada de base a cada um dos analitos em cada um dos ciclos de sequenciamento, com base nos resultados de processamento da pilha nas direções para frente e para trás. A rede neural recorrente pode ser uma rede neural recorrente restrita, como uma LSTM e uma GRU.

[00728] Cada uma das características discutidas na seção da implementação específica para outras implementações se aplica igualmente a esta implementação. Conforme indicado acima, todas as outras características não são repetidas aqui e devem ser consideradas repetidas a título de referência. O leitor entenderá como os recursos identificados nessas implementações podem ser prontamente combinados com conjuntos de características de base identificadas em outras implementações.

[00729] O método inclui chamada de base a cada um dos analitos em um dado ciclo de sequenciamento combinando representações de estado oculto atuais para frente e para trás do dado ciclo de sequenciamento com base em etapa de tempo e produzir uma representação de estado oculto combinada, processar a representação de estado oculto combinada através de uma ou mais redes totalmente conectadas e produzir uma representação densa, processar a representação densa através de uma camada softmax para produzir semelhanças de bases incorporados a cada um dos analitos no dado ciclo de sequenciamento sendo A, C, T e G, e classificar as bases como A, C, T ou G com base nas semelhanças. Em uma implementação, a combinação inclui concatenação. Em outra implementação, a combinação inclui soma. Em ainda outra implementação, a combinação inclui calcular a média.

[00730] Em uma implementação, cada um dos dados de entrada por ciclo inclui canais de distância que suplementam os canais de imagem e contém distâncias de centro a centro entre os pixels nos canais de imagem correspondentes e um ou mais centros de analito. Em uma implementação, cada um dos dados de entrada por ciclo inclui um canal de alteração de escala que suplementa os canais de imagem e contém valores de alteração de escala baseados em intensidades médias de um ou mais pixels nos canais de imagem. Em uma implementação, a mistura inclui adicionalmente a concatenação das representações convolvidas e dos dados de entrada por ciclo. Em uma implementação, a mistura inclui adicionalmente somar as representações convolvidas e os dados de entrada por ciclo. Em uma implementação, a representação mista achatada é uma matriz bidimensional. Em uma implementação, o subconjunto das representações mistas achatadas é um volume tridimensional. Em uma implementação, a rede neural recorrente aplica convoluções tridimensionais para o volume tridimensional. Em uma implementação, as convoluções tridimensionais usam preenchimento SAME. Em uma implementação, as camadas de convolução usam preenchimento SAME. Em uma implementação, a rede neural recorrente é uma rede de memória de longo e curto prazo (LSTM) que compreende uma porta de entrada, uma porta de ativação, uma porta de esquecer e uma porta de saída. Em tal implementação, o método inclui processar (i) o subconjunto das representações mistas achatadas na janela deslizante atual sobre a pilha e (ii) a representação de estado oculto anterior através da porta de entrada, da porta de ativação, da porta de esquecer e da porta de saída e produzir a representação de estado oculto atual em cada etapa de tempo para cada ciclo de sequenciamento. A porta de entrada, a porta de ativação, a porta de esquecer e a porta de saída aplicam convoluções sobre (i) o subconjunto de representações mistas achatadas na janela deslizante atual sobre a pilha e (ii) a representação de estado oculto atual.

[00731] Outras implementações do método descrito nesta seção podem incluir uma mídia de armazenamento não transitório legível por computador que armazena instruções executáveis por um processador para executar qualquer dos métodos descritos acima. Ainda outra implementação do método descrito nesta seção pode incluir um sistema que inclui memória e um ou mais processadores operáveis para executar instruções, armazenadas na memória, para executar qualquer dos métodos descritos acima.

[00732] Em uma implementação, o método implementado por rede neural de chamada de base inclui convoluir dados de imagem para uma série de ciclos de sequenciamento de uma rodada de sequenciamento através de uma ou mais camadas de convolução de um módulo de convolução e produzir uma ou mais representações de convolvidas dos dados de imagem. Os dados de imagem representam emissões de intensidade de um ou mais analitos e seu plano de fundo circundante. O método inclui a convolução das representações convolvidas e representações de estado oculto anteriores através de um módulo recorrentes e produzir representações de estado oculto atuais. O método inclui o processamento das representações de estado oculto atuais através de um módulo de saída e produzir uma chamada de base para ao menos um dos analitos e para ao menos um dos ciclos de sequenciamento.

[00733] Cada uma das características discutidas na seção da implementação específica para outras implementações se aplica igualmente a esta implementação. Conforme indicado acima, todas as outras características não são repetidas aqui e devem ser consideradas repetidas a título de referência. O leitor entenderá como os recursos identificados nessas implementações podem ser prontamente combinados com conjuntos de características de base identificadas em outras implementações. Outras implementações do método descrito nesta seção podem incluir uma mídia de armazenamento não transitório legível por computador que armazena instruções executáveis por um processador para executar qualquer dos métodos descritos acima. Ainda outra implementação do método descrito nesta seção pode incluir um sistema que inclui memória e um ou mais processadores operáveis para executar instruções, armazenadas na memória, para executar qualquer dos métodos descritos acima. Inferência de pontuações de qualidade

[00734] A presente invenção revela um método implementado por computador para atribuir pontuações de qualidade a bases chamadas por um chamador de base baseado em rede neural. O método inclui quantificar pontuações de classificação das chamadas de base previstas produzidas pelo chamador de base baseado em rede neural em resposta ao processamento de dados de treinamento durante a formação. O método inclui selecionar um conjunto de pontuações de classificação quantificadas. O método inclui, para cada pontuação de classificação quantificada no conjunto, determinar uma taxa de erro de chamada comparando-se suas chamadas de base previstas a chamadas de base de verdade absoluta correspondentes. O método inclui determinar um ajuste entre as pontuações de classificação quantificadas e suas taxas de erro de chamada de base. Ou seja, para cada pontuação de classificação quantizada, é determinado um conjunto de exemplos de treinamento nos dados de treinamento que são atribuídos à pontuação de classificação quantizada. Para cada exemplo de treinamento no determinado conjunto de exemplos de treinamento, a chamada de base prevista para o exemplo de treinamento é comparada com a chamada de base de verdade absoluta para o exemplo de treinamento e uma taxa de erro é determinada a partir da comparação em todo o conjunto determinado de exemplos de treinamento para fornecer a taxa de erro de pontuação de classificação quantizada particular. O método inclui correlacionar as pontuações de qualidade para a as pontuações de classificação quantizadas com base no ajuste.

[00735] Cada uma das características discutidas na seção da implementação específica para outras implementações se aplica igualmente a esta implementação. Conforme indicado acima, todas as outras características não são repetidas aqui e devem ser consideradas repetidas a título de referência. O leitor entenderá como os recursos identificados nessas implementações podem ser prontamente combinados com conjuntos de características de base identificadas em outras implementações.

[00736] Em uma implementação, o conjunto de pontuações de classificação quantificadas inclui um subconjunto das pontuações de clarificação de chamas de base previstas produzidas pelo chamador de base baseado em rede neural em resposta ao processamento dos dados de treinamento durante o treinamento, e as pontuações de classificação são números reais. Em uma implementação, o conjunto de pontuações de classificação quantificadas inclui todas as pontuações de classificação de chamadas de base previstas produzidas pelo chamador de base baseado em rede neural em resposta ao processamento dos dados de treinamento durante o treinamento, e as pontuações de classificação são números reais.

Em uma implementação, as pontuações de classificação são pontuações softmax exponencialmente normalizadas que somam à unidade e são produzidas por uma camada de saída softmax do chamador de base baseado em rede neural.

Em uma implementação, o conjunto de pontuações de classificação quantificadas é selecionado com base em uma fórmula de seleção definida como e aplicada às pontuações softmax.

Em uma implementação, o método inclui, com base na correlação, atribuir as pontuações de qualidade às bases chamadas pelo chamador de base baseado em rede neural durante a inferência.

Em uma implementação, o método inclui atribuir as pontuações de qualidade com base na aplicação de um esquema de correspondência de pontuação de qualidade às bases chamadas pelo chamador de base baseado em rede neural durante a inferência.

Em tal implementação, o esquema mapeia faixas de pontuações de classificação, produzidas pelo chamador de base baseado em rede neural em resposta ao processamento de dados de inferência durante a inferência, a pontuações de classificação quantificadas correspondentes no conjunto.

Em uma implementação, o método inclui, durante a inferência, parar o chamado de base a um analito cuja pontuação de qualidade é abaixo de um limiar definido para um ciclo de chamada de base atual.

Em uma implementação, o método inclui, durante a inferência, parar o chamado de base a um analito cuja pontuação de qualidade média está abaixo de um limiar definido após sucessivos ciclos de chamada de base.

Em uma implementação, um tamanho de amostra usado para comparar as chamadas de base preditas às chamadas de base de verdade absoluta correspondentes é específico para cada pontuação de classificação quantificada. Em uma implementação, um tamanho de amostra usado para comparar as chamadas de base preditas às chamadas de base de verdade absoluta correspondentes é específico para cada pontuação de classificação quantificada. Em uma implementação, o ajuste é determinado com o uso de um modelo de regressão. Em uma implementação, o método inclui, para cada pontuação de classificação quantificada, a determinação de uma taxa de precisão de chamada de base comparando-se suas chamadas de base previstas a chamadas de base de verdade absoluta correspondentes, e determinar o ajuste entre as pontuações de classificação quantificadas e suas taxas de precisão de chamada de base. Em uma implementação, as chamadas de base de verdade absoluta correspondentes são derivadas de amostras humanas e não humanas bem caracterizadas sequenciadas em inúmeros instrumentos de sequenciamento, químicas de sequenciamento e protocolos de sequenciamento.

[00737] Outras implementações do método descrito nesta seção podem incluir uma mídia de armazenamento não transitório legível por computador que armazena instruções executáveis por um processador para executar qualquer dos métodos descritos acima. Ainda outra implementação do método descrito nesta seção pode incluir um sistema que inclui memória e um ou mais processadores operáveis para executar instruções, armazenadas na memória, para executar qualquer dos métodos descritos acima. Previsão de pontuações de qualidade

[00738] É revelada uma pontuação de qualidade baseada em rede neural que é executada em inúmeros processadores, que operam em paralelo, e é acoplada à memória. O sistema compreende uma rede neural convolucional que opera nos inúmeros processadores. A rede neural convolucional é treinada em exemplos de treinamento compreendendo dados de imagens de sequenciamento e rotulados com verdades absolutas de qualidade de chamada de base mediante o uso de uma técnica de atualização de gradiente com base em retropropagação que progressivamente corresponde previsões de qualidade de chamada de base da rede neural com as verdades absolutas de qualidade de chamada de base. O sistema compreende um módulo de entrada da rede neural convolucional que opera em ao menos um dentre os vários processadores e fornece dados provenientes das imagens de sequenciamento capturadas em um ou mais ciclos de sequenciamento para a rede neural convolucional para determinar o estado de qualidade de uma ou mais bases chamadas para um ou mais analitos. O sistema compreende um módulo de saída da rede neural convolucional que opera em ao menos um dentre os vários processadores e traduz a análise pela rede neural convolucional em uma saída que identifica o estado de qualidade das uma ou mais bases chamadas para os um ou mais analitos.

[00739] Cada uma das características discutidas na seção da implementação específica para outras implementações se aplica igualmente a esta implementação. Conforme indicado acima, todas as outras características não são repetidas aqui e devem ser consideradas repetidas a título de referência. O leitor entenderá como os recursos identificados nessas implementações podem ser prontamente combinados com conjuntos de características de base identificadas em outras implementações.

[00740] Em uma implementação, o módulo de saída compreende adicionalmente uma camada de classificação softmax que produz semelhanças para o estado de qualidade sendo de alta qualidade, média qualidade e baixa qualidade. Em tal implementação, com base nas semelhanças, o estado de qualidade é classificado como de alta qualidade, média qualidade ou baixa qualidade. Em uma implantação, a camada de classificação softmax produz semelhanças para o estado de qualidade sendo atribuído a uma pluralidade de pontuações de qualidade. Em tal implementação, com base nas semelhanças, o estado de qualidade é atribuído a uma pontuação de qualidade de uma da pluralidade de pontuações de qualidade. Em uma implementação, as pontuações de qualidade são logaritmicamente baseadas nas probabilidades de erro de chamada de base, e a pluralidade de pontuações de qualidade inclui Q6, Q10, Q43, Q20, Q22, Q27, Q30, Q33, Q37, Q40 e Q50. Em uma implementação, o módulo de saída compreende adicionalmente uma camada de regressão que produz valores contínuos que identificam o estado de qualidade. Em uma implementação, o sistema compreende um módulo de entrada suplementar que suplementa os dados das imagens de sequenciamento com valores preditores de qualidade para as bases chamadas, e fornece os valores preditores de qualidade à rede neural convolucional juntamente com os dados de imagens de sequenciamento. Em uma implementação, os valores preditores de qualidade incluem sobreposição em linha, pureza, faseamento, start5, pontuação de hexâmero, acumulação de motivo, endiness, homopolímero aproximado, decaimento de intensidade, penúltima castidade, sobreposição de sinal com plano de fundo (SOWB), e/ou ajuste G de pureza deslocada. Em uma implementação, os valores preditores de qualidade incluem altura de pico, largura de pico, localização de pico, localizações de pico relativas, razão de altura de pico, razão de espaçamento de pico e/ou correspondência de pico.

[00741] Outras implementações do método descrito nesta seção podem incluir uma mídia de armazenamento não transitório legível por computador que armazena instruções executáveis por um processador para executar qualquer dos métodos descritos acima. Ainda outra implementação do método descrito nesta seção pode incluir um sistema que inclui memória e um ou mais processadores operáveis para executar instruções, armazenadas na memória, para executar qualquer dos métodos descritos acima.

[00742] Revela-se também um método implementado por rede neural de pontuação de qualidade. O método inclui fornecer dados de imagens de sequenciamento capturadas em um ou mais ciclos de sequenciamento a uma rede neural convolucional para determinar o estado de qualidade de uma ou mais bases chamadas para um ou mais analitos. A rede neural convolucional é treinada em exemplos de treinamento compreendendo dados de imagens de sequenciamento e rotulados com verdades absolutas de qualidade de chamada de base. O treinamento compreende o uso de uma técnica de atualização de gradiente baseada em retropropagação que progressivamente corresponde previsões de chamada de base da rede neural convolucional com as verdades absolutas de qualidade de chamada de base. O método inclui traduzir a análise pela rede neural convolucional em uma saída que identifica o estado de qualidade das uma ou mais bases chamadas para os um ou mais analitos.

[00743] Cada uma das características discutidas na seção da implementação específica para outras implementações se aplica igualmente a esta implementação. Conforme indicado acima, todas as outras características não são repetidas aqui e devem ser consideradas repetidas a título de referência. O leitor entenderá como os recursos identificados nessas implementações podem ser prontamente combinados com conjuntos de características de base identificadas em outras implementações.

[00744] Em uma implementação, um método implementado por computador inclui processar dados de entrada para um ou mais analitos através de uma rede neural e produzir uma representação alternativa dos dados de entrada, processar a representação alternativa através de uma camada de saída para produzir uma saída, sendo que a saída identifica semelhanças de uma base incorporada em um analito específico dentre os analitos sendo A, C, T e G, realizar chamadas de bases para um ou mais dos analitos com base na saída, e a determinar a qualidade das bases chamadas com base nas semelhanças identificadas através da saída.

[00745] Cada uma das características discutidas na seção da implementação específica para outras implementações se aplica igualmente a esta implementação. Conforme indicado acima, todas as outras características não são repetidas aqui e devem ser consideradas repetidas a título de referência. O leitor entenderá como os recursos identificados nessas implementações podem ser prontamente combinados com conjuntos de características de base identificadas em outras implementações. Outras implementações do método descrito nesta seção podem incluir uma mídia de armazenamento não transitório legível por computador que armazena instruções executáveis por um processador para executar qualquer dos métodos descritos acima. Ainda outra implementação do método descrito nesta seção pode incluir um sistema que inclui memória e um ou mais processadores operáveis para executar instruções, armazenadas na memória, para executar qualquer dos métodos descritos acima.

[00746] Revela-se um pontuador de qualidade baseado em rede neural, que é executado em vários processadores operam em paralelo e é acoplado à memória. O sistema compreende uma rede neural em execução nos vários processadores, treinada em exemplos de treinamento compreendendo dados de imagens de sequenciamento e rotulados com verdades absolutas de qualidade de chamada de base mediante o uso de uma técnica de atualização de gradiente com base em retropropagação que progressivamente corresponde previsões de qualidade de chamada de base da rede neural com as verdades absolutas de qualidade de chamada de base. O sistema compreende um módulo de entrada da rede neural roda em ao menos um dentre os vários processadores de dados de sequenciamento e fornece as imagens capturadas em um ou mais ciclos de sequenciamento à rede neural para determinar o estado de qualidade de uma ou mais bases chamadas para um ou mais analitos. O sistema compreende um módulo de saída da rede neural que roda em ao menos um dentre os vários processadores e traduz a análise pela rede neural em uma saída que identifica o estado de qualidade das uma ou mais bases chamadas para os um ou mais analitos.

[00747] Cada uma das características discutidas na seção da implementação específica para outras implementações se aplica igualmente a esta implementação. Conforme indicado acima, todas as outras características não são repetidas aqui e devem ser consideradas repetidas a título de referência. O leitor entenderá como os recursos identificados nessas implementações podem ser prontamente combinados com conjuntos de características de base identificadas em outras implementações. Cláusulas

[00748] A revelação inclui também as seguintes cláusulas: Conjunto de cláusulas 1

1. Um método implementado por computador que inclui: processar dados de entrada através de uma rede neural e produzir uma representação alternativa dos dados de entrada, sendo que os dados de entrada incluem dados por ciclo para cada um dos um ou mais ciclos de sequenciamento de uma rodada de sequenciamento, e sendo que os dados por ciclo são indicativos de um ou mais analitos em um respectivo ciclo de sequenciamento; processar a representação alternativa através de uma camada de saída, e produzir uma saída; e fazer chamadas de base a um ou mais dentre os analitos em um ou mais dentre os ciclos de sequenciamento com base na saída.

2. O método implementado por computador, de acordo com a cláusula 1, sendo que os dados por ciclo são indicativos de um plano de fundo circundante no respectivo ciclo dentre os ciclos de sequenciamento.

3. O método implementado por rede neural, de acordo com qualquer uma das cláusulas de 1 a 2, sendo que os dados de entrada são dados de imagem e os dados por ciclo compreendem emissões de intensidade indicativas de um ou mais analitos e do plano de fundo circundante capturados no respectivo ciclo de sequenciamento.

4. O método implementado por computador, de acordo com a cláusula 3, que inclui adicionalmente acompanhar os dados por ciclo com informações de distância suplementares que identificam distâncias entre pixels dos dados por ciclo e aqueles pixels que retratam as emissões de intensidade indicativas de um ou mais dos analitos.

5. O método implementado por computador, de acordo com a cláusula 3, que inclui adicionalmente acompanhar os dados por ciclo com informações suplementares de escala que atribuem valores de escala aos pixels dos dados por ciclo.

6. O método implementado por computador, de acordo com a cláusula 1, sendo que os dados por ciclo são indicativos de uma alteração de tensão elétrica detectada no respectivo ciclo de sequenciamento.

7. O método implementado por computador, de acordo com a cláusula 1, sendo que os dados por ciclo são indicativos de um sinal de corrente elétrica medido no respectivo ciclo de sequenciamento.

8. Um método implementado por rede neural para fazer chamadas de base a analitos sintetizados durante uma rodada de sequenciamento compreendendo uma pluralidade de ciclos de sequenciamento, sendo que o método inclui: convoluir os dados de entrada através de uma rede neural convolucional, a fim de gerar uma representação convoluída dos dados de entrada, sendo que os dados de entrada incluem fragmentos de imagem extraídos de uma ou mais imagens em cada um dentre um conjunto de imagens atual gerado em um ciclo de sequenciamento atual da rodada de sequenciamento, de um ou mais conjuntos de imagens anteriores respectivamente gerados em um ou mais ciclos de sequenciamento da rodada de sequenciamento anterior ao ciclo de sequenciamento atual, e de um ou mais conjuntos de imagens posteriores respectivamente gerados em um ou mais ciclos de sequenciamento da rodada de sequenciamento posterior ao ciclo de sequenciamento atual, sendo que cada um dos fragmentos de imagem representa emissões de intensidade de um analito alvo recebendo chamada de base, e sendo que os dados de entrada incluem adicionalmente informações de distância indicando as respectivas distâncias de pixels do fragmento de imagem a partir de um pixel central do fragmento de imagem; processar a representação convoluída através de uma camada de saída para produzir uma saída; e fazer chamadas de base ao analito-alvo no ciclo de sequenciamento atual com base na saída.

9. O método implementado por rede neural, de acordo com a cláusula 8, que inclui adicionalmente: fornecer como entrada à rede neural convolucional coordenadas de posição dos centros de regiões de imagem representando os respectivos analitos, sendo que a entrada é fornecida a uma primeira camada da rede neural convolucional, sendo que a entrada é fornecida as uma ou mais camadas intermediárias da rede neural convolucional, e sendo que a entrada é fornecida a uma camada final da rede neural convolucional.

10. O método implementado por rede neural, de acordo com qualquer das cláusulas 8 e 9, que inclui adicionalmente: fornecer como entrada à rede neural convolucional um canal de alteração de escala de intensidade que tem valores de alteração de escala correspondentes aos pixels dos fragmentos de imagem, e sendo que os valores de escala são baseados em uma intensidade média dos pixels centrais dos fragmentos de imagem, cada um dos quais contém um analito-alvo específico.

11. O método implementado por rede neural, de acordo com qualquer das cláusulas de 8 a 10, sendo que o canal de redimensionamento de intensidade por pixel inclui um mesmo valor de redimensionamento para todos os pixels dos fragmentos de imagem.

12. O método implementado por rede neural, de acordo com a cláusula 8, sendo que cada fragmento de imagem compreende adicionalmente dados de distância de pixels indicando uma distância entre os respectivos pixels e um analito mais próximo dentre a pluralidade de analitos, sendo que o analito mais próximo dentre a pluralidade de analitos é selecionado com base nas distâncias de centro a centro entre o pixel e cada um dos analitos.

13. O método implementado por rede neural, de acordo com a cláusula 8, sendo que cada fragmento de imagem compreende adicionalmente dados de distância do analito que identificam uma distância de cada pixel do analito a partir de um analito atribuído dentre a pluralidade de analitos selecionado com base na classificação de cada pixel do analito a somente um dentre os analitos.

14. O método implementado por rede neural, de acordo com qualquer uma das cláusulas de 8 a 13, sendo que a convolução dos dados de entrada através da rede neural convolucional, a fim de gerar a representação convoluída dos dados de entrada, compreende: processar separadamente cada conjunto de fragmentos de imagem por ciclo através de uma primeira subrede convolucional da rede neural convolucional para produzir uma representação convoluída intermediária para cada ciclo de sequenciamento, inclusive aplicando convoluções que combinem as informações de intensidade e distância e combinem as representações convoluídas resultantes somente dentro de um ciclo de sequenciamento e não entre ciclos de sequenciamento; processar por grupo as representações convoluídas intermediárias durante sucessivos ciclos de sequenciamento na série através de uma segunda subrede convolucional da rede neural convolucional, a fim de produzir uma representação convoluída final para a série, inclusive aplicando convoluções que combinam as representações convoluídas intermediárias e combinam as representações convoluídas resultantes entre os ciclos de sequenciamento; e sendo que processar a representação convoluída através da camada de saída para produzir a saída compreende processar a representação convoluída final através da camada de saída.

15. O método implementado por rede neural, de acordo com qualquer das cláusulas de 8 a 14, incluindo adicionalmente: enquadrar novamente os pixels de cada fragmento de imagem para centralizar a um centro do analito-alvo em um pixel central para gerar fragmentos de imagem enquadrados novamente; e sendo que convoluir os dados de entrada através da rede neural convolucional para gerar a representação convoluída dos dados de entrada compreende convoluir os fragmentos de imagem reenquadrados através da rede neural convolucional, a fim de gerar a representação convoluída.

16. O método implementado por rede neural, de acordo com a cláusula 15, sendo que o novo enquadramento inclui adicionalmente a interpolação de intensidade dos pixels de cada fragmento de imagem, a fim de compensar pelo novo enquadramento.

17. Um método de chamada de base implementado por rede neural, sendo que o método inclui:

processar separadamente cada dado de entrada por ciclo em uma sequência de dados de entrada por ciclo através de uma cascata de camadas de convolução da rede neural convolucional, sendo que a sequência de dados de entrada por ciclo é gerada para uma série de ciclos de sequenciamento de uma rodada de sequenciamento, e cada dado de entrada por ciclo inclui canais de imagem que retratam emissões de intensidade de um ou mais analitos e seus planos de fundo circundantes capturados em um respectivo ciclo de sequenciamento; para cada ciclo de sequenciamento, com base no processamento separado, produzir uma representação convoluída em cada uma das camadas de convolução, produzindo assim uma sequência de representações convoluídas, misturar seus dados de entrada por ciclo com sua correspondente sequência de representações convoluídas, e produzir uma representação mista, e achatar sua representação mista e produzir uma representação mista achatada; dispor as representações mistas achatadas de sucessivos ciclos de sequenciamento sob a forma de uma pilha; processar a pilha nas direções de avanço e retrocesso através de uma rede neural recorrente que convolui sobre um subconjunto das representações mistas achatadas na pilha em uma base de janelas deslizantes, com cada janela deslizante correspondendo a um respectivo ciclo de sequenciamento, e sucessivamente produz uma representação atual de estado oculto em cada etapa de tempo para cada ciclo de sequenciamento com base no (i) subconjunto das representações mistas planas em uma janela deslizante atual sobre a pilha e (ii) uma representação anterior de estado oculto; e fazer chamada de base a cada um dos analitos em cada um dos ciclos de sequenciamento, com base nos resultados de processamento da pilha nas direções para frente e para trás.

18. O método implementado por rede neural, de acordo com a cláusula 17, que inclui adicionalmente: fazer chamadas de base a cada um dos analitos em um dado ciclo de sequenciamento, por meio de: combinar representações de estado oculto de avanço e retrocesso atuais do dado ciclo de sequenciamento com base em diferença de tempo e produzir uma representação de estado oculto combinada, sendo que a combinação inclui concatenação, ou adição, ou cálculo de média; processar a representação de estado oculto combinada através de uma ou mais redes completamente conectadas, e produzir uma representação densa; processar a representação densa através de uma camada softmax para produzir semelhanças de bases incorporadas em cada um dos analitos no dado ciclo de sequenciamento serem A, C, T e G; e classificar as bases como A, C, T ou G, com base nas probabilidades.

19. Um sistema para chamada de base baseado em rede neural, sendo que o sistema compreende: uma rede neural híbrida com um módulo recorrente e um módulo de convolução, sendo que o módulo recorrente usa entradas provenientes do módulo de convolução; o módulo de convolução que processa dados de imagem durante uma série de ciclos de sequenciamento de uma rodada de sequenciamento através de uma ou mais camadas de convolução e produz uma ou mais retratações convoluídas dos dados de imagem, sendo que os dados de imagem retratam emissões de intensidade de um ou mais analitos e seus planos de fundo circundantes;

o módulo recorrente, que produz representações de estado oculto atuais com base na convolução das representações convoluídas e as representações de estado oculto anteriores; e um módulo de saída que produz uma chamada de base para ao menos um dentre os analitos e para ao menos um dentre os ciclos de sequenciamento, com base nas representações de estado oculto atuais.

20. Um método implementado por computador para fazer chamadas de base a agrupamentos, sendo que o método inclui: processar os dados de entrada através de uma rede neural e produzir uma representação alternativa dos dados de entrada, sendo que os dados de entrada incluem (i) dados por ciclo para cada um dentre um ou mais ciclos de sequenciamento de uma rodada de sequenciamento e (ii) informações suplementares de distância, sendo que os dados por ciclo compreendem pixels que representam as emissões de intensidade indicativas de um ou mais agrupamentos e do plano de fundo circundante capturado em um respectivo ciclo de sequenciamento, sendo que os dados por ciclo são acompanhados pelas informações suplementares de distância, que identificam distâncias entre os pixels dos dados por ciclo; sendo que, durante o processamento dos pixels dos dados por ciclo pela rede neural, as informações suplementares de distância fornecem ajuste aditivo que transmite à rede neural quais dos pixels dos dados por ciclo contêm centros dos agrupamentos e quais dos pixels dos dados por ciclo estão mais distantes dos centros dos agrupamentos; processar a representação alternativa através de uma camada de saída, e produzir uma saída; e fazer chamadas de base a um ou mais dentre os agrupamentos em um ou mais dentre os ciclos de sequenciamento com base na saída.

21. O método implementado por computador, de acordo a cláusula 20, sendo que o ajusto aditivo melhora a precisão da chamada de base.

22. O método implementado por computador, de acordo com a cláusula 21, sendo que a rede neural usa as informações suplementares de distância para atribuir um sinal de sequenciamento ao seu agrupamento de origem adequado mediante a atenção a pixels centrais do agrupamento, a pixels vizinhos e a representações alternativas derivadas dos mesmos mais do que a pixels perimetrais do agrupamento, pixels de plano de fundo e representações alternativas derivadas dos mesmos.

23. Um método implementado por computador para fazer chamadas de base a agrupamentos, sendo que o método inclui: processar dados de entrada através de uma rede neural e produzir uma representação alternativa dos dados de entrada, sendo que os dados de entrada incluem (i) dados por ciclo para cada um dentre um ou mais ciclos de sequenciamento de uma rodada de sequenciamento, que compreendem pixels que representam emissões de intensidade indicativas dos um ou mais agrupamentos em um respectivo ciclo dentre os ciclos de sequenciamento, e (ii) informações suplementares de distância, que identificam distâncias entre os pixels dos dados por ciclo; sendo que, durante o processamento dos pixels dos dados por ciclo pela rede neural, as informações suplementares de distância acompanham os dados por ciclo e transmitem à rede neural quais dos pixels dos dados por ciclo contêm centros dos agrupamentos, e quais dos pixels dos dados por ciclo estão mais distantes dos centros dos agrupamentos; processar a representação alternativa através de uma camada de saída, e produzir uma saída; e fazer chamadas de base a um ou mais dentre os agrupamentos em um ou mais dentre os ciclos de sequenciamento com base na saída.

24. O método implementado por computador, de acordo com a cláusula 1, sendo que as informações suplementares de distância melhoraram a precisão da chamada de base.

25. O método implementado por computador, de acordo com a reivindicação 24, sendo que a rede neural usa as informações suplementares de distância para atribuir um sinal de sequenciamento a seu agrupamento de origem adequado mediante a atenção a pixels centrais do agrupamento, a pixels vizinhos e a representações alternativas dos mesmos mais do que a pixels perimetrais do agrupamento, pixels de plano de fundo e representações alternativas derivadas dos mesmos. Conjunto de cláusulas 2

1. Um método implementado por computador que inclui: processar dados de entrada para um ou mais analitos através de um chamador de base baseado em rede neural e produzir uma representação alternativa dos dados de entrada; processar a representação alternativa através de uma camada de saída para produzir uma saída, sendo que a saída identifica semelhanças de uma base incorporada em um analito específico dentre os analitos serem A, C, T e G; realizar chamada de base para um ou mais dos analitos com base na saída; e determinar pontuações de qualidade das bases chamadas com base nas semelhanças identificadas pela saída.

2. O método implementado por computador, de acordo com a cláusula 1, sendo que determinar as pontuações de qualidade das bases chamadas com base nas semelhanças compreende:

quantificar pontuações de classificação das chamadas de base produzidas pelo chamador de base baseado em rede neural em resposta ao processamento de dados de treinamento durante a formação; selecionar um conjunto de pontuações de classificação quantificadas; para cada pontuação de classificação quantificada no conjunto, determinar uma taxa de erro de chamada comparando-se suas chamadas de base previstas a chamadas de base de verdade absoluta correspondentes; determinar um ajuste entre as pontuações de classificação quantificadas e suas taxas de erro de chamada de base; e correlacionar as pontuações de qualidade às pontuações de classificação quantificadas com base no ajuste.

3. O método implementado por computador, de acordo com qualquer das cláusulas de 1 e 2, sendo que o conjunto de pontuações de classificação quantificadas inclui um subconjunto das pontuações de clarificação de chamas de base previstas produzidas pelo chamador de base baseado em rede neural em resposta ao processamento dos dados de treinamento durante o treinamento, e sendo que as pontuações de classificação são números reais.

4. O método implementado por computador, de acordo com qualquer das cláusulas de 1 a 3, sendo que o conjunto de pontuações de classificação quantificadas inclui todas as pontuações de classificação de chamadas de base previstas produzidas pelo chamador de base baseado em rede neural em resposta ao processamento dos dados de treinamento durante o treinamento, e sendo que as pontuações de classificação são números reais.

5. O método implementado por computador, de acordo com qualquer uma das cláusulas de 1 a 4, sendo que as pontuações de classificação são pontuações softmax exponencialmente normalizadas que somam à unidade e são produzidas por uma camada de saída softmax do chamador de base baseado em rede neural.

6. O método implementado por computador, de acordo com qualquer uma das cláusulas de 1 a 5, sendo que o conjunto de pontuações de classificação quantificadas é selecionado com base em uma fórmula de seleção definida como e aplicada às pontuações softmax.

7. O método implementado por computador, de acordo com qualquer das cláusulas de 1 a 6, sendo que o conjunto de pontuações de classificação quantificadas é selecionado com base em uma fórmula de seleção definida como e aplicada às pontuações softmax.

8. O método implementado por computador, de acordo com qualquer uma das cláusulas de 1 a 7, que inclui adicionalmente: com base na correlação, atribuir as pontuações de qualidade às bases chamadas pelo chamador de base baseado em rede neural durante a inferência.

9. O método implementado por computador, de acordo com a cláusula 8, que inclui adicionalmente: atribuir as pontuações de qualidade com base na aplicação de um esquema de correspondência de pontuação de qualidade às bases chamadas pelo chamador de base baseado em rede neural durante a inferência; e sendo que o esquema mapeia faixas de pontuações de classificação, produzidas pelo chamador de base baseado em rede neural em resposta ao processamento de dados de inferência durante a inferência, a pontuações de classificação quantificadas correspondentes no conjunto.

10. O método implementado por computador, de acordo com qualquer uma das cláusulas de 8 a 9, que inclui adicionalmente: durante a inferência, parar o chamado de base a um analito cuja pontuação de qualidade é abaixo de um limiar definido para um ciclo de chamada de base atual.

11. O método implementado por computador, de acordo com qualquer uma das cláusulas de 8 a 10, que inclui adicionalmente:

durante a inferência, parar o chamado de base a um analito cuja pontuação de qualidade média está abaixo de um limiar definido após sucessivos ciclos de chamada de base.

12. O método implementado por computador, de acordo com qualquer uma das cláusulas de 8 a 11, sendo que um tamanho de amostra usado para comparar as chamadas de base previstas às chamadas de base de verdade absoluta correspondentes é específico a cada pontuação de classificação quantificada.

13. O método implementado por computador, de acordo com qualquer uma das cláusulas de 8 a 12, sendo que o ajuste é determinado com o uso de um modelo de regressão.

14. O método implementado por computador, de acordo com qualquer uma das cláusulas de 8 a 13, que inclui adicionalmente: para cada pontuação de classificação quantificada, a determinação de uma taxa de precisão de chamada de base comparando-se suas chamadas de base previstas a chamadas de base de verdade absoluta correspondentes; e determinar o ajuste entre as pontuações de classificação quantificadas e suas taxas de precisão de chamada de base.

15. O método implementado por computador, de acordo com qualquer uma das cláusulas de 8 a 14, sendo que as chamadas de base de verdade absoluta correspondentes são derivadas de amostras humanas e não humanas bem caracterizadas sequenciadas em inúmeros instrumentos de sequenciamento, químicas de sequenciamento e protocolos de sequenciamento.

16. Um pontuador de qualidade baseado em rede neural que compreende: vários processadores operam em paralelo e acoplados à memória; uma rede neural em execução nos vários processadores, treinada em exemplos de treinamento compreendendo dados de imagens de sequenciamento e rotulados com verdades absolutas de qualidade de chamada de base mediante o uso de uma técnica de atualização de gradiente com base em retropropagação que progressivamente corresponde previsões de qualidade de chamada de base da rede neural com as verdades absolutas de qualidade de chamada de base que identificam chamadas de base corretas conhecidas; um módulo de entrada da rede neural que executa em menos um dentre os vários processadores e fornece dados provenientes das imagens de sequenciamento capturadas em um ou mais ciclos de sequenciamento para a rede neural para determinar a qualidade de uma ou mais bases chamadas para um ou mais analitos; e um módulo de saída da rede neural que executa em ao menos um dentre os vários processadores e traduz a análise pela rede neural em uma saída que identifica a qualidade das uma ou mais bases chamadas para os um ou mais analitos.

17. O pontuador de qualidade baseado em rede neural, de acordo com a cláusula 16, sendo que a rede neural é uma rede neural convolucional.

18. O pontuador de qualidade baseado em rede neural, de acordo com a cláusula 16, sendo que o módulo de saída compreende adicionalmente uma camada de classificação softmax que produz semelhanças para a qualidade ser de alta qualidade, média qualidade e baixa qualidade, que compreende adicionalmente: com base nas semelhanças, classificar a qualidade como de alta qualidade, média qualidade ou de baixa qualidade.

19. O pontuador de qualidade baseado em rede neural, de acordo com a cláusula 16, sendo que a camada de classificação softmax produz semelhanças de atribuir à qualidade uma pluralidade de pontuações de qualidade, que compreende adicionalmente:

com base nas semelhanças, atribuir à qualidade uma pontuação de qualidade de uma dentre a pluralidade de pontuações de qualidade.

20. O pontuador de qualidade baseado em rede neural, de acordo com qualquer uma das cláusulas de 16 a 19, sendo que as pontuações de qualidade são baseadas de modo logarítmico em probabilidades de erro de chamando de base, e sendo que a pluralidade de pontuações de qualidade inclui Q6, Q10, Q15, Q20, Q22, Q27, Q30, Q33, Q37, Q40 e Q50.

21. O pontuador de qualidade baseado em rede neural, de acordo com qualquer uma das cláusulas de 16 a 20, sendo que o módulo de saída compreende adicionalmente uma camada de regressão que produz valores contínuos que identificam a qualidade.

22. O pontuador de qualidade baseado em rede neural, de acordo com qualquer uma das cláusulas de 16 a 21, que compreende adicionalmente: um módulo de entrada suplementar que suplementa os dados das imagens de sequenciamento com valores preditores de qualidade para as bases chamadas, e fornece os valores preditores de qualidade à rede neural convolucional juntamente com os dados de imagens de sequenciamento.

23. O pontuador de qualidade baseado em rede neural, de acordo com a cláusula 22, sendo que os valores preditores de qualidade incluem sobreposição em linha, pureza, faseamento, start5, pontuação de hexâmero, acumulação de motivo, endiness, homopolímero aproximado, decaimento de intensidade, penúltima castidade, sobreposição de sinal com plano de fundo (SOWB), e/ou ajuste G de pureza deslocada.

24. O pontuador de qualidade baseado em rede neural, de acordo com a cláusula 22, sendo que os valores preditores de qualidade incluem a altura de pico, largura de pico, local de pico, localizações de pico relativas, razão de altura de pico, razão de espaçamento de pico e/ou correspondência de pico.

Claims

REIVINDICAÇÕES

1. Método implementado por computador para executar chamadas de base a agrupamentos, sendo o método caracterizado por incluir: processar dados de entrada através de uma rede neural e produzir uma representação alternativa dos dados de entrada, sendo que os dados de entrada incluem (i) dados por ciclo para cada um dentre um ou mais ciclos de sequenciamento de uma rodada de sequenciamento, que compreendem pixels que representam emissões de intensidade indicativas dos um ou mais agrupamentos em um respectivo ciclo dentre os ciclos de sequenciamento, e (ii) informações suplementares de distância, que identificam distâncias entre os pixels dos dados por ciclo; sendo que, durante o processamento dos pixels dos dados por ciclo pela rede neural, as informações suplementares de distância acompanham os dados por ciclo e transmitem à rede neural quais dos pixels dos dados por ciclo contêm centros dos agrupamentos, e quais dos pixels dos dados por ciclo estão mais distantes dos centros dos agrupamentos; processar a representação alternativa através de uma camada de saída, e produzir uma saída; e executar chamadas de base a um ou mais dentre os agrupamentos em um ou mais dentre os ciclos de sequenciamento com base na saída.

2. Método implementado por computador, de acordo com a reivindicação 1, caracterizado por os dados por ciclo serem indicativos de um plano de fundo circundante no respectivo ciclo dentre os ciclos de sequenciamento.

3. Método implementado por computador, de acordo com qualquer das reivindicações 1 e 2, caracterizado por as informações suplementares de distância melhorarem a exatidão da chamada de base.

4. Método implementado por computador, de acordo com a reivindicação 3, caracterizado por a rede neural usar as informações suplementares de distância para atribuir um sinal de sequenciamento a seu agrupamento de origem adequado, mediante a atenção a pixels centrais do agrupamento, a pixels vizinhos a eles e a representações alternativas deles derivadas, mais do que a pixels perimetrais do agrupamento, pixels de plano de fundo e representações alternativas deles derivadas.

5. Método implementado por computador, de acordo com a reivindicação 1, caracterizado por incluir adicionalmente acompanhar os dados por ciclo com informações suplementares de escala que atribui valores de escala aos pixels dos dados por ciclo.

6. Método implementado por computador, de acordo com a reivindicação 1, caracterizado por os dados por ciclo serem indicativos de uma alteração de tensão elétrica detectada no respectivo ciclo de sequenciamento.

7. Método implementado por computador, de acordo com a reivindicação 1, caracterizado por os dados por ciclo serem indicativos de um sinal de corrente elétrica medido no respectivo ciclo de sequenciamento.

8. Método implementado por rede neural para executar chamadas de base a agrupamentos sintetizados durante uma rodada de sequenciamento compreendendo uma pluralidade de ciclos de sequenciamento, sendo o método caracterizado por incluir: convoluir os dados de entrada através de uma rede neural convolucional, a fim de gerar uma representação convoluída dos dados de entrada, sendo que os dados de entrada incluem fragmentos de imagem extraídos de uma ou mais imagens em cada um dentre um conjunto de imagens atual gerado em um ciclo de sequenciamento atual da rodada de sequenciamento, de um ou mais conjuntos de imagens anteriores respectivamente gerados em um ou mais ciclos de sequenciamento da rodada de sequenciamento anterior ao ciclo de sequenciamento atual, e de um ou mais conjuntos de imagens posteriores respectivamente gerados em um ou mais ciclos de sequenciamento da rodada de sequenciamento posterior ao ciclo de sequenciamento atual, sendo que cada um dos fragmentos de imagem representa emissões de intensidade de um agrupamento-alvo ao qual se está fazendo uma chamada de base, e sendo que os dados de entrada incluem adicionalmente informações de distância indicando as respectivas distâncias de pixels do fragmento de imagem a partir de um pixel central do fragmento de imagem; processar a representação convoluída através de uma camada de saída para produzir uma saída; e executar chamadas de base ao agrupamento-alvo no ciclo de sequenciamento atual com base na saída.

9. Método implementado por rede neural, de acordo com a reivindicação 8, caracterizado por incluir adicionalmente: fornecer como entrada à rede neural convolucional coordenadas de posição dos centros de regiões de imagem representando os respectivos agrupamentos, sendo que a entrada é fornecida a uma primeira camada da rede neural convolucional, sendo que a entrada é fornecida a uma ou mais camadas intermediárias da rede neural convolucional, e sendo que a entrada é fornecida a uma camada final da rede neural convolucional.

10. Método implementado por rede neural, de acordo com qualquer das reivindicações 8 e 9, caracterizado por incluir adicionalmente:

fornecer como entrada à rede neural convolucional um canal de alteração de escala de intensidade que tem valores de alteração de escala correspondentes aos pixels dos fragmentos de imagem, e sendo que os valores de alteração de escala são baseados em uma intensidade média dos pixels centrais dos fragmentos de imagem, cada um dos quais contém um agrupamento-alvo específico.

11. Método implementado por rede neural, de acordo com qualquer das reivindicações 8 a 10, caracterizado por o canal de alteração de esc ala de intensidade por pixel incluir um mesmo valor de alteração de escala para todos os pixels dos fragmentos de imagem.

12. Método implementado por rede neural, de acordo com a reivindicação 8, caracterizado por cada fragmento de imagem compreender adicionalmente dados de distância de pixels indicando uma distância entre os respectivos pixels e um agrupamento mais próximo dentre a pluralidade de agrupamentos, sendo que o agrupamento mais próximo dentre a pluralidade de agrupamentos é selecionado com base nas distâncias de centro a centro entre o pixel e cada um dos agrupamentos.

13. Método implementado por rede neural, de acordo com a reivindicação 8, caracterizado por cada fragmento de imagem compreender adicionalmente dados de distância do agrupamento que identificam uma distância de cada pixel do agrupamento a partir de um agrupamento atribuído dentre a pluralidade de agrupamentos selecionado com base na classificação de cada pixel do agrupamento a somente um dentre os agrupamentos.

14. Método implementado por rede neural, de acordo com qualquer das reivindicações 8 a 13, caracterizado por a convolução dos dados de entrada através da rede neural convolucional, a fim de gerar a representação convoluída dos dados de entrada, compreender: processar separadamente cada conjunto de fragmentos de imagem por ciclo através de uma primeira subrede convolucional da rede neural convolucional para produzir uma representação convoluída intermediária para cada ciclo de sequenciamento, inclusive aplicando convoluções que combinem as informações de intensidade e distância e combinem as representações convoluídas resultantes somente dentro de um ciclo de sequenciamento e não entre ciclos de sequenciamento; processar por grupo as representações convoluídas intermediárias durante sucessivos ciclos de sequenciamento na série através de uma segunda subrede convolucional da rede neural convolucional, a fim de produzir uma representação convoluída final para a série, inclusive aplicando convoluções que combinam as representações convoluídas intermediárias e combinam as representações convoluídas resultantes entre os ciclos de sequenciamento; e sendo que processar a representação convoluída através da camada de saída para produzir a saída compreende processar a representação convoluída final através da camada de saída.

15. Método implementado por rede neural, de acordo com qualquer das reivindicações 8 a 14, caracterizado por incluir adicionalmente: reenquadrar os pixels de cada fragmento de imagem para centralizar um centro do agrupamento-alvo em um pixel central, a fim de gerar fragmentos de imagem reenquadrados; e sendo que convoluir os dados de entrada através da rede neural convolucional para gerar a representação convoluída dos dados de entrada compreende convoluir os fragmentos de imagem reenquadrados através da rede neural convolucional, a fim de gerar a representação convoluída.

16. Método implementado por rede neural, de acordo com a reivindicação 15, caracterizado por o reenquadramento incluir adicionalmente a interpolação de intensidade dos pixels de cada fragmento de imagem, a fim de compensar pelo reenquadramento.

17. Método de chamada de base implementado por rede neural, sendo o método caracterizado por incluir:

processar separadamente cada dado de entrada por ciclo em uma sequência de dados de entrada por ciclo através de uma cascata de camadas de convolução da rede neural convolucional, sendo que a sequência de dados de entrada por ciclo é gerada para uma série de ciclos de sequenciamento de uma rodada de sequenciamento, e cada dado de entrada por ciclo inclui canais de imagem que representam emissões de intensidade de um ou mais agrupamentos e seus planos de fundo circundantes capturados em um respectivo ciclo de sequenciamento; para cada ciclo de sequenciamento, com base no processamento separado, produzir uma representação convoluída em cada uma das camadas de convolução, produzindo assim uma sequência de representações convoluídas, misturar seus dados de entrada por ciclo com sua correspondente sequência de representações convoluídas, e produzir uma representação mista, e achatar sua representação mista e produzir uma representação mista achatada; dispor as representações mistas achatadas de sucessivos ciclos de sequenciamento sob a forma de uma pilha; processar a pilha nas direções de avanço e retrocesso através de uma rede neural recorrente que convolui sobre um subconjunto das representações mistas achatadas na pilha em uma base de janelas deslizantes, com cada janela deslizante correspondendo a um respectivo ciclo de sequenciamento, e sucessivamente produz uma representação de estado oculto atual a cada diferença de tempo para cada ciclo de sequenciamento com base em (i) o subconjunto das representações mistas achatadas em uma janela deslizante atual sobre a pilha, e (ii) uma representação de estado oculto anterior; e executar chamadas de base a cada um dos agrupamentos em cada um dos ciclos de sequenciamento, com base nos resultados de processamento da pilha nas direções de avanço e retrocesso.

18. Método implementado por rede neural, de acordo com a reivindicação 17, caracterizado por incluir adicionalmente: executar chamadas de base a cada um dos agrupamentos em um dado ciclo de sequenciamento, por meio de: combinar representações de estado oculto de avanço e retrocesso atuais do dado ciclo de sequenciamento com base em diferença de tempo e produzir uma representação de estado oculto combinada, sendo que a combinação inclui concatenação, ou adição, ou cálculo de média; processar a representação de estado oculto combinada através de uma ou mais redes completamente conectadas, e produzir uma representação densa; processar a representação densa através de uma camada softmax para produzir probabilidades de bases incorporadas em cada um dos agrupamentos no dado ciclo de sequenciamento serem A, C, T e G; e classificar as bases como A, C, T ou G, com base nas probabilidades.

19. Sistema para chamada de base baseado em rede neural, sendo o sistema caracterizado por compreender: uma rede neural híbrida com um módulo recorrente e um módulo de convolução, sendo que o módulo recorrente usa entradas provenientes do módulo de convolução; o módulo de convolução, que processa dados de imagem durante uma série de ciclos de sequenciamento de uma rodada de sequenciamento através de uma ou mais camadas de convolução, e produz uma ou mais representações convoluídas dos dados de imagem, sendo que os dados de imagem representam emissões de intensidade de um ou mais agrupamentos e seus planos de fundo circundantes;

o módulo recorrente, que produz representações de estado oculto atuais com base na convolução das representações convoluídas e as representações de estado oculto anteriores; e um módulo de saída, que produz uma chamada de base para ao menos um dentre os agrupamentos e para ao menos um dentre os ciclos de sequenciamento, com base nas representações de estado oculto atuais.