BR112020026408A2

BR112020026408A2 - geração de dados de treinamento para sequenciamento baseado em inteligência artificial

Info

Publication number: BR112020026408A2
Application number: BR112020026408-3A
Authority: BR
Inventors: Anindita DUTTA; Dorna KASHEFHAGHIGHI; Amirali KIA
Original assignee: Illumina, Inc.
Priority date: 2019-03-21
Filing date: 2020-03-21
Publication date: 2021-03-23
Also published as: US20220292297A1; KR20210142529A; KR20210145115A; IL279522A; JP2022535306A; EP3942070A1; MX2020014288A; IL279533A; JP2022525267A; MX2020014299A; EP3942073A2; BR112020026433A2; IL279525A; SG11202012441QA; AU2020241905A1; EP3942074A2; BR112020026455A2; SG11202012463YA; US20230268033A1; JP2022526470A

Abstract

A tecnologia revelada se refere à geração de dados de treinamento de verdade absoluta para treinar um gerador de modelo verdade absoluta para a tarefa de determinação de metadados de cluster. Em particular, ela se refere a acessar imagens de sequenciamento, obter, a partir de um chamador de base, uma chamada de base que classifica cada subpixel nas imagens de sequenciamento como uma das quatros bases (A, C, T, e G), gerar um mapa de clusters que identifica clusters como regiões disjuntas de subpixels contíguos que compartilham um sequência de chamadas de base substancialmente correspondente, determinar os metadados de cluster com base nas regiões disjuntas no mapa de clusters, e usar os metadados de cluster para gerar os dados de treinamento de verdade absoluta para treinar o gerador de modelo baseado em rede neural para a tarefa de determinação de metadados de cluster.

Description

GERAÇÃO DE DADOS DE TREINAMENTO PARA SEQUENCIAMENTO BASEADO EM INTELIGÊNCIA ARTIFICIAL PRIORIDADE APLICAÇÕES

[0001] Este pedido reivindica a prioridade ou o benefício dos seguintes pedidos de patente:

[0002] Pedido de patente provisório US n° 62/821.602, intitulado "Training Data Generation for Artificial IntelligenceBased Sequencing", depositado em 21 de março de 2019 (n° do documento do procurador ILLM 1008-1/IP-1693-PRV);

[0003] pedido de patente provisório US n° 62/821.618, intitulado "Artificial Intelligence-Based Generation of Sequencing Metadata", depositado em 21 de março de 2019 (n° do documento do procurador ILLM 1008-3/IP-1741-PRV);

[0004] pedido de patente provisório US n° 62/821.681, intitulado "Artificial Intelligence-Based Base Calling", depositado em 21 de março de 2019 (n° do documento do procurador ILLM 1008-4/IP-1744-PRV);

[0005] pedido de patente provisório US n° 62/821.724, intitulado "Artificial Intelligence-Based Quality Scoring", depositado em 21 de março de 2019 (n° do documento do procurador ILLM 1008-7/IP-1747-PRV);

[0006] pedido de patente provisório US n° 62/821.766, intitulado "Artificial Intelligence-Based Sequencing", depositado em 21 de março de 2019 (n° do documento do procurador ILLM 1008-9/IP-1752-PRV);

[0007] pedido NL n° 2023310, intitulado "Training Data Generation for Artificial Intelligence-Based Sequencing", depositado em 14 de junho de 2019 (n° do documento do procurador ILLM 1008-11/IP-1693- NL);

[0008] pedido NL n° 2023311, intitulado "Artificial Intelligence- Based Generation of Sequencing Metadata", depositado em 14 de junho de 2019 (n° do documento do procurador ILLM 1008-12/IP-1741-NL);

[0009] pedido NL n° 2023312, intitulado "Artificial Intelligence- Based Base Calling", depositado em 14 de junho de 2019 (n° do documento do procurador ILLM 1008-13/IP-1744-NL);

[0010] pedido NL n° 2023314, intitulado "Artificial Intelligence- Based Quality Scoring", depositado em 14 de junho de 2019 (n° do documento do procurador ILLM 1008-14/IP-1747-NL);

[0011] pedido NL n° 2023316, intitulado "Artificial Intelligence- Based Sequencing", depositado em 14 de junho de 2019 (n° do documento do procurador ILLM 1008-15/IP-1752-NL); e

[0012] pedido de patente não provisório US n° 16/825.987, intitulado "Training Data Generation for Artificial Intelligence-Based Sequencing", depositado em 20 de março de 2020 (n° do documento do procurador ILLM 1008-16/IP-1693-US);

[0013] pedido de patente não provisório US n° 16/825.991, intitulado "Training Data Generation for Artificial Intelligence-Based Sequencing", depositado em 20 de março de 2020 (n° do documento do procurador ILLM 1008-17/IP-1741-US);

[0014] pedido de patente não provisório US n° 16/826.126, intitulado "Artificial Intelligence-Based Base Calling", depositado em 20 de março de 2020 (n° do documento do procurador ILLM 1008-18/IP-1744- US);

[0015] pedido de patente não provisório US n° 16/826.134, intitulado "Artificial Intelligence-Based Quality Scoring", depositado em 20 de março de 2020 (n° do documento do procurador ILLM 1008-19/IP-1747- US);

[0016] pedido de patente provisório US n° 16/826.168, intitulado "Artificial Intelligence-Based Sequencing", depositado em 21 de março de 2020 (n° do documento do procurador ILLM 1008-20/IP-1752-PRV);

[0017] pedido de patente PCT n° PCT___________, intitulado "Artificial Intelligence-Based Generation of Sequencing Metadata", (n° do documento do procurador ILLM 1008-22/IP-1741-PCT) depositado simultaneamente, subsequentemente publicado como publicação PCT n° WO ____________;

[0018] pedido de patente PCT n° PCT___________, intitulado "Artificial Intelligence-Based Base Calling", (n° do documento do procurador ILLM 1008-23/IP-1744-PCT) depositado simultaneamente, subsequentemente publicado como publicação PCT n° WO ____________;

[0019] pedido de patente PCT n° PCT___________, intitulado "Artificial Intelligence-Based Quality Scoring", (n° do documento do procurador ILLM 1008-24/IP-1747-PCT) depositado simultaneamente, subsequentemente publicado como publicação PCT n° WO ____________; e

[0020] pedido de patente PCT n° PCT___________, intitulado "Artificial Intelligence-Based Sequencing", (n° do documento do procurador ILLM 1008-25/IP-1752-PCT) depositado simultaneamente, subsequentemente publicado como publicação PCT n° WO ____________.

[0021] Os pedidos de prioridade estão aqui incorporados a título de referência para todos os propósitos como se estivessem completamente aqui apresentados.

INCORPORAÇÕES

[0022] Os documentos a seguir estão aqui incorporados, a título de referência, para todos os propósitos como se completamente apresentados no presente documento:

[0023] Pedido de patente provisório US n° 62/849.091, intitulado, "Systems and Devices for Characterization and Performance Analysis of Pixel-Based Sequencing", depositado em 16 de maio de 2019 (n° do documento do procurador ILLM 1011-1/IP-1750-PRV);

[0024] pedido de patente provisório US n° 62/849.132, intitulado,"Base Calling Using Convolutions", depositado em 16 de maio de 2019 (n° do documento do procurador ILLM 1011-2/IP-1750-PR2);

[0025] pedido de patente provisório US n° 62/849.133, intitulado, "Base Calling Using Compact Convolutions", depositado em 16 de maio de 2019 (n° do documento do procurador ILLM 1011-3/IP-1750- PR3);

[0026] pedido de patente provisório US n° 62/979.384, intitulado, "Artificial Intelligence-Based Base Calling of Index Sequences", depositado em 20 de fevereiro de 2020 (n° do documento do procurador ILLM 1015-1/IP-1857-PRV);

[0027] pedido de patente provisório US n° 62/979.414, intitulado, "Artificial Intelligence-Based Many-To-Many Base Calling", depositado em 20 de fevereiro 2020 (n° do documento do procurador ILLM 1016-1/IP-1858-PRV);

[0028] pedido de patente provisório US n° 62/979.385, intitulado, "Knowledge Distillation-Based Compression of Artificial Intelligence-Based Base Caller", depositado em 20 de fevereiro de 2020 (n° do documento do procurador ILLM 1017-1/IP-1859-PRV);

[0029] pedido de patente provisório US n° 62/979.412, intitulado, "Multi-Cycle Cluster Based Real Time Analysis System", depositado em 20 de fevereiro de 2020 (n° do documento do procurador ILLM 1020-1/IP-1866-PRV);

[0030] pedido de patente provisório US n° 62/979.411, intitulado, "Data Compression for Artificial Intelligence-Based Base Calling", depositado em 20 de fevereiro de 2020 (n° do documento do procurador ILLM 1029-1/IP-1964-PRV);

[0031] pedido de patente provisório US n° 62/979.399, intitulado, "Squeezing Layer for Artificial Intelligence-Based Base Calling", depositado em 20 de fevereiro de 2020 (n° do documento do procurador ILLM 1030-1/IP-1982-PRV);

[0032] Liu P, Hemani A, Paul K, Weis C, Jung M, Wehn N. 3D- Stacked Many-Core Architecture for Biological Sequence Analysis Problems. Int J Parallel Prog. 2017; 45(6):1420–60;

[0033] Z. Wu, K. Hammad, R. Mittmann, S. Magierowski, E. Ghafar-Zadeh, e X. Zhong, "FPGA-Based DNA Basecalling Hardware Acceleration", em Proc. IEEE 61° Int. Midwest Symp. Circuits Syst., agosto de 2018, páginas 1098–1101;

[0034] Z. Wu, K. Hammad, E. Ghafar-Zadeh, e S. Magierowski, "FPGA-Accelerated 3rd Generation DNA Sequencing", em IEEE Transactions on Biomedical Circuits and Systems, volume 14, número 1, fevereiro de 2020, páginas 65–74;

[0035] Prabhakar et al., "Plasticine: A Reconfigurable Architecture for Parallel Patterns", ISCA ’17, junho de 24-28, 2017, Toronto, ON, Canadá;

[0036] M. Lin, Q. Chen, e S. Yan, "Network in Network", em Proc. of ICLR, 2014;

[0037] L. Sifre, "Rigid-motion Scattering for Image Classification, tese de Ph.D., 2014;

[0038] L. Sifre e S. Mallat, "Rotation, Scaling and Deformation Invariant Scattering for Texture Discrimination", em Proc. de CVPR, 2013;

[0039] F. Chollet, "Xception: Deep Learning with Depthwise Separable Convolutions", em Proc. of CVPR, 2017;

[0040] X. Zhang, X. Zhou, M. Lin, e J. Sun, "ShuffleNet: An Extremely Efficient Convolutional neural Network for Mobile Devices", em arXiv:1707.01083, 2017;

[0041] K. He, X. Zhang, S. Ren, e J. Sun, "Deep Residual Learning for Image Recognition", em Proc. of CVPR, 2016;

[0042] S. Xie, R. Girshick, P. Dollár, Z. Tu, e K. He, "Aggregated Residual Transformations for Deep neural Networks", em Proc. of CVPR, 2017;

[0043] A. G. Howard, M. Zhu, B. Chen, D. Kalenichenko, W. Wang, T. Weyand, M. Andreetto, e H. Adam, "Mobilenets: Efficient Convolutional neural Networks for Mobile Vision Applications", em arXiv:1704.04861, 2017;

[0044] M. Sandler, A. Howard, M. Zhu, A. Zhmoginov, e L. Chen, "MobileNetV2: Inverted Residuals and Linear Bottlenecks", em arXiv:1801.04381v3, 2018;

[0045] Z. Qin, Z. Zhang, X. Chen, e Y. Peng, "FD-MobileNet: Improved MobileNet with a Fast Downsampling Strategy", em arXiv:1802.03750, 2018;

[0046] Liang-Chieh Chen, George Papandreou, Florian Schroff, e Hartwig Adam. Rethinking atrous convolution for semantic image segmentation. CoRR, abs/1706.05587, 2017;

[0047] J. Huang, V. Rathod, C. Sun, M. Zhu, A. Korattikara, A. Fathi, I. Fischer, Z. Wojna, Y. Song, S. Guadarrama, et al. Speed/accuracy trade-offs for modern convolutional object detectors. arXiv preprint arXiv:1611.10012, 2016;

[0048] S. Dieleman, H. Zen, K. Simonyan, O. Vinyals, A. Graves, N. Kalchbrenner, A. Senior, e K. Kavukcuoglu, "WAVENET: A GENERATIVE MODEL FOR RAW AUDIO", arXiv:1609.03499, 2016;

[0049] S. Ö. Arik, M. Chrzanowski, A. Coates, G. Diamos, A. Gibiansky, Y. Kang, X. Li, J. Miller, A. Ng, J. Raiman, S. Sengupta e M. Shoeybi, "DEEP VOICE: REAL-TIME NEURAL TEXT-TO-SPEECH", arXiv:1702.07825, 2017;

[0050] F. Yu e V. Koltun, "MULTI-SCALE CONTEXT AGGREGATION BY DILATED CONVOLUTIONS", arXiv:1511.07122, 2016;

[0051] K. He, X. Zhang, S. Ren, e J. Sun, "DEEP RESIDUAL LEARNING FOR IMAGE RECOGNITION", arXiv:1512.03385, 2015;

[0052] R.K. Srivastava, K. Greff, e J. Schmidhuber, "HIGHWAY NETWORKS", arXiv: 1505.00387, 2015;

[0053] G. Huang, Z. Liu, L. van der Maaten e K. Q. Weinberger, "DENSELY CONNECTED CONVOLUTIONAL NETWORKS", arXiv:1608.06993, 2017;

[0054] C. Szegedy, W. Liu, Y. Jia, P. Sermanet, S. Reed, D. Anguelov, D. Erhan, V. Vanhoucke, e A. Rabinovich, "GOING DEEPER WITH CONVOLUTIONS", arXiv: 1409.4842, 2014;

[0055] S. Ioffe e C. Szegedy, "BATCH NORMALIZATION:

ACCELERATING DEEP NETWORK TRAINING BY REDUCING INTERNAL COVARIATE SHIFT", arXiv: 1502.03167, 2015;

[0056] J. M. Wolterink, T. Leiner, M. A. Viergever, e I. Išgum, "DILATED CONVOLUTIONAL NEURAL NETWORKS FOR

CARDIOVASCULAR MR SEGMENTATION IN CONGENITAL HEART DISEASE", arXiv:1704.03669, 2017;

[0057] L. C. Piqueras, "AUTOREGRESSIVE MODEL BASED

ON A DEEP CONVOLUTIONAL NEURAL NETWORK FOR AUDIO GENERATION", Tampere University of Technology, 2016;

[0058] J. Wu, "Introduction to Convolutional neural Networks", Nanjing University, 2017;

[0059] "Illumina CMOS Chip and One-Channel SBS Chemistry", Illumina, Inc. 2018, 2 páginas;

[0060] "skikit-image/peak.py at master", GitHub, 5 páginas, [recuperado em 2018-11-16]. Recuperado da Internet <URL: https://github.com/scikit-image/scikit- image/blob/master/skimage/feature/peak.py#L25>;

[0061] "3.3.9.11. Watershed and random walker for segmentation", Scipy lecture notes, 2 páginas, [recuperado em 2018-11-13]. Recuperado da Internet <URL: http://scipy-lectures.org/packages/scikit- image/auto_examples/plot_segmentations.html>;

[0062] Mordvintsev, Alexander e Revision, Abid K., "Image Segmentation with Watershed Algorithm", Revisão 43532856, 2013, 6 páginas [recuperado em 2018-11-13]. Recuperado da Internet <URL: https://opencv-python- tutroals.readthedocs.io/en/latest/py_tutorials/py_imgproc/py_watershed/py_ watershed.html>;

[0063] Mzur, "Watershed.py", 25 October 2017, 3 páginas, [recuperado em 2018-11-13]. Recuperado da Internet <URL: https://github.com/mzur/watershed/blob/master/Watershed.py>;

[0064] Thakur, Pratibha, et. al. "A Survey of Image Segmentation Techniques", International Journal of Research in Computer Applications and Robotics, volume 2, número 4, abril de 2014, páginas: 158-165;

[0065] Long, Jonathan, et. al., "Fully Convolutional Networks for Semantic Segmentation",: IEEE Transactions on Pattern Analysis and Machine Intelligence, volume 39, número 4, 1 abril de 2017, 10 páginas;

[0066] Ronneberger, Olaf, et. al., "U-net: Convolutional networks for biomedical image segmentation". In International Conference on Medical image computing and computer-assisted intervention, 18 de maio de 2015, 8 páginas;

[0067] Xie, W., et. al., "Microscopy cell counting and detection with fully convolutional regression networks", Computer methods in biomechanics and biomedical engineering: Imaging & Visualization, 6(3), páginas.283-292, 2018;

[0068] Xie, Yuanpu, et al., "Beyond classification: structured regression for robust cell detection using convolutional neural network", International Conference on Medical Image Computing and Computer- Assisted Intervention. Outubro de 2015, 12 páginas;

[0069] Snuverink, I. A. F., "Deep Learning for Pixelwise Classification of Hyperspectral Images", Master of Science Thesis, Delft University of Technology, 23 de novembro de 2017, 19 páginas;

[0070] Shevchenko, A., "Keras weighted categorical_crossentropy", 1 página, [recuperado em 2019-01-15]. Recuperado da Internet <URL: https://gist.github.com/skeeet/cad06d584548fb45eece1d4e28cfa98b>;

[0071] van den Assem, D.C.F., "Predicting periodic and chaotic signals using Wavenets", Master of Science Thesis, Delft University of Technology, 18 de agosto de 2017, páginas 3-38;

[0072] I. J. Goodfellow, D. Warde-Farley, M. Mirza, A. Courville, e Y. Bengio, "CONVOLUTIONAL NETWORKS", Deep Learning, MIT Press, 2016; e

[0073] J. Gu, Z. Wang, J. Kuen, L. Ma, A. Shahroudy, B. Shuai, T. Liu, X. Wang, e G. Wang, "RECENT ADVANCES IN CONVOLUTIONAL NEURAL NETWORKS", arXiv:1512.07108, 2017.

CAMPO DA TECNOLOGIA REVELADA

[0074] A tecnologia revelada se refere a computadores do tipo inteligência artificial e a sistemas de processamento de dados digitais e correspondentes métodos e produtos de processamento de dados para emulação de inteligência (isto é, sistemas baseados em conhecimento, sistemas de raciocínio, e sistemas de aquisição de conhecimentos); e incluindo sistemas de raciocínio com incertezas (por exemplo, sistemas de lógica difusa), sistemas adaptativos, sistemas de aprendizado de máquina, e redes neurais artificiais. Em particular, a tecnologia revelada se refere ao uso de redes neurais profundas como redes neurais convolucionais profundas para a análise de dados.

ANTECEDENTES

[0075] Não se deve presumir que o assunto discutido nesta seção seja técnica anterior apenas como resultado de sua menção nesta seção. De modo similar, não se deve presumir que um problema mencionado nesta seção ou associado com o assunto fornecido como antecedente foi reconhecido anteriormente na técnica anterior. O assunto nesta seção meramente representa diferentes abordagens, que em si mesmas podem também corresponder às implantações da tecnologia reivindicada.

[0076] As redes neurais profundas são um tipo de redes neurais artificiais que usam múltiplas camadas de transformação não linear e complexa para sucessivamente modelar características de alto nível. As redes neurais profundas fornecem retroinformação através retropropagação que carrega a diferença entre saída observada e predita para ajustar os parâmetros. As redes neurais profundas evoluíram com a disponibilidade de grandes conjuntos de dados de treinamento, o poder de computação paralela e distribuída, e sofisticados algoritmos de treinamento. As redes neurais profundas facilitaram grandes avanços em inúmeros domínios como visão computacional, reconhecimento de fala e processamento de linguagem natural.

[0077] As redes neurais convolucional (CNN, "convolutional neural networks") e a redes neurais recorrentes (RNN, "recurrent neural networks") são componentes de redes neurais profundas. As redes neurais convolucionais têm sido usadas com sucesso particularmente no reconhecimento de imagem com uma arquitetura que compreende camadas de convolução, camadas não lineares, e camadas de pooling. A redes neurais recorrentes são projetados para utilizar informações sequenciais de dados de entrada com conexões cíclicas entre os blocos de construção como perceptrons, unidades de memória de longo e curto prazo (LSTM, "long short-term memory"), e unidades recorrentes gated (GRU, "gated recurrent units", unidades recorrentes com portas, ou fechadas ou bloqueadas). Além disso, muitas outras redes neurais profundas emergentes foram propostas para contextos limitados, como redes neurais espaço-temporais profundas, redes neurais recorrentes multidimensionais, e autocodificadores convolucionais.

[0078] O objetivo das redes neurais profundas de treinamento é a otimização dos parâmetros de peso em cada camada, que gradualmente combina características mais simples em características complexas de modo que as representações hierárquicas mais adequadas podem ser aprendidas dos dados. Um simples ciclo do processo de otimização é organizado como se segue. Em primeiro lugar, dado um conjunto de dados de treinamento, o passo para frente ("forward pass’) computa sequencialmente a saída em cada camada e propaga os sinais de função para frente ("forward") através da rede. Na última camada de saída, uma função da perda de objetivo mede o erro entre as saídas inferidas e os rótulos determinados. Para minimizar o erro do treinamento, o passo para trás ("backward pass") usa a regra da cadeia para retropropagar os sinais de erro e computa os gradientes com relação a todos os pesos através da rede neural. Finalmente, os parâmetros de peso são atualizados com o uso de algoritmos de otimização com base na descida de gradiente estocástico. A descida do gradiente em lote ("batch gradient descent") realiza atualizações para cada conjunto de dados completos, enquanto que a descida de gradiente estocástico ("stochastic gradient descent") fornece aproximações estocásticas mediante a realização das atualizações para cada conjunto pequeno de exemplos de dados. Vários algoritmos de otimização resultam da descida de gradiente estocástico. Por exemplo, os algoritmos de treinamento Adagrad e Adam executam a descida de gradiente estocástico ao menos tempo que adaptativamente modificam as taxas de aprendizado com base nos momentos e frequência atualizados dos gradientes para cada parâmetro, respectivamente.

[0079] Um outro elemento central no treinamento de redes neurais profundas é regularização, que se refere a estratégias destinadas a evitar sobreajustamento e deste modo obter bom desempenho de generalização. Por exemplo, o decaimento de peso adiciona um termo de penalidade à função de perda de modo que os parâmetros de peso convergem para valores absolutos menores. O abandono aleatoriamente remove unidades ocultas das redes neuras durante o treinamento e pode ser considerado um conjunto de sub-redes possíveis. Para aumentar a capacidade de abandono escolar, uma nova função de ativação, maxout, e uma variante de abandono para redes neurais recorrentes chamadas rmnDrop ("recurrent neural network), foram propostas. Além disso, a normalização em lote fornece um novo método de normalização através de normalização das características escalares para cada ativação em um mini- lote e aprendizado de cada meio e variância como parâmetros.

[0080] Uma vez que os dados sequenciados são multidimensionais e de alta dimensão, as redes neurais profundas contêm uma grande promessa para a investigação em bioinformática devido a sua ampla aplicabilidade e maior poder de predição. As redes neurais convolucionais foram adaptadas para resolver problemas com base na sequência genômica como descoberta de motivo, identificação de variante patogênica, e inferência de expressão gênica. As redes neurais convolucionais usam uma estratégia de compartilhamento de peso que é especialmente usada estudar o DNA uma vez ela pode capturar motivos de sequência, que são padrões locais curtos, recorrente em DNA que se presume terem funções biológicas significativas. Uma característica distinta das redes neurais convolucionais é o uso de filtros de convolução.

[0081] Diferentemente das abordagens de classificação tradicionais que são baseadas em características elaboradamente projetadas e manualmente criadas, os filtros de convolução realizam aprendizagem adaptativa de características análogas a um processo de mapeamento de dados de entrada brutos para a representação informativa de conhecimento. Neste sentido, os filtros de convolução servem como uma série de escâneres de motivo, uma vez que um conjunto de tais filtros é capaz de reconhecer padrões relevantes na entrada e ser atualizado durante o processo de treinamento. Redes neurais recorrentes podem capturar dependências de longo alcance em dados sequenciais de comprimentos variados, como sequências de proteína ou DNA.

[0082] Portanto, surge uma oportunidade de se usar um framework baseado em aprendizado profundo com princípios para geração de modelo e chamada de base.

[0083] Na era da tecnologia de alto desempenho, que reúne o rendimento mais alto de dados interpretáveis ao custo mais baixo por esforço permanece um desafio significativo. Os métodos baseados em cluster de sequenciamento de ácidos nucleico, como os que usam amplificação em ponte para a formação de clusters, têm contribuído muito para aumentar a velocidade de sequenciamento de ácidos nucleico. Esses métodos baseados em cluster dependem de sequenciamento de uma densa população de ácidos nucleicos imobilizados em um suporte sólido, e tipicamente envolvem o uso de software de análise de imagens para desconvolucionar sinais ópticos gerados no curso do sequenciamento simultâneo de múltiplos clusters situados em locais distintos em um suporte sólido.

[0084] Entretanto, essas tecnologias de sequenciamento baseadas em clusters de ácido nucleico de fase sólida ainda enfrentam consideráveis obstáculos que limitam a quantidade de rendimento que pode ser obtida. Por exemplo, em métodos de sequenciamento baseados em cluster, a determinação das sequências de ácidos nucleicos de dois ou mais clusters que estão fisicamente muitos próximos um do outro para serem resolvidos espacialmente, ou que de fato se sobrepõem fisicamente no suporte sólido, pode constituir um obstáculo. Por exemplo, um software de análise de imagem atual pode exigir um tempo considerável e recursos computacionais para determinar de qual dos dois clusters sobrepostos foi emanado um sinal óptico. Como consequência, os compromissos são inevitáveis para uma variedade de plataformas de detecção em relação à quantidade e/ou qualidade das informações de sequência de ácido nucleico que podem ser obtidas.

[0085] Os métodos genômicos baseados em clusters de ácido nucleico de alta densidade se estendem também para outras áreas da análise genômica. Por exemplo, a genômica baseada em clusters de ácido nucleico pode ser usada em aplicações de sequenciamento, diagnóstico e triagem, análise de expressão gênica, análise epigenética, análise genética de polimorfismos e similares. Cada uma dessas tecnologias genômicas baseadas em ácidos nucleicos, também, é limitada quando há uma inabilidade de resolução de dados gerados de clusters de ácido nucleico muito próximos ou que se sobrepõem espacialmente.

[0086] Existe claramente uma necessidade de aumentar a qualidade e a quantidade de dados de sequenciamento de ácido nucleico que podem ser obtidos rapidamente e a um custo mais baixo para uma ampla variedade de usos, incluindo para a genômica (por exemplo, para caracterização genômica de todas e quaisquer espécies animal, vegetal, microbiana ou outras espécies biológicas ou populações), farmacogenômica, transcriptômica, diagnóstico, prognóstico, avaliação de risco biomédico, genética clínica e pesquisa, medicina personalizada, avaliação da eficácia de medicamentos e das interações medicamentosas, medicina veterinária, agricultura, estudos de evolução e biodiversidade, aquacultura, silvicultura, oceanografia, gestão ecológica e ambiental, e outros propósitos.

[0087] A tecnologia revelada fornece métodos e sistemas baseados em rede neural que tratam dessas necessidades e similares, incluindo o aumento do nível de performance em tecnologias de sequenciamento de ácido nucleico de alto rendimento, e oferece outras vantagens relacionadas.

BREVE DESCRIÇÃO DOS DESENHOS

[0088] A patente ou o arquivo de pedido de patente contém ao menos um desenho executado em cor. Cópias desta patente ou da publicação do pedido de patente com desenho coloridos serão fornecidas pelo escritório de patente mediante solicitação e pagamento da taxa necessária. Os desenhos em cor podem também estar disponíveis no PAIR através de uma aba de conteúdo suplementar.

[0089] Nos desenhos, os caracteres de referência similares geralmente se referem a partes similares em todas as diferentes vistas. Além disso, os desenhos não estão necessariamente em escala e em vez disto ênfase é colocada para ilustrar os princípios da tecnologia revelada. Na descrição a seguir, várias implementações da tecnologia revelada são descritas com referência aos desenhos a seguir, nos quais:

[0090] A Figura 1 mostra uma implementação de um pipeline de processamento que determina metadados de cluster com o uso de chamada de base de subpixel.

[0091] A Figura 2 representa uma implementação de uma célula de fluxo que contém clusters em seus campos ou "tiles".

[0092] A Figura 3 ilustra um exemplo da célula de fluxo Illumina GA-IIx com oito canaletas ou "lanes".

[0093] A Figura 4 representa um conjunto de imagens de sequenciamento de imagens para química de quatro canais, isto é, o conjunto de imagens tem quatro imagens de sequenciamento, capturadas com o uso de quatro bandas de comprimento de onda diferentes (imagem/canal de imageamento) no domínio de pixels.

[0094] A Figura 5 é uma implementação de divisão de uma imagem de sequenciamento em subpixels (ou regiões de subpixel).

[0095] A Figura 6 mostra coordenadas preliminares de centro dos clusters identificadas pelo chamador de base durante a chamada de base em subpixel.

[0096] A Figura 7 representa um exemplo de fusão de chamadas de base de subpixel produzidas durante a pluralidade de ciclos de sequenciamento para gerar o chamado "mapa de clusters" que contêm os metadados de cluster.

[0097] A Figura 8a ilustra um exemplo de um mapa de clusters gerados pela fusão das chamadas de base de subpixel.

[0098] A Figura 8b representa uma implementação da chamada de base de subpixel.

[0099] A Figura 9 mostra um outro exemplo de um mapa de clusters que identifica metadados de cluster.

[00100] A Figura 10 mostra como um centro de massa (COM, "center of mass") de uma região disjunta em um mapa de clusters é calculado.

[00101] A Figura 11 representa uma implementação de cálculo do fator de decaimento pesado com base na distância euclidiana de um subpixel em uma região disjunta ao COM da região disjunta.

[00102] A Figura 12 ilustra uma implementação de um mapa de decaimento de verdade absoluta exemplificador derivado de um mapa de clusters exemplificador produzido pela chamada de base de subpixel.

[00103] A Figura 13 ilustra uma implementação de derivação de um mapa ternário a partir de um mapa de clusters.

[00104] A Figura 14 ilustra uma implementação de derivação de um mapa binário a partir de um mapa de clusters.

[00105] A Figura 15 é um diagrama de blocos que mostra uma implementação de geração de dados de treinamento que é usada para treinar o gerador de modelo baseado em rede neural e o chamador de base baseado em rede neural.

[00106] A Figura 16 mostra características dos exemplos de treinamento revelados usados para treinar o gerador de modelo baseado em rede neural e o chamador de base baseado em rede neural.

[00107] A Figura 17 ilustra uma implementação de processamento de dados de imagem de entrada de através do gerador de modelo baseado em rede neural revelado e de geração de um valor de saída para cada unidade em uma matriz. Em uma implementação, a matriz é um mapa de decaimento. Em uma outra implementação, a matriz é um mapa ternário. Em ainda outra implementação, a matriz é um mapa binário.

[00108] A Figura 18 mostra uma implementação de técnicas de processamento posterior que são aplicadas ao mapa de decaimento, ao mapa ternário, ou ao mapa binário produzidos pelo gerador de modelo baseado em rede neural para derivar metadados de cluster, incluindo, centros de cluster, formatos de clusters, tamanhos de cluster, fundo de cluster, e/ou limites de cluster.

[00109] A Figura 19 representa uma implementação de extração de intensidade cluster no domínio de pixel.

[00110] A Figura 20 ilustra uma implementação de extração de intensidade de cluster no domínio subpixel.

[00111] A Figura 21a mostra três implementações diferentes do gerador de modelo baseado em rede neural.

[00112] A Figura 21b representa uma implementação de dados de imagem de entrada que são inseridos como entrada no gerador de modelo baseado em rede neural 1512. Os dados de imagem de entrada compreendem uma série de conjuntos de imagens com imagens de sequenciamento que são geradas durante um número determinado de ciclos de sequências iniciais de uma corrida de sequenciamento.

[00113] A Figura 22 mostra uma implementação de extração de patches a partir da série de conjuntos de imagens na Figura 21b para produzir uma série de conjuntos de imagens "de tamanho reduzido" que formam os dados de imagem de entrada.

[00114] A Figura 23 representa uma implementação de sobreamostragem da série de conjuntos de imagens na Figura 21b para produzir uma série de conjuntos de imagens "sobreamostradas" que forma os dados de imagem de entrada.

[00115] A Figura 24 mostra uma implementação de extração de patches a partir da série de conjuntos de imagens sobreamostradas na Figura 23 para produzir uma série de conjuntos de imagens "sobreamostradas e de tamanho reduzido" que formam os dados de imagem de entrada.

[00116] A Figura 25 ilustra uma implementação de um processo exemplificador geral de geração de dados de verdade absoluta ou "ground truth" para treinar o gerador de modelo baseado em rede neural.

[00117] A Figura 26 ilustra uma implementação do modelo de regressão.

[00118] A Figura 27 representa uma implementação de geração de um mapa de decaimento de verdade absoluta a partir de um mapa de clusters. O mapa de decaimento de verdade absoluta é usado como os dados de verdade absoluta para treinar o modelo de regressão.

[00119] A Figura 28 é uma implementação de treinamento do modelo de regressão com o uso de uma técnica de atualização de gradiente baseada em retropropagação.

[00120] A Figura 29 é uma implementação da geração de modelo pelo modelo de regressão durante a inferência.

[00121] A Figura 30 ilustra uma implementação de submissão do mapa de decaimento para processamento posterior para identificar metadados de cluster.

[00122] A Figura 31 representa uma implementação de uma técnica de segmentação (de imagens) watershed que identifica grupos não sobrepostos de subpixels de clusters contíguos/interior de clusters que caracterizam os clusters.

[00123] A Figura 32 é uma tabela que mostra um exemplo de arquitetura U-net do modelo de regressão.

[00124] A Figura 33 ilustra diferentes abordagens de extração de intensidade de cluster com o uso de informações de formato de intensidade de cluster identificadas em uma imagem do modelo.

[00125] A Figura 34 mostra diferentes abordagens da chamada de base com o uso das saídas do modelo de regressão.

[00126] A Figura 35 ilustra a diferença no desempenho da chamada de base quando o chamador de base RTA usa a localização de centros de massa (COM) de verdade absoluta como o centro de cluster, em oposição ao uso de uma localização não COM como centro de cluster. Os resultados mostram que o uso de COM melhora a chamada de base.

[00127] A Figura 36 mostra, à esquerda, um mapa de decaimento exemplificador produzido pelo modelo de regressão. À direita, a Figura 36 também mostra um mapa de decaimento de verdade absoluta exemplificador ao qual o modelo de regressão se aproxima durante o treinamento.

[00128] A Figura 37 retrata uma implementação do localizador de pico que identifica centros de cluster no mapa de decaimento por picos de detecção.

[00129] A Figura 38 compara os picos detectados pelo localizador de pico em um mapa de decaimento produzido pelo modelo de regressão com os picos em um mapa de decaimento de verdade absoluta correspondente.

[00130] A Figura 39 ilustra o desempenho do modelo de regressão com o uso de estatísticas de precisão e rechamada.

[00131] A Figura 40 compara o desempenho do modelo de regressão com o chamador de base de RTA para concentração de biblioteca de 20 pM (corrida normal).

[00132] A Figura 41 compara o desempenho do modelo de regressão com o chamador de base de RTA para concentração de biblioteca de 30 pM (corrida densa).

[00133] A Figura 42 compara o número de pares de leitura adequados não duplicados, isto é, o número de leituras pareadas que não têm ambas as leituras alinhadas para dentro em uma distância razoável detectada pelo modelo de regressão em comparação com a mesma detectada pelo chamador de base de RTA.

[00134] A Figura 43 mostra, à direita, um primeiro mapa de decaimento produzido pelo modelo de regressão. À esquerda, a Figura 43 mostra um segundo mapa de decaimento produzido pelo modelo de regressão.

[00135] A Figura 44 compara o desempenho do modelo de regressão com o chamador de base RTA para concentração de biblioteca de 40 pM (corrida altamente densa).

[00136] A Figura 45 mostra, à esquerda, um primeiro mapa de decaimento produzido pelo modelo de regressão. À direita, a Figura 45 mostra os resultados da limiarização, o localizador de pico, e a técnica de segmentação watershed aplicada ao primeiro mapa de decaimento.

[00137] A Figura 46 ilustra uma implementação do modelo de regressão binária.

[00138] A Figura 47 é uma implementação de treinamento do modelo de classificação binária com o uso de uma técnica de atualização de gradiente baseada em retropropagação que envolve escores softmax.

[00139] A Figura 48 é uma outra implementação de treinamento do modelo de classificação binária com o uso de uma técnica de atualização de gradiente baseada em retropropagação que envolve escores sigmoides.

[00140] A Figura 49 ilustra uma outra implementação de dados de imagem de entrada inseridos no modelo de classificação binária e os rótulos de classe correspondentes usados para treinar o modelo de classificação binária.

[00141] A Figura 50 é uma implementação da geração de modelo pelo modelo de classificação binária durante a inferência.

[00142] A Figura 51 ilustra uma implementação de submissão do mapa binário para detecção de pico para identificar centros de cluster.

[00143] A Figura 52 mostra, à esquerda, um mapa binário exemplificador produzido pelo modelo de classificação binária. À direita, a Figura 52a também mostra um mapa binário de verdade absoluta exemplificador ao qual o modelo de classificação binária se aproxima durante o treinamento.

[00144] A Figura 52b ilustra o desempenho do modelo de classificação binária com o uso de uma estatística de precisão.

[00145] A Figura 53 é uma tabela que mostra uma arquitetura exemplificadora do modelo de classificação binária.

[00146] A Figura 54 ilustra uma implementação do modelo de classificação ternária.

[00147] A Figura 55 é uma implementação de treinamento do modelo de classificação ternária com o uso de uma técnica de atualização de gradiente baseada em retropropagação.

[00148] A Figura 56 ilustra uma outra implementação de dados de imagem de entrada inseridos no modelo de classificação ternária e os rótulos de classe correspondentes usados para treinar o modelo de classificação ternária.

[00149] A Figura 57 é uma tabela que mostra uma arquitetura exemplificadora do modelo de classificação ternária.

[00150] A Figura 58 é uma implementação da geração de modelo pelo modelo de classificação ternária durante a inferência.

[00151] A Figura 59 mostra um mapa ternário produzido pelo modelo de classificação ternária.

[00152] A Figura 60 representa uma matriz de unidades produzida pelo modelo de classificação ternária 5400, juntamente com os valores de saída em unidade.

[00153] A Figura 61 mostra uma implementação de submissão do mapa ternário para processamento posterior para identificar centros de cluster, fundo de cluster, e interior de cluster.

[00154] A Figura 62a mostra predições exemplificadoras do modelo de classificação ternária.

[00155] A Figura 62b ilustra outras predições exemplificadoras do modelo de classificação ternária.

[00156] A Figura 62c mostra, ainda, outras predições exemplificadoras do modelo de classificação ternária.

[00157] A Figura 63 representa uma implementação de derivação dos centros de cluster e formatos de cluster a partir da saída do modelo de classificação ternária na Figura 62a.

[00158] A Figura 64 compara o desempenho da chamada de base do modelo de classificação binária, do modelo de regressão, e do chamador de base RTA.

[00159] A Figura 65 compara o desempenho do modelo de classificação ternária com o do chamador de base RTA sob três contextos, cinco métricas de sequenciamento, e duas densidades de corrida.

[00160] A Figura 66 compara o desempenho do modelo de regressão ternário com o do chamador de base RTA sob três contextos, as cinco métricas de sequenciamento, e as duas densidades de corrida discutidas na Figura 65.

[00161] A Figura 67 se concentra na penúltima camada do gerador de modelo baseado em rede neural.

[00162] A Figura 68 visualiza o que a penúltima camada do gerador de modelo baseado em rede neural aprendeu como resultado do treinamento de atualização de gradiente baseado em retropropagação. A implementação ilustrada visualiza vinte e quatro dos trinta e dois filtros de convolução treinados da penúltima camada representada na Figura 67.

[00163] A Figura 69 sobrepõe as predições de centro de cluster do modelo de classificação binária (em azul) nos do chamador de base RTA (em rosa).

[00164] A Figura 70 sobrepõe as predições de centros de cluster feitas pelo chamador de base RTA (em rosa) na visualização dos filtros de convolução treinados da penúltima camada do modelo de classificação binária.

[00165] A Figura 71 ilustra uma implementação de dados de treinamento usados para treinar o gerador de modelo baseado em rede neural.

[00166] A Figura 72 é uma implementação de uso de microesferas para o registro de imagens com base em predições de centros de cluster do gerador de modelo baseado em rede neural.

[00167] A Figura 73 ilustra uma implementação de estatísticas de cluster de clusters identificados pelo gerador de modelo baseado em rede neural.

[00168] A Figura 74 mostra como a capacidade do gerador de modelo baseado em rede neural para distinguir entre clusters adjacentes melhora quando o número de ciclos de sequenciamento iniciais para o qual os dados de imagem de entrada é usado aumenta de cinco para sete.

[00169] A Figura 75 ilustra a diferença no desempenho da chamada de base quando um chamador de base RTA ("real time analysis", análise em tempo real) usa a localização do centro de massa (COM) de verdade absoluta como o centro de cluster, em oposição a quando uma localização não COM é usada como o centro do cluster.

[00170] A Figura 76 retrata o desempenho do gerador de modelo baseado em rede neural em clusters detectados extras.

[00171] A Figura 77 mostra diferentes conjuntos de dados usados para treinar o gerador de modelo baseado em rede neural.

[00172] As Figuras 78A e 78B representam uma implementação de um sistema de sequenciamento. O sistema de sequenciamento compreende um processador configurável.

[00173] A Figura 79 é um diagrama de blocos simplificado de um sistema de análise de dados de sensor a partir do sistema de sequenciamento, como saídas do sensor de chamada de base.

[00174] A Figura 80 é um diagrama simplificado mostrando aspectos da operação de chamada de base, incluindo funções de um programa em tempo de execução executado por um processador hospedeiro.

[00175] A Figura 81 é um diagrama simplificado de uma configuração de um processador configurável como o representado na Figura 79.

[00176] A Figura 82 é um sistema de computador que pode ser usado pelo sistema de sequenciamento da Figura 78A para implementar a tecnologia aqui revelada.

DESCRIÇÃO DETALHADA

[00177] A discussão a seguir é apresentada para permitir que a tecnologia revelada seja produzida e usada por qualquer pessoa versada na técnica, e é fornecida no contexto de uma aplicação específica e suas exigências. Diversas modificações às implementações reveladas ficarão prontamente evidentes aos versados na técnica, e os princípios gerais definidos na presente invenção podem ser aplicados a outras implementações e aplicações sem se afastar do espírito e escopo da tecnologia revelada. Dessa forma, a tecnologia revelada não se destina a ser limitado às implementações mostradas, mas é a que foi concedida o escopo mais amplo consistente com os princípios e características reveladas na presente invenção.

Introdução

[00178] A chamada de base de imagens digitais é massivamente paralela e computacionalmente intensiva. Isto apresenta inúmeros desafios técnicos que identificamos antes de introduzir a nossa nova tecnologia.

[00179] O sinal a partir de um conjunto de imagens sendo avaliado está cada vez mais fracos conforme a classificação de bases prossegue em ciclos, especialmente em fitas de bases cada vez mais longas. A razão entre sinal e ruído diminui conforme a classificação de base se estende ao longo do comprimento de uma fita, assim a confiabilidade diminui. Estimativas atualizadas de confiabilidade são esperadas conforme a confiabilidade estimada de classificação de base se altera.

[00180] As imagens digitais são capturadas a partir de clusters amplificados de fitas de amostra. As amostras são amplificadas mediante duplicação das fitas com o uso de uma variedade de estruturas físicas e químicas. Durante o sequenciamento por síntese, etiquetas ("tags") são quimicamente ligadas em ciclos e estimuladas a brilhar. Sensores digitais coletam fótons das tags que são lidas de pixels para produzir imagens.

[00181] A interpretação das imagens digitais para classificar as bases exige resolução de incerteza posicional, prejudicada pela resolução limitada da imagem. Em uma resolução maior do que a coletada durante a chamada de base, é evidente que clusters imageados têm formatos irregulares e posições de centro indeterminadas. As posições de cluster não são mecanicamente reguladas, de modo que os centros de cluster não estão alinhados com os centros de pixel. Um centro de pixel pode ser a coordenada de números inteiros atribuída para um pixel. Em outras implementações, pode ser o canto superior esquerdo do pixel. Em ainda outras implementações, pode ser o centroide ou centro de massa do pixel. A amplificação não produz formatos uniformes de cluster. A distribuição de sinais de cluster na imagem digital é, portanto, uma distribuição estatística em vez de um padrão regular. Nós chamamos isso de incerteza posicional.

[00182] Uma das classes de sinal pode produzir nenhum sinal detectável e ser classificada em uma posição específica com base em um sinal "escuro". Dessa forma, modelos são necessários para classificação durante ciclos escuro. A produção de modelos resolve a incerteza posicional inicial com o uso de múltiplos ciclos de imageamento para evitar a perda de sinais escuros.

[00183] As compensações no tamanho do sensor de imagem, magnificação e design de stepper levam a tamanhos de pixel que são relativamente grandes, que são grandes demais para tratar centros de cluster como coincidentes com centros de pixel de sensor. Esta revelação usa pixel em dois sentidos. O pixel físico do sensor é uma região de um sensor óptico que apresenta os fótons detectados. Um pixel lógico, chamado simplesmente de um pixel, é um dado que corresponde a ao menos um pixel físico, sendo que os dados são lidos do pixel do sensor. O pixel pode ser subdividido ou "interpolado" em subpixels, como 4 x 4 subpixels. Para considerar possibilidade de que todos os fótons estão atingindo um lado do pixel físico e não o lado oposto, valores podem ser atribuídos a subpixels por interpolação, como interpolação bilinear ou ponderação da área. Interpolação ou interpolação bilinear também é aplicada quando os pixels são re-enquadrados pela aplicação de uma transformação afim aos dados a partir dos dados físicos.

[00184] Pixels físicos maiores são mais sensíveis a sinais fracos do que pixels menores. Embora os sensores digitais melhorem com o tempo, a limitação física da área superficial do coletor é inevitável. Tendo em consideração as compensações de design, os sistemas de legado antigos foram projetados para coletar e analisar dados de imagem de um patch de 3 x 3 de pixels de sensor, com o centro do cluster em algum lugar no pixel de centro do patch.

[00185] Os sensores de alta resolução capturam apenas parte de um meio imageado em um momento. O sensor é escalonado no meio imageado para cobrir todo o campo. Milhares de imagens digitais podem ser coletadas durante um ciclo de processamento.

[00186] O sensor e o design de iluminação são combinados para distinguir entre ao menos quatro valores de resposta de iluminação que são usados para classificar as bases. Se uma câmera de RGB tradicional com uma matriz de filtro de cor de Bayer for usada, quatro pixels de sensor serão combinados em um único valor RGB. Isso reduziria a resolução efetiva do sensor em quatro vezes. Alternativamente, múltiplas imagens podem ser coletadas em uma única posição com o uso de diferentes comprimentos de onda de iluminação e/ou diferentes filtros girados para uma posição entre o meio imageado e o sensor. O número de imagens necessárias para distinguir entre quatro classificações de base varia entre os sistemas. Alguns sistemas usam uma imagem com quatro níveis de intensidade para diferentes classes de bases. Outros sistemas usam duas imagens com diferentes comprimentos de onda de iluminação (vermelho e verde, por exemplo) e/ou filtros com uma espécie de tabela de verdade para classificar as bases. Os sistemas também podem usar quatro imagens com diferentes comprimentos de onda de iluminação e/ou filtros sintonizados para classes de base específicas.

[00187] O processamento massivamente paralelo de imagens digitais é praticamente necessário para alinhar e combinar fitas relativamente curtas, da ordem de 30 2000 pares de base, em sequências mais longas, potencialmente milhões ou mesmo bilhões de bases em comprimento. Amostras redundantes são mais desejáveis do que uma média imageada, assim uma parte de uma sequência pode ser coberta por dezenas de leituras ou "reads" de amostras. Milhões ou pelo menos centenas de milhares de clusters de amostras são imageados a partir de um único meio imageado. O processamento massivamente paralelo de tantos clusters aumentou em capacidade de sequenciamento enquanto o custo diminuiu.

[00188] A capacidade de sequenciamento aumentou em um ritmo que se rivaliza com a lei de Moore. Embora o primeiro sequenciamento tenha custado bilhões de dólares, em 2018, a plataforma Illumina™ oferece resultados a um custo de centenas de dólares. Como o sequenciamento se torna mais convencional e os custos caem, menos poder de computação está disponível para a classificação, o que aumenta o desafio de classificação em tempo quase real. Com esses desafios técnicos em mente, nos voltamos à tecnologia revelada.

[00189] A tecnologia revelada aprimora o processamento durante a geração de um modelo para resolver a incerteza posicional e também durante a classificação de base de clusters nas posições resolvidas. Com a aplicação da tecnologia revelada, hardware mais barato pode ser usado para reduzir o custo das máquinas. A análise em tempo quase real pode se tornar econômica, reduzindo o desfasamento entre a coleta da imagem e classificação da base.

[00190] A tecnologia revelada pode usar imagens sobreamostradas produzidas por interpolação de pixels do sensor em subpixels e então produção de modelos que resolvem a incerteza posicional. Um subpixel resultante é submetido a um chamador de base para classificação que trata o subpixel como se ele estivesse no centro de um cluster. Os clusters são determinados a partir de grupos de subpixels adjacentes que repetidamente recebem a mesma classificação de base. Esse aspecto da tecnologia alavanca a tecnologia de chamada de base existente para determinar formatos de clusters e para hiper-localizar centros de clusters com uma resolução em subpixel.

[00191] Um outro aspecto da tecnologia revelada é criar conjuntos de dados de treinamento de verdade absoluta que emparelham imagens com centros de cluster e/ou formatos de cluster determinados com confiança. Os sistemas de aprendizado profunda e outras abordagens de aprendizagem de máquina exigem conjuntos de treinamento substanciais. A compilação de dados sob curadoria humana é mais cara. A tecnologia revelada pode ser usada para alavancar classificadores existentes, em um modo de operação não padrão, para gerar grandes conjuntos de dados de treinamento classificados com confiança sem intervenção ou à custa de um curador humano. Os dados de treinamento correlacionam imagens brutas com centros de cluster e/ou formatos de cluster disponíveis a partir de classificadores existentes, em um modo de operação não padrão, como sistemas de aprendizado profundo baseados em rede neural convolucional (CNN, "convolutional neural network"), que podem então processar diretamente sequências de imagens. Uma imagem de treinamento pode ser girada e refletida para produzir exemplos adicionais igualmente válidos. Os exemplos de treinamento podem se concentrar em regiões de um tamanho predeterminado dentro de uma imagem total. O contexto avaliado durante a chamada de base determina o tamanho das regiões de treinamento exemplificadoras, em vez do tamanho de uma imagem do ou do meio imageado total.

[00192] A tecnologia revelada pode produzir diferentes tipos de mapas, usáveis como dados de treinamento ou como modelos para classificação de base, que correlacionam centros de cluster e/ou formatos de cluster com imagens digitais. Primeiro, um subpixel pode ser classificado como um centro de cluster, que localiza, assim, um centro de cluster em um sensor físico de pixel. Segundo, um centro de cluster pode ser calculado como o centroide de um formato de cluster. Esse local pode ser informado com uma precisão numérica selecionada. Terceiro, um centro de cluster pode ser informado com subpixels circundantes em um mapa de decaimento, na resolução de subpixel ou de pixel. Um mapa de decaimento reduz o peso dado aos fótons detectados na região conforme a separação das regiões a partir do centro de cluster aumenta, atenuando os sinais de posições mais distantes. Quarto, classificações binária ou ternária podem ser aplicadas a subpixels ou pixels em clusters de regiões adjacentes. Na classificação binária, uma região é classificada como pertencente a um centro de cluster ou como fundo. Na classificação ternária, o terceiro tipo de classe é atribuído à região que contém o interior do cluster, mas não o centro do cluster. A classificação de subpixel dos locais dos centros de cluster poderia ser substituída coordenadas de centro de cluster com valor real dentro de um pixel óptico maior.

[00193] Os estilos alternativos de mapas podem inicialmente ser produzidos como conjuntos de dados de verdade absoluta, ou, com treinamento, eles podem ser produzidos com o uso de uma rede neural. Por exemplo, os clusters podem ser representados como regiões disjuntas de subpixels adjacentes com classificações adequadas. Os clusters mapeados por intensidade a partir de uma rede neural podem ser pós-processados por um filtro detector de pico para calcular centros de cluster, caso os centros já não tenham já sido determinados. Mediante aplicação de uma análise watershed, regiões adjacentes podem ser atribuídas a clusters separados. Quando produzido por um mecanismo de inferência de rede neural, os mapas podem ser usados como modelos para avaliar uma sequência de imagens digitais e classificar as bases em ciclos de chamada de base. Geração de modelo baseado em rede neural

[00194] A primeira etapa de geração de modelo é determinar os metadados do cluster. Os metadados do cluster identificam a distribuição espacial dos clusters, incluindo seus centros, formatos, tamanhos, fundo, e/ou limites. Determinação de metadados de cluster

[00195] A Figura 1 mostra uma implementação de um pipeline de processamento que determina metadados de cluster com o uso de chamada de base de subpixel.

[00196] A Figura 2 representa uma implementação de uma célula de fluxo que contém clusters em seus campos ou "tiles". A célula de fluxo é particionada em canaletas ou "lanes". As faixas são adicionalmente fracionadas em regiões não sobrepostos chamadas campos ou "tiles". Durante o procedimento de sequenciamento, os clusters e seu fundo circundante nos campos são imageados.

[00197] A Figura 3 ilustra um exemplo de célula de fluxo no analisador Illumina GA IIx™ com oito canaletas. A Figura 3 também mostra um aumento do zoom em um campo e seus clusters e fundo circundante.

[00198] A Figura 4 representa um conjunto de imagens de imagens de sequenciamento para química de quatro canais, isto é, o conjunto de imagens tem quatro imagens de sequenciamento, capturadas com o uso de quatro bandas de comprimento de onda diferentes (imagem/canal de imageamento) no domínio de pixels. Cada imagem no conjunto de imagens cobre um campo de uma célula de fluxo e representa emissões de intensidade de clusters no campo e seu fundo circundante capturadas para um canal de imagem específico em um específico ciclo de sequenciamento de uma pluralidade de ciclos sequenciamento de uma corrida de sequenciamento executada na célula de fluxo. Em uma implementação, cada canal imageado corresponde a uma banda de comprimento de onda de filtro dentre uma pluralidade de bandas de comprimento de onda de filtro. Em uma outra implementação, cada canal imageado corresponde a um evento de imageamento dentre uma pluralidade de eventos de imageamento em um ciclo de sequenciamento. Em ainda uma outra implementação, cada canal imageado corresponde a uma combinação de iluminação com um laser e imageamento específicos através de um filtro óptico específico. A intensidade das emissões de um cluster compreender sinais detectados a partir de um analito que podem ser usados para classificar uma base associada com o analito. Por exemplo, a intensidade das emissões pode ser sinais indicativos de fótons emitidos por etiquetas que são quimicamente fixadas a um analito durante um ciclo quando as etiquetas são estimuladas e que pode ser detectada por um ou mais sensores digitais, conforme descrito acima.

[00199] A Figura 5 é uma implementação de divisão de uma imagem de sequenciamento em subpixels (ou regiões de subpixel). Na implementação ilustrada, um quarto do subpixel (0,25) é usado, resultando na divisão de cada pixel na imagem de sequenciamento em dezesseis subpixels. Visto que a imagem de sequenciamento ilustrada tem uma resolução de 20 x 20 pixels, isto é, 400 pixels, a divisão produz 6400 subpixels. Cada subpixel é tratado por um chamador de base como um centro de região para a chamada de base de subpixel. Em algumas implementações, esse chamador de base não usa processamento baseado em rede neural. Em outras implementações, esse chamador de base é um chamador de base baseado em rede neural.

[00200] Para um dado ciclo de sequenciamento e um subpixel específico, o chamador de base é configurado com lógica para produzir uma chamada de base para o específico subpixel do dado ciclo de sequenciamento mediante a realização de etapas de processamento de imagem e extração de dados de intensidade para o subpixel a partir do conjunto de imagens correspondente dos ciclos de sequenciamento. Isto é feito para cada um dos subpixels e para cada ciclo de sequenciamento dentre uma pluralidade de ciclos de sequenciamento. Experimentos têm também sido realizados com divisão de um quarto de subpixel de imagens de campo com resolução de pixel de 1800 x 1800 do sequenciador MiSeq da Illumina. A chamada de base de subpixel foi realizada para cinquenta ciclos de sequenciamento e para dez campos de uma pista.

[00201] A Figura 6 mostra coordenadas preliminares de centro dos clusters identificadas pelo chamador de base durante a chamada de base em subpixel. A Figura 6 também mostra "subpixels de origem" ou "subpixels de centro" que contêm as coordenadas preliminares de centro.

[00202] A Figura 7 representa um exemplo de fusão de chamadas de base de subpixel produzidas durante a pluralidade de ciclos de sequenciamento para gerar o chamado "mapa de clusters" que contêm os metadados de cluster. Na implementação ilustrada, as chamadas de base de subpixel são fundidas com o uso da abordagem de busca primeiro em largura.

[00203] A Figura 8a ilustra um exemplo de um mapa de clusters gerados pela fusão das chamadas de base de subpixel. A Figura 8b representa um exemplo de chamada de base de subpixel. A Figura 8b também mostra uma implementação de análise de sequências de chamadas de base em subpixel produzidas a partir da chamada de base de subpixel para gerar um mapa de clusters. Imagens de sequenciamento

[00204] A determinação de metadados de cluster envolve a análise de dados de imagem produzidos por um instrumento de sequenciamento 102 (por exemplo, Illumina iSeq, Illumina HiSeqX, Illumina HiSeq3000, Illumina HiSeq4000, Illumina HiSeq2500, Illumina NovaSeq 6000, Illumina NextSeq, Illumina NextSeqDx, Illumina MiSeq e Illumina MiSeqDx). A discussão a seguir descreve a maneira como os dados de imagem são gerados e o que eles representam de acordo com uma implementação.

[00205] A chamada de base é o processo no qual o sinal bruto do instrumento de sequenciamento 102, isto é, os dados de intensidade extraídos das imagens, é decodificado em sequências de DNA e escores de qualidade. Em uma implementação, a plataforma Illumina usa química de terminação cíclica reversível (CTR, "cyclic reversible termination") para fazer a chamada das bases. O processo se baseia em crescimento fitas nascentes de DNA complementares às fitas-moldes de DNA com nucleotídeos modificados, enquanto rastreia um sinal emitido de cada nucleotídeo recém adicionado. Os nucleotídeos modificados têm um bloco 3' removível que ancora um sinal de fluoróforo do tipo de nucleotídeo.

[00206] O sequenciamento ocorre em ciclos repetitivos, cada um compreendendo três etapas: (a) extensão de uma fita nascente pela adição de um nucleotídeo modificado; (b) excitação dos fluoróforos com o uso de um ou mais lasers do sistema óptico 104 e imageamento através de diferentes filtros do sistema óptico 104, produção de imagens de sequenciamento 108; e (c) clivagem dos fluoróforos e remoção do bloco 3’ na preparação para o próximo ciclo de sequenciamento. A incorporação e os ciclos de imageamento são repetidos até um número designado de ciclos de sequenciamento, definindo o comprimento de leitura de todos os clusters. Com o uso dessa abordagem, cada ciclo interroga uma nova posição ao longo das fitas de modelo.

[00207] O enorme poder das plataformas da Illumina provém de sua capacidade de simultaneamente executar e detectar milhões ou mesmo bilhões de clusters submetidos a reações de terminação cíclica reversível (CRT). O processo de sequenciamento ocorre em uma célula de fluxo 202 - um pequeno slide de vidro que retém os fragmentos de DNA de entrada durante o processo de sequenciamento. A célula de fluxo 202 é conectada ao sistema óptico de alto rendimento 104, que compreende imageamento microscópico, lasers de excitação e filtros de fluorescência. A célula de fluxo 202 compreende múltiplas câmaras chamadas de canaletas ou "lanes" 204. As canaletas 204 são fisicamente separadas umas das outras e podem conter diferentes bibliotecas de sequenciamento etiquetadas, distinguíveis sem contaminação cruzada de amostras. O dispositivo de imageamento 106 (por exemplo, um imageador de estado sólido como um dispositivo de carga acoplada (CCD, "charge-coupled device") ou um sensor semicondutor de óxido de metal complementar (CMOS, "complementary metal oxide semiconductor)) leva snapshots em múltiplos locais ao longo das canaletas ou "lanes" 204 em uma série de regiões não sobrepostas chamadas de campos ou "tiles" 206.

[00208] Por exemplo, há cem campos por canaletas no analisador de genoma Illumina Genome Analyzer II e sessenta e oito campos por canaleta no Illumina HiSeq2000. Um campo 206 retém centenas de milhares a milhões de clusters. Uma imagem gerada a partir de um campo com clusters mostrados como pontos brilhantes é mostrada em 208. Um cluster 302 compreende aproximadamente mil cópias idênticas de uma molécula de modelo, embora os clusters variem em tamanho e formato. Os clusters são cultivados a partir da molécula de modelo, antes da corrida de sequenciamento (na plataforma Illumina), por amplificação em ponte da biblioteca de entrada. O propósito da amplificação e do crescimento de cluster é aumentar a intensidade do sinal emitido uma vez que o dispositivo de imageamento 106 não pode detectar com segurança um único fluoróforo. No entanto, a distância física dos fragmentos de DNA dentro de um cluster 302 é pequena, de modo que o dispositivo de imageamento 106 percebe o cluster de fragmentos como um único local 302.

[00209] A saída de uma corrida de sequenciamento é as imagens de sequenciamento 108, cada uma representando emissões de intensidade dos clusters no campo no domínio de pixel para uma combinação específica de canaleta, campo, ciclo de sequenciamento, e fluoróforo (208A, 208C, 208T, 208G).

[00210] Em uma implementação, um biossensor compreende uma matriz de sensores de luz. Um sensor de luz é configurado para detectar informações a partir de uma área de pixel correspondente (por exemplo, um local/poço/nanopoço de reação) na superfície de detecção do biossensor. Um analito disposto em uma área de pixel é dito estar associado com a área de pixel, isto é, o analito associado. Em um ciclo de sequenciamento, o sensor de luz que corresponde à área de pixels é configurado para detectar/captura/emissões/fótons a partir do analito associado e, em resposta, gerar um sinal de pixel para cada canal imageado. Em uma implementação, cada canal imageado corresponde a uma banda de comprimento de onda de filtro dentre uma pluralidade de bandas de comprimento de onda de filtro. Em uma outra implementação, cada canal imageado corresponde a um evento de imageamento dentre uma pluralidade de eventos de imageamento em um ciclo de sequenciamento. Em ainda uma outra implementação, cada canal imageado corresponde a uma combinação de iluminação com um laser e imageamento específicos através de um filtro óptico específico.

[00211] Os sinais de pixel dos sensores de luz são comunicados a um processador de sinal acoplado ao biossensor (por exemplo, através de uma porta de comunicação). Para cada ciclo de sequenciamento e cada canal imageado, o processador de sinal produz uma imagem cujos pixels respectivamente mostram/contêm denotam representam/caracterizam sinais de pixel obtidos dos sensores de luz correspondentes. Desta forma, um pixel na imagem corresponde a: (i) um sensor de luz do biossensor que gerou o sinal de pixel representado pelo pixel, (ii) um analito associado cujas emissões foram detectadas pelo sensor de luz correspondente e convertidas no sinal de pixel, e (iii) uma área de pixel na superfície de detecção do biossensor que contém o analito associado.

[00212] Considere, por exemplo, que uma corrida de sequenciamento usa dois canais imageados diferentes: um canal vermelho e um canal verde. Então, em cada ciclo sequenciamento, o processador de sinal produz uma imagem vermelha e uma imagem verde. Dessa forma, para uma série de k ciclos de sequenciamento da corrida de sequenciamento, uma sequência com k pares de imagens vermelha e verde é produzida como saída.

[00213] Os pixels nas imagens vermelha e verde (isto é, diferentes canais imageados) têm uma correspondência de 1 para 1 em um ciclo de sequenciamento. Isso significa que pixels correspondentes em um par das imagens vermelha e verde representam dados de intensidade para o mesmo analito associado, embora em diferentes chamais imageados. De modo similar, os pixels nos pares de imagens vermelha e verde têm uma a uma correspondência de 1 para 1 entre os ciclos de sequenciamento. Isso significa que pixels correspondentes em pares diferentes das imagens vermelha e verde representam dados de intensidade para o mesmo analito associado, embora para diferentes eventos/etapas de tempo de aquisição (ciclos de sequenciamento) da corrida de sequenciamento.

[00214] Os pixels correspondentes nas imagens vermelha e verde (isto é, diferentes canais imageados) podem ser considerados um pixel de uma "imagem por ciclo" que expressa dados de intensidade em um primeiro canal vermelho e em um segundo canal verde. Uma imagem por ciclo cujos pixels representam sinais de pixel para um subconjunto das áreas de pixel, isto é, uma região (campo) da superfície de detecção do biossensor, é chamada de uma "imagem de campo por ciclo". Um patch extraído de uma imagem de campo por ciclo é chamado de um "patch da imagem por ciclo". Em uma implementação, a extração de patch é realizada por um preparador de entrada.

[00215] Os dados de imagem compreendem uma sequência de patches de imagem por ciclo gerados para uma série de ciclos de sequenciamento k de uma corrida de sequenciamento. Os pixels nos patches de imagem por ciclo contêm dados de intensidade para os analitos associados e os dados de intensidade são obtidos para um ou mais canais imageados (por exemplo, um canal vermelho e um canal verde) por sensores de luz correspondentes configurados para determinar emissões a partir dos analitos associados. Em uma implementação, quando um único cluster-alvo deve ser chamado por base, os patches de imagem por ciclo são centralizados em um pixel de centro que contém dados de intensidade para um analito-alvo associado e pixels não de centro nos patches de imagem por ciclo contêm dados de intensidade para analitos associados adjacentes ao analito-alvo associado. Em uma implementação, os dados de imagem são preparados por um preparador de entrada. Chamada de base de subpixel

[00216] A tecnologia revelada acessa uma série de conjuntos de imagens gerados durante uma corrida de sequenciamento. Os conjuntos de imagens compreendem as imagens de sequenciamento 108. Cada conjunto de imagens na série é capturado durante um respectivo ciclo sequenciamento da corrida de sequenciamento. Cada imagem (ou imagem de sequenciamento) na série captura clusters em um campo de uma célula de fluxo e seu fundo circundante.

[00217] Em uma implementação, a corrida de sequenciamento usa química de quatro canais e cada conjunto de imagens tem quatro imagens. Em uma outra implementação, a corrida de sequenciamento usa química de dois canais e cada conjunto de imagens tem duas imagens. Em ainda uma outra implementação, a corrida de sequenciamento usa química de um canal e cada conjunto de imagens tem duas imagens. Em ainda outras implementações, cada conjunto de imagens tem apenas uma imagem.

[00218] As imagens de sequenciamento 108 no domínio de pixels são primeiro convertidas no domínio de subpixel por um endereçador de subpixel 110 para produzir imagens de sequenciamento 112 no domínio de subpixel. Em uma implementação, cada pixel nas imagens de sequenciamento 108 é dividido em dezesseis subpixels 502. Dessa forma, em uma implementação, os subpixels 502 são um quarto de subpixels. Em uma outra implementação, os subpixels 502 são metade de subpixels. Como resultado, cada uma das imagens de sequenciamento 112 no domínio de subpixel tem uma pluralidade de subpixels 502.

[00219] Os subpixels são então inseridos separadamente como entrada em um chamador de base 114 para obter, a partir do chamador de base 114, uma chamada de base que classifica cada um dos subpixels como uma das quatro bases (A, C, T, e G). Isso produz uma sequência de chamada de base 116 para cada um dos subpixels em uma pluralidade de ciclos de sequenciamento da corrida de sequenciamento. Em uma implementação, os subpixels 502 são identificados para o chamador de base 114 com base em suas coordenadas de números inteiros ou não inteiros. Mediante o rastreamento do sinal de emissão a partir dos subpixels

502 através de conjuntos de imagens gerados durante a pluralidade de ciclos de sequenciamento, o chamador de base 114 recupera a sequência de DNA subjacente para cada subpixel. Um exemplo disso é ilustrado na Figura 8b.

[00220] Em outras implementações, a tecnologia revelada obtém, a partir do chamador de base 114, a chamada de base que classifica cada um dos subpixels como uma das cinco bases (A, C, T, G, e N). Em tais implementações, a chamada de base N denota uma chamada de base não decidida inconclusivo, geralmente devido aos baixos níveis de intensidade extraída.

[00221] Alguns exemplos do chamador de base 114 incluem ofertas da Illumina não baseadas em rede neural como a RTA (Real Time Analysis), o programa Firecrest do Genome Analyzer Analysis Pipeline, a máquina IPAR ((Integrated Primary Analysis and Reporting), e o OLB (Off- Line Basecaller). Por exemplo, o chamador de base 114 produz as sequências de chamada de base mediante a interpolação da intensidade dos subpixels, incluindo ao menos um dentre extração de intensidade de vizinhos mais próximos, extração de intensidade baseada em Gauss, extração de intensidade com base na média da área de subpixel de 2 x 2, extração de intensidade baseada na área de subpixel mais brilhante de 2 x 2, extração de intensidade baseada na média da área de subpixel de 3 x 3, extração de intensidade linear, extração de intensidade bicúbica, e/ou extração de intensidade baseada na cobertura da área pesada. Essas técnicas são descritas em detalhe no Apêndice intitulado "Métodos de extração de intensidade".

[00222] Em outras implementações, o chamador de base 114 pode ser um chamador de base baseado em rede neural, como o chamador de base baseado em rede neural 1514 aqui revelado.

[00223] As sequências do chamador de base em subpixel 116 são então inseridas como entrada em um buscador 118. O buscador 118 buscas por sequências de chamada de base substancialmente correspondentes de subpixels contíguos. As sequências de chamada de base de subpixels contíguos são "substancialmente correspondentes" quando uma porção predeterminada de chamadas de base corresponde em uma base ordinal em posição (por exemplo, >=41 emparelhamentos em 45 ciclos, <=4 desemparelhamentos em 45 ciclos, <=4 desemparelhamento em 50 ciclos, ou <=2 desemparelhamentos em 34 ciclos).

[00224] O buscador 118 então gera um mapa de clusters 802 que identifica os clusters como regiões disjuntas, por exemplo, 804a a d, de subpixels contíguos que compartilham uma sequência de chamadas de base substancialmente correspondente. Esta aplicação usa "disjunta", "disjuntas" e "não sobrepostas" de forma intercambiável. A busca envolve a chamada de base dos subpixels que contêm partes de clusters para permitir ligação dos subpixels chamados ao subpixels contíguos com os quais eles compartilham uma sequência de chamadas de base susbstancialmente correspondente. Em algumas implementações, o buscador 118 exige que ao menos algumas das regiões disjuntas tenha um número mínimo predeterminado de subpixels (por exemplo, mais que 4, 6, ou 10 subpixels) para ser processado como um cluster.

[00225] Em algumas implementações, o chamador de base 114 também identifica coordenadas preliminares de centro dos clusters. Os subpixels que contêm as coordenadas preliminares de centro são chamados de subpixels de origem. Alguns exemplos de coordenadas preliminares de centro (604a a c) identificados pelo chamador de base 114 e correspondentes subpixels de origem (606a a c) são mostrados na Figura 6. No entanto, a identificação dos subpixels de origem (coordenadas preliminares de centro dos clusters) não é necessária, conforme explicado abaixo. Em algumas implementações, o buscador 118 usa busca primeiro em largura para identificar sequências de chamadas de base substancialmente correspondentes dos subpixels começando com os subpixels de origem 606a a c e continuando com os subpixels não de origem sucessivamente contíguos 702a a c. Isso também é opcional, conforme explicado abaixo. Mapa de cluster

[00226] A Figura 8a ilustra um exemplo de um mapa de clusters 802 gerado pela fusão das chamadas de base de subpixel. O mapa de clusters identifica uma pluralidade de regiões disjuntas (representada em várias cores na Figura 8a). Cada região disjunta compreende um grupo não sobreposto de subpixels contíguos que representa um respectivo cluster em um campo (do qual o sequenciamento de imagens e para o qual o mapa de clusters é gerado através da chamada de base de subpixel). A região entre as regiões disjuntas representa o fundo no campo. Os subpixels na região de fundo são chamados de "subpixels de fundo". Os subpixels nas regiões disjuntas são chamados de "subpixels de cluster" ou "subpixel de interior de cluster". Nesta discussão, os subpixels de origem são os subpixels nos quais as coordenadas preliminares de centro de cluster determinadas pela RTA ou um outro chamador de base, estão localizados.

[00227] Os subpixels de origem contêm as coordenadas preliminares de centro de cluster. Isto significa que a área coberta por um subpixel de origem inclui uma localização de coordenadas que coincide com uma localização de coordenadas preliminares de centro de cluster. Uma vez que o mapa de clusters 802 é uma imagem de subpixels lógicos, os subpixels de origem são alguns dos subpixels no mapa de clusters.

[00228] A busca para identificar clusters com sequências de chamadas de base substancialmente correspondentes dos subpixels não precisa começar com a identificação dos subpixels de origem (coordenadas preliminares de centro dos clusters) porque a busca pode ser feita para todos os subpixels e pode começar a partir de qualquer subpixel (por exemplo, subpixel 0,0 ou qualquer subpixel aleatório). Dessa forma, uma vez que cada subpixel é avaliado para determinar se ele compartilha uma sequência de chamadas de base substancialmente correspondente com um outro subpixel contíguo, a busca não depende dos subpixels de origem, a busca pode começar com qualquer subpixel.

[00229] Independentemente do uso ou não dos subpixels de origem, determinados clusters são identificados que não contêm os subpixels de origem (coordenadas preliminares de centro dos clusters) preditos pelo chamador de base 114. Alguns exemplos de clusters identificados pela fusão das chamadas de base de subpixel e que não contêm um subpixel de origem são os clusters 812a, 812b, 812c, 812d, e 812e na Figura 8a. Dessa forma, a tecnologia revelada identifica clusters adicionais ou extra para os quais os centros podem não ter sido identificado pelo chamador de base 114. Portanto, o uso do chamador de base 114 para identificação de subpixels de origem (coordenadas preliminares de centro dos clusters) é opcional e não é essencial para a busca de sequências de chamadas de base substancialmente correspondentes de subpixels contíguos.

[00230] Em uma implementação, primeiro, os subpixels de origem (coordenadas preliminares de centro dos clusters) identificados pelo chamador de base 114 são usados para identificar um primeiro conjunto de clusters (pela identificação de sequências de chamadas de base substancialmente correspondentes de subpixels contíguos). Então, os subpixels que não fazem parte do primeiro conjunto de clusters são usados para identificar um segundo conjunto de clusters (pela identificação de sequências de chamadas de base substancialmente correspondentes de subpixels contíguos). Isto permite que a tecnologia revelada identifique clusters adicionais ou extras para os quais os centros não são identificados pelo chamador de base 114. Finalmente, os subpixels que não fazem parte do primeiro e do segundo conjuntos de clusters são identificados como subpixels de fundo.

[00231] A Figura 8b representa um exemplo de chamada de base de subpixel. Na Figura 8b, cada ciclo de sequenciamento tem um conjunto de imagens com quatro imagens distintas (isto é, imagens A, C, T, G) capturadas com o uso de quatro diferentes bandas de comprimento de onda (imagem/canal de imageamento) e quatro diferentes corantes fluorescentes (um para cada base).

[00232] Neste exemplo, os pixels nas imagens são divididos em dezesseis subpixels. Os subpixels são então chamados separadamente, por base, em cada ciclo de sequenciamento pelo chamador de base 114. Na chamada de base de um determinado subpixel em um ciclo de sequenciamento específico, o chamador de base 114 usa intensidades do subpixel em cada uma das quatro imagens A, C, T, G. Por exemplo, as intensidades nas regiões da imagem cobertas pelo subpixel 1 em cada uma das quatro imagens A, C, T, G do ciclo 1 são usadas para chamada de base de subpixel 1 no ciclo 1. Para o subpixel 1, essas regiões de imagem incluem um 1/16 (dezesseis avos) da área superior esquerda dos respectivos pixels superiores esquerdos em cada uma das quatro imagens A C, T, G, do ciclo 1. De modo similar, as intensidades nas regiões da imagem cobertas pelo subpixel m em cada uma das quatro imagens A, C, T, G do ciclo n são usadas para chamada de base em subpixel m no ciclo n. Para o subpixel m, essas regiões de imagem incluem 1/16 (dezesseis alvos) da área inferior à direita dos respectivos pixels inferiores à direita em cada uma das quatro imagens A, C, T, G do ciclo 1.

[00233] Esse processo produz sequências de chamada de base em subpixel 116 através da pluralidade de ciclos de sequenciamento. Então, o buscador 118 avalia pares de subpixels contíguos para determinar se eles têm uma sequência de chamadas de base substancialmente correspondente. Se sim, então o par de subpixels é armazenado no mapa de clusters 802 como pertencente a um mesmo cluster em uma região disjunta. Se não, então o par de subpixels é armazenado no mapa de clusters 802 como não pertencente a uma mesma região disjunta. O mapa de clusters 802 identifica, portanto, conjuntos contíguos de subpixels para os quais as chamadas de base para os subpixels correspondem substancialmente numa pluralidade de ciclos. O mapa de clusters 802 usa, portanto, informações a partir de múltiplos ciclos para fornecer uma pluralidade de clusters com uma alta confiança de que cada cluster da pluralidade de clusters fornece dados de sequência para uma única fita de DNA.

[00234] Um gerador de metadados de cluster 122 processa, então, o mapa de clusters 802 para determinar metadados de cluster, incluindo determinar distribuição especial de cluster, incluindo seus centros (810a), formatos, tamanhos, fundo, e/ou limites com base nas regiões disjuntas (Figura 9).

[00235] Em algumas implementações, o gerador de metadados de cluster 122 identifica como fundo os subpixels no mapa de clusters 802 que não pertencem a nenhuma das regiões disjuntas e que, portanto, não contribuem para quaisquer clusters. Tais subpixels são chamados de subpixels de fundo 806a a c.

[00236] Em algumas implementações, o mapa de clusters 802 identifica porções de limites de cluster 808a a c entre os dois subpixels contíguos cujas sequências de chamadas de base não são substancialmente correspondentes.

[00237] O mapa de clusters é armazenado na memória (por exemplo, no banco de dados de mapas de clusters 120) para uso como verdade absoluta para treinar um classificador como o gerador de modelo baseado em rede neural 1512 e o chamador de base baseado em rede neural 1514. Os metadados de cluster podem também ser armazenados na memória (por exemplo, no banco de dados de metadados de clusters 124).

[00238] A Figura 9 mostra um outro exemplo de um mapa de clusters que identifica metadados de cluster, incluindo distribuição espacial dos clusters, juntamente com centros de cluster, formatos de cluster, tamanhos de cluster, fundo de cluster, e/ou limites de cluster. Centro de massa (COM)

[00239] A Figura 10 mostra como um centro de massa (COM, "center of mass") de uma região disjunta em um mapa de clusters é calculado. O COM pode ser usado como o centro "revisado" ou "melhorado" do cluster correspondente no processamento a jusante.

[00240] Em algumas implementações, um gerador de centro de massa 1004, em uma base de cluster-por-cluster, determina as coordenadas hiperlocalizadas de centro 1006 dos clusters por cálculo dos centros de massa das regiões disjuntas do mapa de clusters como uma média das coordenadas dos respectivos subpixels contíguos que formam as regiões disjuntas. Ele então armazena as coordenadas hiperlocalizadas de centros dos clusters na memória, na base de cluster-por-cluster, para uso como verdade absoluta para treinar o classificador.

[00241] Em algumas implementações, um categorizador de subpixel, na base cluster-por-cluster, identifica subpixels de centros de massa 1008 nas regiões disjuntas 804a a d do mapa de clusters 802 nas coordenadas hiperlocalizadas dos centros 1006 dos clusters.

[00242] Em outras implementações, o mapa de clusters é um mapa sobreamostrado com o uso de interpolação. O mapa de clusters sobreamostrados é armazenado na memória para uso como verdade absoluta para treinar o classificador. Fato de decaimento e mapa de decaimento

[00243] A Figura 11 representa uma implementação de cálculo de um fator de decaimento pesado para um subpixel com base na distância euclidiana a partir do subpixel ao centro de massa (COM) das regiões disjuntas às quais o subpixel pertence. Na implementação ilustrada, o fator de decaimento pesado fornece o valor mais alto para o subpixel contendo o COM e diminui para subpixels mais distantes do COM. O fator de decaimento pesado é usado para derivar um mapa de decaimento de verdade absoluta 1204 a partir de um mapa de clusters gerados da chamada de base de subpixel discutida acima. O mapa de decaimento de verdade absoluta 1204 contém uma matriz de unidades e atribui ao menos um valor de saída para cada unidade na matriz. Em algumas implementações, as unidades são subpixels e a cada subpixel é atribuído um valor de saída com base no fator de decaimento pesado. O mapa de decaimento de verdade absoluta 1204 é então usado como verdade absoluta para treinar o gerador de modelo baseado em rede neural 1512 revelado. Em algumas implementações, as informações do mapa de decaimento de verdade absoluta 1204 também são usadas para preparar a entrada para o chamador de base baseado em rede neural 1514 revelado.

[00244] A Figura 12 ilustra uma implementação de um mapa de decaimento de verdade absoluta 1204 exemplificador derivado de um mapa de clusters exemplificador produzidos pela chamada de base de subpixel, conforme discutido acima. Em algumas implementações, no mapa de clusters sobreamostrados, na base de cluster-por-cluster, um valor é atribuído para cada subpixel contíguo nas regiões disjuntas com base no fator de decaimento 1102 que é proporcional à distância 1106 de um subpixel contíguo a partir de um subpixel de centro de massa 1104 em uma região disjunta à qual o subpixel contíguo pertence.

[00245] A Figura 12 representa um mapa de decaimento de verdade absoluta 1204. Em uma implementação, o valor de subpixel é um valor de intensidade normalizado entre zero e um. Em uma implementação, no mapa de clusters sobreamostrados, um mesmo valor predeterminado é atribuído a todos os subpixels identificados como o fundo. Em algumas implementações, o valor predeterminado é um valor de intensidade zero.

[00246] Em algumas implementações, o mapa de decaimento de verdade absoluta 1204 é gerado por um gerador de mapa de decaimento de verdade absoluta 1202 a partir do mapa de clusters sobreamostrados que expressa os subpixels contíguos nas regiões disjuntas e os subpixels identificados como o fundo com base nos seus valores atribuídos. O mapa de decaimento de verdade absoluta 1204 é armazenado na memória para uso como verdade absoluta para treinar o classificador. Em uma implementação, cada subpixel no mapa de decaimento de verdade absoluta 1204 tem um valor normalizado entre zero e um. Mapa ternário (três classes)

[00247] A Figura 13 ilustra uma implementação de derivação de um mapa ternário de verdade absoluta 1304 a partir de um mapa de clusters. O mapa ternário de verdade absoluta 1304 contém uma matriz de unidades e atribui ao menos um valor de saída para cada unidade na matriz. Nominalmente, as implementações de mapa ternário do mapa ternário de verdade absoluta 1304 atribuem três valores de saída a cada unidade na matriz, de modo que, para cada unidade, um primeiro valor de saída corresponde a um rótulo ou escore de classificação para uma classe de fundo, um segundo valor de saída corresponde a um rótulo ou escore de classificação para uma classe de centro de cluster, e um terceiro valor de saída corresponde a um rótulo ou escore de classificação para uma classe de cluster/ interior de cluster. O mapa ternário de verdade absoluta 1304 é usado como dados de verdade absoluta para treinar o gerador de modelo baseado em rede neural 1512. Em algumas implementações, as informações do mapa ternário de verdade absoluta 1304 são também usadas para preparar a entrada para o chamador base baseado em rede neural 1514.

[00248] A Figura 13 representa um mapa ternário de verdade de mapa 1304 exemplificador. Em uma outra implementação, no mapa de clusters sobreamostrados, os subpixels contíguos nas regiões disjuntas são categorizados na base de cluster-por-cluster por um gerador de mapa ternário de verdade absoluta 1302, como subpixels de interior de cluster que pertencem a um mesmo cluster, os subpixels de centros de massa como subpixels de centro de cluster, e como subpixels de fundo os subpixels não pertencentes a nenhum cluster. Em algumas implementações, as categorizações são armazenadas no mapa ternário de verdade absoluta

1304. Essas categorizações e o mapa ternário de verdade absoluta 1304 são armazenadas na memória para uso como verdade absoluta para treinar o classificador.

[00249] Em outras implementações, na base de cluster-por- cluster, as coordenadas dos subpixels de interior de cluster, dos subpixels de centro de cluster, e dos subpixels de fundo são armazenadas na memória para uso como verdade absoluta para treinar o classificador. Então, as coordenadas são reduzidas por um fator usado para sobreamostrar o mapa de clusters. Então, na base de cluster-por-cluster, as coordenadas reduzidas são armazenadas na memória para uso como verdade absoluta para treinar o classificador.

[00250] Em ainda outras implementações, o mapa ternário de verdade absoluta 1302 usa os mapas de clusters para gerar os dados ternários de verdade absoluta 1304 a partir do mapa de clusters sobreamostrados. Os dados ternários de verdade absoluta 1304 rotulam os subpixels de fundo como pertencentes a uma classe de fundo, os subpixels de centro de cluster como pertencentes a uma classe de centro de cluster, e os subpixels de interior de cluster como pertencentes a uma classe de interior de cluster. Em algumas implementações de visualização, codificação por cores pode ser usada para representar e distinguir os diferentes rótulos de classe. Os dados ternários de verdade absoluta 1304 são armazenados na memória para uso como verdade absoluta para treinar o classificador. Mapa Binário (duas classes)

[00251] A Figura 14 ilustra uma implementação de derivação de um mapa binário de verdade absoluta 1404 a partir de um mapa de clusters. O mapa binário 1404 contém uma matriz de unidades e atribui ao menos um valor de saída a cada unidade na matriz. Nominalmente, o mapa binário atribui dois valores de saída a cada unidade na matriz, de modo que, para cada unidade, um primeiro valor de saída corresponde a um rótulo ou escore de classificação para uma classe de centro de cluster e um segundo valor de saída corresponde a um rótulo ou escore de classificação para uma classe não de centro. O mapa binário é usado como dados de verdade absoluta para treinar o gerador de modelo baseado em rede neural

1512. Em algumas implementações, as informações do mapa binário também são usadas para preparar a entrada para o chamador de base baseado em rede neural 1514.

[00252] A Figura 14 representa um mapa binário de verdade absoluta 1404. O gerador de mapa binário de verdade absoluta 1402 usa os mapas de clusters 120 para gerar os dados binários de verdade absoluta 1404 a partir dos mapas de clusters sobreamostrados. O binário dados de verdade absoluta 1404 rotula os subpixels de centro de cluster como pertencentes a uma classe de centro de cluster e rotula todos os outros subpixels como pertencentes a uma classe não de centro. Os dados binários de verdade absoluta 1404 são armazenados na memória para uso como verdade absoluta para treinar o classificador.

[00253] Em algumas implementações, a tecnologia revelada gera mapas de clusters 120 para uma pluralidade de campos da célula de fluxo, armazena os mapas de clusters na memória, e determina a distribuição espacial de clusters nos campos com base nos mapas de clusters 120, incluindo seus formatos e tamanhos. Então, a tecnologia revelada, nos mapas de clusters sobreamostrados 120 dos clusters nos campos, categoriza, em uma base de cluster-por-cluster, os subpixels como subpixels de interior de cluster que pertencem a um mesmo cluster, os subpixels de centro de cluster, os subpixels de limite, e os subpixels de fundo. A tecnologia revelada então armazena as categorizações na memória para uso como verdade absoluta para treinar o classificador, e armazena, na base de cluster-por-cluster através dos campos, as coordenadas dos subpixels de interior de cluster, dos subpixels de centro de cluster, e dos subpixels de fundo na memória para uso como verdade absoluta para treinar o classificador. A tecnologia revelada então reduz as coordenadas pelo fator usado para sobreamostrar o mapa de clusters e armazena, na base de cluster-por-cluster através dos campos, as coordenadas reduzidas na memória para uso como verdade absoluta para treinar o classificador.

[00254] Em algumas implementações, a célula de fluxo tem ao menos uma superfície dotada de um padrão com uma matriz de poços que ocupam os clusters. Em tais implementações, com base nos formatos e tamanhos determinados dos clusters, a tecnologia revelada determina: (1) quais poços dentre os poços são substancialmente ocupados por ao menos um cluster, (2) quais poços dentre os poços são minimamente ocupados, e (3) quais poços dentre os poços são co-ocupados pelos múltiplos clusters. Isso permite determinar os respectivos metadados de múltiplos clusters que co-ocupam um mesmo poço, isto é, centros, formatos, e tamanhos e de dois ou mais clusters que compartilham um mesmo poço.

[00255] Em algumas implementações, o suporte sólido sobre o qual as amostras são amplificadas em clusters compreende uma superfície dotada de padrão. Uma "superfície dotada de padrão" se refere a um arranjo de diferentes regiões dentro ou sobre uma camada exposta de um suporte sólido. Por exemplo, uma ou mais das regiões podem ser características nas quais um ou mais iniciadores de amplificação estão presentes. As características podem ser separadas por regiões intersticiais nas quais iniciadores de amplificação não estão presentes. Em algumas implementações, o padrão pode ser um formato x - de características que estão em fileiras e colunas. Em algumas implementações, o padrão pode ser um arranjo de repetição de características e/ou regiões intersticiais. Em algumas implementações, o padrão pode ser um arranjo aleatório de características e/ou regiões intersticiais. Superfícies dotadas de padrão exemplificadoras que podem ser usadas nos métodos e composições aqui apresentados são descritas na patente US n° 8.778.849, patente US n°

9.079.148, patente US n° 8.778.848, e na publicação US n° 2014/0243224, cada um dos quais está aqui incorporado a título de referência.

[00256] Em algumas implementações, o suporte sólido compreende uma matriz de poços ou depressões em uma superfície. Essa pode ser fabricada, conforme é de conhecimento geral na técnica, com o uso de uma variedade de técnicas, incluindo, mas não se limitando a, fotolitografia, técnicas de estampagem, técnicas de moldagem e técnicas de microgravação. Conforme será entendido pelos versados na técnica, a técnica usada dependerá da composição e do formato do substrato da matriz.

[00257] As características em uma superfície dotada de padrão podem ser poços em uma matriz de poços (por exemplo micropoços ou nanopoços) em suportes sólidos de vidro, silício, plástico ou outros suportes sólidos adequados com gel ligado covalentemente, dotado de padrão, como poli(N-(5-azidoacetamidilpentil)acrilamida-co-acrilamida) (PAZAM, consulte, por exemplo, a publicação US n° 2013/184796, WO 2016/066586, e WO 2015-002813, cada uma das quais está aqui incorporada a título de referência em sua totalidade). O processo cria blocos de gel usados para sequenciamento que podem ser estáveis em corridas de sequenciamento com um grande número de ciclos. A ligação covalente do polímero aos poços é útil para manter o gel nas características estruturadas ao longo da vida útil do substrato estruturado durante uma variedade de usos. No entanto em muitas implementações, o gel não precisa ser covalentemente ligado aos poços. Por exemplo, em algumas condições, acrilamida livre de silano (SFA, "silane-free acrylamide", consulte, por exemplo, a patente US n° 8.563.477, que está aqui incorporada a título de referência em sua totalidade) que não é covalentemente fixado a qualquer parte do substrato estruturado, pode ser usada como o material de gel.

[00258] Em implementações específicas, um substrato estruturado pode ser produzido pela padronização um material de suporte sólido com poços (por exemplo, micropoços ou nanopoços), revestimento do suporte dotado de padrão com um material de gel (por exemplo, PAZAM, SFA ou variantes quimicamente modificadas dos mesmos, como a versão azidolizada de SFA (azido-SFA)) e polimento do suporte revestido com gel, por exemplo através de polimento químico ou mecânico, retendo, assim, o gel nos poços, mas removendo ou inativando substancialmente todo os gel das regiões intersticiais na superfície do substrato estruturado entre os poços. Os iniciadores de ácidos nucleicos podem ser fixados ao material de gel. Uma solução de ácidos nucleicos alvo (por exemplo, um genoma humano fragmentado) pode então ser colocado em contato com o substrato polido, de modo que os ácidos nucleicos alvo individuais irão semear os poços individuais através de interações com os iniciadores fixados ao material de gel; entretanto, os ácidos nucleicos alvo não irão ocupar as regiões intersticiais devido à ausência ou inatividade do material de gel. A amplificação dos ácidos nucleicos alvo será confinada aos poços uma vez que a ausência ou inatividade do gel nas regiões intersticiais impede a migração para fora da colônia de ácidos nucleicos. O processo é convenientemente fabricável e escalável com o uso de métodos de micro e nanofabricação.

[00259] O termo "célula de fluxo", como usado aqui, se refere a uma câmara compreendendo uma superfície sólida através da qual um ou mais reagentes fluidos podem fluir. Exemplos de células de fluxo e de sistemas fluídicos relacionados e de plataformas de detecção que podem ser prontamente usado nos métodos da presente revelação são descritos, por exemplo, em Bentley et al., Nature 456:53-59 (2008), WO 04/018497; US 7.057.026; WO 91/06678; WO 07/123744; US 7.329.492; US 7.211.414;

US 7.315.019; US 7.405.281, e US 2008/0108082, cada um dos quais está aqui incorporado a título de referência.

[00260] Em toda esta revelação, os termos "P5" e "P7" são usados com referência a iniciadores de amplificação. Será entendido que quaisquer iniciadores de amplificação podem ser usados nos métodos apresentados na presente invenção, e que o uso de P5 e P7 são implementações exemplificadoras apenas. Os usos de iniciadores de amplificação, como P5 e P7, em células de fluxo é conhecido na técnica, conforme exemplificado pelas revelações de WO 2007/010251, WO 2006/064199, WO 2005/065814, WO 2015/106941, WO 1998/044151, e WO 2000/018957, cada uma das quais está aqui incorporada a título de referência em sua totalidade. Por exemplo, qualquer iniciador de amplificação para frente adequado, se imobilizado ou em solução, pode ser útil nos métodos apresentados na presente invenção para hibridização com uma sequência complementar e amplificação de uma sequência. De modo similar, qualquer iniciador de amplificação reverso adequado, se imobilizado ou em solução, pode ser útil nos métodos apresentados na presente invenção para hibridização com uma sequência complementar e amplificação de uma sequência. Uma pessoa versada na técnica entenderá como projetar e usar sequências de iniciadores que são adequadas para captura e amplificação de ácidos nucleicos conforme apresentado na presente invenção.

[00261] Em algumas implementações, a célula de fluxo tem ao menos uma superfície não padronizada e os clusters são não uniformemente espalhados sobre a superfície não padronizada.

[00262] Em algumas implementações, a densidade dos clusters está na faixa de cerca de 100.000 de clusters/mm2 a cerca de 1.000.000 de clusters/mm2. Em outras implementações, a densidade dos clusters está na faixa de cerca de 1.000.000 de clusters/mm2 a cerca de 10.000.000 de clusters/mm2.

[00263] Em uma implementação, as coordenadas preliminares de centro dos clusters determinados pelo chamador de base são definidas em uma imagem de modelo do campo. Em algumas implementações, uma resolução em pixel, um sistema de coordenadas de imagem, e escalas de medição do sistema de coordenadas de imagem são iguais para a imagem de modelo e as imagens.

[00264] Em uma outra implementação, a tecnologia revelada se refere à determinação de metadados sobre clusters em um campo de uma célula de fluxo. Em primeiro lugar, a tecnologia revelada acessos (1) um conjunto de imagens do campo capturadas durante uma corrida de sequenciamento e (2) coordenadas preliminares de centro dos clusters determinados por um chamador de base.

[00265] Então, para cada conjunto de imagens, a tecnologia revelada obtém uma chamada de base que classifica, como uma das quatro bases, (1) os subpixels de origem que contêm as coordenadas preliminares de centro e (2) uma vizinhança predeterminada de subpixels contíguos que são sucessivamente contíguos aos respectivos subpixels de origem dentre os subpixels de origem. Isso produz uma sequência de chamadas de base para cada um dos subpixels de origem e para cada vizinhança predeterminada de subpixels contíguos. A vizinhança predeterminada de subpixels contíguos pode ser um patch de subpixel de m × n centralizado em subpixels contendo os subpixels de origem. Em uma implementação, o patch de subpixel é 3 x 3 subpixels. Em outras implementações, o patch de imagem patch pode ser de qualquer tamanho, como 5 x 5, 15 x 15, 20 x 20, e assim por diante. Em outras implementações, a vizinhança predeterminada de subpixels contíguos pode ser uma vizinhança de subpixels n-conectados centralizada em subpixels que contêm os subpixels de origem.

[00266] Em uma implementação, a tecnologia revelada identifica como fundo os subpixels no mapa de clusters que não pertencem a nenhuma das regiões disjuntas.

[00267] Então, a tecnologia revelada gera um mapa de clusters que identifica os clusters como regiões disjuntas de subpixels contíguos que: (a) são sucessivamente contíguos a ao menos alguns dos respectivos subpixels de origem dentre os subpixels de origem e (b) compartilham uma sequência de chamadas de base substancialmente correspondente da uma base dentre as quatro bases com os ao menos alguns dos respectivos subpixels de origem dentre os subpixels de origem.

[00268] A tecnologia revelada então armazena o mapa de clusters na memória e determina os formatos e os tamanhos dos clusters com base nas regiões disjuntas no mapa de clusters. Em outras implementações, os centros dos clusters são também determinados. Geração de dados de treinamento para gerador de modelo

[00269] A Figura 15 é um diagrama de blocos que mostra uma implementação de geração de dados de treinamento que é usada para treinar o gerador de modelo baseado em rede neural 1512 e o chamador de base baseado em rede neural 1514.

[00270] A Figura 16 mostra características dos exemplos de treinamento revelados usados para treinar o gerador de modelo baseado em rede neural 1512 e o chamador de base baseado em rede neural 1514. Cada exemplo de treinamento corresponde a um campo e é rotulado com uma correspondente representação de dados de verdade absoluta. Em algumas implementações, a representação de dados de verdade absoluta é uma máscara de verdade absoluta ou um mapa de verdade absoluta que identifica os metadados de cluster de verdade de metadados sob a forma do mapa de decaimento de verdade absoluta 1204, do mapa binário de verdade absoluta 1304, ou do mapa ternário de verdade absoluta 1404. Em algumas implementações, múltiplos exemplos de treinamento correspondem a um mesmo campo.

[00271] Em uma implementação, a tecnologia revelada se refere à geração de dados de treinamento 1504 para a geração de modelo baseado em rede neural e a chamada de base. Primeiro, a tecnologia revelada acessa um grande número de imagens 108 de uma célula de fluxo 202 capturadas em uma pluralidade de ciclos de um sequenciamento correr. A célula de fluxo 202 tem uma pluralidade de campos. No grande número de imagens 108, cada um dos campos tem uma sequência de conjuntos de imagens gerados em uma pluralidade de ciclos. Cada imagem na sequência de conjuntos de imagens 108 representa emissões de intensidade de clusters 302 e seu fundo circundante 304 em um campo específico dentre os campos em um ciclo específico dentre os ciclos.

[00272] Então, um construtor de conjuntos de treinamento 1502 constrói um conjunto de treinamento 1504 que tem uma pluralidade de exemplos de treinamento. Conforme mostrado na Figura 16, cada exemplo de treinamento corresponde a um campo específico dentre os campos e inclui dados de imagem de ao menos alguns conjuntos de imagens na sequência de conjuntos de imagens 1602 dos campos específicos dentre os campos. Em uma implementação, os dados de imagem incluem imagens em ao menos alguns conjuntos de imagens na sequência de conjuntos de imagens 1602 do campo específico dentre os campos. Por exemplo, as imagens podem ter uma resolução de 1800 x 1800. Em outras implementações, pode ser qualquer resolução como 100 x 100, 3000 x 3000, 10000 x 10000, e assim por diante. Em ainda outras implementações, os dados de imagem incluem ao menos um patch de imagem a partir de cada uma das imagens. Em uma implementação, o patch de imagem cobre uma porção do campo específico dentre os campos. Em um exemplo, o modelo de imagem pode ter uma resolução de 20 x 20. Em outras implementações,

o patch de imagem pode ter qualquer resolução, como 50 x 50, 70 x 70, 90 x 90, 100 x 100, 3000 x 3000, 10000 x 10000, e assim por diante.

[00273] Em algumas implementações, os dados de imagem incluem uma representação sobreamostrada do patch de imagem. A representação sobreamostrada pode ter uma resolução de 80 x 80, por exemplo. Em outras implementações, a representação sobreamostrada pode ter qualquer resolução, como 50 x 50, 70 x 70, 90 x 90, 100 x 100, 3000 x 3000, 10000 x 10000, e assim por diante.

[00274] Em algumas implementações, múltiplos exemplos de treinamento correspondem a um mesmo campo específico dentre os campos e respectivamente incluem, como dados de imagem, diferentes patches de imagem de cada imagem em cada um de ao menos alguns conjuntos de imagens em uma sequência de conjuntos de imagens 1602 do mesmo campo específico dentre os campos. Em tais implementações, ao menos alguns dos diferentes patches de imagem se sobrepõem uns aos outros.

[00275] Então, um gerador de verdade absoluta 1506 gera ao menos uma representação de dados de verdade absoluta para cada um dos exemplos de treinamento. A representação de dados de verdade absoluta identifica ao menos um dentre distribuição espacial de clusters e seu fundo circundante no campo dentre os campos cujas emissões de intensidade são representadas pelos dados de imagem, incluindo ao menos um dentre formatos de cluster, tamanhos de cluster, e/ou limites de cluster, e/ou centros dos clusters.

[00276] Em uma implementação, a representação dos dados de verdade absoluta identifica os clusters como regiões disjuntas de subpixels contíguos, os centros dos clusters como subpixels de centro de massa nas respectivas regiões disjuntas dentre as regiões disjuntas, e seu fundo circundante como subpixels que não pertencem a nenhuma das regiões disjuntas.

[00277] Em uma implementação, a representação de dados de verdade absoluta tem uma resolução sobreamostrada de 80 x 80. Em outras implementações, a representação de dados de verdade absoluta pode ter qualquer resolução, como 50 x 50, 70 x 70, 90 x 90, 100 x 100,

3.000 x 3.000, 10.000 x 10.000, e assim por diante.

[00278] Em uma implementação, a representação de dados de verdade absoluta identifica cada subpixel como sendo um centro de cluster ou um não centro de cluster. Em uma outra implementação, a representação de dados de verdade absoluta identifica cada subpixel como sendo interior de cluster, centro de cluster, ou fundo circundante.

[00279] Em algumas implementações, a tecnologia revelada armazena, na memória, os exemplos de treinamento no conjunto de treinamento 1504 e os associados dados de verdade absoluta 1508 como os dados de treinamento 1504 para treinar o gerador de modelo baseado em rede neural 1512 e o chamador de base baseado em rede neural 1514. O treinamento é operacionalizado pelo treinador 1510.

[00280] Em algumas implementações, a tecnologia revelada gera os dados de treinamento para uma variedade de células de fluxo, instrumentos de sequenciamento, protocolos de sequenciamento, químicas de sequenciamento, reagentes de sequenciamento, e densidades de cluster. Gerador de modelo baseado em rede neural

[00281] Em uma implementação de inferência ou produção, a tecnologia revelada usa detecção de pico e segmentação para determinar metadados de cluster. A tecnologia revelada processa os dados da imagem de entrada 1702 derivados de uma série de conjuntos de imagens 1602 através de uma rede neural 1706 para gerar uma representação alternativa 1708 de dados de imagem de entrada 1702. Por exemplo, um conjunto de imagens pode ser para um determinado ciclo sequenciamento e incluir quatro imagens, uma para cada canal de imagem A, C, T, e G. Então, para uma corrida de sequenciamento com cinquenta ciclos de sequenciamento, haverá cinquenta desses conjuntos de imagens, isto é, um total de 200 imagens. Quando dispostos temporalmente, os cinquenta conjuntos de imagens com quatro imagens por conjunto de imagens formariam a série de conjuntos de imagens 1602. Em algumas implementações, patches de imagem de um certo tamanho são extraídos de cada imagem nos cinquenta conjuntos de imagens, formando cinquenta conjuntos de patches de imagem com quatro patches de imagens por conjunto de patches de imagens e, em uma implementação, esses são os dados da imagem de entrada 1702. Em outras implementações, os dados da imagem de entrada 1702 compreendem conjuntos de patches de imagem com quatro patches de imagem por conjunto de patches de imagem para menos de cinquenta ciclos de sequenciamento, isto é, apenas um, dois, três, quinze, vinte ciclos de sequenciamento.

[00282] A Figura 17 ilustra uma implementação de processamento de dados de imagem de entrada 1702 através do gerador de modelo baseado em rede neural 1512 e de geração de um valor de saída para cada unidade em uma matriz. Em uma implementação, a matriz é um mapa de decaimento 1716. Em uma outra implementação, a matriz é um mapa ternário 1718. Em ainda uma outra implementação, a matriz é um mapa binário 1720. A matriz pode, portanto, representar uma ou mais propriedades de cada uma dentre uma pluralidade de localizações representadas nos dados de imagem de entrada 1702.

[00283] Diferente do treinamento do gerador de modelo com o uso das estruturas nas figuras anteriores, incluindo o mapa de decaimento de verdade absoluta 1204, o mapa ternário de verdade absoluta 1304, e o mapa binário de verdade absoluta 1404, o mapa de decaimento 1716, o mapa ternário 1718, e/ou o mapa binário 1720 são gerados pela propagação para frente do gerador de modelo baseado em rede neural treinado 1512. A propagação para frente pode ser durante o treinamento ou durante a inferência. Durante o treinamento, devido à atualização do gradiente baseada em retropropagação, o mapa de decaimento 1716, o mapa ternário 1718, e o mapa binário 1720 (isto é, cumulativamente a saída 1714) progressivamente correspondem ou se aproximam do mapa de decaimento de verdade absoluta 1204, do mapa ternário de verdade absoluta 1304, e do mapa binário de verdade absoluta 1404, respectivamente.

[00284] O tamanho da matriz de imagem analisada durante a inferência depende do tamanho dos dados da imagem de entrada 1702 (por exemplo, é a mesma versão ou uma versão aumentada ou reduzida), de acordo com uma implementação. Cada unidade pode representar um pixel, um subpixel, ou um superpixel. Os valores de saída em unidade de uma matriz podem caracterizar/representar/denotar o mapa de decaimento 1716, o mapa ternário 1718, ou o mapa binário 1720. Em algumas implementações, os dados da imagem de entrada 1702 são também uma matriz de unidades na resolução de pixel, subpixel, ou superpixel. Em tal implementação, o gerador de modelo baseado em rede neural 1512 usa técnicas de segmentação semântica para produzir um valor de saída para cada unidade na matriz de entrada. Detalhes adicionais sobre os dados da imagem de entrada 1702 podem ser encontradas nas Figuras 21b, 22, 23, e 24 e sua discussão.

[00285] Em algumas implementações, o gerador de modelo baseado em rede neural 1512 é uma rede totalmente convolucional, como a descrita em J. Long, E. Shelhamer, e T. Darrell, "Fully convolutional networks for semantic segmentation", em CVPR, (2015), que está aqui incorporado a título de referência. Em outras implementações, o gerador de modelo baseado em rede neural 1512 é uma rede U-Net com conexões de salto entre o decodificador e o codificador entre o decodificador e o codificador, como aquele descrito em Ronneberger O, Fischer P, Brox T., "U-net: Convolutional networks for biomedical image segmentation", Med. Image

Comput. Comput. Assist. Interv. (2015), disponível em: http://link.springer.com/chapter/10.1007/978-3-319-24574-4_28, que está aqui incorporado a título de referência. A arquitetura U-Net se assemelha a um atuocodificador com duas subestruturas principais: 1) Um codificador, que adquire uma imagem de entrada e reduz sua resolução espacial através de múltiplas camadas convolucionais para criar uma codificação de representação. 2) Um decodificador, que adquire uma codificação de representação e aumenta de volta para a resolução espacial para produzir uma imagem reconstruída como saída. A U-Net introduz duas inovações para esta arquitetura: Primeiro, a função objetiva é ajustada para reconstruir uma máscara de segmentação com o uso de uma função de perda; e segundo, as camadas convolucionais do codificador são conectadas às camadas correspondentes da mesma resolução no decodificador com o uso de conexões de salto. Em ainda outras implementações, o gerador de modelo baseado em rede neural 1512 é uma rede neural profunda totalmente convolucional de segmentação com uma sub-rede de codificadores e uma rede de decodificadores correspondente. Em tal implementação, a sub-rede de codificadores inclui uma hierarquia de codificadores e a rede de decodificadores inclui uma hierarquia de decodificadores que mapeiam mapas de características de codificador de baixa resolução até mapas de características totais de resolução de entrada. Detalhes adicionais sobre redes de segmentação pode ser encontrada no Apêndice intitulado "Segmentation Networks".

[00286] Em uma implementação, o gerador de modelo baseado em rede neural 1512 é uma rede neural convolucional. Em uma outra implementação, o gerador de modelo baseado em rede neural 1512 é uma rede neural recorrente. Em ainda uma outra implementação, o gerador de modelo baseado em rede neural 1512 é uma rede neural residual com blocos residuais e conexões residuais. Em uma outra implementação, o gerador de modelo baseado em rede neural 1512 é uma combinação de uma rede neural convolucional e uma rede neural recorrente.

[00287] A pessoa versada na técnica entenderá que o gerador de modelo baseado em rede neural 1512 (isto é, a rede neural 1706 e/ou a camada de saída 1710) pode usar várias configurações de preenchimento ("padding") e passo ("striding"). Ele pode usar diferentes funções de saída (por exemplo, classificação ou regressão) e pode ou não incluir uma ou mais camadas totalmente conectadas. Ele pode usar convoluções 1D, convoluções 2D, convoluções 3D, convoluções 4D, convoluções 5D, convoluções dilatadas ou atrous, convoluções de transposição, convoluções separáveis em profundidade, convoluções pontuais, convoluções 1 x 1, convoluções de grupo, convoluções achatadas, convoluções espaciais e de canal cruzado, convoluções agrupadas e embaralhados, convoluções espaciais separáveis, e desconvoluções. Ele pode usar uma ou mais funções de perda, como regressão logística/perda logarítmica, perda softmax/entropia cruzada multiclasse, perda por entropia cruzada binária, perda por erro quadrático médio, perda L1, perda L2, perda L1 suave, e perda de Huber. Ele pode usar quaisquer esquemas de paralelismo, eficiência e compressão como TFRecords, codificação comprimida (por exemplo, PNG), nidificação, chamadas paralelas para transformação de mapa, batching, prefetching, paralelismo de modelo, paralelismo de dados e SGD síncrono/assíncrono. Ele pode incluir camadas de sobreamostragem, camadas de sobamostragem, conexões recorrentes, portas ("gates") e unidades de memória gated (como um LSTM ou GRU), blocos residuais, conexões residuais, conexões de enlace ("highway connections"), conexões de salto ("skip connections"), conexões peephole, funções de ativação (por exemplo, como unidade linear retificada (ReLU, "rectifying linear unit"), unidade linear retificada com vazamento ("leaky ReLU), unidade linear exponencial (ELU, "exponential linear unit"), camadas de normalização em lote, camadas de regularização, abandono ("dropout), camadas de pooling

(por exemplo, pooling máximo ou médio), camadas de pooling de média global, e mecanismos de atenção.

[00288] Em algumas implementações, cada imagem na sequência de conjuntos de imagens 1602 abrange um campo e representa emissões de intensidade de clusters em um campo e seu fundo circundante capturadas para um determinado canal de imageamento em um ciclo de sequenciamento específico de uma pluralidade de ciclos de sequenciamento de uma corrida de sequenciamento executada em uma célula de fluxo. Em uma implementação, os dados da imagem de entrada 1702 incluem ao menos um patch de imagem de cada uma das imagens na sequência de conjuntos de imagens 1602. Nesse tipo de implementação, o pedaço ou "patch" de imagem cobre uma porção do campo. Em um exemplo, o patch de imagem tem uma resolução de 20 x 20. Em outros casos, a resolução do patch de imagem pode estar na faixa de 20 x 20 a

10.000 x 10.000. Em uma outra implementação, os dados da imagem de entrada 1702 incluem uma representação sobreamostrada da resolução em subpixel do patch de imagem de cada uma das imagens na sequência dos conjuntos de imagens 1602. Em um exemplo, a representação sobreamostrada em subpixel tem uma resolução de 80 x 80. Em outros casos, a resolução da representação sobreamostrada em subpixel pode estar na faixa de 80 x 80 a 10.000 x 10.000.

[00289] Os dados da imagem de entrada 1702 tem uma matriz de unidades 1704 que mostra clusters e seu fundo circundante. Por exemplo, um conjunto de imagens pode ser para um determinado ciclo sequenciamento e incluir quatro imagens, uma para cada canal de imagem A, C, T, e G. Então, para uma corrida de sequenciamento com cinquenta ciclos de sequenciamento, haverá cinquenta desses conjuntos de imagens, isto é, um total de 200 imagens. Quando dispostos temporalmente, os cinquenta conjuntos de imagens com quatro imagens por conjunto de imagens formariam a série de conjuntos de imagens 1602. Em algumas implementações, os patches de imagem de um certo tamanho são extraídos de cada imagem nos cinquenta conjuntos de imagens, formando cinquenta conjuntos de patches de imagem com quatro patches de imagens por conjunto de patches de imagem e, em uma implementação, esses são os dados da imagem de entrada 1702. Em outras implementações, os dados da imagem de entrada 1702 compreendem conjuntos de patches de imagem com quatro patches de imagem por conjunto de patches de imagem para menos de cinquenta ciclos de sequenciamento, isto é, apenas um, dois, três, quinze, vinte ciclos de sequenciamento. A representação alternativa é um mapa de características. O mapa de características pode ser uma característica convolvida ou representação convolvida quando a rede neural é uma rede neural convolucional. O mapa de características pode ser uma característica oculta de estado ou representação oculta de estado quando a rede neural é uma rede neural recorrente.

[00290] Então, a tecnologia revelada processa a representação alternativa 1708 através de uma camada de saída 1710 para gerar uma saída 1714 que tem um valor de saída 1712 para cada unidade na matriz

1704. A camada de saída pode ser uma camada de classificação, como softmax ou sigmoide, que produz valores de saída em unidade. Em uma implantação, a camada de saída é uma camada ReLU ou qualquer outra função de ativação que produz valores de saída em unidade.

[00291] Em uma implementação, as unidades nos dados da imagem de entrada 1702 são pixels e, portanto, valores de saída em pixel 1712 são produzidos na saída 1714. Em uma outra implementação, as unidades nos dados da imagem de entrada 1702 são subpixels e, portanto, valores de saída em subpixel 1712 são produzidos na saída 1714. Em ainda uma outra implementação, as unidades nos dados da imagem de entrada 1702 são superpixels e, portanto, valores de saída em superpixel 1712 são produzidos na saída 1714.

Derivação de metadados de cluster a partir de mapa de decaimento, mapa ternário e/ou mapa binário

[00292] A Figura 18 mostra uma implementação de técnicas de processamento posterior que são aplicadas ao mapa de decaimento 1716, ao mapa ternário 1718, ou ao mapa binário 1720 produzidos pelo gerador de modelo baseado em rede neural 1512 para derivar metadados de cluster, incluindo, centros de cluster, formatos de clusters, tamanhos de cluster, fundo de cluster, e/ou limites de cluster. Em algumas implementações, as técnicas de processamento posterior são aplicadas por um pós-processador 1814 que compreende adicionalmente um limitador ou "thresholder" 1802, um localizador de pico 1806 e um segmentador 1810.

[00293] A entrada para o limitador 1802 é o mapa de decaimento 1716, o mapa ternário 1718, ou mapa binário 1720 produzido pelo gerador de modelo 1512, como o revelado no gerador de modelo baseado em rede neural. Em uma implementação, o limitador 1802 aplica a limiarização nos valores no mapa de decaimento, no mapa ternário, ou no mapa binário para identificar unidades de fundo 1804 (isto é, subpixels que caracterizam não fundo de cluster).) e unidades não de fundo. Dito de outro modo, após a saída 1714 ser produzida, um limitador 1802 limita os valores de saída das unidades 1712 e classifica, ou pode reclassificar, um primeiro subconjunto das unidades 1712 como "unidades de fundo" 1804 que representam o fundo circundante dos clusters e como "unidades não de fundo" que representam as unidades que potencialmente não pertencem aos clusters. O valor-limite aplicado pelo limitador 1802 pode ser predefinido.

[00294] A entrada para o localizador de pico 1806 é também o mapa de decaimento 1716, o mapa ternário 1718, ou o mapa binário 1720 produzidos pelo gerador de modelo baseado em rede neural 1512. Em uma implementação, o localizador de pico 1806 aplica a detecção de pico sobre os valores no mapa de decaimento 1716, no mapa ternário 1718, ou no mapa binário 1720 para identificar as unidades de centro 1808 (isto é, os subpixels de centro que caracterizam os centros de cluster). Dito de outro modo, o localizador de pico 1806 processa os valores de saída das unidades 1712 na saída 1714 e classifica um segundo subconjunto das unidades 1712 como "unidades de centro" 1808 contendo os centros dos clusters. Em algumas implementações, os centros dos clusters detectados pelo localizador de pico 1806 são também os centros de massa dos clusters. As unidades de centro 1808 são então fornecidas para o segmentador 1810. Detalhes adicionais sobre o localizador de pico 1806 podem ser encontrados no Apêndice intitulado "Peak Detection".

[00295] A limiarização e a detecção de pico podem ser feitas em paralelo ou uma após a outra. Ou seja, elas não dependem uma da outra.

[00296] A entrada para o segmentador 1810 é também o mapa de decaimento 1716, o mapa ternário 1718, ou o mapa binário 1720 produzidos pelo gerador de modelo baseado em rede neural 1512. Uma entrada suplementar adicional para o segmentador 1810 compreende as unidades delimitadas (unidades de fundo, não de fundo) 1804 identificadas pelo limitador 1802 e as unidades de centro 1808 identificadas pelo localizador de pico 1806. O segmentador 1810 usa as unidades de fundo, não de fundo 1804 e as unidades de centro 1808 para identificar as regiões disjuntas 1812 (isto é, grupos não sobrepostos de subpixels de clusters contíguos/subpixels de interior de cluster que caracterizam os clusters). Dito de outro modo, o segmentador 1810 processa os valores de saída das unidades 1712 na saída 1714 e usa as unidades de fundo, não de fundo 1804 e as unidades de centro 1808 para determinar os formatos 1812 dos clusters como regiões não sobrepostas de unidades contíguas separadas pelas unidades de fundo 1804 e centralizadas nas unidades de centro

1808. A saída do segmentador 1810 consiste em metadados de cluster

1812. Os metadados de cluster 1812 identificam centros de cluster, formatos de cluster, tamanhos de cluster, fundo de cluster, e/ou limites de cluster.

[00297] Em uma implementação, o segmentador 1810 começa com as unidades de centro 1808 e determina, para cada unidade de centro, um grupo de unidades sucessivamente contíguas que representam um mesmo cluster cujo centro de massa está contido na unidade de centro. Em uma implementação, o segmentador 1810 usa uma técnica de segmentação chamada de "watershed" para subdividir clusters contíguos em múltiplos clusters adjacentes em um vale em intensidade. Detalhes adicionais sobre a técnica de segmentação baseada em watershed e outras técnicas de segmentação de técnicas de segmentação podem ser encontrados no Apêndice intitulado "Watershed Segmentation".

[00298] Em uma implementação, os valores de saída das unidades 1712 na saída 1714 são valores contínuos, como os codificados no mapa de decaimento de verdade absoluta 1204. Em uma outra implementação, os valores de saída são escores softmax, como os codificados no mapa ternário de verdade absoluta 1304 e no mapa binário de verdade absoluta 1404. No mapa de decaimento de verdade absoluta 1204, de acordo com uma implementação, as unidades contíguos nas respectivas regiões não sobrepostas dentre as regiões não sobrepostas têm valores de saída pesados de acordo com a distância de uma unidade contigua a partir de uma unidade de centro em uma região não sobreposta à qual a unidade contígua pertence. Em um tipo de implementação, as unidades de centro têm valores de saída mais altos nas respectivas regiões não sobrepostas dentre as regiões não sobrepostas. Conforme discutido acima, durante o treinamento, devido à atualização do gradiente baseada em retropropagação, o mapa de decaimento 1716, o mapa ternário 1718, e o mapa binário 1720 (isto é, cumulativamente a saída 1714) progressivamente correspondem ou se aproximam do mapa de decaimento de verdade absoluta 1204, do mapa ternário de verdade absoluta 1304, e do mapa binário de verdade absoluta 1404, respectivamente.

Domínio de pixel - Extração de intensidade a partir de formatos de cluster irregulares

[00299] A discussão agora se refere a como os formatos de cluster determinados pela tecnologia revelada podem ser usados para extrair intensidade dos clusters. Uma vez que estes clusters têm formatos e contornos irregulares, a tecnologia revelada pode ser usada para identificar quais subpixels contribuem para as regiões disjuntas/não sobrepostas de formato irregular que representam os formatos de cluster.

[00300] A Figura 19 representa uma implementação de extração de intensidade de cluster no domínio de pixel. "Imagem do modelo" ou "modelo" pode se referir a uma estrutura de dados que contém ou identifica os metadados de cluster 1812 derivados do mapa de decaimento 1716, do mapa ternário 1718, e/ou do mapa binário 1718. Os metadados de cluster 1812 identificam centros de cluster, formatos de cluster, tamanhos de cluster, fundo de cluster, e/ou limites de cluster.

[00301] Em algumas implementações, a imagem de modelo está no domínio sobreamostrado de subpixel para distinguir os limites de cluster em um nível mais detalhado. No entanto, as imagens de sequenciamento 108, que contêm os dados de intensidade de cluster e de fundo, são tipicamente no domínio de pixel. Dessa forma, a tecnologia revelada propõe duas abordagens para usar as informações em formato de cluster codificadas na imagem de modelo na resolução sobreamostrada subpixel para extrair as intensidades dos clusters com formato irregular a partir das imagens ópticas de sequenciamento com resolução em pixels. Na primeira abordagem, representada na Figura 19, os grupos não sobrepostos de subpixels contíguos identificados na imagem de modelo estão localizados nas imagens de sequenciamento com resolução em pixel e suas intensidades extraídas através de interpolação. Detalhes adicionais sobre essa técnica de extração de intensidade podem ser encontrados na Figura 33 e sua discussão.

[00302] Em uma implementação, quando as regiões sobrepostas têm contornos irregulares e as unidades são subpixels, a intensidade de cluster 1912 de um determinado cluster é determinada por um extrator de intensidade 1902 da forma a seguir.

[00303] Primeiro, um localizador de subpixel 1904 identifica os subpixels que contribuem para a intensidade de cluster do determinado cluster com base em uma região não sobreposta correspondente de subpixels contíguos, que identifica um formato do determinado cluster.

[00304] Então, o localizador de subpixel 1904 localiza os subpixels identificados em uma ou mais imagens ópticas com resolução em pixel 1918 geradas para um ou mais canais de imageamento em um ciclo sequenciamento atual. Em uma implementação, as coordenadas de número inteiro ou não (por exemplo, pontos flutuantes) estão localizadas nas imagens ópticas com resolução em pixel, após uma redução baseada em um fator de redução que correspondente a um fator de sobreamostragem usado para criar o domínio de subpixel.

[00305] Então, um combinador de interpolador e intensidade de subpixel 1906, intensidades dos subpixels identificadas nas imagens processadas, combina as intensidades interpolados, e normaliza os combinados interpolados intensidades para produzir uma intensidade por conjunto de imagens para o dado cluster em cada uma das imagens. A normalização é realizada por um normalizador 1908 e é baseada em um fator de normalização. Em uma implementação, o fator de normalização é um número de subpixels identificados. Isso é feito para normalizar/ter em conta os diferentes tamanhos de cluster e as iluminações irregulares que os clusters recebem dependendo de sua localização na célula de fluxo.

[00306] Por último, um acumulador de intensidade de subpixel de canal cruzado 1910 combina a intensidade de cluster por imagem para cada uma das imagens para determinar a intensidade de cluster 1912 do determinado cluster no ciclo de sequenciamento atual.

[00307] Então, o determinado cluster é chamado por base com base na intensidade de cluster 1912 no ciclo de sequenciamento atual por qualquer um dos chamadores de base discutidos neste pedido, produzindo chamadas de base 1916.

[00308] Entretanto, em algumas implementações, quando os tamanhos de cluster são grandes o suficiente, a saída do chamador de base baseado em rede neural 1514, isto é, o mapa de decaimento 1716, o mapa ternário 1718, e o mapa binário 1720 estão no domínio óptico de pixels. Consequentemente, em tais implementações, a imagem de modelo também está no domínio óptico de pixels. Domínio de subpixel - Extração de a partir de formatos de cluster irregulares

[00309] A Figura 20 representa a segunda abordagem de extração de intensidade de cluster no domínio de subpixel. Nesta segunda abordagem, as imagens de sequenciamento na resolução óptica em pixel são sobreamostradas para a resolução em subpixel. Isso resulta em correspondência entre os "subpixels que representam formato de cluster" na imagem de modelo e os "subpixels que representam intensidade de cluster" nas imagens sobreamostradas de sequenciamento. A intensidade de cluster é então extraída com base na correspondência. Detalhes adicionais sobre essa técnica de extração de intensidade podem ser encontrados na Figura 33 e sua discussão.

[00310] Em uma implementação, quando as regiões não sobrepostas têm contornos irregulares e as unidades são subpixels, a intensidade de cluster 2012 de um determinado cluster é determinada por um extrator de intensidade 2002 da forma a seguir.

[00311] Primeiro, um localizador de subpixel 2004 identifica os subpixels que contribuem para a intensidade de cluster do determinado cluster com base em uma região não sobreposta correspondente de subpixels contíguos, que identifica um formato do determinado cluster.

[00312] Então, o localizador de subpixel 2004 localiza os subpixels identificados em uma ou mais imagens com resolução em subpixel 2018 sobreamostradas de imagens ópticas com resolução em pixel correspondentes 1918 geradas para um ou mais canais de imageamento em um ciclo sequenciamento atual. A sobreamostragem pode ser realizada por extração da intensidade de vizinhos mais próximos, extração de intensidade baseada em Gauss, extração de intensidade com base na média da área de subpixel de 2 x 2, extração de intensidade baseada na área de subpixel mais brilhante de 2 x 2, extração de intensidade baseada na média da área de subpixel de 3 x 3, extração de intensidade linear, extração de intensidade bicúbica, e/ou extração de intensidade baseada na cobertura da área pesada. Essas técnicas são descritas em detalhe no Apêndice intitulado "Intensity Extraction Methods". A imagem do modelo pode, em algumas implementações, servir como uma máscara para a extração de intensidade.

[00313] Então, um combinador de intensidade de subpixel 2006, em cada uma das imagens sobreamostradas, combina as intensidades dos subpixels identificados e normaliza as intensidades combinadas para produzir uma intensidade de cluster por imagem para o dado cluster em cada uma das imagens sobreamostradas. A normalização é realizada por um normalizador 2008 e é baseada em um fator de normalização. Em uma implementação, o fator de normalização é um número de subpixels identificados. Isso é feito para normalizar/ter em conta os diferentes tamanhos de cluster e as iluminações irregulares que os clusters recebem dependendo de sua localização na célula de fluxo.

[00314] Por último, um acumulador de intensidade de subpixel de canal cruzado 2010 combina a intensidade de cluster por imagem para cada uma das imagens sobreamostradas para determinar a intensidade de cluster 2012 do determinado cluster no ciclo de sequenciamento atual.

[00315] Então, o determinado cluster é chamado por base com base na intensidade de cluster 2012 no ciclo de sequenciamento atual por qualquer um dos chamadores de base discutidos neste pedido, produzindo chamadas de base 2016. Tipos de geradores de modelo baseados em rede neural

[00316] A discussão agora se volta para os detalhes de três implementações diferentes do gerador de modelo baseado em rede neural

1512. São mostradas na Figura 21a e incluem: (1) o gerador de modo baseado em mapa de decaimento 2600 (também chamado de modelo de regressão), (2) gerador de modelo baseado em mapa binário 4600 (também chamado de modelo de classificação binária), e (3) o gerador de modelo baseado em mapa ternário 5400 (também chamado de modelo de classificação ternária).

[00317] Em uma implementação, o modelo de regressão 2600 é uma rede totalmente convolucional. Em uma outra implementação, o modelo de regressão 2600 é uma rede U Net com conexões de salto entre o decodificador e o codificador. Em uma implementação, o modelo de classificação binária 4600 é uma rede totalmente convolucional. Em uma outra implementação, o modelo de classificação binária 4600 é uma rede U- Net com conexões de salto entre o decodificador e o codificador. Em uma implementação, o modelo de classificação ternária 5400 é uma rede totalmente convolucional. Em uma outra implementação, o modelo de classificação ternária 5400 é uma rede U-Net com conexões de salto entre o decodificador e o codificador. Dados da imagem de entrada

[00318] A Figura 21b representa uma implementação dos dados de imagem de entrada 1702 que são inseridos como entrada no gerador de modelo baseado em rede neural 1512. Os dados de imagem de entrada 1702 compreendem uma série de conjuntos de imagens 2100 com as imagens de sequenciamento 108 que são geradas durante um número determinado de ciclos de sequências iniciais de uma corrida de sequenciamento (por exemplo, os primeiros 2 a 7 ciclos de sequenciamento).

[00319] Em algumas implementações, as intensidades das imagens de sequenciamento 108 são corrigidas para o fundo e/ou alinhadas umas com as outras com o uso de transformação afim. Em uma implementação, a corrida de sequenciamento usa química de quatro canais e cada conjunto de imagens tem quatro imagens. Em uma outra implementação, a corrida de sequenciamento usa química de dois canais e cada conjunto de imagens tem duas imagens. Em ainda uma outra implementação, a corrida de sequenciamento usa química de um canal e cada conjunto de imagens tem duas imagens. Em ainda outras implementações, cada conjunto de imagens tem apenas uma imagem. Estas e outras implementações diferentes são descritas nos Apêndices 6 e

9.

[00320] Cada imagem 2116 na série de conjuntos de imagens 2100 cobre um campo 2104 de uma célula de fluxo 2102 e representa emissões de intensidade de clusters 2106 no campo 2104 e seu fundo circundante capturadas para um determinado canal de imagem em um ciclo de sequenciamento específico de uma pluralidade de ciclos de sequenciamento de uma corrida de sequenciamento. Em um exemplo, para o ciclo t1, o conjunto de imagens inclui quatro imagens 2112A, 2112C, 2112T, e 2112G: uma imagem para cada base A, C, T, e G marcadas com um corante fluorescente correspondente e imageadas em uma banda de comprimentos de onda correspondente (imagem/canal de imageamento).

[00321] Para propósitos de ilustração, na imagem 2112G, a Figura 21b representa emissões de intensidade de cluster como 2108 e emissões de intensidade de fundo como 2110. Em um outro exemplo, para o ciclo tn, o conjunto de imagens inclui quatro imagens 2114A, 2114C, 2114T, e 2112G: uma imagem para cada base A, C, T, e G marcadas com um corante fluorescente correspondente e imageadas em uma banda de comprimentos de onda correspondente (imagem/canal de imageamento). Também para propósitos de ilustração, na imagem 2114A, a Figura 21b representa emissões de intensidade de cluster como 2118 e, na imagem 2114T, representa emissões de intensidade de fundo como 2120.

[00322] Os dados da imagem de entrada 1702 são codificados com o uso de canais de intensidade (também chamados de canais imageados). Para cada uma das imagens c obtidas a partir do sequenciador para um ciclo de sequenciamento específico, um canal imageado separado é usado para codificar seus dados de sinal de intensidade. Considere, por exemplo, que a corrida de sequenciamento usa a química de 2 canais que produz uma imagem vermelha e uma imagem verde em cada ciclo de sequenciamento. Em tal caso, os dados de entrada 2632 compreendem (i) um primeiro canal imageado vermelho com pixels w x h que representam emissões de intensidade do um ou mais clusters e seu fundo circundante capturadas na imagem vermelha e (ii) um segundo canal imageado verde com pixels w x h que representam emissões de intensidade do um ou mais clusters e seu fundo circundante capturadas na imagem verde. Não dados de imagem

[00323] Em uma outra implementação, os dados de entrada para o gerador de modelo baseado em rede neural 1512 e o chamador de base baseado em rede neural 1514 são baseados em alterações de pH induzidas pela liberação de íons de hidrogênio durante a extensão da molécula. As alterações de pH são detectadas e convertidos em uma alteração de tensão que é proporcional ao número de bases incorporadas (por exemplo, no caso de Íon Torrent).

[00324] Em ainda uma outra implementação, os dados de entrada são construídos a partir de detecção nanoporo que usa biossensores para medir a disrupção na corrente conforme um analito passa através de um nanoporo ou próximo de sua abertura enquanto determina a identidade da base. Por exemplo, o sequenciamento de Oxford Nanopore Technologies (ONT) é baseado no seguinte conceito: passar uma única fita de DNA (ou RNA) através de uma membrana através de nanoporo e aplicar uma diferença de tensão ao longo da membrana. Os nucleotídeos presentes no poro irão afetar a resistência elétrica do poro, de modo que as medições de corrente ao longo do tempo podem indicar a sequência de bases de DNA que passam através do poro. Este sinal de corrente elétrica (o ‘rabisco’ devido à sua aparência quando plotado) são os dados brutos coletados por um sequenciador ONT. Essas medições são armazenadas como valores de aquisição de dados (DAC, "data acquisition") de 16-bit, obtidos na frequência de 4 kHz (por exemplo). Com uma velocidade de fita DNA de ~450 pares de base por segundo, isso dá aproximadamente nove observações brutas por base em média. Este sinal é então processado para identificar rupturas no sinal de poros abertos correspondente às leituras individuais. Esses trechos de sinal bruto são chamados por base – o processo de conversão de valores DAC em uma sequência de bases de DNA. Em algumas implementações, os dados de entrada compreendem valores DAC normalizados ou em escala.

[00325] Em uma outra implementação, os dados de imagem não são usados como entrada para o gerador de modelo baseado em rede neural 1512 ou o chamador de base baseado em rede neural 1514. Em vez disso, a entrada para o gerador de modelo baseado em rede neural 1512 e o chamador de base baseado em rede neural 1514 tem por base as alterações de pH induzidas pela liberação de íons de hidrogênio durante a extensão da molécula. As alterações de pH são detectadas e convertidos em uma alteração de tensão que é proporcional ao número de bases incorporadas (por exemplo, no caso de Íon Torrent).

[00326] Em ainda uma outra implementação, a entrada para o gerador de modelo baseado em rede neural 1512 e o chamador de base baseado em rede neural 1514 é construída a partir de detecção de nanoporos que usa biossensores para medir a disrupção na corrente conforme um analito passa através de um nanoporo ou próximo de sua abertura enquanto determina a identidade da base. Por exemplo, o sequenciamento de Oxford Nanopore Technologies (ONT) é baseado no seguinte conceito: passar uma única fita de DNA (ou RNA) através de uma membrana através de nanoporo e aplicar uma diferença de tensão ao longo da membrana. Os nucleotídeos presentes no poro irão afetar a resistência elétrica do poro, de modo que as medições de corrente ao longo do tempo podem indicar a sequência de bases de DNA que passam através do poro. Este sinal de corrente elétrica (o ‘rabisco’ devido à sua aparência quando plotado) são os dados brutos coletados por um sequenciador ONT. Essas medições são armazenadas como valores de aquisição de dados (DAC, "data acquisition") de 16-bit, obtidos na frequência de 4 kHz (por exemplo). Com uma velocidade de fita DNA de ~450 pares de base por segundo, isso dá aproximadamente nove observações brutas por base em média. Este sinal é então processado para identificar rupturas no sinal de poros abertos correspondente às leituras individuais. Esses trechos de sinal bruto são chamados por base – o processo de conversão de valores DAC em uma sequência de bases de DNA. Em algumas implementações, os dados de entrada 2632 compreendem valores DAC normalizados ou em escala. Extração de patch

[00327] A Figura 22 mostra uma implementação de extração de patches a partir da série de conjuntos de imagens 2100 na Figura 21b para produzir uma série de conjuntos de imagens "de tamanho reduzido" que formam os dados de imagem de entrada 1702. Na implementação ilustrada, as imagens de sequenciamento 108 na série de conjuntos de imagens 2100 são de tamanho L × L (por exemplo, 2000 x 2000). Em outras implementações, L é qualquer número na faixa de 1 e 10.000.

[00328] Em uma implementação, um extrator de patch 2202 extrai patches das imagens de sequenciamento 108 na série de conjuntos de imagens 2100 e produz uma série de conjuntos de imagens de tamanho reduzido 2206, 2208, 2210, e 2212. Cada imagem na série de conjuntos de imagens de tamanho reduzido é um patch de tamanho M × M (por exemplo, 20 x 20) que é extraído a partir de uma imagem de sequenciamento correspondente na série de conjuntos de imagens 2100. O tamanho dos patches pode ser predefinido. Em outras implementações, M é qualquer número na faixa de 1 e 1000.

[00329] A Figura 22 mostra, quatro séries exemplificadoras de conjuntos de imagens de tamanho reduzido. A primeira série exemplificadora de conjuntos de imagens de tamanho reduzido 2206 é extraída das coordenadas 0,0 a 20,20 nas imagens de sequenciamento 108 na série de conjuntos de imagens 2100. A segunda série exemplificadora de conjuntos de imagens de tamanho reduzido 2208 é extraída das coordenadas 20,20 a 40,40 nas imagens de sequenciamento 108 na série de conjuntos de imagens 2100. A terceira série exemplificadora de conjuntos de imagens de tamanho reduzido 2210 é extraída das coordenadas 40,40 a 60,60 nas imagens de sequenciamento 108 na série de conjuntos de imagens 2100. A quarta série exemplificadora de conjuntos de imagens de tamanho reduzido 2212 é extraída das coordenadas 60,60 a 80,80 nas imagens de sequenciamento 108 na série de conjuntos de imagens 2100.

[00330] Em algumas implementações, as séries de conjuntos de imagens de tamanho reduzido formam os dados da imagem de entrada 1702 que são inseridos como entrada no gerador de modelo baseado em rede neural 1512. Múltiplas séries de conjuntos de imagens de tamanho reduzido podem ser simultaneamente inseridas como um lote de entrada e uma saída separada pode ser produzida para cada série no lote de entrada. Sobreamostragem

[00331] A Figura 23 representa uma implementação de sobreamostragem da série de conjuntos de imagens 2100 na Figura 21b para produzir uma série de conjuntos de imagens "sobreamostradas" 2300 que forma os dados de imagem de entrada 1702.

[00332] Em uma implementação, um sobreamostrador 2302 usa interpolação (por exemplo, interpolação bicúbica) para sobreamostrar as imagens de sequenciamento 108 na série de conjuntos de imagens 2100 por um fator de sobreamostragem (por exemplo, 4x) e a série de conjuntos de imagens sobreamostradas 2300.

[00333] Na implementação ilustrada, as imagens de sequenciamento 108 na série de conjuntos de imagens 2100 são de tamanho L x L (por exemplo, 2000 x 2000) e são sobreamostradas por um fator de sobreamostragem de quatro para produzir imagens sobreamostradas de tamanho U x U (por exemplo, 8000 x 8000) na série de conjuntos de imagens sobreamostradas 2300.

[00334] Em uma implementação, as imagens de sequenciamento 108 na série de conjuntos de imagens 2100 são inseridas diretamente no gerador de modelo baseado em rede neural 1512 e a sobreamostragem é realizada por uma camada inicial do gerador de modelo baseado em rede neural 1512. Ou seja, o sobreamostrador 2302 faz parte do gerador de modelo baseado em rede neura 1512 e opera como sua primeira camada que sobreamostra as imagens de sequenciamento 108 na série de conjuntos de imagens 2100 e produz a série de conjuntos de imagens sobreamostradas 2300.

[00335] Em algumas implementações, a série de conjuntos de imagens sobreamostradas 2300 formam os dados de imagem de entrada 1702 que são inseridos como entrada no gerador de modelo baseado em rede neural 1512.

[00336] A Figura 24 mostra uma implementação de extração de patches a partir da série de conjuntos de imagens sobreamostradas 2300 na Figura 23 para produzir uma série de conjuntos de imagens

"sobreamostradas" e de tamanho reduzido" 2406, 2408, 2410, e 2412 que formam os dados da imagem de entrada 1702.

[00337] Em uma implementação, um extrator de patch 2202 extrai patches das imagens sobreamostradas na série de conjuntos de imagens sobreamostradas 2300 e produz uma série de conjuntos de imagens sobreamostradas e de tamanho reduzido 2406, 2408, 2410, e

2412. Cada imagem sobreamostrada na série de conjuntos de imagens sobreamostradas e de tamanho reduzido é um patch de tamanho M × M (por exemplo, 80 x 80) que é extraído a partir de uma imagem sobreamostrada correspondente na série de conjuntos de imagens sobreamostradas 2300. O tamanho dos patches pode ser predefinido. Em outras implementações, L é qualquer número na faixa de 1 e 1000.

[00338] A Figura 24 mostra quatro séries exemplificadoras de conjuntos de imagens sobreamostradas e de tamanho reduzido. A primeira série exemplificadora de conjuntos de imagens sobreamostradas e de tamanho reduzido 2406 é extraída das coordenadas 0,0 a 80,80 nas imagens sobreamostradas na série de conjuntos de imagens sobreamostradas 2300. A segunda série exemplificadora de conjuntos de imagens sobreamostradas e de tamanho reduzido 2408 é extraída das coordenadas 80,80 a 160,160 nas imagens sobreamostradas na série de conjuntos de imagens sobreamostradas 2300. A terceira série exemplificadora de conjuntos de imagens sobreamostradas e de tamanho reduzido 2410 é extraída das coordenadas 160,160 a 240,240 nas imagens sobreamostradas na série de conjuntos de imagens sobreamostradas 2300. A quarta série exemplificadora de conjuntos de imagens sobreamostradas e de tamanho reduzido 2412 é extraída das coordenadas 240,240 a 320,320 nas imagens sobreamostradas na série de conjuntos de imagens sobreamostradas 2300.

[00339] Em algumas implementações, a série de conjuntos de imagens sobreamostradas e de tamanho reduzido formam os dados de imagem de entrada 1702 que são inseridos como entrada no gerador de modelo baseado em rede neural 1512. Múltiplas séries de conjuntos de imagens sobreamostradas e de tamanho reduzido podem ser simultaneamente inseridas como um lote de entrada e uma saída separada pode ser produzida para cada série no lote de entrada. Saída

[00340] Os três modelos são treinados para produzir diferentes saídas. Isso é obtido mediante o uso de diferentes tipos de representações de dados de verdade absoluta como rótulos de treinamento. O modelo de regressão 2600 é treinado para produzir uma saída que caracteriza/representa/denota um assim chamado "mapa de decaimento"

1716. O modelo de classificação binária 4600 é treinado para produzir uma saída que caracteriza/representa/denota um assim chamado "mapa binário"

1720. O modelo de classificação ternária 5400 é treinado para produzir uma saída que caracteriza/representa/denota um assim chamado "mapa ternário" 1718.

[00341] A saída 1714 de cada tipo de modelo compreende uma matriz de unidades 1712. As unidades 1712 podem ser pixels, subpixels ou superpixels. A saída de cada tipo de modelo inclui valores de saída em unidade, de modo que os valores de saída de uma matriz de unidades juntos caracterizam/representam/denotam o mapa de decaimento 1716 no caso do modelo de regressão 2600, o mapa binário 1720 no caso do modelo de classificação binária 4600, e o mapa ternário 1718 no caso do modelo de classificação ternária 5400. Mais detalhes seguem a seguir. Geração de dados da verdade absoluta

[00342] A Figura 25 ilustra uma implementação de um processo exemplificador geral de geração de dados de verdade absoluta para treinar o gerador de modelo baseado em rede neural 1512. Para o modelo de regressão 2600, os dados de verdade absoluta podem ser o mapa de decaimento 1204. Para o modelo de classificação binária 4600, os dados de verdade absoluta podem ser o mapa binário 1404. Para o modelo de classificação ternária 5400, os dados de verdade absoluta podem ser o mapa ternário 1304. Os dados de verdade absoluta são gerados a partir dos metadados de cluster. Os metadados de cluster são gerados pelo gerador de metadados de cluster 122. Os dados de verdade absoluta são gerados pelo gerador de dados de verdade absoluta 1506.

[00343] Na implementação ilustrada, os dados de verdade absoluta são gerados para o campo A que está na canaleta A da célula de fluxo A. Os dados de verdade absoluta são gerados a partir das imagens de sequenciamento 108 do campo A capturadas durante a corrida de sequenciamento A. As imagens de sequenciamento 108 do campo A estão no domínio de pixel. Em um exemplo envolvendo química de 4 canais que gera quatro imagens de sequenciamento por ciclo de sequenciamento, duzentas imagens de sequenciamento 108 para cinquenta ciclos de sequenciamento são acessadas. Cada uma das duzentas imagens de sequenciamento 108 mostra emissões de intensidade de clusters no campo A e seu fundo circundante capturadas em um canal de imagens específico em um ciclo de sequenciamento específico.

[00344] O endereçador de subpixel 110 converte as imagens de sequenciamento 108 nos domínios de subpixel (por exemplo, por divisão de cada pixel em uma pluralidade de subpixels) e produz imagens de sequenciamento 112 no domínio de subpixel.

[00345] O chamador de base 114 (por exemplo, RTA) então processa as imagens de sequenciamento 112 no domínio de subpixel e produz uma chamada de base para cada subpixel e para cada um dos cinquenta ciclos de sequenciamento. Isso é chamado na presente invenção de "chamada de base em subpixel".

[00346] As chamadas de base em subpixel 116 são então fundidas para produzir, para cada subpixel, uma sequência de chamada de base através dos cinquenta ciclos de sequenciamento. A sequência de chamadas de base de cada subpixel tem cinquenta chamadas de base, isto é, uma chamada de base para cada um dos cinquenta ciclos de sequenciamento.

[00347] O buscador 118 avalia as sequências de chamadas de base de subpixels contíguo em uma base de par. A busca envolve avaliar cada subpixel para determinar com qual de seus subpixels contíguos ele compartilha uma sequência de chamadas de base substancialmente correspondente. As sequências de chamada de base de subpixels contíguos são "substancialmente correspondentes" quando uma porção predeterminada de chamadas de base corresponde em uma base ordinal em posição (por exemplo, >=41 emparelhamentos em 45 ciclos, <=4 desemparelhamentos em 45 ciclos, <=4 desemparelhamento em 50 ciclos, ou <=2 desemparelhamentos em 34 ciclos).

[00348] Em algumas implementações, o chamador de base 114 também identifica coordenadas preliminares de centro dos clusters. Os subpixels que contêm as coordenadas preliminares de centro são chamados de subpixels de centro ou de origem. Alguns exemplos de coordenadas preliminares de centro (604a a a) identificados pelo chamador de base 114 e correspondentes subpixels de origem (606a a c) são mostrados na Figura 6. No entanto, a identificação dos subpixels de origem (coordenadas preliminares de centro dos clusters) não é necessária, conforme explicado abaixo. Em algumas implementações, o buscador 118 usa busca primeiro em largura para identificar sequências de chamadas de base substancialmente correspondentes dos subpixels começando com os subpixels de origem 606a a c e continuando com os subpixels não de origem sucessivamente contíguos 702a a c. Isso também é opcional, conforme explicado abaixo.

[00349] A busca por sequências de chamadas de base substancialmente correspondentes dos subpixel não precisa identificação dos subpixels de origem (coordenadas preliminares de centro dos subpixels) porque a busca pode ser feita para todos os subpixels e a busca não precisa começar a partir dos subpixels de origem e, em vez disso, pode começar de qualquer subpixel (por exemplo, subpixel 0,0 ou qualquer subpixel aleatório). Dessa forma, uma vez que cada subpixel é avaliado para determinar se ele compartilha uma sequência de chamadas de base substancialmente correspondente com um outro subpixel contíguo, a busca não precisa usar os subpixels de origem e pode começar com qualquer subpixel.

[00350] Independentemente do uso ou não dos subpixels de origem, determinados clusters são identificados que não contêm os subpixels de origem (coordenadas preliminares de centro dos clusters) preditos pelo chamador de base 114. Alguns exemplos de clusters identificados pela fusão das chamadas de base de subpixel e que não contêm um subpixel de origem são os clusters 812a, 812b, 812c, 812d, e 812e na Figura 8a. Portanto, o uso do chamador de base 114 para identificação dos subpixels de origem (coordenadas preliminares de centro dos clusters) é opcional e não é essencial para a busca das sequências de chamadas de base substancialmente correspondentes dos subpixels.

[00351] O buscador 118: (1) identifica subpixels contíguos com sequências de chamadas de base substancialmente correspondente como "regiões disjuntas", (2) avalia adicionalmente sequências de chamadas de base desses subpixels que não pertencem à nenhuma das regiões disjuntas já identificadas em (1) para produzir regiões disjuntas adicionais, e (3) então identifica os subpixels de fundo como os subpixels que não pertencem a qualquer das regiões disjuntas já identificas em (1) e (2). A ação (2) permite que a tecnologia revelada identifique clusters adicionais ou extras para os quais os centros não são identificados pelo chamador de base 114.

[00352] Os resultados do buscador 118 são codificados em um assim chamado "mapa de clusters" do campo A e armazenados no banco de dados de mapas de clusters 120. No mapa de clusters, cada um dos clusters no campo A é identificado por uma respectiva região disjunta de subpixels contíguos, com subpixels de fundo separando as regiões disjuntas para identificar o fundo circundante no campo A.

[00353] O calculador de centro de massa (COM) 1004 determina um centro para cada um dos clusters no campo A mediante o cálculo de um COM de cada uma das regiões disjuntas como uma média de coordenadas dos respectivos subpixels contíguos que formam as regiões disjuntas. Os centros de massa dos clusters são armazenados como dados de COM

2502.

[00354] Um categorizador de subpixel 2504 usa o mapa de clusters e os dados de COM 2502 para produzir categorizações de subpixel

2506. As categorizações de subpixel 2506 classificam subpixels no mapa de clusters como (1) subpixels de fundo, (2) subpixels de COM (um subpixel de COM para cada região disjunta contendo o COM da respectiva região disjunta), e (3) subpixels de cluster/interior de cluster que formam as respectivas regiões disjuntas. Ou seja, cada subpixel no mapa de clusters é atribuído a uma das três categorias.

[00355] Com base nas categorizações de subpixels 2506, em algumas implementações, (i) o mapa de decaimento de verdade absoluta 1204 é produzido pelo gerador de mapa de decaimento de verdade absoluta 1202, (ii) o mapa binário de verdade absoluta 1304 é produzido pelo gerador de mapa binário de verdade absoluta 1302, e (iii) o mapa ternário de verdade absoluta 1404 é produzido pelo gerador de mapa ternário de verdade absoluta 1402.

1. Modelo de regressão

[00356] A Figura 26 ilustra uma implementação do modelo de regressão 2600. Na implementação ilustrada, o modelo de regressão 2600 é uma rede totalmente convolucional 2602 que processa os dados de imagem de entrada 1702 através de uma sub-rede de codificadores e uma sub-rede decodificadores correspondente. A sub-rede de codificadores inclui uma hierarquia de codificadores. A sub-rede de decodificadores inclui uma hierarquia de decodificadores que mapeia mapas de características de codificador de baixa resolução até um mapa de decaimento completo de resolução de entrada 1716. Em uma outra implementação, o modelo de regressão 2600 é uma rede U-Net 2604 com conexões de salto entre o decodificador e o codificador. Detalhes adicionais sobre as redes de segmentação podem ser encontrados no Apêndice intitulado "Segmentation Networks". Mapa de decaimento

[00357] A Figura 27 representa uma implementação de geração de um mapa de decaimento de verdade absoluta 1204 a partir de um mapa de clusters 2702. O mapa de decaimento de verdade absoluta 1204 é usado como dados de verdade absoluta para treinar o modelo de regressão

2600. No mapa de decaimento de verdade absoluta 1204, o gerador de mapa de decaimento de verdade absoluta 1202 atribui um valor de decaimento pesado para cada subpixel contíguo nas regiões disjuntas com base em um fator de decaimento pesado. O valor de decaimento pesado é proporcional à distância euclidiana de um subpixel contíguo a partir de um subpixel de centro de massa (COM) em uma região à qual os subpixels contíguos pertencem, de modo que o valor de decaimento pesado é mais alto (por exemplo, 1 ou 100) para o subpixel de COM e diminui para subpixels mais distantes do subpixel de COM. Em algumas implementações, o valor de decaimento pesado é multiplicado por um fator predefinido, como 100.

[00358] Adicionalmente, o gerador de mapa de decaimento de verdade absoluta 1202 atribui a todos os subpixels de fundo um mesmo valor predeterminado (por exemplo, um valor de fundo minimalista).

[00359] O mapa de decaimento de verdade absoluta 1204 expressa os subpixels contíguos nas regiões disjuntas e os subpixels de fundo com base nos valores atribuídos. O mapa de decaimento de verdade absoluta 1204 também armazena os valores atribuídos em uma matriz de unidades, com cada unidade na matriz representando um subpixel correspondente na entrada. Treinamento

[00360] A Figura 28 é uma implementação para treinar 2800 o modelo de regressão 2600 que usa uma técnica de atualização de gradiente baseada em retropropagação que modifica os parâmetros do modelo de regressão 2600 até o mapa de decaimento 1716 produzido pelo modelo de regressão 2600 conforme a saída de treinamento durante o treinamento 2800 se aproximar ou corresponder progressivamente ao mapa de decaimento de verdade absoluta 1204.

[00361] O treinamento 2800 inclui iterativamente otimizar uma função de perda que minimiza erro 2806 entre o mapa de decaimento 1716 e o mapa de decaimento de verdade absoluta 1204, e atualizar os parâmetros do modelo de regressão 2600 com base no erro 2806. Em uma implementação, a função de perda é erro quadrático médio e o erro é minimizado em uma base de subpixel-por-subpixel entre valores de decaimento pesados de subpixels correspondentes no mapa de decaimento 1716 e no mapa de decaimento de verdade absoluta 1204.

[00362] O treinamento 2800 inclui centenas, milhares, e/ou milhões de iterações de propagação para frente 2808 e retropropagação 2810, incluindo técnicas de paralelização como batching. Os dados de treinamento 1504 incluem, como os dados de imagem de entrada 1702, uma série de conjuntos de imagens sobreamostradas e de tamanho reduzido. Os dados de treinamento 1504 são anotados com rótulos de verdade absoluta por um anotador 2806. O treinamento 2800 é operacionalizado pelo treinador 1510 com o uso de um algoritmo de atualização do gradiente estocástico como ADAM. Inferência

[00363] A Figura 29 é uma implementação da geração de modelo pelo modelo de regressão 2600 durante a inferência 2900 no qual o mapa de decaimento 1716 é produzido pelo modelo de regressão 2600 como a saída de inferência durante a inferência 2900. Um exemplo do mapa de decaimento 1716 é revelado no Apêndice intitulado "Regression_Model_Sample_Ouput". O Apêndice inclui valores de saída de decaimento pesados em unidade 2910 que juntos representam o mapa de decaimento 1716.

[00364] A inferência 2900 inclui centenas, milhares, e/ou milhões de iterações de propagação para frente 2904, incluindo técnicas de paralelização como batching. A inferência 2900 é realizada em dados de inferência 2908 que incluem, como os dados de imagem de entrada 1702, uma série de conjuntos de imagens sobreamostradas e de tamanho reduzido. A inferência 2900 é operacionalizada por um testador 2906. Segmentação baseada em watershed

[00365] A Figura 30 ilustra uma implementação de submissão do mapa de decaimento 1716 para (i) limiarização para identificar subpixels de fundo que caracterizam fundo de cluster e para (ii) detecção de pico para identificar subpixels de centro que caracterizam centros de cluster. A limiarização é realizada pelo limitador 1802 que usa um limite binário local para produzir saída binarizada. A detecção de pico é realizada pelo localizador de pico 1806 para identificar os centros de cluster. Detalhes adicionais sobre o localizador de pico podem ser encontrado no Apêndice intitulado "Peak Detection".

[00366] A Figura 31 representa uma implementação de uma técnica de segmentação watershed que adquire como entrada os subpixels de fundo e os subpixels de centro respectivamente identificados pelo limitador 1802 e o localizador de pico 1806, encontra vales de intensidade entre clusters adjacentes, e grupos não sobrepostos de saída de subpixels de clusters contíguos/interior de clusters que caracterizam os clusters.

Detalhes adicionais sobre a técnica de segmentação watershed podem ser encontrados no Apêndice intitulado "Watershed Segmentation".

[00367] Em uma implementação, um segmentador watershed 3102 obtém como entrada (1) valores de saída negativados 2910 no mapa de decaimento 1716, (2) saída binarizada do limitador 1802, e (3) centros de cluster identificada pelo pico de localizador 1806. Então, com base na entrada, o segmentador watershed 3102 produz a saída 3104. Na saída 3104, cada centro de cluster é identificado como um grupo/conjunto único de subpixels que pertence ao centro de cluster (contanto que os subpixels sejam "1" na saída binária, isto é, subpixels não de fundo). Adicionalmente, os clusters são filtrados com base em conter ao menos quatro subpixels. O segmentador watershed 3102 pode ser parte do segmentador 1810, que por sua vez é parte do pós-processador 1814. Arquitetura da rede

[00368] A Figura 32 é uma tabela que mostra uma arquitetura U- Net exemplificadora do modelo de regressão 2600, juntamente com detalhes das camadas do modelo de regressão 2600, a dimensionalidade da saída das camadas, a magnitude dos parâmetros do modelo, e as interconexões entre as camadas. Detalhes similares são revelados no arquivo intitulado "Regression_Model_Example_Architecture", que é submetido como um apêndice para este pedido. Extração de intensidade de cluster

[00369] A Figura 33 ilustra diferentes abordagens de extração de intensidade de cluster com o uso de informações de formato de intensidade de cluster identificadas em uma imagem do modelo. Conforme discutido acima, a imagem de modelo identifica as informações de formato de cluster na resolução sobreamostrada em subpixel. Entretanto, as informações de intensidade de cluster estão nas imagens de sequenciamento 108, que estão tipicamente na resolução óptica de pixel.

[00370] De acordo com uma primeira abordagem, as coordenadas dos subpixels estão localizadas nas imagens de sequenciamento 108 e suas respectivas intensidades extraídas com o uso de interpolação bilinear e normalizadas com base em uma contagem dos subpixels que contribuem para um cluster.

[00371] A segunda abordagem usa uma técnica de cobertura de área pesada para modular a intensidade de um pixel de acordo com um número de subpixels que contribuem para o pixel. Também aqui, a intensidade de pixel modulada é normalizada por um parâmetro de contagem de subpixel.

[00372] A terceira abordagem sobreamostra as imagens de sequenciamento no domínio de subpixel com o uso de interpolação bicúbica, somas da intensidade dos pixels sobreamostrados que pertencem a um cluster, e normaliza a intensidade somada com base em uma contagem dos pixels sobreamostrados que pertencem ao cluster. Resultados e observações experimentais

[00373] A Figura 34 mostra diferentes abordagens da chamada de base com o uso das saídas do modelo de regressão 2600. Na primeira abordagem, os centros de cluster identificados a partir da saída do gerador de modelo baseado em rede neural 1512 na imagem de modelo são inseridos em um chamador de base (por exemplo, software de análise em tempo real da Illumina, chamado na presente invenção de "chamador de base RTA") para chamada de base.

[00374] Na segunda abordagem, em vez dos centros de cluster, as intensidades de cluster extraídas das imagens de sequenciamento baseadas nas informações de formato de cluster na imagem de modelo são inseridas no chamador de base RTA para a chamada das bases.

[00375] A Figura 35 ilustra a diferença no desempenho da chamada de base quando o chamador de base RTA usa a localização de centros de massa (COM) de verdade absoluta como o centro de cluster, em oposição ao uso de uma localização não COM como centro de cluster. Os resultados mostram que o uso de COM melhora a chamada de base. Saídas de modelo exemplificadoras

[00376] A Figura 36 mostra, à esquerda, um mapa de decaimento exemplificador 1716 produzido pelo modelo de regressão 2600. À direita, a Figura 36 também mostra um mapa de decaimento de verdade absoluta 1204 exemplificador ao qual o modelo de regressão 2600 se aproxima durante o treinamento.

[00377] O mapa de decaimento 1716 e o mapa de decaimento de verdade absoluta 1204 representam conjuntos como regiões disjuntas de subpixels contíguos, os centros dos clusters como subpixels de centro em centros de massa das respectivos das regiões disjuntas dentre as regiões disjuntas, e seu fundo circundante como subpixels de fundo que não pertencem a qualquer das regiões disjuntas.

[00378] Além disso, os subpixels contíguos nas respectivas regiões disjuntas dentre as regiões disjuntas apresentam valores pesados de acordo com a distância de um subpixel contíguos a partir de um subpixel de centro em uma região disjunta à qual o subpixel contíguo pertence. Em uma implementação, os subpixels de centro têm os valores mais altos nas respectivas regiões disjuntas dentre as regiões disjuntas. Em uma implementação, todos os subpixels de fundo têm um mesmo valor de fundo minimalista em um mapa de decaimento.

[00379] A Figura 37 retrata uma implementação do localizador de pico 1806 que identifica centros de cluster em um mapa por detecção de picos 3702. Detalhes adicionais sobre o localizador de pico podem ser encontrado no Apêndice intitulado "Peak Detection".

[00380] A Figura 38 compara os picos detectados pelo localizador de pico 1806 em um mapa de decaimento 1716 produzido pelo modelo de regressão 2600 com picos em um mapa de decaimento de verdade absoluta correspondente 1204. Os marcadores vermelhos são picos preditos pelo modelo de regressão 2600 como centros de cluster e os marcadores verdes são centros de massa de verdade absoluta dos clusters. Resultados e observações experimentais adicionais

[00381] A Figura 39 ilustra o desempenho do modelo de regressão 2600 com o uso de estatísticas de precisão e rechamada. As estatísticas de precisão e rechamada demonstram que o modelo de regressão 2600 é adequado para recuperar todos os centros de cluster identificados.

[00382] A Figura 40 compara o desempenho do modelo de regressão 2600 com o chamador de base RTA para concentração de biblioteca de 20 pM (corrida normal). Superando o chamador de base RTA, o modelo de regressão 2600 identifica 34.323 (4,46%) mais clusters em um ambiente de densidade de cluster mais alta (isto é, 988.884 clusters).

[00383] A Figura 40 também mostra os resultados para outras métricas de sequenciamento como número de clusters que passam o filtro de castidade ("% de PF" (filtro de passagem)), número de leituras alinhadas ("% alinhadas"), número de leituras duplicadas ("% de duplicações"), número de leituras não pareadas da sequência de referência para todas as leituras alinhadas à sequência de referência ("% de desemparelhamento"), chamadas de base como escore de qualidade 30 e acima ("% Q30 de bases"), e assim por diante.

[00384] A Figura 41 compara o desempenho do modelo de regressão 2600 com o chamador de base RTA para concentração de biblioteca de 30 pM (corrida densa). Com melhor desempenho do que o chamador de base RTA, o modelo de regressão 2600 identifica 34.323 (6,27%) mais clusters em um ambiente de densidade de cluster mais alta (isto é, 1.351.588 clusters).

[00385] A Figura 41 também mostra os resultados para outras métricas de sequenciamento como número de clusters que passam o filtro de castidade filtro ("% de PF" (filtro de passagem)), número de leituras alinhadas ("% alinhadas"), número de leituras duplicadas ("% de duplicações"), número de leituras não emparelhadas com a sequência de referência para todas as leituras alinhadas à sequência de referência ("% de desemparelhamento"), chamadas de base como escore de qualidade 30 e acima ("% Q30 de bases"), e assim por diante.

[00386] Figura 42 compara o número de pares de leitura adequados não duplicados (únicos ou desduplicados), isto é, o número de leituras pareadas que têm ambas as leituras alinhadas para dentro em uma distância razoável detectada pelo modelo de regressão 2600 em comparação com a mesma detectada pelo chamador de base RTA. A comparação é feita para a corrida normal de 20 pM e para a corrida densa de 30 pM.

[00387] Mais importante ainda, a Figura 42 mostra que os geradores de modelo baseado em rede neural revelados são capazes de detectar mais clusters em um número menor de ciclos de sequenciamento de entrada para a geração de modelo do que o chamador de base RTA. Em apenas quatro ciclos de sequenciamento, o modelo de regressão 2600 identifica 11% a mais de pares de leitura adequados não duplicados do que o chamador de base RTA durante a corrida normal de 20 pM e 33% a mais de pares de leitura adequados não duplicados do que o chamador de base RTA durante a corrida densa de 30 pM. Em apenas sete ciclos de sequenciamento, o modelo de regressão 2600 identifica 4,5% a mais de pares de leitura adequados não duplicados do que o chamador de base RTA durante a corrida normal de 20 pM e 6,3% a mais de pares de leitura adequados não duplicados do que o chamador de base RTA durante a corrida densa de 30 pM.

[00388] A Figura 43 mostra, à direita, um primeiro mapa de decaimento produzido pelo modelo de regressão 2600. O primeiro mapa de decaimento identifica clusters e seu fundo circundante imageados durante a corrida normal de 20 pM, juntamente com a sua distribuição espacial representando formatos de cluster, tamanhos de cluster, e centros de cluster.

[00389] À esquerda, Figura 43 mostra um segundo mapa de decaimento produzido pelo modelo de regressão 2600. O segundo mapa de decaimento identifica clusters e seu fundo circundante durante a corrida densa de 30 pM, juntamente com a sua distribuição espacial representando formatos de cluster, tamanhos de cluster, e centros de cluster.

[00390] A Figura 44 compara o desempenho do modelo de regressão 2600 com o chamador de base RTA para concentração de biblioteca de 40 pM (corrida altamente densa). O modelo de regressão 2600 produziu 89.441.688 mais bases alinhadas do que o chamador de base RTA em um ambiente de densidade de cluster muito maior (isto é,

1.509.395 clusters).

[00391] A Figura 44 também mostra os resultados para outras métricas de sequenciamento como número de clusters que passam o filtro de castidade ("% de PF" (filtro de passagem)), número de leituras alinhadas ("% alinhadas"), número de leituras duplicadas ("% de duplicações"), número de leituras não pareadas da sequência de referência para todas as leituras alinhadas à sequência de referência ("% de desemparelhamento"), chamadas de base com um escore de qualidade de 30 e acima ("% Q30 de bases"), e assim por diante. Saídas de modelo mais exemplificadoras

[00392] A Figura 45 mostra, à esquerda, um primeiro mapa de decaimento produzido pelo modelo de regressão 2600. O primeiro mapa de decaimento identifica clusters e seu fundo circundante imageados durante a corrida normal de 40 pM, juntamente com sua distribuição espacial representando formatos de cluster, tamanhos de cluster, e centros de cluster.

[00393] À direita, a Figura 45 mostra os resultados da limiarização e da localização de pico aplicados ao primeiro mapa de decaimento para distinguir os respectivos clusters uns dos outros e do fundo e para identificar seus respectivos centros de cluster. Em algumas implementações, as intensidades dos respectivos clusters são identificadas e um filtro de castidade (ou filtro de passagem) aplicado para reduzir a taxa de não correspondência.

2. Modelo de classificação binária

[00394] A Figura 46 ilustra uma implementação do modelo de classificação binária 4600. Na implementação ilustrada, o modelo de classificação binária 4600 é uma rede neural profunda totalmente convolucional de segmentação que processa dados de imagem de entrada 1702 através de uma rede que uma sub-rede de codificadores e uma sub- rede de decodificadores correspondente. A sub-rede de codificadores inclui uma hierarquia de codificadores. A sub-rede de decodificadores inclui uma hierarquia de decodificadores que mapeia mapas de características de codificador de baixa resolução até um mapa de decaimento completo de resolução de entrada 1720. Em uma outra implementação, o modelo de classificação binária 4600 é uma rede U-Net com conexões de salto entre o decodificador e o codificador. Detalhes adicionais sobre as redes de segmentação podem ser encontrados no Apêndice intitulado "Segmentation Networks". Mapa binário

[00395] A camada de saída final do modelo de classificação binária 4600 é uma camada de classificação em unidade que produz um rótulo de classificação para cada unidade em uma matriz de saída. Em algumas implementações, a camada de classificação em unidade é uma camada de classificação em subpixel que produz uma distribuição de escores de classificação softmax para cada subpixel no mapa binário 1720 em duas classes, especificamente, uma classe de centro de cluster e uma classe de não cluster, e o rótulo de classificação para um determinado subpixel é determinado a partir da distribuição de escores de classificação softmax correspondente.

[00396] Em outras implementações, a camada de classificação em unidade é uma camada de classificação em subpixel que produz um escore de classificação sigmoide para cada subpixel no mapa binário 1720, de modo que a ativação de uma unidade é interpretada como a probabilidade de que a unidade pertence à primeira classe e, em contrapartida, um menos que a ativação dá a probabilidade de que ela pertence à segunda classe.

[00397] O mapa binário 1720 expressa cada subpixel com base nos escores de classificação preditos. O mapa binário 1720 também armazena os escores preditos de classificação de valor em uma matriz de unidades, com cada unida na matriz representando um subpixel correspondente na entrada. Treinamento

[00398] A Figura 47 é uma implementação para treinar 4700 o modelo de classificação binária 4600 que usa uma técnica de atualização de gradiente baseada em retropropagação que modifica os parâmetros do modelo de classificação binária 4600 até o mapa binário 1720 do modelo de classificação binária 4600 se aproximar ou corresponder progressivamente ao mapa binário de verdade absoluta 1404.

[00399] Na implementação ilustrada, a camada de saída final do modelo de classificação binária 4600 é uma camada de classificação em subpixel baseada em softmax. Em implementações softmax, o gerador de mapa binário de verdade absoluta 1402 atribui a cada subpixel de verdade absoluta (i) um par de valores de centro de cluster (por exemplo, [1, 0]) ou (ii) um par de valores não de centro (por exemplo, [0, 1]).

[00400] No par de valores de centro [1, 0], um primeiro valor [1] representa o rótulo da classe de centro de cluster e um segundo valor [0]

representa o rótulo da classe não de centro. No par de valores não de centro [0, 1], um primeiro valor [0] representa o rótulo da classe de centro de cluster e um segundo valor [1] representa o rótulo da classe não de centro.

[00401] O mapa binário de verdade absoluta 1404 expressa cada subpixel com base no valor/par de valores atribuído. O mapa binário de verdade absoluta 1404 também armazena os valores/pares de valores atribuídos em uma matriz de unidades, com cada unidade na matriz representando um subpixel correspondente na entrada.

[00402] O treinamento inclui iterativamente otimizar uma função de perda que minimiza erro 4706 (por exemplo, erro softmax) entre o mapa binário 1720 e o mapa binário de verdade absoluta 1404, e atualizar os parâmetros do modelo de classificação binária 4600 com base no erro

4706.

[00403] Em uma implementação, a função de perda é uma perda de entropia cruzada binária pesada personalizada e o erro 4706 é minimizado em uma base de subpixel-por-subpixel entre escores de classificação preditos (por exemplo, escores softmax) e escores de classe rotulados (por exemplo, escores softmax) de subpixels correspondentes no mapa binário 1720 e no mapa binário de verdade absoluta 1404, conforme mostrado na Figura 47.

[00404] A função de perda pesada personalizada fornece mais peso aos subpixels de COM, de modo que a perda de entropia cruzada é multiplicada por um peso de recompensa (ou penalidade) correspondente especificado em uma matriz de recompensa (ou penalidade) sempre que um subpixel de COM é classificado incorretamente. Detalhes adicionais sobre a função de perda pesada personalizada podem ser encontrados no Apêndice intitulado "Custom-Weighted Loss Function".

[00405] O treinamento 4700 inclui centenas, milhares, e/ou milhões de iterações de propagação para frente 4708 e retropropagação

4710, incluindo técnicas de paralelização como batching. Os dados de treinamento 1504 incluem, como os dados de imagem de entrada 1702, uma série de conjuntos de imagens sobreamostradas e de tamanho reduzido. Os dados de treinamento 1504 são anotados com rótulos de verdade absoluta pelo anotador 2806. O treinamento 2800 é operacionalizado pelo treinador 1510 com o uso de um algoritmo de atualização do gradiente estocástico como ADAM.

[00406] A Figura 48 é uma outra implementação para treinar 4800 o modelo de classificação binária 4600, na qual a camada de saída final do modelo de classificação binária 4600 é uma camada de classificação em subpixel baseada em sigmoide.

[00407] Em implementações sigmoides, o gerador de mapa binário de verdade absoluta 1302 atribui a cada subpixel de verdade absoluta (i) um valor de centro de cluster (por exemplo, [1]) ou (ii) um valor não de centro (por exemplo, [0]). Os subpixels de COM são atribuídos ao valor/par de valores de centro de cluster e a todos os outros subpixels são atribuídos ao valor/par de valores não de centro.

[00408] Com o valor de centro de cluster, os valores acima de um limite de valor intermediário entre 0 e 1 (por exemplo, os valores acima de 0,5) representam o rótulo de classe de centro. Com o valor não de centro, os valores acima de um limite de valor intermediário entre 0 e 1 (por exemplo, os valores acima de 0,5) representam o rótulo de classe não de centro.

[00409] O mapa binário de verdade absoluta 1404 expressa cada subpixel com base no valor/par de valores atribuído. O mapa binário de verdade absoluta 1404 também armazena os valores/pares de valores atribuídos em uma matriz de unidades, com cada unidade na matriz representando um subpixel correspondente na entrada.

[00410] O treinamento inclui iterativamente otimizar uma função de perda que minimiza erro 4806 (por exemplo, erro sigmoide) entre o mapa binário 1720 e o mapa binário de verdade absoluta 1404, e atualizar os parâmetros do modelo de classificação binária 4600 com base no erro

4806.

[00411] Em uma implementação, a função de perda é uma perda de entropia cruzada binária pesada personalizada e o erro 4806 é minimizado em uma base de subpixel-por-subpixel entre escores preditos (por exemplo, escores sigmoides) e escores rotulados (por exemplo, escores sigmoides) de subpixels correspondentes no mapa binário 1720 e no mapa binário de verdade absoluta 1404, conforme mostrado na Figura

48.

[00412] A função de perda pesada personalizada fornece mais peso aos subpixels de COM, de modo que a perda de entropia cruzada é multiplicada por um peso de recompensa (ou penalidade) correspondente especificado em uma matriz de recompensa (ou penalidade) sempre que um subpixel de COM é classificado incorretamente. Detalhes adicionais sobre a função de perda pesada personalizada podem ser encontrados no Apêndice intitulado "Custom-Weighted Loss Function".

[00413] O treinamento 4800 inclui centenas, milhares, e/ou milhões de iterações de propagação para frente 4808 e retropropagação 4810, incluindo técnicas de paralelização como batching. Os dados de treinamento 1504 incluem, como os dados de imagem de entrada 1702, uma série de conjuntos de imagens sobreamostradas e de tamanho reduzido. Os dados de treinamento 1504 são anotados com rótulos de verdade absoluta pelo anotador 2806. O treinamento 2800 é operacionalizado pelo treinador 1510 com o uso de um algoritmo de atualização do gradiente estocástico como ADAM.

[00414] A Figura 49 ilustra uma outra implementação de dados de imagem de entrada 1702 inseridos no modelo de classificação binária 4600 e os rótulos de classe correspondentes 4904 usados para treinar o modelo de classificação binária 4600.

[00415] Na implementação ilustrada, os dados da imagem de entrada 1702 compreendem uma série de conjuntos de imagens sobreamostradas e de tamanho reduzido 4902. Os rótulos de classe 4904 compreendem duas classes: (1) "nenhum centro de cluster" (2) e "centro de cluster", que são distinguidas com o uso de diferentes valores de saída. Ou seja, (1) os subpixels/unidades de cor verde clara 4906 representam subpixels que são preditos pelo modelo de classificação binária 4600 como não contendo os centros de cluster e (2) os subpixels de cor verde escura 4908 representam unidades/subpixels que são preditos pelo modelo de classificação binária 4600 como contendo os centros de cluster. Inferência

[00416] A Figura 50 é uma implementação da geração de modelo pelo modelo de classificação binária 4600 durante a inferência 5000 na qual o mapa binário 1720 é produzido pelo modelo de classificação binária 4600 como a saída de inferência durante a inferência 5000. Um exemplo do mapa binário 1720 inclui escores de classificação binária em unidade 5010 que juntos representam o mapa binário 1720. Nas aplicações de softmax, o mapa binário 1720 tem uma primeira matriz 5002a de escores de classificação em unidade para a classe não de centro e uma segunda matriz 5002b de escores de classificação em unidade para a classe de centro de cluster.

[00417] A inferência 5000 inclui centenas, milhares, e/ou milhões de iterações de propagação para frente 5004, incluindo técnicas de paralelização como batching. A inferência 5000 é realizada em dados de inferência 2908 que incluem, como os dados de imagem de entrada 1702, uma série de conjuntos de imagens sobreamostradas e de tamanho reduzido. A inferência 5000 é operacionalizada pelo testador 2906.

[00418] Em algumas implementações, o mapa binário 1720 é submetido às técnicas de processamento posterior discutidas acima, como limiarização, detecção de pico, e/ou segmentação watershed para gerar metadados de cluster.

Detecção de pico

[00419] A Figura 51 ilustra uma implementação de submissão do mapa binário 1720 para detecção de pico para identificar centros de cluster. Conforme discutido acima, o mapa binário 1720 é uma matriz de unidades que classifica cada subpixel com base nos escores de classificação preditos, com cada unidade na matriz representando um subpixel correspondente na entrada. Os escores de classificação podem ser escores softmax ou escores sigmoides.

[00420] Nas aplicações softmax, o mapa binário 1720 inclui duas matrizes: (1) uma primeira matriz 5002a de escores de classificação em unidade para a classe não de centro e (2) uma segunda matriz 5002b de escores de classificação em unidade para a classe de centro de cluster. Em ambas as matrizes, cada unidade representa um subpixel correspondente na entrada.

[00421] Para determinar quais subpixels na entrada contêm os centros de cluster e quais não contêm os centros de cluster, o localizador de pico 1806 aplica a detecção de pico nas unidades no mapa binário 1720. A detecção de pico identifica as unidades que têm escores de classificação (por exemplo, escores softmax/sigmoide) acima de um limite predefinido. As unidades identificadas são inferidas como os centros de cluster e seus subpixels correspondentes na entrada são determinados como contendo os centros de cluster e armazenados como subpixels de centro de cluster em um banco de dados de classificações de subpixel 5102. Detalhes adicionais sobre o localizador de pico 1806 podem ser encontrados no Apêndice intitulado "Peak Detection".

[00422] As demais unidades e seus subpixels correspondentes na entrada são determinados como não contendo os centros de cluster e armazenados como subpixels não de centro no banco de dados de classificações de subpixel 5102.

[00423] Em algumas implementações, antes da aplicação da detecção de pico, as unidades que têm escores de classificação abaixo de um certo limite de fundo (por exemplo, 0,3) são ajustadas para zero. Em algumas implementações, essas unidades e seus subpixels correspondentes na entrada são inferidos para denotar o fundo que circunda os clusters e armazenados como subpixels de fundo no banco de dados de classificações de subpixel 5102. Em outras implementações, essas unidades podem ser consideradas ruído e ignoradas. Saídas de modelo exemplificadoras

[00424] A Figura 52a mostra, à esquerda, um mapa binário exemplificador produzido pelo modelo de classificação binária 4600. À direita, a Figura 52a também mostra um mapa binário de verdade absoluta exemplificador ao qual o modelo de classificação binária 4600 se aproxima durante o treinamento. O mapa binário tem uma pluralidade de subpixels e classifica cada subpixel como um centro de cluster ou como um não centro. De modo similar, o mapa binário de verdade absoluta tem uma pluralidade de subpixels e classifica cada subpixel como um centro de cluster ou como um não centro. Resultados e observações experimentais

[00425] A Figura 52b ilustra o desempenho do modelo de classificação binária 4600 com o uso de estatísticas de rechamada e precisão. Quando essas estatísticas são aplicadas, o modelo de classificação binária 4600 supera o chamador de base RTA. Arquitetura da rede

[00426] A Figura 53 é uma tabela que mostra uma arquitetura exemplificadora do modelo de classificação binária 4600, juntamente com detalhes das camadas do modelo de classificação binária 4600, a dimensionalidade da saída das camadas, a magnitude dos parâmetros do modelo, e as interconexões entre as camadas. Detalhes similares são revelados no Apêndice intitulado "Binary_Classification_Model_Example_Architecture".

3. Modelo de classificação ternária (três classes)

[00427] A Figura 54 ilustra uma implementação do modelo de classificação ternária 5400. Na implementação ilustrada, o modelo de classificação ternária 5400 é uma rede neural profunda totalmente convolucional de segmentação que processa dados de imagem de entrada 1702 através de uma rede que uma sub-rede de codificadores e uma sub- rede de decodificadores correspondente. A sub-rede de codificadores inclui uma hierarquia de codificadores. A sub-rede de decodificadores inclui uma hierarquia de decodificadores que mapeia mapas de características de codificador de baixa resolução até um mapa de decaimento completo de resolução de entrada 1718. Em uma outra implementação, o modelo de classificação ternária 5400 é uma rede U-Net com conexões de salto entre o decodificador e o codificador. Detalhes adicionais sobre as redes de segmentação podem ser encontrados no Apêndice intitulado "Segmentation Networks". Mapa ternário

[00428] A camada de saída final do modelo de classificação ternária 5400 é uma camada de classificação em unidade que produz um rótulo de classificação para cada unidade em uma matriz de saída. Em algumas implementações, a camada de classificação em unidade é uma camada de classificação em subpixel que produz uma distribuição de escores de classificação softmax para cada subpixel no mapa ternário 1718 em três classes, especificamente, uma classe de fundo, uma classe de centro de cluster, e uma classe de cluster/interior de cluster, e o rótulo de classificação para um determinado subpixel é determinado a partir da distribuição de escores de classificação softmax correspondente.

[00429] O mapa ternário 1718 expressa cada subpixel com base nos escores de classificação preditos. O mapa ternário 1718 também armazena os escores preditos de classificação de valor em uma matriz de unidades, com cada unida na matriz representando um subpixel correspondente na entrada. Treinamento

[00430] A Figura 55 é uma implementação para treinar 5500 o modelo de classificação ternária 5400 que usa uma técnica de atualização de gradiente baseada em retropropagação que modifica os parâmetros do modelo de classificação ternária 5400 até o mapa ternário 1718 do modelo de classificação ternária 5400 se aproximar ou corresponder progressivamente aos mapas ternários de verdade absoluta 1304.

[00431] Na implementação ilustrada, a camada de saída final do modelo de classificação ternária 5400 é uma camada de classificação em subpixel baseada em softmax. Em implementações softmax, o gerador de mapa ternário de verdade absoluta 1402 atribui a cada subpixel de verdade absoluta (i) um tripleto de valores de fundo (por exemplo, [1, 0, 0]), (ii) um tripleto de valores de centro de cluster (por exemplo, [0, 1, 0]), ou (iii) um tripleto de valores de cluster/interior de cluster (por exemplo, [0, 0, 1]).

[00432] Os subpixels de fundo são atribuídos ao tripleto de valores de fundo. Os subpixels de centros de massa (COM) são atribuídos ao tripleto de valores de centro de cluster. Os subpixels de cluster/interior de cluster atribuídos ao tripleto de valores de cluster/interior de cluster.

[00433] No tripleto de valores de fundo [1, 0, 0], um primeiro valor

[1] representa o rótulo da classe de fundo, um segundo valor [0] representa o rótulo do centro de cluster, e um terceiro valor [0] representa o rótulo de classe de cluster/interior de cluster.

[00434] No tripleto de valores de centro de cluster [0, 1, 0], um primeiro valor [0] representa o rótulo da classe de fundo, um segundo valor

[1] representa o rótulo do centro de cluster, e um terceiro valor [0] representa o rótulo de classe de cluster/interior de cluster.

[00435] No tripleto de valores de cluster/interior de cluster [1, 0, 0], um primeiro valor [0] representa o rótulo da classe de fundo, um segundo valor [0] representa o rótulo do centro de cluster, e um terceiro valor [1] representa o rótulo de classe de cluster/interior de cluster.

[00436] O mapa ternário de verdade absoluta 1304 expressa cada subpixel com base no tripleto de valores atribuídos. O mapa ternário de verdade absoluta 1304 também armazena os tripletos atribuídos em uma matriz de unidades, com cada unidade na matriz representando um subpixel correspondente na entrada.

[00437] O treinamento inclui iterativamente otimizar uma função de perda que minimiza erro 5506 (por exemplo, erro softmax) entre o mapa ternário 1718 e o mapa ternário de verdade absoluta 1304, e atualizar os parâmetros do modelo de classificação binária 5400 com base no erro

5506.

[00438] Em uma implementação, a função de perda é uma perda de entropia cruzada de categoria pesada personalizada e o erro 5506 é minimizado em uma base de subpixel-por-subpixel entre escores de classificação preditos (por exemplo, escores softmax) e escores de classe rotulados (por exemplo, escores softmax) de subpixels correspondentes no mapa ternário 1718 e no mapa ternário de verdade absoluta 1304, conforme mostrado na Figura 54.

[00439] A função de perda pesada personalizada fornece mais peso aos subpixels de COM, de modo que a perda de entropia cruzada é multiplicada por um peso de recompensa (ou penalidade) correspondente especificado em uma matriz de recompensa (ou penalidade) sempre que um subpixel de COM é classificado incorretamente. Detalhes adicionais sobre a função de perda pesada personalizada podem ser encontrados no Apêndice intitulado "Custom-Weighted Loss Function".

[00440] O treinamento 5500 inclui centenas, milhares, e/ou milhões de iterações de propagação para frente 5508 e retropropagação

5510, incluindo técnicas de paralelização como batching. Os dados de treinamento 1504 incluem, como os dados de imagem de entrada 1702, uma série de conjuntos de imagens sobreamostradas e de tamanho reduzido. Os dados de treinamento 1504 são anotados com rótulos de verdade absoluta pelo anotador 2806. O treinamento 5500 é operacionalizado pelo treinador 1510 com o uso de um algoritmo de atualização do gradiente estocástico como ADAM.

[00441] A Figura 56 ilustra uma implementação de dados de imagem de entrada 1702 inseridos no modelo de classificação ternária 5400 e os rótulos de classe correspondentes usados para treinar o modelo de classificação ternária 5400.

[00442] Na implementação ilustrada, os dados da imagem de entrada 1702 compreendem uma série de conjuntos de imagens sobreamostradas e de tamanho reduzido 5602. Os rótulos de classe 5604 compreendem três classes: (1) "classe de fundo" (2) e "classe de centro de cluster", e (3) "classe de interior de cluster", que são distinguidas com o uso de diferentes valores de saída. Por exemplo, alguns desses diferentes valores de saída podem ser representados visualmente conforme exposto a seguir: (1) as unidades/subpixels em cinza 5606 representam subpixels que são preditos pelo modelo de classificação ternária 5400 como sendo do fundo, (2) as unidades/subpixels em verde escuro 5608 representam subpixels que são preditos pelo modelo de classificação ternária 5400 como contendo os centros de cluster, e (3) os subpixels em verde claro 5610 subpixels que representam o predito pelo modelo de classificação ternária 5400 como contendo o interior dos clusters. Arquitetura da rede

[00443] A Figura 57 é uma tabela que mostra uma arquitetura exemplificadora do modelo de classificação ternária 5400, juntamente com detalhes das camadas do modelo de classificação ternária 5400, a dimensionalidade da saída das camadas, a magnitude dos parâmetros do modelo, e as interconexões entre as camadas. Detalhes similares são revelados no Apêndice intitulado "Ternary_Classification_Model_Example_Architecture". Inferência

[00444] A Figura 58 é uma implementação da geração de modelo pelo modelo de classificação ternária 5400 durante inferência 5800 no qual o mapa ternário 1718 é produzido pelo modelo de classificação ternária 5400 como a saída de inferência durante a inferência 5800. Um exemplo do mapa ternário 1718 é revelado no Apêndice intitulado "Ternary_Classification_Model_Sample_Ouput". O Apêndice inclui escores de classificação binária em unidade 5810 que juntos representam o mapa ternário 1718. Nas aplicações softmax, o Apêndice tem uma primeira matriz 5802a de escores de classificação em unidade para a classe de fundo, uma segunda matriz 5802b de escores de classificação em unidade para a classe de centro de cluster, e uma terceira matriz 5802c de escores de classificação em unidade para a classe de cluster/interior de cluster.

[00445] A inferência 5800 inclui centenas, milhares, e/ou milhões de iterações de propagação para frente 5804, incluindo técnicas de paralelização como batching. A inferência 5800 é realizada em dados de inferência 2908 que incluem, como os dados de imagem de entrada 1702, uma série de conjuntos de imagens sobreamostradas e de tamanho reduzido. A inferência 5000 é operacionalizada pelo testador 2906.

[00446] Em algumas implementações, o mapa ternário 1718 é produzido pelo modelo de classificação ternária 5400 que usa as técnicas de processamento posterior discutidas acima, como limiarização, detecção de pico, e/ou segmentação watershed.

[00447] A Figura 59 retrata graficamente o mapa ternário 1718 produzido pelo modelo de classificação ternária 5400 no qual ternário cada subpixel tem uma distribuição de classificação softmax de três vias para as três classes correspondentes, a saber, a classe de fundo 5906, a classe de centro do cluster 5902, e a classe de cluster/interior de cluster 5904.

[00448] A Figura 60 representa uma matriz de unidades produzida pelo modelo de classificação ternária 5400, juntamente com os valores de saída em unidade. Conforme mostrado, cada unidade tem três valores de saída para as três classes correspondentes, a saber, a classe de fundo 5906, a classe de centro de cluster 5902, e a classe de cluster/interior de cluster 5904. Para cada classificação (em coluna), cada unidade é atribuída à classe que tem o valor de saída mais alto, conforme indicado pela classe em parênteses sob cada unidade. Em algumas implementações, os valores de saída 6002, 6004, e 6006 são analisados para cada uma das respectivas classes 5906, 5902, e 5904 (em fileira). Detecção de pico e segmentação watershed

[00449] A Figura 61 mostra uma implementação de submissão do mapa ternário 1718 para processamento posterior para identificar centros de cluster, fundo de cluster, e interior de cluster. Conforme discutido acima, o mapa ternário 1718 é uma matriz de unidades que classifica cada subpixel com base nos escores de classificação preditos, com cada unidade na matriz representando um subpixel correspondente na entrada. Os escores de classificação podem ser escores softmax.

[00450] Nas aplicações softmax, o mapa ternário 1718 inclui três matrizes: (1) uma primeira matriz 5802a de escores de classificação em unidade para a classe de fundo, (2) uma segunda matriz 5802b de escores de classificação em unidade para a classe de centro de cluster, e (3) uma terceira matriz 5802c de escores de classificação em unidade para a classe de interior de cluster. Em todas as três matrizes, cada unidade representa um subpixel correspondente na entrada.

[00451] Para determinar quais subpixels na entrada contêm os centros de cluster, que contêm o interior dos clusters, e quais contêm o fundo, o localizador de pico 1806 aplica a detecção de pico em valores softmax no mapa ternário 1718 para a classe de centro de cluster 5802b. A detecção de pico identifica as unidades que têm escores de classificação (por exemplo, escores de softmax) acima de um limite predefinido. As unidades identificadas são inferidas como os centros de cluster e seus correspondentes subpixels na entrada são determinados para conter os centros de cluster e armazenadas como subpixels de centro de cluster em um banco de dado de classificações e segmentações de subpixel 6102. Detalhes adicionais sobre o localizador de pico 1806 podem ser encontrados no Apêndice intitulado "Peak Detection".

[00452] Em algumas implementações, antes da aplicação da detecção de pico, as unidades que têm escores de classificação abaixo de um certo limite de ruido (por exemplo, 0,3) são ajustadas para zero. Tais unidades podem ser consideradas ruído e ignoradas.

[00453] Além disso, as unidades que têm escores de classificação para a classe de fundo 5802a acima de um certo limite de fundo (por exemplo, igual a ou maior que 0,5) e seus correspondentes subpixels na entrada são inferidos para denotar o fundo que circunda os clusters e armazenado como subpixels de fundo no banco de dados de classificações e segmentações de subpixel 6102.

[00454] Então, o algoritmo de segmentação watershed, operacionalizado pelo segmentador watershed 3102, é usado para determinar os formatos dos clusters. Em algumas implementações, as unidades/subpixels de fundo são usadas como uma máscara pelo algoritmo de segmentação watershed. Os escores de classificação das unidade/subpixels inferidos como os centros de cluster e o interior de cluster são somados para produzir os chamados "rótulos de cluster". Os centros de cluster são usados como marcadores watershed, para a separação por vales de intensidade pelo algoritmo de segmentação watershed.

[00455] Em uma implementação, os rótulos negativados de cluster são fornecidos como uma imagem de entrada para o segmentador watershed 3102 que realiza a segmentação e produz os formatos de cluster como regiões disjuntas de subpixels contíguos de interior de cluster separadas pelos subpixels de fundo. Além disso, cada região disjunta inclui um subpixel de centro de cluster correspondente. Em algumas implementações, o correspondente subpixel de centro de cluster é o centro da região disjuntas à qual ele pertence. Em outras implementações, os centros de massa (COM) das regiões disjuntas são calculados com base nas coordenadas de localização subjacentes e armazenados como novos centros dos clusters.

[00456] As saídas do segmentador watershed 3102 são armazenadas no banco de dados de classificações e segmentações de subpixel 6102. Detalhes adicionais sobre o algoritmo de segmentação watershed e outros algoritmos de segmentação podem ser encontrado no Apêndice intitulado "Watershed Segmentation".

[00457] Exemplos de saídas do localizador de pico 1806 e do segmentador watershed 3102 são mostrados nas Figuras 62a, 62b, 63, e

64. Saídas de modelo exemplificadoras

[00458] A Figura 62a mostra predições exemplificadoras do modelo de classificação ternária 5400. A Figura 62a mostra quatro mapas e cada mapa tem uma matriz de unidades. O primeiro mapa 6202 (mais à esquerda) mostra os valores de saída de cada unidade para a classe de centro de cluster 5802b. O segundo mapa 6204 mostra os valores de saída de cada unidade para a classe de cluster/interior de cluster. O terceiro mapa 6206 (mais à direita) mostra os valores de saída de cada unidade para a classe de fundo 5802a. O quarto mapa 6208 (inferior) é uma máscara binária de mapa ternário de verdade absoluta 6008 que atribui a cada unidade o rótulo de classe que tem o valor de saída mais alto.

[00459] A Figura 62b ilustra outros exemplos de predições do modelo de classificação ternária 5400. A Figura 62b mostra quatro mapas e cada mapa tem uma matriz de unidades. O primeiro mapa 6212 (mais inferior à esquerda) mostra os valores de saída de cada unidade para a classe de cluster/interior de cluster. O segundo mapa 6214 mostra os valores de saída de cada unidade para a classe de centro de cluster. O terceiro mapa 6216 (mais inferior à direita) mostra os valores de saída de cada unidade para a classe de fundo. O quarto mapa (topo) 6210 é um mapa ternário de verdade absoluta que atribui a cada unidade o rótulo de classe que tem o valor de saída mais alto.

[00460] A Figura 62a mostra, ainda, outras predições exemplificadoras do modelo de classificação ternária 5400. A Figura 64 mostra quatro mapas e cada mapa tem uma matriz de unidades. O primeiro mapa 6220 (mais inferior à esquerda) mostra os valores de saída de cada unidade para a classe de cluster/interior de cluster. O segundo mapa 6222 mostra os valores de saída de cada unidade para a classe de centro de cluster. O terceiro mapa 6224 (mais inferior à direita) mostra os valores de saída de cada unidade para a classe de fundo. O quarto mapa 6218 (topo) é um mapa ternário de verdade absoluta que atribui a cada unidade o rótulo de classe que tem o valor de saída mais alto.

[00461] A Figura 63 representa uma implementação de derivação dos centros de cluster e formatos de cluster a partir da saída do modelo de classificação ternária 5400 na Figura 62a por submissão da saída a pós-processamento. O pós-processamento (por exemplo, localização de pico, segmentação watershed) gera dados de formato e cluster outros metadados, que são identificados no mapa de clusters 6310. Resultados e observações experimentais

[00462] A Figura 64 compara o desempenho do modelo de classificação binária 4600, do modelo de regressão 2600 e do chamador de base RTA. O desempenho é avaliado com o uso de uma variedade de métricas de sequenciamento. Uma métrica é o número total de clusters detectados ("# de clusters"), que pode ser medido pelo número único de centros de cluster únicos que são detectados. Uma outra métrica é o número de clusters detectados que passam pelo filtro de castidade ("% PF" (filtro de passagem)). Durante os ciclos 1 a 25 de uma corrida de sequenciamento, o filtro de castidade remove os clusters menos confiáveis dos resultados de extração de imagem. O "filtro de passagem" de clusters, se não mais do que uma chamada de base tem um valor de castidade abaixo de 0,6 nos primeiros 25 ciclos. A castidade é definida como a razão da intensidade de base mais brilhantes dividida pela soma das intensidades de base mais brilhante e a segunda mais brilhante. Essa métrica ultrapassa a quantidade dos clusters detectados e também transmite sua qualidade, isto é, o número dos clusters detectados que pode ser usado para a exata chamada de base e a análise secundária e terceira a jusante como anotação de patogenicidade variante e de chamada variante.

[00463] Outras métricas que medem quão bons os clusters detectados são para análise a jusante incluem o número de leituras alinhadas produzidas a partir dos clusters detectados ("% alinhadas"), o número de leituras duplicadas produzidas a partir dos clusters detectados ("% de duplicações"), o número de leituras produzidas a partir de desemparelhamento de clusters detectados nas sequência de referência para todas as leituras alinhadas à sequência de referência ("% de desemparelhamento"), o número de leituras produzidas a partir dos clusters detectados cujas porções não coincidem bem com as sequência de referência em qualquer lado e são, então, ignoradas para o alinhamento (% de soft clipped), o número de chamadas de base para os clusters detectados com escore de qualidade de 30 e acima ("% de Q30% de bases"), o número de leituras pareadas produzidas a partir dos clusters detectados que têm ambas as leituras alinhadas para dentro em uma distância razoável ("pares de leitura adequados totais"), e o número de pares de leitura adequados únicos e desduplicados a partir dos clusters detectados ("pares de leituras adequados não duplicado").

[00464] Conforme mostrado na Figura 64, o modelo de classificação binária 4600 e o modelo de regressão 2600 superam o chamador de base RTA na geração de modelo na maioria das métricas.

[00465] A Figura 65 compara o desempenho do modelo de classificação ternária 5400 com o do chamador de base RTA sob três contextos, cinco métricas de sequenciamento, e duas densidades de corrida.

[00466] No primeiro contexto chamado "RTA", os centros de cluster são detectados pelo chamador de base RTA, a extração de intensidade dos clusters é feita pelo chamador de base RTA, e os clusters são também bases chamadas com o uso do chamador de base RTA. No segundo contexto chamado "RTA IE", os centros de cluster são detectados pelo modelo de classificação ternária 5400; entretanto, a extração de intensidade dos clusters é feita pelo chamador de base RTA e os clusters são também chamados por base com o uso do chamador de base RTA. No terceiro contexto chamado "Self IE", os centros de cluster são detectados pelo modelo de classificação ternária 5400 e a extração de intensidade a partir dos clusters se dá com o uso das técnicas de extração de intensidade baseadas em formato de cluster aqui reveladas (note que as informações de formato de cluster são geradas pelo modelo de classificação ternária 5400); mas os clusters são chamados por base com o uso do chamador de base RTA.

[00467] O desempenho é comparado entre o modelo de classificação ternária 5400 e o chamador de base RTA ao longo de cinco métricas: (1) o número total de clusters detectados ("# de clusters"), (2) o número de clusters detectados que passam o filtro de castidade ("# PF"), (3) o número único de pares de leitura adequados únicos ou desduplicados produzidos dos clusters detectados ("# de pares de leituras adequados não duplicados"), (4) a taxa de desemparelhamentos entre uma leitura de sequência produzida a partir dos clusters detectados e uma sequência de referência após o alinhamento ("de taxas de desemparelhamento"), e (5) bases chamadas para os clusters detectados com escore de qualidade de 30 e acima ("% Q30%").

[00468] O desempenho é comparado entre o modelo de classificação ternária 5400 e o chamador de base RTA sob os três contextos e as cinco métricas para dois tipos de testes de sequenciamento: (1) uma corrida normal com concentração de biblioteca de 20 pM e (2) uma corrida densa com concentração de biblioteca de 30 pM.

[00469] Conforme mostrado na Figura 65, o modelo de classificação ternária 5400 supera o chamador de base RTA em todas as métricas.

[00470] Sob os mesmos três contextos, cinco métricas, e dois densidades de corrida, a Figura 66 mostra que o modelo de regressão 2600 supera o chamador de base RTA em todas as métricas.

[00471] A Figura 67 se concentra na penúltima camada 6702 do gerador de modelo baseado em rede neural 1512.

[00472] A Figura 68 visualiza o que a penúltima camada 6702 do gerador de modelo baseado em rede neural 1512 aprendeu como resultado do treinamento de atualização de gradiente baseado em retropropagação. A implementação ilustrada visualiza vinte e quatro dos trinta e dois filtros de convolução da penúltima camada 6702 sobreposta nos formatos de clusters de verdade absoluta. Conforme mostrado na Figura 68, a penúltima camada 6702 aprendeu os metadados de cluster, incluindo a distribuição espacial dos clusters como centros de cluster, formatos de cluster, tamanhos de cluster, fundo de cluster, e limites de cluster.

[00473] A Figura 69 sobrepõe as predições de centro de cluster do modelo de classificação binária 4600 (em azul) naqueles do chamador de base RTA (em rosa). As predições são feitas em dados de sequenciamento de imagens com o uso do sequenciador Illumina NextSeq.

[00474] A Figura 70 sobrepõe as predições de centros de cluster feitas pelo chamador de base RTA (em rosa) sobre as visualizações dos filtros de convolução treinados da penúltima camada do modelo de classificação binária 4600. Estes filtros de convolução são aprendidos como resultado do treinamento em dados de sequenciamento de imagens com o uso do sequenciador Illumina NextSeq.

[00475] A Figura 71 ilustra uma implementação de dados de treinamento usados para treinar o gerador de modelo baseado em rede neural 1512. Nessa implementação, os dados de treinamento são obtidos a partir de células de fluxo denso que produzem dados com imagens da sonda storm. Em uma outra implementação, os dados de treinamento são obtidos a partir de células de fluxo denso que produzem dados com menos ciclos de amplificação em ponte.

[00476] A Figura 72 é uma implementação de uso de microesferas para registro de imagens com base em predições de centros de cluster do gerador de modelo baseado em rede neural 1512.

[00477] A Figura 73 ilustra uma implementação de cluster estatísticas de clusters identificados pela rede neural baseado gerador de modelo 1512. As estatísticas de cluster incluem tamanho de cluster com base no número de subpixels contributivos e no conteúdo GC.

[00478] A Figura 74 mostra como a capacidade do gerador de modelo baseado em rede neural 1512 para distinguir entre clusters adjacentes melhora quando o número de ciclos de sequenciamento iniciais para os quais os dados da imagem de entrada 1702 são usados aumenta de cinco para sete. Para cinco ciclos de sequenciamento, um único cluster é identificado por uma única região disjunta de subpixels contíguos. Para sete ciclos de sequenciamento, o único cluster é segmentado em dois clusters adjacentes, cada um tendo suas próprias regiões disjuntas de subpixels contíguos.

[00479] A Figura 75 ilustra a diferença no desempenho da chamada de base quando um chamador de base RTA ("real time analysis", análise em tempo real) usa a localização do centro de massa (COM) de verdade absoluta como o centro de cluster, em oposição a quando uma localização não COM é usada como o centro do cluster.

[00480] A Figura 76 retrata o desempenho do gerador de modelo baseado em rede neural em clusters 1512 em clusters detectados extras.

[00481] A Figura 77 mostra diferentes conjuntos de dados usados para treinar o gerador de modelo baseado em rede neural 1512. Sistema de sequenciamento

[00482] As Figuras 78A e 78B mostram uma implementação de um sistema de sequenciamento 7800A. O sistema de sequenciamento 7800A compreende um processador configurável 7846. O processador configurável 7846 implementa as técnicas de chamada de base aqui reveladas. O sistema de sequenciamento é também chamado de "sequenciador".

[00483] O sistema de sequenciamento 7800A pode operar para obter quaisquer informações ou dados que se referem a ao menos um de uma substância biológica ou química. Em algumas implementações, o sistema de sequenciamento 7800A é uma estação de trabalho que pode ser similar a um dispositivo de bancada ou computador do tipo desktop. Por exemplo, uma maioria (ou todos) dos sistemas e componentes para conduzir as reações desejadas pode estar dentro de um compartimento comum 7802.

[00484] Em implementações particulares, o sistema de sequenciamento 7800A é um sistema de sequenciamento de ácidos nucleicos configurado para várias aplicações, incluindo, mas não se limitando a, sequenciamento de novo de genomas inteiros ou de regiões genômicas alvo, e metagenômicas. O sequenciador pode também ser usado para análise de DNA ou RNA. Em algumas implementações, o sistema de sequenciamento 7800A pode também ser configurado para gerar locais de reação em um biossensor. Por exemplo, o sistema de sequenciamento 7800A pode ser configurada para receber uma amostra e gerar clusters fixados a superfície de ácidos nucleicos clonalmente amplificados derivados da amostra. Cada cluster pode constituir ou ser parte de um local de reação no biossensor.

[00485] O sistema de sequenciamento exemplificador 7800A pode incluir um receptáculo ou interface de sistema 7810 que é configurado para interagir com um biossensor 7812 para realizar reações desejadas dentro do biossensor 7812. Na descrição a seguir em relação à Figura 78A, o biossensor 7812 é carregado no receptáculo 7810 do sistema. Entretanto, é entendido que um cartucho que inclui o biossensor 7812 pode ser inserido no receptáculo 7810 do sistema, em alguns estados o cartucho pode ser removido temporariamente ou permanentemente. Conforme descrito acima, o cartucho pode incluir, entre outras coisas, componentes de controle fluídico e componentes e armazenamento fluídico.

[00486] Em implementações específicas, o sistema de sequenciamento 7800A é configurado para executar um grande número de reações paralelas dentro do biossensor 7812. O biossensor 7812 inclui um ou mais locais de reação onde reações desejadas podem ocorrer. Os locais de reação podem ser, por exemplo, imobilizados para uma superfície sólida do biossensor ou imobilizados para microesferas (ou outros substratos móveis) que estão localizados em câmaras de reação correspondentes do biossensor. Os locais de reação podem incluir, por exemplo, clusters de ácidos nucleicos clonalmente amplificados. O biossensor 7812 pode incluir um dispositivo de imageamento de estado sólido (por exemplo, imageador CCD ou CMOS) e uma célula de fluxo montada no mesmo. A célula de fluxo pode incluir um ou mais canais de fluxo que recebem uma solução do sistema de sequenciamento 7800A e direcionam a solução para os locais de reação. Opcionalmente, o biossensor 7812 pode ser configurado para engatar um elemento térmico para transferir energia térmica para dentro ou para fora do canal de fluxo.

[00487] O sistema de sequenciamento 7800A pode incluir vários componentes, conjuntos e sistemas (ou subsistemas) que interagem um com o outro para executar um método ou protocolo de ensaio predeterminado para análise biológica ou química. Por exemplo, o sistema de sequenciamento 7800A inclui um controlador de sistema 7806 que podem se comunicar com os vários componentes, conjuntos, e subsistemas do sistema de sequenciamento 7800A e também com o biossensor 7812. Por exemplo, além do receptáculo 7810 do sistema, o sistema de sequenciamento 7800A pode também incluir um sistema de controle de fluido 7808 para controlar o fluxo de fluido através de uma rede fluida do sistema de sequenciamento 7800A e o biossensor 7812; um sistema de armazenamento de fluido 7814 que é configurado para conter todos os fluidos (por exemplo, gás ou líquidos) que pode ser usado pelo sistema de bioensaio; um sistema de controle de temperatura 7804 que pode regular a temperatura do fluido na rede fluida, o sistema de armazenamento de fluidos 7814, e/ou o biossensor 7812; e um sistema de iluminação 7816 que é configurada para iluminar o biossensor 7812. Conforme descrito acima, se um cartucho tendo o biossensor 7812 é carregado no receptáculo 7810 do sistema, o cartucho pode também incluir componentes de controle de fluido e armazenamento de fluido.

[00488] Também mostrado, o sistema de sequenciamento 7800A pode incluir uma interface de usuário 7818 que interage com o usuário. Por exemplo, a interface de usuário 7818 pode incluir uma tela 7820 para exibir ou solicitar informações de um usuário e um dispositivo de dados inseridos pelo usuário 7822 para receber os dados inseridos pelo usuário. Em algumas implementações, a tela 7820 e o dispositivo de inserção de dados pelo usuário 7822 são o mesmo dispositivo. Por exemplo, a interface de usuário 7818 pode incluir uma tela sensível ao toque configurada para detectar a presença do toque de um indivíduo e também identificar um local do toque na tela. Entretanto, outros dispositivos de entrada de dados pelo usuário 7822 podem ser usados, como um mouse, touchpad, teclado, teclado, scanner de mão, sistema de reconhecimento de voz, sistema de reconhecimento de movimento, e similares. Conforme será discutido em maiores detalhes abaixo, o sistema de sequenciamento 7800A pode se comunicar com vários componentes, incluindo o biossensor 7812 (por exemplo, sob a forma de um cartucho), para realizar as reações desejadas. O sistema de sequenciamento 7800A pode também ser configurado para analisar dados obtidos a partir do biossensor para fornecer ao usuário as informações desejadas.

[00489] O controlador de sistema 7806 pode incluir qualquer sistema baseado em processador ou baseado em microprocessador, incluindo sistemas que usam microcontroladores, computador com um conjunto reduzido de instruções (RISC, "reduced instruction set computer"), circuitos integrados de aplicação específica (ASICs, "application specific integrated circuits"), arranjos de portas programáveis em campo (FPGAs, "field programmable gate array"), arquiteturas reconfiguráveis de grão grosso (CGRAs, "coarse-grained reconfigurable architectures"), circuitos lógicos, e qualquer outro circuito ou um processador capaz de executar as funções aqui descritas. Os exemplos acima são meramente exemplificadores, e não se destinam a limitar de maneira nenhuma a definição e/ou o significado do termo controlador de sistema. Na implementação exemplificadora, o controlador de sistema 7806 executa um conjunto de instruções que são armazenadas em um ou mais elementos para armazenamento, memórias, ou módulos para ao menos um dentre obter e analisar dados de detecção. Os dados de detecção podem incluir uma pluralidade de sequências de sinais de pixel, de modo que uma sequência de sinais de pixel de cada um dos milhões de sensores (ou pixels) pode ser detectada em muitos ciclos de chamada de base. Os elementos para armazenamento podem estar sob a forma de fontes de informação ou elementos de memória física no sistema de sequenciamento 7800A.

[00490] O conjunto de instruções pode incluir vários comandos que instruem o sistema de sequenciamento 7800A ou biossensor 7812 para executar operações específicas como os métodos e processos das várias implementações aqui descritas. O conjunto de instruções pode estar sob a forma de um programa de software, que pode fazer parte de uma mídia ou mídias legíveis por computador tangíveis e não transitórias. Como usado aqui, os termos "software" e "firmware" são intercambiáveis, e incluem qualquer programa de computador armazenado na memória para execução por um computador, incluindo memória RAM, memória ROM, memória EPROM, memória EEPROM e memória RAM não volátil (NVRAM). Os tipos de memória acima são apenas exemplificadores, e não são limitadores quanto aos tipos de memória usáveis para armazenamento de um programa de computador.

[00491] O software pode ser sob várias formas como software de sistema ou software aplicativo. Adicionalmente, o software pode ser sob a forma de uma coleção de programas separados, ou um módulo de programa dentro de um programa maior ou uma porção de um módulo de programa. O software também pode incluir programação modular sob a forma de programação orientada a objetos. Depois de obter os dados de detecção, os dados de detecção podem ser processados pelo sistema de sequenciamento automático 7800A, processados em resposta a dados inseridos pelo usuário, ou processados em resposta a uma solicitação feita por uma outra máquina de processamento (por exemplo, uma solicitação remota através de um link de comunicação). Na implementação ilustrada, o controlador de sistema 7806 inclui um módulo de análise 7844. Em outras implementações, o controlador de sistema 7806 não inclui o módulo de análise 7844 e em vez disso tem acesso ao módulo de análise 7844 (por exemplo, o módulo de análise 7844 pode ser separadamente hospedados em nuvem).

[00492] O controlador de sistema 7806 pode ser conectado ao biossensor 7812 e a outros componentes do sistema de sequenciamento 7800A através de links de comunicação. O controlador de sistema 7806 pode também ser conectado de modo comunicativo a sistemas ou servidores fora do local. Os links de comunicação podem ser com fio, cordados ou sem fio. O controlador de sistema 7806 pode receber os dados inseridos pelo usuário, ou comandos, a partir da interface de usuário 7818 e do dispositivo de dados inseridos pelo usuário 7822.

[00493] O sistema de controle 7808 inclui uma rede fluida e é configurado para direcionar e regular o fluxo de um ou mais fluidos através da rede fluida. A rede fluida pode estar em comunicação fluida com o biossensor 7812 e o sistema de armazenamento de fluidos 7814. Por exemplo, fluidos seletos podem ser extraídos a partir do sistema de armazenamento de fluido 7814 e direcionados para o biossensor 7812 de uma maneira controlada, ou os fluidos podem ser extraídos do biossensor 7812 e direcionados para, por exemplo, um reservatório de resíduos no sistema de armazenamento de fluidos 7814. Embora não mostrado, o sistema de controle fluídico 7808 pode incluir sensores de fluxo que detectam uma taxa ou pressão de fluxo dos fluidos dentro da rede fluida. Os sensores podem se comunicar com o controlador de sistema 7806.

[00494] O sistema de controle de temperatura 7804 é configurado para regular a temperatura de fluidos em diferentes regiões da rede fluida, do sistema de armazenamento de fluidos 7814, e/ou do biossensor 7812. Por exemplo, o sistema de controle de temperatura 7804 pode incluir um termociclador que faz interface com o biossensor 7812 e controla a temperatura do fluido que flui ao longo dos locais de reação no biossensor

7812. O sistema de controle de temperatura 7804 pode também regular a temperatura dos elementos ou componentes sólidos do sistema de sequenciamento 7800A ou do biossensor 7812. Embora não mostrado, o sistema de controle de temperatura 7804 pode incluir sensores para detectar a temperatura do fluido ou outros componentes. Os sensores podem se comunicar com o controlador de sistema 7806.

[00495] O sistema de armazenamento de fluido 7814 está em comunicação fluida com o biossensor 7812 e pode armazenar vários componentes da reação ou reagentes que são usados para realizar as reações desejadas no mesmo. O sistema de armazenamento de fluido 7814 pode também armazenar fluidos de lavagem ou limpeza da rede fluída e do biossensor 7812 e para diluir os reagentes. Por exemplo, o sistema de armazenamento de fluido 7814 pode incluir vários reservatórios para armazenar amostras, reagentes, enzimas, outras biomoléculas, soluções tampão, soluções aquosas, e soluções não polares, e similares. Além disso, o sistema de armazenamento de fluidos 7814 pode também incluir reservatórios de resíduos para receber produtos residuais do biossensor

7812. Em implementações que incluem um cartucho, o cartucho pode incluir um ou mais dentre um sistema de armazenamento de fluido, um sistema de controle de fluido ou um sistema de controle de temperatura. Consequentemente, um ou mais dos componentes aqui apresentados em relação a esses sistemas podem estar contidos no interior de um compartimento do cartucho. Por exemplo, um cartucho pode ter vários reservatórios para armazenar amostras, reagentes, enzimas, outras biomoléculas, soluções tampão, soluções aquosas, e soluções resíduos, e similares. Como tal, um ou mais dentre um sistema de armazenamento de fluido, um sistema de controle de fluido ou um sistema de controle de temperatura pode ser engatado de modo removível com um sistema de bioensaio por meio de um cartucho ou outro biossensor.

[00496] O sistema de iluminação 7816 pode incluir uma fonte de luz (por exemplo, um ou mais LEDs) e uma pluralidade de componentes ópticos para iluminar o biossensor. Exemplos de fontes de luz pode incluem lasers, lâmpadas de arco, LEDs, ou DIODOS laser. Os componentes ópticos podem ser, por exemplo, refletores, dicroicos, divisores de feixe, colimadores, lentes, filtros, cunhas, prismas, espelhos, detectores, e similares. Em implementações que usam um sistema de iluminação, o sistema de iluminação 7816 pode ser configurado para direcionar uma luz de excitação aos locais de reação. Como um exemplo, fluoróforos podem ser excitados por comprimentos de onda de luz verde, como tal o comprimento de onda da luz de excitação pode ser de aproximadamente 532 nm. Em uma implementação, o sistema de iluminação 7816 é configurado para produzir iluminação que é paralela a uma superfície normal de uma superfície do biossensor 7812. Em uma outra implementação, o sistema de iluminação 7816 é configurado para produzir iluminação que está fora de ângulo em relação à superfície normal da superfície do biossensor 7812. Em ainda outra implementação, o sistema de iluminação 7816 é configurado para produzir iluminação que tem diversos ângulos, incluindo alguns paralelos iluminação e algumas fora do ângulo de iluminação.

[00497] O receptáculo ou interface de sistema 7810 é configurado para engatar o biossensor 7812 em ao menos um dentre um modo mecânico, elétrico e fluídico. O receptáculo do sistema 7810 pode prender o biossensor 7812 em uma orientação desejada para facilitar o fluxo de fluido através do biossensor 7812. O receptáculo do sistema 7810 pode também incluir contatos elétricos que são configurados para engatar o biossensor 7812 de modo que o sistema de sequenciamento 7800A pode se comunicar com o biossensor 7812 e/ou fornecer energia ao biossensor 7812. Além disso, o receptáculo de sistema 7810 pode incluir portas fluídicas (por exemplo, bocais) que são configurados para engatar o biossensor 7812. Em algumas implementações, o biossensor 7812 é acoplado de modo removível ao receptáculo de sistema 7810 de maneira mecânica, de maneira elétrica, e também de maneira fluídica.

[00498] Além disso, o sistema de sequenciamento 7800A podem se comunicar remotamente com outros sistemas ou redes ou com outros sistemas de bioensaio 7800A. Os dados de detecção obtidos pelos sistemas de bioensaio 7800A podem ser armazenados em um banco de dados remoto.

[00499] A Figura 78B é um diagrama de blocos de um controlador de sistema 7806 que pode ser usado no sistema da Figura 78A. Em uma implementação, o controlador de sistema 7806 inclui um ou mais processadores ou módulos que podem se comunicar um com o outro. Cada um dos processadores ou módulos pode incluir um algoritmo (por exemplo, instruções armazenadas em meio tangível e/ou não transitória de armazenamento legível por computador) ou sub-algoritmos para executar processos específicos. O controlador de sistema 7806 é ilustrado conceitualmente como uma coleção de módulos, mas pode ser implementado com o uso de qualquer combinação de placas de hardware dedicadas, DSPs, processadores etc. Alternativamente, o controlador de sistema 7806 pode ser implementado com o uso de uma PC comercial com um único processador ou múltiplos processadores, com as operações funcionais distribuídas entre os processadores. Como uma opção adicional, os módulos descritos abaixo podem ser implementados com o uso de uma configuração híbrida na qual certas funções modulares são realizadas com o uso de hardware dedicado, enquanto as demais funções modulares são realizadas com o uso de um PC comercial, e similares. Os módulos também podem ser implementados como módulos de software em uma unidade de processamento.

[00500] Durante a operação, uma porta de comunicação 7850 pode transmitir informações (por exemplo, comandos) para ou receber informações (por exemplo, dados) a partir do biossensor 7812 (Figura 78A) e/ou dos subsistemas 7808, 7814, 7804 (Figura 78A). Em algumas implementações, a porta de comunicação 7850 pode gerar uma pluralidade de sequências de sinais de pixel. Um link de comunicação 7834 pode receber os dados inseridos pelo usuário a partir da interface de usuário 7818 (Figura 78A) e transmitir dados ou informações para a interface de usuário 7818. Os dados do biossensor 7812 ou os subsistemas 7808, 7814, 7804 podem ser processados pelo controlador de sistema 7806 em tempo real durante uma sessão de bioensaio. Adicional ou alternativamente, os dados podem ser armazenados temporariamente em uma memória do sistema durante uma sessão do bioensaio e processados em uma operação fora de linha ou mais lento do que o tempo real.

[00501] Conforme mostrado na Figura 78B, o controlador de sistema 7806 pode incluir uma pluralidade de módulos 7826-7848 que se comunicam com um módulo de controle principal 7824, juntamente com uma unidade de processamento central (CPU) 7852. O módulo de controle principal 7824 pode se comunicar com a interface de usuário 7818 (Figura 78A). Embora os módulos 7826 a 7848 sejam mostrados como se comunicando diretamente com o módulo de controle principal 7824, os módulos 7826 a 7848 podem também se comunicar diretamente uns com os outros, com a interface de usuário 7818, e com o biossensor 7812. Além disso, os módulos 7826 a 7848 podem se comunicar com o módulo de controle principal 7824 através dos outros módulos.

[00502] A pluralidade de módulos 7826 a 7848 incluem os módulos de sistema 7828 a 7832, 7826 que se comunicam com os subsistemas 7808, 7814, 7804, e 7816, respectivamente. O módulo de controle fluídico 7828 pode se comunicar com o sistema de controle fluídico 7808 para controlar as válvulas e sensores de fluxo da rede fluida para controlar o fluxo de um ou mais fluidos através da rede fluida. O módulo de armazenamento de fluidos 7830 pode notificar o usuário quando os fluidos estão baixos ou quando o reservatório de resíduos está em ou próximo de capacidade. O módulo de armazenamento de fluidos 7830 pode também se comunicar com o módulo de controle de temperatura 7832 de modo que os fluidos podem ser armazenados a uma temperatura desejada. O módulo de iluminação 7826 pode se comunicar com o sistema de iluminação 7816 para iluminar a locais de reação em horários designados durante um protocolo, como após as reações desejadas (por exemplo, eventos de ligação) ocorreram. Em algumas implementações, o módulo de iluminação 7826 pode se comunicar com o sistema de iluminação 7816 para iluminar os locais de reação em ângulos designados.

[00503] A pluralidade de módulos 7826-7848 pode também incluir um módulo de dispositivo 7836 que se comunica com o biossensor 7812 e um módulo de identificação 7838 que determina as informações de identificação relacionadas com o biossensor 7812. O dispositivo 7836 pode módulo, por exemplo, se comunicar com o receptáculo do sistema de 7810 para confirmar que o biossensor estabeleceu uma conexão eléctrica ou fluídica com o sistema de sequenciamento 7800A. O módulo de identificação 7838 pode receber sinais que identificam o biossensor 7812. O módulo de identificação 7838 pode usar a identidade do biossensor 7812 para fornecer outras informações ao usuário. Por exemplo, o módulo de identificação 7838 pode determinar e então mostrar um número de lote, uma data de fabricação, ou um protocolo que é recomendado para ser operado com o biossensor 7812.

[00504] A pluralidade de módulos 7826 a 7848 inclui também um módulo de análise 7844 (também chamado de módulo de processamento de sinal ou processador de sinal) que recebe e analisa os dados de sinal (por exemplo, dados de imagem) a partir do biossensor 7812. O módulo de análise 7844 inclui memória (por exemplo, RAM ou flash) para armazenar dados de imagem/detecção. Os dados de detecção podem incluir uma pluralidade de sequências de sinais de pixel, de modo que uma sequência de sinais de pixel de cada um dos milhões de sensores (ou pixels) pode ser detectada em muitos ciclos de chamada de base. Os dados de sinal podem ser armazenados para análise subsequente ou podem ser transmitidos para a interface de usuário 7818 para mostrar as informações desejadas ao usuário. Em algumas implementações, os dados de sinal podem ser processados pelo imageador de estado sólido (por exemplo, sensor de imagem CMOS) antes do módulo de análise 7844 receber os dados de sinal.

[00505] O módulo de análise 7844 é configurado para obter dados de imagem provenientes dos detectores de luz em cada uma de uma pluralidade de ciclos de sequenciamento. Os dados de imagem são derivados de sinais de emissão detectados pelos detectores de luz e processar os dados de imagem para cada um da pluralidade de ciclos de sequenciamento através do gerador de modelo baseado em rede neural 1512 e/ou do chamador de base baseado em rede neural 1514 e produzir uma chamada de base para ao menos alguns dos analitos em cada um da pluralidade de ciclo sequenciamento. Os detectores de luz podem ser parte de uma ou mais câmeras de topo (por exemplo, câmera CDD de GAIIx da Illumina que obtém imagens dos cluster no biossensor 7812 a partir do topo), ou podem ser parte do biossensor 7812 em si (por exemplo, sensores de imagem CMOS de iSeq da Illumina subjacentes aos clusters no biossensor 7812 e obter imagens dos clusters a partir do fundo).

[00506] A saída dos detectores de luz é o sequenciamento de imagens, cada uma representando emissões de intensidade dos clusters e seu fundo circundante. As imagens de sequenciamento representam emissões de intensidade geradas como resultado da incorporação de nucleotídeos nas sequências durante o sequenciamento. As emissões de intensidade são de analitos associados e seu fundo circundante. As imagens de sequenciamento são armazenadas na memória 7848.

[00507] Os módulos de protocolo 7840 e 7842 se comunicam com o módulo de controle principal 7824 para controlar a operação dos subsistemas 7808, 7814, e 7804 quando executam os protocolos de ensaio predeterminados.

Os módulos de protocolo 7840 e 7842 podem incluir conjuntos de instruções para instruir o sistema de sequenciamento 7800A para executar operações específicas em conformidade com os protocolos predeterminados.

Conforme mostrado, o módulo de protocolo pode ser um módulo de sequenciamento por síntese (SBS) 7840 que é configurado para emitir vários comandos para executar os processos de sequenciamento por síntese.

Na SBS, a extensão de um iniciador de ácido nucleico ao longo de um modelo de ácido nucleico é monitorada para determinar a sequência de nucleotídeos no modelo.

O processo químico subjacente pode ser polimerização (por exemplo, como catalisada por uma enzima polimerase) ou ligação (por exemplo, catalisada por uma enzima de ligase). Em uma implementação específica de SBS baseada em polimerase, nucleotídeos marcados fluorescentemente são adicionados a um iniciador (estendendo assim o iniciador) de uma maneira dependente de modelo, de modo que a detecção da ordem e do tipo de nucleotídeos adicionados ao iniciador pode ser usada para determinar a sequência do modelo.

Por exemplo, para iniciar um primeiro ciclo da SBS, comandos podem ser dados para liberar um ou mais nucleotídeos marcados, DNA polimerase, etc., em/através de uma célula de fluxo que abriga um conjunto de modelos de ácidos nucleicos.

Os modelos de ácidos nucleicos podem estar localizados em locais de reação correspondentes.

Esses locais de reação em que a extensão do iniciador gerar um nucleotídeo marcado para ser incorporado podem ser detectados através de um evento de imageamento.

Durante um evento de imageamento, o sistema de iluminação 7816 pode fornecer uma luz de excitação aos locais de reação.

Opcionalmente, os nucleotídeos podem incluir adicionalmente uma propriedade de terminação reversível que termina mais a extensão de iniciadores após um nucleotídeo ter sido adicionado a um iniciador. Por exemplo, um análogo de nucleotídeo tendo uma porção de terminador reversível pode ser adicionado a um iniciador, de modo que uma subsequente extensão não pode ocorrer até que um agente de desbloqueamento remova a porção. Dessa forma, para implementações que usam terminação reversível, um comando pode ser dado para liberar um agente de desbloqueamento à célula de fluxo (antes ou após a detecção ocorrer). Um ou mais comandos podem ser dados para realizar as lavagens entre as várias etapas de aplicação. O ciclo pode então ser repetido inúmeras vezes para estender o iniciador por n nucleotídeos, detectando, assim, uma sequência de comprimento n. Técnicas de sequenciamento exemplificadoras são descritas, por exemplo, em Bentley et al., Nature 456:53-59 (20078); WO 04/0178497; US 7.057.026; WO 91/066778; WO 07/123744; US 7.329.492; US 7.211.414; US 7.315.019; US 7.405.2781, e US 20078/01470780782, cada um dos quais está aqui incorporado a título de referência.

[00508] Para a etapa de liberação de nucleotídeos de um ciclo SBS, um único tipo de nucleotídeo pode ser liberado em um momento, ou múltiplos tipos de nucleotídeos diferentes (por exemplo, A, C, T e G juntos) podem ser aplicados. Para uma configuração de aplicação de nucleotídeos em que apenas um tipo único de nucleotídeo está presente em um momento, os diferentes nucleotídeos não precisam ter diferentes rótulos uma vez que eles podem ser distinguidos com base em separação temporal inerente na liberação individualizada. Consequentemente, um método ou aparelho de sequenciamento pode usar detecção de cor única. Por exemplo, uma fonte de excitação precisa apenas fornecer excitação em um único comprimento de onda ou em uma única faixa de comprimentos de onda. Para uma configuração de aplicação de nucleotídeos na qual a aplicação resulta na presença de múltiplos nucleotídeos diferentes na célula de fluxo de uma vez, os locais que incorporam diferentes tipos de nucleotídeos podem ser distinguidos com base em diferentes marcadores fluorescentes que são fixados aos respectivos tipos de nucleotídeos na mistura. Por exemplo, quatro nucleotídeos diferentes podem ser usados, cada um tendo um dentre quatro diferentes fluoróforos. Em uma implementação, os quatro diferentes fluoróforos podem ser distinguidos com o uso de excitação em quatro regiões diferentes do espectro. Por exemplo, quatro fontes diferentes de radiação de excitação podem ser usadas. Alternativamente, menos de quatro diferentes fontes de excitação podem ser usadas, mas filtração óptica da radiação de excitação a partir de uma única fonte pode ser usada para produzir diferentes faixas de radiação de excitação na célula de fluxo.

[00509] Em algumas implementações, menos de quatro cores diferentes podem ser detectadas em uma mistura que tem quatro nucleotídeos diferentes. Por exemplo, pares de nucleotídeos podem ser detectados no mesmo comprimento de onda, mas distinguidos com base em uma diferença de intensidade para um membro do par em comparação com os outros, ou com base em uma alteração a um membro do par (por exemplo, por meio de modificação química, modificação fotoquímica ou modificação física) que causa o aparecimento ou desaparecimento de um sinala aparente em comparação com o sinal detectado para o outro membro do par. Aparelhos e métodos exemplificadores para distinguir quatro nucleotídeos diferentes com o uso de detecção de menos de quatro cores são descritos, por exemplo, nas publicações de US n°s de série 61/5378.294 e 61/619.78778, que estão aqui incorporadas a título de referência em suas totalidades. O pedido de patente US n° 13/624.200, que foi depositado em 21 de setembro de 2012, está também incorporada na presente invenção, a título de referência, em sua totalidade.

[00510] A pluralidade de módulos de protocolo pode também incluir um módulo de preparação de amostra (ou geração) 7842 que é configurado para emitir comandos para o sistema de controle fluídico 7808 e para o sistema de controle de temperatura 7804 para amplificar um produto dentro do biossensor 7812. Por exemplo, o biossensor 7812 pode ser engatado ao sistema de sequenciamento 7800A. O módulo de amplificação 7842 pode emitir instruções para o sistema de controle fluídico 7808 para liberar componentes de amplificação necessários para as câmaras de reação dentro do biossensor 7812. Em outras implementações, os locais de reação podem já conter alguns componentes para a amplificação, como o modelo de DNA e/ou iniciadores. Após liberar os componentes de amplificação componentes para as câmaras de reação, o módulo de amplificação 7842 pode instruir o sistema de controle de temperatura 7804 para percorrer através de diferentes estágios de temperatura de acordo com os protocolos de amplificação conhecidos. Em algumas implementações, a amplificação e/ou incorporação de nucleotídeos é realizada isotermicamente.

[00511] O módulo SBS 7840 pode emitir comandos para executar PCR de ponte onde clusters de amplicons clonais são formados em áreas localizadas dentro de um canal de uma célula de fluxo. Após gerar os amplicons por meio de PCT de ponte, os amplicons podem ser "linearizados" para fazer DNA de modelo de fita única, ou sstDNA e um iniciador de sequenciamento pode ser hibridizado para uma sequência universais que flanqueia uma região de interesse. Por exemplo, um sequenciamento baseado em terminador reversível por método de síntese pode ser usado como apresentado acima ou da forma a seguir.

[00512] Cada chamada de base ou ciclo sequenciamento pode estender uma sstDNA por uma base única que pode ser obtida, por exemplo, com o uso de uma DNA polimerase modificada e uma mistura de quatro tipos de nucleotídeos. Os diferentes tipos de nucleotídeos podem ter marcadores fluorescentes exclusivos, e cada nucleotídeo pode ter, adicionalmente, um terminador reversível que permite que apenas uma única incorporação de base ocorra em cada ciclo. Após uma única base ser adicionada ao sstDNA, a luz de excitação pode ser incidente sobre os locais de reação e as emissões fluorescentes podem ser detectadas. Após a detecção, o marcador fluorescente e o terminador podem ser quimicamente clivados do sstDNA. Uma outra chamada de base similar ou ciclo de sequenciamento pode se seguir. Em tal protocolo de sequenciamento, o módulo de SBS 7840 pode instruir o sistema de controle fluídico 7808 para direcionar um fluxo de reagente e soluções de enzima através do biossensor 7812. Os métodos SBS baseados em terminado reversível exemplificadores que podem ser usados com os aparelhos e métodos aqui apresentados são descritos na publicação de pedido de patente US n° 2007/0166705 A1, publicação de pedido de patente US n° 2006/017878901 A1, patente US n° 7.057.026, publicação de pedido de patente US n° 2006/0240439 A1, publicação de pedido de patente US n° 2006/027814714709 A1, publicação PCT n° WO 05/0657814, publicação de pedido de patente US n° 2005/014700900 A1, publicação PCT n° WO 06/078B199 e publicação PCT n° WO 07/01470251, cada uma das quais está aqui incorporada a título de referência em sua totalidade. Reagentes exemplificadores para o SBS baseado em terminador reversível são descritos US 7.541.444; US 7.057.026; US 7.414.14716; US 7.427.673; US

7.566.537; US 7.592.435 e WO 07/1478353678, cada um dos quais está aqui incorporado a título de referência em sua totalidade.

[00513] Em algumas implementações, os módulos de amplificação e SBS podem operar em um único protocolo de ensaio de onde, por exemplo, o ácido nucleico de modelo é amplificado e subsequentemente sequenciado dentro do mesmo cartucho.

[00514] O sistema de sequenciamento 7800A pode também permitir que o usuário reconfigura um protocolo de ensaio. Por exemplo, o sistema de sequenciamento 7800A pode oferecer opções ao usuário através da interface de usuário 7818 para modificar a determinado protocolo. Por exemplo, se for determinado que o biossensor 7812 deve ser usado para amplificação, o sistema de sequenciamento 7800A pode solicitar uma temperatura para o ciclo de anelamento. Além disso, o sistema de sequenciamento 7800A pode emitir avisos a um usuário se um usuário inseriu dados que são geralmente não aceitáveis para o protocolo de ensaio selecionado.

[00515] Em algumas implementações, o biossensor 7812 inclui milhões de sensores (ou pixels), cada um dos quais gera uma pluralidade de sequências de sinais de pixel ao longo de sucessivos ciclos de chamadas de base. O módulo de análise 7844 detecta a pluralidade de sequências de sinais de pixels e as atribui para os sensores (ou pixels) correspondentes de acordo com a localização por fileira e/ou por coluna dos sensores em uma matriz de sensores.

[00516] A Figura 79 é um diagrama de blocos simplificado de um sistema de análise de dados de sensor a partir do sistema de sequenciamento 7800A, como saídas do sensor de chamada de base. No exemplo da Figura 79, o sistema inclui o processador configurável 7846. O processador configurável 7846 pode executar um chamador de base (por exemplo, o gerador de modelo baseado em rede neural 1512 e/ou o chamador de base baseado em rede neural 1514) em coordenação com um programa em tempo de execução executado pela unidade de processamento central (CPU) 7852 (isto é, um processador hospedeiro). O sistema de sequenciamento 7800A compreende o biossensor 7812 e as células de fluxo. As células de fluxo podem compreender um ou mais campos nos quais clusters de material genético são expostos a uma sequência de fluxos de analito usada para causar reações nos clusters para identificar as bases no material genético. Os sensores detectam as reações para cada ciclo da sequência em cada campo da célula de fluxo para fornecer dados de campo. O sequenciamento genético é uma operação intensiva de dados, que traduz dados de sensor da chamada de base em sequências de chamadas de base para cada cluster do material genético detectado durante uma operação de chamada de base.

[00517] O sistema neste exemplo inclui a CPU 7852, que executa um programa em tempo de execução para coordenar as operações de chamada de base, a memória 7848B para armazenar as sequências de matrizes de dados de campo, as leituras das chamadas de base produzidas pela operação de chamada de base, e outras informações usadas na operação de chamada de base. Além disso, nesta ilustração, o sistema inclui memória 7848A para armazenar um arquivo de configuração (ou arquivos), como uma arquivos FPGA bit, e parâmetros de modelo para as redes neurais usados para configurar e reconfigurar o processador 7846 configuráveis, e executar as redes neurais. O sistema de sequenciamento 7800A pode incluir um programa para configurar um processador configurável e, em algumas modalidades, um processador reconfigurável para executar as redes neurais.

[00518] O sistema de sequenciamento 7800A é acoplado por um barramento 7902 ao processador configurável 7846. O barramento 7902 pode ser implementado com o uso de uma tecnologia de alto rendimento, como em uma tecnologia de barramento exemplificadora compatível com os padrões PCIe (Peripheral Component Interconnect Express) atualmente mantidos e desenvolvido por PCI-SIG (PCI-Special Interest Group). Também neste exemplo, uma memória 7848A é acoplada ao processador configurável 7846 pelo barramento 7906. A memória 7848A pode ser a memória integrada, disposta em uma placa de circuito com o processador configurável 7846. A memória 7848A é usada para acesso em alta velocidade pelo processador configurável 7846 de dados trabalho usados na operação de chamada de base. O barramento 7906 pode também ser implementado com o uso de uma tecnologia de alto rendimento, como tecnologia de barramento compatível com os padrões do PCIe.

[00519] Processadores configuráveis, incluindo arranjos de portas programáveis em campo FPGAs, arranjos reconfiguráveis de grão grosso CGRAs, e outros dispositivos configuráveis e reconfiguráveis,

podem ser configurados para executar uma variedade de funções de forma mais eficiente ou mais rápida do que pode seria alcançado com o uso de um processador de propósito geral que executa um programa de computador.

A configuração dos processadores configuráveis envolve compilar uma descrição funcional para produzir um arquivo de configuração, chamado às vezes de bitstream ou arquivo bit, e distribuir o arquivo de configuração para os elementos configuráveis no processador.

O arquivo de configuração define as funções de lógica a serem executadas pelo processador configurável, configurando o circuito para estabelecer padrões de fluxo de dados, uso de memória distribuída e outros recursos de memória on-chip, conteúdos de tabela de consulta, operações de blocos lógicos configuráveis e unidades de execução configuráveis como unidades de multiplicar e acumular, interconexões configuráveis e outros elementos da matriz configurável.

Um processador configurável é reconfigurável se o arquivo de configuração pode ser alterado no campo, mediante alteração do arquivo de configuração carregado.

Por exemplo, o arquivo de configuração pode ser armazenado em elementos de SRAM voláteis, em elementos de memória de leitura-escrita não voláteis, e em combinações dos mesmos, distribuídos entre as matrizes de elementos configuráveis no processador configurável ou reconfigurável.

Uma variedade de processadores configuráveis comercialmente disponíveis são adequados para uso em uma operação de chamada de base conforme descrito na presente invenção.

Exemplos incluem Tensor Processing Unit (TPU)™ da Google, rackmount solutions like GX4 Rackmount Series™, GX9 Rackmount Series™, NVIDIA DGX-1™, Stratix V FPGA™ da Microsoft, Graphcore’s Intelligent Processor Unit (IPU)™, Qualcomm’s Zeroth Platform™ com processadores Snapdragon™, NVIDIA’s Volta™, NVIDIA’s DRIVE PX™, NVIDIA’s JETSON TX1/TX2 MODULE™, Intel’s Nirvana™, Movidius VPU™, Fujitsu DPI™, ARM’s DynamicIQ™, IBM TrueNorth™, Lambda GPU Server com Testa V100s™, Xilinx Alveo™ U200, Xilinx

Alveo™ U250, Xilinx Alveo™ U280, Intel/Altera Stratix™ GX2800, Intel/Altera Stratix™ GX2800, e Intel Stratix™ GX10M. Em alguns exemplos, uma CPU hospedeira pode ser implementada no mesmo circuito integrado como o processador configurável.

[00520] As modalidades aqui descritas implementam o gerador de modelo baseado em rede neural 1512 e/ou o chamador de base baseado em rede neural 1514 com o uso do processador configurável

7846. O arquivo de configuração para o processador configurável 7846 pode ser implementado mediante especificação das funções de lógica a serem executadas com o uso de uma especificação de linguagem de descrição de alto nível HDL ou uma especificação de linguagem RTL nível de transferência de registro. A especificação pode ser compilada com o uso dos recursos projetados para o processador configurável selecionado para gerar o arquivo de configuração. A mesma ou similar especificação pode ser compilada com o propósito de gerar um design para um circuito integrado específico de aplicação que pode não ser um processador configurável.

[00521] Alternativas para o processador configurável 7846, em todas as modalidades descritas na presente invenção, incluem, portanto, um processador configurado que compreende uma circuito integrado específico de aplicação ASIC ou de propósito especial ou conjunto de circuitos integrados, ou um dispositivo SOC sistema-em um-chip, ou um processador de sistema de processamento gráfico (GPU) ou um processador de arquitetura reconfigurável de grão grosso (CGRA), configurados para executar uma operação de chamada de base baseada em rede neural, conforme descrito na presente invenção.

[00522] Em geral, os processadores configuráveis e os processados configurados aqui descritos, como configurados para executar corridas de uma rede neural, são chamados na presente invenção de processadores de rede neural.

[00523] O processador configurável 7846 é configurado, nesse exemplo, por um arquivo de configuração carregado com o uso de um programa executado pela CPU 7852, ou por outras fontes, que configura a matriz de elementos configuráveis 7916 (por exemplo, blocos lógicos de configuração (CLB) como tabelas de consulta (LUTs), flip-flops, unidades de processamento de computação (PMUs), e unidades de memória de computação (CMUs), blocos I/O configuráveis, interconexões programáveis), no processador configurável para executar a função de chamada de base. Neste exemplo, a configuração inclui lógica de fluxo de dados 7908 que é acoplado aos barramentos 7902 e 7906 e executa funções para distribuir dados e parâmetros de controle entre os elementos usados na operação de chamada de base.

[00524] Além disso, o processador configurável 7846 é configurado com lógica de execução de chamada de base 7908 para executar o gerador de modelo baseado em rede neural 1512 e/ou o chamadas de base baseado em modelo neural 1514. A lógica 7908 compreende clusters de execução de múltiplos ciclos (por exemplo, 7914) que, neste exemplo, incluem cluster de execução 1 até o cluster de execução X. O número de clusters de execução de múltiplos ciclos pode ser selecionado de acordo com uma decisão de compensação que envolve o rendimento desejado da operação, e os recursos disponíveis no processador configurável 7846.

[00525] Os clusters de execução de múltiplos ciclos são acoplados à lógica de fluxo de dados 7908 por rotas de fluxo de dados 7910 implementadas com o uso de interconexão configurável e os recursos de memória no processador configurável 7846. Além disso, os clusters de execução de múltiplos ciclo são acoplados à lógica de fluxo de dados 7908 por rotas de controle 7912 implementadas com o uso de interconexão configurável e recursos de memória por exemplo no processador configurável 7846, que fornecem sinais de controle indicando clusters de execução disponíveis, disponibilidade para fornecer unidades de entrada para a execução de uma corrida do gerador de modelo baseado em rede neural 1512 e/ou o chamador de base baseado em rede neural 1514 para os clusters de execução disponíveis, disponibilidade para fornecer parâmetros treinados para o gerador de modelo baseado em rede neural 1512 e/ou o chamador de base baseado em rede neural 1514, disponibilidade para fornecer patches de saída de dados de classificação de chamada de base, e outros dados de controle usados para execução do gerador de modelo baseado em rede neural 1512 e/ou do chamador de base baseado em rede neural 1514.

[00526] O processador configurável 7846 é configurado para executar as corridas do gerador de modelo baseado em rede neural 1512 e/ou do chamador de base baseado em rede neural 1514 com o uso de parâmetros treinados para produzir dados de classificação para os ciclos de detecção da operação de chamada de base. Uma corrida do gerador de modelo baseado em rede neural 1512 e/ou do chamador de base baseado em rede neural 1514 é executada para produzir dados de classificação para um ciclo de detecção dependente da operação de chamada de base. Uma corrida do gerador de modelo baseado em rede neural 1512 e/ou chamador de base baseado em rede neural 1514 opera em uma sequência que inclui um número N de matrizes de dados de campo a partir dos respectivos ciclos de detecção dentre N ciclos de detecção, sendo que os N ciclos de detecção fornecem dados de sensor para diferentes operações de chamadas de base para uma posição de base por operação em sequência de tempo nos exemplos descritos na presente invenção. Opcionalmente, alguns dos N ciclos de detecção podem estar fora de sequência, se necessário, de acordo com um modelo de rede neural específico sendo executado. O número N pode ser qualquer número maior que um. Em alguns exemplos aqui descritos, os ciclos de detecção dos N ciclos de detecção representam um conjunto de ciclos de detecção para ao menos um ciclo de detecção que precede o ciclo de detecção dependente e ao menos um ciclo de detecção após o ciclo dependente na sequência de tempo. Exemplos são descritos na presente invenção na qual o número N é um número inteiro igual a ou maior que cinco.

[00527] A lógica de fluxo de dados 7908 é configurada para mover dados de campo e ao menos alguns parâmetros treinados dos parâmetros do modelo a partir da memória 7848A para o processador configurável 7846 para as corridas do gerador de modelo baseado em rede neural 1512 e/ou do chamador de base baseado em rede neural 1514, com o uso de unidades de entrada para uma determinada corrida, incluindo dados de campo para patches espacialmente alinhados das matrizes N. As unidades de entrada podem ser movidas pelas operações de acesso direto de memória em uma operação DMA, ou em unidades menores movidas durante faixas de tempo disponíveis em coordenação com a execução da rede neural implantada.

[00528] Os dados de campo para um ciclo de detecção conforme descrito na presente invenção podem compreender uma matriz de dados de sensor que tem um ou mais recursos. Por exemplo, os dados do sensor podem compreender duas imagens que são analisadas para identificar uma das quatro bases em uma posição de base em uma sequência genética de DNA, RNA ou outro material genético. Os dados de campo podem também incluir metadados sobre as imagens e os sensores. Por exemplo, nas modalidades da operação de chamada de base, os dados de campo podem compreender informações sobre alinhamento das imagens com os clusters, como a distância das informações de centro indicando a distância de cada pixel na matriz do sensor de dados a partir do centro de um cluster de material genético no campo.

[00529] Durante a execução do gerador de modelo baseado em rede neural 1512 e/ou do chamador de base baseado em rede neural 1514, conforme descrito a seguir, os dados de campo podem também incluir dados produzidos durante a execução do gerador de modelo baseado em rede neural a 1512 e/ou do chamador de base baseado em rede neural 1514, chamados de dados intermediário, que podem ser reusados em vez de recomputados durante uma corrida do gerador de modelo baseado em rede neural 1512 e/ou do chamador de base baseado em rede neural 1514. Por exemplo, durante a execução do gerador de modelo baseado em rede neural 1512 e/ou do chamador de base baseado em rede neural 1514, a lógica de fluxo de dados 7908 pode escrever dados intermediários para a memória 7848A no lugar dos dados do sensor para um dado patch de uma matriz de dados de campo. Modalidades como esses são descritos abaixo com mais detalhes.

[00530] Conforme ilustrado, um sistema é descrito para análise de saída de sensor de chamada de base, que compreende memória (por exemplo, 7848A) acessível pelo programa em tempo de execução que armazena dados de campo incluindo os dados de sensor para um campo a partir de ciclos de detecção de uma operação de chamada de base. Além disso, o sistema inclui um processador de rede neural, como o processador configurável 7846 tendo acesso à memória. O processador de rede neural é configurado para executar corridas de uma rede neural com o uso de parâmetros treinados para produzir dados de classificação para ciclos de detecção. Conforme descrito na presente invenção, uma corrida da rede neural está operando em uma sequência de N matrizes de dados de campo a partir dos respectivos ciclos de detecção dentre os N ciclos de detecção, incluindo um ciclo dependente, para produzir os dados de classificação para o ciclo dependente. A lógica do fluxo de dados 908 é fornecida para mover dados de campo e os parâmetros treinados da memória para o processador da rede neural para execuções da rede neural com o uso das unidades de entrada que incluem dados para patches espacialmente alinhados das N matrizes a partir dos respectivos ciclos de detecção dentre os N ciclos de detecção.

[00531] Além disso, um sistema é descrito no qual o processador da rede neural tem acesso à memória e inclui uma pluralidade de clusters de execução, sendo os clusters de execução na pluralidade de clusters de execução configurados para executar uma rede neural. A lógica do fluxo de dados 7908 tem cesso à memória e aos clusters de execução na pluralidade de clusters de execução, para fornecer unidades de entrada dos dados de campo para clusters de execução disponíveis na pluralidade de clusters de execução, sendo que as unidades de entrada incluem um número N de patches espacialmente alinhados de matrizes de dados de campo a partir dos respectivos ciclos de detecção, incluindo um ciclo de detecção dependente, e para fazer com que os clusters de execução aplique os N patches espacialmente alinhados à rede neural produzem patches de saída de dados de classificação para o patch alinha espacialmente do ciclo de detecção dependente, sendo que N é maior que

1.

[00532] A Figura 80 é um diagrama simplificado mostrando aspectos da operação de chamada de base, incluindo funções de um programa em tempo de execução executado por um processador hospedeiro. Neste diagrama, a saída de sensores de imagem a partir de uma célula de fluxo é fornecida nas linhas 8000 para threads de processamento de imagem 8001, que podem executar processos em imagens, como alinhamento e arranjo, em uma matriz de dados de sensor para os campos individuais e reamostragem das imagens, e podem ser usados por processos que calculam cluster de campo para cada campo na célula de fluxo, que identifica os pixels na matriz de dados de sensor que correspondem aos clusters de material genético no campo correspondente da célula de fluxo. As saídas dos threads de processamento de imagem 8001 são fornecidas nas linhas 8002 para uma lógica dispatch 8010 na CPU que roteia as matrizes dos dados de campo para um cache de dados 8004 (por exemplo, armazenamento de SSD) em um barramento de alta velocidade 8003, ou no barramento de alta velocidade 8005 para o hardware do processador de rede neural 8020, como o processador configurável 7846 de Figura 79, de acordo com o estado da operação de chamada de base. As imagens processadas e transformadas podem ser armazenadas no cache de dados 8004 para detecção dos ciclos que foram anteriormente usados. O hardware 8020 retorna a saída de dados de classificação pela rede neural para a lógica dispatch 8080, que passa as informações ao cache de dados 8004, ou nas linhas 8011 para threads 8002 que executam a chamada de base e as computações de escore de qualidade com o uso dos dados classificação, e podem arranjar os dados nos formatos padrão para leituras de chamadas de base. As saídas das threads 8002 que realizam as chamadas de base e as computações dos escores de qualidade são fornecidas em linhas 8012 a threads 8003 que agregam as leituras de chamada de base, executam outras operações como compressão de dados, e escrevem as saídas de chamada de base resultantes para destinos especificados para utilização pelos clientes.

[00533] Em algumas modalidades, o hospedeiro pode incluir threads (não mostrado) que realizam processamento final da saída do hardware 8020 em suporte da rede neural. Por exemplo, o hardware 8020 pode fornecer saídas de dados de classificação a partir de uma camada final da rede neural de múltiplos clusters. O processador hospedeiro pode executar uma função de ativação de saída, como uma função de softmax nos dados de classificação para configurar os dados para uso pela chamada de base e os threads de escores de qualidade 8002. Além disso, o processador hospedeiro pode executar operações de entrada (não mostrado), como em normalização de lote dos dados de campos antes da entrada para o hardware 8020.

[00534] A Figura 81 é um diagrama simplificado de uma configuração de um processador configurável 7846 como o da Figura 79. Na Figura 81, o processador configurável 7846 compreende um FPGA com uma pluralidade de interfaces de PCIe de alta velocidade. A FPGA é configurada com um invólucro 8100 que compreende a lógica de fluxo de dados 7908 descrita com referência à Figura 79. O invólucro 8100 gerencia a interface e a coordenação com um programa em tempo de execução na CPU através do link de comunicação com a CPU 8109 e gerencia a comunicação com a DRAM integrada 8102 (por exemplo, a memória 7848A) através do link de comunicação com a DRAM 8110. A lógica do fluxo de dados 7908 no invólucro 8100 fornece dados de patch recuperados pelo patch cruzando as matrizes dos dados de campo na DRAM integrada 8102 para o número de N ciclos para um cluster 8101, e recupera os dados do processo 8115 do cluster 8101 para aplicação de volta para a DRAM integrada 8102. O invólucro 8100 também gerencia a transferência de dados entre o DRAM integrada 8102 e memória do hospedeiro, para as matrizes de entrada dos dados de campo e para os patches de saída dos dados de classificação. O invólucro de transfere os dados de patch na linha 8113 para o cluster alocado 8101. O invólucro fornece parâmetros treinados, como pesos e viéses na linha 8112 para o cluster 8101 recuperado da DRAM integrada 8102. O invólucro fornece dados de configuração e controle na linha 8111 para o cluster 8101 fornecido de, ou gerado em resposta a, o programa em tempo de execução no hospedeiro através do link de comunicação com a CPU 8109. O cluster também pode fornecer sinais de status na linha 8116 para o invólucro 8100, que são usados em cooperação com os sinais de controle do hospedeiro para gerenciar a travessia das matrizes de dados de campo para fornecer dados de patch espacialmente alinhados, e para executar a rede neura de múltiplos ciclos nos dados de patch com o uso dos recursos do cluster

8101.

[00535] Conforme mencionado acima, pode haver múltiplos clusters em um único processador configurável gerenciado pelo invólucro 8100 configurado para executar nos patches correspondentes entre os múltiplos patches dos dados de campo. Cada cluster pode ser configurado para fornecer dados de classificação para chamadas de base em um ciclo de detecção dependente com o uso de dados de múltiplos ciclos de detecção campo aqui descritos.

[00536] Em exemplos do sistema, dados de modelo, incluindo dados kernel como pesos de filtros e viéses podem ser enviados para a CPU hospedeira para o processador configurável, de modo que o modelo pode ser atualizado como uma função do número de ciclos. A operação da chamada de base pode compreender, para um exemplo representativo, na ordem de centenas de ciclos de detecção. A operação de chamada de base pode incluir leituras de extremidade pareadas em algumas modalidades. Por exemplo, os parâmetros de modelo treinados podem ser atualizados uma vez a cada 20 ciclos (ou outro número de ciclos), ou de acordo com padrões de atualização implementadas para sistemas e modelos de rede neural específicos. Em algumas modalidades incluindo as leituras das extremidades pareadas nas quais uma sequência para uma dada string em um cluster genético em um campo inclui uma primeira parte que se estende de uma primeira extremidade para baixo (ou para cima) da string, e uma segunda parte que se estende de uma segunda extremidade para cima (ou para baixo) da string, os parâmetros treinados podem ser atualizados na transição da primeira parte para a segunda parte.

[00537] Em alguns exemplos, os dados de imagem para múltiplos ciclos de dados de detecção para um campo podem ser enviado da CPU para o invólucro 8100. O invólucro 8100 pode opcionalmente fazer algum pré-processamento e transformação dos dados de detecção e escrever as informações para a DRAM integrada 8102. Os dados de entrada de campo para cada ciclo de detecção podem incluir matrizes de dados de sensor que incluem na ordem de 4000 x 3000 pixels por ciclo de detecção por campo ou mais, com duas características representando cores de duas imagens do campo, e um ou dois bites por característica por pixel. Para uma modalidade na qual o número N é três ciclos de detecção a serem usados em cada passagem da rede neural de múltiplos ciclo, a matriz de dados de campo para cada corrida da rede neural de múltiplos ciclos pode consumir na ordem de centenas de megabytes por campo. Em algumas modalidades do sistema, os dados de campo também incluem uma matriz de dados DFC, armazenados uma vez por campo, ou outro tipo de metadados sobre os dados do sensor e os campos.

[00538] Em operação, quando um cluster de múltiplos ciclos está disponível, o invólucro aloca um patch ao cluster. O invólucro busca um novo patch de dados de campo na transversal do campo e o envia-o para o cluster alocado junto com informações adequadas de controle e configuração. O cluster pode ser configurado com memória suficiente sobre o processador configurável para manter um patch de dados incluindo patches de múltiplos ciclos em alguns sistemas, no qual se está trabalhando, no lugar, e um patch de dados que é para ser trabalhado quando o patch atual de processamento está terminado de usar uma técnica de buffer de ping-pong ou uma técnica de escaneamento raster em várias modalidades.

[00539] Quando um cluster alocado completa sua execução da rede neural para o patch atual e produz um patch de saída, ele envia um sinal para o invólucro. O invólucro irá ler o patch de saída a partir do cluster alocado, ou alternativamente o cluster alocado empurra os dados para o invólucro. Então, o invólucro irá montar patches de saída para o campo processado na DRAM 8102. Quando o processamento de todo o campo foi concluído, e os patches de saída de dados transferidos para a DRAM, o invólucro envia a matriz de saída processada para o campo de volta para o hospedeiro/CPU em um formato determinado. Em algumas modalidades, a DRAM integrada 8102 é gerenciada pela lógica de gerenciamento de memória no invólucro 8100. O programa em tempo de execução pode controlar as operações de sequenciamento para completar a análise de todas as matrizes de dados de campo para todos os ciclos na corrida em um fluxo contínuo para fornecer análise em tempo real. Melhoramento técnicos e terminologia técnica

[00540] A chamada de base inclui incorporação ou fixação de uma etiqueta marcada fluorescentemente com um analito. O analito pode ser um nucleotídeo ou um oligonucleotídeo, e a etiqueta pode ser para um tipo de nucleotídeo específico (A, C, T, ou G). A luz de excitação é direcionada para o analito tendo a etiqueta, e a etiqueta emite um sinal fluorescente ou intensidade de emissão, detectáveis. A intensidade de emissão é indicativa de fótons emitidos pela etiqueta excitada que é quimicamente ligada ao analito.

[00541] Ao longo deste pedido, incluindo nas reivindicações, quando frases como ou similares a "imagens, dados de imagem ou regiões de imagem representando emissões de intensidade de analitos e seu fundo circundante" são usadas, elas se referem às emissões de intensidade das etiquetas fixadas aos analitos. Uma pessoa versada na técnica irá apreciar que as emissões de intensidade das etiquetas fixadas são representativas de ou equivalentes às emissões de intensidade dos analitos aos quais as etiquetas estão fixadas, e são, portando, usadas de forma intercambiável. De modo similar, as propriedades dos analitos se referem às propriedades das etiquetas fixadas aos analitos ou das emissões de intensidade das etiquetas fixadas. Por exemplo, um centro de um analito se refere ao centro das emissões de intensidade emitidas por uma etiqueta fixada à ao analito. Em um outro exemplo, o fundo circundante de um analito se refere a fundo em redor das emissões de intensidade emitida por uma etiqueta fixada ao analito.

[00542] Toda a literatura e material similar citados neste pedido, incluindo, mas não se limitando a, patentes, pedidos de patente, artigos, livros, tratados e páginas da web, independentemente do formato de tal literatura e materiais similares, estão expressamente incorporados a título de referência em sua totalidade. No caso em que um ou mais dentre a literatura incorporada e materiais similares diferem ou contradizem esta aplicação, incluindo, mas não se limitando a, termos definidos, uso de termo, técnicas descritas ou similares, este pedido controla.

[00543] A tecnologia revelada usa redes neurais para melhorar a qualidade e a quantidade de informações de sequência de ácidos nucleicos que podem ser obtidas a partir de uma amostra de ácido nucleico, como um modelo de ácido nucleico ou seu complemento, por exemplo, um polinucleotídeo de DNA ou RNA ou outra amostra de ácido nucleico. Consequentemente, certas implementações da tecnologia revelada fornecem maior produtividade de sequenciamento de polinucleotídeo, por exemplo, taxas mais elevadas de recolha de dados de sequência de DNA ou RNA, maior eficiência em sequência a recolha de dados, e/ou reduzir os custos de obtenção de tais dados de sequência, em relação às metodologias anteriormente disponíveis.

[00544] A tecnologia revelada usa redes neurais para identificar o centro de um cluster de ácido nucleico de fase sólida e para analisar os sinais ópticos que são gerados durante o sequenciamento de tais clusters, para distinguir inequivocamente entre clusters adjacentes, contíguos ou sobrepostos a fim de atribuir um sinal de sequenciamento para um único cluster de fonte discreto. Essas implementações e relacionadas permitem, portanto, a recuperação de informações significativas, como dados de sequência, de regiões de alta densidade de matrizes de cluster onde informações úteis não puderam ser, anteriormente, obtidas de tais regiões devido aos efeitos confusos de clusters adjacentes sobrepostos ou espaçados muito próximos, incluindo os efeitos de sinais de sobreposição (por exemplo, conforme usado no sequenciamento de ácido nucleico) que emanam dos mesmos.

[00545] Conforme descrito em maiores detalhes abaixo, em certas implementações é fornecida uma composição que compreende um suporte sólido tendo imobilizado ao mesmo um ou uma pluralidade de clusters de ácidos nucleicos conforme fornecido na presente invenção. Cada cluster compreende uma pluralidade de ácidos nucleicos imobilizados da mesma sequência e tem um centro identificável que tem um rótulo de centro detectável, conforme aqui fornecido, pelo qual o centro identificável é distinguível de ácidos nucleicos imobilizados em uma região circundante no cluster. Também são aqui descritos métodos para a produção e uso de tais clusters que têm centros identificáveis.

[00546] As implementações reveladas na presente invenção encontram usos em inúmeras situações em que as vantagens são obtidas a partir da capacidade de identificar, determinar, anotar, registrar ou de outro modo atribuir a posição de um local substancialmente central dentro de um cluster, como sequenciamento de ácido enucleio de alto rendimento, desenvolvimento de algoritmos de análise de imagens para atribuição de sinais ópticos ou outros para clusters de fonte discretas, e outras aplicações onde o reconhecimento do centro de um cluster de ácido nucleico imobilizado é desejável e benéfico.

[00547] Em certas implementações, a presente invenção contempla métodos que se relacionam à análise de ácido nucleico de alto rendimento como determinação de sequências de ácidos nucleicos (por exemplo, "sequenciamento"). As análises de ácidos nucleicos de alto rendimento exemplificadoras incluem sem limitação sequenciamento de novo, ressequenciamento, sequenciamento de genomas completos, análise de expressão gênica, monitoramento de expressão gênica, análise epigenética, análise de metilação do genoma, extensão de iniciadores específicos para o alelo (APSE, "allele specific primer extension"), perfilamento de diversidade genética, descoberta e análise de polimorfismo de genoma inteiro, análise de polimorfismo um único polimorfismo, métodos de determinação de sequência baseados em hibridização, e similares. O versado na técnica compreenderá que uma variedade de diferentes ácidos nucleicos pode ser analisada com o uso dos métodos e composições da presente invenção.

[00548] Embora as implementações da presente invenção sejam descritas em relação ao sequenciamento de ácidos nucleico, elas são aplicáveis em qualquer campo onde são analisados dados de imagens adquiridos em diferentes pontos de tempo, localizações espaciais outras perspectivas temporais ou físicas. Por exemplo, os métodos e sistemas aqui descritos são úteis nos campos da biologia molecular e celular onde dados de imagem de microarranjos, espécimes biológicos, células, organismos e similares são capturados e em diferentes pontos de tempo ou perspectivas e analisados. As imagens podem ser obtidas com o uso de qualquer número de técnicas conhecidas na técnica incluindo, mas não se limitando a, microscopia de fluorescência, microscopia de luz, microscopia confocal, imageamento óptico, imageamento por ressonância magnética, varredura por tomografia ou similares. Como um outro exemplo, os métodos e sistemas aqui descritos podem ser aplicados onde dados de imagem obtidos por tecnologias de imageamento aéreo ou satélite de vigilância e similares são adquiridos em diferentes pontos de tempo ou perspectivas e analisados. Os métodos e sistemas são particularmente úteis para analisar as imagens obtidas por um campo de visão na qual os analitos sendo visualizados permanecer nos mesmos locais relativos uns aos outros no campo de visão. Os analitos podem, no entanto, ter características que diferem em imagens separadas, por exemplo, os analitos podem parecer diferentes em imagens separadas do campo de visão. Por exemplo, os analitos podem parecer diferentes no que diz respeito à cor de um dado analito detectada em diferentes imagens, uma alteração na intensidade de sinal detectada para um dado analito em imagens diferentes, ou até mesmo a aparência de um sinal para um dado analito em uma imagem e desaparecimento do sinal para o analito em uma outra imagem.

[00549] Os exemplos aqui descritos podem ser usados em vários processos químicos ou biológicos e sistemas para análise acadêmica ou comerciais. Mais especificamente, os exemplos aqui descritos podem ser usados em vários processos e sistemas onde se deseja detectar um evento, propriedade, qualidade, ou característica que é indicativo de uma reação designada. Por exemplo, os exemplos aqui descritos incluem dispositivos de detecção de luz, biossensores e seus componentes, bem como sistemas de bioensaio que operam com biossensores. Em alguns exemplos, os dispositivos, biossensores e sistemas podem incluir uma célula de fluxo e um ou mais sensores de luz que são acoplados juntos (de modo removível ou fixo) em uma estrutura substancialmente unitária.

[00550] Os sistemas de dispositivos, biossensores e bioensaio podem ser configurados para executar uma pluralidade de reações designadas que podem ser detectadas individualmente ou coletivamente. Os sistemas de dispositivos, biossensores e bioensaio podem ser configurados para realizar inúmeros ciclos na qual a pluralidade de reações designadas ocorre em paralelo. Por exemplo, os sistemas de dispositivos, biossensores e bioensaio podem ser usados para sequenciar uma matriz densa de características de DNA através de ciclos iterativos de manipulação enzimática e aquisição/detecção de luz ou imagem. Como tal, os sistemas de dispositivos, biossensores e bioensaio (por exemplo, através de um ou mais cartuchos) podem incluir um ou mais reagentes ou canais microfluídicos que liberam reagentes ou outros componentes de reação em uma solução de reação para um local de reação dos sistemas de dispositivos, biossensores e bioensaio. Em alguns exemplos, a solução de reação pode ser substancialmente ácida, como compreendendo um pH menor que ou igual a cerca de 5, ou menor que ou igual a cerca de 4, ou menor que ou igual a cerca de 3. Em alguns outros exemplos, a solução de reação pode ser substancialmente alcalina/básica, como compreendendo um pH de maior que ou igual a cerca de 8, ou maior que ou igual a cerca de

9, ou maior que ou igual a cerca de 10. Como usado na presente invenção, o termo "acidez" e variantes gramaticais do mesmo se referem a um valor de pH menor que cerca de 7, e os termos "basicidade", "alcalinidade" e variantes gramaticais dos mesmos se referem a um valor de pH maior que cerca de 7.

[00551] Em alguns exemplos, os locais de reação são fornecidos ou espaçados de uma maneira predeterminada, como em um padrão de repetição ou uniforme. Em alguns outros exemplos, os locais de reação são distribuídos de modo aleatório. Cada um dos locais de reação pode ser associado a uma ou mais guias de luz e um ou mais sensores de luz que detectam luz a partir do local de reação associado. Em alguns exemplos, os locais de reação estão localizados em reentrâncias ou câmaras de reação, que podem ao menos parcialmente compartimentar a reações designados nos mesmos.

[00552] Como usado aqui, uma "reação designada" inclui uma alteração em ao menos uma propriedade dentre propriedade (ou qualidade) química, elétrica, física, óptica de uma substância química ou biológica de interesse, como um analito de interesse. Em exemplos específicos, uma reação designada é um evento de ligação positivo, como a incorporação de uma biomolécula marcados fluorescentemente com um analito de interesse, por exemplo. De modo mais genérico, uma reação designada por ser uma transformação química, alteração química, ou interação química. Uma reação designada pode também ser uma alteração nas propriedades elétricas. Em exemplos específicos, uma reação designada inclui a incorporação de uma molécula marcada fluorescentemente com um analito. O analito pode ser um oligonucleotídeo e a molécula marcada fluorescentemente pode ser um nucleotídeo. Uma reação designada pode ser detectada quando uma luz de excitação é direcionada para o oligonucleotídeo que tem o nucleotídeo marcado, e o fluoróforo emite um sinal fluorescente detectável. Em exemplos alternativos, a fluorescência detectada é um resultado da quimioluminescência ou bioluminescência. Uma reação designada pode também aumentar transferência de energia de ressonância por fluorescência (FRET, "Fluorescence Resonance Energy Transfer"), por exemplo, através da colocação de um fluoróforo doador em proximidade com um fluoróforo receptor, para diminuir FRERT pela separação dos fluoróforos doadores e aceptores, para aumentar a fluorescência por separação de inativador de um fluoróforo, ou para diminuir a fluoresceínas por colocação de um inativador e um fluoróforo.

[00553] Como usado aqui, uma "solução de reação", "componente de reação" ou "reagente" inclui qualquer substância que pode ser usada para obter ao menos uma reação designada. Por exemplo, possíveis componentes de reação incluem reagentes, enzimas, amostras, outras biomoléculas, e soluções tampão, por exemplo. Os componentes da reação podem ser liberados em um local de reação em uma solução e/ou imobilizados em um local de reação. Os componentes da reação podem interagir diretamente ou indiretamente com uma outra substância, como um analito de interesse imobilizado em um local de reação. Conforme observado acima, a solução de reação pode ser substancialmente ácida (isto é, incluir uma acidez relativamente elevada) (por exemplo, compreendendo um pH de menor que ou igual a cerca de 5, um pH menor que ou igual a cerca de 4, ou um pH menor que ou igual a cerca de 3) ou substancialmente alcalina/básica (isto é, incluir uma alcalinidade/basicidade relativamente alta) (por exemplo, compreendendo um pH de maior que ou igual a cerca de 8, um pH de maior que ou igual a cerca de 9, ou um pH de maior que ou igual a cerca de 10).

[00554] Como usado na presente invenção, o termo "local de reação" é uma região localizada onde ao menos uma reação designada pode ocorrer. Um local de reação pode incluir superfícies de suporte de uma estrutura de reação ou substrato onde uma substância pode ser imobilizada no mesmo. Por exemplo, um local de reação pode incluir uma superfície de uma estrutura de reação (que pode ser posicionada em um canal de célula de fluxo) que tem um componente de reação sobre a mesma, como uma colônia de ácidos nucleicos sobre a mesma. Em alguns desses exemplos, os ácidos nucleicos na colônia têm a mesma sequência, sendo, por exemplo, cópias clonais de um modelo de fita única ou de fita dupla. Entretanto, em alguns exemplos, um local de reação pode conter apenas uma única molécula de ácido nucleico, por exemplo, em uma forma de fita única ou de fita dupla.

[00555] Uma pluralidade de locais de reação pode ser distribuída de modo aleatório ao longo da estrutura de reação ou disposta de uma maneira predeterminada (por exemplo, lado a lado em uma matriz, como em microarranjos). Um local de reação pode também incluir uma câmara de reação ou reentrância que define ao menos parcialmente uma região espacial ou volume configurado para compartimentar a reação designada. Como usado na presente invenção, o termo "câmara de reação" ou "reentrância de reação" inclui uma região espacial definida da estrutura de suporte (que está frequentemente em comunicação fluida com um canal de fluxo). Uma reentrância de reação pode estar ao menos parcialmente separada do ambiente circundante ou outras regiões espaciais. Por exemplo, uma pluralidade de reentrâncias de reação podem ser separadas umas das outras por paredes compartilhadas, como uma superfície de detecção. Como um exemplo mais específico, as reentrâncias de reação podem ser nanopoços compreendendo uma endentação, poço, sulco, cavidade ou depressão definidos pelas superfícies interiores de uma superfície de detecção e ter uma abertura (isto é, ter um lado aberto), de modo que os nanopoços podem estar em comunicação fluida com um canal de fluxo.

[00556] Em alguns exemplos, as reentrâncias de reação da estrutura de reação são dimensionadas e conformadas em relação aos sólidos (incluindo semissólidos) de modo que os sólidos podem ser inseridos, total ou parcialmente, em seu interior. Por exemplo, as reentrâncias de reação podem ser dimensionadas e conformadas para acomodar uma microesfera de captura. A microesfera de captura pode ter DNA clonalmente amplificado ou outras substâncias na mesma. Alternativamente, as reentrâncias de reação podem ser dimensionadas e conformadas para receber um número aproximado de microesferas ou substratos sólidos. Como um outro exemplo, as reentrâncias de reação podem ser preenchidas com um gel ou substância porosa que é configurada para controlar a difusão ou filtrar fluidos ou soluções que pode fluir para o interior das reentrâncias de reação.

[00557] Em alguns exemplos, sensores de luz (por exemplo, fotodiodos) estão associados com locais de reação correspondentes. Um sensor de luz que está associado a um local de reação é configurado para detectar emissões de luz a partir do local de reação associado através de ao menos um guia de luz quando uma reação designada ocorreu no local de reação associado. Em alguns casos, uma pluralidade de sensores de luz (por exemplo vários pixels de uma detecção de luz ou dispositivo de câmera) pode estar associada a um único local de reação. Em outros casos, um único sensor de luz (por exemplo um único pixel) pode estar associado a um único local de reação ou com um grupo de locais de reação. O sensor de luz, o local de reação, e outros recursos do biossensor podem ser configurados de modo que ao menos uma parte da luz é detectada diretamente pelo sensor de luz sem ser refletida.

[00558] Como usado na pressente invenção, uma "substância biológica ou química" inclui biomoléculas, amostras de interesse, analitos de interesse e outros compostos químicos. Uma substância biológica ou química pode ser usada para detectar, identificar ou analisar outros compostos químicos, ou funcionar como intermediária para estudar ou analisar outros compostos químicos. Em exemplos específicos, as substâncias biológicas ou químicas incluem uma biomolécula. Como usado aqui, uma "biomolécula" inclui ao menos um dentre um biopolímero, nucleosídeo, ácido nucleico, polinucleotídeo, oligonucleotídeo, proteína, enzima, polipeptídeo, anticorpo, antígeno, ligando, receptor, polissacarídeo, carboidrato, polifosfato, célula, tecido, organismo ou fragmento do mesmo ou qualquer outro composto químico biologicamente ativo como análogos ou miméticos das espécies anteriormente mencionadas. Em um exemplo adicional, uma substância biológica ou química ou uma biomolécula inclui uma enzima ou reagente usado em uma reação acoplada para detectar o produto de outra reação como uma enzima ou reagente, como uma enzima ou reagente usado para detectar pirofosfato em uma reação de pirosequenciamento. Enzimas e reagentes úteis para detecção de pirofosfato são descritos, por exemplo, na publicação de patente US n° 2005/0244870 A1 que está incorporado a título de referência em sua totalidade.

[00559] As biomoléculas, as amostras, e as substâncias biológicas ou químicas podem ser de ocorrência natural ou sintética e podem estar suspensas em uma solução ou mistura dentro de uma reentrância de reação ou região. As biomoléculas, as amostras e as substâncias biológicas ou químicas podem também estar ligadas a uma fase sólida ou material de gel. As biomoléculas, as amostras, e as substâncias biológicas ou químicas podem também incluir uma composição farmacêutica. Em alguns casos, as biomoléculas, as amostras, e as substâncias biológicas ou químicas de interesse podem ser chamadas de alvos, sondas, ou analitos.

[00560] Como usado aqui, um "biossensor" inclui um dispositivo que inclui uma estrutura de reação com uma pluralidade de locais de reação que é configurado para detectar reações designadas que ocorrem em ou próxima dos locais de reação. Um biossensor pode incluir um dispositivo de detecção de luz de estado sólido ou um dispositivo de "imageamento" (por exemplo, dispositivo de detecção de luz CCD ou

CMOS) e, opcionalmente, uma célula de fluxo montada no mesmo. A célula de fluxo pode incluir pelo menos um canal de fluxo que está em comunicação fluida com os locais de reação. Como um exemplo específico, o biossensor é configurado para fluidicamente e eletricamente se acoplar a um sistema de bioensaio. O sistema de biosensaio pode fornecer uma solução de reação aos locais de reação de acordo com um protocolo predeterminado (por exemplo, sequenciamento por síntese) e executar uma pluralidade de eventos de imageamento. Por exemplo, o sistema de bioensaio pode direcionar soluções de reação para fluir ao longo dos locais de reação. Ao menos uma das soluções de reação pode incluir quatro tipos de nucleotídeos tendo o mesmo ou diferentes marcadores fluorescentes. Os nucleotídeos podem se ligar aos locais de reação, como a oligonucleotídeos correspondentes nos locais de reação. O sistema de bioensaio pode, então, iluminar os locais de reação com o uso de uma fonte de luz de excitação (por exemplo, fontes de luz de estado sólido, como diodos emissores de luz (LEDs)). A luz de excitação pode ter um comprimento de onda ou comprimentos de onda predeterminados, incluindo uma faixa de comprimentos de onda. Os marcadores fluorescentes excitados pela luz de excitação incidente podem fornecer sinais de emissão (por exemplo, a luz de um comprimento de onda ou comprimentos de onda que diferem da luz de excitação e, potencialmente, entre si) que podem ser detectados pelos sensores de luz.

[00561] Como usado na pressente invenção, o termo "imobilizado" quando usado em relação a uma biomolécula ou substância biológica ou química, inclui substancialmente fixar a biomolécula ou substância biológica ou química em um nível molecular a uma superfície, como a uma superfície de detecção de um dispositivo de detecção de luz ou estrutura de reação. Por exemplo, uma biomolécula ou substância biológica ou química pode ser imobilizada em uma superfície da estrutura de reação com o uso de técnicas de adsorção que incluem interações não covalentes (por exemplo, forças eletrostáticas, de van der Waals, e desidratação de interfaces hidrofóbicas) e técnicas de ligação covalente onde grupos funcionais ou conectores facilitam a fixação das biomoléculas à superfície. A imobilização das biomoléculas ou substâncias biológicas ou químicas à superfície pode ser com base nas propriedades da superfície, do meio líquido que transporta a biomolécula ou substância biológica ou química, e nas próprias propriedades das biomoléculas ou substâncias biológicas ou químicas. Em alguns casos, a superfície pode ser funcionalizada (por exemplo, quimicamente ou fisicamente modificadas) para facilitar a imobilização das biomoléculas (ou substâncias biológicas ou químicas) à superfície.

[00562] Em alguns exemplos, os ácidos nucleicos podem ser imobilizados à estrutura de reação, como às superfícies das reentrâncias de reação dos mesmos. Em exemplos específicos, os sistemas de dispositivos, biossensores, bioensaio e os métodos aqui descritos podem incluir o uso de nucleotídeos naturais e também enzimas que são configurados para interagir com os nucleotídeos naturais. Os nucleotídeos naturais incluem, por exemplo, ribonucleotídeos ou desoxirribonucleotídeos. Os nucleotídeos naturais podem ser formas de mono, di, ou trifosfato e podem ter uma base selecionada dentre adenina (A), tiamina (T), uracila (U), guanina (G) ou citosina (C). Deve-se compreender, entretanto, que nucleotídeos não naturais, nucleotídeos modificados ou análogos dos nucleotídeos anteriormente mencionados podem ser usados.

[00563] Conforme observado acima, uma biomolécula ou substância biológica ou química pode ser imobilizada em um local de reação em uma reentrância de reação de uma estrutura de reação. Essa biomolécula ou substância biológica pode ser fisicamente presa ou imobilizada dentro das reentrâncias de reação através de um encaixe por interferência, adesão, ligação covalente, ou aprisionamento. Exemplos de itens ou sólidos que podem ser dispostos no interior das reentrâncias de reação incluem microesferas de polímero, péletes, gel de agarose, pós, pontos quânticos, ou outros sólidos que podem ser comprimidos e/ou mantidos dentro da câmara de reação. Em certas implementações, as reentrâncias de reação podem ser revestidas ou preenchidas com uma camada de hidrogel capaz de ligação covalente de oligonucleotídeos de DNA. Em exemplos específicos, uma superestrutura de ácido nucleico, como uma bola de DNA, pode ser disposta em ou na reentrância de reação, por exemplo, por fixação a uma superfície interna da reentrância de reação ou por residência em um líquido no interior da reentrância de reação. A bola de DNA ou outra superestrutura de ácido nucleico pode ser executada e então disposta em ou na reentrância de reação. Alternativamente, uma bola de DNA pode ser sintetizada localmente em uma reentrância de reação. Uma substância que é imobilizada em uma reentrância de reação pode estar em um estado sólido, líquido ou gasoso.

[00564] Como usado na pressente invenção, o termo "analito" se destina a significar um ponto ou área em um padrão que pode ser distinguido de outros pontos ou áreas de acordo com localização relativa. Um analito individual pode incluir uma ou mais moléculas de um tipo específico. Por exemplo, um analito pode incluir uma única molécula de ácido nucleico alvo tendo uma sequência específica ou um analito pode incluir várias moléculas de ácido nucleico que tendo a mesma sequência (e/ou sequência complementar, dos mesmos). Diferentes moléculas que estão em diferentes analitos de um padrão podem ser diferenciadas umas das outras de acordo com as localizações dos analitos no padrão. Analitos exemplificadores incluem mas não se limitam a, poços em um substrato, microesferas (ou outras partículas) em ou sobre um substrato, projeções a partir de um substrato, cristas em um substrato, blocos de material de gel sobre um substrato, ou canais em um substrato.

[00565] Qualquer um de uma variedade de analitos alvo que é para ser detectado, caracterizado, ou identificado pode ser usado em um aparelho, sistema ou método aqui apresentado. Analitos exemplificadores incluem, mas não se limitam a, ácidos nucleicos (por exemplo, o DNA, RNA ou análogos dos mesmos), proteínas, polissacarídeos, células, anticorpos, epítopos, receptores, ligantes, enzimas (por exemplo quinases, fosfatases ou polimerases), candidatos a fármaco de moléculas pequenas, células, vírus, organismos, ou similares.

[00566] Os termos "analito", "ácido nucleico", "molécula de ácido nucleico" e "polinucleotídeo" são usados de maneira intercambiável na presente invenção. Em várias implementações, os ácidos nucleicos podem ser usados como modelo conforme fornecido na presente invenção (por exemplo, um modelo de ácido nucleico, ou um complemento de ácido nucleico que é complementar a um modelo de ácido nucleico) para tipos específicos de análise de ácidos nucleicos, incluindo mas não se limitando a, amplificação de ácido nucleico, análise de expressão de ácido nucleico, e/ou determinação de sequência de ácido nucleico ou combinações adequadas dos mesmos. Ácidos nucleicos em certas implementações incluem, por exemplo, polímeros lineares de desoxirribonucleotídeos em 3'-5' fosfodiéster ou outras ligações, como ácidos desoxirribonuclêicos (DNA), por exemplo, DNA de fita simples ou dupla, DNA genômico, cópia de DNA ou DNA complementar (cDNA), DNA recombinante, ou qualquer forma de DNA sintética ou modificada. Em outras implementações, os ácidos nucleicos incluem por exemplo, polímeros lineares de ribonucleotídeos em 3'-5' fosfodiéster ou outras ligações, como ácidos ribonucleicos (RNA), por exemplo, RNA de fita simples ou dupla, RNA mensageiro (mRNA), cópia de RNA ou RNA complementar (cRNA), alternativamente mRNA spliced, RNA ribossomal, RNA nucleolar pequeno (snoRNA), microRNAs (miRNA), RNAs interferente pequeno (sRNA), RNAs piwi (piRNA), ou qualquer forma de RNA sintético ou modificado. Os ácidos nucléicos usados nas composições e métodos da presente invenção podem variar em comprimento e podem ser moléculas ou fragmentos intactos ou de comprimento total ou partes menores de moléculas de ácido nucleico maiores. Em implementações específicas, o ácido nucleico pode ter um ou mais marcadores detectáveis, como descrito em outro lugar na presente invenção.

[00567] Os termos "analito", "cluster", "cluster de ácido nucleico", "colônia de ácido nucleico", e "cluster de DNA" são usados de forma intercambiável e se referem a uma pluralidade de cópias de um modelo de ácido nucleico e/ou complementos dos mesmos fixados a um suporte sólido. Tipicamente e em certas implementações preferenciais, o cluster de ácido nucleico compreende uma pluralidade de cópias de modelo de ácido nucleico e/ou complementos do mesmo, fixadas ao mesmo através de suas terminações 5’ ao suporte sólido. As cópias de fitas de ácido nucleico que compõem os clusters de ácido nucleico podem ser em uma forma de fita única ou dupla. Cópias de modelos de ácido nucleico que estão presentes em um cluster podem ter nucleotídeos em posições correspondentes que diferem umas das outras, por exemplo, devido à presença de uma porção de marcador. As posições correspondentes também podem conter estruturas análogas tendo diferentes estruturas químicas mas propriedades semelhantes de pareamento de base de Watson e Crick, como é o caso para uracil e timina.

[00568] As colônias de ácidos nucleicos podem também ser chamadas de "clusters de ácidos nucleicos". As colônias de ácidos nucleicos podem opcionalmente ser criadas por técnicas de amplificação de cluster ou amplificação em ponte conforme apresentado em mais detalhes em outro lugar na presente invenção. Múltiplas repetições de uma sequência-alvo podem estar presente em uma única molécula de ácido nucleico, como um concatamer criado com o uso de um procedimento de amplificação por círculo rolante.

[00569] Os clusters de ácidos nucleicos da invenção podem ter diferentes formatos, tamanhos e densidades dependendo das condições usadas. Por exemplo, os clusters podem ter um formato que é substancialmente redondo, multifacetado, formato de rosca ou formato de anel. O diâmetro de um cluster de ácido nucleico pode ser projetado para ser de cerca de 0,2 µm a cerca de 6 µm, cerca de 0,3 µm a cerca de 4 µm, cerca de 0,4 µm a cerca de 3 µm, cerca de 0,5 µm a cerca de 2 µm, cerca de 0,75 µm a cerca de 1,5 µm, ou qualquer diâmetro entre os mesmos. Em uma implementação específica, o diâmetro de um cluster de ácido nucleico é de cerca de 0,5 µm, cerca de 1 µm, cerca de 1,5 µm, cerca de 2 µm, cerca de 2,5 µm, cerca de 3 µm, cerca de 4 µm, cerca de 5 µm, ou cerca de 6 µm. O diâmetro de um cluster de ácido nucleico pode ser influenciado por uma série de parâmetros, incluindo, mas não se limitando a, o número de ciclos de amplificação executados na produção do cluster, o comprimento do modelo de ácido nucleico ou a densidade de iniciadores fixados à superfície sobre a qual os clusters são formados. A densidade dos clusters de ácido nucleico pode ser projetada para estar tipicamente na faixa de 0,1/mm2, 1/mm2, 10/mm2, 100/mm2, 1.000/mm2, 10.00/mm2 a 100.000/mm2. A presente invenção contempla ainda, em parte, clusters de ácido nucleico com densidades mais altas, por exemplo, 100.000/mm2 a 1.000.000/mm2 e

1.000.000/mm2 a 10.000.000/mm2.

[00570] Como usado aqui, um "analito" é uma área de interesse no interior de um espécime ou campo de visão. Quando usados em conexão com dispositivos de micromatriz ou outros dispositivos analíticos moleculares, um analito se refere à área ocupada por moléculas similares ou idênticas. Por exemplo, um analito pode ser um oligonucleotídeo amplificado ou qualquer outro grupo de um polinucleotídeo ou polipeptídeo com uma sequência igual ou similar. Em outras implementações, um analito pode ser qualquer elemento ou grupo de elementos que ocupam uma área física em um espécime. Por exemplo, um analito poderia ser uma parcela de terra, um corpo de água ou similares. Quando um analito é imageado,

cada analito terá alguma área. Dessa forma, em muitas implementações, um analito não é meramente um pixel.

[00571] As distâncias entre os analitos podem ser descritas em qualquer número de formas. Em algumas implementações, as distâncias entre os analitos podem ser descritas a partir do centro de um analito até o centro de outro analito. Em outras implementações, as distâncias podem ser descritas a partir da borda de um analito até a borda de um outro analito, ou entre os pontos externos mais identificáveis de cada analito. A borda de um analito pode ser descrita como um limite físico teórico ou real em um chip, ou algum ponto dentro do limite do analito. Em outras implementações, as distâncias podem ser descritas em relação a um ponto fixo no espécime ou na imagem do espécime.

[00572] Geralmente várias implementações serão aqui descritas aqui em relação a um método de análise. Será entendido que os sistemas também são fornecidos para executar os métodos em uma automatizada ou semi automatizada. Consequentemente, essa revelação fornece gerador de modelo baseado em rede neural e sistemas de chamada de base, sendo que os sistemas podem incluir um processador; um dispositivo de armazenamento; e um programa para análise de imagens, sendo que o programa inclui instruções para executar um ou mais dos métodos apresentados na presente invenção. Consequentemente, os métodos apresentados na presente invenção podem ser executados em um computador, por exemplo, tendo componentes apresentados no presente documento ou de outro modo conhecidos na técnica.

[00573] Os métodos e sistemas aqui apresentados são úteis para analisar qualquer objeto de uma variedade de objetos. Objetos particularmente úteis são suportes sólidos ou superfícies de fase sólida com analitos fixados. Os métodos e sistemas aqui apresentados fornecem vantagens quando usados com objetos que têm um padrão repetitivo de analitos em um plano xy. Um exemplo é uma micromatriz que tem um conjunto de células fixadas, vírus, ácidos nucleicos, proteínas, anticorpos, carboidratos, moléculas pequenas (como candidatos a fármaco), moléculas biologicamente ativas ou outros analitos de interesse.

[00574] Um número crescente de aplicações foram desenvolvidas para matrizes com analitos que têm moléculas biológicas como ácidos nucleicos e polipeptídeos. Tais micromatrizes tipicamente incluem sondas de ácido desoxirribonucleico (DNA) ou de ácido ribonucleico (RNA). Estas são específicas para sequências de nucleotídeos presentes em seres humanos e outros organismos. Em certas aplicações, por exemplo, as sondas de DNA ou RNA individuais podem ser fixadas a analitos individuais de uma matriz. Uma amostra de teste, como de uma pessoa ou organismo conhecido, pode ser exposta a uma matriz, de modo que ácidos nucleicos alvo (por exemplo, fragmentos de gene, mRNA, ou amplicons dos mesmos) hibridizam as sondas complementares nos respectivos analitos na matriz. As sondas podem ser marcadas em um processo específico alvo (por exemplo, devido a rótulos presente nos ácidos nucleicos alvo ou devido a rotulagem enzimática das sondas ou alvos que estão presentes em forma hibridizado nos analitos). A matriz pode então ser examinada por varredura de frequências específicas de luz ao longo dos analitos para identificar quais ácidos nucleicos alvo estão presentes na amostra.

[00575] Micromatrizes biológicas podem ser usadas para sequenciamento genético e aplicações similares. Em geral, o sequenciamento genético compreende determinar a ordem de nucleotídeos em um comprimento de ácido nucleico alvo, como um fragmento de DNA ou RNA. Sequências relativamente curtas são tipicamente sequenciadas em cada analito, e as informações de sequência resultantes podem ser usadas em vários métodos de bioinformática para logicamente ajustar os fragmentos de sequência juntos de modo a determinar de maneira confiável a sequência de muitos comprimentos extensivos de material genético a partir do qual os fragmentos foram derivados. Algoritmos automatizados baseados em computador para fragmentos característicos foram desenvolvidos, e foram usados mais recentemente em mapeamento de genoma, identificação de genes e sua função, e assim por diante. Os microarranjos são particularmente úteis para caracterizar conteúdo genômico porque um grande número de variantes estão presentes e isso suplanta a alternativa de realizar muitos experimentos em sondas e alvos individuais. A micromatriz é um formato ideal para realizar tais investigações de maneira prática.

[00576] Qualquer de uma variedade de matrizes de analito (também chamadas de "micromatrizes") conhecidas na técnica podem ser usadas em um método ou sistema apresentado na presente invenção. Uma matriz típica contém analitos, sendo que cada um tem uma sonda individual ou uma população de sondas. No último caso, a população de sondas em cada analito é tipicamente homogênea tendo uma única espécie de sonda. Por exemplo, no caso de uma matriz de ácido nucleico, cada analito pode ter múltiplas moléculas de ácido nucleico e cada uma tendo uma sequência comum. No entanto, em algumas implementações as populações em cada analito de uma matriz podem ser heterogêneas. De modo similar, matrizes de proteína podem ter analitos com uma única proteína ou uma população de proteínas tipicamente, mas nem sempre, tendo a mesma sequência de aminoácidos. As sondas podem ser fixadas à superfície de uma matriz, por exemplo, por meio de ligação covalente das sondas à superfície ou através de interações não covalentes das sondas com a superfície. Em algumas implementações, as sondas, como moléculas de ácido nucleico, podem ser fixadas a uma superfície por meio de uma camada de gel conforme descrito, por exemplo, no pedido de patente US n° de série 13/784.368 e na publicação de pedido de patente US n° 2011/0059865 A1, cada uma das quais está aqui incorporada por referência.

[00577] Matrizes exemplificadoras incluem, sem limitação, uma matriz BeadChip disponível junto à Illumina, Inc. (San Diego, Califórnia, EUA) ou outras como sondas fixadas a microesferas que estão presentes em uma superfície (por exemplo, micoresferas em poços em uma superfície) como as descritas nas patentes US n°s 6.266.459; 6.355.431;

6.770.441; 6.859.570; ou 7.622.294; publicação PCT n° WO 00/63437, cada uma das quais está aqui incorporada por referência. Exemplos adicionais de micromatrizes comercialmente disponíveis que podem ser usadas incluem, por exemplo, uma micromatriz Affymetrix® GeneChip® ou outra micromatriz sintetizada de acordo com técnicas algumas vezes conhecidas como tecnologias VLSIPS™ (Very Large Scale Immobilized Polymer Synthesis). Uma micromatriz "spotted" pode também ser usado em um método ou sistema de acordo com algumas implementações da presente revelação. Um exemplo de micromatriz "spotted" é uma matriz CodeLink™ disponível junto à Amersham Biosciences. Uma outra micromatriz que é útil é a micromatriz fabricada com o uso de métodos de impressão como impressão por jato de tinta SurePrint™ Technology disponível junto à Agilent Technologies.

[00578] Outras matrizes úteis incluem aqueles que são usadas em aplicações de sequenciamento de ácidos nucleicos. Por exemplo, matrizes tendo amplicons de fragmentos genômicos (frequentemente chamados de "clusters") são particularmente úteis como aqueles descritos em Bentley et al., 456:53-59 (2008), WO 04/018497; WO 91/06678; WO 07/123744; patentes US n°s 7.329.492; 7.211.414; 7.315.019; 7.405.281, ou 7.057.026; ou na publicação do pedido de patente US n° A1 2008/0108082 A1, cada uma das quais está aqui incorporada, a título de referência. Um outro tipo de matriz que é útil para sequenciamento de ácido nucleico é uma matriz de partículas produzidas a partir de uma técnica de emulsão por PCR. Exemplos são descritos em Dressman et al., Proc. Natl. Acad. Sci. USA 100:8817-8822 (2003), WO 05/010145, publicação do pedido de patente US n° 2005/0130173 ou publicação do pedido de patente US n° 2005/0064460, cada um dos quais está aqui incorporado a título de referência em sua totalidade.

[00579] As matrizes usadas para sequenciamento de ácido nucleico frequentemente têm padrões espaciais aleatórios de analitos de ácido nucleico. Por exemplo, as plataformas de sequenciamento HiSeq ou MiSeq disponíveis junto à Illumina Inc. (San Diego, Califórnia, EUA.) utilizam células de fluxo nas quais as matrizes de ácido nucleico são formadas por semeadura aleatória, seguida de amplificação por ponte. Entretanto, matrizes dotadas de um padrão também podem ser usadas para o sequenciamento de ácido nucleico ou outras aplicações analíticas. Exemplo matrizes dotadas de um padrão, métodos para a sua fabricação e métodos de uso são apresentados nas publicações de pedido de patente US n°s de série 3/787.396; 13/783.043; 13/784.368; nas publicações de pedidos de patente US n° 2013/0116153 A1; e na publicação de pedido de patente US n° 2012/0316086 A1, cada uma das quais está aqui incorporada por referência. Os analitos de tais matrizes dotadas de padrão podem ser usados para capturar uma única molécula de modelo de ácido nucleico para semear formação subsequente de uma colônia homogênea, por exemplo, através de amplificação por ponte. Tais matrizes padronizadas são particularmente úteis para aplicações de sequenciamento de ácido nucleico.

[00580] O tamanho de um analito em um arranjo (ou outro objeto usado em um método ou sistema da presente invenção) podem ser selecionados para se adequar a uma aplicação específica. Por exemplo, em algumas implementações, um analito de uma matriz pode ter um tamanho que acomoda apenas uma única molécula de ácido nucleico. Uma superfície que tem uma pluralidade de analitos nessa faixa de tamanho é útil para a construção de uma matriz de moléculas para detecção em resolução de molécula única. Os analitos nessa faixa de tamanho são também úteis para uso em matrizes tendo analitos que contêm, cada um, uma colônia de moléculas de ácido nucleico. Dessa forma, cada analito de uma matriz pode ter uma área que é maior que cerca de 1 mm2, não maior que cerca de 500 µm2, não maior que cerca de 100 µm2, não maior que cerca de 10 µm2, não maior que cerca de 1 µm2, não maior que cerca de 500 nm2, ou não maior que cerca de 100 nm2, não maior que cerca de 10 nm2, não maior que cerca de 5 nm2, ou não maior que cerca de 1 nm2. Alternativamente ou adicionalmente, os analitos de uma matriz não serão menores que cerca de 1 mm2, não serão menores que cerca de 500 µm2, não serão menores que cerca de 100 µm2, não serão menores que cerca de 10 µm2, não serão menores que cerca de 1 µm2, não serão menores que cerca de 500 nm2, não serão menores que cerca de 100 nm2, não serão menores que cerca de 10 nm2, não serão menores que cerca de 5 nm2, ou não serão menores que cerca de 1 nm2. De fato, um analito pode ter um tamanho que está em uma faixa entre um limite superior e um inferior selecionados dentre aqueles exemplificados acima. Embora várias faixas de tamanho para analitos de uma superfície tenham sido exemplificadas no que diz respeito aos ácidos nucleicos e na escala de ácidos nucleicos, será entendido que analitos nessas faixas de tamanho podem ser usados para aplicações que não incluem ácidos nucleicos. Será adicionalmente entendido que o tamanho dos analitos não precisa necessariamente ser confinado a uma escala usada para aplicações de ácido nucleico.

[00581] Para implementações que incluem um objeto que tem uma pluralidade de analitos, como uma matriz de analitos, os analitos podem ser distintos, sendo separados com espaços entre si. Uma matriz útil na invenção pode ter analitos que são separados por uma distância de borda a borda de no máximo 100 µm, 50 µm, 10 µm, 5 µm, 1 µm, 0,5 µm ou menos. Alternativamente ou adicionalmente, uma matriz pode ter analitos que são separados por uma distância de borda a borda de ao menos 0,5 µm, 1 µm, 5 µm, 10 µm, 50 µm, 100 µm, ou mais. Essas faixas podem se aplicar ao espaçamento médio de borda a borda para analitos bem como aos espaçamentos mínimo ou máximo.

[00582] Em algumas implementações os analitos de uma matriz não precisas ser distintos e em vez disso analitos vizinhos podem ser contíguos um ao outro. Se ou não a analitos são distintos, o tamanho dos analitos e/ou o passo dos analitos podem variar de modo que as matrizes podem ter uma densidade desejada. Por exemplo, o passo médio do analito em um padrão regular pode ser no máximo 100 µm, 50 µm, 10 µm, 5 µm, 1 µm, 0,5 µm ou menos. Alternativa ou adicionalmente, o passo médio do analito em um padrão regular pode ser de ao menos 0,5 µm, 1 µm, 5 µm, 10 µm, 50 µm, 100 µm ou mais. Essas faixas podem se aplicar também ao passo máximo ou mínimo para um padrão regular. Por exemplo, o passo máximo de analito para um padrão regular pode ser de no máximo 100 µm, 50 µm, 10 µm, 5 µm, 1 µm, 0,5 µm, ou menos; e/ou o passo mínimo de analito em um padrão regular pode ser de ao menos 0,5 µm, 1 µm, 5 µm, 10 µm, 50 µm, 100 µm, ou mais.

[00583] A densidade de analitos em uma matriz também pode ser entendida em termos do número de analitos presentes por unidade de área. Por exemplo, a densidade média de analitos para uma matriz pode ser ao menos cerca de 1x103 analitos/mm2, 1x104 analitos/mm2, 1x105 analitos/mm2, 1x106 analitos/mm2, 1x107 analitos/mm2, 1x108 analitos/mm2, ou 1x109 analitos/mm2, ou mais alta. Alternativamente ou adicionalmente, a densidade média de analitos para uma matriz pode ser ao menos cerca de 1x109 analitos/mm2, 1x108 analitos/mm2, 1x107 analitos/mm2, 1x106 analitos/mm2, 1x105 analitos/mm2, 1x104 analitos/mm2, ou 1x103 analitos/mm2, ou menos.

[00584] As faixas acima podem se aplicar a todo ou parte de um padrão regular incluindo, por exemplo, a totalidade ou parte de uma matriz de analitos.

[00585] Os analitos em um padrão podem ter qualquer um dentre uma variedade de formatos. Por exemplo, quando observada em um plano bidimensional, como sobre a superfície de uma matriz, os analitos podem parecer arredondados, circulares, ovais, retangulares, quadrados, simétricos, assimétricos, triangulares, poligonais, ou similares. Os analitos podem ser dispostos em um padrão de repetição regular incluindo, por exemplo, um padrão hexagonal ou retilíneo. Um padrão pode ser selecionado para alcançar um nível desejado de empacotamento. Por exemplo, os analitos redondos são otimamente empacotados em uma disposição hexagonal. É claro que outras disposições de empacotamento podem ser usadas para analitos redondos e vice-versa.

[00586] Um padrão pode ser caracterizado em termos de número de analitos que estão presentes em um subconjunto que forma a menor unidade geométrica do padrão. O subconjunto pode incluir, por exemplo, ao menos cerca de 2, 3, 4, 5, 6, 10 ou mais analitos. Dependendo do tamanho e densidade dos analitos a unidade geométrica pode ocupar uma área menor que 1 mm 2, 500 µm2, 100 µm2, 50 µm2, 10 µm2, 1 µm2, 500 nm2, 100 nm2, 50 nm2, 10 nm2, ou menos. Alternativamente ou adicionalmente, a unidade geométrica pode ocupar uma área de maior que 10 nm 2, 50 nm2, 100 nm2, 500 nm2, 1 µm2, 10 µm2, 50 µm2, 100 µm2, 500 µm2, 1 mm2, ou mais. As características dos analitos em uma unidade geométrica, como formato, tamanho, passo e similares, podem ser selecionadas a partir daquelas aqui apresentadas de uma forma mais geral no que diz respeito aos analitos em uma matriz ou um padrão.

[00587] Uma matriz que tem um padrão regular de analitos pode ser ordenada em relação às localizações relativas dos analitos, mas aleatória em relação a uma ou mais de outras características de cada analito. Por exemplo, no caso de uma matriz de ácido nucleico, os analitos de ácido nucleico podem ser ordenados com relação a sua localização relativa, mas aleatórios com relação ao conhecimento da sequência para a espécie de ácido nucleico presentes em qualquer analito específico. Como um exemplo mais específico, matrizes de ácido nucleico formadas por semeadura um padrão repetitivo de analitos com ácidos nucleicos de modelo e amplificação do modelo em cada analito para formar cópias do modelo no analito (por exemplo, por meio de amplificação de cluster ou amplificação em ponte) terá um padrão regular de analitos de ácido nucleico, mas será aleatória no que diz respeito à distribuição de sequências de ácidos nucleicos através da matriz. Dessa forma, a detecção da presença de material de ácido nucleico, em geral, na matriz pode produzir um padrão repetitivo de analitos, enquanto a detecção específica de sequência pode produzir distribuição não repetitiva de sinais através da matriz.

[00588] Será entendido que a descrição aqui feita de padrões, ordem, aleatoriedade e similares se referem não apenas a analitos em objetos, como analitos em matrizes, mas também aos analitos em imagens. Como tal, padrões, ordem, aleatoriedade e similares podem estar presentes em qualquer de uma variedade de formatos que são usados para armazenar, manipular ou comunicar dados da imagem incluindo, mas não se limitando a, uma mídia legível por computador ou um componente de computador como uma interface gráfica de usuário ou outro dispositivo de saída.

[00589] Como usado na pressente invenção, o termo "imagem" se destina a significar uma representação de todo ou parte de um objeto. A representação pode ser uma reprodução opticamente detectada. Por exemplo, uma imagem pode ser obtida a partir de sinais fluorescentes, luminescentes, de dispersão ou de absorção. A parte do objeto que está presente em uma imagem pode ser a superfície ou outro plano xy do objeto. Tipicamente, uma imagem é uma representação de 2 dimensões, mas em alguns casos as informações na imagem podem ser de 3 ou mais dimensões. Uma imagem não precisa incluir sinais opticamente detectados. Em vez disso, sinais não ópticos podem estar presentes. Uma imagem pode ser fornecida em um formato legível por computador ou mídia de armazenamento em um ou mais dentre aqueles apresentados no presente documento.

[00590] Como usado na pressente invenção, "imagem" se refere a uma reprodução ou representação de ao menos uma porção de um espécime ou outro objeto. Em algumas implementações, a reprodução é uma reprodução óptico, por exemplo, produzida por uma câmera ou outro detector óptico. A reprodução pode ser uma reprodução não óptica, por exemplo, uma representação de sinais elétricos obtidos a partir de uma matriz de analitos de nanoporo ou uma representação de sinais elétricos obtidos de um detector CMOS sensível a íons. Em implementações específicas, reproduções não ópticas podem ser excluídas de um método ou aparelho aqui apresentado. Uma imagem pode ter uma resolução capaz de distinguir analitos de um espécime que estão presentes em qualquer dentre uma variedade de espaçamentos incluindo, por exemplo, aqueles que são separados por menos que 100 µm, 50 µm, 10 µm, 5 µm, 1 µm ou 0,5 µm.

[00591] Como usado na pressente invenção, "capturar", "captura", "adquirir" e termos similares se referem a qualquer parte do processo de obtenção de um arquivo de imagem. Em algumas implementações, a captura de dados pode incluir gerar uma imagem de um espécime, procurar um sinal em um espécime, instruir um dispositivo de detecção para procurar ou gerar uma imagem de um sinal, dar instruções para adicional análise ou transformação de um arquivo de imagem, e qualquer número de transformações ou manipulações de um arquivo de imagem.

[00592] Como usado na pressente invenção, o termo "modelo" se refere a uma representação da localização ou da relação entre sinais ou analitos. Dessa forma, em algumas implementações, um modelo é uma rede física com uma representação de sinais que correspondem aos analitos em um espécime. Em algumas implementações, um modelo pode ser um gráfico, tabela, arquivo de texto ou outro tipo de arquivo de computador indicativo dos locais correspondentes a analitos. Em implementações apresentadas na presente invenção, um modelo é gerado para rastrear a localização de analitos de um espécime através de um conjunto de imagens da espécime capturadas em diferentes pontos de referência. Por exemplo, um modelo poderia ser um conjunto de coordenadas x,y ou um conjunto de valores que descrevem a direção e/ou a distância de um analito em relação a outro analito.

[00593] Como usado aqui, o termo "espécime" pode se referir a um objeto ou área de um objeto do qual uma imagem é capturada. Por exemplo, em algumas implementações onde imagens são adquiridas da superfície da terra, uma parcela de terra pode ser um espécime. Em outras implementações onde a análise de moléculas biológicas é realizada em uma célula de fluxo, a célula de fluxo pode ser dividida em qualquer quantidade de subdivisões, cada uma dos quais pode ser um espécime. Por exemplo, uma célula de fluxo pode ser dividida em vários canais de fluxo ou canaleta ("lanes") e cada canaleta pode ser dividida adicionalmente em 2, 3, 4, 5, 6, 7, 8, 9, 10, 20, 30, 40, 50, 60 70, 80, 90, 100, 110, 120, 140, 160, 180, 200, 400, 600, 800, 1000 ou mais regiões separadas que são imageadas. Um exemplo de uma célula de fluxo tem 8 canaletas, com cada canaleta dividido em 120 espécimes ou campos. Em uma outra implementação, um espécime pode ser composto de uma pluralidade de campos ou mesmo toda uma célula de fluxo. Dessa forma, a imagem de cada espécime pode representar uma região de uma superfície maior que é imageada.

[00594] Será entendido que as referências a faixas e listas sequenciais de números aqui descritos incluem não apenas o número mencionado, mas todos os números reais entre os números enumerados.

[00595] Como usado aqui, um "ponto de referência" se refere a qualquer distinção temporal ou física entre as imagens. Em uma implementação preferencial, um ponto de referência é um ponto no tempo. Em uma implementação mais preferencial, um ponto de referência é um ponto no tempo ou ciclo durante uma reação de sequenciamento. Entretanto, o termo "ponto de referência" pode incluir outros aspectos que distinguem ou separam imagens, como aspectos de angulares, rotacionais, temporais outros aspectos que podem distinguir ou separar imagens.

[00596] Como usado aqui, um "subconjunto de imagens" se refere a um grupo de imagens dentro de um conjunto. Por exemplo, um subconjunto pode conter 1, 2, 3, 4, 6, 8, 10, 12, 14, 16, 18, 20, 30, 40, 50, 60 ou qualquer número de imagens selecionadas a partir de um conjunto de imagens. Em implementações específicas, um subconjunto pode conter não mais que 1, 2, 3, 4, 6, 8, 10, 12, 14, 16, 18, 20, 30, 40, 50, 60 ou qualquer número de imagens selecionadas a partir de um conjunto de imagens. Em uma implementação preferencial, as imagens são obtidas a partir de um ou mais ciclos de sequenciamento com quatro imagens correlacionadas para cada ciclo. Dessa forma, por exemplo, um subconjunto pode ser um grupo de 16 imagens obtidas através de quatro ciclos.

[00597] Uma base se refere a uma base de nucleotídeo ou nucleotídeo, A (adenina), C (citosina), T (timina), ou G (guanina). Este pedido usa "base(s)" e "nucleotídeo(s)" de forma intercambiável.

[00598] O termo "cromossomo" se refere ao transportador do gene portador da hereditariedade de uma célula viva, que é derivado de fitas de cromatina que compreendem DNA e componentes de proteína (especialmente histonas). O sistema convencional de numeração de cromossomos de genoma humano individual reconhecido internacionalmente é usado na presente invenção.

[00599] O termo "local" se refere a uma posição única (por exemplo, ID do cromossomo, posição e orientação no cromossomo) em um genoma de referência. Em algumas implementações, um local pode ser um resíduo, uma etiqueta de sequência, ou uma posição do segmento em uma sequência. O termo "locus" pode ser usado para se referir ao local específico de uma sequência de ácidos nucleicos ou ao polimorfismo em um cromossomo de referência.

[00600] O termo "amostra" na presente invenção se refere a uma amostra, tipicamente derivado de um fluido biológico, célula, tecido, órgão, ou organismo contendo um ácido nucleico ou uma mistura de ácidos nucleicos contendo ao menos uma sequência de ácidos nucleicos que é para ser sequenciada e/ou em fases. Tais amostras incluem, mas não se limitam a, fluido sputum/oral, fluido amniótico, sangue, uma fração de sangue, amostras de biópsia de agulha fina (por exemplo, biópsia cirúrgica, biópsia de agulha fina, etc.), urina, fluido peritoneal, fluido pleural, explante de tecido, cultura de órgãos e qualquer outra preparação de tecido ou célula, ou isolada da mesma. Embora a amostra seja geralmente obtida de um indivíduo humano (por exemplo, paciente), as amostras podem ser obtidas a partir de qualquer organismo que têm cromossomos, incluindo, mas não se limitando a cães, gatos, cavalos, cabras, ovelhas, gado, porcos, etc. A amostra pode ser usada diretamente como obtida a partir da fonte biológica ou após um tratamento prévio para modificar o caráter da amostra. Por exemplo, tal tratamento prévio pode incluir a preparação de plasma de sangue, diluição de fluidos viscosos e assim por diante. Os métodos de tratamento prévio podem também envolver, mas não se limitam a, filtração, precipitação, diluição, destilação, misturar, centrifugação, congelamento, liofilização, concentração, amplificação, fragmentação de ácido nucleico, inativação de componentes interferentes, a adição de reagentes, lise, entre outros.

[00601] O termo "sequência" inclui ou representa uma fita de nucleotídeos acoplados uns aos outros. Os nucleotídeos podem ser à base de DNA ou RNA. Deve ser entendido que uma sequência pode incluir múltiplas subsequências. Por exemplo, uma única sequência (por exemplo, de um amplicon de PCR) pode ter 350 nucleotídeos. A leitura da amostra pode incluir múltiplas subsequências dentro desses 350 nucleotídeos. Por exemplo, a leitura da amostra pode incluir primeira e segunda subsequências de flanqueamento tendo, por exemplo, 20 a 50 nucleotídeos. A primeira e a segunda subsequências de flanqueamento podem estar situadas em cada lado de um segmento repetitivo que tem uma subsequência correspondente (por exemplo, 40 a 100 nucleotídeos). Cada uma das subsequências de flanqueamento podem incluir (ou incluir porções de) uma subsequência de iniciador (por exemplo, 10 a 30 nucleotídeos). Para facilitar a leitura, o termo "subsequência" será chamado de "sequência", mas é entendido que duas sequências não são necessariamente separadas uma da outra em uma fita comum. Para diferenciar as várias sequências aqui descritas, as sequências podem receber diferentes rótulos (por exemplo, sequência-alvo, sequência iniciadora, sequência flanqueadora, sequência de referência e similares). Outros termos, como "alelo", podem receber rótulos diferentes para diferenciar entre objetos similares. A aplicação usa "leitura(s)" e "leitura(s) de sequência" de forma intercambiável.

[00602] O termo "sequenciamento de extremidade pareada" se refere a métodos de sequenciamento que sequenciam ambas as extremidades de um fragmento-alvo. O sequenciamento de extremidade pareada pode facilitar a detecção de rearranjos genômicos e segmentos repetitivos, bem como fusões de genes e transcritos inovadores. Metodologia para sequenciamento de extremidades pareadas são descritas na publicação WO07010252, no pedido PCT n° de série PCTGB2007/003798, e na publicação do pedido de patente US 2009/0088327, cada um dos quais está aqui incorporado a título de referência. Em um exemplo, uma série de operações podem ser realizadas da seguinte forma: (a) gerar clusters de ácidos nucleicos; (b) linearizar os ácidos nucleicos; (c) hibridizar um primeiro iniciador de sequenciamento e realizar ciclos repetidos de extensão, varredura e desbloqueamento, conforme apresentado acima; (d) "inverter" os ácidos nucleicos alvo na superfície de uma célula de fluxo mediante a síntese de uma cópia complementar; (e) linearizar a fita re-sintentizada; e (f) hibridizar um segundo iniciador de sequenciamento e efetuar ciclos repetidos de extensão, varredura e desbloqueamento, conforme apresentado acima. A operação de inversão pode ser executada por reagentes de liberação conforme apresentado acima para um único ciclo de amplificação em ponte.

[00603] O termo "genoma de referência" ou "sequência de referência" se refere a qualquer sequência de genoma específico conhecida, parcial ou completa, de qualquer organismo que pode ser usado para referência de sequências identificadas a partir de um indivíduo. Por exemplo, um genoma de referência usado para indivíduos humanos bem como muitos outros organismos é encontrado no National Center For Biotechnology Information em ncbi.nlm.nih.gov. Um "genoma" se refere às informações genéticas completas de um organismo ou vírus, expressas em sequências de ácidos nucleicos. Um genoma inclui ambos os genes e as sequências não codificantes do DNA. A sequência de referência pode ser maior que as leituras que são alinhadas para ele. Por exemplo, pode ser ao menos cerca de 100 vezes maior, ou ao menos cerca de 1000 vezes maior, ou a menos cerca de 10.000 vezes maior, ou ao menos cerca de 105 vezes maior, ou ao menos cerca de 106 vezes maior, ou ao menos cerca de 107 vezes maior. Em um exemplo, a sequência do genoma de referência é aquela de um genoma humano de comprimento total. Em um outro exemplo, a sequência de genoma de referência é limitada a um cromossomo humano específico como o cromossomo 13. Em algumas implementações, um cromossomo de referência é uma sequência de cromossomo de genoma humano versão hg19. Essas sequências podem ser chamadas de sequências de referência de cromossomo, embora o termo genoma de referência se destina a cobrir tais sequências. Outros exemplos de sequências de referência incluem genomas de outras espécies, bem como cromossomos, regiões subcromossômicas (como fitas), etc., de qualquer espécie. Em várias implementações, o genoma de referência é uma sequência de consenso ou outra combinação derivada de múltiplos indivíduos. Entretanto, em certas aplicações, a sequência de referência pode ser tomada a partir de um indivíduo específico. Em outras implementações, o "genoma" também abrange os chamados "genomas gráficos", que usam um formato específico de armazenamento e representação da sequência do genoma. Em uma implementação, os genomas gráficos armazenam dados em um arquivo linear. Em uma outra implementação, os genomas gráficos se referem a uma representação onde sequências alternativas (por exemplo, diferentes cópias de um cromossomo com pequenas diferenças) são armazenadas como trajetórias diferentes em um gráfico. Informações complementares sobre implementação de genoma gráfico podem ser encontradas em https://www.biorxiv.org/content/biorxiv/early/2018/03/20/194530.full.pdf, cujo conteúdo está aqui incorporado a título de referência em sua totalidade.

[00604] O termo "ler" se refere a uma coleção de dados de sequência que descreve um fragmento de uma amostra ou referência de nucleotídeo. O termo "ler" pode se referir a uma leitura de amostra e/ou a uma leitura de referência. Tipicamente, embora não necessariamente, uma leitura representa uma sequência curta de pares de bases contíguas na amostra ou referência. A leitura pode ser representada simbolicamente pela sequência de pares de base (em ATCG) do fragmento da amostra ou da referência. A mesma pode ser armazenada em um dispositivo de memória e processada conforme for adequado para determinar se a leitura corresponde a uma sequência de referência ou atende outros critérios. Uma leitura pode ser obtida diretamente a partir de um aparelho de sequenciamento ou indiretamente a partir de informações de sequência armazenadas referentes à amostra. Em alguns casos, uma leitura é uma sequência de DNA de comprimento suficiente (por exemplo, ao menos cerca de 25 pb) que pode ser usada para identificar uma sequência maior ou região, por exemplo, que pode ser alinhada e especificamente designada para um cromossomo ou região genômica ou gene.

[00605] Os métodos de sequenciamento de próxima geração incluem, por exemplo, sequenciamento por tecnologia de síntese (Illumina), pirosequenciamento (454), tecnologia de semicondutor íon (sequenciamento de Ion Torrent), sequenciamento de tempo real de molécula única (Pacific Biosciences) e sequenciamento por ligação (sequenciamento SOLiD). Dependendo dos métodos de sequenciamento], o comprimento de cada leitura pode estar na faixa de 30 pb ou mais que

10.000 pb. Por exemplo, o método de sequenciamento de DNA com o uso do sequenciador SOLiD gera leituras de ácido nucleico de cerca de 50 pb. Para um outro exemplo, o sequenciamento Ion Torrent gera leituras de ácido nucleico de até é 400 pb e pirossequenciamento 454 gera leituras de ácido nucleico de cerca de 700 pb. Em ainda um outro exemplo, métodos de sequenciamento de molécula única em tempo real podem gerar leitura de 10.000 pb a 15.000 pb. Portanto, em certas implementações, as leituras de sequência de ácidos nucleicos têm um comprimento de 30 a 100 pb, 50 a 200 pb, ou 50 a 400 pb.

[00606] Os termos "leitura de amostra", "sequência de amostra" ou "fragmento de amostra" se referem a dados de sequência para uma sequência genômica de interesse a partir de uma amostra. Por exemplo, a leitura da amostra compreende dados de sequência de um amplicon de PCR tendo uma sequência de iniciador para frente e reverso. A sequência de dados pode ser obtida a partir de qualquer metodologia selecionada de sequência. A leitura da amostra pode ser, por exemplo, a partir de uma reação de sequenciamento por síntese (SBS). uma reação de sequenciamento por ligação, ou qualquer outra metodologia adequada para sequenciamento para o qual se deseja determinar o comprimento e/ou identidade de um elemento repetitivo. A leitura da amostra pode ser uma sequência consenso (por exemplo, média ou ponderada) derivada de múltiplas leituras da amostra. Em certas implementações, fornecer uma sequência de referência compreende identificar um locus de interesse com base na sequência iniciadora do amplicon de PCR.

[00607] O termo "fragmento bruto" se refere a dados de sequência para uma porção de uma sequência genômica de interesse que ao menos parcialmente se sobrepõe a uma posição designada ou posição secundária de interesse dentro de uma leitura da amostra ou fragmento de amostra. Exemplos não limitadores de fragmentos brutos incluem um fragmento costurado duplex, um fragmento costurado simplex, um fragmento não costurado duplex e um fragmento não costurado simplex. O termo "bruto" é usado para indicar que o fragmento bruto inclui dados de sequência tendo alguma relação com os dados de sequência em uma leitura de amostra, independentemente de o fragmento bruto apresentar uma variante de suporte que corresponde a e autentica ou confirma uma variante potencial em uma leitura da amostra. O termo "fragmento bruto" não indica que o fragmento inclui necessariamente uma variante de suporte que valida uma chamada de variante em uma leitura da amostra. Por exemplo, quando uma leitura da amostra é determinada por uma aplicação de chamada de variante para exibir uma primeira variante, a aplicação de chamada de variante pode determinar que um ou mais fragmentos brutos não têm um tipo correspondente de variante de "suporte" que pode de outro modo ser esperado ocorrer dada a variante na leitura da amostra.

[00608] Os termos "mapeamento", "alinhado", "alinhamento" ou "que alinha" se referem ao processo de comparar uma leitura ou etiqueta a uma sequência de referência e desse modo determinar se a sequência de referência contém a sequência lida. Se a sequência de referência contiver a leitura, a leitura pode ser mapeada para a sequência de referência ou, em certas implementações, a um local específico na sequência de referência. Em alguns casos, o alinhamento simplesmente informa se ou não uma leitura é um membro de uma sequência de referência específica (isto é, se a leitura está presente ou ausente na sequência de referência). Por exemplo, o alinhamento de uma leitura para a sequência de referência para o cromossomo humano 13 dirá se a leitura está presente na sequência de referência para o cromossomo 13. Uma ferramenta que fornece essas informações pode ser chamada de testador de adesão definida. Em alguns casos, um alinhamento adicional indica um local na sequência de referência ao qual a leitura ou etiqueta se mapeia. Por exemplo, se a sequência de referência é toda a sequência de genoma humano, um alinhamento pode indicar que uma leitura está presente no cromossomo 13, e pode adicionalmente indicar que a leitura está em uma fita e/ou local específico do cromossomo 13.

[00609] O termo "indel" se referee à inserção e/ou à deleção de bases no DNA de um organismo. Um micro-indel representa um indel que resulta em uma alteração líquida de 1 a 50 nucleotídeos. Nas regiões codificadoras do genoma, a menos que o comprimento de um indel seja múltiplo de 3, ele produzirá uma mutação "frameshift" (mutação por deslocamento da matriz de leitura). Indels podem ser contrastados com mutações pontuais. Um indel insere e deleta nucleotídeos a partir de uma sequência, enquanto uma mutação pontual é uma forma de substituição que substitui um dos nucleotídeos sem alterar o número total no DNA. Os indels também podem ser contrastados com uma mutação de base em série (TBM), que pode ser definida como substituição em nucleotídeos adjacentes (principalmente substituições em dois nucleotídeos adjacentes, mas substituições em três nucleotídeos adjacentes têm sido observadas.

[00610] O termo "variante" se refere a uma sequência de ácidos nucleicos que é diferente de uma referência de ácidos nucleicos. Uma variante típica de sequência de ácidos nucleicos inclui sem limitação polimorfismo de nucleotídeo único (SNP), polimorfismo de deleção e inserção curtas (Indel), variação do número de cópias (CNV), marcadores de microssatélites ou repetições curtas em tandem e variação estrutural. Chamada de variantes somáticas é o esforço para identificar variantes presentes em uma baixa frequência na amostra de DNA. A chamada de variantes somáticas é de interesse no contexto de tratamento de câncer. O câncer é causado por uma acumulação de mutações no DBA. Uma amostra de DNA de um tumor é geralmente heterogênea, incluindo algumas células normais, algumas células em um estágio inicial da progressão do câncer (com menos mutações), e algumas células de estágio tardio (com mais mutações). Devido a esta heterogeneidade, quando um tumor é sequenciado (por exemplo, a partir de uma amostra FFPE), mutações somáticas irão aparecer em uma frequência baixa. Por exemplo, um SNV poderia ser visto em apenas 10% das leituras que cobrem uma determinada base. Uma variante que é para ser classificada como somática ou linhagem germinativa pelo classificador de variante é também na presente invenção de o "teste sob variante".

[00611] O termo "ruído" se refere a uma chamada errônea da variante que resulta de um ou mais erros no processo de sequenciamento e/ou na aplicação da chamada da variante.

[00612] O termo "frequência variante" representa a frequência relativa de um alelo (variante de um gene) em um locus específico em uma população, expressa como uma fração ou porcentagem. Por exemplo, a fração ou porcentagem pode ser a fração de todos os cromossomos na população que carrega aquele alelo. A título de exemplo, e frequência da amostra variante representa a frequência relativa de um alelo/variante em um locus /posição específica ao longo de uma sequência genômica de interesse em relação a uma "população" correspondente ao número de leituras e/ou amostras obtidas para a sequência genômica de interesse de um indivíduo. Como outro exemplo, uma frequência de variante de linha de base representa a frequência relativa de um alelo/variante em um locus/posição específica ao longo de uma ou mais sequências genômicas de linha de base onde a "população" corresponde ao número de leituras e/ou amostras obtidas para a uma ou mais sequências genômicas de linha de base a partir de uma população de indivíduos normais.

[00613] O termo "frequência variante de alelo (VAF)" se refere à porcentagem de leituras sequenciadas observadas que correspondem à variante dividida pela cobertura total na posição-alvo. VAF é uma medida da proporção de leituras sequenciadas transportando a variante.

[00614] Os termos "posição", "posição designada" e "locus" se referem a um local ou coordenada de um ou mais nucleotídeos dentro de uma sequência de nucleotídeos. Os termos "posição", "posição designada" e "locus" também se referem a uma local ou coordenada de um ou mais pares de base em uma sequência de nucleotídeos.

[00615] O termo "haplótipo" se refere a uma combinação de alelos em locais adjacentes em um cromossomo que são herdados juntos. Um haplótipo pode ser um locus, vários loci, ou um cromossomo inteiro dependendo do número de eventos de recombinação que ocorreram entre um dado conjunto de loci, se algum ocorreu.

[00616] O termo "limite" na presente invenção se refere a um valor numérico ou não numérico que é usado como um corte para caracterizar uma amostra, um ácido nucleico ou porção do mesmo (por exemplo, uma leitura). Um limite pode ser variado com base na análise empírica. O limite pode ser comparado a um valor medido ou calculado para determinar se a fonte que dá origem a tal valor sugere deve ser classificada de uma maneira específica. Os valores-limite podem ser identificados empiricamente ou analiticamente. A escolha de um limite é dependente do nível de confiança que o usuário deseja ter que fazer a classificação. O limite pode ser escolhido para um propósito específico (por exemplo, para equilibrar a sensibilidade e a seletividade). Como usado na presente invenção, o termo "limite" indica um ponto no qual um curso de análise pode ser alterado e/ou um ponto no qual uma ação pode ser acionada. Um limite não é precisa ser um número predeterminado. Em vez disso, o limite pode ser, por exemplo, uma função que tem por base uma pluralidade de fatores. O limite pode ser adaptativo às circunstâncias. Além disso, um limite pode indicar um limite superior, um limite inferior ou uma faixa entre limites.

[00617] Em algumas implementações, uma métrica ou escore que é baseada em dados de sequenciamento pode ser comparada com o limite. Como usado na pressente invenção, os termos "métrica" ou "escore" podem incluir valores ou resultados que foram determinados a partir dos dados de sequenciamento ou podem incluir funções que têm por base os valores ou resultados que foram determinados a partir dos dados de sequenciamento. Como um limite, a métrica ou escore pode ser adaptativa às circunstâncias. Por exemplo, a métrica ou escore pode ser um valor normalizado. Como um exemplo de um escore ou métrica, uma ou mais implementações podem usar contagem de escores quando os dados são analisados. Um escore de contagem pode ser com base no número de leituras da amostra. As leituras das amostras podem ter sido submetidas a um ou mais estágios de filtração de modo que as leituras da amostra têm ao menos uma característica ou qualidade comum. Por exemplo, cada uma das leituras da amostra que são usados para determinar um escore de contagem pode ter sido alinhada com uma sequência de referência ou pode ser atribuída como um alelo potencial. O número de leituras da amostra que têm uma característica comum pode ser contado para determinar uma contagem de leituras. Os escores de contagem podem ser baseados em contagem de leitura. Em algumas implementações, o escore de contagem pode ser um valor que é igual à contagem de leituras. Em outras implementações, o escore de contagem pode ser com base na contagem de leituras e outras informações. Por exemplo, um escore de contagem pode ser com base na contagem de leituras para um determinado alelo de um locus genético e um número total de leituras para o locus genético. Em algumas implementações, o escore de contagem pode ser com base na contagem de leituras e dados anteriormente obtidos para o locus genético. Em algumas implementações, os escores de contagem podem ser escores normalizados entre valores predeterminados. O escore de contagem também pode ser uma função das contagens de leitura de outros loci de uma amostra ou uma função de contagens de leitura de outras amostras que foram simultaneamente executadas com a amostra de interesse. Por exemplo, o escores de contagem pode ser uma função da contagem de leituras de um alelo específico e das contagens de leitura de outros loci na amostra e/ou das contagens de leitura de outras amostras. Como um exemplo, as contagens de leitura de outros loci e/ou as contagens de leitura de outras amostras podem ser usadas para normalizar o escore de contagem para o alelo específico.

[00618] Os termos "cobertura" ou "cobertura de fragmento" se referem a uma contagem ou outra medida de um número de leituras da amostra para o mesmo fragmento de uma sequência. Uma contagem de leituras pode representar uma contagem do número de leituras que cobrem um fragmento correspondente. Alternativamente, a cobertura pode ser determinada multiplicando-se a contagem de leituras por um fator designado que é baseado em conhecimento histórico, conhecimento da amostra, conhecimento do locus, entre outros.

[00619] O termo "profundidade de leitura" (convencionalmente um número seguido por "×") se refere ao número de leituras sequenciadas com alinhamento de sobreposição na posição-alvo. Isso é muitas vezes expresso como uma média ou percentagem que excede um valor de corte acima de um conjunto de intervalos (como éxons, genes, ou painéis). Por exemplo, um laudo clínico poderia dizer que uma média de cobertura de painel é 1,105× com 98% de bases alvejadas cobertas >100×.

[00620] Os termos "escore de qualidade de chamada de base" ou "escore Q" se referem a uma probabilidade na escala PHRED na faixa de 0 a 50 inversamente proporcional à probabilidade de que uma única base sequenciada está correta. Por exemplo, uma chamada de base T com Q de 20 é considerada provavelmente corrigida com uma probabilidade de 99,99%. Qualquer chamada de base com Q<20 deve ser considerada de baixa qualidade, e qualquer variante identificada onde uma proporção substancial de leituras sequenciadas que suportam a variante são de baixa qualidade deve ser considerada potencialmente falso positivo.

[00621] Os termos "leituras da variante" ou "número de leituras da variante" se referem ao número de leituras que suportam a presença da variante.

[00622] Em relação à "composição das fitas" (ou composição das fitas de DNA), a mensagem genética no DNA pode ser representada como uma string de letras A, G, C, e T. Por exemplo, 5’ – AGGACA – 3’. '. Muitas vezes, a sequência é escrita na direção mostrada aqui, isto é, com a extremidade 5' à esquerda e a extremidade 3’ à direita. O DNA pode, às vezes, ocorrer como uma molécula de fita simples (como em certos vírus), mas normalmente encontramos DNA como uma unidade de fita dupla. O DNA tem uma estrutura helicoidal dupla com duas fitas antiparalelas. Neste caso, a palavra "antiparalela" significa que as duas fitas correm em paralelo, mas têm polaridade oposta. O DNA de fita dupla é mantido junto pelo emparelhamento entre as bases e o emparelhamento é sempre tal que adenina (A) é pareada com timina (T) e citosina (C) é pareada com guanina (G). Esse pareamento é chamado de complementaridade, e uma fita de

DNA é dita ser o complemento da outra. O DNA de fita dupla pode, dessa forma, ser representado como duas strings, como esta: 5’ – AGGACA – 3’ e 3’ – TCCTGT – 5’. Note que as duas fitas têm polaridade oposta. Consequentemente, a composição das fitas das duas fitas de DNA pode ser chamada de a fita de referência e seu complemento, fitas forward e reversa, fitas de topo e fundo, fitas senso e antissenso, ou fitas Watson e Crick.

[00623] O alinhamento das leituras (também chamado de mapeamento de leituras) é o processo de descobrir de onde uma sequência é no genoma. Após o alinhamento ser realizado, a "qualidade de mapeamento" ou o "escore da qualidade do mapeamento (MAPQ)" de uma determinada leitura quantifica a probabilidade de sua posição no genoma estar correta. A qualidade do mapeamento é codificada na escala Phred em que P é a probabilidade de o alinhamento não estar correto. A probabilidade é calculada como: P = 10(-MAQ/10), em que MAPQ é a qualidade do mapeamento. Por exemplo, uma qualidade de mapeamento de 40 = 10 na potência de -4, significa que há uma chance de 0,01% de que a leitura foi alinhada de forma incorreta. A qualidade do mapeamento é, portanto, associada a vários fatores de alinhamento, como a qualidade de base da leitura, a complexidade do genoma de referência, e as informações das extremidades pareadas. Quanto ao primeiro, se a qualidade de base da leitura for baixo, isso significa que a sequência observada pode estar errada e dessa forma seu alinhamento está errado. Relativamente ao segundo, a mapeabilidade se refere à complexidade do genoma. As regiões repetidas são mais difíceis de mapear e as leituras nessas regiões normalmente são de baixa qualidade de mapeamento. Neste contexto, o MAPQ reflete o fato de que as leituras não são exclusivamente alinhadas e que sua origem real não pode ser determinada. Relativamente ao terceiro, no caso de dados de sequenciamento de extremidades pareadas, pares concordantes são mais propensos a serem bem alinhados. Quanto maior for a qualidade do mapeamento, melhor será o alinhamento. Uma leitura alinhada com uma boa qualidade de mapeamento geralmente significa que a sequência das leituras era bom e foi alinhada com poucos desemparelhamentos em uma região de alta capacidade de mapeamento. O valor MAPQ pode ser usada como um controle de qualidade dos resultados de alinhamento. A proporção de leituras alinhadas com uma MAPQ maior que 20 é geralmente para análise a jusante.

[00624] Como usado aqui, um "sinal" se refere a um evento detectável como uma emissão, de preferência emissão de luz, por exemplo, em uma imagem. Dessa forma, em implementações preferenciais, um sinal pode representar qualquer emissão de luz detectável que é capturada em uma imagem (isto é, um "ponto"). Dessa forma, como usado na presente invenção, "sinal" pode se referir tanto a uma emissão real de um analito do espécime, e pode se referir a uma emissão espúria que não se correlaciona com um analito real. Dessa forma, um sinal poderia surgir de ruído e poderia ser depois descartado como não representativo de um analito real de um espécime.

[00625] Como usado na presente invenção, o termo "aglomerado" se refere a um grupo de sinais. Em implementações particulares, os Sinais são derivadas de diferentes analitos. Em uma implementação preferencial, um aglomerado de sinais é um grupo de sinais que se aglomeram (como "cluster) juntos. Em uma implementação mais preferencial, um aglomerado de sinais representa uma região física abrangida por um oligonucleotídeo amplificado. Cada aglomerado de sinais deve ser idealmente observado como vários sinais (um por ciclo de modelo, e possivelmente mais devido à interferência). Consequentemente, sinais duplicados são detectados onde dois (ou mais) sinais são incluídos em um modelo a partir do mesmo aglomerado de sinais.

[00626] Como usado na pressente invenção, termos como "mínimo", "máximo", "minimizar" e "maximizar" e variações gramaticais dos mesmos podem incluir valores que não são os máximos ou mínimos absolutos. Em algumas implementações, os valores incluem valores próximos do máximo e valores próximos do mínimo. Em outras implementações, os valores podem incluir valores máximos locais e/ou valores mínimos locais. Em algumas implementações, os valores incluem apenas valores máximos ou mínimos absolutos.

[00627] Como usado na pressente invenção, "interferência" se refere à detecção de sinais em uma imagem que também são detectados em uma imagem separada. Em uma implementação preferencial, a interferência pode ocorrer quando um sinal emitido é detectado em dois canais de detecção. Por exemplo, onde um sinal emitido ocorre em uma cor, o espectro de emissão desse sinal pode se sobrepor com um outro sinal emitido em uma outra cor. Em uma implementação preferencial, moléculas fluorescentes usadas para indicar a presença de bases de nucleotídeo A, C, G e T são detectadas em canais separados. No entanto, porque os espectros de emissão de A e C se sobrepõem, alguns dos sinais de cor de C podem ser detectados durante a detecção com o uso do canal de cor de A. Consequentemente, a interferência entre os sinais de A e C permite que sinais de uma imagem de cor apareçam na imagem da outra cor. Em algumas implementações, é a interferência de G e T. Em algumas implementações, a quantidade de interferência entre canais é assimétrica. Será entendido que a quantidade de interferência entre canais pode ser controlada por, entre outras coisas, a seleção de moléculas de sinal tendo um espectro de emissão adequado bem como a seleção do tamanho e faixa de comprimento de onda do canal de detecção.

[00628] Como usado na pressente invenção, "registo". "registrar", e termos similares se referem a qualquer processo para correlacionar os sinais em uma imagem ou conjunto de dados a partir de um primeiro ponto de tempo ou perspectiva com sinais em uma imagem ou conjunto de dados a partir de um outro ponto de tempo ou perspectiva. Por exemplo, o registro pode ser usado para alinhar os sinais a partir de um conjunto de imagens para formar um modelo. Em outro exemplo, o registro pode ser usado para alinhar os sinais de outros imagens a um modelo. Um sinal pode ser registrado direta ou indiretamente a um outro sinal. Por exemplo, um sinal de imagem "S" pode ser registrado para a imagem "G" diretamente. Como um outro exemplo, um sinal de imagem "N" pode ser diretamente registrado para a imagem "G", ou alternativamente, o sinal da imagem "N" pode ser registrado para a imagem "S", que foi anteriormente registrado para a imagem "G". Dessa forma, o sinal de imagem "N" é indiretamente registado para a imagem "G".

[00629] Como usado na pressente invenção, o termo "fiducial" se destina a significar um ponto de referência distinguível em ou sobre um objeto. O ponto de referência pode ser, por exemplo, uma marca, segundo objeto, formato, borda, área, irregularidade, canal, poço, pós ou similares. O ponto de referência pode estar presente em uma imagem do objeto ou em um outro conjunto de dados derivados da detecção do objeto. O ponto de referência pode ser especificado por uma coordenada x e/ou y em um plano do objeto. Alternativamente ou adicionalmente, o ponto de referência pode ser especificado por uma coordenada z que é ortogonal ao plano xy, por exemplo, sendo definido pelas localizações relativas do objeto e de um detector. Uma ou mais coordenadas para um ponto de referência podem ser especificadas em relação a um ou mais outros analitos de um objeto ou de uma imagem ou outro conjunto de dados derivados do objeto.

[00630] Como usado na pressente invenção, o termo "sinal óptico" se destina a incluir, por exemplo, sinais fluorescentes, luminescentes, de dispersão ou de absorção. Os sinais ópticos podem ser detectados na faixa do ultravioleta (UV) (cerca de 200 a 390 nm) na faixa visível (VIS) (cerca de 391 a 770 nm), na faixa do infravermelho (IR) (cerca de 0,771 a 25 mícrons), ou outra faixa do espectro eletromagnético. Os sinais ópticos pode, ser detectados de uma forma que exclui toda ou parte de uma ou mais dessas faixas.

[00631] Como usado na pressente invenção, o termo "nível de sinal" se destina a significar uma quantidade ou quantidade de energia detectada ou informações codificadas que tem uma característica desejada ou predefinida. Por exemplo, um sinal óptico pode ser quantificado por um ou mais dentre intensidade, comprimento de onda, energia, frequência, potência, luminância ou similares. Outros sinais podem ser quantificados de acordo com características como tensão, corrente, resistência do campo elétrico, intensidade do campo magnético, frequência, energia, temperatura, etc. Ausência de sinal é entendido como sendo um nível de sinal zero ou um nível de sinal que não é significativamente distinguido do barulho.

[00632] Como usado na pressente invenção, o termo "simular" se destina a significar criar uma representação ou modelo de uma coisa ou ação física que prevê características da coisa ou ação. A representação ou modelo pode em muitos casos ser distinguível da coisa ou ação. Por exemplo, a representação ou modelo pode ser distinguível de uma coisa com respeito a uma ou mais características como cor, intensidade de sinais detectados a partir de toda ou parte da coisa, tamanho, ou formato. Em implementações particulares, a representação ou modelo pode ser idealizada, exagerada, silenciada, ou incompleta quando comparada com a coisa ou ação. Dessa forma, em algumas implementações, uma representação do modelo pode ser distinguível da coisa ou ação que a representa, por exemplo, em relação a ao menos uma das características apresentadas acima. A representação ou modelo pode ser fornecido em um formato ou mídia legível por computador como um ou mais dos apresentados no presente documento.

[00633] Como usado na pressente invenção, o termo "sinal específico" se destina a significar energia detectada ou informações codificadas que são seletivamente observadas em relação a outras energias ou informações como energia de fundo ou informações. Por exemplo, um sinal específico pode ser um sinal óptico detectado em uma intensidade, comprimento de onda ou cor específicos; um sinal elétrico detectado em uma frequência, potência ou intensidade de campo específicos; ou outros sinais conhecidos na técnica relacionados à espectroscopia e detecção analítica.

[00634] Como usado na pressente invenção, o termo "faixa" se destina a significar uma porção retangular de um objeto. A faixa pode ser uma tira alongada que é escaneada por movimento relativo entre o objeto e um detector em uma direção que é paralela à dimensão mais longa da tira. Em geral, a largura da porção retangular ou tira será constante ao longo de seu comprimento total. Múltiplos faixas de um objeto podem ser paralelas umas às outras. Múltiplas faixas de um objeto podem ser adjacentes umas às outras, sobrepostas umas com as outras, em contiguidade entre si, ou separadas umas das outras por uma área intersticial.

[00635] Como usado na pressente invenção, o termo "variância" se destina a significar uma diferença entre o que é esperado e o que é observado ou uma diferença entre duas ou mais observações. Por exemplo, a variância pode ser a discrepância entre um valor esperado e um valor medido. A variância pode ser representada com o uso de funções estatísticas como desvio padrão, o quadrado do desvio padrão, coeficiente de variação ou similares.

[00636] Como usado na pressente invenção, o termo "coordenadas xy" se destina a significar informações que especificam localização, tamanho, formato, e/ou orientação em um plano xy. As informações podem ser, por exemplo, coordenadas numéricas em um sistema cartesiano. As coordenadas podem ser fornecidas em relação a um ou ambos os eixos x e y ou podem ser fornecidas em relação a um outro local no plano xy. Por exemplo, as coordenadas de um analito de um objeto podem especificar o local do analito em relação ao local de uma fiducial ou outro analito do objeto.

[00637] Como usado na pressente invenção, o termo "plano xy" se destina a significar uma área bidimensional definida pelos eixos de linha reta x e y. Quando usada em referência a um detector e a um objeto observado pelo detector, a área pode ser ainda especificada como sendo ortogonal à direção de observação entre o detector e o objeto sendo detectado.

[00638] Como usado na pressente invenção, o termo "coordena z" se destina a significar informações que especificam a localização de um ponto, linha ou área ao longo de um dos eixos que é ortogonal a um plano xy. Em implementações específicas, o eixo z é ortogonal a uma área de um objeto que é observado por um detector. Por exemplo, a direção de foco para um sistema óptico pode ser especificada ao longo do eixo z.

[00639] Em algumas implementações, dados de sinal capturados são transformados com o uso de uma transformação afim. Em algumas dessas implementações, a geração do modelo usa o fato de que as transformações afim entre os canais coloridos são consistentes entre execuções. Devido a essa consistência, um conjunto de deslocamentos de padrão pode ser usado para determinar as coordenadas dos analitos em um espécime. Por exemplo, um arquivo padrão de deslocamentos pode conter a transformação relativa (deslocamento, escala, inclinação) para os diferentes canais em relação a um canal, como o canal A. Em outras implementações, entretanto, os deslocamentos entre canais de cor se deslocam durante uma operação e/ou entre as operações, tornando difícil a geração de modelo acionado por deslocamento. Em tais implementações, os métodos e sistemas aqui fornecidos podem usar geração de modelo menos compensada, que é descrita adicionalmente abaixo.

[00640] Em alguns aspectos das implementações acima, o sistema pode compreender uma célula de fluxo. Em alguns aspectos, a célula de fluxo compreende canaletas, ou outras configurações, de campos, sendo que ao menos alguns dos campos compreendem uma ou mais matrizes de analitos. Em alguns aspectos, os analitos compreendem uma pluralidade de moléculas como ácidos nucleicos. Em certos aspectos, a célula de fluxo é configurada para liberar um nucleotídeo marcado para uma base de conjunto de ácidos nucleicos, assim estender um Iniciador hibridizados para um ácido nucleico dentro de um analito de modo a produzir um sinal que corresponde a um analito que compreende o ácido nucleico. Em implementações preferenciais, os ácidos nucleicos dentro de um analito são idênticos ou substancialmente idênticos entre si.

[00641] Em alguns dos sistemas para a análise de imagens aqui descritas, cada imagem no conjunto de imagens inclui sinais de cor, sendo que uma cor diferente corresponde a uma base de nucleotídeos diferentes. Em alguns aspectos, cada imagem do conjunto de imagens compreende sinais que têm uma única cor selecionada dentre ao menos quatro cores diferentes. Em alguns aspectos, cada imagem no conjunto de imagens compreende sinais que têm uma única cor selecionada dentre quatro cores diferentes. Em alguns dos sistemas aqui descritos, ácidos nucleicos podem ser sequenciados pelo fornecimento de quatro diferentes bases de nucleotídeos marcados ao arranjo de moléculas de modo a produzir quatro imagens diferentes, cada imagem compreende sinais que têm uma única cor, sendo que a cor do sinal é diferente para cada uma das quatro imagens, produzindo assim um ciclo de quatro imagens coloridas que corresponde aos quatro nucleotídeos possíveis presentes em uma posição específica no ácido nucleico. Em determinados aspectos, o sistema compreende uma célula de fluxo que é configurada para fornecer as bases de nucleotídeo identificadas adicionais ao arranjo de moléculas, produzindo assim uma pluralidade de ciclos de imagens coloridas.

[00642] Em implementações preferenciais, os métodos aqui fornecidos podem incluir determinar se um processador está ativamente adquirindo dados ou se o processador está em um estado de baixa atividade. Capturar e armazenar um grande número de imagens de alta qualidade tipicamente exige enormes quantidades de capacidade de armazenamento. Adicionalmente, uma vez adquirida e armazenada, a análise dos dados de imagem pode se tornar um recurso intensivo e pode interferir com a capacidade de processamento de outras funções, como a permanente e o armazenamento de dados de imagem adicionais. Consequentemente, como usado na presente invenção, o termo baixo estado de atividade se refere à capacidade de processamento de um processador em um dado momento. Em algumas implementações, um baixo estado de atividade ocorre quando um processador não está adquirindo e/ou armazenando dados. Em algumas implementações, um estado de atividade baixo ocorre quando alguma aquisição e/ou armazenamento de dados ocorre, mas a capacidade de processamento adicional permanece de modo que a análise das imagens pode ocorrer ao mesmo tempo sem interferir com outras funções.

[00643] Como usado na presente invenção, "identificar um conflito" se refere a identificar uma situação em que múltiplos processos competem por recursos. Em algumas dessas implementações, um processo é dada prioridade sobre um outro processo. Em algumas implementações, um conflito pode estar relacionado à necessidade de dar prioridade para alocação de tempo, capacidade de processamento, capacidade de armazenamento ou qualquer outro recurso para o qual é dado prioridade. Dessa forma, em algumas implementações, onde o tempo de processamento ou capacidade é para ser distribuído entre dois processos como a análise de um conjunto de dados e aquisição e/ou armazenamento d conjunto de dados, um conflito entre os dois processos existe e pode ser resolvido dando prioridade a um dos processos.

[00644] Também são aqui fornecidos sistemas para realizar a análise de imagens. Os sistemas podem incluir um processador; uma capacidade de armazenamento; e um programa para análise de imagens, o programa compreendendo instruções para processar um primeiro conjunto de dados para armazenamento e o segundo conjunto de dados para análise, sendo que o processamento compreende capturar e/ou armazenar o primeiro conjunto de dados no dispositivo de armazenamento e analisar o segundo conjunto de dados quando o processador não está adquirindo o primeiro conjunto de dados. Em determinados aspectos, o programa inclui instruções para identificar ao menos uma ocorrência de um conflito entre a aquisição e/ou o armazenamento do primeiro conjunto de dados e a análise do segundo conjunto de dados; e resolver o conflito em favor de capturar e/ou armazenar dados de imagem de modo que capturar e/ou armazenar o primeiro conjunto de dados é dada prioridade. Em determinados aspectos, o primeiro conjunto de dados compreende arquivos de imagem obtidos a partir de um dispositivo de imageamento óptico. Em determinados aspectos, o sistema compreende adicionalmente um dispositivo de imageamento óptico. Em alguns aspectos, o dispositivo de imageamento óptico compreende uma fonte de luz e um dispositivo de detecção.

[00645] Como usado na pressente invenção, o termo "programa" se refere a instruções ou comandos para realizar uma tarefa ou processo. O termo "programa" pode ser usado de maneira intercambiável com o termo módulo. Em certas implementações, um programa pode ser uma compilação de várias instruções executadas sob o mesmo conjunto de comandos. Em outras implementações, um programa pode se referir a um lote ou arquivo distinto.

[00646] Apresentados abaixo são alguns dos efeitos surpreendentes de se usar os métodos e sistemas para executar a análise de imagens apresentadas na presente invenção. Em algumas implementações de sequenciamento, uma medida importante da utilidade do sistema de sequenciamento é sua eficiência geral. Por exemplo, a quantidade de dados produzidos por dia mapeável o custo total da instalação e a execução do instrumento são aspectos importantes de uma solução econômica de sequenciamento. Para reduzir o tempo necessário para gerar dados mapeáveis e para aumentar a eficiência do sistema, a chamada de base em tempo real pode ser habilitada em um instrumento computador e pode funcionar em paralelo com a química de sequenciamento e o imageamento. Isso permite que a maior parte do processamento de dados e análise seja completada antes da química de sequenciamento terminar. Adicionalmente, isso pode reduzir o armazenamento necessário para dados intermediários e limitar a quantidade de dados que precisam se deslocar ao longo da rede.

[00647] Embora a saída da sequência tenha aumentado, os dados por corrida transferidos dos sistemas aqui fornecidos para a rede e para o hardware de processamento da análise secundária diminuíram substancialmente. Pela transformação de dados no instrumento computador (computador de aquisição), as cargas de rede são drasticamente reduzidas. Sem estas técnicas de redução de dados no instrumento, fora da rede, as saídas de imagem de um grupo de instrumentos de sequenciamento de DNA iriam inviabilizar a maioria das redes inviáveis.

[00648] A adoção generalizada dos instrumentos de sequenciamento de DNA de alta velocidade foi conduzida em parte pela facilidade de uso, suporte para uma faixa de aplicações e adequação para virtualmente qualquer ambiente de laboratório. Os algoritmos altamente eficientes aqui apresentados permitem que uma funcionalidade de análise significativa seja adicionada a uma estação de trabalho simples que pode controlar instrumentos de sequenciamento. Esta redução nos requisitos para o hardware computacional tem vários benefícios práticos que se tornarão ainda mais importantes à medida que os níveis de saída de sequenciamento continuam a aumentar. Por exemplo, na execução da análise de imagens e do chamado de base em uma torre simples, a produção de calor, a pegada de laboratório, e o consumo de energia são mantidos em um mínimo. Em contraste, outras tecnologias de sequenciamento comercial recentemente aumentaram sua infraestrutura de computação para análise primária, com até cinco vezes mais poder de processamento, levando a aumentos comensuráveis em saída de calor e consumo de energia. Dessa forma, em algumas implementações, a eficiência computacional dos métodos e sistemas aqui fornecidos permite aos clientes aumentar a sua velocidade de sequenciamento mantendo despesas de hardware do servidor em um mínimo.

[00649] Consequentemente, em algumas implementações, os métodos e/ou sistemas apresentados na presente invenção agem como uma máquina de estado, mantêm o controle do estado individual de cada espécime, e quando ele detecta que um espécime está pronto para avançar para o próximo estado, ele faz o processamento adequado e avança o espécime para esse estado. Um exemplo mais detalhado de como a máquina de estado monitora um sistema de arquivos para determinar quando um espécime está pronto para avançar para o próximo estado de acordo com uma implementação preferencial é apresentado no Exemplo 1 abaixo.

[00650] Em implementações preferenciais, os métodos e sistemas aqui fornecidos são múltiplos threads podem trabalhar com um número configurável de threads. Dessa forma, por exemplo no contexto de sequenciamento de ácido nucleico, os métodos e sistemas aqui fornecidos são capazes de trabalhar no fundo durante uma corrida ao vivo para sequenciamento de análise de tempo real, ou pode ser executado com o uso de um conjunto de dados de imagem pré-existentes para análise fora de linha. Em certas implementações preferenciais, os métodos e sistemas gerenciam múltiplos threads dando a cada thread seu próprio subconjunto de espécime para o qual ele é responsável. Isso minimiza a possibilidade de contenção de threads.

[00651] Um método da presente revelação pode incluir uma etapa de obtenção de uma imagem alvo de um objeto com o uso de um aparelho de detecção, sendo que a imagem inclui um padrão de repetição de analitos no objeto. Os aparelhos de detecção que são capazes de imageamento de alta resolução de superfícies são particularmente úteis. Em implementações específicas, o aparelho de detecção terá resolução suficiente para distinguir analitos nas densidades, passos, e/ou tamanhos apresentados na presente invenção. Particularmente úteis são os aparelhos de detecção capazes de obter imagens ou dados de imagem a partir de superfícies. Exemplo de detectores são aqueles que são configurados para manter um objeto e o detector em uma relação estática enquanto obtém uma área imagem. Um aparelho de varredura pode também ser usado. Por exemplo, um aparelho que obtém imagens sequenciais de área (por exemplo, os chamados detetores "step and shoot") pode ser usado. Também úteis são os dispositivos que varrem continuamente um ponto ou linha sobre a superfície de um objeto para acumular dados para construir uma imagem da superfície. Os detectores de varredura de ponto podem ser configurados para varrer um ponto (isto é, uma pequena área de detecção) sobre a superfície de um objeto através de um movimento de raster no plano x-y da superfície. Os detectores de varredura de linha podem ser configurados para varrer uma linha ao longo da dimensão y da superfície de um objeto, a dimensão mais longa da linha ocorrendo ao longo da dimensão x. Será entendido que o dispositivo de detecção, objeto ou ambos podem ser movidos para alcançar a detecção de varredura. Os aparelhos de detecção que são particularmente úteis, por exemplo em aplicações de sequenciamento de ácidos nucleicos, são descritos nas publicações de pedidos de patentes US n°s 2012/0270305 A1; 2013/0023422 A1; 2013/0260372 A1; e nas patentes US. n°s 5.528.050;

5.719.391; 8.158.926 e 8.241.573, cada um dos quais está aqui incorporado por referência.

[00652] As implementações aqui reveladas podem ser implementadas como um método, aparelho, sistema ou artigo de fabricação com o uso de técnicas de programação ou engenharia para produzir software, firmware, hardware ou qualquer combinação dos mesmos. O termo "artigo de manufatura" como usado aqui se refere a código ou lógica implementados em hardware ou mídias legíveis por computador como dispositivos de armazenamento óptico, e dispositivos de memória volátil ou não volátil. Tal hardware pode incluir, mas não se limita a, matrizes de portas programáveis em campo (FPGAs), arquiteturas reconfiguráveis de grade grossa (CGRAs), circuitos integrados específicos de aplicação (CPLDs), dispositivos lógicos programáveis complexos (CPLDs), matrizes lógicas programáveis (PLAs), microprocessadores ou outros dispositivos de processamento similares. Em implementações específicas, as informações ou algoritmos aqui apresentados estão presentes em uma mídia de armazenamento não transitório.

[00653] Em implementações específicas, um método implementado por computador aqui apresentado pode ocorrer em tempo real enquanto múltiplas imagens de um objeto estão sendo obtidas. Tais análises em tempo real são particularmente úteis para aplicações de sequenciamento de ácidos nucleicos em que uma matriz de ácidos nucleicos é submetida a ciclos repetidos de etapas fluídicas e de detecção. A análise dos dados de sequenciamento pode frequentemente ser computacionalmente intensiva de modo que ela pode ser benéfica para executar os métodos apresentados na presente invenção em tempo real ou no fundo enquanto outros algoritmos de análise ou captura de dados estão em processo. Exemplo de análise em tempo real de métodos que podem ser usados com os presentes métodos são aqueles usados para os dispositivos de sequenciamento MiSeq HiSeq comercialmente disponíveis junto à Illumina, Inc. (San Diego, Califórnia, EUA.) e/ou descritos na publicação de pedido de patente n° 2012/0020537 A1, que está aqui incorporado a título de referência.

[00654] Um sistema de análise de dados exemplificador, formado por um ou mais computadores programados, com programação sendo armazenados em uma ou mais mídias legíveis por máquina com código executado para executar uma ou mais etapas de métodos aqui descritos. Em uma implementação, por exemplo, o sistema inclui uma interface projetada para permitir a rede do sistema a um ou mais sistemas de detecção (por exemplo, sistemas de imageamento óptico) que são configurados para capturar dados de objetos-alvo. A interface pode receber e condicionar dados, quando adequado. Em implementações específicas, o sistema de detecção irá emitir dados de imagem digital, por exemplo, dados de imagem que são representativos de elementos ou pixels de figuras individuais, juntos, formam uma imagem de uma matriz ou outro objeto. Um processador processa os dados de detecção recebidos de acordo com uma ou mais rotinas definidas pelo código de processamento. O código de processamento pode ser armazenado em vários tipos de circuitos de memória.

[00655] De acordo com as implementações atualmente contempladas, o código de processamento executado sobre os dados de detecção inclui uma rotina de análise de dados projetados para analisar os dados de detecção para determinar as localizações e metadados de analitos individuais visíveis ou codificados nos dados, bem como locais nos quais nenhuma analito é detectado (isto é, onde não existe qualquer analito, ou onde nenhum sinal significativo foi detectado a partir de um analito existentes). Em implementações específicas, as localizações do analito em uma matriz irão parecer mais brilhantes que as localizações não de analito devido à presença de corantes fluorescentes fixados aos analitos imageados. Será entendido que os analitos não precisam aparecer mais brilhantes que sua área circundante, por exemplo, quando um alvo para a sonda no analito não está presente em uma matriz sendo detectada. A cor na qual os analitos individuais aparecem pode ser uma função do corante empregado, bem como do comprimento de onda da luz usada pelo sistema de imageamento para propósitos de imageamento. Os analitos aos quais os alvos não estão ligados ou que são de modo desprovidos de um determinado rótulo podem ser identificados de acordo com outras características, como a sua localização esperada no microarranjo.

[00656] Uma vez que a rotina de análise de dados localizou analitos individuais nos dados, uma atribuição de valor pode ser executada. Em geral, a atribuição de valor irá atribuir um valor digital para cada analito com base nas características dos dados representados pelos componentes do detector (por exemplo, os pixels) no local correspondente. Isto é, por exemplo quando os dados de imageamento são processados, a rotina de atribuição de valor pode ser projetada para reconhecer que uma cor ou um comprimento de onda de luz específico foi detectado em um local específico, conforme indicado por um grupo ou cluster de pixels no local. Em uma aplicação de imageamento de DNA típica, por exemplo, os quatro nucleotídeos comum serão representados por quatro cores distinguíveis e separadas. Cada cor, então, pode ser atribuída a um valor correspondente àquele nucleotídeo.

[00657] Como usado aqui, os termos "módulo", "sistema" ou "controlador de sistema" podem incluir um sistema de hardware e/ou software e um circuito que opera para executar uma ou mais funções. Por exemplo, um módulo, sistema ou controlador de sistema pode incluir um processador de computador, controlador ou outro dispositivo baseado em lógica que realiza operações com base nas instruções armazenadas em uma mídia de armazenamento legível por computador tangível e não transitória, como uma memória de computador. Alternativamente, um módulo, sistema, ou controlador de sistema pode incluir um dispositivo com fio que realiza operações com base na lógica e circuitos com fio. O módulo, sistema, ou controlador de sistema mostrado nas figuras em anexo pode representar o hardware e um circuito que opera com base em software ou instruções programadas, o software que direciona um hardware para executar as operações, ou uma combinação dos mesmos. O módulo, sistema, ou controlador de sistema pode incluir circuitos de hardware ou circuitos ou representar e/ou que incluem são conectados com um ou mais processadores, como um computador ou microprocessadores.

[00658] Como usado aqui, os termos "software" e "firmware" são intercambiáveis, e incluem qualquer programa de computador armazenado na memória para execução por um computador, incluindo memória RAM, memória ROM, memória EPROM, memória EEPROM e memória RAM não volátil (NVRAM). Os tipos de memória acima são apenas exemplos, e não são limitadores quanto aos tipos de memória usáveis para armazenamento de um programa de computador.

[00659] No campo da biologia molecular, um dos processos para sequenciamento de ácido nucleico em uso é o sequenciamento por síntese. A técnica pode ser aplicada a projetos de sequenciamento massivamente paralelos. Por exemplo, mediante o uso de uma plataforma automatizada, é possível realizar centenas de milhares de reações de sequenciamento simultaneamente. Dessa forma, uma das implementações da presente invenção se refere a instrumentos e métodos para adquirir, armazenar, e análise de dados de imagem gerados durante o sequenciamento de ácido nucleico.

[00660] Ganhos enormes na quantidade de dados que podem ser capturados e armazenados torna os métodos simplificados de análise de imagens ainda mais benéficos. Por exemplo, os métodos para análise de imagens descritos na presente invenção permitem que os designers e os usuários finais façam uso eficiente do hardware de computador existente. Consequentemente, são apresentados aqui métodos e sistemas que reduzem a carga computacional de processar dados em face de aumentar rapidamente saída de dados. Por exemplo, no campo do sequenciamento de DNA, os rendimentos aumentaram 15 vezes ao longo de um ano recente, e agora podem alcançar centenas de gigabases em uma única operação de um dispositivo de sequenciamento de DNA. Se os requisitos de infraestrutura computacional cresceram proporcionalmente,

experimentos com genoma em grande escala permaneceriam fora de alcance para a maioria dos pesquisadores. Dessa forma, a geração de mais dados brutos de sequência aumentará a necessidade de análise secundária e armazenamento de dados, tornando a otimização do transporte e armazenamento de dados extremamente valiosa. Algumas implementações dos métodos e sistemas aqui apresentados podem reduzir o tempo, hardware, rede e requisitos de infraestrutura de laboratório necessários para produzir dados de sequência utilizáveis.

[00661] A presente revelação descreve vários métodos e sistemas para executar os métodos. Exemplos de alguns dos métodos são descritos como uma série de etapas. Entretanto, deve ser entendido que as implementações não são limitadas às etapas específicas e/ou ordem das etapas aqui descritas. As etapas podem ser omitidas, etapas podem ser modificada, e/ou outras etapas podem ser adicionadas. Além disso, as etapas aqui descritas podem ser combinadas, as etapas podem ser realizadas simultaneamente, as etapas podem ser realizadas ao mesmo tempo, as etapas podem ser divididas em múltiplas subetapas, as etapas podem ser realizadas em uma ordem diferente, ou as etapas (ou uma série de etapas) podem ser novamente realizadas em um modo iterativo. Além disso, embora diferentes métodos sejam apresentados na presente invenção, deve ser entendido que os diferentes métodos (ou etapas dos métodos diferentes) podem ser combinados de outras implementações.

[00662] Em algumas implementações, uma unidade de processamento, processador, módulo, ou sistema de computação que é "configurado para" executar uma tarefa ou operação pode ser compreendido como sendo particularmente estruturado para executar a tarefa ou operação (por exemplo, tendo um ou mais programas ou instruções armazenadas no mesmo ou usado em conjunto com o mesmo adaptado ou destinado a executar a tarefa ou operação, e/ou que tem uma disposição de circuitos de processamento ajustado ou destinado a executar a tarefa ou operação). Para os propósitos de clareza e evitar dúvidas, um computador de propósito geral (que pode se tornar "configurado para" executar a tarefa ou operação se devidamente programado) não é "configurado para" executar uma tarefa ou operação salvo se especificamente programado ou estruturalmente modificado para executar a tarefa ou operação.

[00663] Além disso, as operações dos métodos descritos na presente invenção podem ser suficientemente complexas de modo que as operações não podem ser realizadas mentalmente por um ser humano médio ou a uma pessoa de habilidade comum na técnica dentro de um período de tempo comercialmente razoável. Por exemplo, os métodos podem contar com computações relativamente complexas de modo que tal pessoa não possa completar os métodos dentro de um período comercialmente razoável.

[00664] Ao longo deste pedido, várias publicações, patentes ou pedidos de patente foram referenciadas. As revelações dessas publicações em suas totalidades estão aqui incorporadas a título de referência para descrever mais completamente o estado da técnica ao qual esta invenção pertence.

[00665] O termo "compreendendo" pretende significar na presente invenção ilimitado, incluindo não apenas os elementos mencionados, mas ainda abrangendo quaisquer elementos adicionais.

[00666] Como usado na pressente invenção, o termo "cada", quando usado em referência a uma coleção de itens, se destina a identificar um item individual na coleção mas não se refere necessariamente a cada item na coleção. Exceções podem ocorrer se explícita revelação ou contexto claramente determine de outro modo.

[00667] Embora a invenção tenha sido descrita com referência aos exemplos apresentados acima, deve ser entendido que várias modificações podem ser feitas sem que se afaste da invenção.

[00668] Os módulos constantes do presente pedido podem ser implementados em hardware ou software, e não precisam ser divididos em precisamente os mesmos blocos conforme mostrado nas figuras. Alguns podem também ser implementados em diferentes processadores ou computadores, ou disseminados entre inúmeros processadores ou computadores diferentes. Além disso, será entendido que alguns dos módulos podem ser combinados, operados em paralelo ou em uma sequência diferente daquela mostrada nas figuras sem afetar as funções alcançadas. Também como usado aqui, o termo "módulo" pode incluir "submódulos", que podem ser considerados na presente invenção para constituir módulos. Os blocos nas figuras designados como módulos podem também ser considerados como etapas de fluxograma em um método.

[00669] Como usado aqui, a "identificação" de um item de informação não exige necessariamente a especificação direta daquele de informações. As informações podem ser "identificadas" em um campo por simples referência às informações reais através de uma ou mais camadas de indireção, ou mediante a identificação de um ou mais itens de informações diferentes que estão juntos o suficiente para determinar o item real de informação. Além disso, o termo "especificar" é usado na presente invenção para significar o mesmo que "identificar".

[00670] Como usado na pressente invenção, um dado sinal, evento ou valor está "em dependência de" um sinal, evento ou valor anterior do sinal, evento ou valor anterior influenciado pelo dado sinal, evento ou valor. Se houver um elemento, etapa ou período de tempo de processamento interveniente, o dado sinal, evento ou valor ainda pode estar "dependente" do sinal, evento ou valor predecessor. Se o elemento ou etapa de processamento interveniente combina mais do que um sinal, evento ou valor, a saída de sinal do elemento ou etapa de processamento é considerada "em dependência de" cada sinal, evento ou entradas de valor. Se o dado sinal, evento ou valor é o mesmo que o sinal, evento ou valor anterior, isso é meramente um caso degenerado em que o dado sinal, evento ou valor ainda é considerado como estando "na dependência" ou "dependente" ou "com base em" o sinal, evento ou valor anterior. A "responsividade" de um dado sinal, evento ou valor sobre um outro sinal, evento ou valor é definida de modo similar.

[00671] Como usado na pressente invenção, "simultaneamente" ou "em paralelo" não exige simultaneidade exata. É suficiente que a avaliação de um dos indivíduos comece antes da avaliação de um outro dos indivíduos se completar. Sistema de computador

[00672] A Figura 82 é um sistema de computador 8200 que pode ser usado pelo sistema de sequenciamento 800A para implementar a tecnologia aqui revelada. O sistema de computador 8200 inclui ao menos uma unidade de processamento central (CPU) 8272 que se comunica com vários dispositivos periféricos através do subsistema de barramento 8255. Estes dispositivos periféricos podem incluir um subsistema de armazenamento 8210 incluindo, por exemplo, dispositivos de memória e um subsistema de armazenamento de arquivo 8236, dispositivos de entrada de interface de usuário 8238, dispositivos de saída de interface de usuário 8276, e um subsistema de interface de rede 8274. Os dispositivos de entrada e saída permitem a interação do usuário com o sistema de computador 8200. O subsistema de interface de rede 8274 fornece uma interface para redes externas, incluindo uma interface para dispositivos de interface correspondentes em outros sistemas de computador.

[00673] Em uma implementação, o controlador de sistema 7806 está comunicavelmente ligado ao subsistema de armazenamento 8210 e aos dispositivos de entrada de interface de usuário 8238.

[00674] Os dispositivos de entrada de interface de usuário 8238 podem incluir um teclado; dispositivos apontadores como um mouse, trackball, touchpad ou tablet gráfico; um scanner; uma tela sensível ao toque incorporada na tela; dispositivos de entrada de áudio como sistemas de reconhecimento de voz e microfones; e outros tipos de dispositivos de entrada. Em geral, o uso do termo "dispositivo de entrada" se destina a incluir todos os tipos possíveis de dispositivos e maneiras de inserir informações no sistema de computador 8200.

[00675] Os dispositivos de saída de interface de usuário 8276 podem incluir um subsistema de exibição, uma impressora, uma máquina de fax ou telas não visuais como dispositivos de saída de áudio. O subsistema de exibição pode incluir uma tela LED, um tubo de raios catódicos (CRT), um dispositivo de painel plano como uma tela de cristal líquido (LCD), um dispositivo de projeção ou algum outro mecanismo para criar uma imagem visível. O subsistema de exibição pode também fornecer uma exibição não visual, como dispositivos de saída de áudio. Em geral, o uso do termo "dispositivo de saída" se destina a incluir todos os tipos possíveis de dispositivos e maneiras de extrair informações do sistema de computar 8200 para o usuário ou uma outra máquina ou sistema de computador.

[00676] O subsistema de armazenamento 8210 armazena construtos de programação e dados que fornecem a funcionalidade de alguns ou todos dentre os módulos e métodos aqui descritos. Esses módulos de software são geralmente executados por processadores de aprendizado profundo 8278.

[00677] Os processadores de aprendizado profundo 8278 podem ser unidades de processamento gráfico (GPUs), matrizes de porta programáveis em campo (FPGAs), circuitos integrados específicos para a aplicação (ASICs) e/ou arquiteturas reconfiguráveis de grão grosso (CGRAs). Os processadores de aprendizado profundo 8278 podem ser hospedados por uma plataforma em nuvem de aprendizado profunda como Google Cloud Platform™, Xilinx™, e Cirrascale™. Exemplos de processadores de aprendizado profundo 8278 incluem Tensor Processing

Unit (TPU)™ da Google, rackmount solutions like GX4 Rackmount Series™, GX82 Rackmount Series™, NVIDIA DGX-1™, Stratix V FPGA™ da Microsoft, Graphcore’s Intelligent Processor Unit (IPU)™, Qualcomm’s Zeroth Platform™ com processadores Snapdragon™, NVIDIA’s Volta™, NVIDIA’s DRIVE PX™, NVIDIA’s JETSON TX1/TX2 MODULE™, Intel’s Nirvana™, Movidius VPU™, Fujitsu DPI™, ARM’s DynamicIQ™, IBM TrueNorth™, Lambda GPU Server com Testa V100s™, e outros.

[00678] O subsistema de memória 8222 usado no subsistema de armazenamento 8210 pode incluir uma série de memórias incluindo memória de acesso aleatório principal (RAM) 8232 para armazenamento de instruções e dados durante a execução do programa e uma memória somente de leitura (ROM) 8234 no qual instruções fixas são armazenadas. Um subsistema de armazenamento de arquivo 8236 pode fornecer armazenamento persistente para arquivos de programa e dados, e pode incluir uma unidade de disco rígido, um disquete juntamente com mídias removíveis associadas, um drive de CD-ROM, um drive óptico, ou cartuchos de mídias removíveis. Os módulos de implementação da funcionalidade de certas implementações podem ser armazenados pelo subsistema de armazenamento de arquivo 8236 no subsistema de armazenamento 8210, ou em outras máquinas acessível pelo processador.

[00679] O subsistema de barramento 8255 fornece um mecanismo para permitir que os vários componentes e subsistemas do sistema de computador 8200 se comuniquem entre si como pretendido. Embora o subsistema de barramento 8255 seja mostrado esquematicamente como um único barramento, implementações alternativas do subsistema de barramento podem usar múltiplos barramentos.

[00680] O próprio sistema de computador 8200 pode ser de tipos variados, incluindo um computador pessoal, um computador portátil, uma estação de trabalho, um terminal de computador, um computador de rede,

uma televisão, um mainframe, um servidor de servidores, um conjunto amplamente distribuído de computadores com rede frouxa, ou qualquer outro sistema de processamento de dados ou dispositivo de usuário. Devido à natureza em constante mudança de computadores e redes, a descrição do sistema de computador 8200 representado na Figura 82 é intencionada apenas como um exemplo específico para os propósitos de ilustrar as implementações preferenciais da presente invenção. Muitas outras configurações de sistema de computador 8200 são possíveis tendo mais ou menos componentes do que o sistema de computador representado na Figura 82. Implementações específicas

[00681] Descrevemos várias implementações de gerador de modelo baseado em rede neural e chamada de base baseado em rede neural. Um ou mais recursos de uma implementação podem ser combinados com a implementação de base. Implementações que não são mutuamente exclusivas são ensinadas a serem combináveis. Um ou mais recursos de uma implementação podem ser combinados com outras implementações. Esta revelação periodicamente relembra o usuário dessas opções. A omissão de algumas implementações de menções que repetem estas opções não deve ser tomada como limitadora das combinações ensinadas nas seções anteriores - estas menções são aqui incorporadas a título de referência na frente de cada uma das seguintes implementações. Chamada de base de subpixel

[00682] Revelamos um método implementado por computador para determinar metadados sobre analitos em um campo de uma célula de fluxo. O método inclui acessar uma série de conjuntos de imagens gerados durante uma corrida de sequenciamento, cada conjunto de imagens na série gerada durante um respectivo ciclo sequenciamento da corrida de sequenciamento, cada imagem na série representando os analitos e seu fundo circundante, e cada imagem na série tendo uma pluralidade de subpixels. O método inclui obter, a partir de um chamador de base, uma chamada de base que classifica cada um dos subpixels como uma das quatro bases (A, C, T, e G), produzindo, assim, uma sequência de chamadas de base para cada um dos subpixels em uma pluralidade de ciclos de sequenciamento da corrida de sequenciamento. O método inclui gerar um mapa de analitos que identifica os analitos como regiões disjuntas de subpixels contíguos que compartilham uma sequência de chamadas de base substancialmente correspondente. O método inclui determinar a distribuição espacial de analitos, incluindo seus formatos e tamanhos com base nas regiões disjuntas e armazenar o mapa de analitos na memória para uso como verdade absoluta para treinar um classificador.

[00683] O método descrito nesta seção e em outras seções da tecnologia revelada pode incluir um ou mais dos recursos e/ou características a seguir descritos em conexão com os métodos adicionais revelados. No interesse de concisão, as combinações de recursos reveladas neste pedido não são individualmente enumeradas e não são repetidas com cada conjunto de base de características. O leitor entenderá como os recursos identificados nessas implementações podem ser prontamente combinados com conjuntos de características de base identificadas em outras implementações.

[00684] Em uma implementação, o método inclui identificar como fundo os subpixels no mapa de analitos que não pertencem a nenhuma das regiões disjuntas. Em uma implementação, o método inclui obter, a partir do chamador de base, a chama de base que classifica cada um dos subpixels como uma das cinco bases (A, C, T, G, e N). Em uma implementação, o mapa de analitos identifica as porções de limite do analito entre dois subpixels contíguos cujas sequências de chamadas de base não são substancialmente correspondentes.

[00685] Em uma implementação, o método inclui identificar os subpixels de origem nas coordenadas preliminares de centro dos analitos determinados pelo chamador de base, e buscar primeiro em largura as sequências de chamadas de base substancialmente correspondentes começando com os subpixels de origem e continuando com os subpixels não de origem sucessivamente contíguos. Em uma implementação, o método inclui, em uma base de analito-por-analito, determinar as coordenadas hiperlocalizadas de centro dos analitos mediante cálculo dos centros de massa das regiões disjuntas do mapa de analitos como uma média das coordenadas dos respectivos subpixels contiguos que formam as regiões disjuntas, e armazenar as coordenadas hiperlocalizadas de centro dos analitos na memória em uma base de analito-por-analito para uso como verdade absoluta para treinar o classificador.

[00686] Em uma implementação, o método inclui, na base de analito-por-analito, identificar subpixels de centros de massa nas regiões disjuntas do mapa de analitos nas coordenadas hiperlocalizadas de centro dos analitos, sobreamostrar o mapa de analitos com o ouso de interpolação e armazenamento do mapa de analitos sobreamostrados na memória para uso como verdade absoluta para treinar o classificador, e, no mapa de analitos sobreamostrados, na base de analito-por-analito, atribuir um valor para cada subpixel contíguo nas regiões disjuntas com base em um fator de decaimento que é proporcional à distância de um subpixel contíguo a partir de um subpixel de centro de massa em uma região disjunta à qual o subpixel contíguo pertence. Em uma implementação, o valor é um valor de intensidade normalizado entre zero e um. Em uma implementação, o método inclui, no mapa de analitos sobreamostrados, atribuir um mesmo valor predeterminado a todos os subpixels identificados como o fundo. Em uma implementação, o valor predeterminado é um valor de intensidade zero.

[00687] Em uma implementação, o método inclui gerar um mapa de decaimento a partir de um mapa de analitos sobreamostrados que expressa os subpixels contíguos nas regiões disjuntas e os subpixels identificados como fundo com base em seus valores atribuídos, e armazenar o mapa de decaimento na memória para uso como verdade absoluta para treinar o classificador. Em uma implementação, cada subpixel no mapa de decaimento tem um valor normalizado entre zero e um. Em uma implementação, o método inclui, no mapa de analitos sobreamostrados, categorizar, na base de cluster-por-cluster, os subpixels contíguos nas regiões disjuntas como subpixels de interior de analito que pertencem a um mesmo analito, os subpixels de centros de massa como subpixels de centro de analito, os subpixels contendo as porções de limite de analito como subpixels de limite, e os subpixels identificados como o fundo como subpixels de fundo; e armazenar as categorizações na memória para uso como verdade absoluta para treinar o classificador.

[00688] Em uma implementação, o método inclui, armazenar, na base de analito-por-analito, as coordenadas dos subpixels de interior de analito, dos subpixels de centro de analito, dos subpixels de limite e dos subpixels de fundo na memória para uso como verdade absoluta para treinar o classificador, reduzir as coordenadas por um fator usado para sobreamostrar o mapa de analitos, e armazenar, na base de analito-por- analito, as coordenadas reduzidas na memória para uso como verdade absoluta para treinar o classificador.

[00689] Em uma implementação, o método inclui, em dados binários de verdade absoluta gerados a partir do mapa de analitos sobreamostrados, usar codificação de cores para rotular os subpixels de centro de analito como pertencentes a uma classe de centro de analito e todos os outros subpixels como pertencentes a uma classe não de centro, e armazenar os dados binários de verdade absoluta na memória para uso como verdade absoluta para treinar o classificador. Em uma implementação, o método inclui, em dados ternários de verdade absoluta gerados a partir do mapa de analitos sobreamostrados, usar codificação de cores para rotular os subpixels de fundo como pertencentes a uma classe fundo, os subpixels de centro de analito como pertencentes a uma classe de centro de analito, e os subpixels de interior de analito como pertencentes a uma classe de interior de analito, e armazenar os dados ternários de verdade absoluta na memória para uso como verdade absoluta para treinar o classificador.

[00690] Em uma implementação, o método inclui gerar mapas de analito para uma pluralidade de campos da célula de fluxo, armazenar os mapas de analito na memória e determinar a distribuição espacial dos analitos nos campos com base nos mapas de analitos, incluindo seus formatos e tamanhos, nos mapas de analitos sobreamostrados dos analitos nos campos, categorizar, em uma base de analito-por-analito, subpixels como subpixels de interior de analito que pertencem a um mesmo analito, subpixels de centro de analito, subpixels de limite, e subpixels de fundo, armazenar as categorizações na memória para uso como verdade absoluta para treinar o classificador, armazenar, na base de analito-por-analito através dos campos, as coordenadas dos subpixels de interior de analito, dos subpixels de centro de analito, dos subpixels de limite, e do subpixels de fundo na memória para uso como verdade absoluta para treinar o classificador, reduzir as coordenadas pelo fator usado para sobreamostrar o mapa de analitos, e, armazenar, na base de analito-por-analito através dos campos, as coordenadas reduzidas na memória para uso como verdade absoluta para treinar o classificador.

[00691] Em uma implementação, as sequências de chamadas de base são substancialmente correspondentes quando uma porção predeterminada de chamadas de base corresponde em uma base ordinal em posição. Em uma implementação, o chamador de base produz as sequências de chamada de base mediante a interpolação da intensidade dos subpixels, incluindo ao menos um dentre extração de intensidade de vizinhos mais próximos, extração de intensidade baseada em Gauss, extração de intensidade com base na média da área de subpixel de 2 x 2,

extração de intensidade baseada na área de subpixel mais brilhante de 2 x 2, extração de intensidade baseada na média da área de subpixel de 3 x 3, extração de intensidade linear, extração de intensidade bicúbica, e/ou extração de intensidade baseada na cobertura da área pesada. Em uma implementação, os subpixels são identificados para o chamador de base com base em suas coordenadas de números inteiros ou não inteiros.

[00692] Em uma implementação, o método inclui a exigência de que ao menos algumas das regiões disjuntas têm um número mínimo predeterminado de subpixels. Em uma implementação, a célula de fluxo tem ao menos uma superfície dotada de um padrão com uma matriz de poços que ocupam os analitos. Em um tipo de implementação, o método inclui, com base nos formatos e tamanhos determinados dos analitos, determinar quais dos poços são substancialmente ocupados por ao menos um analito, quais dos poços são minimamente ocupados, e quais dos poços são co-ocupada por múltiplos analitos.

[00693] Em uma implementação, a célula de fluxo tem pelo menos uma superfície não padronizada e os analitos não são uniformemente espalhados sobre a superfície não padronizada. Em uma implementação, a densidade dos analitos está na faixa de cerca de 100.000 analitos/mm2 a cerca de 1.000.000 analitos/mm2. Em uma implementação, a densidade dos analitos está na faixa de cerca de 1.000.000 analitos/mm2 a cerca de 10.000.000 analitos/mm2. Em uma implementação, os subpixels são um quarto de subpixels. Em outra implementação, os subpixels são metade de subpixels. Em uma implementação, as coordenadas preliminares de centro dos analitos determinados pelo chamador de base são definidas em uma imagem de modelo do campo, e uma resolução de pixel, um sistema de coordenadas de imagem, e escalas de medição do sistema de coordenadas de imagem são iguais para a imagem de modelo e as imagens. Em uma implementação, cada conjunto de imagens tem quatro imagens. Em uma outra implementação, cada conjunto de imagens tem duas imagens. Em ainda uma outra implementação, cada conjunto de imagens tem uma imagem. Em uma implementação, a corrida de sequenciamento utiliza química de quatro canais. Em uma outra implementação, a corrida de sequenciamento utiliza química de dois canais. Em ainda uma outra implementação, a corrida de sequenciamento utiliza química de um canal.

[00694] Outras implementações do método descrito nesta seção podem incluir uma mídia de armazenamento não transitório legível por computador que armazena instruções executáveis por um processador para executar qualquer dos métodos descritos acima. Ainda uma outra implementação do método descrito nesta seção pode incluir um sistema que inclui memória e um ou mais processadores operáveis para executar instruções, armazenadas na memória, para executar qualquer dos métodos descritos acima.

[00695] Revelamos um método implementado por computador para determinar metadados sobre analitos em um campo de uma célula de fluxo. O método incluir acessar um conjunto de imagens do campo capturado durante uma corrida de sequenciamento e coordenadas preliminares de centro dos analitos determinados por um chamador de base. O método inclui, para cada conjunto de imagens, obter, a partir de um chamador de base, uma chamada de base que classifica, como uma das quatro, os subpixels originais que contêm as coordenadas preliminares de centro e uma vizinhança predeterminado de subpixels contíguos que são sucessivamente contíguos aos respectivos subpixels originais dentre os subpixels originais, produzindo, portanto, uma sequência de chamadas de base para cada subpixel de origem e para cada vizinhança predeterminada de subpixels contíguos. O método inclui gerar um mapa de analitos que identifica os analitos como regiões disjuntas de subpixels contíguos que são sucessivamente contíguos a ao menos alguns dos respectivos subpixels de origem dentre os subpixels de origem e compartilham uma sequência de chamadas de base substancialmente correspondente da uma base dentre as quatro bases com os ao menos alguns dos respectivos subpixels de origem dentre os subpixels de origem. O método inclui armazenar o mapa de analitos na memória e determinar os formatos e tamanhos dos analitos com base nas regiões disjuntas no mapa de analitos.

[00696] Cada uma das características discutidas na seção da implementação específica para outras implementações se aplica igualmente a esta implementação. Conforme indicado acima, todas as outras características não são repetidas aqui e devem ser consideradas repetidas a título de referência. O leitor entenderá como os recursos identificados nessas implementações podem ser prontamente combinados com conjuntos de características de base identificadas em outras implementações.

[00697] Em uma implementação, a vizinhança predeterminada de subpixels contíguos é um patch de subpixel m x n centralizado em pixels contendo os subpixels de origem e o patch de subpixel é 3 x 3 pixels. Em uma implementação, a vizinhança predeterminada de subpixels contíguos é uma vizinhança de subpixels n-conectada centralizada em pixels contendo os subpixels de origem. Em uma implementação, o método inclui identificar como fundo os subpixels no mapa de analitos que não pertencem a nenhuma das regiões disjuntas.

[00698] Outras implementações do método descrito nesta seção podem incluir uma mídia de armazenamento não transitório legível por computador que armazena instruções executáveis por um processador para executar qualquer dos métodos descritos acima. Ainda uma outra implementação do método descrito nesta seção pode incluir um sistema que inclui memória e um ou mais processadores operáveis para executar instruções, armazenadas na memória, para executar qualquer dos métodos descritos acima. Geração de dados de treinamento

[00699] Revelamos um método implementado por computador de geração de dados de treinamento para geração de modelo baseado em rede neural e chamadas de base. O método incluir acessar um grande número de imagens de uma célula de fluxo capturadas durante uma pluralidade de ciclos de uma corrida de sequenciamento, sendo que a célula de fluxo tem uma pluralidade de campos e, no grande número de imagens, cada um dos campos tem uma sequência de conjuntos de imagens gerados na pluralidade de ciclos, e cada imagem na sequência dos conjuntos de imagens representa emissões de intensidade de analitos e seu fundo circundante em um campo específico dentre os campos em um ciclo específico dentre os ciclos. O método inclui construir um conjunto de treinamento que tem uma pluralidade de exemplos de treinamento, sendo que cada exemplo de treinamento corresponde a um campo específico dentre os campos e inclui dados de imagem de ao menos alguns conjuntos de imagens na sequência de conjuntos de imagens do campo específico dentre os campos. O método inclui gerar ao menos uma representação de dados de verdade absoluta para cada um dos exemplos de treinamento, sendo que a representação de dados de verdade absoluta identifica ao menos um dentre distribuição espacial de analitos e seu fundo circundante no campo específico dentre os campos cujas emissões de intensidade são representadas pelos dados de imagem, incluindo ao menos um dentre formatos de analito, tamanhos de analito, e/ou limites de analito, e/ou centros dos analitos.

[00700] Cada uma das características discutidas na seção da implementação específica para outras implementações se aplica igualmente a esta implementação. Conforme indicado acima, todas as outras características não são repetidas aqui e devem ser consideradas repetidas a título de referência. O leitor entenderá como os recursos identificados nessas implementações podem ser prontamente combinados com conjuntos de características de base identificadas em outras implementações.

[00701] Em uma implementação, os dados de imagem incluem imagens em cada um dos ao menos alguns conjuntos de imagens na sequência de imagens dos conjuntos específico dos campos específicos dentre os campos, e as imagens têm uma resolução de 1800 x 1800. Em uma implementação, os dados de imagem incluem ao menos um patch de imagem de cada uma das imagens, e o patch de imagem cobre uma porção do campo específico dentre os campos e tem uma resolução de 20 x 20. Em uma implementação, os dados de imagem incluem uma representação sobreamostrada do patch de imagem, e a representação sobreamostrada tem uma resolução de 80 x 80. Em uma implementação, a representação de dados de verdade absoluta tem uma resolução sobreamostrada de 80 x 80.

[00702] Em uma implementação, múltiplos exemplos de treinamento correspondem a um mesmo campo específico dentre os campos e respectivamente incluem, como dados de imagem, diferentes patches de imagem de cada imagem em cada um de ao menos alguns conjuntos de imagens em uma sequência de conjuntos de imagens do mesmo campo específico dentre os campos e ao menos alguns dentre os diferentes patches de imagens se sobrepõem uns aos outros. Em uma implementação, a representação dos dados de verdade absoluta identifica os analitos como regiões disjuntas de subpixels adjacentes, os centros dos analitos como subpixels de centro de massa nas respectivas regiões disjuntas dentre as regiões disjuntas, e seu fundo circundante como subpixels que não pertencem a nenhuma das regiões disjuntas. Em uma implementação, a representação de dados de verdade absoluta usa código de cores para identificar cada subpixel como sendo um centro de analito ou um não centro de analito. Em uma implementação, a representação de dados de verdade absoluta usa código de cores para identificar cada subpixel como sendo interior de analito, centro de analito, ou fundo de analito.

[00703] Em uma implementação, o método inclui armazenar, na memória, os exemplos de treinamento no conjunto de treinamento e associadas representações de dados de verdade absoluta como os dados de treinamento para a geração de modelo baseado em rede neural e para a chamada de base. Em uma implementação, o método inclui gerar os dados de treinamento para uma variedade de células de fluxo, instrumentos de sequenciamento, protocolos de sequenciamento, químicas de sequenciamento, reagentes de sequenciamento e densidades de analito.

[00704] Outras implementações do método descrito nesta seção podem incluir uma mídia de armazenamento não transitório legível por computador que armazena instruções executáveis por um processador para executar qualquer dos métodos descritos acima. Ainda uma outra implementação do método descrito nesta seção pode incluir um sistema que inclui memória e um ou mais processadores operáveis para executar instruções, armazenadas na memória, para executar qualquer dos métodos descritos acima. Metadados e geração de chamadas de base

[00705] Em uma implementação, um método inclui acessar imagens de sequenciamento de analitos produzidas por um sequenciador, gerar dados de treinamento a partir das imagens de sequenciamento, e usar os dados de treinamento para treinar uma rede neural para gerar metadados sobre os analitos. Cada uma das características discutidas na seção da implementação específica para outras implementações se aplica igualmente a esta implementação. Conforme indicado acima, todas as outras características não são repetidas aqui e devem ser consideradas repetidas a título de referência. O leitor entenderá como os recursos identificados nessas implementações podem ser prontamente combinados com conjuntos de características de base identificadas em outras implementações. Outras implementações do método descrito nesta seção podem incluir uma mídia de armazenamento não transitório legível por computador que armazena instruções executáveis por um processador para executar qualquer dos métodos descritos acima. Ainda uma outra implementação do método descrito nesta seção pode incluir um sistema que inclui memória e um ou mais processadores operáveis para executar instruções, armazenadas na memória, para executar qualquer dos métodos descritos acima.

[00706] Em uma implementação, um método inclui acessar imagens de sequenciamento de analitos produzidos por um sequenciador, gerar dados de treinamento a partir das imagens de sequenciamento e usar os dados de treinamento para treinar uma rede neural para chamada de base dos analitos. Cada uma das características discutidas na seção da implementação específica para outras implementações se aplica igualmente a esta implementação. Conforme indicado acima, todas as outras características não são repetidas aqui e devem ser consideradas repetidas a título de referência. O leitor entenderá como os recursos identificados nessas implementações podem ser prontamente combinados com conjuntos de características de base identificadas em outras implementações. Outras implementações do método descrito nesta seção podem incluir uma mídia de armazenamento não transitório legível por computador que armazena instruções executáveis por um processador para executar qualquer dos métodos descritos acima. Ainda uma outra implementação do método descrito nesta seção pode incluir um sistema que inclui memória e um ou mais processadores operáveis para executar instruções, armazenadas na memória, para executar qualquer dos métodos descritos acima. Modelo de regressão

[00707] A presente invenção revela um método implementado por computador para identificar analitos em um campo de uma célula de fluxo e metadados de analito relacionados. O método inclui processamento de dados de imagem de entrada a partir de uma sequência de conjuntos de imagens através de uma rede neural e geração de uma representação alternativa dos dados de imagem de entrada. Cada imagem na sequência de conjuntos de imagens cobre o campo, e representa emissões de intensidade de analitos no campo e seu fundo circundante capturadas para um canal de imagem específico em um ciclo de sequenciamento específico de uma pluralidade de ciclos de sequenciamento de uma corrida de sequenciamento realizada na célula de fluxo. O método inclui processar a representação alternativa através de uma camada de saída e gerar uma saída que identifica analitos, cujas emissões de intensidade são representadas por dados de imagem de entrada, como regiões disjuntas de subpixels adjacentes, centros dos analitos como subpixels de centro em centros de massa das respectivas regiões disjuntas dentre as regiões disjuntas, e seu fundo circundante como subpixels de fundo não pertencentes a qualquer das regiões disjuntas.

[00708] Cada uma das características discutidas na seção da implementação específica para outras implementações se aplica igualmente a esta implementação. Conforme indicado acima, todas as outras características não são repetidas aqui e devem ser consideradas repetidas a título de referência. O leitor entenderá como os recursos identificados nessas implementações podem ser prontamente combinados com conjuntos de características de base identificadas em outras implementações.

[00709] Em uma implementação, os subpixels adjacentes nas respectivas regiões disjuntas dentre as regiões disjuntas têm valores de intensidade pesados de acordo com a distância de um subpixel contíguo a partir de um subpixel de centro em uma região disjunta à qual o subpixel adjacente pertence. Em uma implementação, os subpixels de centro têm valores de intensidade mais elevados nas respectivas regiões disjuntas dentre as regiões disjuntas. Em uma implementação, todos os subpixels de fundo têm um mesmo valor de intensidade mais baixa na saída. Em uma implementação, a camada de saída normaliza os valores de intensidade entre zero e um.

[00710] Em uma implementação, o método inclui aplicar um localizador de pico à saída para encontrar as intensidades de pico na saída, determinar as coordenadas de localização dos centros dos analitos com base nas intensidades de pico, reduzir as coordenadas de localização por um fator de sobreamostragem usado para preparar os dados de imagem de entrada, e armazenar as coordenadas de localização reduzidas na memória para uso na chamada de base dos analitos. Em uma implementação, o método inclui categorizar os subpixels adjacentes nas respectivas regiões disjuntas dentre as regiões disjuntas como subpixels do interior do analito que pertencem a um mesmo analito, e armazenar as coordenadas de categorização e de localização reduzida dos subpixels do interior do analito na memória em uma base de analito-por-analito para uso na chamada de base dos analitos. Em uma implementação, o método inclui, na base de analito-por-analito, determinar as distâncias dos subpixels do interior do analito dos respectivos centros dos analitos dentre os centros dos analitos, e armazenar as distâncias na memória, na base de analito-por-analito para uso na chamada de base dos analitos.

[00711] Em uma implementação, o método inclui extrair intensidades dos subpixels do interior do analito nas respectiva regiões disjuntas dentre as regiões disjuntas, inclusive usando ao menos dentre extração de intensidade do vizinho mais próximo, extração de intensidade baseada em Gauss, extração de intensidade baseada na área média de subpixel de 2 x 2, extração de intensidade baseada na área de subpixel mais brilhante de 2 x 2, extração de intensidade baseada na área média de 3 x 3 de subpixel, extração de intensidade bilinear, extração de intensidade bicúbica, e/ou extração de intensidade baseada na cobertura da área pesada, e armazenar as intensidades na memória, na base de analito-por- analito para uso na chamada dos analitos.

[00712] Em uma implementação, o método inclui, com base nas regiões disjuntas, determinar, como parte dos relacionados metadados de analito, a distribuição espacial dos analitos, incluindo ao menos um dos formatos de analito, tamanhos de analito, e/ou limites de analito, e armazenar os metadados de analito relacionados na memória na base de analito-por-analito para uso na chamada de base dos analitos.

[00713] Em uma implementação, os dados da imagem de entrada incluem imagens na sequência de conjuntos de imagem, e as imagens têm uma resolução de 3000 x 3000. Em uma implementação, os dados de imagem incluem ao menos um patch de imagem de cada uma das imagens na sequência de conjuntos de imagens, e o patch de imagem cobre uma porção do campo e tem uma resolução de 20 x 20. Em uma implementação, os dados de entrada de imagem incluem uma representação sobreamostrada do patch de imagem de cada uma das imagens na sequência de conjuntos de imagens, e a representação sobreamostrada tem uma resolução de 80 x 80. Em uma implementação, a saída tem uma resolução sobreamostrada de 80 x 80.

[00714] Em uma implementação, a rede neural é uma rede neural profunda totalmente convolucional de segmentação com uma sub- rede de codificador e uma sub-rede de decodificador correspondente, sendo que a sub-rede de codificador inclui uma hierarquia de codificadores, e a sub-rede de decodificador inclui uma hierarquia de decodificadores que mapeiam mapas de características de codificador de baixa resolução a mapas de características de resolução de entrada total. Em uma implementação, a densidade dos analitos está na faixa de cerca de 100.000 analitos/mm 2 a cerca de 1.000.000 analitos/mm 2. Em uma outra implementação, a densidade dos analitos está na faixa de cerca de

1.000.000 analitos/mm2 a cerca de 10.000.000 analitos/mm 2.

[00715] Outras implementações do método descrito nesta seção podem incluir uma mídia de armazenamento não transitório legível por computador que armazena instruções executáveis por um processador para executar qualquer dos métodos descritos acima. Ainda uma outra implementação do método descrito nesta seção pode incluir um sistema que inclui memória e um ou mais processadores operáveis para executar instruções, armazenadas na memória, para executar qualquer dos métodos descritos acima. Modelo de regressão de treinamento

[00716] Revelamos um método implementado por computador para treinar uma rede neural para identificar analitos e metadados de analito relacionados. O método inclui obter dados de treinamento para treinar a rede neural. Os dados de treinamento incluem uma pluralidade de exemplos de treinamento e correspondentes dados de verdade absoluta que devem ser gerados pela rede neural através do processamento dos exemplos de treinamento. Cada exemplo de treinamento inclui dados de imagem de uma sequência de conjuntos de imagens. Cada imagem na sequência de conjuntos de imagens cobre um campo de uma célula de fluxo e representa emissões de intensidade de analitos no campo e seu fundo circundante capturadas para um canal de imagem específico em um ciclo de sequenciamento específico de uma pluralidade de ciclos sequenciamento de uma corrida de sequenciamento executada na célula de fluxo. Cada dado de verdade absoluta identifica analitos, cujas emissões de intensidade são representadas pelos dados de imagem de um exemplo de treinamento correspondente, como regiões disjuntas de subpixels adjacentes, centros dos analitos como subpixels de centro em centros de massa das respectivas regiões disjuntas dentre as regiões disjuntas, e seu fundo circundante como subpixels de fundo não pertencentes a nenhuma das regiões disjuntas. O método inclui o uso de uma técnica de treinamento de descida de gradiente para treinar a rede neural e gerar saídas para os exemplos de treinamento que correspondem progressivamente aos dados de verdade absoluta, incluindo otimizar iterativamente uma função de perda que minimiza o erro entre as saídas e os dados de verdade absoluta e atualizar parâmetros da rede neural com base no erro.

[00717] Cada uma das características discutidas na seção da implementação específica para outras implementações se aplica igualmente a esta implementação. Conforme indicado acima, todas as outras características não são repetidas aqui e devem ser consideradas repetidas a título de referência. O leitor entenderá como os recursos identificados nessas implementações podem ser prontamente combinados com conjuntos de características de base identificadas em outras implementações.

[00718] Em uma implementação, o método inclui, na convergência do erro após uma iteração final, armazenar os parâmetros atualizados da rede neural na memória para serem aplicados para a geração de modelo baseado em rede neural e para a chamada de base. Em uma implementação, nos dados de verdade absoluta, os subpixels adjacentes nas respectivas regiões disjuntas dentre as regiões disjuntas têm valores de intensidade pesados de acordo com distância de um subpixel adjacente a partir de um subpixel de centro em uma região disjunta à qual o subpixel adjacente pertence. Em uma implementação, nos dados de verdade absoluta, os subpixels de centro têm valores de intensidade mais altos nas respectivas regiões disjuntas dentre as regiões disjuntas. Em uma implementação, nos dados de verdade absoluta, todos os subpixels de fundo têm um mesmo valor de intensidade mais baixo na saída. Em uma implementação, nos dados de verdade absoluta, os valores de intensidade são normalizados entre zero e um.

[00719] Em uma implementação, a função de perda é erro quadrático médio e o erro é minimizado em uma base de subpixel entre os valores de intensidade normalizados de subpixels correspondentes nas saídas e nos dados de verdade absoluta. Em uma implementação, os dados de verdade absoluta identificam, como parte dos metadados do analito relacionados, distribuição espacial dos analitos, incluindo pelo menos um de formatos de analito, tamanhos de analito, e/ou limites de analito. Em uma implementação, os dados de imagem incluem imagens na sequência de conjuntos de imagens, e as imagens têm uma resolução de 1800 x 1800. Em uma implementação, os dados de imagem incluem ao menos um patch de imagem de cada uma das imagens na sequência de conjuntos de imagens, e o patch de imagem cobre uma porção do campo e tem uma resolução de 20 x 20. Em uma implementação, os dados de imagem incluem uma representação sobreamostrada do patch de imagem de cada uma das imagens na sequência de conjuntos de imagens, e a representação sobreamostrada do patch de imagem tem uma resolução de 80 x 80.

[00720] Em uma implementação, nos dados de treinamento, múltiplos exemplos de treinamento respectivamente incluem, como dados de imagem, diferentes patches de imagem de cada imagem em uma sequência de conjuntos de imagem de um mesmo campo, e ao menos alguns dos diferentes patches de imagens se sobrepõem uns aos outros. Em uma implementação, os dados de verdade absoluta têm uma resolução sobreamostrada de 80 x 80. Em uma implementação, os dados de treinamento incluem exemplos de treinamento para uma pluralidade de campos da célula de fluxo. Em uma implementação, os dados de treinamento incluem exemplos de treinamento para uma variedade de células de fluxo, instrumentos de sequenciamento, protocolos de sequenciamento, químicas de sequenciamento, reagentes de sequenciamento e densidades de analito. Em uma implementação, a rede neural é uma rede neural profunda totalmente convolucional de segmentação com uma sub-rede de codificador e uma sub- rede de decodificador correspondente, sendo que a sub-rede de codificador inclui uma hierarquia de codificadores, e a sub-rede de decodificador inclui uma hierarquia de decodificadores que mapeiam mapas de características de codificador de baixa resolução a mapas de características de resolução de entrada total para classificação em pixel por um camada de classificação final.

[00721] Outras implementações do método descrito nesta seção podem incluir uma mídia de armazenamento não transitório legível por computador que armazena instruções executáveis por um processador para executar qualquer dos métodos descritos acima. Ainda uma outra implementação do método descrito nesta seção pode incluir um sistema que inclui memória e um ou mais processadores operáveis para executar instruções, armazenadas na memória, para executar qualquer dos métodos descritos acima. Gerador de modelo baseado em rede neural

[00722] A presente invenção revela um método implementado por computador para determinar metadados sobre analitos em uma célula de fluxo. O método inclui acessar dados de imagem que representam emissões de intensidade dos analitos, processar os dados de imagem através de uma ou mais camadas de uma rede neural e gerar uma representação alternativa dos dados de imagem, e processar a representação alternativa através de uma camada de saída e gerar uma saída que identifica pelo menos um dentre formatos e tamanhos dos analitos e/ou centros dos analitos.

[00723] Cada uma das características discutidas na seção da implementação específica para outras implementações se aplica igualmente a esta implementação. Conforme indicado acima, todas as outras características não são repetidas aqui e devem ser consideradas repetidas a título de referência. O leitor entenderá como os recursos identificados nessas implementações podem ser prontamente combinados com conjuntos de características de base identificadas em outras implementações.

[00724] Em uma implementação, os dados de imagem representam adicionalmente as emissões de intensidade do fundo circundante dos analitos. Em tal implementação, o método inclui a saída que identifica a distribuição espacial dos analitos na célula de fluxo, incluindo o fundo circundante e limites entre os analitos. Em uma implementação, o método inclui determinar coordenadas de localização de centro dos analitos na célula de fluxo com base na saída. Em uma implementação, a rede neural é uma rede neural convolucional. Em uma implementação, a rede neural é uma rede neural recorrente. Em uma implementação, a rede neural é uma rede neural profunda totalmente convolucional de segmentação com uma sub-rede de codificador e uma sub-rede de decodificador correspondente, sendo que a sub-rede de codificador inclui uma hierarquia de codificadores, e a sub-rede de decodificador inclui uma hierarquia de decodificadores que mapeiam mapas de características de codificador de baixa resolução a mapas de características de resolução de entrada total.

[00725] Outras implementações do método descrito nesta seção podem incluir uma mídia de armazenamento não transitório legível por computador que armazena instruções executáveis por um processador para executar qualquer dos métodos descritos acima. Ainda uma outra implementação do método descrito nesta seção pode incluir um sistema que inclui memória e um ou mais processadores operáveis para executar instruções, armazenadas na memória, para executar qualquer dos métodos descritos acima. Modelo de classificação binária

[00726] A presente invenção revela um método implementado por computador para identificar analitos em um campo de uma célula de fluxo e metadados de analito relacionados. O método inclui processamento de dados de imagem de entrada a partir de uma sequência de conjuntos de imagens através de uma rede neural e geração de uma representação alternativa dos dados de imagem. Em uma implementação, cada imagem na sequência de conjuntos de imagens cobre o campo, e representa as emissões de intensidade de analitos no campo e seu fundo circundante capturadas para um canal de imagem específico em um ciclo de sequenciamento específico dentre uma pluralidade de ciclos de sequenciamento de uma corrida de sequenciamento realizadas na célula de fluxo. O método inclui processar a representação alternativa através de uma camada de classificação e gerar uma saída que identifica centros de analitos cujas emissões de intensidade são representadas por dados de imagem de entrada. A saída tem uma pluralidade de subpixels, e cada subpixel na pluralidade de subpixels é classificado como um centro de analito ou um não centro de analito.

[00727] Cada uma das características discutidas na seção da implementação específica para outras implementações se aplica igualmente a esta implementação. Conforme indicado acima, todas as outras características não são repetidas aqui e devem ser consideradas repetidas a título de referência. O leitor entenderá como os recursos identificados nessas implementações podem ser prontamente combinados com conjuntos de características de base identificadas em outras implementações.

[00728] Em uma implementação, a camada de classificação atribui a cada subpixel na saída um primeiro escore de probabilidade de ser o centro de analito, e um segundo escore de probabilidade de ser o não centro. Em uma implementação, o primeiro e o segundo escores de probabilidade são determinados com base em uma função softmax e exponencialmente normalizados entre zero e um. Em uma implementação, o primeiro e o segundo escores de probabilidade são determinados com base em uma função softmax e exponencialmente normalizados entre zero e um. Em uma implementação, cada subpixel na saída é classificado como o centro do analito ou o não centro com base em qual dentre o primeiro e o segundo escores de probabilidade é maior do que o outro. Em uma implementação, cada subpixel na saída é classificado como o centro do analito ou o não centro com base em se o primeiro e o segundo escores de probabilidade estão acima de um escore de probabilidade de limite predeterminado. Em uma implementação, a saída identifica os centros em centros de massa dos respectivos analitos dentre os analitos. Em uma implementação, na saída, os subpixels classificados como centros de analito são atribuídos a um mesmo primeiro valor predeterminado, e os subpixels classificados como não centros são todos atribuídos a um mesmo segundo valor predeterminado. Em uma implementação, o primeiro e o segundo valores predeterminados são valores de intensidade. Em uma implementação, o primeiro e o segundo valores predeterminados são valores contínuos.

[00729] Em uma implementação, o método inclui determinar as coordenadas de localização de subpixels classificados como centros de analito, reduzir as coordenadas de localização por um fator de amostragem usado para preparar os dados da imagem de entrada, e armazenar as coordenadas de localização reduzidas na memória para uso na chamada de base dos analitos. Em uma implementação, os dados da imagem de entrada incluem imagens na sequência de conjuntos de imagem, e as imagens têm uma resolução de 3000 x 3000. Em uma implementação, os dados de imagem incluem ao menos um patch de imagem de cada uma das imagens na sequência de conjuntos de imagens, e o patch de imagem cobre uma porção do campo e tem uma resolução de 20 x 20. Em uma implementação, os dados de entrada de imagem incluem uma representação sobreamostrada do patch de imagem de cada uma das imagens na sequência de conjuntos de imagens, e a representação sobreamostrada tem uma resolução de 80 x 80. Em uma implementação, a saída tem uma resolução sobreamostrada de 80 x 80.

[00730] Em uma implementação, a rede neural é uma rede neural profunda totalmente convolucional de segmentação com uma sub- rede de codificador e uma sub-rede de decodificador correspondente, seguido pela camada de classificação, a sub-rede de codificador inclui uma hierarquia de codificadores, e a sub-rede de decodificador inclui uma hierarquia de decodificadores que mapeiam mapas de características de codificador de baixa resolução a mapas de características de resolução de entrada total para classificação em subpixel pela camada de classificação. Em uma implementação, a densidade dos analitos está na faixa de cerca de 100.000 analitos/mm 2 a cerca de 1.000.000 analitos/mm2. Em uma outra implementação, a densidade dos analitos está na faixa de cerca de

1.000.000 analitos/mm2 a cerca de 10.000.000 analitos/mm 2.

[00731] Outras implementações do método descrito nesta seção podem incluir uma mídia de armazenamento não transitório legível por computador que armazena instruções executáveis por um processador para executar qualquer dos métodos descritos acima. Ainda uma outra implementação do método descrito nesta seção pode incluir um sistema que inclui memória e um ou mais processadores operáveis para executar instruções, armazenadas na memória, para executar qualquer dos métodos descritos acima. Modelo de classificação binária para treinamento

[00732] Revelamos um método implementado por computador para treinar uma rede neural para identificar analitos e metadados de analito relacionados. O método inclui obter dados de treinamento para treinar a rede neural. Os dados de treinamento incluem uma pluralidade de exemplos de treinamento e correspondentes dados de verdade absoluta que devem ser gerados pela rede neural através do processamento dos exemplos de treinamento. Cada exemplo de treinamento inclui dados de imagem de uma sequência de conjuntos de imagens. Cada imagem na sequência de conjuntos de imagens cobre um campo de uma célula de fluxo e representa emissões de intensidade de analitos no campo e seu fundo circundante capturadas para um canal de imagem específico em um ciclo de sequenciamento específico de uma pluralidade de ciclos sequenciamento de uma corrida de sequenciamento executada na célula de fluxo. Cada um dos dados de verdade absoluta identifica centros de analitos, cujas emissões de intensidade são representadas pelos dados de imagem de uma correspondente exemplo de treinamento. Os dados de verdade absoluta têm uma pluralidade de subpixels, e cada subpixel na pluralidade de subpixels é classificado como um centro de analito ou um não centro de analito. O método inclui o uso de uma técnica de treinamento de descida de gradiente para treinar a rede neural e gerar saídas para os exemplos de treinamento que correspondem progressivamente aos dados de verdade absoluta, incluindo otimizar iterativamente uma função de perda que minimiza o erro entre as saídas e os dados de verdade absoluta e atualizar parâmetros da rede neural com base no erro.

[00733] Cada uma das características discutidas na seção da implementação específica para outras implementações se aplica igualmente a esta implementação. Conforme indicado acima, todas as outras características não são repetidas aqui e devem ser consideradas repetidas a título de referência. O leitor entenderá como os recursos identificados nessas implementações podem ser prontamente combinados com conjuntos de características de base identificadas em outras implementações.

[00734] Em uma implementação, o método inclui, na convergência do erro após uma iteração final, armazenar os parâmetros atualizados da rede neural na memória para serem aplicados para a geração de modelo baseado em rede neural e para a chamada de base. Em uma implementação, nos dados de verdade absoluta, os subpixels classificados como centros de analito são todos atribuídos a um mesmo primeiro escore de classe predeterminado, e os subpixels classificados como não centros são todos atribuídos a um mesmo segundo escore de classe predeterminado. Em uma implementação, em cada saída, cada subpixel tem um primeiro escore de predição de ser o centro de analito, e um segundo escore de predição de ser o não centro. Em uma implementação, a função de perda é perda de entropia cruzada, binária, pesada personalizada e o erro é minimizado em uma base de subpixel entre os escores de predição e os escores de classe dos subpixels correspondentes nas saídas e nos dados de verdade absoluta. Em uma implementação, a dados de verdade absoluta identificam os centros em centros de massa de um dos respectivos analitos entre os analitos. Em uma implementação, nos dados de verdade absoluta, os subpixels classificados como centros de analito são todos atribuídos um mesmo primeiro valor predeterminado, e os subpixels classificados como não centros são todos atribuídos um mesmo segundo valor predeterminado. Em uma implementação, o primeiro e o segundo valores predeterminados são valores de intensidade. Em uma outra implementação, o primeiro e o segundo valores predeterminados são valores contínuos.

[00735] Em uma implementação, os dados de verdade absoluta identificam, como parte dos metadados do analito relacionados, distribuição espacial dos analitos, incluindo pelo menos um de formatos de analito, tamanhos de analito, e/ou limites de analito. Em uma implementação, os dados de imagem incluem imagens na sequência de conjuntos de imagens, e as imagens têm uma resolução de 1800 x 1800. Em uma implementação, os dados de imagem incluem ao menos um patch de imagem de cada uma das imagens na sequência de conjuntos de imagens, e o patch de imagem cobre uma porção do campo e tem uma resolução de 20 x 20. Em uma implementação, os dados de imagem incluem uma representação sobreamostrada do patch de imagem de cada uma das imagens na sequência de conjuntos de imagens, e a representação sobreamostrada do patch de imagem tem uma resolução de 80 x 80. Em uma implementação,

nos dados de treinamento, múltiplos exemplos de treinamento respectivamente incluem, como dados de imagem, diferentes patches de imagem de cada imagem em uma sequência de conjuntos de imagem de um mesmo campo, e ao menos alguns dos diferentes patches de imagens se sobrepõem uns aos outros. Em uma implementação, os dados de verdade absoluta têm uma resolução sobreamostrada de 80 x 80. Em uma implementação, os dados de treinamento incluem exemplos de treinamento para uma pluralidade de campos da célula de fluxo. Em uma implementação, os dados de treinamento incluem exemplos de treinamento para uma variedade de células de fluxo, instrumentos de sequenciamento, protocolos de sequenciamento, químicas de sequenciamento, reagentes de sequenciamento e densidades de analito. Em uma implementação, a rede neural é uma rede neural profunda totalmente convolucional de segmentação com uma sub-rede de codificador e uma sub-rede de decodificador correspondente, seguido pela camada de classificação, a sub-rede de codificador inclui uma hierarquia de codificadores, e a sub-rede de decodificador inclui uma hierarquia de decodificadores que mapeiam mapas de características de codificador de baixa resolução a mapas de características de resolução de entrada total para classificação em subpixel pela camada de classificação.

[00736] Outras implementações do método descrito nesta seção podem incluir uma mídia de armazenamento não transitório legível por computador que armazena instruções executáveis por um processador para executar qualquer dos métodos descritos acima. Ainda uma outra implementação do método descrito nesta seção pode incluir um sistema que inclui memória e um ou mais processadores operáveis para executar instruções, armazenadas na memória, para executar qualquer dos métodos descritos acima. Modelo de classificação ternária

[00737] A presente invenção revela um método implementado por computador para identificar analitos em um campo de uma célula de fluxo e metadados de analito relacionados. O método inclui processamento de dados de imagem de entrada a partir de uma sequência de conjuntos de imagens através de uma rede neural e geração de uma representação alternativa dos dados de imagem. Cada imagem na sequência de conjuntos de imagens cobre o campo, e representa emissões de intensidade de analitos no campo e seu fundo circundante capturadas para um canal de imagem específico em um ciclo de sequenciamento específico de uma pluralidade de ciclos de sequenciamento de uma corrida de sequenciamento realizada na célula de fluxo. O método inclui processar a representação alternativa através de uma camada de classificação e gerar uma saída que identifica a distribuição espacial de analitos e seu fundo circundante cujas emissões de intensidade são representadas por dados de imagem de entrada, incluindo pelo menos um de centros de analito, formatos de analito, e/ou limites de analito. A saída tem uma pluralidade de subpixels, e cada subpixel na pluralidade de subpixels é classificado como fundo, centro de analito ou interior de analito.

[00738] Cada uma das características discutidas na seção da implementação específica para outras implementações se aplica igualmente a esta implementação. Conforme indicado acima, todas as outras características não são repetidas aqui e devem ser consideradas repetidas a título de referência. O leitor entenderá como os recursos identificados nessas implementações podem ser prontamente combinados com conjuntos de características de base identificadas em outras implementações.

[00739] Em uma implementação, a camada de classificação atribui a cada subpixel na saída um primeiro escore de probabilidade de ser o fundo, um segundo escore de probabilidade de ser o centro do analito, e um terceiro escore de probabilidade de ser o interior do analito. Em uma implementação, o primeiro, o segundo, e o terceiro escores de probabilidade são determinados com base em uma função softmax e exponencialmente normalizados entre zero e um. Em uma implementação, cada subpixel na saída é classificado como o fundo, o centro do analito ou o interior do analito com base em qual dentre o primeiro, o segundo, e o terceiro escore de probabilidade é o mais alto. Em uma implementação, cada subpixel na saída é classificado como o fundo, o centro do analito ou o interior do analito com base em se o primeiro, o segundo e o terceiro escores de probabilidade estão acima de um escore de probabilidade de limite predeterminado. Em uma implementação, a saída identifica os centros do analito nos centros de massa dos respectivos analitos dentre os analitos. Em uma implementação, na saída, todos os subpixels classificados como fundo são todos atribuídos ao mesmo primeiro valor predeterminado, os subpixels classificados como centro de analito são todos atribuídos a um mesmo segundo valor predeterminado, e os subpixels classificados como interior de analito são todos atribuídos a um mesmo terceiro valor predeterminado. Em uma implementação, o primeiro, segundo, e terceiro valores predeterminados são valores de intensidade. Em uma implementação, o primeiro, segundo, e terceiro valores predeterminados são valores contínuos.

[00740] Em uma implementação, o método inclui determinar as coordenadas de localização de subpixels classificados como centros de analito em uma base de analito-por-analito, reduzir as coordenadas de localização por um fator de sobreamostragem usado para preparar os dados da imagem de entrada, e armazenar as coordenadas de localização reduzidas na memória na base de analito-por-analito para uso na chamada de base dos analitos. Em uma implementação, o método inclui determinar as coordenadas de localização de subpixels classificados como interior de analito na base de analito-por-analito, reduzir as coordenadas de localização por um fator de sobreamostragem usado para preparar os dados da imagem de entrada, e armazenar as coordenadas de localização reduzidas na memória na base de analito-por-analito para uso na chamada de base dos analitos. Em uma implementação, o método inclui, na base de analito-por-analito, determinar as distâncias dos subpixels classificados como interior do analito dos respectivos subpixels dentre os subpixels classificados como centros de analito, e armazenar as distâncias na memória, na base de analito-por-analito, para uso na chamada de base dos analitos. Em uma implementação, o método inclui, na base de analito-por-analito, extrair intensidades dos subpixels classificados como interior do analito, incluindo usando ao menos um dentre extração de intensidade do vizinho mais próximo, extração de intensidade baseada em Gauss, extração de intensidade baseada na área média de subpixel de 2 x 2, extração de intensidade mais brilhante de área de subpixel de 2 x 2, extração de intensidade baseada na área média de 3 x 3 de subpixel, extração de intensidade bilinear, extração de intensidade bicúbica, e/ou extração de intensidade baseada na cobertura da área pesada, e armazenar as intensidades na memória, na base de analito-por-analito para uso na chamada dos analitos.

[00741] Em uma implementação, os dados da imagem de entrada incluem imagens na sequência de conjuntos de imagem, e as imagens têm uma resolução de 3000 x 3000. Em uma implementação, os dados de imagem incluem ao menos um patch de imagem de cada uma das imagens na sequência de conjuntos de imagens, e o patch de imagem cobre uma porção do campo e tem uma resolução de 20 x 20. Em uma implementação, os dados de entrada de imagem incluem uma representação sobreamostrada do patch de imagem de cada uma das imagens na sequência de conjuntos de imagens, e a representação sobreamostrada tem uma resolução de 80 x 80. Em uma implementação, a saída tem uma resolução sobreamostrada de 80 x 80. Em uma implementação, a rede neural é uma rede neural profunda totalmente convolucional de segmentação com uma sub-rede de codificador e uma sub-rede de decodificador correspondente, seguido pela camada de classificação, a sub-rede de codificador inclui uma hierarquia de codificadores, e a sub-rede de decodificador inclui uma hierarquia de decodificadores que mapeiam mapas de características de codificador de baixa resolução a mapas de características de resolução de entrada total para classificação em subpixel pela camada de classificação. Em uma implementação, a densidade dos analitos está na faixa de cerca de 100.000 analitos/mm2 a cerca de 1.000.000 analitos/mm2. Em uma outra implementação, a densidade dos analitos está na faixa de cerca de

1.000.000 analitos/mm2 a cerca de 10.000.000 analitos/mm2.

[00742] Outras implementações do método descrito nesta seção podem incluir uma mídia de armazenamento não transitório legível por computador que armazena instruções executáveis por um processador para executar qualquer dos métodos descritos acima. Ainda uma outra implementação do método descrito nesta seção pode incluir um sistema que inclui memória e um ou mais processadores operáveis para executar instruções, armazenadas na memória, para executar qualquer dos métodos descritos acima. Modelo de classificação ternária para treinamento

[00743] Revelamos um método implementado por computador para treinar uma rede neural para identificar analitos e metadados de analito relacionados. O método inclui obter dados de treinamento para treinar a rede neural. Os dados de treinamento incluem uma pluralidade de exemplos de treinamento e correspondentes dados de verdade absoluta que devem ser gerados pela rede neural através do processamento dos exemplos de treinamento. Cada exemplo de treinamento inclui dados de imagem de uma sequência de conjuntos de imagens. Cada imagem na sequência de conjuntos de imagens cobre um campo de uma célula de fluxo e representa emissões de intensidade de analitos no campo e seu fundo circundante capturadas para um canal de imagem específico em um ciclo de sequenciamento específico de uma pluralidade de ciclos sequenciamento de uma corrida de sequenciamento executada na célula de fluxo. Cada dado de verdade absoluta identifica a distribuição espacial de analitos e seu fundo circundante cujas emissões de intensidade são representadas por dados de imagem de entrada, incluindo centros de analito, formatos de analito, tamanhos de analito, e limites de analito. Os dados de verdade absoluta têm uma pluralidade de subpixels, e cada subpixel na pluralidade de subpixels é classificada como fundo, centro de analito, ou interior de analito. O método inclui o uso de uma técnica de treinamento de descida de gradiente para treinar a rede neural e gerar saídas para os exemplos de treinamento que correspondem progressivamente aos dados de verdade absoluta, incluindo otimizar iterativamente uma função de perda que minimiza o erro entre as saídas e os dados de verdade absoluta e atualizar parâmetros da rede neural com base no erro.

[00744] Cada uma das características discutidas na seção da implementação específica para outras implementações se aplica igualmente a esta implementação. Conforme indicado acima, todas as outras características não são repetidas aqui e devem ser consideradas repetidas a título de referência. O leitor entenderá como os recursos identificados nessas implementações podem ser prontamente combinados com conjuntos de características de base identificadas em outras implementações.

[00745] Em uma implementação, o método inclui, na convergência do erro após uma iteração final, armazenar os parâmetros atualizados da rede neural na memória para serem aplicados para a geração de modelo baseado em rede neural e para a chamada de base. Em uma implementação, nos dados de verdade absoluta, os subpixels classificados como fundo são todos atribuídos a um mesmo primeiro escore de classe predeterminado, os subpixels classificados como centros de analito são todos atribuídos a um mesmo segundo escore de classe predeterminado, e os subpixels classificados como interior de analito são todos atribuídos a um mesmo terceiro escore de classe predeterminado.

[00746] Em uma implementação, em cada saída, cada subpixel tem um primeiro escore de predição de ser o fundo, um segundo escore de predição de ser o centro de analito, e uma terceira escore de predição de ser o interior do analito. Em uma implementação, a função de perda é perda de entropia cruzada, binária, pesada personalizada e o erro é minimizado em um base de unidade entre os escores de predição e os escores de classe dos subpixels correspondentes nas saídas e nos dados de verdade absoluta. Em uma implementação, a dados de verdade absoluta identifica os centros do analito em centros de massa do respectivo analito dentre os respectivos analitos. Em uma implementação, nos dados de verdade absoluta, os subpixels classificados como fundo são todos atribuídos ao mesmo primeiro valor predeterminado, os subpixels classificados como centro de analito são todos atribuídos a um mesmo segundo valor predeterminado, e os subpixels classificados como interior de analito são todos atribuídos a um mesmo terceiro valor predeterminado. Em uma implementação, o primeiro, segundo, e terceiro valores predeterminados são valores de intensidade. Em uma implementação, o primeiro, segundo, e terceiro valores predeterminados são valores contínuos. Em uma implementação, os dados de imagem incluem imagens na sequência de conjuntos de imagens, e as imagens têm uma resolução de 1800 x 1800. Em uma implementação, os dados de imagem incluem imagens na sequência de conjuntos de imagens, e as imagens têm uma resolução de 1800 x 1800.

[00747] Em uma implementação, os dados de imagem incluem ao menos um patch de imagem de cada uma das imagens na sequência de conjuntos de imagens, e o patch de imagem cobre uma porção do campo e tem uma resolução de 20 x 20. Em uma implementação, os dados de imagem incluem uma representação sobreamostrada do patch de imagem de cada uma das imagens na sequência de conjuntos de imagens, e a representação sobreamostrada do patch de imagem tem uma resolução de 80 x 80. Em uma implementação, nos dados de treinamento, múltiplos exemplos de treinamento respectivamente incluem, como dados de imagem, diferentes patches de imagem de cada imagem em uma sequência de conjuntos de imagem de um mesmo campo, e ao menos alguns dos diferentes patches de imagens se sobrepõem uns aos outros. Em uma implementação, os dados de verdade absoluta têm uma resolução sobreamostrada de 80 x 80. Em uma implementação, os dados de treinamento incluem exemplos de treinamento para uma pluralidade de campos da célula de fluxo. Em uma implementação, os dados de treinamento incluem exemplos de treinamento para uma variedade de células de fluxo, instrumentos de sequenciamento, protocolos de sequenciamento, químicas de sequenciamento, reagentes de sequenciamento e densidades de analito. Em uma implementação, a rede neural é uma rede neural profunda totalmente convolucional de segmentação com uma sub-rede de codificador e uma sub-rede de decodificador correspondente, seguido pela camada de classificação, a sub-rede de codificador inclui uma hierarquia de codificadores, e a sub-rede de decodificador inclui uma hierarquia de decodificadores que mapeiam mapas de características de codificador de baixa resolução a mapas de características de resolução de entrada total para classificação em subpixel pela camada de classificação.

[00748] Outras implementações do método descrito nesta seção podem incluir uma mídia de armazenamento não transitório legível por computador que armazena instruções executáveis por um processador para executar qualquer dos métodos descritos acima. Ainda uma outra implementação do método descrito nesta seção pode incluir um sistema que inclui memória e um ou mais processadores operáveis para executar instruções, armazenadas na memória, para executar qualquer dos métodos descritos acima. Segmentação

[00749] Revelamos um método implementado por computador para determinar metadados de analito. O método inclui processar dados de imagem de entrada derivados e uma sequência de conjuntos de imagens através de uma rede neural e gerar uma representação alternativa dos dados de imagem de entrada. Os dados da imagem de entrada têm uma matriz de unidades que mostra analitos seu fundo circundante. O método inclui processar a representação alternativa através de uma camada de saída e gerar um valor de saída para cada unidade na matriz. O método inclui limitar os valores de saída das unidades e classificar um primeiro subconjunto das unidades como unidades de fundo que representam as unidades de fundo circundante. O método inclui localizar picos nos valores de saída das unidades e classificar um segundo subconjunto das unidades como unidades de centro contendo centros dos analitos. O método inclui aplicar um segmentador aos valores de saída das unidades e determinar formas dos analitos como regiões não sobrepostos de unidades contíguas separadas por unidades de fundo e centralizadas nas unidades de centro. O segmentador começa com as unidades de centro e determina, para cada unidade de centro, um grupo de unidades sucessivamente contíguas que representam um mesmo analito cujo centro está contido na unidade de centro.

[00750] Cada uma das características discutidas na seção da implementação específica para outras implementações se aplica igualmente a esta implementação. Conforme indicado acima, todas as outras características não são repetidas aqui e devem ser consideradas repetidas a título de referência. O leitor entenderá como os recursos identificados nessas implementações podem ser prontamente combinados com conjuntos de características de base identificadas em outras implementações.

[00751] Em uma implementação, as unidades são pixels. Em uma outra implementação, as unidades são subpixels. Em ainda uma outra implementação, as unidades são superpixels. Em uma implementação, os valores de saída são valores contínuos. Em uma outra implementação, a valores de saída são escores softmax. Em uma implementação, as unidades contíguas nas respectivas regiões não sobrepostas dentre as regiões não sobrepostas têm valores de saída pesados de acordo com a distância de uma unidade contigua a partir de uma unidade de centro em uma região não sobreposta à qual a unidade contígua pertence. Em uma implementação, as unidades de centro têm valores de saída mais altos nas respectivas regiões não sobrepostas dentre as regiões não sobrepostas.

[00752] Em uma implementação, as regiões não sobrepostas têm contornos irregulares e as unidades são subpixels. Em tal implementação, o método inclui determinar a intensidade do analito de um dado analito mediante a identificação de subpixels que contribuem para a intensidade do analito para um dado analito com base em uma região não sobreposta correspondente de subpixels contíguos que identifica um formato do dado analito, localizar os subpixels identificados em uma ou mais imagens ópticas de resolução em pixel para um ou mais canais em um ciclo de sequenciamento atual, em cada uma das imagens, interpolar as intensidades dos subpixels identificados, combinar as intensidades interpoladas, e normalizar as intensidades interpoladas combinadas para produzir uma intensidade de analito por imagem para o dado analito em cada uma das imagens, e combinar a intensidade por imagem intensidade para o analito para um dado analito em cada uma das imagens, e combinar a intensidade do analito por imagem para cada uma das imagens para determinar a intensidade do analito do dado analito no ciclo de sequenciamento atual. Em uma implementação, a normalização tem por base um fator de normalização, e o fator de normalização é um número de subpixels identificados. Em uma implementação, o método inclui a chamada de base do dado analito com base na intensidade do analito no ciclo de sequenciamento atual.

[00753] Em uma implementação, as regiões não sobrepostas têm contornos irregulares e as unidades são subpixels. Em tal implementação, o método inclui determinar a intensidade do analito de um dado analito mediante a identificação de subpixels que contribuem para a intensidade do analito do dado analito com base em uma região não sobreposta correspondente de subpixels contíguos que identifica um formato do dado analito, localizar os subpixels identificados em uma ou mais imagens ópticas sobreamostradas a partir de resolução em pixel de correspondentes imagens ópticas de resolução em pixel geradas por um ou mais canais de imagem em um ciclo de sequenciamento atual, em cada uma das imagens sobreamostradas, combinar as intensidades dos subpixels identificados e normalizar as intensidades combinadas para produzir uma intensidade de analito por imagem para o dado analito em cada uma das imagens sobreamostradas, e combinar a intensidade do analito por imagem para cada uma das imagens sobreamostradas para determinar a intensidade do analito do dado analito em um ciclo de sequenciamento atual. Em uma implementação, a normalização tem por base um fator de normalização, e o fator de normalização é um número de subpixels identificados. Em uma implementação, o método inclui a chamada de base do dado analito com base na intensidade do analito no ciclo de sequenciamento atual.

[00754] Em uma implementação, cada imagem na sequência de conjuntos de imagens cobre um campo, e representa as emissões de intensidade de analitos em umo campo e seu fundo circundante capturadas para um canal de imagem específico em um ciclo de sequenciamento específico dentre uma pluralidade de ciclos de sequenciamento de uma corrida de sequenciamento realizadas em uma célula de fluxo. Em uma implementação, os dados de imagem incluem ao menos um patch de imagem de cada uma das imagens na sequência de conjuntos de imagens, e o patch de imagem cobre uma porção do campo e tem uma resolução de 20 x 20. Em uma implementação, os dados de entrada de imagem incluem uma representação sobreamostrada da resolução em subpixel do patch de imagem de cada uma das imagens na sequência de conjuntos de imagens, e a representação sobreamostrada em pixel tem uma resolução de 80 x 80.

[00755] Em uma implementação, a rede neural é uma rede neural convolucional. Em uma outra implementação, a rede neural é uma rede neural recorrente. Em ainda uma outra implementação, a rede neural é uma rede neural residual com blocos residuais e conexões residuais. Em ainda uma outra implementação, a rede neural é uma rede neural profunda totalmente convolucional de segmentação com uma sub-rede de codificador e uma sub-rede de decodificador correspondente, sendo que a sub-rede de codificador inclui uma hierarquia de codificadores, e a sub-rede de decodificador inclui uma hierarquia de decodificadores que mapeiam mapas de características de codificador de baixa resolução a mapas de características de resolução de entrada total.

[00756] Outras implementações do método descrito nesta seção podem incluir uma mídia de armazenamento não transitório legível por computador que armazena instruções executáveis por um processador para executar qualquer dos métodos descritos acima. Ainda uma outra implementação do método descrito nesta seção pode incluir um sistema que inclui memória e um ou mais processadores operáveis para executar instruções, armazenadas na memória, para executar qualquer dos métodos descritos acima. Detecção de pico

[00757] Revelamos um método implementado por computador para determinar metadados de analito. O método inclui processar dados de imagem de entrada derivados e uma sequência de conjuntos de imagens através de uma rede neural e gerar uma representação alternativa dos dados de imagem de entrada. Os dados da imagem de entrada têm uma matriz de unidades que mostra analitos seu fundo circundante. O método inclui processar a representação alternativa através de uma camada de saída e gerar um valor de saída para cada unidade na matriz. O método inclui limitar os valores de saída das unidades e classificar um primeiro subconjunto das unidades como unidades de fundo que representam as unidades de fundo circundante. O método inclui localizar picos nos valores de saída das unidades e classificar um segundo subconjunto das unidades como unidades de centro contendo centros dos analitos.

[00758] Cada uma das características discutidas na seção da implementação específica para outras implementações se aplica igualmente a esta implementação. Conforme indicado acima, todas as outras características não são repetidas aqui e devem ser consideradas repetidas a título de referência. O leitor entenderá como os recursos identificados nessas implementações podem ser prontamente combinados com conjuntos de características de base identificadas em outras implementações.

[00759] Em uma implementação, o método inclui aplicar um segmentador aos valores de saída das unidades e determinar os formatos dos analitos como regiões não sobrepostos de unidades contiguas separadas por unidades de fundo e centralizadas nas unidades de centro. O segmentador começa com as unidades de centro e determina, para cada unidade de centro, um grupo de unidades sucessivamente contíguas que representam um mesmo analito cujo centro está contido na unidade de centro.

[00760] Outras implementações do método descrito nesta seção podem incluir uma mídia de armazenamento não transitório legível por computador que armazena instruções executáveis por um processador para executar qualquer dos métodos descritos acima. Ainda uma outra implementação do método descrito nesta seção pode incluir um sistema que inclui memória e um ou mais processadores operáveis para executar instruções, armazenadas na memória, para executar qualquer dos métodos descritos acima. Gerador de metadados de analito baseado em rede neural

[00761] Em uma implementação, um método inclui processar dados de imagem por meio de uma rede neural e gerar uma representação alternativa dos dados de imagem. Os dados de imagem representam emissões de intensidade dos analitos. O método incluir processar a representação alternativa através de uma camada de saída e gerar uma saída que identifica metadados sobre os analitos, incluindo ao menos um dentre distribuição espacial dos analitos, formatos dos analitos, centros dos analitos, e/ou limites entre os analitos. Cada uma das características discutidas na seção da implementação específica para outras implementações se aplica igualmente a esta implementação. Conforme indicado acima, todas as outras características não são repetidas aqui e devem ser consideradas repetidas a título de referência. O leitor entenderá como os recursos identificados nessas implementações podem ser prontamente combinados com conjuntos de características de base identificadas em outras implementações. Outras implementações do método descrito nesta seção podem incluir uma mídia de armazenamento não transitório legível por computador que armazena instruções executáveis por um processador para executar qualquer dos métodos descritos acima. Ainda uma outra implementação do método descrito nesta seção pode incluir um sistema que inclui memória e um ou mais processadores operáveis para executar instruções, armazenadas na memória, para executar qualquer dos métodos descritos acima. Modelo de regressão baseado em unidades

[00762] A presente invenção revela um método implementado por computador para identificar analitos em um campo de uma célula de fluxo e metadados de analito relacionados. O método inclui processamento de dados de imagem de entrada a partir de uma sequência de conjuntos de imagens através de uma rede neural e geração de uma representação alternativa dos dados de imagem de entrada. Cada imagem na sequência de conjuntos de imagens cobre o campo, e representa emissões de intensidade de analitos no campo e seu fundo circundante capturadas para um canal de imagem específico em um ciclo de sequenciamento específico de uma pluralidade de ciclos de sequenciamento de uma corrida de sequenciamento realizada na célula de fluxo. O método inclui processar a representação alternativa através de uma camada de saída e gerar uma saída que identifica analitos, cujas emissões de intensidade são representadas por dados de imagem de entrada, como regiões disjuntas de unidades adjacentes, centros dos analitos como unidades de centro em centros de massa das respectivas regiões disjuntas dentre as regiões disjuntas, e seu fundo circundante como unidades de fundo não pertencentes a qualquer das regiões disjuntas.

[00763] Cada uma das características discutidas na seção da implementação específica para outras implementações se aplica igualmente a esta implementação. Conforme indicado acima, todas as outras características não são repetidas aqui e devem ser consideradas repetidas a título de referência. O leitor entenderá como os recursos identificados nessas implementações podem ser prontamente combinados com conjuntos de características de base identificadas em outras implementações.

[00764] Em uma implementação, as unidades são pixels. Em uma outra implementação, as unidades são subpixels. Em ainda uma outra implementação, as unidades são superpixels. Outras implementações do método descrito nesta seção podem incluir uma mídia de armazenamento não transitório legível por computador que armazena instruções executáveis por um processador para executar qualquer dos métodos descritos acima. Ainda uma outra implementação do método descrito nesta seção pode incluir um sistema que inclui memória e um ou mais processadores operáveis para executar instruções, armazenadas na memória, para executar qualquer dos métodos descritos acima. Modelo de classificação binária baseado em unidades

[00765] A presente invenção revela um método implementado por computador para identificar analitos em um campo de uma célula de fluxo e metadados de analito relacionados. O método inclui processamento de dados de imagem de entrada a partir de uma sequência de conjuntos de imagens através de uma rede neural e geração de uma representação alternativa dos dados de imagem. Cada imagem na sequência de conjuntos de imagens cobre o campo, e representa emissões de intensidade de analitos no campo e seu fundo circundante capturadas para um canal de imagem específico em um ciclo de sequenciamento específico de uma pluralidade de ciclos de sequenciamento de uma corrida de sequenciamento realizada na célula de fluxo. O método inclui processar a representação alternativa através de uma camada de classificação e gerar uma saída que identifica centros de analitos cujas emissões de intensidade são representadas por dados de imagem de entrada. A saída tem uma pluralidade de unidades, e cada unidade na pluralidade de unidades é classificada como um centro de analito ou um não centro de analito.

[00766] Cada uma das características discutidas na seção da implementação específica para outras implementações se aplica igualmente a esta implementação. Conforme indicado acima, todas as outras características não são repetidas aqui e devem ser consideradas repetidas a título de referência. O leitor entenderá como os recursos identificados nessas implementações podem ser prontamente combinados com conjuntos de características de base identificadas em outras implementações.

[00767] Em uma implementação, as unidades são pixels. Em uma outra implementação, as unidades são subpixels. Em ainda uma outra implementação, as unidades são superpixels. Outras implementações do método descrito nesta seção podem incluir uma mídia de armazenamento não transitório legível por computador que armazena instruções executáveis por um processador para executar qualquer dos métodos descritos acima. Ainda uma outra implementação do método descrito nesta seção pode incluir um sistema que inclui memória e um ou mais processadores operáveis para executar instruções, armazenadas na memória, para executar qualquer dos métodos descritos acima. Modelo de classificação ternária baseado em unidades

[00768] A presente invenção revela um método implementado por computador para identificar analitos em um campo de uma célula de fluxo e metadados de analito relacionados. O método inclui processamento de dados de imagem de entrada a partir de uma sequência de conjuntos de imagens através de uma rede neural e geração de uma representação alternativa dos dados de imagem. Cada imagem na sequência de conjuntos de imagens cobre o campo, e representa emissões de intensidade de analitos no campo e seu fundo circundante capturadas para um canal de imagem específico em um ciclo de sequenciamento específico de uma pluralidade de ciclos de sequenciamento de uma corrida de sequenciamento realizada na célula de fluxo. O método inclui processar a representação alternativa através de uma camada de classificação e gerar uma saída que identifica a distribuição espacial de analitos e seu fundo circundante cujas emissões de intensidade são representadas por dados de imagem de entrada, incluindo pelo menos um de centros de analito, formatos de analito, e/ou limites de analito. A saída tem uma pluralidade de unidades, e cada unidade na pluralidade de unidades é classificado como fundo, centro de analito ou interior de analito.

[00769] Cada uma das características discutidas na seção da implementação específica para outras implementações se aplica igualmente a esta implementação. Conforme indicado acima, todas as outras características não são repetidas aqui e devem ser consideradas repetidas a título de referência. O leitor entenderá como os recursos identificados nessas implementações podem ser prontamente combinados com conjuntos de características de base identificadas em outras implementações.

[00770] Em uma implementação, as unidades são pixels. Em uma outra implementação, as unidades são subpixels. Em ainda uma outra implementação, as unidades são superpixels. Outras implementações do método descrito nesta seção podem incluir uma mídia de armazenamento não transitório legível por computador que armazena instruções executáveis por um processador para executar qualquer dos métodos descritos acima. Ainda uma outra implementação do método descrito nesta seção pode incluir um sistema que inclui memória e um ou mais processadores operáveis para executar instruções, armazenadas na memória, para executar qualquer dos métodos descritos acima. Cláusulas

[00771] Nós divulgamos as seguintes cláusulas: Conjunto de cláusulas 1

1. Um método implementado por computador para determinar regiões de imagem indicativas de analitos em um campo de uma célula de fluxo, sendo que o método compreende: acessar uma série de conjuntos de imagens gerados durante uma corrida de sequenciamento, cada conjunto de imagens na série gerada durante um respectivo ciclo sequenciamento da corrida de sequenciamento, cada imagem na série representando os analitos e seu fundo circundante, e cada imagem na série tendo uma pluralidade de subpixels;

obter, a partir de um chamador de base, uma chamada de base que classifica cada um dos subpixels, produzindo, assim, uma sequência de chamadas de base para cada um dos subpixels através de uma pluralidade de ciclos de sequenciamento da corrida de sequenciamento; determinar uma pluralidade de regiões de disjuntas de subpixels contíguos que compartilham uma sequência de chamada de base substancialmente correspondente; e gerar um mapa de analitos que identifica as determinadas regiões disjuntas.

2. O método implementado por computador da cláusula 1, que inclui adicionalmente: treinar um classificador com base na pluralidade determinada de regiões disjuntas de subpixels contíguos, sendo que o classificador é um gerador de modelo baseado em rede neural para processar dados de imagem de entrada para gerar um mapa de decaimento, um mapa ternário ou um mapa binário, representando uma ou mais propriedades de cada um dentre uma pluralidade de analitos representados nos dados de imagem de entrada para chamada de base por um chamador de base baseado em rede neural, de preferência, para aumentar o nível de rendimento em tecnologias de sequenciamento de ácido nucleico de alto rendimento.

3. O método implementado por computador de qualquer das cláusulas 1 a 2, que inclui adicionalmente: gerar o mapa de analitos mediante identificação, como fundo, dos subpixels que não pertencem a nenhuma das regiões disjuntas.

4. O método implementado por computador de qualquer das cláusulas 1 a 3, em que o mapa de analitos identifica porções de limites de analito entre dois subpixels contíguos cujas sequência de chamada de base não são substancialmente correspondentes.

5. O método implementado por computador de qualquer das cláusulas 1 a 4, em que a determinação da pluralidade de regiões disjuntas de subpixels contíguos inclui adicionalmente: identificar os subpixels de origem nas coordenadas preliminares de centro dos analitos determinadas pelo chamador de base; e buscar primeiro em largura as sequências de chamadas de base substancialmente correspondentes começando com os subpixels de origem e continuando com os subpixels não de origem sucessivamente contíguos.

6. O método implementado por computador de qualquer das cláusulas 1 a 5, que inclui adicionalmente: determinar as coordenadas hiperlocalizadas de centro dos analitos mediante cálculo dos centros de massa das regiões disjuntas do mapa de analitos como uma média das coordenadas dos respectivos subpixels contíguos que formam as regiões disjuntas; e armazenar as coordenadas hiperlocalizadas de centros dos analitos na memória para uso como verdade absoluta para treinar o classificador.

7. O método implementado por computador da cláusula 6, que inclui adicionalmente: identificar subpixels de centros de massa nas regiões disjuntas do mapa de analitos nas coordenadas hiperlocalizadas de centro dos analitos; sobreamostrar o mapa de analitos com o uso de interpolação e armazenar o mapa de analitos sobreamostrados na memória para uso como verdade absoluta para treinar o classificador; e no mapa de analitos sobreamostrados, atribuir um valor para cada subpixel contíguo nas regiões disjuntas com base em um fator de decaimento que é proporcional à distância de um subpixel contíguo a partir de um subpixel de centro de massa em uma região disjunta à qual o subpixel contíguo pertence.

8. O método implementado por computador da cláusula 7, sendo que o método inclui, ainda, de preferência:

gerar o mapa de decaimento a partir do mapa de analitos sobreamostrados que expressa os subpixels contíguos nas regiões disjuntas e os subpixels identificados como o fundo com base nos seus valores atribuídos; e armazenar o mapa de decaimento na memória para uso como verdade absoluta para treinar o classificador.

9. O método implementado por computador da cláusula 8, sendo que o método, com mais preferência ainda, inclui adicionalmente: no mapa de analitos sobreamostrados, categorizar, na base de analito-por-analito, os subpixels contíguos nas regiões desjuntas como subpixels de interior de analito que pertencem a um mesmo analito, os subpixels de centros de massa como subpixels de centro de analito, os subpixels contendo as porções de limite de analito como subpixels de limite, e os subpixels identificados como o fundo como subpixels de fundo; e armazenar as categorizações na memória para uso como verdade absoluta para treinar o classificador.

10. O método implementado por computador de qualquer das cláusulas 1 a 9, que inclui adicionalmente: armazenar, na base de analito-por-analito, as coordenadas dos subpixels de interior de analito, dos subpixels de centro de analito, dos subpixels de limite, e dos subpixels de fundo na memória para uso como verdade absoluta para treinar o classificador; reduzir as coordenadas por um fator usado para sobreamostrar o mapa de analitos; e armazenar, na base de analito-por-analito, as coordenadas reduzidas na memória para uso como verdade absoluta para treinar o classificador.

11. O método implementado por computador de qualquer das cláusulas 1 a 10, que inclui adicionalmente: em dados binários de verdade absoluta gerados a partir do mapa de analitos sobreamostrados, usar codificação de cores para rotular os subpixels de centro de analito como pertencentes a uma classe de centro de analito e todos os outros subpixels são pertencentes a uma classe não de centro; e armazenar os dados binários de verdade absoluta na memória para uso como verdade absoluta para treinar o classificador.

12. O método implementado por computador de qualquer das cláusulas 1 a 11, que inclui adicionalmente: em dados ternários de verdade absoluta gerados a partir do mapa de analitos sobreamostrados, usar codificação de cores para rotular os subpixels de fundo como pertencentes a uma classe de fundo, os subpixels de centro de analito como pertencentes a uma classe de centro de analito, e os subpixels de interior de analito como pertencentes a uma classe de interior de analito; e armazenar os dados ternários de verdade absoluta na memória para uso como verdade absoluta para treinar o classificador.

13. O método implementado por computador de qualquer das cláusulas 1 a 12, que inclui adicionalmente: gerar mapas de analito para uma pluralidade de campos da célula de fluxo; armazenar os mapas de analitos na memória e determinar a distribuição espacial dos analitos nos campos com base nos mapas de analitos, incluindo seus formatos e tamanhos; nos mapas de analitos sobreamostrados dos analitos nos campos, categorizar, em uma base de analito-por-analito, os subpixels como subpixels de interior de analito que pertencem a um mesmo analito, os subpixels de centro de analito, os subpixels de limite, e os subpixels de fundo; armazenar as categorizações na memória para uso como verdade absoluta para treinar o classificador;

armazenar, na base de analito-por-analito através dos campos, as coordenadas dos subpixels de interior de analito, dos subpixels de centro de analito, dos subpixels de limite, e dos subpixels de fundo na memória para uso como verdade absoluta para treinar o classificador; reduzir as coordenadas por um fator usado para sobreamostrar o mapa de analitos; e armazenar, na base de analito-por-analito através dos campos, as coordenadas reduzidas na memória para uso como verdade absoluta para treinar o classificador.

14. O método implementado por computador de qualquer das cláusulas 1 a 13, em que as sequências de chamadas de base são substancialmente correspondentes quando uma porção predeterminada de chamadas de base corresponde em uma base ordinal em posição.

15. O método implementado por computador de qualquer das cláusulas 1 a 14, em que a determinação da pluralidade de regiões disjuntas de subpixels contíguos que compartilham uma sequência de chamada de base substancialmente correspondente é baseada em um número mínimo predeterminado de subpixels para uma região disjunta.

16. O método implementado por computador de qualquer das cláusulas 1 a 15, em que a célula de fluxo tem pelo menos uma superfície dotada de um padrão com uma matriz de poços que ocupam os analitos, incluindo adicionalmente: com base nos formatos e tamanhos determinados dos analitos, determinar quais dos poços são substancialmente ocupados por pelo menos um analito, quais dos poços são minimamente ocupados, e quais dos poços são co-ocupados por múltiplos analitos.

17. Um método implementado por computador para determinar metadados sobre analitos em um campo de uma célula de fluxo, sendo que o método compreende: acessar um conjunto de imagens do campo capturadas durante uma corrida de sequenciamento e coordenadas preliminares de centro dos analitos determinados por um chamador de base; para cada conjunto de imagens, obter, de um chamador de base, uma chamada de base que classifica, como uma das quatro bases, subpixels de origem que contêm as coordenadas preliminares de centro, e uma vizinhança predeterminada de subpixels contíguos que são sucessivamente contíguos aos respectivos subpixels de origem dentre os subpixels de origem, produzir, assim, uma sequência de chamadas de base para cada um dos subpixels de origem e para cada vizinhança predeterminada de subpixels contíguos; gerar um mapa de analitos que identifica os analitos como regiões disjuntas de subpixels contíguos que são sucessivamente contíguos a ao menos alguns dos respectivos subpixels de origem dentre os subpixels de origem e compartilhar uma sequência de chamadas de base substancialmente correspondente da uma base dentre as quatro bases com os ao menos alguns dos respectivos subpixels de origem dentre os subpixels de origem; e armazenar o analito mapa na memória e determinar os formatos e os tamanhos dos analitos com base nas regiões disjuntas no mapa de analitos.

18. Um método implementado por computador para gerar dados de treinamento para geração de modelo baseado em rede neural e chamadas de base, sendo que o método compreende:

acessar um grande número de imagens de uma célula de fluxo capturadas durante uma pluralidade de ciclos de uma corrida de sequenciamento, sendo que a célula de fluxo tem uma pluralidade de campos e, no grande número de imagens, cada um dos campos tem uma sequência de conjuntos de imagens gerados na pluralidade de ciclos, e cada imagem na sequência dos conjuntos de imagens que representam emissões de intensidade de analitos e seu fundo circundante em um campo específico dentre os campos em um ciclo específico dentre os ciclos; construir um conjunto de treinamento que tem uma pluralidade de exemplos de treinamento, sendo que cada exemplo de treinamento corresponde a um campo específico dentre os campos e inclui dados de imagem de ao menos alguns conjuntos de imagens na sequência de conjuntos de imagens do campo específico dentre os campos; e gerar ao menos uma representação de dados de verdade absoluta para cada um dos exemplos de treinamento, sendo que a representação de dados de verdade absoluta identifica ao menos uma propriedade dos analitos no campo específico dentre os campos cujas emissões de intensidade são representadas pelos dados de imagem e são determinadas ao menos em parte com o uso do método de qualquer das cláusulas 1 a 17.

19. O método implementado por computador da cláusula 18, em que a pelo menos uma propriedade dos analitos é selecionada do grupo que consiste em: distribuição espacial de analitos no campo; formato de analito; tamanho de analito; limite de analito; e centro de regiões contíguas incluindo um único analito.

20. O método implementado por computador de qualquer das cláusulas 18 a 19, em que os dados de imagem incluem imagens em cada um dos ao menos alguns conjuntos de imagens na sequência de conjuntos de imagens do campo específico dentre os campos.

21. O método implementado por computador de qualquer das cláusulas 18 a 20, em que os dados de imagem incluem ao menos um patch de imagem a partir de cada uma das imagens.

22. O método implementado por computador de qualquer das cláusulas 18 a 21, em que os dados de imagem incluem uma representação sobreamostrada do patch de imagem.

23. O método implementado por computador de qualquer das cláusulas 18 a 22, em que múltiplos exemplos de treinamento correspondem a um mesmo campo específico dentre os campos e respectivamente incluem como dados de imagem diferentes patches de imagem de cada imagem em cada um de ao menos alguns conjuntos de imagens em uma sequência de conjuntos de imagens do mesmo campo específico dentre os campos, e sendo que ao menos alguns dos diferentes patches de imagens se sobrepõem uns aos outros.

24. O método implementado por computador de qualquer das cláusulas 18 a 23, em que a representação de dados de verdade absoluta identifica os analitos como regiões disjuntas de subpixels contíguos, os centros dos analitos como subpixels de centros de massa nas respectivas regiões disjuntas dentre as regiões disjuntas, e seu fundo circundante como subpixels que não pertencem a nenhuma das regiões disjuntas.

25. O método implementado por computador de qualquer das cláusulas 18 a 24, que inclui adicionalmente: armazenar, na memória, os exemplos de treinamento no conjunto de treinamento e associadas representações de dados de verdade absoluta como os dados de treinamento para a geração de modelo baseado em rede neural e para a chamada de base.

26. Um método implementado por computador, que inclui: acessar imagens de sequenciamento de analitos produzidos por um sequenciador;

gerar dados de treinamento a partir das imagens de sequenciamento; e usar os dados de treinamento para treinar uma rede neural para gerar metadados sobre os analitos.

27. Um método implementado por computador, que inclui: acessar imagens de sequenciamento de analitos produzidos por um sequenciador; gerar dados de treinamento a partir das imagens de sequenciamento; e usar os dados de treinamento para treinar uma rede neural para a chamada de base dos analitos.

28. Um método implementado por computador para determinar regiões de imagem indicativas de analitos em um campo de uma célula de fluxo, sendo que o método compreende: acessar uma série de conjuntos de imagens gerados durante uma corrida de sequenciamento, cada conjunto de imagens na série gerada durante um respectivo ciclo sequenciamento da corrida de sequenciamento, cada imagem na série representando os analitos e seu fundo circundante, e cada imagem na série tendo uma pluralidade de subpixels; obter, a partir de um chamador de base, uma chamada de base que classifica cada um dos subpixels, produzindo, assim, uma sequência de chamadas de base para cada um dos subpixels através de uma pluralidade de ciclos de sequenciamento da corrida de sequenciamento; e determinar uma pluralidade de regiões de disjuntas de subpixels contíguos que compartilham uma sequência de chamada de base substancialmente correspondente. Conjunto de cláusulas 2

1. Um método implementado por computador para gerar dados de treinamento de verdade absoluta para treinar um gerador de modelo baseado em rede neural para tarefa de determinação de metadados de cluster, sendo que o método compreende:

acessar uma série de conjuntos de imagens gerados durante uma corrida de sequenciamento, sendo que cada conjunto de imagens na série gerada durante um respectivo ciclo de sequenciamento da corrida de sequenciamento, cada imagem na série que representa clusters e seu fundo circundante, cada imagem na série que tem pixels em um domínio de pixel, e cada um dos pixels é dividido em uma pluralidade de subpixels em um domínio de subpixels; obter, a partir de um chamador de base, uma chamada de base que classifica cada um dos subpixels como uma das bases (A, C, T, e G), produzindo, assim, uma sequência de chamadas de base para cada um dos subpixels através de uma pluralidade de ciclos de sequenciamento da corrida de sequenciamento; gerar um mapa de clusters que identifica os clusters como regiões disjuntas de subpixels contíguos que compartilham uma sequência de chamadas de base substancialmente correspondente; determinar metadados de cluster com base nas regiões disjuntas no mapa de clusters, sendo que os metadados de cluster incluem centros de cluster, formatos de cluster, tamanhos de cluster, fundos de cluster, e limites de cluster; e usar os metadados de cluster para gerar dados de treinamento de verdade absoluta para treinar um gerador de modelo baseado em rede neural para a tarefa de determinação de metadados de cluster, sendo que os dados de treinamento de verdade absoluta compreendem um mapa de decaimento, um mapa ternário, ou um mapa binário, sendo que o gerador de modelo baseado em rede neural é treinado para produzir o mapa de decaimento, o mapa ternário, ou o mapa binário como saída com base nos dados de treinamento de verdade absoluta, e sendo que, na execução da tarefa de determinação de metadados de cluster durante a inferência, os metadados de cluster são, por sua vez, determinados a partir do mapa de decaimento, do mapa ternário, ou do mapa binário que são produzidos como a saída pelo gerador de modelo baseado em rede neural treinado.

2. O método implementado por computador da reivindicação 1, que inclui adicionalmente: usar os metadados de cluster derivados do mapa de decaimento, do mapa ternário, ou do mapa binário produzidos como a saída pelo gerador de modelo baseado em rede neural para a chamada de bases por um chamador de base baseado em rede neural, a fim de aumentar o desempenho de tecnologias de sequenciamento de ácidos nucleicos de alto rendimento.

3. O método implementado por computador da reivindicação 1, que inclui adicionalmente: gerar o mapa de clusters mediante identificação, como fundo, dos subpixels que não pertencem a qualquer das regiões disjuntas.

4. O método implementado por computador da reivindicação 1, em que o mapa de clusters identifica porções de limite de cluster entre dois subpixels contíguos cujas sequências de chamadas de base não são substancialmente correspondentes.

5. O método implementado por computador da reivindicação 1, em que o mapa de clusters é gerado com base em: identificação dos subpixels de origem nas coordenadas preliminares de centro dos clusters determinadas pelo chamador de base; e buscar primeiro em largura as sequências de chamadas de base substancialmente correspondentes começando com os subpixels de origem e continuando com os subpixels não de origem sucessivamente contíguos.

6. O método implementado por computador da reivindicação 1, que inclui adicionalmente:

determinar as coordenadas hiperlocalizadas de centro dos clusters mediante cálculo dos centros de massa das regiões disjuntas do mapa de clusters como uma média das coordenadas dos respectivos subpixels contíguos que formam as regiões disjuntas; e armazenar as coordenadas hiperlocalizadas de centro dos clusters na memória para uso como os dados de treinamento de verdade absoluta para treinar o gerador de modelo baseado em rede neural.

7. O método implementado por computador da reivindicação 6, que inclui adicionalmente: identificar subpixels de centros de massa nas regiões disjuntas do mapa de clusters nas coordenadas hiperlocalizadas de centro dos clusters; sobreamostrar o mapa de clusters com o uso de interpolação e armazenar o mapa de clusters sobreamostrados na memória para uso como os dados de treinamento de verdade absoluta para treinar o gerador de modelo baseado em rede neural; e no mapa de clusters sobreamostrados, atribuir um valor para cada subpixel contíguo nas regiões disjuntas com base em um fator de decaimento que é proporcional à distância de um subpixel contíguo a partir de um subpixel de centro de massa em uma região disjunta à qual o subpixel contíguo pertence.

8. O método implementado por computador da reivindicação 7, que inclui adicionalmente: gerar o mapa de decaimento a partir do mapa de clusters sobreamostrados que expressa os subpixels contíguos nas regiões disjuntas e os subpixels identificados como o fundo com base nos seus valores atribuídos; e armazenar o mapa de decaimento na memória para uso como os dados de treinamento de verdade absoluta para treinar o gerador de modelo baseado em rede neural.

9. O método implementado por computador da reivindicação 8, que inclui adicionalmente: no mapa de clusters sobreamostrados, categorizar, na base de cluster-por-cluster, os subpixels contíguos nas regiões disjuntas como subpixels de interior de cluster que pertencem a um mesmo cluster, os subpixels de centros de massa como subpixels de centro de cluster, os subpixels contendo as porções de limite de cluster como subpixels de limite, e os subpixels identificados como fundo como subpixels de fundo; e armazenar as categorizações na memória para uso como os dados de treinamento de verdade absoluta para treinar o gerador de modelo baseado em rede neural.

10. O método implementado por computador da reivindicação 9, que inclui adicionalmente: armazenar, na base de cluster-por-cluster, as coordenadas dos subpixels de interior de cluster, dos subpixels de centro de cluster, dos subpixels de limite, e dos subpixels de fundo na memória para uso como os dados de treinamento de verdade absoluta para treinar o gerador de modelo baseado em rede neural; reduzir as coordenadas por um fator usado para sobreamostrar o mapa de clusters; e armazenar, na base de cluster-por-cluster, as coordenadas reduzidas na memória para uso como os dados de treinamento de verdade absoluta para treinar o gerador de modelo baseado em rede neural.

11. O método implementado por computador da reivindicação 10, que inclui adicionalmente: gerar mapas de clusters para uma pluralidade de campos da célula de fluxo; armazenar os mapas de clusters na memória e determinar os metadados de cluster de clusters nos campos com base nos mapas de clusters, incluindo os centros de cluster, os formatos de cluster, os tamanhos de cluster, o fundo de cluster, e/ou os limites de clusters; nos mapas de clusters sobreamostrados dos clusters nos campos, categorizar, em uma base de cluster-por-cluster, os subpixels como subpixels de interior de cluster que pertencem a um mesmo cluster, subpixels de centro de cluster, subpixels de limite, e subpixels de fundo; armazenar as categorizações na memória para uso como os dados de treinamento de verdade absoluta para treinar o gerador de modelo baseado em rede neural; armazenar, na base de cluster-por-cluster através dos campos, as coordenadas dos subpixels de interior de cluster, dos subpixels de centro de cluster, dos subpixels de limite, e dos subpixels de fundo na memória para uso como os dados de treinamento de verdade absoluta para treinar o gerador de modelo baseado em rede neural; reduzir as coordenadas pelo fator usado para sobreamostrar o mapa de clusters; e armazenar, na base de cluster-por-cluster através dos campos, as coordenadas reduzidas na memória para uso como os dados de treinamento de verdade absoluta para treinar o gerador de modelo baseado em rede neural.

12. O método implementado por computador da reivindicação 11, em que as sequências de chamadas de base são substancialmente correspondentes quando uma porção predeterminada de chamadas de base corresponde em uma base ordinal em posição.

13. O método implementado por computador da reivindicação 1, em que o mapa de clusters é gerado com base em um número mínimo predeterminado de subpixels para uma região disjunta.

14. O método implementado por computador da reivindicação 1, em que a célula de fluxo tem ao menos uma superfície dotada de um padrão com uma matriz de poços que ocupam os clusters, incluindo adicionalmente: com base nos formatos e tamanhos determinados dos clusters, determinar quais poços dentre os poços são substancialmente ocupados por ao menos um cluster, quais poços dentre os poços são minimamente ocupados, e quais poços dentre os poços são co-ocupados por múltiplos clusters.

15. Um método implementado por computador para determinar metadados sobre clusters em um campo de uma célula de fluxo, sendo que o método compreende: acessar um conjunto de imagens do campo capturadas durante uma corrida de sequenciamento e coordenadas preliminares de centro dos clusters determinados por um chamador de base; para cada conjunto de imagens, obter, de um chamador de base, uma chamada de base que classifica, como uma das quatro bases, subpixels de origem que contêm as coordenadas preliminares de centro, e uma vizinhança predeterminada de subpixels contíguos que são sucessivamente contíguos aos respectivos subpixels de origem dentre os subpixels de origem, produzir, assim, uma sequência de chamadas de base para cada um dos subpixels de origem e para cada vizinhança predeterminada de subpixels contíguos; gerar um mapa de clusters que identifica os clusters como regiões disjuntas de subpixels contíguos que são sucessivamente contíguos a ao menos alguns dos respectivos subpixels de origem dentre os subpixels de origem e compartilhar uma sequência de chamadas de base substancialmente correspondente da uma base dentre as quatro bases com os ao menos alguns dos respectivos subpixels de origem dentre os subpixels de origem; e armazenar o mapa de clusters na memória e para determinar os formatos e os tamanhos dos clusters com base nas regiões disjuntas no mapa de clusters.

16. Um método implementado por computador para gerar dados de treinamento para geração de modelo baseado em rede neural e chamadas de base, sendo que o método compreende: acessar um grande número de imagens de uma célula de fluxo capturadas durante uma pluralidade de ciclos de uma corrida de sequenciamento, sendo que a célula de fluxo tem uma pluralidade de campos e, no grande número de imagens, cada um dos campos tem uma sequência de conjuntos de imagens gerados na pluralidade de ciclos, e cada imagem na sequência dos conjuntos de imagens que representam emissões de intensidade de clusters e seu fundo circundante em um campo específico dentre os campos em um ciclo específico dentre os ciclos; construir um conjunto de treinamento que tem uma pluralidade de exemplos de treinamento, sendo que cada exemplo de treinamento corresponde a um campo específico dentre os campos e inclui dados de imagem de ao menos alguns conjuntos de imagens na sequência de conjuntos de imagens do campo específico dentre os campos; e gerar ao menos uma representação de dados de verdade absoluta para cada um dos exemplos de treinamento, sendo que a representação de dados de verdade absoluta identifica ao menos uma propriedade dos analitos no campo específico dentre os campos cujas emissões de intensidade são representadas pelos dados de imagem.

17. O método implementado por computador da reivindicação 16 em que a ao menos uma propriedade de clusters é selecionada do grupo que consiste em: distribuição espacial de clusters no campo; formato de cluster;

tamanho de cluster; limite de cluster; e centro de regiões contíguas incluindo um único cluster.

18. O método implementado por computador da reivindicação 16, em que os dados de imagem incluem imagens em cada um dos ao menos alguns conjuntos de imagens na sequência de conjuntos de imagens do campo específico dentre os campos.

19. O método implementado por computador da reivindicação 18, em que os dados de imagem incluem ao menos um patch de imagem de cada uma das imagens.

20. O método implementado por computador da reivindicação 19, em que os dados de imagem incluem uma representação sobreamostrada do patch de imagem.

21. O método implementado por computador da reivindicação 16, em que múltiplos exemplos de treinamento correspondem a uma mesma específico dentre os campos e respectivamente incluem dados de Imagem diferentes como Imagem de cada Imagem em cada apliques de ao menos alguns conjuntos de imagens em uma sequência de conjuntos de imagens do mesmo par particular dentre os campos, e sendo que ao menos alguns dos diferentes patches de imagens se sobrepõem uns aos outros.

22. O método implementado por computador da reivindicação 16, em que a representação de dados de verdade absoluta identifica os clusters como regiões disjuntas de subpixels contíguos, os centros dos clusters são subpixels de centro de massa nas respectivas regiões disjuntas dentre as regiões disjuntas, e seu fundo circundante como subpixels que não pertencem a nenhuma das regiões disjuntas.

23. O método implementado por computador da reivindicação 16, que inclui adicionalmente: armazenar, na memória, os exemplos de treinamento no conjunto de treinamento e associadas representações de dados de verdade absoluta como os dados de treinamento para a geração de modelo baseado em rede neural e para a chamada de base.

24. Um método implementado por computador, que inclui: acessar imagens de sequenciamento de clusters produzidos por um sequenciador; gerar dados de treinamento a partir das imagens de sequenciamento; e usar os dados de treinamento para treinar uma rede neural para gerar metadados sobre os clusters.

25. Um método implementado por computador, que inclui: acessar imagens de sequenciamento de clusters produzidos por um sequenciador; gerar dados de treinamento a partir das imagens de sequenciamento; e usar os dados de treinamento para treinar uma rede neural para a chamada de base dos clusters.

26. Um método implementado por computador para determinar regiões de imagem indicativas de analitos em um campo de uma célula de fluxo, sendo que o método compreende: acessar uma série de conjuntos de imagens gerados durante uma corrida de sequenciamento, cada conjunto de imagens na série gerada durante um respectivo ciclo sequenciamento da corrida de sequenciamento, cada imagem na série representando os analitos e seu fundo circundante, e cada imagem na série tendo uma pluralidade de subpixels; obter, a partir de um chamador de base, uma chamada de base que classifica cada um dos subpixels, produzindo, assim, uma sequência de chamadas de base para cada um dos subpixels através de uma pluralidade de ciclos de sequenciamento da corrida de sequenciamento; determinar uma pluralidade de regiões de disjuntas de subpixels contíguos que compartilham uma sequência de chamada de base substancialmente correspondente; e gerar um mapa de clusters que identifica as determinadas regiões disjuntas.

Claims

REIVINDICAÇÕES

1. Método implementado por computador caracterizado por gerar dados de treinamento de verdade absoluta e treinar um gerador de modelo baseado em rede neural para a tarefa de determinação de metadados de cluster, sendo que o método compreende: acessar uma série de conjuntos de imagens gerados durante uma corrida de sequenciamento, sendo que cada conjunto de imagens na série gerada durante um respectivo ciclo de sequenciamento da corrida de sequenciamento, cada imagem na série que representa clusters e seu fundo circundante, cada imagem na série que tem pixels em um domínio de pixel, e cada um dos pixels é dividido em uma pluralidade de subpixels em um domínio de subpixels; obter, a partir de um chamador de base, uma chamada de base que classifica cada um dos subpixels como uma das bases (A, C, T, e G), produzindo, assim, uma sequência de chamadas de base para cada um dos subpixels através de uma pluralidade de ciclos de sequenciamento da corrida de sequenciamento; gerar um mapa de clusters que identifica os clusters como regiões disjuntas de subpixels contíguos que compartilham uma sequência de chamadas de base substancialmente correspondente; determinar os metadados de cluster com base nas regiões disjuntas no mapa de clusters, sendo que os metadados de cluster incluem centros de cluster, formatos de cluster, tamanhos de cluster, fundos de cluster, e/ou limites de cluster; usar os metadados de cluster para gerar dados de treinamento de verdade absoluta para treinar um gerador de modelo baseado em rede neural para a tarefa de determinação de metadados de cluster, sendo que os dados de treinamento de verdade absoluta compreendem um mapa de decaimento, um mapa ternário, ou um mapa binário,

sendo que o mapa de decaimento é calculado com base na distância entre um subpixel e um centro de massa de uma região disjunta à qual o subpixel pertence, sendo que o mapa ternário é calculado mediante a classificação dos subpixels que se encontram nas regiões disjuntas como subpixels de interior de cluster, dos subpixels que estão nos centros de massa das regiões disjuntas como subpixels de centro de cluster, e dos subpixels que não pertencem a qualquer das regiões disjuntas como subpixels de fundo, e sendo que o mapa binário é calculado pela classificação dos subpixels que estão nos centros de massa das regiões disjuntas como subpixels de centro de cluster e de todos os outros subpixels como subpixels não de centro; e treinar o gerador de modelo baseado em rede neural para produzir o mapa de decaimento, o mapa ternário, ou o mapa binário como saída com base nos dados de treinamento de verdade absoluta.

2. Método implementado por computador, de acordo com a reivindicação 1, caracterizado por incluir adicionalmente: usar os metadados de cluster derivados do mapa de decaimento, do mapa ternário, ou do mapa binário produzidos como a saída pelo gerador de modelo baseado em rede neural para chamadas de base por um chamador de base baseado em rede neural, a fim de aumentar o desempenho de tecnologias de sequenciamento de ácidos nucleicos de alto rendimento.

3. Método implementado por computador, de acordo com qualquer das reivindicações 1 a 2, caracterizado por incluir adicionalmente: gerar o mapa de clusters mediante identificação, como fundo, dos subpixels que não pertencem a qualquer das regiões disjuntas.

4. Método implementado por computador, de acordo com qualquer das reivindicações 1 a 3, caracterizado por o mapa de clusters identificar porções de limites de cluster entre dois subpixels contíguos cujas sequências de chamadas de base não são substancialmente correspondentes.

5. Método implementado por computador, de acordo com qualquer das reivindicações 1 a 4, caracterizado por o mapa de clusters ser gerado com base em: identificação dos subpixels de origem nas coordenadas preliminares de centro dos clusters determinadas pelo chamador de base; e buscar primeiro em largura as sequências de chamadas de base substancialmente correspondentes começando com os subpixels de origem e continuando com os subpixels não de origem sucessivamente contíguos.

6. Método implementado por computador, de acordo com qualquer das reivindicações 1 a 5, caracterizado por incluir adicionalmente: determinar as coordenadas hiperlocalizadas de centro dos clusters mediante cálculo dos centros de massa das regiões disjuntas do mapa de clusters como uma média das coordenadas dos respectivos subpixels contíguos que formam as regiões disjuntas; e armazenar as coordenadas hiperlocalizadas de centro dos clusters na memória para uso como os dados de treinamento de verdade absoluta para treinar o gerador de modelo baseado em rede neural.

7. Método implementado por computador, de acordo com a reivindicação 6, caracterizado por incluir adicionalmente: identificar subpixels de centros de massa nas regiões disjuntas do mapa de clusters nas coordenadas hiperlocalizadas de centro dos clusters; sobreamostrar o mapa de clusters com o uso de interpolação e armazenar o mapa de clusters sobreamostrados na memória para uso como os dados de treinamento de verdade absoluta para treinar o gerador de modelo baseado em rede neural; e no mapa de clusters sobreamostrados, atribuir um valor para cada subpixel contíguo nas regiões disjuntas com base em um fator de decaimento que é proporcional à distância de um subpixel contíguo a partir de um subpixel de centro de massa em uma região disjunta à qual o subpixel contíguo pertence.

8. Método implementado por computador, de acordo com a reivindicação 7, caracterizado por incluir adicionalmente: gerar o mapa de decaimento a partir do mapa de clusters sobreamostrados que expressa os subpixels contíguos nas regiões disjuntas e os subpixels identificados como o fundo com base nos seus valores atribuídos; e armazenar o mapa de decaimento na memória para uso como os dados de treinamento de verdade absoluta para treinar o gerador de modelo baseado em rede neural.

9. Método implementado por computador, de acordo com a reivindicação 8, caracterizado por incluir adicionalmente: no mapa de clusters sobreamostrados, categorizar, na base de cluster-por-cluster, os subpixels contíguos nas regiões disjuntas como subpixels de interior de cluster que pertencem a um mesmo cluster, os subpixels de centros de massa como subpixels de centro de cluster, os subpixels contendo as porções de limite de cluster como subpixels de limite, e os subpixels identificados como fundo como subpixels de fundo; e armazenar as categorizações na memória para uso como os dados de treinamento de verdade absoluta para treinar o gerador de modelo baseado em rede neural.

10. Método implementado por computador, de acordo com qualquer das reivindicações 1 a 8, caracterizado por incluir adicionalmente: armazenar, na base de cluster-por-cluster, as coordenadas dos subpixels de interior de cluster, dos subpixels de centro de cluster, dos subpixels de limite, e dos subpixels de fundo na memória para uso como os dados de treinamento de verdade absoluta para treinar o gerador de modelo baseado em rede neural;

reduzir as coordenadas por um fator usado para sobreamostrar o mapa de clusters; e armazenar, na base de cluster-por-cluster, as coordenadas reduzidas na memória para uso como os dados de treinamento de verdade absoluta para treinar o gerador de modelo baseado em rede neural.

11. Método implementado por computador, de acordo com qualquer das reivindicações 1 a 10, caracterizado por incluir adicionalmente: gerar mapas de clusters para uma pluralidade de campos da célula de fluxo; armazenar os mapas de clusters na memória e determinar os metadados de cluster de clusters nos campos com base nos mapas de clusters, incluindo os centros de cluster, os formatos de cluster, os tamanhos de cluster, o fundo de cluster, e/ou os limites de clusters; nos mapas de clusters sobreamostrados dos clusters nos campos, categorizar, em uma base de cluster-por-cluster, os subpixels como subpixels de interior de cluster que pertencem a um mesmo cluster, subpixels de centro de cluster, subpixels de limite, e subpixels de fundo; armazenar as categorizações na memória para uso como os dados de treinamento de verdade absoluta para treinar o gerador de modelo baseado em rede neural; armazenar, na base de cluster-por-cluster através dos campos, as coordenadas dos subpixels de interior de cluster, dos subpixels de centro de cluster, dos subpixels de limite, e dos subpixels de fundo na memória para uso como os dados de treinamento de verdade absoluta para treinar o gerador de modelo baseado em rede neural; reduzir as coordenadas pelo fator usado para sobreamostrar o mapa de clusters; e armazenar, na base de cluster-por-cluster através dos campos, as coordenadas reduzidas na memória para uso como os dados de treinamento de verdade absoluta para treinar o gerador de modelo baseado em rede neural.

12. Método implementado por computador, de acordo com qualquer das reivindicações 1 a 11, caracterizado por as sequências de chamada de base serem substancialmente correspondentes quando uma porção predeterminada de chamadas de base corresponde em uma base ordinal em posição.

13. Método implementado por computador, de acordo com qualquer das reivindicações 1 a 12, caracterizado por o mapa de clusters ser gerado com base em um número mínimo predeterminado de subpixels para uma região disjunta.

14. Método implementado por computador, de acordo com qualquer das reivindicações 1 a 13, caracterizado por a célula de fluxo ter ao menos uma superfície dotada de padrão com uma matriz de poços que ocupam os clusters, que inclui adicionalmente: com base nos formatos e tamanhos determinados dos clusters, determinar quais poços dentre os poços são substancialmente ocupados por ao menos um cluster, quais poços dentre os poços são minimamente ocupados, e quais poços dentre os poços são co-ocupados por múltiplos clusters.

15. Método implementado por computador caracterizado por determinar metadados sobre clusters em um campo de uma célula de fluxo, sendo que o método compreende: acessar um conjunto de imagens do campo capturadas durante uma corrida de sequenciamento e coordenadas preliminares de centro dos clusters determinados por um chamador de base; para cada conjunto de imagens, obter, de um chamador de base, uma chamada de base que classifica, como uma das quatro bases,

subpixels de origem que contêm as coordenadas preliminares de centro, e uma vizinhança predeterminada de subpixels contíguos que são sucessivamente contíguos aos respectivos subpixels de origem dentre os subpixels de origem, produzir, assim, uma sequência de chamadas de base para cada um dos subpixels de origem e para cada vizinhança predeterminada de subpixels contíguos; gerar um mapa de clusters que identifica os clusters como regiões disjuntas de subpixels contíguos que são sucessivamente contíguos a ao menos alguns dos respectivos subpixels de origem dentre os subpixels de origem e compartilhar uma sequência de chamadas de base substancialmente correspondente da uma base dentre as quatro bases com os ao menos alguns dos respectivos subpixels de origem dentre os subpixels de origem; e armazenar o mapa de clusters na memória e para determinar os formatos e os tamanhos dos clusters com base nas regiões disjuntas no mapa de clusters.

16. Método implementado por computador caracterizado por gerar dados de treinamento para geração de modelo baseado em rede neural e chamadas de base, sendo que o método compreende: acessar um grande número de imagens de uma célula de fluxo capturadas durante uma pluralidade de ciclos de uma corrida de sequenciamento, sendo que a célula de fluxo tem uma pluralidade de campos e, no grande número de imagens, cada um dos campos tem uma sequência de conjuntos de imagens gerados na pluralidade de ciclos, e cada imagem na sequência dos conjuntos de imagens que representam emissões de intensidade de clusters e seu fundo circundante em um campo específico dentre os campos em um ciclo específico dentre os ciclos;

construir um conjunto de treinamento que tem uma pluralidade de exemplos de treinamento, sendo que cada exemplo de treinamento corresponde a um campo específico dentre os campos e inclui dados de imagem de ao menos alguns conjuntos de imagens na sequência de conjuntos de imagens do campo específico dentre os campos; e gerar ao menos uma representação de dados de verdade absoluta para cada um dos exemplos de treinamento, sendo que a representação de dados de verdade absoluta identifica ao menos uma propriedade dos clusters no campo específico dos campos cujas emissões de intensidade são representadas pelos dados de imagem e são determinadas ao menos em parte com o uso do método conforme definido em qualquer das reivindicações 1 a 15.

17. Método implementado por computador, de acordo com a reivindicação 16, caracterizado por a ao menos uma propriedade de clusters ser selecionada do grupo que consiste em distribuição espacial de clusters no campo; formato de cluster; tamanho de cluster; limite de cluster; e centro de regiões contíguas incluindo um cluster único.

18. Método implementado por computador, de acordo com qualquer das reivindicações 16 a 17, caracterizado por os dados de imagem incluírem imagens em cada um dos ao menos alguns conjuntos de imagens na sequência de conjuntos de imagens do campo específico dentre os campos.

19. Método implementado por computador, de acordo com qualquer das reivindicações 16 a 18, caracterizado por os dados de imagem incluírem ao menos um patch de imagem de cada uma das imagens.

20. Método implementado por computador, de acordo com qualquer das reivindicações 16 a 19, caracterizado por os dados de imagem incluírem uma representação sobreamostrada do patch de imagem.

21. Método implementado por computador, de acordo com qualquer das reivindicações 16 a 20, caracterizado por os múltiplos exemplos de treinamento corresponderem a um mesmo campo específico dentre os campos e respectivamente incluírem como dados de imagem diferentes patches de imagem de cada imagem em cada um de ao menos alguns conjuntos de imagens em uma sequência de conjuntos de imagens do mesmo campo específico dentre os campos, e sendo que ao menos alguns dos diferentes patches de imagens se sobrepõem uns aos outros.

22. Método implementado por computador, de acordo com qualquer das reivindicações 16 a 21, caracterizado por a representação de dados de verdade absoluta identificar os clusters como regiões disjuntas de subpixels adjacentes, os centros dos clusters como subpixels de centros de massa nas respectivas regiões disjuntas dentre as regiões disjuntas e seu fundo circundante como subpixels que não pertencem a nenhuma das regiões disjuntas.

23. Método implementado por computador, de acordo com qualquer das reivindicações 16 a 22, caracterizado por incluir adicionalmente: armazenar, na memória, os exemplos de treinamento no conjunto de treinamento e as representações de dados de verdade absoluta associadas como os dados de treinamento para a geração de modelo baseado em rede neural e para a chamada de base.

24. Método implementado por computador, caracterizado por incluir: acessar imagens de sequenciamento de clusters produzidos por um sequenciador; gerar dados de treinamento a partir das imagens de sequenciamento; e usar os dados de treinamento para treinar uma rede neural para gerar metadados sobre os clusters.

25. Método implementado por computador, caracterizado por incluir: acessar imagens de sequenciamento de clusters produzidos por um sequenciador; gerar dados de treinamento a partir das imagens de sequenciamento; e usar os dados de treinamento para treinar uma rede neural para a chamada de base dos clusters.