BR112021007611A2

BR112021007611A2 - calibração automática e manutenção automática de modelos espectroscópicos raman para previsões em tempo real

Info

Publication number: BR112021007611A2
Application number: BR112021007611-5A
Authority: BR
Inventors: Aditya Tulsyan
Original assignee: Amgen Inc.
Priority date: 2018-10-23
Filing date: 2019-10-23
Publication date: 2021-07-27
Also published as: JP2022512775A; WO2020086635A1; CN112912716A; TW202033949A; CA3115296A1; SG11202103232WA; AU2019365102A1; CL2021001024A1; MX2021004510A; IL281977A; EP3870957A1; KR20210078531A; US20220128474A1

Abstract

CALIBRAÇÃO AUTOMÁTICA E MANUTENÇÃO AUTOMÁTICA DE MODELOS ESPECTROSCÓPICOS RAMAN PARA PREVISÕES EM TEMPO REAL. Um método para monitorar e/ou controlar um processo biofarmacêutico inclui determinar um ponto de consulta associado à varredura do processo por um sistema de espectroscopia (por exemplo, um sistema de espectroscopia Raman) e consultar um banco de dados de observação contendo conjuntos de dados de observação associados com observações anteriores de processos biofármacos. Cada um dos conjuntos de dados de observação inclui dados espectrais e uma medição analítica real correspondente. Consultar o banco de dados de observação, inclui selecionar como dados de treinamento, dentre os conjuntos de dados de observação, aqueles conjuntos de dados que satisfazem um ou mais critérios de relevância em relação ao ponto de consulta. O método também inclui o uso dos dados de treinamento selecionados para calibrar um modelo local específico para o processo biofarmacêutico. O modelo local (por exemplo, um modelo de processo gaussiano) é treinado para prever medições analíticas com base em entradas de dados espectrais. O método também inclui o uso do modelo local para prever uma medição analítica do processo biofarmacêutico.

Description

Relatório descritivo da patente de invenção para "CALIBRAÇÃO

AUTOMÁTICA E MANUTENÇÃO AUTOMÁTICA DE MODELOS ESPECTROSCÓPICOS RAMAN PARA PREVISÕES EM TEMPO REAL" REFERÊNCIA CRUZADA COM PEDIDOS RELACIONADOS

[0001] É reivindicada prioridade sobre o Pedido Provisório de Patente dos E.U.A. Nº 62/749,359, depositado em 23 de outubro de 2018, o Pedido Provisório de Patente dos E.U.A. Nº 62/833,044, depositado em 12 de abril de 2019, e o Pedido Provisório de Patente dos E.U.A. Nº 62/864,565 depositado em 21 de junho de 2019, cada um dos quais incorporado na sua totalidade, neste documento, a título de referência.

ÁREA DA DIVULGAÇÃO

[0002] O presente pedido se refere genericamente para o monitoramento e/ou controle de processos biofarmacêuticos usando técnicas espectroscópicas, tais como espectroscopia Raman, e se refere mais especificamente para a calibragem e manutenção online de modelos de previsão.

ANTECEDENTES

[0003] A produção estável de proteínas bioterapêuticas por um processo biofarmacêutico, geralmente requer que um biorreator mantenha parâmetros equilibrados e consistentes (por exemplo, concentrações metabólicas celulares), o que por sua vez exige monitoramento e controle de processo rigoroso. Para atender a essas demandas, ferramentas de tecnologia analítica de processos (PAT) estão, cada vez mais, sendo adotadas. O monitoramento online do pH, oxigênio dissolvido, e temperatura de cultura de células são alguns exemplos de ferramentas PAT tradicionais que têm sido usados em sistemas de controle de realimentação. Nos últimos anos, outras sondas em processo foram investigadas e desenvolvidas para monitoramento contínuo de espécies mais complexas, tal como densidade de células viáveis (VCD), glicose, lactato e outros metabólitos celulares críticos, aminoácidos, título e atributos críticos de qualidade.

[0004] A espectroscopia Raman é uma ferramenta PAT popular amplamente usada para monitoramento online em biofabricação. É um método óptico que permite a análise não destrutiva da composição química e da estrutura molecular. Na espectroscopia Raman, a luz do laser incidente é espalhada inelasticamente devido aos modos de vibração molecular. A diferença de frequência entre os fótons incidentes e dispersos é referida como "deslocamento Raman" e o vetor do deslocamento Raman versus níveis de intensidade (referido no presente documento como um "espectro Raman", uma "varredura Raman" ou um "vetor de varredura Raman") pode ser analisado para determinar a composição química e a estrutura molecular de uma amostra. Aplicações de espectroscopia Raman em polímero, farmacêutica, biofabricação e análise biomédica aumentou nas últimas três décadas conforme a amostragem laser e a tecnologia de detector melhoram. Devido a esses avanços tecnológicos, a espectroscopia Raman é agora uma técnica de análise prática usada tanto dentro como fora do laboratório. Desde que a aplicação de medições Raman in-situ na biofabricação foi relatada pela primeira vez, ela foi adotada para conferir previsões online em tempo real de vários estados-chave do processo, tais como glicose, lactato, glutamato, glutamina, amônia, VCD e assim por diante. Essas previsões são normalmente baseadas em um modelo de calibragem ou modelo de sensor flexível que é construído em uma configuração off-line, com base em medições analíticas a partir de um instrumento analítico. Mínimos quadrados parciais (PLS) e métodos de modelagem de regressão linear múltipla são comumente usados para correlacionar os espectros Raman com as medições analíticas. Esses modelos, tipicamente, requerem filtragem de pré-processamento das varreduras Raman antes da calibragem contra as medições analíticas. Uma vez que um modelo de calibragem esteja treinado, o modelo é implementado em uma configuração em tempo real de modo a conferir medições in-situ para monitoramento e/ou controle de processo.

[0005] A calibragem do modelo Raman para aplicações biofarmacêuticas não é trivial, uma vez que os processos biofarmacêuticos tipicamente operam sob limitações rigorosas e regulamentos. A corrente de abordagem de estado atual da técnica para a calibragem do modelo Raman na indústria biofarmacêutica é executar primeiro múltiplos ensaios de campanha de modo a gerar dados relevantes que são usados para correlacionar os espectros Raman com a(s) medição(ões) analítica(s). Esses ensaios são ambos caros e, uma vez que cada campanha pode durar entre duas a quatro semanas em um ambiente de laboratório, por exemplo. Adicionalmente, apenas amostras limitadas podem estar disponíveis para os instrumentos analíticos (por exemplo, para garantir que um biorreator em escala de laboratório mantenha uma massa saudável de células viáveis). De fato, não é incomum ter apenas uma ou duas medições disponíveis a cada dia a partir de instrumentos analíticos in-line ou off-line. Para exacerbar ainda mais a situação, as melhores práticas atuais geram modelos de calibragem que estão vinculados a um processo específico, à fórmula ou perfil específico do meio do biorreator e às condições operacionais específicas. Desse modo, se alguma das variáveis acima mencionadas mudar, os modelos podem precisar ser recalibrados com base em novos dados. De fato, tanto a calibragem do modelo Raman quanto a manutenção do modelo requerem alocações significativas de recursos e são tipicamente realizadas em uma configuração off-line. Embora abordagens que adaptam modelos a novas condições operacionais tenham sido propostas (por exemplo, métodos recursivos, de janela móvel e de diferença de tempo), esses métodos podem ser incapazes de lidar de forma adequada com mudanças abruptas do processo.

[0006] Há uma série de publicações que descrevem modelos Raman genéricos com base em métodos quimiométricos tradicionais (por exemplo, modelagem PLS) para moléculas múltiplas. No entanto, esses modelos genéricos assumem que os processos usam formulações de meios e/ou as condições do processo de execução similares, se não forem as mesmas. Os meios e os processos são geralmente baseados em plataformas com pouca ou sem variação. A desvantagem desse tipo de modelo genérico é que uma vez que um processo se desvia da norma, ou se o conjunto de dados de treinamento contém uma faixa de processo muito ampla em um esforço para ter em conta as variações (por exemplo, aditivos de meios, duração do processo e/ou outras mudanças de processo) entre as diferentes moléculas, os modelos genéricos perdem exatidão e precisão. Desse modo, esses modelos "genéricos" são apenas genéricos dentro dos limites estritos descritos. Veja Mehdizaheh et al., Biotechnolo. Prog. 31(4): 1004-1013, 2015; Webster et al., Biotechnol. Prog. 34(3):730-737, 2018.

BREVE SUMÁRIO

[0007] O termo "processo biofarmacêutico" se refere a um processo usado na fabricação biofarmacêutica, tal como um processo de cultura de células para produzir uma proteína recombinante desejada. A cultura de células ocorre em um recipiente de cultura celular, tal como um biorreator, sob condições que suportam o crescimento e a manutenção de um organismo manipulado de modo a expressar a proteína. Durante a produção de proteína recombinante, parâmetros de processo, tais como concentrações de componentes de meios, incluindo nutrientes e metabólitos (por exemplo, glicose, lactato, glutamato, glutamina, amônia, aminoácidos, Na+, K+ e outros nutrientes ou metabólitos), estado de meios (pH, pCO2, pO2, temperatura, osmolalidade, etc.), bem como parâmetros de células e/ou proteínas (por exemplo, densidade de células viáveis (VCD), título, estado celular, atributos de qualidade críticos, etc.) são monitorados para controle e/ou manutenção do processo de cultura celular.

[0008] Para endereçar algumas das limitações acima mencionadas das atuais melhores práticas industriais, modalidades descritas no presente documento se relacionam a sistemas e métodos que melhoram mediante técnicas tradicionais de análise espectroscópica de processos biofarmacêuticos, tais como espectroscopia Raman. Em particular, uma plataforma "Ensino sob medida" (JITL) é usada para construir e manter modelos de calibragem (por exemplo, modelos de calibragem Raman) em tempo real para aplicações biofarmacêuticas. JITL é uma plataforma de modelagem não linear baseada em modelagem local e tecnologia de amostragem de banco de dados. Ao contrário de outros métodos de aprendizagem de máquinas, JITL geralmente assume que todas as observações disponíveis são armazenadas em um banco de dados central, e os modelos são construídos de forma dinâmica em tempo real com base em uma consulta, usando os dados mais relevantes do banco de dados. Isso permite uma boa aproximação de dinâmicas de processo complicado usando modelos locais relativamente simples. Sob a estrutura JITL, uma biblioteca pode conter dados espectrais não apenas para um único processo operando sob condições operacionais específicas, mas também dados para diferentes processos, diferentes perfis de meios e/ou diferentes condições de funcionamento. Isso pode reduzir significativamente o tempo necessário para calibrar e manter os modelos, especialmente para fármacos de dutos que podem ter pouco ou nenhum histórico de produção.

[0009] A plataforma JITL mantém uma biblioteca dinâmica que pode ser atualizada cada vez que uma nova medição analítica está disponível. Adicionalmente, para garantir que os modelos locais se adaptam às novas condições de processo, a última medição analítica disponível (por exemplo, para o produto a ser monitorado) pode ser sempre incluída no conjunto de treinamento para modelagem local. Isso permite que o modelo local se adapte mais rapidamente às novas condições, ou a novas linhas de produtos sem história. Usando essa abordagem, a calibragem do modelo e a manutenção do modelo podem, ambas, ser automatizadas, e o tempo e as despesas (por exemplo, custos de material e mão de obra) associados com as calibragens de rotina em sistemas convencionais podem ser bastante reduzidos. Além disso, a capacidade de conferir limites de credibilidade (ou outros indicadores de confiança, tais como pontuação de confiança) em torno de previsões do modelo pode permitir estratégias sólidas de monitoração e de controle.

[0010] Em algumas modalidades, os modelos de processos gaussianos são usados para modelagem local, dentro da estrutura JITL. Os modelos de processos gaussianos são modelos estatísticos poderosos de aprendizagem de máquina que podem capturar com eficiência a dinâmica de processos não lineares complexos e podem se adaptar rapidamente a, virtualmente, quaisquer alterações do processo. Em contraste com a PLS, o principal componente de regressão (PCR) e outros tipos de modelos de regressão, modelos de processo gaussiano são métodos não paramétricos, e são muito mais capaz de capturar correlações complexas entre os espectros Raman e as medições analíticas a partir de conjuntos de dados limitados. Além disso, os modelos de processo gaussianos geralmente não requerem filtragem de pré-processamento das varreduras Raman. Por conseguinte, em algumas modalidades, os modelos de processo gaussianos são, em vez disso, calibrados nas varreduras Raman em bruto (em escala logarítmica), o que pode salvar muitos passos no processo de calibragem/manutenção do modelo. Além disso, os modelos de processos gaussianos conferem limites de credibilidade em torno das previsões, o que pode ser extremamente difícil de obter usando modelos PLS ou PCR. Limites de credibilidade podem ser particularmente úteis para projetar estratégias de amostragem ideais para instrumentos analíticos e/ou para implementar controle de circuito fechado (por exemplo, controle preditivo de modelo ou MPC), por exemplo, para evitar fazer alterações com base em previsões não confiáveis.

[0011] Embora JITL seja uma estrutura de modelagem não linear, e embora a abordagem descrita acima forneça alguma adaptabilidade ao atualizar a biblioteca dinâmica com medições analíticas recentes, JITL por si só pode não ser suficientemente adaptável para ter em conta as condições de processo que variam no tempo (por exemplo, mudanças abruptas para o ponto de ajuste ou outras condições do processo). Em particular, os modelos locais que são calibrados usando JITL podem falhar ao fazer uso de amostras recentes. Por exemplo, e particularmente se tiver ocorrido uma mudança abrupta e recente nas condições do processo, as amostras recentes podem falhar o satisfazer de um critério de similaridade que se baseia puramente em similaridade "espacial" (por exemplo, a similaridade das varreduras Raman). As técnicas JITL modificadas que podem melhor aproveitar as informações oferecidas por amostras recentes (independentemente da similaridade espacial) e, portanto, se podem adaptar melhor às mudanças do processo que variam ao longo do tempo, também são descritas neste documento. Em particular, técnicas JITL "adaptativas" (A-JITL) e JITL "espaço-temporal" (ST-JITL) para a calibragem e manutenção do modelo são descritas no presente documento.

[0012] A manutenção do modelo em tempo real, na qual os modelos locais podem aprender com as últimas medições analíticas e, desse modo, se adaptar rapidamente às condições variáveis no tempo, pode ser importante para o sucesso de técnicas JITL. No entanto, o acesso frequente a instrumentos/medições analíticas (por exemplo, análise de amostras off-line) tende a ser altamente intensivo em recursos. De modo a minimizar esse uso de recursos, sem degradar excessivamente o desempenho do modelo, um protocolo de manutenção de modelo baseado em desempenho pode ser implementado, no qual o sistema agenda/desencadeia uma medição analítica em resposta à determinação de que o desempenho do modelo atual é inaceitável/não confiável.

BREVE DESCRIÇÃO DOS DESENHOS

[0013] O perito na técnica compreenderá que as figuras, descritas neste documento, são incluídas para efeitos de ilustração e não limitam a presente divulgação. Os desenhos não estão necessariamente à escala, sendo dada ênfase em vez disso à ilustração dos princípios da presente divulgação. É para ser entendido que, em alguns casos, vários aspectos das implementações descritas podem ser mostrados em exagero ou ampliação para facilitar uma compreensão das implementações descritas. Nos desenhos, os números de referência ao longo dos vários desenhos, se referem geralmente a componentes funcionalmente similares e/ou estruturalmente similares.

[0014] A FIG. 1 é um diagrama de blocos simplificado de um sistema de espectroscopia Raman exemplo que pode ser usado para prever medições analíticas de processos biofarmacêuticos.

[0015] A FIG. 2 é um diagrama de blocos simplificado de um sistema de espectroscopia Raman exemplo que pode ser usado para prever medições analíticas de processos biofarmacêuticos para controle de circuito fechado de concentração de glicose.

[0016] A FIG. 3 representa resultados experimentais para controle de circuito fechado de concentração de glicose usando um exemplo de implementação do sistema de espectroscopia Raman descrito no presente documento.

[0017] A FIG. 4 representa um exemplo de fluxo de dados que pode ocorrer ao analisar um processo biofarmacêutico usando uma técnica "Ensino sob medida" (JITL).

[0018] A FIG. 5 representa um exemplo de fluxo de dados que pode ocorrer ao analisar um processo biofarmacêutico usando uma técnica "Ensino sob medida" adaptativa (A-JITL).

[0019] A FIG. 6 representa um exemplo de fluxo de dados que pode ocorrer ao analisar um processo biofarmacêutico usando uma técnica "Ensino sob medida" espaço-temporal (ST-JITL).

[0020] A FIG. 7 é um diagrama de fluxo de um método exemplo para analisar um processo biofarmacêutico.

DESCRIÇÃO DETALHADA

[0021] Os vários conceitos introduzidos acima e discutidos em maior detalhe abaixo podem ser implementados de várias maneiras, e os conceitos descritos não estão limitados a qualquer maneira particular de implementação. Exemplos de implementações são fornecidos para fins ilustrativos.

[0022] A FIG. 1 é um diagrama de blocos simplificado de um sistema de espectroscopia Raman 100 exemplo que pode ser usado para prever medições analíticas de processos biofarmacêuticos. Embora a FIG. 1 mostra um sistema 100 que implementa técnicas de espectroscopia Raman, se entende que, em outras modalidades, o sistema 100 pode implementar outras técnicas de espectroscopia adequadas para a análise de processos biofarmacêuticos, tais como espectroscopia no infravermelho próximo (NIR), por exemplo.

[0023] O sistema 100 inclui um biorreator 102, um ou mais instrumentos analíticos 104, um analisador Raman 106 com sonda Raman 108, um computador 110, e um servidor de banco de dados 112 que é acoplado ao computador 110 através de uma rede 114. O biorreator 102 pode ser qualquer recipiente, dispositivo ou sistema adequado que suporte um ambiente biologicamente ativo, que pode incluir organismos vivos e/ou substâncias derivadas a partir dos mesmos (por exemplo, uma cultura celular) dentro de um meio. O biorreator 102 pode conter proteínas recombinantes que estão a ser expressas pela cultura celular, por exemplo, tal como para fins de pesquisa, uso clínico, venda comercial ou outro tipo de distribuição. Dependendo do processo biofarmacêutico que está sendo monitorado, o meio pode incluir um fluido particular (por exemplo, um "caldo") e nutrientes específicos, e pode ter parâmetros de estado de meios alvo, tal como um nível ou gama de pH alvo, uma temperatura ou gama de temperatura alvo e assim por diante. O meio também pode incluir organismos e substâncias derivadas a partir dos organismos, tais como metabólitos e proteínas recombinantes. Coletivamente, os conteúdos e parâmetros/características dos meios são referidos neste documento como o "perfil dos meios".

[0024] Instrumento(s) analítico(s) 104 podem ser qualquer instrumento em linha, na linha e/ou off-line, ou instrumentos, configurados para medir uma ou mais características ou parâmetros dos conteúdos biologicamente ativos dentro do biorreator 102, com base em amostras tiradas a partir desse. Por exemplo, o(s) instrumento(s) analítico(s) 104 podem medir uma ou mais concentrações de componentes nos meios, tais como níveis de nutrientes e/ou de metabólitos (por exemplo, glicose, lactato, glutamato, glutamina, amônia, aminoácidos, Na +, K +, etc.) e parâmetros do estado dos meios (p H, pCO2, pO2, temperatura, osmolalidade, etc.). Adicionalmente, ou em alternativa, instrumento analítico(s) 104 pode(m) medir a osmolaridade, a densidade de células viáveis (VCD), título, os atributos de qualidade críticos, o estado das células (por exemplo, do ciclo celular) e/ou outras características ou parâmetros associados com o conteúdo do biorreator 102. Como um exemplo mais específico, as amostras podem ser tomadas, centrifugadas, purificadas por múltiplas colunas e passadas através de um primeiro dos instrumentos analíticos 104 (por exemplo, um instrumento de cromatografia líquida de desempenho elevado

(HPLC) ou cromatografia líquida de desempenho ultra elevado (UPLC)), seguido por um segundo dos instrumentos analíticos 104 (por exemplo, um espectrômetro de massa), com ambos o primeiro e o segundo instrumentos analíticos 104 a conferirem medições analíticas. Um, algum ou todos dos instrumento analíticos(s) 104 podem usar técnicas de análise destrutivas.

[0025] O analisador Raman 106 pode incluir um dispositivo espectrógrafo acoplado à sonda Raman 108 (ou, em algumas implementações, múltiplas sondas Raman). O analisador Raman 106 pode incluir uma fonte de luz laser, que entrega a luz do laser à sonda Raman 108 através de um cabo de fibra óptica, e também pode incluir um dispositivo de carga acoplada (CCD) ou outra câmara/dispositivo de gravação adequado para gravar sinais que são recebido a partir da sonda Raman 108 através de outro canal do cabo de fibra óptica, por exemplo. Alternativamente, a fonte da luz laser pode ser integrada dentro da própria sonda Raman 108. A sonda Raman 108 pode ser uma sonda de imersão ou qualquer outro tipo adequado de sonda (por exemplo, uma sonda de refletância e uma sonda de transmissão).

[0026] Em conjunto, o analisador Raman 106 e a sonda Raman 108 são configurados para varredura, não destrutiva, dos conteúdos biologicamente ativos durante o processo biofarmacêutico dentro do biorreator 102 ao excitarem, observarem, e registrarem uma "impressão digital" molecular do processo biofarmacêutico. A impressão digital molecular corresponde aos modos vibracionais, rotacionais e/ou outros modos de baixa frequência de moléculas dentro do conteúdo biologicamente ativo dentro do processo biofarmacêutico quando o conteúdo do biorreator é excitado pela luz laser conferida pela sonda Raman 108. Como um resultado desse processo de varredura, o analisador Raman 106 gera um ou mais vetores de varredura Raman em que cada um representa a intensidade como uma função do deslocamento Raman (frequência).

[0027] O computador 110 é acoplado ao analisador Raman 106 e instrumento(s) analítico(s) 104 e é geralmente configurado de modo a analisar os vetores de varredura Raman gerados pelo analisador Raman 106 a fim de prever uma ou mais medições analíticas do processo biofarmacêutico. Por exemplo, o computador 110 pode analisar os vetores de varredura Raman para prever o(s) mesmo(s) tipo(s) de medição(ões) analítica(s) que são feitos pelo(s) instrumento(s) analítico(s) 104. Como um exemplo mais específico, o computador 110 pode prever as concentrações de glicose, enquanto o(s) instrumento(s) analítico(s) 104 realmente medem as concentrações de glicose. No entanto, enquanto o(s) instrumento(s) analítico(s) 104 podem fazer medições analíticas relativamente infrequentes, "off-line" de amostras extraídas a partir do biorreator 102 (por exemplo, devido a quantidades limitadas dos meios do processo biofarmacêutico e/ou devido ao custo mais elevado de efetuar tais medições, etc.), o computador 110 pode fazer previsões relativamente frequentes, "on-line" de medições analíticas em tempo real. O computador 110 também pode ser configurado de modo a transmitir medições analíticas feitas pelo(s) instrumento(s) analítico(s) 104 para o servidor de banco de dados 112 através da rede 114, conforme será discutido abaixo, em detalhes adicionais.

[0028] Na modalidade exemplo mostrada na FIG. 1, o computador 110 inclui uma unidade de processamento 120, uma interface de rede 122, um monitor 124, um dispositivo de entrada de usuário 126 e uma memória 128. A unidade de processamento 120 inclui um ou mais processadores, em que cada um dos quais pode ser um microprocessador programável que executa instruções de software armazenadas na memória 128 de modo a executar algumas ou todas as funções do computador 110, conforme descrito neste documento. Alternativamente, um, alguns ou todos os processadores na unidade de processamento 120 podem ser outros tipos de processadores (por exemplo, circuitos integrados de aplicativos específicos (ASICs), matrizes de portas programáveis em campo (FPGAs), etc.) e a funcionalidade do computador 110, conforme descrito neste documento, pode, em vez disso, ser implementada, em parte ou na totalidade, em hardware. A memória 128 pode incluir um ou mais dispositivos ou unidades de memória física contendo memória volátil e/ou não volátil. Qualquer tipo ou tipos de memória adequados podem ser usados, tal como memória somente de leitura (ROM), unidades de estado sólido (SSDs), unidades de disco rígido (HDDs) e assim por diante.

[0029] A interface de rede 122 pode incluir qualquer hardware adequado (por exemplo, transmissor front-end e hardware receptor), firmware, e/ou software configurado para se comunicar via rede 114 usando um ou mais protocolos de comunicação. Por exemplo, a interface de rede 122 pode ser ou incluir uma interface Ethernet. A rede 114 pode ser uma rede de comunicação única ou pode incluir múltiplas redes de comunicação de um ou mais tipos (por exemplo, uma ou mais redes locais (LANs) com e/ou sem fios, e/ou uma ou mais redes de área ampla (WANs) com fios e/ou sem fios, tal como a Internet ou uma intranet, por exemplo).

[0030] O écran 124 pode usar qualquer tecnologia de exibição adequada (por exemplo, LED, OLED, LCD, etc.) para apresentar informações a um usuário e o dispositivo de entrada do usuário 126 pode ser um teclado ou outro dispositivo de entrada adequado. Em algumas modalidades, o écran 124 e o dispositivo de entrada do usuário 126 são integrados em um único dispositivo (por exemplo, um écran tátil). Geralmente, o ecrã 124 e o dispositivo de entrada do usuário 126 se podem combinar para permitir que um usuário interaja com as interfaces gráficas do usuário (GUIs) conferidas pelo computador 110, por exemplo, para fins tais como monitorar manualmente vários processos sendo executados dentro do sistema 100. Em algumas modalidades, no entanto, o computador 110 não inclui o ecrã 124 e/ou o dispositivo de entrada do usuário 126, ou um ou ambos do ecrã 124 e do dispositivo de entrada do usuário 126 estão incluídos em outro computador ou sistema que está comunicativamente acoplado ao computador 110 (por exemplo, em algumas modalidades onde as previsões são enviadas diretamente para um sistema de controle que implementa o controle de circuito fechado).

[0031] A memória 128 armazena as instruções de uma ou mais aplicações de software, incluindo uma aplicação previsora de "Ensino sob medida" (JITL) 130. A aplicação previsora JITL 130, quando executado pela unidade de processamento 120, é geralmente configurada para prever medições analíticas do processo biofarmacêutico no biorreator 102 ao calibrar um modelo local 132, e ao usar o modelo local 132 para analisar os vectores de varredura Raman gerados pelo analisador Raman 106. Dependendo da frequência à qual o analisador Raman 106 gera tais vetores de varredura, a aplicação previsora JITL 130 pode prever medições analíticas em uma base de tempo periódica ou outra adequada. O analisador Raman 106 pode, ele próprio, controlar quando os vetores de varredura são gerados ou o computador 110 pode desencadear a geração de vetores de varredura ao enviar um comando para o analisador Raman 106. O aplicação previsora JITL 130 pode prever apenas um único tipo de medição analítica com base em cada vetor de varredura (por exemplo, apenas concentração de glicose), ou pode prever múltiplos tipos de medições analíticas com base em cada vetor de varredura (por exemplo, concentração de glicose e densidade celular viável). Em outras modalidades, múltiplas aplicações previsoras JITL diferentes (por exemplo, cada uma similar à aplicação previsora JITL 130) geram, cada uma, um modelo local diferente para prever um tipo diferente de medição analítica, todos com base no mesmo vetor de varredura. A aplicação previsora JITL 130 e o modelo local 132 serão abaixo discutidos em detalhes adicionais.

[0032] O servidor de banco de dados 112 pode ser remoto do computador 110 (por exemplo, de tal modo que uma configuração local pode incluir apenas o biorreator 102, instrumento(s) analítico(s) 104, analisador Raman 106 com sonda Raman 108 e computador 110) e, conforme visto na FIG. 1, pode conter ou ser acoplado comunicativamente a um banco de dados de observação 136 que armazena conjuntos de dados de observação associados a observações anteriores.

Cada conjunto de dados de observação no banco de dados de observação 136 pode incluir dados espectrais (por exemplo, um ou mais vetores de varredura Raman do tipo produzido pelo analisador Raman 106) e uma ou mais medições analíticas correspondentes (por exemplo, uma ou mais medições do(s) tipo(s) produzido por instrumento(s) analítico(s) 104). Dependendo da modalidade e/ou cenário, as observações anteriores podem ter sido coletadas para uma série de diferentes processos biofarmacêuticos, sob uma série de diferentes condições de operação (por exemplo, diferentes pontos de ajuste de concentração de metabólito) e/ou com um número de diferentes perfis de meios (por exemplo, diferentes fluidos, nutrientes, níveis de pH, temperaturas, etc.). Geralmente, pode ser desejável ter o banco de dados de observação 136 representando uma ampla variedade de processos, condições operacionais e perfis de meios.

O banco de dados de observação 136 pode, ou não pode, armazenar informação indicativa desses processos, linhas celulares, proteínas, metabólitos, condições de funcionamento, e/ou perfis dos meios, no entanto, dependendo da modalidade (conforme discutido adicionalmente abaixo). Em algumas modalidades, o servidor de banco de dados 112 é remotamente acoplado a vários outros computadores similares ao computador 110, através da rede 114 e/ou outras redes.

Isso pode ser desejável a fim de coletar um maior número de conjuntos de dados de observação para armazenamento no banco de dados de observação 136. Em outras modalidades, no entanto, o sistema 100 não inclui o servidor de banco de dados 112 e o computador 110 acessa diretamente um banco de dados de observação local 136.

[0033] Se entende que outras configurações e/ou componentes podem ser usados em vez daqueles mostrados na FIG. 1. Por exemplo, um computador diferente (não mostrado na FIG. 1) pode transmitir medições conferidas por instrumento(s) analítico(s) 104 para o servidor de banco de dados 112, um ou mais dispositivos ou sistemas de computação adicionais podem atuar como intermediários entre o computador 110 e o servidor de banco de dados 112, algumas ou todas as funcionalidades do computador 110, conforme descrito neste documento, podem, em vez disso, ser realizadas remotamente pelo servidor de banco de dados 112 e/ou outro servidor remoto e assim por diante.

[0034] Durante a operação de funcionamento do sistema 100, um analisador Raman 106 e sonda Raman 108 são usados para varredura (isto é, gerar vectores de varredura Raman para) um processo biofarmacêutico no biorreator 102, e o(s) vector(es) de varredura Raman é/são então transmitidos a partir do analisador Raman 106 para o computador 110. O analisador Raman 106 e a sonda Raman 108 podem conferir vectores de varredura para previsões de suporte (feitas pela aplicação previsora JITL 130) de acordo com um programa predeterminado de períodos de monitoramento, tais como uma vez por minuto, ou uma vez por hora, etc. Alternativamente, as previsões podem ser feitas em intervalos irregulares (por exemplo, em resposta a um determinado desencadeador baseado no processo, tal como uma mudança no nível de pH medido e/ou temperatura), de modo que cada período de monitoramento tenha uma duração variável ou incerta. Dependendo da modalidade, o analisador Raman 106 pode enviar apenas um vetor de varredura para o computador 110 por período de monitoramento, ou múltiplos vetores de varredura para o computador 110 por período de monitoramento, dependendo de quantos vetores de varredura o modelo local 132 aceita como entrada para uma única previsão. Múltiplos vetores de varredura podem melhorar a precisão da previsão do modelo local 132, por exemplo.

[0035] Uma unidade de consulta 140 da aplicação previsora JITL 130 usa o(s) vetor(es) de varredura recebidos por um único período de monitoramento para gerar um ponto de consulta que será usado para consultar o banco de dados de observação 136. Em algumas modalidades, o ponto de consulta (ou seja, os dados que definem o ponto de consulta) inclui apenas dados que representam o(s) vetor(es) de varredura Raman que foi/foram recebidos a partir do analisador Raman 106 (por exemplo, tuplas de intensidade/frequência que compreendem cada vetor de varredura). Em outras modalidades, o ponto de consulta também inclui um ou mais outros tipos de informação. Por exemplo, o ponto de consulta também pode incluir dados que representam as condições operacionais associadas ao processo (por exemplo, um ponto de ajuste da concentração de metabólito em um sistema de controle ou um comprimento de onda de luz laser e/ou intensidade associada ao analisador Raman 106 ou sonda Raman 108, etc..), os dados representando o perfil dos meios para os meios do processo biofarmacêutico (por exemplo, tipo de fluido, tipos de nutrientes ou concentrações, nível de pH, etc.), e/ou outros dados (por exemplo, indicadores de linhas celulares, proteínas ou metabólitos associados com o processo biofarmacêutico).

[0036] Geralmente, o ponto de consulta pode incluir dados representando os mesmos vetores, parâmetros e/ou classificações que o modelo local 132 usa como entradas (ou seja, como o conjunto de recursos do modelo local 132). O uso de um número de tipos de dados diferentes para o conjunto de recursos pode melhorar a precisão das previsões de medição analítica feitas pelo modelo local 132. No entanto, uma vez que cada conjunto de dados de observação no banco de dados de observação 136 iria,

geralmente, necessitar de incluir os mesmos vetores, parâmetros e/ou classificações que o conjunto de recursos, pode ser preferível limitar o ponto de consulta e o conjunto de recursos/entradas do modelo local 132, de modo a incluir apenas um ou mais vetores de varredura Raman. Isso pode conferir vários benefícios, tais como permitir a recolha de mais informação para o armazenamento no banco de dados de observação 136, e/ou simplificar a recolha dessa informação. Se apenas forem usados vectores de varredura Raman, por exemplo, a observação do conjunto de dados pode ser incluída no banco de dados de observação 136, mesmo que pouco ou nada seja conhecido sobre os processos, linhas celulares, proteínas, metabólitos, condições de funcionamento, e/ou perfil dos meios que existiam quando os conjuntos de dados foram coletados.

[0037] A unidade de consulta 140, em seguida, consulta o banco de dados de observação 136 usando o ponto de consulta gerado. Na modalidade de exemplo da FIG. 1, a unidade de consulta 140 realiza isso fazendo com que a interface de rede 122 transmita o ponto de consulta (por exemplo, dentro de uma mensagem de consulta) para o servidor de banco de dados 112 através da rede 114, que, por sua vez, faz com que o servidor de banco de dados 112 recupere os dados apropriados a partir do banco de dados de observação 136. Em modalidades onde o banco de dados de observação 136 está, em vez disso, incluído no (ou em uma memória comunicativamente acoplada ao) computador 110, no entanto, a unidade de consulta 140 pode, em vez disso, consultar o banco de dados de observação 136 mais diretamente. Para facilidade de explicação, a descrição restante da FIG. 1 irá assumir que o banco de dados de observação 136 está acoplado ao servidor de banco de dados 112, conforme representado na FIG. 1. No entanto, um perito na técnica compreenderá rapidamente como é que os caminhos de comunicação podem diferir se o banco de dados de observação

136 fosse, em vez disso, local para o computador 110, ou em outra localização adequada dentro de uma arquitetura de sistema.

[0038] Após receber o ponto de consulta, o servidor de banco de dados 112 usa o ponto de consulta para selecionar conjuntos de dados de observação relevantes a partir do banco de dados de observação 136 que serão úteis como dados de treinamento para o modelo local 132. O servidor de banco de dados 112 pode aplicar qualquer critério de relevância adequado para identificar quais conjuntos de dados de observação são "relevantes", dependendo da modalidade. Em uma modalidade, por exemplo, o ponto de consulta inclui um único vetor de varredura Raman e o servidor de banco de dados 112 determina se um determinado conjunto de dados de observação é relevante ao calcular uma distância euclidiana entre o vetor de varredura Raman desse conjunto de dados de observação e o vetor de varredura Raman do ponto de consulta. Se a distância euclidiana estiver abaixo de algum valor de limite predeterminado (ou abaixo de um limite variável, tal como um limite calculado com base na distância euclidiana média entre o vetor de varredura do ponto de consulta e todos os vetores de varredura do conjunto de dados de observação, etc.), o conjunto de dados de observação é identificado como um conjunto de dados de observação relevante. Um perito na técnica entenderá como é que tal abordagem pode ser facilmente estendida a modalidades nas quais o ponto de consulta (e cada conjunto de dados de observação) inclui múltiplos vetores de varredura Raman. Em algumas situações, o uso da distância euclidiana para selecionar conjuntos de dados de observação relevantes pode ser uma técnica abaixo do ideal. Se o modelo local 132 é um modelo de processo gaussiano (conforme discutido abaixo), no entanto, o uso da distância euclidiana como um critério de relevância pode ser particularmente vantajoso. Isso ocorre porque os modelos de processos gaussianos com funções de base radial ou núcleos exponenciais quadrados são, eles próprios, baseados na distância euclidiana. No entanto, em outras modalidades, outros critérios de relevância podem ser aplicados (por exemplo, critérios baseados em ângulo ou baseados em correlação, etc.). Se entende que, em modalidades em que o modelo local 132 também aceita outras informações como um conjunto de entrada/recurso (por exemplo, condições operacionais, perfil dos meios, dados de processo, informações da linha celular, informação da proteína e/ou informações de metabólitos, etc.), técnicas mais complexas podem ser usadas para identificar conjuntos de dados de observação "relevantes". Em algumas modalidades, o servidor de banco de dados 112 seleciona apenas um número predeterminado de conjuntos de dados de observação relevantes em resposta a uma única consulta, ou seleciona não mais do que um número máximo permitido de conjuntos de dados de observação relevantes, de forma a garantir que apenas um subconjunto relativamente pequeno de todos os conjuntos dentro do banco de dados de observação 136 é recuperado. Em outras modalidades, no entanto, o servidor de banco de dados 112 pode selecionar qualquer número de conjuntos de dados de observação relevantes, desde que os critérios de relevância sejam satisfeitos para cada conjunto de dados.

[0039] Em algumas modalidades, tal como será descrito em mais detalhe abaixo (por exemplo, com referência às FIGs. 5 e 6), os conjuntos de dados de observação relevantes são selecionados com base não só na relevância para um ponto de consulta em um sentido "espacial" (por exemplo, similaridade de vetores de varredura Raman), mas também na relevância em um sentido temporal (por exemplo, quais conjuntos de dados são mais recentes, independentemente da similaridade espacial). Essas técnicas podem aproveitar melhor o fato de que as medições analíticas mais recentes podem conferir informações úteis, mesmo quando essas medições recentes correspondem a um ponto de conjunto diferente, etc.

[0040] Após identificar os conjuntos de dados de observação relevantes (cada um dos quais pode ou não corresponder às mesmas condições de processo que o processo biofarmacêutico no biorreator 102 que está sendo monitorado atualmente), o servidor de banco de dados 112 recupera esses conjuntos de dados (por exemplo, os vectores de varredura Raman e medição(ões) analítica(s) correspondente(s)), e transmite os conjuntos de dados recuperados para o computador 110 através da rede 114. A unidade de consulta 140 pode, então, passar os conjuntos de dados relevantes para o gerador de modelo local 142 e o gerador de modelo local 142 usa os conjuntos de dados relevantes como dados de treinamento para calibrar o modelo local 132. Ou seja, o gerador de modelo local 142 usa o(s) vetor (es) de varredura Raman (e possivelmente outros dados) associados a cada conjunto de dados de observação como um conjunto de recursos e usa a(s) medição(ões) analítica(s) associada(s) ao mesmo conjunto de dados de observação como um rótulo para esse conjunto de recursos.

[0041] Em algumas modalidade, conforme mencionado acima, o gerador de modelo local 142 constrói um modelo de processo gaussiano, a fim de capturar eficientemente complexos, dinâmica do processo não linear, e para adaptar facilmente a praticamente qualquer alteração do processo. Ao contrário dos modelos PLS e PCR, os modelos de processos gaussianos usam métodos não paramétricos e são muito mais capazes de capturar correlações não lineares complexas entre os vetores de varredura Raman e as medições analíticas, mesmo quando usando um número muito limitado de amostras de treinamento. Isso pode ser particularmente importante em cenários onde novos produtos ou processos correspondem a apenas um número limitado de conjuntos de dados no banco de dados de observação 136. Em tais situações, um modelo de processo gaussiano é geralmente capaz de extrair a maior parte da informação a partir desses conjuntos de dados limitados, em conjunto com os outros conjuntos de dados relevantes que o servidor de banco de dados 112 seleciona a partir do banco de dados de observação 136. Em outras modalidades, no entanto, o gerador de modelo local 142 pode, em vez disso, construir um outro tipo adequado de modelo de aprendizagem de máquina (por exemplo, uma rede neural recursiva, uma rede neural convolucional, etc.), desde que o tempo de treinamento não exceda a duração mínima desejada de um período de monitoramento. O gerador de modelo local 142 também pode construir o modelo local 132 de modo que o modelo local 132 possa gerar limites de credibilidade ou algum outro indicador adequado de confiança de previsão (por exemplo, uma pontuação de confiança). Pelo menos em comparação com os modelos PLS e PCR, os modelos de processos gaussianos são particularmente adequados para conferir limites de credibilidade em torno das previsões de medição analítica. Embora várias vantagens dos modelos de processo gaussiano sobre os modelos PLS e PCR tenham sido descritas, é entendido que, em algumas modalidades, o gerador de modelo local 142 pode usar métodos de modelagem PLS ou PCR para construir o modelo local 132.

[0042] O gerador de modelo local 142 pode construir o modelo local 132 de uma maneira on-line em tempo real, de modo que a unidade de previsão 144 possa, então, usar o modelo local treinado 132 para prever uma ou mais medições analíticas do processo biofarmacêutico ao processar o(s) mesmo(s) vetor(es) de varredura Raman que a unidade de consulta 140 usou para gerar o ponto de consulta. De fato, em algumas modalidades, a unidade de consulta 140 pode realizar uma nova consulta e o gerador de modelo local 142 pode gerar uma nova versão do modelo local 132, cada vez que o analisador Raman 106 conferir um novo vetor de varredura Raman (ou um novo conjunto de vetores de varredura Raman) para o computador 110. Em outras modalidades, no entanto, a unidade de consulta 140 executa uma nova consulta (e o gerador de modelo local 142 gera uma nova versão do modelo local 132) em uma base menos frequente, tal como a cada 10 previsões/períodos de monitoramento, ou uma vez a cada 100 previsões/períodos de monitoramento, etc.

[0043] A unidade de manutenção do banco de dados 146 também pode fazer com que o(s) instrumento(s) analítico(s) 104 coletem periodicamente uma ou mais medições analíticas reais, a uma frequência significativamente inferior do que o período de monitoramento do analisador Raman 106 (por exemplo, apenas uma ou duas vezes por dia, etc.). A(s) medição(ões) por instrumento(s) analítico(s) 104 pode(m) ser destrutiva(s), em algumas modalidades, e requerem a remoção permanente de uma amostra a partir do processo no biorreator 102. No ou próximo do momento em que a unidade de manutenção de banco de dados 146 faz com que o(s) instrumento(s) analítico(s) 104 para recolha(m) e confira(m) a(s) medição(ões) analítica(s) real(ais), a unidade de manutenção do banco de dados 146 pode também fazer com que o analisador Raman 106 proporcione um ou mais vector(es) de varrimento Raman. A unidade de manutenção de banco de dados 146 pode, então, fazer com que a interface de rede 122 envie o(s) vetor(es) de varredura Raman e a(s) medição(ões) analítica(s) real(ais) correspondente(s) para o servidor de banco de dados 112 através da rede 114, para armazenamento como um novo conjunto de dados de observação no banco de dados de observação 136. O banco de dados de observação 132 pode ser atualizado de acordo com qualquer tempo adequado, que pode variar dependendo da modalidade. Se o(s) instrumento(s) analítico(s) 104 produzir(em) medições analíticas reais dentro de segundos de medição de uma amostra, por exemplo, o banco de dados de observação 132 pode ser atualizado com novas medições quase imediatamente assim que as amostras são tomadas. Em certas outras modalidades, no entanto, as medições analíticas reais podem ser o resultado de minutos, horas ou mesmo dias de processamento por um ou mais dos instrumento(s) analítico(s) 104, caso em que o banco de dados de observação 132 não é atualizado até que tal processamento tenha sido concluído. Em ainda outras modalidades, novos conjuntos de dados de observação podem ser adicionados ao banco de dados de observação 132 de uma maneira incremental, conforme diferentes instrumentos analíticos 104 completam as suas respectivas medições.

[0044] Desse modo, o banco de dados de observação 136 confere uma "biblioteca dinâmica" de observações anteriores que o gerador de modelo local 142 pode usar para treinamento de modelo. Em algumas modalidades, a(s) medição(ões) analítica(s) mais recente(s) é/são sempre adicionada(s) ao banco de dados de observação 136 e o gerador de modelo local 142 pode sempre usar o(s) conjunto(s) de dados de observação mais recentes no banco de dados de observação 136 ao calibrar o modelo local

132. Isso pode permitir que modelo local 132 codifique as informações do processo a partir do passado recente e que se adapte rapidamente às novas condições, ou se adapte rapidamente a novas condições de processos sem história. Além disso, tanto a calibragem quanto a manutenção do modelo local 132 podem ser automatizadas. Em algumas modalidades, a adaptabilidade do modelo local 132 é adicionalmente melhorada, por exemplo, conforme discutido abaixo em conexão com as técnicas A-JITL e ST-JITL.

[0045] Em algumas modalidades, a unidade de manutenção do banco de dados 146 pode fazer com que o(s) instrumento(s) analítico(s) 104 coletem e forneçam a(s) medição(ões) analítica(s) real(ais) em alguma outra base de tempo ou condição, tal como o desempenho do modelo atual. Por exemplo, se o modelo local 132 gerar um intervalo de credibilidade (por exemplo, a gama de valores, em torno do valor previsto, dentro da qual há 95% de probabilidade ou de confiança de que um valor real/medido venha a cair) ou algum outro indicador de confiança junto com uma previsão (por exemplo, se o modelo local 132 é um modelo de processo gaussiano), e se o indicador de confiança revela uma previsão particularmente pouco fiável (por exemplo, se o intervalo/gama exceder uma largura/gama limiar, etc.), em seguida, a unidade de manutenção do banco de dados 146 pode desencadear a coleta de uma ou mais medições analíticas reais. Como um exemplo mais específico, a unidade de manutenção do banco de dados 146 pode acionar a coleta da(s) medição(ões) analítica(s) em resposta à determinação de que um intervalo de credibilidade de 95% excede um limiar predefinido. A programação ideal de medições analíticas é discutida em detalhe adicional abaixo. Depois da medição(ões) é/serem feito(s), a unidade de manutenção do banco de dados 146 pode causar que o analisador Raman 106 gere um ou mais vectores de varredura Raman, e causar que a rede de interface 122 confira a(s) medição(ões) analítica(s) real(ais) e o(s) vector(es) de verificação Raman correspondente(s) para o servidor do banco de dados 112 para armazenamento como um novo conjunto de dados de observação no banco de dados de observação 132 (por exemplo, da maneira discutida acima). O gerador de modelo local 142 pode, então, usar esse último conjunto de dados de observação, se apropriado (por exemplo, dependendo da relevância para a consulta atual, ou se a modalidade sempre faz uso do conjunto de dados de observação mais recente), ao calibrar o modelo local 132.

[0046] Alguns ou todos os processos descritos acima podem ser repetidos um número de vezes ao longo da vida do processo biofarmacêutico no biorreator, a fim de monitorar continuamente o processo usando um modelo local para o qual tanto a calibragem como a manutenção são totalmente automatizadas e em tempo real. A(s) medição(ões) analítica(s) pode(m) ser prevista(s) para vários propósitos, dependendo da modalidade e/ou cenário. Por exemplo, certos parâmetros podem ser monitorados (ou seja, previstos) como uma parte de um processo de controle de qualidade, de forma a garantir que o processo ainda esteja em conformidade com os regulamentos relevantes. Como outro exemplo, um ou mais parâmetros podem ser monitorados/previstos de modo a conferir feedback em um sistema de controle de circuito fechado. Por exemplo, a FIG. 2 representa um sistema 150 que é similar ao sistema 100, mas tenta controlar uma concentração de glicose no processo biofarmacêutico (ou seja, tenta fazer com que a concentração de glicose prevista corresponda a um ponto de ajuste desejado, dentro de alguma tolerância aceitável). Se entende que, em outras modalidades, o sistema 150 pode, em vez de (ou também), ser usado para controlar parâmetros do processo diferentes do nível de glicose, ou para controlar o nível de glicose com base em previsões de um ou mais de outros parâmetros do processo (por exemplo, nível de lactato). Na FIG. 2, os mesmos números de referência são usados para indicar os componentes correspondentes da FIG. 1. Por exemplo, a aplicação previsora JITL 130 da FIG. 2 pode ser a mesma que a aplicação previsora JITL 130 da FIG. 1 (com as várias unidades da aplicação previsora JITL 130 não sendo mostrado na FIG. 2 para fins de clareza).

[0047] Conforme visto na FIG. 2, dentro do sistema 150, a memória 128 também armazena uma unidade de controle 152. A unidade de controle 152 é configurada de modo a controlar uma bomba de glicose 154, ou seja, para fazer com que a bomba de glicose 154 introduza seletivamente glicose adicional no processo biofarmacêutico dentro do biorreator 102. A unidade de controle 152 pode compreender instruções de software que são executadas pela unidade de processamento 120, por exemplo, e/ou firmware e/ou hardware apropriado. Em algumas modalidades, a unidade de controle 152 implementa uma técnica de controle preditivo do modelo (MPC), usando concentrações de glicose como entradas em uma arquitetura de circuito fechado. Em modalidades onde o modelo local 132 confere limites de credibilidade ou outros indicadores de confiança com cada previsão (por exemplo, em certas modalidades onde o modelo local 132 é um modelo de processo gaussiano), a unidade de controle 152 também pode aceitar os indicadores de confiança como entradas. Por exemplo, a unidade de controle 152 só pode gerar instruções de controle para a bomba de glicose 154 com base em previsões de concentração de glicose tendo um indicador de confiança suficientemente elevado (por exemplo, apenas com base em previsões associadas a limites de credibilidade que não excedem alguma porcentagem ou gama de medição absoluta, ou apenas com base em previsões associadas a pontuações de confiança sobre alguma pontuação de limite mínimo, etc.), ou pode aumentar e/ou reduzir o peso de uma determinada previsão com base no seu indicador de confiança, etc.

[0048] A FIG. 3 representa os resultados experimentais 200 para um exemplo de implementação em que as técnicas JITL foram usadas para calibrar e manter um modelo de processo gaussiano local. No gráfico da FIG. 3, a linha, horizontal, tracejada 202 representa o ponto de ajuste da concentração de glicose, os círculos 204 representam as medições reais da concentração de glicose (por exemplo, feitas por um instrumento analítico similar a um dos instrumento(s) analítico(s) 104 da FIG. 1), a linha sólida 206 representa as medições previstas de concentração de glicose (por exemplo, conforme previsto por um modelo similar ao modelo local 132) e as áreas sombreadas 208 representam limites de credibilidade (para 95% de credibilidade) associados às medições previstas. Conforme visto na FIG. 3, para um ponto de ajuste de concentração de glicose de 3 gramas por litro (g/L), as previsões feitas usando uma técnica JITL estão geralmente em estreita concordância com as medições analíticas.

[0049] O processo de realização de uma consulta, e de construção/calibragem do modelo local 132, irá agora ser descrito matematicamente em mais detalhe, com referência a uma modalidade JITL específica na qual modelo local 132 é um modelo de processo gaussiano que usa um único vector de varredura Raman como uma entrada e prevê uma única medição analítica:

[0050] D = 𝑏 ,𝐚 (ou D = 𝐛̅, 𝐚 em notação compacta) denota um conjunto de pares ordenados de dados de entrada e saída, tais que 𝐚 ≡ 𝐚 , 𝐚 … , 𝐚 são as entradas e 𝐛̅ ≡ 𝑏 , 𝑏 … , 𝑏 são as saídas. Adicionalmente, se assume que 𝐚𝒋 ∈ ℝ é um vetor de entrada na- dimensional e 𝑏 ∈ ℝ é uma saída escalar. Fisicamente, 𝐚𝒋 ∈ ℝ pode ser pensado como uma medição espectroscópica (por exemplo, NIR ou Raman) e 𝑏 ∈ ℝ como a medição analítica para o estado de interesse (por exemplo, concentração de glicose ou lactato). Dado um conjunto de dados de treinamento D, o objetivo de um problema de calibragem de modelo espectroscópico é identificar a relação entre as entradas e A saídas para o modelo da forma: 𝑏 = 𝑓(𝐚 ) + 𝝐𝒋 Equação (1) onde 𝑓 ∈ ℝ é o modelo espectroscópico e 𝝐𝒋 ~ N (0, 𝜎 ) é um ruído de medição de média zero, normalmente distribuído, com variância 𝜎 sendo desconhecida. A prática padrão na calibragem do modelo é assumir que f(•) é linear e, em seguida, usar métodos tais como PLS para treinar o modelo. Em vez de atribuir qualquer forma limitante ou fixa a f(•), se assume, no presente documento, que f(•) é uma função latente modelada como um processo gaussiano, tal que 𝑓 (𝐚) ≡ 𝑓 (𝐚 ), 𝑓 (𝐚 ), … , 𝑓 𝐚 ~ GP(𝝁 (𝐚), 𝐤 (𝐚, 𝐚)) representa uma amostra aleatória a partir de um processo gaussiano, com média 𝝁 (•) ∈ ℝ𝑱 e uma função de covariância 𝐤 (•,•) ∈ ℝ𝑱𝒙𝑱 , que são tipicamente definidas da seguinte forma: 𝝁 (𝐚) ≡ 𝜇 (𝐚 ) , 𝜇 (𝐚 ) … , 𝜇 𝐚 , Equação (2a)

𝑘 (𝑎 , 𝑎 ) 𝑘 (𝑎 , 𝑎 ) ⋯ 𝑘 𝑎 ,𝑎 ⎡ ⎤ ⎢ ( ) 𝑘 (𝑎 , 𝑎 ) ⎥ 𝑘 (𝑎 ; 𝑎 ) ≡ ⎢𝑘 𝑎 , 𝑎 ⋯ 𝑘 𝑎 ,𝑎 ⎥ Equação (2b) ⎢ ⋮ ⋮ ⋱ ⋮ ⎥ ⎣𝑘 𝑎 , 𝑎 𝑘 𝑎 ,𝑎 ⋯ 𝑘 𝑎 ,𝑎 ⎦

[0051] Além disso, 𝜃 ∈ ℝ denota hiperparâmetros para o modelo de processo gaussiano. Um processo gaussiano é uma coleção de variáveis aleatórias, qualquer número finito das quais tem uma distribuição gaussiana conjunta, de modo que, para um conjunto de entradas finitas 𝐚 ≡ 𝐚 , 𝐚 , … , 𝐚 se pode escrever: 𝑝(𝐟|𝐚) = 𝒩 𝜇 (𝐚), 𝐤 (𝐚, 𝐚) Equação (3)

[0052] O problema de calibragem do modelo espectroscópica depois se reduz à aprendizagem da função do processo gaussiano latente 𝑓 ∈ ℝ usando D. Por uma questão de conveniência matemática e brevidade geral, se assume no presente documento que 𝝁 = 0 ; , no entanto, esse não precisa ser o caso em geral, e os resultados no presente documento podem ser facilmente estendidos para modelos com 𝝁 ≠ 0 . . O papel de uma função de covariância em processos gaussianos é similar àquele dos kernels usados em máquinas de vetores de suporte (SVM). Uma escolha comum para a função de covariância é o kernel gaussiano, e é dada por () () 𝑘 𝐚 ,𝐚 = β exp − ∑ , Equação (4) onde 𝑘 𝐚 , 𝐚 ∈ ℝ é a covariância entre o par de entrada 𝐚 , 𝐚 . Um kernel gaussiano 𝑘 𝐚 , 𝐚 atribui uma correlação mais elevada se as entradas no conjunto 𝐚 , 𝐚 estiverem "próximas" umas das outras conforme definido pela distância euclidiana na Equação (4).

[0053] Para a escolha de um kernel gaussiano, a Equação (4) é uma matriz simétrica definida positiva, de tal modo que 𝐤 (∙,∙) ∈ × 𝕊 . Na equação (4), o conjunto 𝜃 ≡ β, {𝛼 } é um conjunto de hiperparâmetros. Fisicamente, 𝛼 ∈ ℝ é um parâmetro de escala de comprimento e β ∈ ℝ é um parâmetro de variação de sinal. A escolha de uma função de covariância gaussiana na Equação (4) corresponde a uma suposição anterior de que f é suave e contínua. Desse modo, ao variar os hiperparâmetros da função de covariância, a "suavidade" de 𝑓 pode ser variada. No presente documento, são assumidos processos gaussianos com uma função de covariância gaussiana. No entanto, esse não precisa ser o caso em geral.

[0054] Dado D, o objetivo é aprender os hiperparâmetros do processo gaussiano, incluindo quaisquer outros parâmetros de modelo desconhecidos. Para o processo gaussiano na Equação (1), o conjunto de parâmetros desconhecidos é 𝛾 ≡ {𝜃, 𝜎 } ∈ Γ ⊆ ℝ . O passo de aprendizagem de parâmetros pode ser realizado maximizando a função de probabilidade marginalizada (ou evidência) sobre o espaço de parâmetros desconhecidos. Por exemplo, para o processo gaussiano na Equação (1), uma função de probabilidade marginalizada é dada como se segue 𝑝 𝐛̅ 𝐚 = ∫ 𝑝 𝐛̅ 𝐟, 𝐚 𝑝 𝐟 ̅ 𝐚 𝑑𝐟 , Equação (5) onde 𝑝 𝐛̅ 𝐚 é uma função de probabilidade marginalizada, 𝑝 𝐛̅ 𝐟, 𝐚 é a função de probabilidade dada por 𝒑 𝐛̅ 𝐟, 𝐚 = 𝒩 𝐟(𝐚), 𝜎 𝚰 × , Equação (6) e 𝑝 𝐟 ̅ 𝐚 é a função de densidade anterior dada na Equação (3). Para uma probabilidade gaussiana e densidades anteriores nas Equações (6) e (3), respectivamente, o integral na Equação (5) tem uma solução de forma fechada, de tal modo que a função de probabilidade marginalizada é dada por 𝒑 𝐛̅ 𝐚 = 𝒩 𝟎 , 𝐤 (𝐚, 𝐚) + 𝜎 𝐈 × . Equação (7)

[0055] Agora, dada a equação (7), 𝛾 ≡ {𝜃, 𝜎 } ∈ Γ ⊆ ℝ pode ser estimada ao resolver o seguinte problema de otimização: 𝛾 ∗ ∈ arg max log 𝑝 𝐛̅ 𝐚 , Equação (8) onde 𝛾 ∗ ∈ Γ é uma estimativa ótima. A partir da Equação (7), temos 𝟏 𝟏 𝐉 log 𝑝 𝐛̅ 𝐚 = − 𝐛 𝐤 𝐛̅ − log 𝐤 − log 2π , Equação (9) 𝟐 𝟐 𝟐 onde 𝐤 ≡ 𝐤 (𝐚|𝐚) + 𝜎 𝐈 × . Para resolver o problema de otimização na Equação (8), as derivadas parciais da Equação (9) são determinadas em relação a 𝛾 de tal modo que para todo r = 1, 2, …, 𝑛 , 𝟏 𝐤 𝟏 𝐤 log 𝑝 𝐛̅ 𝐚 = 𝐛 𝐤 𝐤 𝟏 𝐛̅ − Tr 𝐤 Equação (10a) 𝟐 𝟐 𝟏 𝐤 = Tr (𝛼𝛼 − 𝐤 ) , Equação (10b) 𝟐 onde 𝜶=𝐤 𝜸 𝟏 𝐛̅. Dada uma função de probabilidade marginalizada na Equação (7) e as suas derivadas na Equação (10b), um método de gradiente descendente pode ser usado para resolver a Equação (8). Uma vez que a Equação (8) é geralmente um problema de otimização não convexa com múltiplos ótimos locais, se deve ter cuidado ao resolver o problema de otimização. Se assume no presente documento que 𝛾 ∗ é conhecido ou pode ser computadorizado ao resolver a Equação (8). Adicionalmente, para facilitar a carga de notação, será assumido, no presente documento, que 𝛾 é a estimativa ótima 𝛾 ∗ , a menos que especificado de outra forma.

[0056] Uma vez que o modelo de calibragem espectroscópica do processo gaussiano na Equação (1) seja treinado, ele pode ser implantado para aplicações preditivas em tempo real. Tal como antes, D é o conjunto de dados de treinamento usado para treinar o modelo de processo gaussiano e 𝐚∗ 𝜖 ℝ é um novo sinal espectroscópico de teste. O objetivo é então prever uma saída correspondente b∗ ∈ ℝ à entrada de teste 𝐚∗ . O primeiro passo na computação b∗ é construir uma densidade conjunta de todo o conjunto de saída de treinamento 𝐛̅ e a saída do processo gaussiano de teste 𝑓(𝐚∗ ) condicionada ao conjunto de entrada de treinamento 𝐚 e à entrada de teste 𝐚∗ . Essa densidade conjunta é dada como se segue: 𝐤 (𝐚 , 𝐚 ) 𝐤 (𝐚, 𝐚∗ ) 𝒑 𝐛̅ 𝑓 (𝐚∗ ) |𝐚, 𝐚∗ ) = 𝒩 0, Equação (11) 𝐤 (𝐚∗ , 𝐚) 𝑘 (𝐚∗ , 𝐚∗ ) onde 𝐤 ≡ 𝐤 (𝐚, 𝐚) + 𝜎 𝐈 × . Dada a Equação (11), sob a estrutura bayesiana, a saída do processo gaussiano 𝑓(𝐚∗ ) é calculada construindo uma distribuição sobre todas as saídas do processo gaussiano. Por outras palavras, os inventores procuram uma distribuição posterior para a saída do processo gaussiano 𝑓(𝐚∗ ). Claro que, a distribuição posterior sobre 𝑓(𝐚∗ ) necessita apenas de incluir aquelas funções que concordam com o conjunto de treinamento D. Sob ajustes probabilísticos, uma distribuição posterior sobre 𝑓 (𝐚∗ ) pode ser computadorizada condicionando a distribuição conjunta na Equação (11) no conjunto de treinamento D para dar 𝑝(𝑓(𝐚∗ )|𝒟, 𝐚∗ ) = 𝒩 (𝜇 ∗ , 𝑘 ∗ ) , Equação (12) onde 𝑝(𝑓 (𝐚∗ )|𝒟, 𝐚∗ ) é uma distribuição posterior para a saída do processo gaussiano, e 𝜇 ∗ ≡ 𝔼 (𝑓(𝒂∗ )│𝐷, 𝒂∗ ) é dado por 𝜇∗ = 𝐤 (𝐚∗ , 𝐚) 𝐤 (𝐚, 𝐚) 𝐛̅ , Equação (13) e 𝑘 ∗ ≡ 𝕍[(𝑓 (𝐚∗ )|𝒟, 𝐚∗ )] é dado por 𝑘 ∗ = 𝑘 (𝐚∗ , 𝐚∗ ) − 𝐤 (𝐚∗ , 𝐚) 𝐤 𝜸 (𝐚, 𝐚) 𝐤 (𝐚, 𝐚∗ ) . Equação (14)

[0057] Dada a Equação (12), uma distribuição posterior preditiva para a saídab* pode ser computadorizada como se segue 𝑝(𝑏 ∗ |𝒟, 𝐚∗ ) = 𝒩 (𝜇∗ , 𝑘 ∗ + 𝜎 ) , Equação (15) onde 𝜇∗ e 𝑘 ∗ são dados nas Equações (13) e (14), respectivamente. Para uma única entrada de teste 𝐚∗ ∈ ℝ a previsão do processo gaussiano na Equação (15) confere uma distribuição de saídas que têm uma probabilidade diferente de zero de serem realizadas. Em aplicações de tempo real, tal como controle e monitoramento, é provável que se esteja interessado em uma estimativa pontual em vez da distribuição total. Uma estimativa pontual pode ser computadorizada usando uma abordagem teórica de decisão. Pode ser mostrado que para uma distribuição gaussiana posterior na Equação (15), a função média minimiza tanto as funções de risco absoluto como as quadráticas esperadas, com 𝑏 = 𝜇∗ sendo a saída mais provável para a entrada 𝐚∗ . Adicionalmente, para a escolha de 𝑏 = 𝜇∗ como a previsão, uma intervalo de credibilidade de aproximadamente 95% é dado por 𝑏 = 𝜇∗ − 2 𝑘∗ + 𝜎 ≤ 𝑏 ≤ 𝜇∗ + 2 𝑘∗ + 𝜎 =𝑏 Equação (16) O intervalo na Equação (16) pode ser usado para avaliar a qualidade das previsões do processo gaussiano e/ou no projeto de controle preditivo de modelo baseado em processo gaussiano ou outras estratégias de monitoramento robustas.

[0058] Voltando agora para a seleção de amostras relevantes (neste documento, conjuntos de dados de observação) em resposta a uma consulta, o problema é, para um determinado ponto de consulta 𝐚∗ ∈ ℝ , e um banco de dados/biblioteca central ℒ ≡ {𝑏 , 𝐚 } contendo pares de entrada-saída 𝐿 ∈ ℕ (conjuntos de dados de observação), para selecionar um conjunto de treinamento local 𝒟 ≡ 𝑏 , 𝐚 por vez 𝑡 ∈ ℕ contendo 𝐷 ∈ ℕ amostras, onde 𝐷 << 𝐿. Se assume que ℒ é dinâmico e pode incluir entradas diferentes durante uma campanha. Existem inúmeras maneiras de construir 𝒟 a partir de ℒ. Para fins desta análise, 𝒟 é selecionado com base na distância euclidiana entre os espectros (por exemplo, vetor de varredura Raman s) no conjunto ℒ. Embora medições de similaridade baseadas em euclidianas em uma estrutura JITL tenham sido relatadas como subótimas em certas situações, elas podem ser uma escolha benéfica quando um modelo de processo gaussiano é usado. Isso ocorre porque o próprio modelo de processo gaussiano é baseado na distância euclidiana. O kernel gaussiano atribui uma correlação mais elevada apenas se as entradas no conjunto 𝐚 , 𝐚 estiverem "próximas" umas das outras. Portanto, através da criação de um conjunto de treinamento local 𝒟 com todas as entradas estando "próximas" do ponto de consulta, se pode assegurar que o modelo de processo gaussiano local capturas a "correlação" máxima para prever a saída no ponto de consulta.

[0059] Um algoritmo de exemplo que formalmente descreve o método para criar um conjunto de treinamento 𝒟 a partir ℒ, treina o modelo de processo gaussiano usando esse conjunto de treinamento, e faz uma previsão usando o modelo treinado que é conferido abaixo no Algoritmo 1:

1. Entrada: Biblioteca ℒ = {(𝐚 , b𝒊 )}𝑳𝒊 𝟏, ponto de consulta 𝐚∗

2. Saída: Previsão 𝑏 e incerteza (𝑏 , 𝑏 )

3. para 𝑡 = 1 a 𝑇 então

4. Definir 𝐼 ← índice_amostra(ℒ ) e 𝒟 ← {∅}

5. para 𝑑 = 1 para 𝐷 𝐝𝐨

6. 𝑘∗ ∈ arg max exp(−‖𝐚𝒊 − 𝐚∗ ‖) ∈

7. 𝒟 ← 𝒟 ∪ 𝐚 ∗, 𝑏 ∗

8. 𝐼 ← 𝐼\{𝑖}

9. final de para

10. Treinar o modelo de processo gaussiano da Equação (1) usando 𝒟 e estimar 𝛾 ∗

11. Computadorizar 𝑏 e (𝑏 , 𝑏 ) usando as Equações (13) e (16)

12. final de para

Algoritmo 1

[0060] Voltando agora para a FIG. 4, um exemplo de fluxo de dados 250 que pode ocorrer ao analisar um processo biofarmacêutico usando uma técnica JITL, conforme descrito neste documento, é mostrado. O fluxo de dados 250 pode ocorrer dentro do sistema 100 da FIG. 1 ou sistema 150 da FIG. 2, por exemplo. No fluxo de dados 250, os dados espectrais 252 são conferidos por um espectrômetro/sonda. Por exemplo, dados espectrais 252 podem incluir um vector de varredura Raman gerado pelo analisador Raman 106, ou um vector de varredura NIR, etc. Um ponto de consulta 254 é gerado (por exemplo, pela unidade de consulta 140) com base nos dados espectrais 252 e é usado para consultar um conjunto de dados global 256, que pode incluir todos os conjuntos de dados de observação no banco de dados de observação 136, por exemplo. Com base na consulta, um conjunto de dados local 258 é identificado dentro do conjunto de dados global 256. O conjunto de dados locais 258 pode ser selecionado com base em critérios de relevância (por exemplo, distância euclidiana), por exemplo, conforme descrito acima.

[0061] O conjunto de dados local 258 é então usado como dados de treinamento (por exemplo, pelo gerador do modelo local 142) para calibrar um modelo local 260 (por exemplo, modelo local 132). O modelo local 132 é, então, usado (por exemplo, pela unidade de previsão 144) para prever uma saída (medição analítica) 262, tal como uma concentração de componente de meios, estado dos meios (por exemplo, glicose, lactato, glutamato, glutamina, amônia, aminoácidos, Na+, K+ e outros nutrientes ou metabólitos, pH, pCO2, pO2, temperatura, osmolalidade, etc.), densidade celular viável, título, atributos de qualidade críticos, estado celular, etc., e possivelmente também limites de credibilidade de saída ou outro indicador de confiança adequado.

[0062] Embora um modelo local baseado em JITL (por exemplo, como no Algoritmo 1 e fluxo de dados 250) proporcione uma estrutura de modelagem não linear robusta, tal abordagem não tem um mecanismo inerente para adaptação a mudanças de processo variáveis no tempo. Para endereçar essa lacuna, algumas modalidades podem usar uma estratégia JITL "adaptativa" (A-JITL). Conforme notado acima, as novas amostras podem ser incluídos em ℒ conforme essas amostras se tornarem disponíveis. Em tais modalidades (isto é, onde ℒ é dinâmico), ℒ pode ser denotado como ℒ . Em uma dessas modalidade, um método de janela de tempo móvel é implementado, no qual uma amostra recém-obtida é adicionada a ℒ e a amostra mais antiga é removida de ℒ . Descartar a amostra mais antiga pode ser benéfico uma vez que, em estratégias adaptativas, manter o tamanho de ℒ pode ser crítico para garantir a tratabilidade computacional da estrutura JITL geral. Uma preocupação principal com essa abordagem, no entanto, é que simplesmente descartar amostras antigas pode levar à perda de informação, uma vez que amostras antigas podem conter informações relevantes.

[0063] De forma a evitar tal perda de informação, em uma modalidade, novas amostras são adicionadas a ℒ sem remover quaisquer amostras antigas/existentes. Desse modo, o banco de dados central ℒ se expande com um número crescente de amostras à medida que novas medições analíticas se tornam disponíveis. Em uma aplicação de processo de cultura celular, um banco de dados em expansão pode não dar origem a quaisquer problemas computacionais significativos, devido ao fato de que tais processos são tipicamente operados como processos em lote com duas a três semanas de tempo de lote. Isso limita, naturalmente, o número de novas amostras que devem ser incluídas ℒ . Adicionalmente, apenas um número limitado de medições analíticas é tipicamente amostrado durante o curso de um lote de processo de cultura celular (ao contrário, por exemplo,

das indústrias químicas nas quais medições analíticas são frequentemente amostradas). Desse modo, normalmente haveria apenas um aumento modesto no tamanho do banco de dados ℒ , sem qualquer influência significativa na estabilidade computacional da estrutura JITL geral.

[0064] Enquanto incluindo novas amostras em ℒ é importante para a adaptação contínua do Algoritmo 1 (acima), o sucesso dessa abordagem se apoia na seleção dessas novas amostras no banco de dados local 𝒟 para calibragem do modelo local. O Algoritmo 1, que seleciona amostras para 𝒟 a partir de ℒ com base na distância euclidiana (por exemplo, linha 6 do Algoritmo 1), pode ser referido como uma abordagem "relevante no espaço" uma vez que dá prioridade a amostras que são relevantes (próximas) no espaço. Se novas amostras não estão perto da amostra de consulta, como é provavelmente o caso quando uma mudança abrupta do ponto de ajuste (ou outra alteração abrupta das condições do processo) ocorre, o Algoritmo 1 pode falhar para incluir essas amostras em 𝒟. Métodos recursivos (por exemplo, mínimos quadrados parciais regularizados (RPLs), mínimos quadrados recursivos (RLS), e mínimos quadrados parciais recursivos de N-vias (RNPLS)), por outro lado, são "relevantes no tempo" uma vez que dão prioridade às últimas medições, independentemente da relevância no espaço. Atualizar o modelo local usando as amostras mais recentes pode permitir que métodos recursivos se adaptem com sucesso às condições atuais do processo.

[0065] Uma tal modalidade, referida no presente documento como JITL "adaptativa" (A-JITL), dá prioridade a amostras que são relevantes no espaço e no tempo. Deixando 𝒢 = {{𝐚 , b𝒊 }} representar um conjunto de medições históricas L disponíveis desde antes do início de um experimento atual (ou seja, o experimento/processo no qual a ocorre consulta a a*), e deixando 𝒢 = {{𝐚 , b𝒋 }} representar um conjunto de n medições disponíveis a partir do experimento atual, as amostras podem ser redistribuídas conforme se segue: ℒ = 𝒢 ∪ 𝒢 \ {{𝐚 , b𝒋 }} , Equação (17a) 𝒦 = {{𝐚 , b𝒋 }} , Equação (17b) onde ℒ representa o banco de dados central e 𝒦 representa um conjunto das últimas k medições (mais recentes). Em algumas modalidades, 𝒦 contém as últimas k amostras do experimento/processo atual e ℒ contém amostras a partir de experimentos/processos anteriores, bem como (potencialmente) amostras a partir do experimento/processo atual que são mais antigas do que as últimas k amostras. As Equações (17a) e (17b) acima são definidas para uma determinada consulta a*. Para uma consulta que chega em outro momento do tempo, conjuntos de dados ℒ e 𝒦 podem conter amostras diferentes, dependendo do número de medições disponíveis naquele instante de tempo. Por exemplo, uma vez que a amostra (𝐚 , b𝒏 𝟏 ) está disponível, (𝐚 , b𝒏 𝒌 𝟏) é removido de 𝒦 e (𝐚 , b𝒏 𝟏) é incluído em𝒦. A amostra descartada (𝐚 , b𝒏 𝒌 𝟏) é então incluída ℒ para evitar qualquer perda de informação. A atualização de 𝒦com as medições mais recentes garante que 𝒦 reflete pelo menos algumas condições atuais.

[0066] Dados ℒ e 𝒦, o objetivo é selecionar 𝒟. Conforme observado acima, para A-JITL, ambas as amostras relevantes no espaço e no tempo estão incluídas em 𝒟. Se for assumido que 𝒟pode ser decomposto como: 𝒟 ≡𝒟 ∪𝒟 , Equação (18) onde 𝒟 e 𝒟 são os conjuntos relevantes no espaço e no tempo, respectivamente, então o objetivo é selecionar 𝒟 e 𝒟 . Em primeiro lugar, se assume que𝒟 ∩ 𝒟 = 0, tal que 𝒟 contém apenas amostras únicas. Para projetar, 𝒟 , as amostras D – k são selecionadas a partir de ℒ com base em uma métrica baseada na distância (espacial), tal como um "índice de similaridade" ou " valor s":

𝑠 = sim(𝐚𝒊 , 𝐚∗ ) = exp (−‖𝐚𝒊 − 𝐚∗ ‖). Equação (19)

[0067] A Equação (19) pode ser usada como a métrica de similaridade na técnica JITL (não adaptativa) descrita acima, por exemplo. Desse modo, por exemplo, as amostras D – k com os valores s mais elevados podem ser selecionadas a partir de ℒ para inclusão em 𝒟 . Para projetar 𝒟 , se for assumido que as últimas k amostras a partir do experimento/processo atual são relevantes no tempo, 𝒟 pode em algumas modalidades ser definido como sendo igual a 𝒦. Observa-se que, ao contrário dos valores s que determinam a associação de amostras em 𝒟 , a associação em 𝒟 é decidida com base nos tempos de amostragem. É claro que, dependendo do cenário, amostras em 𝒟 podem apresentar grandes valores s. Independentemente dos valores s, 𝒟 só é considerado relevante no tempo. Da mesma forma, 𝒟 só é relevante no espaço, porque por construção, ℒ não tem relevância no tempo. Se note que 𝒟 e 𝒟 são definidos por uma consulta determinada a*, amostras em 𝒟 são selecionadas com base nos seus valores s computadorizados em relação a a*, e amostras em 𝒟 são selecionadas com base nos seus tempos de amostragem computadorizados em relação ao tempo de amostragem de a*. Por conveniência, 𝒟 e 𝒟 são genericamente definidos como se segue: 𝒟 ≡ 𝐚𝑺 , 𝐛̅𝑺 , Equação (20a) 𝒟 ≡ 𝐚𝑻 , 𝐛̅𝑻 , Equação (20b) onde 𝐚𝑺 e 𝐚𝑻 são as amostras relevantes no espaço e no tempo do espectrômetro Raman, respectivamente, e 𝐛̅𝑺 e 𝐛̅𝑻 são as amostras relevantes no espaço e no tempo do instrumento analítico, respectivamente, de tal modo que 𝐚 ≡ [𝐚 , … , 𝐚 ] ; 𝐚 ≡ [𝐚 ,…,𝐚 ] , Equação (21a) b ≡ [𝑏 , … , 𝑏 ] ; 𝐛̅ ≡ [𝑏 ,…,𝑏 ] . Equação (21b)

[0068] Substituindo as Equações (20a) e (20b) na Equação (18) dá 𝒟 definido, designado genericamente como 𝒟 ≡ 𝐚, 𝐛̅ , onde

𝐓 𝐚 ≡ [𝐚 , 𝐚 ]𝐓 e 𝐛̅ ≡ 𝐛̅ , 𝐛̅ . Em contraste com a técnica JITL (não adaptativa) discutida acima, a biblioteca/conjunto de dados local 𝒟dá prioridade às amostras que são relevantes no espaço e no tempo. Dado 𝒟 e uma consulta a*, o modelo de processo gaussiano na Equação (1) (por exemplo, modelo local 132) pode ser calibrado. A estimativa do ponto e o intervalo de credibilidade em a* podem ser computadorizados usando as Equações (13) e (16), respectivamente, onde 𝐤 (𝐚, 𝐚) e 𝐤 (𝐚∗ , 𝐚) são dados por 𝐤 (𝐚 𝑺 , 𝐚 𝑺 ) 𝐤 (𝐚 𝑺 , 𝐚 𝑻 ) 𝐤 (𝐚 , 𝐚 ) ≡ +𝜎 𝐈 , Equação (22a) 𝐤 (𝐚 𝑻 , 𝐚 𝑺 ) 𝐤 (𝐚 𝑻 , 𝐚 𝑻 ) 𝐤 (𝐚∗ , 𝐚) ≡ [𝐤 (𝐚∗ , 𝐚𝑺 ) 𝐤 (𝐚∗ , 𝐚𝑻 )] , Equação (22b) ( ) onde 𝐤 (𝐚𝑺 , 𝐚𝑺 ) ∈ 𝑺 e 𝐤 (𝐚 𝑻 , 𝐚 𝑻 ) ∈ 𝑺 são as funções de covariância associadas com 𝒟 e 𝒟 , respectivamente, e onde 𝐤 (𝐚𝑺 , 𝐚𝑻 ) ∈ ℝ(𝑫 𝒌)𝒌 éa covariância entre 𝒟 e 𝒟 .

[0069] Um algoritmo de exemplo que destaca formalmente a técnica A-JITL é conferido abaixo no Algoritmo 2:

2. Saída: Previsão 𝑏 e incerteza (𝑏 , 𝑏 )

3. Ajustar 𝒦 ← {∅}

4. para 𝑡 = 1 a 𝑇 então

5. Ajustar 𝐼 ← índice_amostra(ℒ ), 𝒟 ← {∅}, 𝒟 ← {∅}

6. para 𝑑 = 1 para 𝐷 − definir_cardinalidade(𝒦) efetuar

7. 𝑖∗ ∈ arg max sim(𝐚 , 𝐚∗ ) ∈

8. 𝒟 ← 𝒟 ∪ 𝐚 ∗, b ∗

9. 𝐼 ← 𝐼 \ {𝑖∗ }

10. final de para

11. se definir_cardinalidade(𝒦) ≥ 1 então

12. 𝒟 ←𝒦

13. final de se

14. 𝒟 ←𝒟 ∪𝒟

15. Treinar o modelo de processo gaussiano na Equação (1) usando 𝒟 e estimar 𝛾 ∗

16. Computadorizar 𝑏 e (𝑏 , 𝑏 ) usando as Equações (13) e (16)

17. se 𝑏∗ está disponível então

18. se tamanho(𝒦) = 𝑘 então

19. ℒ ← ℒ ∪ selecionar_(𝒦)_mais_antigo

20. 𝒦 ← apagar_(𝒦)_mais_antigo

21. 𝒦 ← 𝒦 ∪ {𝐚∗ , 𝑏 ∗ }

22. final de se

23. 𝒦 ← 𝒦 ∪ {𝐚∗ , 𝑏 ∗ }

24. final de se

25. final de para Algoritmo 2

[0070] Desse modo, o Algoritmo 2 combina JITL (relevante no espaço) com aprendizagem recursiva (relevante no tempo). Para |𝒟 | = 0, por exemplo, a calibragem do modelo local 132 usando o Algoritmo 2 é similar a JITL relevante no espaço, enquanto para |𝒟 | = 0, a calibragem do modelo local 132 usando o Algoritmo 2 é similar à aprendizagem recursiva. Desse modo, ao ajustar |𝒟 | e |𝒟 |, JITL (não recursiva) a e a aprendizagem recursiva podem ser adequadamente balanceados.

[0071] Voltando agora para a FIG. 5, um exemplo de fluxo de dados 300 que pode ocorrer ao analisar um processo biofarmacêutico usando uma técnica A-JITL, conforme descrito neste documento, é mostrado. O fluxo de dados 300 pode ocorrer dentro do sistema 100 da FIG. 1 ou sistema 150 da FIG. 2, por exemplo. No fluxo de dados 300, os dados espectrais 302 são conferidos por um espectrômetro/sonda. Por exemplo,

dados espectrais 302 podem incluir um vector de varredura Raman gerado pelo analisador Raman 106, ou um vector de varredura NIR, etc. Um ponto de consulta 304 é gerado (por exemplo, pela unidade de consulta 140) com base nos dados espectrais 302 e é usado para consultar um conjunto de dados global 306, que pode incluir todos os conjuntos de dados de observação no banco de dados de observação 136, por exemplo. O conjunto de dados global 306 é logicamente separado nas últimas k entradas 307A (por exemplo, todas a partir do experimento/processo atual) e todas as entradas 307B antes das últimas k entradas 307A (por exemplo, a partir de experimentos/processos anteriores, e possivelmente também o experimento/processo atual). O valor de k pode ser determinado com base no número de amostra do ponto de consulta 304. Conforme usado no presente documento, o termo "número de amostra" pode se referir amplamente a qualquer indicador de tempo, ou o tempo relativo, associado com uma dada amostra/observação. Certas entradas entre as entradas 307B são adicionadas ao conjunto de dados local 308 com base na similaridade espacial (por exemplo, distância euclidiana) para o ponto de consulta 304, enquanto todas as entradas 307A podem ser adicionadas ao conjunto de dados local 308 independentemente da similaridade espacial. O conjunto de dados local 308 pode ser gerado a partir das entradas 307A e das entradas 307B de acordo com o Algoritmo 2, por exemplo.

[0072] O conjunto de dados local 308 é então usado como dados de treinamento (por exemplo, pelo gerador do modelo local 142) para calibrar um modelo local 310 (por exemplo, modelo local 132). O modelo local 310 é, então, usado (por exemplo, pela unidade de previsão 144) para prever uma saída (medição analítica) 312, tal como uma concentração de componente de meios, estado dos meios (por exemplo, glicose, lactato, glutamato, glutamina, amônia, aminoácidos, Na+, K+ e outros nutrientes ou metabólitos, pH, pCO2, pO2, temperatura, osmolalidade, etc.), densidade celular viável, título, atributos de qualidade críticos, estado celular, etc., e possivelmente também limites de credibilidade de saída ou outro indicador de confiança adequado.

[0073] Se uma medição analítica real (por exemplo, uma medição feita por um instrumento analítico, tal como um do(s) instrumento(s) analítico(s) 104) estiver disponível, uma nova entrada 314 é criada e adicionada ao conjunto de dados global 306. Tais medições podem estar disponíveis em uma base de amostragem periódica (por exemplo, uma ou duas vezes por dia), por exemplo, e/ou podem ser disponibilizadas em resposta a um desencadeador com tempo variável (por exemplo, se um certo número de previsões em uma linha tem limites de credibilidade inaceitavelmente amplos, etc.), conforme discutido adicionalmente abaixo.

[0074] Embora a inclusão de amostras relevantes no espaço e no tempo em 𝒟 seja necessária para a adaptação contínua da abordagem A-JITL discutida acima, o grau geral de adaptação alcançado por A-JITL depende de quão efetivamente 𝒟 é usado para calibragem do modelo local. Para uma amostra/ponto de consulta, 𝐚∗ , uma amostra relevante no espaço (𝐚𝒊 , 𝑏 ) ∈ 𝒟 confere elevada correlação entre as funções 𝑓(𝐚∗ ), 𝑓 (𝐚 ) . Isso ocorre porque, para uma consulta 𝐚∗ , a relevância do espaço de (𝐚𝒊 , 𝑏 ) e a correlação entre 𝑓 (𝐚∗ ), 𝑓 (𝐚 ) são computadorizados com base na distância euclidiana entre (𝐚 , 𝐚∗ ). Desse modo, para a escolha da medição de similaridade baseada em euclidianas na Equação (19), e um kernel baseado em euclidianas na Equação (4), se espera que as amostras em 𝒟 forneçam correlações funcionais elevadas. Por outro lado, uma amostra relevante no tempo 𝐚 , 𝑏 ∈ 𝒟 , pode não conferir uma correlação forte entre as funções 𝑓 (𝐚∗ ), 𝑓 𝐚 . Isso ocorre porque, conforme observado acima, as amostras em 𝒟 não são necessariamente relevantes no espaço. Como um resultado, a correlação atribuída pelo kernel gaussiano na Equação (4) entre 𝑓 (𝐚∗ ), 𝑓 𝐚 será pequena se a relevância espacial de 𝐚 , 𝑏 for pequena. A partir de uma perspectiva de modelagem, treinar um modelo de processo gaussiano na Equação (1) com amostras com pequenas correlações é indesejável, uma vez que isso leva a um fraco desempenho do modelo. Matematicamente, isso pode ser demonstrado como se segue.

[0075] Para uma consulta 𝐚∗ e um modelo de processo gaussiano calibrado do Algoritmo 2, a previsão do modelo 𝑏 pode ser computadorizada usando a Equação (13). Sem perda de generalidade, se 𝜎 = 0 (o caso sem ruído), se pode escrever a Equação (13) como se segue: 𝐤 (𝐚 , 𝐚∗ ) 𝐤 (𝐚 , 𝐚 ) 𝐤 (𝐚 , 𝐚 ) 𝐛̅ 𝑏= . Equação (23) 𝐤 (𝐚 , 𝐚∗ ) 𝐤 (𝐚 , 𝐚 ) 𝐤 (𝐚 , 𝐚 ) 𝐛̅

[0076] Se 𝐚 , 𝐛̅ tiver relevância de espaço negligenciável (ou seja, o valor s entre 𝐚 e 𝐚∗ é infinitamente maior, então a Equação 4 resulta em 𝐤 (𝐚∗ , 𝐚 ) ≈ 0 . Além disso, por construção, uma vez que 𝐚 está mais próximo de 𝐚∗ do que de 𝐚 , o resultado é 𝐤 (𝐚 , 𝐚 ) ≈ 0( ) e 𝐤 (𝐚 , 𝐚 ) ≈ 0 ( ). Substituindo esses na Equação (23) dá origem a 𝐤 (𝐚 , 𝐚 ∗ ) 𝐤 (𝐚 , 𝐚 ) 0( ) 𝐛̅ 𝑏≈ , Equação (24a) 0 0 ( ) 𝐤 (𝐚 , 𝐚 ) 𝐛̅ 𝐤 (𝐚 , 𝐚∗ ) 𝐤 (𝐚 , 𝐚 ) 0( ) 𝐛̅ = Equação (24b) 0 0 ( ) 𝐤 (𝐚 , 𝐚 ) 𝐛̅ = 𝐤 (𝐚 ∗ , 𝐚 )𝐤 (𝐚 , 𝐚 )𝐛̅ . Equação (24c) A partir da Equação (24c) é claro que a estimativa do ponto é independente de 𝒟 . Da mesma forma, pode ser mostrado que a Equação (16) também é independente de 𝒟 . Por exemplo, 𝑘 ∗ na Equação (16) pode ser computadorizado da seguinte forma: −𝑘 ∗ +𝑘 (𝐚∗ , 𝐚∗ ) = 𝐤 (𝐚∗ , 𝐚) 𝐤 (𝐚, 𝐚) 𝐤 (𝐚, 𝐚∗ ), Equação (25a)

𝐤 (𝐚 , 𝐚 ∗ ) 𝐤 (𝐚 , 𝐚 ) 𝐤 (𝐚 , 𝐚 ) 𝐤 (𝐚 , 𝐚∗ ) ≈ ,Equação (25b) 𝐤 (𝐚 , 𝐚 ∗ ) 𝐤 (𝐚 , 𝐚 ) 𝐤 (𝐚 , 𝐚 ) 𝐤 (𝐚 , 𝐚∗ ) 𝐤 (𝐚 , 𝐚 ∗ ) 𝐤 (𝐚 , 𝐚 ) 0( ) 𝐤 (𝐚 , 𝐚∗ ) = ,Equação (25c) 0 0 ( ) 𝐤 (𝐚 , 𝐚 ) 0 𝑘 ∗ ≈ 𝑘 (𝐚∗ , 𝐚∗ ) − 𝐤 (𝐚∗ , 𝐚 )𝐤 (𝐚 , 𝐚 )𝐤 (𝐚 , 𝐚∗ ). Equação (25d)

[0077] A partir das Equações (25b) e (25c) pode ser visto que várias aproximações são usadas, incluindo, 𝐤 (𝐚∗ , 𝐚 ) ≈ 0 , 𝐤 ( 𝐚 , 𝐚 ) ≈ 0( ) , e 𝐤 (𝐚 , 𝐚 ) ≈ 0 ( ). A partir das Equações (20a) e (20b), então, é evidente que o Algoritmo 2 falha em usar bem 𝒟 , se o conjunto tiver relevância espacial limitada. Em algumas modalidades, para garantir que ambas as amostras relevantes no espaço e no tempo em 𝒟 sejam capazes de contribuir, uma abordagem JITL "espaço-temporal" (ST-JITL) é usada, com o seguinte modelo Raman espaço-temporal (por exemplo, como modelo local 132): 𝑏 = 𝑔 (𝐚 , 𝑡 ) + 𝜖 , Equação (26) onde g: ℝ x ℕ → ℝ é o modelo espaço-temporal Raman e ti é o número da amostra de 𝐚 , e 𝜖 ~𝒩 (0, 𝜎 ) é uma sequência de variáveis aleatórias gaussianas independentes com média zero e variância desconhecida 𝜎 ∈ ℝ . Em contraste à Equação (1), o modelo espaço-temporal da Equação (26) depende tanto do sinal espectral quanto de seu tempo de amostragem. Como acima, se assume que g é uma função latente modelada como um processo gaussiano, de modo que para qualquer entrada (𝐚, 𝑡 ), 𝑔(𝐚, 𝑡 )~ GP 0, 𝑟 (𝐚, 𝐚, 𝑡, 𝑡 ) , Equação (27) é uma função aleatória. Por conveniência, a função média na Equação (27) é assumida como sendo zero, mas esse não precisa ser o caso em geral. Adicionalmente, para quaisquer entradas arbitrárias (𝐚 , 𝑡 ) e 𝐚 , 𝑡 , a função de covariância 𝑟 𝐚 𝐚 𝑡 𝑡 pode ser definida como se segue: 𝑟 𝐚𝐚𝑡𝑡 =𝑘 ç 𝐚 ,𝐚 + 𝑘 𝑡 ,𝑡 , Equação (28)

onde 𝑘 ç 𝐚 ,𝐚 ∈ℝ e𝑘 𝑡 ,𝑡 ∈ ℝ são a covariância de espaço e a covariância de tempo entre 𝑔(𝐚 , 𝑡 ), 𝑔 𝐚 , 𝑡 , respectivamente. Se nota que, para uma consulta (𝐚∗ , 𝑡 ∗ ), se uma amostra 𝐚 , 𝑏 ∈ 𝒟 , tem relevância espacial negligenciável, então 𝑘 ç 𝐚 , 𝐚∗ ≈ 0 mas 𝑘 𝑡 , 𝑡 ∗ > 0, tal que a Equação (28) define uma correlação diferente de zero entre 𝑔 (𝐚 ∗ , 𝑡 ∗ ), 𝑔 𝐚 , 𝑡 . Finalmente, se deve notar que a Equação (28) é uma função de covariância válida uma vez que a soma de dois kernels independentes também é um kernel. Se assume que 𝑘 ç e 𝑘 são kernels gaussianos, de modo que para qualquer par de entrada (𝐚 , 𝑡 ) e 𝐚 ,𝑡 , 𝐚 𝐚 𝑘 ç 𝐚 ,𝐚 = 𝛼 exp − , Equação (29a) 𝑘 𝑎 ,𝑡 = 𝛽 exp − , Equação (29b) onde 𝜃 ≡ [𝛼 , 𝛼 , 𝛽 , 𝛽 ] ∈ Θ ∈ ℝ é o parâmetro do kernel. Dadas as Equações (29a) e (29b), a Equação (28) atribui uma elevada correlação entre 𝑔 (𝐚 , 𝑡 ), 𝑔 𝐚 , 𝑡 se (𝐚 , 𝑡 ), 𝐚 , 𝑡 estiverem próximos um do outro. Se 𝐭̅ = [𝑡 , … 𝑡 ] e 𝐭 ̅ = [𝑡 , … 𝑡 ] denotam os números de amostra para as amostras relevantes de estado e tempo em 𝒟, respectivamente, de modo que 𝐭̅ = [𝐭̅ ; 𝐭̅ ], depois para uma consulta (𝐚∗ , 𝑡 ∗ ), a função de covariância 𝑟 na Equação (28) pode ser escrita como 𝐫 (𝐚 , 𝐚 , 𝐭 ̅ , 𝐭 ̅ ) 𝐫 (𝐚 , 𝐚 , 𝐭 ̅ , 𝐭 ̅ ) 𝐫 (𝐚, 𝐚, 𝐭,̅ 𝐭)̅ ≡ , Equação (30a) 𝐫 (𝐚 , 𝐚 , 𝐭 ̅ , 𝐭 ̅ ) 𝐫 (𝐚 , 𝐚 , 𝐭 ̅ , 𝐭 ̅ ) 𝐫 (𝐚∗ , 𝐚, 𝑡 ∗ , 𝐭)̅ ≡ [𝐫 (𝐚∗ , 𝐚 , 𝑡 ∗ , 𝐭̅ ) 𝐫 (𝐚∗ , 𝐚 , 𝑡 ∗ , 𝐭̅ )]. Equação (30b)

[0078] Se nota que, ao contrário das variáveis a e b, o papel de t nas Equações (30a) e (30b) é simplesmente para melhorar a contribuição de 𝒟 . Fisicamente, dado a, a variávelt não tem influência sobre b. Portanto, se 𝐭̅ = [𝑡 , … 𝑡 ] é definido como o número da amostra correspondente às amostras em 𝒟 , 𝐭̅ = [𝑡 , … 𝑡 ] pode ser definido de forma que satisfaça o seguinte: 𝑡 − 𝑡 ≫ 𝑀, Equação (31a) |𝑡 − 𝑡 ∗ | ≫ 𝑁, Equação (31b) |𝑡 − 𝑡 | ≫ 𝑃, Equação (31c) para todos 𝑖, 𝑗 ∈ {1, … , 𝐷 − 𝑘 } e 𝑘 ∈ {𝐷 − 𝑘 + 1, … , 𝐷 }, onde 𝑀, 𝑁, 𝑃 ∈ ℝ são arbitrárias, grandes constantes positivas. Adicionalmente, se for assumido que 𝐭̅ e 𝑡 ∗ são tais que 𝑘 ( 𝐭 ̅ , 𝐭 ̅ > 0) e 𝑘 (𝑡 ∗ , 𝐭̅ > 0), então para 𝐭̅ e 𝐭̅ conforme descrito acima, 𝐫 (𝐚 , 𝐚 , 𝐭̅ , 𝐭̅ ) pode ser escrito como se segue: 𝐫 (𝐚 , 𝐚 , 𝐭 ̅ , 𝐭 ̅ ) = 𝐤 ç (𝐚 , 𝐚 ) + 𝐤 (𝐭 ̅ , 𝐭 ̅ ), Equação (32a) ≈𝐤 ç (𝐚 , 𝐚 ) + 𝛽 𝐈(𝑫 𝒌) , Equação (32b) onde a Equação (32b) é a partir da Equação (31a), que tende as entradas fora da diagonal em 𝑘 (𝐭̅ , 𝐭̅ ) para zero. Da mesma forma, a covariância 𝐫 (𝐚∗ , 𝐚 , 𝑡 ∗ , 𝐭̅ ) e 𝐫 (𝐚 , 𝐚 , 𝐭̅ , 𝐭̅ ) pode ser calculada como se segue: 𝐫 (𝐚 ∗ , 𝐚 , 𝑡 ∗ , 𝐭 ̅ ) = 𝐤 ç (𝐚∗ , 𝐚 ) + 𝐤 (𝑡 ∗ , 𝐭 ̅ ), Equação (33a) ≈𝐤 ç (𝐚∗ , 𝐚 ), Equação (33b) 𝐫 (𝐚 , 𝐚 , 𝐭 ̅ , 𝐭 ̅ ) = 𝐤 ç (𝐚 , 𝐚 ) + 𝐤 (𝐭̅ , 𝐭̅ ), Equação (33c) ≈𝐤 ç (𝐚 , 𝐚 ), Equação (33d) onde a Equação (33b) é baseada na Equação (31b) e a Equação (33d) é baseada na Equação (31c). Substituindo as Equações (32b), (33b) e (33d) nas Equações (30a) e (30b) resulta: 𝐤 ç (𝐚 , 𝐚 ) + 𝛽 𝐈(𝑫 𝒌) 𝐤 ç (𝐚 , 𝐚 ) 𝐫 (𝐚, 𝐚, 𝐭,̅ 𝐭)̅ = ,Equação (34a) 𝐤 ç (𝐚 , 𝐚 ) 𝐫 (𝐚 , 𝐚 , 𝐭 ̅ , 𝐭 ̅ ) 𝐫 (𝐚∗ , 𝐚, 𝑡 ∗ , 𝐭)̅ = [𝐤 ç (𝐚∗ , 𝐚 ) 𝐫 (𝐚∗ , 𝐚 , 𝑡 ∗ , 𝐭̅ )]. Equação (34b)

[0079] A partir das Equações (30a) e (30b), é simples confirmar que a covariância 𝐫 inclui contribuições a partir de ambos 𝐤 ç e 𝐤 . Dadas funções de covariância para o modelo espaçotemporal

Raman nas Equações (30a) e (30b), o parâmetro de kernel 𝜃 e a variância de ruído 𝜎 podem ser estimados ao maximizar log 𝑝 𝐛̅ 𝐚, 𝐭̅ = − 𝐛̅ 𝐫 𝐛̅ − log 𝐫 − log2π, Equação (35)

onde 𝛾 = [𝜃, 𝜎 ] ∈Γ ℝ , log 𝑝 𝐛̅ 𝐚, 𝐭̅ é a função de probabilidade logarítmica marginalizada, e 𝐫 = 𝐫 + 𝐈 . Maximizar a Equação (35) em Γ resulta em uma estimativa ótima, γ∗ . Para otimizadores baseados em gradiente, gradientes para a Equação (35) em relação a 𝛾 podem ser computorizados de uma maneira similar à Equação (10b). Dado γ∗ , a estimativa pontual e a variância posterior para uma consulta (𝐚∗ , 𝑡 ∗ ) podem ser computorizadas como,

𝑏 = 𝐫 (𝐚∗ , 𝐚, 𝑡 ∗ , 𝐭)̅ 𝐫 (𝐚, 𝐚, 𝐭,̅ 𝐭)̅ 𝐛̅, Equação (36a)

𝑟 ∗ = 𝑟 (𝐚∗ , 𝐚∗ , 𝑡 ∗ , 𝑡 ∗ ) − 𝐫 (𝐚∗ , 𝐚, 𝑡 ∗ , 𝐭)̅ 𝐫 (𝐚, 𝐚, 𝐭,̅ 𝐭)̅ x 𝐫 (𝐚, 𝐚∗ , 𝐭,̅ 𝑡 ∗ ),Equação (36b) onde as funções de covariância são dadas nas Equações (34a) e (34b). Da mesma forma, os limites de credibilidade (𝑏 ≤ 𝑏 ≤ 𝑏 ) na estimativa pontual na Equação (36a) podem ser computorizados como se segue: 𝑏 = 𝑏 − 2 𝑟 ∗, Equação (37a)

𝑏 = 𝑏 + 2 𝑟 ∗, Equação (37b) onde 𝑟 ∗ = 𝑟 ∗ + 𝜎 . A partir das Equações (36a), (37a) e (37b), é simples ver que ambas as amostras relevantes no espaço e no tempo contribuem para a previsão do modelo e cálculos de limite de credibilidade.

Finalmente, substituindo as Equações (34a) e (34b) nas Equações (36a) e (36b), se obtém a média e a variância posteriores, respectivamente.

Se deve notar que, ao contrário do caso do Algoritmo 2, a previsão do modelo na Equação (36a), e os intervalos de credibilidade nas Equações (37a) e (37b), dependem de 𝒟 mesmo quando 𝒟 não tem relevância espacial.

Por exemplo, quando 𝒟 não tem relevância espacial (ou seja, 𝐤 ç (𝐚 , 𝐚 ) ≈

0(𝑫 𝒌)𝐱𝒌 e𝐤 ç (𝐚∗ , 𝐚 ) ≈ 0𝟏𝐱𝒌 ), então as Equações (36a) e (36b) podem ser escritas como: 𝐤 ç (𝐚 , 𝐚 ) + 𝛽 𝐈(𝑫 𝒌) 0(𝑫 𝒌)𝐱𝒌 𝐫 (𝐚, 𝐚, 𝐭,̅ 𝐭)̅ = ,Equação (38a) 0𝒌𝐱(𝑫 𝒌) 𝐫 (𝐚 , 𝐚 , 𝐭 ̅ , 𝐭 ̅ ) 𝐫 (𝐚∗ , 𝐚, 𝑡 ∗ , 𝐭)̅ = [𝐤 ç (𝐚∗ , 𝐚 ) 𝐤 (𝑡 ∗ , 𝐭 ̅ )]. Equação (38b)

[0080] Pode ser visto a partir do acima que as Equações (38a) e (38b) ainda incluem contribuições de ambos 𝐤 ç e 𝐤 . Um algoritmo de exemplo que destaca formalmente a técnica ST-JITL é conferido abaixo no Algoritmo 3:

2. Saída: Previsão 𝑏 e incerteza (𝑏 , 𝑏 )

3. Definir 𝒦 ← {∅} e 𝐭̅ ← {∅}

4. para 𝑡 = 1 a 𝑇 então

5. Ajustar 𝐼 ← índice_amostra(ℒ ), 𝒟 ← {∅}, 𝒟 ← {∅}

6. para 𝑑 = 1 para 𝐷 − definir_cardinalidade(𝒦) efetuar

7. 𝑖∗ ∈ arg max sim(𝐚 , 𝐚∗ ) ∈

8. 𝒟 ← 𝒟 ∪ 𝐚 ∗, b ∗

9. 𝐼 ← 𝐼 \ {𝑖∗ }

10. final de para

11. se definir_cardinalidade(𝒦) ≥ 1 então

12. 𝒟 ←𝒦

13. final de se

14. 𝒟 ←𝒟 ∪𝒟

15. Ajustar 𝐭̅ de acordo com as Equações (31a) a (31c)

16. Ajustar 𝐭̅ ← [𝐭̅ ; 𝐭̅ ]

17. Treinar o modelo de processo gaussiano na Equação (28) usando 𝒟 e 𝐭̅ e estimar 𝛾 ∗

18. Computorizar 𝑏, usando a equação (36a), e computorizar (𝑏 , 𝑏 ) usando as Equações (37a) e (37b)

19. se 𝑏∗ está disponível então

20. se tamanho(𝒦) = 𝑘 então

21. ℒ ← ℒ ∪ selecionar_(𝒦)_mais_antigo(𝒦)

22. 𝒦 ← eliminar_(𝒦)_mais_antigo(𝒦)

23. 𝒦 ← 𝒦 ∪ {𝐚∗ , 𝑏 ∗ }

24. final de se

25. 𝒦 ← 𝒦 ∪ {𝐚∗ , 𝑏 ∗ }

26. final de se

27. final de para Algoritmo 3

[0081] Se note que A-JITL e ST-JITL (nos Algoritmos 2 e 3, respectivamente) podem ser idênticos para o caso onde 𝛽 = 0. Isso ocorre porque, para 𝛽 = 0, 𝑘 = 0 tal que 𝑟 = 𝑘 = 𝑘 (conforme visto nas Equações (28) e (29b)).

[0082] Voltando agora para a FIG. 6, um exemplo de fluxo de dados 350 que pode ocorrer ao analisar um processo biofarmacêutico usando uma técnica ST-JITL, conforme descrito neste documento, é mostrado. O fluxo de dados 350 pode ocorrer dentro do sistema 100 da FIG. 1 ou sistema 150 da FIG. 2, por exemplo. No fluxo de dados 350, os dados espectrais 352 são conferidos por um espectrômetro/sonda. Por exemplo, dados espectrais 352 podem incluir um vector de varredura Raman gerado pelo analisador Raman 106, ou um vector de varredura NIR, etc. Um ponto de consulta 354 é gerado (por exemplo, pela unidade de consulta 140) com base nos dados espectrais 352 e é usado para consultar um conjunto de dados global 356, que pode incluir todos os conjuntos de dados de observação no banco de dados de observação 136, por exemplo. O conjunto de dados global 356 é logicamente separado nas últimas k entradas 357A

(por exemplo, todas a partir do experimento/processo atual) e todas as entradas 357B antes das últimas k entradas 357A (por exemplo, a partir de experimentos/processos anteriores, e possivelmente também o atual). O valor de k pode ser determinado com base no número de amostra do ponto de consulta 354. O conjunto de dados local 358 pode ser gerado a partir das entradas 357A e das entradas 357B de acordo com o Algoritmo 3, por exemplo.

[0083] O conjunto de dados local 358 é então usado como dados de treinamento (por exemplo, pelo gerador do modelo local 142) para calibrar um modelo local 360 (por exemplo, modelo local 132). O modelo local 360 é, então, usado (por exemplo, pela unidade de previsão 144) para prever uma saída (medição analítica) 362, tal como uma concentração de componente de meios, estado dos meios (por exemplo, glicose, lactato, glutamato, glutamina, amônia, aminoácidos, Na+, K+ e outros nutrientes ou metabólitos, pH, pCO2, pO2, temperatura, osmolalidade, etc.), densidade celular viável, título, atributos de qualidade críticos, estado celular, etc., e possivelmente também limites de credibilidade de saída ou outro indicador de confiança adequado.

[0084] Se uma medição analítica real (por exemplo, uma medição feita por um instrumento analítico, tal como um do(s) instrumento(s) analítico(s) 104) estiver disponível, uma nova entrada 364 (incluindo o número da amostra da mesma) é criada e adicionada ao conjunto de dados global 356. Tais medições podem estar disponíveis em uma base de amostragem periódica (por exemplo, uma ou duas vezes por dia), por exemplo, e/ou podem ser disponibilizadas em resposta a um desencadeador com tempo variável (por exemplo, se um certo número de previsões em uma linha tem limites de credibilidade inaceitavelmente amplos, etc.).

[0085] Conforme observado acima, as medições analíticas podem ser programadas/desencadeadas com base no desempenho atual e/ou recente de um ou mais modelos locais (por exemplo, modelo local 132, 260, 310 ou 360), a fim de manter ou melhorar a precisão de previsão enquanto reduz o uso de recursos (por exemplo, uso de instrumentos analíticos). Essa técnica pode ser usada com A-JITL, ST-JITL ou JITL direto, por exemplo.

[0086] Em uma modalidade, os intervalos de credibilidade são usados para desencadear a manutenção do modelo. Em particular, se a largura do intervalo de credibilidade (por exemplo, a distância entre os limites de credibilidade computorizados usando a Equação (16) ou Equações (37a), (37b)) em torno de uma determinada previsão de modelo (por exemplo, em torno da previsão mais recente feita pelo modelo local 132, 260, 310 ou 360) é maior do que um limite predefinido, a unidade de manutenção do banco de dados 146 pode gerar uma mensagem de solicitação e fazer com que o computador 110 envie a mensagem para o(s) instrumento(s) analítico(s) 104 para solicitar uma medição. Nos resultados de exemplo da FIG. 3, por exemplo, a unidade de manutenção do banco de dados 146 pode desencadear novas medições analíticas perto do final dos dias 08/12/17, 09/12/17 e 14/12/17, onde as áreas sombreadas 208 indicam um amplo intervalo de credibilidade (ou seja, um grande valor de 𝑏 − 𝑏 ).

[0087] Em resposta à mensagem de pedido, a(s) medição(ões) analítica(s) 104 executa(m) a(s) medição(ões), e confere(m) a(s) medição(ões) ao computador 110. A unidade de manutenção do banco de dados 146 pode então enviar a(s) medição(ões), e o(s) vector(es) de varredura Raman correspondente(s) recebida a partir do analisador Raman 106, para o servidor do banco de dados 112 para armazenagem no banco de dados de observação 136. Por exemplo, a(s) medição(ões) e o(s) vetor(es) de varredura podem ser adicionados à biblioteca ℒ (para JITL direto) ou à biblioteca 𝒦 (para A-JITL ou ST-JITL) discutidas acima.

[0088] Por outro lado, se a largura do intervalo de credibilidade em torno de uma determinada previsão de modelo não for maior do que o limite predefinido, a unidade de manutenção do banco de dados 146 pode não solicitar uma nova medição analítica, caso em que a biblioteca no banco de dados de observação 136 permanece inalterada. Em modalidades em que o(s) instrumento(s) analítico(s) 104 inclui(em) múltiplos instrumentos que medem propriedades diferentes, tal como concentração de componente de meios, estado de meios (por exemplo, glicose, lactato, glutamato, glutamina, amônia, aminoácidos, Na+, K+ e outros nutrientes ou metabólitos, pH, pCO2, pO2, temperatura, osmolalidade, etc.), densidade de células viáveis, título, atributos de qualidade críticos, estado de célula, etc., e modelos locais separados são usados para prever diferente os vários valores de propriedade, o processo de agendamento pode ser implementado separadamente para cada propriedade prevista e o instrumento analítico que mede essa propriedade, possivelmente com diferentes limiares de largura de intervalo de credibilidade para cada propriedade.

[0089] Matematicamente, a unidade de manutenção do banco de dados 146 pode agendar/desencadear a(s) nova(s) medição(ões) analítica(s) em um ponto de consulta 𝐚∗ sob a condição: 𝑏 − 𝑏 ≥ 𝑇𝐻𝑅 , Equação (39) onde THR é o limiar definido pelo usuário. Em algumas modalidades, o THR pode ser ajustado por um usuário de forma a se adequar a uma aplicação ou caso de uso específico. Por exemplo, um usuário pode definir um valor de THR relativamente pequeno (usado pela unidade de manutenção do banco de dados 146) para um aplicação onde a confiabilidade do modelo é crítica, fazendo, desse modo, com que as operações de manutenção do modelo/biblioteca ocorram com maior frequência. Em geral, o THR pode ser definido para diferentes valores com base na criticidade do processo, com base no parâmetro que está sendo previsto, tal como concentração do componente do meio, estado do meio (por exemplo, glicose, lactato, glutamato, glutamina, amônia, aminoácidos, Na+, K+ e outros nutrientes ou metabólitos, pH, pCO2, pO2, temperatura, osmolaridade, etc.), densidade de células viáveis, título, atributos de qualidade críticos, estado celular, etc., e/ou com base no período de tempo atual (por exemplo, usando um THR mais baixo para dias posteriores de uma cultura em comparação com os dias iniciais). A seleção de THR representa uma compromisso entre a precisão do modelo e o uso de recursos (instrumento analítico), com limites mais baixos tendendo a aumentar a precisão do modelo às custas do aumento do uso de recursos.

[0090] Variações desse protocolo de programação também são possíveis. Em uma modalidade, por exemplo, a unidade de manutenção do banco de dados 146 pode aplicar um ou mais critérios de desempenho de modelo não apenas à previsão atual (mais recente), mas também a uma ou mais outras previsões recentes (por exemplo, as N previsões mais recentes, onde N > 1). Como um exemplo de tal modalidade, a unidade de manutenção do banco de dados 146 pode computorizar uma largura média dos intervalos de credibilidade para as N previsões mais recentes (N ≥ 1), e, em seguida, comparar essa largura média com o limite THR. Como outro exemplo, a unidade de manutenção do banco de dados 146 pode identificar as X maiores larguras de intervalo credibilidade entre as últimas Y previsões (X < Y), e agendar/desencadear uma nova medição analítica apenas se cada uma dessas X larguras for maior do que o limite THR.

[0091] A FIG. 7 é um diagrama de fluxo de um método exemplo 400 para analisar um processo biofarmacêutico (por exemplo, para propósitos de monitoramento e/ou controle). O método 400 pode ser implementado por um computador, tal como o computador 110 da FIG. 1 (por exemplo, através da unidade de processamento 120 executando instruções da aplicação previsora JITL 130) ou FIG. 2, e/ou por um servidor, tal como o servidor de banco de dados 112 da FIG. 1 ou FIG. 2, por exemplo.

[0092] No bloco 402, um ponto de consulta que está associado com a varredura de um processo biofarmacêutico por um sistema de espectroscopia (por exemplo, por analisador Raman 104 e sonda Raman 106 do sistema 100 ou sistema 150) é determinado. O ponto de consulta pode ser determinado com base, pelo menos em parte, em um vetor de varredura espectral (por exemplo, um vetor de varredura Raman ou NIR) que foi gerado pelo sistema de espectroscopia durante a varredura do processo biofarmacêutico, por exemplo. Dependendo da modalidade, o ponto de consulta pode ser determinado com base no vetor de varredura espectral bruto ou após a filtragem de pré-processamento adequada do vetor de varredura espectral bruto. Em algumas modalidades, o ponto de consulta também é determinado com base em outras informações, tais como um perfil de meios associado com o processo biofarmacêutico (por exemplo, um tipo de fluido, nutrientes específicos, um nível de pH, etc.) e/ou uma ou mais condições operacionais sob as quais o processo biofarmacêutico é analisado (por exemplo, um ponto de ajuste de concentração de metabólito, etc.), por exemplo.

[0093] No bloco 404, um banco de dados de observação (por exemplo, banco de dados de observação 136) é consultado. O banco de dados de observação pode conter conjuntos de dados de observação associados com observações anteriores de um número de processos biofarmacêuticos. Cada um dos conjuntos de dados de observação pode incluir dados espectrais (por exemplo, um vetor de varredura Raman ou NIR) e uma medição analítica correspondente (ou, em algumas modalidades, duas ou mais medições analíticas). A medição analítica pode ser uma concentração de componente de meios, estado de meios (por exemplo, glicose, lactato, glutamato, glutamina, amônia, aminoácidos, Na +, K + e outros nutrientes ou metabólitos, pH, pCO2, pO2, temperatura, osmolalidade, etc.), densidade celular viável, título, atributos de qualidade críticos e/ou estado celular, por exemplo.

[0094] O bloco 404 pode incluir selecionar como dados de treinamento, dentre os conjuntos de dados de observação, aqueles conjuntos de dados de observação que satisfazem um ou mais critérios de relevância em relação ao ponto de consulta. Se o ponto de consulta incluiu um vector de varredura espectral, por exemplo, o bloco 404 pode incluir a comparação desse vector de varredura espectral com os vectores de varredura espectral associados a cada uma das observações anteriores representadas no banco de dados de observação (por exemplo, por cálculo de distância euclidiana ou outras distâncias entre (1) o vetor de varredura espectral no qual a determinação do ponto de consulta foi baseada e (2) cada um dos vetores de varredura espectral associados às observações anteriores e, em seguida, selecionar como dados de treinamento qualquer um dos vetores de varredura espectral associados às observações anteriores que são determinados como estando dentro de uma distância limiar do vetor de varredura espectral no qual a determinação do ponto de consulta foi baseada).

[0095] No bloco 406, os dados de treinamento selecionados são usados para calibrar um modelo local que é específico para o processo biofarmacêutico sendo monitorado. O modelo local (por exemplo, modelo local 132) é treinado, no bloco 406, para prever medições analíticas com base em entradas de dados espectrais (por exemplo, vetores de varredura espectral Raman ou NIR). Em algumas modalidades, o modelo local é um modelo de aprendizagem de máquina de processo gaussiano.

[0096] No bloco 408, uma medição analítica do processo biofarmacêutico é prevista usando o modelo local. O bloco 408 pode incluir o uso do modelo local para analisar dados espectrais (por exemplo, um vetor de varredura Raman ou NIR) que o sistema de espectroscopia gerou durante a varredura do processo biofarmacêutico. Por exemplo, o bloco 408 pode incluir a previsão da medição analítica usando o modelo de local para processar o mesmo vector de varrimento ou outros dados espectrais nos quais o ponto de consulta foi baseado. Dependendo da modalidade, o modelo local pode ser usado para analisar os dados espectrais em bruto (por exemplo, um vetor de varredura Raman em bruto) ou para analisar os dados espectrais após a filtragem de pré-processamento adequada dos dados espectrais em bruto. Em algumas modalidades, o bloco 408 também inclui a determinação de um indicador de confiança (por exemplo, limites de credibilidade, uma pontuação de confiança, etc.) associado à medição analítica prevista do processo biofarmacêutico. Em algumas modalidades, o modelo local também prevê uma ou mais medições analíticas adicionais no bloco 408.

[0097] Em algumas modalidades, o método 400 inclui um ou mais blocos adicionais não mostrados na FIG. 5. Por exemplo, o método 400 pode incluir um bloco adicional no qual pelo menos um parâmetro do processo biofarmacêutico é controlado, com base, pelo menos em parte, na medição analítica prevista no bloco 408. Dependendo da modalidade, o parâmetro pode ser do mesmo tipo que a medição analítica prevista (por exemplo, controlar uma concentração de glicose com base em uma concentração de glicose prevista) ou de um tipo diferente. Técnicas de controle preditivo do modelo (MPC) podem ser usadas para controlar o parâmetro (ou parâmetros), por exemplo.

[0098] Como outro exemplo, o método 400 pode incluir um primeiro bloco adicional em que uma medição analítica real do processo biofarmacêutico é obtido (por exemplo, por ou a partir de um de instrumento(s) analítico(s) 104, em resposta à determinação que a analítica medição prevista, e possivelmente também uma ou mais medições anteriores/recentes, satisfazem/não satisfazem um ou mais critérios de desempenho do modelo, conforme discutido acima), e um segundo bloco adicional em que (1) os dados espectrais que o sistema de espectroscopia gerou quando a medição analítica real foi obtida, e (2) a medição analítica real do processo biofarmacêutico, são adicionados ao banco de dados de observação (por exemplo, ao enviar os dados espectrais e de medição analítica para um servidor de banco de dados, tal como o servidor de banco de dados 112, ou por adicionar diretamente os dados espectrais e a medição analítica a um banco de dados de observação local, etc.). Em modalidades onde vários tipos de medições analíticas são previstos, várias medições analíticas reais podem ser obtidas e adicionadas ao banco de dados de observação.

[0099] Como ainda outro exemplo, o método 400 pode incluir um ou mais conjuntos adicionais de blocos, cada um similar aos blocos 402 a 408. Em cada um desses conjuntos adicionais de blocos, um modelo local pode ser calibrado por meio de consulta a banco de dados de observação (ou outro banco de dados de observação), e usado para prever um tipo diferente de medição analítica.

[0100] Considerações adicionais relativas a essa divulgação serão agora abordadas.

[0101] Os termos "polipeptídeo" ou "proteína" são usados indiferentemente ao longo e se referem a uma molécula compreendendo dois ou mais resíduos de aminoácidos ligados uns aos outros por ligações peptídicas. Os polipeptídeos e proteínas também incluem macromoléculas tendo uma ou mais deleções a partir de, inserções em e/ou substituições dos resíduos de aminoácidos da sequência nativa, isto é, um polipeptídeo ou proteína produzida por uma célula de ocorrência natural e não recombinante; ou é produzido por uma célula geneticamente modificada ou recombinante e compreende moléculas tendo uma ou mais deleções a partir de, inserções em e/ou substituições dos resíduos de aminoácidos da sequência de aminoácidos da proteína nativa. Os polipeptídeos e proteínas também incluem também incluem polímeros de aminoácidos nos quais um ou mais aminoácidos são análogos químicos de um aminoácido e polímeros correspondentes de ocorrência natural. Os polipeptídeos e proteínas também incluem modificações incluindo, mas não se limitando a, glicosilação, fixação de lipídios, sulfatação, gama-carboxilação de resíduos de ácido glutâmico, hidroxilação e ADP-ribosilação.

[0102] Os polipeptídeos e proteínas podem ser de interesse científico ou comercial, incluindo terapêuticos baseados em proteínas. As proteínas incluem, entre outras coisas, proteínas segregadas, proteínas não segregadas, proteínas intracelulares ou proteínas ligadas à membrana. Os polipeptídeos e proteínas podem ser produzidos por linhas celulares animais recombinantes usando métodos de cultura celular e podem ser referidos como "proteínas recombinantes". A(s) proteína(s) expressa(s) pode(m) ser produzida(s) intracelularmente ou segregada(s) no meio de cultura a partir do qual pode(m( ser recuperada(s) e/ou coletada(s). As proteínas incluem proteínas que exercem um efeito terapêutico através da ligação a um alvo, particularmente um alvo entre aqueles listados abaixo, incluindo alvos derivados das mesmas, alvos relacionados com as mesmas e modificações dos mesmos.

[0103] Proteínas "proteínas de ligação ao antigênio". Proteína de ligação ao antigênio se refere a proteínas ou polipeptídeos que compreendem uma região de ligação ao antígeno ou porção de ligação ao antígeno que tem uma forte afinidade com outra molécula à qual se liga (antigênio). As proteínas de ligação ao antigênio englobam anticorpos, pepticorpos, fragmentos de anticorpos, derivados de anticorpos, análogos de anticorpos, proteínas de fusão (incluindo fragmentos variáveis de cadeia única (scFvs) e scFvs de cadeia dupla (divalentes), muteínas, xMAbs e receptores de antigênios quiméricos (CARs).

[0104] Um scFv é um fragmento de anticorpo de cadeia única tendo as regiões variáveis das cadeias pesada e leve de um anticorpo ligadas entre si. Ver Patentes dos E.U.A. Nos. 7,741,465 e 6,319,494 bem como Eshhar et al., Cancer Immunol Immunotherapy (1997) 45: 131-136. Um scFv retém a capacidade do anticorpo parental de interagir especificamente com o antigênio alvo.

[0105] O termo "anticorpo" inclui referência a ambas as imunoglobulinas glicosiladas e não glicosiladas de qualquer isótipo ou subclasse ou a uma região de ligação ao antigênio da mesma que compete com o anticorpo intacto para a ligação específica. A menos que especificado de outra forma, os anticorpos incluem fragmentos humanos, humanizados, quiméricos, multiespecíficos, monoclonais, policlonais, heteroIgG, XmAbs, biespecíficos e oligômeros ou fragmentos de ligação ao antigênio dos mesmos. Os anticorpos incluem o tipo lgG1-, lgG2-lgG3-ou lgG4. Também estão incluídas proteínas tendo um fragmento de ligação ao antigênio ou região, tal como Fab, Fab', F(ab')2, Fv, diacorpos, Fd, dAb, maxicorpos, moléculas de anticorpo de cadeia simples, VHH de domínio único, fragmentos de região determinante de complementaridade (CDR) , scFv, diacorpos, triacorpos, tetracorpos e polipeptídeos que contêm pelo menos uma porção de uma imunoglobulina que é suficiente para conferir uma ligação de antigênio específica a um polipeptídeo alvo.

[0106] Também estão incluídos proteínas humanas, humanizadas, e outras proteínas de ligação ao antigênio, tais como anticorpos humanos e humanizados, que não fazem gerar significativamente as respostas imunes prejudiciais, quando administrada a um ser humano.

[0107] Também estão incluídos os pepticorpos, polipeptídeos compreendendo um ou mais peptídeos bioativos unidos entre si, opcionalmente por meio de ligantes, com um domínio de Fc. Veja a

Patente dos E.U.A. No. 6,660,843, a Patente dos E.U.A. No. 7,138,370 e a Patente dos E.U.A. No. 7,511,012.

[0108] As proteínas também incluem os receptores geneticamente modificados, tais como receptores quiméricos de antigênios (CARs ou CAR-Ts) e receptores de células T (TCRs). Os CARs normalmente incorporam um domínio de ligação ao antigênio (tal como scFv) em tandem com um ou mais domínios coestimuladores ("sinalização") e um ou mais domínios de ativação.

[0109] Também estão incluídas as células T acoplantes biespecíficas (BiTE®) os construtos de anticorpo são construtos de proteínas recombinantes feitos a partir de dois anticorpos ligados de forma flexível derivados de domínios de ligação (veja WO 99/54440 e WO 2005/040220). Um domínio de ligação do construto de anticorpo é específico para um antigênio de superfície associado com tumor selecionado em células alvo; o segundo domínio de ligação é específico para CD3, uma subunidade do complexo receptor de células T nas células T. Os construtos BiTE® também podem incluir a capacidade para se ligarem a um epitopo independente de contexto no N-terminal da cadeia CD3s (WO 2008/119567) para, mais especificamente, ativar as células T. Os construtos BiTE® de meia-vida estendida incluem a fusão do construto de anticorpo biespecífico pequeno a proteínas maiores, que preferencialmente não interferem com o efeito terapêutico do construto de anticorpo BiTE®. Exemplos de tais desenvolvimentos adicionais de acoplantes de células T compreendem moléculas Fc biespecíficas, por exemplo, descritas em US 2014/0302037, US 2014/0308285, WO 2014/151910 e WO 2015/048272. Uma estratégia alternativa é o uso de albumina de soro humano (HAS) fundida à molécula biespecífica ou a mera fusão de peptídeos de ligação de albumina humana (ver, por exemplo, WO 2013/128027, WO2014/140358). Outra estratégia HLE BiTE® compreende a fusão de um primeiro domínio de ligação a um antigênio de superfície da célula alvo, um segundo domínio de ligação a um epitopo extracelular da cadeia CD3e humana e/ou de Macaca e um terceiro domínio, que é a modalidade Fc específica (WO 2017/134140).

[0110] Também estão incluídas as proteínas modificadas, tal como estão proteínas modificadas quimicamente por uma ligação não- covalente, ligação covalente, ou ambas de uma ligação covalente e ligação não-covalente. Também estão incluídas proteínas adicionalmente compreendendo uma ou mais modificações pós-tradução que podem ser feitas por sistemas de modificação celular ou modificações introduzidas ex vivo por métodos enzimáticos e/ou químicos ou introduzidas de outras maneiras.

[0111] As proteínas também podem incluir as proteínas de fusão recombinantes compreendendo, por exemplo, um domínio de multimerização, tal como um fecho de leucina, uma espiral enrolada, uma porção Fc de uma imunoglobulina, e similares. Também estão incluídas proteínas compreendendo todas ou parte das sequências de aminoácidos de antigênios de diferenciação (referidas como proteínas CD) ou seus ligantes ou proteínas substancialmente similares a qualquer um desses.

[0112] Em algumas modalidades, as proteínas podem incluir fatores estimuladores de colônias, tal como fator estimulador de colônias de granulócitos (G-CSF). Tais agentes de G-CSF incluem, mas não estão limitados a, Neupogen® (filgrastim) e Neulasta® (pegfilgrastim). Também estão incluídos os agentes estimuladores da eritropoiese (ESA), tal como Epogen® (epoetina alfa), Aranesp® (darbepoetina alfa), Dynepo® (epoetina delta), Mircera® (metioxipolietilenoglicol-epoetina beta), Hematide®, MRK-2578, INS-22, Retacrit® (epoetina zeta), Neorecormon® (epoetina beta), Silapo® (epoetina zeta), Binocrit® (epoetina alfa), epoetina alfa Hexal, Abseamed® (epoetina alfa), Ratioepo® (epoetina teta), Eporatio® (epoetina teta), Biopoin® (epoetina teta), epoetina alfa, epoetina beta,

epoetina zeta, epoetina teta e epoetina delta, epoetina ômega, epoetina iota, ativador do plasminogênio tecidual, agonistas do receptor de GLP-1, bem como as moléculas ou variantes ou análogos dos mesmos e biossimilares de qualquer um dos anteriores.

[0113] Em algumas modalidades, as proteínas podem incluir proteínas que se ligam especificamente a uma ou mais proteínas CD, proteínas da família de receptores HER, moléculas de adesão celular, fatores de crescimento, fatores de crescimento de nervos, fatores de crescimento de fibroblastos, fatores de crescimento de transformação (TGF), fatores de crescimento tipo insulina, fatores osteoindutivos, insulina e proteínas relacionadas com a insulina, coagulação e proteínas relacionadas com a coagulação, fatores estimuladores de colônias (CSFs), outras proteínas do sangue e antigênios do grupo sanguíneo das proteínas do soro; receptores, proteínas associadas ao receptor, hormônios do crescimento, receptores do hormônio do crescimento, receptores de células T; fatores neurotróficos, neurotrofinas, relaxinas, interferóns, interleucinas, antigênios virais, lipoproteínas, integrinas, fatores reumatoides, imunotoxinas, proteínas de membrana de superfície, proteínas de transporte, receptores de alinhamento, addressinas, proteínas regulatórias e imunoadesinas.

[0114] Em algumas modalidades proteínas podem incluir proteínas que se ligam a um ou mais dos seguintes, sozinho ou em qualquer combinação: proteínas CD, incluindo mas não limitadas a CD3, CD4, CD5, CD7, CD8, CD19, CD20, CD22, CD25, CD30, CD33, CD34, CD38, CD40, CD70, CD123, CD133, CD138, CD171,e CD174, proteínas da família de receptores HER, incluindo, por exemplo, HER2, HER3, HER4 e o receptor EGF, EGFRvIII, moléculas de adesão celular, por exemplo, LFA-1, Mol, p150,95, VLA-4, ICAM-1, VCAM e integrina alfa v/beta 3, fatores de crescimento, incluindo, mas não limitado a, por exemplo, fator de crescimento endotelial vascular ("VEGF"); VEGFR2, hormônio do crescimento, hormônio estimulador da tireoide, hormônio estimulador do folículo, hormônio luteinizante, fator de liberação do hormônio do crescimento, hormônio da paratireoide, substância inibidora de muleriana, proteína inflamatória do macrófago humano (MIP-1-alfa), eritropoietina (EPO), fator de crescimento nervoso, tal como NGF-beta, fator de crescimento derivado de plaquetas (PDGF), fatores de crescimento de fibroblastos, incluindo, por exemplo, aFGF e bFGF, fator de crescimento epidérmico (EGF), Cripto, fatores de crescimento transformantes (TGF), incluindo, entre outros, TGF-α e TGF-β, incluindo TGF-β1, TGF-β2, TGF-β3, TGF-β4 ou TGF-β5, fatores de crescimento-I e-II similares à insulina (IGF-I e IGF-II), des (1-3)-IGF-I (IGF-I cerebral) e fatores osteoindutivos, insulinas e proteínas relacionadas com a insulina, incluindo, mas não se limitando a, insulina, cadeia A da insulina, cadeia B da insulina, pró-insulina e proteínas de ligação ao fator de crescimento similares à insulina; (coagulação e proteínas relacionadas com a coagulação, tais como, entre outros, fator VIII, fator tecidual, fator de von Willebrand, proteína C, alfa-1-antitripsina, ativadores de plasminogênio, tais como uroquinase e ativador de plasminogênio tecidual ("t-PA"), bombazina, trombina, trombopoietina e receptor de trombopoietina, fatores estimuladores de colônia (CSFs), incluindo os seguintes, entre outros, M-CSF, GM-CSF e G-CSF, outras proteínas do sangue e soro, incluindo, mas não se limitando a albumina, IgE e antigênios do grupo sanguíneo, receptores e proteínas associadas ao receptor, incluindo, por exemplo, receptor flk2/flt3, receptor de obesidade (OB), receptores de hormônio de crescimento e receptores de células T; (x) fatores neurotróficos, incluindo, mas não limitado a fator neurotrófico derivado do osso (BDNF) e neurotrofina-3,-4,-5 ou-6 (NT-3, NT-4, NT-5 ou NT-6); (xi) cadeia A da relaxina, cadeia B da relaxina e prorelaxina, interferóns, incluindo, por exemplo, interferón-alfa, -beta e -gama, interleucinas (ILs), por exemplo, IL-1 a IL-10, IL-12, IL-15, IL-17, IL-23, IL-

12/IL-23, IL-2Ra, IL1-R1, receptor de IL-6, receptor de IL-4 e/ou IL-13 para o receptor, IL-13RA2, ou receptor de IL-17, IL-1RAP; (xiv) antigênios virais, incluindo, mas não se limitando a, um antigênio viral do envelope da AIDS, lipoproteínas, calquitonina, glucagona, fator natriurético atrial, surfactante pulmonar, fator alfa e beta da necrose tumoral, encefalinase, BCMA, IgKappa, ROR-1, ERBB2, mesotelina, RANTES (regulado na ativação normalmente expressa e secretada por células T), peptídeo associado à gonadotrofina de camundongo, Dnase, FR-alfa, inibina e ativina, integrina, proteína A ou D, fatores reumatoides, imunotoxinas, proteína morfogenética óssea (BMP), superóxido dismutase, proteínas de membrana de superfície, fator de aceleração de decaimento (DAF), envelope de AIDS, proteínas de transporte, receptores de alinhamento, MIC (MIC-a, MIC-B), ULBP 1-6, EPCAM, addressinas, proteínas regulatórias, imunoadesinas, proteínas de ligação ao antigênio, somatropina, CTGF, CTLA4, eotaxina-1, MUC1, CEA, c-MET, Claudin-18, GPC-3, EPHA2, FPA, LMP1, MG7, NY-ESO-1, PSCA, glangliosídeo GD2, glangliosídeo GM2, BAFF, OPGL (RANKL), miostatina, Dickkopf-1 (DKK-1), Ang2, NGF, receptor IGF-1, fator de crescimento de hepatócitos (HGF), TRAIL-R2, c-Kit, B7RP-1, PSMA, NKG2D-1, proteína 1 de morte celular programada e ligante, PD1 e PDL1, receptor de manose/hCGβ, vírus da hepatite C, mesotelina dsFv [conjugado de PE38, Legionella pneumophila (lly), IFN gama, proteína induzida por interferón gama 10 (IP10), IFNAR, TALL-1, linfopoietina estromal tímica (TSLP), pró- proteína convertase subtilisina/Kexin Tipo 9 (PCSK9), fatores de células estaminais, Flt-3, peptídeo relacionado com o gene da calquitonina (CGRP), OX40L, α4β7, específico para plaquetas (glicoproteína plaquetária Iib/IIIb (PAC-1), fator de crescimento transformador beta (TFGβ), proteína de ligação ao espermatozoide Zona pellucida 3 (ZP-3), TWEAK, receptor alfa do fator de crescimento derivado de plaquetas (PDGFRα), esclerostina e fragmentos biologicamente ativos ou variantes de qualquer um dos anteriores.

[0115] Em outra modalidade, as proteínas incluem abciximabe, adalimumabe, adecatumumabe, aflibercepte, alemtuzumabe, alirocumabe, anaquinra, atacicepte, basiliximabe, belimumabe, bevacizumabe, biosozumabe, blinatumomabe, brentuximabe, vedotina, brodalumabe, cantuzumabe, mertansino, canaquinumabe, cetuximabe, certolizumabe, pegol, conatumumabe, daclizumabe, denosumabe, eculizumabe, edrecolomabe, efalizumabe, epratuzumabe, etanercepte, evolocumabe, galiximabe, ganitumabe, gemtuzumabe, golimumabe, tiuxetano de ibritumomabe, infliximabe, ipilimumabe, lerdelimumabe, lumiliximabe, lxdquizumabe, mapatumumabe, difosfato de motesanibe, muromonabe-CD3, natalizumabe, nesiritide, nimotuzumabe, nivolumabe, ocrelizumabe, ofatumumabe, omalizumabe, oprelvequina, palivizumabe, panitumumabe, pembrolizumabe, pertuzumabe, pexelizumabe, ranibizumabe, rilotumumabe, rituximabe, romiplostime, romosozumabe, sargamostime, tocilizumabe, tositumomabe, trastuzumabe, ustequinumabe, vedolizumabe, visilizumabe, volociximabe, zanolimumabe, zalutumumabe, e biossimilares de qualquer um dos anteriores.

[0116] As proteínas englobam todos dos anteriores e adicionalmente incluem anticorpos compreendendo 1, 2, 3, 4, 5, ou 6 das regiões determinantes de complementaridade (CDRs) de qualquer um dos anticorpos acima mencionados. Também estão incluídas as variantes que compreendem uma região que é 70% ou mais, especialmente 80% ou mais, mais especialmente 90% ou mais, ainda mais especialmente 95% ou mais, particularmente 97% ou mais, mais particularmente 98% ou mais, ainda mais particularmente 99% ou mais idêntico na sequência de aminoácidos a uma sequência de aminoácidos de referência de uma proteína de interesse. A identidade a esse respeito pode ser determinada usando uma variedade de software de análise de sequência de aminoácidos bem conhecido e prontamente disponível. Softwares preferidos incluem aqueles que implementam os algoritmos Smith-Waterman, considerados uma solução satisfatória para o problema de busca e alinhamento de sequências. Outros algoritmos também podem ser empregados, particularmente onde a velocidade é uma consideração importante. Programas comumente empregados para alinhamento e correspondência de homologia de DNAs, RNAs e polipeptídeos que podem ser usados a esse respeito incluem FASTA, TFASTA, BLASTN, BLASTP, BLASTX, TBLASTN, PROSRCH, BLAZE, e MPSRCH, o último sendo uma implementação do algoritmo Smith- Waterman para execução em processadores massivamente paralelos feitos pela MasPar.

[0117] Algumas das Figuras descritas neste documento ilustram exemplos de diagramas de blocos tendo um ou mais componentes funcionais. Será entendido que tais diagramas de blocos são para fins ilustrativos e que os dispositivos descritos e mostrados podem ter componentes adicionais, em menor quantidade ou alternativos aos ilustrados. Adicionalmente, em várias modalidades, os componentes (bem como a funcionalidade proporcionada pelos respectivos componentes) podem estar associados ou de outro modo integrados como parte de quaisquer componentes adequados.

[0118] As modalidades da divulgação se referem a uma mídia de armazenamento legível por computador não transitória tendo código de computador para executar várias operações implementadas por computador. O termo "mídia de armazenamento legível por computador" é utilizado neste documento para incluir qualquer mídia que seja capaz de armazenar ou codificar uma sequência de instruções ou códigos de computador para executar as operações, metodologias e técnicas descritas neste documento. O meio e o código de computador podem ser aqueles especialmente concebidos e construídos para os fins das modalidades da divulgação, ou podem ser do tipo bem conhecido e disponível para os peritos nas artes de software informático. Exemplos de meios de armazenamento legíveis por computador incluem, mas não estão limitados a: meios magnéticos, tal como discos rígidos, disquetes e fita magnética; meios ópticos, tal como CD-ROM e dispositivos holográficos; meios magneto- ópticos, tal como discos ópticos; e dispositivos de hardware que são especialmente configurados para armazenar e executar o código de programa, tais como ASIC, dispositivos lógicos programáveis ("PLD") e dispositivos ROM e RAM.

[0119] Exemplos de códigos de computador incluem código de máquina, tal como produzido por um compilador, e arquivos contendo código de nível superior que são executados por um computador usando um interpretador ou um compilador. Por exemplo, uma modalidade da divulgação pode ser implementada usando Java, C++ ou outra linguagem de programação orientada ao objeto e ferramentas de desenvolvimento. Exemplos adicionais de código de computador incluem código criptografado e código compactado. Além disso, uma modalidade da divulgação pode ser descarregada como um produto de programa de computador, que pode ser transferido a partir de um computador remoto (por exemplo, um computador servidor) para um computador solicitante (por exemplo, um computador cliente ou um computador servidor diferente) por meio de um canal de transmissão. Outra modalidade da divulgação pode ser implementada em circuitos com fios no lugar de, ou em combinação com, instruções de software executáveis em máquina.

[0120] Conforme usado neste documento, os termos singulares "um", "uma” e "o(a)" podem incluir as formas do plural referentes, a menos que o contexto indique claramente o contrário.

[0121] Conforme usado neste documento, os termos "conectar", "conectado" e "conexão" se referem a um acoplamento ou ligação operacional. Os componentes conectados podem ser direta ou indiretamente acoplados uns aos outros, por exemplo, através de outro conjunto de componentes.

[0122] Conforme usado neste documento, os termos "aproximadamente", "substancialmente", "substancial" e "cerca de" são usados para descrever e explicar pequenas variações. Quando usados em conjunto com um evento ou circunstância, os termos se podem referir a instâncias nas quais o evento ou circunstância ocorre precisamente, bem como instâncias em que o evento ou circunstância ocorre a uma aproximação aproximada. Por exemplo, quando usados em conjunto com um valor numérico, os termos podem se referir a um intervalo de variação menor ou igual a ±10% desse valor numérico, tal como menor ou igual a ±5%, menor ou igual a ±4%, menor ou igual a ±3%, menor ou igual a ±2%, menor ou igual a ±1%, menor ou igual a ±0,5%, menor ou igual a ±0,1%, ou menor ou igual a ±0,05%. Por exemplo, dois valores numéricos podem ser considerados "substancialmente" iguais se uma diferença entre os valores for menor ou igual a ±10% de uma média dos valores, tal como menor ou igual a ±5%, menor ou igual a ±4%, menor ou igual a ±3%, menor ou igual a ±2%, menor ou igual a ±1%, menor ou igual a ±0,5%, menor ou igual a ±0,1%, ou menor ou igual a ±0,05%.

[0123] Adicionalmente, quantidades, razões e outros valores numéricos são por vezes apresentados neste documento em um formato de intervalo. É para ser entendido que tal formato de intervalo é usado por conveniência e brevidade e deve ser entendido de forma flexível para incluir valores numéricos explicitamente especificados como limites de um intervalo, mas também para incluir todos os valores numéricos ou subintervalos individuais dentro desse intervalo como se cada valor numérico e subintervalo fosse explicitamente especificado.

[0124] Embora a presente divulgação tenha sido descrita e ilustrada com referência a modalidades específicas da mesma, essas descrições e ilustrações não limitam a presente divulgação. Deve ser entendido pelos peritos na técnica que podem ser feitas várias alterações e que os equivalentes podem ser substituídos sem se afastarem do verdadeiro espírito e escopo da presente divulgação, conforme definido pelas reivindicações anexas. As ilustrações podem não ser necessariamente desenhadas à escala. Pode haver distinções entre as representações artísticas na presente divulgação e o dispositivo real devido a processos e tolerâncias de fabricação. Pode haver outras modalidades da presente divulgação que não sejam especificamente ilustradas. A especificação (diferente das reivindicações) e os desenhos devem ser considerados como ilustrativos e não como limitativos. Modificações podem ser feitas para adaptar uma situação particular, material, composição da matéria, técnica ou processo ao objetivo, espírito e escopo da presente divulgação. Todas essas modificações se destinam a estar dentro do escopo das reivindicações anexas a este documento. Embora as técnicas divulgadas neste documento tenham sido descritas com referência a operações particulares realizadas em uma ordem particular, será entendido que essas operações podem ser combinadas, subdivididas ou reordenadas de modo a formar uma técnica equivalente sem se afastar dos ensinamentos da presente divulgação. Conformemente, a menos que especificamente indicado no presente documento, a ordem e o agrupamento das operações não são limitações da presente divulgação.

Claims

REIVINDICAÇÕES

1. Método implementado por computador para monitorar e/ou controlar um processo biofarmacêutico caracterizado por compreender: determinar, por um ou mais processadores, um ponto de consulta associado à varredura do processo biofarmacêutico por um sistema de espectroscopia; consultar, pelo um ou mais processadores, um banco de dados de observação contendo uma pluralidade de conjuntos de dados de observação associados a observações anteriores de processos biofarmacêuticos, em que cada um dos conjuntos de dados de observação inclui dados espectrais e uma medição analítica real correspondente, e em que consultar o banco de dados de observação inclui selecionar como dados de treinamento, entre a pluralidade de conjuntos de dados de observação, conjuntos de dados de observação que satisfazem um ou mais critérios de relevância em relação ao ponto de consulta; calibrar, pelo um ou mais processadores e usando os dados de treinamento selecionados, um modelo local específico para o processo biofarmacêutico, o modelo local sendo treinado para prever medições analíticas com base em entradas de dados espectrais; e predizer, pelo um ou mais processadores, uma medição analítica do processo biofarmacêutico, em que predizer a medição analítica do processo biofarmacêutico inclui o uso do modelo local para analisar dados espectrais que o sistema de espectroscopia gerou durante a varredura do processo biofarmacêutico.

2. Método implementado por computador, de acordo com a reivindicação 1, caracterizado por o sistema de espectroscopia ser um sistema de espectroscopia Raman.

3. Método implementado por computador, de acordo com qualquer uma das reivindicações 1 ou 2, caracterizado por: determinar um ponto de consulta incluir determinar o ponto de consulta com base, pelo menos em parte, em um vetor de varredura espectral, o vetor de varredura espectral sendo gerado pelo sistema de espectroscopia durante a varredura do processo biofarmacêutico; e selecionar como dados de treinamento os conjuntos de dados de observação que satisfazem um ou mais critérios de relevância em relação ao ponto de consulta incluir a comparação do vetor de varredura espectral no qual a determinação do ponto de consulta foi baseada com vetores de varredura espectral associados com as observações anteriores dos processos biofarmacêuticos.

4. Método implementado por computador, de acordo com a reivindicação 3, caracterizado por: determinar um ponto de consulta adicionalmente incluir determinar o ponto de consulta com base em um número de amostra associado com o vetor de varredura espectral; e selecionar como dados de treinamento os conjuntos de dados de observação que satisfazem um ou mais critérios de relevância em relação ao ponto de consulta incluir (i) a comparação do vetor de varredura espectral no qual a determinação do ponto de consulta foi baseada com vetores de varredura espectral associados com as observações anteriores dos processos biofarmacêuticos e (ii) comparar o número da amostra associado com o ponto de consulta com números de amostra associados com as observações anteriores dos processos biofarmacêuticos.

5. Método implementado por computador, de acordo com a reivindicação 4, caracterizado por selecionar como dados de treinamento os conjuntos de dados de observação que satisfazem um ou mais critérios de relevância em relação ao ponto de consulta incluir:

selecionar os conjuntos de dados de k observações mais recentes para inclusão nos dados de treinamento.

6. Método implementado por computador, de acordo com qualquer uma das reivindicações 3 a 5, caracterizado por a previsão da medição analítica do processo biofarmacêutico incluir: usar o modelo local para analisar o vetor de varredura espectral no qual a determinação do ponto de consulta foi baseada.

7. Método implementado por computador, de acordo com qualquer uma das reivindicações 3 a 6, caracterizado por selecionar como dados de treinamento os conjuntos de dados de observação que satisfazem um ou mais critérios de relevância em relação ao ponto de consulta incluir: calcular distâncias entre (i) o vetor de varredura espectral no qual a determinação do ponto de consulta foi baseada e (ii) os vetores de varredura espectral associados às observações anteriores dos processos biofarmacêuticos; e selecionar como os dados de treinamento qualquer um dos vetores de varredura espectral associados às observações anteriores que estão dentro de uma distância limiar do vetor de varredura espectral no qual a determinação do ponto de consulta foi baseada.

8. Método implementado por computador, de acordo com qualquer uma das reivindicações 1 a 7, caracterizado por o determinar um ponto de consulta incluir: determinar o ponto de consulta baseado, pelo menos em parte, em um ou ambos de (i) um perfil de meios associado com o processo biofarmacêutico e (ii) uma ou mais condições operacionais sob as quais o processo biofarmacêutico é analisado.

9. Método implementado por computador, de acordo com qualquer uma das reivindicações 1 a 8, caracterizado por o calibrar de um modelo local específico para o processo biofarmacêutico incluir:

calibrar um modelo de aprendizagem de máquina de processo gaussiano específico para o processo biofarmacêutico.

10. Método implementado por computador, de acordo com qualquer uma das reivindicações 1 a 9, caracterizado por o calibrar de um modelo local específico para o processo biofarmacêutico incluir: calibrar um modelo que é uma função de ambos os dados espectrais e o número de amostra de um determinado conjunto de dados de observação.

11. Método implementado por computador, de acordo com qualquer uma das reivindicações 1 a 10, caracterizado por a previsão de uma medição analítica do processo biofarmacêutico incluir: usar o modelo local de modo a determinar um indicador de confiança associado com a medição analítica prevista do processo biofarmacêutico.

12. Método implementado por computador, de acordo com qualquer uma das reivindicações 1 a 11, caracterizado por adicionalmente compreender: controlar, pelo um ou mais processadores e com base, pelo menos em parte, na medição analítica prevista do processo biofarmacêutico, pelo menos um parâmetro do processo biofarmacêutico.

13. Método implementado por computador, de acordo com qualquer uma das reivindicações 1 a 12, caracterizado por a medição analítica prevista do processo biofarmacêutico ser uma concentração de componente de meios, um estado de meios, uma densidade celular viável, um título, um atributo de qualidade crítico ou um estado celular.

14. Método implementado por computador, de acordo com qualquer uma das reivindicações 1 a 13, caracterizado por a medição analítica prevista do processo biofarmacêutico ser uma concentração de glicose, lactato, glutamato, glutamina, amônia, aminoácidos, Na+ ou K+.

15. Método implementado por computador, de acordo com qualquer uma das reivindicações 1 a 13, caracterizado por a medição analítica prevista do processo biofarmacêutico ser pH, pCO2, pO2, temperatura ou osmolalidade.

16. Método implementado por computador, de acordo com qualquer uma das reivindicações 1 a 15, caracterizado por adicionalmente compreender: obter, por um instrumento analítico, uma medição analítica real do processo biofarmacêutico; e fazer com que, pelo um ou mais processadores, (i) os dados espectrais que o sistema de espectroscopia gerou quando a medição analítica real foi obtida, e (ii) a medição analítica real do processo biofarmacêutico, sejam adicionados ao banco de dados de observação.

17. Método implementado por computador, de acordo com a reivindicação 16, caracterizado por adicionalmente compreender: determinar, pelo um ou mais processadores, que pelo menos a medição analítica prevista não satisfaz um ou mais critérios de desempenho do modelo, em que a obtenção da medição analítica real é realizada em resposta à determinação de que pelo menos a medição analítica prevista não satisfaz o um ou mais critérios de desempenho do modelo.

18. Método implementado por computador, de acordo com a reivindicação 17, caracterizado por a determinação de que pelo menos a medição analítica prevista não satisfaz o um ou mais critérios de desempenho do modelo incluir: gerar um intervalo de credibilidade associado com a medição analítica prevista; e comparar o intervalo de credibilidade com um limite predefinido.

19. Método implementado por computador, de acordo com qualquer uma das reivindicações 1 a 18, caracterizado por o processo biofarmacêutico ser um processo de cultura celular.

20. Sistema de espectroscopia para monitorar e/ou controlar um processo biofarmacêutico, caracterizado por compreender: uma ou mais sondas de espectroscopia configuradas coletivamente para (i) entregar radiação eletromagnética fonte para o processo biofarmacêutico e (ii) coletar radiação eletromagnética enquanto a radiação eletromagnética fonte é entregue ao processo biofarmacêutico; uma ou mais memórias armazenando coletivamente um banco de dados de observação contendo uma pluralidade de conjuntos de dados de observação associados a observações anteriores de processos biofarmacêuticos, em que cada um dos conjuntos de dados de observação inclui dados espectrais e uma medição analítica real correspondente; e um ou mais processadores configurados de modo a determinar um ponto de consulta associado à varredura do processo biofarmacêutico pelo sistema de espectroscopia, consultar o banco de dados de observação, pelo menos ao selecionar como dados de treinamento, dentre a pluralidade de conjuntos de dados de observação, os conjuntos de dados de observação que satisfazem um ou mais critérios de relevância em relação ao ponto de consulta, calibrar, usando os dados de treinamento selecionados, um modelo local específico para o processo biofarmacêutico, o modelo local sendo treinado para prever medições analíticas com base em entradas de dados espectrais, e prever uma medição analítica do processo biofarmacêutico, pelo menos usando o modelo local para analisar dados espectrais que o sistema de espectroscopia gerou durante a varredura do processo biofarmacêutico com a uma ou mais sondas de espectroscopia.

21. Sistema de espectroscopia, de acordo com a reivindicação 20, caracterizado por o sistema de espectroscopia ser um sistema de espectroscopia Raman.

22. Sistema de espectroscopia, de acordo com qualquer uma das reivindicações 20 a 21, caracterizado por o um ou mais processadores serem configurados de modo a: determinar o ponto de consulta com base, pelo menos em parte, em um vetor de varredura espectral, o vetor de varredura espectral sendo gerado pelo sistema de espectroscopia durante a varredura do processo biofarmacêutico; e selecionar os dados de treinamento pelo menos por comparação do vetor de varredura espectral no qual a determinação do ponto de consulta foi baseada com os vetores de varredura espectral associados às observações anteriores dos processos biofarmacêuticos.

23. Sistema de espectroscopia, de acordo com a reivindicação 22, caracterizado por o um ou mais processadores serem configurados de modo a: determinar o ponto de consulta com base em parte em um número de amostra associado com o vetor de varredura espectral; e selecionar como dados de treinamento os conjuntos de dados de observação que satisfazem um ou mais critérios de relevância em relação ao ponto de consulta em parte por (i) comparar o vetor de varredura espectral no qual a determinação do ponto de consulta foi baseada com vetores de varredura espectral associados com as observações anteriores dos processos biofarmacêuticos e (ii) comparar o número da amostra associado com o ponto de consulta com números de amostra associados com as observações anteriores dos processos biofarmacêuticos.

24. Sistema de espectroscopia, de acordo com a reivindicação 23, caracterizado por o um ou mais processadores estarem configurados de modo a selecionar como dados de treinamento os conjuntos de dados de observação que satisfazem um ou mais critérios de relevância em relação ao ponto de consulta em parte por: selecionar os conjuntos de dados de k observações mais recentes para inclusão nos dados de treinamento.

25. Sistema de espectroscopia, de acordo com qualquer uma das reivindicações 20 a 24, caracterizado por o modelo local ser um modelo de aprendizagem de máquina de processo gaussiano.

26. Sistema de espectroscopia, de acordo com qualquer uma das reivindicações 20 a 25, caracterizado por o modelo local ser uma função de ambos os dados espectrais e o número da amostra de um determinado conjunto de dados de observação.

27. Sistema de espectroscopia, de acordo com qualquer uma das reivindicações 20 a 26, caracterizado por o um ou mais processadores serem adicionalmente configurados de modo a: usar o modelo local de modo a determinar um indicador de confiança associado com a medição analítica prevista do processo biofarmacêutico.

28. Sistema de espectroscopia, de acordo com qualquer uma das reivindicações 20 a 27, caracterizado por o um ou mais processadores serem adicionalmente configurados de modo a: controlar, com base pelo menos em parte na medição analítica prevista do processo biofarmacêutico, pelo menos um parâmetro do processo biofarmacêutico.

29. Sistema de espectroscopia, de acordo com qualquer uma das reivindicações 20 a 28, caracterizado por a medição analítica prevista do processo biofarmacêutico ser uma concentração de componente de meios,

um estado de meios, uma densidade celular viável, um título, um atributo de qualidade crítico ou um estado celular.

30. Método implementado por computador, de acordo com qualquer uma das reivindicações 20 a 29, caracterizado por a medição analítica prevista do processo biofarmacêutico ser uma concentração de glicose, lactato, glutamato, glutamina, amônia, aminoácidos, Na+ ou K+.

31. Método implementado por computador, de acordo com qualquer uma das reivindicações 20 a 29, caracterizado por a medição analítica prevista do processo biofarmacêutico ser pH, pCO2, pO2, temperatura ou osmolalidade.

32. Sistema de espectroscopia, de acordo com qualquer uma das reivindicações 20 a 31, caracterizado por adicionalmente compreender: um instrumento analítico configurado de modo a obter uma medição analítica real do processo biofarmacêutico, em que o um ou mais processadores são adicionalmente configurados de modo a fazerem com que (i) os dados espectrais que o sistema de espectroscopia gerou quando a medição analítica real foi obtida, e (ii) a medição analítica real do processo biofarmacêutico, sejam adicionados ao banco de dados de observação.

33. Sistema de espectroscopia, de acordo com a reivindicação 32, caracterizado por o um ou mais processadores serem adicionalmente configurados de modo a: determinar que pelo menos a medição analítica prevista não satisfaz um ou mais critérios de desempenho do modelo; e obter a medição analítica real a partir do instrumento analítico em resposta à determinação de que pelo menos a medição analítica prevista não satisfaz o um ou mais critérios de desempenho do modelo.

34. Sistema de espectroscopia, de acordo com a reivindicação 33, caracterizado por o um ou mais processadores serem configurados de modo a determinar que pelo menos a medição analítica prevista não satisfaz o um ou mais critérios de desempenho pelo menos por: gerar um intervalo de credibilidade associado com a medição analítica prevista; e comparar o intervalo de credibilidade com um limite predefinido.

35. Sistema de espectroscopia, de acordo com qualquer uma das reivindicações 20 a 34, caracterizado por o processo biofarmacêutico ser um processo de cultura celular.

36. Mídia legível por computador não transitória, que armazena instruções para monitorar e/ou controlar um processo biofarmacêutico, caracterizada por as instruções, quando executadas por um ou mais processadores, fazerem com que o um ou mais processadores executem o método, conforme definido em qualquer uma das reivindicações 1 a 19.

37. Sistema de biorreator caracterizado por compreender: uma câmara de biorreator configurada de modo a conter um processo biofarmacêutico; uma ou mais sondas de espectroscopia configuradas coletivamente para (i) entregar radiação eletromagnética fonte para o processo biofarmacêutico e (ii) coletar radiação eletromagnética enquanto a radiação eletromagnética fonte é entregue ao processo biofarmacêutico; uma ou mais memórias armazenando coletivamente um banco de dados de observação contendo uma pluralidade de conjuntos de dados de observação associados a observações anteriores de processos biofarmacêuticos, em que cada um dos conjuntos de dados de observação inclui dados espectrais e uma medição analítica real correspondente; e um ou mais processadores configurados de modo a determinar um ponto de consulta associado à varredura do processo biofarmacêutico pelo sistema de espectroscopia,

consultar o banco de dados de observação, pelo menos ao selecionar como dados de treinamento, dentre a pluralidade de conjuntos de dados de observação, os conjuntos de dados de observação que satisfazem um ou mais critérios de relevância em relação ao ponto de consulta, calibrar, usando os dados de treinamento selecionados, um modelo local específico para o processo biofarmacêutico, o modelo local sendo treinado para prever medições analíticas com base em entradas de dados espectrais, e prever uma medição analítica do processo biofarmacêutico, pelo menos usando o modelo local para analisar dados espectrais que o sistema de espectroscopia gerou durante a varredura do processo biofarmacêutico com a uma ou mais sondas de espectroscopia.

38. Sistema de biorreator, de acordo com a reivindicação 37, caracterizado por o um ou mais processadores serem configurados de modo a: determinar o ponto de consulta com base, pelo menos em parte, em um vetor de varredura espectral, o vetor de varredura espectral sendo gerado durante a varredura do processo biofarmacêutico, por meio das uma ou mais sondas de espectroscopia; e selecionar os dados de treinamento pelo menos por comparação do vetor de varredura espectral no qual a determinação do ponto de consulta foi baseada com os vetores de varredura espectral associados às observações anteriores dos processos biofarmacêuticos.

39. Sistema de biorreator, de acordo com a reivindicação 38, caracterizado por o um ou mais processadores serem configurados de modo a:

determinar o ponto de consulta com base em parte em um número de amostra associado com o vetor de varredura espectral; e selecionar como dados de treinamento os conjuntos de dados de observação que satisfazem um ou mais critérios de relevância em relação ao ponto de consulta em parte por (i) comparar o vetor de varredura espectral no qual a determinação do ponto de consulta foi baseada com vetores de varredura espectral associados com as observações anteriores dos processos biofarmacêuticos e (ii) comparar o número da amostra associado com o ponto de consulta com números de amostra associados com as observações anteriores dos processos biofarmacêuticos.

40. Sistema de biorreator, de acordo com a reivindicação 39, caracterizado por o um ou mais processadores estarem configurados de modo a selecionar como dados de treinamento os conjuntos de dados de observação que satisfazem um ou mais critérios de relevância em relação ao ponto de consulta em parte por: selecionar os conjuntos de dados de k observações mais recentes para inclusão nos dados de treinamento.

41. Sistema de biorreator, de acordo com qualquer uma das reivindicações 37 a 40, caracterizado por o modelo local ser um modelo de aprendizagem de máquina de processo gaussiano.

42. Sistema de biorreator, de acordo com qualquer uma das reivindicações 37 a 41, caracterizado por o modelo local ser uma função de ambos os dados espectrais e o número da amostra de um determinado conjunto de dados de observação.

43. Sistema de biorreator, de acordo com qualquer uma das reivindicações 37 a 42, caracterizado por o um ou mais processadores serem adicionalmente configurados de modo a:

usar o modelo local de modo a determinar um indicador de confiança associado com a medição analítica prevista do processo biofarmacêutico.

44. Sistema de biorreator, de acordo com qualquer uma das reivindicações 37 a 43, caracterizado por o um ou mais processadores serem adicionalmente configurados de modo a: controlar, com base pelo menos em parte na medição analítica prevista do processo biofarmacêutico, pelo menos um parâmetro do processo biofarmacêutico.

45. Sistema de biorreator, de acordo com qualquer uma das reivindicações 37 a 44, caracterizado por a medição analítica prevista do processo biofarmacêutico ser uma concentração de componente de meios, um estado de meios, uma densidade celular viável, um título, um atributo de qualidade crítico ou um estado celular.

46. Método implementado por computador, de acordo com qualquer uma das reivindicações 37 a 45, caracterizado por a medição analítica prevista do processo biofarmacêutico ser uma concentração de glicose, lactato, glutamato, glutamina, amônia, aminoácidos, Na+ ou K+.

47. Método implementado por computador, de acordo com qualquer uma das reivindicações 37 a 45, caracterizado por a medição analítica prevista do processo biofarmacêutico ser pH, pCO2, pO2, temperatura ou osmolalidade.

48. Sistema de espectroscopia, de acordo com qualquer uma das reivindicações 37 a 47, caracterizado por adicionalmente compreender: um instrumento analítico configurado de modo a obter uma medição analítica real do processo biofarmacêutico, em que o um ou mais processadores são adicionalmente configurados de modo a fazerem com que (i) os dados espectrais que o sistema de espectroscopia gerou quando a medição analítica real foi obtida,

e (ii) a medição analítica real do processo biofarmacêutico, sejam adicionados ao banco de dados de observação.

49. Sistema de espectroscopia, de acordo com a reivindicação 48, caracterizado por o um ou mais processadores serem adicionalmente configurados de modo a: determinar que pelo menos a medição analítica prevista não satisfaz um ou mais critérios de desempenho do modelo; e obter a medição analítica real a partir do instrumento analítico em resposta à determinação de que pelo menos a medição analítica prevista não satisfaz o um ou mais critérios de desempenho do modelo.

50. Sistema de espectroscopia, de acordo com a reivindicação 49, caracterizado por o um ou mais processadores serem configurados de modo a determinar que pelo menos a medição analítica prevista não satisfaz o um ou mais critérios de desempenho pelo menos por: gerar um intervalo de credibilidade associado com a medição analítica prevista; e comparar o intervalo de credibilidade com um limite predefinido.

51. Sistema de espectroscopia, de acordo com qualquer uma das reivindicações 37 a 50, caracterizado por o processo biofarmacêutico ser um processo de cultura celular.

52. Proteína recombinante caracterizada por ser produzida no processo de cultura celular realizado no sistema de biorreator, conforme definido na reivindicação 51.