EA043314B1 - Автоматическая калибровка и автоматическое обслуживание рамановских спектроскопических моделей для предсказаний в реальном времени - Google Patents

Автоматическая калибровка и автоматическое обслуживание рамановских спектроскопических моделей для предсказаний в реальном времени Download PDF

Info

Publication number
EA043314B1
EA043314B1 EA202191101 EA043314B1 EA 043314 B1 EA043314 B1 EA 043314B1 EA 202191101 EA202191101 EA 202191101 EA 043314 B1 EA043314 B1 EA 043314B1
Authority
EA
Eurasian Patent Office
Prior art keywords
observational
manufacturing process
biopharmaceutical manufacturing
query point
analytical measurement
Prior art date
Application number
EA202191101
Other languages
English (en)
Inventor
Адитиа Тулсиан
Original Assignee
Эмджен Инк.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Эмджен Инк. filed Critical Эмджен Инк.
Publication of EA043314B1 publication Critical patent/EA043314B1/ru

Links

Description

Перекрестная ссылка на родственные заявки
Испрашивается приоритет предварительной заявки на патент США № 62/749359, поданной 23 октября 2018 г., предварительной заявки на патент США № 62/833044, поданной 12 апреля 2019 г., и предварительной заявки на патент США № 62/864565, поданной 21 июня 2019 г., каждая из которых включена в данный документ посредством ссылки во всей своей полноте.
Область техники, к которой относится изобретение
Настоящая заявка в целом относится к отслеживанию биофармацевтических процессов и/или управлению ими с использованием спектроскопических методик, таких как рамановская спектроскопия, и, в частности, относится к оперативной калибровке и обслуживанию моделей предсказания.
Предпосылки изобретения
Устойчивое производство биотерапевтических белков при помощи биофармацевтического процесса в целом требует поддержания биореактором сбалансированных и согласованных параметров (например, концентраций клеточных метаболитов), что, в свою очередь, требует строгого отслеживания процесса и управления им. Для удовлетворения этих требований все больше применяются средства технологии анализа процессов (PAT). Некоторыми примерами традиционных средств PAT, которые используются в системах управления с обратной связью, являются оперативное отслеживание рН, растворенного кислорода и температуры клеточной культуры. В последние годы были исследованы и развернуты другие встраиваемые в процесс зонды для непрерывного отслеживания более сложных вещей, таких как плотность жизнеспособных клеток (VCD), глюкоза, лактат и другие критические клеточные метаболиты, аминокислоты, титр и критические показатели качества.
Рамановская спектроскопия является популярным средством PAT, широко используемым для оперативного отслеживания в биопроизводстве. Она представляет собой оптический метод, позволяющий выполнять неразрушающий анализ химического состава и молекулярной структуры. В рамановской спектроскопии падающее лазерное излучение рассеивается неупруго вследствие наличия мод молекулярных колебаний. Разность частот между падающими и рассеянными фотонами называется рамановским сдвигом, и вектор рамановского сдвига в зависимости от уровней интенсивности (называемый в данном документе рамановским спектром, результатом рамановского сканирования или вектором рамановского сканирования) можно проанализировать с целью определения химического состава и молекулярной структуры образца. Применения рамановской спектроскопии в анализе полимеров, фармацевтическом, биопроизводственном и биомедицинском анализе значительно увеличились в последние три десятилетия по мере совершенствования технологий лазерной выборки и детекторов. Вследствие этих технологических достижений рамановская спектроскопия в настоящее время представляет собой практическую методику анализа, используемую как внутри, так и вне лаборатории. С тех пор, как о применении в биопроизводстве рамановских измерений in-situ сообщили впервые, они были введены в использование для обеспечения оперативных предсказаний в реальном времени некоторых ключевых состояний процессов, таких как глюкоза, лактат, глутамат, глутамин, аммиак, VCD и т.д. Эти предсказания обычно основаны на калибровочной модели или модели мягкого датчика, построенной в автономных условиях на основе аналитических измерений из аналитического прибора. Для установления корреляции рамановского спектра с аналитическими измерениями обычно используют методы моделирования частично наименьших квадратов (PLC) и множественной линейной регрессии. Эти модели обычно требуют фильтрации путем предварительной обработки результатов рамановского сканирования перед калибровкой относительно аналитических измерений. После обучения калибровочной модели ее реализуют в условиях реального времени для обеспечения измерений in-situ с целью отслеживания процесса и/или управления им.
Калибровка рамановской модели для биофармацевтических применений является нетривиальной, так как биофармацевтические процессы обычно действуют в условиях жестких ограничений и норм. В текущем известном уровне техники подход к калибровке рамановской модели в биофармацевтической промышленности заключается в том, что, в первую очередь запускается несколько исследований производственного цикла для генерирования релевантных данных, которые используются для установления корреляции рамановского спектра с аналитическим измерением (измерениями). Эти исследования являются как дорогостоящими, так и трудоемкими, так как каждый производственный цикл может длиться в лабораторных условиях, например, от двух до четырех недель. Кроме того, для аналитических приборов может являться доступным лишь ограниченное количество выборок (например, для того чтобы убедиться, что лабораторный биореактор сохраняет значительную массу жизнеспособных клеток). Фактически нередко случается, что при поточных или автономных аналитических измерениях ежедневно доступно лишь одно или два измерения. Ситуацию дополнительно усугубляет то, что лучшие современные применения дают калибровочные модели, привязанные к конкретному процессу, конкретной формуле или профилю питательной среды биореактора и конкретным рабочим условиям. Поэтому при изменении любой из вышеупомянутых переменных может потребоваться повторная калибровка моделей на основе новых данных. Фактически как калибровка рамановских моделей, так и обслуживание моделей требуют выделения значительных ресурсов и обычно выполняются в автономных условиях. И хотя были предложены подходы, в которых модели адаптируют к новым рабочим условиям (например, рекурсивный ме- 1 043314 тод, метод скользящего окна и разностный временной метод), эти способы могут быть неспособны адекватно справляться с резкими изменениями в процессе.
Существует несколько публикаций, в которых описаны обобщенные рамановские модели на основе традиционных хемометрических методов (например, моделирование PLS) для множества молекул. Однако в этих обобщенных моделях предполагается, что в процессах используются подобные, если не одинаковые, составы питательной среды и/или рабочие условия процесса. Питательные среды и процессы обычно являются платформенными, с небольшими изменениями или без изменений. Недостатком обобщенной модели указанного типа является то, что, как только процесс отклоняется от нормы, или если набор обучающих данных содержит слишком широкий технологический диапазон в попытке учесть изменения (например, добавки к питательной среде, длительность процесса и/или другие изменения в процессе) между разными молекулами, обобщенные модели теряют точность и достоверность. Поэтому эти обобщенные модели являются обобщенными лишь в пределах описанных жестких рамок. См. Mehdizaheh и др., Biotechnolo. Prog. 31(4): 1004-1013, 2015; Webster и др., Biotechnol. Prog. 34(3):730-737, 2018.
Краткое описание
Термин биофармацевтический процесс относится к процессу, используемому в биофармацевтическом производстве, такому как процесс культивирования клеток с целью получения требуемого рекомбинантного белка. Культивирование клеток происходит в сосуде для культивирования клеток, таком как биореактор, в условиях, которые поддерживают рост и поддержание организма, предназначенного для экспрессии белка. В ходе получения рекомбинантного белка с целью управления и/или поддержания процесса культивирования клеток выполняется отслеживание параметров процесса, таких как концентрации компонентов питательной среды, в том числе питательных веществ и метаболитов (например, глюкозы, лактата, глутамата, глутамина, аммиака, аминокислот, Na+, K+ и других питательных веществ или метаболитов), состояние питательной среды (рН, pCO2, pO2, температура, осмоляльность и т.д.), а также параметров клеток и/или белков (например, плотности жизнеспособных клеток (VCD), титра, состояния клеток, критических показателей качества и т.д.).
Для устранения некоторых из вышеописанных ограничений лучших современных промышленных применений описанные в данном документе варианты осуществления относятся к системам и способам, совершенствующим традиционные методики спектроскопического анализа биофармацевтических процессов, такие как рамановская спектроскопия. В частности, для построения и обслуживания калибровочных моделей (например, рамановских калибровочных моделей) в реальном времени для биофармацевтических применений используется платформа Обучение точно в срок (JITL). JITL представляет собой платформу для нелинейного моделирования на основе технологии локального моделирования и выборки из базы данных. В отличие от других способов машинного обучения в JITL в целом предполагается, что все доступные наблюдения хранятся в центральной базе данных, а модели динамически строятся в реальном времени на основе запроса с использованием наиболее релевантных данных из базы данных. Это позволяет получить хорошее приближение сложной динамики процесса с использованием относительно простых локальных моделей. В условиях инфраструктуры JITL библиотека может содержать спектральные данные не только для одного процесса, эксплуатируемого в определенных рабочих условиях, но также данные для разных процессов, разных профилей питательной среды и/или разных рабочих условий. Это может значительно сократить время, требуемое для калибровки и обслуживания моделей, особенно для находящихся в разработке лекарств, которые могут иметь небольшую историю или не иметь истории на данный момент.
Платформа JITL обслуживает динамическую библиотеку, которая может обновляться каждый раз, когда доступно новое аналитическое измерение. Кроме того, для обеспечения адаптации локальных моделей к новым условиям процесса, последнее доступное аналитическое измерение (например, для продукта, отслеживание которого выполняется в настоящий момент) всегда может быть включено в обучающий набор для локального моделирования. Это позволяет быстрее адаптировать локальную модель к новым условиям или к новым линейкам продуктов, не имеющим истории. С использованием этого подхода можно автоматизировать как калибровку модели, так и обслуживание модели, а также можно значительно сократить время и стоимость (например, материальные затраты и трудозатраты), связанные с повседневными калибровками в традиционных системах. Кроме того, возможность предоставления границ правдоподобия (или других индикаторов достоверности, таких как степени достоверности) по предсказаниям на основе модели может обеспечивать робастные стратегии отслеживания и управления.
В некоторых вариантах осуществления для локального моделирования в инфраструктуре JITL используются модели на основе гауссовского процесса. Модели на основе гауссовского процесса представляют собой мощные статистические модели машинного обучения, которые могут эффективно улавливать сложную нелинейную динамику процессов и могут легко адаптироваться практически к любым изменениям в процессе. В отличие от PLS регрессии основных компонентов (PCR) и регрессионных моделей других типов, модели на основе гауссовского процесса представляют собой непараметрические методы, и они являются намного более приспособленными к улавливанию сложных корреляций между рамановскими спектрами и аналитическими измерениями на основе ограниченных наборов данных. Кроме того, модели на основе гауссовского процесса в целом не требуют фильтрации путем предварительной
- 2 043314 обработки результатов рамановского сканирования. Соответственно в некоторых вариантах осуществления модели на основе гауссовского процесса альтернативно калибруются на свежих результатах рамановского сканирования (в логарифмической шкале), что может сэкономить множество этапов в процессе калибровки/обслуживания модели. Кроме того, модели на основе гауссовского процесса предоставляют границы правдоподобия по предсказаниям, получение которых с использованием моделей PLS или PCR может быть чрезвычайно затруднительным. Границы правдоподобия могут быть особенно полезны для разработки оптимальных стратегий взятия проб для аналитических приборов и/или для реализации управления в замкнутом контуре (например, управления по модели предсказания, или МРС), например, во избежание внесения изменений на основе ненадежных предсказаний.
Хотя JITL представляет собой нелинейную инфраструктуру моделирования, и хотя вышеописанный подход предусматривает некоторую адаптивность за счет обновления динамической библиотеки недавними аналитическими измерениями, JITL само по себе может не являться достаточно адаптивным для учета изменяющихся во времени условий процесса (например, резких изменений до заданного значения или других условий процесса). В частности, локальные модели, откалиброванные с использованием JITL, могут быть неспособны использовать недавние выборки. Например и в частности, если имело место недавнее и резкое изменение в условиях процесса, недавние выборки могут быть неспособны удовлетворять критерию подобия, основанному чисто на пространственном подобии (например, подобии результатов рамановского сканирования). В данном документе также описаны модифицированные методики JITL, которые могут лучше усреднять информацию, предоставляемую недавними выборками (независимо от пространственного подобия), и поэтому могут лучше адаптироваться к изменяющимся во времени изменениям в процессе. В частности, в данном документе описаны методики адаптивного JITL (A-JITL) и пространственно-временного JITL (ST-JITL) для калибровки и обслуживания моделей.
Для успеха методик JITL может быть важно обслуживание моделей в реальном времени, при котором локальные модели могут обучаться на новейших аналитических измерениях и, таким образом, быстро адаптироваться к изменяющимся во времени условиям. Однако частый доступ к аналитическим приборам/измерениям (например, при автономном анализе выборок), как правило, является в высокой степени ресурсоемким. Для сведения к минимуму такого использования ресурсов без чрезмерного ухудшения качества модели может быть реализован основанный на качестве протокол обслуживания модели, в котором система планирует/инициирует аналитическое измерение в ответ на определение недопустимого/ненадежного текущего качества модели.
Краткое описание графических материалов
Специалисту в данной области техники понятно, что фигуры, описанные в данном документе, включены для целей иллюстрации, а не ограничения настоящего изобретения. Графические материалы не обязательно изображены в масштабе, акцент делается на иллюстрацию принципов настоящего изобретения. Следует понимать, что в некоторых случаях различные аспекты описанных вариантов реализации могут быть укрупнены или увеличены для улучшения понимания описанных вариантов реализации. На графических материалах подобные ссылочные позиции на разных фигурах в целом выполняют одинаковые функции и/или являются структурно одинаковыми компонентами.
На фиг. 1 представлена упрощенная блок-схема примерной системы рамановской спектроскопии, которая может использоваться для предсказания аналитических измерений биофармацевтических процессов.
На фиг. 2 представлена упрощенная блок-схема примерной системы рамановской спектроскопии, которая может использоваться для предсказания аналитических измерений биофармацевтических процессов для управления в замкнутом контуре концентрацией глюкозы.
На фиг. 3 изображены экспериментальные результаты управления в замкнутом контуре концентрацией глюкозы с использованием примерной реализации системы рамановской спектроскопии, описанной в данном документе.
На фиг. 4 изображен примерный поток данных, который может иметь место при анализе биофармацевтического процесса с использованием методики Обучение точно в срок (JITL).
На фиг. 5 изображен примерный поток данных, который может иметь место при анализе биофармацевтического процесса с использованием методики адаптивного JITL (A-JITL).
На фиг. 6 изображен примерный поток данных, который может иметь место при анализе биофармацевтического процесса с использованием методики пространственно-временного JITL (ST-JITL).
На фиг. 7 представлена схема последовательности операций примерного способа анализа биофармацевтического процесса.
Подробное описание
Различные концепции, представленные выше и более подробно обсужденные далее, могут быть реализованы многими способами, и описанные концепции не ограничены каким-либо определенным способом реализации. Примеры вариантов реализации представлены для иллюстративных целей.
На фиг. 1 представлена упрощенная блок-схема примерной системы 100 рамановской спектроскопии, которая может использоваться для предсказания аналитических измерений биофармацевтических процессов. Хотя на фиг. 1 изображена система 100, в которой реализуются методики рамановской спек- 3 043314 троскопии, понятно, что в других вариантах осуществления в системе 100 могут быть реализованы другие спектроскопические методики, подходящие для анализа биофармацевтических процессов, такие как, например, спектроскопия в ближней инфракрасной области (NIR).
Система 100 содержит биореактор 102, один или несколько аналитических приборов 104, рамановский анализатор 106 с рамановским зондом 108, компьютер 110 и сервер 112 базы данных, соединенный с компьютером 110 через сеть 114. Биореактор 102 может представлять собой любой подходящий сосуд, устройство или систему, поддерживающую биологически активную среду, которая может содержать живые организмы и/или полученные из них вещества (например, культуру клеток) в питательной среде. Биореактор 102 может содержать рекомбинантные белки, экспрессируемые культурой клеток, например, для исследовательских целей, клинического применения, коммерческой продажи или другого распространения. В зависимости от отслеживаемого биофармацевтического процесса питательная среда может содержать определенную текучую среду (например, бульон) и определенные питательные вещества и может иметь целевые параметры состояния питательной среды, такие как целевой уровень или диапазон рН, целевая температура или температурный диапазон и т.д. Питательная среда может также содержать организмы и вещества, полученные из организмов, такие как метаболиты и рекомбинантные белки. Содержимое и параметры/характеристики питательной среды совместно называются в данном документе профилем питательной среды.
Аналитический прибор (приборы) 104 может представлять собой поточный, расположенный у потока и/или автономный прибор или приборы, выполненные с возможностью измерения одной или нескольких характеристик или параметров биологически активного содержимого в биореакторе 102 на основе взятых из него проб. Например, аналитический прибор (приборы) 104 может измерять концентрации одного или нескольких компонентов питательной среды, такие как уровни питательных веществ и/или метаболитов (например, глюкозы, лактата, глутамата, глутамина, аммиака, аминокислот, Na+, K+ и т.д.), и параметры состояния питательной среды (рН, pCO2, pO2, температура, осмоляльность и т.д.). Дополнительно или альтернативно аналитический прибор (приборы) 104 может измерять осмоляльность, плотность жизнеспособных клеток (VCD), титр, критические показатели качества, состояние клеток (например, клеточный цикл) и/или другие характеристики или параметры, связанные с содержимым биореактора 102. В качестве более конкретного примера пробы могут быть взяты, отцентрифугированы, очищены при помощи нескольких колонок и пропущены через первый из аналитических приборов 104 (например, прибор для высокоэффективной жидкостной хроматографии (HPLC) или ультравысокоэффективной жидкостной хроматографии (UPLC)) и затем через второй из аналитических приборов 104 (например, масс-спектрометр), при этом оба, первый и второй, аналитические приборы 104 предоставляют аналитические измерения. В одном, некоторых или всех аналитических приборах 104 могут использоваться разрушающие методики анализа.
Рамановский анализатор 106 может содержать спектрографическое устройство, соединенное с рамановским зондом 108 (или, в некоторых реализациях, несколькими рамановскими зондами). Рамановский анализатор 106 может содержать источник лазерного излучения, обеспечивающий лазерное излучение для рамановского зонда 108 по оптоволоконному кабелю, и может также содержать устройство с зарядовой связью (CCD) или другую подходящую камеру/регистрирующее устройство для регистрации сигналов, принимаемых из рамановского зонда 108, например, по другому каналу оптоволоконного кабеля. Альтернативно источник лазерного излучения может быть встроен в сам рамановский зонд 108. Рамановский зонд 108 может представлять собой погружной зонд или зонд любого другого подходящего типа (например, зонд отражательной способности и зонд пропускания).
Рамановский анализатор 106 и рамановский зонд 108 совместно выполнены с возможностью неразрушающего сканирования биологически активного содержимого в ходе биофармацевтического процесса в биореакторе 102 путем возбуждения, наблюдения и регистрации молекулярных отпечатков биофармацевтического процесса. Молекулярные отпечатки соответствуют колебательным, вращательным и/или другим низкочастотным модам молекул в биологически активном содержимом в биофармацевтическом процессе при возбуждении содержимого биореактора лазерным излучением, обеспечиваемым рамановским зондом 108. В результате этого процесса сканирования рамановский анализатор 106 генерирует один или несколько векторов рамановского сканирования, каждый из которых представляет собой интенсивность в зависимости от рамановского сдвига (частоты).
Компьютер 110 соединен с рамановским анализатором 106 и аналитическим прибором (приборами) 104 и в целом выполнен с возможностью анализа векторов рамановского сканирования, генерируемых рамановским анализатором 106, с целью предсказания одного или нескольких аналитических измерений биофармацевтического процесса. Например, компьютер 110 может анализировать векторы рамановского сканирования для предсказания аналитического измерения (измерений) одного и того же типа (типов), выполняемого аналитическим прибором (приборами) 104. В качестве более конкретного примера компьютер 110 может предсказывать концентрации глюкозы, тогда как аналитический прибор (приборы) 104 фактически измеряет концентрации глюкозы. Однако в то время как аналитический прибор (приборы) 104 может выполнять относительно нечастые автономные аналитические измерения проб, извлекаемых из биореактора 102 (например, по причине ограниченных количеств питательной среды в био- 4 043314 фармацевтическом процессе и/или по причине более высокой стоимости выполнения таких измерений и
т.д.), компьютер 110 может выполнять относительно частые оперативные предсказания аналитических измерений в реальном времени. Компьютер 110 также может быть выполнен с возможностью передачи аналитических измерений, выполненных аналитическим прибором (приборами) 104, на сервер 112 базы данных через сеть 114, как будет более подробно обсуждаться ниже.
В примерном варианте осуществления, показанном на фиг. 1, компьютер 110 содержит блок 120 обработки данных, сетевой интерфейс 122, дисплей 124, устройство 126 пользовательского ввода и запоминающее устройство 128. Блок 120 обработки данных содержит один или несколько процессоров, каждый из которых может представлять собой программируемый микропроцессор, который исполняет программные команды, хранящиеся в запоминающем устройстве 128, с целью исполнения некоторых или всех функций компьютера 110, описанных в данном документе. Альтернативно один, несколько или все процессоры в блоке 120 обработки данных могут представлять собой процессоры других типов (например, специализированные интегральные микросхемы (ASIC), вентильные матрицы с эксплуатационным программированием (FPGA) и т.д.), и функциональные возможности компьютера 110, описанные в данном документе, альтернативно могут быть частично или полностью реализованы в аппаратном обеспечении. Запоминающее устройство 128 может содержать одно или несколько физических запоминающих устройств или блоков, включающих энергозависимое и/или энергонезависимое запоминающее устройство. Могут использоваться запоминающие устройства любого подходящего типа или типов, такие как постоянное запоминающее устройство (ROM), твердотельные накопители (SSD), накопители на жестких дисках (HDD) и т.д.
Сетевой интерфейс 122 может содержать любое подходящее аппаратное обеспечение (например, клиентское приемопередающее аппаратное обеспечение), программно-аппаратное обеспечение и/или программное обеспечение, выполненное с возможностью установления связи через сеть 114 с использованием одного или нескольких протоколов связи. Например, сетевой интерфейс 122 может представлять собой или содержать интерфейс Ethernet. Сеть 114 может представлять собой одну сеть связи или может содержать несколько сетей связи одного или нескольких типов (например, одну или несколько проводных и/или беспроводных локальных сетей (LAN) и/или одну или несколько проводных и/или беспроводных глобальных сетей (WAN), таких как, например, интернет или корпоративная сеть).
В дисплее 124 может использоваться любая подходящая технология (например, LED, OLED, LCD и т.д.) для представления информации пользователю, а интерфейс 126 пользовательского ввода может представлять собой клавиатуру или другое подходящее устройство ввода. В некоторых вариантах осуществления дисплей 124 и устройство 126 пользовательского ввода объединены в одном устройстве (например, сенсорном дисплее). В целом дисплей 124 и устройство 126 пользовательского ввода могут объединяться для обеспечения возможности взаимодействия пользователя с графическими интерфейсами пользователя (GUI), предоставляемыми компьютером 110, например, для таких целей, как ручное отслеживание различных процессов, исполняемых в системе 100. Однако в некоторых вариантах осуществления компьютер 110 не содержит дисплей 124 и/или устройство 126 пользовательского ввода, или одно или оба из дисплея 124 и устройства 126 пользовательского ввода включены в другой компьютер или систему, которая соединена с возможностью связи с компьютером 110 (например, в некоторых вариантах осуществления, где предсказания отправляются непосредственно в систему управления, реализующую управление в замкнутом контуре).
В запоминающем устройстве 128 хранятся команды одного или нескольких программных приложений, в том числе приложения 130 предсказателя Обучение точно в срок (JITL). Приложение 130 предсказателя JITL при исполнении блоком 120 обработки данных в целом выполнено с возможностью предсказания аналитических измерений биофармацевтического процесса в биореакторе 102 путем калибровки локальной модели 132 и использования локальной модели 132 для анализа векторов рамановского сканирования, генерируемых рамановским анализатором 106. В зависимости от частоты, с которой рамановский анализатор 106 генерирует данные векторы сканирования, приложение 130 предсказателя JITL может предсказывать аналитические измерения на периодической или другой подходящей временной основе. Рамановский анализатор 106 может самостоятельно управлять временем генерирования векторов сканирования, или компьютер 110 может инициировать генерирование векторов сканирования путем отправки команды в рамановский анализатор 106. Приложение 130 предсказателя JITL может предсказывать аналитическое измерение только одного типа на основе каждого вектора сканирования (например, только концентрацию глюкозы) или может предсказывать на основе каждого вектора сканирования несколько типов аналитических измерений (например, концентрацию глюкозы и плотность жизнеспособных клеток). В других вариантах осуществления каждое из нескольких разных приложений предсказателя JITL (например, каждое из которых аналогично приложению 130 предсказателя JITL) генерирует отличную локальную модель для предсказания аналитического измерения другого типа, и все они основаны на одном и том же векторе сканирования. Приложение 130 предсказателя JITL и локальная модель 132 будут более подробно обсуждены ниже.
Сервер 112 базы данных может являться удаленным от компьютера 110 (например, так, что локальная установка может содержать только биореактор 102, аналитический прибор (приборы) 104, раманов- 5 043314 ский анализатор 106 с рамановским зондом 108 и компьютер 110) и, как видно на фиг. 1, может содержать или являться соединенным с возможностью связи с базой 136 данных наблюдений, в которой хранятся наборы данных наблюдений, связанные с прошлыми наблюдениями. Каждый набор данных наблюдений в базе 136 данных наблюдений может содержать спектральные данные (например, один или несколько векторов рамановского сканирования в виде, получаемом рамановским анализатором 106) и одно или несколько соответствующих аналитических измерений (например, одно или несколько измерений в виде (видах), получаемом аналитическим прибором (приборами) 104). В зависимости от варианта осуществления и/или сценария прошлые наблюдения могут быть собраны для нескольких разных биофармацевтических процессов в нескольких разных рабочих условиях (например, при разных заданных значениях концентрации метаболитов) и/или с несколькими разными профилями питательной среды (например, разными текучими средами, питательными веществами, уровнями рН, температурами и т.д.). В целом может быть желательно, чтобы база 136 данных наблюдений представляла широкое разнообразие процессов, рабочих условий и профилей питательной среды. База 136 данных наблюдений может содержать или не содержать информацию, указывающую эти процессы, клеточные линии, белки, метаболиты, рабочие условия и/или профили питательной среды, однако, в зависимости от варианта осуществления (как дополнительно обсуждено ниже). В некоторых вариантах осуществления сервер 112 базы данных удаленно соединен с несколькими другими компьютерами, аналогичными компьютеру 110, через сеть 114 и/или другие сети. Это может потребоваться для сбора большого количества наборов данных наблюдений с целью сохранения в базе 136 данных наблюдений. Однако в других вариантах осуществления система 100 не содержит сервер 112 базы данных, и компьютер 110 получает доступ непосредственно к локальной базе 136 данных наблюдений.
Понятно, что вместо показанных на фиг. 1 могут использоваться другие конфигурации и/или компоненты. Например, другой компьютер (не показан на фиг. 1) может передавать измерения, предоставляемые аналитическим прибором (приборами) 104, на сервер 112 базы данных, одно или несколько дополнительных вычислительных устройств или систем могут действовать в качестве промежуточных звеньев между компьютером 110 и сервером 112 базы данных, некоторые или все функциональные возможности компьютера 110, описанные в данном документе, могут альтернативно выполняться удаленно сервером 112 базы данных и/или другим удаленным сервером и т.д.
В ходе режима выполнения системы 100 рамановский анализатор 106 и рамановский зонд 108 используются для сканирования (т.е. генерирования векторов рамановского сканирования для) биофармацевтического процесса в биореакторе 102, и вектор (векторы) рамановского сканирования затем передается (передаются) из рамановского анализатора 106 на компьютер 110. Рамановский анализатор 106 и рамановский зонд 108 могут предоставлять векторы сканирования для поддержки предсказаний (выполняемых приложением 130 предсказателя JITL) в соответствии с предварительно определенным планом периодов отслеживания, как, например, один раз в минуту или один раз в час и т.д. Альтернативно предсказания могут выполняться через неравномерные промежутки (например, в ответ на определенный инициирующий фактор на основе процесса, такой как изменение в измеренном уровне рН и/или температуре), таким образом каждый период отслеживания имеет переменную или неопределенную длительность. В зависимости от варианта осуществления рамановский анализатор 106 может отправлять на компьютер 110 только один вектор сканирования за один период отслеживания или несколько векторов сканирования на компьютер 110 за один период отслеживания, в зависимости от того, сколько векторов сканирования локальная модель 132 принимает в качестве элемента входных данных для одного предсказания. Например, несколько векторов сканирования могут повышать точность предсказания локальной модели 132.
Блок 140 запроса приложения 130 предсказателя JITL использует вектор (векторы) сканирования, принятые для одного периода отслеживания, с целью генерирования точки запроса, которая будет использоваться для запроса базы 136 данных наблюдений. В некоторых вариантах осуществления точка запроса (т.е. данные, задающие точку запроса) содержит только данные, представляющие вектор (векторы) рамановского сканирования, принятый (принятые) из рамановского анализатора 106 (например, строки интенсивностей/частот, которые содержит каждый вектор сканирования). В других вариантах осуществления точка запроса также содержит информацию одного или нескольких других типов. Например, точка запроса может также содержать данные, представляющие рабочие условия, связанные с процессом (например, заданное значение концентрации метаболита в системе управления или длина волны и/или интенсивность лазерного излучения, связанная с рамановским анализатором 106 или рамановским зондом 108, и т.д.), данные, представляющие профиль питательной среды для питательной среды биофармацевтического процесса (например, тип текучей среды, типы или концентрации питательных веществ, уровень рН и т.д.) и/или другие данные (например, индикаторы клеточных линий, белков или метаболитов, связанных с биофармацевтическим процессом).
В целом точка запроса может содержать данные, представляющие те же векторы, параметры и/или классификации, которые локальная модель 132 использует в качестве входных данных (т.е. в качестве набора признаков локальной модели 132). Использование для набора признаков нескольких разных типов данных может повышать точность предсказаний аналитических измерений, выполняемых локальной
- 6 043314 моделью 132. Однако, поскольку в целом требуется, чтобы каждый набор данных наблюдений в базе 136 данных наблюдений содержал одни и те же векторы, параметры и/или характеристики в качестве набора признаков, может являться предпочтительным ограничение точки запроса, и включение в набор признаков/входные данные локальной модели 132 только одного или нескольких векторов рамановского сканирования. Это может предоставлять различные преимущества, такие как возможность сбора большего количества информации для хранения в базе 136 данных наблюдений и/или упрощение сбора этой информации. Например, если используются только векторы рамановского сканирования, наборы данных наблюдений могут быть включены в базу 136 данных наблюдений, даже если о процессах, клеточных линиях, белках, метаболитах, рабочих условиях и/или профилях питательной среды, которые существовали на момент сбора наборов данных, известно мало или ничего не известно.
Блок 140 запроса затем запрашивает базу 136 данных наблюдений с использованием сгенерированной точки запроса. В примерном варианте осуществления, представленном на фиг. 1, блок 140 запроса выполняет запрос, обеспечивая передачу сетевым интерфейсом 122 точки запроса (например, в сообщении запроса) на сервер 112 базы данных через сеть 114, что, в свою очередь, обеспечивает извлечение сервером 112 базы данных соответствующих данных из базы 136 данных наблюдений. Однако в вариантах осуществления, где база 136 данных наблюдений альтернативно включена в компьютер 110 (или в запоминающее устройство, соединенное с ним с возможностью связи), блок 140 запроса может альтернативно запрашивать базу 136 данных наблюдений более непосредственно. Для простоты объяснения остальное описание фиг. 1 будет предполагать, что база 136 данных наблюдений соединена с сервером 112 базы данных, как изображено на фиг. 1. Однако специалисту в данной области техники будет легко понятно, как могут отличаться каналы связи, если база 136 данных наблюдений альтернативно расположена локально по отношению к компьютеру 110 или в другом подходящем местоположении в архитектуре системы.
После приема точки запроса сервер 112 базы данных использует точку запроса для выбора из базы 136 данных наблюдений релевантных наборов данных наблюдений, которые будут полезны в качестве обучающих данных для локальной модели 132. Для идентификации того, какие наборы данных наблюдений являются релевантными, сервер 112 базы данных может применять любые подходящие критерии релевантности, в зависимости от варианта осуществления. В одном варианте осуществления, например, точка запроса содержит один вектор рамановского сканирования, и сервер 112 базы данных определяет, является ли данный набор данных наблюдений релевантным, путем вычисления евклидова расстояния между вектором рамановского сканирования этого набора данных наблюдений и вектором рамановского сканирования точки запроса. Если евклидово расстояние находится ниже некоторого предварительно определенного порогового значения (или ниже переменного порогового значения, такого как пороговое значение, вычисленное на основе среднего евклидова расстояния между вектором сканирования точки запроса и векторами сканирования всех наборов данных наблюдений и т.д.), набор данных наблюдений идентифицирован как релевантный набор данных наблюдений. Специалисту в данной области техники будет понятно, каким образом можно легко распространить подход на варианты осуществления, в которых точка запроса (и каждый набор данных наблюдений) содержит несколько векторов рамановского сканирования. В некоторых ситуациях использование евклидова расстояния для выбора релевантных наборов данных наблюдений может являться субоптимальной методикой. Однако, если локальная модель 132 представляет собой модель на основе гауссовского процесса (как обсуждено ниже), использование евклидова расстояния в качестве критерия релевантности может являться особенно преимущественным. Причиной этого является то, что модели на основе гауссовского процесса с радиальными базисными функциями или квадратичными экспоненциальными ядрами сами основаны на евклидовом расстоянии. Тем не менее, в других вариантах осуществления могут применяться другие критерии релевантности (например, критерии на основе углов или на основе коэффициентов корреляции и т.д.). Понятно, что в вариантах осуществления, где локальная модель 132 также допускает другую информацию в качестве элемента входных данных/набора признаков (например, рабочие условия, профиль питательной среды, данные процесса, информацию о клеточных линиях, информацию о белках и/или информацию о метаболитах и т.д.), для идентификации релевантных наборов данных наблюдений могут использоваться более сложные методики. В некоторых вариантах осуществления сервер 112 базы данных выбирает только предварительно определенное количество релевантных наборов данных наблюдений в ответ на один запрос или выбирает не больше некоторого максимально допустимого количества релевантных наборов данных наблюдений с целью обеспечения извлечения лишь относительно небольшого поднабора из всех наборов данных в базе 136 данных наблюдений. Однако в других вариантах осуществления сервер 112 базы данных может выбирать любое количество релевантных наборов данных наблюдений до тех пор, пока для каждого такого набора данных наблюдений удовлетворяются критерии релевантности.
В некоторых вариантах осуществления, как будет более подробно описано ниже (например, со ссылкой на фиг. 5 и 6), релевантные наборы данных наблюдений выбираются не только на основе релевантности точке запроса в пространственном смысле (например, подобия векторов рамановского сканирования), но также на основе релевантности во временном смысле (например, того, какие наборы дан- 7 043314 ных являются самыми недавними, независимо от пространственного подобия). В этих методиках может быть более преимущественно задействован тот факт, что более недавние аналитические измерения могут предоставлять полезную информацию, даже если эти недавние измерения соответствуют другому заданному значению, и т.д.
После идентификации релевантных наборов данных наблюдений (каждый из которых может соответствовать или может не соответствовать таким же условиям процесса, как у биофармацевтического процесса в биореакторе 102, отслеживание которого выполняется в настоящий момент) сервер 112 базы данных извлекает эти наборы данных (например, векторы рамановского сканирования и соответствующее аналитическое измерение (измерения)) и передает извлеченные наборы данных на компьютер 110 через сеть 114. Блок 140 запроса затем может передавать релевантные наборы данных на генератор 142 локальной модели, и генератор 142 локальной модели использует релевантные наборы данных в качестве обучающих данных для калибровки локальной модели 132. То есть генератор 142 локальной модели использует вектор (векторы) рамановского сканирования (и, возможно, другие данные), связанный с каждым набором данных наблюдений, в качестве набора признаков и использует аналитическое измерение (измерения), связанное с тем же набором данных наблюдений, в качестве метки для этого набора признаков.
В некоторых вариантах осуществления, как указано выше, генератор 142 локальной модели строит модель на основе гауссовского процесса с целью эффективного улавливания сложной нелинейной динамики процесса и быстрой адаптации практически к любым изменениям в процессе. В отличие от моделей PLS и PCR, в моделях на основе гауссовского процесса используются непараметрические методы, и они являются намного более приспособленными к улавливанию сложных нелинейных корреляций между векторами рамановского сканирования и аналитическими измерениями даже при использовании весьма ограниченного количества обучающих выборок. Это может являться особенно важным в сценариях, где новые продукты или процессы соответствуют лишь ограниченному количеству наборов данных в базе 136 данных наблюдений. В таких сценариях модель на основе гауссовского процесса в целом способна извлекать наибольшее количество информации из таких ограниченных наборов данных в сочетании с другими релевантными наборами данных, которые сервер 112 базы данных извлекает из базы 136 данных наблюдений. Однако в других вариантах осуществления генератор 142 локальной модели может альтернативно строить модель машинного обучения любого другого подходящего типа (например, рекурсивную нейронную сеть, сверточную нейронную сеть и т.д.) до тех пор, пока время обучения не превысит минимальную желаемую длительность периода отслеживания. Генератор 142 локальной модели может также строить локальную модель 132 так, что локальная модель 132 может выводить границы правдоподобия или любой другой подходящий индикатор достоверности предсказания (например, степень достоверности). По меньшей мере по сравнению с моделями PLS и PCR, модели на основе гауссовского процесса особенно хорошо подходят для представления границ правдоподобия по предсказаниям аналитических измерений. Хотя были описаны различные преимущества моделей на основе гауссовского процесса перед моделями PLS и PCR, понятно, что в некоторых вариантах осуществления генератор 142 локальной модели может использовать методы моделирования PLS или PCR для построения локальной модели 132.
Генератор 142 локальной модели может строить локальную модель 132 оперативным образом в реальном времени так, что блок 144 предсказания может затем использовать обученную локальную модель 132 для предсказания одного или нескольких аналитических измерений биофармацевтического процесса путем обработки того же вектора (векторов) рамановского сканирования, который был использован блоком 140 запроса для генерирования точки запроса. Более того, в некоторых вариантах осуществления блок 140 запроса может выполнять новый запрос и генератор 142 локальной модели может генерировать новую версию локальной модели 132 каждый раз, когда рамановский анализатор 106 предоставляет на компьютер 110 новый вектор рамановского сканирования (или новый набор векторов рамановского сканирования). В других вариантах осуществления, однако, блок 140 запроса выполняет новый запрос (и генератор 142 локальной модели генерирует новую версию локальной модели 132) на менее частой основе, как, например, один раз каждые 10 предсказаний/периодов отслеживания или один раз каждые 100 предсказаний/периодов отслеживания и т.д.
Блок 146 обслуживания базы данных также может обеспечивать периодический сбор аналитическим прибором (приборами) 104 данных одного или нескольких аналитических измерений с частотой, которая значительно меньше периода отслеживания рамановского анализатора 106 (например, лишь один или два раза в день и т.д.). Измерение (измерения) аналитическим прибором (приборами) 104 может являться разрушающим в некоторых вариантах осуществления и требующим полного удаления пробы из процесса в биореакторе 102. В момент или приблизительно в момент, в который блок 146 обслуживания базы данных обеспечивает сбор и предоставление аналитическим прибором (приборами) 104 данных фактического аналитического измерения (измерений), блок 146 обслуживания базы данных также может обеспечивать предоставление рамановским анализатором 106 одного или нескольких векторов рамановского сканирования. Блок 146 обслуживания базы данных затем может обеспечивать отправку сетевым интерфейсом 122 вектора (векторов) рамановского сканирования и соответствующего фактиче- 8 043314 ского аналитического измерения (измерений) на сервер 112 базы данных через сеть 114 для хранения в качестве нового набора данных наблюдений в базе 136 данных наблюдений. База 132 данных наблюдений может обновляться в соответствии с любым подходящим расчетным временем, которое может изменяться в зависимости от варианта осуществления. Если аналитический прибор (приборы) 104 выводит (выводят) фактические аналитические измерения через несколько секунд после измерения пробы, например, база 132 данных наблюдений может обновляться новыми измерениями почти сразу же после взятия проб. В некоторых других вариантах осуществления фактические аналитические измерения могут происходить в течение минут, часов или даже дней обработки одним или несколькими аналитическими приборами 104, и в этом случае база 132 данных наблюдений не обновляется до тех пор, пока обработка не будет завершена. В еще одних вариантах осуществления новые наборы данных наблюдений могут добавляться в базу 132 данных наблюдений постепенно по мере того, как разные аналитические приборы 104 завершают их соответствующие измерения.
Таким образом, база 136 данных наблюдений предоставляет динамическую библиотеку прошлых наблюдений, к которой генератор 142 локальной модели может обращаться для обучения модели. В некоторых вариантах осуществления новейшее аналитическое измерение (измерения) всегда добавляется (добавляются) в базу 136 данных наблюдений, и генератор 142 локальной модели всегда может использовать самый недавний набор (наборы) данных наблюдений в базе 136 данных наблюдений при калибровке локальной модели 132. Это может обеспечивать возможность декодирования локальной моделью 132 информации о процессе из недавнего прошлого и быстро адаптироваться к новым условиям или быстро адаптироваться к условиям нового процесса, не имеющего истории. Кроме того, и калибровка, и обслуживание локальной модели 132 могут быть автоматизированы. В некоторых вариантах осуществления возможность адаптации локальной модели 132 дополнительно увеличивается, например, как обсуждено ниже в связи с методиками A-JITL и ST-JITL.
В некоторых вариантах осуществления блок 146 обслуживания базы данных может обеспечивать сбор и предоставление аналитическим прибором (приборами) 104 данных фактического аналитического измерения (измерений) на какой-либо другой временной основе или условии, таком как, например, текущее качество модели. Например, если локальная модель 132 выводит интервал правдоподобия (например, диапазон значений по предсказанному значению, в пределах которого имеется 95% вероятность или достоверность того, что в него попадет фактическое/измеренное значение) или какой-либо другой индикатор достоверности наряду с предсказанием (например, если локальная модель 132 представляет собой модель на основе гауссовского процесса), и если индикатор достоверности показывает особенно ненадежное предсказание (например, если интервал/диапазон превышает пороговое значение ширины/диапазона, и т.д.), то блок 146 обслуживания базы данных может инициировать сбор данных одного или нескольких фактических аналитических измерений. В качестве более конкретного примера блок 146 обслуживания базы данных может инициировать сбор данных аналитического измерения (измерений) в ответ на определение превышения интервалом с 95% правдоподобием предварительно заданного порогового значения. Оптимальное планирование аналитических измерений более подробно обсуждено ниже. После выполнения измерения (измерений) блок 146 обслуживания базы данных может обеспечивать генерирование рамановским анализатором 106 одного или нескольких векторов рамановского сканирования и обеспечивать предоставление сетевым интерфейсом 122 фактического аналитического измерения (измерений) и соответствующего вектора (векторов) рамановского сканирования на сервер 112 базы данных для хранения в качестве нового набора данных наблюдений в базе 132 данных наблюдений (например, способом, обсужденным выше). Генератор 142 локальной модели может затем использовать этот новейший набор данных наблюдений, если это необходимо (например, в зависимости от релевантности текущему запросу, или от того, всегда ли в варианте осуществления используется самый недавний набор данных наблюдений), при калибровке локальной модели 132.
Некоторые или все вышеописанные процессы могут повторяться несколько раз в течение времени выполнения биофармацевтического процесса в биореакторе с целью непрерывного отслеживания процесса с использованием локальной модели, для которой как калибровка, так и обслуживание являются полностью автоматизированными и выполняемыми в реальном времени. Аналитическое измерение (измерения) может предсказываться с разными целями в зависимости от варианта осуществления и/или сценария. Например, некоторые параметры могут быть отслежены (т.е. предсказаны) как часть процесса управления качеством, для того чтобы убедиться в том, что процесс по-прежнему соответствует действующим нормам. В качестве другого примера один или несколько параметров могут отслеживаться или предсказываться для обеспечения обратной связи в системе управления в замкнутом контуре. Например, на фиг. 2 изображена система 150, подобная системе 100, но в которой предпринята попытка управления концентрацией глюкозы в биофармацевтическом процессе (т.е. попытка обеспечить совпадение предсказанной концентрации глюкозы с требуемым заданным значением в пределах некоторого допустимого отклонения). Понятно, что в других вариантах осуществления система 150 может альтернативно (или дополнительно) использоваться для управления параметрами процесса, отличными от уровня глюкозы, или для управления уровнем глюкозы на основе предсказаний одного или нескольких других параметров процесса (например, уровня лактата). На фиг. 2 для указания компонентов, соответствующих компонен- 9 043314 там, представленным на фиг. 1, используются такие же ссылочные позиции. Например, приложение 130 предсказателя JITL, представленное на фиг. 2, может являться таким же, как приложение 130 предсказателя JITL, представленное на фиг. 1 (при этом различные блоки приложения 130 предсказателя JITL для ясности не показаны на фиг. 2).
Как видно на фиг. 2, в системе 150 в запоминающем устройстве 128 также хранится блок 152 управления. Блок 152 управления выполнен с возможностью управления насосом 154 глюкозы, т.е. с возможностью обеспечения выборочного введения насосом 154 глюкозы дополнительной глюкозы в биофармацевтический процесс в биореакторе 102. Блок 152 управления может содержать программные команды, исполняемые, например, блоком 120 обработки данных, и/или соответствующим программноаппаратным обеспечением, и/или аппаратным обеспечением. В некоторых вариантах осуществления в блоке 152 управления реализуется методика управления по модели предсказания (МРС) с использованием концентраций глюкозы в качестве входных данных в архитектуру с замкнутым контуром. В вариантах осуществления, где локальная модель 132 предоставляет границы правдоподобия или другие индикаторы достоверности вместе с каждым предсказанием (например, в некоторых вариантах осуществления, где локальная модель 132 представляет собой модель на основе гауссовского процесса), блок 152 управления также может принимать индикаторы достоверности в качестве входных данных. Например, блок 152 управления может генерировать только управляющие команды для насоса 154 глюкозы на основе предсказаний концентрации глюкозы, имеющих достаточно высокий индикатор достоверности (например, только на основе предсказаний, связанных с границами правдоподобия, которые не превышают некоторую процентную долю или абсолютный диапазон измерений, или только на основе предсказаний, связанных со степенями достоверности выше некоторого минимального порогового значения степени, и т.д.), или может увеличивать и/или уменьшать весовой коэффициент данного предсказания на основе его индикатора достоверности и т.д.
На фиг. 3 изображены экспериментальные результаты 200 для одной примерной реализации, в которой для калибровки и обслуживания локальной модели на основе гауссовского процесса используются методики JITL. На графике, представленном на фиг. 3, горизонтальная штриховая линия 202 представляет заданное значение концентрации глюкозы, кружки 204 представляют фактические измерения концентрации глюкозы (например, выполненные аналитическим прибором, аналогичным одному из аналитических приборов 104, представленных на фиг. 1), сплошная линия 206 представляет предсказанные измерения концентрации глюкозы (например, предсказанные моделью, аналогичной локальной модели 132), а затененные области 208 представляют границы правдоподобия (для правдоподобия 95%), связанные с предсказанными измерениями. Как видно на фиг. 3, для заданного значения концентрации глюкозы, равного 3 граммам на литр (г/л), предсказания, выполненные с использованием методики JITL, в целом близко совпадают с аналитическими измерениями.
Процесс проведения запроса и построения/калибровки локальной модели 132 ниже будет более подробно описан математически со ссылкой на один конкретный вариант осуществления JITL, в котором локальная модель 132 представляет собой модель на основе гауссовского процесса, в которой в качестве элемента входных данных используется один вектор рамановского сканирования, и которая предсказывает одно аналитическое измерение.
Пусть D “ (или D={bY в сокращенной записи) обозначает набор упорядоченных пар входных и выходных данных, так что а = {ака2 -.а/) - входные данные, и - выходные данные. Кроме того, предполагается, что а/ е - щ-мерный входной вектор, и Е - скалярный вывод. Физически а/ Е можно представить себе как спектроскопическое измерение (например, NIR или рамановское), а bj - как аналитическое измерение для представляющего интерес состояния (например, концентрации глюкозы или лактата). Для данного набора D обучающих данных целью задачи калибровки спектроскопической модели является определение взаимосвязи между входными данными и выходными данными для модели в форме bj = /(ay) + €j Уравнение (1) где f е - спектроскопическая модель и σ2) - нормально распределенный шум измерения с нулевым средним, дисперсия σ2 которого неизвестна. Стандартной практикой при калибровке моделей является предположение того, что f(·) является линейной, а затем использование для обучения модели таких методов, как PLS. Вместо приписывания f(·) какой-либо ограничивающей или фиксированной формы здесь предполагается, что f( ·) представляет собой скрытую функцию, моделируемую как гауссовский процесс так, что представляет случайную выборку из гауссовского процесса, имеющего среднее Ρθ(*) е и ковариационную функцию Е которые обычно задаются следующим образом:
- 10 043314 (a) = [деСаА ,Де(а2) ...Ae(aj)]T, Уравнение (2а) ке(а; а) = ^Аа) /се(Я1,а2) · /оДД ^(^¾) ЫагАг) ·” ke(a2,aj) . Уравнение (2Ь) к^.а-^ ke(a]ta2) - к^ара^.
Кроме того, θ е ΙΚηθ обозначает гиперпараметры для модели на основе гауссовского процесса. Гауссовский процесс представляет собой набор случайных переменных, любое конечное количество которых имеет совместное гауссовское распределение, так что для набора конечных входных данных а ξξ можно записать:
p(f|a) = ^(дe(a)/ke(a, а)) Уравнение (3)
Тогда задача калибровки спектроскопической модели сводится к обучению скрытой функции / G гауссовского процесса с использованием D. Для удобства с математической точки зрения и общей лаконичности здесь предполагается, что μθ = А; однако это не обязательно имеет место в общем случае и результаты здесь можно легко распространить на модели при * θηα. Роль ковариационной функции в гауссовских процессах аналогична роли ядер, используемых в машинах опорных векторов (SVM). Общеупотребительной ковариационной функцией является гауссовское ядро, и она имеет вид:
/ / ΠΊ ί;Ά2\ ^(^,а7) = βθχρί-^ΣΪι где - ковариация между парой элементов входных данных, (м). Гауссовское ядро koi^aj) присваивает более высокий коэффициент корреляции, если входные данные в наборе Д3/} близки друг к другу, что задается евклидовым расстоянием в уравнении (4).
Для выбранного гауссовского ядра уравнение (4) представляет собой положительно определенную симметричную матрицу, так что ke(·/) е $++J. В уравнении (4) набор $ = {βΆΑι } представляет собой набор гиперпараметров.
Физически ai G представляет собой параметр линейных размеров и β Е - параметр дисперсии сигнала. Выбор гауссовской ковариационной функции в уравнении (4) соответствует предыдущему предположению о том, что f является гладкой и непрерывной. Таким образом, путем варьирования гиперпараметров ковариационной функции можно варьировать гладкость f. Здесь предполагаются гауссовские процессы с гауссовской ковариационной функцией. Однако это не обязательно имеет место в общем случае.
Для данного D целью является обучение гиперпараметрам гауссовского процесса, включая любые другие неизвестные параметры модели. Для гауссовского процесса в уравнении (1) набором неизвестных параметров является γ = {θ,σ2}Ε гсц\ Этап обучения параметров может выполняться путем максимизации функции предельного правдоподобия (или доказательства) в пространстве неизвестных параметров. Например, для гауссовского процесса в уравнении (1) функция предельного правдоподобия имеет следующий вид:
p(b|a) = f р(b|f, a)p(f |a)df , Уравнение (5) где ρ№) - функция предельного правдоподобия, а) - функция правдоподобия, имеющая вид: p(b|f, а) = ^(f(a),σ2IJ х j) ,Уравнение (6) и - предыдущая функция плотности, данная в уравнении (3). Для гауссовского правдоподобия и предыдущих плотностей в уравнениях (6) и (3), соответственно, интеграл в уравнении (5) имеет решение в замкнутой форме, так что функция предельного правдоподобия имеет вид:
p(b|a) = ^(0JЛke(aлa) + σ2Ι|Χ j) .Уравнение (7)
Теперь для данного уравнения (7) У = №,(т2} £ Г - можно оценить, решив следующую задачу оптимизации:
у* £ argmaxlogp(b|a), Уравнение (8) где У* G Г - оптимальная оценка. Из уравнения (7) имеем logp(b|a) = -|b-Tky-1b —“log |ky| - |log2n, Уравнение (9) где - ke(a|a) + ^Ijxj. Для решения задачи оптимизации в уравнении (8) частные производные в уравнении (9) определяют относительно γ, так что для всех r=1, 2, ..., ηγ,
A-logp(bla) = ^b - |Tr [ky1^], Уравнение (10a) °Yr L °Yr 1 L OyrJ = I Tr ((αατ — ky1 УЙ > Уравнение (10b) _ 2 \ °Yr / где a = k y b. Для данной функции предельного правдоподобия в уравнении (7) и ее производных в уравнении (10b) при решении уравнения (8) можно использовать метод градиентного спуска. Поскольку уравнение (8) в целом представляет собой задачу невыпуклой оптимизации с множественными локальными оптимумами, при решении этой задачи оптимизации необходимо проявлять осмотрительность. Здесь предполагается, что γ* известна и может быть вычислена путем решения уравнения (8). Кроме того, для уменьшения сложности записи здесь будет предполагаться, что γ - оптимальная оценка γ*, если не
- 11 043314 указано иное.
После обучения спектроскопической калибровочной модели на основе гауссовского процесса в уравнении (1) ее можно использовать для применений при предсказаниях в реальном времени. Как и ранее, пусть D будет набором обучающих данных, используемым для обучения модели на основе гауссовского процесса, и пусть а* г будет новым испытательный спектроскопический сигнал. Тогда целью является предсказание элемента выходных данных b* £ I, соответствующего испытательному элементу входных данных а*. Первым этапом при вычислении b* является построение совместной плотности распределения всего из обучающего выходного набора b и испытательного элемента выходных данных гауссовского процесса, Ла), которые обусловлены в отношении обучающего входного набора а и испытательного элемента входных данных а*. Указанная совместная плотность распределения имеет следующий вид:
Р (Б|Ж)) |а,а·) = (о, У]) , Уравнение (11) \ । / \ кк^да ,aj KgL >а )л/ где kr = кАала) + σ2Ιΐχΐ. Для данного уравнения (11) в байесовской инфраструктуре элемент выходных данных гауссовского процесса, Ла), вычисляется путем построения распределения по всем выходным данным гауссовского процесса. Иначе говоря, отыскивается апостериорное распределение для элемента выходных данных гауссовского процесса, /(а). Разумеется, апостериорное распределение по Ла*) требует включения только тех функций, которые согласуются с обучающим набором D. При вероятностных установках апостериорное распределение по Ла) можно вычислить путем согласования совместного распределения в уравнении (11) в отношении обучающего набора D, что дает ρ(/·(3*)|ϊ),3*) = Ж(рд,кд) .Уравнение (12) где Р(/(а*)1Да*) - апостериорное распределение для элемента выходных данных гауссовского процесса, и = ш[(/(а*) IА а*)] имеет вид
Де = ке(а*, а)[ку(а, а)] гЬ .Уравнение (13) и = V[(/(a*)|!D,a*)] имеет вид к*в = кд^,а*) - ке(а*.а)[ку(а.а)] 1к0(а,а*). Уравнение (14)
Для данного уравнения (12) предсказывающее апостериорное распределение для элемента выходных данных b* можно вычислить следующим образом:
p(b*\D, а*) = ^(μg, кд + σ2) . Уравнение (15) где ^0 и даны, соответственно, в уравнениях (13) и (14). Для одного испытательного элемента входных данных а* Е !&Па предсказание на основе гауссовского процесса в уравнении (15) дает распределение выходных данных, имеющих ненулевую вероятность реализации. В приложениях в реальном времени, таких как управление и отслеживание, с большей вероятностью представляет интерес точечная оценка, а не все распределение. Точечную оценку можно вычислить с использованием подхода на основе теории принятия решений. Можно показать, что для гауссовского апостериорного распределения в уравнении (15) средняя функция минимизирует и ожидаемую безусловную функцию, и квадратичную функцию риска, при этом = представляет собой наиболее вероятный элемент выходных данных для элемента входных данных а*. Кроме того, для выбора b = в качестве предсказания интервал с приблизительно 95% правдоподобием имеет вид:
bL = (μρ — 2^кд + σ2)) < b < рд + 2(^кд + σ2) = bu . Уравнение (16)
Интервал в уравнении (16) можно использовать для количественной оценки качества предсказаний на основе гауссовского процесса и/или выполнения управления для предсказания по модели на основе гауссовского процесса или других робастных стратегий отслеживания.
Обращаясь теперь к выбору релевантных выборок (здесь - наборов данных наблюдений) в ответ на запрос, задача заключается в выборе для данной точки запроса, а* Е ШЛа, и центральной базы дан ных/библиотеки - Ε^Αίι, содержащей L Е Ы пары элементов входных данных и выходных данных (наборы данных наблюдений), локального обучающего набора - аД=1 в момент времени, t е N со держащий выборки D Е И, где D<<L. Предполагается, что £ является динамической и может содержать разные элементы в ходе производственного цикла. Существует множество способов построения Ί) исходя из £. В целях данного анализа Ί) выбирают на основе евклидова расстояния между спектрами (например, векторами рамановского сканирования) в наборе Д И хотя критерии подобия на евклидовой основе в инфраструктуре JITL, как сообщалось, в некоторых ситуациях являются субоптимальными, они могут представлять собой предпочтительный выбор при использовании модели на основе гауссовского процесса. Причиной этого является то, что модель на основе гауссовского процесса сама основана на евклидовом расстоянии. Гауссовское ядро присваивает более высокий коэффициент корреляции только в том случае, если входные данные в наборе iao aj} близки друг к другу. Поэтому путем создания локального обучающего набора Ί), в котором все входные данные являются близкими к точке запроса, можно обеспечить улавливание локальной моделью на основе гауссовского максимальной корреляции для предсказания элемента выходных данных в точке запроса.
- 12 043314
Примерный алгоритм, формально описывающий способ создания локального обучающего набора Ί) исходя из £, обучения модели на основе гауссовского процесса с использованием этого обучающего набора и выполнения предсказания с использованием обученной модели, представлен ниже в алгоритме 1
1. Input: Library L = {(а^, Ь^}|=1, query point а*
2. Output: Prediction Sand uncertainty (bL,bu)
3. for t = Ito Ldo
4. Set I <- sample_index(L)and D <- {0}
5. for d = 1 to D do
6. k* e argmaxie/ exp(—1|a£ - a*||)
7. D <- D U { akt,hkJ
8. 1 /\{i)
9. end for
10. Обучить модель на основе гауссовского процесса по уравнению (1) с использованием ©и оценки у*
11. Вычислить йи (bL, bu)c использованием уравнений (13) и (16)
12. end for
Алгоритм 1
Обратимся теперь к фиг. 4, на которой показан примерный поток 250 данных, который может иметь место при анализе биофармацевтического процесса с использованием методики JITL, описанной в данном документе. Поток 250 данных может иметь место, например, в системе 100, представленной на фиг. 1, или системе 150, представленной на фиг. 2. В потоке 250 данных спектральные данные 252 предоставляются спектрометром/зондом. Например, спектральные данные 252 могут содержать вектор рамановского сканирования, сгенерированный рамановским анализатором 106, или вектор сканирования NIR, и т.д. Точка 254 запроса генерируется (например, блоком 140 запроса) на основе спектральных данных 252 и используется, например, для запроса глобального набора 256 данных, который может содержать все наборы данных наблюдений в базе 136 данных наблюдений. На основе запроса в глобальном наборе 256 данных идентифицируется локальный набор 258 данных. Локальный набор 258 данных может быть выбран, например, на основе критериев релевантности (например, евклидова расстояния), как описано выше.
Локальный набор 258 данных затем используется в качестве обучающих данных (например, генератором 142 локальной модели) для калибровки локальной модели 260 (например, локальной модели 132). Локальная модель 132 затем используется (например, блоком 144 предсказания) для предсказания элемента 262 выходных данных (аналитического измерения), такого как концентрация компонентов питательной среды, состояние питательной среды (например, глюкоза, лактат, глутамат, глутамин, аммиак, аминокислоты, Na+, K+, а также другие питательные вещества или метаболиты, рН, pCO2, pO2, температура, осмоляльность и т.д.), плотность жизнеспособных клеток, титр, критические показатели качества, состояние клеток и т.д., а также возможно вывода границ правдоподобия или другого подходящего индикатора достоверности.
Несмотря на то, что локальная модель на основе JITL (например, такая как алгоритм 1 и поток 250 данных) предоставляет робастную нелинейную инфраструктуру моделирования, такой подход не имеет внутреннего механизма для адаптации к зависящим от времени изменениям в процессе. Для устранения этого недостатка в некоторых вариантах осуществления может использоваться стратегия адаптивного JITL (A-JITL). Как отмечено выше, новые выборки могут включаться в £ по мере того, как эти выборки становятся доступными. В таких вариантах осуществления (т.е., где £ является динамической) £ можно обозначить как Р В одном таком варианте осуществления реализован способ скользящего временного окна, в котором вновь полученная выборка добавляется в Р а самая старая выборка удаляется из А. Исключение самой старой выборки может являться преимущественным, поскольку в адаптивных стратегиях сохранение размера может являться критичным для обеспечения вычислительной разрешимости инфраструктуры JITL в целом. Однако одной основной проблемой, связанной с данным подходом, является то, что простое исключение старых выборок может приводить к потере информации, так как старые выборки могут содержать релевантную информацию.
Во избежание такой потери информации в одном варианте осуществления новые выборки добавляются в без удаления каких-либо старых/существующих выборок. Таким образом, центральная база данных расширяется на возрастающее количество выборок по мере того, как становятся доступными новые аналитические измерения. В применении процессов культивирования клеток расширение базы данных может не приводить к каким-либо значительным вычислительным проблемам вследствие того, что такие процессы обычно эксплуатируются как периодические процессы с временем цикла от двух до трех недель. Это естественным образом ограничивает количество новых выборок, которые необходимо
- 13 043314 включать в It. Кроме того, в ходе процесса культивирования клеток обычно выборке подвергается лишь ограниченное количество аналитических измерений (в отличие, например, от химической промышленности, в которой аналитические измерения подвергаются выборке часто). Поэтому обычно будет иметь место лишь умеренное увеличение размера базы данных It без какой-либо значительной нагрузки на вычислительную устойчивость инфраструктуры JITL в целом.
Несмотря на то, что включение новых выборок в It важно для непрерывной адаптации алгоритма 1 (см. выше), успех данного подхода полагается на выбор указанных новых выборок в локальной базе данных D для калибровки локальной модели. Алгоритм 1, в котором выборки для D из £ выбираются на основе евклидова расстояния (например, строка 6 алгоритма 1), может называться подходом релевантности в пространстве, так как он отдает предпочтение только тем выборкам, которые являются релевантными (близкими) в пространстве. Если новые выборки не являются близкими к запрашиваемой выборке, что, вероятно, имеет место в случае, когда происходит резкое изменение заданного значения (или другое резкое изменение условий процесса), алгоритм 1 может быть неспособен включить эти выборки в Ί). С другой стороны, рекурсивные методы (например, регуляризованный метод частных наименьших квадратов (RLPS), рекурсивный метод наименьших квадратов (RLS) и рекурсивный метод N-ходовых частных наименьших квадратов (RNPLS)) являются релевантными по времени, так как они отдают предпочтение новейшим измерениям независимо от релевантности в пространстве. Обновление локальной модели с использованием новейших выборок может обеспечить возможность успешной адаптации рекурсивных методов к текущим условиям процесса.
Один такой вариант осуществления, называемый в данном документе адаптивным JITL (A-JITL), отдает предпочтение выборкам, которые являются релевантными как по времени, так и в пространстве. Если 5 = {{ai Х Htiпредставляет набор из L исторических измерений, доступных перед началом те* кущего эксперимента (т.е. эксперимента/процесса, в котором имеет место запрос а), и если д+= {|а+ь;)}у=1 представляет собой набор из n измерений, доступных из текущего эксперимента, выборки могут быть распределены следующим образом:
It = , Уравнение (17а)
X = {{аД,Ь7 }}п=п_к+1, Уравнение (17b) где It представляет центральную базу данных, и X представляет набор последних (самых недавних) k измерений. В некоторых вариантах осуществления % содержит последние k выборок из текущего эксперимента/процесса, и It содержит выборки из предыдущих экспериментов/процессов, а также (потенциально) выборки из текущего эксперимента/процесса, старше последних k выборок. Приведенные выше уравнения (17а) и (17b) заданы для данного запроса а*. Для запроса, поступающего в другой момент времени, наборы данных It и % могут содержать разные выборки в зависимости от количества измерений, доступных в этот момент времени. Например, как только становится доступной выборка (aAi,b++iMan-/c+i,b+_k+i) удаляется из X, а (an+i<bn+i) включается в X. Исключенная выборка (an-k+i»bn_fc+i) затем включается в It для предотвращения какой-либо потери информации. Обновление X новейшими измерениями обеспечивает то, что X отражает по меньшей мере некоторые текущие условия.
Для данных Аи X целью является выбор ТК Как указано выше, для A-JITL в Т) включаются выборки, релевантные как по времени, так и в пространстве. Если предположить, что Т) можно разложить как
D = U Ί)τ, Уравнение (18) где представляют собой наборы, релевантные в пространстве и по времени, соответственно, то целью является выбор ®т. В первую очередь, предполагается, что = °, так что Ί) содержит только уникальные выборки. Для конструирования - к выборок выбирают из It на основе основанной на расстоянии (пространственной) метрики, такой как индекс подобия или s-значение:
Si = 5Ш1(аг, a*) = ехр(—||af - а*||). Уравнение (19)
Уравнение (19) можно использовать, например, в качестве метрики подобия в вышеописанной методике (неадаптивного) JITL. Так, например, из It для включения в можно выбрать D-k выборок с наибольшими s-значениями. Для конструирования ®т, если предполагается, что последние k выборок из текущего эксперимента/процесса релевантны по времени, в некоторых вариантах осуществления может быть задан как равный X. Следует отметить, что, в отличие от s-значений, которые определяют членство выборок в ®$, решение о членстве в принимается на основе времен выборки.
Разумеется, в зависимости от сценария, выборки в могут характеризоваться большими sзначениями. Независимо от s-значения, предполагается, что является релевантным только по времени. Аналогично, является релевантным только в пространстве, поскольку вследствие построения It не обладает релевантностью по времени. Следует отметить, что А11 задают для данного запроса а* выборки в выбирают на основе их s-значений, вычисленных относительно а*, и выборки в выбирают на основе их времен выборки, вычисленных относительно времени выборки а*. Для удобства А11 обобщенно задают следующим образом:
- 14 043314 = {aS' Уравнение (20a)
DT = {аг, bT], Уравнение (20b) где А11 a7 - соответственно релевантные в пространстве и по времени выборки из рамановского спектрометра, и Ь^и Ь7 - соответственно релевантные в пространстве и по времени выборки из аналитического прибора, так что as = [а ...;aD_k]T; ат ξ [aD_fc+1/...,aD]T, Уравнение (21а) bs = [b^ ...,bD_k]T; bT = [bD_k+1,..., b^. Уравнение (21b)
Подстановка уравнений (20а) и (20b) в уравнение (18) дает набор D, обобщенно обозначенный как D ξ {а, Ь}, где 5 = [а5'ат]т, и b ξ [by,bT] . в отличие от обсужденной выше методики (неадаптивного) JITL, в локальной библиотеке/наборе данных Ί) отдается предпочтение выборкам, релевантным в пространстве и по времени.
Для данных и запроса а* можно откалибровать модель на основе гауссовского процесса по уравнению (1) (например, локальную модель 132). Точечную оценку и интервал правдоподобия для а* можно вычислить с использованием, соответственно, уравнении (13) и (16), где к У(а,а)ик0(а ,а) имеют вид
LWs) Ξ К ki?’ + σ4™ · уРавнение <22a> lk# (ar, ayj (аг, aT;j kg(a*,a) = [kg(a*,ay) kg(a*,aT)], Уравнение (22b) где кААа.$·) E ке(аТлаг) E Sk - ковариационные функции, связанные с соответственно, и где kg(a5, ат) е к^к - ковариация между ^т.
Примерный алгоритм, формально описывающий методику A-JITL, представлен ниже в алгоритме 2
1. Input: Library £t = {(а^, Ь^}|=1, query point а*
2. Output: Prediction band uncertainty (bL,bu~)
3. Set 76 {0}
4. for t = Ito Tdo
5. Set I sampleJndex(Lt), Dy {0}, DT {0}
6. for d = 1 to D — set_cardinality(X)do
7. ь E argmaxie/ sim(aj,a*)
8· ®y <- Dy U {ait, bjJ
9. /^/\{Q
10. end for
11. if set_cardinality(76) > lthen
12. DT 76
13. end if
14. D Dy U DT
15. Обучить модель на основе гауссовского процесса по уравнению (1) с использованием Dn оценки у*
16. Вычислить Ьи (bL, bu)c использованием уравнений (13) и (16)
17. if b* is available then
18. if size(76) = к then
19. £t <- £t U select_oldest(76)
20. 76 <- delete_oldest(76)
21. 76 ^76 U {a*, b*}
22. end if
23.76 ^76 U {a*, b*}
24. end if
25. end for
Алгоритм 2
Таким образом, в алгоритме 2 (релевантное в пространстве) JITL скомбинировано с рекурсивным обучением (релевантным по времени). Например, для Ι^τΙ = θ калибровка локальной модели 132 с использованием алгоритма 2 подобна релевантному в пространстве JITL, тогда как для l®sl - 0 калибровка локальной модели 132 с использованием алгоритма 2 подобна рекурсивному обучению. Таким образом, путем подгонки l®slH 1®т1 можно надлежащим образом сбалансировать (не являющееся рекурсивным) JITL и рекурсивное обучение.
Обратимся теперь к фиг. 5, на которой показан примерный поток 300 данных, который может иметь
- 15 043314 место при анализе биофармацевтического процесса с использованием методики A-JITL, описанной в данном документе. Поток 300 данных может иметь место, например, в системе 100, представленной на фиг. 1, или системе 150, представленной на фиг. 2. В потоке 300 данных спектральные данные 302 предоставляются спектрометром/зондом. Например, спектральные данные 302 могут содержать вектор рамановского сканирования, сгенерированный рамановским анализатором 106, или вектор сканирования NIR и т.д. Точка 304 запроса генерируется (например, блоком 140 запроса) на основе спектральных данных 302 и используется, например, для запроса глобального набора 306 данных, который может содержать все наборы данных наблюдений в базе 136 данных наблюдений. Глобальный набор 306 данных логически разделен на последние k элементов 307А (например, все из которых получены из текущего эксперимента/процесса) и на все элементы 307В перед последними k элементами 307А (например, из предыдущих экспериментов/процессов, а также, возможно, текущего эксперимента/процесса). Значение k можно определить на основе номера выборки точки 304 запроса. В рамках данного документа термин номер выборки может в широком смысле относиться к любому индикатору времени или относительного времени, связанного с данной выборкой/наблюдением. Некоторые элементы из элементов 307В добавлены в локальный набор 308 данных на основе пространственного подобия (например, евклидова расстояния) точке 304 запроса, тогда как все элементы 307А могут быть добавлены в локальный набор 308 данных независимо от пространственного подобия. Локальный набор 308 данных можно сгенерировать из элементов 307А и элементов 307В, например, по алгоритму 2.
Локальный набор 308 данных затем используется в качестве обучающих данных (например, генератором 142 локальной модели) для калибровки локальной модели 310 (например, локальной модели 132). Локальная модель 310 затем используется (например, блоком 144 предсказания) для предсказания элемента 312 выходных данных (аналитического измерения), такого как концентрация компонентов питательной среды, состояние питательной среды (например, глюкоза, лактат, глутамат, глутамин, аммиак, аминокислоты, Na+, K+, а также другие питательные вещества или метаболиты, рН, рСО2, рО2, температура, осмоляльность и т.д.), плотность жизнеспособных клеток, титр, критические показатели качества, состояние клеток и т.д., а также, возможно, вывода границ правдоподобия или другого подходящего ин дикатора достоверности.
Если фактическое аналитическое измерение (например, измерение, выполненное таким аналитическим прибором, как один из аналитических приборов 104) является доступным, создается новый элемент 314, который добавляется в глобальный набор 306 данных. Такие измерения могут быть доступны, например, на основе периодической выборки (например, один или два раза в сутки) и/или их можно сделать доступными в ответ на инициирующий фактор с переменным расчетным временем (например, если некоторое количество предсказаний в строке имеет недопустимо широкие границы правдоподобия, и т.д.), как более подробно обсуждено ниже.
И хотя включение в Т) выборок, релевантных в пространстве и по времени, необходимо для непрерывной адаптации обсужденного выше подхода A-JITL, общая степень адаптации, достигаемая A-JITL, зависит от того, насколько эффективно D используется для калибровки локальной модели. Для выборки/точки запроса, а* релевантная по времени выборка обеспечивает удовлетворительную корреляцию между функциями {{Причиной. Причиной этого является то, что для запроса а* как пространственная релевантность (aiAi), так и коэффициент корреляции между (7(a*)'7(ai)) вычисляются на основе евклидового расстояния между (айа*).
Таким образом, для выбора критерия подобия на евклидовой основе в уравнении (19) и ядра на евклидовой основе в уравнении (4) ожидается, что выборки в обеспечивают высокие функциональные корреляции. И наоборот, релевантная по времени выборка {ар£) е может не обеспечивать сильную корреляцию между функциями С^а ^Ά®/)), Причиной этого является то, что, как отмечено выше, выборки в необязательно релевантны в пространстве. Как следствие, коэффициент корреляции между С^а )'/(aj)), приписываемый гауссовским ядром в уравнении (4), будет небольшим, если небольшой является пространственная релевантность (ar0). С точки зрения моделирования, обучение модели на основе гауссовского процесса в уравнении (1) выборками, несущими небольшие коэффициенты корреляции, является нежелательным, так как это ведет к неудовлетворительному качеству модели. Математически это можно продемонстрировать следующим образом.
Для запроса а* и откалиброванной модели на основе гауссовского процесса по алгоритму 2 предсказание на основе модели, Ь, можно вычислить с использованием уравнения (13). Без потери общности, если σ2 = 0 (случай отсутствия шума), уравнение (13) можно записать следующим образом:
А = [Му.а )|' [Му.у) ke(y,ВДГ1 [bsl уравнение(23)
LkgCa^, a)J Lkg (а^, а5) kg (a?-, a^J Lb^J
Если (ат<Ьт) имеет пренебрежимо несущественную пространственную релевантность (т.е. sзначение между ати а* является бесконечно большим), то уравнение (4) приводит к kg(a*,aT) « 0lxk. Кроме того, по построению, так как as ближе к а*, чем к ат, результатом являются kg(as,aT) « 0(2)_Л)хЛи kg(aT,as) « 0fcx(D_k). Их подстановка в уравнение (23) дает
- 16 043314 g%rke(as,a*)14ke(as,as) L ofcxl J [ Ofcx(o-fc) ^QD-k)xk bs кет, ат) Ьг , Уравнение (24a)
Гк05,аТТГке Ча^) ί Ofcxl J [ ®kx(D-k) ®(D-k)xk 1 Tbs kg (aT, aT)] [b7
Уравнение (24b) = ke(a*,as)kg-1(as, as)bs. Уравнение (24c)
Из уравнения (24с) ясно, что точечная оценка не зависит от ®т. Аналогично, можно показать, что уравнение (16) также не зависит от ®т. Например, в уравнении (16) можно вычислить следующим образом:
—кд +кд(а*,а^ = k0(a*,a)[ky(a,a)] 1ke(a,a*), Уравнение (25а) “ [8Д' 18Д У 88 -8Г 188 Уравнение (25b)
Ik^a^, a)J Lkg(aT, аД ^(87,87)] Ik^a^, a)J rk0(as,a*)lT fkg 1 (85,85)
L Ofcxl J Ofcx(D-fc)
0(O-fc)xfc kg (87,87) ke(3s, 3 )1 уравнение (25c) . Okxl J kg ~ kg(a*,a*) - ke(3*,3s)ke ^85,85)^(85,8^. Уравнение (25d)
Из уравнений (25b) и (25с) можно видеть, что используется несколько приближений, в том числе к0(а ,ат) « 0Лх1, кД^йр) « 0(D_fc)xkH к0т,а5) ~0кх(р-к). Тогда из уравнений (20а) и (20b) очевидно, что алгоритм 2 не способен удовлетворительно использовать ®т, если набор имеет ограниченную простран ственную релевантность.
В некоторых вариантах осуществления для обеспечения возможности внесения вклада в Ί) выборками, релевантными и в пространстве, и по времени, используется подход пространственновременного JITL (ST-JITL) со следующей пространственно-временной рамановской моделью (например, в качестве локальной модели 132):
bL = g(aittd + Уравнение (26) где g: ДУх N -> R - пространственно-временная рамановская модель, и ti - номер выборки в ai, и ei-^(0lσ2') - последовательность независимых гауссовских случайных переменных с нулевым средним и неизвестной дисперсией &2 G ®U. В отличие от уравнения (1), пространственно-временная модель в уравнении (26) зависит как от спектрального сигнала, так и от времени его выборки. Как и выше, предполагается, что g - скрытая функция, моделируемая как гауссовский процесс так, что для любого элемента входных данных (a, t), д(а, t)~ GP(0, гв (a, a, t, t)), Уравнение (27) является случайной функцией. Для удобства средняя функция в уравнении (27) предполагается равной нулю, но это не обязательно имеет место в общем случае. Кроме того, для любых произвольных входных данных (аб ^)и (ар 8'), ковариационную функцию re(aiajtitj) можно задать следующим образом:
= ^space(a6 aj) + ^Нте(У Уравнение (28) где Урасе(арау) Е П&+И /ctime(O<0) Е - соответственно пространственная ковариация и временная ковариация между (в&ь О)). Следует отметить, что для Запроса (а81*), если выборка bj) е имеет пренебрежимо малую пространственную релевантность, то УрасеЛ з*) & о, но /щте(9, П > °, так что уравнение (28) задает ненулевой коэффициент корреляции между 2 8.9(^9)). Наконец, следует отметить, что уравнение (28) является истинной ковариационной функцией, поскольку сумма двух независимых ядер также является ядром. Предположим, что kspace и ktime являются гауссовскими ядрами, таким образом предназначены для любой пары элементов входных данных (а7, t, ^space(ai, а7) = ^ехр - Уравнение (29а) = ^iexP - Уравнение (29b) где = Ιαι> α2>βι>Л'1 G В4 - параметр ядра. Для данных уравнений (29а) и (29b) уравнение (28) приписывает высокий коэффициент корреляции между (^^6^)^(^^7)), если (аб (а7’Ь) близки друг к другу. Если У = [П- -У-Ли f7 = [tD_k+1, ...Сд]т обозначают номера выборок для релевантных по состоянию и времени выборок в D соответственно так, что t — 1Хя ^т], то для запроса (a*, С) ковариационную функцию ιθ уравнении (28) можно записать как г— — - —, [ Гд (Эс, Зс, tc, tc) Г/ДЭс, 87, tc, tT) 1 г$ (a, a, t, t) = _ - - J, Уравнение (30a)
Lr^ (ar, as, tr, ts) rg (aT, aT, tT, tT) J r0(a*,a,t*,t) = [re(a*, as, t*, fs) re(a*,a7,t*,fT)]. Уравнение (30b)
Следует отметить, что, в отличие от переменных а и b роль t в уравнениях (30a) и (30b) заключается в простом увеличении вклада ®т. Физически для данного а переменная t не оказывает влияния на b. Поэтому, если V - [У-к+п ··· £р]т задан как номер выборки, соответствующий выборкам в ®т,
- 17 043314 t$ - А ··· ^D-kV можно задать так, что он удовлетворяет следующему:
— tj\ » М, Уравнение (31а)
Щ — ϋ*| » Ν, Уравнение (31b) |ϋέ - tk\ » Р, Уравнение (31с) для всех Ч θ {1/ ->D - /с]и к Е {D - к + 1, ...А}, где Μ,Ν,Ρ Е JR+ - произвольные большие положительные _ константы. tr > 0)и дующим образом:
Кроме_ того, если предположить, что и t* таковы, что кцте(?Лт > 0), то для ^ти ^5, как описано выше, ге А ах>ty1$) можно записать слеr0(as,a5?t5,ts) kspace(as, а5) + ktime(ts,ts), Уравнение (32а) ~ kspace(as, as) + Уравнение (32b) где уравнение (32b) получено из уравнения (31а), что приводит к нулевым недиагональным элементам в ^timeAts). Аналогично, ковариацию г0 (аХ as> A ts) и ге (as, aT, ts, tT) можно вычислить следующим образом:
r0(a*,asX,ts) = kspace(a*, as) + ktime(t\ts), Уравнение (33a) ~ kspace(a*, as), Уравнение (33b) ге (а5/атА> й) = ^space(as,aT) + ktime(ts,tT), Уравнение (33c) ~ kspace(a5, аг), Уравнение (33d) где уравнение (33b) основано на уравнении (31b), и уравнение (33d) основано на уравнении (31с). Подстановка уравнений (32b), (33b) и (33d) в уравнения (30a) и (30b) дает ,__- [kspace(as< as) +/М(п-к) kspace(as, ат) 1 re(a,a,t,f) = г Га a f f V уРавнение (34а) Kspaceldn “sJ ЛТ> LT> ^т) re (a*, a, t*, t) = [kspace(a*, as) r0 (a*, aT, t*, tT)]. Уравнение (34b)
Исходя из уравнений (30a) и (30b), легко подтвердить, что ковариация ге включает вклады как от kspace, так и от ^time. Для данных в уравнениях (30a) и (30b) ковариационных функций для пространственно-временной рамановской модели параметр ядра, θ, и дисперсию σ2 шума можно оценить путем максимизации logp(b|a,f) = -^г/Ь — |log|ry| - log2K, Уравнение (35) где 7 = ΙΑσ2]τΕΓ IR5, logp(b|a,t) - логарифмическая функция предельного правдоподобия, и гг = ге + IDxD. Максимизация уравнения (35) по Г дает оптимальную оценку, γ*. Для оптимизаторов на основе градиента градиенты для уравнения (35) относительно γ можно вычислить способом, аналогичным уравнению (10b). Для данного γ* точечную оценку и апостериорную дисперсию для запроса (А можно вычислить как b = гв(a*, a, t*, t)[гу (a, a, t, t)] 1b, Уравнение (36а) гв = r0(a*, a, t*,t)[ry(a,a,t, t)] Χχ re(a,a*,f, t*), Уравнение (36b) где ковариационные функции даны в уравнениях (34а) и (34b). Аналогично, границы правдоподобия (bL < b < Ьи) в отношении точечной оценки в уравнении (36а) можно вычислить следующим образом:
IbL = b - 2^/ψ, Уравнение (37а) bu — b + Уравнение (37b) где rY ~ гв σ . Из уравнений (36а), (37а) и (37b) легко видеть, что вклад в вычисления предсказания на основе модели и границ правдоподобия вносят как релевантные в пространстве, так и релевантные по времени выборки. Наконец, подстановка уравнений (34а) и (34b) в уравнения (36а) и (36b) дает, соответственно, апостериорное среднее и дисперсию. Следует отметить, что в отличие от случая алгоритма 2, предсказание на основе модели в уравнении (36а) и интервалы правдоподобия в уравнениях (37а) и (37b) зависят от ®т, даже когда не имеет пространственной релевантности. Например, если не имеет пространственной релевантности (т.е. ksPace(a^ ат) « О^-^хк, и kspace(a*,aT) ~ Oixk), то уравнения (36а) и (36b) можно записать как ,— - -. [kspace(as,as) + βιϊφ-Κ) ®(р-к)хк 1 r0(a, a,t, t) = r f f J, Уравнение (38a)
L ukx(D-k) r0(a*, a, t*,t) = [kspaCe(a*, as) ktime(t*,fT)]_ Уравнение (38b)
Из вышесказанного можно видеть, что уравнения (38а) и (38b) по-прежнему содержат вклады как от kspace, так и от ktime. Примерный алгоритм, формально описывающий методику ST-JITL, представлен ниже в алгоритме 3:
- 18 043314
1. Input: Library Lt = {(a^ Ь^}|=1, query point a*
2. Output: Prediction Sand uncertainty (bL,bu~)
3. Set К <- {0}and fT <- {0}
4. for t = Ito Ldo
5. Set I «- sampleJndex(Lt), T)s «- {0}, ©T {0}
6. for d = 1 to D - set_cardinality(%)do
7. i* G argmaxie/ sim^, a*)
8. ©sSU {ait, bit}
9.I^I\{Q
10. end for
11. if set_cardinality(%) > Ithen
12. Т)т К
13. end if
14. © ^ ©5 U ©T
15. Задать ^согласно уравнениям (31a)-(31c)
16. Задать f <-[ts; fT]
17. Обучить модель на основе гауссовского процесса в уравнении (28) с использованием ©и f, и оценить γ*
18. Вычислить Ьс использованием уравнения (36а) и вычислить (bL,bu)c использованием уравнений (37а) и (37b)
19. if b* is available then
20. if size(%) = к then
21. Lt <- Lt U select_oldest(%)
22. К delete_oldest(%)
23. % ^% u{a\/r}
24. end if
25. % ^% u{a;/r]
26. end if
27. end for
Алгоритм 3
Следует отметить, что A-JITL и ST-JITL (в алгоритмах 2 и 3 соответственно) могут быть идентичны в случае, когда β1 = 0. Причиной этого является то, что для β1 = 0, ktime = 0, так что Γθ = kspace = kθ (как видно из уравнений (28) и (29b)).
Обратимся теперь к фиг. 6, на которой показан примерный поток 350 данных, который может иметь место при анализе биофармацевтического процесса с использованием методики ST-JITL, описанной в данном документе. Поток 350 данных может иметь место, например, в системе 100, представленной на фиг. 1, или системе 150, представленной на фиг. 2. В потоке 350 данных спектральные данные 352 предоставляются спектрометром/зондом. Например, спектральные данные 352 могут содержать вектор рамановского сканирования, сгенерированный рамановским анализатором 106, или вектор сканирования NIR и т.д. Точка 354 запроса генерируется (например, блоком 140 запроса) на основе спектральных данных 352 и используется, например, для запроса глобального набора 356 данных, который может содержать все наборы данных наблюдений в базе 136 данных наблюдений. Глобальный набор 356 данных логически разделен на последние k элементов 357А (например, все из текущего эксперимента/процесса) и на все элементы 357В перед последними k элементами 357А (например, из предыдущих, а также, возможно, текущего эксперимента/процесса). Значение k можно определить на основе номера выборки точки 354 запроса. Локальный набор 358 данных можно сгенерировать из элементов 357А и элементов 357В, например, в соответствии с алгоритмом 3.
Локальный набор 358 данных затем используется в качестве обучающих данных (например, генератором 142 локальной модели) для калибровки локальной модели 360 (например, локальной модели 132). Локальная модель 360 затем используется (например, блоком 144 предсказания) для предсказания элемента 362 выходных данных (аналитического измерения), такого как концентрация компонентов питательной среды, состояние питательной среды (например, глюкоза, лактат, глутамат, глутамин, аммиак, аминокислоты, Na+, K+, а также другие питательные вещества или метаболиты, рН, pCO2, pO2, температура, осмоляльность и т.д.), плотность жизнеспособных клеток, титр, критические показатели качества,
- 19 043314 состояние клеток и т.д., а также, возможно, вывода границ правдоподобия или другого подходящего индикатора достоверности.
Если фактическое аналитическое измерение (например, измерение, выполненное таким аналитическим прибором, как один из аналитических приборов 104) является доступным, создается новый элемент 364 (содержащий номер его выборки) и добавляется в глобальный набор 356 данных. Такие измерения могут быть доступны, например, на основе периодической выборки (например, один или два раза в сутки) и/или их можно сделать доступными в ответ на инициирующий фактор с переменным расчетным временем (например, если некоторое количество предсказаний в строке имеет недопустимо широкие границы правдоподобия и т.д.).
Как указано выше, аналитические измерения могут планироваться/инициироваться на основе текущего и/или недавнего выполнения одной или нескольких локальных моделей (например, локальной модели 132, 260, 310 или 360) с целью сохранения или повышения точности предсказания с одновременным уменьшением использования ресурсов (например, использования аналитических приборов). Данную методику можно использовать, например, совместно с A-JITL, ST-JITL или обычным JITL.
В одном варианте осуществления для инициации обслуживания модели используются интервалы правдоподобия. В частности, если ширина интервала правдоподобия (например, расстояние между границами правдоподобия, вычисленными с использованием уравнения (16) или уравнений (37а), (37b)) по данному предсказанию на основе модели (например, по самому недавнему предсказанию, выполненному локальной моделью 132, 260, 310 или 360) больше предварительно заданного порогового значения, блок 146 обслуживания базы данных может генерировать сообщение с запросом и обеспечивать отправку компьютером 110 сообщения на аналитический прибор (приборы) 104 с целью запроса измерения. В примерных результатах, представленных на фиг. 3, например, блок 146 обслуживания базы данных может инициировать новые аналитические измерения ближе к концу суток 08.12.17, 09.12.17 и 14.12.17, где затененные области 208 указывают широкий интервал правдоподобия (т.е. большое значение bU - bL).
В ответ на сообщение с запросом аналитический прибор (приборы) 104 выполняет (выполняют) аналитическое измерение (измерения) и предоставляет измерение (измерения) на компьютер 110. Блок 146 обслуживания базы данных может затем отправлять измерение (измерения) и соответствующий вектор (векторы) рамановского сканирования, принятые из рамановского анализатора 106, на сервер 112 базы данных для хранения в базе 136 данных наблюдений. Например, измерение (измерения) и вектор (векторы) сканирования могут быть добавлены в библиотеку £ (для обычного JITL) или библиотеку К (для A-JITL или ST-JITL), как обсуждено выше.
И, наоборот, если ширина интервала правдоподобия по данному предсказанию на основе модели не превышает предварительно заданное пороговое значение, блок 146 обслуживания базы данных может не запрашивать новое аналитическое измерение, и в этом случае библиотека в базе 136 данных наблюдений остается неизменной. В вариантах осуществления, где аналитический прибор (приборы) 104 содержит несколько приборов, измеряющих разные свойства, такие как концентрация компонентов питательной среды, состояние питательной среды (например, глюкоза, лактат, глутамат, глутамин, аммиак, аминокислоты, Na+, K+, а также другие питательные вещества или метаболиты, рН, pCO2, pO2, температура, осмоляльность и т.д.), плотность жизнеспособных клеток, титр, критические показатели качества, состояние клеток и т.д., и для предсказания различных значений свойств используются отдельные локальные модели, процесс планирования может быть реализован по отдельности для каждого предсказываемого свойства и аналитического прибора, измеряющего это свойство, возможно, с отличающимся пороговыми значениями ширины интервала правдоподобия для каждого свойства.
Математически, блок 146 обслуживания базы данных может планировать/инициировать новое аналитическое измерение (измерения) в точке запроса, а*, при условии:
bu — bL > THR , Уравнение (39) где THR - задаваемое пользователем пороговое значение. В некоторых вариантах осуществления THR может регулироваться пользователем для удовлетворения требованиям определенного применения или случая использования. Например, пользователь может устанавливать относительно небольшое значение THR (используемое блоком 146 обслуживания базы данных) для применения, в котором надежность модели является критичной, что, таким образом, вызывает более частое выполнение операций обслуживания модели/библиотеки. В целом THR может быть установлено в виде разных значений на основе критичности процесса, на основе предсказываемого параметра, такого как концентрация компонентов питательной среды, состояние питательной среды (например, глюкоза, лактат, глутамат, глутамин, аммиак, аминокислоты, Na+, K+, а также другие питательные вещества или метаболиты, рН, pCO2, pO2, температура, осмоляльность и т.д.), плотность жизнеспособных клеток, титр, критические показатели качества, состояние клеток и т.д., и/или на основе текущего периода времени (например, использование меньшего THR для более поздних суток культивации по сравнению с начальными сутками). Выбор THR представляет компромисс между точностью модели и использованием ресурсов (аналитического прибора), при этом менее высокие пороговые значения стремятся к повышению точности модели за счет увеличения использования ресурсов.
- 20 043314
Также возможны изменения данного протокола планирования. В одном варианте осуществления блок 146 обслуживания базы данных, например, может применять один или несколько критериев качества модели, не только к текущему (самому недавнему) предсказанию, но и к одному или нескольким другим недавним предсказаниям (например, самым недавним N предсказаний, где N > 1). В качестве примера такого варианта осуществления блок 146 обслуживания базы данных может вычислять среднюю ширину интервалов правдоподобия для самых недавних N предсказаний (N > 1), а затем сравнивать эту среднюю ширину с пороговым значением THR. В качестве другого примера блок 146 обслуживания базы данных может идентифицировать X наибольших значений ширины интервала правдоподобия среди последних Y предсказаний (X < Y) и планировать/инициировать новое аналитическое измерение только тогда, когда каждое из этих X значений ширины больше порогового значения THR.
На фиг. 7 представлена схема последовательности операций примерного способа 400 анализа биофармацевтического процесса (например, в целях отслеживания и/или управления). Способ 400 может быть реализован таким компьютером, как компьютер 110, представленный на фиг. 1 (например, блоком 120 обработки, исполняющим команды приложения 130 предсказателя JITL) или фиг. 2, и/или таким сервером, как сервер 112 базы данных, представленный на фиг. 1 или 2, например.
В блоке 402 определяется точка запроса, связанная со сканированием биофармацевтического процесса системой спектроскопии (например, рамановским анализатором 104 и рамановским зондом 106 системы 100 или системы 150). Точку запроса можно определить на основе по меньшей мере частично вектора спектрального сканирования (например, вектора рамановского сканирования или сканирования NIR), который был сгенерирован системой спектроскопии, например, при сканировании биофармацевтического процесса. В зависимости от варианта осуществления точка запроса может быть определена на основе необработанного вектора спектрального сканирования или после подходящей фильтрации путем предварительной обработки необработанного вектора спектрального сканирования. В некоторых вариантах осуществления точка запроса также определяется на основе другой информации, такой как профиль питательной среды, связанный с биофармацевтическим процессом (например, тип текучей среды, конкретные питательные вещества, уровень рН и т.д.), и/или, например, одно или несколько рабочих условий, в которых подвергают анализу биофармацевтический процесс (например, заданное значение концентрации метаболита и т.д.).
В блоке 404 запрашивается база данных наблюдений (например, база 136 данных наблюдений). База данных наблюдений может содержать наборы данных наблюдений, связанные с прошлыми наблюдениями нескольких биофармацевтических процессов. Каждый из наборов данных наблюдений может содержать спектральные данные (например, вектор рамановского сканирования или сканирования NIR) и соответствующее аналитическое измерение (или, в некоторых вариантах осуществления, два или более аналитических измерений). Аналитическое измерение может представлять собой, например, концентрацию компонентов питательной среды, состояние питательной среды (например, глюкоза, лактат, глутамат, глутамин, аммиак, аминокислоты, Na+, K+, а также другие питательных вещества или метаболиты, рН, pCO2, pO2, температура, осмоляльность и т.д.), плотность жизнеспособных клеток, титр, критические показатели качества и/или состояние клеток.
Блок 404 может включать выбор в качестве обучающих данных из наборов данных наблюдений тех наборов данных наблюдений, которые удовлетворяют одному или нескольким критериям релевантности относительно точки запроса. Если точка запроса включена в вектор спектрального сканирования, например, блок 404 может включать сравнение этого вектора спектрального сканирования с векторами спектрального сканирования, связанными с каждым из прошлых наблюдений, представленных в базе данных наблюдений (например, путем вычисления евклидового или других расстояний между (1) вектором спектрального сканирования, на котором было основано определение точки запроса, и (2) каждым из векторов спектрального сканирования, связанных с прошлыми наблюдениями, а затем выбора в качестве обучающих данных любого из векторов спектрального сканирования, связанных с прошлыми наблюдениями, для которых определено нахождение в пределах порогового расстояния от вектора спектрального сканирования, на котором было основано определение точки запроса).
В блоке 406 выбранные обучающие данные используются для калибровки локальной модели, которая характерна для отслеживаемого биофармацевтического процесса. Локальная модель (например, локальная модель 132) обучается в блоке 406 с целью предсказания аналитических измерений на основе входных спектральных данных (например, векторов рамановского сканирования или сканирования NIR). В некоторых вариантах осуществления локальная модель представляет собой модель машинного обучения на основе гауссовского процесса.
В блоке 408 аналитическое измерение биофармацевтического процесса предсказывается с использованием локальной модели. Блок 408 может включать использование локальной модели для анализа спектральных данных (например, вектора рамановского сканирования или сканирования NIR), генерируемых системой спектроскопии при сканировании биофармацевтического процесса. Например, блок 408 может включать предсказывание аналитического измерения путем использования локальной модели для обработки того же вектора спектрального сканирования или других спектральных данных, на кото
- 21 043314 рых была основана точка запроса. В зависимости от варианта осуществления локальная модель может использоваться для анализа необработанных спектральных данных (например, необработанного вектора рамановского сканирования) или для анализа спектральных данных после подходящей фильтрации путем предварительной обработки необработанных спектральных данных. В некоторых вариантах осуществления блок 408 также включает определение индикатора достоверности (например, границ правдоподобия, степени достоверности и т.д.), связанного с предсказанным аналитическим измерением биофармацевтического процесса. В некоторых вариантах осуществления локальная модель также предсказывает в блоке 408 одно или несколько дополнительных аналитических измерений.
В некоторых вариантах осуществления способ 400 включает один или несколько дополнительных блоков, не показанных на фиг. 5. Например, способ 400 может включать дополнительный блок, в котором управление по меньшей мере одним параметром биофармацевтического процесса выполняется на основе по меньшей мере частично аналитического измерения, предсказанного в блоке 408. В зависимости от варианта осуществления параметр может относиться к тому же типу, что и предсказанное аналитическое измерение (например, управление концентрацией глюкозы на основе предсказанной концентрации глюкозы), или к другому типу. Для управления параметром (или параметрами) могут использоваться, например, методики управления по модели предсказания (МРС).
В качестве другого примера способ 400 может включать первый дополнительный блок, в котором получается фактическое аналитическое измерение биофармацевтического процесса (например, одним из аналитических приборов 104 или из него в ответ на определение того, что предсказанное аналитическое измерение и, возможно, одно или несколько ранних/недавних измерений не удовлетворяют одному или нескольким критериям качества модели, как обсуждено выше), и второй дополнительный блок, в котором обеспечивается добавление (1) спектральных данных, которые система спектроскопии генерирует при получении фактического аналитического измерения, и (2) фактического аналитического измерения биофармацевтического процесса в базу данных наблюдений (например, путем отправки спектральных данных и аналитического измерения в такой сервер базы данных, как сервер 112 базы данных, или путем непосредственного добавления спектральных данных и аналитического измерения в локальную базу данных наблюдений и т.д.). В тех вариантах осуществления, где предсказывается несколько типов аналитических измерений, несколько фактических аналитических измерений могут быть получены или добавлены в базу данных наблюдений.
В качестве еще одного примера способ 400 может включать один или несколько дополнительных наборов блоков, каждый из которых подобен блокам 402-408. В каждом из этих дополнительных наборов блоков локальная модель может калиброваться путем запроса базы данных наблюдений (или другой базы данных наблюдений) и использоваться для предсказания аналитического измерения другого типа.
Ниже будут рассмотрены дополнительные соображения в отношении настоящего изобретения.
Термины полипептид или белок везде используются взаимозаменяемо и относятся к молекуле, содержащей два или более аминокислотных остатков, соединенных друг с другом пептидными связями. Полипептиды и белки также включают макромолекулы, имеющие одну или несколько делеций, вставок и/или замен аминокислотных остатков нативной последовательности, то есть полипептида или белка, полученного встречающейся в природе и нерекомбинантной клеткой; или полученного генетически модифицированной или рекомбинантной клеткой, и включают молекулы, имеющие одну или несколько делеций, вставок и/или замен аминокислотных остатков аминокислотной последовательности нативного белка. Полипептиды и белки также включают полимеры из аминокислот, в которых одна или несколько аминокислот являются химическими аналогами соответствующих встречающихся в природе аминокислот и полимеров. Полипептиды и белки также включают модификации, в том числе, но без ограничения, гликозилирование, присоединение липида, сульфатирование, гамма-карбоксилирование остатков глутаминовой кислоты, гидроксилирование и АДФ-рибозилирование.
Полипептиды и белки могут представлять научный и коммерческий интерес, в том числе для терапии на основе белков. Белки включают, помимо прочего, секретируемые белки, несекретрируемые белки, внутриклеточные белки или мембраносвязанные белки. Полипептиды и белки могут быть получены при помощи рекомбинантных клеточных линий животных с использованием методов культивирования клеток и могут называться рекомбинантными белками. Экспрессируемый белок (белки) может быть получен внутри клетки или секретирован в культуральную среду, из которой он может быть извлечен и/или собран. Белки включают белки, оказывающие терапевтическое воздействие путем связывания с мишенью, в частности с мишенью из тех, которые перечислены ниже, в том числе с полученными из них мишенями, относящимися к ним мишенями и их модификациями.
Белки антигенсвязывающие белки
Термин антигенсвязывающий белок относится к белкам или полипептидам, содержащим антигенсвязывающую область или антигенсвязывающую часть, которая имеет сильное сродство к другой молекуле (антигену), с которой она связывается. Антигенсвязывающие белки охватывают антитела, пептитела, фрагменты антител, производные антител, аналоги антител, белки слияния (в том числе одноцепочечные вариабельные фрагменты (scFv) и двухцепочечные (двухвалентные) scFv, мутеины, xMAb и химерные антигенные рецепторы (CAR)).
- 22 043314
ScFv представляет собой фрагмент одноцепочечного антитела, содержащий вариабельные области тяжелой и легкой цепей антитела, связанные вместе. См. патенты США №№ 7741465 и 6319494, а также
Eshhar и др., Cancer Immunol Immunotherapy (1997) 45: 131-136. ScFv сохраняет способность исходного антитела специфично взаимодействовать с антигеном-мишенью.
Термин антитело включает отсылку как к гликозилированным, так и негликозилированным иммуноглобулинам любого изотипа или подкласса или к их антигенсвязывающей области, конкурирующей с интактным антителом за специфичное связывание. Если не указано иное, антитела включают человеческие, гуманизированные, химерные, мультиспецифичные, моноклональные, поликлональные, гетероIgG, XmAb, биспецифичные и олигомерные антитела или их антигенсвязывающие фрагменты. Антитела включают типы lgG1-, lgG2-, lgG3- или lgG4. Также включены белки, имеющие антигенсвязывающий фрагмент или область, такую как Fab, Fab', F(ab')2, Fv, диатела, Fd, dAb, макситела, молекулы одноцепочечных антител, однодоменные VHH, фрагменты определяющей комплементарность области (CDR), scFv, диатела, триатела, тетратела и полипептиды, содержащие по меньшей мере часть иммуноглобулина, которой достаточно для придания специфичности связыванию антигена с полипептидом-мишенью.
Также включены человеческие, гуманизированные и другие антигенсвязывающие белки, такие как человеческие и гуманизированные антитела, не вызывающие значительные вредные иммунные ответы при введении человеку.
Также включены пептитела, полипептиды, содержащие один или несколько соединенных друг с другом, необязательно посредством линкеров, биологически активных пептидов с Fc-доменом (См. патент США № 6660843, патент США № 7138370 и патент США №7511012).
Белки также включают генетически модифицированные рецепторы, такие как химерные антигенные рецепторы (CAR или CAR-T) и Т-клеточные рецепторы (TCR). CAR обычно включают антигенсвязывающий домен (такой как scFv) в тандеме с одним или несколькими костимулирующими (сигнальными) доменами и одним или несколькими активирующими доменами.
Также включены конструкции антител с биспецифичными агентами Т-клеток (BiTE®), которые представляют собой конструкции рекомбинантных белков, полученные из двух гибко связанных связывающих доменов, полученных из антител (см. WO 99/54440 и WO 2005/040220). Один связывающий домен конструкции является специфичным для выбранного опухолеассоциированного поверхностного антигена на клетках-мишенях; второй связывающий домен является специфичным для CD3, субъединицы Т-клеточного рецепторного комплекса на Т-клетках. Конструкции BiTE® также могут включать способность к связыванию с независимым от окружения эпитопом на N-конце цепи CD3 (WO 2008/119567) для более специфичной активации Т-клеток. Конструкции BiTE® с увеличенным периодом полужизни включают слияние малого биспецифичного антитела с белками большего размера, которые предпочтительно не препятствуют терапевтическому воздействию конструкции антитела BiTE®. Примеры таких дополнительных разработок биспецифичных агентов Т-клеток включают биспецифичные молекулы, содержащие Fc, например, описанные в US 2014/0302037, US 2014/0308285, wO 2014/151910 и WO 2015/048272. Альтернативная стратегия заключается в использовании человеческого сывороточного альбумина (HAS), слитого с биспецифичной молекулой, или простое слияние человеческих альбуминсвязывающих пептидов (см., например, WO 2013/128027, WO 2014/140358). Другая стратегия, HLE BiTE®, включает слияние первого домена, связывающегося с поверхностным антигеном клетки-мишени, второго домена, связывающегося с внеклеточным эпитопом цепи CD3e человека и/или макаки, и третьего домена, представляющего собой домен, обладающий Fc-специфическим способом действия (WO 2017/134140).
Также включены модифицированные белки, такие как белки, модифицированные химически при помощи нековалентного связывания, ковалентного связывания или как ковалентного, так и нековалентного связывания. Также включены белки, дополнительно содержащие одну или несколько посттрансляционных модификаций, которые могут быть выполнены при помощи систем клеточной модификации, или модификаций, вносимых ex vivo при помощи ферментативных и/или химических методов или вносимых другими способами.
Белки также могут включать рекомбинантные белки слияния, содержащие, например, домен мультимеризации, такой как лейциновая застежка, суперспираль, Fc-часть иммуноглобулина и т.п. Также включены белки, содержащие все или часть аминокислотных последовательностей дифференцировочных антигенов (называемых белками CD) или их лигандов, или белки, по существу аналогичные любому из них.
В некоторых вариантах осуществления белки могут включать колониестимулирующие факторы, такие как колониестимулирующий фактор гранулоцитов (G-CSF). Такие средства на основе G-CSF включают без ограничения Neupogen® (филграстим) и Neulasta® (пэгфилграстим). Также включены стимуляторы эритропоэза (ESA), такие как Epogen® (эпоэтин-альфа), Aranesp® (дарбэпоэтин-альфа), Dynepo® (эпоэтин-дельта), Mircera® (метоксиполиэтиленгликоль-эпоэтин-бета), Hematide®, MRK-2578, INS-22, Retacrit® (эпоэтин-дзета), Neorecormon® (эпоэтин-бета), Silapo® (эпоэтин-дзета), Binocrit® (эпоэтин-альфа), эпоэтин-альфа Hexal, Abseamed® (эпоэтин-альфа), Ratioepo® (эпоэтин-тета), Eporatio®
- 23 043314 (эпоэтин-тета), Biopoin® (эпоэтин-тета), эпоэтин-альфа, эпоэтин-бета, эпоэтин-дзета, эпоэтин-тета и эпоэтин-дельта, эпоэтин-омега, эпоэтин-йота, тканевой активатор плазминогена, агонтисты рецептора GLP1, а также молекулы или их варианты или аналоги и биосимиляры любого из вышеперечисленного.
В некоторых вариантах осуществления белки могут включать белки, которые специфически связываются с одним или несколькими белками CD, белками семейства рецепторов HER, молекулами клеточной адгезии, факторами роста, факторами роста нервов, факторами роста фибробластов, трансформирующими факторами роста (TGF), инсулиноподобными факторами роста, остеоиндуцирующими факторами, инсулином и относящимися к инсулину белками, коагулирущими и относящимися к коагуляции белками, колониестимулирующими факторами (CSF), другими белками крови и сыворотки, антигенами групп крови; рецепторами, рецептор-ассоциированными белками, гормонами роста, рецепторами гормона роста, рецепторами Т-клеток; нейротрофическими факторами, нейротрофинами, релаксинами, интерферонами, интерлейкинами, вирусными антигенами, липопротеинами, интегринами, ревматоидными факторами, иммунотоксинами, поверхностными мембранными белками, транспортными белками, рецепторами самонаведения, адрессинами, регуляторными белками и иммуноадгезинами. В некоторых вариантах осуществления белки могут включать белки, связывающиеся с одним или нескольким из следующего, по отдельности или в любой комбинации: CD белками, в том числе, но без ограничения, CD3, CD4, CD5, CD7, CD8, CD19, CD20, CD22, CD25, CD30, CD33, CD34, CD38, CD40, CD70, CD123, CD133, CD138, CD171 и CD174, белками семейства рецепторов HER, в том числе, например, HER2, HER3, HER4 и рецептором EGF, EGFRvIII, молекулами клеточной адгезии, например LFA-1, Mol, p150,95, VLA-4, ICAM-1, VCAM и интегрин альфа v/бета 3, факторами роста, в том числе, но без ограничения, например, фактором роста эндотелия сосудов (VEGF); VEGFR2, гормоном роста, тиреостимулирующим гормоном, фолликулостимулирующим гормоном, лютеинизирующим гормоном, рилизинг-фактором гормона роста, паратиреоидным гормоном, мюллеровым ингибирующим фактором, воспалительным белком макрофагов человека (MIP-1-альфа), эритропоэтином (ЕРО), фактором роста нервов, таким как NGF-бета, фактором роста тромбоцитов (PDGF), фактором роста фибробластов, в том числе, например, aFGF и bFGF, эпидермальным фактором роста (EGF), Cripto, трансформирующими факторами роста (TGF), в том числе, помимо прочего, TGF-α и TGF-β, в том числе TGF-e1, TGF-e2, TGF-e3, TGF-e4 или TGF-e5, инсулиноподобными факторами роста-I и -II (IGF-I и IGF-II), des(1-3)-IGF-I (мозговой IGF-I) и остеоиндуцирующими факторами, инсулинами и относящимися к инсулину белками, в том числе, но без ограничения инсулином, А-цепью инсулина, В-цепью инсулина, проинсулином и инсулиноподобными белками, связывающими фактор роста; (белками, относящимися к коагуляции, такими как, среди прочего, фактор VIII, тканевой фактор, фактор фон Виллебранда, протеин С, альфа-1-антитрипсин, активаторами плазминогена, такими как урокиназа и тканевый активатор плазминогена (t-PA), бомбазином, тромбином, тромбопоэтином и рецептором тромбопоэтина, колониестимулирующими факторами (CSF), в том числе следующими, среди прочего, М-CSF, GM-CSF и G-CSF, другими белками крови и сыворотки, в том числе, но без ограничения, альбумин, IgE и антигены групп крови, рецепторами и ассоциированными с рецептором белками, в том числе, например, рецептором flk2/flt3, рецептором ожирения (ОВ), рецепторами гормона роста и рецепторами Т-клеток; (х) нейротрофическими факторами, в том числе, но без ограничения, нейротропным фактором костной ткани (BDNF) и нейротрофином-3, -4, -5 или -6 (NT-3, NT-4, NT-5 или NT-6); (xi) А-цепью релаксина, В-цепью релаксина и прорелаксином, интерферонами, в том числе, например, интерферонами-альфа, -бета и -гамма, интерлейкинами (IL), например, IL-1-IL-10, IL12, IL-15, IL-17, IL-23, IL-12/IL-23, IL-2Ra, IL1-R1, рецептором IL-6, рецептором IL-4 и/или рецепторами IL-13-IL-13RA2, или рецептором IL-17, IL-1RAP; (xiv) вирусными антигенами, в том числе, но без ограничения, антигеном оболочки вируса СПИДа, липопротеинами, кальцитонином, глюкагоном, предсердным натрийуретическим фактором, сурфактантом легких, альфа- и бета-факторами некроза опухоли, энкефалиназой, ВСМА, IgKappa, ROR-1, ERBB2, мезотелином, RANTES (регулируется при активации, обычно экспрессируемой и секретируемой Т-клетками), мышиным гонадотропин-ассоциированным пептидом, ДНКазой, FR-альфа, ингибином и активином, интегрином, белком А или D, ревматоидными факторами, иммунотоксинами, костным морфогенетическим белком (BMP), супероксиддисмутазой, поверхностными мембранными белками, фактором ускорения распада (DAF), оболочкой вируса СПИДа, транспортными белками, хоминг-рецепторами, MIC (MIC-a, MIC-B), ULBP 1-6, ЕРСАМ, адрессинами, регуляторными белками, иммуноадгезинами, антигенсвязывающими белками, соматропином, CTGF, CTLA4, эотаксином-1, MUC1, СЕА, с-МЕТ, Claudin-18, GPC-3, ЕРНА2, FPA, LMP1, MG7, NY-ESO-1, PSCA, ганглиозидом GD2, гланглиозидом GM2, BAFF, OPGL (RANKL), миостатином, Dickkopf-1 (DKK-1), Ang2, NGF, рецептором IGF-1, фактором роста гепатоцитов (HGF), TRAIL-R2, c-Kit, B7RP-1, PSMA, NKG2D-1, белком 1 запрограммированной гибели клеток и лигандом, PD1 и PDL1, рецептором маннозы/hCGe, вирусом гепатита С, коньюгатом мезотелина dsFv[PE38, Legionella pneumophila (lly), IFN гамма, интерферон-гамма-индуцированным белком 10 (IP10), IFNAR, TALL-1, тимусным стромальным лимфопоэтином (TSLP), пропротеинконвертазой субтилизином/кексином типа 9 (PCSK9), факторами стволовых клеток, Flt-3, пептидом, связанным с геном кальцитонина (CGRP), OX40L, α4β7, специфичным к тромбоцитам (гликопротеином тромбоцитов Iib/IIIb (PAC-1), трансформирующим фактором роста бета (TFGe), бел- 24 043314 ком 3 Zona pellucida, связывающим сперматозоиды (ZP-3), TWEAK, рецептором фактора роста тромбоцитов альфа (PDGFRa), склеростином и биологически активными фрагментами или вариантами любого из вышеперечисленного.
В другом варианте осуществления белки включают абциксимаб, адалимумаб, адекатумумаб, афлиберцепт, алемтузумаб, алирокумаб, анакинру, атасцепт, базиликсимаб, белимумаб, бевацизумаб, биосозумаб, блинатумомаб, брентуксимаб ведотин, бродалумаб, кантузумаб мертанзин, канакинумаб, цетуксимаб, цертолизумаб пегол, конатумумаб, даклизумаб, деносумаб, экулизумаб, эдреколомаб, эфализумаб, эпратузумаб, этанерцепт, эволокумаб, галиксимаб, ганитумаб, гемтузумаб, голимумаб, ибритумомаб тиуксетан, инфликсимаб, ипилимумаб, лерделимумаб, люмиликсимаб, lxd-кизумаб, мапатумумаб, мотесаниб дифосфат, муромонаб-CD3, натализумаб, несиритид, нимотузумаб, ниволумаб, окрелизумаб, офатумумаб, омализумаб, опрелвекин, паливизумаб, панитумумаб, пембролизумаб, пертузумаб, пекселизумаб, ранибизумаб, рилотумумаб, ритуксимаб, ромиплостим, ромосозумаб, саргамостим, тоцилизумаб, тозитумомаб, трастузумаб, устекинумаб, ведолизумаб, визилизумаб, волоциксимаб, занолимумаб, залутумумаб и биосимиляры любого из вышеперечисленного.
Белки включают все вышеперечисленное и дополнительно включают антитела, содержащие 1, 2, 3, 4, 5 или 6 определяющих комплементарность областей (CDR) любого из вышеупомянутых антител. Также включены варианты, содержащие область, которая на 70% или более, в частности на 80% или более, в частности на 90% или более, еще более конкретно на 95% или более, в частности на 97% или более, в частности на 98% или более, еще более конкретно на 99% или более идентична по аминокислотной последовательности эталонной аминокислотной последовательности представляющего интерес белка. В данном отношении идентичность может быть определена с использованием разнообразного хорошо известного и легкодоступного программного обеспечения для анализа аминокислотных последовательностей. Предпочтительное программное обеспечение включает то программное обеспечение, которое реализует алгоритмы Смита-Уотермана, которые считаются удовлетворительным решением задачи поиска и выравнивания последовательностей. Могут также использоваться другие алгоритмы, в частности тогда, когда важным критерием является скорость. Обычно используемые программы для выравнивания и гомологичного соответствия ДНК, РНК и полипептидов, которые можно использовать в этой связи, включают FASTA, TFASTA, BLASTN, BLASTP, BLASTX, TBLASTN, PROSRCH, BLAZE и MPSRCH, причем последняя является реализацией алгоритма Смита-Уотермана для исполнения на массовопараллельных процессорах, изготавливаемых MasPar.
Некоторые из фигур, описанных в настоящем документе, иллюстрируют примерные блок-схемы, на которых представлены один или несколько функциональных компонентов. Следует понимать, что такие структурные схемы представлены для иллюстративных целей, и описанные и показанные устройства могут иметь дополнительные или альтернативные компоненты, или меньшее количество компонентов, чем проиллюстрировано. Дополнительно в различных вариантах осуществления компоненты (а также функциональные возможности, предоставленные соответствующими компонентами) могут быть связаны с любым подходящим компонентом или иным образом интегрированы в виде его части.
Варианты осуществления настоящего изобретения относятся к энергозависимому машиночитаемому носителю данных, который содержит программный код для выполнения различных действий, осуществляемых компьютером. Термин машиночитаемый носитель данных используют в данном документе для описания любого носителя, способного хранить или кодировать последовательность команд или компьютерных кодов для выполнения действий, способов и методов, описанных в данном документе. Носители и компьютерный код могут быть специально созданы и выполнены для достижения целей вариантов осуществления настоящего изобретения, или они могут быть широко известны и доступны для специалистов в области программного обеспечения. Примеры машиночитаемых носителей данных включают, но без ограничения магнитные носители, такие как жесткие диски, гибкие диски и магнитные пленки; оптические носители, такие как CD-ROM и голографические устройства; магнитно-оптические носители, такие как оптические диски; и аппаратные устройства, которые специально выполнены с возможностью хранения и исполнения программного кода, такие как ASIC, программируемые логические устройства (PLD) и устройства ROM и RAM.
Примеры компьютерного кода включают машинный код, например написанный компилятором, и файлы, содержащие код более высокого уровня, которые исполняются компьютером за счет использования интерпретатора или компилятора. Например, вариант осуществления настоящего изобретения может быть реализован за счет использования Java, C++ или других объектно-ориентированных языков программирования и средств разработки. Дополнительные примеры компьютерного кода включают зашифрованный код и сжатый код. Более того, вариант осуществления настоящего изобретения может быть загружен в виде компьютерного программного продукта, который может быть передан с удаленного компьютера (например, серверного компьютера) на запрашивающий компьютер (например, на компьютер клиента или другой серверный компьютер) посредством канала передачи данных. Другой вариант осуществления настоящего изобретения может быть реализован в виде кабельной схемы вместо программных команд, исполняемых компьютерами, или в сочетании с ними.
В контексте данного документа формы существительного единственного числа также могут обо-

Claims (43)

  1. значать формы множественного числа, если в контексте явно не обозначено иное.
    В контексте данного документа термины соединять, соединенный и соединение обозначают функциональное объединение или сцепление. Соединенные компоненты могут быть непосредственно или опосредовано присоединены друг к другу, например, посредством еще одного набора компонентов.
    В контексте данного документа термины приблизительно, по существу, существенный и примерно используются для описания и учета небольших отклонений. Когда термины используются в сочетании с определенным случаем или обстоятельством, они могут относиться к ситуациям, при которых случай и обстоятельство происходят определенным образом, а также ситуациям, при которых случай и обстоятельство происходят с некоторой точностью. Например, когда термины используются в сочетании с числовым значением, они могут обозначать диапазон отклонения, которое меньше или равно ±10% от этого числового значения, например меньше или равно ±5%, меньше или равно ±4%, меньше или равно ±3%, меньше или равно ±2%, меньше или равно ±1%, меньше или равно ±0,5%, меньше или равно ±0,1% или меньше или равно ±0,05%. Например, подразумевается, что два числовых значения могут быть по существу одинаковыми, если разница между значениями меньше или равна ±10% от среднего из значений, например меньше или равна ±5%, меньше или равна ±4%, меньше или равна ±3%, меньше или равна ±2%, меньше или равна ±1%, меньше или равна ±0,5%, меньше или равна ±0,1% или меньше или равна ±0,05%.
    Дополнительно количества, соотношения и иные числовые значения иногда представлены в данном документе в формате диапазона. Следует понимать, что такой формат диапазона используется для удобства и краткости, и его следует считать гибким для включения численных значений, явно указанных в качестве границ диапазона, а также для включения всех отдельных численных значений или поддиапазонов, содержащихся в рамках этого диапазона, как если каждое численное значение и поддиапазон указаны явным образом.
    Хотя настоящее изобретение было описано и проиллюстрировано со ссылками на свои определенные варианты осуществления, эти описания и иллюстрации не ограничивают настоящее изобретение. Специалистам в данной области техники следует понимать, что могут быть внесены различные изменения, и могут быть использованы эквиваленты без отступления от сущности и объема настоящего изобретения, которые определены прилагаемой формулой изобретения. Графические материалы не обязательно изображены в масштабе. В настоящем изобретении между схематичными представлениями и фактическим устройством могут существовать различия вследствие производственных процессов, допусков и/или по другим причинам. Могут существовать другие варианты осуществления настоящего изобретения, которые не были конкретно проиллюстрированы. Описание (но не формулу изобретения) и графические материалы следует считать иллюстративными, а не ограничительными. Изменения могут быть внесены для приспособления определенной ситуации, материала, состава вещества, метода или процесса к цели, сущности и объему настоящего изобретения. Все подобные изменения находятся в пределах объема согласно приложенной формуле изобретения. Хотя методы, раскрытые в данном документе, описаны со ссылкой на определенные действия, выполняемые в определенном порядке, следует понимать, что эти действия могут быть объединены, подразделены или переупорядочены для создания подобного способа без отступления от идей настоящего изобретения. Соответственно, если конкретно не указано иное, порядок и группирование действий не ограничивают настоящее изобретение.
    ФОРМУЛА ИЗОБРЕТЕНИЯ
    1. Реализуемый на компьютере способ отслеживания процесса биофармацевтического производства и/или управления им, при этом способ включает определение одним или более процессорами точки запроса базы данных наблюдений, связанной со сканированием процесса биофармацевтического производства системой спектроскопии;
    запрос одним или более процессорами базы данных наблюдений, содержащей множество наборов данных наблюдений, связанных с прошлыми наблюдениями процессов биофармацевтического производства, при этом каждый из наборов данных наблюдений содержит спектральные данные и соответствующее фактическое аналитическое измерение, и при этом запрос базы данных наблюдений включает выбор в качестве обучающих данных из множества наборов данных наблюдений наборов данных наблюдений, которые удовлетворяют одному или более критериям релевантности относительно точки запроса базы данных наблюдений;
    адаптацию одним или более процессорами и с использованием выбранных обучающих данных локальной модели, характерной для процесса биофармацевтического производства, при этом локальную модель обучают предсказывать аналитические измерения на основе входных спектральных данных; и предсказание одним или более процессорами аналитического измерения процесса биофармацевтического производства, при этом предсказание аналитического измерения процесса биофармацевтического производства включает использование локальной модели для анализа спектральных данных, которые сгенерировала система спектроскопии при сканировании процесса биофармацевтического производства.
  2. 2. Реализуемый на компьютере способ по п.1, в котором система спектроскопии представляет собой
    - 26 043314 систему рамановской спектроскопии.
  3. 3. Реализуемый на компьютере способ по п.1 или 2, в котором определение точки запроса базы данных наблюдений включает определение точки запроса базы данных наблюдений на основе, по меньшей мере частично, вектора спектрального сканирования, при этом вектор спектрального сканирования генерируют системой спектроскопии при сканировании процесса биофармацевтического производства и выбор в качестве обучающих данных наборов данных наблюдений, которые удовлетворяют одному или более критериям релевантности относительно точки запроса базы данных наблюдений, включает сравнение вектора спектрального сканирования, на котором было основано определение точки запроса базы данных наблюдений, с векторами спектрального сканирования, связанными с прошлыми наблюдениями процессов биофармацевтического производства.
  4. 4. Реализуемый на компьютере способ по п.3, в котором определение точки запроса базы данных наблюдений дополнительно включает определение точки запроса базы данных наблюдений на основе номера выборки, связанного с вектором спектрального сканирования;и выбор в качестве обучающих данных наборов данных наблюдений, которые удовлетворяют одному или более критериям релевантности относительно точки запроса базы данных наблюдений, включает (i) сравнение вектора спектрального сканирования, на котором было основано определение точки запроса из базы данных наблюдений, с векторами спектрального сканирования, связанными с прошлыми наблюдениями процессов биофармацевтического производства, и (ii) сравнение номера выборки, связанного с точкой запроса из базы данных наблюдений, с номерами выборок, связанными с прошлыми наблюдениями процессов из биофармацевтического производства.
  5. 5. Реализуемый на компьютере способ по п.4, в котором выбор в качестве обучающих данных наборов данных наблюдений, которые удовлетворяют одному или более критериям релевантности относительно точки запроса базы данных наблюдений, включает выбор самых недавних k наборов данных наблюдений для включения в обучающие данные.
  6. 6. Реализуемый на компьютере способ по любому из пп.3-5, в котором предсказание аналитического измерения процесса биофармацевтического производства включает использование локальной модели для анализа вектора спектрального сканирования, на котором было основано определение точки запроса базы данных наблюдений.
  7. 7. Реализуемый на компьютере способ по любому из пп.3-6, в котором выбор в качестве обучающих данных наборов данных наблюдений, которые удовлетворяют одному или более критериям релевантности относительно точки запроса базы данных наблюдений, включает вычисление расстояний между (i) вектором спектрального сканирования, на котором было основано определение точки запроса базы данных наблюдений, и (ii) векторами спектрального сканирования, связанными с прошлыми наблюдениями процессов биофармацевтического производства; и выбор в качестве обучающих данных любого из векторов спектрального сканирования, связанных с прошлыми наблюдениями, для которых определено нахождение в пределах порогового расстояния от вектора спектрального сканирования, на котором было основано определение точки запроса базы данных наблюдений.
  8. 8. Реализуемый на компьютере способ по любому из пп.1-7, в котором определение точки запроса базы данных наблюдений включает определение точки запроса базы данных наблюдений на основе, по меньшей мере, частично одного или обоих из (i) профиля питательной среды, связанного с процессом биофармацевтического производства, и (ii) одного или более рабочих условий, в которых подвергают анализу процесс биофармацевтического производства.
  9. 9. Реализуемый на компьютере способ по любому из пп.1-8, в котором адаптация локальной модели, характерной для процесса биофармацевтического производства, включает адаптацию модели машинного обучения на основе гауссовского процесса, характерной для этого процесса биофармацевтического производства.
  10. 10. Реализуемый на компьютере способ по любому из пп.1-9, в котором адаптация локальной модели, характерной для процесса биофармацевтического производства, включает адаптацию модели, которая зависит как от спектральных данных, так и от номера выборки данного набора данных наблюдений.
  11. 11. Реализуемый на компьютере способ по любому из пп.1-10, в котором предсказание аналитического измерения процесса биофармацевтического производства включает использование локальной модели для определения индикатора достоверности, связанного с предсказанным аналитическим измерением процесса биофармацевтического производства.
  12. 12. Реализуемый на компьютере способ по любому из пп.1-11, который дополнительно включает управление одним или более процессорами и на основе, по меньшей мере, частично предсказанного аналитического измерения процесса биофармацевтического производства по меньшей мере одним параметром процесса биофармацевтического производства.
  13. 13. Реализуемый на компьютере способ по любому из пп.1-12, в котором предсказанное аналитиче-
    - 27 043314 ское измерение процесса биофармацевтического производства представляет собой концентрацию компонентов питательной среды, состояние питательной среды, плотность жизнеспособных клеток, титр, критический показатель качества или состояние клеток.
  14. 14. Реализуемый на компьютере способ по любому из пп.1-13, в котором предсказанное аналитическое измерение процесса биофармацевтического производства представляет собой концентрацию глюкозы, лактата, глутамата, глутамина, аммиака, аминокислот, Na+ или K+.
  15. 15. Реализуемый на компьютере способ по любому из пп.1-13, в котором предсказанное аналитическое измерение процесса биофармацевтического производства представляет собой рН, рСО2, рО2, температуру или осмоляльность.
  16. 16. Реализуемый на компьютере способ по любому из пп.1-15, который дополнительно включает получение при помощи аналитического прибора фактического аналитического измерения процесса биофармацевтического производства и обеспечение одним или более процессорами добавления (i) спектральных данных, которые сгенерировала система спектроскопии при получении фактического аналитического измерения, и (ii) фактического аналитического измерения процесса биофармацевтического производства в базу данных наблюдений.
  17. 17. Реализуемый на компьютере способ по п.16, который дополнительно включает определение одним или более процессорами того, что, по меньшей мере, предсказанное аналитическое измерение не удовлетворяет одному или более критериям качества модели, при этом получение фактического аналитического измерения выполняют в ответ на определение того, что, по меньшей мере, предсказанное аналитическое измерение не удовлетворяет одному или более критериям качества модели.
  18. 18. Реализуемый на компьютере способ по п.17, в котором определение того, что, по меньшей мере, предсказанное аналитическое измерение не удовлетворяет одному или более критериям качества модели, включает генерирование интервала правдоподобия, связанного с предсказанным аналитическим измерением; и сравнение интервала правдоподобия с предварительно заданным пороговым значением.
  19. 19. Реализуемый на компьютере способ по любому из пп.1-18, в котором процесс биофармацевтического производства представляет собой процесс культивирования клеток.
  20. 20. Система спектроскопии для отслеживания процесса биофармацевтического производства и/или управления им, при этом система спектроскопии содержит один или более спектроскопических зондов, совместно выполненных с возможностью (i) обеспечения электромагнитного излучения источника для процесса биофармацевтического производства и (ii) сбора электромагнитного излучения во время обеспечения электромагнитного излучения источника для процесса биофармацевтического производства;
    одно или более запоминающих устройств, совместно хранящих базу данных наблюдений, содержащую множество наборов данных наблюдений, связанных с прошлыми наблюдениями процессов биофармацевтического производства, при этом каждый из наборов данных наблюдений содержит спектральные данные и соответствующее фактическое аналитическое измерение и один или более процессоров, выполненных с возможностью определения точки запроса базы данных наблюдений, связанной со сканированием процесса биофармацевтического производства системой спектроскопии, запроса базы данных наблюдений, по меньшей мере, путем выбора в качестве обучающих данных из множества наборов данных наблюдений наборов данных наблюдений, которые удовлетворяют одному или более критериям релевантности относительно точки запроса базы данных наблюдений, адаптации с использованием выбранных обучающих данных локальной модели, характерной для процесса биофармацевтического производства, при этом локальная модель обучена предсказывать аналитические измерения на основе входных спектральных данных, и предсказания аналитического измерения процесса биофармацевтического производства, по меньшей мере, путем использования локальной модели для анализа спектральных данных, которые сгенерировала система спектроскопии при сканировании процесса биофармацевтического производства при помощи одного или более спектроскопических зондов.
  21. 21. Система спектроскопии по п.20, в которой система спектроскопии представляет собой систему рамановской спектроскопии.
  22. 22. Система спектроскопии по п.20 или 21, в которой один или более процессоров выполнены с возможностью определения точки запроса базы данных наблюдений на основе, по меньшей мере частично, вектора спектрального сканирования, при этом вектор спектрального сканирования сгенерирован системой спектроскопии при сканировании процесса биофармацевтического производства; и выбора обучающих данных, по меньшей мере, путем сравнения вектора спектрального сканирования, на котором было основано определение точки запроса базы данных наблюдений, с векторами спек- 28 043314 трального сканирования, связанными с прошлыми наблюдениями процессов биофармацевтического производства.
  23. 23. Система спектроскопии по п.22, в которой один или более процессоров выполнены с возможностью определения точки запроса базы данных наблюдений на основе частично номера выборки, связанного с вектором спектрального сканирования; и выбора в качестве обучающих данных наборов данных наблюдений, которые удовлетворяют одному или более критериям релевантности относительно точки запроса базы данных наблюдений, частично путем (i) сравнения вектора спектрального сканирования, на котором было основано определение точки запроса базы данных наблюдений, с векторами спектрального сканирования, связанными с прошлыми наблюдениями процессов биофармацевтического производства, и (ii) сравнения номера выборки, связанного с точкой запроса базы данных наблюдений, с номерами выборок, связанными с прошлыми наблюдениями процессов биофармацевтического производства.
  24. 24. Система спектроскопии по п.23, в которой один или более процессоров выполнены с возможностью выбора в качестве обучающих данных наборов данных наблюдений, которые удовлетворяют одному или более критериям релевантности относительно точки запроса базы данных наблюдений, частично путем выбора самых недавних k наборов данных наблюдений для включения в обучающие данные.
  25. 25. Система спектроскопии по любому из пп.20-24, в которой локальная модель представляет собой модель машинного обучения на основе гауссовского процесса.
  26. 26. Система спектроскопии по любому из пп.20-25, в которой локальная модель зависит как от спектральных данных, так и от номера выборки данного набора данных наблюдений.
  27. 27. Система спектроскопии по любому из пп.20-26, в которой один или более процессоров дополнительно выполнены с возможностью использования локальной модели для определения индикатора достоверности, связанного с предсказанным аналитическим измерением процесса биофармацевтического производства.
  28. 28. Система спектроскопии по любому из пп.20-27, в которой один или более процессоров дополнительно выполнены с возможностью управления на основе, по меньшей мере, частично предсказанного аналитического измерения процесса биофармацевтического производства по меньшей мере одним параметром процесса биофармацевтического производства.
  29. 29. Система спектроскопии по любому из пп.20-28, в которой предсказанное аналитическое измерение процесса биофармацевтического производства представляет собой концентрацию компонентов питательной среды, состояние питательной среды, плотность жизнеспособных клеток, титр, критический показатель качества или состояние клеток.
  30. 30. Система спектроскопии по любому из пп.20-29, в которой предсказанное аналитическое измерение процесса биофармацевтического производства представляет собой концентрацию глюкозы, лактата, глутамата, глутамина, аммиака, аминокислот, Na+ или K+.
  31. 31. Система спектроскопии по любому из пп.20-29, в которой предсказанное аналитическое измерение процесса биофармацевтического производства представляет собой рН, рСО2, рО2, температуру или осмоляльность.
  32. 32. Система спектроскопии по любому из пп.20-31, которая дополнительно содержит аналитический прибор, выполненный с возможностью получения фактического аналитического измерения процесса биофармацевтического производства, при этом один или более процессоров дополнительно выполнены с возможностью обеспечения добавления (i) спектральных данных, которые сгенерировала система спектроскопии при получении фактического аналитического измерения, и (ii) фактического аналитического измерения процесса биофармацевтического производства в базу данных наблюдений.
  33. 33. Система спектроскопии по п.32, в которой один или более процессоров дополнительно выполнены с возможностью определения того, что, по меньшей мере, предсказанное аналитическое измерение не удовлетворяет одному или более критериям качества модели; и получения фактического аналитического измерения из аналитического прибора в ответ на определение того, что, по меньшей мере, предсказанное аналитическое измерение не удовлетворяет одному или более критериям качества модели.
  34. 34. Система спектроскопии по п.33, в которой один или более процессоров выполнены с возможностью определения того, что, по меньшей мере, предсказанное аналитическое измерение не удовлетворяет одному или более критериям качества модели, по меньшей мере, путем генерирования интервала правдоподобия, связанного с предсказанным аналитическим измерением; и сравнения интервала правдоподобия с предварительно заданным пороговым значением.
  35. 35. Система спектроскопии по любому из пп.20-34, в которой процесс биофармацевтического производства представляет собой процесс культивирования клеток.
    - 29 043314
  36. 36. Энергонезависимый машиночитаемый носитель данных, на котором хранятся команды для отслеживания процесса биофармацевтического производства и/или управления им, при этом команды при исполнении одним или более процессорами обеспечивают выполнение одним или более процессорами реализуемого на компьютере способа отслеживания процесса биофармацевтического производства и/или управления им по любому одному из пп.1-19.
  37. 37. Биореакторная система, содержащая камеру биореактора, выполненную для вмещения процесса биофармацевтического производства;
    один или более спектроскопических зондов, совместно выполненных с возможностью (i) обеспечения электромагнитного излучения источника для процесса биофармацевтического производства и (ii) сбора электромагнитного излучения во время обеспечения электромагнитного излучения источника для процесса биофармацевтического производства;
    одно или более запоминающих устройств, совместно хранящих базу данных наблюдений, содержащую множество наборов данных наблюдений, связанных с прошлыми наблюдениями процессов биофармацевтического производства, при этом каждый из наборов данных наблюдений содержит спектральные данные и соответствующее фактическое аналитическое измерение; и один или более процессоров, выполненных с возможностью определения точки запроса базы данных наблюдений, связанной со сканированием процесса биофармацевтического производства системой спектроскопии, запроса базы данных, по меньшей мере, путем выбора в качестве обучающих данных из множества наборов данных наблюдений наборов данных наблюдений, которые удовлетворяют одному или более критериям релевантности относительно точки запроса базы данных наблюдений, адаптации с использованием выбранных обучающих данных локальной модели, характерной для процесса биофармацевтического производства, при этом локальная модель обучена предсказывать аналитические измерения на основе входных спектральных данных, и предсказания аналитического измерения процесса биофармацевтического производства, по меньшей мере, путем использования локальной модели для анализа спектральных данных, которые сгенерировала система спектроскопии при сканировании процесса биофармацевтического производства при помощи одного или более спектроскопических зондов.
  38. 38. Биореакторная система по п.37, в которой один или более процессоров выполнены с возможностью определения точки запроса базы данных наблюдений на основе, по меньшей мере частично, вектора спектрального сканирования, при этом вектор спектрального сканирования сгенерирован при сканировании процесса биофармацевтического производства при помощи одного или более спектроскопических зондов; и выбора обучающих данных, по меньшей мере, путем сравнения вектора спектрального сканирования, на котором было основано определение точки запроса базы данных наблюдений, с векторами спектрального сканирования, связанными с прошлыми наблюдениями процессов биофармацевтического производства.
  39. 39. Биореакторная система по п.38, в которой один или более процессоров выполнены с возможностью определения точки запроса базы данных наблюдений на основе частично номера выборки, связанного с вектором спектрального сканирования; и выбора в качестве обучающих данных наборов данных наблюдений, которые удовлетворяют одному или более критериям релевантности относительно точки запроса базы данных наблюдений, частично путем (i) сравнения вектора спектрального сканирования, на котором было основано определение точки запроса базы данных наблюдений, с векторами спектрального сканирования, связанными с прошлыми наблюдениями процессов биофармацевтического производства, и (ii) сравнения номера выборки, связанного с точкой запроса базы данных наблюдений, с номерами выборок, связанными с прошлыми наблюдениями процессов биофармацевтического производства.
  40. 40. Биореакторная система по п.39, в которой один или более процессоров выполнены с возможностью выбора в качестве обучающих данных наборов данных наблюдений, которые удовлетворяют одному или более критериям релевантности относительно точки запроса базы данных наблюдений, частично путем выбора самых недавних k наборов данных наблюдений для включения в обучающие данные.
  41. 41. Биореакторная система по любому из пп.37-40, в которой локальная модель представляет собой модель машинного обучения на основе гауссовского процесса.
  42. 42. Биореакторная система по любому из пп.37-41, в которой локальная модель зависит как от спектральных данных, так и от номера выборки данного набора данных наблюдений.
  43. 43. Биореакторная система по любому из пп.37-42, в которой один или более процессоров дополнительно выполнены с возможностью использования локальной модели для определения индикатора достоверности, связанного с предсказанным аналитическим измерением процесса биофармацевтического производства.
    -
EA202191101 2018-10-23 2019-10-23 Автоматическая калибровка и автоматическое обслуживание рамановских спектроскопических моделей для предсказаний в реальном времени EA043314B1 (ru)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US62/749,359 2018-10-23
US62/833,044 2019-04-12
US62/864,565 2019-06-21

Publications (1)

Publication Number Publication Date
EA043314B1 true EA043314B1 (ru) 2023-05-12

Family

ID=

Similar Documents

Publication Publication Date Title
US20220128474A1 (en) Automatic calibration and automatic maintenance of raman spectroscopic models for real-time predictions
US11609120B2 (en) Automated control of cell culture using Raman spectroscopy
Berry et al. Quick generation of R aman spectroscopy based in‐process glucose control to influence biopharmaceutical protein product quality during mammalian cell culture
Neuber et al. Characterization and screening of IgG binding to the neonatal Fc receptor
Sokolov et al. Sequential multivariate cell culture modeling at multiple scales supports systematic shaping of a monoclonal antibody toward a quality target
Yilmaz et al. Application of Raman spectroscopy in monoclonal antibody producing continuous systems for downstream process intensification
Oitate et al. Prediction of human pharmacokinetics of therapeutic monoclonal antibodies from simple allometry of monkey data
Kelley et al. Integration of QbD risk assessment tools and overall risk management
WO2016196315A2 (en) Cell culture methods and systems
Kaur Stability testing in monoclonal antibodies
Kozma et al. On-line prediction of the glucose concentration of CHO cell cultivations by NIR and Raman spectroscopy: comparative scalability test with a shake flask model system
US20150204884A1 (en) Methods of evaluating and making biologics
BR112021009543A2 (pt) métodos para identificar tióis livres em um medicamento de proteína, de identificação de heterogeneidade de dissulfeto em um medicamento de proteína e para selecionar um medicamento de proteína, e, composição farmacêutica
Schiel et al. Monoclonal antibody therapeutics: the need for biopharmaceutical reference materials
TW202326113A (zh) 使用光譜學進行的基於深度學習的預測
WO2020246617A1 (ja) 情報処理システム、情報処理方法、プログラム、及び、抗原結合分子或いはタンパク質を製造する方法
Bolisetty et al. Enabling speed to clinic for monoclonal antibody programs using a pool of clones for IND-enabling toxicity studies
EA043314B1 (ru) Автоматическая калибровка и автоматическое обслуживание рамановских спектроскопических моделей для предсказаний в реальном времени
CN113924355A (zh) 用于监测和自动控制灌流细胞培养的拉曼光谱集成灌流细胞培养系统
TWI844570B (zh) 用於即時預測的拉曼光譜模型之自動校準及自動維護
US20200339663A1 (en) Antibody variants
Wang et al. Generation and characterization of a unique reagent that recognizes a panel of recombinant human monoclonal antibody therapeutics in the presence of endogenous human IgG
Aubrey et al. Antibody fragments humanization: Beginning with the end in mind
JP2021523349A (ja) タンパク質の粘度を定量化および改変するためのシステムおよび方法
Beck et al. Therapeutic antibodies and related products: choosing the right structure for success