JP2021071932A

JP2021071932A - 装置、方法およびプログラム

Info

Publication number: JP2021071932A
Application number: JP2019198308A
Authority: JP
Inventors: 順二山本; Junji Yamamoto; 鹿子木　宏明; Hiroaki Kaneki; 宏明鹿子木; 恵一郎小渕; Keiichiro Obuchi; 陽太古川; Yota Furukawa; 嶺唐澤; Rei Karasawa; 安部　裕人; Hiroto Abe; 裕人安部
Original assignee: Yokogawa Electric Corp; Yokogawa Solution Service Corp
Current assignee: Yokogawa Electric Corp; Yokogawa Solution Service Corp
Priority date: 2019-10-31
Filing date: 2019-10-31
Publication date: 2021-05-06
Anticipated expiration: 2039-10-31
Also published as: EP3816735A1; US12117784B2; JP7181849B2; CN112750500A; EP3816735B1; US20210132556A1; CN112750500B

Abstract

【課題】製造システムの好適な動作内容を得られる製造システムを提供する。【解決手段】製造対象物を製造する製造システムに対して動作内容を設定する設定部と、動作内容の設定後での製造システムおよび製造対象物の少なくとも一方の状態を示す事後状態パラメータセットを取得する第１取得部と、動作内容と、事後状態パラメータセットとを含む学習データを用いて、製造システムおよび製造対象物の少なくとも一方の状態を示す状態パラメータセットの入力に応じ、予め設定された報酬関数により定まる報酬値を高める動作内容を出力する製造システムの制御モデルの学習処理を実行する学習処理部と、を備える装置。【選択図】図１

Description

本発明は、装置、方法およびプログラムに関する。

従来、細胞などの製造システムにおいて、製造を効率化する種々の手法が提案されている（例えば非特許文献１〜４参照）。
非特許文献１亀倉晃一ほか、「バイオ医薬品製造プラント」、ＩＨＩ技報、第４９巻、第２号、２００９年、ｐ.６７〜ｐ.７３
非特許文献２塩屋捨明、「培養操作の最適化とその実現」、計測と制御、第３４巻、第１号、１９９５年、ｐ.１１〜ｐ.１７
非特許文献３大政健史、「バイオ医薬品生産におけるプロダクションサイエンス」、生物工学、第９１巻、第９号、２０１３年、ｐ.５０７〜ｐ.５１０
非特許文献４松崎淳一、「バイオ医薬品産業の現状と課題」、生物工学、第９１巻、第９号、２０１３年、ｐ.４９５〜ｐ.４９８

しかしながら、従来の手法では、製造システムの好適な動作内容を得られない場合がある。

上記課題を解決するために、本発明の第１の態様においては、装置が提供される。装置は、製造対象物を製造する製造システムに対して動作内容を設定する設定部を備えてよい。装置は、動作内容の設定後での製造システムおよび製造対象物の少なくとも一方の状態を示す事後状態パラメータセットを取得する第１取得部を備えてよい。装置は、動作内容と、事後状態パラメータセットとを含む学習データを用いて、製造システムおよび製造対象物の少なくとも一方の状態を示す状態パラメータセットの入力に応じ、予め設定された報酬関数により定まる報酬値を高める動作内容を出力する製造システムの制御モデルの学習処理を実行する学習処理部を備えてよい。

学習処理部は、一の状態パラメータセットが制御モデルに入力されたことに応じて出力される一の動作内容の設定結果に応じた報酬値の増加幅が基準幅未満であった場合に、当該一の状態パラメータセットの入力に応じて当該一の動作内容を出力しないよう制御モデルの学習処理を実行してよい。

動作内容は、製造システムに対して能動的に設定可能な複数種類の能動変数を有してよい。学習処理部は、一の状態パラメータセットが制御モデルに入力されたことに応じて、複数種類の能動変数のうち一の能動変数の値のみが相違する第１の動作内容および第２の動作内容が出力され、一の状態パラメータセットで示される状態で第１の動作内容および第２の動作内容それぞれを別々に設定した結果に応じた報酬値同士の差分が基準幅未満である場合に、一状態パラメータセットの入力に応じて複数種類の能動変数のうち一の能動変数を含まない動作内容を出力するよう制御モデルの学習処理を実行してよい。

装置は、動作内容の変動パターンを複数記憶する第１記憶部をさらに備えてよい。設定部は、一の状態パラメータセットが制御モデルに入力されたことに応じて複数の動作内容が取得された場合に、第１記憶部内の各変動パターンと、当該設定部によって設定される動作内容の変動パターンとが一致しないように、複数の動作内容のいずれか１つを設定してよい。

装置は、動作内容の変動パターンを複数記憶する第１記憶部をさらに備えてよい。報酬値は、設定部によって設定される場合に第１記憶部内の何れかの変動パターンと一致する変動パターンをなす動作内容に対して、より低く算出されてよい。

装置は、製造システムの外部環境を示す環境情報を取得する環境情報取得部をさらに備えてよい。学習処理部は、外部環境ごとに制御モデルの学習処理を実行してよい。

学習処理部は、一の外部環境に対して学習処理が実行された制御モデルを用いて転移学習を行い、他の外部環境に対する学習処理を実行してよい。

装置は、状態パラメータセットを取得する第２取得部をさらに備えてよい。装置は、制御モデルに対し、第２取得部により取得された状態パラメータセットを入力するパラメータ入力部をさらに備えてよい。装置は、状態パラメータセットを制御モデルに入力したことに応じて制御モデルが出力する動作内容を取得する第３取得部をさらに備えてよい。設定部は、第３取得部により取得された動作内容を製造システムに対して設定してよい。

装置は、事後状態パラメータセットに含まれる少なくとも１つの事後状態パラメータから報酬値を算出する算出部をさらに備えてよい。学習処理部は、算出部によって算出された報酬値をさらに用いて学習処理を実行してよい。

学習処理部は、一の状態パラメータセットを制御モデルに入力したことに応じて出力された一の動作内容が製造システムに設定された結果、算出部により算出される報酬値が目標条件を満たす場合に、当該一の状態パラメータセットの入力に応じて当該一の動作内容が出力されるよう制御モデルの学習処理を実行してよい。装置は、これら一の動作内容および一の状態パラメータセットを対応付けて出力する出力部をさらに備えてよい。

装置は、第２取得部による状態パラメータセットの取得と、第３取得部による動作内容の取得と、設定部による動作内容の設定とを順に繰り返し実行させて製造対象物を製造させる制御部をさらに備えてよい。

装置は、一の状態パラメータセットが制御モデルに入力されたことに応じて出力された一の動作内容が製造システムに設定されて一の事後状態パラメータセットが取得され、当該一の事後状態パラメータセットに基づいて算出される報酬値が目標条件を満たす場合に、当該一の動作内容と、一の状態パラメータセットと、一の事後状態パラメータセットとを対応付けて蓄積記憶する第２記憶部をさらに備えてよい。装置は、第２取得部により取得された状態パラメータセットで示される状態から、報酬値が目標条件を満たす動作内容を逐次設定する場合での、各事後状態パラメータセットに含まれる少なくとも１つの事後状態パラメータに応じた値の推移を、第２記憶部の記憶内容に基づいて予測する予測部をさらに備えてよい。

事後状態パラメータセットには、製造システムおよび製造対象物中の少なくとも一方に存在する異物の量が含まれてよい。予測部は、異物の量が上限値を超えると予測される場合に、その旨を報知してよい。

装置は、学習データを蓄積記憶する第３記憶部をさらに備えてよい。装置は、第３記憶部内の複数の事後状態パラメータセットのうち、基準条件を満たさない２以上の事後状態パラメータセットに対応する動作内容の間での共通内容、および、基準条件を満たす２以上の事後状態パラメータセットに対応する動作内容の間での共通内容の少なくとも一方を検出する検出部をさらに備えてよい。

本発明の第２の態様においては、装置が提供される。装置は、製造システムおよび製造システムによる製造対象物の少なくとも一方の状態を示す状態パラメータセットを取得する第２取得部を備えてよい。装置は、状態パラメータセットの入力に応じ、予め設定された報酬関数により定まる報酬値を高める動作内容を出力する製造システムの制御モデルに対し、第２取得部により取得された状態パラメータセットを入力するパラメータ入力部を備えてよい。装置は、状態パラメータセットを制御モデルに入力したことに応じて制御モデルが出力する動作内容を取得する第３取得部を備えてよい。

製造システムは、細胞を培養するシステムであってよい。

本発明の第３の態様においては、方法が提供される。方法は、製造対象物を製造する製造システムに対して動作内容を設定する設定段階を備えてよい。方法は、動作内容の設定後での製造システムおよび製造対象物の少なくとも一方の状態を示す事後状態パラメータセットを取得する第１取得段階を備えてよい。方法は、動作内容と、事後状態パラメータセットとを含む学習データを用いて、製造システムおよび製造対象物の少なくとも一方の状態を示す状態パラメータセットの入力に応じ、予め設定された報酬関数により定まる報酬値を高める動作内容を出力する製造システムの制御モデルの学習処理を実行する学習処理段階を備えてよい。

本発明の第４の態様においては、方法が提供される。方法は、製造システムおよび製造システムによる製造対象物の少なくとも一方の状態を示す状態パラメータセットを取得する第２取得段階を備えてよい。方法は、状態パラメータセットの入力に応じ、予め設定された報酬関数により定まる報酬値を高める動作内容を出力する製造システムの制御モデルに対し、第２取得段階により取得された状態パラメータセットを入力するパラメータ入力段階を備えてよい。方法は、状態パラメータセットを制御モデルに入力したことに応じて制御モデルが出力する動作内容を取得する第３取得段階を備えてよい。

本発明の第５の態様においては、プログラムが提供される。プログラムは、コンピュータを、製造対象物を製造する製造システムに対して動作内容を設定する設定部として機能させてよい。プログラムは、コンピュータを、動作内容の設定後での製造システムおよび製造対象物の少なくとも一方の状態を示す事後状態パラメータセットを取得する第１取得部として機能させてよい。プログラムは、コンピュータを、動作内容と、事後状態パラメータセットとを含む学習データを用いて、製造システムおよび製造対象物の少なくとも一方の状態を示す状態パラメータセットの入力に応じ、予め設定された報酬関数により定まる報酬値を高める動作内容を出力する製造システムの制御モデルの学習処理を実行する学習処理部として機能させてよい。

本発明の第６の態様においては、プログラムが提供される。プログラムは、コンピュータを、製造システムおよび製造システムによる製造対象物の少なくとも一方の状態を示す状態パラメータセットを取得する第２取得部として機能させてよい。プログラムは、コンピュータを、状態パラメータセットの入力に応じ、予め設定された報酬関数により定まる報酬値を高める動作内容を出力する製造システムの制御モデルに対し、第２取得部により取得された状態パラメータセットを入力するパラメータ入力部として機能させてよい。プログラムは、コンピュータを、状態パラメータセットを制御モデルに入力したことに応じて制御モデルが出力する動作内容を取得する第３取得部として機能させてよい。

なお、上記の発明の概要は、本発明の必要な特徴の全てを列挙したものではない。また、これらの特徴群のサブコンビネーションもまた、発明となりうる。

本実施形態に係るシステム１を示す。学習の初期段階での制御モデル３１２の入出力を示す。学習の完了後での制御モデル３１２の入出力を示す。第２記憶部３２２の記憶内容を示す。制御部３１８による制御内容を示す。装置３の動作を示す。装置３の他の動作を示す。本発明の複数の態様が全体的または部分的に具現化されてよいコンピュータ２２００の例を示す。

以下、発明の実施の形態を通じて本発明を説明するが、以下の実施形態は特許請求の範囲にかかる発明を限定するものではない。また、実施形態の中で説明されている特徴の組み合わせの全てが発明の解決手段に必須であるとは限らない。

［１．システム１］
図１は、本実施形態に係るシステム１を示す。システム１は、バイオリアクタ２と装置３とを備える。

［１．１．バイオリアクタ２］
バイオリアクタ２は、製造対象物を製造する製造システムの一例である。バイオリアクタ２は、特定の機能（一例として特定のタンパク質を生成する機能）を有する細胞を培養し、製造対象物として製造してよい。バイオリアクタ２は、外部から入力される動作内容に応じて動作して、当該バイオリアクタ２の状態、ひいては細胞の状態を変化させる。

動作内容は、バイオリアクタ２において行われる動作の内容を示し、本実施形態では一例として、基準時間内で継続して行われる動作内容を示す。動作内容は、バイオリアクタ２に対して能動的に設定可能な少なくとも１種類（本実施形態では複数種類）の能動変数を有してよい。各動作内容に含まれる能動変数は互いに同種であってもよいし、少なくとも一部が異なってもよい。能動変数は、プロセス値（ｐｒｏｃｅｓｓｖａｌｕｅ）の設定値（ｓｅｔｐｏｉｎｔ、目標値）、操作変数（ＭａｎｉｐｕｌａｔｅＶａｒｉａｂｌｅ）、製造のための設備要件、および、処理順序（手順、プロシジャ）の少なくとも１つを含んでよい。プロセス値の設定値は、一例として、温度設定値やｐＨ設定値などであってよい。操作変数は、一例として、ヒータへの供給電力や、培地投入量、酸・アルカリ溶液投入量、培養液や内部気体を撹拌するための撹拌翼の回転数、反応槽の通気量などであってよい。設備要件は、一例として、反応槽の構造や材質、培養液を撹拌するための撹拌翼の形状、反応槽の通気方法などであってよい。

バイオリアクタ２の状態は、一例として、培養液の温度や、ｐＨ、培養液の流速、培養液中の酸素濃度、二酸化炭素濃度、栄養素の濃度、バイオリアクタ２内に存在する異物の量、反応槽の圧力などであってよい。細胞の状態は、培養される細胞の収率、均質性、機能性（一例として特定のタンパク質を生成する性能）、濃度、個数、分布、サイズ、重量、生産量（増加量）、培養液の撹拌などにより細胞に加わるせん断応力、細胞内に存在する異物の量などであってよい。異物の量は絶対的な量であってもよいし、全体量に対する相対的な量（一例として割合）であってもよい。

［１．２．装置３］
装置３は、バイオリアクタ２における細胞培養を支援する。装置３は、第１記憶部３００と、設定部３０２と、パラメータ取得部３０４と、算出部３０６と、環境情報取得部３０８と、パラメータ入力部３１０と、１または複数の制御モデル３１２と、学習処理部３１４と、動作内容取得部３１６と、制御部３１８と、出力部３２０と、第２記憶部３２２と、予測部３２４と、第３記憶部３２６と、検出部３２８とを有する。

［１．２．１．第１記憶部３００］
第１記憶部３００は、動作内容の変動パターンを複数記憶する。記憶される変動パターンは、一例として既知の変動パターンであってよい。

［１．２．２．設定部３０２］
設定部３０２は、バイオリアクタ２に対して動作内容を設定する。設定部３０２は、基準時間ごとに動作内容を設定してよい。設定部３０２は、動作内容取得部３１６から供給される動作内容をバイオリアクタ２に設定してよい。一の基準時間について複数の動作内容が動作内容取得部３１６から供給される場合には、詳細は後述するものの、設定部３０２は第１記憶部３００内の変動パターンに基づいて一の動作内容を選択してバイオリアクタ２に設定してよい。設定部３０２は、設定した動作内容を学習処理部３１４、第２記憶部３２２および第３記憶部３２６に供給してよい。

［１．２．３．パラメータ取得部３０４］
パラメータ取得部３０４は、第１取得部および第２取得部の一例であり、バイオリアクタ２および細胞の少なくとも一方の状態を示す状態パラメータセットを取得する。状態パラメータセットは、取得された時点（一例として現時点）での状態を示してよい。状態パラメータセットは、設定部３０２による動作内容の設定後の時点で取得されている場合には事後状態パラメータセットと称されてもよいし、設定部３０２による動作内容の設定前の時点で取得されている場合には事前状態パラメータセットと称されてもよい。状態パラメータセットには、バイオリアクタ２および細胞の少なくとも一方の状態を示す状態パラメータが少なくとも１つ含まれてよい。

パラメータ取得部３０４は、バイオリアクタ２を観測することで状態パラメータセットを取得してもよいし、バイオリアクタ２に設けられたセンサ（図示せず）から状態パラメータセットを取得してもよいし、バイオリアクタ２やセンサを確認したオペレータから状態パラメータセットを取得してもよいし、これらを組み合わせて取得された複数の状態パラメータを纏めることで状態パラメータセットを取得してもよい。オペレータから取得される状態パラメータは、数値範囲であってもよい。また、オペレータから取得される状態パラメータには、培養する細胞の種類が含まれてよい。パラメータ取得部３０４は、取得した状態パラメータセットを算出部３０６、パラメータ入力部３１０、学習処理部３１４、第２記憶部３２２および第３記憶部３２６に供給してよい。

［１．２．４．算出部３０６］
算出部３０６は、パラメータセット（一例として事後状態パラメータセット）に含まれる少なくとも１つの状態パラメータ（一例として事後状態パラメータ）から報酬値を算出する。算出部３０６は、算出した報酬値を学習処理部３１４に供給してよい。

報酬値は、予め定められた報酬関数によって定まるものであり、学習処理部３１４による制御モデル３１２の強化学習に用いられてよい。報酬値は、いわゆるＫＰＩ（ＫｅｙＰｅｒｆｏｒｍａｎｃｅＩｎｄｉｃａｔｅｒ）であってよく、例えばバイオリアクタ２から得られる利益、培養される細胞の品質、バイオリアクタ２の動作時の安全性、および、環境負荷の低さの何れか１つを示してもよいし、これらの複数を総合的に評価した値でもよい。報酬値は、単一の状態パラメータの値そのものであってもよい。

なお、算出部３０６は、事後状態パラメータセットからＫＰＩを算出し、目標値に達したか否かを検出してもよいし、目標値に対する達成割合を算出してもよい。算出部３０６は、これらの結果を装置３の外部に出力してよい。なお、装置３の外部に出力するとは、ディスプレイ（図示せず）から表示することであってもよいし、プリンタ（図示せず）から印刷することであってもよいし、記録媒体に記録することであってもよい。

［１．２．５．環境情報取得部３０８］
環境情報取得部３０８は、バイオリアクタ２の外部環境を示す環境情報を取得する。外部環境は、バイオリアクタ２の設置環境の気温および湿度の少なくとも１つであってよい。これに代えて、またはこれに加えて、外部環境はバイオリアクタ２に供給される原材料の特性を含んでよい。環境情報取得部３０８は、バイオリアクタ２の設置位置に設けられたセンサ（図示せず）から環境情報を取得してもよいし、オペレータから環境情報を取得してもよいし、これらを組み合わせて環境情報を取得してもよい。環境情報取得部３０８は、取得した環境情報をパラメータ入力部３１０および学習処理部３１４に供給してよい。

［１．２．６．パラメータ入力部３１０］
パラメータ入力部３１０は、制御モデル３１２および予測部３２４に対し、パラメータ取得部３０４により取得された状態パラメータセット（一例として事後状態パラメータセット）を入力する。パラメータ入力部３１０は、環境情報取得部３０８から取得した環境情報を併せて制御モデル３１２および予測部３２４に入力してよい。

［１．２．７．制御モデル３１２］
制御モデル３１２は、バイオリアクタ２を制御するためのモデルであり、状態パラメータセットの入力に応じ、報酬値を高める動作内容を出力する。パラメータ入力部３１０から状態パラメータセットに加えて環境情報も入力される場合には、制御モデル３１２は、入力された状態パラメータセットおよび環境情報に応じた動作内容を出力してよい。出力する動作内容は、状態パラメータセットで示される状態において設定されるべき動作内容であってよい。制御モデル３１２は、動作内容を動作内容取得部３１６に供給してよい。

制御モデル３１２は、学習処理部３１４による学習処理を受けてよい。制御モデル３１２は、学習が初期段階の場合には、一の状態パラメータセットの入力に応じ、互いに異なる複数の動作内容を出力してよい。

なお、本実施形態では一例として、装置３には、培養する細胞の種類や外部環境ごとに異なる複数の制御モデル３１２が具備されている。外部環境ごとに制御モデル３１２が異なるとは、環境情報に含まれる少なくとも１つのパラメータが基準範囲を超えて異なるごとに、制御モデル３１２が異なることであってよい。

［１．２．８．学習処理部３１４］
学習処理部３１４は、入力される学習データを用いて制御モデル３１２の学習処理を実行する。学習データは、設定部３０２から供給される動作内容のデータと、パラメータ取得部３０４から供給される事後状態パラメータセットのデータとを含んでよい。学習データは、パラメータ取得部３０４から供給される事前状態パラメータセットのデータをさらに含んでもよいし、事前状態パラメータセットと事後状態パラメータセットとの差分データをさらに含んでもよい。

学習処理部３１４は、算出部３０６によって算出された報酬値をさらに用いて学習処理を実行してよい。別言すれば、学習処理部３１４は強化学習を行ってよい。

学習処理部３１４は、一の状態パラメータセットを制御モデル３１２に入力したことに応じて出力された一の動作内容がバイオリアクタ２に設定され、その結果の状態を示す事後状態パラメータセットから算出される報酬値が目標条件を満たす場合に、当該一の状態パラメータセットの入力に応じて当該一の動作内容が出力されるよう制御モデル３１２の学習処理を実行してよい。これにより、一の状態パラメータセットで示される状態に対し、報酬値が目標条件を満たすような動作内容（好適な動作内容とも称する）が一意に定まる。学習処理部３１４は、このような一の状態パラメータセットと、当該状態パラメータセットに対して一意に定まった好適な動作内容とを対応付けて出力部３２０に供給してよい。

なお、目標条件は、報酬値が基準値より高くなることであってもよいし、最大値になることであってもよい。報酬値が最大値になるとは、一の状態パラメータセットの入力に対して制御モデル３１２から複数の動作内容が出力される場合に、これら複数の動作内容を別々に設定した場合に得られる複数の報酬値のなかでが最も大きい値を示すことであってよい。

学習処理部３１４は、培養する細胞の種類ごとに別々の制御モデル３１２の学習処理を行ってよい。また、学習処理部３１４は、外部環境ごとに別々の制御モデル３１２の学習処理を行ってよい。例えば、学習処理部３１４は、環境情報取得部３０８からの環境情報に含まれる少なくとも１つのパラメータが基準範囲を超えて変動した場合に、変動前後で別々の制御モデル３１２の学習処理を行ってよい。なお、制御モデル３１２が外部環境ごとに別々に設けられない場合には、学習処理部３１４は、環境情報も学習データに含めて単一の制御モデル３１２に対して学習処理を行ってよい。

学習処理部３１４は、外部環境ごとに学習処理を行う場合には、一の外部環境において一の状態パラメータセットで示される状態に対し、報酬値が目標条件を満たすような好適な動作内容が一意に定まった場合に、一の状態パラメータセットと、一の動作内容とに当該一の外部環境を示す環境情報をさらに対応付けて出力部３２０に供給してよい。学習処理部３１４は、一の外部環境に対して学習処理が実行された制御モデル３１２を用いて転移学習を行い、他の外部環境に対する学習処理を実行してよい。

［１．２．９．動作内容取得部３１６］
動作内容取得部３１６は、第３取得部の一例であり、状態パラメータセットを制御モデル３１２に入力したことに応じて制御モデル３１２が出力する一または複数の動作内容を取得する。動作内容取得部３１６は、取得した一または複数の動作内容を設定部３０２に供給してよい。

［１．２．１０．制御部３１８］
制御部３１８は、少なくとも設定部３０２、パラメータ取得部３０４、パラメータ入力部３１０、および、動作内容取得部３１６を制御する。例えば、制御部３１８は、パラメータ取得部３０４による状態パラメータセットの取得と、動作内容取得部３１６による動作内容の取得と、設定部３０２による動作内容の設定とを順に繰り返し実行させて、バイオリアクタ２に細胞を培養させてよい。なお、図示の簡略化のため、図中では制御部３１８から出力される制御信号の経路を省略している。制御部３１８は、装置３内の他の構成をさらに制御してもよい。

［１．２．１１．出力部３２０］
出力部３２０は、一の状態パラメータセットと、当該一の状態パラメータセットに対して一意に定まった好適な動作内容とを対応付けて出力する。学習処理部３１４から一の環境情報と、一の状態パラメータセットと、一の動作内容とが対応付けて供給された場合には、出力部３２０は、これらを対応付けて出力してよい。出力部３２０は、動作内容を装置３の外部に出力してよい。

［１．２．１２．第２記憶部３２２］
第２記憶部３２２は、報酬値が目標条件を満たす場合の学習履歴を記憶する。第２記憶部３２２は、一の状態パラメータセットが制御モデル３１２に入力されたことに応じて出力された一の動作内容がバイオリアクタ２に設定されて一の事後状態パラメータセットが取得され、当該一の事後状態パラメータセットに基づいて算出される報酬値が目標条件を満たす場合に、当該一の動作内容と、当該一の状態パラメータセットと、当該一の事後状態パラメータセットとを対応付けて蓄積記憶してよい。第２記憶部３２２は、パラメータ取得部３０４や環境情報取得部３０８からの入力に応じて、培養する細胞の種類や外部環境ごとに学習履歴を記憶してもよいし、細胞の種類や外部環境とは無関係に学習履歴を記憶してもよい。

［１．２．１３．予測部３２４］
予測部３２４は、パラメータ取得部３０４により取得された状態パラメータセットで示される状態から、報酬値が目標条件を満たす動作内容を逐次設定する場合での、少なくとも１つの事後状態パラメータに応じた値の推移を予測する。

予測部３２４は、第２記憶部３２２の記憶内容に基づいて予測を行ってよい。例えば、予測部３２４は、パラメータ取得部３０４により取得された状態パラメータセットに対して第２記憶部３２２において対応付けられた第１の事後状態パラメータセットを検出し、第１の事後状態パラメータセットと同内容の状態パラメータセットに対して第２記憶部３２２において対応付けられた第２の事後状態パラメータセットを検出し、以降、同様にして、第ｎ−１の事後状態パラメータセット（但しｎは２以上の整数）と同内容の状態パラメータセットに対して第２記憶部３２２において対応付けられた第ｎの事後状態パラメータセットを順に検出してよい。予測部３２４は、これら第１の事後状態パラメータセットから第ｎの事後状態パラメータセットまでのそれぞれに含まれる少なくとも１つの事後状態パラメータに応じた値の推移を特定することで、推移の予測を行ってよい。細胞の種類や外部環境ごとに学習履歴が第２記憶部３２２に記憶される場合には、予測部３２４は、パラメータ入力部３１０から入力される細胞の種類や環境情報に応じて、第２記憶部３２２内の記憶内容のうち、該当する細胞の種類および外部環境に対応する記憶内容に基づいて推移を予測してよい。

推移が予測される値は、事後状態パラメータの値（一例として細胞の生産量）そのものであってもよいし、上述の報酬値やＫＰＩであってもよい。予測部３２４は、予測される推移に応じた他の評価指標をさらに予測してもよく、一例として、細胞の生産量の推移から、目標数の細胞の培養に要する所要時間を予測してよい。予測部３２４は、予測結果を装置３の外部に出力してよい。

予測部３２４は、バイオリアクタ２および細胞の少なくとも一方に存在する異物の量を予測する場合には、異物の量が上限値を超えると予測される場合に、その旨をオペレータに報知してよい。なお、異物は圧力条件によってバイオリアクタ２内に混入し、温度条件に応じて増殖するため、これらの条件を設定する動作内容から異物の量が予測され得る。

［１．２．１４．第３記憶部３２６］
第３記憶部３２６は、学習データを蓄積記憶する。第３記憶部３２６は、バイオリアクタ２に設定された動作内容と、当該動作内容の設定後の状態を示す事後状態パラメータセットと、を対応付けた組を蓄積記憶してよい。第３記憶部３２６は、パラメータ入力部３１０や環境情報取得部３０８からの入力に応じて、培養する細胞の種類ごとや、外部環境ごとに学習データを記憶してもよいし、細胞の種類や外部環境とは無関係に学習データを記憶してもよい。

［１．２．１５．検出部３２８］
検出部３２８は、第３記憶部３２６内の複数の事後状態パラメータセットのうち、特定の２以上の事後状態パラメータセットに対応する動作内容の間での共通内容を検出する。検出部３２８は、基準条件を満たさない２以上の事後状態パラメータセットに対応する動作内容の間での共通内容を検出してよい。これに代えて、または、これに加えて、検出部３２８は、基準条件を満たす２以上の事後状態パラメータセットに対応する動作内容の間での共通内容を検出してよい。細胞の種類や外部環境ごとに学習データが第３記憶部３２６に記憶される場合には、検出部３２８は、パラメータ入力部３１０または環境情報取得部３０８から入力される細胞の種類や環境情報に応じて、第３記憶部３２６の記憶内容のうち、該当する細胞の種類および外部環境に対応する記憶内容から検出を行ってよい。検出部３２８は、細胞の種類とは無関係に検出を行ってもよい。この場合には、別々の細胞の培養で学習に用いられた動作内容の間での共通内容が検出され得る。検出部３２８は、検出結果を装置３の外部に出力してよい。

事後状態パラメータセットが基準条件を満たさないとは、事後状態パラメータセット内の何れかの事後状態パラメータ、あるいは、事後状態パラメータセット内の何れかの事後状態パラメータから定まるＫＰＩがその許容範囲に含まれないことであってよい。一例として、事後状態パラメータセットが基準条件を満たさないとは、細胞の生産量が１．１倍以上という許容範囲に含まれないことであってよい。動作内容の間での共通内容は、例えばヒータへの供給電力が或る値以上であることであってよい。

［１．２．１６．装置３により得られる効果］
以上の装置３によれば、バイオリアクタ２の動作内容と、動作内容の設定後での事後状態パラメータセットとを含む学習データを用いて、状態パラメータセットの入力に応じ報酬値を高める動作内容を出力する制御モデル３１２の学習処理が実行されるので、状態パラメータセットを入力することで、報酬値が高まる動作内容を得ることができる。従って、熟練したオペレータによる試行錯誤を必要とせずに、好適な動作内容を確実に得ることができる。

また、バイオリアクタ２は細胞の培養システムであるので、製造対象物の製造中に継続して収率や生産量に応じた報酬値を取得することができる。従って、製造が完了しないと収率や生産量が定まらない他の製造分野と比較して、効率的に学習を行うことができる。

また、外部環境ごとに制御モデル３１２の学習処理が実行されるので、外部環境が変化する場合にも好適な動作内容を得ることができる。

また、一の外部環境に対して学習処理が実行された制御モデル３１２を用いて転移学習が行われ他の外部環境に対する学習処理が実行されるので、学習を早期に完了することができる。

また、状態パラメータセットが制御モデル３１２に入力されたことに応じて出力される動作内容がバイオリアクタ２に対して設定されるので、状態パラメータセットに応じた動作内容でバイオリアクタ２を動作させて、学習処理を繰り返し実行することができる。

また、状態パラメータセットの取得と、動作内容の取得と、動作内容の設定とが順に繰り返し実行されて細胞が培養されるので、制御モデル３１２を用いて細胞の培養を行うことができる。そのため、制御モデル３１２の学習が完了している場合には、制御モデル３１２から出力される好適な動作内容を用いて細胞の培養を自動的に行うことができる。また、制御モデル３１２の学習が完了していない場合には、制御モデル３１２から出力される動作内容で細胞の培養を行い、学習処理を自動的に繰り返し実行することができる。

また、取得された状態パラメータセットで示される状態から、報酬値が目標条件を満たす動作内容を逐次設定する場合での事後状態パラメータに応じた値の推移が予測される。従って、バイオリアクタ２の管理を容易化することができる。

また、異物の量が上限値を超えると予測される場合に、その旨が報知されるので、異物量が高まる場合に培養を中断して品質を高めることができる。

また、事後状態パラメータセットに含まれる少なくとも１つの事後状態パラメータから報酬値が算出され、算出された報酬値を用いて学習処理が実行されるので、装置３の外部で算出される報酬値を装置に供給する場合と比較して、学習処理の速度を向上させることができる。

また、一の状態パラメータセットの入力に応じて制御モデル３１２から出力された一の動作内容がバイオリアクタ２に設定された結果の報酬値が目標条件を満たす場合に、当該一の状態パラメータセットの入力に応じて一の動作内容が出力されるよう学習処理が実行される。従って、当該一の状態パラメータセットが入力される場合の学習処理を完了させ、学習処理が無駄に繰り返されてしまうのを防止することができる。

また、目標条件を満たす報酬値に対応する動作内容が、当該動作内容を設定すべき状態の状態パラメータセットと対応付けて出力されるので、各状態下での好適な動作内容を装置３の外部で確認することができる。

また、複数の事後状態パラメータセットのうち、基準条件を満たさない２以上の事後状態パラメータセットに対応する動作内容の間での共通内容が検出されるので、不適当な状態を引き起こす動作内容の内容を把握することができる。また、複数の事後状態パラメータセットのうち、基準条件を満たす２以上の事後状態パラメータセットに対応する動作内容の間での共通内容が検出されるので、好適な状態を引き起こす動作内容の内容を把握することができる。

［２．制御モデル３１２の入出力］
図２は、学習の初期段階での制御モデル３１２の入出力を示す。

本実施形態では一例として、状態パラメータセットには状態パラメータＩ_Ａの値と、ＫＰＩとしての状態パラメータＩ_Ｂの値とが含まれる。また、動作内容には、能動変数Ｏ_Ａの値と、能動変数Ｏ_Ｂの値とが含まれる。１つの欄内に列挙された能動変数（例えばＯ_Ａ１，Ｏ_Ａ２'，…は、選択可能な能動変数の候補である。出力される動作内容は、各欄から任意の組み合わせで能動変数を選択したものであってよい。この図に示されるように、学習が初期段階の場合には、一の状態パラメータセットの入力に応じ、互いに異なる複数の動作内容が出力される。

なお、状態パラメータＩ_Ａ１，Ｉ_Ａ２，…，Ｉ_ＡＮは、状態パラメータＩ_Ａについての別々の値を示す。また、能動変数Ｏ_Ａ１，Ｏ_Ａ１'，Ｏ_Ａ１''，Ｏ_Ａ２は能動変数Ｏ_Ａについての別々の値を示す。ここで、状態パラメータＩ_Ａ，Ｉ_Ｂのとり得る値の個数はＮに限らず、互いに別々の個数であってもよい。

図３は、学習の完了後での制御モデル３１２の入出力を示す。この図に示されるように、学習の完了後には、一の状態パラメータセットの入力に応じ、単一の動作内容が出力される。

［３．第２記憶部３２２の記憶内容］
図４は、第２記憶部３２２の記憶内容を示す。第２記憶部３２２は、事前状態パラメータセットと、当該事前状態パラメータセットで示される状態で設定されることで報酬値が目標条件を満たす動作内容と、当該動作内容の設定後の事後状態パラメータセットとを対応付けた組を複数記憶してよい。これにより、予測部３２４において事後状態パラメータセットの推移（本図では一例として、事後状態パラメータセット（Ｉ_Ａ２，Ｉ_Ｂ２）→（Ｉ_Ａ４，Ｉ_Ｂ４）→（Ｉ_ＡＮ，Ｉ_ＢＮ））、ひいては何れかの事後状態パラメータに応じた値の推移の予測が可能となる。

［４．制御部３１８による制御］
図５は、制御部３１８による制御内容を示す。制御部３１８は、パラメータ取得部３０４による状態パラメータセットの取得と、動作内容取得部３１６による動作内容の取得と、設定部３０２による動作内容の設定とを順に繰り返し実行させて、バイオリアクタ２に細胞を培養させてよい。制御部３１８は、一の状態パラメータセットの入力に対して制御モデル３１２から複数の動作内容が出力される場合に、当該一の状態パラメータセットで示される状態のバイオリアクタ２に対し、これら複数の動作内容をそれぞれ設定部３０２によって設定させて、好適な動作内容の探索を行ってよい。制御部３１８は、外部環境ごとに好適な動作内容の探索を行ってよい。

［５．動作］
［５．１．学習時の動作］
図６は、装置３の動作を示す。装置３は、ステップＳ１１〜Ｓ２３の処理を行うことにより、バイオリアクタ２で細胞を培養しつつ制御モデル３１２を学習させる。なお、この動作は、培養する細胞ごとに行われてよい。

ステップＳ１１においてパラメータ取得部３０４は、状態パラメータセットを取得する。パラメータ取得部３０４は、現時点での状態パラメータセット、例えば設定部３０２によって動作内容が設定される前の事前状態パラメータセットを取得してよい。なお、ステップＳ１１においては、環境情報取得部３０８が環境情報をさらに取得してもよい。

ステップＳ１３においてパラメータ入力部３１０は、取得された状態パラメータセットを制御モデル３１２に入力する。環境情報取得部３０８によって環境情報が取得されている場合には、ステップＳ１３においてパラメータ入力部３１０は、当該環境情報を併せて制御モデル３１２に入力してもよい。

これにより、報酬値を高める動作内容が制御モデル３１２から出力される。ここで、報酬値を高める動作内容とは、当該動作内容の設定前の事前状態パラメータセットに応じた報酬値（事前報酬値とも称する）よりも、当該動作内容の設定後の事後状態パラメータセットに応じた報酬値（事後報酬値とも称する）が高くなるような動作内容であってよい。

ステップＳ１５において、動作内容取得部３１６は、制御モデル３１２から動作内容を取得する。

ステップＳ１７において設定部３０２は、取得された動作内容をバイオリアクタ２に対して設定する。これにより、バイオリアクタ２が動作内容に応じた動作を行う結果、細胞の培養が進めされ、バイオリアクタ２および細胞の少なくとも一方の状態が変化する。

ステップＳ１９において、パラメータ取得部３０４は、ステップＳ１７での動作内容の設定後での事後状態パラメータセットを取得する。

ステップＳ２１において、算出部３０６は、事後状態パラメータセットに含まれる少なくとも１つの事後状態パラメータから報酬値を算出する。

ステップＳ２３において学習処理部３１４は、ステップＳ１７で設定した動作内容のデータと、ステップＳ１９で取得した事後状態パラメータセットとを含む学習データを用いて制御モデル３１２の学習処理を実行する。学習処理部３１４は、ステップＳ１１で取得された外部環境に応じた制御モデル３１２の学習処理を実行してよい。学習処理部３１４は、ステップＳ２１で算出された報酬値をさらに用いて学習処理を実行してよい。

例えば、学習処理部３１４は、ステップＳ１７における一の動作内容が設定され、その結果の状態を示す事後状態パラメータセットから算出される報酬値の増加幅が基準幅未満であった場合に、ステップＳ１３で入力された一の状態パラメータセットが改めて制御モデル３１２に入力されることに応じて当該一の動作内容を出力しないように、制御モデル３１２の学習処理を実行してよい。一の動作内容の設定の結果に応じた報酬値の増加幅とは、当該一の動作内容の設定前の事前報酬値から、当該一の動作内容の設定後の事後報酬値までの増加幅であってよい。基準幅とは、任意の正の値であってよい。

また、一の状態パラメータセットを制御モデル３１２に入力したことに応じて出力された一の動作内容がバイオリアクタ２に設定された結果、報酬値が目標条件を満たす場合には、学習処理部３１４は、当該一の状態パラメータセットで示される状態についての学習を完了してよい。なお、学習処理部３１４が外部環境ごとに学習処理を実行する場合には、一の外部環境において一の状態パラメータセットを制御モデル３１２に入力したことに応じて出力された一の動作内容がバイオリアクタ２に設定された結果、報酬値が目標条件を満たすときに、学習処理部３１４は、当該一の外部環境下において当該一の状態パラメータセットで示される状態についての学習を完了してよい。

なお、本実施形態では一例として、制御モデル３１２は、リカレント型またはタイムディレイ型などのニューラルネットワークであるが、ランダムフォレスト、勾配ブースティング、ロジスティック回帰、および、サポートベクタマシン（ＳＶＭ）などを含む他の機械学習アルゴリズムであってもよい。例えば、制御モデル３１２は、学習データの各要素に対応するノードを入力層に含み、推奨する動作内容の各能動変数に対応するノードを出力層に含んでよい。学習データの１つの要素に対する入力層のノードは１つでもよいし複数でもよい。入力層および出力層の間には、１または複数のノードを含む中間層（隠れ層）が介在してよい。学習処理部３１４は、ノード間をつなぐエッジの重み、および、出力ノードのバイアス値を調整することで学習処理を実行してよい。

ステップＳ２３の学習処理が終了したら、装置３は処理を上述のステップＳ１３に移行する。これにより、ステップＳ１３〜Ｓ２３の処理が繰り返される。

ここで、制御モデル３１２の学習が完了していない場合には、ステップＳ１３〜Ｓ１５の処理において、一の状態パラメータセットが制御モデル３１２に入力されたことに応じて複数の動作内容が取得され得る。この場合に、ステップＳ１７において設定部３０２は、第１記憶部３００内の各変動パターンと、当該設定部３０２によって設定される動作内容の変動パターンとが一致しないように、取得された複数の動作内容のいずれか１つを設定してよい。

設定部３０２によって設定される動作内容の変動パターンとは、これまでにステップＳ１７で設定された動作内容と、次にステップＳ１７で設定される動作内容とを並べた変動パターンであってよい。設定される変動パターンと、第１記憶部３００内の変動パターンとが一致するとは、両者の変動パターンが完全に一致することであってもよいし、少なくとも一部において一致することであってもよい。設定される変動パターンと、第１記憶部３００内の変動パターンとが一部において一致するとは、設定される変動パターンのうち、直近の少なくとも２つの動作内容の変動パターンと、第１記憶部３００内の変動パターンに連続して含まれる少なくとも２つの動作内容の変動パターンとが一致することであってよい。

また、ステップＳ１３〜Ｓ２３の処理が繰り返されることにより、一の状態パラメータセットで示される同一の状態が複数回生じ得る。そして、制御モデル３１２の学習が完了していない場合には、当該一の状態パラメータセットが制御モデル３１２に入力されたことに応じて、一の能動変数の値のみが相違する第１の動作内容および第２の動作内容が出力され得る。このような場合に、当該一の状態パラメータセットで示される状態で第１の動作内容を設定した結果の事後状態パラメータセットから算出される事後報酬値と、当該一の状態パラメータセットで示される状態で第２の動作内容を設定した結果の事後状態パラメータセットから算出される事後報酬値との差分が基準幅未満である場合には、ステップＳ２３において学習処理部３１４は、当該一の状態パラメータセットの入力に応じて複数種類の能動変数のうち当該一の能動変数を含まない動作内容を出力するように、制御モデル３１２の学習処理を実行してよい。

一例として、一の事後状態パラメータセット（Ｉ_Ａ１、Ｉ_Ｂ２，…）が制御モデル３１２に入力されて第１の動作内容（Ｏ_Ａ１，Ｏ_Ｂ１，…）および第２の動作内容（Ｏ_Ａ２，Ｏ_Ｂ１，…）が出力され、第１，第２の動作内容の間で能動変数Ｏ_Ａの値のみが異なり、事後報酬値の差分が基準幅未満であるときには、改めて一の状態パラメータセット（Ｉ_Ａ１、Ｉ_Ｂ２，…）が入力されることに応じて、能動変数Ｏ_Ａを含まない動作内容が出力されるように学習処理が実行されてよい。

そして、ステップＳ１３〜Ｓ２３の処理が繰り返されることにより、ステップＳ１１で取得された一の状態パラメータセットに対する一の好適な動作内容が定まり、当該一の好適な動作内容を設定した場合の事後状態パラメータセットに対する他の一の好適な動作内容が定まる。以降、同様にして、好適な動作内容が順に定まる。この場合に、出力部３２０は、ステップＳ１１で取得された状態パラメータセットと、一連の好適な動作内容とを対応付けて出力してよい。学習処理部３１４が外部環境ごとに学習処理を実行する場合には、出力部３２０は、同じ外部環境下で一連の好適な動作内容が定まった場合に、ステップＳ１１で取得された状態パラメータセットおよび外部情報と、一連の好適な動作内容とを対応付けて出力してもよい。出力部３２０は、第２記憶部３２２に記憶された学習履歴や、制御モデル３１２そのものをさらに出力してもよい。

以上の動作によれば、一の状態パラメータセットが制御モデル３１２に入力されたことに応じて出力される一の動作内容の設定結果に応じた報酬値の増加幅が基準幅未満であった場合に、当該一の状態パラメータセットの入力に応じて当該一の動作内容を出力しないよう制御モデル３１２の学習処理が実行される。従って、報酬値を高めるのに不要な動作内容の設定を防止することができる。よって、報酬値を高めつつ製造手順を簡略化することができる。

また、一の状態パラメータセットが制御モデル３１２に入力され、一の能動変数の値のみが相違する第１の動作内容および第２の動作内容が出力される場合には、当該一の状態パラメータセットで示される状態から第１、第２の動作内容を別々に設定した結果、事後報酬値の差分が基準幅未満である場合が生じ得る。この場合には、当該一の状態パラメータセットの入力に応じて当該一の能動変数を含まない動作内容を出力するよう制御モデル３１２の学習処理が実行される。従って、報酬値を高めるのに不要な能動変数の設定を防止することができ、不要な能動変数を設定する対象である設備（一例として複数のヒータのうちの１つ）をバイオリアクタ２から省くことができる。よって、報酬値を高めつつバイオリアクタ２を簡略化することができる。

また、一の状態パラメータセットが制御モデル３１２に入力されたことに応じて複数の動作内容が取得された場合に、第１記憶部３００に記憶された各変動パターンと、設定される動作内容の変動パターンとが一致しないようにいずれか１つの動作内容が設定される。従って、回避するべき変動パターン（例えば、既存の変動パターン）を予め第１記憶部３００に記憶しておくことにより、それらの変動パターンとは異なる新たな変動パターンを探索することができる。

なお、上記の動作は、外部環境が変化しない期間内に行われてよく、一例として、一日のなかの同じ時間（一例として夜間の０時から４時までなど）内で周期的に行われてもよいし、オペレータの指示によって指定される期間内に行われてもよい。また、上記の動作は、外部環境が変化するごとに行われてよい。

これに代えて、上記の動作は、外部環境が変化する間に継続して行われてよい。この場合には、環境情報取得部３０８はステップＳ１１，Ｓ１９において環境情報を取得してよく、ステップＳ１１で取得された環境情報と、その直後のステップＳ１９で取得された環境情報とは相違し得る。また、ステップＳ１３〜Ｓ２３が繰り返されることで、ステップＳ１９で取得された環境情報と、その直後のステップＳ１９で取得された環境情報とは相違し得る。連続して取得された環境情報が相違する場合に、学習処理部３１４は、前後それぞれの環境情報に応じた別々の制御モデル３１２のうち、少なくとも一方の制御モデル３１２に対して学習処理を実行してもよい。これに代えて、学習処理部３１４は、連続して取得された環境情報が相違する場合には学習処理を行わずにステップＳ２３の処理を終了し、連続して取得された環境情報が同じである場合にのみ、当該環境情報に応じた制御モデル３１２の学習処理を実行してもよい。

［５．２．運用時の動作］
図７は、装置３の他の動作を示す。装置３は、ステップＳ３１〜Ｓ３７の処理を行うことにより、学習の完了した制御モデル３１２を用いてバイオリアクタ２で細胞を培養する。

ステップＳ３１においてパラメータ取得部３０４は、状態パラメータセットを取得する。パラメータ取得部３０４は、現時点での状態パラメータセット、例えば設定部３０２によって動作内容が設定される前の事前状態パラメータセットを取得してよい。なお、ステップＳ３１においては、環境情報取得部３０８が環境情報をさらに取得してもよい。

ステップＳ３３においてパラメータ入力部３１０は、取得された状態パラメータセットを制御モデル３１２に入力する。環境情報取得部３０８によって環境情報が取得されている場合には、ステップＳ３３においてパラメータ入力部３１０は、当該環境情報を併せて制御モデル３１２に入力してもよい。これにより、状態パラメータセットに対応する好適な一の動作内容が制御モデル３１２から出力される。

ステップＳ３５において、動作内容取得部３１６は、制御モデル３１２から動作内容を取得する。

ステップＳ３７において設定部３０２は、取得された動作内容をバイオリアクタ２に対して設定する。これにより、バイオリアクタ２が動作内容に応じた動作を行う結果、細胞の培養が進めされ、バイオリアクタ２および細胞の少なくとも一方の状態が変化する。

ステップＳ３７の処理が終了したら、装置３は処理を上述のステップＳ３１に移行する。以降、ステップＳ３１〜Ｓ３７の処理を繰り返すことにより、細胞の培養が完了する。なお、本実施形態では一例として、ステップＳ３７で動作内容をバイオリアクタ２に対して設定したが、オペレータに対して表示することにより、バイオリアクタ２への設定をオペレータに行わせてもよい。

以上の動作によれば、状態パラメータセットを入力することで、報酬値が高まる動作内容を得ることができる。従って、熟練したオペレータによる試行錯誤を必要とせずに、好適な動作内容を得ることができる。

［６．変形例］
なお、上記の実施形態においては、装置３は第１記憶部３００と、設定部３０２と、パラメータ取得部３０４と、算出部３０６と、環境情報取得部３０８と、パラメータ入力部３１０と、１または複数の制御モデル３１２と、学習処理部３１４と、動作内容取得部３１６と、制御部３１８と、出力部３２０と、第２記憶部３２２と、予測部３２４と、第３記憶部３２６と、検出部３２８とを有することとして説明した。しかしながら、装置３は、設定部３０２、パラメータ取得部３０４および学習処理部３１４以外の少なくとも１つの構成を有しないこととしてもよいし、パラメータ取得部３０４、パラメータ入力部３１０および動作内容取得部３１６以外の構成を有しないこととしてもよい。また、装置３は、制御モデル３１２を有することとして説明したが、制御モデル３１２は装置３の外部装置に具備されてもよい。

また、第１記憶部３００に記憶された変動パターンを回避するべく、設定部３０２は第１記憶部３００内の各変動パターンと、当該設定部３０２によって設定される動作内容の変動パターンとが一致しないように、制御モデル３１２から取得された複数の動作内容のいずれか１つを設定することとして説明したが、他の手法によって回避してもよい。例えば、複数の動作内容のうち、設定部３０２によって設定される場合、第１記憶部３００内の何れかの変動パターンと一致する変動パターンをなす動作内容に対しては、一致しない変動パターンをなす動作内容よりも報酬値が低く算出されるようにしてもよい。この場合にも第１記憶部３００に記憶された変動パターンを回避して新たな変動パターンを探索することができる。

また、第１取得部および第２取得部を単一のパラメータ取得部３０４として説明したが、状態パラメータを取得する別々の構成としてもよい。

また、バイオリアクタ２が細胞を培養することとして説明したが、食品や酵素などをバイオプロセスによって製造してもよい。また、製造システムをバイオリアクタ２として説明したが、飲料や金属（一例として鉄）、ＬＮＧ、石油、化粧品、紙、パルプなどの製造プラントとしてもよい。

また、本発明の様々な実施形態は、フローチャートおよびブロック図を参照して記載されてよく、ここにおいてブロックは、（１）操作が実行されるプロセスの段階または（２）操作を実行する役割を持つ装置のセクションを表わしてよい。特定の段階およびセクションが、専用回路、コンピュータ可読媒体上に格納されるコンピュータ可読命令と共に供給されるプログラマブル回路、および／またはコンピュータ可読媒体上に格納されるコンピュータ可読命令と共に供給されるプロセッサによって実装されてよい。専用回路は、デジタルおよび／またはアナログハードウェア回路を含んでよく、集積回路（ＩＣ）および／またはディスクリート回路を含んでよい。プログラマブル回路は、論理ＡＮＤ、論理ＯＲ、論理ＸＯＲ、論理ＮＡＮＤ、論理ＮＯＲ、および他の論理操作、フリップフロップ、レジスタ、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、プログラマブルロジックアレイ（ＰＬＡ）等のようなメモリ要素等を含む、再構成可能なハードウェア回路を含んでよい。

コンピュータ可読媒体は、適切なデバイスによって実行される命令を格納可能な任意の有形なデバイスを含んでよく、その結果、そこに格納される命令を有するコンピュータ可読媒体は、フローチャートまたはブロック図で指定された操作を実行するための手段を作成すべく実行され得る命令を含む、製品を備えることになる。コンピュータ可読媒体の例としては、電子記憶媒体、磁気記憶媒体、光記憶媒体、電磁記憶媒体、半導体記憶媒体等が含まれてよい。コンピュータ可読媒体のより具体的な例としては、フロッピー（登録商標）ディスク、ディスケット、ハードディスク、ランダムアクセスメモリ（ＲＡＭ）、リードオンリメモリ（ＲＯＭ）、消去可能プログラマブルリードオンリメモリ（ＥＰＲＯＭまたはフラッシュメモリ）、電気的消去可能プログラマブルリードオンリメモリ（ＥＥＰＲＯＭ）、静的ランダムアクセスメモリ（ＳＲＡＭ）、コンパクトディスクリードオンリメモリ（ＣＤ-ＲＯＭ）、デジタル多用途ディスク（ＤＶＤ）、ブルーレイ（ＲＴＭ）ディスク、メモリスティック、集積回路カード等が含まれてよい。

コンピュータ可読命令は、アセンブラ命令、命令セットアーキテクチャ（ＩＳＡ）命令、マシン命令、マシン依存命令、マイクロコード、ファームウェア命令、状態設定データ、またはＳｍａｌｌｔａｌｋ、ＪＡＶＡ（登録商標）、Ｃ＋＋等のようなオブジェクト指向プログラミング言語、および「Ｃ」プログラミング言語または同様のプログラミング言語のような従来の手続型プログラミング言語を含む、１または複数のプログラミング言語の任意の組み合わせで記述されたソースコードまたはオブジェクトコードのいずれかを含んでよい。

コンピュータ可読命令は、汎用コンピュータ、特殊目的のコンピュータ、若しくは他のプログラム可能なデータ処理装置のプロセッサまたはプログラマブル回路に対し、ローカルにまたはローカルエリアネットワーク（ＬＡＮ）、インターネット等のようなワイドエリアネットワーク（ＷＡＮ）を介して提供され、フローチャートまたはブロック図で指定された操作を実行するための手段を作成すべく、コンピュータ可読命令を実行してよい。プロセッサの例としては、コンピュータプロセッサ、処理ユニット、マイクロプロセッサ、デジタル信号プロセッサ、コントローラ、マイクロコントローラ等を含む。

図８は、本発明の複数の態様が全体的または部分的に具現化されてよいコンピュータ２２００の例を示す。コンピュータ２２００にインストールされたプログラムは、コンピュータ２２００に、本発明の実施形態に係る装置に関連付けられる操作または当該装置の１または複数のセクションとして機能させることができ、または当該操作または当該１または複数のセクションを実行させることができ、および／またはコンピュータ２２００に、本発明の実施形態に係るプロセスまたは当該プロセスの段階を実行させることができる。そのようなプログラムは、コンピュータ２２００に、本明細書に記載のフローチャートおよびブロック図のブロックのうちのいくつかまたはすべてに関連付けられた特定の操作を実行させるべく、ＣＰＵ２２１２によって実行されてよい。

本実施形態によるコンピュータ２２００は、ＣＰＵ２２１２、ＲＡＭ２２１４、グラフィックコントローラ２２１６、およびディスプレイデバイス２２１８を含み、それらはホストコントローラ２２１０によって相互に接続されている。コンピュータ２２００はまた、通信インタフェース２２２２、ハードディスクドライブ２２２４、ＤＶＤ−ＲＯＭドライブ２２２６、およびＩＣカードドライブのような入／出力ユニットを含み、それらは入／出力コントローラ２２２０を介してホストコントローラ２２１０に接続されている。コンピュータはまた、ＲＯＭ２２３０およびキーボード２２４２のようなレガシの入／出力ユニットを含み、それらは入／出力チップ２２４０を介して入／出力コントローラ２２２０に接続されている。

ＣＰＵ２２１２は、ＲＯＭ２２３０およびＲＡＭ２２１４内に格納されたプログラムに従い動作し、それにより各ユニットを制御する。グラフィックコントローラ２２１６は、ＲＡＭ２２１４内に提供されるフレームバッファ等またはそれ自体の中にＣＰＵ２２１２によって生成されたイメージデータを取得し、イメージデータがディスプレイデバイス２２１８上に表示されるようにする。

通信インタフェース２２２２は、ネットワークを介して他の電子デバイスと通信する。ハードディスクドライブ２２２４は、コンピュータ２２００内のＣＰＵ２２１２によって使用されるプログラムおよびデータを格納する。ＤＶＤ−ＲＯＭドライブ２２２６は、プログラムまたはデータをＤＶＤ−ＲＯＭ２２０１から読み取り、ハードディスクドライブ２２２４にＲＡＭ２２１４を介してプログラムまたはデータを提供する。ＩＣカードドライブは、プログラムおよびデータをＩＣカードから読み取り、および／またはプログラムおよびデータをＩＣカードに書き込む。

ＲＯＭ２２３０はその中に、アクティブ化時にコンピュータ２２００によって実行されるブートプログラム等、および／またはコンピュータ２２００のハードウェアに依存するプログラムを格納する。入／出力チップ２２４０はまた、様々な入／出力ユニットをパラレルポート、シリアルポート、キーボードポート、マウスポート等を介して、入／出力コントローラ２２２０に接続してよい。

プログラムが、ＤＶＤ−ＲＯＭ２２０１またはＩＣカードのようなコンピュータ可読媒体によって提供される。プログラムは、コンピュータ可読媒体から読み取られ、コンピュータ可読媒体の例でもあるハードディスクドライブ２２２４、ＲＡＭ２２１４、またはＲＯＭ２２３０にインストールされ、ＣＰＵ２２１２によって実行される。これらのプログラム内に記述される情報処理は、コンピュータ２２００に読み取られ、プログラムと、上記様々なタイプのハードウェアリソースとの間の連携をもたらす。装置または方法が、コンピュータ２２００の使用に従い情報の操作または処理を実現することによって構成されてよい。

例えば、通信がコンピュータ２２００および外部デバイス間で実行される場合、ＣＰＵ２２１２は、ＲＡＭ２２１４にロードされた通信プログラムを実行し、通信プログラムに記述された処理に基づいて、通信インタフェース２２２２に対し、通信処理を命令してよい。通信インタフェース２２２２は、ＣＰＵ２２１２の制御下、ＲＡＭ２２１４、ハードディスクドライブ２２２４、ＤＶＤ−ＲＯＭ２２０１、またはＩＣカードのような記録媒体内に提供される送信バッファ処理領域に格納された送信データを読み取り、読み取られた送信データをネットワークに送信し、またはネットワークから受信された受信データを記録媒体上に提供される受信バッファ処理領域等に書き込む。

また、ＣＰＵ２２１２は、ハードディスクドライブ２２２４、ＤＶＤ−ＲＯＭドライブ２２２６（ＤＶＤ−ＲＯＭ２２０１）、ＩＣカード等のような外部記録媒体に格納されたファイルまたはデータベースの全部または必要な部分がＲＡＭ２２１４に読み取られるようにし、ＲＡＭ２２１４上のデータに対し様々なタイプの処理を実行してよい。ＣＰＵ２２１２は次に、処理されたデータを外部記録媒体にライトバックする。

様々なタイプのプログラム、データ、テーブル、およびデータベースのような様々なタイプの情報が記録媒体に格納され、情報処理を受けてよい。ＣＰＵ２２１２は、ＲＡＭ２２１４から読み取られたデータに対し、本開示の随所に記載され、プログラムの命令シーケンスによって指定される様々なタイプの操作、情報処理、条件判断、条件分岐、無条件分岐、情報の検索／置換等を含む、様々なタイプの処理を実行してよく、結果をＲＡＭ２２１４に対しライトバックする。また、ＣＰＵ２２１２は、記録媒体内のファイル、データベース等における情報を検索してよい。例えば、各々が第２の属性の属性値に関連付けられた第１の属性の属性値を有する複数のエントリが記録媒体内に格納される場合、ＣＰＵ２２１２は、第１の属性の属性値が指定される、条件に一致するエントリを当該複数のエントリの中から検索し、当該エントリ内に格納された第２の属性の属性値を読み取り、それにより予め定められた条件を満たす第１の属性に関連付けられた第２の属性の属性値を取得してよい。

上で説明したプログラムまたはソフトウェアモジュールは、コンピュータ２２００上またはコンピュータ２２００近傍のコンピュータ可読媒体に格納されてよい。また、専用通信ネットワークまたはインターネットに接続されたサーバーシステム内に提供されるハードディスクまたはＲＡＭのような記録媒体が、コンピュータ可読媒体として使用可能であり、それによりプログラムを、ネットワークを介してコンピュータ２２００に提供する。

以上、本発明を実施の形態を用いて説明したが、本発明の技術的範囲は上記実施の形態に記載の範囲には限定されない。上記実施の形態に、多様な変更または改良を加えることが可能であることが当業者に明らかである。その様な変更または改良を加えた形態も本発明の技術的範囲に含まれ得ることが、特許請求の範囲の記載から明らかである。

特許請求の範囲、明細書、および図面中において示した装置、システム、プログラム、および方法における動作、手順、ステップ、および段階等の各処理の実行順序は、特段「より前に」、「先立って」等と明示しておらず、また、前の処理の出力を後の処理で用いるのでない限り、任意の順序で実現しうることに留意すべきである。特許請求の範囲、明細書、および図面中の動作フローに関して、便宜上「まず、」、「次に、」等を用いて説明したとしても、この順で実施することが必須であることを意味するものではない。

１システム、２バイオリアクタ、３装置、３００第１記憶部、３０２設定部、３０４パラメータ取得部、３０６算出部、３０８環境情報取得部、３１０パラメータ入力部、３１２制御モデル、３１４学習処理部、３１６動作内容取得部、３１８制御部、３２０出力部、３２２第２記憶部、３２４予測部、３２６第３記憶部、３２８検出部、２２００コンピュータ、２２０１ＤＶＤ−ＲＯＭ、２２１０ホストコントローラ、２２１２ＣＰＵ、２２１４ＲＡＭ、２２１６グラフィックコントローラ、２２１８ディスプレイデバイス、２２２０入／出力コントローラ、２２２２通信インタフェース、２２２４ハードディスクドライブ、２２２６ＤＶＤ−ＲＯＭドライブ、２２３０ＲＯＭ、２２４０入／出力チップ、２２４２キーボード

Claims

製造対象物を製造する製造システムに対して動作内容を設定する設定部と、
前記動作内容の設定後での前記製造システムおよび前記製造対象物の少なくとも一方の状態を示す事後状態パラメータセットを取得する第１取得部と、
前記動作内容と、前記事後状態パラメータセットとを含む学習データを用いて、前記製造システムおよび前記製造対象物の少なくとも一方の状態を示す状態パラメータセットの入力に応じ、予め設定された報酬関数により定まる報酬値を高める前記動作内容を出力する前記製造システムの制御モデルの学習処理を実行する学習処理部と、
を備える装置。
前記学習処理部は、
一の前記状態パラメータセットが前記制御モデルに入力されたことに応じて出力される一の前記動作内容の設定結果に応じた前記報酬値の増加幅が基準幅未満であった場合に、当該一の状態パラメータセットの入力に応じて当該一の動作内容を出力しないよう前記制御モデルの学習処理を実行する、請求項１に記載の装置。
前記動作内容は、前記製造システムに対して能動的に設定可能な複数種類の能動変数を有し、
前記学習処理部は、
一の前記状態パラメータセットが前記制御モデルに入力されたことに応じて、前記複数種類の能動変数のうち一の能動変数の値のみが相違する第１の動作内容および第２の動作内容が出力され、前記一の状態パラメータセットで示される状態で前記第１の動作内容および前記第２の動作内容それぞれを別々に設定した結果に応じた報酬値同士の差分が基準幅未満である場合に、前記一の状態パラメータセットの入力に応じて前記複数種類の能動変数のうち前記一の能動変数を含まない前記動作内容を出力するよう前記制御モデルの学習処理を実行する、請求項１または２に記載の装置。
前記動作内容の変動パターンを複数記憶する第１記憶部をさらに備え、
前記設定部は、
一の前記状態パラメータセットが前記制御モデルに入力されたことに応じて複数の動作内容が取得された場合に、前記第１記憶部内の各変動パターンと、当該設定部によって設定される前記動作内容の変動パターンとが一致しないように、前記複数の動作内容のいずれか１つを設定する、請求項１から３のいずれか一項に記載の装置。
前記動作内容の変動パターンを複数記憶する第１記憶部をさらに備え、
前記報酬値は、前記設定部によって設定される場合に前記第１記憶部内の何れかの前記変動パターンと一致する変動パターンをなす前記動作内容に対して、より低く算出される、請求項１から３のいずれか一項に記載の装置。
前記製造システムの外部環境を示す環境情報を取得する環境情報取得部をさらに備え、
前記学習処理部は、外部環境ごとに前記制御モデルの学習処理を実行する、請求項１から５のいずれか一項に記載の装置。
前記学習処理部は、一の外部環境に対して学習処理が実行された前記制御モデルを用いて転移学習を行い、他の外部環境に対する学習処理を実行する、請求項６に記載の装置。
前記状態パラメータセットを取得する第２取得部と、
前記制御モデルに対し、前記第２取得部により取得された前記状態パラメータセットを入力するパラメータ入力部と、
前記状態パラメータセットを前記制御モデルに入力したことに応じて前記制御モデルが出力する前記動作内容を取得する第３取得部と、
をさらに備え、
前記設定部は、前記第３取得部により取得された前記動作内容を前記製造システムに対して設定する、請求項１から７のいずれか一項に記載の装置。
前記事後状態パラメータセットに含まれる少なくとも１つの事後状態パラメータから前記報酬値を算出する算出部をさらに備え、
前記学習処理部は、前記算出部によって算出された前記報酬値をさらに用いて学習処理を実行する、請求項８に記載の装置。
前記学習処理部は、一の前記状態パラメータセットを前記制御モデルに入力したことに応じて出力された一の前記動作内容が前記製造システムに設定された結果、前記算出部により算出される前記報酬値が目標条件を満たす場合に、当該一の状態パラメータセットの入力に応じて当該一の動作内容が出力されるよう前記制御モデルの学習処理を実行し、
当該装置は、これら一の動作内容および一の状態パラメータセットを対応付けて出力する出力部をさらに備える、請求項９に記載の装置。
前記第２取得部による前記状態パラメータセットの取得と、前記第３取得部による前記動作内容の取得と、前記設定部による前記動作内容の設定とを順に繰り返し実行させて前記製造対象物を製造させる制御部をさらに備える、請求項８〜１０のいずれか一項に記載の装置。
一の前記状態パラメータセットが前記制御モデルに入力されたことに応じて出力された一の前記動作内容が前記製造システムに設定されて一の前記事後状態パラメータセットが取得され、当該一の事後状態パラメータセットに基づいて算出される前記報酬値が目標条件を満たす場合に、当該一の動作内容と、前記一の状態パラメータセットと、前記一の事後状態パラメータセットとを対応付けて蓄積記憶する第２記憶部と、
前記第２取得部により取得された前記状態パラメータセットで示される状態から、前記報酬値が前記目標条件を満たす前記動作内容を逐次設定する場合での、各事後状態パラメータセットに含まれる少なくとも１つの事後状態パラメータに応じた値の推移を、前記第２記憶部の記憶内容に基づいて予測する予測部と、
をさらに備える、請求項９から１１のいずれか一項に記載の装置。
前記事後状態パラメータセットには、前記製造システムおよび前記製造対象物中の少なくとも一方に存在する異物の量が含まれ、
前記予測部は、前記異物の量が上限値を超えると予測される場合に、その旨を報知する、請求項１２に記載の装置。
前記学習データを蓄積記憶する第３記憶部と、
前記第３記憶部内の複数の前記事後状態パラメータセットのうち、基準条件を満たさない２以上の前記事後状態パラメータセットに対応する前記動作内容の間での共通内容、および、基準条件を満たす２以上の前記事後状態パラメータセットに対応する前記動作内容の間での共通内容の少なくとも一方を検出する検出部と、
をさらに備える、請求項１から１３のいずれか一項に記載の装置。
製造システムおよび前記製造システムによる製造対象物の少なくとも一方の状態を示す状態パラメータセットを取得する第２取得部と、
前記状態パラメータセットの入力に応じ、予め設定された報酬関数により定まる報酬値を高める動作内容を出力する前記製造システムの制御モデルに対し、前記第２取得部により取得された前記状態パラメータセットを入力するパラメータ入力部と、
前記状態パラメータセットを前記制御モデルに入力したことに応じて前記制御モデルが出力する前記動作内容を取得する第３取得部と、
を備える装置。
前記製造システムは、細胞を培養するシステムである、請求項１から１５のいずれか一項に記載の装置。
製造対象物を製造する製造システムに対して動作内容を設定する設定段階と、
前記動作内容の設定後での前記製造システムおよび前記製造対象物の少なくとも一方の状態を示す事後状態パラメータセットを取得する第１取得段階と、
前記動作内容と、前記事後状態パラメータセットとを含む学習データを用いて、前記製造システムおよび前記製造対象物の少なくとも一方の状態を示す状態パラメータセットの入力に応じ、予め設定された報酬関数により定まる報酬値を高める前記動作内容を出力する前記製造システムの制御モデルの学習処理を実行する学習処理段階と、
を備える方法。
製造システムおよび前記製造システムによる製造対象物の少なくとも一方の状態を示す状態パラメータセットを取得する第２取得段階と、
前記状態パラメータセットの入力に応じ、予め設定された報酬関数により定まる報酬値を高める動作内容を出力する前記製造システムの制御モデルに対し、前記第２取得段階により取得された前記状態パラメータセットを入力するパラメータ入力段階と、
前記状態パラメータセットを前記制御モデルに入力したことに応じて前記制御モデルが出力する前記動作内容を取得する第３取得段階と、
を備える方法。
コンピュータを、
製造対象物を製造する製造システムに対して動作内容を設定する設定部と、
前記動作内容の設定後での前記製造システムおよび前記製造対象物の少なくとも一方の状態を示す事後状態パラメータセットを取得する第１取得部と、
前記動作内容と、前記事後状態パラメータセットとを含む学習データを用いて、前記製造システムおよび前記製造対象物の少なくとも一方の状態を示す状態パラメータセットの入力に応じ、予め設定された報酬関数により定まる報酬値を高める前記動作内容を出力する前記製造システムの制御モデルの学習処理を実行する学習処理部
として機能させるプログラム。
コンピュータを、
製造システムおよび前記製造システムによる製造対象物の少なくとも一方の状態を示す状態パラメータセットを取得する第２取得部と、
前記状態パラメータセットの入力に応じ、予め設定された報酬関数により定まる報酬値を高める動作内容を出力する前記製造システムの制御モデルに対し、前記第２取得部により取得された前記状態パラメータセットを入力するパラメータ入力部と、
前記状態パラメータセットを前記制御モデルに入力したことに応じて前記制御モデルが出力する前記動作内容を取得する第３取得部
として機能させるプログラム。