JP7494631B2

JP7494631B2 - 水処理施設の運転支援装置

Info

Publication number: JP7494631B2
Application number: JP2020128997A
Authority: JP
Inventors: 信彰高▲瀬▼; 雄喜木村; 正一鮫島; 正佳 ▲高▼倉; 雄貴三宅
Original assignee: Meidensha Corp
Current assignee: Meidensha Corp
Priority date: 2020-07-30
Filing date: 2020-07-30
Publication date: 2024-06-04
Anticipated expiration: 2040-07-30
Also published as: JP2022025859A

Description

本発明は、水処理施設の運転支援装置に関する。

従来、水処理施設における水質の制御は、水処理施設の様々な状況を考慮して熟練の技術を有する運転員の操作により行われており、運転員の高齢化及び当該技術の習熟に長期間を要することから、人工知能を用いた自動化の要請がある。

従来技術の一例である特許文献１には、制御ノウハウに相当する制御ロジックを自動的に作成する、上下水道施設に適用可能なプロセス制御システムとして、制御対象のプラントのプロセスを、プラント側から入力される各種の状態信号や状態量に基づき、予め設定した制御目標値を満足すべく制御するプロセスコントローラと、前記プロセスを制御するための、プラント側で生じる各種の状態信号や状態量、プロセスへの制御目標値、及び制御量を含むプロセスデータを蓄積するデータ保存部と、このデータ保存部に蓄積されたプロセスデータから、プロセスの状態量に応じて制御目標値を満足する制御量及び制御結果に関するデータを用い、これらデータ相互の関係から制御ノウハウに相当する好適な制御ロジックを作成する制御ロジック作成装置と、プロセスコントローラを模擬する制御シミュレーション機能、及び制御対象プロセスを模擬するプロセスシミュレーション機能を有し、作成された制御ロジックをシミュレートするシミュレータとを備え、このシミュレータにより検証された制御ロジックがプロセスコントローラの制御ロジックとして適用されるプロセス制御システムが開示されている。ここで、プロセスコントローラに設定される制御目標値は、浄水プラント側から入力されるプロセスの状態量に応じて、運転員の経験等に基づくノウハウにより各種パラメータを設定して決定される。

特開２０１１－１９７７１４号公報

しかしながら、上記の従来技術では、運転員のノウハウによる設定を越えて、更に高効率化された運転を行うことは困難である、という問題があった。

本発明は、上記に鑑みてなされたものであって、過去の運転員の操作に依存しない、より効率化された運転操作値を導出可能な技術を提供することを目的とする。

上述の課題を解決して目的を達成する本発明は、対象となる系の水質データを保存する水質データ保存部と、前記対象となる系の物理的特性及び前記水質データを入力として学習を行い、学習済みの運転操作モデルを出力する学習部と、前記対象となる系の水質及び運転コストの目標値である設定値が入力されて保存される設定部と、前記水質データ及び前記設定値を入力として前記学習済みの運転操作モデルにより前記対象となる系を制御する運転操作値を出力する運転操作部と、を備え、前記学習部は、対象となる系のプロセスをモデル化したシミュレータであるプラントモデルと、前記プラントモデル及び前記水質データを用いて強化学習によって前記運転操作モデルを学習させる運転操作モデル学習部と、前記運転操作モデル学習部によって学習された運転操作モデルパラメータを保存する運転操作モデル保存部と、を備える水処理施設の運転支援装置である。

上記構成の本発明に係る水処理施設の運転支援装置は、前記水質データ保存部からの前記水質データが入力されて、将来の流入水質推定値を出力する推定部を備え、前記推定部は、前記水質データに基づいて、将来流入する水量及び水質を推定する学習モデルを構築して学習する流入水質推定モデル学習部と、前記流入水質推定モデル学習部によって得られた流入水質推定モデルのパラメータを保存する流入水質推定モデル保存部と、前記流入水質推定モデルを用いて前記水質データから将来の流入水質を推定して流入水質推定値を出力する流入水質推定部と、を備えることが好ましい。

上記構成の本発明に係る水処理施設の運転支援装置は、過去の運転操作情報を保存する運転操作保存部と、前記プラントモデル及び前記過去の運転操作情報を用いて、強化学習により運転操作モデルを学習させる運転操作モデル模倣学習部と、を備えることが好ましい。

本発明によれば、過去の運転員の操作に依存しない、より効率化された運転操作値を導出することができる。

図１は、実施形態１に係る運転支援装置を適用可能な水処理施設の構成を示す図である。図２は、実施形態１に係る運転支援装置の構成を示すブロック図である。図３は、強化学習モデルの一例であるマルコフ決定過程を示す図である。図４は、実施形態２に係る運転支援装置の構成を示すブロック図である。図５は、ＬＳＴＭによって構築した流入水質推定モデルの例を示す図である。図６は、図５に示す特徴量抽出レイヤを示す図である。図７は、実施形態３に係る運転支援装置の構成を示すブロック図である。

以下、添付図面を参照して、本発明を実施するための形態について説明する。
ただし、本発明は、以下の実施形態の記載によって限定解釈されるものではない。

（実施形態１）
図１は、本実施形態に係る運転支援装置１００を適用可能な水処理施設２００の構成を示す図である。
図１に示す水処理施設２００は、最初沈殿池１と、反応槽２と、最終沈殿池３と、送風機４と、風量調整バルブ５と、散気装置６と、第１のポンプ７と、第２のポンプ８と、計測器９と、重力濃縮槽１０と、機械濃縮槽１１と、消化槽１２と、脱水槽１３と、配管２１，２２，２３，２４とを備える。

最初沈殿池１は、原水が導入される沈殿池である。
この原水は、有機物を含む排水である。
最初沈殿池１では、原水の固液分離が行われ、最初沈殿池１からの流出水は、配管２１を通して反応槽２に送られる。
最初沈殿池１に沈殿した汚泥である生汚泥は、配管２４を通して重力濃縮槽１０に送られる。

反応槽２は、微生物を含み、該微生物によって最初沈殿池１からの流出水を浄化する槽である。
反応槽２では、該微生物が最初沈殿池１からの流出水に含まれる有機物を資化することで増殖し、該微生物を用いた生物処理により活性汚泥が形成される。
反応槽２からの流出水は、配管２２を通して最終沈殿池３に送られる。

最終沈殿池３は、反応槽２からの流出水に含まれる活性汚泥を沈殿させる沈殿池である。
最終沈殿池３の上澄みは、処理水として水処理施設２００の外へ放出される。
最終沈殿池３で沈殿した汚泥の一部は、第１のポンプ７によって配管２３を通して反応槽２に戻されて再利用される。
最終沈殿池３で沈殿した残りの汚泥は、余剰汚泥として第２のポンプ８によって機械濃縮槽１１に送られる。

送風機４は、複数の散気装置６に空気を供給する。
風量調整バルブ５は、複数の散気装置６の各々に通した配管に設けられており、開閉により送風量を調整する。
複数の散気装置６は、反応槽２の下部に設けられており、風量調整バルブ５に通された配管に接続されて、風量調整バルブ５によって送風量が調整された空気を反応槽２内に供給する。
このように反応槽２への送風量が調整されると、反応槽２内の溶存酸素量であるＤＯ（Dissolved Oxygen）値が調整され、生物処理の進行が調整される。

第１のポンプ７は、最終沈殿池３で沈殿した汚泥の一部を、配管２３を通して反応槽２に送る返送汚泥ポンプである。
第２のポンプ８は、最終沈殿池３で沈殿した残りの汚泥を余剰汚泥として機械濃縮槽１１に送る余剰汚泥引抜ポンプである。

計測器９は、反応槽２の水質を示す各パラメータを計測する計測器であり、計測したパラメータである計測値データは運転支援装置１００に送られる。
ここで、水質を示す各パラメータとしては、溶存酸素量であるＤＯ値及び浮遊物質濃度であるＭＬＳＳ（Mixed Liquor Suspended Solids）値を例示することができる。
水処理施設２００の運転員は、計測器９によって計測された水質を示す各パラメータを参照することで制御対象の操作量を決定している。
ここで、制御対象の操作量としては、水処理施設２００の最終沈殿池３からの返送汚泥量を調整する第１のポンプ７の回転数、水処理施設２００の最終沈殿池３の余剰汚泥引抜量を調整する第２のポンプ８の単位時間あたりの引抜量又は余剰汚泥の引抜時間、及び水処理施設２００の脱水槽１３への高分子凝集剤の注入率を例示することができる。

重力濃縮槽１０は、最初沈殿池１に沈殿した生汚泥を濃縮処理する槽である。
機械濃縮槽１１は、第２のポンプ８によって最終沈殿池３から引き抜かれた余剰汚泥を濃縮処理する槽である。
重力濃縮槽１０及び機械濃縮槽１１において濃縮された汚泥は、消化槽１２に送られる。

消化槽１２は、濃縮された汚泥の消化処理を行う槽である。
ここで、消化処理は、例えば嫌気性消化処理方式によって行われるとよい。
嫌気性消化処理方式では、嫌気性微生物によって有機性の汚泥が分解される。
消化処理によって分解された汚泥は、脱水槽１３に送られる。

脱水槽１３は、消化処理によって分解された汚泥を脱水することで、汚泥の含水率を低下させて減容化を行う槽である。

配管２１は、最初沈殿池１と反応槽２との間に配置され、最初沈殿池１からの流出水を反応槽２に送る配管である。
配管２２は、反応槽２と最終沈殿池３との間に配置され、反応槽２からの流出水を最終沈殿池３に送る配管である。
配管２３は、第１のポンプ７と反応槽２との間に配置され、最終沈殿池３の汚泥の一部を反応槽２に送る配管である。
配管２４は、最初沈殿池１と重力濃縮槽１０との間に配置され、最初沈殿池１の生汚泥を重力濃縮槽１０に送る配管である。

図１に示す水処理施設２００において、主な操作項目は、最初沈殿池１から反応槽２への水量である流入量、反応槽２内に供給される空気量である送風量、第１のポンプ７によって反応槽２に返送される汚泥の量である返送汚泥量、第２のポンプ８によって最終沈殿池３から引き抜かれる汚泥の量である余剰汚泥引抜量、及び凝集剤注入率である。
これらの操作項目の各々は、水処理施設によって設定が異なる。

反応槽２の制御は、例えば、送風量一定制御、比率一定制御及びＤＯ一定制御によって行うことが可能である。
ここで、送風量一定制御は、目標送風量値として設定された一定の送風量となるように行う制御である。
また、比率一定制御は、最初沈殿池１から反応槽２への流入量に応じた送風量となるように、すなわち流入量と送風量との比率が一定となるように行う制御である。
また、ＤＯ一定制御は、反応槽２のＤＯ値が設定された一定の目標ＤＯ値となるように行う制御である。

また、主な操作項目は、返送汚泥量の調整では第１のポンプ７の回転数であり、余剰汚泥引抜量の調整では単位時間あたりの引抜量又は余剰汚泥の引抜時間であり、脱水処理では高分子凝集剤の注入率である。
本実施形態に係る運転支援装置１００は、これらの操作項目を導出対象とする。
そして、運転員は、運転支援装置１００によって導出された操作項目に基づいて制御対象の操作量を決定する。
このように運転支援装置１００によって制御対象の操作量が決定されることで、勘、経験及びノウハウを有していない者を運転員とすることが可能となる。

図２は、本実施形態に係る運転支援装置１００の構成を示すブロック図である。
図２に示す運転支援装置１００は、水質データ保存部１０１と、運転操作部１０２と、学習部１１０と、設定部１２０と、を備え、水処理プラント３０の運転を支援する。
水処理プラント３０は、水処理施設２００内のシミュレーションの対象となる系であり、最初沈殿池１、反応槽２及び最終沈殿池３等を含む。
また、当該シミュレーションにおいては、第１のポンプ７によって反応槽２に返送される汚泥の量である返送汚泥量等も考慮される。

水質データ保存部１０１は、水処理プラント３０の運転によって得られた各種水質データを保存するデータベースである。
ここで、水質データとしては、浮遊物質（ＳＳ）、活性汚泥沈殿率（ＳＶ）、活性汚泥浮遊物質（ＭＬＳＳ）、全リン、全窒素、生物化学的酸素要求量（ＢＯＤ）、化学的酸素要求量（ＣＯＤ）、ｐＨ値及び溶存酸素量（ＤＯ）を例示することができる。
また、水質データ保存部１０１には、各種水質データの他に、天候情報及び季節情報も保存されている。

学習部１１０は、プラントモデル１１１と、運転操作モデル学習部１１２と、運転操作モデル保存部１１３と、を備える。
プラントモデル１１１は、水処理プラント３０のプロセスをモデル化したシミュレータであり、水処理プラント３０の物理的特性と、水質データ保存部１０１に蓄積された水質データによる較正と、によって構築される。
運転操作モデル学習部１１２は、プラントモデル１１１を用いて、強化学習によって運転操作モデルを学習させることで最適な運転操作を学習する。
運転操作モデル学習部１１２の運転操作モデルが出力する運転操作値がプラントモデル１１１に入力され、プラントモデル１１１におけるシミュレーションによって得られた水質データが運転操作モデルに入力される。
運転操作モデルは、運転操作モデルに入力された水質データ及び当該運転操作モデルによる運転コストに応じて予め定義された報酬を得ることで、最適な運転操作を獲得する。
運転操作モデル保存部１１３は、獲得された最適な運転操作のパラメータを保存する。

設定部１２０は、設定入力部１２１と、設定保存部１２２と、を備える。
設定入力部１２１には、運転員により設定値が入力される。
ここで、設定値は、運転員によって設定された水質及び運転コストの目標値である。
水質としては、活性汚泥沈殿率（ＳＶ）及び生物化学的酸素要求量（ＢＯＤ）を例示することができる。
設定保存部１２２は、この設定値を保存する。

運転操作部１０２は、実際の運転操作値を決定する。
最初に、運転操作部１０２は、運転操作モデル保存部１１３に保存された、学習済みの運転操作モデルを読み込み、水質データ保存部１０１から入力される過去から現在までの水質データと、設定保存部１２２に保存された設定値と、を入力として運転操作モデルを動作させ、最適な運転操作値を出力して水処理プラント３０の制御を行う際の運転操作値を決定する。
運転員又は運転操作機能を有する装置は、該運転操作値に従って運転操作を行う。

ここで、運転操作部１０２における運転操作モデルの動作の詳細を説明する。
運転操作モデルは、強化学習モデルで構築される。
図３は、強化学習モデルの一例であるマルコフ決定過程を示す図である。
マルコフ決定過程においては、時刻ｔにおける環境は状態ｓ_ｔをとり、エージェントは状態ｓ_ｔにおいて利用可能な行動ａ_ｔを選択する。
その後、環境は新しい状態ｓ_ｔ＋１へ遷移し、その際にエージェントは状態遷移に対応した報酬ｒ_ｔ又は報酬ｒ_ｔ＋１を受け取る。

ここで、図３に示す環境は水処理プラント３０であり、エージェントは運転員又は運転操作機能を有する装置であり、行動は運転操作であり、状態は水処理プラント３０の水質であり、報酬は水質に応じて定義された値である。
図３に示すマルコフ決定過程の１ステップ、すなわち１回のループは、水処理プラント３０の制御周期又は運転操作値の設定周期に応じて決定すればよく、その周期は１時間であってもよいし、１日でもあってもよい。
図３に示す状態である水処理プラント３０の水質は、現在時刻の流入水質であってもよいし、現在時刻の流入水質に過去の流入水質又は将来の流入水質の予測値を含んでもよいし、必要に応じて天候情報又は季節情報を対象となる系の状態として含んでもよい。
図３に示すエージェントの方策である行動指針及び行動ルールは、Ｑ学習であればＱテーブルによって決定され、深層強化学習であればニューラルネットワークによって決定される。
エージェントの方策は、マルコフ決定過程を繰り返すことによって獲得される。

図３に示す行動は、図１に示す水処理施設２００における主な操作項目であり、最初沈殿池１から反応槽２への水量である流入量、反応槽２内に供給される空気量である送風量又はＤＯ目標値、第１のポンプ７によって反応槽２に返送される汚泥の量である返送汚泥量、第２のポンプ８によって最終沈殿池３から引き抜かれる汚泥の量である余剰汚泥引抜量、及び凝集剤注入率等である。
図３に示す報酬は、水質及び運転コストに応じて適切に設定される。
例えば、水質に関しては、全窒素、全リン、ＳＶ及びＢＯＤ等を報酬として設定し、指定水質が予め設定された範囲内に収まっていれば正の報酬を与え、予め設定された範囲から逸脱していれば負の報酬を与えるものとする。
また、例えば、運転コストに関しては、運転で生じる消費電力の逆数を報酬として設定すると、消費電力が小さいほど大きな正の報酬が与えられることになる。
また、水質のために反応槽２の生物処理を促進する場合には送風機４の送風量を増加させることになるため運転コストが増大するが、送風機の送風量を減じると運転コストを抑えることはできるものの、生物処理が抑制されることになる。
このように、水質と運転コストとは、トレードオフの関係であり、どちらを優先して強化学習を行うかは報酬設計次第である。

運転員は、設定入力部１２１に対して、水質及び運転コストのどちらを優先するかを決定することができる。
しかしながら、運転員は、設定入力部１２１に対して報酬設計を直接的に入力しない。
これは、運転員の判断によって報酬設計が入力されると、運転操作モデル学習部１１２における強化学習を再度行わなければならず、計算コストが増加するからである。
そこで、本実施形態に係る運転支援装置１００は、運転操作部１０２において水処理プラント３０の水質を仮想的に変化させて運転操作モデルに入力する。
運転員の意思決定に基づく設定値は設定入力部１２１に入力され、入力された設定値は設定保存部１２２に保存され、保存された設定値は運転操作部１０２に入力される。
運転操作部１０２は、運転操作部１０２において水質を状態として与える際に、運転員の判断が水質優先である場合には、報酬として設定された水質を予め改悪方向に変化させる。
このように水質が実際よりも悪化していると見せかけると、強化学習の運転操作を水質優先にすることができる。
逆に、運転員の判断が運転コスト優先である場合には、報酬として設定された水質を予め改善方向に変化させる。
このように水質が実際よりも改善していると見せかけると、強化学習の運転操作を運転コスト優先にすることができる。
水質を仮想的に変化させる方法では、厳密な最適方策を得ることはできないが、強化学習の再学習を待たずに運転員による水質優先であるか又は運転コスト優先であるかの意思決定を即座に反映することができる。

本実施形態によれば、プラントモデル１１１によるシミュレーションを用いた強化学習によって、過去の運転員の操作に依存しない、最適な運転操作値を導出することができる。
また、プラントモデル１１１が正しく較正できるだけのデータがあればよいので、工事等によりプロセスに変化が生じた場合であっても、データ蓄積の時間を大幅に短縮することができる。

（実施形態２）
図４は、本実施形態に係る運転支援装置１００ａの構成を示すブロック図である。
図４に示す運転支援装置１００ａは、図２に示す運転支援装置１００に対して推定部１３０が追加され、運転操作部１０２に代えて運転操作部１０２ａを備える構成である。

推定部１３０は、流入水質推定モデル学習部１３１と、流入水質推定モデル保存部１３２と、流入水質推定部１３３と、を備える。

流入水質推定モデル学習部１３１は、水質データ保存部１０１に保存された各種水質データのうち、過去から現在を経て将来に至るまでの天候情報と、季節情報と、過去の流入水質データと、に基づいて、水処理施設に将来流入する水量及び水質を推定する学習モデルを構築して学習する。
ここで、学習は、水質データ保存部１０１に保存されている過去の運転データによって行われる。

流入水質推定モデル保存部１３２は、流入水質推定モデル学習部１３１の学習によって得られた流入水質推定モデルの学習済みパラメータを保存する。

流入水質推定部１３３は、流入水質推定モデル保存部１３２に保存されたパラメータにより構築された流入水質推定モデルを用いて、水質データ保存部１０１に保存された各種水質データに基づいて将来流入する水量及び水質を推定し、推定部１３０の出力として流入水質推定値を出力する。
運転操作部１０２ａは、実施形態１における運転操作部１０２に対して、推定部１３０が出力する流入水質推定値を入力として追加した運転操作モデルにより、運転操作値を出力して水処理プラント３０の制御を行う。

流入水質推定部１３３の流入水質推定モデルは、機械学習手法によって構築される。
ここで、機械学習手法としては、ニューラルネットワーク、長・短期記憶（ＬＳＴＭ：Long Short-Term Memory）、サポートベクターマシン及びランダムフォレストを例示することができる。

図５は、ＬＳＴＭによって構築された流入水質推定モデルの例を示す図である。
図５において、処理フローは矢印で示され、現在の時刻をｔとし、現在の時刻ｔより前がエンコーダ部であり、現在の時刻ｔ以降がデコーダ部である。
図５に示す流入水質推定モデルは、特徴量抽出レイヤ、ＬＳＴＭレイヤ及び出力レイヤを備える。

図６は、図５に示す特徴量抽出レイヤを示す図である。
図６に示す特徴量抽出レイヤには、当該時刻の気象情報及び流入水質データが入力される。
ここで、気象情報には天候情報及び季節情報が含まれ、気象情報としては、図６に示すような縦軸に緯度、横軸に経度をもつメッシュ気象データを例示することができる。
また、当該時刻が時刻ｔ以降の将来である場合には、気象情報として気象予報データが用いられる。
特徴量抽出レイヤは、畳み込みレイヤによってこのメッシュ気象データの特徴量を抽出して流入水質データと併せて全結合層に入力することで、最終的な特徴量を出力する。
特徴量抽出レイヤの出力は、ＬＳＴＭレイヤに入力される。

ＬＳＴＭレイヤは、エンコーダ部の情報を保持し、デコーダ部の出力に反映させる。
デコーダ部の出力レイヤは、全結合層等の処理を行い、次時刻の流入水質を推定する。
推定された流入水質は、次時刻の特徴量抽出レイヤに入力される。
なお、デコーダ部は、予測する時刻分だけ連なって設けられる。
例えば、時刻の１ステップが１時間であり、２４時間先までの流入水質を予測したい場合には、デコーダ部は、現在の時刻ｔから２４時間後の時刻ｔ＋２４までを含む２５個が連なって設けられる。

本実施形態によれば、過去から現在までの蓄積されたデータのみならず、蓄積されたデータから推定された将来の流入水質も運転操作部に入力されるため、さらに現実に即した、高効率な運転操作が可能となる。

（実施形態３）
図７は、本実施形態に係る運転支援装置１００ｂの構成を示すブロック図である。
図７に示す運転支援装置１００ｂは、図４に示す運転支援装置１００ａに対して運転操作情報保存部１０３が追加され、学習部１１０に代えて運転操作モデル模倣学習部１１０ｂを備える構成である。

運転操作情報保存部１０３は、水処理プラント３０において行われた過去の運転操作情報を保存する。
運転操作情報保存部１０３に保存された過去の運転操作情報は、運転操作モデル模倣学習部１１０ｂに入力される。
運転操作モデル模倣学習部１１０ｂは、実施形態１，２における運転操作モデル学習部１１０と同様に、強化学習によって最適な運転操作を学習する処理を行うとともに、模倣学習によって過去の運転操作を模倣する。
一般に、強化学習では、予め報酬の設計が必要であり、具体的には、全窒素、全リン、活性汚泥沈殿率（ＳＶ）、生物化学的酸素要求量（ＢＯＤ）等の指定水質の制御に対して、いずれの項目の変化に対してどの程度の報酬を与えるか、予め設計することを要する。
すなわち、熟練の運転員が、いずれの項目をどの程度重視するのかを、報酬という形で定量化しなければならないが、これは熟練の運転員本人にも困難であるものの、模倣学習によってこの定量化が可能になる。

模倣学習は、熟練の運転員のようなエキスパートによって与えられた行動軌跡、すなわちエキスパート軌跡を模倣することによって、より良い方策を獲得する強化学習手法である。
エキスパート軌跡を模倣する方法としては、逆強化学習を例示することができる。
以下に説明する逆強化学習によれば、複雑な報酬設計を行うことなく、強化学習の報酬をエキスパート軌跡から習得することができる。

模倣学習において、報酬関数Ｒは、状態ｓを表現する特徴ベクトルφ（ｓ）と、パラメータθを用いた関数ｆとして、下記の式（１）で表現される。

逆強化学習では、エキスパート軌跡によって与えられる状態ｓとエキスパートの行動ａの組に対して、尤もらしい報酬関数Ｒとなるように、上記の式（１）のパラメータθを求める。
最大エントロピー逆強化学習（Maximum Entropy IRL（Inverse Reinforcement Learning））では、エキスパート軌跡ζ＝［（ｓ０，ａ０），（ｓ１，ａ１），…］と、その集合であるエキスパート軌跡集合Ｚ＝［ζ１，ζ２，…］に対して、下記の式（２）に示すように、エキスパートの行動確率Ｐのエントロピーを最大化するようなパラメータθを決定する問題に帰着される。

上記の式（２）の問題は、対数尤度関数の最大化問題に変換され、勾配法によって最適なパラメータθが決定される。

本実施形態によれば、過去の行動軌跡から、適切な行動を決定する模倣学習を用いることで、複雑な報酬設計が不要となり、より高効率な運転操作が可能となる。

また、本発明は、上述の実施形態に限定されるものではなく、上述の構成に対して、構成要素の付加、削除又は転換を行った様々な変形例も含むものとする。

１最初沈殿池
２反応槽
３最終沈殿池
４送風機
５調整バルブ
６散気装置
７第１のポンプ
８第２のポンプ
９計測器
１０重力濃縮槽
１１機械濃縮槽
１２消化槽
１３脱水槽
２１，２２，２３，２４配管
３０水処理プラント
１００，１００ａ，１００ｂ水処理施設の運転支援装置
１０１水質データ保存部
１０２，１０２ａ運転操作部
１０３運転操作情報保存部
１１０，１１０ｂ学習部
１１１プラントモデル
１１２運転操作モデル学習部
１１２ｂ運転操作モデル模倣学習部
１１３運転操作モデル保存部
１２０設定部
１２１設定入力部
１２２設定保存部
１３０推定部
１３１流入水質推定モデル学習部
１３２流入水質推定モデル保存部
１３３流入水質推定部
２００水処理施設

Claims

対象となる系の水質データを保存する水質データ保存部と、
前記対象となる系の物理的特性及び前記水質データを入力として学習を行い、学習済みの運転操作モデルを出力する学習部と、
前記対象となる系の水質及び運転コストの目標値である設定値が入力されて保存される設定部と、
前記水質データ及び前記設定値を入力として前記学習済みの運転操作モデルにより前記対象となる系を制御する運転操作値を出力する運転操作部と、を備え、
前記設定部は、
前記対象となる系の水質及び運転コストのどちらを優先するかに関する入力を受け付け、
前記運転操作部は、
前記設定部によって受け付けられる入力に応じて前記水質データを変化させて前記学習済みの運転操作モデルに入力し、
前記学習部は、
対象となる系のプロセスをモデル化したシミュレータであるプラントモデルと、
前記プラントモデル及び前記水質データを用いて強化学習によって前記運転操作モデルを学習させる運転操作モデル学習部と、
前記運転操作モデル学習部によって学習された運転操作モデルパラメータを保存する運転操作モデル保存部と、を備える水処理施設の運転支援装置。
前記水質データ保存部からの前記水質データが入力されて、将来の流入水質推定値を出力する推定部を備え、
前記推定部は、
前記水質データに基づいて、将来流入する水量及び水質を推定する学習モデルを構築して学習する流入水質推定モデル学習部と、
前記流入水質推定モデル学習部によって得られた流入水質推定モデルのパラメータを保存する流入水質推定モデル保存部と、
前記流入水質推定モデルを用いて前記水質データから将来の流入水質を推定して流入水質推定値を出力する流入水質推定部と、を備える請求項１に記載の水処理施設の運転支援装置。
過去の運転操作情報を保存する運転操作保存部と、
前記プラントモデル及び前記過去の運転操作情報を用いて、強化学習により運転操作モデルを学習させる運転操作モデル模倣学習部と、を備える請求項２に記載の水処理施設の運転支援装置。