JP7478297B1

JP7478297B1 - 情報処理システム、情報処理方法、学習システム、および学習方法

Info

Publication number: JP7478297B1
Application number: JP2023146237A
Authority: JP
Inventors: 孝池田; 俊也佐々木; 勇紀小柴; 由羽貴馬場; 稔彦瀬戸口
Original assignee: Mitsubishi Heavy Industries Ltd
Current assignee: Mitsubishi Heavy Industries Ltd
Priority date: 2023-09-08
Filing date: 2023-09-08
Publication date: 2024-05-02
Anticipated expiration: 2043-09-08

Abstract

【課題】燃焼設備に関連した適切な操作内容を導出することができる情報処理システム、情報処理方法、学習システム、および学習方法を提供する。【解決手段】本開示に係る情報処理システムは、燃焼設備用の情報処理システムであって、燃焼設備の状態量に関する情報である状態量情報を取得する取得部と、状態量情報と、燃焼設備に被焼却物を供給する供給装置の操作内容と、燃焼設備の状態に応じた報酬との対応関係に基づいて学習が行われた学習モデルを用いて、取得部により取得された状態量情報を入力し、入力した状態量情報に応じた供給装置の操作内容を導出する操作内容導出部と、を備える。【選択図】図２

Description

本開示は、情報処理システム、情報処理方法、学習システム、および学習方法に関する。

特許文献１には、燃焼設備における複数の燃焼プロセス測定値および複数の制御値のうちの少なくとも１つを含むプロセスデータを取得し、燃焼設備に設けられて燃焼設備内を撮像する撮像部が撮像した熱画像情報に基づいた画像データを取得または生成し、上記プロセスデータおよび上記画像データに基づいて所定の予測時間後の蒸気発生量を予測し、予測した蒸気発生量予測値に基づいて廃棄物焼却炉を制御する情報処理装置が開示されている。

特開２０２１－１８８８１３号公報

しかしながら、特許文献１に記載の情報処理装置では、蒸気発生量予測値を得ることまではできるが、蒸気発生量予測値と、その蒸気発生量予測値に応じて行うべき燃焼設備の操作内容との対応関係を求めることが難しい場合があった。

本開示は、上記課題を解決するためになされたものであって、燃焼設備に関連した適切な操作内容を導出することができる情報処理システム、情報処理方法、学習システム、および学習方法を提供することを目的とする。

上記課題を解決するために、本開示に係る情報処理システムは、燃焼設備用の情報処理システムであって、前記燃焼設備の状態量に関する情報である状態量情報を取得する取得部と、前記状態量情報と、前記燃焼設備に被焼却物を供給する供給装置の操作内容と、前記燃焼設備の状態に応じた報酬との対応関係に基づいて学習が行われた学習モデルを用いて、前記取得部により取得された前記状態量情報を入力し、入力した前記状態量情報に応じた前記供給装置の操作内容を導出する操作内容導出部と、を備える。

本開示に係る情報処理方法は、燃焼設備に関連した情報処理方法であって、前記燃焼設備の状態量に関する情報である状態量情報を取得し、前記状態量情報と、前記燃焼設備に被焼却物を供給する供給装置の操作内容と、前記燃焼設備の状態に応じた報酬との対応関係に基づいて学習が行われた学習モデルを用いて、前記状態量情報を入力し、入力した前記状態量情報に応じた前記供給装置の操作内容を導出する、ことを含む。

本開示に係る学習システムは、燃焼設備用の学習システムであって、前記燃焼設備の状態量に関する情報である状態量情報と、前記燃焼設備に被焼却物を供給する供給装置の操作内容と、前記燃焼設備の状態に応じた報酬との対応関係に基づいて学習モデルの強化学習を行う学習部を備える。

本開示に係る学習方法は、燃焼設備用の学習方法であって、前記燃焼設備の状態量に関する情報である状態量情報と、前記燃焼設備に被焼却物を供給する供給装置の操作内容と、前記燃焼設備の状態に応じた報酬との対応関係に基づいて学習モデルの強化学習を行う、ことを含む。

本開示の情報処理システム、情報処理方法、学習システム、および学習方法によれば、燃焼設備に関連した適切な操作内容を導出することができる。

本開示の実施形態に係る燃焼設備の全体を示す概略構成図である。本開示の実施形態に係る燃焼設備の機能構成を示すブロック図Ｉである。本開示の実施形態に係る強化学習におけるニューラルネットワークの構成変化を模式的に示す図である。本開示の実施形態に係る強化学習における出力層に紐づいた操作内容の一例を示す図である。本開示の実施形態に係る強化学習におけるニューラルネットワークの構成変化に関する報酬値の一例を示す図である。本開示の実施形態に係る情報処理方法を示すフローチャートである。本開示の実施形態に係る学習方法を示すフローチャートＩである。本開示の実施形態に係る燃焼設備の機能構成を示すブロック図ＩＩである。本開示の実施形態に係る学習方法を示すフローチャートＩＩである。本開示の実施形態に係るコンピュータの構成を示すハードウェア構成図である。

以下、本開示の実施形態の制御装置を、図面を参照して説明する。以下の説明では、同一または類似の機能を有する構成に同一の符号を付す。そして、それら構成の重複する説明は省略する場合がある。本開示で「ＸＸに基づく」とは、「少なくともＸＸに基づく」ことを意味し、ＸＸに加えて別の要素に基づく場合も含み得る。また「ＸＸに基づく」とは、ＸＸを直接に用いる場合に限定されず、ＸＸに対して演算や加工が行われたものに基づく場合も含み得る。本開示で「ＸＸまたはＹＹ」とは、ＸＸとＹＹのうちいずれか一方の場合に限定されず、ＸＸとＹＹの両方の場合も含み得る。これは選択的要素が３つ以上の場合も同様である。「ＸＸ」および「ＹＹ」は、任意の要素（例えば任意の情報）である。

本出願で「取得する」とは、送信要求を送信して能動的に取得する場合に限定されず、他の装置から送信される情報を受動的に受信することで取得する場合も含み得る。また「取得」とは、目的の情報（取得対象の情報）を外部から直接取得する場合に限定されず、外部から得られた情報に対して演算または加工などを行うことで、目的の情報を生成して取得する場合も含み得る。

（第一実施形態）
＜１．焼却設備の全体構成＞
図１は、実施形態に係る燃焼設備ＳＦの全体構成を示す概略構成図である。燃焼設備ＳＦは、例えば、都市ごみ、産業廃棄物、またはバイオマスなどを被焼却物Ｇとするストーカ炉である。以下では説明の便宜上、「被焼却物Ｇ」を「ごみＧ」と称する。なお、燃焼設備ＳＦは、ストーカ炉に限定されるものではなく、別タイプの焼却設備でもよい。本実施形態では、燃焼設備ＳＦは、例えば、クレーン１、焼却炉２、排熱回収ボイラ３、減温塔４、集塵装置５、煙道６、煙突７、および情報処理システム１００を備える。

クレーン１は、ごみピットに貯留されたごみＧを、後述する焼却炉２のホッパ１１まで運んでホッパ１１に投入する。クレーン１は、ごみＧを把持する把持部１ａと、把持部１ａに設けられた重量センサ１ｂとを含む。重量センサ１ｂは、例えば、ロードセルである。重量センサ１ｂは、ごみＧが把持部１ａに把持されて持ち上げられた状態で、把持部１ａに把持されたごみＧの重量を検出する。重量センサ１ｂの検出結果は、情報処理システム１００の取得部１１０によって取得可能な状態にある。

焼却炉２は、後述するホッパ１１に投入されたごみＧを搬送しながら燃焼させる炉である。焼却炉２内でのごみＧの燃焼に伴って焼却炉２では排ガスが発生する。発生した排ガスは、焼却炉２の上部に設けられた排熱回収ボイラ３に送られる。排熱回収ボイラ３は、焼却炉２で発生した排ガスと水との間で熱交換を行うことで水を加熱して蒸気を発生させる。

排熱回収ボイラ３を通過した排ガスは、減温塔４で冷却された後、集塵装置５に送られる。排ガスは、集塵装置５でススや塵埃が除去された後、煙道６および煙突７を通じて大気中に排出される。煙道６には、ガス濃度センサ６ａが設けられている。ガス濃度センサ６ａは、煙道６を流れる排ガスに含まれる各種気体の濃度（例えばＣＯ濃度）を検出する。なお、ガス濃度センサ６ａの検出結果は、ＣＯ濃度に代えて／加えて、酸素濃度、ＮＯｘ濃度、およびＳＯｘ濃度のうち１つ以上を含み得る。ガス濃度センサ６ａの検出結果は、情報処理システム１００の取得部１１０に送信される。

＜２．焼却炉＞
次に、焼却炉２について詳しく説明する。焼却炉２は、例えば、供給機構１０、炉本体２０、ストーカ３０、風箱４１、排出シュート４２、火炉４３、および送風機構５０を有する。

＜２．１供給機構＞
供給機構１０は、クレーン１によって運ばれたごみＧを、一時的に貯留するとともに、後述する炉本体２０の処理空間Ｖに向けて順次供給する機構である。供給機構１０は、例えば、ホッパ１１、フィーダ１２、押出装置１３、物体計測器１４、および水分計測器１５を有する。

ホッパ１１は、炉本体２０の内部へごみＧを供給するために設けられた貯留部である。ホッパ１１には、クレーン１によって運ばれたごみＧが投入される。ホッパ１１は、入口部１１ａと、出口部１１ｂとを有する。入口部１１ａは、ごみＧが外部から投入されるための入口部分である。入口部１１ａは、例えば鉛直方向に延びている。入口部１１ａに投入されたごみＧは、重力によって下方に移動する。出口部１１ｂは、入口部１１ａの下方に設けられている。出口部１１ｂは、入口部１１ａから供給されるごみＧを、後述する炉本体２０内の処理空間Ｖに向けて導く出口部分である。出口部１１ｂは、例えば水平方向に延びている。

フィーダ１２は、炉本体２０にごみＧを供給する装置である。フィーダ１２は、「供給装置」の一例である。以下では、往復運動を行うことで炉本体２０にごみＧを供給する往復式のフィーダ１２を例に説明する。なお、フィーダ１２は、往復式に限らず、回転運動を行うことでごみＧを供給する回転式のフィーダ１２でもよい。

フィーダ１２は、ホッパ１１の出口部１１ｂに設けられている。フィーダ１２は、ホッパ１１の出口部１１ｂの底部に沿う板状であり、ホッパ１１の出口部１１ｂの底部に沿って配置されている。フィーダ１２は、ホッパ１１の出口部１１ｂから炉本体２０の処理空間Ｖに向かう方向に沿って往復移動可能である。フィーダ１２は、押出装置１３によって駆動され、ホッパ１１の内部（例えばホッパ１１の出口部１１ｂ）に堆積したごみＧを炉本体２０の処理空間Ｖに向けて押し出す。ごみＧの供給量に関する、フィーダ１２のストローク、フィーダ１２の移動速度、およびフィーダ１２の停止時間は、押出装置１３によって制御される。

物体計測器１４は、クレーン１によってホッパ１１に投入されるごみＧの高さを検出する計測器である。物体計測器１４は、例えば、ＬｉＤＡＲ（Light Detection and Ranging）である。物体計測器１４は、例えばホッパ１１の入口部１１ａに設けられ、ホッパ１１の入口部１１ａを通過するごみＧの高さを検出する。なお、物体計測器１４は、ごみＧの高さに代えて、３次元測定によりごみＧの体積を直接に検出してもよい。物体計測器１４の検出結果は、情報処理システム１００の取得部１１０に送信される。

水分計測器１５は、ホッパ１１に投入されるごみＧに含まれる水分に関する値（例えば水分率または水分量）を検出する計測器である。本実施形態では、水分計測器１５は、ホッパ１１に設けられた照射部および検出部と、解析部とを有する。照射部は、ホッパ１１内に堆積するごみＧに所定の周波数帯域の電磁波を照射する。検出部は、照射部から照射されて、ごみＧを透過したまたはごみＧで反射した電磁波を受信する。解析部は、例えば、電磁波の特性変化（例えば振幅の変化または位相の変化）と水分率との関係を示す相関関係情報を予め記憶している。解析部は、照射部と検出部との間での電磁波の特性変化と、上記相関関係情報とに基づき、ごみＧに含まれる水分率を検出する。

本実施形態では、水分計測器１５の照射部および検出部は、フィーダ１２の少し上側に設けられ、フィーダ１２の上面に堆積するごみＧの水分率を検出する。水分計測器１５の検出結果は、情報処理システム１００の取得部１１０によって取得可能な状態にある。

＜２．２炉本体＞
炉本体２０は、ホッパ１１に隣接して設けられ、ごみＧを搬送しながら燃焼させる設備である。以下では、燃焼設備ＳＦにおけるごみＧの搬送方向を「搬送方向Ｄ」と称する。炉本体２０は、搬送方向Ｄにおける上流側から下流側に向けて、乾燥段２０ａ、燃焼段２０ｂ、および後燃焼段２０ｃをこの順に有する。乾燥段２０ａは、燃焼段２０ｂおよび後燃焼段２０ｃよりも上流側に位置し、ホッパ１１から供給されたごみＧを、ストーカ３０上での燃焼に先立って乾燥させる領域である。燃焼段２０ｂおよび後燃焼段２０ｃは、乾燥段２０ａを通過して乾燥した状態のごみＧをストーカ３０上で燃焼させる領域である。燃焼段２０ｂでは、ごみＧから発生する熱分解ガスによる拡散燃焼が起き、輝炎Ｆが生じる。後燃焼段２０ｃでは、ごみＧの拡散燃焼後の固定炭素燃焼が起きるため、輝炎Ｆは生じない。燃焼段２０ｂおよび後燃焼段２０ｃは、ごみＧを燃焼させる処理空間Ｖの一例である。乾燥段２０ａは、搬送方向Ｄにおいて処理空間Ｖよりも上流側の領域の一例である。

本実施形態では、炉本体２０は、可視光カメラ２１と、赤外カメラ２２とを有する。可視光カメラ２１および赤外カメラ２２は、搬送方向Ｄにおいて処理空間Ｖよりも下流側に配置され、当該下流側から搬送方向Ｄの上流側を撮像する。本実施形態では、可視光カメラ２１および赤外カメラ２２は、搬送方向Ｄにおける炉本体２０の下流側の端部（以下「炉尻」と称する）に設けられている。例えば、可視光カメラ２１および赤外カメラ２２は、炉本体２０の炉尻に設けられた窓部を通じて、当該下流側から搬送方向Ｄの上流側を撮像する。例えば、可視光カメラ２１および赤外カメラ２２は、互いに上下または左右で隣り合う位置に配置されている。

可視光カメラ２１は、炉本体２０の炉尻から、輝炎Ｆを撮像する。可視光カメラ２１の撮像結果は、情報処理システム１００の取得部１１０によって取得可能な状態にある。

赤外カメラ２２は、炉本体２０の炉尻から、輝炎Ｆを透過して炉本体２０の乾燥段２０ａ（すなわち、処理空間Ｖよりも上流側）に堆積したごみＧを撮像する。また本実施形態では、赤外カメラ２２は、炉本体２０の炉尻から、輝炎Ｆを透過してホッパ１１の出口部１１ｂを撮像する。例えば、赤外カメラ２２は、ホッパ１１の出口部１１ｂにおいて、フィーダ１２上に堆積したごみＧを含む画像（ごみＧの堆積状態を示す画像）を撮像する。赤外カメラ２２の撮像結果は、情報処理システム１００の取得部１１０によって取得可能な状態にある。

なお本実施形態では、１つの赤外カメラ２２によって、炉本体２０の乾燥段２０ａおよびホッパ１１の出口部１１ｂ（例えばフィーダ１２上に堆積したごみＧ）の両方を含む画像が撮像される。これに代えて、炉本体２０は、炉本体２０の乾燥段２０ａを撮像する第１赤外カメラと、ホッパ１１の出口部１１ｂ（例えばフィーダ１２上に堆積したごみＧ）を撮像する第２赤外カメラとを別々に備えてもよい。また、赤外カメラ２２は、炉本体２０の炉尻に代えて、別の位置に設けられてもよい。

＜２．３ストーカ＞
ストーカ３０は、複数の火格子３１と、火格子駆動装置３２（不図示）とを含む。複数の火格子３１は、炉本体２０の底面（例えば処理空間Ｖの底面）となるストーカ面３０ａを形成している。ストーカ面３０ａには、供給機構１０によってごみＧが層状に供給される。ストーカ面３０ａは、上述した乾燥段２０ａ、燃焼段２０ｂ、および後燃焼段２０ｃに亘り設けられている。複数の火格子３１は、固定火格子と、可動火格子とを含む。固定火格子は、後述する風箱４１の上面に固定されている。可動火格子は、一定の速度で搬送方向Ｄに沿って往復移動することで、可動火格子と固定火格子の上（ストーカ面３０ａ上）にあるごみＧを攪拌混合しながら下流側へ搬送する。

＜２．４風箱、排出シュート、火炉＞
風箱４１は、ストーカ３０の下方に設けられ、ストーカ３０を通じて炉本体２０の内部に燃焼用の空気を供給する。風箱４１は、搬送方向Ｄに複数配列されている。風箱４１は、風箱圧力センサ４１ａを有する。風箱圧力センサ４１ａは、風箱４１の内部の圧力を検出する。風箱４１の内部の圧力は、後述する一次空気ライン５２を通じて炉本体２０の内部に供給される燃焼空気の圧力に相当する。風箱圧力センサ４１ａの検出結果は、情報処理システム１００の取得部１１０によって取得可能な状態にある。

排出シュート４２は、燃焼を終えて灰となったごみＧを炉本体２０よりも下方に位置する灰押出装置へ落下させる装置である。排出シュート４２は、炉本体２０の炉尻に設けられている。

火炉４３は、炉本体２０の上部から上方に向けて延びている。処理空間Ｖ内でごみＧが燃焼することで生じた排ガスは、火炉４３を通じて排熱回収ボイラ３に送られる。

＜２．５送風機構＞
送風機構５０は、炉本体２０の内部に空気（例えば燃焼空気）を供給する。送風機構５０は、例えば、送風機５１、一次空気ライン５２、空気予熱器５３、二次空気ライン５４、ダンパ５５、および空気流量センサ５６を有する。

送風機５１は、炉本体２０の内部に空気（例えば燃焼空気）を圧送する押込送風機である。送風機５１は、例えば、第１送風機５１Ａと、第２送風機５１Ｂとを含む。第１送風機５１Ａは、一次空気ライン５２および風箱４１を通じて炉本体２０の内部（例えば処理空間Ｖ）に燃焼空気を圧送する。第２送風機５１Ｂは、二次空気ライン５４を通じて、火炉４３の内部に燃焼空気を圧送する。

一次空気ライン５２は、第１送風機５１Ａと風箱４１とを接続している。一次空気ライン５２の途中には、１つ以上（例えば複数）の一次空気ダンパ５５Ａが設けられている。一次空気ダンパ５５Ａは、一次空気ダンパ５５Ａの開度によって一次空気ライン５２を流れる燃焼空気の流量を変更する。

空気予熱器５３は、第１送風機５１Ａから圧送される空気を予熱する熱交換器である。例えば、空気予熱器５３は、一次空気ライン５２の途中に設けられている。

二次空気ライン５４は、第２送風機５１Ｂと火炉４３とを接続している。火炉４３内に供給された二次空気は、ストーカ３０の上方からごみＧに向かう。二次空気ライン５４の途中には、１つ以上（例えば複数）の二次空気ダンパ５５Ｂが設けられている。二次空気ダンパ５５Ｂは、二次空気ダンパ５５Ｂの開度によって二次空気ライン５４を流れる燃焼空気の流量を変更する。以下では説明の便宜上、一次空気ダンパ５５Ａと二次空気ダンパ５５Ｂとを合わせて「ダンパ５５」と称する。

空気流量センサ５６は、炉本体２０の内部に供給される空気（例えば燃焼空気）の流量を検出する。空気流量センサ５６は、例えば、第１空気流量センサ５６Ａと、第２空気流量センサ５６Ｂとを含む。第１空気流量センサ５６Ａは、一次空気ライン５２の途中に設けられ、一次空気ライン５２を通じて供給される空気の流量を検出する。第２空気流量センサ５６Ｂは、二次空気ライン５４の途中に設けられ、二次空気ライン５４を通じて供給される空気の流量を検出する。以下の説明で「空気流量センサ５６の検出結果」とは、例えば、第１空気流量センサ５６Ａの検出結果と、第２空気流量センサ５６Ｂの検出結果とを含む。

＜３．排熱回収ボイラ＞
次に、排熱回収ボイラ３について説明する。排熱回収ボイラ３は、例えば、ボイラ本体６１、管路６２、放射温度センサ（赤外線温度センサ）６３、炉内圧力センサ６４、給水流量センサ６５、および過熱器減温器流量センサ（蒸気量センサ）６６を含む。

ボイラ本体６１は、焼却炉２の火炉４３に接続されている。ボイラ本体６１の内部には、焼却炉２で発生した排ガスが流入する。放射温度センサ６３および炉内圧力センサ６４は、ボイラ本体６１に設けられている。放射温度センサ６３は、ボイラ本体６１の内部の温度を検出する。炉内圧力センサ６４は、ボイラ本体６１の内部の圧力を検出する。放射温度センサ６３の検出結果は、情報処理システム１００の取得部１１０に送信される。炉内圧力センサ６４の検出結果は、情報処理システム１００の取得部１１０によって取得可能な状態にある。

管路６２は、ボイラ本体６１の内部を延びている。管路６２には、複数の過熱器および複数の減温器が設けられている。管路６２の入口部には、給水部から水が供給される。管路６２を流れる水の少なくとも一部は、ボイラ本体６１の内部で熱交換により加熱され、主蒸気となって外部機器（例えばタービン）に向けて流れる。なお、本開示における「蒸気量」とは、管路６２から外部機器（例えばタービン）に向けて流れる主蒸気の量を意味する。

給水流量センサ６５は、管路６２の入口部に設けられており、管路６２に給水される水の流量を検出する。過熱器減温器流量センサ６６は、管路６２の途中に設けられており、管路６２を流れる流体（例えば蒸気）の流量を検出する。例えば、過熱器減温器流量センサ６６は、一次減温器を通過する流体の流量（一次過熱器減温器流量）を検出する第１過熱器減温器流量センサ６６Ａと、二次減温器を通過する流体の流量（二次過熱器減温器流量）を検出する第２過熱器減温器流量センサ６６Ｂとを含む。以下の説明で「過熱器減温器流量センサ６６の検出結果」とは、例えば、第１過熱器減温器流量センサ６６Ａの検出結果と、第２過熱器減温器流量センサ６６Ｂの検出結果とを含む。給水流量センサ６５および過熱器減温器流量センサ６６の検出結果は、情報処理システム１００の取得部１１０に送信される。

＜４．情報処理システム＞
次に、情報処理システム１００について説明する。
図２は、実施形態に係る燃焼設備ＳＦの機能構成を示すブロック図である。情報処理システム１００は、燃焼設備ＳＦを統括的に制御する。例えば、情報処理システム１００は、炉本体２０の処理空間ＶでのごみＧの燃焼制御を行う。本実施形態では、情報処理システム１００は、例えば、取得部１１０、記憶部１２０、操作内容導出部１３０、制御部１４０、および学習システム１６０、を備える。また、情報処理システム１００は通知部１５０を備えていてもよい。あるいは、情報処理システム１００は、制御部１４０に代えて、通知部１５０を備えていてもよい。本開示において、情報処理システム１００による制御対象の装置は、上述した押出装置１３（フィーダ１２）である。
以下に述べる情報処理システム１００における各部の動作は、本開示の情報処理方法および学習方法の一部に該当する。

＜４．１取得部＞
取得部１１０は、燃焼設備ＳＦに含まれる上述した各種センサにより検出された検出結果などを取得する。例えば、取得部１１０は、重量センサ１ｂの検出結果（ごみ重量）、物体計測器１４の検出結果（ごみ高さ）、放射温度センサ６３の検出結果（炉内温度）、過熱器減温器流量センサ６６の検出結果（過熱器減温器流量）、およびガス濃度センサ６ａの検出結果（ＣＯ濃度など）を取得する。過熱器減温器流量センサ６６の検出結果（過熱器減温器流量は、「蒸気量」の一例である。

また、水分計測器１５の検出結果（ごみ水分検出結果）、可視光カメラ２１の撮像結果（燃焼火炎画像）、赤外カメラ２２の撮像結果（ごみ層画像）、風箱圧力センサ４１ａの検出結果（風箱圧力）、空気流量センサ５６の検出結果（押込空気流量）、炉内圧力センサ６４の検出結果（炉内圧力）、および給水流量センサ６５の検出結果（給水流量）は、取得部１１０によって取得可能な状態にある。

取得部１１０によって、取得あるいは取得可能なこれらの情報は、燃焼設備ＳＦの状態量に関する値である。本開示において、情報処理システム１００は、燃焼設備ＳＦの状態量に関するこれらの値を用いて、押出装置１３（フィーダ１２）の制御を行う。取得部１１０は、取得した状態量を記憶部１２０に状態量の履歴（状態量履歴１２２と称す）として書き込み、記憶させる。

取得部１１０は、さらに、燃焼設備ＳＦの状態量に関するこれらの値を、所定の時間長さにおいて統計処理することで、状態量情報を取得する。本開示における「状態量情報」は、燃焼設備ＳＦの状態量に関するこれらの値を、所定の時間長さにおいて統計処理することで得られる代表値である。例えば、状態量情報は、上記所定の時間長さにおける燃焼設備ＳＦの状態量に関する値の平均値である。なお、状態量情報は、平均値に限定されず、中央値でもよく、最頻出値でもよい。

上記所定の時間長さは、押出装置１３（フィーダ１２）によりごみＧの供給が行われる時点と、当該供給に応じて燃焼設備ＳＦの状態量（例えば蒸気量）に変動が生じる時点との時間差を含む時間長さである。例えば、上記所定の時間長さは、押出装置１３（フィーダ１２）によりごみＧの供給が行われる時点と、当該供給に応じて燃焼設備ＳＦの状態量（例えば蒸気量）に変動が最も顕著に相関を持つ時点との時間差を含む時間長さである。また別の観点で見ると、上記所定の時間長さは、フィーダ１２が一往復する時間よりも長い時間長さである。上記所定の時間長さは、例えば、２０分である。

また、取得部１１０は、記憶部１２０より、操作内容導出部１３０が導出した操作内容（導出操作内容１２１と称す）、後述する学習モデルＭ、および蒸気量の制御目標値ＳＶをそれぞれ取得する。

＜４．２記憶部＞
記憶部１２０には、導出操作内容１２１、学習モデルＭ、蒸気量の制御目標値ＳＶ、および状態量履歴１２２が書き込まれ、記憶される。

＜４．３操作内容導出部＞
操作内容導出部１３０は、学習モデルＭを用いて、取得部１１０により取得された状態量情報を、学習モデルＭに入力し、入力した状態量情報に応じた押出装置１３（フィーダ１２）の操作内容を導出する。本開示において、操作内容導出部１３０に搭載された学習モデルを学習モデルＭと称する。学習モデルＭでは、取得部１１０により取得された状態量情報と、当該状態量情報が取得された場合に対応する押出装置１３の操作内容（フィーダ１２の操作内容）と、上記押出装置１３の操作内容（フィーダ１２の操作内容）の結果として生じる燃焼設備ＳＦの状態（例えば蒸気量）に応じた報酬との対応関係に基づいて学習が行われている。上記押出装置１３の操作内容（フィーダ１２の操作内容）の結果として生じる燃焼設備ＳＦの状態とは、上記押出装置１３の操作内容の操作から所定時間後（例えば２０分後）の燃焼設備ＳＦの状態（例えば蒸気量）を意味する。

その後、操作内容導出部１３０は、導出した導出操作内容を、制御部１４０に出力する。また、操作内容導出部１３０は、導出した導出操作内容を、通知部１５０に出力してもよい。なお、操作内容導出部１３０は、学習モデルＭから、記憶部１２０に記憶された学習モデルＭへの更新を、所定のタイミングにて行う。

＜４．４制御部および通知部＞
制御部１４０は、操作内容導出部１３０が出力する導出操作内容に基づき、処理空間Ｖの燃焼制御を行う。具体的には、制御部１４０は、操作内容導出部１３０が出力する導出操作内容に基づき、押出装置１３（フィーダ１２）に制御指示値を出力し、フィーダ１２を制御する。制御部１４０は、燃焼を促進する場合にごみＧの供給量を増加させる。一方で、制御部１４０は、燃焼を抑制する場合にごみＧの供給量を減少させる。

例えば、情報処理システム１００に通知部１５０が備わる場合、通知部１５０は、操作内容導出部１３０が出力する導出操作内容を作業者（燃焼設備ＳＦの運転員）に通知する。通知部１５０は、例えば、操作内容導出部１３０が出力する導出操作内容を表示する表示画面を有した表示装置である。作業者は、通知された導出操作内容を基に、押出装置１３（フィーダ１２）に手動で制御指示値を入力し、フィーダ１２を制御してもよい。

＜４．５学習システム＞
学習システム１６０は、学習部１６１を備える。学習システム１６０の学習部１６１は、記憶部１２０に記憶された学習モデルＭの強化学習を、取得部１１０を介して学習モデルＭを取得した後に行う。例えば、学習部１６１は、状態量情報と、押出装置１３（フィーダ１２）の操作内容と、報酬との対応関係に基づいて学習モデルＭの強化学習を行う。

＜５学習モデルの処理の概要＞
ここでは、本開示における学習モデルＭの概要を図３から図５を用いて示す。操作内容導出部１３０には、学習モデルＭが存在し、この学習モデルＭに対して、取得部１１０によって取得された状態量情報が入力される。学習モデルＭは、図３に示すような、順伝播型ニューラルネットワークである。この学習モデルＭに対し、統計処理後の状態量情報が入力層として入力されると、学習モデルＭは、押出装置１３（フィーダ１２）の複数の操作内容候補の各々に対する期待値を、出力層に出力する。入力される状態量は、取得部１１０によって、取得あるいは取得可能な、燃焼設備ＳＦの状態量に関する値である。入力される状態量として、低位発熱量（ＬＨＶ：Lower Heating Value）、排出物質の濃度（ＣＯ濃度）、ごみＧの供給量、および蒸気量を例に挙げる。学習モデルＭに入力される状態量は、これらのうち２つ以上である。本実施形態では、入力される状態量は、低位発熱量（ＬＨＶ）、排出物質の濃度（ＣＯ濃度）、ごみＧの供給量、および蒸気量の各々の上記所定の時間長さにおける代表値（例えば平均値）である。

なお、入力される状態量情報は、上述した状態量の一部または全部に代えて、水分計測器１５の検出結果（ごみ水分検出結果）、可視光カメラ２１の撮像結果（燃焼火炎画像）、赤外カメラ２２の撮像結果（ごみ層画像）、風箱圧力センサ４１ａの検出結果（風箱圧力）、空気流量センサ５６の検出結果（押込空気流量）、炉内圧力センサ６４の検出結果（炉内圧力）、および給水流量センサ６５の検出結果（給水流量）の各々の上記所定時間における代表値（または代表する画像）でもよい。

学習モデルＭの出力層に出力される期待値（押出装置１３（フィーダ１２）の複数の操作内容候補の各々に対する期待値）の中で、最も大きな期待値に対応する操作内容候補が、導出操作内容として、操作内容導出部１３０によって、制御部１４０または通知部１５０に出力される。

取得部１１０は、統計処理とは別に、以下の推定を行ってもよい。取得部１１０が行った推定は、状態量として扱われる。すなわち本実施形態では、以下の推定が行われた状態量に関する値が学習モデルＭに入力される。

取得部１１０は、重量センサ１ｂの検出結果（ごみ重量）と、物体計測器１４の検出結果（ごみ高さ）とを取得する。取得部１１０により、ごみ重量と、ごみ高さ、および押出装置１３（供給装置）の操作内容から、状態量としてごみＧの供給量が推定される。ただし、ごみＧの供給量の推定方法は、上記に限定されない。

取得部１１０は、重量センサ１ｂの検出結果（ごみ重量）と、物体計測器１４の検出結果（ごみ高さ）と、放射温度センサ６３の検出結果（炉内温度）とを取得する。取得部１１０により、検出結果と、押出装置１３（供給装置）の操作内容とからごみＧの供給量（推定量）に応じた炉内温度が求まり、これらに基づいて燃焼データを逆算することにより、状態量としてＬＨＶが推定される。

図４に示すように、押出装置１３（供給装置）の操作内容は、フィーダ１２の第１操作要素の操作量と、第１操作要素とは異なるフィーダ１２の第２操作要素の操作量と、フィーダ１２の停止時間とのうち２つ以上の組み合わせにより規定される内容である。例えば、フィーダ１２が往復式のフィーダである場合、第１操作要素は、フィーダ１２のストローク（フィーダストロークＳＴ）である。第２操作要素は、フィーダ１２の速度（フィーダ速度ＳＤ）である。

図４の操作内容に関する２次元マップにおいて、第１操作要素をフィーダストロークＳＴとし、第２操作要素を、フィーダ速度ＳＤとしている。第１操作要素と第２操作要素との組み合わせは、図４において、フィーダ速度ＳＤの５パターンと、フィーダストロークＳＴの８パターンとから４０パターン存在する。これら４０パターンは、学習モデルＭの出力層に設定される押出装置１３（フィーダ１２）の複数の操作内容候補である。すなわち、学習モデルＭの出力層には、４０パターンの操作内容候補が離散的に設定される。学習モデルＭの出力層に出力される期待値の中で、最も大きな期待値に対応する操作内容は、図４の４０パターン中、フィーダストロークＳＴ：αと、フィーダ速度ＳＤ：βとの組み合わせである。なお、操作内容は、この２次元マップに限定されず、第１操作要素と第２操作要素との組み合わせに対し、停止時間が追加された三次元マップでもよい。

こうして出力された導出操作内容を基に、フィーダ１２が制御された後に、学習システム１６０の学習部１６１は、学習モデルＭの強化学習を行う。上記所定時間後に、フィーダ１２によりごみＧの供給に応じて燃焼設備ＳＦの状態量に変動が生じると、学習部１６１は、導出された操作内容実施後の状態量情報（検出値とも称する）と、制御目標値とを取得部１１０から受け取る。制御目標値は、状態量情報に含まれる少なくとも１つの指標の検出値に対応する目標値である。報酬は、この検出値と、制御目標値との差分の大きさに基づいて導出される。例えば、学習部１６１は、操作内容実施後の状態量情報（検出値）に含まれる指標の１つである蒸気量の検出値ＰＶと、蒸気量の制御目標値ＳＶとを用いる。

図５に示すように、学習部１６１によって、蒸気量の検出値ＰＶと、蒸気量の制御目標値ＳＶとの差分の大きさに基づいて報酬が導出される。報酬は、段階的に区分されている。例えば、報酬は、学習モデルＭに対してあらかじめ設定されていてもよい。あるいは、報酬は、記憶部１２０に記憶されており、取得部１１０により取得された後に、学習部１６１によって学習モデルＭに入力されてもよい。

後述するステップＳＴ２４において、学習部１６１は、報酬を基に期待値に関する重みづけの変更を行う。学習部１６１は、入力層から出力層までにある各ノード間の結合重みを更新することで、期待値に関する重みづけの変更を行う。強化学習が幾度となく繰り返されることで、学習モデルＭは、状態量に対して報酬が高くなる操作内容を学習していく。なお、学習部１６１は、所定のタイミングにて、学習モデルＭの強化学習を行う。

＜６処理の流れ＞
次に、上述した情報処理システム１００における処理の流れの一例について説明する。ただし、以下に説明する処理の順番は、以下の例に限定されず、適宜入れ替えられてもよい。

＜６．１情報処理方法＞
まず、燃焼設備ＳＦに関連した情報処理方法について説明する。
本実施形態における情報処理方法は、図６に示すフローチャートに従って実施される。まず、情報処理システム１００の取得部１１０は、各検出結果から状態量を取得する（ステップＳＴ１１）。次に、情報処理システム１００の取得部１１０は、取得した状態量を、記憶部１２０の状態量履歴１２２として書き込む（ステップＳＴ１２）。次に、情報処理システム１００の取得部１１０は、ステップＳＴ１１にて取得した状態量を統計処理する（ステップＳＴ１３）。これにより、取得部１１０は、燃焼設備ＳＦの状態量に関する情報である状態量情報を取得する。次に、情報処理システム１００の操作内容導出部１３０は、取得部１１０から状態量が統計処理された状態量情報を受け取り、状態量情報を学習モデルＭに入力する（ステップＳＴ１４）。次に、情報処理システム１００の操作内容導出部１３０は、入力した状態量情報に応じた押出装置１３（フィーダ１２）の操作内容を導出し（ステップＳＴ１５）、制御部１４０または通知部１５０に、導出された操作内容を出力する（ステップＳＴ１６）。

＜６．２学習方法＞
次に、燃焼設備ＳＦ用の学習方法について説明する。
本実施形態における学習方法は、図７に示すフローチャートに従って実施される。以下に説明する学習方法は、焼却設備ＳＦの運転段階においても並行して実行される。

まず、情報処理システム１００の取得部１１０は、記憶部１２０の状態量履歴１２２に基づき操作内容実施後の状態量情報（検出値）を取得するとともに、記憶部１２０の導出操作内容１２１から押出装置１３（フィーダ１２）の操作内容を取得する（ステップＳＴ２１）。その際、取得部１１０は、前もって操作内容実施後の状態量を統計処理する（ステップＳＴ２１ａ）。次に、情報処理システム１００の取得部１１０は、記憶部１２０から制御目標値ＳＶを取得する（ステップＳＴ２２）。

次に、情報処理システム１００の、学習システム１６０の学習部１６１は、取得部１１０から操作内容実施後の状態量情報（検出値ＰＶ）および制御目標値ＳＶを受け取り、検出値ＰＶと、制御目標値ＳＶとから報酬を導出する（ステップＳＴ２３）。次に、学習システム１６０の学習部１６１は、記憶部１２０の導出操作内容１２１から押出装置１３（フィーダ１２）の操作内容と、その操作内容に対応する報酬を基に期待値に関する重みづけを変更する（ステップＳＴ２４）。

これにより、学習部１６１は、燃焼設備ＳＦの状態量に関する情報である状態量情報と、燃焼設備ＳＦに被焼却物を供給する供給装置の操作内容と、燃焼設備ＳＦの状態に応じた報酬との対応関係に基づいて学習モデルの強化学習を行う。次に、学習システム１６０の学習部１６１は、重みづけが変更されて更新された学習モデルＭを記憶部１２０に書き込む（ステップＳＴ２５）。

＜７．作用効果＞
上記構成の情報処理システム１００および情報処理方法によれば、燃焼設備ＳＦの状態量に対して報酬が高くなる操作内容を学習していく学習モデルＭを用いることができる。これにより、本実施形態の情報処理システム１００および情報処理方法は、燃焼設備ＳＦに関連した適切な操作内容を導出することができる。その結果、燃焼設備ＳＦの蒸気量の変動量を抑制することができる。

また、上記構成の学習システム１６０および学習方法によれば、学習モデルＭが、燃焼設備ＳＦの状態量に対して報酬が高くなる操作内容を学習していくことができる。これにより、本実施形態の学習システム１６０および学習方法は、燃焼設備ＳＦに関連した適切な操作内容を導出することができる。その結果、燃焼設備ＳＦの蒸気量の変動量を抑制することができる。

また、蒸気量は、ごみＧの供給状態やごみＧの性状によって大きく変動する場合がある。ごみＧの性状における、燃焼学的性状（ＬＨＶなど）および粉体工学的性状（付着量など）は、季節や気候の影響を強く受けるため、蒸気量などの制御対象パラメータの感度も時々刻々と変化することがある。例えば、蒸気量の予測に基づく供給装置の制御を行う場合には、蒸気量の予測値に対応した制御ロジックの構築が必要となる。ルールベースのロジックを用いると、蒸気量の予測値に対応した分岐処理の数が膨大な量となってしまい、季節変動をすべて加味することは難しい。

上記構成の情報処理システム１００および情報処理方法によれば、燃焼設備ＳＦの状態量に対して報酬が高くなる操作パターンを学習していく学習モデルＭを用いることができる。これにより、本実施形態の情報処理システム１００および情報処理方法は、季節変動を加味した上で、燃焼設備ＳＦに関連した適切な操作内容を導出するロジックを自動的に構築することができる。その結果、燃焼設備ＳＦの蒸気量の変動量を抑制することができる。

また、上記構成の学習システム１６０および学習方法によれば、学習モデルＭが、燃焼設備ＳＦの状態量に対して報酬が高くなる操作パターンを学習していくことができる。これにより、本実施形態の学習システム１６０および学習方法は、季節変動を加味した上で、燃焼設備ＳＦに関連した適切な操作内容を導出するロジックを自動的に構築することができる。その結果、燃焼設備ＳＦの蒸気量の変動量を抑制することができる。

（第二実施形態）
＜８．情報処理システム＞
以下、第二実施形態として本開示に係る情報処理システム１００Ｂの実施形態について、図８を用いて説明する。第一実施形態と共通の構成要素には同一の符号を付して詳細説明を省略する。

本実施形態では、情報処理システム１００Ｂは、例えば、取得部１１０、記憶部１２０Ｂ、操作内容導出部１３０、制御部１４０、および学習システム１６０Ｂ、を備える。また、情報処理システム１００Ｂは通知部１５０を備えていてもよい。あるいは、情報処理システム１００Ｂは、制御部１４０に代えて、通知部１５０を備えていてもよい。本開示においても、情報処理システム１００による制御対象の装置は、上述した押出装置１３（供給装置）である。

また、本実施形態における、学習モデルＭは、状態量情報と、運転員の過去の操作履歴から得られた押出装置１３（フィーダ１２）の操作内容との対応関係に基づく事前学習により生成された初期モデルに基づいて生成される。この初期モデルを基礎として、取得部１１０により取得された状態量情報と、押出装置１３（フィーダ１２）の操作内容と、運転員の操作履歴に応じた報酬との対応関係に基づく事前学習が行われる。その後に、第一実施形態で述べた取得部１１０により取得された状態量情報と、供給装置の操作内容と、燃焼設備ＳＦの状態に応じた報酬との対応関係に基づく強化学習が行われる。以下に述べる情報処理システム１００Ｂにおいて追加された各部の動作は、本開示の情報処理方法および学習方法の一部に該当する。

情報処理システム１００Ｂでは、記憶部１２０Ｂは、新たに、運転員による押出装置１３（フィーダ１２）の操作履歴（運転員操作履歴１２３と称す）を記憶する。

情報処理システム１００Ｂでは、学習部１６１Ｂは、第一実施形態で述べた強化学習に加え、事前学習としての強化学習を行うことで、学習モデルＭの初期モデルを生成する。本実施形態では、情報処理システム１００Ｂには、学習システム１６０Ｂに、いくつかの機能を加えた生成部１６２が備えられている。生成部１６２は、状態量情報と、運転員の操作履歴から得られた押出装置１３（フィーダ１２）の操作内容との対応関係に基づく事前学習により、学習モデルＭの初期モデルを生成する。

本実施形態における学習方法は、図９に示すフローチャートに従って実施される。以下に説明する学習方法も同様に、焼却設備ＳＦの運転段階においても並行して実行される。

まず、情報処理システム１００Ｂの生成部１６２は、学習前の初期モデルを設定する（ステップＳＴ２０Ｂ）。この初期モデルを学習モデルＭとして、情報処理システム１００Ｂの操作内容導出部１３０は、取得部１１０により状態量が統計処理された状態量情報を受け取り、状態量情報を学習モデルＭに入力する。その後、操作内容導出部１３０は、入力した状態量情報に応じた押出装置１３（フィーダ１２）の操作内容を導出する（ステップＳＴ２１Ｂ）。

次に、情報処理システム１００Ｂの取得部１１０は、記憶部１２０から運転員による操作履歴（運転員操作履歴１２３）を取得する（ステップＳＴ２２Ｂ）。次に、情報処理システム１００Ｂの、学習システム１６０Ｂの学習部１６１Ｂは、過去の状態量情報と、当該状態量情報が取得された場合に対応する学習モデルＭを用いて導出された押出装置１３（フィーダ１２）の操作内容と、当該状態量情報が取得された場合に実際に行われた運転員の操作に基づく報酬との対応関係に基づき、学習モデルＭを事前学習させる。具体的には、上記事前学習では、学習部１６１Ｂによって、学習モデルＭを用いて導出された押出装置１３（フィーダ１２）の操作内容と、運転員操作履歴１２３との一致度に基づいて報酬が導出される（ステップＳＴ２３Ｂ）。

なお、学習モデルＭの事前学習としては、学習モデルＭを用いて導出された押出装置１３の操作内容と運転員操作履歴１２３との一致度に代えて／加えて、過去に取得された状態量情報と、当該状態量情報が取得された場合に対応する運転員操作履歴１２３に含まれる運転員の操作内容と、当該運転員の操作内容の結果として生じる燃焼設備ＳＦの状態（例えば蒸気量）に応じた報酬との対応関係に基づく強化学習が行われてもよい。例えば本実施形態では、事前学習における報酬は、運転員操作履歴１２３に含まれる運転員の操作内容と、当該運転員の操作内容に応じて燃焼設備ＳＦの状態量に含まれる少なくとも１つの指標の検出値と制御目標値との差分の大きさが反映されて導出される。

次に、学習システム１６０の学習部１６１は、報酬を基に期待値に関する重みづけを変更する（ステップＳＴ２４）。これにより、学習部１６１は、この初期モデルを基礎として、取得部１１０により取得された状態量情報と、押出装置１３（フィーダ１２）の操作内容と、運転員の操作履歴に応じた報酬との対応関係に基づく事前学習としての強化学習を行う。次に、学習システム１６０Ｂの学習部１６１Ｂは、重みづけが変更されて更新された学習モデルを記憶部１２０に書き込む（ステップＳＴ２４）。

学習システム１６０Ｂの学習部１６１Ｂは、学習モデルＭを用いて導出された押出装置１３（フィーダ１２）の操作内容と、運転員操作履歴１２３とから導出された報酬を基に初期モデルの事前学習としての強化学習を行った後に、第一実施形態と同様の強化学習を行う。すなわち、取得部１１０により取得された状態量情報と、当該状態量情報が取得された場合に対応する押出装置１３の操作内容（フィーダ１２の操作内容）と、上記押出装置１３の操作内容（フィーダ１２の操作内容）の結果として生じる燃焼設備ＳＦの状態（例えば蒸気量）に応じた報酬との対応関係に基づいて学習モデルＭの強化学習が行われる。以上により、初期モデルを基礎として、学習モデルＭが得られる。あるいは、学習部１６１Ｂは、初期モデルに対し、事前学習としての強化学習と、第一実施形態の強化学習とを適宜選択して強化学習を行い、学習モデルを得てもよい。

＜９．作用効果＞
上記構成の情報処理システム１００Ｂおよび情報処理方法によれば、燃焼設備ＳＦの状態量に対して報酬が高くなる操作パターンを学習していく学習モデルＭを用いることができる。これにより、本実施形態の情報処理システム１００Ｂおよび情報処理方法は、燃焼設備ＳＦに関連した適切な操作内容を導出することができる。その結果、燃焼設備ＳＦの目的の状態に維持しやすくなる。

また、上記構成の学習システム１６０Ｂおよび学習方法によれば、学習モデルが、燃焼設備ＳＦの状態量に対して報酬が高くなる操作パターンを学習していくことができる。これにより、本実施形態の学習システム１６０Ｂおよび学習方法は、燃焼設備ＳＦに関連した適切な操作内容を導出することができる。その結果、燃焼設備ＳＦの蒸気量の変動量を抑制することができる。

さらに、上記構成の情報処理システム１００Ｂおよび情報処理方法によれば、運転員操作履歴１２３との一致度に基づいて学習させているため、状態量情報に基づいて供給装置の制御を行っている運転員と、同様の操作パターンを取るようなロジックを自動的に構築することができる。これにより、既存の他の情報処理システムとの連携も考慮した操作パターンが構築されるため、本開示における情報処理システム１００Ｂの導入時に安定した押出装置１３（フィーダ１２）の制御を行うことができる。したがって、本実施形態の情報処理システム１００Ｂおよび情報処理方法は、燃焼設備ＳＦに関連した適切な操作内容を、運転員の操作パターンを反映した上で、導出することができる。

また、上記構成の学習システム１６０Ｂおよび学習方法によれば、運転員操作履歴との一致度に基づいて学習させているため、状態量情報に基づいて押出装置１３（フィーダ１２）の制御を行っている運転員と、同様の操作パターンを取るようなロジックを自動的に構築することができる。これにより、既存の他の情報処理システムとの連携も考慮した操作パターンが構築されるため、本開示における情報処理システム１００Ｂの導入時に安定した供給装置の制御を行うことができる。したがって、本実施形態の学習システム１６０Ｂおよび学習方法は、燃焼設備ＳＦに関連した適切な操作内容を、運転員の操作パターンを反映した上で、導出することができる。その結果、燃焼設備ＳＦの蒸気量の変動量を抑制することができる。

＜１０．その他の実施形態＞
以上、本開示の実施の形態について図面を参照して詳述したが、具体的な構成はこの実施の形態に限られるものではなく、本開示の要旨を逸脱しない範囲の設計変更等も含まれる。本開示における初期モデルとしては、燃焼設備ＳＦとは別の設備における状態量情報と、別の設備における供給装置の操作内容との対応関係に基づく事前学習により生成された初期モデルであってもよい。例えば、学習システム１６０Ｂの学習部１６１Ｂは、過去の状態量情報と、当該状態量情報が取得された場合に対応する学習モデルＭを用いて導出された押出装置１３（フィーダ１２）の操作内容と、当該状態量情報が取得された場合に別の設備で実施された押出装置１３（フィーダ１２）の操作内容との対応関係に基づき、学習モデルＭを学習させる。この場合、学習部１６１Ｂによって、学習モデルＭを用いて導出された押出装置１３（フィーダ１２）の操作内容と、別の設備で実施された押出装置１３（フィーダ１２）の操作内容との一致度に基づいて報酬が導出される。

なお、押出装置１３（フィーダ１２）の操作内容は、情報処理システム１００が設けられた燃焼設備１と、別の設備との大きさの違いを考慮するため、燃焼設備１と別の設備との大きさの比率に基づく補正が行われた状態で学習されてもよい。

この場合、変形例の初期モデルに対し、事前学習としての強化学習が行われた後に、検出値と、制御目標値とから導出された報酬に基づく第一実施形態の強化学習に移行してもよい。あるいは、変形例の初期モデルに対し、事前学習としての強化学習と、第一実施形態の強化学習とが適宜選択されて強化学習が行われ、学習モデルが得られてもよい。

このような構成によれば、本変形例は、燃焼設備ＳＦに関連した適切な操作内容を、別の設備における操作パターンを反映した上で、導出することができる。

図１０は、本実施形態に係るコンピュータ１１００の構成を示すハードウェア構成図である。コンピュータ１１００は、例えば、プロセッサ１１１０、メインメモリ１１２０、ストレージ１１３０、インターフェース１１４０を備える。

上述の情報処理システム１００あるいは情報処理システム１００Ｂの各機能部は、コンピュータ１１００に実装される。そして、上述した各機能部の動作は、プログラムの形式でストレージ１１３０に記憶されている。プロセッサ１１１０は、プログラムをストレージ１１３０から読み出してメインメモリ１１２０に展開し、当該プログラムに従って上記処理を実行する。また、プロセッサ１１１０は、プログラムに従って、上述した各機能部が使用する記憶領域をメインメモリ１１２０に確保する。

プログラムは、コンピュータ１１００に発揮させる機能の一部を実現するためのものであってもよい。例えば、プログラムは、ストレージ１１３０に既に記憶されている他のプログラムとの組み合わせ、または他の装置に実装された他のプログラムとの組み合わせによって機能を発揮させるものであってもよい。また、コンピュータ１１００は、上記構成に加えて、又は上記構成に代えてＰＬＤ（Programmable Logic Device）などのカスタムＬＳＩ（Large Scale Integrated Circuit）を備えてもよい。ＰＬＤの例としては、ＰＡＬ(Programmable Array Logic)、ＧＡＬ(Generic Array Logic)、ＣＰＬＤ(Complex Programmable Logic Device)、ＦＰＧＡ（Field Programmable Gate Array）が挙げられる。この場合、プロセッサ１１１０によって実現される機能の一部または全部が当該集積回路によって実現されてよい。

ストレージ１１３０の例としては、磁気ディスク、光磁気ディスク、半導体メモリなどが挙げられる。ストレージ１１３０は、コンピュータ１１００のバスに直接接続された内部メディアであってもよいし、インターフェース１１４０又は通信回線を介してコンピュータ１１００に接続される外部メディアであってもよい。また、このプログラムが通信回線によってコンピュータ１１００に配信される場合、配信を受けたコンピュータ１１００が当該プログラムをメインメモリ１１２０に展開し、上記処理を実行してもよい。また、当該プログラムは、前述した機能の一部を実現するためのものであってもよい。さらに、当該プログラムは、前述した機能をストレージ１１３０に既に記憶されている他のプログラムとの組み合わせで実現するもの、いわゆる差分ファイル（差分プログラム）であってもよい。

＜付記＞
各実施形態に記載の情報処理システム１００あるいは情報処理システム１００Ｂは、例えば以下のように把握される。

（１）第１の態様に係る情報処理システム１００は、焼却設備ＳＦ用の情報処理システムであって、燃焼設備ＳＦの状態量に関する情報である状態量情報を取得する取得部１１０と、状態量情報と、燃焼設備ＳＦに被焼却物Ｇを供給する供給装置（フィーダ１２）の操作内容と、燃焼設備ＳＦの状態に応じた報酬との対応関係に基づいて学習が行われた学習モデルを用いて、取得部１１０により取得された状態量情報を入力し、入力した状態量情報に応じた供給装置の操作内容を導出する操作内容導出部１３０と、を備える。

このような構成によれば、燃焼設備ＳＦの状態量に対して報酬が高くなる操作内容を学習していく学習モデルを用いることができる。これにより、第１の態様に係る情報処理システム１００は、燃焼設備ＳＦに関連した適切な操作内容を導出することができる。その結果、燃焼設備ＳＦを目的の状態に維持しやすくなる。

（２）第２の態様に係る情報処理システム１００は、（１）の情報処理システム１００であって、上記状態量情報は、燃焼設備ＳＦの状態量に関する値を、所定の時間長さにおいて統計処理することで得られる代表値である。

このような構成によれば、状態量を所定の時間長さにおいて統計処理を行うことで、瞬時に変動し得る状態量に関して瞬間的に大きくなる（または小さくなる）状態量の検出値の影響を小さくすることができる。これにより、第２の態様に係る情報処理システム１００は、燃焼設備ＳＦに関連したさらに適切な操作内容を導出することができる。

（３）第３の態様に係る情報処理システム１００は、（２）の情報処理システム１００であって、上記所定の時間長さは、供給装置（フィーダ１２）により被焼却物Ｇの供給が行われる時点と、当該供給に応じて状態量に変動が生じる時点との時間差を含む時間長さである。

このような構成によれば、上記のような比較的長い時間である所定の時間長さにおいて状態量の統計処理を行うことで、被焼却物Ｇの供給後に瞬時に変動し得る状態量に関して瞬間的に大きくなる（または小さくなる）状態量の検出値の影響を小さくすることができる。これにより、第３の態様に係る情報処理システム１００は、燃焼設備ＳＦに関連したさらに適切な操作内容を導出することができる。

（４）第４の態様に係る情報処理システム１００は、（１）から（３）のうちいずれか１つに記載の情報処理システム１００であって、上記供給装置（フィーダ１２）の操作内容は、供給装置の第１操作要素の操作量と、第１操作要素とは異なる供給装置の第２操作要素の操作量と、供給装置の停止時間とのうち２つ以上の組み合わせにより規定される内容である。

このような構成によれば、供給装置（フィーダ１２）の操作内容を詳細に規定することができる。これにより、第４の態様に係る情報処理システム１００は、燃焼設備ＳＦに関連したさらに適切な操作内容を導出することができる。

（５）第５の態様に係る情報処理システム１００は、（１）から（４）のうちいずれか１つに記載の情報処理システム１００であって、上記供給装置（フィーダ１２）は、往復式または回転式のフィーダであり、上記供給装置の操作内容は、フィーダ１２のストローク（フィーダストロークＳＴ）と、フィーダ１２の速度（フィーダ速度ＳＤ）と、フィーダ１２の停止時間とのうち２つ以上の組み合わせにより規定される。

このような構成によれば、供給装置（フィーダ１２）の操作内容を詳細に規定することで、被焼却物Ｇの供給を制御できる。これにより、第５の態様に係る情報処理システム１００は、燃焼設備ＳＦに関連したさらに適切な操作内容を導出することができる。

（６）第６の態様に係る情報処理システム１００は、（１）から（５）のうちいずれか１つに記載の情報処理システム１００であって、上記報酬は、状態量情報に含まれる少なくとも１つの指標の検出値と、指標の目標値との差分の大きさに基づいて導出される。

このような構成によれば、操作内容実施後の状態量（検出値）と、制御目標値との差分の大きさに基づいて、報酬が高くなる操作内容を導出することができる。これにより、第６の態様に係る情報処理システム１００は、燃焼設備ＳＦに関連したさらに適切な操作内容を導出することができる。

（７）第７の態様に係る情報処理システム１００は、（１）から（６）のいずれか１つに記載の情報処理システム１００であって、上記状態量は、低位発熱量、排出物質の濃度、被焼却物の供給量、または蒸気量のうち２つ以上である。

このような構成によれば、燃焼設備ＳＦに被焼却物Ｇを供給することで変化し得る状態量を入力することができる。これにより、第７の態様に係る情報処理システム１００は、燃焼設備ＳＦに関連したさらに適切な操作内容を導出することができる。

（８）第８の態様に係る情報処理システム１００は、（１）から（７）のいずれか１つに記載の情報処理システム１００であって、上記取得部により取得された状態量情報と、供給装置の操作内容と、報酬との対応関係に基づいて学習モデルの強化学習を行う学習部をさらに備える。

このような構成によれば、強化学習によって、供給装置の操作内容と、報酬との対応関係に基づいて各操作内容における期待値に関する重みづけを変更することができる。これにより、第８の態様に係る情報処理システム１００は、燃焼設備ＳＦに関連したさらに適切な操作内容を導出することができる。

（９）第９の態様に係る情報処理システム１００Ｂは、（１）から（８）のいずれか１つに記載の情報処理システム１００Ｂであって、上記学習モデルは、状態量情報と、運転員の操作履歴から得られた供給装置の操作内容との対応関係に少なくとも基づく事前学習により生成された初期モデルを基礎として、取得部１１０により取得された状態量情報と、給装置の操作内容と、燃焼設備ＳＦの状態に応じた報酬との対応関係に基づく強化学習が行われて得られる。

このような構成によれば、第９の態様に係る情報処理システム１００Ｂは、燃焼設備ＳＦに関連した適切な操作内容を、運転員の操作パターンを反映した上で、導出することができる。これにより、初期モデルの段階で、ある程度の精度を確保することができる。

（１０）第１０の態様に係る情報処理システム１００Ｂは、（１）から（９）のいずれか１つに記載の情報処理システム１００Ｂであって、上記学習モデルは、別の設備における状態量情報と、別の設備における供給装置の操作内容との対応関係に少なくとも基づく事前学習により生成された初期モデルを基礎として、取得部１１０により取得された状態量情報と、給装置の操作内容と、燃焼設備ＳＦの状態に応じた報酬との対応関係に基づく強化学習が行われて得られる。

このような構成によれば、第１０の態様に係る情報処理システム１００Ｂは、燃焼設備ＳＦに関連した適切な操作内容を、別の設備における操作内容を反映した上で、導出することができる。これにより、初期モデルの段階で、ある程度の精度を確保することができる。

（１１）第１１の態様に係る情報処理方法は、燃焼設備ＳＦに関連した情報処理方法であって、燃焼設備ＳＦの状態量に関する情報である状態量情報を取得し、状態量情報と、燃焼設備ＳＦに被焼却物Ｇを供給する供給装置（フィーダ１２）の操作内容と、燃焼設備ＳＦの状態に応じた報酬との対応関係に基づいて学習が行われた学習モデルを用いて、状態量情報を入力し、入力した状態量情報に応じた供給装置の操作内容を導出する、ことを含む。

このような構成によれば、燃焼設備ＳＦの状態量に対して報酬が高くなる操作内容を学習していく学習モデルを用いることができる。これにより、第１１の態様に係る情報処理方法は、燃焼設備ＳＦに関連した適切な操作内容を導出することができる。その結果、燃焼設備ＳＦの目的の状態に維持しやすくなる。

（１２）第１２の態様に係る学習システム１６０は、燃焼設備ＳＦ用の学習システムであって、燃焼設備ＳＦの状態量に関する情報である状態量情報と、燃焼設備ＳＦに被焼却物Ｇを供給する供給装置（フィーダ１２）の操作内容と、燃焼設備ＳＦの状態に応じた報酬との対応関係に基づいて学習モデルの強化学習を行う学習部を備える。

このような構成によれば、学習モデルが、燃焼設備ＳＦの状態量に対して報酬が高くなる操作内容を学習していくことができる。これにより、第１２の態様に係る学習システム１６０は、燃焼設備ＳＦに関連した適切な操作内容を導出することができる。その結果、燃焼設備ＳＦを目的の状態に維持しやすくなる。

（１３）第１３の態様に係る学習方法は、燃焼設備ＳＦ用の学習方法であって、燃焼設備ＳＦの状態量に関する情報である状態量情報と、燃焼設備ＳＦに被焼却物Ｇを供給する供給装置（フィーダ１２）の操作内容と、燃焼設備ＳＦの状態に応じた報酬との対応関係に基づいて学習モデルの強化学習を行う、ことを含む。

このような構成によれば、学習モデルが、燃焼設備ＳＦの状態量に対して報酬が高くなる操作内容を学習していくことができる。これにより、第１３の態様に係る学習方法は、燃焼設備ＳＦに関連した適切な操作内容を導出することができる。その結果、燃焼設備ＳＦを目的の状態に維持しやすくなる。

ＳＦ…焼却設備、Ｇ…被焼却物（ごみ）、１…クレーン、１ａ…把持部、１ｂ…重量センサ、２…焼却炉、３…排熱回収ボイラ、４…減温塔、５…集塵装置、６…煙道、６ａ…ガス濃度センサ、７…煙突、１０…供給機構、１１…ホッパ、１２…フィーダ、１３…押出装置、１４…物体計測器、１５…水分計測器、２０…炉本体、２１…可視光カメラ、２２…赤外カメラ、３０…ストーカ、３１…火格子、３２…火格子駆動装置、４１…風箱、４１ａ…風箱圧力センサ、４２…排出シュート、４３…火炉、５０…送風機構、５１…送風機、５２…一次空気ライン、５３…空気予熱器、５４…二次空気ライン、５５…ダンパ、５６…空気流量センサ、５６Ａ…第１空気流量センサ、５６Ｂ…第２空気流量センサ、６１…ボイラ本体、６２…管路、６３…放射温度センサ（赤外線温度センサ）、６３…放射温度センサ、６４…炉内圧力センサ、６５…給水流量センサ、６６…過熱器減温器流量センサ（蒸気量センサ）、６６…過熱器減温器流量センサ、６６Ａ…第１過熱器減温器流量センサ、６６Ｂ…第２過熱器減温器流量センサ、１００…情報処理システム、１００Ｂ…情報処理システム、１１０…取得部、１２０…記憶部、１２０Ｂ…記憶部、１３０…操作内容導出部、１４０…制御部、１５０…通知部、１６０…学習システム、１６０Ｂ…学習システム、１６１…学習部、１６１Ｂ…学習部、１６２…生成部、１１００…コンピュータ、１１１０…プロセッサ、１１２０…メインメモリ、１１３０…ストレージ、１１４０…インターフェース

Claims

燃焼設備用の情報処理システムであって、
前記燃焼設備の状態量に関する情報である状態量情報を取得する取得部と、
前記状態量情報と、前記燃焼設備に被焼却物を供給する供給装置の操作内容と、前記燃焼設備の状態に応じた報酬との対応関係に基づいて学習が行われた学習モデルを用いて、前記取得部により取得された前記状態量情報を入力し、入力した前記状態量情報に応じた前記供給装置の操作内容を導出する操作内容導出部と、
を備え、
前記状態量は、低位発熱量、排出物質の濃度、前記被焼却物の供給量、または蒸気量のうち２つ以上であり、
前記状態量情報は、前記燃焼設備の状態量に関する値を、所定の時間長さにおいて統計処理することで得られる代表値であり、
前記所定の時間長さは、前記供給装置により前記被焼却物の供給が行われる時点と、当該供給に応じて前記状態量に変動が生じる時点との時間差を含む時間長さであり、前記供給装置の操作量の変動と前記状態量の変動の相関値が最大となる時間ずれとして計算される、
情報処理システム。
前記供給装置の操作内容は、前記供給装置の第１操作要素の操作量と、前記第１操作要素とは異なる前記供給装置の第２操作要素の操作量と、前記供給装置の停止時間とのうち２つ以上の組み合わせにより規定される内容である、
請求項１に記載の情報処理システム。
前記供給装置は、往復式または回転式のフィーダであり、
前記供給装置の操作内容は、前記フィーダのストロークと、前記フィーダの速度と、前記フィーダの停止時間とのうち２つ以上の組み合わせにより規定される内容である、
請求項１または請求項２に記載の情報処理システム。
前記報酬は、前記状態量情報に含まれる少なくとも１つの指標の検出値と、前記指標の目標値との差分の大きさに基づいて導出される、
請求項１または請求項２に記載の情報処理システム。
前記取得部により取得された前記状態量情報と、前記供給装置の操作内容と、前記報酬との対応関係に基づいて前記学習モデルの強化学習を行う学習部をさらに備えた、
請求項１または請求項２に記載の情報処理システム。
前記学習モデルは、前記状態量情報と、運転員の操作履歴から得られた前記供給装置の操作内容との対応関係に少なくとも基づく事前学習により生成された初期モデルを基礎として、前記取得部により取得された前記状態量情報と、前供給装置の操作内容と、前記報酬との対応関係に基づく強化学習が行われて得られる、
請求項１または請求項２に記載の情報処理システム。
前記学習モデルは、別の設備における前記状態量情報と、前記別の設備における前記供給装置の操作内容との対応関係に少なくとも基づく事前学習により生成された初期モデルを基礎として、前記取得部により取得された前記状態量情報と、前供給装置の操作内容と、前記報酬との対応関係に基づく強化学習が行われて得られる、
請求項１または請求項２に記載の情報処理システム。
燃焼設備に関連した情報処理方法であって、
前記燃焼設備の状態量に関する情報である状態量情報を取得し、
前記状態量情報と、前記燃焼設備に被焼却物を供給する供給装置の操作内容と、前記燃焼設備の状態に応じた報酬との対応関係に基づいて学習が行われた学習モデルを用いて、前記状態量情報を入力し、入力した前記状態量情報に応じた前記供給装置の操作内容を導出する、
ことを含み、
前記状態量は、低位発熱量、排出物質の濃度、前記被焼却物の供給量、または蒸気量のうち２つ以上であり、
前記状態量情報は、前記燃焼設備の状態量に関する値を、所定の時間長さにおいて統計処理することで得られる代表値であり、
前記所定の時間長さは、前記供給装置により前記被焼却物の供給が行われる時点と、当該供給に応じて前記状態量に変動が生じる時点との時間差を含む時間長さであり、前記供給装置の操作量の変動と前記状態量の変動の相関値が最大となる時間ずれとして計算される、
情報処理方法。
燃焼設備用の学習システムであって、
前記燃焼設備の状態量に関する情報である状態量情報と、前記燃焼設備に被焼却物を供給する供給装置の操作内容と、前記燃焼設備の状態に応じた報酬との対応関係に基づいて学習モデルの強化学習を行う学習部
を備え、
前記状態量は、低位発熱量、排出物質の濃度、前記被焼却物の供給量、または蒸気量のうち２つ以上であり、
前記状態量情報は、前記燃焼設備の状態量に関する値を、所定の時間長さにおいて統計処理することで得られる代表値であり、
前記所定の時間長さは、前記供給装置により前記被焼却物の供給が行われる時点と、当該供給に応じて前記状態量に変動が生じる時点との時間差を含む時間長さであり、前記供給装置の操作量の変動と前記状態量の変動の相関値が最大となる時間ずれとして計算される、
学習システム。
燃焼設備用の学習方法であって、
前記燃焼設備の状態量に関する情報である状態量情報と、前記燃焼設備に被焼却物を供給する供給装置の操作内容と、前記燃焼設備の状態に応じた報酬との対応関係に基づいて学習モデルの強化学習を行う、
ことを含み、
前記状態量は、低位発熱量、排出物質の濃度、前記被焼却物の供給量、または蒸気量のうち２つ以上であり、
前記状態量情報は、前記燃焼設備の状態量に関する値を、所定の時間長さにおいて統計処理することで得られる代表値であり、
前記所定の時間長さは、前記供給装置により前記被焼却物の供給が行われる時点と、当該供給に応じて前記状態量に変動が生じる時点との時間差を含む時間長さであり、前記供給装置の操作量の変動と前記状態量の変動の相関値が最大となる時間ずれとして計算される、
学習方法。