JP2022023775A

JP2022023775A - 強化学習モデルを構築するための方法、装置、電子デバイス、コンピュータ可読記憶媒体及びコンピュータプログラム

Info

Publication number: JP2022023775A
Application number: JP2021055392A
Authority: JP
Inventors: リウ・イン; Ying Liu; シエ・シン; Xin Xie; シュ・ミン; Ming Xu; チー・ユエヂェン; Yuezhen Qi; リー・ルイフォン; Ruifeng Li; バイ・ルー; Lu Bai
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2020-09-10
Filing date: 2021-03-29
Publication date: 2022-02-08
Anticipated expiration: 2041-03-29
Also published as: KR20210052412A; JP7257436B2; KR102506122B1; US20210216686A1; EP3872432B1; CN112100916B; EP3872432A1; CN112100916A

Abstract

【課題】強化学習の概念をセメント業界のクリンカー焼成の石炭供給量制御に適用することにより、コストを削減し、効率を高める方法、装置、電子デバイス、コンピュータ可読記憶媒体及びコンピュータプログラムを提供する。【解決手段】方法は、分解炉石炭供給量と分解炉温度との間の第１模擬モデルを確立するステップと、キルンヘッド石炭供給量とキルン電流、二次空気温度及び煙室温度の間の第２模擬モデルを確立するステップと、火格子圧力、第１模擬モデルから出力された分解炉温度、第２模擬モデルから出力されたキルン電流、二次空気温度、煙室温度及び遊離カルシウム含有量の間の予測モデルを確立するステップと、第１模擬モデル、第２模擬モデル及び予測モデルを、予め設定された強化学習モデルアーキテクチャに従って石炭供給量と遊離カルシウム含有量との間の関連を特徴付ける強化学習モデルを構築するステップと、を含む。【選択図】図２

Description

本出願は、データ処理技術分野に関し、具体的に、ビッグデータ、深層学習技術分野に関し、特に強化学習モデルを構築するための方法、装置、電子デバイス、コンピュータ可読記憶媒体及びコンピュータプログラムに関する。

セメントの生産プロセスには、原材料の採掘及び粉砕、原材料によるクリンカーの焼成、クリンカーの再加工という３つの主要な段階がある。原材料によるクリンカーの焼成は、非常に複雑なプロセスであり、プロセスで消費される石炭と電力のコストは非常に高いである。焼成プロセスでは、石炭と電力が主に消費され、石炭の消費が最も大きな割合を占め、つまり、焼成段階で石炭供給量を合理的に制御する方法は、セメント産業のコストを削減し、効率を高めるための鍵となる。

本出願の実施例は強化学習モデルを構築するための方法、装置、電子デバイス及びコンピュータ可読記憶媒体を提供する。

第１態様によれば、本出願の実施例は強化学習モデルを構築するための方法を提供し、分解炉石炭供給量と分解炉温度との間の第１模擬モデルを確立するステップと、キルンヘッド石炭供給量、キルン電流、二次空気温度、及び煙室温度の間の第２模擬モデルを確立するステップと、火格子圧力、第１模擬モデルから出力された分解炉温度、第２模擬モデルから出力されたキルン電流、二次空気温度、煙室温度及び遊離カルシウム含有量の間の予測モデルを確立するステップと、第１模擬モデル、第２模擬モデル及び予測モデルを、予め設定された強化学習モデルアーキテクチャに従って石炭供給量と遊離カルシウム含有量との間の関連を特徴付ける強化学習モデルを構築するステップと、を備え、石炭供給量は分解炉石炭供給量とキルンヘッド石炭供給量を含む。

第２態様によれば、本出願の実施例は強化学習モデルを構築するための装置を提供し、分解炉石炭供給量と分解炉温度との間の第１模擬モデルを確立するように配置される第１模擬モデル確立ユニットと、キルンヘッド石炭供給量とキルン電流、二次空気温度、及び煙室温度の間の第２模擬モデルを確立するように配置される第２模擬モデル確立ユニットと、火格子圧力、第１模擬モデルから出力された分解炉温度、第２模擬モデルから出力されたキルン電流、二次空気温度、煙室温度及び遊離カルシウム含有量の間の予測モデルを確立するように配置される予測モデル確立ユニットと、第１模擬モデル、第２模擬モデル及び予測モデルを、予め設定された強化学習モデルアーキテクチャに従って石炭供給量と遊離カルシウム含有量との間の関連を特徴付ける強化学習モデルを構築するように配置される強化学習モデル構築ユニットと、を備え、石炭供給量は分解炉石炭供給量とキルンヘッド石炭供給量を含む。

第３態様によれば、本出願の実施例は電子デバイスを提供し、該電子デバイスは、少なくとも１つのプロセッサと、少なくとも１つのプロセッサに通信接続されるメモリと、を備え、メモリに少なくとも１つのプロセッサによって実行されることができる命令が記憶され、該命令が少なくとも１つのプロセッサによって実行され、少なくとも１つのプロセッサにより実行する際に第１態様の実現形態のいずれかに記載の強化学習モデルを構築するための方法を実現させることができる。

第４態様によれば、本出願の実施例はコンピュータ命令が記憶された非一時的なコンピュータ可読記憶媒体を提供し、該コンピュータ命令はコンピュータにより実行される際に第１態様の実現形態のいずれかに記載の強化学習モデルを構築するための方法を実現させることができる。

第５態様によれば、本出願の実施例はコンピュータプログラムを提供し、該コンピュータプログラムはコンピュータにより実行されると、第１態様の実現形態のいずれかに記載の強化学習モデルを構築するための方法を実現させることができる。

本出願の実施例による強化学習モデルを構築するための方法、装置、電子デバイス及びコンピュータ可読記憶媒体は、まず、分解炉石炭供給量と分解炉温度との間の第１模擬モデルを確立し、及びキルンヘッド石炭供給量とキルン電流、二次空気温度、及び煙室温度の間の第２模擬モデルを確立し、次に、火格子圧力、第１模擬モデルから出力された分解炉温度、第２模擬モデルから出力されたキルン電流、二次空気温度、煙室温度及び遊離カルシウム含有量の間の予測モデルを確立し、最終的に、第１模擬モデル、第２模擬モデル及び予測モデルを、予め設定された強化学習モデルアーキテクチャに従って石炭供給量と遊離カルシウム含有量との間の関連を特徴付ける強化学習モデルを構築し、石炭供給量は分解炉石炭供給量とキルンヘッド石炭供給量を含む。

セメント焼成の複雑なシーンでの需要を満たすことができないという従来の技術と異なり、本出願は強化学習の概念をセメント焼成シーンに導入し、確立された模擬モデルと予測モデルに基づいて、強化学習アーキテクチャで複数のパラメーター影響下での入力された石炭供給量と最終製品の遊離カルシウム含有量の間の対応関係を特徴付けることができる強化学習モデルを構築し、且つ強化学習モデルは他の機械学習モデルに存在している補償器特性と異なるため、複雑で、複数のパラメーターのセメント焼成シーンによりマッチされるため、確定された対応関係がより正確になり、それと同時に、強化学習モデルが持つ強力な一般化能力は、他の同様のシーンにも簡単に適用できる。

なお、この部分で説明する内容は、本開示の実施例の肝心なまたは重要な特徴を特定することを意図するものではなく、本開示の範囲を限定することを意図するものでもない。本開示の他の特徴は以下の明細書を通じて容易に理解される。

以下の図面を参照して非限定的な実施例に対して行われた詳細な説明を読むことによって、本願の他の特徴、目的及び利点がより明らかになる。

本出願を適用できる例示的なシステムアーキテクチャである。本出願の実施例による強化学習モデルを構築するための方法を示すフローチャートである。本出願の実施例による他の強化学習モデルを構築するための方法を示すフローチャートである。本出願の実施例による一アプリケーションシナリオ下での強化学習モデルを構築するための方法を示すフロー模式図である。本出願の実施例による強化学習モデルを構築するための装置を示す構造ブロック図である。本出願の実施例による強化学習モデルを構築するための方法を実行するのに適する電子デバイスを示す構造模式図である。

以下、図面を参照して、本願の例示的な実施例を説明し、理解に役に立つように、本願の実施例の様々な細部を含み、単に例示的なものと見なされる。従って、当業者は、本願の範囲と精神から逸脱せずに、ここで説明する実施例に様々な変更と修正を加えることができることを認識すべきである。同様に、明確かつ簡潔にするために、以下の説明では、既知の機能と構造の説明を省略する。

説明する必要があるのは、衝突しない場合、本願における実施例及び実施例における特徴を組み合わせることができる。以下、図面を参照して実施例を組み合わせて本願を詳細に説明する。

図１は、本願の強化学習モデルを構築するための方法、装置、電子デバイス及びコンピュータ可読記憶媒体を適用できる実施例を示す例示的なシステムアーキテクチャ１００である。

図１に示すように、システムアーキテクチャ１００は、センサー、１０２、１０３、ネットワーク１０４、サーバ１０５、及び石炭供給装置１０６を備えてもよい。ネットワーク１０４は、センサー、１０２、１０３、サーバ１０５、及び石炭供給装置１０６の間に通信リンクを提供する媒体である。ネットワーク１０４は、様々な接続タイプ、例えば有線、無線通信リンクまたは光ファイバケーブルなどを含んでもよい。

センサー１０１、１０２、１０３により収集された様々な情報はネットワーク１０４を介してサーバ１０５に送信されることができ、サーバ１０５は受信された情報に基づいて処理した後に制御命令を生成し、次に、ネットワーク１０４を介して石炭供給装置１０６に配信する。具体的に、上記通信は、例えば情報送信アプリケーション、石炭供給最適化制御アプリケーション、制御コマンド送受信アプリケーションなど、センサー１０１、１０２、１０３、サーバ１０５及び石炭供給装置１０６にインストールされる様々なアプリケーションによって実現されることができる。

通常の場合で、センサー１０１、１０２、１０３は、セメント焼成関連機器（例えば分解炉、クリンカーキルンなど）の関連位置に設けられる物理コンポーネント（例えば圧力センサー、温度センサー、電流センサーなど）であり、実際の機器により生成された実際の信号を受信するようにする。しかし、テストと模擬のシーンで、センサー１０１、１０２、１０３はセメント焼成の仮想関連機器に設けられる仮想コンポーネントであってもよく、テストシーンで予め設定されたパラメーターまたは模擬パラメーターを受信するようにする。サーバ１０５は、ハードウェアであってもよいし、ソフトウェアであってもよい。サーバ１０５がハードウェアである場合、複数のサーバからなる分散サーバクラスターとして実現されてもよいし、単一のサーバとして実現されてもよく、サーバがソフトウェアである場合、複数のソフトウェアまたはソフトウェアモジュールとして実現されてもよいし、単一のソフトウェアまたはソフトウェアモジュールとして実現されてもよく、ここでは特に限定されない。実際のシーンで、石炭供給装置１０６は、石炭コンベヤベルト、石炭コンベヤーなどの物理的機器として具体化することができ、仮想のテストシーンで、制御される石炭輸送能力を備える仮想機器を直接使用して置き換えることができる。

サーバ１０５は様々な組み込みアプリケーションを介して様々なサービスを提供することができ、セメント焼成における石炭供給量最適化制御サービスを提供できる石炭供給量最適化制御アプリケーションを例として、サーバ１０５は、該石炭供給量最適化制御アプリケーションを実行する時に、以下のような効果を実現でき、まず、このバッチにセメントクリンカーの生産に必要な目標遊離カルシウム含有量の指示を受信し、次に、目標遊離カルシウム含有量を予め構築された石炭供給量と遊離カルシウム含有量の間の対応関係を特徴付ける強化学習モデルに入力し、該強化学習モデルから出力された理論的な石炭供給量を取得し、続いて、該理論的な石炭供給量に含まれる理論的な分解炉石炭供給量と理論的なキルンヘッド石炭供給量を使用して石炭供給装置１０６に対応する石炭供給量指示を配信する。

サーバ１０５が上記プロセスで使用される強化学習モデルは以下の方法に基づいて構築されることができ、まず、ネットワーク１０４を介してセンサー１０１、１０２、１０３から大量の歴史分解炉石炭供給量、分解炉温度、キルンヘッド石炭供給量、キルン電流、二次空気温度、煙室温度及び火格子圧力を受信し、次に、分解炉石炭供給量と分解炉温度との間の第１模擬モデルを確立し、及びキルンヘッド石炭供給量とキルン電流、二次空気温度、及び煙室温度の間の第２模擬モデルを確立し、次に、火格子圧力、第１模擬モデルから出力された分解炉温度、第２模擬モデルから出力されたキルン電流、二次空気温度、煙室温度及び遊離カルシウム含有量の間の予測モデルを確立し、最終的に、第１模擬モデル、第２模擬モデル及び予測モデルを、予め設定された強化学習モデルアーキテクチャに従って石炭供給量と遊離カルシウム含有量との間の関連を特徴付ける強化学習モデルを構築する。

なお、模擬モデル、予測モデルを構築するための分解炉石炭供給量、分解炉温度、キルンヘッド石炭供給量、キルン電流、二次空気温度、煙室温度及び火格子圧力などのパラメーターは、センサー１０１、１０２、１０３から取得できる以外、これらのパラメーターはログ、生産検出データ報告などの様々な形式でサーバ１０５にローカルに予め記憶されることもできる。このため、サーバ１０５はローカルにこれらのデータが記憶されたと検出する場合、ローカルからこれらのデータを取得することができ、この場合、強化学習モデルを生成するプロセスにはセンサー１０１、１０２、１０３及びネットワーク１０４も必要としない場合がある。

大量のパラメーターに基づいて模擬モデル、予測モデル、強化学習モデルを構築するには多くのコンピューティングリソースと強力な計算能力を占めるため、本出願の後続の各実施例による強化学習モデルを構築するための方法は、一般的に、強力な計算能力、多くのコンピューティングリソースを備えるサーバ１０５により実行され、それに対応して、強化学習モデルを構築するための装置もサーバ１０５に設けられる場合が多い。

理解すべきなのは、図１中のセンサー、ネットワーク、サーバ、石炭供給装置の数は例示的な数だけである。実現の必要に応じて、任意の数のセンサー、ネットワーク、サーバ、石炭供給装置を備えてもよい。

図２を参照し、図２は本出願の実施例による強化学習モデルを構築するための方法を示すフローチャートであり、フロー２００は、以下のステップを含み、
ステップ２０１、分解炉石炭供給量と分解炉温度との間の第１模擬モデルを確立し、
このステップの目的は、強化学習モデルを構築するための方法の実行主体（例えば図１に示すようなサーバ１０５）により分解炉石炭供給量と分解炉温度との間の第１模擬モデルを確立することである。

第１模擬モデルは、分解炉石炭供給量と分解炉温度との間の対応関係を特徴付けるために使用され、この対応関係を特徴付けることができる第１模擬モデルを構築するために、模擬モデルの訓練と構築に参加するためのサンプルデータとしての大量の歴史分解炉石炭供給量と対応する歴史分解炉温度データを必要とし、例えば分解炉石炭供給量と分解炉温度との間の対応関係を特徴付ける第１模擬モデルは、下記式のように構築されることができ、
ｙ（ｋ）＝ａ＊ｙ（ｋ－１）＋ｂ＊ｕ（ｋ－１）
式中、ｙ（ｋ）は時間ｋでの分解炉温度であり、ｙ（ｋ－１）とｕ（ｋ－１）はそれぞれ時間ｋ－１（即ち時間ｋの前の時間）の分解温度と分解炉石炭供給量であり、ａとｂはそれぞれ未定係数であり、具体な値は、歴史データに基づく最小二乘法を使用して計算でき、例えばある実験シーンで、ａは０．９８３であり、ｂは０．８０１である。

ステップ２０２、キルンヘッド石炭供給量とキルン電流、二次空気温度、及び煙室温度の間の第２模擬モデルを確立し、
このステップの目的は、上記実行主体によりキルンヘッド石炭供給量とキルン電流、二次空気温度、及び煙室温度の間の第２模擬モデルを確立することである。

第１模擬モデルと異なり、第２模擬モデルは、キルンヘッド石炭供給量とキルン電流、二次空気温度、及び煙室温度との間の対応関係を特徴付けるために使用され、この対応関係を特徴付けることができる第２模擬モデルを構築するために、模擬モデルの訓練と構築に参加するためのサンプルデータとしての大量の歴史キルンヘッド石炭供給量、対応する歴史キルン電流、歴史二次空気温度及び歴史煙室温度を必要とする。第２模擬モデルは、上記式と同様に構築されることもできる。

説明する必要があるのは、上記実行主体はステップ２０１、ステップ２０２を通じてそれぞれ構築して第１模擬モデルと第２模擬モデルを取得するのは、セメントクリンカーの焼成プロセスには、調整可能な変数は主に、原材料供給量、分解炉石炭供給量、キルンヘッド石炭供給量、キルン速、高温ファン速度、火格子冷却器速度があり、被制御変数は主に、分解炉出口温度、分解炉出口圧力、二次空気温度、三次空気温度、キルン内の焼成ゾーン温度、キルンヘッド負圧、キルンテール温度、煙室温度、キルン電流、火格子圧力、垂直重量がある。被制御変数とは、直接デバッグできないが、調整可能な変数の影響を受ける変数を指す。

上記のこれらの変数は、最終的には焼成された完成品の遊離カルシウム含有量に作用するため、完成品のクリンカー品質を確保するために、焼成プロセス全体でこれらの変数を監視する必要があり、これらの変数を通じて最終的に焼成されたクリンカー完成品の品質を推測するようにする。調査後、遊離カルシウム含有量は、主に分解炉温度、キルン電流、二次空気温度、煙室温度、火格子圧力に関連し、これらの変数は主に分解炉石炭供給量、キルンヘッド石炭供給量、火格子圧力の３つの調整可能なパラメーターによって決められる。このため、本出願は主に石炭の供給による石炭の量の消費とクリンカー品質（即ち遊離カルシウム含有量）に焦点を当てている場合、分解炉石炭供給量、キルンヘッド石炭供給量、火格子圧力という３つの調整可能な変数、分解炉温度、キルン電流、二次空気温度、煙室温度という４つの被制御変数、及び遊離カルシウム含有量という１つの最終的な目標変数を主に考慮することができる。

強化学習モデルを通じて石炭供給量の最適化とパラメーター調整を行うために、セメント焼成プロセスには石炭供給量に関連するパラメーター変化を特徴付ける模擬モデルの構築は不可欠であるため、上記実行主体はそれぞれステップ２０１によって被制御変数-分解炉温度と調整可能な変数-分解炉石炭供給量との間の対応関係を特徴付ける第１模擬モデルを構築し、ステップ２０２によって被制御変数-キルン電流、二次空気温度、煙室温度と調整可能な変数-キルンヘッド石炭供給量との間の対応関係を特徴付ける第２模擬モデルを構築する。

ステップ２０３、火格子圧力、第１模擬モデルから出力された分解炉温度、第２模擬モデルから出力されたキルン電流、二次空気温度、煙室温度及び遊離カルシウム含有量の間の予測モデルを確立し、
ステップ２０１、ステップ２０２のうえで、このステップの目的は、上記実行主体により火格子圧力、第１模擬モデルから出力された分解炉温度、第２模擬モデルから出力されたキルン電流、二次空気温度、煙室温度及び遊離カルシウム含有量の間の予測モデルを確立する。

ステップ２０２に説明されたように、クリンカーの品質指標-遊離カルシウム含有量は主に火格子圧力、分解炉温度、キルン電流、二次空気温度、煙室温度という５つの被制御変数の影響を受けることが考えられるため、このステップでは上記５つの被制御変数と遊離カルシウム含有量との間の予測モデルを確立し、即ち生成された予測モデルは所定の５つの被制御変数の実際の値に基づいて対応する遊離カルシウム含有量の予測値を予測する。

具体的に、上記予測モデルの確立には訓練に参加するための大量の歴史データを必要とするため、ＳＶＭ（ＳｕｐｐｏｒｔＶｅｃｔｏｒＭａｃｈｉｎｅ、サポートベクターマシン）、神経ネットワーク、ツリーモデルなどの複数の入力パラメーターをサポートして固有の出力パラメーターを予測する様々なモデルまたはアルゴリズムによって、より正確な各被制御変数により遊離カルシウム含有量に対する影響関係を見つけることができ、ここでは特に限定されなく、実際のアプリケーションシナリオのすべての存在する可能性がある影響要素に応じて選択することができる。

上記各ステップのモデル構築に必要なサンプルとしての大量歴史データは、クリンカー焼成時に使用された関連機器に設けられる様々なセンサー（例えば図１に示すようなセンサー１０１、１０２、１０３）によって収集されることができ、例えば火格子圧力は火格子冷却器に設けられる圧力センサーによって収集されることができ、キルン電流はキルンヘッドに設けられる電流センサーによって収集されることができ、様々な温度は、実際の温度範囲に応じて異なる性能、タイプの温度センサーを選択することができる。

ステップ２０４、第１模擬モデル、第２模擬モデル及び予測モデルを、予め設定された強化学習モデルアーキテクチャに従って石炭供給量と遊離カルシウム含有量との間の関連を特徴付ける強化学習モデルを構築する。

ステップ２０３のうえで、このステップの目的は、上記実行主体により第１模擬モデル、第２模擬モデル及び予測モデルを、予め設定された強化学習モデルアーキテクチャに従って石炭供給量と遊離カルシウム含有量との間の関連を特徴付ける強化学習モデルを構築する。

遊離カルシウム含有量は火格子圧力、分解炉温度、キルン電流、二次空気温度、煙室温度という５つの被制御変数の影響を受けるが、この５つの被制御変数はまたそれぞれ分解炉石炭供給量とキルンヘッド石炭供給量の２つの調整可能な変数によって制御され、且つ本出願の主な目的に基づいて、調整可能な変数と被制御変数との間の対応関係を特徴付ける模擬モデル、被制御変数と品質指標と之間の対応関係を特徴付ける予測モデルに従って、強化学習モデルのアーキテクチャで石炭供給量と遊離カルシウム含有量との間の対応関係を特徴付けることができる強化学習モデルを構築する。

強化学習（ＲｅｉｎｆｏｒｃｅｍｅｎｔＬｅａｒｎｉｎｇ，ＲＬ）は、再励学習、評価学習または増強学習とも呼ばれ、機械学習のパラダイムおよび方法論の１つであり、エージェント（ａｇｅｎｔ）が環境と対話するプロセスには学習戦略を通じて収益を最大化するまたは特定の目標を達成するという問題を説明および解決するために使用される。生物学的神経ネットワークをシミュレートする他の神経ネットワーク深層学習アルゴリズムと異なり、強化学習アルゴリズムはエージェントが「試行錯誤」の方法で学習し、環境との対話によって得られた報酬を通じて行動をガイドし、目標はエージェントに最大の報酬を取得させ、強化学習は接続主義学習における監視学習と異なり、主に強化信号に現れ、強化学習では、環境により提供された強化信号は、強化学習システムＲＬＳ（ｒｅｉｎｆｏｒｃｅｍｅｎｔｌｅａｒｎｉｎｇｓｙｓｔｅｍ）に正しい動作を生成する方法を指示するのではなく、生成された動作の品質を評価（通常はスカラー信号）する。外部環境はほとんど情報を提供しないため、ＲＬＳが独自の経験に依存して学習しなければならない。このような方法によって、ＲＬＳは行動－評価の環境から知識を取得し、行動手段を変更し、環境に適応するようにする。深層学習モデルは強化学習で使用され、効果により優れた深層強化学習（ＤＲＬ）を形成することもできる。

具体的に、Ａｃｔｏｒ－ｃｒｉｔｉｃ（Ａ２Ｃ）、ＰＰＯ、ＴＲＰＯなどの特性が異なる強化学習モデルのアーキテクチャを選択してこのステップに必要な石炭供給量と遊離カルシウム含有量との間の対応関係を特徴付けることができる強化学習モデルを構築することができる。

セメント焼成の複雑なシーンでの需要を満たすことができないという従来の技術と異なり、本出願の実施例による強化学習モデルを構築するための方法は、強化学習の概念をセメント焼成シーンに導入し、確立された模擬モデルと予測モデルに基づいて、強化学習アーキテクチャで複数のパラメーター影響下での入力された石炭供給量と最終製品の遊離カルシウム含有量の間の対応関係を特徴付けることができる強化学習モデルを構築し、且つ強化学習モデルは他の機械学習モデルに存在している補償器特性と異なるため、複雑で、複数のパラメーターのセメント焼成シーンによりマッチされるため、確定された対応関係がより正確になり、それと同時に、強化学習モデルが持つ強力な一般化能力は、他の同様のシーンにも簡単に適用できる。

従来の技術がセメント焼成の複雑なシーンでの需要を満たすことができない理由は、ＰＩＤ制御がシステムの偏差のみを考慮し、主にシステムの設定値を追跡するが、セメント焼成シーンでクリンカーの品質とエネルギー消費の多目的最適化をサポートしない一方で、セメント生産プロセスに複数のパラメーターのリアルタイム制御に関するため、ＭＰＣが複数のパラメーターの統一なリアルタイム制御を実現することは困難であると同時に、ＭＰＣの一般化能力が低く、同様のシーンの焼成システムでは、毎回モデルを再確立する必要がある。

図３を参照し、図３は本出願の実施例による他の強化学習モデルを構築するための方法を示すフローチャートであり、フロー３００は以下のステップを含み、
ステップ３０１、分解炉石炭供給量と分解炉温度との間の第１模擬モデルを確立し、
ステップ３０２、キルンヘッド石炭供給量とキルン電流、二次空気温度、及び煙室温度の間の第２模擬モデルを確立し、
ステップ３０３、火格子圧力、第１模擬モデルから出力された分解炉温度、第２模擬モデルから出力されたキルン電流、二次空気温度、煙室温度及び遊離カルシウム含有量の間の予測モデルを確立し、
ステップ３０４、第１模擬モデル、第２模擬モデル及び予測モデルを、予め設定された強化学習モデルアーキテクチャに従って石炭供給量と遊離カルシウム含有量との間の関連を特徴付ける強化学習モデルを構築し、
以上のステップ３０１－３０４は図２に示すようなステップ２０１－２０４と一致し、上記ステップは強化学習モデルの構築プロセスとしてまとめられることができ、同じ部分の内容は前の実施例の対応する部分を参照し、ここで繰り返して説明しない。

ステップ３０５、目標シーンで所定の目標遊離カルシウム含有量を受信し、
ステップ３０４で使用可能な強化学習モデルを構築したうえで、このステップの目的は、上記実行主体によりユーザーが目標シーンで設定した目標遊離カルシウム含有量を受信することである。このステップは、強化学習モデルがセメント焼成をガイドする時の石炭供給量の使用プロセスのステップ１として、即ち設定されたクリンカー品質指標を取得する。

ステップ３０６、強化学習モデルを使用して目標遊離カルシウム含有量に対応する理論的な石炭供給量を確定し、
ステップ３０５のうえで、このステップの目的は、上記実行主体により強化学習モデルを使用して目標遊離カルシウム含有量に対応する理論的な石炭供給量を確定することであり、即ち強化学習モデルは石炭供給量と遊離カルシウム含有量との間の対応関係を特徴付けることができるため、目標遊離カルシウム含有量を設定した場合で、該対応関係に応じて対応する理論的な石炭供給量を逆に推定することができ、理論的な石炭供給量は理論的な分解炉石炭供給量と理論的なキルンヘッド石炭供給量を含む。

ステップ３０７、理論的な石炭供給量に応じて目標シーンでの分解炉石炭供給操作とキルンヘッド石炭供給操作をガイドする。

ステップ３０６のうえで、このステップの目的は、上記実行主体により理論的な石炭供給量に応じて目標シーンでの分解炉石炭供給操作とキルンヘッド石炭供給操作をガイドすることであり、例えば石炭供給装置（例えば図１に示すような石炭供給装置１０６）は分解炉とキルンヘッドに対応する数の石炭を供給することを制御する。

本出願の実施例は前の実施例のすべての技術的特徴（即ち強化学習モデルｎ構築ステップ）を含むので、前の実施例のすべての有益な効果を有するはずである。これに基づいて、本出願の実施例はステップ３０５－ステップ３０７を通じて具体的に如何に構築された強化学習モデルに基づいて石炭供給量をガイドする手段を提供し、提供された合理的な石炭供給量によってセメント焼成プロセスの石炭量の投入をガイドし、クリンカー品質をできるだけ確保する場合に石炭の投入量をできるだけ少なくしてコストを削減し、効率を高め、節約された石炭は、大気への二酸化炭素排出量の削減に相当し、環境に優しい企業の構築に役立つ。

前の実施例のうえで、上記被制御変数は主に調整可能な変数の影響を受けるが、セメント焼成が非常に複雑なプロセスであり、他の多くの突然または不可欠な要因があり、いくつかの被制御変数を変化させ、さらにクリンカー品質に影響を与える可能性がある。このため、以下の手段によって被制御変数を調整するための他の方法が必要であるかどうかを判断し、
分解炉温度について、
現在の分解炉温度を取得して、且つ第１模擬モデルに従って現在の分解炉温度に対応する模擬分解炉石炭供給量を確定し、
模擬分解炉石炭供給量と理論的な分解炉石炭供給量との間の第１差が第１予め設定された閾値を超えることに応答し、第１差の正負に応じて分解炉の温度を調整して制御する。

同様に、キルン電流、二次空気温度、煙室温度について、
現在のキルン電流、二次空気温度、煙室温度を取得し、且つ第２模擬モデルに従って現在のキルン電流、二次空気温度、煙室温度に対応する模擬キルンヘッド石炭供給量を確定し、
模擬キルンヘッド石炭供給量と理論的なキルンヘッド石炭供給量との間の第２差が第２予め設定された閾値を超えることに応答し、第２差に応じてキルン電流、二次空気温度、煙室温度を調整する。

温度の調整制御は物理的な冷却や石炭供給の削減など、すべての効果的な手段が含まれるが、これらに制限されない。

理解を深めるために、本出願は１つの具体的なアプリケーションシナリオを組み合わせて、具体的な実現手段を提供し、図４に示すような模式図を参照する。

セメント焼成の全体のフローは、一般に図４の左上隅に示される装置模式図を参照でき、まず原材料を供給し、次に順次予熱器による予熱、分解炉による加熱、回転キルンによる焼成、火格子冷却器による冷却の４つの工程の後にクリンカーを生成し、全体のプロセスに複数の制御可能なパラメーター、例えば分解炉石炭供給量、キルンヘッド石炭供給量などに関し、これらのパラメーターはクリンカーの品質、即ち遊離カルシウム含有量に影響を直接及ぼす。実際の生産では、企業は、通常０．５％から１．５％を必要とし、メカニズムの調査により、遊離カルシウム含有量が低いのは、焼成温度が高すぎて過燃焼につながり、対応する石炭供給量が高くなり、石炭の消費が多くなるためであることがわかる。このため、適格な品質を前提として低石炭消費量を確保するために、本出願の実施例はモデリングプロセス中に遊離カルシウム含有量を１％－１．５％に調整し、品質を確保しながら生産コストをできるだけ削減する。

強化学習モデルに基づいてプロセスパラメーターを調整し、品質を確保しながら石炭の消費を削減し、モデリングフロー全体は複雑であり、以下、サーバが担当する強化学習モデルによる構築プロセスの各部分を詳細に説明する。

１）遊離カルシウム含有量リアルタイム予測モデルの構築
遊離カルシウム含有量は、生産プロセスで約１時間に１回測定され、石炭供給量などのパラメーターをリアルタイムで制御して調整する必要があるため、遊離カルシウム含有量のリアルタイム予測モデルを確立する必要がある。遊離カルシウム含有量は、主に分解炉温度、キルン電流、二次空気温度、煙室温度、火格子圧力に関連する必要があるため、確立されたモデルは、
遊離カルシウム含有量＝ｆ（分解炉温度、キルン電流、二次空気温度、煙室温度、火格子圧力）であり、実験では、大量の歴史データでｆをフィットし、本実施例は、具体的に大量の歴史データを神経ネットワークによって該予測モデルを構築する。

２）セメント原材料焼成模擬環境の構築
強化学習モデルを通じてパラメーターを調整したいと、セメント焼成プロセスの模擬モデルの構築に必要である。即ち、石炭供給量が調整された後、分解炉温度、キルン電流、二次空気温度、煙室温度などの被制御変数は焼成プロセスに如何に変化するかである。業界では、一次慣性モデルとヒステリシスリンクを使用して、大きな慣性と純粋なヒステリシスを持つ複雑な産業システムを模擬する。関連する専門家の情報を参照した後、分解炉の温度は主に分解炉石炭供給量に関連し、キルン電流、二次空気温度、煙室温度は主にキルンヘッド石炭供給量に関連する。分解炉温度が分解炉石炭供給量に関連するシステムモデル、キルン電流、二次空気温度、煙室温度がキルンヘッド石炭供給量に関連するシステムモデルを確立することができる。

３）強化学習モデルの構築
上記ステップで構築された模擬モデルと予測モデルを使用すると、強化学習モデルを簡単に確立できる。本実施例は、具体的にＡｃｔｏｒ－ｃｒｉｔｉｃ強化学習モデルを使用し、分解炉石炭供給量、キルンヘッド石炭供給量、火格子圧力の３つの調整可能なパラメーターを強化学習モデルのＡｃｔｉｏｎ（動作）として、焼成プロセス中の他のパラメーターを一時的に無視し、最終的な遊離カルシウム含有量が１％－１．５％であることを確保すると同時に、原材料供給量が一定である場合、分解炉石炭供給量、キルンヘッド石炭供給量をできるだけ少なくすることを目標とする。石炭の消費の測定基準は、総石炭供給量／原材料供給量であり、ここで、原材料供給量の速度は一定、即ち単位時間内あたりの原材料供給量は一定であると仮定しているため、石炭の消費は分解炉石炭供給量、キルンヘッド石炭供給量のみを考慮する必要がある。

具体的に、モデルの詳細は、次の通りであり、
Ａｃｔｉｏｎ（動作）、３次元ベクトルであり、３次元連続したａｃｔｉｏｎであり、それぞれ分解炉石炭供給量、キルンヘッド石炭供給量、火格子圧力値である。即ち常にこの３つのパラメーターを出力して制御し、
Ｓｔａｔｅ（状態）、１つの１４次元（ｔ－２に対応する部分のパラメーターを削減した後に１０次元である）ベクトルであり、それぞれ分解炉温度ｔ－２（削減可能）、ｔ－１、ｔ時間の値、キルン電流、二次空気温度と煙室温度のｔ－２（削減可能）、ｔ－１、ｔ時間の値、火格子圧力の現在の値、上記ステップによって構築された遊離カルシウム含有量予測モデルによる遊離カルシウム含有量の予測値である。毎回１つのＡｃｔｉｏｎを実行した後、Ｓｔａｔｅは模擬環境を通じて更新し、
Ｒｅｗａｒｄ（報酬／報酬値）、品質を確保しながら石炭消費量を削減することが目標であるため、Ｒｅｗａｒｄは２つの部分、即ち遊離カルシウム含有量が目標値範囲内にあるかどうかと現在の石炭供給量に分けられる。即ちＲｅｗａｒｄ＝－（キルンヘッド石炭供給量＋分解炉石炭供給量）＋１００＊Ｉ＿（｛１％≦実際の遊離カルシウム含有量≦１．５％｝）であり、Ｉは指標関数であり、１％≦実際の遊離カルシウム含有量≦１．５％である場合、Ｉの取る値は１であり、そうでないと、Ｉの取る値は０である。

上記Ｒｅｗａｒｄ式から分かるように、遊離カルシウムの含有量が基準を満たし、且つ総石炭供給量が少ない場合、Ｒｅｗａｒｄの取る値は大きくなる。

図４の最も下方にあるデータ処理ステップは、サンプルに基づくＡｃｔｏｒ－ｃｒｉｔｉｃ強化学習モデルのパラメーター更新プロセスであり、まず各実際のＡｃｔｉｏｎからサンプル（その中のパラメーターをＳ_ｔ、ａ_ｔ、ｒ_ｔ、Ｓ_{（ｔ＋１）}に名前を付けることができるなど）、次に、これらのサンプルをタプル（ｔｕｐｌｅ）の形で記憶媒体（Ｍｅｍｏｒｙｄａｔａｂａｓｅ）にし、次に、記憶媒体からサンプリング（ｓａｍｐｌｉｎｇ）の方法でいくかのデータを選択して、Ａｃｔｏｒ－ｃｒｉｔｉｃ強化学習モデルのパラメーターを更新するために使用され、それにより、このような更新方法によってＡｃｔｏｒ－ｃｒｉｔｉｃ強化学習モデルの有効性と可用性を保つ。

サーバに上記構築ステップで構築された強化学習モデルをインストールした後、後続で対応するセメント焼成シーンで、所定の遊離カルシウム含有量に基づいて最小化の石炭供給量を確定することができ、それにより、コストを削減し、効率を高めることを実現する。

図５を更に参照し、上記各図に示すような方法の実現として、本出願は強化学習モデルを構築するための装置の一実施例を提供し、該装置実施例は図２に示すような方法実施例に対応し、該装置は具体的に様々な電子デバイスに適用できる。

図５に示すように、本実施例による強化学習モデルを構築するための装置５００は、第１模擬モデル確立ユニット５０１、第２模擬モデル確立ユニット５０２、予測モデル確立ユニット５０３、及び強化学習モデル構築ユニット５０４を備える。第１模擬モデル確立ユニット５０１は、分解炉石炭供給量と分解炉温度との間の第１模擬モデルを確立するように配置され、第２模擬モデル確立ユニット５０２は、キルンヘッド石炭供給量とキルン電流、二次空気温度、及び煙室温度の間の第２模擬モデルを確立するように配置され、予測モデル確立ユニット５０３は、火格子圧力、第１模擬モデルから出力された分解炉温度、第２模擬モデルから出力されたキルン電流、二次空気温度、煙室温度及び遊離カルシウム含有量の間の予測モデルを確立するように配置され、強化学習モデル構築ユニット５０４は、第１模擬モデル、第２模擬モデル及び予測モデルを、予め設定された強化学習モデルアーキテクチャに従って石炭供給量と遊離カルシウム含有量との間の関連を特徴付ける強化学習モデルを構築するように配置され、石炭供給量は分解炉石炭供給量とキルンヘッド石炭供給量を含む。

本実施例において、強化学習モデルを構築するための装置５００において、第１模擬モデル確立ユニット５０１、第２模擬モデル確立ユニット５０２、予測モデル確立ユニット５０３、及び強化学習モデル構築ユニット５０４の具体的な処理及びそのもたらした技術的効果はそれぞれ図２の対応する実施例におけるステップ２０１－２０４の関連説明を参照でき、ここで繰り返して説明しない。

本実施例のいくつかの選択的な実現形態において、強化学習モデルを構築するための装置５００は、目標シーンで所定の目標遊離カルシウム含有量を受信するように配置される所定のパラメーター受信ユニットと、
強化学習モデルを使用して目標遊離カルシウム含有量に対応する理論的な石炭供給量を確定し、理論的な石炭供給量は理論的な分解炉石炭供給量と理論的なキルンヘッド石炭供給量を含むように配置される理論的な石炭供給量確定ユニットと、
理論的な石炭供給量に応じて目標シーンでの分解炉石炭供給操作とキルンヘッド石炭供給操作をガイドするように配置される石炭供給操作ガイドユニットと、を備えてもよい。

本実施例のいくつかの選択的な実現形態において、強化学習モデルを構築するための装置５００は、
現在の分解炉温度を取得して、且つ第１模擬モデルに従って現在の分解炉温度に対応する模擬分解炉石炭供給量を確定するように配置される模擬分解炉温度確定ユニットと、
模擬分解炉石炭供給量と理論的な分解炉石炭供給量との間の第１差が第１予め設定された閾値を超えることに応答し、第１差の正負に応じて分解炉の温度を調整するように配置される第１調整制御ユニットと、を備えてもよい。

本実施例のいくつかの選択的な実現形態において、強化学習モデルを構築するための装置５００は、
現在のキルン電流、二次空気温度、煙室温度を取得し、且つ第２模擬モデルに従って現在のキルン電流、二次空気温度、煙室温度に対応する模擬キルンヘッド石炭供給量を確定するように配置される模擬キルンヘッド石炭供給量確定ユニットと、
模擬キルンヘッド石炭供給量と理論的なキルンヘッド石炭供給量との間の第２差が第２予め設定された閾値を超えることに応答し、第２差に応じてキルン電流、二次空気温度、煙室温度を調整するように配置される第２調整制御ユニットと、を備えてもよい。

本実施例のいくつかの選択的な実現形態において、強化学習モデル構築ユニット５０４は、
Ａｃｔｏｒ－Ｃｒｉｔｉｃ強化学習モデルアーキテクチャに従って石炭供給量と遊離カルシウム含有量との間の関連を特徴付ける強化学習モデルを構築するように配置されるＡ２Ｃ強化学習モデル構築サブユニットを備えてもよい。

本実施例のいくつかの選択的な実現形態において、該Ａ２Ｃ強化学習モデル構築サブユニットはさらに、ように配置される
分解炉石炭供給量、キルンヘッド石炭供給量、火格子圧力を３次元ベクトルで示されるＡｃｔｉｏｎとして構築するように配置されるＡｃｔｉｏｎ配置モジュールと、
少なくとも前の時間の分解炉温度、キルン電流、二次空気温度、煙室温度、現在の時間の分解炉温度、キルン電流、二次空気温度、煙室温度、火格子圧力、及び予測モデルから出力された遊離カルシウム含有量の予測値をそれぞれ１つの次元として、１０次元ベクトルで示されるＳｔａｔｅとして構築し、毎回１つのＡｃｔｉｏｎを実行した後、Ｓｔａｔｅは予め設定された模擬環境を通じて更新するように配置されるＳｔａｔｅ配置モジュールと、
出力された遊離カルシウム含有量の予測値が予め設定された目標値範囲にあるかどうかと現在の石炭供給量をＲｅｗａｒｄとするように配置されるＲｅｗａｒｄ配置モジュールと、
Ａｃｔｉｏｎ、Ｓｔａｔｅ及びＲｅｗａｒｄに基づいて石炭供給量と遊離カルシウム含有量との間の関連を特徴付ける強化学習モデルを構築するように配置されるＡ２Ｃ強化学習モデル構築モジュールと、を備える。

本実施例は上記方法実施例に対応する装置実施例として存在し、セメント焼成の複雑なシーンでの需要を満たすことができないという従来の技術と異なり、本出願の実施例提供的強化学習モデルを構築するための装置、強化学習の概念をセメント焼成シーンに導入し、確立された模擬モデルと予測モデルに基づいて、強化学習アーキテクチャで複数のパラメーター影響下での入力された石炭供給量と最終製品の遊離カルシウム含有量の間の対応関係を特徴付けることができる強化学習モデルを構築し、且つ強化学習モデルは他の機械学習モデルに存在している補償器特性と異なるため、複雑で、複数のパラメーターのセメント焼成シーンによりマッチされるため、確定された対応関係がより正確になり、それと同時に、強化学習モデルが持つ強力な一般化能力は、他の同様のシーンにも簡単に適用できる。

本出願の実施例によれば、本出願は電子デバイスとコンピュータ可読記憶媒体を提供する。

図６は、本願の実施例による強化学習モデルを構築するための方法を実現するための電子デバイスのブロック図である。電子デバイスは、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバー、メインフレーム、その他の適切なコンピュータなどのさまざまな態様のデジタルコンピュータを表すことを目的とする。電子デバイスは、パーソナルデジタル処理、セルラー方式の携帯電話、スマートフォン、ウェアラブルデバイス、及び他の同様のコンピューティング装置などのさまざまな態様のモバイル装置を表すこともできる。本文に示されるコンポーネント、それらの接続及び関係、ならびにそれらの機能は、単なる例であり、本文に記載されるおよび／または主張される本願の実現を限定することを意図しない。

図６に示すように、該電子デバイスは、１つまたは複数のプロセッサ６０１、メモリ６０２、及び高速インターフェース及び低速インターフェースを備える各コンポーネントを接続するためのインターフェースを備える。各コンポーネントは、異なるバスで相互に接続されており、共通のマザーボードにインストールしてもよいし、必要に応じて、他の方法でインストールしてもよい。プロセッサは、ＧＵＩのグラフィック情報を外部入／出力装置（インターフェースに結合されたディスプレイデバイスなど）に表示できるように、メモリ内またはメモリ上に記憶された命令を含む電子デバイスで実行された命令を処理でき、他の実施例では、必要とすれば、複数のプロセッサおよび／または複数のバスを、複数のメモリ及び複数のメモリと共に使用することができる。同様に、複数の電子デバイスを接続でき、各デバイスはいくつかの必要なオペレーティングを提供する（例えば、サーバーアレイ、ブレードサーバーグループ、またはマルチプロセッサシステムとする）。図６では、１つのプロセッサ６０１を例にする。

メモリ６０２は、即ち、本願による非一時的なコンピュータ可読記憶媒体である。ただし、前記メモリは、少なくとも１つのプロセッサによって実行可能な命令を記憶するので、前記少なくとも１つのプロセッサに本願による強化学習モデルを構築するための方法を実行させる。本願の非一時的なコンピュータ可読記憶媒体は、コンピュータに本願による強化学習モデルを構築するための方法を実行させるためのコンピュータ命令を記憶する。

メモリ６０２は非一時的なコンピュータ可読記憶媒体として、非一時的なソフトウェアプログラム、非一時的なコンピュータによって実行可能なプログラム、及びモジュールを記憶することに用いられ、例えば本願の実施例における強化学習モデルを構築するための方法に対応するプログラム命令／モジュール（例えば、図５に示すような第１模擬モデル確立ユニット５０１、第２模擬モデル確立ユニット５０２、予測モデル確立ユニット５０３、強化学習モデル構築ユニット５０４）である。プロセッサ６０１は、メモリ６０２に記憶された非一時的なソフトウェアプログラム、命令及びモジュールを実行することによって、サーバの様々な機能アプリケーション及びデータ処理を実行し、即ち、上記方法の実施例の強化学習モデルを構築するための方法を実現する。

メモリ６０２は、記憶プログラム領域と記憶データ領域を含んでもよく、ただし、記憶プログラム領域は、オペレーティングシステム、少なくとも１つの機能に必要なアプリケーションプログラムを記憶してもよく、記憶データ領域は、該電子デバイスが強化学習モデルを構築するための方法を実行する時に作成された様々なデータなどを記憶することができ、また、メモリ６０２は、高速ランダムアクセスメモリを含んでもよく、さらに非一時的なメモリを含んでもよく、例えば、少なくとも１つの磁気ディスク記憶デバイス、フラッシュメモリデバイス、または他の非一時的なソリッドステートストレージデバイスなどの非一時的なメモリを含んでもよく、いくつかの実施例では、メモリ６０２は、任意選択で、プロセッサ６０１に対してリモートで設定されたメモリを含み、これらのリモートメモリは、ネットワークを介して強化学習モデルを構築するための方法を実行するのに適する電子デバイスに接続されることができる。上記のネットワークの実施例は、インターネット、企業イントラネット、ローカルエリアネットワーク、モバイル通信ネットワーク、及びそれらの組み合わせなどを含むが、これらに限定されない。

強化学習モデルを構築するための方法の電子デバイスは、入力装置６０３と出力装置６０４を備えてもよい。プロセッサ６０１、メモリ６０２、入力装置６０３及び出力装置６０４は、バスまたは他の方法で接続されてもよいが、図６にバスによる接続を例にする。

入力装置６０３は、入力デジタルまたは文字情報を受信し、強化学習モデルを構築するための方法を実行するのに適用する電子デバイスのユーザー設定及び機能制御に関連するキー信号入力を生成することができる。例えば、タッチスクリーン、キーパッド、マウス、トラックパッド、タッチパッド、ポインティングスティック、１つ以上のマウスボタン、トラックボール、ジョイスティック、その他の入力装置。出力装置６０４は、ディスプレイデバイス、補助照明装置（例えば、ＬＥＤ）、触覚フィードバック装置（例えば、振動モーター）などを備えてもよい。該ディスプレイデバイスは、液晶ディスプレイ（ＬＣＤ）、発光ダイオード（ＬＥＤ）ディスプレイ、及びプラズマディスプレイを備えてもよい。いくつかの実施例では、ディスプレイデバイスはタッチスクリーンであってもよい。

ここでは説明されるシステム及び技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、特定用途向けＡＳＩＣ（特定用途向け集積回路）、コンピュータハードウェア、ファームウェア、ソフトウェア、および／またはそれらの組み合わせにおいて実現できる。これらの様々な実施例形態は、以下を含んでもよく、１つまたは複数のコンピュータプログラムに実施され、該１つまたは複数のコンピュータプログラムは、少なくとも１つのプログラマブルプロセッサを含むプログラマブルシステム上で実行および／または解釈されてもよく、該プログラマブルプロセッサは、ストレージシステム、少なくとも１つの入力装置、及び少なくとも１つの出力装置からデータと命令を受信し、そのデータと命令をストレージシステム、少なくとも１つの入力装置、及び少なくとも１つの出力装置に送信できる専用または汎用のプログラマブルプロセッサであってもよい。

これらのコンピュータプログラム（プログラム、ソフトウェア、ソフトウェアアプリケーション、またはコードとも呼ばれる）は、プログラマブルプロセッサの機械命令を含み、高レベルのプロセス及び／またはオブジェクト指向プログラミング言語、及び／またはアセンブリ／機械言語を利用してこれらのコンピュータプログラムを実施することができる。本文で使用されるように、「機械読み取り可能な媒体」及び「コンピュータ読み取り可能な媒体」という用語は、プログラマブルプロセッサに機械命令および／またはデータを提供するために用いられる任意のコンピュータプログラム製品、デバイス、および／または装置（例えば、磁気ディスク、光ディスク、メモリ、プログラマブルロジック装置（ＰＬＤ）を指す。機械読み取り可能な信号である機械命令を受信する機械読み取り可能な媒体を含む。「機械読み取り可能な信号」という用語は、プログラマブルプロセッサに機械命令および／またはデータを提供するために用いられる任意の信号を指す。

ユーザーとの対話を提供するために、コンピュータにここでは説明されるシステム及び技術を実施してもよく、該コンピュータは、ユーザーに情報を表示するためのディスプレイ装置（例えば、ＣＲＴ（陰極線管）またはＬＣＤ（液晶ディスプレイ）モニター）、及びキーボードとポインティング装置（マウスやトラックボールなど）を備え、ユーザーが該キーボードとポインティング装置を介してコンピュータに入力を提供することができる。他のタイプの装置もユーザーとの対話を提供するために用いられ、例えば、ユーザーに提供されるフィードバックは、任意の形式の感覚フィードバック（例えば、視覚フィードバック、聴覚フィードバック、または触覚フィードバック）であってもよく、任意の形式（音入力、音声入力、または触覚入力を含み）でユーザーからの入力を受信することができる。

ここでは説明されるシステムと技術は、バックエンドコンポーネント（例えば、データサーバー）を含むコンピュータシステム、ミドルウェアコンポーネント（例えば、アプリケーションサーバー）を含むコンピュータシステム、またはフロントエンドコンポーネントを含むコンピュータシステム（例えば、グラフィカルユーザーインターフェイスまたはＷｅｂブラウザーを備え、ユーザーが該ラフィカルユーザーインターフェイスまたはＷｅｂブラウザーでシステムと技術の実施例と対話できるユーザーのコンピュータ）、またはそのようなバックエンドコンポーネント、ミドルウェアコンポーネント、またはフロントエンドコンポーネントを含む任意の組み合わせに実施してもよく、システムのコンポーネントは、任意の形式または媒体のデジタルデータ通信（通信ネットワークなど）を介して相互に接続してもよい。通信ネットワークの例としては、ローカルエリアネットワーク（ＬＡＮ）、ワイドエリアネットワーク（ＷＡＮ）、インターネット、ブロックチェーンネットワークが挙げられる。

コンピュータシステムは、クライアント及びサーバを含んでもよい。クライアントとサーバは、一般的に互いに離れており、通常は通信ネットワークを介して対話する。対応するコンピュータ上で、互いにクライアント／サーバ関係を持つコンピュータプログラムを実行することによりクライアントとサーバの関係を生成する。サーバは、クラウドコンピューティングサーバーまたはクラウドホストとも呼ばれるクラウドサーバーであってもよく、クラウドコンピューティングサービスシステムのホスト製品であり、従来の物理ホスト及び仮想プライベートサーバー（ＶＰＳ，ＶｉｒｔｕａｌＰｒｉｖａｔｅＳｅｒｖｅｒ）サービスに存在している管理の困難さが大きく、ビジネス拡張性が弱い欠陥を解決する。

本出願の実施例の技術案によれば、強化学習の概念をセメント焼成シーンに導入し、確立された模擬モデルと予測モデルに基づいて、強化学習アーキテクチャで複数のパラメーター影響下での入力された石炭供給量と最終製品の遊離カルシウム含有量の間の対応関係を特徴付けることができる強化学習モデルを構築し、且つ強化学習モデルは他の機械学習モデルに存在している補償器特性と異なるため、複雑で、複数のパラメーターのセメント焼成シーンによりマッチされるため、確定された対応関係がより正確になり、それと同時に、強化学習モデルが持つ強力な一般化能力は、他の同様のシーンにも簡単に適用できる。

なお、上記に示される様々な形態のプロセスを使用してソートし、ステップを追加し、削除できる。例えば、本願に記載される各ステップは、本願に開示される技術的解決手段の所望の結果を達成できる限り、並行、順次、または異なる順序で実行されてもよく、ここでは本文に限定されない。

上記の具体的な実施形態は、本願の特許範囲を限定するものではない。当業者は、設計要件及び他の要因に応じて、様々な修正、組み合わせ、サブ組み合わせ、及び置換を行うことができると理解すべきである。本願の精神及び原則を逸脱せずに行われる補正、等価置換、改良などはすべて本願の特許範囲に含まれるべきである。

Claims

強化学習モデルを構築するための方法であって、
分解炉石炭供給量と分解炉温度との間の第１模擬モデルを確立するステップと、
キルンヘッド石炭供給量とキルン電流、二次空気温度、及び煙室温度の間の第２模擬モデルを確立するステップと、
火格子圧力、前記第１模擬モデルから出力された分解炉温度及び前記第２模擬モデルから出力されたキルン電流、二次空気温度、煙室温度及び遊離カルシウム含有量の間の予測モデルを確立するステップと、
前記第１模擬モデル、前記第２模擬モデル及び前記予測モデルを、予め設定された強化学習モデルアーキテクチャに従って石炭供給量と遊離カルシウム含有量の間の関連を特徴付ける強化学習モデルを構築し、前記石炭供給量は分解炉石炭供給量とキルンヘッド石炭供給量を含むステップと、を含む強化学習モデルを構築するための方法。
目標シーンで所定の目標遊離カルシウム含有量を受信するステップと、
前記強化学習モデルを使用して前記目標遊離カルシウム含有量に対応する理論的な石炭供給量を確定し、前記理論的な石炭供給量は理論的な分解炉石炭供給量と理論的なキルンヘッド石炭供給量を含むステップと、
前記理論的な石炭供給量に従って前記目標シーンでの分解炉石炭供給操作とキルンヘッド石炭供給操作をガイドするステップと、をさらに含む請求項１に記載の方法。
現在の分解炉温度を取得し、且つ前記第１模擬モデルに従って現在の分解炉温度に対応する模擬分解炉石炭供給量を確定するステップと、
前記模擬分解炉石炭供給量と前記理論的な分解炉石炭供給量との間の第１差が第１予め設定された閾値を超えることに応答し、前記第１差の正負に応じて分解炉の温度を調整して制御するステップと、をさらに含む請求項２に記載の方法。
現在のキルン電流、二次空気温度、煙室温度を取得し、且つ前記第２模擬モデルに従って現在のキルン電流、二次空気温度、煙室温度に対応する模擬キルンヘッド石炭供給量を確定するステップと、
前記模擬キルンヘッド石炭供給量と前記理論的なキルンヘッド石炭供給量との間の第２差が第２予め設定された閾値を超えることに応答し、前記第２差に応じて前記キルン電流、前記二次空気温度、前記煙室温度を調整するステップと、をさらに含む請求項２に記載の方法。
前記の予め設定された強化学習モデルアーキテクチャに従って石炭供給量と遊離カルシウム含有量との間の関連を特徴付ける強化学習モデルを構築するステップは、
Ａｃｔｏｒ－Ｃｒｉｔｉｃ強化学習モデルアーキテクチャに従って石炭供給量と遊離カルシウム含有量との間の関連を特徴付ける強化学習モデルを構築するステップを含む請求項１～４のいずれかに記載の方法。
前記のＡｃｔｏｒ－Ｃｒｉｔｉｃ強化学習モデルアーキテクチャに従って石炭供給量と遊離カルシウム含有量との間の関連を特徴付ける強化学習モデルを構築するステップは、
Ａｃｔｏｒ－Ｃｒｉｔｉｃ強化学習モデルアーキテクチャに従って石炭供給量と遊離カルシウム含有量との間の関連を特徴付ける強化学習モデルを構築するステップと、
少なくとも前の時間の分解炉温度、キルン電流、二次空気温度、煙室温度、現在の時間の分解炉温度、キルン電流、二次空気温度、煙室温度、火格子圧力、及び前記予測モデルから出力された遊離カルシウム含有量の予測値をそれぞれ１つの次元として、１０次元ベクトルで示されるＳｔａｔｅとして構築し、毎回１つのＡｃｔｉｏｎを実行した後、Ｓｔａｔｅは予め設定された模擬環境を通じて更新するステップと、
出力された遊離カルシウム含有量の予測値が予め設定された目標値範囲にあるかどうかと現在の石炭供給量をＲｅｗａｒｄとするステップと、
Ａｃｔｉｏｎ、Ｓｔａｔｅ及びＲｅｗａｒｄに基づいて石炭供給量と遊離カルシウム含有量との間の関連を特徴付ける強化学習モデルを構築するステップと、を含む請求項５に記載の方法。
強化学習モデルを構築するための装置であって、
分解炉石炭供給量と分解炉温度との間の第１模擬モデルを確立するように配置される第１模擬モデル確立ユニットと、
キルンヘッド石炭供給量とキルン電流、二次空気温度、及び煙室温度の間の第２模擬モデルを確立するように配置される第２模擬モデル確立ユニットと、
成火格子圧力、前記第１模擬モデルから出力された分解炉温度及び前記第２模擬モデルから出力されたキルン電流、二次空気温度、煙室温度及び遊離カルシウム含有量の間の予測モデルを確立するように配置される予測モデル確立ユニットと、
前記第１模擬モデル、前記第２模擬モデル及び前記予測モデルを、予め設定された強化学習モデルアーキテクチャに従って石炭供給量と遊離カルシウム含有量の間の関連を特徴付ける強化学習モデルを構築し、前記石炭供給量は分解炉石炭供給量とキルンヘッド石炭供給量を含むように配置される強化学習モデル構築ユニットと、を備える強化学習モデルを構築するための装置。
目標シーンで所定の目標遊離カルシウム含有量を受信するように配置される所定のパラメーター受信ユニットと、
前記強化学習モデルを使用して前記目標遊離カルシウム含有量に対応する理論的な石炭供給量を確定し、前記理論的な石炭供給量は理論的な分解炉石炭供給量と理論的なキルンヘッド石炭供給量を含むように配置される理論的な石炭供給量確定ユニットと、
前記理論的な石炭供給量に従って前記目標シーンでの分解炉石炭供給操作とキルンヘッド石炭供給操作をガイドするように配置される石炭供給操作ガイドユニットと、をさらに備える請求項７に記載の装置。
現在の分解炉温度を取得し、且つ前記第１模擬モデルに従って現在の分解炉温度に対応する模擬分解炉石炭供給量を確定するように配置される模擬分解炉温度確定ユニットと、
前記模擬分解炉石炭供給量と前記理論的な分解炉石炭供給量との間の第１差が第１予め設定された閾値を超えることに応答し、前記第１差の正負に応じて分解炉の温度を調整して制御するように配置される第１調整制御ユニットと、をさらに備える請求項８に記載の装置。
現在のキルン電流、二次空気温度、煙室温度を取得し、且つ前記第２模擬モデルに従って現在のキルン電流、二次空気温度、煙室温度に対応する模擬キルンヘッド石炭供給量を確定するように配置される模擬キルンヘッド石炭供給量確定ユニットと、
前記模擬キルンヘッド石炭供給量と前記理論的なキルンヘッド石炭供給量との間の第２差が第２予め設定された閾値を超えることに応答し、前記第２差に応じて前記キルン電流、前記二次空気温度、前記煙室温度を調整するように配置される第２調整制御ユニットと、をさらに備える請求項８に記載の装置。
前記強化学習モデル構築ユニットは、
Ａｃｔｏｒ－Ｃｒｉｔｉｃ強化学習モデルアーキテクチャに従って石炭供給量と遊離カルシウム含有量との間の関連を特徴付ける強化学習モデルを構築するように配置されるＡ２Ｃ強化学習モデル構築サブユニットを備える請求項７～１０のいずれかに記載の装置。
前記Ａ２Ｃ強化学習モデル構築サブユニットは、
Ａｃｔｏｒ－Ｃｒｉｔｉｃ強化学習モデルアーキテクチャに従って石炭供給量と遊離カルシウム含有量との間の関連を特徴付ける強化学習モデルを構築するように配置されるＡｃｔｉｏｎ配置モジュールと、
少なくとも前の時間の分解炉温度、キルン電流、二次空気温度、煙室温度、現在の時間の分解炉温度、キルン電流、二次空気温度、煙室温度、火格子圧力、及び前記予測モデルから出力された遊離カルシウム含有量の予測値をそれぞれ１つの次元として、１０次元ベクトルで示されるＳｔａｔｅとして構築し、毎回１つのＡｃｔｉｏｎを実行した後、Ｓｔａｔｅは予め設定された模擬環境を通じて更新するように配置されるＳｔａｔｅ配置モジュールと、
出力された遊離カルシウム含有量の予測値が予め設定された目標値範囲にあるかどうかと現在の石炭供給量をＲｅｗａｒｄとするように配置されるＲｅｗａｒｄ配置モジュールと、
Ａｃｔｉｏｎ、Ｓｔａｔｅ及びＲｅｗａｒｄに基づいて石炭供給量と遊離カルシウム含有量との間の関連を特徴付ける強化学習モデルを構築するように配置されるＡ２Ｃ強化学習モデル構築モジュールと、をさらに備える請求項１１に記載の装置。
電子デバイスであって、
少なくとも１つのプロセッサと、
前記少なくとも１つのプロセッサに通信接続されるメモリと、を備え、
前記メモリに前記少なくとも１つのプロセッサによって実行されることができる命令が記憶され、前記命令は前記少なくとも１つのプロセッサによって実行され、前記少なくとも１つのプロセッサに請求項１－６のいずれかに記載の強化学習モデルを構築するための方法を実行させることができる電子デバイス。
コンピュータ命令が記憶された非一時的なコンピュータ可読記憶媒体であって、前記コンピュータ命令は前記コンピュータに請求項１－６のいずれかに記載の強化学習モデルを構築するための方法を実行するために使用されるコンピュータ可読記憶媒体。
コンピュータプログラムであって、前記コンピュータプログラムはプロセッサにより実行されると、請求項１－６のいずれかに記載の強化学習モデルを構築するための方法を実行するコンピュータプログラム。