JP2022023775A - 強化学習モデルを構築するための方法、装置、電子デバイス、コンピュータ可読記憶媒体及びコンピュータプログラム - Google Patents

強化学習モデルを構築するための方法、装置、電子デバイス、コンピュータ可読記憶媒体及びコンピュータプログラム Download PDF

Info

Publication number
JP2022023775A
JP2022023775A JP2021055392A JP2021055392A JP2022023775A JP 2022023775 A JP2022023775 A JP 2022023775A JP 2021055392 A JP2021055392 A JP 2021055392A JP 2021055392 A JP2021055392 A JP 2021055392A JP 2022023775 A JP2022023775 A JP 2022023775A
Authority
JP
Japan
Prior art keywords
coal supply
model
reinforcement learning
temperature
simulated
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2021055392A
Other languages
English (en)
Other versions
JP7257436B2 (ja
Inventor
リウ・イン
Ying Liu
シエ・シン
Xin Xie
シュ・ミン
Ming Xu
チー・ユエヂェン
Yuezhen Qi
リー・ルイフォン
Ruifeng Li
バイ・ルー
Lu Bai
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Publication of JP2022023775A publication Critical patent/JP2022023775A/ja
Application granted granted Critical
Publication of JP7257436B2 publication Critical patent/JP7257436B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • CCHEMISTRY; METALLURGY
    • C04CEMENTS; CONCRETE; ARTIFICIAL STONE; CERAMICS; REFRACTORIES
    • C04BLIME, MAGNESIA; SLAG; CEMENTS; COMPOSITIONS THEREOF, e.g. MORTARS, CONCRETE OR LIKE BUILDING MATERIALS; ARTIFICIAL STONE; CERAMICS; REFRACTORIES; TREATMENT OF NATURAL STONE
    • C04B7/00Hydraulic cements
    • C04B7/36Manufacture of hydraulic cements in general
    • C04B7/361Condition or time responsive control in hydraulic cement manufacturing processes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/20Design optimisation, verification or simulation
    • G06F30/27Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model
    • FMECHANICAL ENGINEERING; LIGHTING; HEATING; WEAPONS; BLASTING
    • F27FURNACES; KILNS; OVENS; RETORTS
    • F27BFURNACES, KILNS, OVENS, OR RETORTS IN GENERAL; OPEN SINTERING OR LIKE APPARATUS
    • F27B7/00Rotary-drum furnaces, i.e. horizontal or slightly inclined
    • F27B7/20Details, accessories, or equipment peculiar to rotary-drum furnaces
    • FMECHANICAL ENGINEERING; LIGHTING; HEATING; WEAPONS; BLASTING
    • F27FURNACES; KILNS; OVENS; RETORTS
    • F27BFURNACES, KILNS, OVENS, OR RETORTS IN GENERAL; OPEN SINTERING OR LIKE APPARATUS
    • F27B7/00Rotary-drum furnaces, i.e. horizontal or slightly inclined
    • F27B7/20Details, accessories, or equipment peculiar to rotary-drum furnaces
    • F27B7/42Arrangement of controlling, monitoring, alarm or like devices
    • FMECHANICAL ENGINEERING; LIGHTING; HEATING; WEAPONS; BLASTING
    • F27FURNACES; KILNS; OVENS; RETORTS
    • F27DDETAILS OR ACCESSORIES OF FURNACES, KILNS, OVENS, OR RETORTS, IN SO FAR AS THEY ARE OF KINDS OCCURRING IN MORE THAN ONE KIND OF FURNACE
    • F27D19/00Arrangements of controlling devices
    • FMECHANICAL ENGINEERING; LIGHTING; HEATING; WEAPONS; BLASTING
    • F27FURNACES; KILNS; OVENS; RETORTS
    • F27DDETAILS OR ACCESSORIES OF FURNACES, KILNS, OVENS, OR RETORTS, IN SO FAR AS THEY ARE OF KINDS OCCURRING IN MORE THAN ONE KIND OF FURNACE
    • F27D21/00Arrangements of monitoring devices; Arrangements of safety devices
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/004Artificial life, i.e. computing arrangements simulating life
    • G06N3/006Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • FMECHANICAL ENGINEERING; LIGHTING; HEATING; WEAPONS; BLASTING
    • F27FURNACES; KILNS; OVENS; RETORTS
    • F27DDETAILS OR ACCESSORIES OF FURNACES, KILNS, OVENS, OR RETORTS, IN SO FAR AS THEY ARE OF KINDS OCCURRING IN MORE THAN ONE KIND OF FURNACE
    • F27D19/00Arrangements of controlling devices
    • F27D2019/0096Arrangements of controlling devices involving simulation means, e.g. of the treating or charging step
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2119/00Details relating to the type or aim of the analysis or the optimisation
    • G06F2119/08Thermal analysis or thermal optimisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2119/00Details relating to the type or aim of the analysis or the optimisation
    • G06F2119/14Force analysis or force optimisation, e.g. static or dynamic forces

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Mechanical Engineering (AREA)
  • Geometry (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computer Hardware Design (AREA)
  • Medical Informatics (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Data Mining & Analysis (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Linguistics (AREA)
  • Chemical & Material Sciences (AREA)
  • Ceramic Engineering (AREA)
  • Materials Engineering (AREA)
  • Structural Engineering (AREA)
  • Organic Chemistry (AREA)
  • Feedback Control In General (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Curing Cements, Concrete, And Artificial Stone (AREA)

Abstract

【課題】強化学習の概念をセメント業界のクリンカー焼成の石炭供給量制御に適用することにより、コストを削減し、効率を高める方法、装置、電子デバイス、コンピュータ可読記憶媒体及びコンピュータプログラムを提供する。【解決手段】方法は、分解炉石炭供給量と分解炉温度との間の第1模擬モデルを確立するステップと、キルンヘッド石炭供給量とキルン電流、二次空気温度及び煙室温度の間の第2模擬モデルを確立するステップと、火格子圧力、第1模擬モデルから出力された分解炉温度、第2模擬モデルから出力されたキルン電流、二次空気温度、煙室温度及び遊離カルシウム含有量の間の予測モデルを確立するステップと、第1模擬モデル、第2模擬モデル及び予測モデルを、予め設定された強化学習モデルアーキテクチャに従って石炭供給量と遊離カルシウム含有量との間の関連を特徴付ける強化学習モデルを構築するステップと、を含む。【選択図】図2

Description

本出願は、データ処理技術分野に関し、具体的に、ビッグデータ、深層学習技術分野に関し、特に強化学習モデルを構築するための方法、装置、電子デバイス、コンピュータ可読記憶媒体及びコンピュータプログラムに関する。
セメントの生産プロセスには、原材料の採掘及び粉砕、原材料によるクリンカーの焼成、クリンカーの再加工という3つの主要な段階がある。原材料によるクリンカーの焼成は、非常に複雑なプロセスであり、プロセスで消費される石炭と電力のコストは非常に高いである。焼成プロセスでは、石炭と電力が主に消費され、石炭の消費が最も大きな割合を占め、つまり、焼成段階で石炭供給量を合理的に制御する方法は、セメント産業のコストを削減し、効率を高めるための鍵となる。
本出願の実施例は強化学習モデルを構築するための方法、装置、電子デバイス及びコンピュータ可読記憶媒体を提供する。
第1態様によれば、本出願の実施例は強化学習モデルを構築するための方法を提供し、分解炉石炭供給量と分解炉温度との間の第1模擬モデルを確立するステップと、キルンヘッド石炭供給量、キルン電流、二次空気温度、及び煙室温度の間の第2模擬モデルを確立するステップと、火格子圧力、第1模擬モデルから出力された分解炉温度、第2模擬モデルから出力されたキルン電流、二次空気温度、煙室温度及び遊離カルシウム含有量の間の予測モデルを確立するステップと、第1模擬モデル、第2模擬モデル及び予測モデルを、予め設定された強化学習モデルアーキテクチャに従って石炭供給量と遊離カルシウム含有量との間の関連を特徴付ける強化学習モデルを構築するステップと、を備え、石炭供給量は分解炉石炭供給量とキルンヘッド石炭供給量を含む。
第2態様によれば、本出願の実施例は強化学習モデルを構築するための装置を提供し、分解炉石炭供給量と分解炉温度との間の第1模擬モデルを確立するように配置される第1模擬モデル確立ユニットと、キルンヘッド石炭供給量とキルン電流、二次空気温度、及び煙室温度の間の第2模擬モデルを確立するように配置される第2模擬モデル確立ユニットと、火格子圧力、第1模擬モデルから出力された分解炉温度、第2模擬モデルから出力されたキルン電流、二次空気温度、煙室温度及び遊離カルシウム含有量の間の予測モデルを確立するように配置される予測モデル確立ユニットと、第1模擬モデル、第2模擬モデル及び予測モデルを、予め設定された強化学習モデルアーキテクチャに従って石炭供給量と遊離カルシウム含有量との間の関連を特徴付ける強化学習モデルを構築するように配置される強化学習モデル構築ユニットと、を備え、石炭供給量は分解炉石炭供給量とキルンヘッド石炭供給量を含む。
第3態様によれば、本出願の実施例は電子デバイスを提供し、該電子デバイスは、少なくとも1つのプロセッサと、少なくとも1つのプロセッサに通信接続されるメモリと、を備え、メモリに少なくとも1つのプロセッサによって実行されることができる命令が記憶され、該命令が少なくとも1つのプロセッサによって実行され、少なくとも1つのプロセッサにより実行する際に第1態様の実現形態のいずれかに記載の強化学習モデルを構築するための方法を実現させることができる。
第4態様によれば、本出願の実施例はコンピュータ命令が記憶された非一時的なコンピュータ可読記憶媒体を提供し、該コンピュータ命令はコンピュータにより実行される際に第1態様の実現形態のいずれかに記載の強化学習モデルを構築するための方法を実現させることができる。
第5態様によれば、本出願の実施例はコンピュータプログラムを提供し、該コンピュータプログラムはコンピュータにより実行されると、第1態様の実現形態のいずれかに記載の強化学習モデルを構築するための方法を実現させることができる。
本出願の実施例による強化学習モデルを構築するための方法、装置、電子デバイス及びコンピュータ可読記憶媒体は、まず、分解炉石炭供給量と分解炉温度との間の第1模擬モデルを確立し、及びキルンヘッド石炭供給量とキルン電流、二次空気温度、及び煙室温度の間の第2模擬モデルを確立し、次に、火格子圧力、第1模擬モデルから出力された分解炉温度、第2模擬モデルから出力されたキルン電流、二次空気温度、煙室温度及び遊離カルシウム含有量の間の予測モデルを確立し、最終的に、第1模擬モデル、第2模擬モデル及び予測モデルを、予め設定された強化学習モデルアーキテクチャに従って石炭供給量と遊離カルシウム含有量との間の関連を特徴付ける強化学習モデルを構築し、石炭供給量は分解炉石炭供給量とキルンヘッド石炭供給量を含む。
セメント焼成の複雑なシーンでの需要を満たすことができないという従来の技術と異なり、本出願は強化学習の概念をセメント焼成シーンに導入し、確立された模擬モデルと予測モデルに基づいて、強化学習アーキテクチャで複数のパラメーター影響下での入力された石炭供給量と最終製品の遊離カルシウム含有量の間の対応関係を特徴付けることができる強化学習モデルを構築し、且つ強化学習モデルは他の機械学習モデルに存在している補償器特性と異なるため、複雑で、複数のパラメーターのセメント焼成シーンによりマッチされるため、確定された対応関係がより正確になり、それと同時に、強化学習モデルが持つ強力な一般化能力は、他の同様のシーンにも簡単に適用できる。
なお、この部分で説明する内容は、本開示の実施例の肝心なまたは重要な特徴を特定することを意図するものではなく、本開示の範囲を限定することを意図するものでもない。本開示の他の特徴は以下の明細書を通じて容易に理解される。
以下の図面を参照して非限定的な実施例に対して行われた詳細な説明を読むことによって、本願の他の特徴、目的及び利点がより明らかになる。
本出願を適用できる例示的なシステムアーキテクチャである。 本出願の実施例による強化学習モデルを構築するための方法を示すフローチャートである。 本出願の実施例による他の強化学習モデルを構築するための方法を示すフローチャートである。 本出願の実施例による一アプリケーションシナリオ下での強化学習モデルを構築するための方法を示すフロー模式図である。 本出願の実施例による強化学習モデルを構築するための装置を示す構造ブロック図である。 本出願の実施例による強化学習モデルを構築するための方法を実行するのに適する電子デバイスを示す構造模式図である。
以下、図面を参照して、本願の例示的な実施例を説明し、理解に役に立つように、本願の実施例の様々な細部を含み、単に例示的なものと見なされる。従って、当業者は、本願の範囲と精神から逸脱せずに、ここで説明する実施例に様々な変更と修正を加えることができることを認識すべきである。同様に、明確かつ簡潔にするために、以下の説明では、既知の機能と構造の説明を省略する。
説明する必要があるのは、衝突しない場合、本願における実施例及び実施例における特徴を組み合わせることができる。以下、図面を参照して実施例を組み合わせて本願を詳細に説明する。
図1は、本願の強化学習モデルを構築するための方法、装置、電子デバイス及びコンピュータ可読記憶媒体を適用できる実施例を示す例示的なシステムアーキテクチャ100である。
図1に示すように、システムアーキテクチャ100は、センサー、102、103、ネットワーク104、サーバ105、及び石炭供給装置106を備えてもよい。ネットワーク104は、センサー、102、103、サーバ105、及び石炭供給装置106の間に通信リンクを提供する媒体である。ネットワーク104は、様々な接続タイプ、例えば有線、無線通信リンクまたは光ファイバケーブルなどを含んでもよい。
センサー101、102、103により収集された様々な情報はネットワーク104を介してサーバ105に送信されることができ、サーバ105は受信された情報に基づいて処理した後に制御命令を生成し、次に、ネットワーク104を介して石炭供給装置106に配信する。具体的に、上記通信は、例えば情報送信アプリケーション、石炭供給最適化制御アプリケーション、制御コマンド送受信アプリケーションなど、センサー101、102、103、サーバ105及び石炭供給装置106にインストールされる様々なアプリケーションによって実現されることができる。
通常の場合で、センサー101、102、103は、セメント焼成関連機器(例えば分解炉、クリンカーキルンなど)の関連位置に設けられる物理コンポーネント(例えば圧力センサー、温度センサー、電流センサーなど)であり、実際の機器により生成された実際の信号を受信するようにする。しかし、テストと模擬のシーンで、センサー101、102、103はセメント焼成の仮想関連機器に設けられる仮想コンポーネントであってもよく、テストシーンで予め設定されたパラメーターまたは模擬パラメーターを受信するようにする。サーバ105は、ハードウェアであってもよいし、ソフトウェアであってもよい。サーバ105がハードウェアである場合、複数のサーバからなる分散サーバクラスターとして実現されてもよいし、単一のサーバとして実現されてもよく、サーバがソフトウェアである場合、複数のソフトウェアまたはソフトウェアモジュールとして実現されてもよいし、単一のソフトウェアまたはソフトウェアモジュールとして実現されてもよく、ここでは特に限定されない。実際のシーンで、石炭供給装置106は、石炭コンベヤベルト、石炭コンベヤーなどの物理的機器として具体化することができ、仮想のテストシーンで、制御される石炭輸送能力を備える仮想機器を直接使用して置き換えることができる。
サーバ105は様々な組み込みアプリケーションを介して様々なサービスを提供することができ、セメント焼成における石炭供給量最適化制御サービスを提供できる石炭供給量最適化制御アプリケーションを例として、サーバ105は、該石炭供給量最適化制御アプリケーションを実行する時に、以下のような効果を実現でき、まず、このバッチにセメントクリンカーの生産に必要な目標遊離カルシウム含有量の指示を受信し、次に、目標遊離カルシウム含有量を予め構築された石炭供給量と遊離カルシウム含有量の間の対応関係を特徴付ける強化学習モデルに入力し、該強化学習モデルから出力された理論的な石炭供給量を取得し、続いて、該理論的な石炭供給量に含まれる理論的な分解炉石炭供給量と理論的なキルンヘッド石炭供給量を使用して石炭供給装置106に対応する石炭供給量指示を配信する。
サーバ105が上記プロセスで使用される強化学習モデルは以下の方法に基づいて構築されることができ、まず、ネットワーク104を介してセンサー101、102、103から大量の歴史分解炉石炭供給量、分解炉温度、キルンヘッド石炭供給量、キルン電流、二次空気温度、煙室温度及び火格子圧力を受信し、次に、分解炉石炭供給量と分解炉温度との間の第1模擬モデルを確立し、及びキルンヘッド石炭供給量とキルン電流、二次空気温度、及び煙室温度の間の第2模擬モデルを確立し、次に、火格子圧力、第1模擬モデルから出力された分解炉温度、第2模擬モデルから出力されたキルン電流、二次空気温度、煙室温度及び遊離カルシウム含有量の間の予測モデルを確立し、最終的に、第1模擬モデル、第2模擬モデル及び予測モデルを、予め設定された強化学習モデルアーキテクチャに従って石炭供給量と遊離カルシウム含有量との間の関連を特徴付ける強化学習モデルを構築する。
なお、模擬モデル、予測モデルを構築するための分解炉石炭供給量、分解炉温度、キルンヘッド石炭供給量、キルン電流、二次空気温度、煙室温度及び火格子圧力などのパラメーターは、センサー101、102、103から取得できる以外、これらのパラメーターはログ、生産検出データ報告などの様々な形式でサーバ105にローカルに予め記憶されることもできる。このため、サーバ105はローカルにこれらのデータが記憶されたと検出する場合、ローカルからこれらのデータを取得することができ、この場合、強化学習モデルを生成するプロセスにはセンサー101、102、103及びネットワーク104も必要としない場合がある。
大量のパラメーターに基づいて模擬モデル、予測モデル、強化学習モデルを構築するには多くのコンピューティングリソースと強力な計算能力を占めるため、本出願の後続の各実施例による強化学習モデルを構築するための方法は、一般的に、強力な計算能力、多くのコンピューティングリソースを備えるサーバ105により実行され、それに対応して、強化学習モデルを構築するための装置もサーバ105に設けられる場合が多い。
理解すべきなのは、図1中のセンサー、ネットワーク、サーバ、石炭供給装置の数は例示的な数だけである。実現の必要に応じて、任意の数のセンサー、ネットワーク、サーバ、石炭供給装置を備えてもよい。
図2を参照し、図2は本出願の実施例による強化学習モデルを構築するための方法を示すフローチャートであり、フロー200は、以下のステップを含み、
ステップ201、分解炉石炭供給量と分解炉温度との間の第1模擬モデルを確立し、
このステップの目的は、強化学習モデルを構築するための方法の実行主体(例えば図1に示すようなサーバ105)により分解炉石炭供給量と分解炉温度との間の第1模擬モデルを確立することである。
第1模擬モデルは、分解炉石炭供給量と分解炉温度との間の対応関係を特徴付けるために使用され、この対応関係を特徴付けることができる第1模擬モデルを構築するために、模擬モデルの訓練と構築に参加するためのサンプルデータとしての大量の歴史分解炉石炭供給量と対応する歴史分解炉温度データを必要とし、例えば分解炉石炭供給量と分解炉温度との間の対応関係を特徴付ける第1模擬モデルは、下記式のように構築されることができ、
y(k) = a*y(k-1)+b*u(k-1)
式中、y(k)は時間kでの分解炉温度であり、y(k-1)とu(k-1)はそれぞれ時間k-1(即ち時間kの前の時間)の分解温度と分解炉石炭供給量であり、aとbはそれぞれ未定係数であり、具体な値は、歴史データに基づく最小二乘法を使用して計算でき、例えばある実験シーンで、aは0.983であり、bは0.801である。
ステップ202、キルンヘッド石炭供給量とキルン電流、二次空気温度、及び煙室温度の間の第2模擬モデルを確立し、
このステップの目的は、上記実行主体によりキルンヘッド石炭供給量とキルン電流、二次空気温度、及び煙室温度の間の第2模擬モデルを確立することである。
第1模擬モデルと異なり、第2模擬モデルは、キルンヘッド石炭供給量とキルン電流、二次空気温度、及び煙室温度との間の対応関係を特徴付けるために使用され、この対応関係を特徴付けることができる第2模擬モデルを構築するために、模擬モデルの訓練と構築に参加するためのサンプルデータとしての大量の歴史キルンヘッド石炭供給量、対応する歴史キルン電流、歴史二次空気温度及び歴史煙室温度を必要とする。第2模擬モデルは、上記式と同様に構築されることもできる。
説明する必要があるのは、上記実行主体はステップ201、ステップ202を通じてそれぞれ構築して第1模擬モデルと第2模擬モデルを取得するのは、セメントクリンカーの焼成プロセスには、調整可能な変数は主に、原材料供給量、分解炉石炭供給量、キルンヘッド石炭供給量、キルン速、高温ファン速度、火格子冷却器速度があり、被制御変数は主に、分解炉出口温度、分解炉出口圧力、二次空気温度、三次空気温度、キルン内の焼成ゾーン温度、キルンヘッド負圧、キルンテール温度、煙室温度、キルン電流、火格子圧力、垂直重量がある。被制御変数とは、直接デバッグできないが、調整可能な変数の影響を受ける変数を指す。
上記のこれらの変数は、最終的には焼成された完成品の遊離カルシウム含有量に作用するため、完成品のクリンカー品質を確保するために、焼成プロセス全体でこれらの変数を監視する必要があり、これらの変数を通じて最終的に焼成されたクリンカー完成品の品質を推測するようにする。調査後、遊離カルシウム含有量は、主に分解炉温度、キルン電流、二次空気温度、煙室温度、火格子圧力に関連し、これらの変数は主に分解炉石炭供給量、キルンヘッド石炭供給量、火格子圧力の3つの調整可能なパラメーターによって決められる。このため、本出願は主に石炭の供給による石炭の量の消費とクリンカー品質(即ち遊離カルシウム含有量)に焦点を当てている場合、分解炉石炭供給量、キルンヘッド石炭供給量、火格子圧力という3つの調整可能な変数、分解炉温度、キルン電流、二次空気温度、煙室温度という4つの被制御変数、及び遊離カルシウム含有量という1つの最終的な目標変数を主に考慮することができる。
強化学習モデルを通じて石炭供給量の最適化とパラメーター調整を行うために、セメント焼成プロセスには石炭供給量に関連するパラメーター変化を特徴付ける模擬モデルの構築は不可欠であるため、上記実行主体はそれぞれステップ201によって被制御変数-分解炉温度と調整可能な変数-分解炉石炭供給量との間の対応関係を特徴付ける第1模擬モデルを構築し、ステップ202によって被制御変数-キルン電流、二次空気温度、煙室温度と調整可能な変数-キルンヘッド石炭供給量との間の対応関係を特徴付ける第2模擬モデルを構築する。
ステップ203、火格子圧力、第1模擬モデルから出力された分解炉温度、第2模擬モデルから出力されたキルン電流、二次空気温度、煙室温度及び遊離カルシウム含有量の間の予測モデルを確立し、
ステップ201、ステップ202のうえで、このステップの目的は、上記実行主体により火格子圧力、第1模擬モデルから出力された分解炉温度、第2模擬モデルから出力されたキルン電流、二次空気温度、煙室温度及び遊離カルシウム含有量の間の予測モデルを確立する。
ステップ202に説明されたように、クリンカーの品質指標-遊離カルシウム含有量は主に火格子圧力、分解炉温度、キルン電流、二次空気温度、煙室温度という5つの被制御変数の影響を受けることが考えられるため、このステップでは上記5つの被制御変数と遊離カルシウム含有量との間の予測モデルを確立し、即ち生成された予測モデルは所定の5つの被制御変数の実際の値に基づいて対応する遊離カルシウム含有量の予測値を予測する。
具体的に、上記予測モデルの確立には訓練に参加するための大量の歴史データを必要とするため、SVM(Support Vector Machine、サポートベクターマシン)、神経ネットワーク、ツリーモデルなどの複数の入力パラメーターをサポートして固有の出力パラメーターを予測する様々なモデルまたはアルゴリズムによって、より正確な各被制御変数により遊離カルシウム含有量に対する影響関係を見つけることができ、ここでは特に限定されなく、実際のアプリケーションシナリオのすべての存在する可能性がある影響要素に応じて選択することができる。
上記各ステップのモデル構築に必要なサンプルとしての大量歴史データは、クリンカー焼成時に使用された関連機器に設けられる様々なセンサー(例えば図1に示すようなセンサー101、102、103)によって収集されることができ、例えば火格子圧力は火格子冷却器に設けられる圧力センサーによって収集されることができ、キルン電流はキルンヘッドに設けられる電流センサーによって収集されることができ、様々な温度は、実際の温度範囲に応じて異なる性能、タイプの温度センサーを選択することができる。
ステップ204、第1模擬モデル、第2模擬モデル及び予測モデルを、予め設定された強化学習モデルアーキテクチャに従って石炭供給量と遊離カルシウム含有量との間の関連を特徴付ける強化学習モデルを構築する。
ステップ203のうえで、このステップの目的は、上記実行主体により第1模擬モデル、第2模擬モデル及び予測モデルを、予め設定された強化学習モデルアーキテクチャに従って石炭供給量と遊離カルシウム含有量との間の関連を特徴付ける強化学習モデルを構築する。
遊離カルシウム含有量は火格子圧力、分解炉温度、キルン電流、二次空気温度、煙室温度という5つの被制御変数の影響を受けるが、この5つの被制御変数はまたそれぞれ分解炉石炭供給量とキルンヘッド石炭供給量の2つの調整可能な変数によって制御され、且つ本出願の主な目的に基づいて、調整可能な変数と被制御変数との間の対応関係を特徴付ける模擬モデル、被制御変数と品質指標と之間の対応関係を特徴付ける予測モデルに従って、強化学習モデルのアーキテクチャで石炭供給量と遊離カルシウム含有量との間の対応関係を特徴付けることができる強化学習モデルを構築する。
強化学習(Reinforcement Learning,RL)は、再励学習、評価学習または増強学習とも呼ばれ、機械学習のパラダイムおよび方法論の1つであり、エージェント(agent)が環境と対話するプロセスには学習戦略を通じて収益を最大化するまたは特定の目標を達成するという問題を説明および解決するために使用される。生物学的神経ネットワークをシミュレートする他の神経ネットワーク深層学習アルゴリズムと異なり、強化学習アルゴリズムはエージェントが「試行錯誤」の方法で学習し、環境との対話によって得られた報酬を通じて行動をガイドし、目標はエージェントに最大の報酬を取得させ、強化学習は接続主義学習における監視学習と異なり、主に強化信号に現れ、強化学習では、環境により提供された強化信号は、強化学習システムRLS(reinforcement learning system)に正しい動作を生成する方法を指示するのではなく、生成された動作の品質を評価(通常はスカラー信号)する。外部環境はほとんど情報を提供しないため、RLSが独自の経験に依存して学習しなければならない。このような方法によって、RLSは行動-評価の環境から知識を取得し、行動手段を変更し、環境に適応するようにする。深層学習モデルは強化学習で使用され、効果により優れた深層強化学習(DRL)を形成することもできる。
具体的に、Actor-critic(A2C)、PPO、TRPOなどの特性が異なる強化学習モデルのアーキテクチャを選択してこのステップに必要な石炭供給量と遊離カルシウム含有量との間の対応関係を特徴付けることができる強化学習モデルを構築することができる。
セメント焼成の複雑なシーンでの需要を満たすことができないという従来の技術と異なり、本出願の実施例による強化学習モデルを構築するための方法は、強化学習の概念をセメント焼成シーンに導入し、確立された模擬モデルと予測モデルに基づいて、強化学習アーキテクチャで複数のパラメーター影響下での入力された石炭供給量と最終製品の遊離カルシウム含有量の間の対応関係を特徴付けることができる強化学習モデルを構築し、且つ強化学習モデルは他の機械学習モデルに存在している補償器特性と異なるため、複雑で、複数のパラメーターのセメント焼成シーンによりマッチされるため、確定された対応関係がより正確になり、それと同時に、強化学習モデルが持つ強力な一般化能力は、他の同様のシーンにも簡単に適用できる。
従来の技術がセメント焼成の複雑なシーンでの需要を満たすことができない理由は、PID制御がシステムの偏差のみを考慮し、主にシステムの設定値を追跡するが、セメント焼成シーンでクリンカーの品質とエネルギー消費の多目的最適化をサポートしない一方で、セメント生産プロセスに複数のパラメーターのリアルタイム制御に関するため、MPCが複数のパラメーターの統一なリアルタイム制御を実現することは困難であると同時に、MPCの一般化能力が低く、同様のシーンの焼成システムでは、毎回モデルを再確立する必要がある。
図3を参照し、図3は本出願の実施例による他の強化学習モデルを構築するための方法を示すフローチャートであり、フロー300は以下のステップを含み、
ステップ301、分解炉石炭供給量と分解炉温度との間の第1模擬モデルを確立し、
ステップ302、キルンヘッド石炭供給量とキルン電流、二次空気温度、及び煙室温度の間の第2模擬モデルを確立し、
ステップ303、火格子圧力、第1模擬モデルから出力された分解炉温度、第2模擬モデルから出力されたキルン電流、二次空気温度、煙室温度及び遊離カルシウム含有量の間の予測モデルを確立し、
ステップ304、第1模擬モデル、第2模擬モデル及び予測モデルを、予め設定された強化学習モデルアーキテクチャに従って石炭供給量と遊離カルシウム含有量との間の関連を特徴付ける強化学習モデルを構築し、
以上のステップ301-304は図2に示すようなステップ201-204と一致し、上記ステップは強化学習モデルの構築プロセスとしてまとめられることができ、同じ部分の内容は前の実施例の対応する部分を参照し、ここで繰り返して説明しない。
ステップ305、目標シーンで所定の目標遊離カルシウム含有量を受信し、
ステップ304で使用可能な強化学習モデルを構築したうえで、このステップの目的は、上記実行主体によりユーザーが目標シーンで設定した目標遊離カルシウム含有量を受信することである。このステップは、強化学習モデルがセメント焼成をガイドする時の石炭供給量の使用プロセスのステップ1として、即ち設定されたクリンカー品質指標を取得する。
ステップ306、強化学習モデルを使用して目標遊離カルシウム含有量に対応する理論的な石炭供給量を確定し、
ステップ305のうえで、このステップの目的は、上記実行主体により強化学習モデルを使用して目標遊離カルシウム含有量に対応する理論的な石炭供給量を確定することであり、即ち強化学習モデルは石炭供給量と遊離カルシウム含有量との間の対応関係を特徴付けることができるため、目標遊離カルシウム含有量を設定した場合で、該対応関係に応じて対応する理論的な石炭供給量を逆に推定することができ、理論的な石炭供給量は理論的な分解炉石炭供給量と理論的なキルンヘッド石炭供給量を含む。
ステップ307、理論的な石炭供給量に応じて目標シーンでの分解炉石炭供給操作とキルンヘッド石炭供給操作をガイドする。
ステップ306のうえで、このステップの目的は、上記実行主体により理論的な石炭供給量に応じて目標シーンでの分解炉石炭供給操作とキルンヘッド石炭供給操作をガイドすることであり、例えば石炭供給装置(例えば図1に示すような石炭供給装置106)は分解炉とキルンヘッドに対応する数の石炭を供給することを制御する。
本出願の実施例は前の実施例のすべての技術的特徴(即ち強化学習モデルn構築ステップ)を含むので、前の実施例のすべての有益な効果を有するはずである。これに基づいて、本出願の実施例はステップ305-ステップ307を通じて具体的に如何に構築された強化学習モデルに基づいて石炭供給量をガイドする手段を提供し、提供された合理的な石炭供給量によってセメント焼成プロセスの石炭量の投入をガイドし、クリンカー品質をできるだけ確保する場合に石炭の投入量をできるだけ少なくしてコストを削減し、効率を高め、節約された石炭は、大気への二酸化炭素排出量の削減に相当し、環境に優しい企業の構築に役立つ。
前の実施例のうえで、上記被制御変数は主に調整可能な変数の影響を受けるが、セメント焼成が非常に複雑なプロセスであり、他の多くの突然または不可欠な要因があり、いくつかの被制御変数を変化させ、さらにクリンカー品質に影響を与える可能性がある。このため、以下の手段によって被制御変数を調整するための他の方法が必要であるかどうかを判断し、
分解炉温度について、
現在の分解炉温度を取得して、且つ第1模擬モデルに従って現在の分解炉温度に対応する模擬分解炉石炭供給量を確定し、
模擬分解炉石炭供給量と理論的な分解炉石炭供給量との間の第1差が第1予め設定された閾値を超えることに応答し、第1差の正負に応じて分解炉の温度を調整して制御する。
同様に、キルン電流、二次空気温度、煙室温度について、
現在のキルン電流、二次空気温度、煙室温度を取得し、且つ第2模擬モデルに従って現在のキルン電流、二次空気温度、煙室温度に対応する模擬キルンヘッド石炭供給量を確定し、
模擬キルンヘッド石炭供給量と理論的なキルンヘッド石炭供給量との間の第2差が第2予め設定された閾値を超えることに応答し、第2差に応じてキルン電流、二次空気温度、煙室温度を調整する。
温度の調整制御は物理的な冷却や石炭供給の削減など、すべての効果的な手段が含まれるが、これらに制限されない。
理解を深めるために、本出願は1つの具体的なアプリケーションシナリオを組み合わせて、具体的な実現手段を提供し、図4に示すような模式図を参照する。
セメント焼成の全体のフローは、一般に図4の左上隅に示される装置模式図を参照でき、まず原材料を供給し、次に順次予熱器による予熱、分解炉による加熱、回転キルンによる焼成、火格子冷却器による冷却の4つの工程の後にクリンカーを生成し、全体のプロセスに複数の制御可能なパラメーター、例えば分解炉石炭供給量、キルンヘッド石炭供給量などに関し、これらのパラメーターはクリンカーの品質、即ち遊離カルシウム含有量に影響を直接及ぼす。実際の生産では、企業は、通常0.5%から1.5%を必要とし、メカニズムの調査により、遊離カルシウム含有量が低いのは、焼成温度が高すぎて過燃焼につながり、対応する石炭供給量が高くなり、石炭の消費が多くなるためであることがわかる。このため、適格な品質を前提として低石炭消費量を確保するために、本出願の実施例はモデリングプロセス中に遊離カルシウム含有量を1%-1.5%に調整し、品質を確保しながら生産コストをできるだけ削減する。
強化学習モデルに基づいてプロセスパラメーターを調整し、品質を確保しながら石炭の消費を削減し、モデリングフロー全体は複雑であり、以下、サーバが担当する強化学習モデルによる構築プロセスの各部分を詳細に説明する。
1)遊離カルシウム含有量リアルタイム予測モデルの構築
遊離カルシウム含有量は、生産プロセスで約1時間に1回測定され、石炭供給量などのパラメーターをリアルタイムで制御して調整する必要があるため、遊離カルシウム含有量のリアルタイム予測モデルを確立する必要がある。遊離カルシウム含有量は、主に分解炉温度、キルン電流、二次空気温度、煙室温度、火格子圧力に関連する必要があるため、確立されたモデルは、
遊離カルシウム含有量 = f(分解炉温度、キルン電流、二次空気温度、煙室温度、火格子圧力)であり、実験では、大量の歴史データでfをフィットし、本実施例は、具体的に大量の歴史データを神経ネットワークによって該予測モデルを構築する。
2)セメント原材料焼成模擬環境の構築
強化学習モデルを通じてパラメーターを調整したいと、セメント焼成プロセスの模擬モデルの構築に必要である。即ち、石炭供給量が調整された後、分解炉温度、キルン電流、二次空気温度、煙室温度などの被制御変数は焼成プロセスに如何に変化するかである。業界では、一次慣性モデルとヒステリシスリンクを使用して、大きな慣性と純粋なヒステリシスを持つ複雑な産業システムを模擬する。関連する専門家の情報を参照した後、分解炉の温度は主に分解炉石炭供給量に関連し、キルン電流、二次空気温度、煙室温度は主にキルンヘッド石炭供給量に関連する。分解炉温度が分解炉石炭供給量に関連するシステムモデル、キルン電流、二次空気温度、煙室温度がキルンヘッド石炭供給量に関連するシステムモデルを確立することができる。
3)強化学習モデルの構築
上記ステップで構築された模擬モデルと予測モデルを使用すると、強化学習モデルを簡単に確立できる。本実施例は、具体的にActor-critic強化学習モデルを使用し、分解炉石炭供給量、キルンヘッド石炭供給量、火格子圧力の3つの調整可能なパラメーターを強化学習モデルのAction(動作)として、焼成プロセス中の他のパラメーターを一時的に無視し、最終的な遊離カルシウム含有量が1%-1.5%であることを確保すると同時に、原材料供給量が一定である場合、分解炉石炭供給量、キルンヘッド石炭供給量をできるだけ少なくすることを目標とする。石炭の消費の測定基準は、総石炭供給量/原材料供給量であり、ここで、原材料供給量の速度は一定、即ち単位時間内あたりの原材料供給量は一定であると仮定しているため、石炭の消費は分解炉石炭供給量、キルンヘッド石炭供給量のみを考慮する必要がある。
具体的に、モデルの詳細は、次の通りであり、
Action(動作)、3次元ベクトルであり、3次元連続したactionであり、それぞれ分解炉石炭供給量、キルンヘッド石炭供給量、火格子圧力値である。即ち常にこの3つのパラメーターを出力して制御し、
State(状態)、1つの14次元(t-2に対応する部分のパラメーターを削減した後に10次元である)ベクトルであり、それぞれ分解炉温度t-2(削減可能)、t-1、t時間の値、キルン電流、二次空気温度と煙室温度のt-2(削減可能)、t-1、t時間の値、火格子圧力の現在の値、上記ステップによって構築された遊離カルシウム含有量予測モデルによる遊離カルシウム含有量の予測値である。毎回1つのActionを実行した後、Stateは模擬環境を通じて更新し、
Reward(報酬/報酬値)、品質を確保しながら石炭消費量を削減することが目標であるため、Rewardは2つの部分、即ち遊離カルシウム含有量が目標値範囲内にあるかどうかと現在の石炭供給量に分けられる。即ちReward = -(キルンヘッド石炭供給量+分解炉石炭供給量)+100*I_({1%≦実際の遊離カルシウム含有量≦1.5%})であり、Iは指標関数であり、1%≦実際の遊離カルシウム含有量≦1.5%である場合、Iの取る値は1であり、そうでないと、Iの取る値は0である。
上記Reward式から分かるように、遊離カルシウムの含有量が基準を満たし、且つ総石炭供給量が少ない場合、Rewardの取る値は大きくなる。
図4の最も下方にあるデータ処理ステップは、サンプルに基づくActor-critic強化学習モデルのパラメーター更新プロセスであり、まず各実際のActionからサンプル(その中のパラメーターをS、a、r、S(t+1)に名前を付けることができるなど)、次に、これらのサンプルをタプル(tuple)の形で記憶媒体(Memory database)にし、次に、記憶媒体からサンプリング(sampling)の方法でいくかのデータを選択して、Actor-critic強化学習モデルのパラメーターを更新するために使用され、それにより、このような更新方法によってActor-critic強化学習モデルの有効性と可用性を保つ。
サーバに上記構築ステップで構築された強化学習モデルをインストールした後、後続で対応するセメント焼成シーンで、所定の遊離カルシウム含有量に基づいて最小化の石炭供給量を確定することができ、それにより、コストを削減し、効率を高めることを実現する。
図5を更に参照し、上記各図に示すような方法の実現として、本出願は強化学習モデルを構築するための装置の一実施例を提供し、該装置実施例は図2に示すような方法実施例に対応し、該装置は具体的に様々な電子デバイスに適用できる。
図5に示すように、本実施例による強化学習モデルを構築するための装置500は、第1模擬モデル確立ユニット501、第2模擬モデル確立ユニット502、予測モデル確立ユニット503、及び強化学習モデル構築ユニット504を備える。第1模擬モデル確立ユニット501は、分解炉石炭供給量と分解炉温度との間の第1模擬モデルを確立するように配置され、第2模擬モデル確立ユニット502は、キルンヘッド石炭供給量とキルン電流、二次空気温度、及び煙室温度の間の第2模擬モデルを確立するように配置され、予測モデル確立ユニット503は、火格子圧力、第1模擬モデルから出力された分解炉温度、第2模擬モデルから出力されたキルン電流、二次空気温度、煙室温度及び遊離カルシウム含有量の間の予測モデルを確立するように配置され、強化学習モデル構築ユニット504は、第1模擬モデル、第2模擬モデル及び予測モデルを、予め設定された強化学習モデルアーキテクチャに従って石炭供給量と遊離カルシウム含有量との間の関連を特徴付ける強化学習モデルを構築するように配置され、石炭供給量は分解炉石炭供給量とキルンヘッド石炭供給量を含む。
本実施例において、強化学習モデルを構築するための装置500において、第1模擬モデル確立ユニット501、第2模擬モデル確立ユニット502、予測モデル確立ユニット503、及び強化学習モデル構築ユニット504の具体的な処理及びそのもたらした技術的効果はそれぞれ図2の対応する実施例におけるステップ201-204の関連説明を参照でき、ここで繰り返して説明しない。
本実施例のいくつかの選択的な実現形態において、強化学習モデルを構築するための装置500は、目標シーンで所定の目標遊離カルシウム含有量を受信するように配置される所定のパラメーター受信ユニットと、
強化学習モデルを使用して目標遊離カルシウム含有量に対応する理論的な石炭供給量を確定し、理論的な石炭供給量は理論的な分解炉石炭供給量と理論的なキルンヘッド石炭供給量を含むように配置される理論的な石炭供給量確定ユニットと、
理論的な石炭供給量に応じて目標シーンでの分解炉石炭供給操作とキルンヘッド石炭供給操作をガイドするように配置される石炭供給操作ガイドユニットと、を備えてもよい。
本実施例のいくつかの選択的な実現形態において、強化学習モデルを構築するための装置500は、
現在の分解炉温度を取得して、且つ第1模擬モデルに従って現在の分解炉温度に対応する模擬分解炉石炭供給量を確定するように配置される模擬分解炉温度確定ユニットと、
模擬分解炉石炭供給量と理論的な分解炉石炭供給量との間の第1差が第1予め設定された閾値を超えることに応答し、第1差の正負に応じて分解炉の温度を調整するように配置される第1調整制御ユニットと、を備えてもよい。
本実施例のいくつかの選択的な実現形態において、強化学習モデルを構築するための装置500は、
現在のキルン電流、二次空気温度、煙室温度を取得し、且つ第2模擬モデルに従って現在のキルン電流、二次空気温度、煙室温度に対応する模擬キルンヘッド石炭供給量を確定するように配置される模擬キルンヘッド石炭供給量確定ユニットと、
模擬キルンヘッド石炭供給量と理論的なキルンヘッド石炭供給量との間の第2差が第2予め設定された閾値を超えることに応答し、第2差に応じてキルン電流、二次空気温度、煙室温度を調整するように配置される第2調整制御ユニットと、を備えてもよい。
本実施例のいくつかの選択的な実現形態において、強化学習モデル構築ユニット504は、
Actor-Critic強化学習モデルアーキテクチャに従って石炭供給量と遊離カルシウム含有量との間の関連を特徴付ける強化学習モデルを構築するように配置されるA2C強化学習モデル構築サブユニットを備えてもよい。
本実施例のいくつかの選択的な実現形態において、該A2C強化学習モデル構築サブユニットはさらに、ように配置される
分解炉石炭供給量、キルンヘッド石炭供給量、火格子圧力を3次元ベクトルで示されるActionとして構築するように配置されるAction配置モジュールと、
少なくとも前の時間の分解炉温度、キルン電流、二次空気温度、煙室温度、現在の時間の分解炉温度、キルン電流、二次空気温度、煙室温度、火格子圧力、及び予測モデルから出力された遊離カルシウム含有量の予測値をそれぞれ1つの次元として、10次元ベクトルで示されるStateとして構築し、毎回1つのActionを実行した後、Stateは予め設定された模擬環境を通じて更新するように配置されるState配置モジュールと、
出力された遊離カルシウム含有量の予測値が予め設定された目標値範囲にあるかどうかと現在の石炭供給量をRewardとするように配置されるReward配置モジュールと、
Action、State及びRewardに基づいて石炭供給量と遊離カルシウム含有量との間の関連を特徴付ける強化学習モデルを構築するように配置されるA2C強化学習モデル構築モジュールと、を備える。
本実施例は上記方法実施例に対応する装置実施例として存在し、セメント焼成の複雑なシーンでの需要を満たすことができないという従来の技術と異なり、本出願の実施例提供的強化学習モデルを構築するための装置、強化学習の概念をセメント焼成シーンに導入し、確立された模擬モデルと予測モデルに基づいて、強化学習アーキテクチャで複数のパラメーター影響下での入力された石炭供給量と最終製品の遊離カルシウム含有量の間の対応関係を特徴付けることができる強化学習モデルを構築し、且つ強化学習モデルは他の機械学習モデルに存在している補償器特性と異なるため、複雑で、複数のパラメーターのセメント焼成シーンによりマッチされるため、確定された対応関係がより正確になり、それと同時に、強化学習モデルが持つ強力な一般化能力は、他の同様のシーンにも簡単に適用できる。
本出願の実施例によれば、本出願は電子デバイスとコンピュータ可読記憶媒体を提供する。
図6は、本願の実施例による強化学習モデルを構築するための方法を実現するための電子デバイスのブロック図である。電子デバイスは、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバー、メインフレーム、その他の適切なコンピュータなどのさまざまな態様のデジタルコンピュータを表すことを目的とする。電子デバイスは、パーソナルデジタル処理、セルラー方式の携帯電話、スマートフォン、ウェアラブルデバイス、及び他の同様のコンピューティング装置などのさまざまな態様のモバイル装置を表すこともできる。本文に示されるコンポーネント、それらの接続及び関係、ならびにそれらの機能は、単なる例であり、本文に記載されるおよび/または主張される本願の実現を限定することを意図しない。
図6に示すように、該電子デバイスは、1つまたは複数のプロセッサ601、メモリ602、及び高速インターフェース及び低速インターフェースを備える各コンポーネントを接続するためのインターフェースを備える。各コンポーネントは、異なるバスで相互に接続されており、共通のマザーボードにインストールしてもよいし、必要に応じて、他の方法でインストールしてもよい。プロセッサは、GUIのグラフィック情報を外部入/出力装置(インターフェースに結合されたディスプレイデバイスなど)に表示できるように、メモリ内またはメモリ上に記憶された命令を含む電子デバイスで実行された命令を処理でき、他の実施例では、必要とすれば、複数のプロセッサおよび/または複数のバスを、複数のメモリ及び複数のメモリと共に使用することができる。同様に、複数の電子デバイスを接続でき、各デバイスはいくつかの必要なオペレーティングを提供する(例えば、サーバーアレイ、ブレードサーバーグループ、またはマルチプロセッサシステムとする)。図6では、1つのプロセッサ601を例にする。
メモリ602は、即ち、本願による非一時的なコンピュータ可読記憶媒体である。ただし、前記メモリは、少なくとも1つのプロセッサによって実行可能な命令を記憶するので、前記少なくとも1つのプロセッサに本願による強化学習モデルを構築するための方法を実行させる。本願の非一時的なコンピュータ可読記憶媒体は、コンピュータに本願による強化学習モデルを構築するための方法を実行させるためのコンピュータ命令を記憶する。
メモリ602は非一時的なコンピュータ可読記憶媒体として、非一時的なソフトウェアプログラム、非一時的なコンピュータによって実行可能なプログラム、及びモジュールを記憶することに用いられ、例えば本願の実施例における強化学習モデルを構築するための方法に対応するプログラム命令/モジュール(例えば、図5に示すような第1模擬モデル確立ユニット501、第2模擬モデル確立ユニット502、予測モデル確立ユニット503、強化学習モデル構築ユニット504)である。プロセッサ601は、メモリ602に記憶された非一時的なソフトウェアプログラム、命令及びモジュールを実行することによって、サーバの様々な機能アプリケーション及びデータ処理を実行し、即ち、上記方法の実施例の強化学習モデルを構築するための方法を実現する。
メモリ602は、記憶プログラム領域と記憶データ領域を含んでもよく、ただし、記憶プログラム領域は、オペレーティングシステム、少なくとも1つの機能に必要なアプリケーションプログラムを記憶してもよく、記憶データ領域は、該電子デバイスが強化学習モデルを構築するための方法を実行する時に作成された様々なデータなどを記憶することができ、また、メモリ602は、高速ランダムアクセスメモリを含んでもよく、さらに非一時的なメモリを含んでもよく、例えば、少なくとも1つの磁気ディスク記憶デバイス、フラッシュメモリデバイス、または他の非一時的なソリッドステートストレージデバイスなどの非一時的なメモリを含んでもよく、いくつかの実施例では、メモリ602は、任意選択で、プロセッサ601に対してリモートで設定されたメモリを含み、これらのリモートメモリは、ネットワークを介して強化学習モデルを構築するための方法を実行するのに適する電子デバイスに接続されることができる。上記のネットワークの実施例は、インターネット、企業イントラネット、ローカルエリアネットワーク、モバイル通信ネットワーク、及びそれらの組み合わせなどを含むが、これらに限定されない。
強化学習モデルを構築するための方法の電子デバイスは、入力装置603と出力装置604を備えてもよい。プロセッサ601、メモリ602、入力装置603及び出力装置604は、バスまたは他の方法で接続されてもよいが、図6にバスによる接続を例にする。
入力装置603は、入力デジタルまたは文字情報を受信し、強化学習モデルを構築するための方法を実行するのに適用する電子デバイスのユーザー設定及び機能制御に関連するキー信号入力を生成することができる。例えば、タッチスクリーン、キーパッド、マウス、トラックパッド、タッチパッド、ポインティングスティック、1つ以上のマウスボタン、トラックボール、ジョイスティック、その他の入力装置。出力装置604は、ディスプレイデバイス、補助照明装置(例えば、LED)、触覚フィードバック装置(例えば、振動モーター)などを備えてもよい。該ディスプレイデバイスは、液晶ディスプレイ(LCD)、発光ダイオード(LED)ディスプレイ、及びプラズマディスプレイを備えてもよい。いくつかの実施例では、ディスプレイデバイスはタッチスクリーンであってもよい。
ここでは説明されるシステム及び技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、特定用途向けASIC(特定用途向け集積回路)、コンピュータハードウェア、ファームウェア、ソフトウェア、および/またはそれらの組み合わせにおいて実現できる。これらの様々な実施例形態は、以下を含んでもよく、1つまたは複数のコンピュータプログラムに実施され、該1つまたは複数のコンピュータプログラムは、少なくとも1つのプログラマブルプロセッサを含むプログラマブルシステム上で実行および/または解釈されてもよく、該プログラマブルプロセッサは、ストレージシステム、少なくとも1つの入力装置、及び少なくとも1つの出力装置からデータと命令を受信し、そのデータと命令をストレージシステム、少なくとも1つの入力装置、及び少なくとも1つの出力装置に送信できる専用または汎用のプログラマブルプロセッサであってもよい。
これらのコンピュータプログラム(プログラム、ソフトウェア、ソフトウェアアプリケーション、またはコードとも呼ばれる)は、プログラマブルプロセッサの機械命令を含み、高レベルのプロセス及び/またはオブジェクト指向プログラミング言語、及び/またはアセンブリ/機械言語を利用してこれらのコンピュータプログラムを実施することができる。本文で使用されるように、「機械読み取り可能な媒体」及び「コンピュータ読み取り可能な媒体」という用語は、プログラマブルプロセッサに機械命令および/またはデータを提供するために用いられる任意のコンピュータプログラム製品、デバイス、および/または装置(例えば、磁気ディスク、光ディスク、メモリ、プログラマブルロジック装置(PLD)を指す。機械読み取り可能な信号である機械命令を受信する機械読み取り可能な媒体を含む。「機械読み取り可能な信号」という用語は、プログラマブルプロセッサに機械命令および/またはデータを提供するために用いられる任意の信号を指す。
ユーザーとの対話を提供するために、コンピュータにここでは説明されるシステム及び技術を実施してもよく、該コンピュータは、ユーザーに情報を表示するためのディスプレイ装置(例えば、CRT(陰極線管)またはLCD(液晶ディスプレイ)モニター)、及びキーボードとポインティング装置(マウスやトラックボールなど)を備え、ユーザーが該キーボードとポインティング装置を介してコンピュータに入力を提供することができる。他のタイプの装置もユーザーとの対話を提供するために用いられ、例えば、ユーザーに提供されるフィードバックは、任意の形式の感覚フィードバック(例えば、視覚フィードバック、聴覚フィードバック、または触覚フィードバック)であってもよく、任意の形式(音入力、音声入力、または触覚入力を含み)でユーザーからの入力を受信することができる。
ここでは説明されるシステムと技術は、バックエンドコンポーネント(例えば、データサーバー)を含むコンピュータシステム、ミドルウェアコンポーネント(例えば、アプリケーションサーバー)を含むコンピュータシステム、またはフロントエンドコンポーネントを含むコンピュータシステム(例えば、グラフィカルユーザーインターフェイスまたはWebブラウザーを備え、ユーザーが該ラフィカルユーザーインターフェイスまたはWebブラウザーでシステムと技術の実施例と対話できるユーザーのコンピュータ)、またはそのようなバックエンドコンポーネント、ミドルウェアコンポーネント、またはフロントエンドコンポーネントを含む任意の組み合わせに実施してもよく、システムのコンポーネントは、任意の形式または媒体のデジタルデータ通信(通信ネットワークなど)を介して相互に接続してもよい。通信ネットワークの例としては、ローカルエリアネットワーク(LAN)、ワイドエリアネットワーク(WAN)、インターネット、ブロックチェーンネットワークが挙げられる。
コンピュータシステムは、クライアント及びサーバを含んでもよい。クライアントとサーバは、一般的に互いに離れており、通常は通信ネットワークを介して対話する。対応するコンピュータ上で、互いにクライアント/サーバ関係を持つコンピュータプログラムを実行することによりクライアントとサーバの関係を生成する。サーバは、クラウドコンピューティングサーバーまたはクラウドホストとも呼ばれるクラウドサーバーであってもよく、クラウドコンピューティングサービスシステムのホスト製品であり、従来の物理ホスト及び仮想プライベートサーバー(VPS,Virtual Private Server)サービスに存在している管理の困難さが大きく、ビジネス拡張性が弱い欠陥を解決する。
本出願の実施例の技術案によれば、強化学習の概念をセメント焼成シーンに導入し、確立された模擬モデルと予測モデルに基づいて、強化学習アーキテクチャで複数のパラメーター影響下での入力された石炭供給量と最終製品の遊離カルシウム含有量の間の対応関係を特徴付けることができる強化学習モデルを構築し、且つ強化学習モデルは他の機械学習モデルに存在している補償器特性と異なるため、複雑で、複数のパラメーターのセメント焼成シーンによりマッチされるため、確定された対応関係がより正確になり、それと同時に、強化学習モデルが持つ強力な一般化能力は、他の同様のシーンにも簡単に適用できる。
なお、上記に示される様々な形態のプロセスを使用してソートし、ステップを追加し、削除できる。例えば、本願に記載される各ステップは、本願に開示される技術的解決手段の所望の結果を達成できる限り、並行、順次、または異なる順序で実行されてもよく、ここでは本文に限定されない。
上記の具体的な実施形態は、本願の特許範囲を限定するものではない。当業者は、設計要件及び他の要因に応じて、様々な修正、組み合わせ、サブ組み合わせ、及び置換を行うことができると理解すべきである。本願の精神及び原則を逸脱せずに行われる補正、等価置換、改良などはすべて本願の特許範囲に含まれるべきである。

Claims (15)

  1. 強化学習モデルを構築するための方法であって、
    分解炉石炭供給量と分解炉温度との間の第1模擬モデルを確立するステップと、
    キルンヘッド石炭供給量とキルン電流、二次空気温度、及び煙室温度の間の第2模擬モデルを確立するステップと、
    火格子圧力、前記第1模擬モデルから出力された分解炉温度及び前記第2模擬モデルから出力されたキルン電流、二次空気温度、煙室温度及び遊離カルシウム含有量の間の予測モデルを確立するステップと、
    前記第1模擬モデル、前記第2模擬モデル及び前記予測モデルを、予め設定された強化学習モデルアーキテクチャに従って石炭供給量と遊離カルシウム含有量の間の関連を特徴付ける強化学習モデルを構築し、前記石炭供給量は分解炉石炭供給量とキルンヘッド石炭供給量を含むステップと、を含む強化学習モデルを構築するための方法。
  2. 目標シーンで所定の目標遊離カルシウム含有量を受信するステップと、
    前記強化学習モデルを使用して前記目標遊離カルシウム含有量に対応する理論的な石炭供給量を確定し、前記理論的な石炭供給量は理論的な分解炉石炭供給量と理論的なキルンヘッド石炭供給量を含むステップと、
    前記理論的な石炭供給量に従って前記目標シーンでの分解炉石炭供給操作とキルンヘッド石炭供給操作をガイドするステップと、をさらに含む請求項1に記載の方法。
  3. 現在の分解炉温度を取得し、且つ前記第1模擬モデルに従って現在の分解炉温度に対応する模擬分解炉石炭供給量を確定するステップと、
    前記模擬分解炉石炭供給量と前記理論的な分解炉石炭供給量との間の第1差が第1予め設定された閾値を超えることに応答し、前記第1差の正負に応じて分解炉の温度を調整して制御するステップと、をさらに含む請求項2に記載の方法。
  4. 現在のキルン電流、二次空気温度、煙室温度を取得し、且つ前記第2模擬モデルに従って現在のキルン電流、二次空気温度、煙室温度に対応する模擬キルンヘッド石炭供給量を確定するステップと、
    前記模擬キルンヘッド石炭供給量と前記理論的なキルンヘッド石炭供給量との間の第2差が第2予め設定された閾値を超えることに応答し、前記第2差に応じて前記キルン電流、前記二次空気温度、前記煙室温度を調整するステップと、をさらに含む請求項2に記載の方法。
  5. 前記の予め設定された強化学習モデルアーキテクチャに従って石炭供給量と遊離カルシウム含有量との間の関連を特徴付ける強化学習モデルを構築するステップは、
    Actor-Critic強化学習モデルアーキテクチャに従って石炭供給量と遊離カルシウム含有量との間の関連を特徴付ける強化学習モデルを構築するステップを含む請求項1~4のいずれかに記載の方法。
  6. 前記のActor-Critic強化学習モデルアーキテクチャに従って石炭供給量と遊離カルシウム含有量との間の関連を特徴付ける強化学習モデルを構築するステップは、
    Actor-Critic強化学習モデルアーキテクチャに従って石炭供給量と遊離カルシウム含有量との間の関連を特徴付ける強化学習モデルを構築するステップと、
    少なくとも前の時間の分解炉温度、キルン電流、二次空気温度、煙室温度、現在の時間の分解炉温度、キルン電流、二次空気温度、煙室温度、火格子圧力、及び前記予測モデルから出力された遊離カルシウム含有量の予測値をそれぞれ1つの次元として、10次元ベクトルで示されるStateとして構築し、毎回1つのActionを実行した後、Stateは予め設定された模擬環境を通じて更新するステップと、
    出力された遊離カルシウム含有量の予測値が予め設定された目標値範囲にあるかどうかと現在の石炭供給量をRewardとするステップと、
    Action、State及びRewardに基づいて石炭供給量と遊離カルシウム含有量との間の関連を特徴付ける強化学習モデルを構築するステップと、を含む請求項5に記載の方法。
  7. 強化学習モデルを構築するための装置であって、
    分解炉石炭供給量と分解炉温度との間の第1模擬モデルを確立するように配置される第1模擬モデル確立ユニットと、
    キルンヘッド石炭供給量とキルン電流、二次空気温度、及び煙室温度の間の第2模擬モデルを確立するように配置される第2模擬モデル確立ユニットと、
    成火格子圧力、前記第1模擬モデルから出力された分解炉温度及び前記第2模擬モデルから出力されたキルン電流、二次空気温度、煙室温度及び遊離カルシウム含有量の間の予測モデルを確立するように配置される予測モデル確立ユニットと、
    前記第1模擬モデル、前記第2模擬モデル及び前記予測モデルを、予め設定された強化学習モデルアーキテクチャに従って石炭供給量と遊離カルシウム含有量の間の関連を特徴付ける強化学習モデルを構築し、前記石炭供給量は分解炉石炭供給量とキルンヘッド石炭供給量を含むように配置される強化学習モデル構築ユニットと、を備える強化学習モデルを構築するための装置。
  8. 目標シーンで所定の目標遊離カルシウム含有量を受信するように配置される所定のパラメーター受信ユニットと、
    前記強化学習モデルを使用して前記目標遊離カルシウム含有量に対応する理論的な石炭供給量を確定し、前記理論的な石炭供給量は理論的な分解炉石炭供給量と理論的なキルンヘッド石炭供給量を含むように配置される理論的な石炭供給量確定ユニットと、
    前記理論的な石炭供給量に従って前記目標シーンでの分解炉石炭供給操作とキルンヘッド石炭供給操作をガイドするように配置される石炭供給操作ガイドユニットと、をさらに備える請求項7に記載の装置。
  9. 現在の分解炉温度を取得し、且つ前記第1模擬モデルに従って現在の分解炉温度に対応する模擬分解炉石炭供給量を確定するように配置される模擬分解炉温度確定ユニットと、
    前記模擬分解炉石炭供給量と前記理論的な分解炉石炭供給量との間の第1差が第1予め設定された閾値を超えることに応答し、前記第1差の正負に応じて分解炉の温度を調整して制御するように配置される第1調整制御ユニットと、をさらに備える請求項8に記載の装置。
  10. 現在のキルン電流、二次空気温度、煙室温度を取得し、且つ前記第2模擬モデルに従って現在のキルン電流、二次空気温度、煙室温度に対応する模擬キルンヘッド石炭供給量を確定するように配置される模擬キルンヘッド石炭供給量確定ユニットと、
    前記模擬キルンヘッド石炭供給量と前記理論的なキルンヘッド石炭供給量との間の第2差が第2予め設定された閾値を超えることに応答し、前記第2差に応じて前記キルン電流、前記二次空気温度、前記煙室温度を調整するように配置される第2調整制御ユニットと、をさらに備える請求項8に記載の装置。
  11. 前記強化学習モデル構築ユニットは、
    Actor-Critic強化学習モデルアーキテクチャに従って石炭供給量と遊離カルシウム含有量との間の関連を特徴付ける強化学習モデルを構築するように配置されるA2C強化学習モデル構築サブユニットを備える請求項7~10のいずれかに記載の装置。
  12. 前記A2C強化学習モデル構築サブユニットは、
    Actor-Critic強化学習モデルアーキテクチャに従って石炭供給量と遊離カルシウム含有量との間の関連を特徴付ける強化学習モデルを構築するように配置されるAction配置モジュールと、
    少なくとも前の時間の分解炉温度、キルン電流、二次空気温度、煙室温度、現在の時間の分解炉温度、キルン電流、二次空気温度、煙室温度、火格子圧力、及び前記予測モデルから出力された遊離カルシウム含有量の予測値をそれぞれ1つの次元として、10次元ベクトルで示されるStateとして構築し、毎回1つのActionを実行した後、Stateは予め設定された模擬環境を通じて更新するように配置されるState配置モジュールと、
    出力された遊離カルシウム含有量の予測値が予め設定された目標値範囲にあるかどうかと現在の石炭供給量をRewardとするように配置されるReward配置モジュールと、
    Action、State及びRewardに基づいて石炭供給量と遊離カルシウム含有量との間の関連を特徴付ける強化学習モデルを構築するように配置されるA2C強化学習モデル構築モジュールと、をさらに備える請求項11に記載の装置。
  13. 電子デバイスであって、
    少なくとも1つのプロセッサと、
    前記少なくとも1つのプロセッサに通信接続されるメモリと、を備え、
    前記メモリに前記少なくとも1つのプロセッサによって実行されることができる命令が記憶され、前記命令は前記少なくとも1つのプロセッサによって実行され、前記少なくとも1つのプロセッサに請求項1-6のいずれかに記載の強化学習モデルを構築するための方法を実行させることができる電子デバイス。
  14. コンピュータ命令が記憶された非一時的なコンピュータ可読記憶媒体であって、前記コンピュータ命令は前記コンピュータに請求項1-6のいずれかに記載の強化学習モデルを構築するための方法を実行するために使用されるコンピュータ可読記憶媒体。
  15. コンピュータプログラムであって、前記コンピュータプログラムはプロセッサにより実行されると、請求項1-6のいずれかに記載の強化学習モデルを構築するための方法を実行するコンピュータプログラム。
JP2021055392A 2020-09-10 2021-03-29 強化学習モデルを構築するための方法、装置、電子デバイス、コンピュータ可読記憶媒体及びコンピュータプログラム Active JP7257436B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202010948561.XA CN112100916B (zh) 2020-09-10 2020-09-10 用于构建强化学习模型的方法、装置、电子设备及介质
CN202010948561.X 2020-09-10

Publications (2)

Publication Number Publication Date
JP2022023775A true JP2022023775A (ja) 2022-02-08
JP7257436B2 JP7257436B2 (ja) 2023-04-13

Family

ID=73750827

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021055392A Active JP7257436B2 (ja) 2020-09-10 2021-03-29 強化学習モデルを構築するための方法、装置、電子デバイス、コンピュータ可読記憶媒体及びコンピュータプログラム

Country Status (5)

Country Link
US (1) US20210216686A1 (ja)
EP (1) EP3872432B1 (ja)
JP (1) JP7257436B2 (ja)
KR (1) KR102506122B1 (ja)
CN (1) CN112100916B (ja)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7348451B2 (ja) 2019-12-02 2023-09-21 トヨタ車体株式会社 車体下部補強構造
CN113656945B (zh) * 2021-07-19 2024-06-07 首钢京唐钢铁联合有限责任公司 一种板坯燃耗确定方法、装置、服务器及存储介质
CN113657484B (zh) * 2021-08-13 2024-02-09 济南大学 水泥篦冷机典型工况划分与识别的方法
CN113673112B (zh) * 2021-08-27 2024-08-20 西安热工研究院有限公司 一种水电联产机组制水生产成本确定方法及系统
CN114585004B (zh) * 2022-03-03 2023-04-25 南京信息工程大学 一种基于Actor-Critic算法的多智能体异构网络资源优化方法
CN114622912B (zh) * 2022-03-17 2022-12-27 中国矿业大学 一种采煤机智能控制装置及其控制方法
CN114742312A (zh) * 2022-04-26 2022-07-12 西安热工研究院有限公司 一种磨煤机堵煤预警方法、装置、电子设备及存储介质
CN115186582B (zh) * 2022-07-05 2023-04-18 科大智能物联技术股份有限公司 一种基于机器学习模型的轧钢加热炉控制方法
CN116199441A (zh) * 2022-12-09 2023-06-02 中国中材国际工程股份有限公司 基于数据和规则双驱动的分解炉出口温度目标值确定方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6790034B1 (en) * 1999-11-04 2004-09-14 Pretoria Portland Cement Company Limited Kiln plant control system
CN106202946A (zh) * 2016-07-18 2016-12-07 燕山大学 基于深度信念网络模型的水泥熟料游离钙含量预测方法
JP2017066020A (ja) * 2015-09-30 2017-04-06 太平洋セメント株式会社 フライアッシュセメントの品質または製造条件の予測方法
CN109147878A (zh) * 2018-10-08 2019-01-04 燕山大学 一种水泥熟料游离钙软测量方法
CN109165798A (zh) * 2018-10-19 2019-01-08 燕山大学 一种水泥熟料游离氧化钙含量在线预测方法及系统
CN109761517A (zh) * 2019-03-13 2019-05-17 安徽海螺集团有限责任公司 一种基于游离钙预测数据控制熟料生产的方法

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1014240A1 (en) * 1998-12-17 2000-06-28 Siemens Aktiengesellschaft A system of case-based reasoning for sensor prediction in a technical process, especially in a cement kiln, method and apparatus therefore
US8095479B2 (en) * 2006-02-28 2012-01-10 Hitachi, Ltd. Plant control apparatus and method having functions of determining appropriate learning constraint conditions
US7660639B2 (en) * 2006-03-27 2010-02-09 Hitachi, Ltd. Control system for control subject having combustion unit and control system for plant having boiler
JP6639988B2 (ja) * 2016-03-29 2020-02-05 太平洋セメント株式会社 セメントクリンカーの製造条件の予測方法
CN106570244B (zh) * 2016-10-25 2019-07-30 浙江邦业科技股份有限公司 一种预测水泥回转窑熟料质量的一维仿真方法
CN110187727B (zh) * 2019-06-17 2021-08-03 武汉理工大学 一种基于深度学习和强化学习的玻璃熔炉温度控制方法
CN111061149B (zh) * 2019-07-01 2022-08-02 浙江恒逸石化有限公司 基于深度学习预测控制优化的循环流化床节煤降耗的方法
CN110981240B (zh) * 2019-12-19 2022-04-08 华东理工大学 煅烧过程优化方法和系统

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6790034B1 (en) * 1999-11-04 2004-09-14 Pretoria Portland Cement Company Limited Kiln plant control system
JP2017066020A (ja) * 2015-09-30 2017-04-06 太平洋セメント株式会社 フライアッシュセメントの品質または製造条件の予測方法
CN106202946A (zh) * 2016-07-18 2016-12-07 燕山大学 基于深度信念网络模型的水泥熟料游离钙含量预测方法
CN109147878A (zh) * 2018-10-08 2019-01-04 燕山大学 一种水泥熟料游离钙软测量方法
CN109165798A (zh) * 2018-10-19 2019-01-08 燕山大学 一种水泥熟料游离氧化钙含量在线预测方法及系统
CN109761517A (zh) * 2019-03-13 2019-05-17 安徽海螺集团有限责任公司 一种基于游离钙预测数据控制熟料生产的方法

Also Published As

Publication number Publication date
KR20210052412A (ko) 2021-05-10
JP7257436B2 (ja) 2023-04-13
KR102506122B1 (ko) 2023-03-03
US20210216686A1 (en) 2021-07-15
EP3872432B1 (en) 2023-06-21
CN112100916B (zh) 2023-07-25
EP3872432A1 (en) 2021-09-01
CN112100916A (zh) 2020-12-18

Similar Documents

Publication Publication Date Title
JP2022023775A (ja) 強化学習モデルを構築するための方法、装置、電子デバイス、コンピュータ可読記憶媒体及びコンピュータプログラム
JP6530783B2 (ja) 機械学習装置、制御装置及び機械学習プログラム
Zhao et al. A cooperative water wave optimization algorithm with reinforcement learning for the distributed assembly no-idle flowshop scheduling problem
Xu et al. An effective teaching–learning-based optimization algorithm for the flexible job-shop scheduling problem with fuzzy processing time
CN110520868A (zh) 分布式强化学习
KR20170024086A (ko) 시뮬레이션 모듈을 사용하는 컴퓨터-지원 플랜트 제어 최적화를 위한 방법
CN108885717A (zh) 异步深度强化学习
CN108762221B (zh) 含有不可控事件的自动制造系统的无死锁控制方法
CN111008449A (zh) 一种用于战场仿真环境下深度强化学习推演决策训练的加速方法
TW202232356A (zh) 用於訓練強化學習模型以為高爐熱控制提供操作指令的計算機實施的方法和對應的計算機系統
JP2023517262A (ja) 自動学習基盤時系列データ予測及び制御方法と装置
JP6947029B2 (ja) 制御装置、それを使用する情報処理装置、制御方法、並びにコンピュータ・プログラム
JP6867307B2 (ja) ステージ済アプリケーションによりライブ状態の制御/推定アプリケーションを置換するシステムと方法
CN112859601B (zh) 机器人控制器设计方法、装置、设备及可读存储介质
Huang et al. Improved firefly algorithm with courtship learning for unrelated parallel machine scheduling problem with sequence-dependent setup times
CA3207065A1 (en) Intelligent identification of an execution environment
CN113721456A (zh) 控制模型的训练方法、装置、计算机设备及存储介质
JP2022064643A (ja) モデル学習装置、制御装置、モデル学習方法、および、コンピュータプログラム
WO2018101476A1 (ja) 情報処理装置、情報処理方法及び情報処理プログラム
JP7548090B2 (ja) シミュレーション装置、シミュレーションシステム、シミュレーション方法、およびシミュレーションプログラム
Ji et al. LSTM-TD3-Based Control for Delayed Drone Combat Strategies
CN103558762A (zh) 基于图形化组态技术的免疫遗传pid控制器的实现方法
Chen et al. Exploration of Adaptive Environment Design Strategy Based on Reinforcement Learning in CAD Environment
KR102545836B1 (ko) 인공지능 기반 웹툰 제작 방법 및 장치, 시스템
JP2022148258A (ja) シミュレーション装置、シミュレーションシステム、シミュレーション方法、およびシミュレーションプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20211117

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20221115

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20221122

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230222

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230307

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230403

R150 Certificate of patent or registration of utility model

Ref document number: 7257436

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150