CN101477332B

CN101477332B - 工厂的控制装置及工厂的控制方法

Info

Publication number: CN101477332B
Application number: CN2008101844505A
Authority: CN
Inventors: 关合孝朗; 清水悟; 神永荣一; 山田昭彦; 林喜治; 楠见尚弘; 深井雅之
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 2006-02-28
Filing date: 2007-01-18
Publication date: 2011-02-09
Anticipated expiration: 2027-01-18
Also published as: CN101477332A; CN101030074A; JP2007233634A; CN100483275C; JP4974330B2

Abstract

本发明提供即使在学习初始阶段也能够学习可安全地运行控制对象的操作信号的生成方法的控制技术。本发明提供的工厂的控制装置以及工厂的控制方法具备以下的功能：即使在工厂的控制中使用的多个操作端的动作速度中存在差异或者操作端随时间流逝劣化动作速度劣化的情况下，也为能够良好地控制工厂来适当地决定学习的约束条件。将第二评价值信号相加到第一评价值信号，所以，在控制对象和模型的特性不同的区域不生成操作信号，而只能在特性相近的区域学习操作信号的生成方法。因此，可提高运行刚刚开始后的控制对象的安全性。

Description

工厂的控制装置及工厂的控制方法

本申请为2007年1月18日递交的、申请号为200710004232.4、发明名称为“控制装置及控制方法”的专利申请的分案申请。

技术领域

本发明涉及火力发电厂等的控制装置及控制方法。

背景技术

近年来，在无教师学习的领域中，正在广泛深入研究称为强化学习的方法。所谓强化学习，众所周知，是通过和控制对象等的环境的凑试的相互作用，使从环境得到的测量信号成为希望值那样，来做成学习对于环境的操作信号的生成方法的学习控制的框架。

在强化学习中，把根据从环境得到的测量信号计算的标量的评价值(在强化学习中称为报酬)作为线索，学习从现在状态到将来得到的评价值的期望值成为最大或者最小那样的对于环境的操作信号。作为安装这样的学习功能的方法，已知的有例如在非专利文献1中叙述的Actor-Critic、Q学习、实时Dynamic Programming等的算法。

另外，作为发展上述方法的强化学习的框架，在上述文献中介绍了称为Dyna结构的框架。这是把模拟控制对象的模型作为对象预先学习生成什么样的操作信号好、并使用该学习结果决定在控制对象上施加的操作信号的方法。另外，为了使控制对象和模型的误差成为最小，具有使用对于控制对象的操作信号和测量信号调整模型的功能。

另外，作为使用强化学习的技术，可以举出在专利文献1中叙述的技术。它是这样的技术：准备好多个具有模型和学习功能的作为系统的组的强化学习模块、求在各强化学习模块中模型和控制对象的预测误差越小取值越大的责任信号、与该责任信号成比例给对于从各强化学习模块生成的控制对象的操作信号加权、决定在控制对象上施加的操作信号。

在工厂的控制装置中，处理从作为控制对象的工厂得到的测量信号，计算给予控制对象的操作信号。在控制装置中安装计算操作信号的算法，使工厂的测量信号达到运行目标。

作为在工厂的控制中使用的控制算法，有PI(比例·积分)控制算法。在PI控制中，在运行目标值和工厂的测量信号的偏差上乘以比例增益的值上，加上时间积分偏差的值，导出控制工厂的控制装置的操作信号。另外，也有使用学习算法导出控制工厂的控制装置的操作信号的场合。

作为使用学习算法导出控制工厂的控制装置的操作信号的方法，在特开2000-35956号公报中记载有关于代理学习装置的技术。

在技术文献的强化学习(Reinforcement Learning)的247页～253页中记载了关于使用Dyna结构的方法的技术。

在基于这些技术的方法中，在控制装置中具有预测控制对象的特性的模型、和要使作为该模型的预测结果的模型输出达到模型输出目标那样预先学习模型输入的生成方法的学习部，遵照学习部的学习结果生成给予控制对象的操作信号。

然后，在模型和控制对象的控制特性之间有误差的场合，使用作为操作控制对象的结果的测量信号修正模型，把该修正后的模型作为对象再次学习操作信号的生成方法。

【非专利文献1】强化学习(Reinforcement Learning)，三上贞芳、皆川雅章共译，森北出版株式会社，2000年12月20日出版

【专利文献1】特开2002-35956号公报

发明内容

当使用上述的Dyna结构或者专利文献1中叙述的技术、实施通过和控制对象的基于凑试的相互作用的学习时，随着学习的推进能够对于控制对象学习良好的操作信号的生成方法。但是，在学习的初始阶段，无论何种方法都需要给控制对象施加凑试的操作信号，其间有不能安全运行控制对象的可能性。

另外，在控制对象和模型的特性有很大不同的场合，对于模型有效的操作信号对于控制对象也未必有效。因此，有不能良好地控制控制对象的可能性。

因此，在本发明中提供即使在学习初始阶段也能够学习安全地运行控制对象的操作信号的生成方法的控制技术。另外，提供能够在控制对象和模型的特性不同的区域中不生成操作信号、仅在特性接近的区域中生成操作信号的控制技术。

使用在专利文献1以及非专利文献1中记载的方法学习对于控制装置的操作信号的生成方法时，需要决定学习的约束条件。例如，当控制对象的工厂的操作端的动作速度变化时，因为在一次操作中能够运动的操作量的幅度变化，所以学习的结果也变化。因此，为得到学习结果，需要使用关于操作端的动作速度的信息适当设定学习的约束条件。

但是，难以事先设定这样的学习的约束条件。在工厂的控制中使用控制装置的多个操作端运行工厂，多数情况是即使是相同设计规格的操作端实际的动作速度也有差异。另外，这些操作端也有可能随时间流逝劣化而导致动作速度降低。

当在操作端中发生动作速度的差异或者动作速度的降低时，即使把遵照学习后的模型输入的生成方法生成的操作信号给予控制对象的工厂，也不能得到希望的控制结果。

本发明的目的是提供这样的工厂的控制装置以及工厂的控制方法，即即使在工厂的控制中使用的多个操作端的动作速度中有差异的场合或者操作端随时间流逝劣化动作速度劣化的场合，也具有为能够良好地控制工厂来适当决定学习的约束条件的功能。

本发明为解决上述课题，采用了下面那样的措施。

在具有生成在控制对象以及模拟控制对象的特性的模型上施加的操作信号、接收根据向所述控制对象以及所述模型上施加所述操作信号的结果得到的测量信号计算出来的评价值信号、使从现在状态到将来状态中得到的所述评价值信号的总和的期望值成为最大或者最小那样学习所述操作信号的生成方法的功能的控制装置中，相加根据来自所述模型的测量信号和目标值的偏差求得的第一评价值、和根据所述模型和控制对象的特性的不同求得的第二评价值，计算根据来自模型的测量信号计算出来的所述评价值信号。

本发明的工厂的控制装置，具有使用作为工厂的运行状态量的测量信号计算给予工厂的成为控制指令的操作信号的操作信号生成部，其特征在于，构成为：在控制装置中，使之分别具有：模拟成为控制对象的工厂的控制特性的模型；保存包含在用操作信号生成部计算操作信号中使用的控制参数的控制逻辑数据的控制逻辑数据库；保存控制工厂的状态量的操作端的操作端规格数据的操作端规格数据库；保存过去的操作信号的操作信号数据库；保存过去的测量信号的测量信号数据库；具有使用在控制逻辑数据库和操作端规格数据库中保存的数据、决定学习参数的初始值的功能和使用在控制逻辑数据库和操作信号数据库和测量信号数据库中保存的数据更新所述学习参数的功能的学习条件决定部；把在学习参数中包含的每单位时间的操作信号变化幅度的限制值设定为学习的约束条件、使用所述模型学习工厂的操作方法的学习部；保存用学习部学习的学习信息数据的学习信息数据库；在操作信号生成部中，具有使用作为工厂的运行状态量的测量信号和在学习信息数据库中保存的学习信息数据计算对于工厂的操作信号的学习信号生成部。

另外，本发明的工厂的控制方法，使用作为工厂的运行状态量的测量信号计算给予工厂的成为控制指令的操作信号，控制工厂，其特征在于，构成为：通过工厂的控制装置形成模拟成为控制对象的工厂的控制特性的模型，在控制装置的控制逻辑数据库中保存包含在操作信号的计算中使用的控制参数的控制逻辑数据，在操作端规格数据库中，保存控制工厂的状态量的操作端的操作端规格数据，在操作信号数据库中，保存过去的操作信号，在测量信号数据库中，保存过去的测量信号，使用在控制逻辑数据库和操作端规格数据库中保存的数据，决定学习参数的初始值，同时使用在控制逻辑数据库和操作信号数据库和测量信号数据库中保存的数据，更新学习参数，把在学习参数中包含的每单位时间的操作信号变化幅度的限制值设定为学习的约束条件、使用所述模型模拟工厂的特性学习工厂的操作方法，在学习信息数据库中保存作为学习的结果的学习信息数据，使用作为工厂的运行状态量的测量信号和在学习信息数据库中保存的学习信息数据计算成为给予工厂的控制指令的操作信号，控制工厂。

本发明因为具有以上的结构，所以能够学习模型误差小的区域内的操作信号的生成方法。因此即使在学习初始阶段也能够安全地运行控制对象。

根据本发明，即使在工厂的控制中使用的多个操作端的动作速度中有散差的场合或者在操作端随时间流逝劣化动作速度劣化的场合，也能实现具有适当决定学习的约束条件的功能的工厂的控制装置以及控制方法使能够良好地控制工厂。

附图说明

图1是说明把本发明的实施形态的控制装置用于控制对象的例子的图。

图2是说明第二评价值信号的生成方法的图，其中E₁为偏差，σ₁为误差散差，E₂为评价值预测误差，E₃为偏差，误差评价矢量X＝(E₁ σ₁ E₂ E₃)^T，加权矢量W＝(w₁w₂w₃w₄)^T，第二评价值R＝X^TW。

图3是说明第二评价值计算部的处理的图。

图4是说明在图像显示单元上显示的画面的图。

图5是说明作为控制对象的火力发电厂的图。

图6是一次空气通过的管道部以及空气加热器104的放大图。

图7是说明学习部300把模型400作为对象学习控制对象100的操作方法的图。

图8是表示作为本发明的一个实施例的工厂的控制装置的全体结构的框图。

图9是使用作为本发明的一个实施例的工厂的控制装置的火力发电厂的结构图。

图10是图9所示的火力发电厂的管道部和空气加热器部的放大图。

图11是图8所示的工厂的控制装置中的操作信号生成部的框图。

图12是图8所示的工厂的控制装置中的控制参数设定画面的说明图。

图13是图8所示的工厂的控制装置中的学习条件决定部的功能的说明图。

图14是表示图8所示的工厂的控制装置中的学习条件决定部的学习参数更新方法的一例的说明图。

图15是表示图8所示的工厂的控制装置中的模型的模型输入和模型输出的关系的说明图。

图16是表示把图8所示的工厂的控制装置中的学习部的模型作为对象学习模型输入的生成方法的学习结果的说明图。

图17是表示在图8所示的工厂的控制装置中的学习部中学习生成的操作信号的学习结果的说明图。

图18是表示作为本发明的一个实施例的工厂的控制装置的运算处理内容的流程图。

图19是表示根据图18所示的流程图学习的模型输入以及操作信号的学习结果的说明图。

图20是表示在作为本发明的一个实施例的工厂的控制装置中设置学习信息追加部的场合的运算处理内容的流程图。

图21是把根据图20所示的流程图学习的模型输入的输入空间分割为区域的方法的说明图。

图22是表示图20所示的流程图中的步骤1150的详情的流程图。

图23是表示使用图22所示的流程图学习的学习结果的说明图。

符号说明

100控制对象

200控制装置

300学习部

400模型

500实评价值计算部

600第一评价值计算部

700第二评价值计算部

800模型误差特性数据库

900评价值数据库

1000过程值数据库

2001、2002：测量信号，2003：测量信号数据，2008、2009、2010：学习参数，2017：模型输入，2018：模型输出，2019：评价值，2023：操作信号，2024：指令信号，2100：工厂，2100a：火力发电厂，2101：微粉煤锅炉，2200：控制装置，2201：外部输入接口，2202：外部输出接口，2210：测量信号数据库，2220：操作端规格数据库，2230：操作信号数据库，2240：控制逻辑数据库，2250：学习参数数据库，2260：评价值计算参数数据库，2270：模型参数数据库，2280：学习信息数据库，2300：操作信号生成部，2400：学习部，2500：模型，2600：评价值计算部，2700：学习条件决定部，2800：学习信息追加部，2900：外部输入装置，2901：键盘，2902：鼠标，2910：维护工具，2920：外部输入接口，2930：数据收发处理部，2940：外部输出接口，2950：图像显示装置

具体实施方式

下面参照附图说明最佳实施形态。图1是说明把本实施形态的控制装置200用于控制对象100的例子的图。

控制装置200具有学习部300。学习部300生成要在控制对象100上施加的操作信号201。另外接收来自控制对象100的测量信号202以及把测量信号202作为输入的实评价值计算部500的输出信号的实评价值信号203。此外，学习部300，具有学习使从现在状态到将来的实评价值信号203的期望值的总和成为最大(或者最小)那样的操作信号201的生成方法的功能。

实评价值计算部500，例如，具有随测量信号202接近希望值输出成为大的值的实评价值信号203的功能。例如在测量信号202和希望的值一致的场合，使实评价值信号203输出“1”，在不一致的场合输出“0”。此外，也可以输出与测量信号202和希望的值的偏差成反比例那样的实评价值信号203。

作为学习部300安装的功能，可以举出强化学习。在强化学习中，在学习的初始阶段凑试生成操作信号201。因此实评价值信号203成为小的值的可能性高。其后，随着积累凑试的经验，学习推进，学习实评价值信号203变大那样的操作信号201的生成方法。作为这样的学习算法，例如可以使用上述非专利文献1中叙述的Actor-Critic、Q学习、实时Dynamic Programming等的算法。在该文献中介绍的称为Dyna结构的框架中，把模拟控制对象的模型400作为对象学习操作信号的生成方法，使用该学习结果生成操作信号201。

学习部300具有生成对于模型400的操作信号、接收来自模型400的测量信号205和评价值信号208的功能。评价值信号208，相加根据来自模型400的测量信号205用第一评价值计算部600计算出来的第一评价值信号 206、和用第二评价值计算部700计算出来的第二评价值信号207进行计算。

第一评价值计算部600，具有例如随来自模型的测量信号205的接近希望的值输出大的第一评价值信号206的功能，这点和实评价值计算部500相同。

第二评价值计算部700，参照模型误差特性数据库800、评价值数据库900、过程值数据库1000计算第二评价值信号207。第二评价值计算部700随接近控制对象100和模型400的特性输出成为大的值的第二评价值信号207。

此外，在图1所示的例子中，把学习部300、模型400、实评价值计算部500、第一评价值计算部600、第二评价值计算部700、模型误差特性数据库800、评价值数据库900、过程值数据库1000配置在控制装置200的内部，但是也可以把这些功能的一部分配置在控制装置的外部。

图2是说明第二评价值信号的生成方法的图。第二评价值信号207(R)，使用用上述模型的误差、即事前评价模型误差的偏差E1、事前评价模型误差的散差σ1、评价值预测误差E2、模型误差的偏差E3构成的4维误差评价矢量X、以及4维加权矢量W，使用公式1到公式3计算。这里所述加权矢量W(W1，W2，W3，W4)，由设计者预先设定。

【数学式1】

R2＝X^TW (1)

【数学式2】

X＝(E1 σ1 E2 E3)^T (2)

【数学式3】

W＝(W1 W2 W3 W4)^T (3)

此外，所述事前评价模型误差的偏差E1、事前评价模型误差的散差σ1参照模型误差特性数据库800来求。另外，评价值预测误差参照评价值数据库900来求，测量值误差的偏差参照过程值数据库1000来求。

在模型误差特性数据库800中，保存在构建模型时判明的、对于同一操作输入的控制对象100输出和模型400输出的误差特性。亦即对于某范围的操作输入构建精度好的模型，保存关于脱离所述操作范围的操作输入的模型误差的知识，例如在事前的模型验证中判明的对于操作输入的模型误差的偏差或者散差。

另外由于经时变化，有时控制对象100和模型400的特性逐渐不同。关于伴随这样的经时变化的模型误差的事前的知识，也可以在模型误差特性数据库800中保存。

第二评价值计算部700，输出模型误差越大成为越小的值的第二评价值信号207。亦即通过把加权系数设定为负的值可以生成这样的输出。

在评价值数据库900中保存对于操作信号201的实评价值信号203以及对于操作信号204的第一评价值信号206的关系。在控制对象100和模型400的特性中有误差的场合，即使给予相同的操作信号测量信号的值也不同。因此在所述评价值信号203以及对于操作信号204的第一评价值信号206中产生误差。因此，在第二评价值计算部700中，参照评价值数据库900计算由模型误差引起的评价值的预测误差。

该预测误差，在操作信号201和操作信号204相同的场合，是从实评价值信号203的预测值减去第一评价值信号206的值，在实评价值信号203的预测值一方比第一评价值信号206大的场合，成为正值，在相反的场合成为负值。加权系数设定为正的值。

与用第一评价值计算部600计算的第一评价值信号206相比，用实评价值计算部500计算的评价值信号203一方大这一点，意味着在对于模型400有效时在控制对象100上施加了学习后的操作信号时，能够得到比预想的优良的结果。这样的现象，起因于控制对象100和模型400误差的特性有不同，但是学习这样的操作方法是有益的。

这样，通过把参照评价值数据库900得到的评价信号作为第二评价207相加，能够用学习部300学习如上的操作方法。

在过程值数据库1000中保存对于操作信号201的测量信号202的关系以及对于操作信号204的测量信号205的关系。通过把加权系数设定为负值，和事前评价模型误差同样，随模型误差增大第二评价值信号207变小。

图3是说明第二评价值计算部700的处理的图。第二评价值计算部700，具有：模型误差偏差计算处理710、模型误差散差计算处理720、评价值预测误差计算处理730、测量值误差计算处理740、第二评价值计算处理的各步骤。此外，模型误差偏差计算处理710、模型误差散差计算处理720、评价值预测误差计算处理730、测量值误差计算处理740的各处理的处理顺序，可以任意变更。

此外在本实施的形态中，在第二评价值计算部700中计算第二评价值信号207时，把事前评价模型误差的偏差以及方差、评价值预测误差、模型误差的偏差的四项作为评价的对象，但是不一定需要把所有这些都作为对象。另外，在上述的例子之外，也可以把参照模型误差特性数据库800、评价值数据库900、过程值数据库1000得到的各种统计量(例如实评价值预测值的散差)等追加到评价的对象。另外，未在图1中表示，但是也可以在控制装置200内或者在外部设置图像显示单元，操作员通过图像显示单元能够确认控制装置200的动作。

图7是说明学习部300把模型400作为对象学习控制对象100的操作方法的图。在图7中作为学习方法以使用Q-Learning的场合为例说明。

在Q-Learning中，使用表现在状态s中执行行动a的价值的函数。把该价值函数记为Q(s，a)。状态s，通过操作信号204和输出205定义。

首先，在步骤310，任意初始化价值函数Q(s，a)。接着，在步骤320，决定模型400的操作信号204的初始值，计算其时的模型400的输出205。

在步骤330，使用价值函数Q(s，a)决定在状态s下的行动a。这里，使用在非专利文献1中记载的ε-Greedy方案等，决定行动。通过该行动更新操作信号204。接着在步骤340，计算对于更新后的操作信号204的模型输出205。由此状态从s转移到s’。

接着，在步骤350，在第一评价值计算部600和第二评价值计算部700中计算评价值，将它们相加计算评价值信号208。

在步骤360，使用公式(6)更新价值函数Q(s，a)。

【数学式6】

Q(s，a)←Q(s，a)+α[r+γmax_a’Q(s’，a’)-Q(s，a)] (6)

式中，r是评价值信号208的值，α以及γ是设计参数，是控制对象100的运行人员设定的值。

在结束判定370中，在模型输出205满足预定的条件的场合成为YES，返回步骤320。这以外的场合返回步骤330。

此外，在图1中未表示，但是通过在控制装置200的内部或者控制装置200的外部设置图像显示单元，操作员可以通过该图像显示单元确认控制装置200的动作。

图4是说明在所述图像显示单元中显示的画面的图。显示的图像250，如图2所示，可以做成参照模型误差特性数据库800、评价值数据库900、过程值数据库1000得到的各种图表。

图像260，可以做成参照模型误差特性数据库800、评价值数据库900、过程值数据库1000得到的误差评价矢量的值、操作员设定的加权矢量的值、以及第二评价值。操作员能够一边确认图像250、以及图像260，一边设定、调整加权矢量的值。

下面说明根据本实施形态的效果。在本实施形态中，把用第二评价值计算部700计算出来的第二评价值信号207加在第一评价信号206上供给学习部300。此时，第二评价值信号207随模型误差变小成为大的值。因此，学习部300把模型400作为对象使在模型误差小的区域内生成操作信号那样地学习。

在现有技术的方法中，即使是模型误差大的区域，也学习对于模型400成为有效的操作信号204的生成方法。在这种场合，即使把用该生成方法生成的操作信号施加到控制对象上也有得不到希望的性能的可能性。另外，在本实施形态中，因为学习模型误差小的区域或者实评价值信号203的预测值成为比来自模型的评价值信号206大的区域中的操作信号的生成方法，所以与现有技术的方法相比可以期望能够得到良好的性能。另外，与现有技术的方法相比也有提高控制对象100的安全性的效果。

图5是说明作为所述控制对象的火力发电厂的图。首先说明火力发电厂的发电的机构。

向在锅炉101上装备的燃烧器102，供给作为燃料的煤和传送煤用的一次空气、以及燃烧调整用的二次空气，使煤燃烧。煤和一次空气由管134引导，二次空气由管141引导。另外，两段燃烧用的补充空气，通过补充空气端口103投入锅炉101。该补充空气从管142引导。

通过所述煤的燃烧发生的高温煤气，沿锅炉101的排气路径流动，通过空气加热器104，在排气处理后通过烟囱向大气放出。

循环锅炉101的给水，通过给水泵105导入锅炉101，在热交换器106中通过煤气被过加热，成为高温高压的蒸气。在本实施形态中热交换器取一个，但是也可能配置多个热交换器。

通过热交换器106的高温高压蒸气，通过涡轮机调节器107导入蒸气涡轮机108。通过蒸气具有的能量驱动蒸气涡轮机108，通过发电机109发电。

下面说明从燃烧器102投入的一次空气以及二次空气、从补充空气端口103投入的补充空气的路径。

一次空气通过鼓凤机120导入管130，中途分支为通过空气加热器的管132和不通过的管131，再次在管133合流，导入磨机110。通过空气加热器的空气，由煤气加热，使用该一次空气向燃烧器102传送用磨机110生成的煤(微粉煤)。

二次空气以及补充空气通过鼓凤机121导入管140，在用空气加热器104加热后，分支为二次空气用的管141和补充空气用的管142，分别导入燃烧器102和补充空气端口103。

图6是一次空气、二次空气、以及补充空气通过的管道部以及空气加热器104的放大图。

如图6所示，在管内配置空气挡板150、151、152、153。通过操作空气挡板，可以改变管中的空气通过的面积，由此能够调整通过管的空气流量。这里，说明通过空气挡板150、151、152、153的控制，以把在煤气中包含的Nox抑制到目标值以下为目的导入控制装置200的场合。

两段燃烧方式，作为对于降低热Nox以及燃料Nox有效果的方式而闻名，从燃烧器投入比理论空气量少的空气量，从补充空气端口投入不足数量的空气使完全燃烧。由此，在抑制急剧的燃烧、抑制火焰温度的上升的同时，能够抑制由于氧浓度降低Nox生成。

亦即控制装置200，为降低Nox，使从燃烧器投入的空气量和从补充空气端口投入的空气量的比率成为最佳那样生成操作空气挡板150、151、152、 153的操作信号。

为执行这样的动作，图1中的实评价值计算部500以及第一评价值部600使用公式4或者公式5计算实评价值信号203以及第一评价值信号206。这里，R是评价值信号，Y_NOx是NOx的测量信号，D_NOx是NOx的目标值。

【数学式4】

【数学式5】

R＝D_NOx-Y_NOx (5)

此外，在本实施形态中，采用着眼于NOx成分计算评价值的结构，但是也可以添加作为其他煤气成分的CO等，根据多个测量信号计算评价值。

模型400，模拟锅炉101的特性，通过设定从燃烧器以及空气端口投入的煤、空气诸条件执行计算，可以求NOx浓度。另外，使用作为对象的锅炉101以外的锅炉的实际运行情况事前验证模型400的精度的知识，保存在模型误差特性数据库800中。

亦即锅炉由于通过煤的燃烧发生的灰附着在热交换器或者锅炉的壁上燃烧特性变化，这也对NOx的生成量有影响。因此，为除去该灰实施吹灰。例如当作为所述模型400，构建成模拟实施吹灰后一小时的特性时，可以预想：在这以外的经过时间内由于灰附着引起的影响，根据模型的NOx的计算值和从锅炉测量的NOx的值不同。

但是，这样的模型误差特性，大多从锅炉的运行实绩事前知道，在模型误差特性数据库800中保存关于这样的运行时间和模型误差特性的信息。另外，在测量噪声特性(例如由于噪声的测量值的散差)事前知道的场合，该特性也在模型误差特性数据库800中存储。通过这样设定，即使在控制对象100是火力发电厂的场合，也能够通过控制装置200把工厂排放的气体中包含的NOx抑制在目标值以下。

如上所述，根据本实施形态，因为在模型误差小的区域内学习操作信号的生成方法，所以与现有技术的方法相比能够实施良好的控制。另外，与现有技术的方法相比提高了控制对象的安全性。亦即，根据所述Dyna结构或者专利文献1所述的现有技术方法，在模型误差大的区域内学习对于模型成为有效的操作操作信号的生成方法。因此即使把该学习结果施加到控制对象上也有可能无效。对此，根据本实施形态，因为在所述第一评价值信号上加上第二评价值信号，所以不在控制对象和模型的特征不同的区域内生成操作信号，仅在特性接近的区域内学习操作信号的生成方法。因此提高在运行开始后的控制对象的安全性。

下面参照附图说明作为本发明的别的实施例的工厂的控制装置。

【第二实施例】

图8是表示作为本发明的一个实施例的工厂的控制装置的控制系统图。

在图8中，被构成为：工厂2100通过控制装置2200控制。

在执行控制对象的工厂2100的控制的控制装置2200中，作为运算装置，分别设置操作信号生成部2300、学习部2400、模型2500、评价值计算部2600、学习条件决定部2700、以及学习信息追加部2800。

另外，在控制装置2200中，作为数据库，分别设置测量信号数据库2210、操作端规格数据库2200、操作信号数据库2230、控制逻辑数据库2240、学习参数数据库2250、评价值计算参数数据库2260、模型参数数据库2270、以及学习信息数据库2280。

另外，在控制装置2200中，作为和外部的接口，设置外部输入接口2201以及外部输出接口2202。

然后，在所述控制装置2200中，通过外部输入接口2201从工厂2100向控制装置2200取入作为工厂2100的控制输出的测量信号2001。另外，通过外部输出接口2202从控制装置2200向控制对象2100发送成为控制指令的操作信号2024。

下面，说明控制装置2200中的控制的详情。作为工厂2100测量信号2001取入外部输入接口2201的测量信号2002被传送到操作信号生成部2300，同时在测量信号数据库2210中保存。另外，在操作信号生成部2300中生成的操作信号2023被传送到外部输出接口2202，同时在操作信号数据库2230中保存。

在操作信号生成部2300中，使用在控制逻辑数据库2240中保存的控制逻辑数据2011、以及在学习信息数据库2280中保存的学习信息数据2022，使工厂2100的测量信号2001达到运行目标值那样生成操作信号2023。

在该控制逻辑数据库2240中，为向操作信号生成部2300输出控制逻辑数据2011，保存计算控制逻辑数据2011的控制电路以及控制参数。

在学习信息数据库2280中，保存的学习信息数据在学习部2400或者学习信息追加部2800中生成。学习部2400分别连接模型2500、评价值计算部2600、以及学习条件决定部2700。

模型2500，具有模拟工厂2100的控制特性的功能。亦即把成为控制指令的操作信号2024给予工厂2100，模拟运算与获得该控制结果的测量信号2001相同的情况。为进行该模拟运算，构成为：从学习部2400接收使模型2500动作的模型输入2017，在模型2500中模拟运算工厂2100的控制动作，获得该模拟运算结果的模型输出2018。这里，模型输出2018成为工厂2100的测量信号2001的预测值。

该模型2500，具有模拟运算工厂2100的控制特性的模型，具有使用了基于物理法则的模型式的物理模型、使用神经网络等统计方法的统计模型、或者并用物理模型和统计模型，对于模型输入17计算模型输出2018的功能。

在模型2500中，根据模型输入2017模拟运算工厂2100的控制、计算模型输出2018时需要的其他数据，向模型2500输入在模型参数数据库2270中保存的数据后使用。

评价值计算部2600，使用在评价值计算参数数据库2260中保存的评价值计算参数2015和从模型2500输入的模型输出2018计算评价值2019。

学习部2400使用在学习信息数据库2280中保存的学习信息数据2021和在学习参数数据库2250中保存的学习参数2014生成要向模型2500输入的模型输入2017。

在模型2500中输入模型输入2017，使用内部的模拟模型，输出模拟运算后的模型输出2018。

在评价值计算部2600中从用模型2500模拟运算后的模型输出2018计算评价值2019，向学习部2400输入该评价值2019。

在学习部2400中，为把在学习参数中包含的每单位时间的操作信号变化幅度的限制值设定为学习的约束条件使用模型学习工厂的操作方法，使用模型输出2018或者评价值2109学习用模型2500模拟运算的模型输出2018达到模型输出目标值那样的模型输入的生成方法。作为学习结果的学习信息数据2020在学习信息数据库2280中保存。

在学习条件决定部2700中，使用在操作端规格数据库2220中保存的工厂的操作端的动作可能范围以及动作速度的操作端规格数据2004以及在控制逻辑数据库2240中保存的控制逻辑数据2006，生成每单位时间的操作信号变化幅度的限制值包含的学习参数2008的初始值。

另外，在学习条件决定部2700中，使用在测量信号数据库2210中保存的作为过去的测量信号的测量信号数据2003、在操作信号数据库2230中保存的作为过去的操作信号的操作信号数据2005、以及在信息参数数据库2250中保存的学习参数2009，更新学习参数2008。

在学习参数2009和学习参数2008的值不同的场合，使学习触发器2007成为“1”，将该值向学习部2400、以及学习信息追加部2800发送。除此以外的场合，学习触发器2007的值是“0”。

在学习信息追加部2800中，在学习触发器2007成为“1”时，使用在学习参数数据库2250中保存的学习参数2010以及在学习信息数据库2280中保存的学习信息数据2012生成追加学习信息数据2013。该追加学习信息数据2013在学习信息数据库2280中保存。

工厂2100的运行人员，通过使用用键盘2901和鼠标2902构成的外部输入装置2900、控制装置2200和具有能够收发数据的数据收发处理部2930的维护工具2910、以及图像显示装置2950，能够访问在控制装置2200上装备的各种数据库中保存的信息。

维护工具2910由外部输入接口2920、数据收发处理部2930、外部输出接口2940构成。

用输入装置2900生成的维护工具输入信号2031通过外部输入接口2920取入维护工具2910中。在维护工具2910的数据收发处理部2930中，遵照维护工具输入信号2032，取得在控制装置2200中装备的数据库信息2030。

使用数据收发处理部2930把处理数据库信息2030的结果得到的维护工具输出信号2033向外部输出接口2940发送。维护工具输出信号2034在图像显示装置2950上显示。

此外，在上述本发明的实施例的控制装置2200中，在控制装置2200的内部配置测量信号数据库2210、操作端规格数据库2200、操作信号数据库2230、控制逻辑数据库2240、学习参数数据库2250、评价值计算参数数据库2260、模型参数数据库2270、以及学习信息数据库2280，但是这些的全部或者一部分也可以在控制装置2200的外部配置。

另外同样，学习部2400、模型2500、评价值计算部2600、学习条件决定部2700、学习信息追加部2800配置在控制装置2200的内部，但是这些的全部或者一部分也可以在控制装置2200的外部配置。

例如，也可以把学习部2400、模型2500、评价值计算部2600、学习参数数据库2250、评价值计算参数数据库2260、以及模型参数数据库2270作为外部的系统构成，也可以用因特网把该外部的系统与控制装置2200连接，把用外部的系统的学习部2400生成的学习信息数据2202经由因特网向控制装置2200发送。

另外，如果不使用评价值计算部2600以及学习信息追加部2800的一方或者双方构建控制装置2200，则会降低高级的控制功能但是可以进行工厂的控制。

另外，也可以构成为附加修正在模型参数数据库2270中保存的模型参数2216的功能，使工厂2100和模型2500的特性一致。

下面，说明把本发明的实施例的对于工厂的控制装置2200用于火力发电厂的场合。此外，在控制火力发电厂以外的工厂时，不用说也可以使用本发明的实施例的控制装置2200。

图9是把火力发电厂2100a作为控制对象的场合的工厂的概略系统的图。说明火力发电厂2100a中的发电的机构。

在构成火力发电厂2100a的锅炉2101中，设置供给用磨机2110把煤细小粉碎成为燃料的微粉煤、传送微粉煤的一次空气、以及燃烧调整用的二次空气的燃烧器2102，使通过该燃烧器2102供给的微粉煤在锅炉2101的内部燃烧。此外，微粉煤和一次空气从管2134、二次空气从管2141引导。

另外，在锅炉2101上设置把两段燃烧用的补充空气投入锅炉2101的补充空气端口2103，补充空气从管2142导入补充空气端口2103。

通过微粉煤的燃烧发生的高温的燃烧煤气沿锅炉2101的内部的路径流动到下游侧后，通过在锅炉2101内设置的热交换器2106进行热交换，使在该空气加热器2104内发生高温、高压的蒸气。其后，在排气处理后从烟囱向大气放出。

循环锅炉2101的热交换器2106的给水，通过给水泵2105向热交换器2106供给给水，在热交换器2106中通过流过锅炉2101的燃烧煤气过热，变成高温高压的蒸气。此外，在本实施例中热交换器2106的数目为1，但是也可以配置多个热交换器2106。

通过热交换器2106的高温高压的蒸气通过涡轮机调节器2107导入蒸气涡轮机2108，通过蒸气具有的能量驱动蒸气涡轮机2108，用发电机2109发电。

在火力发电厂2100a中设置检测火力发电厂的运行状态的各种测量器，从这些测量器取得的关于工厂的控制输出的信息，作为测量信息向控制装置2200发送。例如，在图9中，作为检测关于工厂的控制输出的信息的部件，图示了流量测量器2150、温度测量器2151、压力测量器2152、发电输出测量器2153、以及浓度测量器2154。

使用流量测量器2150测量从给水泵2105供给锅炉2101的给水的流量。另外，温度测量器2151以及压力测量器2152测量从热交换器2106供给蒸气涡轮机2108的蒸气的温度、压力。

使用发电机2109发电的电力量用发电输出测量器2153测量。关于在通过锅炉2101的燃烧煤气中包含的成分(CO，NOx等)的浓度的信息，可以通过在锅炉2101的下游侧设置的浓度测量器2154测量。

此外，一般，在图9图示以外在火力发电厂中还配置多数测量器，但是这里省略图示。

下面说明在锅炉2101的内部从燃烧器2102投入的一次空气和二次空气的路径、以及从补充空气端口2103投入的补充空气的路径。

一次空气从鼓风机2120导入管2130，中途分支为通过在锅炉2101的下游侧设置的空气加热器2104的管2132和不通过的旁路管2131，再次在管2133合流，导入在燃烧器2102的上游侧设置的磨机2110。

通过空气加热器2104的空气，通过流过锅炉2101的燃烧煤气加热。使用该一次空气和一次空气一起向燃烧器2102传送在磨机2110中粉碎的微粉煤。

二次空气以及补充空气从鼓风机2121导入管2140，同样用空气加热器2104加热后，分支为二次空气用的管2141和补充空气用的管2142，分别导入燃烧器2102和补充空气端口2103。

图10是表示图9所示的一次空气、二次空气、以及补充空气通过的管2130、2131、2132、2133、2140、2141、2142的管部、以及空气加热器2104的放大图。

如图10所示，在这些管中，在管2131、2132、2141、2142上分别配置空气挡板2160、2161、2162、2163。因为通过分别操作这些空气挡板2160、2161、2162、2163，可以改变所述各管2131、2132、2141、2142中的空气通过的面积，所以能够分别个别调整通过管2131、2132、2141、2142的空气流量。

使用通过控制装置2200生成的各种操作信号2024，分别操作构成控制控制对象的火力发电厂2100a的状态量的操作端的给水泵2105、磨机2110、空气挡板2160、2161、2162、2163等机器。此外，在本实施例中把给水泵2105、磨机2110、空气挡板2160、2161、2162、2163等机器称为操作端，把为操作它们的需要的指令信号称为操作信号2024。

另外，在向锅炉2101投入燃烧用等的空气、或者微粉煤等的燃料时，在燃烧器2102以及补充空气端口2103上附加能够上下移动其喷出角度的功能，也可以在操作信号2024中包含这些的角度。

图11是说明控制装置2200的操作信号生成部2300中的信号处理的详细图。在图11中，在操作信号生成部2300中，分别输入通过外部输入接口2201收集工厂2100的测量信号2001的测量信号2002、在学习信息数据库2280中保存的学习信息数据2022、以及在控制逻辑数据库2240中保存的控制逻辑数据2011，参照这些信号以及数据生成在操作信号生成部2300中运算的通过外部输入接口2202输出作为对于工厂2100的控制指令的操作信号2024的操作信号2023。

在操作信号生成部2300中，分别配置学习信号生成部2310、运行目标值2320、加减法器2330、2331、2332、比例积分控制器2340、变化率限制器2350、2351、高值选择器2360、2361、低值选择器2370、2371，这些设备连接成图11所示的形态。

然后，为使操作信号生成部2300的所述各设备动作所需要的控制参数，输入在控制逻辑数据库2240以及学习信息数据库2280中保存的数据使用。此外，操作信号生成部2300的结构也可以使用图11所示的设备结构以外的结构。

使用加减法器2330、2331、2332分别进行使用输入的两个信号在零值上加上或者减去信号值的运算。在图11中用“+”标记相加的信号，用“-”标记相减的信号。

在所述加减法器2330中，根据编入加减法器2330的(1)式的函数使用取入操作信号生成部2300的测量信号2002以及信号2380计算信号2381。

【数学式1】

x₁＝x₂-x₃

式中，x₁是信号2381的值，x₂是运行目标信号2381的值，x₃是测量信号2002的值。

接着，在比例积分控制器2340中，根据编入比例积分控制器2340的(2)式的函数，使用信号2381、信号2381的前次值、基准信号2382的前次值计算基准信号2382。此外，所谓前次值，意味着是一个采样控制周期前的值。

【数学式2】

x₄＝P₁(x₅-x₆)+P₂x₅+x₇

式中，P₁以及P₂是控制参数的值，x₄是基准信号2382的值，x₅是信号2381的值，x₆是信号2381的前次值，x₇是基准信号2382的前次值。

另外在学习信号生成部2310中，参照在学习信息数据库2280中保存的学习信息数据2022使用测量信号2002导出推荐信号2383。该推荐信号2383是操作信号2023的推荐值。

在学习信息数据库2280中保存的学习信息数据2022，是为构建在学习部2400中从评价值2019生成模型输入2017的函数所需要的数据。与在学习部2400中从评价值2019生成模型输入2017相同，在学习信号生成部2310中从测量信号2002生成推荐信号2383。

在加减法器2331中，根据编入加减法器2331的(3)式的函数，使用基准信号2382和推荐信号2383计算信号2384。

【数学式3】

x₈＝x₉-x₁₀

式中，x₈是信号2384的值，x₉是推荐信号2383的值，x₁₀是基准信号2382的值。

在变化率限制器2350中，限制每一个采样控制周期中变化的信号2384的值。在该变化率限制器2350中，根据编入变化率限制器2350的(4)式的函数计算信号2385。

【数学式4】

式中，P₃、P₄是控制参数，x₁₁是信号2385的前次值，x₁₂是信号2384的前次值，x₁₃是信号2384的值。P₃、P₄分别称为增速率参数、减速率参数。

通过使用变化率限制器2350，能够限制信号2385的值，使每一采样控制周期中变化的操作信号2384的值位于增速率参数和减速率参数的范围内。

高值选择器2360具有使信号2386不成为某阈值以下的值的功能。在高值选择器2360中，根据编入高值选择器2360的(5)式的函数计算信号2386。

【数学式5】

式中，P₅是控制参数，x₁₄是信号2386的值，x₁₅是信号2385的值。P₅称为下限参数。通过使用高值选择器2360，能够使信号2386的值不成为P₅的值以下。

低值选择器2370具有使修正信号2387不成为某阈值以上的值的功能。在低值选择器2370中，根据编入低值选择器2370的(6)式的函数计算修正信号2387。

【数学式6】

式中，P₆是控制参数，x₁₆是修正信号2387的值，x₁₇是信号2386的值。P₆称为上限参数。通过使用低值选择器2370，能够使信号2387的值不成为P₆的值以上。

在图11中，使用多个变化率限制器(RL)、高值选择器(HL)、低值选择器(LL)，但是动作内容与(4)式～(6)式的函数相同。此外，变化率限制器2350、2351、高值选择器2360、2361、低值选择器2370、2371的控制参数可以个别设定。

这些控制参数的设定，由工厂2100的运行人员使用外部输入装置2900、维护工具2910、以及图像显示装置2950设定。

使用在以上各设备中通过计算计算出来的基准信号2382和修正信号2387，在加减法器2332中相加这两个信号计算信号2388。使用变化率限制器2351从信号2388计算信号2389，使用高值选择器2361从信号2389计算信号2390，最后使用低值选择器2371从信号2390计算操作信号2023，该操作信号2023成为从外部接口2202对于工厂2100的指令信号2024，从控制装置2200输出。

通过如图11所示构成控制装置2200的操作信号生成部2300，可以得到下述的作用效果。

首先，通过在操作信号生成部2300中装备变化率限制器2351、高值选择器2361、低值选择器2371，把操作信号2023限制在预先设定的允许范围内，进而可以抑制急剧变化到预先设定的值以上。

因此，可以防止计算超出操作端的动作速度、动作范围的操作信号2023作为指令信号2024输出。

另外，通过工厂2100的运行状况，当成为指令信号2024的操作信号2023变化大时，有时工厂2100的安全运行产生故障。即使在这样的场合，通过适当地设定变化率限制器2351的控制参数，也可以安全地运行工厂2100。

但是，在图11所示的操作信号生成部2300中，不使用在学习信号生成部2310中计算的推荐信号2383直接计算操作信号2023，在加减法器2331中从推荐信号2383减去基准信号2382，在使用变化率限制器2350、高值选择器2360、低值选择器2370后，再相加基准信号2382。

在学习信号生成部2310中，因为参照保存使用模型2500学习的结果的学习信息数据库2280生成推荐信号2383，所以在假定模型2500和工厂2100的特性不同的场合把推荐信号2383作为指令信号2024给予工厂2100，仍有不能得到希望的性能的可能性。

另外，通过把推荐信号2383作为指令信号2024给予工厂2100，也存在不能安全地运行工厂2100的可能性。

为避免这样的事态，构成为：在操作信号生成部2300中，通过使用变化率限制器2350、高值选择器2360、低值选择器2370适当设定该控制参数，学习信号生成部2310生成的推荐信号2382能够调整作用于操作信号2023的程度。

例如，在导入学习信号生成部2310的当初，因为没有关于模型2500和工厂2100的特性的不同的信息，所以实施这样的对策：使推荐信号2383给予操作信号2023的影响小那样设定控制参数，在确认特性一致后，使推荐信号2383给予操作信号2023的影响大那样重新设定控制参数。

在火力发电厂2100a中，有保持发电输出恒定的发电输出恒定运行、使发电输出变化的发电输出变化运行、切换锅炉2101的燃烧器的点火的燃烧器切换运行、切换作为燃料的煤的种类的煤种类切换运行等各种运行形态。另外，即使在发电输出恒定运行中，也有作为燃料的煤种类不同的场合。

在作为本发明的实施例的火力发电厂2100a的控制装置2200中，因为能够对于每一种这样的运行形态决定控制参数，所以能够符合工厂的运行形态生成指令信号。

图12表示通过作为本发明的实施例的工厂的控制装置2200的控制参数设定画面的一例。在图12中，表示在火力发电厂2100a的控制装置2200装备的操作信号生成部2300具有的变化率限制器2350中设定控制参数的画面。

如图12所示，表示在操作信号生成部2300具有的变化率限制器2350中，对于火力发电厂2100a的每一运行形态设定增速率的各参数、以及减速率的各参数的状况。

下面说明决定图8所示的控制装置2200装备的学习参数数据库2250中保存的学习参数的学习条件决定部2700。在学习条件决定部2700中，决定学习部2400在实施学习时参照的学习参数2014。

在学习部2400实施学习时，分别需要每一采样控制周期能够移动的模型输入2017的变化幅度、模型输入2017的上限值、模型输入2017的下限值。

在控制装置2200的学习条件决定部2700中，参照在控制逻辑数据库2240中保存的控制逻辑数据2006、在操作端规格数据库2220中保存的操作端规格数据2004、以及在测量信号数据库2210中保存的测量信号数据2003，决定在学习参数数据库2250中保存的学习参数2008。

因为在运行工厂2100前不能够得到测量信号，所以在学习条件决定部2700中，从控制逻辑数据2006、以及操作端规格数据2004决定学习参数2008的初始值，运行工厂2100，在得到测量信号后也使用测量信号数据2003更新学习参数2008。

图13是说明在作为本发明的实施例的工厂的控制装置2200具有的学习条件决定部2700中决定学习参数2008的初始值的方法的图。

在图13中，对于每一操作端记载关于其变化率、上限、下限的数据、控制逻辑数据2006的值在RL、LL、HL的栏中反映显示，操作端规格数据2004的值在规格的栏中反映显示。所谓控制逻辑数据2006的值，例如是图12所示的操作信号生成部2300具有的变化率限制器2350中设定的控制参数，另外，所谓操作端规格数据2004的值，例如是操作端的动作临界速度、上限值、下限值，这些值通过工厂2100的运行人员设定。

在学习条件决定部2700中，在图13中记载的值中，在生成模型输入2017时选择自由度成为最小的值，把该值作为学习参数2008的初始值向学习参数数据库2250发送。例如，变化率限制参数的增速率、以及减速率，因为随其绝对值增大在一个采样控制周期内使变动的模型输入的变化幅度增大，所以自由度也变大。

反之，当变化率限制参数的绝对值小时，自由度也变小。因此，变化率限制参数的增速率、以及减速率，把其绝对值小的值作为学习参数2008的初始值，向学习参数数据库2250发送。

另外，通过关于上限值选择最小值，关于下限值选择最大值，能够使生成模型输入2017时的自由度最小。

此外，在本实施例中选择生成模型输入2017时的自由度成为最小的值、决定学习参数2008的初始值，但是也可以把在操作端规格数据库2220中保存的操作端规格数据2004的值原样不变决定为学习参数2008的初始值等，设定各种选择方法。

另外，在学习条件决定部2700中，具有通过处理在控制逻辑数据2006中包含的信号、或者测量信号数据2003，推定现状的工厂2100的运行形态的功能。通过使用该功能，在设定为工厂的不同运行形态的控制参数中，能够判定现在正在使用哪个值。

下面说明学习参数2008的更新方法。首先，在工厂2100的运行形态变化、控制逻辑数据2006的值变化的场合，使用该变化了的控制逻辑数据2006的值，使用在图13中说明的方法决定学习参数2008。

另外，学习条件决定部2700，使用测量信号数据2003和操作信号数据2005更新学习参数2008。关于在该学习条件决定部2700中的学习参数2008的更新方法，使用图14说明。

图14是表示学习条件决定部2700中的学习参数2008的更新方法的一例的图，在图14中表示出了关于在时刻t₁、t₂时的操作端A的操作信号2003和测量信号2005。Δt是一个采样控制周期的时间，C₁是时刻t₁时的操作信号A的值，C₂是时刻t₂时的操作信号数据2003的值，C₃是时刻t₂时的测量信号数据2005的值。

在图14中，对于在从时刻t₁到时刻t₂的时间的期间作为操作信号A的操作信号数据2003仅变化C₂-C₁的差信号数量，测量信号数据2005仅变化C₃-C₁的差信号数量，与操作信号数据的变化幅度相比，测量信号数据的变化幅度小。

这点是在操作信号的变化幅度一方比操作端A在每一采样控制周期的动作临界速度大的场合发生的事项。在这样的场合，把关于操作信号A的增速率的学习参数2008的值设定为C₃-C₁的差信号的值。

使用以上的方法在学习条件决定部2700中决定学习参数2008，把该学习参数2008在学习参数数据库2250中保存。另外，在运行形态变化、参数变化的场合，也更新学习参数2008。

下面，以在控制装置2200的学习部2400中决定对于模型2500的模型输入2017、降低作为从模型2500输出的模型输出2018之一的氮氧化物(NOx)为例进行说明。

此外，作为模型输出2018，在除氮氧化物外控制一氧化碳(CO)、二氧化碳浓度、硫化氧化物、水银、蒸气温度、蒸气压力等为希望的值的场合，通过使用本发明的实施例的工厂的控制装置也可以控制。

图15是表示输入模型2500的模型输入2017和从模型2500输出的模型输出2018的关系的图。此外，在图15中把模型输入A和模型输入B两种作为模型输入2017，把NOx作为模型输出2018。

如图15所示，如设模型输入A为A₁、模型输入B为B₁，则模型输出2018的NOx为NOx高；如设模型输入A为A₂、模型输入B为B₂，则模型输出2018的NOx为NOx低。这样，在学习部2400中，如图15所示，可以学习为从初始状态到达NOx低的区域的方法。

图16是表示在学习部2400中把模型作为对象学习模型输入的生成方法的学习结果的一例的图，在图16中表示用尽可能少的操作次数到达NOx低的区域而且不状态转移到NOx高的区域的条件下学习的结果。

此外，一次操作不能直接到达NOx低的区域，是因为每一采样控制周期中可变动的模型输入A和模型输入B的值受限制的缘故。

每一采样控制周期中可变动的模型输入2017的值，根据用图13说明的操作端的增速率、减速率等的学习参数2008(学习参数2014)，使操作端和模型输入的项目对应那样决定。

如图16所示，学习在学习部2400中使用两次操作到达NOx低的区域的方法，使表示经过一次操作后的状态在二次操作后的状态下到达NOx低的区域。

图17和图16同样，表示作为在学习部2400中学习操作信号的生成方法的学习结果的一例的操作信号A和操作信号B的关系，模型输入A和操作信号A、模型输入B和操作信号B分别对应。

图17中用虚线箭头表示的操作方法表示在控制装置2200的学习部2400中学习的结果。图17中在操作信号A的动作速度小的场合，一次操作后状态转移到NOx高的区域。

这意味着：当在操作信号2023和模型输入2017的动作临界速度不同的场合，在学习部2400用尽可能少的操作次数到达NOx低的区域、而且不状态转移到NOx高的区域这样的条件下，遵照学习模型输入2017的生成方法的结果生成操作信号2024，将其给予工厂时，存在不能满足学习时设定的条件的可能性。

在本发明的实施例中，为避免这样的事态，采用下面的方法。即，在本实施例中，在控制装置2200内设置学习条件决定部2700，如上述那样决定包含工厂2100的操作端的动作临界速度的学习参数2008，在学习参数数据库2250中保存学习参数2008。在学习部2400中，通过参照在学习参数数据库2250中保存学习参数2014，以操作信号2024和模型输入2017的动作临界速度一致为前提实施学习。

下面使用图18所示的流程图说明控制装置2200的控制动作。

图18是表示关于图8记载的本发明的实施例中的工厂的控制装置2200中的工厂的模型的模拟和学习的内容的运算过程的流程图。

图18所示的控制装置2200的控制动作的流程图，在不具有图8记载的学习信息追加部2800的场合也可以适用。关于学习部信息追加部2800的动作内容、和装备它的场合的流程图后述。

如图18所示，控制装置2200的控制动作的流程图，组合步骤1010、1020、1030、1040、1050、以及1060来执行。下面说明各步骤。

首先，在步骤1010，使学习部2400和模型2500动作，学习使模型输出2018到达模型输出目标值那样的模型输入2017的生成方法。

此外，在评价值计算部2600中，也可以一边使用评价值计算参数数据2015，一边就其模型输出2018是否到达模型输出目标值或者模型输出2018 是否成为接近模型输出目标值的值，使用作为定量评价值的评价值2019实施学习。

在评价值计算参数数据库2260中，保存模型输出目标值等、为计算评价值2019需要的参数值。在学习中，可以使用遗传算法、动态规划法、强化学习法等优化方法。

接着，在步骤1020，使学习部动作，把在步骤1010学习的结果作为学习信息数据2020从学习部2400向学习信息数据库2280发送。所谓学习信息数据2020，例如是关于为从模型输出2018生成模型输入2017需要的函数的信息。

接着在步骤1030，使操作信号生成部2300动作生成操作信号2023。操作信号2023向操作信号数据库2230和外部输出接口2202发送，从外部输出接口2202向工厂2100给予成为控制指令的操作信号2024。

接着在步骤1040，使外部输入接口2201动作，把作为工厂2100的控制输出的测量信号2001取入控制装置2200的内部，向操作信号生成部2300和测量信号数据库2210发送测量信号2002。

接着在步骤1050，在学习条件决定部中决定成为学习条件的学习参数2008，向学习参数数据库2260发送该学习参数2008。

然后在步骤1060，在学习条件决定部中比较在学习参数数据库2250中保存的作为学习参数的前次值的学习参数2009和学习参数2008，在其值相同的场合把学习触发器2007作为“0”、在不同的场合把学习触发器2007作为“1”向学习部2400发送。

学习触发器2007成为“1”，意味着学习参数的值被变更了，返回到步骤1010使用新的学习参数2014实施学习。将其称为再学习。

此外，在学习部2400中使用作为前次学习结果的学习信息数据2021也能够再学习。在学习触发器2007是“0”、不再学习的场合，返回步骤1030。

图19是使用图18所示的在根据作为本发明的一个实施例的控制装置2200的控制动作的流程图中表示的运算方法说明学习的学习效果的图。

在图19中，在控制装置2200的学习条件决定部2700中，考虑操作信号2024的动作临界速度，把模型输入2017的动作临界速度取为学习参数2008。因此，表示出这样的事实：即通过使用控制装置2200的模型2500、遵照在学习部2400中模型输入2017的生成方法(图19的上图)把成为控制指令的操作信号2024给予工厂2100，能够如图19的下图所示不向NOx高的区域状态转移，从初始状态在4次操作后的状态下到达NOx低的区域。

另外，即使在虽然使用多个相同的设计规格数据的操作端，但是实际的动作速度有散差的场合，也能够考虑各个操作端的动作临界速度进行学习。另外在操作端随时间流逝劣化、动作速度降低的场合也能够把降低了的动作速度作为学习时的条件。

再有，在发电输出变化运行、燃烧器切换运行、煤种类切换运行等工厂的运行状态变化后，变化率限制器等的控制参数被变更了的场合，也能够在变更了的条件下学习。另外，在工厂100的运行人员变更控制参数的场合，也能够在其变更了的条件下学习。

其结果，通过把遵照学习后的模型输入17的生成方法生成的操作信号2024作为控制指令给予工厂2100，作为工厂的控制能够得到希望的控制结果。

另外，因为在控制装置2200的学习条件决定部2700中自动地决定学习的约束条件，所以不需要工厂的运行人员决定学习的约束条件的作业，也能够获得提高控制装置使用的方便性、能够缩短为学习的条件设定期间这样的效果。

但是，在图18所示的控制装置2200的控制动作的流程图中，在学习条件决定部2700中学习参数成为与其前次值不同的值的场合，需要在步骤1010实施再学习。因为为该学习需要计算资源，所以需要使用可高速运算的控制装置，或者在学习上花费时间。

为使用可高速运算的控制装置要花费费用。另外，在学习上花费时间的场合，在学习期间需要停止学习信号生成部2310的动作，不能在操作信号2024的生成中反映在学习部2400和模型2500中学习的结果。

因此，作为其对策，在本发明的实施例中，在图8所示的控制装置2200上追加学习信息追加部2800。在学习信息追加部2800中，在学习触发器2007成为“1”的场合，使用学习参数数据2014和学习信息数据2012，生成学习信息数据2013，向学习信息数据库2280发送。通过使用学习信息追加部2800，不实施再学习，可以生成作为把学习参数2014作为学习的条件的场合的学习结果的学习信息数据2013。

因此，考虑到在学习条件决定部2700中学习参数被变更了的情况，必须使用可高速运算的控制装置，或者在学习条件决定部2700中学习参数被变更了的场合，不停止学习信号生成部2310的功能。

下面，使用图20中所示的流程图说明在控制装置2200中设置学习信息追加部2800的场合的控制动作。

图20是表示在作为本发明的一个实施例的工厂的控制装置中设置学习信息追加部2800的场合的、关于控制装置2200中工厂的模型的模拟和学习的内容的运算处理内容的流程图。

如图20所示，控制装置2200的控制动作的流程图通过组合步骤1110、1120、1130、1140、1150、1160、1170执行。下面关于各步骤进行说明。

首先，在步骤1110，在学习部2400中，以模型2500作为对象学习使模型输出2018到达模型输出目标值那样的模型输入2017的生成方法。此外，如同图18的流程图的步骤1010，也可以使用评价值计算部2600进行学习。另外，也可以和步骤1010相同使用优化方法。

在步骤1110学习时，使用模型输入2017的变化幅度的最小设定值把输入空间分割为区域实施学习。模型输入2017的变化幅度的最小设定值是由工厂2100的运行人员设定的值。

图21是在步骤1110在学习部2400中学习模型输入2017的生成方法时把其输入空间分割为区域的场合的说明图。

如图21所示，在学习部2400中，把模型输入A、以及模型输入B的可动作范围分割为模型输入变化幅度的最小设定值。接着，把用一次操作可变化的模型输入的变化幅度限制为模型输入变化幅度的最小设定值来实施学习。

亦即，就成为在每个区域中学习向邻接区域移动的操作方法。例如，当使用在操作次数最小、不向NOx高的区域状态转移的条件下学习的结果，从初始状态开始操作时，沿循作为图21所示的路径的、用最小的操作次数到达 NOx低的区域的路径，到达NOx低的区域。

接着在步骤1120，使学习部2400动作，把在步骤1210学习的结果作为学习信息数据从学习部2400向学习信息数据库2280发送。

接着在步骤1130，使学习条件决定部2700动作决定学习条件，把学习参数2008向学习参数数据库2500发送。

在步骤1140，在学习条件决定部2700中，比较在学习参数数据库2500中保存的作为学习参数的前次值的学习参数2009和学习参数2008，在其值相同的场合把学习触发器2007作为“0”、在不同的场合把学习触发器2007作为“1”，在学习触发器是“1”的场合向步骤1150、在学习触发器2007是“0”的场合向步骤1160前进。

接着在步骤1150，使学习信息追加部2800动作，使用在学习信息数据库中保存的学习信息数据2012和在学习参数数据库2250中保存的学习参数2010生成追加学习信息2013，向学习信息数据库2280发送。

此外，在步骤1150使用的学习信息数据2012是在步骤1110中使用的学习后的结果。

下面说明在控制装置2200中设置的学习信息追加部2800的控制动作。

图22是说明在图8所示的控制装置2200中设置的学习信息追加部2800的动作内容的图，是说明图20所示的流程图中的步骤1150的详情的流程图。

在图22中，在步骤2810，使用作为在步骤1110学习的结果的学习信息数据2012，导出为在每一区域内到达目标状态需要的操作次数。这可以通过把某区域设定为初始状态、求从那里到达目标状态的操作次数、在全部区域内执行这样的作业而导出。

接着在步骤2820，在每一区域内，使用学习参数2010决定用一次操作可转移的状态的范围(可操作范围)，对于可操作范围内的区域，全部抽出在步骤2810求得的操作次数的值。

接着在步骤2830，在某一个区域中，判断向在步骤2810中抽出的操作次数的值成为最小的区域转移的操作方法为最优的操作方法，把该操作方法作为追加学习信息数据2013，从学习信息追加部2800向学习信息数据库2280发送。

图23是说明在说明学习信息追加部2800的动作内容的图23的流程图中学习的结果的说明图。如图23所示，在学习信息追加部2800中生成的追加学习信息数据2013内，包含如在初始状态下如图中的箭头那样进行操作。

当遵照从图23的初始状态出发的箭头操作时，从初始状态下的可操作范围中，能够到达为到达NOx低的区域需要的操作次数成为最小的区域。

以上的说明内容是图20所示的步骤1150的动作说明。

接着，在步骤1160，使操作信号生成部2300动作，使用在步骤1150生成的学习信息数据2022和控制逻辑数据2011生成操作信号2023。该操作信号2023通过外部输出接口2202，作为成为控制指令的操作信号2024向工厂2100发送。

接着，在步骤1170，使外部输入接口2201动作，在控制装置2200的内部取入作为工厂的控制输出的测量信号2001。其后，前进到步骤1130，重复上述的步骤1130～步骤1170的动作。

但是，在图18所示的控制装置2200的控制动作的流程图中，在控制装置2200的学习条件决定部2700中，学习触发器2007成为“1”的场合，需要前进到步骤1010进行再学习。

与此相对，在图20所示的控制装置2200的控制动作的流程图中，即使在学习触发器2007成为“1”的场合，通过使用在步骤1110学习的结果使学习信息追加部2800动作，能够生成和把学习参数2014(学习参数2010)作为学习条件的场合的学习模型输入2017的生成方法的场合相同的学习信息数据。

其结果，在通过使用图18的流程图的效果外，即使在不使用可高速运算的控制装置的场合，也能够得到不停止学习信号生成部2310的功能能够控制工厂的效果。

作为在火力发电厂中使用本发明的工厂的控制装置以及控制方法的实施例的效果，可以举出能够降低从火力发电厂排出的煤气中的NOx的浓度。

再有，伴随NOx的浓度的降低，降低为从排除的煤气中降低NOx所需要的脱硝装置中的氨的使用量，可以得到能够长时间保持脱硝装置的催化剂活性。

另外，根据本发明的实施例的工厂的控制装置，使用关于操作端的动作临界速度的事前信息(规格)决定在学习的约束条件的决定中使用的学习参数的初始值。另外，因为使用测量信号逐次修正该学习参数，所以能够在学习参数中反映工厂的操作端的动作速度。

例如，在使用多个设计规格的操作端、实际的动作速度有散差的场合，能够实施考虑各个操作端的动作速度的学习。另外，即使在操作端随时间流逝劣化、动作速度降低的场合，因为把降低后的动作速度作为约束条件学习，能够良好地控制工厂，所以能够安全地运行工厂。

另外，通过使用本实施例的工厂的控制装置，因为不需要工厂的运行人员决定学习的约束条件的作业，所以也能得到提高控制装置使用的方便性、缩短为学习的条件设定期间的效果。

本发明是可以用于火力发电厂等工厂的控制装置以及工厂的控制方法。

Claims

1.一种工厂的控制装置，具有使用作为工厂的运行状态量的测量信号计算给予工厂的成为控制指令的操作信号的操作信号生成部，其特征在于，

在控制装置中，使其分别具有：模拟成为控制对象的工厂的控制特性的模型；保存有包含在用操作信号生成部计算操作信号中使用的控制参数的控制逻辑数据的控制逻辑数据库；保存有控制工厂的状态量的操作端的操作端规格数据的操作端规格数据库；保存有过去的操作信号的操作信号数据库；保存有过去的测量信号的测量信号数据库；具有使用在控制逻辑数据库和操作端规格数据库中保存的数据，决定学习参数的初始值的功能和使用在操作信号数据库和测量信号数据库中保存的数据，推定操作端的动作速度，根据该推定结果更新所述学习参数的功能的学习条件决定部；把在学习参数中包含的每单位时间的操作信号变化幅度的限制值设定为学习的约束条件、使用所述模型学习工厂的操作方法的学习部；保存用学习部学习的学习信息数据的学习信息数据库；在操作信号生成部中，使其具有使用作为工厂的运行状态量的测量信号和在学习信息数据库中保存的学习信息数据、计算对于工厂的操作信号的学习信号生成部，

具有学习信息追加部，其具有这样的功能：即使用在学习信息数据库中保存的学习信息数据，把在学习参数中包含的每单位时间的操作信号变化幅度的限制值设定为学习的约束条件、来推定在学习部中实施了学习时的学习信息数据，向学习信息数据库发送作为该推定结果的追加学习信息数据，

使控制装置学习条件决定部具有下述功能：即对在控制逻辑数据库中保存的控制参数中、为限制每单位时间的信号的变化幅度而设定的参数和在操作端规格数据库中保存的操作端的动作速度的值进行比较，把绝对值小的值作为学习参数的初始值。

2.一种工厂的控制装置，其使用作为火力发电厂的运行状态量的测量信号，计算给予火力发电厂的成为控制指令的操作信号来控制火力发电厂，其特征在于，

在控制装置中，使其分别具有：模拟成为控制对象的火力发电厂的控制特性的模型；保存有包含在用操作信号生成部操作信号的计算中使用的控制参数的控制逻辑数据的控制逻辑数据库；保存有控制火力发电厂的状态量的操作端的操作端规格数据的操作端规格数据库；保存有过去的操作信号的操作信号数据库；保存有过去的测量信号的测量信号数据库；具有使用在控制逻辑数据库和操作端规格数据库中保存的数据，决定学习参数的初始值的功能，和使用在控制逻辑数据库和操作信号数据库和测量信号数据库中保存的数据，更新所述学习参数的功能的学习条件决定部；把在学习参数中包含的每单位时间的操作信号变化幅度的限制值设定为学习的约束条件、使用所述模型学习火力发电厂的操作方法的学习部；保存有用学习部学习的学习信息数据的学习信息数据库；在操作信号生成部中，使其具有使用作为工厂的运行状态量的测量信号和在学习信息数据库中保存的学习信息数据、计算对于火力发电厂的操作信号的学习信号生成部，

使控制装置学习条件决定部具有下述功能：即对在控制逻辑数据库中保存的控制参数中、为限制每单位时间的信号的变化幅度而设定的参数和在操作端规格数据库中保存的操作端的动作速度的值进行比较，把绝对值小的值作为学习参数的初始值，

在测量信号中，包含氮氧化物浓度、一氧化碳浓度、二氧化碳浓度、硫化氧化物、以及水银的至少一种，在操作信号中包含决定空气调节阀的开度、空气流量、燃料流量的至少一种的信号，在控制装置中已装备的学习条件决定部中，使之具有以下功能：即使用在控制逻辑数据库和操作信号数据库和测量信号数据库中保存的数据，推定火力发电厂是否正在实施包含燃烧器切换运行、煤种类切换运行、以及负荷变化运行的至少一种的运行，并根据该推定结果更新学习参数的功能；和使用在操作信号数据库和测量信号数据库中保存的数据推定操作端的动作速度，并根据该推定结果更新学习参数的功能。

构成为：在控制装置中，使之配备有具有使用在学习信息数据库中保存的学习信息，把在学习参数中包含的每单位时间的操作信号变化幅度的限制值作为学习的约束条件来推定在学习部中实施了学习时的学习信息数据，将作为该推定结果的追加学习信息数据发送给学习信息数据库的功能的学习信息追加部，在所述操作信号生成部的学习信号生成部中，使用在学习信息数据库中保存的追加学习信息数据来计算操作信号。

3.根据权利要求2所述的工厂的控制装置，其特征在于，

构成为：在控制装置的学习部中，具有下述功能：即把操作端的动作区域分割为预先设定的区域、把从分割后的各区域仅能对邻接的区域进行操作设定为学习的约束条件的功能；和计算作为基于模型的模拟的预测结果的模型输出为到达实现其目标值的区域所需要的操作次数的功能；构成为：在控制装置的学习信息追加部中，具有下述功能：即分割为预先设定的区域的操作端的动作区域中的某区域的操作方法，作为在单位时间后能够到达的区域中、向操作次数的值成为最小的区域移动的操作方法的功能。

4.根据权利要求2所述的工厂的控制装置，其特征在于，

在作为火力发电厂的运行状态的通常运行、燃烧器切换运行、煤种类切换运行或者负荷变化运行的每一种中，设置有设定在所述控制装置中使用的控制参数的用户接口。

5.一种工厂的控制方法，其使用作为工厂的运行状态量的测量信号，计算给予工厂的成为控制指令的操作信号来控制工厂，其特征在于，

通过工厂的控制装置形成模拟成为控制对象的工厂的控制特性的模型，在控制装置的控制逻辑数据库中，保存包含在操作信号的计算中使用的控制参数的控制逻辑数据，在操作端规格数据库中，保存控制工厂的状态量的操作端的操作端规格数据，在操作信号数据库中，保存过去的操作信号，在测量信号数据库中，保存过去的测量信号，使用在控制逻辑数据库和操作端规格数据库中保存的数据，决定学习参数的初始值，同时使用在操作信号数据库和测量信号数据库中保存的数据，推定操作端的动作速度，根据该推定结果更新学习参数，把在学习参数中包含的每单位时间的操作信号变化幅度的限制值设定为学习的约束条件，使用所述模型模拟工厂的特性来学习工厂的操作方法，在学习信息数据库中保存作为学习的结果的学习信息数据，使用作为工厂的运行状态量的测量信号和在学习信息数据库中保存的学习信息数据，计算给予工厂的成为控制指令的操作信号来控制工厂，

在模拟工厂的特性来学习工厂的操作方法时；使用在学习信息数据库中保存的学习信息数据，把在学习参数中包含的每单位时间的操作信号变化幅度的限制值设定为学习的约束条件，来推定实施了学习时的学习信息数据，把作为该推定结果的追加学习信息数据加到学习信息数据库的学习信息数据中，计算给予工厂的成为控制指令的操作信号，来控制工厂，

对在控制逻辑数据库中保存的控制参数中、为限制每单位时间的信号的变化幅度设定的参数，和在操作端规格数据库中保存的操作端的动作速度的值进行比较，把绝对值小的值作为学习参数的初始值。

6.根据权利要求5所述的工厂的控制方法，其特征在于，

把操作端的动作区域分割为预先设定的区域，把从分割后的各区域仅能对邻接的区域进行操作设定为学习的约束条件，计算作为基于模型的模拟的预测结果的模型输出为到达实现其目标值的区域所需要的操作次数，在已分割为预先设定的区域的操作端的动作区域中的某区域的操作方法，作为在单位时间后能够到达的区域中、向所述操作次数的值成为最小的区域移动的操作方法。

7.一种工厂的控制方法，其使用作为火力发电厂的运行状态量的测量信号计算给予火力发电厂的成为控制指令的操作信号，来控制火力发电厂，其特征在于，

通过工厂的控制装置形成模拟成为控制对象的工厂的控制特性的模型，在控制装置的控制逻辑数据库中，保存包含在操作信号的计算中使用的控制参数的控制逻辑数据，在操作端规格数据库中，保存控制工厂的状态量的操作端的操作端规格数据，在操作信号数据库中，保存过去的操作信号，在测量信号数据库中，保存过去的测量信号，使用在控制逻辑数据库和操作端规格数据库中保存的数据，决定学习参数的初始值，同时，使用在控制逻辑数据库和所述操作信号数据库和所述测量信号数据库中保存的数据，更新所述学习参数；把在学习参数中包含的每单位时间的操作信号变化幅度的限制值设定为学习的约束条件，使用所述模型模拟工厂的特性来学习工厂的操作方法，在学习信息数据库中保存作为学习的结果的学习信息数据；使用作为工厂的运行状态量的测量信号和在学习信息数据库中保存的学习信息数据，计算给予工厂的成为控制指令的操作信号，来控制工厂，

对在控制逻辑数据库中保存的控制参数中、为限制每单位时间的信号的变化幅度设定的参数，和在操作端规格数据库中保存的操作端的动作速度的值进行比较，把绝对值小的值作为学习参数的初始值，

在测量信号中包含氮氧化物浓度、一氧化碳浓度、二氧化碳浓度、硫化氧化物、以及水银的至少一种，在操作信号中包含决定空气调节阀的开度、空气流量、燃料流量的至少一种的信号，使用在控制逻辑数据库和操作端规格数据库中保存的数据，决定学习参数的初始值，使用在控制逻辑数据库和操作信号数据库和测量信号数据库中保存的数据，推定火力发电厂是否正在实施包含燃烧器切换运行、煤种类切换运行、以及负荷变化运行的至少一种的运行，根据该推定结果，更新学习参数，或者使用在操作信号数据库和测量信号数据库中保存的数据，推定操作端的动作，根据该推定结果更新学习参数，这样来决定学习参数，把在学习参数中包含的每单位时间的操作信号变化幅度的限制值设定为学习的约束条件，使用模拟火力发电厂的特性的模型学习火力发电厂的操作方法，在学习信息数据库中保存作为学习的结果的学习信息数据，使用作为工厂的运行状态量的测量信号和在学习信息数据库中保存的学习信息数据，计算对于火力发电厂的操作信号，

使用在学习信息数据库中保存的学习信息数据，把在学习参数中包含的每单位时间的操作信号变化幅度的限制值设定为学习的约束条件，推定在学习部中实施学习时的学习信息数据，使用作为该推定结果的追加学习信息数据，计算对于火力发电厂的操作信号。