CN116261690A

CN116261690A - 提供用于高炉热控制的操作指令的计算机系统和方法

Info

Publication number: CN116261690A
Application number: CN202180067006.9A
Authority: CN
Inventors: 锡德里克·肖卡尔特; 法布里斯·汉森; 利昂内尔·豪斯埃默尔; 玛利亚姆·巴尼亚萨迪; 菲利普·贝梅斯
Original assignee: Paul Wurth SA
Current assignee: Paul Wurth SA
Priority date: 2020-09-30
Filing date: 2021-09-28
Publication date: 2023-06-13
Also published as: TW202232356A; WO2022069498A1; JP2023543813A; EP4222562C0; EP4222562A1; LU102103B1; BR112023004793A2; CL2023000841A1; KR20230079093A; EP4222562B1; US20230359155A1

Abstract

提供了用于训练强化学习模型(130)以提供用于高炉热控制的操作指令的计算机系统(100)、计算机实施的方法和计算机程序产品。领域自适应机器学习模型(110)从作为多变量时间序列获得的并反映多个领域的相应高炉(BF1至BFn)的热状态的历史操作数据(21)，生成第一领域不变数据集(22)。通用高炉过程的瞬态模型(121)用于生成人工操作数据(24a)作为反映针对特定热控制动作(26a)的通用高炉(BFg)的热状态的多变量时间序列。生成式深度学习网络(122)通过将从历史操作数据21学习到的特征传递到人工操作数据(24a)来生成第二领域不变数据集(23a)。强化学习模型(130)通过处理组合的第一和第二领域不变数据集(22，23a)鉴于给定的目标函数来确定(1400)针对特定热控制动作(26a)的奖励(131)。根据奖励(131)，基于修改的参数(123‑2)重新生成第二领域不变数据集，并重复奖励的确定，以学习将应用于一个或多个高炉的相应操作状态的优化的热控制动作的优化操作指令。

Description

提供用于高炉热控制的操作指令的计算机系统和方法

技术领域

本发明整体涉及用于控制高炉的系统，更具体地，涉及使用机器学习方法生成用于高炉的操作指令的方法、计算机程序产品和系统。

背景技术

高炉(blast furnaces)被用来生产铁水作为用于钢铁的原料。高炉有非常复杂的过程需要建模，因为它们依赖于多变量的过程输入和干扰。其目的是减少材料和燃料消耗，以优化整个熔炉的效率和稳定性、热金属质量，并提高熔炉的寿命。因此，期望为复杂的生产目标限定提供优化的操作指令。

发明内容

通过训练由递归神经网络实施的强化学习(RL)模型以提供高炉热控制的操作指令，该技术问题通过独立权利要求的特征来解决。操作指令涉及相应的热控制动作。本文中使用的热控制动作是指为了对高炉过程进行热控制而影响执行器的任何动作。取决于控制自动化的水平，操作指令可以针对人类操作者来提供对高炉的校正控制的指导，或者它们可以直接指示高炉的热控制器，该热控制器可以在没有人类交互的情况下执行这样的指令。

由此，来自多个高炉的真实世界(测量的)操作数据与高炉过程的模拟模型(瞬态模型)一起使用，以通过强化学习来训练递归神经网络模型。这可以理解为数据级和模拟模型级的离线RL模型训练。从历史记录的数据中，可以生成多个附加特征，为高炉过程的表征提供更好的洞察力。这些特征是由从记录的原始数据实施的规则限定的现象，或者是以机器学习模型提供的预测形式可用的过程现象的预测。

当被训练时，RL模型向高炉的主执行器提供操作指令的推荐，诸如例如：风口和鼓风设定点，如煤粉喷射(PCI)速率(kg/s)、鼓风流动速率(Nm³/s)、富氧度(％)等，和/或负载成分和装载设定点，如焦炭率(公斤/装载)、碱度、负载分配等。所提供的推荐确保了当过程处于热平衡时，在由虚拟操作者(自治级别5至最大自治级别)或人工操作者手动实施上述推荐后，目标函数将得到优化。目标由高炉专家限定，并且可以由多个目标组成，例如(1)燃料消耗最小化，(2)高炉寿命最大化，(3)CO₂拒绝最小化，(4)稳定高炉操作的铁质量和量。每个目标被加权(例如，由专家)以限定用于训练RL模型的全局目标。当模型被训练并部署在生产中时，它可以继续从全局目标和实际目标之间的偏差中连续学习(在线RL模型训练)，实际目标是在针对相应高炉的热控制执行推荐的操作指令之后达到的。

在一个实施例中，提供了计算机实施的方法，用于训练强化学习模型以提供高炉热控制的操作指令。例如，强化学习模型可以由递归神经网络实施。

通过迁移学习训练的领域自适应机器学习模型处理从多个领域的多个高炉获得的作为多元时间序列的历史操作数据。历史操作数据反映了多个领域相应高炉的热状态。典型地，每个高炉有几千个传感器测量操作参数，诸如例如温度、压力、化学含量等。在特定时间点测量的这些参数限定了高炉在该时间点的相应热状态。由于每个高炉的多种特性(例如，操作模式、尺寸、输入材料(材料成分)等)，如果不对多元时间序列数据进行专门的转换，则无法直接比较两个高炉(源高炉和目标高炉)。

领域自适应机器学习模型生成代表任何高炉的热状态的第一领域不变数据集作为输出，而与领域无关。历史操作数据通常在过去从响应于相应的热控制动作的多个不同的高炉(例如，不同尺寸、在不同条件下操作等)收集。典型地，每个高炉对应于特定的领域，但是领域也可以是高炉的特定操作。领域自适应机器学习模型被训练以对从不同领域获得的数据执行一种归一化操作，以便最终这些数据变得可比较。

可以使用不同的迁移学习方法。例如，领域自适应机器学习模型可以由具有卷积和/或递归层的深度学习神经网络实施，该深度学习神经网络被训练成从历史操作数据中提取领域不变特征作为第一领域不变数据集。在该实施例中，实施迁移学习以从历史操作数据中提取领域不变特征。深度学习中的特征是从由该特定高炉的操作生成的多变量时间序列数据中提取的特定高炉特征的抽象表示。通过应用迁移学习，可以从多个独立于特定熔炉(即独立于各种领域)的真实世界高炉中提取领域不变特征。

在替代方法中，领域自适应机器学习模型已被训练以学习从多个高炉到参考高炉的对应原始数据的多个映射。参考高炉可以是代表通用高炉的虚拟高炉，也可以是实际高炉。每个映射是相应特定高炉到参考高炉的转换的表示。在这种方法中，多个映射对应于第一领域不变数据集。例如，这种领域自适应机器学习模型可以由基于CycleGAN架构的生成式深度学习架构来实施，CycleGAN架构在伪图像生成中很流行。CycleGAN是GAN架构的扩展，涉及两个生成器模型和两个鉴别器模型的同时训练。一个生成器将来自第一领域的数据作为输入并输出用于第二领域的数据，而另一生成器将来自第二领域的数据作为输入并生成用于第一领域的数据。然后使用鉴别器模型来确定生成的数据的可信程度，并相应地更新生成器模型。CycleGAN对架构使用了附加的扩展，称为循环一致性。背后的想法是，第一生成器输出的数据可以用作第二生成器的输入，第二生成器的输出应该与原始数据匹配。反过来也是正确的：第二生成器的输出可以作为输入馈送到第一生成器，并且结果应该与第二生成器的输入相匹配。

循环一致性(Cycle consistency)是机器翻译中的概念，其中从英语翻译到法语的短语应该从法语翻译回英语，并且与原始短语相同。相反的过程也应该是正确的。CycleGAN通过增加附加的损失来测量第二生成器的生成输出和原始图像之间的差异，反之亦然，从而促进循环一致性。这充当生成器模型的正则化，指引新领域中的图像生成过程朝向图像翻译。为了使原始CycleGAN架构从图像处理适应于多变量时间序列数据的处理以获得第一领域不变数据集，可以通过使用递归层(例如LSTM)结合卷积层来实施以下修改，以学习多变量时间序列数据的时间依赖性，如C.Schockaert，H.Hoyez，(2020)“MTS-CycleGAN：An Adversarial-based Deep Mapping Learning Network for MultivariateTime Series Domain Adaptation Applied to the Ironmaking Industry(应用于炼铁工业的多变量时间序列领域适应的基于对抗性的深度映射学习网络)”，载于arXiv：2007.07518。

所获得的第一领域不变数据集表示高炉的热状态，所述热状态是在将相应的热控制动作应用于相应的高炉之后存在的。在领域自适应之后，该表示不再与特定的高炉相关联(或者以学习到参考高炉的映射的形式，或者以提取的公共特征的形式)。

同时，通用高炉过程的瞬态模型用于生成人工操作数据，作为反映针对特定热控制动作的通用高炉在应用特定控制动作之后转变到的热状态的多元时间序列。通用高炉是虚拟设备(类似于参考高炉)。瞬态模型是基于瞬态的数值模型，具有适当的物理、化学、热和流动条件，用于生成代表通用高炉热状态的合理人工数据。瞬态模型反映了通用高炉相应的物理、化学、热和流动条件，并在交换热量、质量和动量传递时为通用高炉中构造的固体层的向上气体流动和向下移动提供解决方案。

该模型接收作为输入参数的负载材料量和化学分析以及热风条件，如温度、压力、PCI速率和富氧。瞬态模型有：预测热金属温度的能量公式，计算热金属化学成分的种类公式，预测顶部气体温度、效率(Eta CO)和压力的气相公式。由于模型的瞬态性质，可以通过随时间改变输入参数来生成人工动态时间序列数据，类似于真实世界高炉的操作。有利的是，瞬态模型可以使用超过真实世界高炉的历史操作数据所覆盖的数据范围的输入参数的数据范围。换句话说，通用高炉的参数范围可以扩展到真实世界高炉操作数据不能覆盖的操作参数空间。

通用高炉在高炉的高度上被分成有限数量的层。每一层由一次装载的原料(如铁矿石和焦炭)组成。这些层代表计算单元，在这些单元上对公式进行数值求解。使用滚道子模型限定对于气相特性(如成分、速度和温度)的边界条件，而对于固相的边界条件限定为在室温中的装载材料成分。如在“Deepak Sau等人的Areduced order mathematical modelof the blast furnace raceway with and without pulverized coal injection forreal time plant application(用于实时工厂应用的有和没有煤粉喷射的高炉滚道的降阶数学模型)，International Journal of Modelling and Simulation,DOI:10.1080/02286203.2018.1435759.2018年2月”，中描述了这种滚道模型。将煤粉喷射进入高炉风口，以减少焦炭消耗，降低热金属生产成本。了解煤粉在高炉滚道区的燃烧行为和未燃烧焦的累积是很重要的。本文描述了用于实时工厂应用的高炉降阶滚道模型。该模型能够预测在有和没有煤粉喷射(PCI)的情况中滚道区的径向温度和气体成分分布。所有关键操作过程参数(如PCI速率、鼓风温度、鼓风体积、富氧和蒸汽添加)对滚道燃烧行为、温度和气体成分分布以及滚道深度的影响已尽可能通过文献和工厂数据库进行了研究和验证。

完全解析气相和固相在计算上非常昂贵。因此，根据实施例，为了节省计算资源(并由此节省能量)，气相可以被视为稳定状态，因为气体的阻力时间(约3秒)远小于时间步长(约2分钟)。然而，固相被认为是瞬态相。该算法首先以迭代顺序的方式求解气相公式，以满足每个时间步长的参数的相对容差。当气相参数收敛到限定的公差时，则以相同的时间步长顺序求解固相公式。时间循环一直持续到模拟结束。气体和固体参数以及传热和传质等传递参数在每个时间步长的开始更新。在顺序方式中，一旦求解一个参数，其他参数被认为是已知的，这意味着使用旧值。这样，可以求解非线性项和耦接参数，避免复杂和昂贵的块求解器。

在一个实施方式中，瞬态模型具有多个计算单元，每个单元代表由一次装载的原料组成的通用高炉的相应层。每个计算单元以迭代顺序的方式求解气相公式，以满足每个时间步长中的相对气相参数容差。当气相参数收敛到预限定的容差值时，则以相同的时间步长顺序求解固相公式。

气相公式的迭代求解包括压力-速度校正回路的每次迭代：计算气体、固体和液体特性；计算反应速率和传热系数；并计算气体温度、种类、速度和压降。

一旦气相参数已经收敛到所述预限定的容差值，计算继续进行，在相同的时间步长中连续求解固相公式，包括：计算固体温度和种类；计算液体温度和种类；和计算固体速度。

然后从瞬态模型获得的人工操作数据由在历史操作数据的多变量时间序列上训练的生成式深度学习网络处理。这允许用真实世界操作数据的特征来扩充人工操作数据，以使它们更加真实。经过适当训练的生成式深度学习网络可以以一种方式扩充人工数据，该方式使得扩充后的合成操作数据变成针对专家无法区分的真实世界操作数据。这有利于用具有与真实世界测试输入相似特征的数据来训练强化学习模型，真实世界测试输入是在预测阶段操作强化学习模型时预期的。也就是说，人工操作数据的处理生成第二领域不变数据集，该数据集用从历史操作数据学习的特征来扩充。尽管第二领域不变数据集仅仅是基于瞬态模型计算的合成数据集，但它仍然是领域不变数据集，显示了真实世界历史操作数据时间序列中存在的特性特征。

现在用组合的第一领域不变数据集和第二领域不变数据集来训练强化学习模型。如果训练仅依赖于第一数据集，则强化学习模型不能学习尚未应用于多个高炉的优化的控制指令。通过将这种真实世界的训练数据集与人工生成的数据集相结合，瞬态模型可以用于模拟通用高炉在变化的优化目标下对应用于通用高炉的给定热状态的替代控制动作的反应。当处理组合的第一领域不变数据集和第二领域不变数据集时，强化学习模型鉴于给定的目标函数和高炉的当前状态确定由瞬态模型用于计算第二不变数据集的特定热控制动作的奖励。奖励函数描述了强化学习模型(即代理)应该如何表现。换句话说，它们有规范性的内容，规定了代理人应该完成什么。没有绝对的限制，但是如果奖励函数“表现得更好”，那么代理学习得更好。实际上，这意味着收敛速度提高，代理不会陷入局部极小值。例如，奖励函数可以测量离多目标函数的帕累托前沿(Pareto front)“多远”，特定热控制动作正在引导该过程。根据限定，帕累托前沿是一组非支配解，如果没有目标可以在不牺牲至少一个其他目标的情况下得到改善，则被选为最优解。对于给定的目标，另一个目标的改进增量(delta)的测量可以例如通过梯度分析来测量。奖励函数可以是表征帕累托前沿特性的那些测量值的函数。本领域技术人员可以使用其他适当的奖励功能。

如果确定的奖励低于预定的最小奖励，那么推荐的热控制动作(控制指令)就对高炉热状态的预期影响而言不是最佳的。在这种情况下，可以通过瞬态模型模拟替代控制动作。为此目的，基于强化学习模型的当前环境和当前学习步骤的热控制动作输出(即导致过低奖励的控制动作)，遗传搜索和/或贝叶斯优化算法指导对用于进一步(替代)热控制动作的修改参数(即，瞬态模型的输入参数)的搜索。现在瞬态模型基于修改的参数重新生成第二领域不变数据集(更新的第二数据集)。然后，更新的第二数据集被馈送到强化学习模型的输入层，并且为更新的第二数据集确定新的奖励。迭代地执行该过程，直到强化学习模型已经学会输出用于任何可预见情况的优化的热控制动作的优化操作指令。

一旦强化学习模型已经如所述被训练，它就可以被操作以基于特定高炉的当前操作状态数据来预测生产中特定高炉的至少一个执行器的优化操作指令。换句话说，训练的强化学习模型接收测试输入数据，该测试输入数据包括与强化学习模型的输入层匹配的操作数据，并且指定高炉的当前(热)状态。该模型处理测试输入数据，并提供与应用于高炉的热控制动作相对应的优化的操作指令的预测作为输出，以鉴于给定的目标函数实现优化结果。

有利地，每个预测数据集可以用于进一步改进强化学习模型的训练。为此目的，在根据优化的操作指令(预测输出)将热控制动作应用于至少一个执行器之后，基于在执行热控制动作之后特定高炉的新状态，模型确定奖励。如果奖励低于预限定阈值，则瞬态模型为一个或多个替代操作指令重新生成第二领域不变数据，用于重新训练强化学习模型。该重新训练可以在根据相应预测的优化的操作指令应用任何热控制动作之后应用。

有利地，强化学习模型被训练以学习优化的操作指令，使得相关联的目标测量位于相对应的多维目标函数的帕累托前沿的预限定范围内。

在一个实施例中，瞬态模型具有多个计算单元，每个单元代表通用高炉的由一次装载的原料组成的相应层。每个计算单元以迭代顺序的方式求解气相公式，以满足每个时间步长中的相对气相参数容差。当气相参数收敛到预限定的容差值时，计算单元以相同的时间步长顺序求解固相公式。

表1-高炉控制的热控自动化级别

表1描述了高炉控制的五个自动化级别。推荐强化学习模型和生成过程描述的高级情境性信息的进一步相关的机器学习模型(例如：过程现象预测，热金属温度预测等)，可以用于实现4级或5级自动化，而单独的相关联的机器学习模型只能有助于自动化的2级或3级。在没有相关联的机器学习模型的情况下训练推荐模型可能导致3级自动化。本文公开的用于训练用于推荐(预测)最佳热控制动作的强化学习模型的方法可以用于实现4级或5级自动化，前提是该过程由机器学习模型和用于过程表征的附加传感器生成的高级情境性数据精确表示，如在具体实施方式中更详细描述的。这种相关联的机器学习模型可以用于添加进一步的数据扩充能力，以改进用于强化学习的训练数据集，因为它们基于接收的操作数据(原始传感器数据)提供预测，该操作数据用作进一步的输入，以训练超越领域不变过程数据的强化学习模型。通过这种附加的“情境性”信息，强化学习模型获得了关于新维度的知识，这些知识可以用来学习，更准确地说，用于热控制的最佳动作。

当基于历史操作数据和/或与高炉环境相关的进一步测量环境数据使用此类相关联机器学习模型来预测关于特定高炉状态的未来热演化的信息时，需要相应地对相关联的机器学习模型进行相应的训练，以使用与未来时间点相关的未来多元时间序列数据来补充历史操作数据(从传感器获得)。然后，所生成的未来多元时间序列可以由领域适应机器学习模型以与历史操作数据相同的方式进行处理，以用与未来时间点相关的数据来扩充第一领域不变数据集。

相关联的机器学习模型可以通过以下方式进行训练。在第一训练步骤中，使用一个或多个机器学习算法，利用操作数据和/或环境数据的不同选择来训练多个基础模型，以提供基础模型特定的未来多元时间序列数据作为对所述机器学习模型中的特定一个模型的训练输入。因此，每个基础模型集中于高炉过程的单个特定方面(例如，在给定的未来时间间隔内热金属温度趋势的预测)。在第二训练步骤中，用基础模型特定的未来多元时间序列数据训练相关联的机器学习模型，以学习基础模型的哪个组合最适合于所述高炉的哪个状态。

本发明的其他方面将通过所附权利要求中具体描述的元件和组合来实现和获得。应当理解，前面的一般描述和下面的详细描述都只是示例性和解释性的，而不是对所描述的本发明的限制。

附图说明

图1示出了用于训练强化学习模型以提供高炉热控制的操作指令的计算机系统的实施例的简化图；

图2是可以由计算机系统的实施例执行的计算机实施的方法的简化流程图；

图3A示出了反映根据具有多个计算单元的实施例的瞬态模型的处理的简化流程图，其中每个单元代表通用高炉的相应层；

图3B以高炉的可视化表示示出了计算单元；

图4示出了用于强化学习模型的奖励计算的示例性实施例；

图5示出了作为奖励函数的目标空间中点云的边界的帕累托前沿；

图6A、图6B示出了用于可视化目的的相应高炉的二维目标函数的目标空间中的帕累托前沿示例；

图7示出了根据实施例的用于训练数据扩充的附加机器学习模型的使用；

图8示出了根据实施例的通过使用附加深度学习模型来使用风口图像用于训练数据扩充；

图9示出了使用附加的传感器来表征高炉的状态，以训练强化学习模型；以及

图10是示出可以与这里描述的技术一起使用的通用计算机设备和通用移动计算机设备的示例的示图。

具体实施方式

图1示出了用于训练强化学习模型130以提供高炉热控制的操作指令的计算机系统100的基本实施例的简化图。图1是在图2的上下文中描述的，图2是计算机实施的方法1000的简化流程图，其可以由计算机系统100的实施例执行。因此，以下在图2的上下文中对图1的描述涉及两个图的附图标记。

在一个实施例中，计算机系统100与多个高炉BF1至BFn通信耦接。高炉BF1至BFn可以属于不同的领域，并提供作为多元时间序列获得的并反映相应高炉的热状态的历史操作数据21。这种历史操作数据的示例包括但不限于负载材料量和化学分析、温度、压力、PCI速率和富氧，具有预测热金属温度的能量公式、计算热金属化学成分的一个或多个种类公式和预测顶部气体温度、效率(Eta CO)和压力的一个或多个气相公式。

在真实世界的高炉中，不同的领域可以与描述不同领域中高炉的热状态的历史操作数据21中的参数值的不同组合相关联，尽管这些热状态之间存在相似性。因此，系统100具有领域自适应机器学习模型DAM 110，以生成1100代表高炉BF1至BFn中任何一个的热状态的第一领域不变数据集22，而与领域无关。已经通过使用迁移学习方法TL 111来训练DAM110。在一个实施方式中，DAM 110可以由具有卷积和/或递归层的生成式深度学习神经网络GDL1 113实施，该生成式深度学习神经网络被训练成从历史操作数据21中提取领域不变特征作为第一领域不变数据集22。

在替代实施方式中，DAM 110可以由生成式深度学习架构(例如，基于先前描述的CycleGAN架构)来实施，生成式深度学习架构已经被训练来学习从多个高炉BF1到BFn到参考高炉BFr的对应原始数据的多个映射112。因此，每个映射是相应高炉(例如，BF1)到参考高炉BFr的转换的表示。在该实施方式中，多个映射对应于第一领域不变数据集22。

系统100进一步具有人工数据生成器模块ADG 120，该人工数据生成器模块ADG120被配置为生成1200人工操作数据24a作为反映针对特定热控制动作26a的通用高炉BFg的热状态的多变量时间序列。为此目的，ADG 120使用通用高炉过程的瞬态模型121。瞬态模型121是模拟模型，该模型反映了通用高炉相应的物理、化学、热和流动条件，并在交换热量、质量和动量传递时为通用高炉中构造的固体层向上气体流动和向下移动提供解决方案。通常，模拟模型基于对应于在历史操作数据中监控的这种真实世界状态参数的模拟参数。

简要地转向图3A，瞬态模型121包括多个计算单元，每个单元代表由一次装载的原料组成的通用高炉BFg的相应层。每个计算单元以迭代顺序的方式求解气相公式，以满足每个时间步长(迭代时间间隔)中的相对气相参数容差。一旦气相参数收敛到预限定的容差值，则以相同的时间步长顺序求解固相公式。对于压力-速度校正循环的每次迭代，迭代求解气相公式的步骤可以包括：

-计算3300种气体、固体和液体的特性；

-计算3400反应速率和传热系数；以及

-计算3500气体温度、种类、速度和压降。

顺序求解固相公式可以包括：

-计算3600固体温度和种类；

-计算3700液体的温度和种类；以及

-计算3800固体速度。

现在转到图3B，在高炉的可视化表示300中示出了计算单元CC，瞬态模型121可以接收以下输入参数302中的一个或多个：负载材料302-1的量和化学分析、温度、压力、PCI速率302-2和氧富集。此外，熔炉剖面302-3描述了高炉的几何形状，因此对装载材料的传递时间有影响(例如，高的高炉的传递时间可以为8小时，而对于短的高炉的传递时间可以仅为6小时)。熔炉剖面302-3是用于人工数据生成的每个高炉的固定参数。对于本领域技术人员来说很清楚，瞬态模型考虑了高炉的几何形状。瞬态模型产生输出303，例如具有预测热金属温度的能量公式、计算热金属化学成分303-2的一个或多个种类公式、以及预测顶部气体温度、效率(Eta CO)和压力(参见顶部气体状况303-1)的一个或多个气相公式。

换句话说，瞬态(模拟)模型是一个数值模型，具有适当的物理、化学、热和流动条件，用于生成合理的人工数据。由于模型的瞬态性质，可以通过随时间改变输入参数来生成人工动态时间序列数据，类似于真实世界的熔炉操作。因此，(参数)数据范围可以扩展到从真实世界高炉获得的实际高炉数据不能覆盖的更宽的操作空间。

在瞬态模型中，熔炉在熔炉的高度上被分成有限数量的层。在图3B中，各层由实心水平线301分隔。每一层由一次装载的原料组成，在这种情况下，是铁矿石和焦炭。这些层表示如前所述的计算单元CC310，在这些单元上对公式进行数值求解。在一个实施例中，使用滚道子模型320限定对于气相特性(如成分、速度和温度)的边界条件，而固相的边界条件被限定为在室温中的装载材料成分。高炉300的内部状态304包括气相、固相和液相的子状态。气相的子状态可以表征为：温度(Tg，K)，压力(p，Pa)，速度(Vg，m/s)，种类(CO，CO ₂，H₂，H₂O，N₂)。固相的子状态可以表征为：温度(Ts，K)、速度(Vs，m/s)、种类(Fe₂O₃、Fe₃O₄、FeO、Fe、炉渣、焦炭、焦炭灰)。并且液相的子状态可以表征为：温度(Tl，K)和种类(Fe、炉渣、FeO)。

气相和固相的完全解析在计算上非常昂贵(并且耗时)。因此，为了节省时间和能量，气相可以被视为稳态，因为气体的阻力时间(约3秒)远小于限定为迭代间隔的时间步长(约2分钟)。然而，固相被认为是瞬态相。求解算法(参见图3A)首先以迭代顺序方式求解气相公式以满足每个时间步长中参数的相对容差。当气相参数收敛到预限定的容差值时，则以相同的时间步长顺序求解固相公式。时间循环一直持续到模拟结束。气体和固体参数以及传热和传质等传递参数在每个时间步长的开始更新。在顺序方式中，一旦求解一个参数，其他参数被认为是已知的，这意味着使用旧值。这样，可以求解非线性项和耦接参数，避免复杂和昂贵的块解算器。

如上所述，由瞬态模型121生成的人工操作数据24a是根据数学公式生成的，该数学公式产生干净的数据，因为人工操作数据24a不显示任何真实世界的特征，诸如例如由相应测量/传感器设备引起的噪声或偏移。为了训练强化学习模型RILM 130以进行高度精确的预测，期望向模型130提供反映被用作RILM 130的测试输入的真实世界操作数据的特征的训练数据。因此，ADG 120使用具有递归层的生成式深度学习网络GDL2 122通过将从历史操作数据21学习到的特征传递到人工操作数据24a来生成1300第二领域不变数据集23a。GDL2 122已经在历史操作数据21的多变量时间序列上被训练，以从历史操作数据中学习所述真实世界的特征并将学习到的模式应用于模拟的人工操作数据24a。这产生了反映响应于热控制动作26a的通用高炉BFg的热状态的纯合成数据集23a。应当注意的是，通过利用使用递归层的生成式深度学习网络，在由其他信号给定的情景中学习每个信号的自然特征，是类似于应用于图像用于学习一组特定图画的风格并将该风格应用于任何其他图像的众所周知的技术。类似的技术可以应用于多变量时间序列，并且这些方法可以被解决，例如，当适用于多元时间序列数据时，通过前面提到的基于CycleGAN的算法。

将第一领域不变数据集22和合成的第二不变数据集23这两个数据集作为训练数据提供给RILM 130。RILM 130通过处理组合的第一领域不变数据集22和第二领域不变数据集23a，鉴于给定的目标函数来确定1400针对特定热控制动作26a的奖励131。基于这样的训练数据，RILM 130学习取决于(通用)高炉(环境)状态的热控制动作。例如，作为示例，该环境可以由高炉的操作、材料成分等来限定。

取决于奖励131，ADG 120基于修改的参数123-2重新生成1300第二领域不变数据集。参数生成器PG 123使用遗传搜索和/或贝叶斯优化算法123-1来基于RILM 130的当前环境25a和当前学习步骤的热控制动作26a输出来指导对用于进一步热控制动作的修改参数的搜索。通过修改参数，瞬态模型模拟了进一步的控制动作的热状态。然后将重新生成的第二领域不变数据集作为新的训练输入提供给RILM 130，并且为新的训练输入再次确定奖励。重复该过程，直到当前奖励超过预限定奖励阈值1500，以学习用于优化的热控制动作的优化的操作指令。

在下文中，描述了用于奖励计算的真实世界场景示例，如图4所示。应当注意的是，本领域技术人员可以使用其他适当的奖励函数来实现强化学习模型。以下示例场景描述了优化，以通过使用遗传搜索算法来识别要最大化的简单双目标函数的最佳执行器值。

目标：质量最大化(硅含量不变)和产量最大化

执行器：PCI速率(kg/s)、鼓风流动速率(nm³/s)、焦炭率(kg/装载)

奖励：

＝1/(Euclidian_dist_to_pareto_front)

作为示例，通过每个目标的改进增量分析来近似：

1/eucl_dist((quality_prev，prod_prev)，(quality_new，prod_new))

在这个示例中，奖励的限定只有在遗传搜索算法确保向帕累托前沿收敛时才有效。也就是说，在这个双目标函数最大化的示例中，质量和生产的改进在两次连续迭代之间都是正的。

初始高炉热状态(当前环境)：S_init

-迭代1：

执行器值＝[PCI_1,blast_flow_rate_1,coke_rate_1]

目标测量＝quality_1；prod_1

-迭代2：

执行器值＝[PCI_2,blast_flow_rate_2,coke_rate_2]

目标测量＝quality_2；prod_2

奖励＝R_2＝1/eucl_dist((quality_1,prod_1),(quality_2,prod_2))

-迭代3：

执行器值＝[PCI_3,blast_flow_rate_3,coke_rate_3]

目标测量＝quality_3；prod_3

奖励＝R_3＝1/eucl_dist((quality_2,prod_2),(quality_3,prod_3))

………………………

-迭代i：

执行器值＝[PCI_i,blast_flow_rate_i,coke_rate_i]

目标测量＝quality_i；prod_i

奖励＝R_i＝1/eucl_dist((quality_i-1,prod_i-1),(quality_i,prod_i))

………………………

-迭代选项：(到达帕累托前沿)

执行器值＝[PCI_opt,blast_flow_rate_opt,coke_rate_opt]

目标测量＝quality_opt；prod_opt

奖励＝R_opt＝1/eucl_dist((quality_opt-1,prod_opt-1),(quality_opt,prod_opt))

在不使用遗传搜索算法的情况下，可以执行耗时的随机搜索。在图5中，这种情况的帕累托前沿由具有点状填充图案(在目标空间中点云的边界处)的点(quality_i,prod_i)表征。在这种情况下，每个点(quality_i，prod_i)的奖励可以计算为欧几里德距离的倒数，并且在已经识别了帕累托前沿之后计算(而不是在随机搜索过程期间)。

总之，强化学习模型130被训练以学习优化的操作指令，使得相关联的目标测量位于相对应的多维目标函数的帕累托前沿的预限定范围内。

一旦学习完成，RILM 130已经被训练以提供1600个优化的操作指令，以响应于测试输入以及描述所述高炉的当前状态的当前操作数据(参见图2)，用于真实世界高炉的热控制。任选地，RILM 130的训练可以在高炉操作时以在线模式继续。

在在线模式中，强化学习模型130基于所述高炉的当前操作状态数据来预测1700(参见图2)用于生产中的特定高炉的至少一个执行器的优化的操作指令。假设将优化的操作指令的热控制动作应用于高炉(由操作者或通过相应的控制系统自动进行)。在根据优化的操作指令将热控制动作施加到至少一个执行器之后，现在基于在执行热控制动作之后达到的所述高炉的新状态来确定奖励。再次，将确定的奖励与预限定奖励阈值进行比较1500。如果奖励低于该阈值，ADG 120重新生成(使用瞬时模型121)用于一个或多个替代操作指令的第二领域不变数据，用于重新训练强化学习模型130。

图6A和图6B示出了对于相应的高炉状态BFS1、BFS2(为了可视化的目的)的二维目标函数(具有两个目标O1、O2)的目标空间中的帕累托前沿(虚线)。RILM模型需要学习高炉的最优控制指令，以便相关的目标测量位于帕累托前沿。在这些图中，已经计算了每个历史和人工数据样本的目标。这些图示出了历史数据的局限性，历史数据通常仅限于高炉的几种操作模式，导致目标空间中的聚类。因此，类型22-2的项目符号与从历史数据获得的领域不变数据集相关联。类型23a的正方形与基于人工(模拟)数据的领域不变数据集相关联。类型22-1的项目符号与由从历史数据21(原始数据)或22(领域不变原始数据)训练的深度生成式模型生成的数据相关联。这种深度生成式模型充当高级插值算法，提供从历史数据生成的新原始数据。因此，生成的数据只能相对接近现有的历史数据。与类型23a相关联的这种数据的生成在图1和图2中更详细地描述。图6B中，类型22-3的三角形与在高炉操作期间获得的在线数据相关联，并用于RILM 130的在线训练模式。类型22-3的三角形自然更接近帕累托前沿，因为它们是由提供优化的操作指令推荐的训练模型产生的(参见图2中的预测1700)。然而，为了进一步优化关于这些数据的操作指令的推荐，触发RILM 130的在线重新训练。

在一个实施例中，系统100可以包括数据扩充模块DA140，以通过使用一个或多个专门训练的机器学习模型ML1至MLn来扩充由高炉上的传感器测量的操作原始数据21，以预测关于高炉状态的未来热演变的信息，或与当前热状态相关的任何其他信息(例如：过程现象预测，例如虚拟传感器以比实际传感器更高的频率提供测量)。这种预测服务于与用于训练RILM 130模型的原始数据相同的目的，并且以与原始数据21(历史操作数据)相同的方式使用。这种经过专门训练的机器学习模型的示例是预测3小时内热金属温度的模型。然后可以使用对热金属温度的这种预测来训练RILM 130。这种数据扩充进一步改进了用于RILM130的强化训练的训练数据集，并导致强化学习模型的改进的预测精度。可选地，可以添加新的传感器，如图9所述。这允许更精确地表征用于训练RILM 130的高炉的状态。例如，如果熔炉中装载的原材料的一些特性缺失(例如，孔隙率、湿度)，它们可以被测量(使用附加的传感器)，或者它们可以使用机器学习模型ML1到MLn被潜在地估计。

下面列出了机器学习模型(ML)的列表，该机器学习模型有利于数据扩充以允许对高炉的状态进行更精确的表征，并因此允许对RILM 130进行更精确的训练：

a)用于高级数据验证的ML：由高炉传感器提供的原始数据中的任何异常都可以在训练机器学习模型之前被检测到，或者可以被用作部署的机器学习模型的生产的输入

b)用于预测高炉热状态和热金属生产KPI(关键绩效指标)的ML

c)用于装载矩阵优化的ML

d)用于基于风口相机过程检查的ML

e)用于最佳操作的丝锥开孔器推荐的ML

f)用于基于TMT SOMA现象检测和KPI计算/预测的ML

g)用于通过工艺工程师限定的过程规则(潜在地使用由机器学习模型生成的输出)或通过监督或无监督的机器学习或模式检测模型来标记现象的ML

h)用于根据g中生成的标记来预测现象的ML)

i)用于过程预测的ML

j)用于预测性和规定性维护的ML

k)用于高级情境性表示学习的ML：环境传感器可以用于训练用于学习表示的无监督深度学习模型，用于扩充上述所需用例的数据集。

图7更详细地描述了实现DA140的方法，该DA140用于训练机器学习模型以预测3小时内的热金属的温度。图7示出了训练706机器学习模型MLT以根据多个机器学习模型(称为基础模型)的预测BMP 704预测在未来时间点(例如，3小时内)的热金属的温度的过程。基础模型被训练703以生成预测以扩充测量的原始数据。

为此，用不同的变量选择(过程变量701和/或情境性变量702)和/或机器学习算法来训练703多个基础模型。过程变量701是由相应传感器直接在高炉上测量的原始数据(操作数据)。情境性变量702由测量环境变量如噪声、图像等的任何其他传感器测量。过程变量和情境性变量是可以用于训练机器学习模型的变量。

每个基础模型提供输出704、705，该输出704、705可以用于训练706MLT(通常，用于训练任何机器学习模型以预测除3小时内的热金属温度之外的其他参数)以做出比基础模型的任何预测更好的所讨论的参数的预测。基础模型的目的是生成用于训练更精确的预测模型(即，诸如MLT的元模型)的附加信息。预测模型MLT还使用过程变量701和情境性变量702作为输入，以学习基础模型的哪个组合最适合于高炉的哪个状态。也就是说，元模型正在学习如何组合所有基础模型的输出，以对特定的高炉状态参数进行更准确和精确的预测。一些基础模型可以不预测3小时内的热金属温度，但是可以预测热金属温度的趋势——例如，温度是升高、降低还是稳定，或者它们可以预测在不久将来的特定过程事件的发生，等等。换句话说，基础模型生成与过程相关的附加信息(过程信息PI 705)或者已经是用于热金属温度的基础模型预测BMP 704或者热金属温度的特征的附加信息作为输出(例如：趋势预测)。一旦MLT已经基于各种基础模型的输出被训练706，它提供比任何基础模型(BMP704)更精确的预测MLTP 705。

在该示例中，过程信息PI 705可以提供MLT的输入信息，如在范围[0,6h]内的特征预测，包括但不限于聚类、过程现象、过程/情境性变量或特征。这些输出与过程相关，并提供与MLT预测的热金属温度具有潜在更高相关性的新输入。热金属温度的基础模型预测BMP704可以提供诸如3小时和6小时内热金属温度的趋势(例如，高上升、中上升、低上升、稳定、低下降、中下降、高下降)或所述时间范围内的预测热金属生产质量的信息。BMP 704是与MLT的输出直接相关的基础模型的输出，或者是相同的输出或者是MLT的特征。相同输出的示例是“3小时内的热金属温度”，并且该输出特征的示例可以是由基础模型预测的“温度趋势”。

在下文中，将更详细地描述上述机器学习模型列表的一些示例。

高级数据验证：

数据验证金字塔可以由多个数据验证级别限定，如下所述，从金字塔的最低级别开始，到最高级别结束。

-传感器维护和校准：可以实施用于传感器维护和校准的程序。可以涉及人工智能(AI)来最佳地安排维护动作，并规定要执行的最佳动作，以尽可能长时间地保持传感器处于操作模式。

-处理单个传感器信号的最小值/最大值：第一级异常检测是限定原始数据的每个传感器信号允许的最小值和最大值。最小值和最大值是恒定的，因此与过程操作无关。基于条件的过程最小/最大值可以在过程专家限定的规则中配置，以便带来一些情景。

-个别传感器信号的离群值和异常检测：下面列出的典型方法越来越复杂：

i)统计振幅离群值：

一种用于检测点异常的数据分析方法，根据限定，点异常是由过程专家指定并基于传感器记录的时间序列的典型自相关深度在幅度上从长度为L的移动时间窗口内的平均值偏移的值。

ii)监督异常检测：

监督算法学习传感器信号中的已知模式，以便检测异常。

iii)无监督离群值检测：

这类的方法是在从传感器信号计算特征之后，通过应用聚类算法来检测离群值。因此，这种方法不限于给定情景的异常振幅值，而是还可以考虑光谱信息或由特征限定的任何其他特征。

-多传感器信号的异常检测：由于大量的传感器，冗余传感器信号之间的手动交叉检查不足以检测数据中复杂的情境性异常。基于规则的方法通常是受限的，因为只验证已知的关系。同样的限制也适用于受监督的数据驱动模型，该模型已经被训练来检测已知的异常。无监督的数据驱动方法是补充的验证步骤，以确保检测到已知和未知的异常。情境性异常可以由数据驱动的模型来检测，该模型已经学习了传感器信号之间的相关性，并且因此能够检测传感器测量是否偏离了由该过程限定的给定情境性中的正常操作。通过结合无监督数据驱动的异常检测的机器学习来发现因果关系，从而实现了根本原因分析。

-交叉检查传感器与模拟模型结果：如果描述该过程的模拟模型可以用，则模型结果与传感器的原始数据的交叉检查提供了专家级的自主数据验证。然而，这种验证仅限于模拟模型假设所固有的操作条件。

数据验证金字塔旨在检测接收到的操作数据(原始数据)中的异常。异常可能与有故障的传感器有关，但也与过程有关。在过程异常的情况下，罕见的过程事件可以被正确地标记，用于开发特定的机器学习模型，如“少样本学习”(FSL)，以便它们的正确检测或预测。FSL是已知的机器学习范式，用于从有限数量的具有监督信息的示例中学习。一种旨在区分过程异常和与故障传感器相关的异常的方法是根本原因分析。对导致异常检测的因果关系的分析，能够将异常分类为与过程或传感器相关的异常。为此，工艺工程师正在限定规则或机器学习模型，并且从上述规则生成的因果关系和标签中训练半监督分类器。

高炉热状态预测：

这涉及在图7中以示例方式使用的机器学习模型MLT。MLT提供了关于高炉热状态的未来和热金属生产特征的见解。根据可以用于预测高炉的热状态或热金属生产特性的相关工艺变量和其他情境性变量，MLT被训练成在给定时间范围预测以下度量：

-3小时和6小时内热金属温度趋势：高上升、中上升、低上升、稳定、低下降、中下降、高下降

-未来1小时至6小时多个时间范围的热金属硅含量预测

-未来1小时至6小时的多个时间范围内的热金属质量

该模型可以通过手动测量每个铸件的热金属温度来训练，或者通过专用传感器以自主方式连续训练。可以通过组合多个基础模型的预测作为新输入来训练元模型MLT，从而实施集合建模方法，从而产生具有降低的预测偏差或预测方差的预测。

装载矩阵优化：

负载分配是操作者可以用于优化气体利用率(etaCO)以最小化焦炭率和减少CO₂排放的最重要的执行器之一。负载分配总是需要适应高炉操作，并且是在最佳气体利用、平稳负载下降和壁/隔板(表皮流动)温度之间的折衷。

时至今日，一些工厂使用负载分配模型来评估给定装载矩阵对负载分布的影响，并确定整个高炉喉部直径的C/(O+C)比。这些信息是有价值的，并给出了关于粘性带温度分布的相当好的提示。然而，在模型中限定装载矩阵并不简单，并且模型在为给定操作寻找最佳装载矩阵方面仅提供有限的帮助。

操作者限定了装载矩阵，以使材料在高炉上得到最佳分配。为此，装载矩阵包括各种参数，如斜槽的倾斜度和每种材料类型的旋转次数。可以训练机器学习模型，以根据熔炉的当前热状态、其预测的演变及其生产KPI来预测最佳装载矩阵。如果对于单个高炉的装载矩阵元素没有足够的变化，则可以从多个高炉的原始数据来训练装载矩阵预测模型，来训练机器学习模型。

基于风口相机的过程检查：

该示例涉及图8。通过卷积神经网络(CNN)和计算机视觉803的组合来分析由风口相机提供的图像801，该卷积神经网络和计算机视觉803旨在通过将计算机视觉应用于由基于CNN的区域分类器802检测的区域(例如，分类图像801c中的圆形、喷枪、注射区域)来检测现象804。与风口图像801一起，然后检测到的现象标签可以用作被训练成预测过程现象的进一步深度学习模型805的输入。

使用机器学习的风口图像序列分析的另一应用是编码空间-时间特征，以丰富限定强化学习模型环境的高炉状态的表示。为此目的，多模态学习808可以用作用于从诸如图像801、多变量时间序列806和声音807的异构数据学习环境的表示809的方法。与假设模式独立性的单峰机器学习相比，这允许高级方法。

用于最佳操作的丝锥开孔器推荐：

机器学习模型可以推荐丝锥的调度及其参数化(例如：粘土类型等)。

基于TMT SOMA的现象检测与KPI计算：

SOMA是提供高炉顶部温度分配的二维信息的仪器。温度映射可以通过机器视觉算法来处理，该算法可能与用于预测目的的机器学习模型相结合。图8中描述的用于基于相机的风口检查的处理流水线也可以应用于SOMA。

现象标记和预测：

为过程现象生成标签确保了丰富信息的创建，以改进RILM 130的动作和环境之间关系的学习。标签可以由工艺工程师限定的规则生成，或者由工艺工程师在历史数据中选择的模式上训练的模式检测模型生成。模式的出现可以通过算法来检测，例如单变量或多变量时间序列数据的动态时间包装，或者通过特征的限定来训练相应的机器学习模型。除了向RILM模型提供高级情境性信息之外，这些标签可以用于训练机器学习模型以检测现象组合的发生，或者预测单个现象或现象组合的发生。从生成的标签训练监督机器学习模型需要有足够多的具有足够方差的标签。

预测性和规范性维护：

可以训练机器学习模型来预测维护，并推荐要采取的行动来推迟维护，从而延长高炉或与高炉相关的任何资产的寿命。为此，已知多种方法，例如应用监督学习来预测资产的“剩余使用寿命”或“故障时间”。无监督学习模型可以被训练用于检测罕见事件，并对训练数据集进行时间聚类，以用于训练预测这些罕见事件的监督模型。预测的根本原因分析允许用从过去维护中记录的维护动作训练的自治系统规定最已知的动作，以便延迟维护。

高级情境性表示学习：

强化学习模型需要情景的表示，以便更好地对环境建模，并学习针对该环境采取的最佳行动。为此，如图9所示，可以在熔炉90周围形成并放置多个传感器，以记录图像(相机传感器91)、声波(声音传感器92)、振动(振动传感器93)，并分析不同位置的空气(气体传感器94)。可以通过深度学习网络分析相应的多模态时间序列，以提取情景的有意义的表示，该表示可以潜在地与高炉的过程数据或材料描述性数据相结合。材料描述数据对应于材料的化学分析，以及可能影响高炉热调节的其他特性。

图10是示出可以与这里描述的技术一起使用的通用计算机设备900和通用移动计算机设备950的示例的示图。计算设备900旨在表示各种形式的数字计算机，如膝上型计算机、台式机、工作站、个人数字助理、服务器、刀片式服务器、大型机和其他合适的计算机。通用计算机设备900可以对应于图1的计算机系统100。计算设备950旨在表示各种形式的移动设备，如个人数字助理、蜂窝电话、智能电话、驾驶辅助系统或车辆的车载计算机(例如，车辆401、402、403，参见图1)和其他类似的计算设备。例如，计算设备950可以被用户(例如，高炉的操作者)用作前端以与计算设备900交互。这里所示的组件、它们的连接和关系以及它们的功能仅是示例性的，并不意味着限制在本文档中描述和/或要求保护的发明的实施方式。

计算设备900包括处理器902、存储器904、存储设备906、连接存储器904和高速扩展端口910的高速接口908、连接低速总线914和存储设备906的低速接口912。组件902、904、906、908、910和912中的每个组件使用各种总线互连，并且可以安装在公共主板上或以适当的其他方式安装。处理器902可以处理用于在计算设备900内执行的指令，包括存储在存储器904或存储设备906上的指令，以在外部输入/输出设备(例如耦接到高速接口908的显示器916)上显示GUI的图形信息。在其他实施方式中，可以适当地使用多个处理器和/或多个总线以及多个存储器和存储器类型。此外，可以连接多个计算设备900，其中每个设备提供必要操作的部分(例如，作为服务器组、刀片式服务器组或多处理器系统)。

存储器904将信息存储在计算设备900内。在一个实施方式中，存储器904是一个或多个易失性存储器单元。在另一实施方式中，存储器904是一个或多个非易失性存储器单元。存储器904也可以是另一种形式的计算机可读介质，诸如磁盘或光盘。

存储设备906能够为计算设备900提供海量存储。在一个实施方式中，存储设备906可以是或包含计算机可读介质，如软盘设备、硬盘设备、光盘设备或磁带设备、闪存或其他类似的固态存储设备，或者设备阵列，包括存储区域网络或其他配置中的设备。计算机程序产品可以有形地体现在信息载体中。计算机程序产品还可以包含指令，当指令被执行时，所述指令执行一个或多个方法，如上述那些方法。信息载体是计算机或机器可读介质，如存储器904、存储设备906或处理器902上的存储器。

高速控制器908管理计算设备900的带宽密集型操作，而低速控制器912管理较低带宽密集型操作。这种功能分配只是示例性的。在一个实施方式中，高速控制器908耦接到存储器904、显示器916(例如，通过图形处理器或加速器)和高速扩展端口910，高速扩展端口910可以接受各种扩展卡(未示出)。在实施方式中，低速控制器912耦接到存储设备906和低速扩展端口914。可以包括各种通信端口(例如，USB、蓝牙、以太网、无线以太网)的低速扩展端口可以例如通过网络适配器耦接到一个或多个输入/输出设备，如键盘、定点设备、扫描仪或诸如交换机或路由器的联网设备。

如图中所示，计算设备900可以以多种不同形式实施。例如，它可以被实施为标准服务器920，或者在一组这样的服务器中多次实施。它也可以被实施为机架服务器系统924的一部分。此外，它可以在诸如膝上型计算机922的个人计算机中实施。可替换地，来自计算设备900的组件可以与诸如设备950的移动设备(未示出)中的其他组件组合。这样的设备中的每个设备可以包含计算设备900、950中的一者或多者，并且整个系统可以由相互通信的多个计算设备900、950组成。

计算设备950包括处理器952、存储器964、诸如显示器954的输入/输出设备、通信接口966和收发器968以及其他组件。设备950还可以配备有存储设备，如微驱动器或其他设备，以提供附加的存储。组件950、952、964、954、966和968中的每个件使用各种总线互连，并且若干组件可以安装在公共主板上或以适当的其他方式安装。

处理器952可以在计算设备950内执行指令，包括存储在存储器964中的指令。处理器可以被实施为包括单独的和多个模拟和数字处理器的芯片芯片组。处理器可以提供例如设备950的其他组件的协调，如用户接口的控制、由设备950运行的应用程序以及通过设备950的无线通信。

处理器952可以通过耦接到显示器954的控制接口958和显示接口956与用户通信。显示器954可以是例如TFT LCD(薄膜晶体管液晶显示器)或OLED(有机发光二极管)显示器，或者其他合适的显示技术。显示接口956可以包括用于驱动显示器954向用户呈现图形和其他信息的适当电路。控制接口958可以从用户接收命令并转换它们以提交给处理器952。此外，可以提供与处理器952通信的外部接口962，以便使设备950能够与其他设备进行近区域通信。外部接口962可以例如在一些实施方式中提供有线通信，或者在其他实施方式中提供无线通信，并且还可以使用多个接口。

存储器964将信息存储在计算设备950内。存储器964可以实施为一个或多个计算机可读介质、一个或多个易失性存储器单元、和一个或多个非易失性存储器单元中的一个或多个。还可以提供扩展存储器984并通过扩展接口982连接到设备950，扩展接口982可以包括例如SIMM(单列存储器模块)卡接口。这种扩展存储器984可以为设备950提供额外的存储空间，或者还可以为设备950存储应用程序或其他信息。具体地，扩展存储器984可以包括执行或补充上述过程的指令，并且还可以包括安全信息。因此，例如，扩展存储器984可以充当设备950的安全模块，并且可以用允许安全使用设备950的指令来编程。此外，可以经由SIMM卡提供安全应用以及附加信息，如以不可黑客攻击的方式将识别信息放置在SIMM卡上。

存储器可以包括例如闪存和/或NVRAM存储器，如下所述。在一个实施方式中，计算机程序产品有形地体现在信息载体中。所述计算机程序产品包含指令，当所述指令被执行时，所述指令执行一个或多个方法，如上述那些方法。信息载体是计算机或机器可读介质，例如可以通过例如收发器968或外部接口962接收的存储器964、扩展存储器984或处理器952上的存储器。

设备950可以通过通信接口966无线通信，通信接口966在必要时可以包括数字信号处理电路。通信接口966可以提供各种模式或协议下的通信，如GSM语音呼叫、SMS、EMS或MMS消息、CDMA、TDMA、PDC、WCDMA、CDMA2000或GPRS等等。这种通信可以例如通过射频收发信机968发生。此外，可以发生短距离通信，如使用蓝牙、WiFi或其他这样的收发器(未示出)。此外，GPS(全球定位系统)接收器模块980可以向设备950提供附加的导航和位置相关的无线数据，其可以通过在设备950上运行的应用程序来适当地使用。

设备950还可以使用音频编解码器960进行音频通信，音频编解码器960可以从用户接收语音信息并将其转换为可以用的数字信息。音频编解码器960同样可以为用户生成可听声音，如通过扬声器，例如在设备950的手机中。这种声音可以包括来自语音电话呼叫的声音，可以包括录制的声音(例如，语音消息、音乐文件等)，并且还可以包括通过在设备950上操作的应用程序生成的声音。

如图中所示，计算设备950可以以多种不同形式实施。例如，它可以被实施为蜂窝电话980。它也可以被实施为智能电话982、个人数字助理或其他类似移动设备的一部分。

这里描述的系统和技术的各种实施方式可以在数字电子电路、集成电路、专门设计的ASIC(专用集成电路)、计算机硬件、固件、软件和/或其组合中实现。这些不同的实施方式可以包括在一个或多个计算机程序中的实施方式，这些计算机程序可以在可编程系统上执行和/或解释，所述可编程系统包括至少一个可编程处理器，它可以是专用的或通用的，耦接以从存储系统、至少一个输入设备和至少一个输出设备接收数据和指令以及向其传输数据和指令。

这些计算机程序(也称为程序、软件、软件应用程序或代码)包括用于可编程处理器的机器指令，并且可以用高级过程和/或面向对象编程语言和/或汇编/机器语言来实施。如本文所使用的，术语“机器可读介质”和“计算机可读介质”指的是用于向可编程处理器提供机器指令和/或数据的任何计算机程序产品、装置和/或设备(例如，磁盘、光盘、存储器、可编程逻辑设备(PLD))，包括接收机器指令作为机器可读信号的机器可读介质。术语“机器可读信号”是指用于向可编程处理器提供机器指令和/或数据的任何信号。

为了提供与用户的交互，这里描述的系统和技术可以在具有用于向用户显示信息的显示设备(例如，CRT(阴极射线管)或LCD(液晶显示器)监视器)以及用户可以通过其向计算机提供输入的键盘和定点设备(例如鼠标或轨迹球)的计算机上实施。也可以使用其他种类的设备来提供与用户的交互；例如，提供给用户的反馈可以是任何形式的感官反馈(例如，视觉反馈、听觉反馈或触觉反馈)；并且可以以任何形式接收来自用户的输入，包括声学、语音或触觉输入。

这里描述的系统和技术可以在计算设备中实施，所述计算设备包括后端组件(例如，作为数据服务器)，或者包括中间件组件(例如，应用服务器)，或者包括前端组件(例如，具有图形用户界面或Web浏览器的客户端计算机，用户可以通过所述图形用户界面或Web浏览器与这里描述的系统和技术的实施交互)，或者这样的后端、中间件或前端组件的任何组合。系统的组件可以通过任何形式或介质的数字数据通信(例如，通信网络)互连。通信网络的示例包括局域网(“LAN”)、广域网(“WAN”)和互联网。

计算设备可以包括客户端和服务器。客户端和服务器通常彼此远离，并且通常通过通信网络进行交互。客户端和服务器的关系是由于在相应的计算机上运行的计算机程序而产生的，并且彼此具有客户端-服务器关系。

已经描述了许多实施例。然而，应当理解，在不脱离本发明的精神和范围的情况下，可以进行各种修改。

此外，图中所示的逻辑流不需要所示的特定顺序或顺序来实现期望的结果。此外，可以从所描述的流程中提供其他步骤，或者可以从所描述的流程中消除其他步骤，并且可以将其他组件添加到所描述的系统中，或者从所描述的系统中移除其他组件。因此，其他实施例在所附权利要求的范围内。

Claims

1.一种计算机实施的方法(1000)，用于训练强化学习模型(130)以提供用于高炉热控制的操作指令，所述方法包括：

通过迁移学习训练的领域自适应机器学习模型(110)处理作为为多元时间序列获得并反映多个领域的相应高炉(BF1至BFn)的热状态的历史操作数据(21)，以生成(1100)代表所述高炉(BF1至BFn)中任一个的所述热状态的第一领域不变数据集(22)，而与所述领域无关；

通过使用通用高炉过程的瞬态模型(121)，生成(1200)人工操作数据(24a)作为反映针对特定热控制动作(26a)的所述通用高炉(BFg)的热状态的多元时间序列，其中，所述瞬态模型(121)反映了通用高炉的相应的物理、化学、热和流动状况，并在交换热量、质量和动量传递时为所述通用高炉中构造的固体层的向上气体流动和向下移动提供解决方案；

通过在所述历史操作数据(21)的多变量时间序列上训练的生成式深度学习网络(122)来处理所述人工操作数据(24a)，以通过将从所述历史操作数据(21)学习到的特征传递到所述人工操作数据(24a)来生成(1300)第二领域不变数据集(23a)；

所述强化学习模型(130)通过处理组合的第一领域不变数据集和第二领域不变数据集(22，23a)鉴于给定的目标函数，来确定(1400)针对所述特定热控制动作(26a)的奖励(131)；以及

根据所述奖励(131)，基于修改的参数(123-2)重新生成(1300)所述第二领域不变数据集，其中，遗传搜索和/或贝叶斯优化算法(123-1)基于所述强化学习模型(130)的当前环境(25a)和当前学习步骤的所述热控制动作(26a)输出，来指导对用于进一步热控制动作的所述修改的参数的搜索，并且重复确定(1400)步骤以学习用于将被应用于一个或多个高炉的相应操作状态的优化的热控制动作的优化的操作指令。

2.根据权利要求1所述的方法，进一步包括：

所述强化学习模型(130)基于特定高炉的当前操作状态数据，来预测(1700)用于生产中的所述特定高炉的至少一个执行器的优化的操作指令；

在将根据所述优化的操作指令的热控制动作应用于所述至少一个执行器之后，基于在执行热控制动作之后所述特定高炉的新状态，确定(1400)所述奖励；以及

如果所述奖励低于预限定阈值，则利用所述瞬态模型为一个或多个替代操作指令重新生成第二领域不变数据，用于重新训练所述强化学习模型。

3.根据权利要求1或2所述的方法，其中，所述领域自适应机器学习模型(110)由具有卷积和/或递归层的生成式深度学习神经网络实施，所述生成式深度学习神经网络被训练成从所述历史操作数据(21)中提取领域不变特征作为所述第一领域不变数据集。

4.根据权利要求1或2所述的方法，其中，所述领域自适应机器学习模型(110)已被训练以学习从多个高炉(BF1至BFn)到参考高炉(BFr)的对应原始数据的多个映射，其中，每个映射是相应高炉到所述参考高炉的转换的表示，并且所述多个映射对应于所述第一领域不变数据集。

5.根据权利要求4所述的方法，其中，所述领域自适应机器学习模型(110)由基于CycleGAN架构的生成式深度学习架构来实施。

6.根据前述权利要求中任一项所述的方法，其中，所述强化学习模型被训练以学习所述优化的操作指令，使得相关联的目标测量位于相对应的多维目标函数的帕累托前沿的预限定范围内。

7.根据前述权利要求中任一项所述的方法，其中，所述瞬态模型(121)包括多个计算单元，其中每个单元代表所述通用高炉的由一次装载的原料组成的相应层，其中每个计算单元以迭代顺序方式求解气相公式以满足每个迭代时间间隔中的相对气相参数容差，并且当所述气相参数收敛到预限定容差值时，在相同的迭代时间间隔中顺序求解固相公式。

8.根据权利要求7所述的方法，其中，对于压力-速度校正循环的每次迭代，迭代求解所述气相公式包括：

计算(3300)气体、固体和液体特性；

计算(3400)反应速率和传热系数；

计算(3500)气体温度、种类、速度和压降；以及

其中，顺序求解所述固相公式包括：

计算(3600)固体温度和种类；

计算(3700)液体温度和种类；以及

计算(3800)固体速度。

9.根据前述权利要求中任一项所述的方法，其中，所述瞬态模型(121)接收以下输入参数中的一者或多者：负载材料量和化学分析、温度、压力、PCI速率和富氧，具有预测热金属温度的能量公式、计算热金属化学成分的一个或多个种类公式、以及预测顶部气体温度、效率(Eta CO)和压力的一个或多个气相公式。

10.根据前述权利要求中任一项所述的方法，其中，所述强化学习模型由递归神经网络实施。

11.根据前述权利要求中任一项所述的方法，进一步包括：

通过使用一个或多个分别训练的相关联的机器学习模型(ML1至MLn)，基于所述历史操作数据(21)和/或进一步测量的与所述高炉的环境相关的环境数据，来预测关于特定高炉状态的未来热演化的信息，以通过与未来时间点相关的未来多元时间序列数据来补充所述历史操作数据(21)；以及

由所述领域自适应机器学习模型(110)处理未来多元时间序列，以用与所述未来时间点相关的数据扩充所述第一领域不变数据集(22)。

12.根据权利要求11所述的方法，其中，训练所述相关联的机器学习模型(ML1至MLn)中的特定(MLT)模型包括：

使用一个或多个机器学习算法，利用操作数据(701)和/或环境数据(702)的不同选择来训练(703)多个基础模型，以提供基础模型特定的未来多元时间序列数据作为对所述机器学习模型中的特定模型的训练输入；

用所述基础模型特定的未来多元时间序列数据训练(706)所述相关联的机器学习模型中的特定模型，以学习基础模型的哪个组合最适合于所述高炉的哪个状态。

13.根据权利要求12所述的方法，其中，所述机器学习模型(ML1至MLn)中的所述特定模型被训练成在所述未来时间点处预测以下参数之一：高炉过程中的异常；所述高炉的热状态及热金属生产KPI；装载矩阵优化；基于根据风口相机的过程检查的高炉现象；用于最优操作的丝锥开孔器推荐；基于TMT SOMA的现象和KPI；基于由过程规则标记的现象的现象。

14.一种计算机程序产品，当加载到计算机系统的存储器中并由所述计算机系统的至少一个处理器执行时，执行根据前述权利要求中任一项的计算机实施的方法的步骤。

15.一种计算机系统(100)，包括多个功能模块，当由所述计算机系统执行时，所述功能模块执行根据权利要求1至13中任一项的计算机实施的方法的所述步骤。