CN116679572B

CN116679572B - 一种基于深度q学习网络的二氧化碳捕集自学习方法

Info

Publication number: CN116679572B
Application number: CN202310967996.2A
Authority: CN
Inventors: 王哲; 朱歆华
Original assignee: Beijing Green Energy Carbon Treasure Technology Development Co ltd
Current assignee: Beijing Green Energy Carbon Treasure Technology Development Co ltd
Priority date: 2023-08-03
Filing date: 2023-08-03
Publication date: 2023-09-29
Anticipated expiration: 2043-08-03
Also published as: CN116679572A

Abstract

本公开是关于一种基于深度Q学习网络的二氧化碳捕集自学习方法、装置、电子设备以及存储介质。其中，该方法包括：基于深度Q学习网络控制器与二氧化碳捕集环境的交互，生成轨迹数据，基于所述轨迹数据，对深度Q学习网络进行训练；基于对所述深度Q学习网络的训练，得到预设控制策略，通过对所述预设控制策略进行监测、评价，完成二氧化碳捕集训练模型；基于所述二氧化碳捕集训练模型，通过对二氧化碳捕集系统工况进行调整，构建控制系统模型，基于所述控制系统模型完成对二氧化碳捕集系统的自学习。通过对碳捕集系统的数字化监控以及对不同工况和烟气成分分析，降低能耗、监控异常、减少损耗、降低碳捕集成，实现了在碳捕集领域的多场景应用。

Description

一种基于深度Q学习网络的二氧化碳捕集自学习方法

技术领域

本公开涉及二氧化碳捕集封存领域，具体而言，涉及一种基于深度Q学习网络的二氧化碳捕集自学习方法、装置、电子设备以及计算机可读存储介质。

背景技术

针现有技术中，CCUS工艺系统中二氧化碳单位回收成本高，能耗大，效率低等问题；需要一种或多种方法解决上述问题。

需要说明的是，在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解，因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。

发明内容

本公开的目的在于提供一种基于深度Q学习网络的二氧化碳捕集自学习方法、装置、电子设备以及计算机可读存储介质，进而至少在一定程度上克服由于相关技术的限制和缺陷而导致的一个或者多个问题。

根据本公开的一个方面，提供一种基于深度Q学习网络的二氧化碳捕集自学习方法，包括：

基于深度Q学习网络控制器与二氧化碳捕集环境的交互，生成轨迹数据，基于所述轨迹数据，对深度Q学习网络进行训练；

基于对所述深度Q学习网络的训练，得到预设控制策略，通过对所述预设控制策略进行监测、评价，完成二氧化碳捕集训练模型；

基于所述二氧化碳捕集训练模型，通过对二氧化碳捕集系统工况进行调整，构建控制系统模型，基于所述控制系统模型完成对二氧化碳捕集系统的自学习。

在本公开的一种示例性实施例中，所述方法还包括：

基于第一时刻二氧化碳捕集系统状态、第一时刻动作、第一时刻环境奖赏、第二时刻二氧化碳捕集系统状态对应值，生成所述二氧化碳捕集环境；

基于所述深度Q学习网络控制器与二氧化碳捕集环境的交互，生成所述轨迹数据，基于所述轨迹数据，构建深度Q学习网络样本池。

在本公开的一种示例性实施例中，所述方法还包括：

基于所述第一时刻二氧化碳捕集系统状态、第一时刻动作，生成第一Q值网络，基于所述第二时刻二氧化碳捕集系统状态对应值，生成第二Q值网络；

基于所述深度Q学习网络样本池、第一Q值网络、第二Q值网络、第一时刻环境奖赏，生成深度Q学习网络误差函数；

基于深度Q学习网络误差函数，通过随机梯度下降算法对所述第一Q值网络的权值进行预设更新，生成第三Q值网络；

基于预设时间，所述第三Q值网络对权值进行预设参数拷贝，所述第三Q值网络发送所述预设参数至所述第二Q值网络，完成深度Q学习网络的训练。

在本公开的一种示例性实施例中，所述方法还包括：

基于第一贫液流量、第一抽汽流量、烟气流量，通过所述二氧化碳捕集系统，生成再沸器温度、捕集率，所述再沸器温度、捕集率通过监测模块监测，生成被控量；

所述再沸器温度基于预设再沸器温度，生成再沸器温度偏差值，所述捕集率基于预设捕集率，生成捕集率偏差值；

所述再沸器温度偏差值、捕集率偏差值通过监测模块监测，生成被控偏差量。

在本公开的一种示例性实施例中，所述方法还包括：

基于所述第一贫液流量、第一抽汽流量，生成控制量，基于所述烟气流量，生成扰动量；

基于所述控制量、扰动量，生成数据量。

在本公开的一种示例性实施例中，所述方法还包括：

基于所述数据量、被控量、被控偏差量，通过评价模块进行评价，生成时刻环境奖赏。

基于所述数据量、被控量、被控偏差量，生成二氧化碳捕集系统状态；

所述深度Q学习网络控制器，基于所述时刻环境奖赏、所述二氧化碳捕集系统状态，对所述深度Q学习网络进行训练，完成二氧化碳捕集训练模型。

在本公开的一种示例性实施例中，所述方法还包括：

基于所述二氧化碳捕集训练模型，通过传感器接收气体工况数据、氨液配比损耗量，生成工况系数；

基于所述工况系数，通过服务器对二氧化碳捕集系统工况进行调整，完成控制系统模型的构建。

在本公开的一个方面，提供一种基于深度Q学习网络的二氧化碳捕集自学习装置，包括：

深度Q学习网络训练模块，用于对深度Q学习网络进行训练；

二氧化碳捕集训练模块，用于对所述深度Q学习网络训练模块生成的预设控制策略进行监测、评价；

控制系统模块，用于对热转换效率、氨液逸散率进行评估，用于对二氧化碳捕集系统工况进行调整，完成二氧化碳捕集系统自学习。

在本公开的一个方面，提供一种电子设备，包括：

处理器；以及

存储器，所述存储器上存储有计算机可读指令，所述计算机可读指令被所述处理器执行时实现根据上述任意一项所述的方法。

在本公开的一个方面，提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现根据上述任意一项所述的方法。

本公开的示例性实施例中的一种基于深度Q学习网络的二氧化碳捕集自学习方法，其中，该方法包括：基于深度Q学习网络控制器与二氧化碳捕集环境的交互，生成轨迹数据，基于所述轨迹数据，对深度Q学习网络进行训练；基于对所述深度Q学习网络的训练，得到预设控制策略，通过对所述预设控制策略进行监测、评价，完成二氧化碳捕集训练模型；基于所述二氧化碳捕集训练模型，通过对二氧化碳捕集系统工况进行调整，构建控制系统模型，基于所述控制系统模型完成对二氧化碳捕集系统的自学习。通过对碳捕集系统的数字化监控以及对不同工况和烟气成分分析，降低能耗、监控异常、减少损耗、降低碳捕集成，实现了在碳捕集领域的多场景应用。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

通过参照附图来详细描述其示例实施例，本公开的上述和其它特征及优点将变得更加明显。

图1示出了根据本公开一示例性实施例的一种基于深度Q学习网络的二氧化碳捕集自学习方法的流程图；

图2示出了根据本公开一示例性实施例的一种基于深度Q学习网络的二氧化碳捕集自学习方法的训练流程框图；

图3示出了根据本公开一示例性实施例的一种基于深度Q学习网络的二氧化碳捕集自学习方法的训练模型图；

图4示出了根据本公开一示例性实施例的一种基于深度Q学习网络的二氧化碳捕集自学习方法的控制系统模型图；

图5示出了根据本公开一示例性实施例的一种基于深度Q学习网络的二氧化碳捕集自学习装置的示意框图；

图6示意性示出了根据本公开一示例性实施例的电子设备的框图；以及

图7示意性示出了根据本公开一示例性实施例的计算机可读存储介质的示意图。

具体实施方式

现在将参考附图更全面地描述示例实施例。然而，示例实施例能够以多种形式实施，且不应被理解为限于在此阐述的实施例；相反，提供这些实施例使得本公开将全面和完整，并将示例实施例的构思全面地传达给本领域的技术人员。在图中相同的附图标记表示相同或类似的部分，因而将省略对它们的重复描述。

此外，所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中，提供许多具体细节从而给出对本公开的实施例的充分理解。然而，本领域技术人员将意识到，可以实践本公开的技术方案而没有所述特定细节中的一个或更多，或者可以采用其它的方法、组元、材料、装置、步骤等。在其它情况下，不详细示出或描述公知结构、方法、装置、实现、材料或者操作以避免模糊本公开的各方面。

附图中所示的方框图仅仅是功能实体，不一定必须与物理上独立的实体相对应。即，可以采用软件形式来实现这些功能实体，或在一个或多个软件硬化的模块中实现这些功能实体或功能实体的一部分，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

在本示例实施例中，首先提供了一种基于深度Q学习网络的二氧化碳捕集自学习方法；参考图1中所示，该一种基于深度Q学习网络的二氧化碳捕集自学习方法可以包括以下步骤：

步骤S110，基于深度Q学习网络控制器与二氧化碳捕集环境的交互，生成轨迹数据，基于所述轨迹数据，对深度Q学习网络进行训练；

步骤S120，基于对所述深度Q学习网络的训练，得到预设控制策略，通过对所述预设控制策略进行监测、评价，完成二氧化碳捕集训练模型；

步骤S130，基于所述二氧化碳捕集训练模型，通过对二氧化碳捕集系统工况进行调整，构建控制系统模型，基于所述控制系统模型完成对二氧化碳捕集系统的自学习。

下面，将对本示例实施例中的一种基于深度Q学习网络的二氧化碳捕集自学习方法进行进一步的说明。

在模版配置步骤S110中，可以基于深度Q学习网络控制器与二氧化碳捕集环境的交互，生成轨迹数据，基于所述轨迹数据，对深度Q学习网络进行训练。

在本示例的实施例中，如图2所示，基于第一时刻二氧化碳捕集系统状态、第一时刻动作、第一时刻环境奖赏、第二时刻二氧化碳捕集系统状态对应值，生成所述二氧化碳捕集环境。即，通过当前时刻二氧化碳捕集系统环境的状态（s），当前时刻的动作（a），当前时刻环境产生的奖赏（r），下一个时刻环境状态的对应值（s'）构建出二氧化碳捕集系统环境。

基于所述深度Q学习网络控制器与二氧化碳捕集环境的交互，生成所述轨迹数据，基于所述轨迹数据，构建深度Q学习网络样本池。即，将深度Q学习网络控制器与二氧化碳捕集系统环境相互交换过程中产生的轨迹数据（trajectory 数据）样本进行整合，构建出深度Q学习网络样本池。越多的相互交换过程，生成的样本数量质量越多。样本数量和质量决定了Q值网络的权值参数训练效果的好坏，进而影响到整个控制系统的控制性能。

在本示例的实施例中，如图2所示，基于所述第一时刻二氧化碳捕集系统状态、第一时刻动作，生成第一Q值网络，即，当前Q值网络，网络参数为w。基于所述第二时刻二氧化碳捕集系统状态对应值，生成第二Q值网络，即，目标Q值网络，网络参数为w'。

基于所述深度Q学习网络样本池、第一Q值网络、第二Q值网络、第一时刻环境奖赏，生成深度Q学习网络误差函数；基于深度Q学习网络误差函数，通过随机梯度下降算法对所述第一Q值网络的权值进行预设更新，生成第三Q值网络；基于预设时间，所述第三Q值网络对权值进行预设参数拷贝，所述第三Q值网络发送所述预设参数至所述第二Q值网络，完成深度Q学习网络的训练。

智能体（深度Q学习网络控制器）在样本池当中随机挑取一定数目的样本，通过计算当前Q值网络的输出（Q ^w）与目标Q值网络的输出（Q^w’），再结合当前时刻环境产生的奖赏（r）得到深度Q学习网络误差函数，以及相应的交互数据，之后，采用随机梯度下降算法对 Q值网络权值参数进行更新，生成新的当前Q值网络。最终，每隔一段训练时间（N步），将当前Q 值网络的权值参数直接拷贝给目标Q值网络，完成深度Q学习网络的训练。

在本示例的实施例中，如图3所示，在t时刻训练得出的贫液流量（u_1,t）、抽汽流量（u_2,t），结合当前t+1时刻的烟气流量（d_t+1），通过二氧化碳捕集系统得到当前时刻再沸器温度（T _t+1）、当前时刻捕集率（RC _t+1）。当前时刻再沸器温度（T _t+1）、当前时刻捕集率（RC _t+1）通过监测模块的监测后，得到当前被控量（Y _t+1）。即表述为：Y _t+1= [RC_t+1，RC_{t +1}’，RC_t+1” ，T_t+1] 。

当前时刻再沸器温度（T _t+1）基于当前预设再沸器温度（r _T,t+1），得到当前再沸器温度偏差值（e_T,t+1）；当前时刻捕集率（RC _t+1）基于当前预设捕集率（r _RC,t+1），得到当前捕集率偏差值（e_RC,t+1）。当前再沸器温度偏差值（e_T,t+1）、当前捕集率偏差值（e_RC,t+1）通过监测模块的监测后，得到当前被控偏差量（e_Y,t+1）。即表述为：e_{Y,t +1}= [e_RC,t+1，e_{T,t +1}]。

在本示例的实施例中，如图3所示，基于t时刻训练得出的贫液流量（u_1,t）、抽汽流量（u_2,t），生成控制量，基于当前t+1时刻的烟气流量（d_t+1），生成扰动量；基于所述控制量、扰动量，生成t时刻数据量（In_t）。即表述为：In_t=[u_1,t，u_2,t，d_t+1]。

在本示例的实施例中，如图3所示，基于所述数据量（In_t）、被控量（Y _t+1）、被控偏差量（e_Y,t+1），通过评价模块（f）进行评价，生成t+1时刻环境奖赏（R_t+1）。

基于所述数据量（In_t）、被控量（Y _t+1）、被控偏差量（e_Y,t+1），生成二氧化碳捕集系统状态（S_t+1）。即表述为：S_t+1= [RC_t+1,RC_t+1’,RC_t+1”，T_t+1，e_RC,t+1,e_T,t+1,u_1,t，u₂,_t,d_t]。

所述深度Q学习网络控制器，基于所述时刻环境奖赏、所述二氧化碳捕集系统状态，对所述深度Q学习网络进行训练，得出训练数据，完成二氧化碳捕集训练模型。二氧化碳捕集训练模型相对于实际设备失真率最低，能够在理论、实验和实际数据量基础上，分析解决理论与实验误差源、实验与实际误差源、理论与实际误差源，并将相关误差分析机理加入自学习系统，基于以上模型，可在较低投入基础上实现CCUS相关模块新技术的替换、实验，同时其得出的实验数据可推算出实际数据，准确性较高。

在本示例的实施例中，如图4所示，基于所述二氧化碳捕集训练模型，通过传感器接收气体工况数据、氨液配比损耗量，生成工况系数；基于所述工况系数，通过服务器对二氧化碳捕集系统工况进行调整，完成控制系统模型的构建。

即，二氧化碳捕集系统首先通过传感器收集贫液流量（u₁）、抽汽流量（u₂）、烟气流量（d），得到再沸器温度（T）与捕集率（RC）。其次，结合预设再沸器温度（r _T）与预设捕集率（r _RC），得到再沸器温度偏差值（e_T）与捕集率偏差值（e_RC）。最后，将这些数据进行整合，生成工况系数，通过针对于二氧化碳捕集系统的整体工况系数来评估热转换效率、氨液逸散率等，通过对工况的调整来实现效率的最优化，逸散率的最低化。整个系统每循环运行一次的数据量都可记录在服务器，过程无需人工参与，减少了工作量。

需要说明的是，尽管在附图中以特定顺序描述了本公开中方法的各个步骤，但是，这并非要求或者暗示必须按照该特定顺序来执行这些步骤，或是必须执行全部所示的步骤才能实现期望的结果。附加的或备选的，可以省略某些步骤，将多个步骤合并为一个步骤执行，以及/或者将一个步骤分解为多个步骤执行等。

此外，在本示例实施例中，如图5所示还提供了一种基于深度Q学习网络的二氧化碳捕集自学习装置。参照图5所示，该一种基于深度Q学习网络的二氧化碳捕集自学习装置400可以包括：深度Q学习网络训练模块410、二氧化碳捕集训练模块420以及控制系统模块430。其中：

深度Q学习网络训练模块410，用于对深度Q学习网络进行训练；

二氧化碳捕集训练模块420，用于对所述深度Q学习网络训练模块生成的预设控制策略进行监测、评价；

控制系统模块430，用于对热转换效率、氨液逸散率进行评估，用于对二氧化碳捕集系统工况进行调整，完成二氧化碳捕集系统自学习。

上述中各一种基于深度Q学习网络的二氧化碳捕集自学习装置模块的具体细节已经在对应的一种基于深度Q学习网络的二氧化碳捕集自学习方法中进行了详细的描述，因此此处不再赘述。

应当注意，尽管在上文详细描述中提及了一种基于深度Q学习网络的二氧化碳捕集自学习装置400的若干模块或者单元，但是这种划分并非强制性的。实际上，根据本公开的实施方式，上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之，上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。

此外，在本公开的示例性实施例中，还提供了一种能够实现上述方法的电子设备。

所属技术领域的技术人员能够理解，本发明的各个方面可以实现为系统、方法或程序产品。因此，本发明的各个方面可以具体实现为以下形式，即：完全的硬件实施例、完全的软件实施例（包括固件、微代码等），或硬件和软件方面结合的实施例，这里可以统称为“电路”、“模块”或“系统”。

下面参照图6来描述根据本发明的这种实施例的电子设备500。图6显示的电子设备500仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图6所示，电子设备500以通用计算设备的形式表现。电子设备500的组件可以包括但不限于：上述至少一个处理单元510、上述至少一个存储单元520、连接不同系统组件（包括存储单元520和处理单元510）的总线530、显示单元540。

其中，所述存储单元存储有程序代码，所述程序代码可以被所述处理单元510执行，使得所述处理单元510执行本说明书上述“示例性方法”部分中描述的根据本发明各种示例性实施例的步骤。例如，所述处理单元510可以执行如图1中所示的步骤S110至步骤S130。

存储单元520可以包括易失性存储单元形式的可读介质，例如随机存取存储单元（RAM）5201和/或高速缓存存储单元5202，还可以进一步包括只读存储单元（ROM）5203。

存储单元520还可以包括具有一组（至少一个）程序模块5203的程序/实用工具5204，这样的程序模块5205包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

总线550可以为表示几类总线结构中的一种或多种，包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。

电子设备500也可以与一个或多个外部设备570（例如键盘、指向设备、蓝牙设备等）通信，还可与一个或者多个使得用户能与该电子设备500交互的设备通信，和/或与使得该电子设备500能与一个或多个其它计算设备进行通信的任何设备（例如路由器、调制解调器等等）通信。这种通信可以通过输入/输出（I/O）接口550进行。并且，电子设备500还可以通过网络适配器560与一个或者多个网络（例如局域网（LAN），广域网（WAN）和/或公共网络，例如因特网）通信。如图所示，网络适配器560通过总线550与电子设备500的其它模块通信。应当明白，尽管图中未示出，可以结合电子设备500使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

通过以上的实施例的描述，本领域的技术人员易于理解，这里描述的示例实施例可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本公开实施例的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质（可以是CD-ROM，U盘，移动硬盘等）中或网络上，包括若干指令以使得一台计算设备（可以是个人计算机、服务器、终端装置、或者网络设备等）执行根据本公开实施例的方法。

在本公开的示例性实施例中，还提供了一种计算机可读存储介质，其上存储有能够实现本说明书上述方法的程序产品。在一些可能的实施例中，本发明的各个方面还可以实现为一种程序产品的形式，其包括程序代码，当所述程序产品在终端设备上运行时，所述程序代码用于使所述终端设备执行本说明书上述“示例性方法”部分中描述的根据本发明各种示例性实施例的步骤。

参考图7所示，描述了根据本发明的实施例的用于实现上述方法的程序产品600，其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码，并可以在终端设备，例如个人电脑上运行。然而，本发明的程序产品不限于此，在本文件中，可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子（非穷举的列表）包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器（RAM）、只读存储器（ROM）、可擦式可编程只读存储器（EPROM或闪存）、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、有线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络，包括局域网（LAN）或广域网（WAN），连接到用户计算设备，或者，可以连接到外部计算设备（例如利用因特网服务提供商来通过因特网连接）。

此外，上述附图仅是根据本发明示例性实施例的方法所包括的处理的示意性说明，而不是限制目的。易于理解，上述附图所示的处理并不表明或限制这些处理的时间顺序。另外，也易于理解，这些处理可以是例如在多个模块中同步或异步执行的。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其他实施例。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限。

Claims

1.一种基于深度Q学习网络的二氧化碳捕集自学习方法，其特征在于，所述方法包括：

基于所述二氧化碳捕集训练模型，通过对二氧化碳捕集系统工况进行调整，构建控制系统模型，基于所述控制系统模型完成对二氧化碳捕集系统的自学习；

基于所述深度Q学习网络控制器与二氧化碳捕集环境的交互，生成所述轨迹数据，基于所述轨迹数据，构建深度Q学习网络样本池；

基于预设时间，所述第三Q值网络对权值进行预设参数拷贝，所述第三Q值网络发送所述预设参数至所述第二Q值网络，完成深度Q学习网络的训练；

所述再沸器温度偏差值、捕集率偏差值通过监测模块监测，生成被控偏差量；

基于所述控制量、扰动量，生成数据量；

基于所述数据量、被控量、被控偏差量，通过评价模块进行评价，生成时刻环境奖赏；

所述深度Q学习网络控制器，基于所述时刻环境奖赏、所述二氧化碳捕集系统状态，对所述深度Q学习网络进行训练，完成二氧化碳捕集训练模型；

基于所述工况系数，通过服务器对二氧化碳捕集系统工况进行调整，完成控制系统模型的构建；

所述第一时刻为当前时刻，所述第二时刻为下一时刻。

2.一种基于深度Q学习网络的二氧化碳捕集自学习装置，其特征在于，所述装置包括：

深度Q学习网络训练模块，用于对深度Q学习网络进行训练；

基于第一时刻二氧化碳捕集系统状态、第一时刻动作、第一时刻环境奖赏、第二时刻二氧化碳捕集系统状态对应值，生成二氧化碳捕集环境；

基于所述深度Q学习网络控制器与二氧化碳捕集环境的交互，生成轨迹数据，基于所述轨迹数据，构建深度Q学习网络样本池；

所述第一时刻为当前时刻，所述第二时刻为下一时刻；

基于所述控制量、扰动量，生成数据量；

3.一种电子设备，其特征在于，包括

处理器；以及

存储器，所述存储器上存储有计算机可读指令，所述计算机可读指令被所述处理器执行时实现根据权利要求1所述的方法。

4.一种计算机可读存储介质，其特征在于，其上存储有计算机程序，所述计算机程序被处理器执行时实现根据权利要求1所述的方法。