CN115600826A

CN115600826A - 一种基于强化学习的生产流程监控优化方法

Info

Publication number: CN115600826A
Application number: CN202211604038.0A
Authority: CN
Inventors: 戴雨卉; 薛亚飞; 张高峰; 赵亚莉; 刘世平; 朱禹诺; 袁浩; 黄欣莹; 林满满; 周杨迈
Original assignee: China Construction Science and Technology Group Co Ltd
Current assignee: China Construction Science and Technology Group Co Ltd
Priority date: 2022-12-14
Filing date: 2022-12-14
Publication date: 2023-01-13
Anticipated expiration: 2042-12-14
Also published as: CN115600826B

Abstract

本发明公开了一种基于强化学习的生产流程监控优化方法，所述方法通过强化学习技术来调整生产流程的监控系统中各监控装置的开闭策略，从而查找出既能满足工艺监控需求又能改善系统效能的监控布防信息。解决了现有技术中为了保障生产流程的正常运行，监控系统中各类传感器都以较高的监控强度运行，导致产生较高的系统能耗，并造成大量数据冗余的问题。

Description

一种基于强化学习的生产流程监控优化方法

技术领域

本发明涉及系统优化领域，尤其涉及的是一种基于强化学习的生产流程监控优化方法。

背景技术

装配式建筑构件的生产流程通常需要基于物联网生成的监控系统监控。监控系统中包括若干不同类型的传感器，各类传感器分别布设在生产装备、支撑机构和预制件上，例如压力传感器、温度传感器、加速度传感器（IMU）、视觉传感器。目前，为了保障生产流程的正常运行，监控系统中各类传感器都以较高的监控强度运行，导致产生较高的系统能耗，并造成大量数据冗余。

因此，现有技术还有待改进和发展。

发明内容

本发明要解决的技术问题在于，针对现有技术的上述缺陷，提供一种基于强化学习的生产流程监控优化方法，旨在解决现有技术中为了保障生产流程的正常运行，监控系统中各类传感器都以较高的监控强度运行，导致产生较高的系统能耗，并造成大量数据冗余的问题。

本发明解决问题所采用的技术方案如下：

第一方面，本发明实施例提供一种基于强化学习的生产流程监控优化方法，其中，所述方法包括：

获取目标生产流程的工艺监控需求信息和监控布防信息，其中，所述监控布防信息用于反映监控系统中各监控装置的开闭策略；

将所述工艺监控需求信息和所述监控布防信息输入智能体，得到监控布防调整信息；

根据所述监控布防调整信息和所述监控布防信息，确定更新监控布防信息；

根据所述更新监控布防信息，确定所述目标生产流程对应的工艺监控需求达标率和所述监控系统对应的系统效能；

根据所述工艺监控需求达标率和所述系统效能确定奖励值，当所述奖励值未达到预设阈值时，根据所述奖励值对所述智能体进行参数更新；

将所述更新监控布防信息作为所述监控布防信息，继续执行将所述工艺监控需求信息和所述监控布防信息输入智能体的步骤，直至所述奖励值达到所述预设阈值，得到所述目标生产流程对应的目标监控布防信息。

在一种实施方式中，所述工艺监控需求信息的确定方法包括：

获取所述目标生产流程对应的工艺要求信息、工艺持续时长以及工艺历史故障信息；

根据所述工艺要求信息，确定监控覆盖范围；

根据所述工艺持续时长和所述工艺历史故障信息，确定故障频率；

根据所述监控覆盖范围和所述故障频率，确定所述工艺监控需求信息。

在一种实施方式中，所述监控布防信息的确定方法包括：

获取所述监控系统对应的通讯拓扑图，其中，所述通讯拓扑图包括各所述监控装置分别对应的节点，各所述节点之间的连线用于反映各所述监控装置之间的通讯关系；

根据所述通讯拓扑图，从各所述监控装置中确定若干哨兵监控装置，其中，各所述哨兵监控装置均为持续开启状态；

基于预设的通讯距离和所述通讯关系确定各所述哨兵监控装置分别对应的邻域监控装置，其中，每一所述哨兵监控装置对应的所述邻域监控装置为一个或者多个，各所述邻域监控装置均为间歇性开启状态；

根据各所述哨兵监控装置的位置信息，确定各所述哨兵监控装置分别对应的所述邻域监控装置的初始开启频率；

根据各所述哨兵监控装置和各所述邻域监控装置分别对应的所述初始开启频率，确定所述监控布防信息。

在一种实施方式中，所述根据所述通讯拓扑图，从各所述监控装置中确定若干哨兵监控装置，包括：

根据所述通讯拓扑图，确定各所述节点分别对应的拓扑特征，其中，每一所述节点的所述拓扑特征基于与该节点具有连接关系的各节点的节点间距离和节点数量确定；

根据各所述节点的所述拓扑特征，从各所述监控装置中确定所述哨兵监控装置。

在一种实施方式中，所述工艺监控需求达标率的确定方法包括：

获取所述目标生产流程对应的实际监控覆盖范围和所述监控系统监测到的实际故障频率；

根据所述实际监控覆盖范围和所述实际故障频率，确定工艺监控供给信息；

通过比对所述工艺监控需求信息和所述工艺监控供给信息，得到所述工艺监控需求达标率。

在一种实施方式中，所述系统效能的确定方法包括：

根据所述更新监控布防信息，确定所述监控系统对应的传输效率、传输质量以及能耗；

根据所述传输效率、所述传输质量以及所述能耗，确定所述系统效能。

在一种实施方式中，所述根据所述工艺监控需求达标率和所述系统效能确定奖励值，包括：

根据所述工艺监控需求达标率和所述系统效能的加权和，确定所述奖励值。

第二方面，本发明实施例还提供一种基于强化学习的生产流程监控优化装置，其中，所述装置包括：

信息获取模块，用于获取目标生产流程的工艺监控需求信息和监控布防信息，其中，所述监控布防信息用于反映监控系统中各监控装置的开闭策略；

强化学习模块，用于将所述工艺监控需求信息和所述监控布防信息输入智能体，得到监控布防调整信息；

第三方面，本发明实施例还提供一种终端，其中，所述终端包括有存储器和一个以上处理器；所述存储器存储有一个以上的程序；所述程序包含用于执行如上述任一所述的基于强化学习的生产流程监控优化方法的指令；所述处理器用于执行所述程序。

第四方面，本发明实施例还提供一种计算机可读存储介质，其上存储有多条指令，其中，所述指令适用于由处理器加载并执行，以实现上述任一所述的基于强化学习的生产流程监控优化方法的步骤。

本发明的有益效果：本发明实施例通过强化学习技术来调整生产流程的监控系统中各监控装置的开闭策略，从而查找出既能满足工艺监控需求又能改善系统效能的监控布防信息。解决了现有技术中为了保障生产流程的正常运行，监控系统中各类传感器都以较高的监控强度运行，导致产生较高的系统能耗，并造成大量数据冗余的问题。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的基于强化学习的生产流程监控优化方法的流程示意图。

图2是本发明实施例提供的基于强化学习的生产流程监控优化装置的内部模块示意图。

图3是本发明实施例提供的终端的原理框图。

具体实施方式

本发明公开了一种基于强化学习的生产流程监控优化方法，为使本发明的目的、技术方案及效果更加清楚、明确，以下参照附图并举实施例对本发明进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解，当我们称元件被“连接”或“耦接”到另一元件时，它可以直接连接或耦接到其他元件，或者也可以存在中间元件。此外，这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。

本技术领域技术人员可以理解，除非另外定义，这里使用的所有术语(包括技术术语和科学术语)，具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是，诸如通用字典中定义的那些术语，应该被理解为具有与现有技术的上下文中的意义一致的意义，并且除非像这里一样被特定定义，否则不会用理想化或过于正式的含义来解释。

装配式建筑构件的生产流程需要基于物联网生成监控系统监控，监控系统中包括若干不同类型的传感器，各类传感器分别布设在生产装备、支撑机构和预制件上，例如压力传感器、温度传感器、加速度传感器（IMU）、视觉传感器。目前，为了保障生产流程的正常运行，监控系统中各类传感器都以较高的监控强度运行，导致产生较高的系统能耗，并造成大量数据冗余。

针对现有技术的上述缺陷，本发明提供一种基于强化学习的生产流程监控优化方法，所述方法通过获取目标生产流程的工艺监控需求信息和监控布防信息，其中，所述监控布防信息用于反映监控系统中各监控装置的开闭策略；将所述工艺监控需求信息和所述监控布防信息输入智能体，得到监控布防调整信息；根据所述监控布防调整信息和所述监控布防信息，确定更新监控布防信息；根据所述更新监控布防信息，确定所述目标生产流程对应的工艺监控需求达标率和所述监控系统对应的系统效能；根据所述工艺监控需求达标率和所述系统效能确定奖励值，当所述奖励值未达到预设阈值时，根据所述奖励值对所述智能体进行参数更新；将所述更新监控布防信息作为所述监控布防信息，继续执行将所述工艺监控需求信息和所述监控布防信息输入智能体的步骤，直至所述奖励值达到所述预设阈值，得到所述目标生产流程对应的目标监控布防信息。本发明通过强化学习技术来调整生产流程的监控系统中各监控装置的开闭策略，从而查找出既能满足工艺监控需求又能改善系统效能的监控布防信息。解决了现有技术中为了保障生产流程的正常运行，监控系统中各类传感器都以较高的监控强度运行，导致产生较高的系统能耗，并造成大量数据冗余的问题。

如图1所示，所述方法包括：

步骤S100、获取目标生产流程的工艺监控需求信息和监控布防信息，其中，所述监控布防信息用于反映监控系统中各监控装置的开闭策略。

具体地，目标生产流程可以为任意一个需要被监控的生产流程，例如装配式建筑构件的生产流程。为了给目标生产流程配备合适的监控布防，本实施例需要获取目标生产流程的工艺监控需求信息和当前的监控布防信息，通过工艺监控需求信息确定目标生产流程需要何种监控强度，并以此调节当前的监控布防。

在一种实现方式中，所述工艺监控需求信息的确定方法包括：

步骤S101、获取所述目标生产流程对应的工艺要求信息、工艺持续时长以及工艺历史故障信息；

步骤S102、根据所述工艺要求信息，确定监控覆盖范围；

步骤S103、根据所述工艺持续时长和所述工艺历史故障信息，确定故障频率；

步骤S104、根据所述监控覆盖范围和所述故障频率，确定所述工艺监控需求信息。

具体地，本实施例中的工艺监控需求信息主要用于反映两种信息，一种是监控应该覆盖的范围，另一种是监控强度。目标生产流程的工艺要求信息可以反映目标生产流程的生产区域以及生产区域中重要的生产环节，因此可以根据工艺要求信息确定监控系统的监控覆盖范围。目标生产流程的工艺持续时长和工艺历史故障信息可以反映目标生产流程发生故障的频率高低，进而反映出目标生产流程所需的监控强度，对于故障频率较高的生产流程需要采用更高的监控强度，对于故障频率较低的生产流程则可以采用较低的监控强度。

在一种实现方式中，所述监控布防信息的确定方法包括：

步骤S105、获取所述监控系统对应的通讯拓扑图，其中，所述通讯拓扑图包括各所述监控装置分别对应的节点，各所述节点之间的连线用于反映各所述监控装置之间的通讯关系；

步骤S106、根据所述通讯拓扑图，从各所述监控装置中确定若干哨兵监控装置，其中，各所述哨兵监控装置均为持续开启状态；

步骤S107、基于预设的通讯距离和所述通讯关系确定各所述哨兵监控装置分别对应的邻域监控装置，其中，每一所述哨兵监控装置对应的所述邻域监控装置为一个或者多个，各所述邻域监控装置均为间歇性开启状态；

步骤S108、根据各所述哨兵监控装置的位置信息，确定各所述哨兵监控装置分别对应的所述邻域监控装置的初始开启频率；

步骤S109、根据各所述哨兵监控装置和各所述邻域监控装置分别对应的所述初始开启频率，确定所述监控布防信息。

具体地，本实施例预先根据监控系统构建了一个通讯拓扑图，图采用节点和连线构成，每一个节点表示一个监控装置，节点与节点之间若存在连线，表示两个节点之间具有通讯关系，反之则不具有通讯关系。通讯拓扑图中的节点包括两类节点，一类节点对应的监控装置为哨兵监控装置，即一直处于开启状态的监控装置；另一类节点对应的监控装置为各哨兵监控装置的邻域监控装置，邻域监控装置为间歇性开启，各邻域监控装置由对应的哨兵监控装置控制并在初始阶段以预设的初始开启频率运行，后续调整过程中初始开启频率可以改变。初始阶段的监控布防信息即用于反映监控系统中布设的哨兵监控装置、邻域监控装置以及各邻域监控装置的初始开启频率。

在一种实现方式中，所述步骤S106具体包括：

步骤S1061、根据所述通讯拓扑图，确定各所述节点分别对应的拓扑特征，其中，每一所述节点的所述拓扑特征基于与该节点具有连接关系的各节点的节点间距离和节点数量确定；

步骤S1062、根据各所述节点的所述拓扑特征，从各所述监控装置中确定所述哨兵监控装置。

具体地，哨兵监控装置的选择需要分析通讯拓扑图中各节点的拓扑特征，根据各节点的拓扑特征确定哪些节点对应的监控装置为哨兵监控装置。通常倾向于选择与更多节点具有连接关系，且节点间距离更短的节点来确定哨兵监控装置，以保证可以得到更多的邻域监控装置。由于邻域监控装置是间歇性开启，因此邻域监控装置越多，系统的整体能耗降低越多。

如图1所示，所述方法还包括：

步骤S200、将所述工艺监控需求信息和所述监控布防信息输入智能体，得到监控布防调整信息；

步骤S300、根据所述监控布防调整信息和所述监控布防信息，确定更新监控布防信息；

步骤S400、根据所述更新监控布防信息，确定所述目标生产流程对应的工艺监控需求达标率和所述监控系统对应的系统效能；

步骤S500、根据所述工艺监控需求达标率和所述系统效能确定奖励值，当所述奖励值未达到预设阈值时，根据所述奖励值对所述智能体进行参数更新；

步骤S600、将所述更新监控布防信息作为所述监控布防信息，继续执行将所述工艺监控需求信息和所述监控布防信息输入智能体的步骤，直至所述奖励值达到所述预设阈值，得到所述目标生产流程对应的目标监控布防信息。

简单来说，本实施例采用的是强化学习的方式来优化监控系统的监控布防信息。具体地，本实施例预先设定了一个智能体，即强化学习模型DQN（Deep Q-learning）。智能体可以基于输入的工艺监控需求信息和监控布防信息自动输出监控布防调整信息，监控布防调整信息包括各监控装置的开启频率的调整策略，即各监控装置的开闭策略。本实施例通过智能体输出的监控布防调整信息调整上一轮的监控布防信息，得到更新监控布防信息。然而由于智能体预先未完成训练，因此智能体在初始阶段输出的监控布防调整信息并非是最优的。因此需要分析基于更新监控布防信息执行监控后目标生产流程的工艺监控需求达标率和监控系统的系统效能，并以这两种数据作为评价更新监控布防信息好坏的指标，生成智能体的奖励值。通过奖励值的高低，智能体即可知道当前轮输出的监控布防调整信息的好坏，从而以此为导向更新自身的参数。智能体的参数更新是以提高奖励值为目标，当奖励值达到预设阈值时，表示智能体已训练完毕，此时得到的更新监控布防信息既能满足监控需求又能改善系统效能，因此将其作为目标生产流程的目标监控布防信息。

在一种实现方式中，所述智能体包括行动池（Action pool），所述行动池包括若干不同的监控布防调整信息，每一监控布防调整信息用于指示各哨兵监测装置应当何时唤醒/休眠对应的邻域监测装置。

在一种实现方式中，所述智能体还包括价值函数（value function），将工艺监控需求信息和监控布防信息输入价值函数，确定当前轮智能体对最终奖励的期望值，根据期望值在行动池中通过试错的方式选择输出哪一个监控布防调整信息。

在一种实现方式中，所述工艺监控需求达标率的确定方法包括：

步骤S401、获取所述目标生产流程对应的实际监控覆盖范围和所述监控系统监测到的实际故障频率；

步骤S402、根据所述实际监控覆盖范围和所述实际故障频率，确定工艺监控供给信息；

步骤S403、通过比对所述工艺监控需求信息和所述工艺监控供给信息，得到所述工艺监控需求达标率。

具体地，由于优化后的监控系统中存在间歇性开启的监控装置，因此需要获取预设时间段内各监控装置的视野图，以确定是否存在监控盲区，进而计算出实际监控覆盖范围。此外，还需要获取优化后的监控系统在预设时间段内检测到的故障次数，得到实际故障频率。通过比对工艺监控需求信息和工艺监控供给信息，可以得到实际监控覆盖范围与监控覆盖范围之间的差距、实际故障频率与故障频率之间的差距，这两种差距的数值越小，表示优化后的监控系统虽然减少监控装置的开启数量，但是与未优化的监控系统的监控效果越接近，则工艺监控需求达标率越高。

在一种实现方式中，所述系统效能的确定方法包括：

步骤S404、根据所述更新监控布防信息，确定所述监控系统对应的传输效率、传输质量以及能耗；

步骤S405、根据所述传输效率、所述传输质量以及所述能耗，确定所述系统效能。

具体地，本实施例中监控系统的系统效能主要反映三个信息，监控系统的传输效率、传输质量以及能耗。传输效率可以基于单位时间内传输的数据量、传输速度等信息确定；传输质量可以基于带宽需求、传输过程中数据连续性、中断情况、缺失数据值以及数据异常值等信息确定；能耗可以基于监控系统的耗电量确定。

在一种实现方式中，所述步骤S500包括：

步骤S501、根据所述工艺监控需求达标率和所述系统效能的加权和，确定所述奖励值。

具体地，用户可以根据自身需求选择监控系统的优化方向，并基于优化方向设定工艺监控需求达标率和系统效能分别对应的权重值，权重值越大则其对奖励值的数值的影响越大，训练时智能体会更偏向于优化权重值高的指标。

基于上述实施例，本发明还提供了一种基于强化学习的生产流程监控优化装置，如图2所示，所述装置包括：

信息获取模块01，用于获取目标生产流程的工艺监控需求信息和监控布防信息，其中，所述监控布防信息用于反映监控系统中各监控装置的开闭策略；

强化学习模块02，用于将所述工艺监控需求信息和所述监控布防信息输入智能体，得到监控布防调整信息；

基于上述实施例，本发明还提供了一种终端，其原理框图可以如图3所示。该终端包括通过系统总线连接的处理器、存储器、网络接口、显示屏。其中，该终端的处理器用于提供计算和控制能力。该终端的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该终端的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现基于强化学习的生产流程监控优化方法。该终端的显示屏可以是液晶显示屏或者电子墨水显示屏。

本领域技术人员可以理解，图3中示出的原理框图，仅仅是与本发明方案相关的部分结构的框图，并不构成对本发明方案所应用于其上的终端的限定，具体的终端可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一种实现方式中，所述终端的存储器中存储有一个以上的程序，且经配置以由一个以上处理器执行所述一个以上程序包含用于进行基于强化学习的生产流程监控优化方法的指令。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本发明所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器（ROM）、可编程ROM（PROM）、电可编程ROM（EPROM）、电可擦除可编程ROM（EEPROM）或闪存。易失性存储器可包括随机存取存储器（RAM）或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM（SRAM）、动态RAM（DRAM）、同步DRAM（SDRAM）、双数据率SDRAM（DDRSDRAM）、增强型SDRAM（ESDRAM）、同步链路（Synchlink） DRAM（SLDRAM）、存储器总线（Rambus）直接RAM（RDRAM）、直接存储器总线动态RAM（DRDRAM）、以及存储器总线动态RAM（RDRAM）等。

综上所述，本发明公开了一种基于强化学习的生产流程监控优化方法，所述方法通过获取目标生产流程的工艺监控需求信息和监控布防信息，其中，所述监控布防信息用于反映监控系统中各监控装置的开闭策略；将所述工艺监控需求信息和所述监控布防信息输入智能体，得到监控布防调整信息；根据所述监控布防调整信息和所述监控布防信息，确定更新监控布防信息；根据所述更新监控布防信息，确定所述目标生产流程对应的工艺监控需求达标率和所述监控系统对应的系统效能；根据所述工艺监控需求达标率和所述系统效能确定奖励值，当所述奖励值未达到预设阈值时，根据所述奖励值对所述智能体进行参数更新；将所述更新监控布防信息作为所述监控布防信息，继续执行将所述工艺监控需求信息和所述监控布防信息输入智能体的步骤，直至所述奖励值达到所述预设阈值，得到所述目标生产流程对应的目标监控布防信息。本发明通过强化学习技术来调整生产流程的监控系统中各监控装置的开闭策略，从而查找出既能满足工艺监控需求又能改善系统效能的监控布防信息。解决了现有技术中为了保障生产流程的正常运行，监控系统中各类传感器都以较高的监控强度运行，导致产生较高的系统能耗，并造成大量数据冗余的问题。

应当理解的是，本发明的应用不限于上述的举例，对本领域普通技术人员来说，可以根据上述说明加以改进或变换，所有这些改进和变换都应属于本发明所附权利要求的保护范围。

Claims

1.一种基于强化学习的生产流程监控优化方法，其特征在于，所述方法包括：

2.根据权利要求1所述的基于强化学习的生产流程监控优化方法，其特征在于，所述工艺监控需求信息的确定方法包括：

根据所述工艺要求信息，确定监控覆盖范围；

3.根据权利要求1所述的基于强化学习的生产流程监控优化方法，其特征在于，所述监控布防信息的确定方法包括：

4.根据权利要求3所述的基于强化学习的生产流程监控优化方法，其特征在于，所述根据所述通讯拓扑图，从各所述监控装置中确定若干哨兵监控装置，包括：

5.根据权利要求2所述的基于强化学习的生产流程监控优化方法，其特征在于，所述工艺监控需求达标率的确定方法包括：

6.根据权利要求1所述的基于强化学习的生产流程监控优化方法，其特征在于，所述系统效能的确定方法包括：

7.根据权利要求1所述的基于强化学习的生产流程监控优化方法，其特征在于，所述根据所述工艺监控需求达标率和所述系统效能确定奖励值，包括：

8.一种基于强化学习的生产流程监控优化装置，其特征在于，所述装置包括：

9.一种终端，其特征在于，所述终端包括有存储器和一个以上处理器；所述存储器存储有一个以上的程序；所述程序包含用于执行如权利要求1-7中任一所述的基于强化学习的生产流程监控优化方法的指令；所述处理器用于执行所述程序。

10.一种计算机可读存储介质，其上存储有多条指令，其特征在于，所述指令适用于由处理器加载并执行，以实现上述权利要求1-7任一所述的基于强化学习的生产流程监控优化方法的步骤。