CN117466145A

CN117466145A - 基于深度强化学习的桥门式起重机防摇控制方法及装置

Info

Publication number: CN117466145A
Application number: CN202311619398.2A
Authority: CN
Inventors: 周勇; 邬宇飞
Original assignee: Wuhan University of Technology WUT
Current assignee: Wuhan University of Technology WUT
Priority date: 2023-11-28
Filing date: 2023-11-28
Publication date: 2024-01-30

Abstract

本发明涉及一种基于深度强化学习的桥门式起重机防摇控制方法及装置，包括：构建桥门式起重机防摇控制虚拟平台，基于输入整形算法确定所述桥门式起重机防摇控制虚拟平台的初始策略；基于所述初始策略和深度确定性策略梯度算法，确定所述桥门式起重机防摇控制虚拟平台的最终策略；基于双Q网络，将所述最终策略迁移至桥门式起重机防摇控制真实平台，确定所述桥门式起重机防摇控制真实平台的防摇控制策略。本发明实现了深度强化学习算法在桥门式起重机防摇控制上的应用，提高了桥门式起重机防摇控制的性能。

Description

基于深度强化学习的桥门式起重机防摇控制方法及装置

技术领域

本发明涉及起重运输技术领域，具体涉及一种基于深度强化学习的桥门式起重机防摇控制方法及装置。

背景技术

桥门式起重机是起升装置布置在横架于车间、堆场上空的横梁上的起重运输设备，广泛应用于车间、港口、仓库等工业场所，根据作业场景可以分为工业桥门式起重机、轨道式桥门式起重机、铁路桥门式起重机、集装箱桥门式起重机等。桥门式起重机小车行走机构和吊具起升机构采用柔性钢丝绳进行连接，当大、小车行走机构采用变速驱动时，由于惯性力的作用以及外在的风力等一系列干扰因素，吊具将产生近似单摆运动，这种摆动将严重影响桥门式起重机吊具定位精度，增加货物的堆垛难度，这会降低桥门式起重机的装卸搬运效率；同时，过大的摆动还可能导致危险事故的发生。因此，为了改善这种情况，桥门式起重机需要配置防摇装置。目前常用的防摇方法主要包括人工防摇、机械防摇以及电子防摇。

近年来，深度强化学习逐渐引起关注，它是一种适用于处理复杂非线性系统的方法。深度强化学习可以根据环境和外部奖励来学习最优的控制策略，并且能够自适应地处理未知参数和动态影响。但深度强化学习在桥门式起重机防摇控制方面的研究尚不充分，如何将深度强化学习应用于桥式桥门式起重机吊具的防摇控制，成为亟需解决的问题。

发明内容

有鉴于此，有必要提供一种基于深度强化学习的桥门式起重机防摇控制方法及装置，用以解决目前现有技术中难以将深度强化学习应用于桥式桥门式起重机吊具的防摇控制的技术问题。

为了实现上述目的，本发明提供了一种基于深度强化学习的桥门式起重机防摇控制方法，包括：

构建桥门式起重机防摇控制虚拟平台，基于输入整形算法确定所述桥门式起重机防摇控制虚拟平台的初始策略；

基于所述初始策略和深度确定性策略梯度算法，确定所述桥门式起重机防摇控制虚拟平台的最终策略；

基于双Q网络，将所述最终策略迁移至桥门式起重机防摇控制真实平台，确定所述桥门式起重机防摇控制真实平台的防摇控制策略。

进一步地，所述基于输入整形算法确定所述桥门式起重机防摇控制虚拟平台的初始策略，包括：

基于ZV输入整形算法、所述桥门式起重机防摇控制虚拟平台中吊具摆动的固有频率和所述桥门式起重机防摇控制虚拟平台中系统的阻尼比，确定所述初始策略。

进一步地，所述基于ZV输入整形算法、所述桥门式起重机防摇控制虚拟平台中吊具摆动的固有频率和所述桥门式起重机防摇控制虚拟平台中系统的阻尼比，确定所述初始策略，包括：

基于以下公式确定所述初始策略：

其中，A₁表示所述桥门式起重机防摇控制虚拟平台发起的第一脉冲的幅值，A₂表示所述桥门式起重机防摇控制虚拟平台发起的第二脉冲的幅值，t₁表示所述第一脉冲的触发时刻，t₂表示所述第二脉冲的触发时刻，ω_n表示所述桥门式起重机防摇控制虚拟平台中吊具摆动的固有频率，ξ表示所述桥门式起重机防摇控制虚拟平台中系统的阻尼比，K为比例参数，所述第一脉冲和所述第二脉冲的持续时间相同，所述第一脉冲和所述第二脉冲用于驱动所述桥门式起重机防摇控制虚拟平台中的小车。

进一步地，所述基于所述初始策略和深度确定性策略梯度算法，确定所述桥门式起重机防摇控制虚拟平台的最终策略，包括：

基于所述初始策略，确定所述桥门式起重机防摇控制虚拟平台中系统在任一时刻的状态和加速度，以及所述桥门式起重机防摇控制虚拟平台中系统在所述任一时刻的下一时刻的状态，并基于所述桥门式起重机防摇控制虚拟平台中系统在所述任一时刻的状态和加速度，确定所述桥门式起重机防摇控制虚拟平台中系统在所述任一时刻的奖励；

基于所述桥门式起重机防摇控制虚拟平台中系统在任一时刻的状态、加速度和奖励，以及所述桥门式起重机防摇控制虚拟平台中系统在所述任一时刻的下一时刻的状态，构建离线经验库；

将所述离线经验库作为经验回放池，基于深度确定性策略梯度算法，确定所述桥门式起重机防摇控制虚拟平台的最终策略。

进一步地，所述基于所述桥门式起重机防摇控制虚拟平台中系统在所述任一时刻的状态和加速度，确定所述桥门式起重机防摇控制虚拟平台中系统在所述任一时刻的奖励，包括：

在所述桥门式起重机防摇控制虚拟平台中的小车处于运行过程中的情况下，基于以下公式确定所述桥门式起重机防摇控制虚拟平台中系统在所述任一时刻的奖励：

在所述桥门式起重机防摇控制虚拟平台中的小车到达终点的情况下，基于以下公式确定所述桥门式起重机防摇控制虚拟平台中系统在所述任一时刻的奖励：

R(s_t,a_t)＝10*(5-n)

其中，R(s_t,a_t)表示所述桥门式起重机防摇控制虚拟平台中系统在所述任一时刻的奖励，s_t表示所述桥门式起重机防摇控制虚拟平台中系统在所述任一时刻的状态，a_t表示所述桥门式起重机防摇控制虚拟平台中系统在所述任一时刻的加速度，n表示吊具摆动幅度小于预设幅度动周期数。

进一步地，所述基于双Q网络，将所述最终策略迁移至桥门式起重机防摇控制真实平台，确定所述桥门式起重机防摇控制真实平台的防摇控制策略，包括：

将所述最终策略对应的价值函数网络作为双Q网络的源网络，随机初始化双Q网络的目标网络，对所述源网络进行更新；

基于更新后的所述源网络，更新所述最终策略对应的策略函数，将更新后的所述最终策略对应的策略函数作为所述桥门式起重机防摇控制真实平台的防摇控制策略。

进一步地，所述桥门式起重机防摇控制虚拟平台中系统的状态和所述桥门式起重机防摇控制真实平台中系统的状态包括：

小车的位置和速度，以及吊具的摆角和角速度。

本发明还提供了一种基于深度强化学习的桥门式起重机防摇控制装置，包括：

构建模块，用于构建桥门式起重机防摇控制虚拟平台，基于输入整形算法确定所述桥门式起重机防摇控制虚拟平台的初始策略；

第一确定模块，用于基于所述初始策略和深度确定性策略梯度算法，确定所述桥门式起重机防摇控制虚拟平台的最终策略；

第二确定模块，用于基于双Q网络，将所述最终策略迁移至桥门式起重机防摇控制真实平台，确定所述桥门式起重机防摇控制真实平台的防摇控制策略。

本发明还提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行程序时，实现如上所述的基于深度强化学习的桥门式起重机防摇控制方法。

本发明还提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如上所述的基于深度强化学习的桥门式起重机防摇控制方法。

与现有技术相比，本发明的有益效果包括：首先构建桥门式起重机防摇控制虚拟平台，并使用输入整形算法确定虚拟平台的初始策略，然后使用深度确定性策略梯度算法对虚拟平台的初始策略进行优化，得到虚拟平台的最终策略，最后使用双Q网络将虚拟平台的最终策略迁移到桥门式起重机防摇控制真实平台，得到桥门式起重机防摇控制真实平台的防摇控制策略，实现了深度强化学习算法在桥门式起重机防摇控制上的应用，提高了桥门式起重机防摇控制的性能。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明提供的基于深度强化学习的桥门式起重机防摇控制方法一实施例的流程示意图；

图2为本发明提供的岸边集装箱桥门式起重机吊具防摇方法一实施例的流程示意图；

图3为本发明提供的岸桥微缩模型平台一实施例的结构示意图；

图4为本发明提供的输入整形前小车加速度一实施例的示意图；

图5为本发明提供的输入整形后小车加速度一实施例的示意图；

图6为本发明提供的输入整形后小车速度一实施例的示意图；

图7为本发明提供的DDPG强化学习算法一实施例的流程示意图；

图8为本发明提供的虚拟实验到真实环境的防摇算法迁移一实施例的流程示意图；

图9为本发明提供的基于深度强化学习的桥门式起重机防摇控制装置一实施例的结构示意图；

图10为本发明提供的电子设备一实施例的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本发明的描述中，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。此外，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

在本发明的描述中，提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本发明的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，所描述的实施例可以与其它实施例相结合。

近年来，深度强化学习逐渐引起关注，它是一种适用于处理复杂非线性系统的方法。深度强化学习可以根据环境和外部奖励来学习最优的控制策略，并且能够自适应地处理未知参数和动态影响。虽然深度强化学习已在工业制造、机器人控制、调度优化、游戏博弈等领域得到广泛应用，但在桥门式起重机防摇控制方面的研究尚不充分。将深度强化学习应用于桥式桥门式起重机吊具的防摇控制，有望更好地处理复杂的非线性系统，同时提供更优越的控制性能。

八绳防摇是机械防摇的一种代表方法。它通过机械手段来消耗小车运行过程中负载摆动的能量，从而最终实现减少负载摆动的目标。这种方法具有稳定性和可靠性的优势，但也带来了一些问题，如增加了桥门式起重机整体质量、能量消耗大、维修困难以及硬件成本高等。

随着港口桥门式起重机自动化程度的不断提升，电子防摇技术得到了广泛应用，并成为目前港口桥门式起重机吊具防摇系统的主要控制方式。这种防摇方法是基于控制理论的电子防摇，通过分析桥式桥门式起重机各个状态之间的关系，计算出能够确保系统精准定位和防摇的输入信号。从理论上来说，电子防摇的效果更好，而且成本更低。目前，电子防摇的研究主要分为开环控制和闭环控制两种。开环电子防摇主要通过给定速度曲线、最优控制等理论方法实现，它不依赖角度反馈，因此成本较低且易于实现。然而，它需要精确的建模，主要采用输入整形法等方法。闭环电子防摇则通过安装传感器来测量被控量的变化，并将这些信息进行反馈，根据反馈结果实时调整系统输出，从而实现较为精确的控制。然而，常规的闭环控制需要获取全面的反馈状态，而港口的风浪等环境影响使得传统的闭环控制难以取得良好效果。

为了克服现有防摇控制方法难以简化建模、难以获取全状态反馈，以及无法从理论仿真研究落实到实际工程应用的问题，本发明提出了一种基于深度强化学习的桥门式起重机防摇控制方法，抑制吊重摇摆。

以下分别对具体实施例进行详细说明：

本发明提供了一种基于深度强化学习的桥门式起重机防摇控制方法，结合图1来看，图1为本发明提供的基于深度强化学习的桥门式起重机防摇控制方法一实施例的流程示意图，包括步骤S101至步骤S103，其中：

在步骤S101中，构建桥门式起重机防摇控制虚拟平台，基于输入整形算法确定所述桥门式起重机防摇控制虚拟平台的初始策略；

在步骤S102中，基于所述初始策略和深度确定性策略梯度算法，确定所述桥门式起重机防摇控制虚拟平台的最终策略；

在步骤S103中，基于双Q网络，将所述最终策略迁移至桥门式起重机防摇控制真实平台，确定所述桥门式起重机防摇控制真实平台的防摇控制策略。

在本发明实施例中，首先构建桥门式起重机防摇控制虚拟平台，并使用输入整形算法确定虚拟平台的初始策略，然后使用深度确定性策略梯度算法对虚拟平台的初始策略进行优化，得到虚拟平台的最终策略，最后使用双Q网络将虚拟平台的最终策略迁移到桥门式起重机防摇控制真实平台，得到桥门式起重机防摇控制真实平台的防摇控制策略，实现了深度强化学习算法在桥门式起重机防摇控制上的应用，提高了桥门式起重机防摇控制的性能。

在本发明一个具体的实施例中，首先可以构造桥门式起重机防摇控制虚拟平台，来模拟岸边集装箱吊具的使用场景。在该场景中，单次作业过程中，小车通常先加速，中间匀速最后再减速，可以使用输入整形算法对小车的加速度进行整形，将所得的结果作为桥门式起重机防摇控制虚拟平台的初始策略。

在得到桥门式起重机防摇控制虚拟平台的初始策略之后，可以使用深度确定性策略梯度算法(Deep Deterministic Policy Gradient，DDPG)优化桥门式起重机防摇控制虚拟平台的初始策略，使得桥门式起重机防摇控制虚拟平台可以根据系统当前的状态，输出更加合适的动作，最后得到桥门式起重机防摇控制虚拟平台的最终策略。

由于DDPG所得的策略存在过高估计的情况，在将桥门式起重机防摇控制虚拟平台的最终策略迁移至桥门式起重机防摇控制真实平台时，可以使用双Q网络降低桥门式起重机防摇控制虚拟平台的最终策略的过高估计，得到桥门式起重机防摇控制真实平台的防摇控制策略。

作为优选的实施例，所述基于输入整形算法确定所述桥门式起重机防摇控制虚拟平台的初始策略，包括：

在本发明一个具体的实施例中，在使用输入整形算法确定桥门式起重机防摇控制虚拟平台的初始策略时，可以使用ZV输入整形算法，根据桥门式起重机防摇控制虚拟平台中吊具摆动的固有频率和桥门式起重机防摇控制虚拟平台中系统的阻尼比，确定单次作业过程中小车的加速度，从而确定桥门式起重机防摇控制虚拟平台的初始策略。

作为优选的实施例，所述基于ZV输入整形算法、所述桥门式起重机防摇控制虚拟平台中吊具摆动的固有频率和所述桥门式起重机防摇控制虚拟平台中系统的阻尼比，确定所述初始策略，包括：

基于以下公式确定所述初始策略：

在本发明一个具体的实施例中，在使用ZV输入整形算法，根据桥门式起重机防摇控制虚拟平台中吊具摆动的固有频率和桥门式起重机防摇控制虚拟平台中系统的阻尼比，确定桥门式起重机防摇控制虚拟平台的初始策略时，可以使用上述公式。第一脉冲和第二脉冲可以用于驱动桥门式起重机防摇控制虚拟平台中的小车，从而为小车提供加速度。

作为优选的实施例，所述基于所述初始策略和深度确定性策略梯度算法，确定所述桥门式起重机防摇控制虚拟平台的最终策略，包括：

在本发明一个具体的实施例中，在确定桥门式起重机防摇控制虚拟平台的初始策略之后，可以根据该初始策略确定桥门式起重机防摇控制虚拟平台中系统在任一时刻的状态、加速度和奖励，以及系统在下一时刻的状态。以t时刻为例，t时刻系统的状态为s_t，小车加速度为a_t，t+1时刻系统的状态为s_t+1，得到的奖励为r_t，可以将(s_t,a_t,s_t+1,r_t)作为一组数据存储于离线经验库中。

完成离线经验库的构建之后，可以将离线经验库作为DDPG算法的经验回放池，使用DDPG算法对桥门式起重机防摇控制虚拟平台的初始策略进行优化，得到桥门式起重机防摇控制虚拟平台的最终策略。在优化过程中，若经验回放池被占满，可以优先将离线经验库中的数据删除，然后删除迭代时间在前的数据。

作为优选的实施例，所述基于所述桥门式起重机防摇控制虚拟平台中系统在所述任一时刻的状态和加速度，确定所述桥门式起重机防摇控制虚拟平台中系统在所述任一时刻的奖励，包括：

R(s_t,a_t)＝10*(5-n)

在本发明一个具体的实施例中，可以根据上述公式确定桥门式起重机防摇控制虚拟平台中系统在任一时刻的奖励。

作为优选的实施例，所述基于双Q网络，将所述最终策略迁移至桥门式起重机防摇控制真实平台，确定所述桥门式起重机防摇控制真实平台的防摇控制策略，包括：

在本发明一个具体的实施例中，在使用双Q网络将桥门式起重机防摇控制虚拟平台的最终策略迁移至桥门式起重机防摇控制真实平台时，可以将双Q网络将桥门式起重机防摇控制虚拟平台的最终策略对应的价值函数网络作为双Q网络的源网络，并随机初始化双Q网络的目标网络，然后对双Q网络的源网络进行更新，并根据更新后的源网络更新桥门式起重机防摇控制虚拟平台的最终策略对应的策略函数，将更新后的策略函数作为所述桥门式起重机防摇控制真实平台的防摇控制策略。

作为优选的实施例，所述桥门式起重机防摇控制虚拟平台中系统的状态和所述桥门式起重机防摇控制真实平台中系统的状态包括：

小车的位置和速度，以及吊具的摆角和角速度。

在本发明一个具体的实施例中，在深度强化学习算法的执行过程中，桥门式起重机防摇控制虚拟平台中系统的状态和桥门式起重机防摇控制真实平台中系统的状态可以包括小车的位置和速度、吊具的摆角和角速度。相应地，系统的动作可以包括小车的加速度。

下面结合一个具体的应用场景，更好地说明本发明技术方案：

结合图2来看，图2为本发明提供的岸边集装箱桥门式起重机吊具防摇方法一实施例的流程示意图，该方法包括基于输入整形的先验策略学习、虚拟环境下的吊具防摇算法训练、面向真实环境的吊具防摇算法迁移三个部分。

结合图3来看，图3为本发明提供的岸桥微缩模型平台一实施例的结构示意图，搭建的岸桥集装箱桥门式起重机微缩实验装置包括起升机构、小车机构、电气柜、自动导向(Automated Guided Vehicle，AGV)小车、集装箱与吊具和计算机等硬件设备。

基于输入整形防摇的先验策略学习：输入整形的思想为将原本的输入信号分n次(n≥2)输入，控制好时间间隔即可使各信号产生的振动通过线性叠加相互抵消，即输入整形的本质即为计算出每一个脉冲信号的幅值以及迟滞时间。在现有技术应用中，单次作业过程中小车的速度曲线通常为先加速中间匀速最后减速的梯形曲线。本发明视绳长恒定不变，采用传统ZV整形输入方法对小车的加速度进行整形。约束条件如下：

求解得：

其中，A₁表示岸边集装箱吊具防摇虚拟实验平台(即桥门式起重机防摇控制虚拟平台)发起的第一脉冲的幅值，A₂表示岸边集装箱吊具防摇虚拟实验平台发起的第二脉冲的幅值，t₁表示第一脉冲的触发时刻，t₂表示第二脉冲的触发时刻，ω_n表示吊具摆动的固有频率，ξ表示系统的阻尼比，K为比例参数。

结合图4和图5来看，图4为本发明提供的输入整形前小车加速度一实施例的示意图，图5为本发明提供的输入整形后小车加速度一实施例的示意图，输入整形将小车的加速度过程进行分解，将原本的一次加速及减速分解为两次。

结合图6来看，图6为本发明提供的输入整形后小车速度一实施例的示意图，根据输入整形之后小车的加速度曲线，可以得到输入整形之后小车的速度曲线。

虚拟环境下吊具防摇算法训练：本发明通过Coppeliasim仿真软件搭建岸边集装箱桥门式起重机，并在ZV整形输入算法初始化防摇策略的基础上引入DDPG强化学习算法进行训练，首先建立桥门式起重机防摇控制的马尔可夫序列决策模型，主要包括：

状态s：主要包括小车的位置、速度、吊具的摆角、吊具摆角角速度。

动作a：小车的加速度。

奖励R：奖励分为小车运行过程中以及小车达到任务终点后。

小车运行过程中：

小车到达终点后：

R(s_t,a_t)＝10*(5-n)

n表示吊具摆动幅度小于预设幅度动周期数。

在Coppeliasim软件中，利用ZV输入整形器生成的小车速度曲线进行仿真，根据仿真过程中所采集的数据输入离线经验池数据库。以t时刻为例，t时刻小车位置、速度、吊具摆角、吊具摆角角速度为状态s_t，t时刻小车加速度为动作a_t，做出动作后，t+1时刻小车位置、速度、吊具摆角、吊具摆角角速度为状态s_t+1，得到的奖励为r_t。以(s_t，a_t，s_t+1，r_t)作为一组数据存储于经验池中，建立DDPG算法策略网络与价值网络架构。DDPG算法使用演员评论家算法作为基本框架，采用深度神经网络作为策略网络和动作价值函数的近似，使用随机梯度算法训练策略网络和价值网络模型中的参数。

结合图7来看，图7为本发明提供的DDPG强化学习算法一实施例的流程示意图，DDPG强化学习算法包括如下步骤：

1、初始化策略网络和价值网络(包括确定隐藏层节点数、确定隐藏层激活函数及输出层激活函数、初始化各节点权重及误差值)。

2、初始化经验回放池，初始化随机探索噪声。

3、批量读取环境状态s_t，输入online策略网络中，执行动作a_t并得到奖励r_t和环境状态s_t+1，将一组数据(s_t，a_t，s_t+1，r_t)存入经验池R中。同时online策略网络将状态s_t+1输入target策略网络，target策略网络根据状态s_t+1生成下一步最优动作a′_t输入给target Q网络，target策略网络的参数直接从online策略网络中复制。Online Q网络根据状态s_t和动作a_t计算当前状态下动作的奖励函数Q(s，a，w)。target Q网络计算得到目标奖励Q′(s′，a′，w′)。用最小化损失函数来更新Q网络，用策略梯度更新策略网络。

4、为避免直接更新网络参数从而使得计算出的目标值变化剧烈导致网络剧烈震荡难以拟合，产生自举现象，采用软更新方式更新target策略网络参数θ′，targetQ网络参数μ′，即：

若经验回放池被占满了，则根据样本重要性动态调整经验回放池(迭代次数在前的数据重要性比迭代次数在后的数据低)。

5、重复步骤3和步骤4，直至防摇效果达到要求。

面向真实环境的吊具防摇算法迁移：由于仿真与真实环境的建模存在难以规避的偏差，如何将在仿真环境训练的防摇控制策略准确运用到真实环境实现装配是新的问题，本发明使用双Q网络学习对策略的迁移效果进行优化。

由于基于actor-critic框架的DDPG算法中策略梯度方向是局部最大化的方向使得critic值函数网络Q值存在过高估计，进而导致动作策略网络次优策略期望回报值虚高使得策略网络更新发生偏移，这种情况下TD3策略利用双Q网络学习消除过高估计。基于此思想，本发明迁移仿真环境中学习得到的最后价值函数网络，在物理样机实验任务中称其为源任务critic值函数网络，同时物理样机实验中设置一个随机初始化的目标任务critic值函数网络，为避免过高估计，一般情况以目标任务critic值函数网络主导，当目标任务critic值函数网络计算的奖励大于源任务critic值函数网络计算的奖励时，则更新源任务critic网络、目标任务critic网络以及actor网络。

结合图8来看，图8为本发明提供的虚拟实验到真实环境的防摇算法迁移一实施例的流程示意图。

岸边集装箱桥门式起重机吊具防摇物理样机实验平台包括岸桥微缩模型、强化学习防摇控制系统、吊重摆角测量装置以及小车位置测量装置。

角度测量装置可以在小车运行过程中实时测量小车运行方向上吊重摆角大小，将摆角信号传输至控制系统，小车位置测量装置可以在小车运行过程中实时测量小车位置，将小车位置信号传输至控制系统。小车位置测量装置采用电机内置编码器提取小车位置信号，将小车位置信号传输至控制系统。强化学习防摇控制系统将摆角信号以及小车位置信号作为强化学习控制器的状态输入，用来控制小车的运行速度，实现桥门式起重机防摇控制。角度测量装置包括相机、支架、摆角测量主机，相机通过支架安装在小车车架底部，相机采集图像，通过摆角测量主机内布置的深度学习目标检测软件测量实时摆角，然后将摆角信号传输至控制系统。

桥门式起重机防摇控制的具体步骤如下：

1、初始化各状态参数。

2、输入小车目标位置。

3、在小车运行过程中，通过角度测量装置实时检测吊重摆角，将摆角信号传输至控制系统作为状态输入。

4、在小车运行过程中，通过小车位置测量装置实时检测小车位置，将小车位置信号传输至控制系统作为状态输入。

5、强化学习控制系统将获取的摆角信号和小车位置信号作为状态输入至强化学习控制器，根据输出的小车速度对小车运行位置进行实时控制。

本发明针对岸边集装箱吊具防摇任务，运用DDPG强化学习算法对智能体进行吊具防摇策略训练，使用输入整形算法作为强化学习算法控制器的初始策略，有助于智能体对训练任务进行初步了解，提高了样本的利用率以及算法学习效率。迁移学习的加入有助于提升吊具防摇算法从虚拟环境到物理样机实验的适用性。相对于传统的整形输入这类开环控制算法，DDPG强化学习防摇算法不依赖对模型的精确建模即可通过训练得到良好的控制效果；相较于比例微分积分(proportional integral derivative，PID)控制器这种经典的闭环控制器，DDPG强化学习防摇算法具有更高的控制精度和更好的适应性能。

本发明实施例还提供了一种基于深度强化学习的桥门式起重机防摇控制装置，结合图9来看，图9为本发明提供的基于深度强化学习的桥门式起重机防摇控制装置一实施例的结构示意图，基于深度强化学习的桥门式起重机防摇控制装置900包括：

构建模块901，用于构建桥门式起重机防摇控制虚拟平台，基于输入整形算法确定所述桥门式起重机防摇控制虚拟平台的初始策略；

第一确定模块902，用于基于所述初始策略和深度确定性策略梯度算法，确定所述桥门式起重机防摇控制虚拟平台的最终策略；

第二确定模块903，用于基于双Q网络，将所述最终策略迁移至桥门式起重机防摇控制真实平台，确定所述桥门式起重机防摇控制真实平台的防摇控制策略。

基于深度强化学习的桥门式起重机防摇控制装置的各个模块的更具体实现方式可以参见对于上述基于深度强化学习的桥门式起重机防摇控制方法的描述，且具有与之相似的有益效果，在此不再赘述。

本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时，实现如上所述的基于深度强化学习的桥门式起重机防摇控制方法。

一般来说，用于实现本发明方法的计算机指令的可以采用一个或多个计算机可读的存储介质的任意组合来承载。非临时性计算机可读存储介质可以包括任何计算机可读介质，除了临时性地传播中的信号本身。

计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件，或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码，程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言，特别是可以使用适于神经网络计算的Python语言和基于TensorFlow、PyTorch等平台框架。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行，或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

本发明实施例还提供了一种电子设备，结合图10来看，图10为本发明提供的电子设备一实施例的结构示意图，电子设备1000包括处理器1001、存储器1002及存储在存储器1002上并可在处理器1001上运行的计算机程序，处理器1001执行程序时，实现如上所述的基于深度强化学习的桥门式起重机防摇控制方法。

作为优选的实施例，上述电子设备1000还包括显示器1003，用于显示处理器1001执行如上所述的基于深度强化学习的桥门式起重机防摇控制方法。

示例性的，计算机程序可以被分割成一个或多个模块/单元，一个或者多个模块/单元被存储在存储器1002中，并由处理器1001执行，以完成本发明。一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述计算机程序在电子设备1000中的执行过程。例如，计算机程序可以被分割成上述实施例中的构建模块901、第一确定模块902及第二确定模块903，各模块的具体功能如上所述，在此不一一赘述。

电子设备1000可以是带可调摄像头模组的桌上型计算机、笔记本、掌上电脑或智能手机等设备。

其中，处理器1001可能是一种集成电路芯片，具有信号的处理能力。上述的处理器1001可以是通用处理器，包括中央处理器(Central Processing Unit，CPU)、网络处理器(Network Processor，NP)等；还可以是数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

其中，存储器1002可以是，但不限于，随机存取存储器(Random Access Memory，RAM)，只读存储器(Read Only Memory，ROM)，可编程只读存储器(Programmable Read-OnlyMemory，PROM)，可擦除只读存储器(Erasable Programmable Read-Only Memory，EPROM)，电可擦除只读存储器(Electric Erasable Programmable Read-Only Memory，EEPROM)等。其中，存储器1002用于存储程序，所述处理器1001在接收到执行指令后，执行所述程序，前述本发明实施例任一实施例揭示的流程定义的方法可以应用于处理器1001中，或者由处理器1001实现。

其中，显示器1003可以是LCD显示屏，也可以是LED显示屏。例如，手机上的显示屏。

可以理解的是，图10所示的结构仅为电子设备1000的一种结构示意图，电子设备1000还可以包括比图10所示更多或更少的组件。图10中所示的各组件可以采用硬件、软件或其组合实现。

根据本发明上述实施例提供的计算机可读存储介质和电子设备，可以参照根据本发明实现如上所述的基于深度强化学习的桥门式起重机防摇控制方法具体描述的内容实现，并具有与如上所述的基于深度强化学习的桥门式起重机防摇控制方法类似的有益效果，在此不再赘述。

本领域技术人员可以理解，实现上述实施例方法的全部或部分流程，可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于计算机可读存储介质中。其中，所述计算机可读存储介质为磁盘、光盘、只读存储记忆体或随机存储记忆体等。

本发明公开了一种基于深度强化学习的桥门式起重机防摇控制方法及装置，首先构建桥门式起重机防摇控制虚拟平台，并使用输入整形算法确定虚拟平台的初始策略，然后使用深度确定性策略梯度算法对虚拟平台的初始策略进行优化，得到虚拟平台的最终策略，最后使用双Q网络将虚拟平台的最终策略迁移到桥门式起重机防摇控制真实平台，得到桥门式起重机防摇控制真实平台的防摇控制策略，实现了深度强化学习算法在桥门式起重机防摇控制上的应用，提高了桥门式起重机防摇控制的性能。

本发明技术方案，提出了将输入整形算法、DDPG算法以及双Q网络结合起来，进行桥门式起重机防摇控制，提升了桥门式起重机防摇控制的精度。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。

Claims

1.一种基于深度强化学习的桥门式起重机防摇控制方法，其特征在于，包括：

2.根据权利要求1所述的基于深度强化学习的桥门式起重机防摇控制方法，其特征在于，所述基于输入整形算法确定所述桥门式起重机防摇控制虚拟平台的初始策略，包括：

3.根据权利要求2所述的基于深度强化学习的桥门式起重机防摇控制方法，其特征在于，所述基于ZV输入整形算法、所述桥门式起重机防摇控制虚拟平台中吊具摆动的固有频率和所述桥门式起重机防摇控制虚拟平台中系统的阻尼比，确定所述初始策略，包括：

基于以下公式确定所述初始策略：

4.根据权利要求1所述的基于深度强化学习的桥门式起重机防摇控制方法，其特征在于，所述基于所述初始策略和深度确定性策略梯度算法，确定所述桥门式起重机防摇控制虚拟平台的最终策略，包括：

5.根据权利要求4所述的基于深度强化学习的桥门式起重机防摇控制方法，其特征在于，所述基于所述桥门式起重机防摇控制虚拟平台中系统在所述任一时刻的状态和加速度，确定所述桥门式起重机防摇控制虚拟平台中系统在所述任一时刻的奖励，包括：

R(s_t,a_t)＝10*(5-n)

6.根据权利要求1所述的基于深度强化学习的桥门式起重机防摇控制方法，其特征在于，所述基于双Q网络，将所述最终策略迁移至桥门式起重机防摇控制真实平台，确定所述桥门式起重机防摇控制真实平台的防摇控制策略，包括：

7.根据权利要求1至6任一项所述的基于深度强化学习的桥门式起重机防摇控制方法，其特征在于，所述桥门式起重机防摇控制虚拟平台中系统的状态和所述桥门式起重机防摇控制真实平台中系统的状态包括：

小车的位置和速度，以及吊具的摆角和角速度。

8.一种基于深度强化学习的桥门式起重机防摇控制装置，其特征在于，包括：

9.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，处理器执行程序时，实现根据权利要求1至7任一项所述的基于深度强化学习的桥门式起重机防摇控制方法。

10.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的基于深度强化学习的桥门式起重机防摇控制方法。