CN116679726B

CN116679726B - 基于边缘计算的无人驾驶塔机自主决策系统

Info

Publication number: CN116679726B
Application number: CN202310966329.2A
Authority: CN
Inventors: 明长伟; 李洪鹏; 张正嵩; 孙兆帅; 张凯凯; 赵龙辉; 吴元章; 孟宪念; 武鹏; 王琰
Original assignee: Shandong Build Power Equipment Leasing Co ltd
Current assignee: Shandong Build Power Equipment Leasing Co ltd
Priority date: 2023-08-01
Filing date: 2023-08-01
Publication date: 2023-11-03
Anticipated expiration: 2043-08-01
Also published as: CN116679726A

Abstract

本发明涉及塔机控制技术领域，涉及基于边缘计算的无人驾驶塔机自主决策系统；所述系统包括：历史数据分析单元，配置用于采集塔机的历史故障数据；故障空间构建单元，配置用于将历史故障数据元组视为一个三维空间中的一个坐标点，映射到三维空间中，组成故障空间；塔机自主决策单元，配置用于在塔机运行时，获取实时姿态数据和实时环境数据，在状态空间中确定对应的实时坐标点，基于和值最小的实时坐标点对应的实时操作指令数据，控制塔机的运行；本发明通过实时姿态数据和实时环境数据的感知和分析，采用Q‑Learning边缘决策模型和故障预测技术，实现智能化的决策和控制，提高塔机运行效率、安全性和维护成本效益。

Description

基于边缘计算的无人驾驶塔机自主决策系统

技术领域

本发明属于塔机控制技术领域，具体涉及基于边缘计算的无人驾驶塔机自主决策系统。

背景技术

近年来，无人驾驶技术的发展和应用已经引起了广泛的关注和研究。无人驾驶技术在许多领域具有巨大的潜力，其中之一是无人驾驶塔机的应用。无人驾驶塔机可以用于建筑工地、港口码头等需要大型起重设备的场所，它可以提高工作效率、减少人为操作的风险，并为建设和运输领域带来-巨大的变化。

然而，目前的无人驾驶塔机系统仍然存在一些问题和挑战。首先，传统的无人驾驶塔机系统通常是基于集中式控制的，所有决策和控制都由中央服务器或控制中心处理。这种集中式控制方式存在着延迟和单点故障的风险，当服务器或中心出现问题时，整个系统的运行将受到影响。此外，传统系统的决策和控制模型通常基于静态和预设的规则，缺乏对实时姿态数据和实时环境数据的准确感知和响应能力。

另一个问题是，现有的无人驾驶塔机系统缺乏自主决策和智能化的能力。它们通常依赖于预先编程的轨迹或指令集，无法根据实时姿态数据和实时环境数据做出灵活和智能的决策。这限制了系统对复杂环境和突发情况的适应能力，降低了系统的运行效率和安全性。

此外，现有的无人驾驶塔机系统在故障检测和故障预测方面仍有一定的局限性。它们通常只能通过简单的故障代码或传感器信号来检测故障，缺乏对历史故障数据的综合分析和利用。这导致了对故障的判断和诊断的不准确性和有限性，难以实现对故障的预测和主动修复。

发明内容

本发明的主要目的在于提供基于边缘计算的无人驾驶塔机自主决策系统，通过实时姿态数据和实时环境数据的感知和分析，采用Q-Learning边缘决策模型和故障预测技术，实现智能化的决策和控制，提高塔机运行效率、安全性和维护成本效益。

为了解决上述问题，本发明的技术方案是这样实现的：

基于边缘计算的无人驾驶塔机自主决策系统，所述系统包括：历史数据分析单元，配置用于采集塔机的历史故障数据，所述历史故障数据为历史故障数据元组组成的数据集合；每个历史故障数据元组包括：塔机在历史每次发生故障时的操作指令数据/>、姿态数据/>和环境数据/>；故障空间构建单元，配置用于将历史故障数据元组视为一个三维空间中的一个坐标点，映射到三维空间中，将三维空间中所有的坐标点点连接起来，组成故障空间；塔机自主决策单元，配置用于在塔机运行时，获取实时姿态数据和实时环境数据，作为输入，利用预设的Q-Learning边缘决策模型，找到Q函数的值最低时，对应的可能的实时操作指令数据，针对每个实时操作指令数据，在状态空间中确定对应的实时坐标点，计算每个实时坐标点距离故障空间中其他坐标点的距离的和值，基于和值最小的实时坐标点对应的实时操作指令数据，控制塔机的运行。

进一步的，所述操作指令数据和实时操作指令数据均为数值，该数值对应一个操作指令；所述操作指令的种类包括启动、停止、上升、上升停止、下降、下降停止、旋转、旋转停止、移动、移动停止、大臂伸展、大臂折叠、小臂伸展、小臂折叠、勾绳延展和勾绳折叠；不同种类的操作指令对应一个不同的操作指令数据。

进一步的，所述姿态数据和实时姿态数据均为一个三元复合数值，该三元复合数值表征了塔机的姿态，所述三元复合数值的表现形式为：；其中，/>为塔机与竖直方向的夹角；/>为塔机与水平面X轴方向的夹角；/>为塔机与水平面Y轴方向的夹角。

进一步的，所述环境数据和实时环境数据均为一个四元复合数值，该四元符合数值表征了塔机所处环境的环境状况，所述四元复合数值的表现形式为：；其中，/>为风强、/>为风速，/>为温度、/>为湿度。

进一步的，所述塔机自主决策单元包括：传感器组、数据预处理单元、数据实时分析单元和控制单元；所述传感器用于获取实时姿态数据和实时环境数据；所述数据预处理单元用于对实时姿态数据和实时环境数据进行数据预处理，以去除实时姿态数据和实时环境数据的噪声，得到预处理姿态数据和预处理环境数据；所述数据实时分析单元，配置用于将预处理姿态数据和预处理环境数据，作为输入，利用预设的Q-Learning边缘决策模型，找到Q函数的值最低时，对应的可能的实时操作指令数据，针对每个实时操作指令数据，在状态空间中确定对应的实时坐标点，计算每个实时坐标点距离故障空间中其他坐标点的距离的和值，将和值最小的实时坐标点对应的实时操作指令数据筛选出来；所述控制单元用于基于和值最小的实时坐标点对应的实时操作指令数据，控制塔机的运行。

进一步的，所述数据实时分析单将预处理姿态数据和预处理环境数据，作为输入，利用预设的Q-Learning边缘决策模型，找到Q函数的值最低时，对应的可能的实时操作指令数据的方法包括：使用Q-Learning的更新公式来训练预设的Q-Learning边缘决策模型；使用训练后的预设的Q-Learning边缘决策模型来在实时姿态数据和实时环境数据下选择最优的实时操作指令数据。

进一步的，所述使用Q-Learning的更新公式来训练预设的Q-Learning边缘决策模型的方法包括：在每一步，使用以下更新公式更新状态动作值函数：；

所述更新公式表示实时姿态数据、实时环境数据/>和实时操作指令数据的价值函数/>将基于当前的奖励/>以及末来可能获得的最大奖励进行更新；/>表示在实时姿态数据/>和实时环境数据/>下选择实时操作指令数据/>的预期奖励；/>是在实时姿态数据/>和实时环境数据/>下选择实时操作指令数据/>立即获得的奖励；/>是在下一个姿态数据/>和下一个环境数据/>下选择任意实时操作指令数据/>可获得的最大预期奖励；/>是学习率，控制在每一步对Q值进行更新的程度；/>是折扣因子，控制对末来奖励的重视程度，/>为更新的/>。

进一步的，所述奖励使用如下公式计算得到：

；

其中，是执行实时操作指令数据/>所需要的时间；/>是执行动作时可能发生的事故数量；/>和/>均为设定的不同的权重值。

进一步的，所述使用训练后的预设的Q-Learning边缘决策模型来在实时姿态数据和实时环境数据下选择最优的实时操作指令数据使用价值计算模型来计算实时姿态数据的最优价值和实时环境数据的价值；所述价值计算模型使用如下公式进行表示：

；

其中，是实时姿态数据/>和实时环境数据/>的最优价值，即在该实时姿态数据/>和实时环境数据/>下执行最优策略可以获得的最大期望奖励；是在实时姿态数据/>和实时环境数据/>下执行实时操作指令数据后转移到实时姿态数据/>和实时环境数据/>的概率。

进一步的，所述控制单元选择将能使实时姿态数据和实时环境数据/>下的最优价值/>最大化对应的实时操作指令数据来控制塔机的运行。

本发明的基于边缘计算的无人驾驶塔机自主决策系统，具有以下有益效果：

提高塔机运行效率：本发明采用基于边缘计算的无人驾驶塔机自主决策系统，通过实时姿态数据和实时环境数据的感知和分析，能够根据预设的Q-Learning边缘决策模型选择最优操作指令数据，从而实现智能化的决策和控制。相比传统的预先编程轨迹或指令集，本发明的系统能够根据具体情况做出实时调整和优化，提高了塔机的运行效率。系统能够快速响应变化的环境和任务需求，减少操作时间，优化作业流程，提高作业效率。

增强塔机运行安全性：本发明的系统具备故障预测和故障诊断的功能。通过历史故障数据的分析和综合利用，系统能够检测和预测潜在的故障，及时采取维修和维护措施，提高了塔机的可靠性和安全性。此外，基于实时姿态数据和实时环境数据的自主决策和控制能力，系统可以根据实际情况做出灵活和智能的决策，避免潜在的危险和事故发生。通过优化操作指令选择和决策过程，系统降低了人为操作错误的风险，提高了塔机运行的安全性。

提升操作人员工作环境：由于采用了自主决策和控制系统，本发明减少了对操作人员的人工干预和监控需求。操作人员不再需要长时间盯着塔机运行，可以更多地关注其他重要任务，提高工作效率。同时，通过故障预测和故障诊断的功能，系统可以及时发现和解决故障，减少了人工维修和维护的工作量，改善了操作人员的工作环境和负担。

附图说明

图1为本发明实施例提供的基于边缘计算的无人驾驶塔机自主决策系统的系统结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

以下分别进行详细说明。

本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。

实施例1：参考图1，基于边缘计算的无人驾驶塔机自主决策系统，所述系统包括：历史数据分析单元，配置用于采集塔机的历史故障数据，所述历史故障数据为历史故障数据元组组成的数据集合；每个历史故障数据元组包括：塔机在历史每次发生故障时的操作指令数据/>、姿态数据/>和环境数据/>；故障空间构建单元，配置用于将历史故障数据元组/>视为一个三维空间中的一个坐标点，映射到三维空间中，将三维空间中所有的坐标点点连接起来，组成故障空间；塔机自主决策单元，配置用于在塔机运行时，获取实时姿态数据和实时环境数据，作为输入，利用预设的Q-Learning边缘决策模型，找到Q函数的值最低时，对应的可能的实时操作指令数据，针对每个实时操作指令数据，在状态空间中确定对应的实时坐标点，计算每个实时坐标点距离故障空间中其他坐标点的距离的和值，基于和值最小的实时坐标点对应的实时操作指令数据，控制塔机的运行。

具体的，故障空间构建方法的创新：通过将历史故障数据元组视为坐标点，并在三维空间中进行建模，该系统能够以一种全新的方式对故障进行描述和分析。

边缘计算的应用：利用边缘计算的能力，该系统能够在塔机本身进行决策，减少了对云端的依赖，实现实时性和低延迟的决策过程。

结合Q-Learning的自主决策：通过应用Q-Learning边缘决策模型，系统能够根据历史数据和实时数据进行自主决策，并在操作指令和故障空间之间建立了有意义的联系。

实施例2：在上一实施例的基础上，所述操作指令数据和实时操作指令数据均为数值，该数值对应一个操作指令；所述操作指令的种类包括启动、停止、上升、上升停止、下降、下降停止、旋转、旋转停止、移动、移动停止、大臂伸展、大臂折叠、小臂伸展、小臂折叠、勾绳延展和勾绳折叠；不同种类的操作指令对应一个不同的操作指令数据。

具体的，每个操作指令类型都对应一个特定的操作指令数据值。这些数值编码为离散的数字，用于表示相应的操作指令。通过使用数值表示操作指令，系统能够更方便地处理和识别不同的操作类型，并在决策过程中进行计算和比较。

例如，可以将启动操作指令表示为数字1，停止操作指令表示为数字2，上升操作指令表示为数字3，以此类推。每个操作指令类型都有一个对应的数值表示，使得系统能够在决策过程中对不同操作进行识别和区分。

这种数值化的操作指令数据的优点是可以更轻松地进行计算和比较。系统可以使用这些数值来计算实时操作指令数据与历史故障数据之间的相似性，以找到最合适的操作指令数据来控制塔机的运行。

总之，通过将操作指令数据和实时操作指令数据表示为数值，并为不同的操作指令类型分配不同的数值编码，该系统能够更方便地处理和比较操作指令，从而实现塔机的自主决策和控制。这种数值化的表示方式使系统具备了更高的灵活性和可扩展性，以适应不同类型的操作需求。

实施例3：在上一实施例的基础上，所述姿态数据和实时姿态数据均为一个三元复合数值，该三元复合数值表征了塔机的姿态，所述三元复合数值的表现形式为：；其中，/>为塔机与竖直方向的夹角；/>为塔机与水平面X轴方向的夹角；/>为塔机与水平面Y轴方向的夹角。

具体的，这种表示方式将姿态数据的三个方向的夹角信息结合在一个复合数值中，具有简洁且紧凑的形式。通过使用指数函数和绝对值运算，可以确保姿态数据的正负和范围的适应性。以下是对每个夹角的含义和作用的原理性解释：

：塔机与竖直方向的夹角/>表示塔机在竖直方向上的偏转角度。它描述了塔机是否偏离了竖直方向，以及偏离的程度。正值表示塔机向一侧倾斜，负值表示塔机向另一侧倾斜。通过测量和记录/>，系统可以判断塔机是否处于稳定的垂直状态，以及是否存在异常或潜在的故障情况。

：塔机与水平面X轴方向的夹角/>表示塔机在水平方向上相对于X轴的旋转角度。它描述了塔机是否朝向X轴的正向或反向，并且以什么角度旋转。正值表示塔机顺时针旋转，负值表示逆时针旋转。通过监测和记录/>，系统可以了解塔机的定向和转向情况，以支持决策和控制过程。

：塔机与水平面Y轴方向的夹角/>表示塔机在水平方向上相对于Y轴的倾斜角度。它描述了塔机是否倾斜或偏离了Y轴方向，以及倾斜的程度。正值表示塔机向一侧倾斜，负值表示塔机向另一侧倾斜。通过监测和记录/>，系统可以检测到塔机的倾斜情况，并相应地采取控制措施。

这种三元复合数值的表示方式能够将塔机的姿态信息以简洁的形式进行编码。它的创造性在于将三个夹角的信息整合在一个复合数值中，简化了数据的表示和处理，同时保留了姿态数据的重要特征。通过对姿态数据的准确描述和分析，该系统能够更好地判断塔机的运行状态，并采取适当的决策来保障操作的安全和稳定。

实施例4：在上一实施例的基础上，所述环境数据和实时环境数据均为一个四元复合数值，该四元符合数值表征了塔机所处环境的环境状况，所述四元复合数值的表现形式为；其中，/>为风强、/>为风速，/>为温度、/>为湿度。

具体的，这种表示方式将环境数据的风强、风速、温度和湿度信息整合在一个复合数值中，以简洁和紧凑的形式呈现。以下是对每个环境参数的原理性解释：

表示塔机所处环境中的风力强度。它描述了风的强度，可以是一个实数值。通过监测和记录/>，系统可以了解风力对塔机运行的影响。风力强度的变化可以导致塔机的稳定性和安全性发生变化，因此将其纳入考虑是非常重要的。

表示塔机所处环境中的风速。它描述了风的速度，通常以米每秒（m/s）为单位。通过监测和记录/>，系统可以获得当前环境中的风速情况。风速的增加可能会对塔机的操作和稳定性产生影响，因此对风速进行监控和考虑对于塔机的安全运行至关重要。

表示塔机所处环境的温度。它以摄氏度（°C）为单位，用于描述环境的热量状况。通过监测和记录/>，系统可以了解环境温度对塔机操作和性能的影响。高温或低温环境可能导致塔机部件的性能下降或发生异常，因此需要对温度进行监测和适应性控制。

表示塔机所处环境的湿度。它以百分比形式表示，用于描述环境中水蒸气的含量。通过监测和记录/>，系统可以了解环境的湿度状况，以适应性地控制塔机操作。湿度的变化可能会导致材料的腐蚀、电气设备的故障或人员的舒适度受到影响，因此需要将湿度考虑在内。

这种四元复合数值的表示方式可以将塔机所处环境的多个参数整合在一个复合数值中，减少了数据处理和传输的复杂性。通过对环境数据的综合描述和分析，系统能够更好地了解塔机所处环境的状况，并根据环境条件做出相应的决策和控制，以确保塔机的安全和稳定运行。

实施例6：在上一实施例的基础上，所述数据实时分析单将预处理姿态数据和预处理环境数据，作为输入，利用预设的Q-Learning边缘决策模型，找到Q函数的值最低时，对应的可能的实时操作指令数据的方法包括：使用Q-Learning的更新公式来训练预设的Q-Learning边缘决策模型；使用训练后的预设的Q-Learning边缘决策模型来在实时姿态数据和实时环境数据下选择最优的实时操作指令数据。

实施例5：在上一实施例的基础上，所述塔机自主决策单元包括：传感器组、数据预处理单元、数据实时分析单元和控制单元；所述传感器用于获取实时姿态数据和实时环境数据；所述数据预处理单元用于对实时姿态数据和实时环境数据进行数据预处理，以去除实时姿态数据和实时环境数据的噪声，得到预处理姿态数据和预处理环境数据；所述数据实时分析单元，配置用于将预处理姿态数据和预处理环境数据，作为输入，利用预设的Q-Learning边缘决策模型，找到Q函数的值最低时，对应的可能的实时操作指令数据，针对每个实时操作指令数据，在状态空间中确定对应的实时坐标点，计算每个实时坐标点距离故障空间中其他坐标点的距离的和值，将和值最小的实时坐标点对应的实时操作指令数据筛选出来；所述控制单元用于基于和值最小的实时坐标点对应的实时操作指令数据，控制塔机的运行。

具体的，传感器组用于获取塔机的实时姿态数据和实时环境数据。这些传感器可以包括加速度计、陀螺仪、风速传感器、温度传感器、湿度传感器等。加速度计和陀螺仪用于测量和获取塔机的姿态数据，而风速传感器、温度传感器和湿度传感器用于获取环境数据。通过传感器组提供的实时数据，系统可以了解塔机的当前状态和周围环境的情况。数据预处理单元对传感器获取的实时姿态数据和实时环境数据进行预处理。其目的是去除数据中的噪声和不必要的干扰，以获得更准确和可靠的数据。在预处理过程中，可能会使用滤波、平滑或插值等技术，以提高数据质量和准确性。预处理后的姿态数据和环境数据将被用于后续的决策和分析。数据实时分析单元利用预处理的姿态数据和环境数据作为输入，通过预设的Q-Learning边缘决策模型来进行数据分析和决策。它计算Q函数的值，找到Q函数值最低时对应的可能实时操作指令数据。针对每个实时操作指令数据，在状态空间中确定对应的实时坐标点，并计算该坐标点与故障空间中其他坐标点之间的距离和值。然后，通过筛选出和值最小的实时坐标点对应的实时操作指令数据，得到最佳的操作指令数据供控制单元使用。控制单元根据和值最小的实时坐标点对应的实时操作指令数据来控制塔机的运行。它将该操作指令数据传递给塔机的执行单元，以实现特定的操作，例如启动、停止、上升、下降、旋转等。控制单元负责监控塔机的状态，并根据实时决策的结果控制塔机的动作，以保证塔机的安全运行和避免故障发生。

实施例7：在上一实施例的基础上，所述使用Q-Learning的更新公式来训练预设的Q-Learning边缘决策模型的方法包括：在每一步，使用以下更新公式更新状态动作值函数：

；

所述更新公式表示实时姿态数据、实时环境数据/>和实时操作指令数据的价值函数/>将基于当前的奖励/>以及末来可能获得的最大奖励进行更新；/>表示在实时姿态数据/>和实时环境数据/>下选择实时操作指令数据/>的预期奖励；/>是在实时姿态数据/>和实时环境数据/>下选择实时操作指令数据/>立即获得的奖励；/>是在下一个姿态数据/>和下一个环境数据/>下选择任意实时操作指令数据/>可获得的最大预期奖励；是学习率，控制在每一步对Q值进行更新的程度；/>是折扣因子，控制对末来奖励的重视程度，/>为更新的/>。

具体的，根据当前的奖励和未来可能获得的最大奖励的估计值，计算出新的状态动作值函数/>。通过引入学习率/>和折扣因子/>，更新过程在一定程度上平衡了当前奖励和未来奖励的重要性。学习率控制了新奖励对于更新的影响程度，较高的学习率意味着更快地接受新奖励的影响。折扣因子控制了对未来奖励的重视程度，较高的折扣因子表示更关注未来奖励，而较低的折扣因子更侧重即时奖励。

通过这个更新公式，状态动作值函数的值不断更新和优化。每次更新时，根据当前的奖励和未来可能获得的最大奖励的估计值，计算出新的状态动作值函数。这样，系统在不断与环境交互的过程中，通过学习和优化，逐渐改善决策策略，使智能体能够更好地选择最优操作指令。

更新公式的含义是通过比较当前奖励和未来奖励的期望值，更新状态动作值函数，使得智能体能够根据当前状态和奖励做出最佳决策。学习率和折扣因子是调节更新过程的重要参数。学习率决定了新奖励对于更新的影响程度，较高的学习率意味着更快地接受新奖励的影响。折扣因子决定了对未来奖励的重视程度，较高的折扣因子表示更关注未来奖励，而较低的折扣因子更侧重即时奖励。

通过不断迭代更新状态动作值函数，Q-Learning算法能够逐步优化决策策略，使智能体能够在复杂的环境中做出最优的决策，以实现塔机的自主决策和控制。

实施例8：在上一实施例的基础上，所述奖励使用如下公式计算得到：

；

其中，是执行实时操作指令数据/>所需要的时间；/>是执行动作/>时可能发生的事故数量；/>和/>均为设定的不同的权重值。

具体的，：执行实时操作指令数据/>所需要的时间。这个项表示执行操作所需的时间，可以用来衡量操作的效率和速度。较短的执行时间可以获得较高的奖励值，因为它表示操作能够在较短的时间内完成。

：执行动作/>时可能发生的事故数量。这个项表示执行操作时可能发生的事故数量。事故数量越少，表示操作的安全性越高，可以获得较高的奖励值。通过考虑可能发生的事故数量，系统可以更加注重安全性，并倾向于选择能够最小化事故风险的操作指令。

和/>：权重值。/>和/>是设定的不同权重值，用于调整时间和安全性对于奖励的相对重要性。通过调节这些权重值，可以根据具体需求和优先级来平衡时间和安全性之间的权衡。不同的权重值可以导致不同的奖励结果，以适应不同的应用场景和偏好。

综上所述，通过使用上述奖励计算公式，系统能够根据操作的执行时间和可能发生的事故数量来评估操作的效率和安全性，并以此作为奖励的依据。通过调节权重值，可以平衡时间和安全性对于奖励的相对重要性，从而影响系统对于不同操作的偏好和决策策略。这样，系统可以根据具体需求和优先级，智能地选择合适的操作指令，以实现更高效和安全的塔机自主决策和控制。

实施例9：在上一实施例的基础上，所述使用训练后的预设的Q-Learning边缘决策模型来在实时姿态数据和实时环境数据下选择最优的实时操作指令数据使用价值计算模型来计算实时姿态数据的最优价值和实时环境数据的价值；所述价值计算模型使用如下公式进行表示：

；

具体的，表示实时姿态数据/>和实时环境数据/>下的最优价值，即在该实时姿态数据和实时环境数据下执行最优策略所能获得的最大期望奖励。

是根据实施例8中的奖励计算公式计算得到的奖励，表示在给定的实时姿态数据/>和实时环境数据/>下选择操作指令数据/>所获得的奖励。

是折扣因子，用于衡量对未来奖励的重视程度。

是在给定实时姿态数据/>和实时环境数据/>的情况下，执行实时操作指令数据/>后转移到实时姿态数据/>和实时环境数据/>的概率。

通过这个价值计算模型，可以计算实时姿态数据的最优价值和实时环境数据的价值。公式中的求和项表示考虑所有可能的下一步姿态数据和环境数据，并以其转移概率和最优价值的加权方式计算期望奖励。选择具有最大价值的操作指令，使系统能够根据当前状态和环境的预期奖励来做出最优的决策。

综上所述，实施例9中的价值计算模型利用训练后的预设的Q-Learning边缘决策模型来计算实时姿态数据的最优价值和实时环境数据的价值。通过考虑操作指令的奖励、转移概率和最优价值的加权，系统能够根据期望奖励选择最优的操作指令，以实现塔机的自主决策和控制。

实施例10：在上一实施例的基础上，所述控制单元选择将能使实时姿态数据和实时环境数据/>下的最优价值/>最大化对应的实时操作指令数据来控制塔机的运行。

具体的，获取实时姿态数据和实时环境数据/>。

使用预设的Q-Learning边缘决策模型和训练后的最优价值。根据价值计算模型的公式，对于每个操作指令数据，计算奖励/>和转移概率。

针对每个操作指令数据，计算公式，得到对应的预期奖励。

选择具有最大预期奖励的操作指令数据，即选择能够使最优价值最大化的操作指令数据。

将选定的操作指令数据应用于塔机的控制，以控制塔机的运行。

通过选择能够最大化实时姿态数据和实时环境数据下的最优价值对应的操作指令数据，控制单元能够使塔机在不同状态和环境下做出最优的决策。这样，系统可以实现塔机的自主决策和控制，以提高运行效率和性能。

以上所述，以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.基于边缘计算的无人驾驶塔机自主决策系统，其特征在于，所述系统包括：历史数据分析单元，配置用于采集塔机的历史故障数据，所述历史故障数据为历史故障数据元组组成的数据集合；每个历史故障数据元组包括：塔机在历史每次发生故障时的操作指令数据/>、姿态数据/>和环境数据/>；故障空间构建单元，配置用于将历史故障数据元组/>视为一个三维空间中的一个坐标点，映射到三维空间中，将三维空间中所有的坐标点点连接起来，组成故障空间；塔机自主决策单元，配置用于在塔机运行时，获取实时姿态数据和实时环境数据，作为输入，利用预设的/>边缘决策模型，找到/>函数的值最低时，对应的可能的实时操作指令数据，针对每个实时操作指令数据，在状态空间中确定对应的实时坐标点，计算每个实时坐标点距离故障空间中其他坐标点的距离的和值，基于和值最小的实时坐标点对应的实时操作指令数据，控制塔机的运行；

所述姿态数据和实时姿态数据均为一个三元复合数值，该三元复合数值表征了塔机的姿态，所述三元复合数值的表现形式为：；其中，/>为塔机与竖直方向的夹角；/>为塔机与水平面/>轴方向的夹角；/>为塔机与水平面/>轴方向的夹角；

所述环境数据和实时环境数据均为一个四元复合数值，该四元复合数值表征了塔机所处环境的环境状况，所述四元复合数值的表现形式为：；其中，/>为风强、/>为风速，/>为温度、/>为湿度；

所述塔机自主决策单元包括：传感器组、数据预处理单元、数据实时分析单元和控制单元；所述传感器用于获取实时姿态数据和实时环境数据；所述数据预处理单元用于对实时姿态数据和实时环境数据进行数据预处理，以去除实时姿态数据和实时环境数据的噪声，得到预处理姿态数据和预处理环境数据；所述数据实时分析单元，配置用于将预处理姿态数据和预处理环境数据，作为输入，利用预设的Q-Learning边缘决策模型，找到Q函数的值最低时，对应的可能的实时操作指令数据，针对每个实时操作指令数据，在状态空间中确定对应的实时坐标点，计算每个实时坐标点距离故障空间中其他坐标点的距离的和值，将和值最小的实时坐标点对应的实时操作指令数据筛选出来；所述控制单元用于基于和值最小的实时坐标点对应的实时操作指令数据，控制塔机的运行；

所述数据实时分析单将预处理姿态数据和预处理环境数据，作为输入，利用预设的Q-Learning边缘决策模型，找到Q函数的值最低时，对应的可能的实时操作指令数据的方法包括：使用Q-Learning的更新公式来训练预设的Q-Learning边缘决策模型；使用训练后的预设的Q-Learning边缘决策模型来在实时姿态数据和实时环境数据下选择最优的实时操作指令数据；

所述使用Q-Learning的更新公式来训练预设的Q-Learning边缘决策模型的方法包括：在每一步，使用以下更新公式更新状态动作值函数：

；

所述更新公式表示实时姿态数据、实时环境数据/>和实时操作指令数据的价值函数 />将基于当前的奖励/>以及末来可能获得的最大奖励进行更新；/>表示在实时姿态数据/>和实时环境数据下选择实时操作指令数据/>的预期奖励；/>是在实时姿态数据/>和实时环境数据/>下选择实时操作指令数据/>立即获得的奖励；/>是在下一个姿态数据 />和下一个环境数据/>下选择任意实时操作指令数据/>可获得的最大预期奖励；/>是学习率，控制在每一步对Q值进行更新的程度；/>是折扣因子，控制对末来奖励的重视程度；/>为更新的/>。

2.如权利要求1所述的基于边缘计算的无人驾驶塔机自主决策系统，其特征在于，所述操作指令数据和实时操作指令数据均为数值，该数值对应一个操作指令；所述操作指令的种类包括启动、停止、上升、上升停止、下降、下降停止、旋转、旋转停止、移动、移动停止、大臂伸展、大臂折叠、小臂伸展、小臂折叠、勾绳延展和勾绳折叠；不同种类的操作指令对应一个不同的操作指令数据。

3.如权利要求2所述的基于边缘计算的无人驾驶塔机自主决策系统，其特征在于，所述奖励使用如下公式计算得到：

；

4.如权利要求3所述的基于边缘计算的无人驾驶塔机自主决策系统，其特征在于，所述使用训练后的预设的Q-Learning边缘决策模型来在实时姿态数据和实时环境数据下选择最优的实时操作指令数据使用价值计算模型来计算实时姿态数据的最优价值和实时环境数据的价值；所述价值计算模型使用如下公式进行表示：

；

其中，是实时姿态数据 />和实时环境数据/>下的最优价值，即在该实时姿态数据/>和实时环境数据/>下执行最优策略可以获得的最大期望奖励；是在实时姿态数据/>和实时环境数据/>下执行实时操作指令数据/>后转移到实时姿态数据/>和实时环境数据/>的概率。

5.如权利要求4所述的基于边缘计算的无人驾驶塔机自主决策系统，其特征在于，所述控制单元选择将能使实时姿态数据和实时环境数据/>下的最优价值/>最大化对应的实时操作指令数据来控制塔机的运行。