CN113684885B

CN113684885B - 作业机械控制方法、装置及作业机械

Info

Publication number: CN113684885B
Application number: CN202110956947.XA
Authority: CN
Inventors: 王传宇; 胡立辛; 曾超
Original assignee: Shanghai Sany Heavy Machinery Co Ltd
Current assignee: Shanghai Sany Heavy Machinery Co Ltd
Priority date: 2021-08-19
Filing date: 2021-08-19
Publication date: 2022-09-02
Anticipated expiration: 2041-08-19
Also published as: US20230112014A1; CN113684885A; WO2023020129A1

Abstract

本发明提供一种作业机械控制方法、装置及作业机械，其中方法包括：获取作业机械的当前作业状态；基于当前作业状态和状态行为决策模型，确定作业机械的当前决策行为；基于当前决策行为对应的控制信号，控制作业机械进行施工作业；其中，状态行为决策模型是基于作业机械的样本作业状态、样本决策行为，以及样本决策行为对应的奖励值进行训练后得到的；奖励值是基于所述作业机械中作业部位的实际位置曲线和目标位置曲线确定的；实际位置曲线是基于样本决策行为确定的。本发明提供的方法、装置及作业机械，减少了工程师的调试工作量，缩短了调试时间，降低了调试成本，提高了作业机械的智能化施工水平。

Description

作业机械控制方法、装置及作业机械

技术领域

本发明涉及机械工程技术领域，尤其涉及一种作业机械控制方法、装置及作业机械。

背景技术

挖掘机进行平地或者刷坡等复合操作时，通常由有经验的操作手通过组合动作完成。

现有技术中，对挖掘机智能化功能的开发中，通常采用传统的控制算法进行调试，需要定义挖掘机工作的许多个状态点，在每个状态点都需要单独进行控制算法调试，使得平地或者刷坡的控制程序达到预期的精度。由于挖掘机系统较为复杂，这类控制算法调试难度很大，对工程师要求很高，很难完成。并且耗时很长，人力成本较高。

发明内容

本发明提供的作业机械控制方法、装置及作业机械，用于解决现有技术中对作业机械进行智能控制时，需要对作业机械在各个作业状态建立精确的控制模型并进行大量调试，耗时长，成本高的技术问题。

本发明提供一种作业机械控制方法，包括：

获取作业机械的当前作业状态；

基于所述当前作业状态和状态行为决策模型，确定所述作业机械的当前决策行为；

基于所述当前决策行为对应的控制信号，控制所述作业机械进行施工作业；

其中，所述状态行为决策模型是基于所述作业机械的样本作业状态、样本决策行为，以及所述样本决策行为对应的奖励值进行训练后得到的；所述奖励值是基于所述作业机械中作业部位的实际位置曲线和目标位置曲线确定的；所述实际位置曲线是基于所述样本决策行为确定的。

根据本发明提供的作业机械控制方法，所述奖励值是基于如下步骤确定的：

在所述实际位置曲线上选取多个位置点，并在所述目标位置曲线上确定每一位置点的对应位置点；

确定每一位置点的位置权重；

基于每一位置点与对应位置点之间的距离，以及每一位置点的位置权重，确定所述奖励值。

根据本发明提供的作业机械控制方法，所述基于每一位置点与对应位置点之间的距离，以及每一位置点的位置权重，确定所述奖励值，包括：

基于每一位置点与对应位置点之间的距离，以及每一位置点的位置权重，确定所述实际位置曲线和所述目标位置曲线之间的重合度；

确定所述作业部位在所述实际位置曲线上的移动速度；

基于所述重合度和所述移动速度，确定所述奖励值。

根据本发明提供的作业机械控制方法，所述状态行为决策模型是基于如下步骤训练得到的：

获取所述作业机械的上一作业状态、上一决策行为，以及所述上一决策行为对应的奖励值；

将所述上一作业状态、所述上一决策行为，以及所述上一决策行为对应的奖励值分别作为样本作业状态、样本决策行为，以及所述样本决策行为对应的奖励值；

基于所述样本作业状态、所述样本决策行为，以及所述样本决策行为对应的奖励值，对初始模型进行训练，得到所述状态行为决策模型。

根据本发明提供的作业机械控制方法，所述基于所述样本作业状态、所述样本决策行为，以及所述样本决策行为对应的奖励值，对初始模型进行训练，得到所述状态行为决策模型，包括：

若所述作业机械中作业部位的实际位置曲线和目标位置曲线之间的重合度小于预设重合阈值，则停止训练，并将训练后的初始模型作为所述状态行为决策模型。

根据本发明提供的作业机械控制方法，所述作业机械为挖掘机，所述当前作业状态包括机械臂的姿态参数、上部车身的姿态参数和上部车身的回转角。

本发明还提供一种作业机械控制装置，包括：

获取单元，用于获取作业机械的当前作业状态；

决策单元，用于基于所述当前作业状态和状态行为决策模型，确定所述作业机械的当前决策行为；

控制单元，用于基于所述当前决策行为对应的控制信号，控制所述作业机械进行施工作业；

其中，所述状态行为决策模型是基于所述作业机械的样本作业状态、样本决策行为，以及所述样本决策行为对应的奖励值进行强化训练后得到的；所述奖励值是基于所述作业机械中作业部位的实际位置曲线和目标位置曲线确定的；所述实际位置曲线是基于所述样本决策行为确定的。

本发明还提供一种作业机械，包括所述的作业机械控制装置。

本发明还提供一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述程序时实现所述作业机械控制方法的步骤。

本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现所述作业机械控制方法的步骤。

本发明提供的作业机械控制方法、装置及作业机械，通过作业机械的样本作业状态、样本决策行为，以及样本决策行为对应的奖励值进行强化学习，所得到的状态行为决策模型能够根据作业机械的当前作业状态，确定作业机械的当前决策行为，根据当前决策行为对应的控制信号，控制作业机械进行施工作业，奖励值是根据作业机械中作业部位的实际位置曲线和目标位置曲线确定的，使得作业机械的作业部位能够按照设定的目标位置曲线进行施工，并且无需对作业机械在各个作业状态建立精确的控制模型，减少了工程师的调试工作量，缩短了调试时间，降低了调试成本，提高了作业机械的智能化施工水平。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明提供的作业机械控制方法的流程示意图；

图2为本发明提供的挖掘机平地刷坡控制模型的训练示意图；

图3为本发明提供的挖掘机平地刷坡控制模型的部署示意图；

图4为本发明提供的作业机械控制装置的结构示意图；

图5为本发明提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

强化学习是一种基于不断“试错”并给予优势策略奖励来训练人工智能模型的一种智能算法。受此启发，本发明实施例中的技术方案为，让挖掘机从一些随机的初始输入开始，进行自动工作，基于实际的轨迹与期望的平地路径或者刷坡路径的差别大小定义奖励，并不断迭代优化控制策略，最终实现得到具有平地控制功能或者刷坡控制功能的人工智能模型(也即控制算法)，并以此过程替代人工进行的控制算法调试或标定。

图1为本发明提供的作业机械控制方法的流程示意图，如图1所示，该方法包括：

步骤110，获取作业机械的当前作业状态。

具体地，作业机械为能够进行施工作业的工程机械，包括挖掘机、起重机、混凝土泵车和混凝土搅拌车等。

当前作业状态为能够表征作业机械当前时刻进行施工作业时的状态参数。例如，对于挖掘机而言，当前作业状态可以为铲斗、斗杆、动臂等部位的伸缩长度和伸展角度来表示，可以通过安装在挖掘机各个机械臂上的油缸位移传感器和倾角传感器来获取。还可以包括上部车身的姿态信号和回转角信号等。

步骤120，基于当前作业状态和状态行为决策模型，确定作业机械的当前决策行为；其中，状态行为决策模型是基于作业机械的样本作业状态、样本决策行为，以及样本决策行为对应的奖励值进行训练后得到的；奖励值是基于作业机械中作业部位的实际位置曲线和目标位置曲线确定的；实际位置曲线是基于样本决策行为确定的。

具体地，作业机械的当前决策行为为作业机械在当前时刻执行的施工动作。作业机械在当前时刻可能有多个候选决策行为，作业机械需要确定一个候选决策行为作为当前决策行为。例如，对于挖掘机进行平地作业时，其当前时刻的候选决策行为可以为铲斗向内收缩、铲斗向外伸展等。

可以采用强化学习的方法，将作业机械的当前作业状态输入至状态行为决策模型，由状态行为决策模型对当前作业状态中的各个参数进行分析，确定作业机械的当前决策行为。

可以收集作业机械的样本作业状态、样本决策行为，以及样本决策行为对应的奖励值，对初始模型进行训练后，得到状态行为决策模型。

状态行为决策模型的运行原理为：如果作业机械根据当前的作业状态做出某个决策行为，该决策行为导致其对应的奖励值增加，则作业机械以后采取这个决策行为的趋势便会增强。状态行为决策模型的目的是在每个时刻发现最优的决策行为，使得作业机械采取最优的决策行为后能够获得最大的奖励值。

作业部位为作业机械进行施工作业时工作在工作面的部位。例如，对于挖掘机，铲斗为作业部位，对于混凝土泵车，用于输出混凝土的前端软管为作业部位，对于打夯机，夯锤为作业部位。

作业部位的实际位置曲线为作业部位在施工过程中各个时刻的实际位置所形成的曲线。作业部位的实际位置曲线可以根据决策行为进行确定，即根据作业机械按照当前决策行为对应的控制信号进行施工作业后进行确定。例如，挖掘机根据当前决策行为对应的控制信号，对各个机械臂进行控制，改变各个机械臂的位移和倾角，使得与工作面接触的铲斗(作业部位)发生实际的位置变化，从而得到挖掘机的作业部位的实际位置曲线。

作业部位的目标位置曲线为作业部位在施工过程中各个时刻的期望位置所形成的曲线。目标位置曲线可以根据作业机械的作业任务进行确定。例如，对于平地作业，挖掘机的目标位置曲线可以为一条直线。

奖励值可以根据作业机械中作业部位的实际位置曲线和目标位置曲线进行确定。例如，对于挖掘机而言，可以根据铲斗的齿尖在进行施工作业时的实际位置曲线和目标位置曲线确定奖励值。首先，确定实际位置曲线和目标位置曲线之间的重合度，重合度可以根据两条曲线上对应点之间的距离进行确定。对应点之间的距离越小，则重合度越高，对应点之间的距离越大，则重合度越低。两条曲线的重合度越高，则表示铲斗是按照目标位置曲线来进行平地或者刷坡的，应该得到较高的奖励值，两条曲线的重合度越低，则表示铲斗是没有按照目标位置曲线来进行平地或者刷坡的，应该得到较低的奖励值。奖励值与重合度呈正比例关系，可以根据重合度的大小，设置不同大小的奖励值。

步骤130，基于当前决策行为对应的控制信号，控制作业机械进行施工作业。

具体地，获取状态行为决策模型输出的当前决策行为后，根据当前决策行为对应的控制信号，控制作业机械进行施工作业。例如，当前决策行为可以与挖掘机的操作手柄的开度信号呈对应关系。得到当前决策行为后，也就得到了挖掘机的操作手柄的开度信号。根据操作手柄的开度信号，控制挖掘机的各个机械臂进行动作，从而完成当前时刻的施工操作，以此往复，直至完成施工作业。

本发明实施例提供的作业机械控制方法，通过作业机械的样本作业状态、样本决策行为，以及样本决策行为对应的奖励值进行强化学习，所得到的状态行为决策模型能够根据作业机械的当前作业状态，确定作业机械的当前决策行为，根据当前决策行为对应的控制信号，控制作业机械进行施工作业，奖励值是根据作业机械中作业部位的实际位置曲线和目标位置曲线之间的重合度确定的，使得作业机械的作业部位能够按照设定的目标位置曲线进行施工，并且无需对作业机械在各个作业状态建立精确的控制模型，减少了工程师的调试工作量，缩短了调试时间，降低了调试成本，提高了作业机械的智能化施工水平。

基于上述实施例，奖励值是基于如下步骤确定的：

在实际位置曲线上选取多个位置点，并在目标位置曲线上确定每一位置点的对应位置点；

确定每一位置点的位置权重；

基于每一位置点与对应位置点之间的距离，以及每一位置点的位置权重，确定奖励值。

具体地，可以先在实际位置曲线上选取多个位置点。位置点的选取可以为曲线的起点、中点、终点、拐点等，还可以根据曲线的形状进行分段，将分段点作为位置点，本发明实施例对于位置点的选取不作具体限度。

确定位置点后，在目标位置曲线上确定每一位置点的对应位置点。例如，实际位置曲线的起点与目标位置曲线的起点对应，实际位置曲线的终点与目标位置曲线的终点对应，实际位置曲线的分段点与目标位置曲线的分段点对应等。

可以根据每一位置点在实际位置曲线上的具体位置，确定每一位置点的位置权重，位置权重表示该位置点对于曲线形状的影响程度。位置权重越大，则该位置点对曲线形状的影响程度越大。例如，起点、中点和终点的位置权重可以设置为高权重，其余的位置点可以设置为低权重。

根据每一位置点与对应位置点之间的距离，以及每一位置点的位置权重，确定奖励值。例如，可以先求解每一位置点与对应位置点之间的距离，与每一位置点的位置权重的乘积之和，再将乘积之和的倒数作为奖励值。

基于上述任一实施例，基于每一位置点与对应位置点之间的距离，以及每一位置点的位置权重，确定奖励值，包括：

基于每一位置点与对应位置点之间的距离，以及每一位置点的位置权重，确定实际位置曲线和目标位置曲线之间的重合度；

确定作业部位在实际位置曲线上的移动速度；

基于重合度和移动速度，确定奖励值。

具体地，可以根据每一位置点与对应位置点之间的距离，以及每一位置点的位置权重，确定实际位置曲线和目标位置曲线之间的重合度。例如，重合度为每一位置点与对应位置点之间的距离与每一位置点的位置权重的乘积之和的倒数。

除了重合度之外，还可以根据作业部位在实际位置曲线上的移动速度确定一个附加指标，用于确定奖励值。作业部位在实际位置曲线上的移动速度越快，说明作业效率越高，奖励值就相应越大。

作业部位在实际位置曲线上的移动速度可以根据实际位置曲线的长度和作业部位的移动时间进行确定。

例如，可以根据重合度和重合度计算权重，以及移动速度和移动速度计算权重，得到加权和，然后将加权和作为奖励值。

基于上述任一实施例，状态行为决策模型是基于如下步骤训练得到的：

获取作业机械的上一作业状态、上一决策行为，以及上一决策行为对应的奖励值；

将上一作业状态、上一决策行为，以及上一决策行为对应的奖励值分别作为样本作业状态、样本决策行为，以及样本决策行为对应的奖励值；

基于样本作业状态、样本决策行为，以及样本决策行为对应的奖励值，对初始模型进行训练，得到状态行为决策模型。

具体地，状态行为决策模型的初始模型可以采用策略网络(Policy Network)、深度Q网络(Deep Q-Network)等，本发明实施例对于初始模型的模型种类不作具体限定。

可以训练得到状态行为决策模型，具体可以通过如下训练方式得到：

首先，实时收集作业机械的上一作业状态、上一决策行为，以及上一决策行为对应的奖励值。上一作业状态为当前时刻的上一时刻的作业状态，上一决策行为为当前时刻的上一时刻的决策行为。将上一作业状态、上一决策行为，以及上一决策行为对应的奖励值分别作为样本作业状态、样本决策行为，以及样本决策行为对应的奖励值。这些样本数据都来自作业机械执行当前施工作业时的实时数据。

此外，样本数据还可以来自作业机械执行施工作业时的历史数据。

其次，根据样本作业状态、样本决策行为，以及样本决策行为对应的奖励值，对初始模型进行训练，以提高初始模型对于最优的决策行为的预测能力，得到状态行为决策模型。

本发明实施例提供的作业机械控制方法，可以通过作业机械的实时数据对初始模型进行训练后得到状态行为决策模型，可以实现连续进行训练，当其采用作业机械执行当前施工作业时的实时数据进行训练时，能够根据实时数据对下次动作做出调整，大大缩短了这个调试过程。

基于上述任一实施例，基于样本作业状态、样本决策行为，以及样本决策行为对应的奖励值，对初始模型进行训练，得到状态行为决策模型，包括：

基于样本作业状态、样本决策行为，以及样本决策行为对应的奖励值，对初始模型进行训练，确定作业机械中作业部位的实际位置曲线；

若作业机械中作业部位的实际位置曲线和目标位置曲线之间的重合度小于预设重合阈值，则停止训练，并将训练后的初始模型作为状态行为决策模型。

具体地，如果在作业机械根据样本当前决策行为对应的控制信号进行了施工作业后，可以得到作业部位的实际位置曲线，作业部位的实际位置曲线和目标位置曲线之间的重合度小于预设重合阈值，则表明当前的初始模型进行训练已经达到了训练目的，可以停止训练。

若作业部位的实际位置曲线和目标位置曲线之间的重合度大于等于预设重合阈值，则表明当前的初始模型进行训练尚未达到训练目的，应当继续训练。此时，可以更新样本当前决策行为，反复迭代训练，直至重合度小于预设重合阈值。

预设重合阈值可以根据实际需要进行设置。

基于上述任一实施例，作业机械中作业部位的目标位置曲线是基于作业机械所执行的施工任务确定的。

具体地，施工任务为作业机械所承担的作业项目。例如，对于挖掘机，其施工任务可以包括平地、刷坡和挖掘等。

作业部位的目标位置曲线为作业部位在施工过程中各个时刻的期望位置所形成的曲线。目标位置曲线可以根据作业机械的作业任务进行确定。例如，对于平地作业，挖掘机的目标位置曲线可以为一条水平面上的直线，对于刷坡作业，挖掘机的目标位置曲线可以为一条与水平面相倾斜的直线，对于挖掘作业，挖掘机的目标位置曲线可以为一条曲线。

基于上述任一实施例，状态行为决策模型以计算机程序的方式存储在作业机械的存储器中，以供作业机械的处理器读取并执行。

具体地，状态行为决策模型可以作为控制算法，以计算机程序的方式存储在作业机械的存储器中。作业机械的处理器可以读取存储器中的计算机程序，执行作业机械控制方法。

基于上述任一实施例，作业机械为挖掘机，当前作业状态包括机械臂的姿态参数、上部车身的姿态参数和上部车身的回转角。

具体地，本发明实施例中的作业机械可以为挖掘机，相应地，当前作业状态可以包括机械臂的姿态参数、上部车身的姿态参数和上部车身的回转角。

机械臂的姿态参数包括各个机械臂的伸缩长度和伸展角度。此处的机械臂包括动臂、斗杆和铲斗。各个机械臂的伸缩长度可以通过对应的油缸长度传感器获取，各个机械臂的伸展角度可以通过对应的倾角传感器获取。

上部车身的姿态参数可以为挖掘机车体部分的三维姿态角，可以通过安装在回转平台上的陀螺仪获取。

上部车身的回转角可以为挖掘机车体部分相对于底盘部分的倾斜角度，可以通过回转平台上动臂的伸展方向与车辆前进方向上的夹角进行确定。

当前作业状态还可以包括安装在其它可以确定挖掘机工作状态的参数，例如，挖掘机的移动速度和移动方向等。

基于上述任一实施例，控制信号为挖掘机的手柄开度信号。

具体地，对于挖掘机来说，控制各个机械臂进行施工作业主要是通过控制手柄的开度来实现的。例如，挖掘机的手柄包括左操作手柄和右操作手柄。左操作手柄控制斗杆和回转平台，右操作手柄控制动臂和铲斗。手柄的开度信号控制了对应的机械臂的动作。

基于上述任一实施例，本发明提供一种基于强化学习的挖掘机平地、刷坡作业控制方法，该方法包括：

步骤一、定义强化学习模型所需的状态参数组，包含机械臂姿态传感器信号(油缸位移或倾角传感器)、上车身姿态信号、上车身回转角信号等，即是这些参数的组合能唯一确定当前挖机状态的参数组。

步骤二、定义策略函数。策略函数的输入为当前的状态参数集合(部分或全部),输出为对应的控制信号(手柄开度信号)输出。而连接输入和输出参数的系数矩阵即为该强化学习的可训练模型的一部分。

步骤三、定义奖励函数，实际的齿尖位置曲线与期望曲线各点距离越小，即两条曲线重合度越高，奖励数值越大。

步骤四、开发相应自动化开发调试程序。图2为本发明提供的挖掘机平地刷坡控制模型的训练示意图，如图2所示，控制模型的训练调试过程为：实时采集手柄，数字油缸和IMU(惯性传感器)等传感器信号，存入当前状态数组；通过测量函数输出控制信号；通过实时传感器返回信号计算出齿尖位置曲线；所得曲线结合与期望齿尖曲线计算出奖励值；基于奖励值判断：a)达到目标，训练停止；b)未达到目标，更新策略函数，反复迭代直至目标达成。

步骤五、图3为本发明提供的挖掘机平地刷坡控制模型的部署示意图，如图3所示，强化计算模型训练完成之后，可直接嵌入式部署于控制器中，作用与一种控制算法类似，以实时采集的状态参数作为输入，输出实时控制信号。

本发明实施例提供的基于强化学习的挖掘机平地、刷坡作业控制方法，具有以下优点：

1、在设定好自动化的强化学习训练程序后，不需要人为干预，即可让挖机自动进行控制算法调试工作，并遍历所有状态点进行优化。大大降低控制算法调试的工作量，降低调试的成本。

2、由于可以实现连续进行调试，相比人工调试，精度能达到或超越人工，且由于实时根据传回数据来对下次动作做出调整，整个调试过程时间会被大大缩短。

3、通过开发的控制程序对于后续挖掘机机型控制算法的开发有加速推进作用。人工智能训练完成的模型有个特点：模型可以迁移至相似的应用场景中，且只进行更简单的训练就可以匹配新的应用场景,也即迁移学习。所以能大大加快新挖掘机机型的平地，刷坡控制算法开发。

4、基于强化学习开发的模型属于黑盒模型而非逻辑机理模型，不容易被复制或逆向工程。

基于上述任一实施例，图4为本发明提供的作业机械控制装置的结构示意图，如图4所示，该装置包括：

获取单元410，用于获取作业机械的当前作业状态；

决策单元420，用于基于当前作业状态和状态行为决策模型，确定作业机械的当前决策行为；

控制单元430，用于基于当前决策行为对应的控制信号，控制作业机械进行施工作业；

其中，状态行为决策模型是基于作业机械的样本作业状态、样本决策行为，以及样本决策行为对应的奖励值进行强化训练后得到的；奖励值是基于作业机械中作业部位的实际位置曲线和目标位置曲线之间的重合度确定的，实际位置曲线是基于样本决策行为确定的。

本发明实施例提供的作业机械控制装置，通过作业机械的样本作业状态、样本决策行为，以及样本决策行为对应的奖励值进行强化学习，所得到的状态行为决策模型能够根据作业机械的当前作业状态，确定作业机械的当前决策行为，根据当前决策行为对应的控制信号，控制作业机械进行施工作业，奖励值是根据作业机械中作业部位的实际位置曲线和目标位置曲线之间的重合度确定的，使得作业机械的作业部位能够按照设定的目标位置曲线进行施工，并且无需对作业机械在各个作业状态建立精确的控制模型，减少了工程师的调试工作量，缩短了调试时间，降低了调试成本，提高了作业机械的智能化施工水平。

基于上述任一实施例，还包括：

奖励确定单元，用于在实际位置曲线上选取多个位置点，并在目标位置曲线上确定每一位置点的对应位置点；确定每一位置点的位置权重；基于每一位置点与对应位置点之间的距离，以及每一位置点的位置权重，确定奖励值。

基于上述任一实施例，奖励确定单元具体用于：

确定作业部位在实际位置曲线上的移动速度；

基于重合度和移动速度，确定奖励值。

基于上述任一实施例，还包括：

训练单元，用于获取作业机械的上一作业状态、上一决策行为，以及上一决策行为对应的奖励值；

基于上述任一实施例，训练单元还用于：

基于上述任一实施例，控制信号为挖掘机的手柄开度信号。

基于上述任一实施例，本发明实施例还提供一种作业机械，该作业机械包括上述作业机械控制装置。

具体地，作业机械可以包括上述作业机械控制装置。上述控制装置用于对作业机械进行控制，使其代替人工控制，能够根据实时回传数据对下次施工动作进行调整，缩短调试过程。

基于上述任一实施例，图5为本发明提供的电子设备的结构示意图，如图5所示，该电子设备可以包括：处理器(Processor)510、通信接口(Communications Interface)520、存储器(Memory)530和通信总线(Communications Bus)540，其中，处理器510，通信接口520，存储器530通过通信总线540完成相互间的通信。处理器510可以调用存储器530中的逻辑命令，以执行如下方法：

获取作业机械的当前作业状态；基于当前作业状态和状态行为决策模型，确定作业机械的当前决策行为；基于当前决策行为对应的控制信号，控制作业机械进行施工作业；其中，状态行为决策模型是基于作业机械的样本作业状态、样本决策行为，以及样本决策行为对应的奖励值进行训练后得到的；奖励值是基于作业机械中作业部位的实际位置曲线和目标位置曲线确定的，实际位置曲线是基于样本决策行为确定的。

此外，上述的存储器530中的逻辑命令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干命令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

本发明实施例提供的电子设备中的处理器可以调用存储器中的逻辑指令，实现上述方法，其具体的实施方式与前述方法实施方式一致，且可以达到相同的有益效果，此处不再赘述。

本发明实施例还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各实施例提供的方法，例如包括：

本发明实施例提供的非暂态计算机可读存储介质上存储的计算机程序被执行时，实现上述方法，其具体的实施方式与前述方法实施方式一致，且可以达到相同的有益效果，此处不再赘述。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干命令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种作业机械控制方法，其特征在于，包括：

获取作业机械的当前作业状态；

其中，所述状态行为决策模型是基于所述作业机械的样本作业状态、样本决策行为，以及所述样本决策行为对应的奖励值进行训练后得到的；所述奖励值是基于所述作业机械中作业部位的实际位置曲线和目标位置曲线确定的；所述实际位置曲线是基于所述样本决策行为确定的；

所述奖励值是基于如下步骤确定的：

确定每一位置点的位置权重；

2.根据权利要求1所述的作业机械控制方法，其特征在于，所述基于每一位置点与对应位置点之间的距离，以及每一位置点的位置权重，确定所述奖励值，包括：

确定所述作业部位在所述实际位置曲线上的移动速度；

基于所述重合度和所述移动速度，确定所述奖励值。

3.根据权利要求2所述的作业机械控制方法，其特征在于，所述状态行为决策模型是基于如下步骤训练得到的：

4.根据权利要求3所述的作业机械控制方法，其特征在于，所述基于所述样本作业状态、所述样本决策行为，以及所述样本决策行为对应的奖励值，对初始模型进行训练，得到所述状态行为决策模型，包括：

5.根据权利要求1至4任一项所述的作业机械控制方法，其特征在于，所述作业机械为挖掘机，所述当前作业状态包括机械臂的姿态参数、上部车身的姿态参数和上部车身的回转角。

6.一种作业机械控制装置，其特征在于，包括：

获取单元，用于获取作业机械的当前作业状态；

其中，所述状态行为决策模型是基于所述作业机械的样本作业状态、样本决策行为，以及所述样本决策行为对应的奖励值进行强化训练后得到的；所述奖励值是基于所述作业机械中作业部位的实际位置曲线和目标位置曲线确定的；所述实际位置曲线是基于所述样本决策行为确定的；

所述装置还包括：

奖励确定单元，用于在所述实际位置曲线上选取多个位置点，并在所述目标位置曲线上确定每一位置点的对应位置点；确定每一位置点的位置权重；基于每一位置点与对应位置点之间的距离，以及每一位置点的位置权重，确定所述奖励值。

7.一种作业机械，其特征在于，包括权利要求6中所述的作业机械控制装置。

8.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至5任一项所述作业机械控制方法的步骤。

9.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至5任一项所述作业机械控制方法的步骤。