CN110962120B

CN110962120B - 网络模型的训练方法及装置、机械臂运动控制方法及装置

Info

Publication number: CN110962120B
Application number: CN201811161265.4A
Authority: CN
Inventors: 刘健冉
Original assignee: Beijing Orion Star Technology Co Ltd
Current assignee: Beijing Orion Star Technology Co Ltd
Priority date: 2018-09-30
Filing date: 2018-09-30
Publication date: 2021-03-26
Anticipated expiration: 2038-09-30
Also published as: CN110962120A

Abstract

本发明实施例提供了一种网络模型的训练方法及装置、机械臂运动控制方法及装置，深度神经网络模型的训练方法包括：获得第一初始深度神经网络模型及第二初始深度神经网络模型；基于机械臂运动路径中的每个状态信息，通过第二初始深度神经网络模型，获取该状态信息对应的动作参数；利用预设值函数、每个状态信息及其对应的动作参数获取第一初始深度神经网络模型的训练数据，并基于所述训练数据更新所述第一初始深度神经网络模型的参数；针对每个状态信息，更新第二初始深度神经网络模型的参数，使得基于预设优势函数构建的目标函数向预设方向优化。利用得到的第二深度神经网络模型进行机械臂的运动控制，大大提高机械臂运动路径规划的稳定性和成功率。

Description

网络模型的训练方法及装置、机械臂运动控制方法及装置

技术领域

本发明涉及机械臂控制技术领域，特别是涉及一种网络模型的训练方法及装置、机械臂运动控制方法及装置。

背景技术

近年来，随着人工智能技术的快速发展，机械臂、机器人等智能设备的应用越来越广泛，在大众的生活、工作中都占据着不可替代的位置。利用机械臂可以进行物体抓取、搬运等工作。

机械臂在工作中，为了防止运动过程中发生自碰撞或与环境中的障碍物碰撞，需要进行运动路径规划，传统的路径规划算法有人工势场法、模糊规则法、遗传算法、神经网络、蚁群优化算法等。但这些方法都需要在一个确定的空间内对障碍物进行建模，计算复杂度与机械臂关节的自由度呈指数关系，不适合解决多自由度机械臂的运动控制。

基于快速扩展随机树(rapidly exploring random tree，RRT)的运动路径规划算法，通过对状态空间中的采样点进行碰撞检测，避免了对空间的建模，能够有效地解决高维空间和复杂约束的运动路径规划问题。其通过状态空间的随机采样点，把搜索导向空白区域，从而寻找到一条从起始点到目标点的规划路径，适合解决多自由度机械臂的运动路径规划问题。但是，其运动路径规划结果随机性较大，稳定性和成功率都无法保证。

发明内容

本发明实施例的目的在于提供一种网络模型的训练方法及装置、机械臂运动控制方法及装置，以提高机械臂运动控制的稳定性和成功率。具体技术方案如下：

第一方面，本发明实施例提供了一种深度神经网络模型的训练方法，所述方法包括：

获得第一初始深度神经网络模型及第二初始深度神经网络模型；

基于机械臂运动路径中的每个状态信息，通过所述第二初始深度神经网络模型，获取该状态信息对应的动作参数，其中，所述状态信息表征机械臂状态，所述动作参数表征机械臂各关节动作；

利用预设值函数、所述每个状态信息及其对应的动作参数获取所述第一初始深度神经网络模型的训练数据，并基于所述训练数据更新所述第一初始深度神经网络模型的参数，其中，所述训练数据包括输入数据及输出数据，所述输入数据为状态信息，所述输出数据为根据所述预设值函数得到的每个状态信息对应的值函数样本，所述预设值函数为关于预设回报函数的函数，所述预设回报函数为关于状态信息及其对应的动作参数的函数，其值与机械臂与目标位置距离以及与障碍物距离相关；

针对所述每个状态信息，更新所述第二初始深度神经网络模型的参数，使得基于预设优势函数构建的目标函数向预设方向优化，其中，所述预设优势函数为关于所述预设回报函数及所述预设值函数的值函数，所述预设值函数的值基于更新后的所述第一初始深度神经网络模型确定，所述预设回报函数中的动作参数为使得所述目标函数的值向预设方向优化的采样动作参数。

可选的，所述方法还包括：

判断每条机械臂运动路径中的预设回报函数的值是否满足收敛条件；

如果是，停止训练，得到用于机械臂运动控制的第二深度神经网络模型；

如果否，返回所述基于机械臂运动路径中的每个状态信息，通过所述第二初始深度神经网络模型，获取该状态信息对应的动作参数的步骤。

可选的，所述利用预设值函数、所述状态信息及其对应的动作参数获取所述第一初始深度神经网络模型的训练数据，并基于所述训练数据更新所述第一初始深度神经网络模型的参数的步骤，包括：

根据预设值函数、所述状态信息及其对应的动作参数，得到每个状态信息对应的所述预设值函数的值，作为值函数样本；

利用每个状态信息及其对应的值函数样本，对所述第一初始深度神经网络模型进行训练，更新所述第一初始深度神经网络模型的参数。

可选的，所述根据预设值函数、所述状态信息及其对应的动作参数，得到每个状态信息对应的所述预设值函数的值的步骤，包括：

利用以下公式确定每个状态信息对应的所述预设值函数的值：

V(s)＝max(r(s，a(s))+∑r(s’，a(s’)))

其中，s为状态信息，V(s)为状态信息s对应的预设值函数，a(s)为状态信息s对应的动作参数，s’为与状态信息s在同一条路径上的状态信息s之后的所有状态信息，r(s，a(s))为状态信息s对应的预设回报函数。

可选的，所述针对所述每个状态信息，更新所述第二初始深度神经网络模型的参数，使得基于预设优势函数构建的目标函数向预设方向优化的步骤，包括：

将每个状态信息输入更新后的所述第一初始深度神经网络模型，得到每个状态信息对应的所述预设值函数的值；

对于每个状态信息，根据预设优势函数及其对应的所述预设值函数的值，确定使得所述预设优势函数取得最大值的采样动作参数，其中，所述预设优势函数与所述目标函数负相关；

利用每个状态信息及其对应的采样动作参数对所述第二初始深度神经网络模型进行训练，更新所述第二初始深度神经网络模型的参数。

可选的，所述对于每个状态信息，根据预设优势函数及其对应的所述预设值函数的值，确定使得所述预设优势函数取得最大值的采样动作参数的步骤，包括：

利用以下公式确定使得所述预设优势函数取得最大值的采样动作参数：

Adv(s，a_new)＝r(s，a_new)+V(s’)₀-V(s)₀

其中，a_new为所述采样动作参数，Adv(s，a_new)为预设优势函数，V(s)₀为状态信息s对应的预设值函数的值，V(s’)₀为状态信息s’对应的预设值函数的值，s’为与状态信息s在同一条路径上的状态信息s之后的所有状态信息，r(s，a_new)为状态信息s及采样动作参数a_new对应的预设回报函数。

第二方面，本发明实施例提供了一种机械臂运动控制方法，所述方法包括：

获取机械臂的当前状态信息，其中，所述当前状态信息表征机械臂当前状态；

将所述当前状态信息输入预先训练完成的第二深度神经网络模型，得到目标动作参数，其中，所述目标动作参数表征机械臂各关节下一状态动作，所述第二深度神经网络模型为通过上述任一所述的深度神经网络模型的训练方法得到的；

按照所述目标动作参数，控制所述机械臂运动。

第三方面，本发明实施例还提供了一种深度神经网络模型的训练装置，所述装置包括：

模型获取模块，用于获得第一初始深度神经网络模型及第二初始深度神经网络模型；

信息采样模块，用于基于机械臂运动路径中的每个状态信息，通过所述第二初始深度神经网络模型，获取该状态信息对应的动作参数，其中，所述状态信息表征机械臂状态，所述动作参数表征机械臂各关节动作；

第一训练模块，用于利用预设值函数、所述每个状态信息及其对应的动作参数获取所述第一初始深度神经网络模型的训练数据，并基于所述训练数据更新所述第一初始深度神经网络模型的参数，其中，所述训练数据包括输入数据及输出数据，所述输入数据为状态信息，所述输出数据为根据所述预设值函数得到的每个状态信息对应的值函数样本，所述预设值函数为关于预设回报函数的函数，所述预设回报函数为关于状态信息及其对应的动作参数的函数，其值与机械臂与目标位置距离以及与障碍物距离相关；

第二训练模块，用于针对所述每个状态信息，更新所述第二初始深度神经网络模型的参数，使得基于预设优势函数构建的目标函数向预设方向优化，其中，所述预设优势函数为关于所述预设回报函数及所述预设值函数的值函数，所述预设值函数的值基于更新后的所述第一初始深度神经网络模型确定，所述预设回报函数中的动作参数为使得所述目标函数的值向预设方向优化的采样动作参数。

可选的，所述装置还包括：

判断模块，用于判断每条机械臂运动路径中的预设回报函数的值是否满足收敛条件；

停止训练模块，用于在每条机械臂运动路径中的预设回报函数的值满足收敛条件时，停止训练，得到用于机械臂运动控制的第二深度神经网络模型；

触发模块，用于在每条机械臂运动路径中的预设回报函数的值不满足收敛条件时，触发所述信息采样模块。

可选的，所述第一训练模块包括：

第一预设值函数值确定子模块，用于根据预设值函数、所述状态信息及其对应的动作参数，得到每个状态信息对应的所述预设值函数的值，作为值函数样本；

第一更新子模块，用于利用每个状态信息及其对应的值函数样本，对所述第一初始深度神经网络模型进行训练，更新所述第一初始深度神经网络模型的参数。

可选的，所述预设值函数值确定子模块包括：

预设值函数值确定单元，用于利用以下公式确定每个状态信息对应的所述预设值函数的值：

V(s)＝max(r(s，a(s))+∑r(s’，a(s’)))

可选的，所述第二训练模块包括：

第二预设值函数值确定子模块，用于将每个状态信息输入更新后的所述第一初始深度神经网络模型，得到每个状态信息对应的所述预设值函数的值；

采样动作参数确定子模块，用于对于每个状态信息，根据预设优势函数及其对应的所述预设值函数的值，确定使得所述预设优势函数取得最大值的采样动作参数，其中，所述预设优势函数与所述目标函数负相关；

第二更新子模块，用于利用每个状态信息及其对应的采样动作参数对所述第二初始深度神经网络模型进行训练，更新所述第二初始深度神经网络模型的参数。

可选的，所述采样动作参数确定子模块包括：

采样动作参数确定单元，用于利用以下公式确定使得所述预设优势函数取得最大值的采样动作参数：

Adv(s，a_new)＝r(s，a_new)+V(s’)₀-V(s)₀

第四方面，本发明实施例提供了一种机械臂运动控制装置，所述装置包括：

状态信息获取模块，用于获取机械臂的当前状态信息，其中，所述当前状态信息表征机械臂当前状态；

目标动作参数确定模块，用于将所述当前状态信息输入预先训练完成的第二深度神经网络模型，得到目标动作参数，其中，所述目标动作参数表征机械臂各关节下一状态动作，所述第二深度神经网络模型为通过上述任一所述的深度神经网络模型的训练方法得到的；

运动控制模块，用于按照所述目标动作参数，控制所述机械臂运动。

第五方面，本发明实施例提供了一种电子设备，包括第一处理器、第一通信接口、第一存储器和第一通信总线，其中，第一处理器，第一通信接口，第一存储器通过第一通信总线完成相互间的通信；

第一存储器，用于存放计算机程序；

第一处理器，用于执行第一存储器上所存放的程序时，实现上述任一所述的深度神经网络模型的训练方法步骤。

第六方面，本发明实施例提供了另一种电子设备，其特征在于，包括第二处理器、第二通信接口、第二存储器和第二通信总线，其中，第二处理器，第二通信接口，第二存储器通过第二通信总线完成相互间的通信；

第二存储器，用于存放计算机程序；

第二处理器，用于执行第二存储器上所存放的程序时，实现上述所述的机械臂运动控制方法步骤。

第七方面，本发明实施例提供了一种计算机可读存储介质，其特征在于，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现上述任一所述的深度神经网络模型的训练方法步骤。

第八方面，本发明实施例提供了另一种计算机可读存储介质，其特征在于，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现上述所述的机械臂轨迹控制方法步骤。

本发明实施例所提供的方案中，电子设备首先获得第一初始深度神经网络模型及第二初始深度神经网络模型，基于机械臂运动路径中的每个状态信息，通过所述第二初始深度神经网络模型，获取该状态信息对应的动作参数，然后利用预设值函数、状态信息及其对应的动作参数获取第一初始深度神经网络模型的训练数据，并基于训练数据更新第一初始深度神经网络模型的参数，再更新第二初始深度神经网络模型的参数，使得基于预设优势函数构建的目标函数向预设方向优化。利用更新后的第二初始深度神经网络模型，对于任何状态信息均可以得到使目标函数达到最值的动作参数，可以大大提高机械臂运动路径规划的稳定性和成功率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例所提供的一种深度神经网络模型的训练方法的流程图；

图2为图1所示实施例中步骤S103的一种具体流程图；

图3为图1所示实施例中步骤S104的一种具体流程图；

图4为本发明实施例所提供的一种机械臂运动控制方法的流程图；

图5为本发明实施例所提供的一种深度神经网络模型的训练装置的结构示意图；

图6为本发明实施例所提供的一种机械臂运动控制装置的结构示意图；

图7为本发明实施例所提供的第一种电子设备的结构示意图；

图8为本发明实施例所提供的第一种电子设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为了提高机械臂运动控制的稳定性和成功率，本发明实施例提供了一种网络模型的训练方法及装置、机械臂运动控制方法及装置、电子设备及计算机可读存储介质。

下面首先对本发明实施例所提供的一种深度神经网络模型的训练方法进行介绍。

本发明实施例所提供的一种深度神经网络模型的训练方法可以应用任意需要训练深度神经网络模型的电子设备，例如，可以为处理器、电脑、平板电脑等，在此不做具体限定。

如图1所示，一种深度神经网络模型的训练方法，所述方法包括：

S101，获得第一初始深度神经网络模型及第二初始深度神经网络模型；

S102，基于机械臂运动路径中的每个状态信息，通过所述第二初始深度神经网络模型，获取该状态信息对应的动作参数；

其中，所述状态信息表征机械臂状态，所述动作参数表征机械臂各关节动作。

S103，利用预设值函数、所述状态信息及其对应的动作参数获取所述第一初始深度神经网络模型的训练数据，并基于所述训练数据更新所述第一初始深度神经网络模型的参数；

其中，所述训练数据包括输入数据及输出数据，所述输入数据为状态信息，所述输出数据为根据所述预设值函数得到的每个状态信息对应的值函数样本，所述预设值函数为关于预设回报函数的函数，所述预设回报函数为关于状态信息及其对应的动作参数的函数，其值与机械臂与目标位置距离以及与障碍物距离相关。

S104，针对所述每个状态信息，更新所述第二初始深度神经网络模型的参数，使得基于预设优势函数构建的目标函数向预设方向优化。

其中，所述预设优势函数为关于所述预设回报函数及所述预设值函数的值的函数，所述预设值函数的值基于更新后的所述第一初始深度神经网络模型确定，所述预设回报函数中的动作参数为使得所述目标函数的值向预设方向优化的采样动作参数。

可见，本发明实施例所提供的方案中，电子设备首先获得第一初始深度神经网络模型及第二初始深度神经网络模型，基于机械臂运动路径中的每个状态信息，通过所述第二初始深度神经网络模型，获取该状态信息对应的动作参数，然后利用预设值函数、状态信息及其对应的动作参数获取第一初始深度神经网络模型的训练数据，并基于训练数据更新第一初始深度神经网络模型的参数，再更新第二初始深度神经网络模型的参数，使得基于预设优势函数构建的目标函数向预设方向优化。利用更新后的第二初始深度神经网络模型，对于任何状态信息均可以得到使目标函数达到最值的动作参数，可以大大提高机械臂运动路径规划的稳定性和成功率。

在上述步骤S101中，电子设备可以获得用于训练的第一初始深度神经网络模型及第二初始深度神经网络模型。其中，第一初始深度神经网络模型及第二初始深度神经网络模型可以为电子设备预先构建的，也可以从其他电子设备获得，这都是合理的。

对于第一初始深度神经网络模型及第二初始深度神经网络模型的具体结构本发明在此不做具体限定，只要可以通过训练得到相应的深度神经网络模型即可。第一初始深度神经网络模型及第二初始深度神经网络模型的初始参数可以随机设定。

为了获得训练第一初始深度神经网络模型及第二初始深度神经网络模型的训练数据，在上述步骤S102中，电子设备可以获取机械臂运动的多条路径上的多个状态信息以及每个状态信息对应的动作参数。具体来说，可以基于机械臂运动路径中的每个状态信息，通过第二初始深度神经网络模型，获取该状态信息对应的动作参数。其中，第二初始深度神经网络模型的输入数据为状态信息，输出数据为动作参数。

机械臂运动的每条路径上可以包括多个状态信息，每个状态信息对应有动作参数，其中，状态信息即为表征机械臂状态的信息，其可以根据环境中各种信息、机械臂自身的信息等进行设定，例如，可以包括机械臂的各关节位姿参数、机械臂末端位姿参数、距离目标位置的距离、是否发生碰撞、环境图像、深度图像、目标位置等中的一种或多种。为了方便计算，状态信息可以采用向量来表示。

上述动作参数为表征机械臂各关节动作的参数，例如，可以包括机械臂的各关节的转动角度、转动速度等。每个状态信息对应的动作参数表示机械臂在该状态信息对应的状态下，想要达到目标位置，并且保证运动过程中不发生碰撞，机械臂下一步该如何运动。

在一种实施方式中，电子设备可以在实际环境中，将状态信息输入第二初始深度神经网络模型，进而得到机械臂运动的多条路径上的多个状态信息以及每个状态信息对应的动作参数。

在另一种实施方式中，由于在实际环境中确定状态信息以及每个状态信息对应的动作参数的计算量较大，确定机械臂是否可能发生碰撞的准确率可能不够高，所以为了减少计算量，同时提高准确性，电子设备可以根据真实场景搭建虚拟仿真场景，进而在该虚拟仿真场景设定机械臂各关节的角度及场景信息等，由于在虚拟仿真场景下，机械臂以及环境中各信息是可以确定的，所以可以准确判断机械臂在运动时是否会发生碰撞，以及距离碰撞的余量等信息，可以快速得到准确的机械臂运动的多条路径上的多个状态信息以及每个状态信息对应的动作参数。

例如，电子设备可以确定一个状态信息s1，将其输入到第二初始深度神经网络模型，即可以得到状态信息s1对应的动作参数a1；然后控制机械臂按照动作参数a1运动，得到状态信息s2；将状态信息s2输入第二初始深度神经网络模型，即可以得到状态信息s1对应的动作参数a2，然后控制机械臂按照动作参数a2运动，得到状态信息s3，依次类推，在机械臂运动多次后，便得到一条运动路径上的多个状态信息以及对应的动作参数。采用上述方式，可以得到多条不同的运动路径上的多个状态信息以及对应的动作参数。

获得上述状态信息及动作参数后，电子设备可以利用预设值函数、状态信息及其对应的动作参数获取第一初始深度神经网络模型的训练数据，进而基于该训练数据更新第一初始深度神经网络模型的参数，即执行步骤S103。

为了训练上述第一初始深度神经网络模型及第二初始深度神经网络模型，电子设备可以预先设定预设值函数及预设回报函数，预设回报函数可以为关于状态信息及其对应的动作参数的函数，其值与机械臂与目标位置距离以及与障碍物距离相关，当预设回报函数达到最值时，表示机械臂与目标位置距离越近，与障碍物距离越远，也就是说，预设回报函数的值越大或越小，那么表明机械臂的运动状态是越理想的。

上述预设值函数可以为关于预设回报函数的函数，其可以描述在机械臂运动的同一条路径上的状态信息以及该状态信息后续的状态信息对应的预设回报函数的情况。

那么获取机械臂运动的多条路径上的多个状态信息以及每个状态信息对应的动作参数后，便可以得到每个状态信息对应的预设值函数的值，也就是值函数样本，状态信息及值函数样本即为第一初始深度神经网络模型的训练数据。进而，便可以利用每个状态信息以及其对应的值函数样本，对第一初始深度神经网络模型进行训练，更新第一初始深度神经网络模型的参数。

对于训练第一初始深度神经网络模型的方式可以采用梯度下降算法等任意可以训练深度神经网络模型的方式，在此不做具体限定及说明。可以理解的是，第一初始深度神经网络模型包括状态信息与预设值函数的值的对应关系，其输入数据为状态信息，输出数据为预设值函数的值。

接下来，在上述步骤S104中，电子设备可以针对每个状态信息，更新第二初始深度神经网络模型的参数，使得基于预设优势函数构建的目标函数向预设方向优化。为了得到第二初始深度神经网络模型的样本数据，电子设备可以预先设定预设优势函数，进而对于每个状态信息，电子设备可以利用更新后的第一初始深度神经网络模型确定预设值函数的值，进而根据预设优势函数确定采样动作参数。

其中，预设优势函数可以为关于预设回报函数及预设值函数的函数。可以设定预设优势函数在预设回报函数取得最值时达到一预设值，这样，能够使预设优势函数达到该预设值的动作参数对应的预设回报函数取得最值，也就说明该动作参数为当前状态下最优的动作参数，其可以使目标函数向预设方向优化，便可以将其作为采样动作参数。

预设方向可以为最大化的方向，也可以为最小化的方向，也就是说，此时预设回报函数中的动作参数为使得目标函数的达到最值的采样动作参数。例如，目标函数为第二初始神经网络模型的损失函数，那么预设方向可以为最小化方向。

得到每个状态信息对应的采样动作参数后，便可以对第二初始深度神经网络模型进行训练，更新第二初始深度神经网络模型的参数。

对于训练第二初始深度神经网络模型的方式也可以采用梯度下降算法等任意可以训练深度神经网络模型的方式，在此不做具体限定及说明。可以理解的是，第二初始深度神经网络模型包括状态信息与动作参数的对应关系，其输入数据为状态信息，输出数据为动作参数。

由于在环境因素比较复杂的情况下，经过上述训练的第二初始神经网络的输出结果的准确度可能不能达到实际应用的要求，作为本发明实施例的一种实施方式，上述方法还可以包括：

判断每条机械臂运动路径中的预设回报函数的值是否满足收敛条件；如果是，则停止训练，得到用于机械臂运动控制的第二深度神经网络模型；如果否，则返回所述基于机械臂运动路径中的每个状态信息，通过所述第二初始深度神经网络模型，获取该状态信息对应的动作参数的步骤。

为了进一步训练第一初始深度神经网络模型及第二初始深度神经网络模型，使第二深度神经网络模型的输出结果更加优化。电子设备可以判断每条机械臂运动路径中的预设回报函数的值是否满足预设收敛条件，如果否，则可以返回上述步骤S102，如果每条路径中的预设回报函数的值满足预设收敛条件，则可以停止对第二初始深度神经网络的训练。

其中，预设收敛条件可以为所有运动路径中的预设回报函数的值均收敛，也可以为所有运动路径中的预设回报函数的值收敛的数量满足预设比例，该预设比例可以为90％、95％、98％等，具体可以根据对第二深度神经网络模型的输出结果的准确度的需求确定，在此不做具体限定。

如果每条机械臂运动路径中的预设回报函数的值不满足预设收敛条件，说明此时的第二初始深度神经网络模型的输出结果的准确度还不能达到要求，那么便可以返回上述步骤S102得到了更多的动作参数，由于此时第二深度神经网络模型的参数已经更新，所以可以得到每个状态信息对应的更优化的动作参数。

那么相当于更新了第一初始深度神经网络模型的训练数据，那么为了继续训练第一初始深度神经网络模型使其拟合预设值函数，便可以继续对第一初始深度神经网络模型进行训练。

进而，由于第一初始深度神经网络模型的参数得到了更新，其输出的预设值函数的值也会改变，那么在上述步骤S104便会得到新的采样动作参数。此时第二深度神经网络模型的训练数据也得到更新，所以此时便可以继续训练第二深度神经网络模型，如此重复多次，直到每条运动路径中的预设回报函数的值满足预设收敛条件。

其中，每条路径中的预设回报函数即为每条运动路径上的所有状态信息对应的预设回报函数的和，可以称之为长期回报函数。假设预设回报函数以r(s，a(s))表示，那么长期回报函数可以用f＝∑r(s，a(s))表示。

每条运动路径中的长期回报函数的值满足预设收敛条件，说明此时第二深度神经网络模型对于任何输入的状态信息都可以得到最优的动作参数，那么便可以停止训练，也就得到上述用于机械臂运动控制的第二深度神经网络模型。

可见，在本实施例中，可以对第一初始深度神经网络模型及第二初始深度神经网络模型进行多次循环训练，可以得到在复杂环境中也能得到准确输出结果的第二深度神经网络模型，使得机械臂能够在复杂环境中准确、不发生碰撞地达到目标位置。

作为本发明实施例的一种实施方式，如图2所示，上述利用预设值函数、所述状态信息及其对应的动作参数获取所述第一初始深度神经网络模型的训练数据，并基于所述训练数据更新所述第一初始深度神经网络模型的参数的步骤，可以包括：

S201，根据预设值函数、所述状态信息及其对应的动作参数，得到每个状态信息对应的所述预设值函数的值，作为值函数样本；

为了得到用于训练第一初始深度神经网络模型的训练数据，电子设备在获取状态信息及其对应的动作参数后，可以根据预设值函数、状态信息及其对应的动作参数，得到每个状态信息对应的预设值函数的值，并将其作为值函数样本。

由于预设值函数为关于预设回报函数的函数，而预设回报函数为关于状态信息及其对应的动作参数的函数，因此，状态信息及其对应的动作参数确定后，便可以确定每个状态信息对应的预设值函数的值。

对于预设值函数的具体表达方式可以根据实际应用场景等因素进行设定，只要其可以描述在机械臂运动的同一条路径上的状态信息以及该状态信息后续的状态信息对应的预设回报函数的情况即可，在此不做具体限定。

而预设回报函数的具体表达方式也可以根据实际应用场景、经验值等进行设定，例如，可以为各个状态信息以及对应的动作参数的线性加权，还可以采用神经网络确定预设回报函数的具体表达方式等，只要在预设回报函数达到最值时，表示机械臂与目标位置距离越近，与障碍物距离越远即可，在此也不做具体限定。

对于预设回报函数的设定，除上述因素外，还可以根据实际环境中的动作参数的平滑程度，动作参数的执行效率、执行速度等因素确定，这都是合理的。

例如，在上述步骤S102中获取状态信息s1、s2、s3…sn，其中，n为正整数。状态信息s1、s2、s3…sn分别所对应的动作参数为a1、a2、a3…an。那么电子设备可以根据状态信息s1、s2、s3…sn及动作参数为a1、a2、a3…an，确定状态信息s1、s2、s3…sn分别对应的预设值函数的值V1、V2、V3…Vn。

S202，利用每个状态信息及其对应的值函数样本，对所述第一初始深度神经网络模型进行训练，更新所述第一初始深度神经网络模型的参数。

确定了每个状态信息对应的值函数样本，便可以利用每个状态信息及其对应的值函数样本，对第一初始深度神经网络模型进行训练，在训练时不断更新第一初始深度神经网络模型的参数，以使第一初始深度神经网络模型的输出结果逐渐拟合预设值函数的值。

可见，在本实施例中，电子设备可以根据预设值函数、状态信息及其对应的动作参数，得到每个状态信息对应的预设值函数的值，进而，利用每个状态信息及其对应的预设值函数的值，对第一初始深度神经网络模型进行训练，更新第一初始深度神经网络模型的参数，以使第一初始深度神经网络模型的输出结果逐渐拟合预设值函数的值，为后续训练第二初始深度神经网络模型做准备。

作为本发明实施例的一种实施方式，上述根据预设值函数、所述状态信息及其对应的动作参数，得到每个状态信息对应的所述预设值函数的值的步骤，可以包括：

V(s)＝max(r(s，a(s))+∑r(s’，a(s’))) (1)

在该实施方式中，预设值函数的表达式可以如上式所示，其为状态信息s对应的预设回报函数的值，与状态信息s在同一条路径上的状态信息s之后的所有状态信息对应的预设回报函数的值的和之和的最大值。

可见，预设值函数的值是预设回报函数的值之和的最大值，其也就表示了机械臂与目标位置距离越近，与障碍物距离越远的状态，所以通过该预设值函数的值以及对应的状态信息对第一初始深度神经网络模型进行训练，使得第一预设深度神经网络模型逐渐拟合预设值函数的值，优化第一初始深度神经网络模型。

对于第一次利用上述公式计算预设值函数的值的情况而言，由于每个状态信息s以及与状态信息s在同一条路径上的状态信息s之后的所有状态信息均是在上述步骤S102中得到的，所以计算得到的每个状态信息对应的预设值函数的值是确定的，因此其最大值就是状态信息s对应的预设回报函数的值，与状态信息s在同一条路径上的状态信息s之后的所有状态信息对应的预设回报函数的值的和之和。

而对于后续循环训练第一初始深度神经网络模型时，由于通过更新参数后的第二初始深度神经网络模型得到了新的动作参数，所以对于每个状态信息来说，因此，对于每个状态参数来说，均可以计算得到其对应的预设回报函数的值，与状态信息s在同一条路径上的状态信息s之后的所有状态信息对应的预设回报函数的值的和之和的最大值，将该最大值作为状态信息s对应的预设值函数的值。

进而，状态信息s对应的预设值函数的值便可能发生改变，那么第一初始深度神经网络模型的样本数据即得到更新。

可见，在本实施例中，电子设备可以根据公式V(s)＝max(r(s，a(s))+∑r(s’，a(s’)))计算每个状态信息对应的预设值函数的值，进而得到第一初始深度神经网络模型的训练数据，可以对第一初始深度神经网络模型训练，并可以在第二次以及后续对第一初始深度神经网络模型进行训练时更新其训练数据，使第一初始深度神经网络模型逐渐优化，直到能够得到准确的输出结果。

作为本发明实施例的一种实施方式，如图3所示，上述针对所述每个状态信息，更新所述第二初始深度神经网络模型的参数，使得基于预设优势函数构建的目标函数向预设方向优化的步骤，可以包括：

S301，将每个状态信息输入更新后的所述第一初始深度神经网络模型，得到每个状态信息对应的所述预设值函数的值；

由于第一初始深度神经网络模型已经进行了训练，所以其参数得到更新，其输出结果也就越来越接近准确值，那么电子设备可以将每个状态信息输入更新后的第一初始深度神经网络模型，进而便可以得到每个状态信息对应的预设值函数的值。

可以理解的是，该预设值函数的值可能与利用上述公式(1)计算得到的每个状态信息对应的预设值函数的值不同，也可能相同，其与第一初始深度神经网络模型的优化程度相关。

S302，对于每个状态信息，根据预设优势函数及其对应的所述预设值函数的值，确定使得所述预设优势函数取得最大值的采样动作参数；

确定了上述预设值函数的值后，对于每个状态信息，电子设备可以根据预设优势函数及其对应的所述预设值函数的值，确定使得预设优势函数取得最大值的采样动作参数。其中，该预设优势函数与目标函数负相关。

在该实施方式中，设定预设优势函数时可以将其设置为与预设回报函数正相关或负相关，这样，在预设优势函数取得最大值时，预设回报函数也可以取得最值，这样，在预设优势函数取得最大值时，机械臂处于与目标位置距离最近，与障碍物距离最远的最佳状态。预设优势函数与目标函数负相关，又可以使得在预设优势函数取得最大值时，目标函数向最小化方向优化，那么此时确定的采样动作参数即为最优化的动作参数，机械臂按照该采样动作参数进行运动，可以达到与目标位置距离最近，与障碍物距离最远的最佳状态。

S303，利用每个状态信息及其对应的采样动作参数对所述第二初始深度神经网络模型进行训练，更新所述第二初始深度神经网络模型的参数。

那么机械来便可以利用采样动作参数及其对应的状态信息对第二初始深度神经网络模型进行训练，也就是将每个状态信息及其对应的采样动作参数输入第二初始深度神经网络模型，不断更新第二初始深度神经网络模型的参数，便可以使第二初始深度神经网络模型向着最优化的方向演化，最终得到能够输出最优化的动作参数的第二深度神经网络模型。

可见，在本实施例中，电子设备可以将每个状态信息输入更新后的第一初始深度神经网络模型，得到每个状态信息对应的预设值函数的值，进而对于每个状态信息，根据预设优势函数及其对应的预设值函数的值，确定使得预设优势函数取得最大值的采样动作参数，这样可以得到最优化的采样动作参数，使得后续第二初始深度神经网络模型向着最优化的方向演化，最终得到能够输出准确结果的第二深度神经网络模型。

作为本发明实施例的一种实施方式，上述对于每个状态信息，根据预设优势函数及其对应的所述预设值函数的值，确定使得所述预设优势函数取得最大值的采样动作参数的步骤，可以包括：

Adv(s，a_new)＝r(s，a_new)+V(s’)₀-V(s)₀ (2)

其中，a_new为采样动作参数，Adv(s，a_new)为预设优势函数，V(s)₀为状态信息s对应的预设值函数的值，V(s’)₀为状态信息s’对应的预设值函数的值，s’为与状态信息s在同一条路径上的状态信息s之后的所有状态信息，r(s，a_new)为状态信息s及采样动作参数a_new对应的预设回报函数。

由于V(s)₀及V(s’)₀是更新后的第一初始深度神经网络模型输出的，所以其值是确定的数值，因此，使得预设优势函数取得最大值的采样动作参数是唯一的变量。

在一种实施方式中，电子设备可以在状态信息s对应的动作参数附近采样得到多个新的动作参数；再将多个新的动作参数以及状态信息s对应的动作参数分别代入上述公式(2)中，得到各自对应的预设优势函数的值；然后比较多个预设优势函数的值，确定预设优势函数的值中的最大值，进而将该预设优势函数的值对应的动作参数或新的动作参数确定为上述采样动作参数。

可以理解的是，由于预设优势函数与目标函数负相关，所以此时确定的采样动作参数可以使得目标函数向最小化方向优化。进而，利用该采样动作参数训练的第二初始深度神经网络模型向着最优化的方向演化。

可见，在本实施例中，电子设备可以根据公式Adv(s，a_new)＝r(s，a_new)+V(s’)₀-V(s)₀计算得到使得预设优势函数取得最大值的采样动作参数，进而利用预测动作参数对第二初始深度神经网络模型训练，以使第二初始深度神经网络模型逐渐优化，直到能够得到准确的输出结果。

相应于上述深度神经网络模型的训练方法，本发明实施例还提供了一种机械臂运动控制方法。

下面对本发明实施例所提供的一种机械臂运动控制方法进行介绍。

本发明实施例所提供的一种机械臂运动控制方法可以应用于任意需要确定机械臂轨迹的电子设备，其与执行上述深度神经网络模型的训练方法的电子设备可以为同一电子设备，也可以为不同的电子设备，在此不做具体限定。

如图4所示，一种机械臂运动控制方法，所述方法包括：

S401，获取机械臂的当前状态信息；

其中，所述当前状态信息表征机械臂当前状态。

S402，将所述当前状态信息输入预先训练完成的第二深度神经网络模型，得到目标动作参数；

其中，所述目标动作参数表征机械臂各关节下一状态动作，所述第二深度神经网络模型为通过上述任一深度神经网络模块的训练方法得到的。

S403，按照所述目标动作参数，控制所述机械臂运动。

可见，本发明实施例所提供的方案中，电子设备首先获取机械臂的当前状态信息，然后将当前状态信息输入预先训练完成的第二深度神经网络模型，得到目标动作参数，再按照目标动作参数，控制机械臂运动。其中，通过上述任一深度神经网络模块的训练方法得到的，因此，第二深度神经网络模型对于任何状态信息均可以得到使目标函数达到最值的动作参数，可以大大提高机械臂运动路径规划的稳定性和成功率。

在上述步骤S401中，电子设备可以获取机械臂的当前状态信息，该当前状态信息为可以表征机械臂当前状态的信息，其可以根据环境中各种信息、机械臂自身的信息等进行设定，例如，可以包括机械臂的各关节位姿参数、机械臂末端位姿参数、距离目标物的距离、是否发生碰撞、环境图像、深度图像、目标位置等中的一种或多种。

当前状态信息可以为各类传感器采集的信息定，也可以根据各类传感器采集的信息进行处理后得到的，这都是合理的。机械臂在不同的环境下，配置的传感器也可以不同，状态信息的具体内容也可以不同，其可以是一维向量或者是多维向量，具体形式可以根据实际需求及环境因素确定，在此不做具体限定。其中，上述传感器可以包括图像传感器、距离传感器等，在此也不做具体限定。

接下来，电子设备可以将当前状态信息输入预先训练完成的第二深度神经网络模型，进而得到目标动作参数，即执行上述步骤S402。第二深度神经网络模型可以采用上述深度神经网络模型的训练方法训练得到。

在上述步骤S403中，电子设备便可以按照目标动作参数，控制机械臂运动。由于第二深度神经网络模型可以输出最优化的动作参数，因此，机械臂按照目标动作参数进行运动，不会发生碰撞。

作为本发明实施例的一种实施方式，上述第二深度神经网络模型的训练方式，可以包括：

步骤a，获得所述第一初始深度神经网络模型及所述第二初始深度神经网络模型；

步骤b，基于机械臂运动路径中的每个状态信息，通过所述第二初始深度神经网络模型，获取该状态信息对应的动作参数；

步骤c，利用预设值函数、所述每个状态信息及其对应的动作参数获取所述第一初始深度神经网络模型的训练数据，并基于所述训练数据更新所述第一初始深度神经网络模型的参数；

步骤d，针对所述每个状态信息，更新所述第二初始深度神经网络模型的参数，使得基于预设优势函数构建的目标函数向预设方向优化。

其中，所述预设优势函数为关于所述预设回报函数及所述预设值函数的值函数，所述预设值函数的值基于更新后的所述第一初始深度神经网络模型确定，所述预设回报函数中的动作参数为使得所述目标函数的值向预设方向优化的采样动作参数。

作为本发明实施例的一种实施方式，上述方法还可以包括：

作为本发明实施例的一种实施方式，上述利用预设值函数、所述状态信息及其对应的动作参数获取所述第一初始深度神经网络模型的训练数据，并基于所述训练数据更新所述第一初始深度神经网络模型的参数的步骤，包括：

作为本发明实施例的一种实施方式，上述根据预设值函数、所述状态信息及其对应的动作参数，得到每个状态信息对应的所述预设值函数的值的步骤，包括：

V(s)＝max(r(s，a(s))+∑r(s’，a(s’)))

其中，s为状态信息，V(s)为状态信息s对应的预设值函数，a(s)为状态信息s对应的动作参数，s’为与状态信息s在同一条路径上的状态信息s之后的所有状态信息，r(s，a(s))为状态信息s对应的预设回报函数。。

作为本发明实施例的一种实施方式，上述针对所述每个状态信息，更新所述第二初始深度神经网络模型的参数，使得基于预设优势函数构建的目标函数向预设方向优化的步骤，包括：

作为本发明实施例的一种实施方式，上述对于每个状态信息，根据预设优势函数及其对应的所述预设值函数的值，确定使得所述预设优势函数取得最大值的采样动作参数的步骤，包括：

Adv(s，a_new)＝r(s，a_new)+V(s’)₀-V(s)₀

由于上述实施方式在上述深度神经网络模型的训练方法中已经进行介绍，相关之处可以参考上述深度神经网络模型的训练方法中相关部分说明，在此不再赘述。

作为本发明实施例的一种实施方式，上述方法还可以包括：

返回所述获取机械臂的当前状态信息的步骤，直到所述机械臂运动至目标位置。

为了使机械臂运动至目标位置，电子设备在控制机械臂按照得到目标参数运动后，可以继续获取机械臂的当前状态信息，可以理解的是，此时机械臂的当前状态信息时按照目标参数运动后的状态信息。进而，电子设备可以循环执行上述步骤S401-步骤S403，这样，电子设备便可以根据第二深度神经网络模型的输出结果，控制机械臂一步一步进行运动，直到达到目标位置。

可见，在本实施例中，电子设备在按照目标动作参数控制机械臂运动后，可以返回获取机械臂的当前状态信息的步骤，直到机械臂运动至目标位置，这样，机械臂可以准确运动至目标位置，并且在运动过程中不会发生碰撞。

相应于上述深度神经网络模型的训练方法，本发明实施例还提供了一种深度神经网络模型的训练装置。

下面对本发明实施例所提供的一种深度神经网络模型的训练装置进行介绍。

如图5所示，一种深度神经网络模型的训练装置，所述装置包括：

模型获取模块510，用于获得第一初始深度神经网络模型及第二初始深度神经网络模型；

信息采样模块520，用于基于机械臂运动路径中的每个状态信息，通过所述第二初始深度神经网络模型，获取该状态信息对应的动作参数；

第一训练模块530，用于利用预设值函数、所述每个状态信息及其对应的动作参数获取所述第一初始深度神经网络模型的训练数据，并基于所述训练数据更新所述第一初始深度神经网络模型的参数；

第二训练模块540，用于针对所述每个状态信息，更新所述第二初始深度神经网络模型的参数，使得基于预设优势函数构建的目标函数向预设方向优化；

可见，本发明实施例所提供的方案中，电子设备首先获得第一初始深度神经网络模型及第二初始深度神经网络模型，基于机械臂运动路径中的每个状态信息，通过所述第二初始深度神经网络模型，获取该状态信息对应的动作参数，然后利用预设值函数、状态信息及其对应的动作参数获取第一初始深度神经网络模型的训练数据，并基于训练数据更新第一初始深度神经网络模型的参数，再更新第二初始深度神经网络模型的参数，使得基于预设优势函数构建的目标函数向预设方向优化。利用更新后的第二初始深度神经网络模型，对于任何状态信息均可以得到使目标函数达到最值的动作参数，可以大大提高机械臂运动控制的稳定性和成功率。

作为本发明实施例的一种实施方式，上述装置还可以包括：

判断模块(图5中未示出)，用于判断每条机械臂运动路径中的预设回报函数的值是否满足收敛条件；

停止训练模块(图5中未示出)，用于在每条机械臂运动路径中的预设回报函数的值满足收敛条件时，停止训练，得到用于机械臂运动控制的第二深度神经网络模型；

触发模块(图5中未示出)，用于在每条机械臂运动路径中的预设回报函数的值不满足收敛条件时，触发所述信息采样模块。

作为本发明实施例的一种实施方式，上述第一训练模块530可以包括：

第一预设值函数值确定子模块(图5中未示出)，用于根据预设值函数、所述状态信息及其对应的动作参数，得到每个状态信息对应的所述预设值函数的值，作为值函数样本；

第一更新子模块(图5中未示出)，用于利用每个状态信息及其对应的值函数样本，对所述第一初始深度神经网络模型进行训练，更新所述第一初始深度神经网络模型的参数。

作为本发明实施例的一种实施方式，上述预设值函数值确定子模块可以包括：

预设值函数值确定单元(图5中未示出)，用于利用以下公式确定每个状态信息对应的所述预设值函数的值：

V(s)＝max(r(s，a(s))+∑r(s’，a(s’)))

作为本发明实施例的一种实施方式，上述第二训练模块540可以包括：

第二预设值函数值确定子模块(图5中未示出)，用于将每个状态信息输入更新后的所述第一初始深度神经网络模型，得到每个状态信息对应的所述预设值函数的值；

采样动作参数确定子模块(图5中未示出)，用于对于每个状态信息，根据预设优势函数及其对应的所述预设值函数的值，确定使得所述预设优势函数取得最大值的采样动作参数，其中，所述预设优势函数与所述目标函数负相关；

第二更新子模块(图5中未示出)，用于利用每个状态信息及其对应的采样动作参数对所述第二初始深度神经网络模型进行训练，更新所述第二初始深度神经网络模型的参数。

作为本发明实施例的一种实施方式，上述采样动作参数确定子模块可以包括：

采样动作参数确定单元(图5中未示出)，用于利用以下公式确定使得所述预设优势函数取得最大值的采样动作参数：

Adv(s，a_new)＝r(s，a_new)+V(s’)₀-V(s)₀

相应于上述机械臂运动控制方法，本发明实施例还提供了一种机械臂运动控制装置。

下面对本发明实施例所提供的一种机械臂运动控制装置进行介绍。

如图6所示，一种机械臂运动控制装置，所述装置包括：

状态信息获取模块610，用于获取机械臂的当前状态信息；

其中，所述当前状态信息表征机械臂当前状态。

目标动作参数确定模块620，用于将所述当前状态信息输入预先训练完成的第二深度神经网络模型，得到目标动作参数；

其中，所述目标动作参数表征机械臂各关节下一状态动作，所述第二深度神经网络模型为模型训练模块通过执行上述任一深度神经网络模型的训练方法得到的。

运动控制模块630，用于按照所述目标动作参数，控制所述机械臂运动。

可见，本发明实施例所提供的方案中，电子设备首先获取机械臂的当前状态信息，然后将当前状态信息输入预先训练完成的第二深度神经网络模型，得到目标动作参数，再按照目标动作参数，控制机械臂运动。其中，通过上述任一深度神经网络模块的训练方法得到的，因此，第二深度神经网络模型对于任何状态信息均可以得到使目标函数达到最值的动作参数，可以大大提高机械臂运动控制的稳定性和成功率。

作为本发明实施例的一种实施方式，上述模型训练模块(图6中未示出)可以包括：

模型获取子模块(图6中未示出)，用于获得所述第一初始深度神经网络模型及所述第二初始深度神经网络模型；

信息采样子模块(图6中未示出)，用于基于机械臂运动路径中的每个状态信息，通过所述第二初始深度神经网络模型，获取该状态信息对应的动作参数，其中，所述状态信息表征机械臂状态，所述动作参数表征机械臂各关节动作；

第一训练子模块(图6中未示出)，用于利用预设值函数、所述每个状态信息及其对应的动作参数获取所述第一初始深度神经网络模型的训练数据，并基于所述训练数据更新所述第一初始深度神经网络模型的参数，其中，所述训练数据包括输入数据及输出数据，所述输入数据为状态信息，所述输出数据为根据所述预设值函数得到的每个状态信息对应的值函数样本，所述预设值函数为关于预设回报函数的函数，所述预设回报函数为关于状态信息及其对应的动作参数的函数，其值与机械臂与目标位置距离以及与障碍物距离相关；

第二训练子模块(图6中未示出)，用于针对所述每个状态信息，更新所述第二初始深度神经网络模型的参数，使得基于预设优势函数构建的目标函数向预设方向优化，其中，所述预设优势函数为关于所述预设回报函数及所述预设值函数的值函数，所述预设值函数的值基于更新后的所述第一初始深度神经网络模型确定，所述预设回报函数中的动作参数为使得所述目标函数的值向预设方向优化的采样动作参数。

作为本发明实施例的一种实施方式，上述模型训练模块还可以包括：

判断子模块(图5中未示出)，用于判断每条机械臂运动路径中的预设回报函数的值是否满足收敛条件；

停止训练子模块(图5中未示出)，用于在每条机械臂运动路径中的预设回报函数的值满足收敛条件时，停止训练，得到用于机械臂运动控制的第二深度神经网络模型；

触发子模块(图5中未示出)，用于在每条机械臂运动路径中的预设回报函数的值不满足收敛条件时，触发所述信息采样子模块。

作为本发明实施例的一种实施方式，上述第一训练子模块可以包括：

第一预设值函数值确定单元(图6中未示出)，用于根据预设值函数、所述状态信息及其对应的动作参数，得到每个状态信息对应的所述预设值函数的值，作为值函数样本；

第一更新单元(图6中未示出)，用于利用每个状态信息及其对应的值函数样本，对所述第一初始深度神经网络模型进行训练，更新所述第一初始深度神经网络模型的参数。

作为本发明实施例的一种实施方式，上述第一预设值函数值确定单元可以包括：

第一预设值函数值确定子单元(图6中未示出)，用于利用以下公式确定每个状态信息对应的所述预设值函数的值：

V(s)＝max(r(s，a(s))+∑r(s’，a(s’)))

作为本发明实施例的一种实施方式，上述第二训练子模块可以包括：

第二预设值函数值确定单元(图6中未示出)，用于将每个状态信息输入更新后的所述第一初始深度神经网络模型，得到每个状态信息对应的所述预设值函数的值；

采样动作参数确定单元(图6中未示出)，用于对于每个状态信息，根据预设优势函数及其对应的所述预设值函数的值，确定使得所述预设优势函数取得最大值的采样动作参数，其中，所述预设优势函数与所述目标函数负相关；

第二更新单元(图6中未示出)，用于利用每个状态信息及其对应的采样动作参数对所述第二初始深度神经网络模型进行训练，更新所述第二初始深度神经网络模型的参数。

作为本发明实施例的一种实施方式，上述采样动作参数确定单元可以包括：

采样动作参数确定子单元(图6中未示出)，用于利用以下公式确定使得所述预设优势函数取得最大值的采样动作参数：

Adv(s，a_new)＝r(s，a_new)+V(s’)₀-V(s)₀

作为本发明实施例的一种实施方式，上述装置还可以包括：

返回执行模块(图6中未示出)，用于触发所述状态信息获取模块610，直到所述机械臂运动至目标位置。

本发明实施例还提供了一种电子设备，如图7所示，电子设备可以包括第一处理器701、第一通信接口702、第一存储器703和第一通信总线704，其中，第一处理器701，第一通信接口702，第一存储器703通过第一通信总线704完成相互间的通信，

第一存储器703，用于存放计算机程序；

第一处理器701，用于执行第一存储器703上所存放的程序时，实现上述任一的深度神经网络模型的训练方法。

上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect，PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture，EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口用于上述电子设备与其他设备之间的通信。

存储器可以包括随机存取存储器(Random Access Memory，RAM)，也可以包括非易失性存储器(Non-Volatile Memory，NVM)，例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，CPU)、网络处理器(Network Processor，NP)等；还可以是数字信号处理器(Digital SignalProcessing，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

本发明实施例还提供了另一种电子设备，如图8所示，电子设备可以包括第二处理器801、第二通信接口802、第二存储器803和第二通信总线804，其中，处理器801，第二通信接口802，第二存储器803通过第二通信总线804完成相互间的通信，

第二存储器803，用于存放计算机程序；

第二处理器801，用于执行第二存储器803上所存放的程序时，实现上述任一的机械臂运动控制方法。

可见，本发明实施例所提供的方案中，电子设备首先获得第一初始深度神经网络模型及第二初始深度神经网络模型，基于机械臂运动路径中的每个状态信息，通过所述第二初始深度神经网络模型，获取该状态信息对应的动作参数，然后利用预设值函数、状态信息及其对应的动作参数获取第一初始深度神经网络模型的训练数据，并基于训练数据更新第一初始深度神经网络模型的参数，再更新第二初始深度神经网络模型的参数，使得基于预设优势函数构建的目标函数向预设方向优化。利用更新后的第二初始深度神经网络模型，对于任何状态信息均可以得到使目标函数达到最值的动作参数，可以大大提高机械臂运动运动控制的稳定性和成功率。

通信接口用于上述电子设备与其他设备之间的通信。

本发明实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现上述任一的深度神经网络模型的训练方法。

可见，电子设备首先获得第一初始深度神经网络模型及第二初始深度神经网络模型，基于机械臂运动路径中的每个状态信息，通过所述第二初始深度神经网络模型，获取该状态信息对应的动作参数，然后利用预设值函数、状态信息及其对应的动作参数获取第一初始深度神经网络模型的训练数据，并基于训练数据更新第一初始深度神经网络模型的参数，再更新第二初始深度神经网络模型的参数，使得基于预设优势函数构建的目标函数向预设方向优化。利用更新后的第二初始深度神经网络模型，对于任何状态信息均可以得到使目标函数达到最值的动作参数，可以大大提高机械臂运动控制的稳定性和成功率。

本发明实施例还提供了另一种计算机可读存储介质，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现上述任一的机械臂运动控制方法。

可见，本发明实施例所提供的方案中，计算机程序被处理器执行时，首先获取机械臂的当前状态信息，然后将当前状态信息输入预先训练完成的第二深度神经网络模型，得到目标动作参数，再按照目标动作参数，控制机械臂运动。其中，通过上述任一深度神经网络模块的训练方法得到的，因此，第二深度神经网络模型对于任何状态信息均可以得到使目标函数达到最值的动作参数，可以大大提高机械臂运动控制的稳定性和成功率。

需要说明的是，对于上述装置、电子设备及计算机可读存储介质实施例而言，由于其基本相似于对应的方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

进一步需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。

以上所述仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种深度神经网络模型的训练方法，其特征在于，所述方法包括：

2.如权利要求1所述的方法，其特征在于，所述方法还包括：

3.如权利要求1所述的方法，其特征在于，所述利用预设值函数、所述状态信息及其对应的动作参数获取所述第一初始深度神经网络模型的训练数据，并基于所述训练数据更新所述第一初始深度神经网络模型的参数的步骤，包括：

4.如权利要求3所述的方法，其特征在于，所述根据预设值函数、所述状态信息及其对应的动作参数，得到每个状态信息对应的所述预设值函数的值的步骤，包括：

V(s)＝max(r(s，a(s))+∑r(s’，a(s’)))

5.如权利要求1所述的方法，其特征在于，所述针对所述每个状态信息，更新所述第二初始深度神经网络模型的参数，使得基于预设优势函数构建的目标函数向预设方向优化的步骤，包括：

6.如权利要求5所述的方法，其特征在于，所述对于每个状态信息，根据预设优势函数及其对应的所述预设值函数的值，确定使得所述预设优势函数取得最大值的采样动作参数的步骤，包括：

Adv(s，a_new)＝r(s，a_new)+V(s’)₀-V(s)₀

7.一种机械臂运动控制方法，其特征在于，所述方法包括：

将所述当前状态信息输入预先训练完成的第二深度神经网络模型，得到目标动作参数，其中，所述目标动作参数表征机械臂各关节下一状态动作，所述第二深度神经网络模型为通过权利要求1-6任一项所述的方法得到的；

按照所述目标动作参数，控制所述机械臂运动。

8.一种深度神经网络模型的训练装置，其特征在于，所述装置包括：

9.如权利要求8所述的装置，其特征在于，所述装置还包括：

10.如权利要求8所述的装置，其特征在于，所述第一训练模块包括：

11.如权利要求10所述的装置，其特征在于，所述第一预设值函数值确定子模块包括：

V(s)＝max(r(s，a(s))+∑r(s’，a(s’)))

12.如权利要求8所述的装置，其特征在于，所述第二训练模块包括：

13.如权利要求12所述的装置，其特征在于，所述采样动作参数确定子模块包括：

Adv(s，a_new)＝r(s，a_new)+V(s’)₀-V(s)₀

14.一种机械臂运动控制装置，其特征在于，所述装置包括：

目标动作参数确定模块，用于将所述当前状态信息输入预先训练完成的第二深度神经网络模型，得到目标动作参数，其中，所述目标动作参数表征机械臂各关节下一状态动作，所述第二深度神经网络模型为通过权利要求1-6任一项所述的方法得到的；

15.一种电子设备，其特征在于，包括第一处理器、第一通信接口、第一存储器和第一通信总线，其中，第一处理器，第一通信接口，第一存储器通过第一通信总线完成相互间的通信；

第一存储器，用于存放计算机程序；

第一处理器，用于执行第一存储器上所存放的程序时，实现权利要求1-6任一所述的方法步骤。

16.一种电子设备，其特征在于，包括第二处理器、第二通信接口、第二存储器和第二通信总线，其中，第二处理器，第二通信接口，第二存储器通过第二通信总线完成相互间的通信；

第二存储器，用于存放计算机程序；

第二处理器，用于执行第二存储器上所存放的程序时，实现权利要求7所述的方法步骤。

17.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1-6任一所述的方法步骤。

18.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现权利要求7所述的方法步骤。