CN114986518B

CN114986518B - 用于汽车拆解生产线的智能控制方法及系统

Info

Publication number: CN114986518B
Application number: CN202210844316.3A
Authority: CN
Inventors: 黄绪明
Original assignee: Liaocheng Yiming Hardware Technology Co ltd
Current assignee: Liaocheng Yiming Hardware Technology Co ltd
Priority date: 2022-07-19
Filing date: 2022-07-19
Publication date: 2022-11-04
Anticipated expiration: 2042-07-19
Also published as: CN114986518A

Abstract

本发明涉及智能控制技术领域，具体涉及一种用于汽车拆解生产线的智能控制方法及系统，该方法基于拆解汽车的顺序，采集每个阶段拆解前待拆解汽车的俯视图像，并获取拆解专家在拆解过程中，设定机械臂在每个阶段所对应的位姿状态向量和动作变化向量，以构成拆解专家的专家拆解轨迹；将每个阶段的俯视图像和拆解专家拆解时设定机械臂的所述位姿状态向量，通过策略网络得到待拆解汽车的AI拆解轨迹，构建AI拆解轨迹和专家拆解轨迹之间的错位熵函数，利用错位熵函数对策略网络进行迭代训练，以通过训练好的策略网络对汽车进行拆解。该方法使得智能拆解操作出现错误时，能够探索其他策略，增强策略网络的鲁棒性，保证了智能控制的拆解效果。

Description

用于汽车拆解生产线的智能控制方法及系统

技术领域

本发明涉及智能控制技术领域，具体涉及一种用于汽车拆解生产线的智能控制方法及系统。

背景技术

随着经济的发展和汽车成本的下降，我国汽车保有量不断增大，汽车更新换代速度也更快了，因此有许多被淘汰的汽车需要进行拆解，然后回收利用不同类型、不同材质的部件。汽车拆解环节主要是为了将不同材质的零件进行拆分，便于后续分类回收利用，且拆解过程需要控制机械臂，而目前主要的拆解方法是拆解专家控制强握剪料机并使用强握剪料机进行汽车拆解。由于拆解专家的技术水平不一，导致在日常工作中拆解效率受到影响，且错误的拆解方法可能会导致事故的发生。

发明内容

为了解决上述技术问题，本发明的目的在于提供一种用于汽车拆解生产线的智能控制方法及系统，所采用的技术方案具体如下：

第一方面，本发明实施例提供了一种用于汽车拆解生产线的智能控制方法，该方法包括以下步骤：

基于拆解汽车的顺序，采集每个阶段拆解前待拆解汽车的俯视图像，并获取拆解专家在所述待拆解汽车的拆解过程中，设定机械臂在每个阶段所对应的位姿状态向量，以及设定机械臂在每个阶段的位姿变化所对应的动作变化向量，令最后一个阶段的动作变化向量中的元素都为0，将每个阶段的所述位姿状态向量和所述动作变化向量组成二元组数据，以构成拆解专家的专家拆解轨迹；

将每个阶段的所述俯视图像和拆解专家拆解时设定机械臂的所述位姿状态向量，通过策略网络得到所述待拆解汽车的AI拆解轨迹，构建所述AI拆解轨迹和所述专家拆解轨迹之间的错位熵函数，利用所述错位熵函数对策略网络进行迭代训练，以通过训练好的策略网络对汽车进行拆解。

进一步的，所述位姿状态向量的获取方法，包括：

根据设定机械臂中任意一个关节的位置和姿态自由度组成对应关节的状态数据，得到所有关节的所述状态数据；获取设定机械臂的固定装置的状态，将所有关节的所述状态数据和所述固定装置的状态组成设定机械臂的所述位姿状态向量。

进一步的，所述动作变化向量的获取方法，包括：

采用KDL运动学库构建设定机械臂的运动学模型，并基于TRAC-IK逆运动学求解器计算设定机械臂的末端参考轨迹所对应的关节角度序列；获取机械臂的固定装置的开合度变动程度，将所述关节角度序列和所述开合度变动程度组成所述动作变化向量。

进一步的，所述AI拆解轨迹的获取方法，包括：

将第i个阶段的所述俯视图像和拆解专家在第i个阶段中的所述位姿状态向量，输入策略网络得到第i个阶段中设定机械臂对应的AI动作变化向量，将所述AI动作变化向量和所述位姿状态向量组成第i个阶段的AI二元组数据；

获取所有阶段的所述AI二元组数据，将所有的所述AI二元组数据组成所述AI拆解轨迹。

进一步的，所述构建所述AI拆解轨迹和所述专家拆解轨迹之间的错位熵函数的方法，包括：

获取当前阶段的标准机械爪状态向量和实际机械爪状态向量，所述实际机械爪状态向量是由策略网络进行智能操作下得到的，所述标准机械爪状态向量是在拆解专家的拆解过程中得到的；

当所标准机械爪状态向量和所述实际机械爪状态向量之间不满足预设条件时，重新进行当前阶段的操作，直到满足预设条件或达到重做次数阈值，并计算所述标准机械爪状态向量和所述实际机械爪状态向量之间的状态差异值；当满足预设条件时，则进行下一阶段操作；

获取每个阶段的所述状态差异值，由所述状态差异值构建所述AI拆解轨迹和所述专家拆解轨迹之间的错位熵函数，所述错位熵函数的计算公式为：

其中，

为动作策略函数；

为信息熵；

为第i个阶段的动作策略；

为第i个阶段的所述状态差异值；

为所述错位熵函数；

为阶段的总数。

进一步的，所述标准机械爪状态向量和所述实际机械爪状态向量都是由机械爪的三个角度值和四个爪的压力值组成的。

进一步的，所述预设条件为：

其中，

为所述标准机械爪状态向量；

为所述实际机械爪状态向量；

表示余弦相似度，

表示同时满足两侧的条件，

为任意一个，

表示取绝对值，

为所述标准机械爪状态向量中的第

个角度值，

为所述实际机械爪状态向量中的第

个角度值，

为所述标准机械爪状态向量中的第

个压力值，

为所述实际机械爪状态向量中的第

个压力值。

进一步的，所述利用所述错位熵函数对策略网络进行迭代训练的方法，包括：

结合所述错位熵函数和所有阶段的总奖励值，利用梯度下降法得到策略网络对拆解过程的最优策略，最优策略是指最佳AI拆解轨迹，则最优策略的计算公式为：

其中，

为最优策略；

为总奖励值；

为温度系数；

为期望。

进一步的，所述总奖励值的获取方法，包括：

将当前阶段中第一次重新操作得到的所述AI二元组数据作为初始二元组、最后一次重新操作的所述AI二元组数据作为最优二元组；

获取每个阶段的所述最优二元组和所述初始二元组，将所有阶段的所述最优二元组构成最优AI轨迹、所有阶段的所述初始二元组构成初始AI轨迹；利用奖励函数分别获取所述最优AI轨迹的第一奖励值和所述初始AI轨迹的第二奖励值，对第一奖励值和第二奖励值进行加权求和得到所述总奖励值，所述第二奖励值的权重为所有阶段的实际重做次数总和与所有阶段的重做次数阈值总和之间的比值，所述第一奖励值的权重为1减去所述比值的结果。

第二方面，本发明实施例还提供了一种用于汽车拆解生产线的智能控制系统，包括存储器、处理器以及存储在所述存储器中并在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述任意一项所述方法的步骤。

本发明实施例至少具有如下有益效果：通过构建AI拆解轨迹和专家拆解轨迹之间的错位熵函数，令自动化拆解过程能够自动控制概率策略的分布，使得执行操作出现错误时，能够探索其他策略，增强了策略网络的鲁棒性，保证了智能操控的拆解效果。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案和优点，下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它附图。

图1为本发明一个实施例提供的一种用于汽车拆解生产线的智能控制方法的步骤流程图。

具体实施方式

为了更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效，以下结合附图及较佳实施例，对依据本发明提出的一种用于汽车拆解生产线的智能控制方法及系统，其具体实施方式、结构、特征及其功效，详细说明如下。在下述说明中，不同的“一个实施例”或“另一个实施例”指的不一定是同一实施例。此外，一个或多个实施例中的特定特征、结构或特点可由任何合适形式组合。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。

下面结合附图具体的说明本发明所提供的一种用于汽车拆解生产线的智能控制方法及系统的具体方案。

请参阅图1，其示出了本发明一个实施例提供的一种用于汽车拆解生产线的智能控制方法的步骤流程图，该方法包括以下步骤：

步骤S001，基于拆解汽车的顺序，采集每个阶段拆解前待拆解汽车的俯视图像，并获取拆解专家在待拆解汽车的拆解过程中，机械臂在每个阶段所对应的位姿状态向量，以及机械臂在每个阶段的位姿变化所对应的动作变化向量，令最后一个阶段的动作变化向量中的元素都为0，将每个阶段的位姿状态向量和动作变化向量组成二元组，进而构成拆解专家的专家拆解轨迹。

具体的，机械臂和固定装置的设置：机械臂末端的夹取装置选用四指机械爪，且机械爪的4个爪上都安装一个力传感器；主臂体使用挖掘机同类型的器件，例如强握剪料机的工业级机械臂。在机械臂的每个关节设置力矩传感器，机械爪额外设置三维陀螺仪和PID控制器，以实现连杆端力矩的精确测量，且令机械爪以固定的方式到达任意位置；在夹取装置的末端设置压力传感器，若在机械爪夹住部件上升的过程中掉落，则压力计显示的数值会发生突变；机械臂的固定装置使用拆解过程中常用的钳式机构，内部采用PID控制器，能够从较低的位置固定汽车，不影响拆解的进行。

需要说明的是，本发明实施例中利用单个机械臂和单个固定装置进行拆解。

设置拆解汽车的顺序，将拆解过程分为多个阶段，每个阶段可视为机械臂停留的时刻，且一个阶段对应机械臂的一个位姿，其具体是：机械臂待机（01）→待拆解汽车的上方（02）→前保险杠上方（03）→夹住前保险杠（04）→扯下前保险杠至上方（05）→放置前保险杠后待机（06）→后保险杠上方（07）→夹住后保险杠（08）→扯下后保险杠至上方（09）→放置后保险杠后待机（10）→发动机上方（11）→夹住引擎盖（12）→扯下引擎盖至上方（13）→放置引擎盖后待机（14）→发动机上方（15）→夹住发动机（16）→扯下发动机至上方（17）→放置发动机后待机（18）→夹住车体（19）→放置于液压机（20）→夹住压缩后的车体（21）→放置压缩后的车体（22）。

需要说明的是，汽车的拆解顺序可根据实施者进行自定义，本发明实施例中仅是其中一种示例。

基于汽车的拆解过程，根据拆解顺序利用相机采集汽车的俯视图像，也即是车顶图像，且每个阶段拍摄一次，使得每个阶段都能采集一张俯视图像。对每张俯视图像输入语义分割网络，以得到每张俯视图像对应汽车部件图，也即是排除汽车的背景区域，并利用不同的颜色填充不同的汽车部件，以为后续的拆解起到提示作用，汽车部件是指前保险杠和后保险杠等等。

基于上述拆解场景，利用专家拆解的方法获取待拆解汽车的拆解过程中的各种拆解数据，具体为：首先拆解专家在每个阶段开始拆解前，都采集一张待拆解汽车的俯视图像，然后获取每个阶段下机械臂的位姿所对应的位姿状态向量S，以及当前阶段和相邻下一阶段中，机械臂由当前位姿变为另一个位姿的过程中机械臂的动作变化向量T，进而将位姿状态向量S和动作变化向量T构成对应位姿的二元组数据

，令每个阶段对应的二元组数据构成拆解专家的专家拆解轨迹

，

为第N个阶段的二元组数据，本发明实施例中由于拆解过程分为22个阶段，因此N为22。

需要说明的是，由于最后一个阶段机械臂的位姿不再变化，因此令最后一个位姿的动作变化向量T中的元素全为0。

其中，位姿状态向量S的获取方法为：对于一个机械臂而言，刚体在三维空间中的自由度为6个，包含3个位置和3个姿态自由度，3个位置的描述可以直接采用笛卡尔坐标系下的三维坐标

，3个姿态自由度的表示方式采用基于四元数的姿态表示，设为

，四元数定义为在四维空间的三维超球面，是一种李群

，即

，进而得到一组状态数据

因此获取机械臂的每个关节的状态数据，同时也记录机械臂的固定装置的状态

，只包含固定和释放两个状态，综合可以得到整个机械臂的位姿状态向量

，其中，

为第1个关节的状态数据，

为第2个关节的状态数据，

为第

个关节的状态数据。

动作变化向量T的获取方法为：运动规划和力的规划均基于当前位姿的反馈更新参考信号，采用KDL运动学库构建机械臂的运动学模型，并基于TRAC-IK逆运动学求解器计算机械臂末端参考轨迹对应的关节角度序列，TRAC-IK的求解采用迭代法，相较于其他迭代算法效率较高，稳定性好；同时也记录固定装置的动作，具体参数为固定装置的开合度变动程度，也即是相邻两个阶段中固定装置的开合度差值，进而将关节角度序列和开合度变动程度组成动作变化向量T。

步骤S002，将每个阶段的俯视图像和拆解专家拆解时的位姿状态向量，通过策略网络得到待拆解汽车的AI拆解轨迹，构建AI拆解轨迹和专家拆解轨迹之间的错位熵函数，利用错位熵函数对策略网络进行迭代训练，进而通过训练好的策略网络对汽车进行拆解。

具体的，策略网络的结构类型为卷积神经网络，网络的目的在于寻找最优策略，即该网络是在策略网络的基础上进行改进，其中的网络参数一开始是随机初始化的。将待拆解汽车的第i个阶段的俯视图像和拆解专家在第i个阶段中控制机械臂时的位姿状态向量

，输入策略网络得到第i个阶段中机械臂对应的AI动作变化向量

，将AI动作变化向量

和位姿状态向量

组成AI二元组数据

，同理得到所有阶段的AI二元组数据，将所有的AI二元组数据构成基于策略网络进行智能操控的AI拆解轨迹

，

为第N个阶段的AI二元组数据。

策略网络执行完整个拆解过程得到AI拆解轨迹，将其与专家拆解轨迹同时用同一个奖励函数计算奖励值，然后更换奖励函数，直到找到一个奖励函数能够使得拆解专家的拆解轨迹获得较大的奖励，同时令智能操控的拆解轨迹获得较小的奖励，最后再用这个奖励函数训练策略网络，通过令策略网络执行奖励函数的多次循环，直到找不到满足条件的奖励函数，也即说明策略网络的水平已经达到了专家水平。

考虑到策略网络的输出数据是一个概率性数据，而不是固定性数据，也即是策略网络是采用随机策略的，因此需要在策略网络采用随机策略的情况下，保证输出最优策略下对应的唯一结果，故分析智能操控的拆解过程中的每个阶段，判断机械臂在各个阶段的执行动作是否合格，进而根据判断结果构建AI拆解轨迹和专家拆解轨迹之间的错位熵函数，以保证策略网络的输出数据是最优数据，则错位熵函数的构建过程包括：

（1）根据三维陀螺仪获取机械爪的三个角度值

，取值范围[-180,180]，由机械爪的4个力传感器获取4个压力值

，取值范围[0,500]，将这7个数值构成机械爪状态向量，在拆解专家的拆解过程中，以阶段04为例，获取阶段04的机械爪状态向量，将机械爪状态向量作为标准机械爪状态向量

，同理，得到由策略网络进行智能操控下，阶段04的实际机械爪状态向量

。

（2）判断阶段04对应的标准机械爪状态向量

和实际机械爪状态向量

之间是否满足以下条件：

其中，

表示余弦相似度，

表示同时满足两侧的条件，

代表多个向量元素中的任意一个向量元素，

表示取绝对值，

为标准机械爪状态向量中的第

个角度值，

为实际机械爪状态向量中的第

个角度值，

为标准机械爪状态向量中的第

个压力值，

为实际机械爪状态向量中的第

个压力值。

若满足条件，则策略网络控制机械臂基于阶段04继续进行后续拆解操作，若不满足条件，则策略网络执行退回策略，同时也计算阶段04对应阶段的标准机械爪状态向量和实际机械爪状态向量之间的状态差异值

：

执行退回策略后，机械臂的状态回到了上一阶段，也即是03阶段，从03阶段开始继续完成阶段04的拆解动作，如果再次不满足条件，则继续执行退回策略，直到第k次完成阶段04的拆解动作，其中，k值的取值上限为4，如果重复执行了4次也无法完成，则直接无视异常，继续执行下去，并记录重做次数

，也即是退回策略的执行次数。

（3）利用步骤（1）和步骤（2）获取每个阶段的状态差异值和重做次数。

（4）最大化退回策略的错位熵，提成策略的随机性，使得智能操控尽可能多的探索未采用过的策略，但不是所有阶段都需要那么高的探索性，因此需要根据情况自适应选取，故根据每个阶段的状态差异值

构建AI拆解轨迹和专家拆解轨迹之间的错位熵，则错位熵函数的计算公式为：

其中，

为动作策略函数；

为信息熵，取值范围为[0,1]；

为第i个阶段的动作策略；

为第i个阶段的状态差异值；

为错位熵函数。

进一步的，对于一般的强化学习，学习目标很直接，就是学习一个策略使得累加奖励的期望值最大，但是整场游戏的奖励是正的，不代表每个动作都是好的，而错位熵的强化学习算法，除了上述的基本目标，还保证了探索性，因此利用错位熵函数对策略网络进行训练，使得策略网络得到最优策略，则最优策略的获取方法为：使用梯度下降法，最终能够得到最优策略：

其中，

称为温度系数，用于衡量了

和

之间的比重，经验值取

；

为整体拆解过程中的最优策略；

为智能操控过程中所有阶段的总奖励值；

为期望；

为期望最大时所对应的动作策略。

需要说明的是，最优策略也即是指策略网络智能操控时机械臂在整个拆解过程中的最佳AI拆解轨迹。

其中，总奖励值

的获取方法为：同样以阶段04为例，根据阶段04的退回策略过程，将第一次执行得到AI二元组数据称为初始二元组；最后一次执行得到AI二元组数据为最优二元组，且初始二元组和最优二元组可以相同；获取智能操控过程中每个阶段的最优二元组和初始二元组，并将所有阶段的最优二元组组成最优AI轨迹

，将所有阶段的初始二元组组成初始AI轨迹

，根据奖励函数计算最优AI轨迹和初始AI轨迹之间的总奖励值，总奖励值

的计算公式为：

其中，

为逆强化学习算法拟合出的奖励函数，

为相关参数，

；

为初始AI轨迹对应的权重；

为最优AI轨迹对应的权重；

为第i个阶段的重做次数；

为所有阶段的重做次数的最大值。

在策略网络的探索初期，由于机械臂还没有学习到足够的经验，无法获得较高的奖励值，为了达到最优策略，错位熵值就会更大，这样在训练初期机械臂可以更随意的探索。随着策略网络积累的有效经验越来越多，由逐渐学习到正确的策略以获得更大的奖励值，相对应的，错位熵值就会随之减小，进而保证机械臂选择学习到的有效策略的随机性逐渐减小，最终策略收敛之后，错位熵值变为最小值，而机械臂最大程度的按照学习到的策略进行拆解动作选择。

通过对策略网络的多次迭代训练，能够得到一个能够模仿拆解专家对汽车进行拆解的拆解行为，进而完成对策略网络的训练。

需要说明的是，考虑到拆解专家对不同的车型进行拆解时的专家拆解轨迹是不一样，因此可以用多种车型对应的多种专家拆解轨迹对策略网络进行迭代训练。

进一步，基于拆解顺序，依次实时采集待拆解汽车的俯视图像，将俯视图像和对应阶段机械臂的实时位姿状态向量输入策略网络中，能够得到对应阶段机械臂的动作变化向量，完成该阶段拆解任务后，然后采集下一阶段的俯视图像，同理将俯视图像和下一阶段机械臂的实时位姿状态向量输入策略网络中，能够得到下一阶段机械臂的动作变化向量，以此类推，最终完成对待拆解汽车的拆解。

综上所述，本发明实施例提供了一种用于汽车拆解生产线的智能控制方法，该方法基于拆解汽车的顺序，采集每个阶段拆解前待拆解汽车的俯视图像，并获取拆解专家在拆解过程中，设定机械臂在每个阶段所对应的位姿状态向量和动作变化向量，以构成拆解专家的专家拆解轨迹；将每个阶段的俯视图像和拆解专家拆解时设定机械臂的所述位姿状态向量，通过策略网络得到待拆解汽车的AI拆解轨迹，构建AI拆解轨迹和专家拆解轨迹之间的错位熵函数，利用错位熵函数对策略网络进行迭代训练，以通过训练好的策略网络对汽车进行拆解。该方法使得拆解操作出现错误时，能够探索其他策略，增强策略网络的鲁棒性，保证了智能控制的拆解效果。

基于与上述方法相同的发明构思，本发明实施例还提供了一种用于汽车拆解生产线的智能控制系统，包括存储器、处理器以及存储在所述存储器中并在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述一种用于汽车拆解生产线的智能控制方法中任意一项所述方法的步骤。

需要说明的是：上述本发明实施例先后顺序仅仅为了描述，不代表实施例的优劣。且上述对本说明书特定实施例进行了描述。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。