CN114986518B - 用于汽车拆解生产线的智能控制方法及系统 - Google Patents

用于汽车拆解生产线的智能控制方法及系统 Download PDF

Info

Publication number
CN114986518B
CN114986518B CN202210844316.3A CN202210844316A CN114986518B CN 114986518 B CN114986518 B CN 114986518B CN 202210844316 A CN202210844316 A CN 202210844316A CN 114986518 B CN114986518 B CN 114986518B
Authority
CN
China
Prior art keywords
disassembly
stage
state vector
dismantling
automobile
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210844316.3A
Other languages
English (en)
Other versions
CN114986518A (zh
Inventor
黄绪明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Liaocheng Yiming Hardware Technology Co ltd
Original Assignee
Liaocheng Yiming Hardware Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Liaocheng Yiming Hardware Technology Co ltd filed Critical Liaocheng Yiming Hardware Technology Co ltd
Priority to CN202210844316.3A priority Critical patent/CN114986518B/zh
Publication of CN114986518A publication Critical patent/CN114986518A/zh
Application granted granted Critical
Publication of CN114986518B publication Critical patent/CN114986518B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1656Programme controls characterised by programming, planning systems for manipulators
    • B25J9/1664Programme controls characterised by programming, planning systems for manipulators characterised by motion, path, trajectory planning
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B23MACHINE TOOLS; METAL-WORKING NOT OTHERWISE PROVIDED FOR
    • B23PMETAL-WORKING NOT OTHERWISE PROVIDED FOR; COMBINED OPERATIONS; UNIVERSAL MACHINE TOOLS
    • B23P19/00Machines for simply fitting together or separating metal parts or objects, or metal and non-metal parts, whether or not involving some deformation; Tools or devices therefor so far as not provided for in other classes
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1602Programme controls characterised by the control system, structure, architecture
    • B25J9/161Hardware, e.g. neural networks, fuzzy logic, interfaces, processor
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1694Programme controls characterised by use of sensors other than normal servo-feedback from position, speed or acceleration sensors, perception control, multi-sensor controlled systems, sensor fusion
    • B25J9/1697Vision controlled systems
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B23MACHINE TOOLS; METAL-WORKING NOT OTHERWISE PROVIDED FOR
    • B23PMETAL-WORKING NOT OTHERWISE PROVIDED FOR; COMBINED OPERATIONS; UNIVERSAL MACHINE TOOLS
    • B23P2700/00Indexing scheme relating to the articles being treated, e.g. manufactured, repaired, assembled, connected or other operations covered in the subgroups
    • B23P2700/14Suspension elements of automobile vehicles
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B23MACHINE TOOLS; METAL-WORKING NOT OTHERWISE PROVIDED FOR
    • B23PMETAL-WORKING NOT OTHERWISE PROVIDED FOR; COMBINED OPERATIONS; UNIVERSAL MACHINE TOOLS
    • B23P2700/00Indexing scheme relating to the articles being treated, e.g. manufactured, repaired, assembled, connected or other operations covered in the subgroups
    • B23P2700/50Other automobile vehicle parts, i.e. manufactured in assembly lines
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02WCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO WASTEWATER TREATMENT OR WASTE MANAGEMENT
    • Y02W30/00Technologies for solid waste management
    • Y02W30/50Reuse, recycling or recovery technologies
    • Y02W30/56Reuse, recycling or recovery technologies of vehicles

Landscapes

  • Engineering & Computer Science (AREA)
  • Mechanical Engineering (AREA)
  • Robotics (AREA)
  • Automation & Control Theory (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Fuzzy Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及智能控制技术领域,具体涉及一种用于汽车拆解生产线的智能控制方法及系统,该方法基于拆解汽车的顺序,采集每个阶段拆解前待拆解汽车的俯视图像,并获取拆解专家在拆解过程中,设定机械臂在每个阶段所对应的位姿状态向量和动作变化向量,以构成拆解专家的专家拆解轨迹;将每个阶段的俯视图像和拆解专家拆解时设定机械臂的所述位姿状态向量,通过策略网络得到待拆解汽车的AI拆解轨迹,构建AI拆解轨迹和专家拆解轨迹之间的错位熵函数,利用错位熵函数对策略网络进行迭代训练,以通过训练好的策略网络对汽车进行拆解。该方法使得智能拆解操作出现错误时,能够探索其他策略,增强策略网络的鲁棒性,保证了智能控制的拆解效果。

Description

用于汽车拆解生产线的智能控制方法及系统
技术领域
本发明涉及智能控制技术领域,具体涉及一种用于汽车拆解生产线的智能控制方法及系统。
背景技术
随着经济的发展和汽车成本的下降,我国汽车保有量不断增大,汽车更新换代速度也更快了,因此有许多被淘汰的汽车需要进行拆解,然后回收利用不同类型、不同材质的部件。汽车拆解环节主要是为了将不同材质的零件进行拆分,便于后续分类回收利用,且拆解过程需要控制机械臂,而目前主要的拆解方法是拆解专家控制强握剪料机并使用强握剪料机进行汽车拆解。由于拆解专家的技术水平不一,导致在日常工作中拆解效率受到影响,且错误的拆解方法可能会导致事故的发生。
发明内容
为了解决上述技术问题,本发明的目的在于提供一种用于汽车拆解生产线的智能控制方法及系统,所采用的技术方案具体如下:
第一方面,本发明实施例提供了一种用于汽车拆解生产线的智能控制方法,该方法包括以下步骤:
基于拆解汽车的顺序,采集每个阶段拆解前待拆解汽车的俯视图像,并获取拆解专家在所述待拆解汽车的拆解过程中,设定机械臂在每个阶段所对应的位姿状态向量,以及设定机械臂在每个阶段的位姿变化所对应的动作变化向量,令最后一个阶段的动作变化向量中的元素都为0,将每个阶段的所述位姿状态向量和所述动作变化向量组成二元组数据,以构成拆解专家的专家拆解轨迹;
将每个阶段的所述俯视图像和拆解专家拆解时设定机械臂的所述位姿状态向量,通过策略网络得到所述待拆解汽车的AI拆解轨迹,构建所述AI拆解轨迹和所述专家拆解轨迹之间的错位熵函数,利用所述错位熵函数对策略网络进行迭代训练,以通过训练好的策略网络对汽车进行拆解。
进一步的,所述位姿状态向量的获取方法,包括:
根据设定机械臂中任意一个关节的位置和姿态自由度组成对应关节的状态数据,得到所有关节的所述状态数据;获取设定机械臂的固定装置的状态,将所有关节的所述状态数据和所述固定装置的状态组成设定机械臂的所述位姿状态向量。
进一步的,所述动作变化向量的获取方法,包括:
采用KDL运动学库构建设定机械臂的运动学模型,并基于TRAC-IK逆运动学求解器计算设定机械臂的末端参考轨迹所对应的关节角度序列;获取机械臂的固定装置的开合度变动程度,将所述关节角度序列和所述开合度变动程度组成所述动作变化向量。
进一步的,所述AI拆解轨迹的获取方法,包括:
将第i个阶段的所述俯视图像和拆解专家在第i个阶段中的所述位姿状态向量,输入策略网络得到第i个阶段中设定机械臂对应的AI动作变化向量,将所述AI动作变化向量和所述位姿状态向量组成第i个阶段的AI二元组数据;
获取所有阶段的所述AI二元组数据,将所有的所述AI二元组数据组成所述AI拆解轨迹。
进一步的,所述构建所述AI拆解轨迹和所述专家拆解轨迹之间的错位熵函数的方法,包括:
获取当前阶段的标准机械爪状态向量和实际机械爪状态向量,所述实际机械爪状态向量是由策略网络进行智能操作下得到的,所述标准机械爪状态向量是在拆解专家的拆解过程中得到的;
当所标准机械爪状态向量和所述实际机械爪状态向量之间不满足预设条件时,重新进行当前阶段的操作,直到满足预设条件或达到重做次数阈值,并计算所述标准机械爪状态向量和所述实际机械爪状态向量之间的状态差异值;当满足预设条件时,则进行下一阶段操作;
获取每个阶段的所述状态差异值,由所述状态差异值构建所述AI拆解轨迹和所述专家拆解轨迹之间的错位熵函数,所述错位熵函数的计算公式为:
Figure 850127DEST_PATH_IMAGE001
其中,
Figure 720125DEST_PATH_IMAGE002
为动作策略函数;
Figure 768852DEST_PATH_IMAGE003
为信息熵;
Figure 606358DEST_PATH_IMAGE004
为第i个阶段的动作策略;
Figure 860884DEST_PATH_IMAGE005
为第i个阶段的所述状态差异值;
Figure 100236DEST_PATH_IMAGE006
为所述错位熵函数;
Figure 647761DEST_PATH_IMAGE007
为阶段的总数。
进一步的,所述标准机械爪状态向量和所述实际机械爪状态向量都是由机械爪的三个角度值和四个爪的压力值组成的。
进一步的,所述预设条件为:
Figure 972563DEST_PATH_IMAGE008
其中,
Figure 765200DEST_PATH_IMAGE009
为所述标准机械爪状态向量;
Figure 390217DEST_PATH_IMAGE010
为所述实际机械爪状态向量;
Figure 577484DEST_PATH_IMAGE011
表示余弦相似度,
Figure 124003DEST_PATH_IMAGE012
表示同时满足两侧的条件,
Figure 782649DEST_PATH_IMAGE013
为任意一个,
Figure 465434DEST_PATH_IMAGE014
表示取绝对值,
Figure 292445DEST_PATH_IMAGE015
为所述标准机械爪状态向量中的第
Figure 811413DEST_PATH_IMAGE016
个角度值,
Figure 460700DEST_PATH_IMAGE017
为所述实际机械爪状态向量中的第
Figure 309576DEST_PATH_IMAGE016
个角度值,
Figure 386117DEST_PATH_IMAGE018
为所述标准机械爪状态向量中的第
Figure 646242DEST_PATH_IMAGE016
个压力值,
Figure 568061DEST_PATH_IMAGE019
为所述实际机械爪状态向量中的第
Figure 412389DEST_PATH_IMAGE016
个压力值。
进一步的,所述利用所述错位熵函数对策略网络进行迭代训练的方法,包括:
结合所述错位熵函数和所有阶段的总奖励值,利用梯度下降法得到策略网络对拆解过程的最优策略,最优策略是指最佳AI拆解轨迹,则最优策略的计算公式为:
Figure 410564DEST_PATH_IMAGE020
其中,
Figure 153392DEST_PATH_IMAGE021
为最优策略;
Figure 190487DEST_PATH_IMAGE022
为总奖励值;
Figure 702371DEST_PATH_IMAGE023
为温度系数;
Figure 543550DEST_PATH_IMAGE024
为期望。
进一步的,所述总奖励值的获取方法,包括:
将当前阶段中第一次重新操作得到的所述AI二元组数据作为初始二元组、最后一次重新操作的所述AI二元组数据作为最优二元组;
获取每个阶段的所述最优二元组和所述初始二元组,将所有阶段的所述最优二元组构成最优AI轨迹、所有阶段的所述初始二元组构成初始AI轨迹;利用奖励函数分别获取所述最优AI轨迹的第一奖励值和所述初始AI轨迹的第二奖励值,对第一奖励值和第二奖励值进行加权求和得到所述总奖励值,所述第二奖励值的权重为所有阶段的实际重做次数总和与所有阶段的重做次数阈值总和之间的比值,所述第一奖励值的权重为1减去所述比值的结果。
第二方面,本发明实施例还提供了一种用于汽车拆解生产线的智能控制系统,包括存储器、处理器以及存储在所述存储器中并在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述任意一项所述方法的步骤。
本发明实施例至少具有如下有益效果:通过构建AI拆解轨迹和专家拆解轨迹之间的错位熵函数,令自动化拆解过程能够自动控制概率策略的分布,使得执行操作出现错误时,能够探索其他策略,增强了策略网络的鲁棒性,保证了智能操控的拆解效果。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案和优点,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它附图。
图1为本发明一个实施例提供的一种用于汽车拆解生产线的智能控制方法的步骤流程图。
具体实施方式
为了更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效,以下结合附图及较佳实施例,对依据本发明提出的一种用于汽车拆解生产线的智能控制方法及系统,其具体实施方式、结构、特征及其功效,详细说明如下。在下述说明中,不同的“一个实施例”或“另一个实施例”指的不一定是同一实施例。此外,一个或多个实施例中的特定特征、结构或特点可由任何合适形式组合。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。
下面结合附图具体的说明本发明所提供的一种用于汽车拆解生产线的智能控制方法及系统的具体方案。
请参阅图1,其示出了本发明一个实施例提供的一种用于汽车拆解生产线的智能控制方法的步骤流程图,该方法包括以下步骤:
步骤S001,基于拆解汽车的顺序,采集每个阶段拆解前待拆解汽车的俯视图像,并获取拆解专家在待拆解汽车的拆解过程中,机械臂在每个阶段所对应的位姿状态向量,以及机械臂在每个阶段的位姿变化所对应的动作变化向量,令最后一个阶段的动作变化向量中的元素都为0,将每个阶段的位姿状态向量和动作变化向量组成二元组,进而构成拆解专家的专家拆解轨迹。
具体的,机械臂和固定装置的设置:机械臂末端的夹取装置选用四指机械爪,且机械爪的4个爪上都安装一个力传感器;主臂体使用挖掘机同类型的器件,例如强握剪料机的工业级机械臂。在机械臂的每个关节设置力矩传感器,机械爪额外设置三维陀螺仪和PID控制器,以实现连杆端力矩的精确测量,且令机械爪以固定的方式到达任意位置;在夹取装置的末端设置压力传感器,若在机械爪夹住部件上升的过程中掉落,则压力计显示的数值会发生突变;机械臂的固定装置使用拆解过程中常用的钳式机构,内部采用PID控制器,能够从较低的位置固定汽车,不影响拆解的进行。
需要说明的是,本发明实施例中利用单个机械臂和单个固定装置进行拆解。
设置拆解汽车的顺序,将拆解过程分为多个阶段,每个阶段可视为机械臂停留的时刻,且一个阶段对应机械臂的一个位姿,其具体是:机械臂待机(01)→待拆解汽车的上方(02)→前保险杠上方(03)→夹住前保险杠(04)→扯下前保险杠至上方(05)→放置前保险杠后待机(06)→后保险杠上方(07)→夹住后保险杠(08)→扯下后保险杠至上方(09)→放置后保险杠后待机(10)→发动机上方(11)→夹住引擎盖(12)→扯下引擎盖至上方(13)→放置引擎盖后待机(14)→发动机上方(15)→夹住发动机(16)→扯下发动机至上方(17)→放置发动机后待机(18)→夹住车体(19)→放置于液压机(20)→夹住压缩后的车体(21)→放置压缩后的车体(22)。
需要说明的是,汽车的拆解顺序可根据实施者进行自定义,本发明实施例中仅是其中一种示例。
基于汽车的拆解过程,根据拆解顺序利用相机采集汽车的俯视图像,也即是车顶图像,且每个阶段拍摄一次,使得每个阶段都能采集一张俯视图像。对每张俯视图像输入语义分割网络,以得到每张俯视图像对应汽车部件图,也即是排除汽车的背景区域,并利用不同的颜色填充不同的汽车部件,以为后续的拆解起到提示作用,汽车部件是指前保险杠和后保险杠等等。
基于上述拆解场景,利用专家拆解的方法获取待拆解汽车的拆解过程中的各种拆解数据,具体为:首先拆解专家在每个阶段开始拆解前,都采集一张待拆解汽车的俯视图像,然后获取每个阶段下机械臂的位姿所对应的位姿状态向量S,以及当前阶段和相邻下一阶段中,机械臂由当前位姿变为另一个位姿的过程中机械臂的动作变化向量T,进而将位姿状态向量S和动作变化向量T构成对应位姿的二元组数据
Figure 22942DEST_PATH_IMAGE025
,令每个阶段对应的二元组数据构成拆解专家的专家拆解轨迹
Figure 552143DEST_PATH_IMAGE026
Figure 934845DEST_PATH_IMAGE027
为第N个阶段的二元组数据,本发明实施例中由于拆解过程分为22个阶段,因此N为22。
需要说明的是,由于最后一个阶段机械臂的位姿不再变化,因此令最后一个位姿的动作变化向量T中的元素全为0。
其中,位姿状态向量S的获取方法为:对于一个机械臂而言,刚体在三维空间中的自由度为6个,包含3个位置和3个姿态自由度,3个位置的描述可以直接采用笛卡尔坐标系下的三维坐标
Figure 320827DEST_PATH_IMAGE028
,3个姿态自由度的表示方式采用基于四元数的姿态表示,设为
Figure 553094DEST_PATH_IMAGE029
,四元数定义为在四维空间的三维超球面,是一种李群
Figure 885987DEST_PATH_IMAGE030
,即
Figure 857616DEST_PATH_IMAGE031
,进而得到一组状态数据
Figure 804712DEST_PATH_IMAGE032
因此获取机械臂的每个关节的状态数据,同时也记录机械臂的固定装置的状态
Figure 743849DEST_PATH_IMAGE033
,只包含固定和释放两个状态,综合可以得到整个机械臂的位姿状态向量
Figure 631165DEST_PATH_IMAGE034
,其中,
Figure 768885DEST_PATH_IMAGE035
为第1个关节的状态数据,
Figure 949200DEST_PATH_IMAGE036
为第2个关节的状态数据,
Figure 641212DEST_PATH_IMAGE037
为第
Figure 738744DEST_PATH_IMAGE038
个关节的状态数据。
动作变化向量T的获取方法为:运动规划和力的规划均基于当前位姿的反馈更新参考信号,采用KDL运动学库构建机械臂的运动学模型,并基于TRAC-IK逆运动学求解器计算机械臂末端参考轨迹对应的关节角度序列,TRAC-IK的求解采用迭代法,相较于其他迭代算法效率较高,稳定性好;同时也记录固定装置的动作,具体参数为固定装置的开合度变动程度,也即是相邻两个阶段中固定装置的开合度差值,进而将关节角度序列和开合度变动程度组成动作变化向量T。
步骤S002,将每个阶段的俯视图像和拆解专家拆解时的位姿状态向量,通过策略网络得到待拆解汽车的AI拆解轨迹,构建AI拆解轨迹和专家拆解轨迹之间的错位熵函数,利用错位熵函数对策略网络进行迭代训练,进而通过训练好的策略网络对汽车进行拆解。
具体的,策略网络的结构类型为卷积神经网络,网络的目的在于寻找最优策略,即该网络是在策略网络的基础上进行改进,其中的网络参数一开始是随机初始化的。将待拆解汽车的第i个阶段的俯视图像和拆解专家在第i个阶段中控制机械臂时的位姿状态向量
Figure 449079DEST_PATH_IMAGE039
,输入策略网络得到第i个阶段中机械臂对应的AI动作变化向量
Figure 347765DEST_PATH_IMAGE040
,将AI动作变化向量
Figure 746648DEST_PATH_IMAGE040
和位姿状态向量
Figure 146405DEST_PATH_IMAGE039
组成AI二元组数据
Figure 727559DEST_PATH_IMAGE041
,同理得到所有阶段的AI二元组数据,将所有的AI二元组数据构成基于策略网络进行智能操控的AI拆解轨迹
Figure 294018DEST_PATH_IMAGE042
Figure 695044DEST_PATH_IMAGE043
为第N个阶段的AI二元组数据。
策略网络执行完整个拆解过程得到AI拆解轨迹,将其与专家拆解轨迹同时用同一个奖励函数计算奖励值,然后更换奖励函数,直到找到一个奖励函数能够使得拆解专家的拆解轨迹获得较大的奖励,同时令智能操控的拆解轨迹获得较小的奖励,最后再用这个奖励函数训练策略网络,通过令策略网络执行奖励函数的多次循环,直到找不到满足条件的奖励函数,也即说明策略网络的水平已经达到了专家水平。
考虑到策略网络的输出数据是一个概率性数据,而不是固定性数据,也即是策略网络是采用随机策略的,因此需要在策略网络采用随机策略的情况下,保证输出最优策略下对应的唯一结果,故分析智能操控的拆解过程中的每个阶段,判断机械臂在各个阶段的执行动作是否合格,进而根据判断结果构建AI拆解轨迹和专家拆解轨迹之间的错位熵函数,以保证策略网络的输出数据是最优数据,则错位熵函数的构建过程包括:
(1)根据三维陀螺仪获取机械爪的三个角度值
Figure 632913DEST_PATH_IMAGE044
,取值范围[-180,180],由机械爪的4个力传感器获取4个压力值
Figure 694672DEST_PATH_IMAGE045
,取值范围[0,500],将这7个数值构成机械爪状态向量,在拆解专家的拆解过程中,以阶段04为例,获取阶段04的机械爪状态向量,将机械爪状态向量作为标准机械爪状态向量
Figure 669581DEST_PATH_IMAGE046
,同理,得到由策略网络进行智能操控下,阶段04的实际机械爪状态向量
Figure 308635DEST_PATH_IMAGE047
(2)判断阶段04对应的标准机械爪状态向量
Figure 50195DEST_PATH_IMAGE009
和实际机械爪状态向量
Figure 340362DEST_PATH_IMAGE010
之间是否满足以下条件:
Figure 705747DEST_PATH_IMAGE048
其中,
Figure 878102DEST_PATH_IMAGE011
表示余弦相似度,
Figure 485670DEST_PATH_IMAGE012
表示同时满足两侧的条件,
Figure 630343DEST_PATH_IMAGE013
代表多个向量元素中的任意一个向量元素,
Figure 963367DEST_PATH_IMAGE014
表示取绝对值,
Figure 311434DEST_PATH_IMAGE015
为标准机械爪状态向量中的第
Figure 473425DEST_PATH_IMAGE016
个角度值,
Figure 784189DEST_PATH_IMAGE017
为实际机械爪状态向量中的第
Figure 6223DEST_PATH_IMAGE016
个角度值,
Figure 841586DEST_PATH_IMAGE018
为标准机械爪状态向量中的第
Figure 541689DEST_PATH_IMAGE016
个压力值,
Figure 582326DEST_PATH_IMAGE019
为实际机械爪状态向量中的第
Figure 714275DEST_PATH_IMAGE016
个压力值。
若满足条件,则策略网络控制机械臂基于阶段04继续进行后续拆解操作,若不满足条件,则策略网络执行退回策略,同时也计算阶段04对应阶段的标准机械爪状态向量和实际机械爪状态向量之间的状态差异值
Figure 286202DEST_PATH_IMAGE049
Figure 39263DEST_PATH_IMAGE050
执行退回策略后,机械臂的状态回到了上一阶段,也即是03阶段,从03阶段开始继续完成阶段04的拆解动作,如果再次不满足条件,则继续执行退回策略,直到第k次完成阶段04的拆解动作,其中,k值的取值上限为4,如果重复执行了4次也无法完成,则直接无视异常,继续执行下去,并记录重做次数
Figure 809773DEST_PATH_IMAGE051
,也即是退回策略的执行次数。
(3)利用步骤(1)和步骤(2)获取每个阶段的状态差异值和重做次数。
(4)最大化退回策略的错位熵,提成策略的随机性,使得智能操控尽可能多的探索未采用过的策略,但不是所有阶段都需要那么高的探索性,因此需要根据情况自适应选取,故根据每个阶段的状态差异值
Figure 858763DEST_PATH_IMAGE049
构建AI拆解轨迹和专家拆解轨迹之间的错位熵,则错位熵函数的计算公式为:
Figure 104936DEST_PATH_IMAGE001
其中,
Figure 146842DEST_PATH_IMAGE002
为动作策略函数;
Figure 522591DEST_PATH_IMAGE003
为信息熵,取值范围为[0,1];
Figure 257328DEST_PATH_IMAGE004
为第i个阶段的动作策略;
Figure 53115DEST_PATH_IMAGE005
为第i个阶段的状态差异值;
Figure 164290DEST_PATH_IMAGE006
为错位熵函数。
进一步的,对于一般的强化学习,学习目标很直接,就是学习一个策略使得累加奖励的期望值最大,但是整场游戏的奖励是正的,不代表每个动作都是好的,而错位熵的强化学习算法,除了上述的基本目标,还保证了探索性,因此利用错位熵函数对策略网络进行训练,使得策略网络得到最优策略,则最优策略的获取方法为:使用梯度下降法,最终能够得到最优策略:
Figure 597808DEST_PATH_IMAGE020
其中,
Figure 424819DEST_PATH_IMAGE023
称为温度系数,用于衡量了
Figure 458634DEST_PATH_IMAGE022
Figure 593074DEST_PATH_IMAGE006
之间的比重,经验值取
Figure 661524DEST_PATH_IMAGE052
Figure 987332DEST_PATH_IMAGE021
为整体拆解过程中的最优策略;
Figure 836340DEST_PATH_IMAGE022
为智能操控过程中所有阶段的总奖励值;
Figure 23738DEST_PATH_IMAGE024
为期望;
Figure 697427DEST_PATH_IMAGE053
为期望最大时所对应的动作策略。
需要说明的是,最优策略也即是指策略网络智能操控时机械臂在整个拆解过程中的最佳AI拆解轨迹。
其中,总奖励值
Figure 866241DEST_PATH_IMAGE022
的获取方法为:同样以阶段04为例,根据阶段04的退回策略过程,将第一次执行得到AI二元组数据称为初始二元组;最后一次执行得到AI二元组数据为最优二元组,且初始二元组和最优二元组可以相同;获取智能操控过程中每个阶段的最优二元组和初始二元组,并将所有阶段的最优二元组组成最优AI轨迹
Figure 609069DEST_PATH_IMAGE054
,将所有阶段的初始二元组组成初始AI轨迹
Figure 147629DEST_PATH_IMAGE055
,根据奖励函数计算最优AI轨迹和初始AI轨迹之间的总奖励值,总奖励值
Figure 925092DEST_PATH_IMAGE022
的计算公式为:
Figure 327123DEST_PATH_IMAGE056
Figure 980084DEST_PATH_IMAGE057
其中,
Figure 509285DEST_PATH_IMAGE058
为逆强化学习算法拟合出的奖励函数,
Figure 921681DEST_PATH_IMAGE059
为相关参数,
Figure 510925DEST_PATH_IMAGE060
Figure 740979DEST_PATH_IMAGE061
为初始AI轨迹对应的权重;
Figure 57560DEST_PATH_IMAGE062
为最优AI轨迹对应的权重;
Figure 340774DEST_PATH_IMAGE063
为第i个阶段的重做次数;
Figure 851652DEST_PATH_IMAGE064
为所有阶段的重做次数的最大值。
在策略网络的探索初期,由于机械臂还没有学习到足够的经验,无法获得较高的奖励值,为了达到最优策略,错位熵值就会更大,这样在训练初期机械臂可以更随意的探索。随着策略网络积累的有效经验越来越多,由逐渐学习到正确的策略以获得更大的奖励值,相对应的,错位熵值就会随之减小,进而保证机械臂选择学习到的有效策略的随机性逐渐减小,最终策略收敛之后,错位熵值变为最小值,而机械臂最大程度的按照学习到的策略进行拆解动作选择。
通过对策略网络的多次迭代训练,能够得到一个能够模仿拆解专家对汽车进行拆解的拆解行为,进而完成对策略网络的训练。
需要说明的是,考虑到拆解专家对不同的车型进行拆解时的专家拆解轨迹是不一样,因此可以用多种车型对应的多种专家拆解轨迹对策略网络进行迭代训练。
进一步,基于拆解顺序,依次实时采集待拆解汽车的俯视图像,将俯视图像和对应阶段机械臂的实时位姿状态向量输入策略网络中,能够得到对应阶段机械臂的动作变化向量,完成该阶段拆解任务后,然后采集下一阶段的俯视图像,同理将俯视图像和下一阶段机械臂的实时位姿状态向量输入策略网络中,能够得到下一阶段机械臂的动作变化向量,以此类推,最终完成对待拆解汽车的拆解。
综上所述,本发明实施例提供了一种用于汽车拆解生产线的智能控制方法,该方法基于拆解汽车的顺序,采集每个阶段拆解前待拆解汽车的俯视图像,并获取拆解专家在拆解过程中,设定机械臂在每个阶段所对应的位姿状态向量和动作变化向量,以构成拆解专家的专家拆解轨迹;将每个阶段的俯视图像和拆解专家拆解时设定机械臂的所述位姿状态向量,通过策略网络得到待拆解汽车的AI拆解轨迹,构建AI拆解轨迹和专家拆解轨迹之间的错位熵函数,利用错位熵函数对策略网络进行迭代训练,以通过训练好的策略网络对汽车进行拆解。该方法使得拆解操作出现错误时,能够探索其他策略,增强策略网络的鲁棒性,保证了智能控制的拆解效果。
基于与上述方法相同的发明构思,本发明实施例还提供了一种用于汽车拆解生产线的智能控制系统,包括存储器、处理器以及存储在所述存储器中并在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述一种用于汽车拆解生产线的智能控制方法中任意一项所述方法的步骤。
需要说明的是:上述本发明实施例先后顺序仅仅为了描述,不代表实施例的优劣。且上述对本说明书特定实施例进行了描述。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (7)

1.一种用于汽车拆解生产线的智能控制方法,其特征在于,该方法包括以下步骤:
基于拆解汽车的顺序,采集每个阶段拆解前待拆解汽车的俯视图像,并获取拆解专家在所述待拆解汽车的拆解过程中,设定机械臂在每个阶段所对应的位姿状态向量,以及设定机械臂在每个阶段的位姿变化所对应的动作变化向量,令最后一个阶段的动作变化向量中的元素都为0,将每个阶段的所述位姿状态向量和所述动作变化向量组成二元组数据,以构成拆解专家的专家拆解轨迹;
将每个阶段的所述俯视图像和拆解专家拆解时设定机械臂的所述位姿状态向量,通过策略网络得到所述待拆解汽车的AI拆解轨迹,构建所述AI拆解轨迹和所述专家拆解轨迹之间的错位熵函数,利用所述错位熵函数对策略网络进行迭代训练,以通过训练好的策略网络对汽车进行拆解;
其中,所述AI拆解轨迹的获取方法,包括:
将第i个阶段的所述俯视图像和拆解专家在第i个阶段中的所述位姿状态向量,输入策略网络得到第i个阶段中设定机械臂对应的AI动作变化向量,将所述AI动作变化向量和所述位姿状态向量组成第i个阶段的AI二元组数据;
获取所有阶段的所述AI二元组数据,将所有的所述AI二元组数据组成所述AI拆解轨迹;
所述构建所述AI拆解轨迹和所述专家拆解轨迹之间的错位熵函数的方法,包括:
获取当前阶段的标准机械爪状态向量和实际机械爪状态向量,所述实际机械爪状态向量是由策略网络进行智能操作下得到的,所述标准机械爪状态向量是在拆解专家的拆解过程中得到的;
当所标准机械爪状态向量和所述实际机械爪状态向量之间不满足预设条件时,重新进行当前阶段的操作,直到满足预设条件或达到重做次数阈值,并计算所述标准机械爪状态向量和所述实际机械爪状态向量之间的状态差异值;当满足预设条件时,则进行下一阶段操作;
获取每个阶段的所述状态差异值,由所述状态差异值构建所述AI拆解轨迹和所述专家拆解轨迹之间的错位熵函数,所述错位熵函数的计算公式为:
Figure 75391DEST_PATH_IMAGE001
其中,
Figure 408283DEST_PATH_IMAGE002
为动作策略函数;
Figure 881378DEST_PATH_IMAGE003
为信息熵;
Figure 907102DEST_PATH_IMAGE004
为第i个阶段的动作策略;
Figure 361086DEST_PATH_IMAGE005
为第i个阶段的所述状态差异值;
Figure 28828DEST_PATH_IMAGE006
为所述错位熵函数;
Figure 884658DEST_PATH_IMAGE007
为阶段的总数;
所述利用所述错位熵函数对策略网络进行迭代训练的方法,包括:
结合所述错位熵函数和所有阶段的总奖励值,利用梯度下降法得到策略网络对拆解过程的最优策略,最优策略是指最佳AI拆解轨迹,则最优策略的计算公式为:
Figure 815704DEST_PATH_IMAGE008
其中,
Figure 491405DEST_PATH_IMAGE009
为最优策略;
Figure 344262DEST_PATH_IMAGE010
为总奖励值;
Figure 539751DEST_PATH_IMAGE011
为温度系数;
Figure 890967DEST_PATH_IMAGE012
为期望;
Figure 867013DEST_PATH_IMAGE013
为期望最大时所对应的动作策略。
2.如权利要求1所述的一种用于汽车拆解生产线的智能控制方法,其特征在于,所述位姿状态向量的获取方法,包括:
根据设定机械臂中任意一个关节的位置和姿态自由度组成对应关节的状态数据,得到所有关节的所述状态数据;获取设定机械臂的固定装置的状态,将所有关节的所述状态数据和所述固定装置的状态组成设定机械臂的所述位姿状态向量。
3.如权利要求1所述的一种用于汽车拆解生产线的智能控制方法,其特征在于,所述动作变化向量的获取方法,包括:
采用KDL运动学库构建设定机械臂的运动学模型,并基于TRAC-IK逆运动学求解器计算设定机械臂的末端参考轨迹所对应的关节角度序列;获取机械臂的固定装置的开合度变动程度,将所述关节角度序列和所述开合度变动程度组成所述动作变化向量。
4.如权利要求1所述的一种用于汽车拆解生产线的智能控制方法,其特征在于,所述标准机械爪状态向量和所述实际机械爪状态向量都是由机械爪的三个角度值和四个爪的压力值组成的。
5.如权利要求4所述的一种用于汽车拆解生产线的智能控制方法,其特征在于,所述预设条件为:
Figure 594666DEST_PATH_IMAGE014
其中,
Figure 910241DEST_PATH_IMAGE015
为所述标准机械爪状态向量;
Figure 432358DEST_PATH_IMAGE016
为所述实际机械爪状态向量;
Figure 833384DEST_PATH_IMAGE017
表示余弦相似度,
Figure 39762DEST_PATH_IMAGE018
表示同时满足两侧的条件,
Figure 459111DEST_PATH_IMAGE019
为任意一个,
Figure 902861DEST_PATH_IMAGE020
表示取绝对值,
Figure 102768DEST_PATH_IMAGE021
为所述标准机械爪状态向量中的第
Figure 657377DEST_PATH_IMAGE022
个角度值,
Figure 868915DEST_PATH_IMAGE023
为所述实际机械爪状态向量中的第
Figure 735765DEST_PATH_IMAGE022
个角度值,
Figure 845803DEST_PATH_IMAGE024
为所述标准机械爪状态向量中的第
Figure 718950DEST_PATH_IMAGE022
个压力值,
Figure 660361DEST_PATH_IMAGE025
为所述实际机械爪状态向量中的第
Figure 695182DEST_PATH_IMAGE022
个压力值。
6.如权利要求1所述的一种用于汽车拆解生产线的智能控制方法,其特征在于,所述总奖励值的获取方法,包括:
将当前阶段中第一次重新操作得到的所述AI二元组数据作为初始二元组、最后一次重新操作的所述AI二元组数据作为最优二元组;
获取每个阶段的所述最优二元组和所述初始二元组,将所有阶段的所述最优二元组构成最优AI轨迹、所有阶段的所述初始二元组构成初始AI轨迹;利用奖励函数分别获取所述最优AI轨迹的第一奖励值和所述初始AI轨迹的第二奖励值,对第一奖励值和第二奖励值进行加权求和得到所述总奖励值,所述第二奖励值的权重为所有阶段的实际重做次数总和与所有阶段的重做次数阈值总和之间的比值,所述第一奖励值的权重为1减去所述比值的结果。
7.一种用于汽车拆解生产线的智能控制系统,包括存储器、处理器以及存储在所述存储器中并在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1-6任意一项所述方法的步骤。
CN202210844316.3A 2022-07-19 2022-07-19 用于汽车拆解生产线的智能控制方法及系统 Active CN114986518B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210844316.3A CN114986518B (zh) 2022-07-19 2022-07-19 用于汽车拆解生产线的智能控制方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210844316.3A CN114986518B (zh) 2022-07-19 2022-07-19 用于汽车拆解生产线的智能控制方法及系统

Publications (2)

Publication Number Publication Date
CN114986518A CN114986518A (zh) 2022-09-02
CN114986518B true CN114986518B (zh) 2022-11-04

Family

ID=83022575

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210844316.3A Active CN114986518B (zh) 2022-07-19 2022-07-19 用于汽车拆解生产线的智能控制方法及系统

Country Status (1)

Country Link
CN (1) CN114986518B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110321666A (zh) * 2019-08-09 2019-10-11 重庆理工大学 基于先验知识与dqn算法的多机器人路径规划方法
CN111179121A (zh) * 2020-01-17 2020-05-19 华南理工大学 基于专家系统与深度逆向强化学习的电网紧急控制方法
CN111488988A (zh) * 2020-04-16 2020-08-04 清华大学 基于对抗学习的控制策略模仿学习方法及装置
CN111496770A (zh) * 2020-04-09 2020-08-07 上海电机学院 基于3d视觉与深度学习的智能搬运机械臂系统及使用方法
WO2020207219A1 (zh) * 2019-04-11 2020-10-15 清华大学 一种利用环境预测优化非模型机器人多轴孔装配控制方法
CN113313265A (zh) * 2021-06-04 2021-08-27 南京航空航天大学 基于带噪声专家示范的强化学习方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8452077B2 (en) * 2010-02-17 2013-05-28 Applied Materials, Inc. Method for imaging workpiece surfaces at high robot transfer speeds with correction of motion-induced distortion
WO2020113228A1 (en) * 2018-11-30 2020-06-04 Google Llc Controlling robots using entropy constraints
CN111401556B (zh) * 2020-04-22 2023-06-30 清华大学深圳国际研究生院 一种对抗式模仿学习中奖励函数的选择方法
US20210397959A1 (en) * 2020-06-22 2021-12-23 Google Llc Training reinforcement learning agents to learn expert exploration behaviors from demonstrators
US20220105626A1 (en) * 2020-10-05 2022-04-07 Autodesk, Inc. Techniques for force and torque-guided robotic assembly
CN113609786B (zh) * 2021-08-27 2022-08-19 中国人民解放军国防科技大学 一种移动机器人导航方法、装置、计算机设备和存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020207219A1 (zh) * 2019-04-11 2020-10-15 清华大学 一种利用环境预测优化非模型机器人多轴孔装配控制方法
CN110321666A (zh) * 2019-08-09 2019-10-11 重庆理工大学 基于先验知识与dqn算法的多机器人路径规划方法
CN111179121A (zh) * 2020-01-17 2020-05-19 华南理工大学 基于专家系统与深度逆向强化学习的电网紧急控制方法
CN111496770A (zh) * 2020-04-09 2020-08-07 上海电机学院 基于3d视觉与深度学习的智能搬运机械臂系统及使用方法
CN111488988A (zh) * 2020-04-16 2020-08-04 清华大学 基于对抗学习的控制策略模仿学习方法及装置
CN113313265A (zh) * 2021-06-04 2021-08-27 南京航空航天大学 基于带噪声专家示范的强化学习方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于运动轨迹的机器人运动学逆解研究;周友行等;《机械科学与技术》;20090715;第28卷(第07期);第862-866页 *

Also Published As

Publication number Publication date
CN114986518A (zh) 2022-09-02

Similar Documents

Publication Publication Date Title
CN112102405B (zh) 基于深度强化学习的机器人搅动-抓取组合方法
CN111515961B (zh) 一种适用于移动机械臂的强化学习奖励方法
JP6676030B2 (ja) 把持システム、学習装置、把持方法、及び、モデルの製造方法
CN110238839B (zh) 一种利用环境预测优化非模型机器人多轴孔装配控制方法
EP3914424A1 (en) Efficient adaption of robot control policy for new task using meta-learning based on meta-imitation learning and meta-reinforcement learning
CN114952828B (zh) 一种基于深度强化学习的机械臂运动规划方法和系统
CN109397285B (zh) 一种装配方法、装配装置及装配设备
CN112297005B (zh) 一种基于图神经网络强化学习的机器人自主控制方法
CN111881772A (zh) 基于深度强化学习的多机械臂协同装配方法和系统
CN111695562A (zh) 一种基于卷积神经网络的机器人自主抓取方法
Tang et al. Learning collaborative pushing and grasping policies in dense clutter
Liu et al. A reinforcement learning-based framework for robot manipulation skill acquisition
CN113341706B (zh) 基于深度强化学习的人机协作流水线系统
CN113821045A (zh) 一种腿足机器人强化学习动作生成系统
CN113043278B (zh) 一种基于改进型鲸鱼搜索方法的机械臂轨迹规划方法
CN115070768B (zh) 机器人恒定力控及负载自辨识方法、系统、介质及计算机
Wagaa et al. Analytical and deep learning approaches for solving the inverse kinematic problem of a high degrees of freedom robotic arm
CN114986518B (zh) 用于汽车拆解生产线的智能控制方法及系统
CN114454160B (zh) 基于核最小二乘软贝尔曼残差强化学习的机械臂抓取控制方法及系统
CN114800525B (zh) 机器人碰撞检测方法、系统、计算机及可读存储介质
CN111015676A (zh) 基于无手眼标定的抓取学习控制方法、系统、机器人及介质
CN117182908B (zh) 基于强化学习的感驱一体软体机器人自主变形系统及方法
Ji et al. Grasping Control of a Vision Robot Based on a Deep Attentive Deterministic Policy Gradient
Kawagoshi et al. Visual servoing using virtual space for both learning and task execution
Li et al. Robot arm simulation based on model-free reinforcement learning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant