CN113269107A

CN113269107A - 一种基于深度学习的交互式智能拆解装配系统

Info

Publication number: CN113269107A
Application number: CN202110610972.2A
Authority: CN
Inventors: 陈曾沁; 何志成; 温培刚; 张韶越; 尚继辉; 程俊华; 陈小虎
Original assignee: Aerospace Intelligent Manufacturing Shanghai Technology Co ltd
Current assignee: Aerospace Intelligent Manufacturing Shanghai Technology Co ltd
Priority date: 2021-06-01
Filing date: 2021-06-01
Publication date: 2021-08-17

Abstract

本发明属于拆解装配系统领域，尤其是一种基于深度学习的交互式智能拆解装配系统，针对现有技术中拆解装配系统无法使用动态组合装配来进行演示，且存在操作人员不便于手动操作的问题，现提出如下方案，其包括设备台架，所述设备台架上依次设置有人脸识别系统、深度学习系统、手势识别系统和图像仿射变换系统，所述人脸识别系统包括人脸检测模块、人脸对齐模块、人脸表征模块和人脸匹配模块，所述深度学习系统包括两阶段检测模型与单阶段检测模型，本发明可以识别各种肤色以及佩戴不同颜色手套的手势，并将手势与鼠标操作相连接，并通过照亮需要使用的工具或零件料盒提示操作人员拿取对应工具或零件的，并实时监控工具。

Description

一种基于深度学习的交互式智能拆解装配系统

技术领域

本发明涉及拆解装配系统技术领域，尤其涉及一种基于深度学习的交互式智能拆解装配系统。

背景技术

传统装配/拆解指导手册使用图片和文字结合形式表述操作流程和提示操作要点，最终打印成纸质文件提供给现场操作人员。传统指导手册具有以下缺点：操作人员工作时由于双手拿零件或者手部有油污等情况无法翻查资料；有些零件需要动态组合装配无法使用静态图片或者文字直观的表达，增加了操作人员培训时间；对于少批量多品种工件会有多种指导手册，需要大量人力管理维护；操作过程不可追溯，容易出现错装、漏装、拆解多余物等问题。

现有技术中，拆解装配系统无法使用动态组合装配来进行演示，且存在操作人员不便于手动操作的问题，因此我们提出了一种基于深度学习的交互式智能拆解装配系统，用来解决上述问题。

发明内容

本发明的目的是为了解决现有技术中拆解装配系统无法使用动态组合装配来进行演示，且存在操作人员不便于手动操作的缺点，而提出的一种基于深度学习的交互式智能拆解装配系统。

为了实现上述目的，本发明采用了如下技术方案：

一种基于深度学习的交互式智能拆解装配系统，包括设备台架，所述设备台架上依次设置有人脸识别系统、深度学习系统、手势识别系统和图像仿射变换系统，所述人脸识别系统包括人脸检测模块、人脸对齐模块、人脸表征模块和人脸匹配模块，所述深度学习系统采用两阶段检测模型，两阶段检测模型包括R-CNN、FastR-CNN、FasterR-CNN与Mask-RCNN。

优选的，所述手势识别系统包括端到端训练模块。

优选的，所述图像仿射变换系统包括投影变换模块。

优选的，所述人脸检测模块中包含人脸检测器；人脸对齐模块的目标是使用一组位于图像中固定位置的参考点来缩放和裁剪人脸图像。

优选的，所述人脸表征模块中人脸图像的像素值会被转换成紧凑且可判别的特征向量；人脸匹配模块用于通过对两个模板进行比较。

优选的，所述R-CNN是基于卷积神经网络，线性回归，和支持向量机算法，实现目标检测技术；FastR-CNN是将整个图像归一化后直接送入CNN网络，卷积层不进行候选区的特征提取，而是在最后一个池化层加入候选区域坐标信息，进行特征提取的计算；FasterR-CNN是通过将特征抽取，proposal提取，bounding box regression，classification整合在一个网络中；MaskR-CNN是在FasterR-CNN的基础上添加了一个预测分割mask的分支。

优选的，所述手势识别系统通过将三维相机拍摄三维点云与两位相机图片端到端的深度学习。

优选的，所述图像仿射变换系统针对不同摆放的工具和料盒，需要在工具和料盒上粘贴视觉靶标，并通过双目相机拍摄定位视觉靶标计算靶标空间三维坐标，将三维坐标转换到投影机坐标系下，然后转换为对应投影仪图案。

与现有技术相比，本发明的有益效果在于：

本方案由于设置了人脸识别系统，可以识别操作人员人脸特征调取人员编号，与MES系统通讯获取人员工作任务；

本方案由于设置了深度学习系统，通过高清相机和深度学习算法，可识别零件当前状态，并播放对应操作指导图文视频；

本方案由于设置了图像仿射变换系统，通过照亮需要使用的工具或零件料盒提示操作人员拿取对应工具或零件的，并实时监控工具和零件料盒防止人员错拿、多拿、或者少拿零件或工具。

附图说明

图1为本发明提出的一种基于深度学习的交互式智能拆解装配系统中设备台架的外观图；

图2为本发明提出的一种基于深度学习的交互式智能拆解装配系统中设备台架的指示引导图；

图3为本发明提出的一种基于深度学习的交互式智能拆解装配系统中设备台架的操作监控图；

图4为本发明提出的一种基于深度学习的交互式智能拆解装配系统中单阶段检测模型算法原理图；

图5为本发明提出的一种基于深度学习的交互式智能拆解装配系统中投影变换原理图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅代表本发明一部分实施例，而不是全部的实施例。

参照图1-5，一种基于深度学习的交互式智能拆解装配系统，包括设备台架，设备台架上依次设置有人脸识别系统、深度学习系统、手势识别系统和图像仿射变换系统，所述人脸识别系统包括人脸检测模块、人脸对齐模块、人脸表征模块和人脸匹配模块，所述深度学习系统采用两阶段检测模型，两阶段检测模型包括R-CNN、FastR-CNN、FasterR-CNN与Mask-RCNN。

本发明中，手势识别系统包括端到端训练模块。

本发明中，图像仿射变换系统包括投影变换模块。

本发明中，人脸检测模块中包含人脸检测器，人脸检测器用于寻找图像中人脸的位置，如果有人脸，就返回包含每张人脸的边界框的坐标；人脸对齐模块的目标是使用一组位于图像中固定位置的参考点来缩放和裁剪人脸图像。

本发明中，人脸表征模块中人脸图像的像素值会被转换成紧凑且可判别的特征向量，理想情况下，同一个主体的所有人脸都应该映射到相似的特征向量；人脸匹配模块用于通过对两个模板进行比较，从而得到一个相似度分数，该分数给出了两者属于同一个主体的可能性。

本发明中，R-CNN的全称是Region-CNN，R-CNN基于卷积神经网络，线性回归，和支持向量机算法，实现目标检测技术；FastR-CNN是将整个图像归一化后直接送入CNN网络，卷积层不进行候选区的特征提取，而是在最后一个池化层加入候选区域坐标信息，进行特征提取的计算；FasterR-CNN通过已经将特征抽取，proposal提取，bounding boxregression，classification都整合在了一个网络中，使得综合性能有较大提高，在检测速度方面尤为明显；MaskR-CNN是在FasterR-CNN的基础上添加了一个预测分割mask的分支。

本发明中，手势识别系统通过将三维相机拍摄三维点云与两位相机图片端到端的深度学习，实现通过两维手势图片重建三维数据并完成手势的估计计算。

本发明中，图像仿射变换系统针对不同摆放的工具和料盒，实现工具和料盒的准确照明指示，需要在工具和料盒上粘贴视觉靶标，并通过双目相机拍摄定位视觉靶标计算靶标空间三维坐标，将三维坐标转换到投影机坐标系下，然后转换为对应投影仪图案，完成工具和料盒的投影图案快速重建。

本发明中，先通过人脸检测模块可以寻找出视图中人脸的位置，并通过人脸对齐模块可以根据固定位置参考点来缩放和裁剪人脸图像，通过人脸表征模块将人脸图像转换成模板，之后通过人脸匹配模块将模板与现有模板进行比较，从而识别操作人员身份，再通过深度学习系统提供一种端到端的学习范式，整个学习的流程并不进行人为的子问题划分，而是完全交给深度学习模型直接学习从原始数据到期望输出的映射，最终的损失函数由数据损失data loss和模型参数的正则化损失(regularization loss)共同组成，模型深度的训练则是在最终损失驱动下对模型进行参数更新并将误差反向传播至网络各层，可以识别各种肤色以及佩戴不同颜色手套的手势，并将手势与鼠标操作相连接，并对应不同摆放的工具和料盒，实现工具和料盒的准确照明指示，需要在工具和料盒上粘贴视觉靶标，并通过双目相机拍摄定位视觉靶标计算靶标空间三维坐标，将三维坐标转换到投影机坐标系下，然后转换为对应投影仪图案，完成工具和料盒的投影图案快速重建，通过照亮需要使用的工具或零件料盒提示操作人员拿取对应工具或零件的，并实时监控工具和零件料盒防止人员错拿、多拿、或者少拿零件或工具，并记录工件每个步骤的状态，实现数据的可追溯，提高工件因零件缺失损坏而引起的系统归零效率。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，根据本发明的技术方案及其发明构思加以等同替换或改变，都应涵盖在本发明的保护范围之内。

Claims

1.一种基于深度学习的交互式智能拆解装配系统，包括设备台架，其特征在于，所述设备台架上依次设置有人脸识别系统、深度学习系统、手势识别系统和图像仿射变换系统，所述人脸识别系统包括人脸检测模块、人脸对齐模块、人脸表征模块和人脸匹配模块，所述深度学习系统包括两阶段检测模型与单阶段检测模型，两阶段检测模型包括R-CNN、FastR-CNN、FasterR-CNN与Mask-RCNN，单阶段检测模型包括YOLO与SDD。

2.根据权利要求1所述的一种基于深度学习的交互式智能拆解装配系统，其特征在于，所述手势识别系统包括端到端训练模块。

3.根据权利要求1所述的一种基于深度学习的交互式智能拆解装配系统，其特征在于，所述图像仿射变换系统包括投影变换模块。

4.根据权利要求1所述的一种基于深度学习的交互式智能拆解装配系统，其特征在于，所述人脸检测模块中包含人脸检测器；人脸对齐模块的目标是使用一组位于图像中固定位置的参考点来缩放和裁剪人脸图像。

5.根据权利要求1所述的一种基于深度学习的交互式智能拆解装配系统，其特征在于，所述人脸表征模块中人脸图像的像素值会被转换成紧凑且可判别的特征向量；人脸匹配模块用于通过对两个模板进行比较。

6.根据权利要求1所述的一种基于深度学习的交互式智能拆解装配系统，其特征在于，所述R-CNN是基于卷积神经网络，线性回归，和支持向量机算法，实现目标检测技术；FastR-CNN是将整个图像归一化后直接送入CNN网络，卷积层不进行候选区的特征提取，而是在最后一个池化层加入候选区域坐标信息，进行特征提取的计算；FasterR-CNN是通过将特征抽取，proposal提取，bounding boxregression，classification整合在一个网络中；MaskR-CNN是在FasterR-CNN的基础上添加了一个预测分割mask的分支。

7.根据权利要求1所述的一种基于深度学习的交互式智能拆解装配系统，其特征在于，所述YOLO是将物体检测作为回归问题求解，基于一个单独的end-to-end网络，完成从原始图像的输入到物体位置和类别的输出；SDD具有多尺度的feature map，基于VGG的不同卷积段，输出feature map到回归器中。

8.根据权利要求1所述的一种基于深度学习的交互式智能拆解装配系统，其特征在于，所述手势识别系统通过将三维相机拍摄三维点云与两位相机图片端到端的深度学习。

9.根据权利要求1所述的一种基于深度学习的交互式智能拆解装配系统，其特征在于，所述图像仿射变换系统针对不同摆放的工具和料盒，需要在工具和料盒上粘贴视觉靶标，并通过双目相机拍摄定位视觉靶标计算靶标空间三维坐标，将三维坐标转换到投影机坐标系下，然后转换为对应投影仪图案。