CN116984269A

CN116984269A - 一种基于图像识别的煤矸石抓取方法及系统

Info

Publication number: CN116984269A
Application number: CN202310702721.6A
Authority: CN
Inventors: 吕瑞宏; 叶义博; 柳富华; 王久红
Original assignee: Shenyang University of Technology
Current assignee: Shenyang University of Technology
Priority date: 2023-06-14
Filing date: 2023-06-14
Publication date: 2023-11-03

Abstract

本发明提供一种基于图像识别的煤矸石分类抓取方法及系统，涉及煤矸石分拣技术领域。其中，基于图像识别的煤矸石分类抓取方法包括以下步骤：构建煤矸石目标检测模型，用于对煤炭和煤矸石两种目标的识别和分类；构建煤矸石抓取检测模型，用于生成所述煤矸石目标检测模型识别到的煤矸石的最优抓取姿态；搭建煤矸石抓取规划系统，用于根据所述最优抓取姿态控制机器人运动至机器人坐标系下的姿态位置执行抓取识别到的煤矸石的任务。从而，具有降低人工成本，减少误判损失，减少环境污染，减少治理成本，煤矸石的识别效率高，识别准确率高，煤矸石的抓取效率高，抓取准确率高，提高煤炭生产自动化水平等有益技术效果。

Description

一种基于图像识别的煤矸石抓取方法及系统

技术领域

本发明涉及煤矸石处理技术领域，尤其涉及一种基于图像识别的煤矸石抓取方法及系统。

背景技术

在煤炭生产过程中，原煤中不可避免的混有煤炭和煤矸石。由于煤矸石的发热值低，与煤炭混在一起会降低煤炭的发热量。因此将煤矸石从煤炭中分拣出来是提高煤炭质量、清洁利用的一个必不可少的处理流程。

人工对煤矸石识别和分拣，存在效率低，准确率低、人工成本高、劳动强度大等问题。

发明内容

本发明实施例的目的是提供一种基于图像识别的煤矸石抓取方法及系统，以解决现有技术中人工对煤矸石识别和分拣，存在效率低，准确率低、人工成本高、劳动强度大的问题。

为解决上述技术问题，本发明实施例提供如下技术方案：

根据本申请的第一方面，提供了一种基于图像识别的煤矸石分类抓取方法，包括以下步骤：构建煤矸石目标检测模型，用于对煤炭和煤矸石两种目标的识别和分类；构建煤矸石抓取检测模型，用于生成煤矸石目标检测模型识别到的煤矸石的最优抓取姿态；搭建煤矸石抓取规划系统，用于根据最优抓取姿态控制机器人运动至机器人坐标系下的姿态位置执行抓取识别到的煤矸石的任务。

进一步地，构建煤矸石目标检测模型包括以下步骤：制作图像识别数据集，图像识别数据集包括煤炭图像、煤矸石图像以及与其对应的标签文件；利用图像识别数据集对目标识别网络进行训练，并对目标识别网络的检测尺度和损失函数进行改进，得到构建好的煤矸石目标检测模型。

进一步地，制作图像识别数据集具体包括以下步骤：在封闭环境中拍摄多张煤炭图像；在封闭环境中拍摄多张煤矸石图像；在原煤实际生成过程中拍摄多张煤炭与煤矸石混合物的图像；对多张煤炭图像、多张煤矸石图像、多张煤炭与煤矸石混合物的图像进行预处理；对多张煤炭图像、多张煤矸石图像、多张煤炭与煤矸石混合物的图像分别进行标注，得到多个一一对应的标签文件；预处理后的多张煤炭图像、多张煤矸石图像、多张煤炭与煤矸石混合物的图像、以及多个一一对应的标签文件形成图像识别数据集；在构建煤矸石目标检测模型步骤中，选择YOLOv5s网络作为目标识别网络；对目标识别网络的检测尺度进行改进具体包括以下步骤：简化YOLOv5s网络结构的输出端，删除输出端中19×19的特征图分支，保留76×76的特征图和38×38的特征图作为输出；对目标识别网络的损失函数进行改进具体包括以下步骤：选择CIoU损失函数作为模型训练的损失函数。

进一步地，构建煤矸石抓取检测模型包括以下步骤：制作仿真数据集，仿真数据集包括煤矸石仿真图像数据及与其对应的标签文件；利用煤矸石仿真数据集对位姿估计网络进行训练，并在位姿估计网络中融入注意力机制和多尺度残差块，得到构建好的煤矸石抓取检测模型。

进一步地，制作煤矸石仿真数据集具体包括以下步骤：采用SolidWorks软件根据煤炭和煤矸石的实际尺寸进行建模，并在每个材料属性中选择石墨属性；使用SolidWorks软件中的sw2urdf插件来生成煤矸石的urdf模型；将煤矸石的urdf模型加入到ROS的工作空间中的Gazebo模型中；调用深度相机采集多张煤矸石仿真图像数据，保存图像尺寸大小为预设大小；对多张煤矸石仿真图像数据进行预处理；对多张煤矸石仿真图像数据进行标注，得到多个一一对应的标签文件；处理后的多张煤矸石仿真图像数据和多个一一对应的标签文件形成煤矸石仿真数据集；在构建煤矸石抓取检测模型步骤中，选择GR-ConvNet网络作为姿态估计网络；在位姿估计网络中融入注意力机制具体包括以下步骤：在GR-ConvNet的网络结构中嵌入注意力模块，注意力模块包括通道注意力子模块和空间注意力子模块；在位姿估计网络中融入多尺度残差块具体包括以下步骤：在GR-ConvNet的网络结构中嵌入多尺度残差块。

进一步地，基于图像识别的煤矸石分类抓取方法还包括以下步骤：对煤矸石抓取坐标系进行标定，包括相机标定步骤和手眼标定步骤，相机标定步骤包括：建立像素坐标系、图像坐标系、相机坐标系、世界坐标系之间的映射关系；采用张正友标定法进行标定，在标定过程中，利用角点位置数据计算相机的内部参数矩阵和失真系数k1,k2,p1,p2,k3；通过计算相机的内部参数和失真系数来校正图像；手眼标定步骤包括：建立机器人末端执行器与视觉传感器之间的相对位置和姿态关系；对煤矸石抓取检测模型进行评估，采用矩形度量指标作为评估候选抓取精度的标准，当参数抓取的精度评估结果出现以下两种情况时，可以得出该抓取配置是正确的：(1)预测抓取框g_p与真实抓取框g_t的角度差在30度以内；(2)预测抓取框g_p与真实抓取框g_t的J(g_p,g_t)大于0.25；

其中，g_p是预测抓取框，g_t是真实抓取框。

进一步地，搭建煤矸石抓取规划系统包括以下步骤：搭建基于ROS框架和Ubuntu环境的煤矸石抓取规划系统；采用Gazebo仿真环境搭建机器人抓取仿真实验平台，结合MoveIt软件的运动规划模块，实现矸石抓取的最优姿态计算和抓取操作；通过ros_control功能控制仿真机器人执行抓取动作。

进一步地，基于图像识别的煤矸石分类抓取方法还包括以下步骤：获取待检测图像；利用预先构建好的煤矸石目标检测模型对待检测图像中的煤炭和煤矸石两种目标的识别和分类；煤矸石目标检测模型反馈识别到的煤矸石类别信息并传输至煤矸石抓取检测环境中；利用预先构建好的煤矸石抓取检测模型生成识别到的煤矸石的最优抓取姿态；通过坐标系转换方法将最优抓取姿态转换为机器人坐标系中的抓取姿态向量；通过上位机向控制器发送指令，控制机器人移动到姿态位置，执行抓取任务。

进一步地，利用预先构建好的煤矸石抓取检测模型生成识别到的煤矸石的最优抓取姿态包括以下步骤：向煤矸石抓取检测模型中输入待检测图像I；I＝R^n×h×w，h为高度，w为宽度，n为通道数；煤矸石抓取检测模型从待检测图像I中提取特征并生成抓取成功率图像、角度图像和宽度图像；抓取成功率图像、角度图像和宽度图像为与输入图像相同大小的抓取物像素级表示图像；煤矸石抓取检测模型从抓取成功率图像、角度图像和宽度图像中推断最优抓取姿态，输出图像坐标系中机器人手爪的姿态向量G_i；G_i＝(x,y,Θ_i,W_i,Q)；其中，x和y是抓取物在图像坐标系中的中心位置坐标，以像素为单位；Θ_i表示为机器人手爪的方向或者姿态，用欧拉角或四元数进行描述，旋转角度以相机参考坐标系中的弧度为单位，Θ_i的取值范围为[-π/2,π/2]；W_i表示为机器人手爪的张开宽度，用于生成机器人手指之间的距离，以像素为单位；Q是用于评估抓取质量的分数；Q的取值范围为0到1，Q越接近1时，表示抓取成功的可能性更高；要求W_i≤W_max，W_max为机器人使用的反点式抓取器的最大宽度；通过坐标系转换方法将最优抓取姿态转换为机器人坐标系中的抓取姿态向量包括以下步骤：机器人坐标系中的抓取姿态向量表示为G_r，G_r＝(P,Θ_r,W_r,Q)，其中，P＝(x,y,z)是工具的中心位置，Θ_r是工具绕Z轴的旋转，W_r是工具所需的宽度，Q是抓取质量得分；通过以下公式来实现坐标系转换：G_r＝T_rc(T_ci(G_i))；其中，T_ci表示为从机器人末端执行器坐标系到相机坐标系的变换矩阵，描述了相机在机器人坐标系中的位置和方向；T_rc表示为从相机坐标系到世界坐标系的变换矩阵，描述了相机看到的物体在世界坐标系中的位置和方向；G_r为机器人坐标系中的抓取姿态向量；G_i为图像坐标系中机器人手爪的姿态向量。

根据本申请的另一方面，本申请提供了一种基于图像识别的煤矸石分类抓取系统，包括：目标检测模块，目标检测模块包括预先构建好的煤矸石目标检测模型，煤矸石目标检测模型用于对煤炭和煤矸石两种目标的识别和分类；位姿检测模块，与目标检测模块连接，目标检测模块将识别到的煤矸石类别信息反馈至位姿检测模块中；位姿检测模块包括预先构建好的煤矸石抓取检测模型，煤矸石抓取检测模型用于生成识别到的煤矸石的最优抓取姿态；抓取执行模块，与位姿检测模块连接，位姿检测模块将最优抓取姿态反馈至抓取执行模块，抓取执行模块通过坐标系转换方法将最优抓取姿态转换为机器人坐标系中的抓取姿态向量；抓取执行模块包括机器人，机器人用于移动至姿态位置，执行抓取任务。

相较于现有技术，本发明提供的基于图像识别的煤矸石抓取方法及系统具有降低人工成本，减少误判损失，减少环境污染，减少治理成本，煤矸石的识别效率高，识别准确率高，煤矸石的抓取效率高，抓取准确率高，提高煤炭生产自动化水平等有益技术效果。

附图说明

通过参考附图阅读下文的详细描述，本发明示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中，以示例性而非限制性的方式示出了本发明的若干实施方式，相同或对应的标号表示相同或对应的部分，其中：

图1示意性地示出了基于图像识别的煤矸石抓取系统的框架示意图；图2示意性地示出了基于图像识别的煤矸石抓取方法的模型构建部分的流程示意图；图3示意性地示出了基于图像识别的煤矸石抓取方法的模型应用部分的流程示意图；图4示意性地示出了基于图像识别的煤矸石抓取方法的坐标标定过程示意图；图5示意性地示出了基于图像识别的煤矸石抓取方法的坐标系之间的转换流程图；图6示意性地示出了不同朝向的标定板图像；图7示意性地示出了手眼标定示意图；图8示意性地示出了煤炭图像；图9示意性地示出了煤矸石图像；图10示意性地示出了煤炭与煤矸石混合物的图像；图11示意性地示出了改进前的YOLOv5s网络结构示意图；图12示意性地示出了改进后的煤矸石抓取检测模型的中间网络与输出端；图13示意性地示出了本申请对YOLOv5s改进前后的实验结果对比；图14示意性地示出了目标检测中订阅到的位置、置信度以及类别信息；图15示出了GR-ConvNet抓取姿态估计网络模型结构图；图16示意性地示出了注意力模块CBAM的结构图；图17示意性地示出了多尺度残差块的结构图；图18示出了CNN、改进前的GR-ConvNet、以及改进后的煤矸石抓取检测模型的实验结果对比；图19示出了改进前的GR-ConvNet和改进后的煤矸石抓取检测模型的实验结果对比；图20示意性地示出了GR-ConvNet输出最优抓取抓取姿态的流程图；

图21示意性地示出了GR-ConvNet输出的抓取质量、角度和宽度推断出来的抓取矩形；图22示意性地示出了抓取检测中订阅到的位置和姿态信息；图23示意性地示出了矸石仿真抓取系统的框架示意图；图24示意性地示出了基于图像识别的煤矸石分类抓取系统的结构示意图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施方式。虽然附图中显示了本公开的示例性实施方式，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施方式所限制。相反，提供这些实施方式是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。若未特别指明，实施例中所用的技术手段为本领域技术人员所熟知的常规手段。

需要注意的是，除非另有说明，本发明使用的技术术语或者科学术语应当为本发明所属领域技术人员所理解的通常意义。在本申请中，诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。术语“连接”、“相连”等术语应作广义理解，例如，可以是固定连接，也可以是可拆卸连接，或成一体；可以是机械连接，也可以是电连接；可以是直接连接，也可以是通过中间媒介间接相连。术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

结合图1至图24所示，本申请提供了一种基于图像识别的煤矸石分类抓取方法，包括以下步骤：构建煤矸石目标检测模型，用于对煤炭和煤矸石两种目标的识别和分类；构建煤矸石抓取检测模型，用于生成煤矸石目标检测模型识别到的煤矸石的最优抓取姿态；搭建煤矸石抓取规划系统，用于根据最优抓取姿态控制机器人运动至机器人坐标系下的姿态位置执行抓取识别到的煤矸石的任务。这样，本发明可以实现煤矸石自动识别和自动抓取，具有降低人工成本，减少误判损失，减少环境污染，减少治理成本，煤矸石的识别效率高，识别准确率高，煤矸石的抓取效率高，抓取准确率高，提高煤炭生产自动化水平等有益技术效果。

可选地，构建煤矸石目标检测模型包括以下步骤：制作图像识别数据集，图像识别数据集包括煤炭图像、煤矸石图像以及与其对应的标签文件；利用图像识别数据集对目标识别网络进行训练，并对目标识别网络的检测尺度和损失函数进行改进，得到构建好的煤矸石目标检测模型。这样，训练并改进优化后得到的煤矸石目标检测模型对煤炭和煤矸石的识别效率更高，识别准确率更高。

在本申请的具体实施例中，设置煤炭(coal)和煤矸石(gangue)两个类别，对每张图片进行标注，标注图片中的物体属于煤炭和煤矸石中的哪一类别。

可选地，制作图像识别数据集具体包括以下步骤：在封闭环境中拍摄多张煤炭图像；在封闭环境中拍摄多张煤矸石图像；在原煤实际生成过程中拍摄多张煤炭与煤矸石混合物的图像；对多张煤炭图像、多张煤矸石图像、多张煤炭与煤矸石混合物的图像进行预处理；对多张煤炭图像、多张煤矸石图像、多张煤炭与煤矸石混合物的图像分别进行标注，得到多个一一对应的标签文件；预处理后的多张煤炭图像、多张煤矸石图像、多张煤炭与煤矸石混合物的图像、以及多个一一对应的标签文件形成图像识别数据集。

图像识别数据集可以帮助提高煤矿生产的效率和安全性，减少煤炭和煤矸石混杂的情况，同时也有助于推动机器学习技术在工业领域的应用和发展。该图像识别数据集包含了两种类别：coal(煤炭)和gangue(矸石)。

其中，封闭环境是指使用遮光布料围成封闭空间，再选择LED作为辅助光源设置在封闭空间内，从而防止自然光对实验产生干扰。

在本申请的具体实施例中，在收集煤矸石图像时，通过与矿区合作获取3000张图像，包括在封闭环境中拍摄的煤炭图像1200张，煤矸石图像1200张，以及在实际生产过程中拍摄的煤炭与煤矸石混合物的图像600张。煤炭图像如图8所示，煤矸石图片如图9所示，煤炭和煤矸石混合物的图像如图10所示。使用LabelImg软件对每张图片进行标注，标注完成后，每张图片都会对应生成一个xml文件，其中保存了图片中物体的类别和位置信息。将标注后的图片转换成Pascal VOC2007数据集格式，其中包含了训练图片和测试图片的JPEGImages文件夹。Annotations文件夹中保存了与JPEGImages文件夹中的图片名称一一对应的xml文件，用于存储标注信息。ImageSets文件夹中包含了用于训练、测试和验证的文本信息，分别存放在train.txt、test.txt和val.txt中。对于制作好的3000张图片数据集，进行随机划分，其中训练集占比60％，测试集占比20％，验证集占比20％。使用NVIDIARTX3080显卡训练模型时，设置500个训练回合、每个批次包含16个样本、初始学习率为0.01。为了加速训练过程，使用了PyTorch作为深度学习框架，并使用CUDA-11.1对其进行加速。

可选地，采用以下方式中的一种或多种对多张煤炭图像、多张煤矸石图像、多张煤炭与煤矸石混合物的图像进行预处理：去噪、尺寸统一、缩放、裁剪、灰度化、直方图均衡化、归一化和数据增强。

在本申请提供的可选实施例中，对多张煤炭图像、多张煤矸石图像、多张煤炭与煤矸石混合物的图像进行预处理具体包括以下步骤：(1)图像去噪：使用中值滤波和高斯滤波减少图像中的噪声。(2)图像尺寸统一：将所有输入图像调整为相同的尺寸，这样可以确保它们具有相同的特征维度。(3)图像缩放：将图像按比例缩放，通常会将图像缩放到固定大小，以适应模型的输入要求。(4)图像裁剪：如果图像中存在无关的边缘或背景，可以对图像进行裁剪，只保留感兴趣的区域。(5)图像灰度化：将彩色图像转换为灰度图像，这有助于减少数据的维度，并且对于某些任务可能更加适用。(6)直方图均衡化：增强图像的对比度和亮度，通过对图像像素的分布进行调整，使其更加均匀。(7)归一化：对图像进行归一化处理，将像素值缩放到一个固定的范围(例如0到1之间)，以便更好地适应模型的输入。(8)数据增强：通过应用旋转、平移、翻转、缩放等变换来扩增数据集，增加数据的多样性，提高模型的泛化能力。

可选地，在构建煤矸石目标检测模型步骤中，选择YOLOv5s网络作为目标识别网络。YOLOv5s网络具有高效、准确性高等优点，可以实现快速准确的目标检测。

可选地，对目标识别网络的检测尺度进行改进具体包括以下步骤：简化YOLOv5s网络结构的输出端，删除输出端中19×19的特征图分支，保留76×76的特征图和38×38的特征图作为输出。通过删除19×19特征图分支的方式，进一步提高了模型检测速度，减少了计算资源的消耗，从而达到了模型优化的目的。

具体来说，YOLOv5s网络的网络模型由输入端、骨干网络、特征提取网络和输出端四部分组成，改进前的YOLOv5s网络的输出端包括19×19的特征图、76×76的特征图和38×38的特征图。在输出特征图中，不同尺度的特征图对应着不同大小的感受野，即对输入图像的不同区域具有不同的感知能力。通过对网络结构的分析，发现19×19的特征图感受野最大，更适用于检测大型物体。但在本申请中，煤矸石大多为中、小型目标，因此以76×76和38×38的特征图作为输出更符合实际需求，因此，本申请通过删除19×19的特征图分支的方式，在不影响识别效果的同时，可以提高模型检测速度，减少了算资源的消耗，从而达到模型优化的目的。改进前的YOLOv5s网络结构如图11所示；改进后的网络结构如图12所示。

可选地，对目标识别网络的损失函数进行改进具体包括以下步骤：选择CIoU损失函数作为模型训练的损失函数。CIoU损失函数的主要优点在于能够全面地考虑矩形框之间的距离、矩形框重叠程度以及矩形框的长宽比，因此更能够准确地衡量目标检测框的回归效果。所以，本申请选择CIoU损失函数作为模型训练的损失函数，以提高目标检测的性能和稳定性。

具体来说，改进前，YOLOv5s网络采用GIoU损失函数作为模型训练的损失函数，但GIoU损失函数在处理高纵横比的目标框时，易出现收敛速度较慢或不稳定等问题。因此，本申请对损失函数进行了改进，将GIoU损失函数替换为CIoU损失函数，CIoU损失函数不仅考虑了检测框之间的长宽比和重叠部分之间的差异，而且还引入了角度度量，并且考虑了目标框的长宽比例差异，从而在处理高纵横比的目标时，收敛速度较快且较为稳定。此外，CIoU损失函数能够更好地处理较小的目标和重叠的目标，数据集中煤炭和矸石属于中小目标，因此本申请采用CIoU损失函数处理的效果更好。

损失函数改进前的模型在拟合过程中存在较大的波动，收敛速度较慢，改进前的模型的损失值为3.94％左右。损失函数改进后的模型在拟合过程中表现出较小的波动，收敛速度更快，改进后的模型的损失值为3.37％左右。与之前相比，改进后的模型的误差降低了0.57％。

采用召回率、精准率、准确率和速率作为目标识别网络的评价指标，如图13所示，本申请改进后的煤矸石目标检测模型的性能与改进前相比，性能更优。煤矸石目标检测模型的订阅到的位置、置信度以及类别信息如图14所示。

可选地，构建煤矸石抓取检测模型包括以下步骤：制作仿真数据集，仿真数据集包括煤矸石仿真图像数据及与其对应的标签文件；利用煤矸石仿真数据集对位姿估计网络进行训练，并在位姿估计网络中融入注意力机制和多尺度残差块，得到构建好的煤矸石抓取检测模型。这样，训练并改进优化后得到的煤矸石抓取检测模型的抓取效率更高，抓取准确率更高。

可选地，制作煤矸石仿真数据集具体包括以下步骤：采用SolidWorks软件根据煤炭和煤矸石的实际尺寸进行建模，并在每个材料属性中选择石墨属性；使用SolidWorks软件中的sw2urdf插件来生成煤矸石的urdf模型；将煤矸石的urdf模型加入到ROS的工作空间中的Gazebo模型中；调用深度相机采集多张煤矸石仿真图像数据，保存图像尺寸大小为预设大小；对多张煤矸石仿真图像数据进行预处理；对多张煤矸石仿真图像数据进行标注，得到多个一一对应的标签文件；处理后的多张煤矸石仿真图像数据和多个一一对应的标签文件形成煤矸石仿真数据集。

在本申请的具体实施例中，采用康奈尔数据集和制作煤矸石仿真数据集共同对位姿估计网络进行训练。随机划分为训练集和测试集，其中训练集占80％，测试集占20％。在NVIDIARTX3080显卡上，利用PyTorch深度学习框架进行训练，批次处理大小为8，初始学习率为0.01，训练回合数为100次。同时，利用Cuda-11.1进行训练加速。

在本申请的具体实施例中，选择D435深度相机采集图像。调用D435深度相机采集180张煤矸石仿真图像数据，保存图像尺寸大小为640*480。使用RoLabelImg标注工具对采集的煤矸石仿真图像数据进行标注，对煤矸石标注为gangue，并标注一个带有旋转角度的矩形抓取框。标注好矩形框后，根据实际抓取需求，对其进行角度的旋转。标签文件以xml格式存储，文件内容包括了矩形框的中心点(cx,cy)、高度w、宽度h和旋转角度angle等信息。

可选地，采用以下方式中的一种或多种对多张煤矸石仿真图像数据进行预处理：尺寸同一、归一化和数据增强。

在本申请提供的可选实施例中，对多张煤矸石仿真图像数据进行预处理具体包括以下步骤：(1)图像尺寸统一：将所有输入图像调整为相同的尺寸，这样可以确保它们具有相同的特征维度。(2)归一化：对图像进行归一化处理，将像素值缩放到一个固定的范围(例如0到1之间)，以便更好地适应模型的输入。(3)数据增强：通过应用旋转、平移、翻转、缩放等变换来扩增数据集，增加数据的多样性，提高模型的泛化能力。

可选地，在构建煤矸石抓取检测模型步骤中，选择GR-ConvNet网络作为姿态估计网络。GR-ConvNet网络与其他物资检测网络相比，具有较好的运算效率和较好的准确率，能够满足工业实时性煤矸石抓取需求。如图18所示，本申请采用的GR-ConvNet网络与CNN网络相比，位姿检测准确率和抓取成功率较高。

具体来说，如图15所示，生成式残差卷积神经网络模型(GR-ConvNet网络)运用多层卷积和残差结构从输入图像中提取特征，并生成抓取物的像素级表示。该模型的主要组成部分包括卷积层、残差层以及卷积转置层等。卷积层用于学习图像的空间和语义特征，能够提取不同尺度和层次的特征，逐步提高特征的抽象级别，从而增强模型的表征能力；残差层能够缓解梯度消失和维度误差的问题，从而提高模型的准确性和稳定性；卷积转置层通过上采样操作将图像的大小恢复到输入大小，保留图像的空间特征和解释性；通过这些部分的协同作用，该模型可以精确地捕捉输入图像中的细节，生成准确的像素级表示，为机器人抓取任务提供有力支持。

可选地，在位姿估计网络中融入注意力机制具体包括以下步骤：在GR-ConvNet的网络结构中嵌入注意力模块，如图16所示，注意力模块包括通道注意力子模块和空间注意力子模块。通过将CBAM模块添加到GR-ConvNet模型中，引入了注意力机制，有助于模型集中关注相关特征，并改善其表示学习能力。

可选地，在位姿估计网络中融入多尺度残差块具体包括以下步骤：在GR-ConvNet的网络结构中嵌入多尺度残差块。从而，可以对不同尺度的特征处理具有较强的能力，提高了模型的表征能力。

具体来说，如图17所示，多尺度残差块主要分为两个组成部分：融合多尺度特征和进行局部残差学习。在多尺度特征融合中，通过多次下采样方法抽取不同尺度的特征图，然后通过上采样和相加操作，进而使特征更加显著。局部残差学习通过将输入特征图划分为多个子块，然后在每个子块上进行残差学习，并将局部差异与全局特征相结合，以提高特征的区分度和表现力。这种网络架构对不同尺度的特征处理具有较强的能力，提高了模型的表征能力，从而在图像特征检测方面展现出很好的成效。

可选地，在GR-ConvNet的网络结构中，多尺度残差块和注意力模块依次设置，多尺度残差块的输出通过CBAM模块进行传递。

在本申请的具体实施例中，将注意力模块CBAM定义为一个独立的类，其中包括通道注意力子模块和空间注意力子模块。然后，在GR-ConvNet模型中修改forward方法，在多尺度残差块(Multi-Scale Residual Blocks)之后添加CBAM类的实例。在模型的forward方法中，将多尺度残差块的输出通过CBAM模块进行传递，以整合注意力机制。继续模型的前向传播，包括其他层和输出。将多尺度残差块定义为一个独立的类，包括必要的卷积和批标准化层。修改GR-ConvNet模型，通过在模型的架构中添加多尺度残差块类的实例。在模型的forward方法中，将每个多尺度残差块的输出通过适当的实例进行传递。继续模型的前向传播，包括其他层和输出。

如图19所示，与改进前的模型相比，仅融入注意力机制可将准确率提高2.1个百分点；仅用多尺度残差块可将准确率提高1.4个百分点；而整体融入注意力机制和多尺度残差块可将准确率提高2.9个百分点。实验结果表明，本申请提出的改进方案可有效提升位姿检测模型的性能。

GR-ConvNet模型的结构如图20所示，示出了GR-ConvNet模型最优抓取姿态生成的整个流程。如图21所示，示出了GR-ConvNet模型输出的抓取质量、角度和宽度，以及推断出来的抓取矩形。

可选地，如图4至图7所示，基于图像识别的煤矸石分类抓取方法还包括以下步骤：对煤矸石抓取坐标系进行标定，包括相机标定步骤和手眼标定步骤，相机标定步骤包括：建立像素坐标系、图像坐标系、相机坐标系、世界坐标系之间的映射关系；采用张正友标定法进行标定，在标定过程中，利用角点位置数据计算相机的内部参数矩阵和失真系数k1,k2,p1,p2,k3；通过计算相机的内部参数和失真系数来校正图像，提高图像的质量和精度；手眼标定步骤包括：建立机器人末端执行器与视觉传感器之间的相对位置和姿态关系。通过对煤矸石抓取坐标系进行标定，可以让机器人根据视觉信息来精确地执行各种任务。

采用张正友标定法中的传统标定方法，不需要了解物体的运动过程，只需要在不同位置使用相同的固定相机拍摄黑白棋盘格图像，如图6所示，即可完成相机标定，该方法成本低廉、易于实施，而且标定精度高。具体来说，将单目相机放在固定位置，并逐一调整标定板的姿态，拍摄并保存标定板的多个不同姿态的图像，以覆盖相机视野范围内的不同角度和距离。拍摄9张图片示意图，如图6所示。图4示出了相机成像模型，描述了从物体三维坐标到图像二维坐标的映射过程。图5示出了从物理成像平面到像素坐标系、图像坐标系、相机坐标系、世界坐标系的变换过程。具体来说，相机的成像过程是从已知的世界坐标系中某一煤矸石P点的坐标(X_w,Y_w)，经由刚体变换得到P点在摄像机坐标系下相应的坐标(X_c,Y_c)，进一步利用透视投影获得P点在图像坐标系下对应的坐标(X,Y)，最终通过离散化获得像素坐标(u,v)。如图7所示，为了进行手眼标定，使用机械臂来抓取圆点标定板，并控制机械臂在相机的视野范围内运动，以确保整个标定板都在相机视野内。然后，相机逐一拍摄标定板的图像。在手眼标定系统中，确立了四个不同的坐标系：摄像机坐标系(CAM)、校准板坐标系(CAL)、机器人基座坐标系(BASE)以及机器人末端坐标系TOOL)。计算这些坐标变换关系以确定摄像机坐标系相对于机器人基座坐标系的转换关系，从而将二维空间中的目标姿态转换为机器人臂可使用的三维空间姿态，有助于机器人完成抓取任务。

可选地，对煤矸石抓取检测模型进行评估，采用矩形度量指标作为评估候选抓取精度的标准，当参数抓取的精度评估结果出现以下两种情况时，可以得出该抓取配置是正确的：(1)预测抓取框g_p与真实抓取框g_t的角度差在30度以内；(2)预测抓取框g_p与真实抓取框g_t的J(g_p,g_t)大于0.25；

其中，g_p是预测抓取框，g_t是真实抓取框。本申请采用矩形度量指标作为评估候选抓取精度的标准，通过考虑完整的抓取矩形以衡量抓取检测的成功概率。如果预测的抓取框与真实抓取框的参数在一定区间内，那么抓取检测就是成功的。

对于网络输出的抓取检测进行评估时，以前的评估指标采用点度量，通过计算预测抓取框中心点到真实抓取框中心点的距离来判断抓取是否成功。如果这些距离小于某个阈值，则认为抓取成功。但是这个指标没有考虑抓取角度或大小的影响，评估效果不好。

可选地，搭建煤矸石抓取规划系统包括以下步骤：搭建基于ROS框架和Ubuntu环境的煤矸石抓取规划系统；如图23所示，采用Gazebo仿真环境搭建机器人抓取仿真实验平台，结合MoveIt软件的运动规划模块，实现矸石抓取的最优姿态计算和抓取操作；通过ros_control功能控制仿真机器人执行抓取动作。这样，通过仿真实验可以验证算法是否可执行，若效果不好，可继续对算法进行改进和训练，从而有利于提升抓取准确率和抓取效率。

可选地，基于图像识别的煤矸石分类抓取方法还包括以下步骤：获取待检测图像；利用预先构建好的煤矸石目标检测模型对待检测图像中的煤炭和煤矸石两种目标的识别和分类；煤矸石目标检测模型反馈识别到的煤矸石类别信息并传输至煤矸石抓取检测环境中；利用预先构建好的煤矸石抓取检测模型生成识别到的煤矸石的最优抓取姿态；通过坐标系转换方法将最优抓取姿态转换为机器人坐标系中的抓取姿态向量；通过上位机向控制器发送指令，控制机器人移动到姿态位置，执行抓取任务。

可选地，通过机器人的正逆解运动方程计算出机器人的姿态位置。

可选地，利用预先构建好的煤矸石抓取检测模型生成识别到的煤矸石的最优抓取姿态包括以下步骤：向煤矸石抓取检测模型中输入待检测图像I；I＝R^n×h×w，h为高度，w为宽度，n为通道数；煤矸石抓取检测模型从待检测图像I中提取特征并生成抓取成功率图像、角度图像和宽度图像；抓取成功率图像、角度图像和宽度图像为与输入图像相同大小的抓取物像素级表示图像；煤矸石抓取检测模型从抓取成功率图像、角度图像和宽度图像中推断最优抓取姿态，输出图像坐标系中机器人手爪的姿态向量G_i；G_i＝(x,y,Θ_i,W_i,Q)；其中，x和y是抓取物在图像坐标系中的中心位置坐标，以像素为单位；Θ_i表示为机器人手爪的方向或者姿态，用欧拉角或四元数进行描述，旋转角度以相机参考坐标系中的弧度为单位，Θ_i的取值范围为[-π/2,π/2]；W_i表示为机器人手爪的张开宽度，用于生成机器人手指之间的距离，以像素为单位；Q是用于评估抓取质量的分数；Q的取值范围为0到1，Q越接近1时，表示抓取成功的可能性更高；要求W_i≤W_max，W_max为机器人使用的反点式抓取器的最大宽度；通过坐标系转换方法将最优抓取姿态转换为机器人坐标系中的抓取姿态向量包括以下步骤：机器人坐标系中的抓取姿态向量表示为G_r，G_r＝(P,Θ_r,W_r,Q)，其中，P＝(x,y,z)是工具的中心位置，Θ_r是工具绕Z轴的旋转，W_r是工具所需的宽度，Q是抓取质量得分；通过以下公式来实现坐标系转换：G_r＝T_rc(T_ci(G_i))；其中，T_ci表示为从机器人末端执行器坐标系到相机坐标系的变换矩阵，描述了相机在机器人坐标系中的位置和方向；T_rc表示为从相机坐标系到世界坐标系的变换矩阵，描述了相机看到的物体在世界坐标系中的位置和方向；G_r为机器人坐标系中的抓取姿态向量；G_i为图像坐标系中机器人手爪的姿态向量。

根据本申请的另一方面，本申请提供了一种基于图像识别的煤矸石分类抓取系统，包括：目标检测模块，目标检测模块包括预先构建好的煤矸石目标检测模型，煤矸石目标检测模型用于对煤炭和煤矸石两种目标的识别和分类；位姿检测模块，与目标检测模块连接，目标检测模块将识别到的煤矸石类别信息反馈至位姿检测模块中；位姿检测模块包括预先构建好的煤矸石抓取检测模型，煤矸石抓取检测模型用于生成识别到的煤矸石的最优抓取姿态；抓取执行模块，与位姿检测模块连接，位姿检测模块将最优抓取姿态反馈至抓取执行模块，抓取执行模块通过坐标系转换方法将最优抓取姿态转换为机器人坐标系中的抓取姿态向量；抓取执行模块包括机器人，机器人用于移动至姿态位置，执行抓取任务。本申请提供的基于图像识别的煤矸石分类抓取系统能够实现煤矸石的自动识别和抓取分拣，具有降低人工成本，减少误判损失，减少环境污染，减少治理成本，煤矸石的识别效率高，识别准确率高，煤矸石的抓取效率高，抓取准确率高，提高煤炭生产自动化水平等有益技术效果。

可选地，基于图像识别的煤矸石分类抓取系统还包括深度相机，用于实时获取待检测图像。在本申请提供的具体实施例中，深度相机采用D435深度相机，机器人采用UR5机械臂和Robotiq2F-85自适应夹爪。D435相机可以提供高分辨率的图像和深度信息，且D435相机的视觉处理器可以提供高效的数据处理和传输，从而能够实现快速和准确的物体检测、跟踪和识别，D435深度相机还可以通过USB接口与电脑或其它设备连接，方便进行配置和集成。UR5机械臂具有灵活、易用、低成本等优点，能够实现高精度、高效率的生产操作。UR5机械臂还与ROS开源系统相结合，以便对机械臂进行控制。Robotiq2F-85自适应夹爪具备高效、精准、可靠的特性。

如图24所示，在本申请提供的基于图像识别的煤矸石分类抓取系统的具体实施例中，基于图像识别的煤矸石分类抓取系统包括计算机、控制器、机械臂、夹爪、深度相机和煤矸石收集箱，构建好的煤矸石目标检测模型和煤矸石抓取检测模型存储在计算机中。

本申请提供的基于图像识别的煤矸石抓取系统还设计了实际抓取实验平台，在桌面上模拟矸石的识别和抓取环境。利用图像识别技术对煤矸石进行准确识别，获取煤矸石的形状、大小、位置等信息，以便为抓取操作提供准确的数据依据。最后，通过抓取检测网络获取煤矸石的最佳抓取姿态，以实现有效、稳定的抓取。通过图像识别算法，目标检测不仅可以给出煤炭和矸石的分类结果，还能提供图片中包含物体的语义信息和定位信息。这些信息有助于机器人区分目标物体和背景，从而实现更智能化的操作。矩形框作为定位手段，特别适用于某些场景，能够帮助机器人快速找到目标抓取物体。利用目标检测找到更小的检测范围，有助于减少与目标物体无关信息的干扰，为后续抓取位姿检测做好准备。随着人工智能技术的不断发展，结合计算机视觉技术，将其应用在煤矸石抓取检测上，在节约人力资源的同时，检测效率和准确率也大幅提高。本申请将人工智能与工业相融合，令原煤分选技术更加自动化和智能化。本发明提供了一种基于图像识别的煤矸石抓取检测方法及系统，可以有效地提升识别煤炭和煤矸石并分类的速度和准确率，并且在位姿估计网络中融入注意力机制和多尺度残差块，提升抓取矸石目标位姿姿态的准确性。本申请还进行了仿真环境实验和真实环境实验。实验过程中，机械臂首先移动到初始化位姿，夹爪处于张开状态；机械臂控制端接收到目标物体的抓取位姿信息后，驱动机器人运动到目标物体正上方，并调整末关节的角度为对应的抓取位姿的偏航角度；机械臂向下运动，直至到达抓取位姿；夹爪闭合，实施抓取动作；机械臂夹取目标物体并向上提升；机械臂将目标物体运送到预设的放置点正上方；机械臂向下运动到物体放置点；夹爪张开释放物体，完成一次物体抓取动作。

如图1所示，本申请提供的基于图像识别的煤矸石抓取系统包含3部分任务的研究技术路线。首先，在目标检测部分构建的阶段，完成图像的预处理和网络模型所需数据集的构建工作，在目标检测模型改进的阶段，对基础的YOLOv5进行优化，以提高图像识别矸石的检测性能；其次，在位姿检测阶段搭建是基于ROS环境下，进行的矸石坐标系标定工作，并对基础的抓取检测网络进行优化，以提高模型的位姿检测的准确率；最后，在抓取执行阶段，通过坐标系转换，将生成的最优位姿转换为机械臂所需的目标姿态。运用逆运动学求解，在仿真环境下，通过ros_control实现对抓取的执行。如图2所示，该系统由视觉系统和机器人控制机械臂系统两部分组成。基于视觉反馈的伺服控制是一种控制方法，通过视觉传感器获取场景中物体的位置和姿态信息，以实现机械臂的控制抓取。基于视觉反馈的伺服控制一般包括以下步骤：首先，使用相机或其他传感器通过图像识别获取目标物体的位置和姿态信息，图像识别精确率指标满足90％以上继续向下执行；其次，应用机器人运动学和控制理论，将目标物体的位置和姿态信息转化为机器人的运动控制指令；接下来，机器人的运动控制指令将被传递到机器人控制器以执行机器人的运动控制；最后，在抓取任务完成后，通过传感器等方式检测机器人的抓取结果，若抓取失败，不满足抓取指标，则重新执行抓取任务。如图3所示，抓取执行的过程包括以下步骤：首先，使用抓取位姿检测网络算法来生成最优的矸石抓取姿态；其次，通过坐标系转换方法将检测到的位姿转换为基于机器人坐标系下的姿态；最后，通过上位机向控制器发送指令，让机器人移动到特定的姿态位置，执行抓取任务。如图4所示，相机成像模型描述了从物体三维坐标到图像二维坐标的映射过程。煤矸石从世界坐标系到像素坐标系之间转换流程图如图5所示。相机标定实验中不同朝向的标定板图像如图6所示，目标是调整其标定板姿态，使用张正友标定法来进行标定过程，通过计算相机的内部参数和失真系数来校正图像，提高图像的质量和精度。采集的手眼示意图如图7所示，进行Eye-to-Hand手眼标定，可以获得摄像机与机器人臂之间的坐标系变换关系，从而将二维空间中的目标姿态转换为机器人臂可使用的三维空间姿态，有助于机器人完成抓取任务。如图16所示，注意力模块(Convolutional Block Attention Module，CBAM)模块由通道注意力模块(CAM)和空间注意力模块(SAM)两个子模块组成。这些子模块可用于在卷积神经网络中引入注意力机制，以提高其表征能力。其中，CAM用于加权处理不同通道的特征图，以更好地捕捉不同特征之间的关系；SAM用于加权处理特征图的空间位置，以更好地捕捉不同空间位置之间的关系。CAM和SAM的结合可以实现对特征图的全局加权处理，提升特征表达的效果。矸石仿真抓取系统的框架如图23所示，为了验证抓取检测系统在不同情景下的表现，并设计了随机矸石情景生成方法，以模拟真实世界中矸石分布的多样性。通过在这些随机生成的矸石情景下测试该系统，验证该系统在各种情况下具有良好的抓取能力和稳定性。

在本申请的一个可选实施例中，提出了一种基于图像识别的煤矸石抓取检测方法，包括以下步骤：S1：煤矸石抓取系统搭建与坐标标定；具体地，在S1中，煤矸石抓取系统搭建具体包括：在矸石抓取系统流程中分为目标检测、位姿检测以及抓取执行三部分。目标检测任务是利用深度相机和目标检测算法检测矸石的位置，并获取其深度和颜色信息。通过目标检测算法，实现对矸石目标的识别和分类。抓取检测任务则是借助相机捕获的信息，通过抓取位姿检测网络来确定最优的矸石抓取姿态。抓取执行的过程包括以下步骤：首先，使用抓取位姿检测网络算法来生成最优的矸石抓取姿态；其次，通过坐标系转换方法将检测到的位姿转换为基于机器人坐标系下的姿态；最后，通过上位机向控制器发送指令，让机器人移动到特定的姿态位置，执行抓取任务。具体地，在S1中，本系统的坐标标定分为相机标定和手眼标定两部分：第一部分是相机标定，具体是为了确定物理成像平面和世界坐标系之间的映射关系，包括像素坐标系、图像坐标系和相机坐标系在内的变换过程，开始标定过程，利用角点位置数据计算相机的内部参数矩阵和失真系数k1,k2,p1,p2,k3。一般使用张正友标定法来进行标定过程，通过计算相机的内部参数和失真系数来校正图像，提高图像的质量和精度；第二部分是手眼标定，具体是为了建立机器人末端执行器(手)与视觉传感器(眼)之间的相对位置和姿态关系。通过这种标定，可以实现机器人根据视觉信息来精确地执行各种任务。S2：制作图像识别数据集，完成两种目标识别网络的训练，选取性能较优的YOLOv5s网络，并进行了检测尺度的改进和损失函数的改进。具体地，在S2中，图像识别数据集的应用场景是煤炭和矸石识别，可以在煤矿等场所中应用。该数据集可以帮助提高煤矿生产的效率和安全性，减少煤炭和矸石混杂的情况，同时也有助于推动机器学习技术在工业领域的应用和发展。该数据集包含了两种类别：coal(煤炭)和gangue(矸石)。在本次收集矸石图像中，通过与矿区的合作获取了3000张图片，包括在封闭环境中拍摄的煤1200张，矸石1200张，以及在实际生产过程中拍摄的煤矸混合物600张。在输出特征图中，不同尺度的特征图对应着不同大小的感受野，即对输入图像的不同区域具有不同的感知能力。通过对网络结构的分析，发现19×19的特征图感受野最大，更适用于检测大型物体。但在实际需求中，实验数据集中的矸石物体大多为中小型目标，因此以76×76和38×38的特征图作为输出更符合实际需求。本申请通过简化网络结构并删除19×19特征图分支的方式，进一步提高了模型检测速度，减少了计算资源的消耗，从而达到了模型优化的目的。CIoU损失函数的主要优点在于能够全面地考虑矩形框之间的距离、矩形框重叠程度以及矩形框的长宽比，因此更能够准确地衡量目标检测框的回归效果。所以，本申请选择CIoU损失函数作为模型训练的主要损失函数，以提高目标检测的性能和稳定性。S3：构建抓取检测模型，用SolidWorks软件制作煤炭和矸石仿真数据集进行标注及预处理，并在数据集上对位姿检测网络模型进行训练以及优化。具体地，在S3中，首先，在SolidWorks软件中应根据煤炭和矸石的实际尺寸进行建模，并在每个材料属性中选择石墨属性。其次，使用SolidWorks软件中的sw2urdf插件来生成矸石的urdf模型。最后，将其加入到ROS的工作空间中的Gazebo模型中，并调用D435深度相机以采集180张图像数据，保存图像尺寸大小为640×480像素，采集数据后，对数据集进行打标签标注。GR-ConvNet姿态估计网络是一种基于抓取点的模型，能够通过深度信息直接预测待抓取物体的密集抓取姿态，并为每个抓取点提供抓取质量估计。将机器人抓取的问题定义为从场景的n个通道图像中预测未知物体的反关节抓取，并在机器人上执行。该模型在机器人框架中抓取姿势表示为：G_r＝(P,Θ_r,W_r,Q0，其中，P＝(x,y,z)是工具的中心位置，Θ_r是工具绕Z轴的旋转，W_r是工具所需的宽度，Q是抓取质量得分。抓取物体检测的基本形式化定义为：其输入I＝R^n×h×w，表示为高度为h、宽度为w和通道数为n的图像，目的是从这个图像中检测到机器人手爪的姿势向量G_i，其G_i表示为：G_i＝(x,y,Θ_i,W_i,Q)；其中，G_i表示为机器人手爪的姿势向量，包含了抓取物的位置、方向、大小和质量评分等信息。x和y是抓取物在图像坐标系中的中心位置坐标，以像素为单位；Θ_i表示为机器人手爪的方向或者姿态，通常用欧拉角或四元数进行描述，旋转角度通常以相机参考坐标系中的弧度为单位；W_i表示为机器人手爪的张开宽度，用于确定机器人手指之间的距离，以像素为单位；Q是用于评估抓取质量的分数。基于这个定义，抓取物检测算法需要从输入图像I中识别出一个抓取物，并输出相应的G_i向量，以指导机器人进行抓取动作。在抓取姿态估计网络算法中，抓取质量得分Q、抓取物的旋转角度Θ_i和宽度W_i都是抓取物的关键参数，用于描述和评估抓取物在图像中的质量和适合度。其中抓取质量得分Q表示在图像中每一点的抓取质量，取值范围为0到1，当值接近1时，表示抓取成功的可能性更高。这个值可以通过评估抓取物与周围物体的相对位置、方向和几何特征等信息来计算。抓取物体的旋转角度Θ_i表示在每个点上抓取所需的逆向角度旋转量的测量。该旋转角度是用于确定抓取方向和抓取姿态的重要参数，其取值范围为[-π/2,π/2]。在抓取物检测算法中，通常需要估计出每个抓取点的最优旋转角度，以保证机器人在抓取时具有足够的稳定性和适应性。抓取物的宽度W_i表示抓取器在抓取时需要打开的距离，以像素为单位。通常需要根据抓取点的深度信息来估计出最优的宽度，以保证机器人能够充分覆盖抓取物并抓取成功。抓取目标姿态检测算法中的参数估计和计算是其核心部分，需要结合图像处理、机器学习、计算机视觉等多个领域的知识和技术来实现。W_max是反点式抓取器的最大宽度，也就是指机器人使用的抓取器能够打开的最大距离。在估计抓取物的宽度时，需要确保估计值不超过这个最大宽度限制，以避免机器人无法完成抓取动作。在机器人上执行抓取操作时，需要将在图像空间中检测到的抓取物位置、朝向和宽度等信息转换到机器人的参考坐标系中。这个转换可以通过以下公式来实现：G_r＝T_rc(T_ci(G_i))其中，G_i表示为机器人手爪的姿态向量，包括手爪的位置、方向、张开宽度和抓取质量等信息；G_r是在机器人参考坐标系中的抓取姿态向量；T_ci表示为从机器人末端执行器坐标系到相机坐标系的变换矩阵，描述了相机在机器人坐标系中的位置和方向；T_rc表示为从相机坐标系到物体坐标系的变换矩阵，描述了相机看到的物体在世界坐标系中的位置和方向。在矸石抓取系统中，为了生成抓取物的像素级表示，模型采用了两个要素来提取角度信息，并输出不同的值，从而组合出所需的角度。这种表示方式有助于机器人确定抓取点的方向和稳定性，进而提高抓取成功率和效率。其中，该模型可以输出与输入图像大小相同的抓取物像素级表示，用于机器人的抓取操作。通过抓取位姿检测网络生成的抓取成功率、角度和宽度图像，用于推断对物体的抓取姿态。S4：搭建基于ROS框架和Ubuntu环境的抓取规划系统，该系统可以实现机械臂的抓取任务。通过机械臂的正逆解运动方程可以计算出机械臂的姿态和位置信息，从而实现机械臂的运动过程。具体地，在S4中，搭建基于ROS框架和Ubuntu环境的抓取规划系统，该系统可以实现机械臂的抓取任务。采用Gazebo仿真环境搭建了机械臂抓取实验平台，并结合MoveIt软件的运动规划模块，实现了矸石抓取的最优姿态计算和抓取操作。最终，通过ros_control功能控制仿真机械臂执行抓取动作。其中，将位姿结果映射到机器人基坐标下中，验证在机器人抓取规划任务中这种映射方法的实用性和可行性。在实验过程中，将矸石和煤炭放置在桌面上进行抓取实验，结果表明本申请采用的机器人抓取检测算法抓取成功率，足以满足抓取任务的要求。

本申请的有益效果至少包括：针对机器人抓取中矸石图像识别和抓取位姿检测存在识别率低以及分拣准确率不高等问题。通过对机器人视觉和抓取位姿检测等方面的研究，设计了基于图像识别的矸石抓取系统框架，并搭建了矸石抓取实验平台。设计了目标检测网络模型，并为了提高检测速度和准确性，提出了优化网络检测尺度和损失函数的两种改进策略。结果表明，本申请改进的目标检测算法准确率提升了2.1％，检测速率提升了5.7FPS。确立了抓取检测姿态估计网络模型，并对基础的抓取位姿检测网络中融入了注意力机制和多尺度残差块，以提高位姿检测的准确性。结果表明，本申请改进的抓取位姿检测模型可以达到95.1％的准确率。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种基于图像识别的煤矸石分类抓取方法，其特征在于，包括以下步骤：

构建煤矸石目标检测模型，用于对煤炭和煤矸石两种目标的识别和分类；

构建煤矸石抓取检测模型，用于生成所述煤矸石目标检测模型识别到的煤矸石的最优抓取姿态；

搭建煤矸石抓取规划系统，用于根据所述最优抓取姿态控制机器人运动至机器人坐标系下的姿态位置执行抓取识别到的煤矸石的任务。

2.根据权利要求1所述的基于图像识别的煤矸石分类抓取方法，其特征在于，所述构建煤矸石目标检测模型包括以下步骤：

制作图像识别数据集，所述图像识别数据集包括煤炭图像、煤矸石图像以及与其对应的标签文件；

利用图像识别数据集对目标识别网络进行训练，并对目标识别网络的检测尺度和损失函数进行改进，得到构建好的煤矸石目标检测模型。

3.根据权利要求2所述的基于图像识别的煤矸石分类抓取方法，其特征在于，

所述制作图像识别数据集具体包括以下步骤：在封闭环境中拍摄多张煤炭图像；在封闭环境中拍摄多张煤矸石图像；在原煤实际生成过程中拍摄多张煤炭与煤矸石混合物的图像；对多张煤炭图像、多张煤矸石图像、多张煤炭与煤矸石混合物的图像进行预处理；对多张煤炭图像、多张煤矸石图像、多张煤炭与煤矸石混合物的图像分别进行标注，得到多个一一对应的标签文件；预处理后的多张煤炭图像、多张煤矸石图像、多张煤炭与煤矸石混合物的图像、以及多个一一对应的标签文件形成所述图像识别数据集；

在构建煤矸石目标检测模型步骤中，选择YOLOv5s网络作为所述目标识别网络；

所述对目标识别网络的检测尺度进行改进具体包括以下步骤：简化YOLOv5s网络结构的输出端，删除所述输出端中19×19的特征图分支，保留76×76的特征图和38×38的特征图作为输出；

所述对目标识别网络的损失函数进行改进具体包括以下步骤：选择CIoU损失函数作为模型训练的损失函数。

4.根据权利要求1所述的基于图像识别的煤矸石分类抓取方法，其特征在于，所述构建煤矸石抓取检测模型包括以下步骤：

制作仿真数据集，所述仿真数据集包括煤矸石仿真图像数据及与其对应的标签文件；

利用所述煤矸石仿真数据集对位姿估计网络进行训练，并在位姿估计网络中融入注意力机制和多尺度残差块，得到构建好的煤矸石抓取检测模型。

5.根据权利要求4所述的基于图像识别的煤矸石分类抓取方法，其特征在于，

制作煤矸石仿真数据集具体包括以下步骤：采用SolidWorks软件根据煤炭和煤矸石的实际尺寸进行建模，并在每个材料属性中选择石墨属性；使用SolidWorks软件中的sw2urdf插件来生成煤矸石的urdf模型；将煤矸石的urdf模型加入到ROS的工作空间中的Gazebo模型中；调用深度相机采集多张煤矸石仿真图像数据，保存图像尺寸大小为预设大小；对多张煤矸石仿真图像数据进行预处理；对多张煤矸石仿真图像数据进行标注，得到多个一一对应的标签文件；处理后的多张煤矸石仿真图像数据和多个一一对应的标签文件形成所述煤矸石仿真数据集；

在构建煤矸石抓取检测模型步骤中，选择GR-ConvNet网络作为所述姿态估计网络；

所述在位姿估计网络中融入注意力机制具体包括以下步骤：在GR-ConvNet的网络结构中嵌入注意力模块，所述注意力模块包括通道注意力子模块和空间注意力子模块；

所述在位姿估计网络中融入多尺度残差块具体包括以下步骤：在GR-ConvNet的网络结构中嵌入多尺度残差块。

6.根据权利要求1所述的基于图像识别的煤矸石分类抓取方法，其特征在于，所述基于图像识别的煤矸石分类抓取方法还包括以下步骤：

对煤矸石抓取坐标系进行标定，包括相机标定步骤和手眼标定步骤，所述相机标定步骤包括：建立像素坐标系、图像坐标系、相机坐标系、世界坐标系之间的映射关系；采用张正友标定法进行标定，在标定过程中，利用角点位置数据计算相机的内部参数矩阵和失真系数k1,k2,p1,p2,k3；通过计算相机的内部参数和失真系数来校正图像；所述手眼标定步骤包括：建立机器人末端执行器与视觉传感器之间的相对位置和姿态关系；

对煤矸石抓取检测模型进行评估，采用矩形度量指标作为评估候选抓取精度的标准，当参数抓取的精度评估结果出现以下两种情况时，可以得出该抓取配置是正确的：

(1)预测抓取框g_p与真实抓取框g_t的角度差在30度以内；

(2)预测抓取框g_p与真实抓取框g_t的J(g_p,g_t)大于0.25；

其中，g_p是预测抓取框，g_t是真实抓取框。

7.根据权利要求1所述的基于图像识别的煤矸石分类抓取方法，其特征在于，所述搭建煤矸石抓取规划系统包括以下步骤：

搭建基于ROS框架和Ubuntu环境的煤矸石抓取规划系统；

采用Gazebo仿真环境搭建机器人抓取仿真实验平台，结合MoveIt软件的运动规划模块，实现矸石抓取的最优姿态计算和抓取操作；通过ros_control功能控制仿真机器人执行抓取动作。

8.根据权利要求1所述的基于图像识别的煤矸石分类抓取方法，其特征在于，基于图像识别的煤矸石分类抓取方法还包括以下步骤：

获取待检测图像；

利用预先构建好的煤矸石目标检测模型对所述待检测图像中的煤炭和煤矸石两种目标的识别和分类；

煤矸石目标检测模型反馈识别到的煤矸石类别信息并传输至煤矸石抓取检测环境中；

利用预先构建好的煤矸石抓取检测模型生成识别到的煤矸石的最优抓取姿态；

通过坐标系转换方法将最优抓取姿态转换为机器人坐标系中的抓取姿态向量；

通过上位机向控制器发送指令，控制机器人移动到所述姿态位置，执行抓取任务。

9.根据权利要求8所述的基于图像识别的煤矸石分类抓取方法，其特征在于，

所述利用预先构建好的煤矸石抓取检测模型生成识别到的煤矸石的最优抓取姿态包括以下步骤：向煤矸石抓取检测模型中输入待检测图像I；I＝R^n×h×w，h为高度，w为宽度，n为通道数；煤矸石抓取检测模型从待检测图像I中提取特征并生成抓取成功率图像、角度图像和宽度图像；所述抓取成功率图像、角度图像和宽度图像为与输入图像相同大小的抓取物像素级表示图像；煤矸石抓取检测模型从抓取成功率图像、角度图像和宽度图像中推断最优抓取姿态，输出图像坐标系中机器人手爪的姿态向量G_i；G_i＝(x,y,Θ_i,W_i,Q)；其中，x和y是抓取物在图像坐标系中的中心位置坐标，以像素为单位；Θ_i表示为机器人手爪的方向或者姿态，用欧拉角或四元数进行描述，旋转角度以相机参考坐标系中的弧度为单位，Θ_i的取值范围为[-π/2,π/2]；W_i表示为机器人手爪的张开宽度，用于生成机器人手指之间的距离，以像素为单位；Q是用于评估抓取质量的分数；Q的取值范围为0到1，Q越接近1时，表示抓取成功的可能性更高；要求W_i≤W_max，W_max为机器人使用的反点式抓取器的最大宽度；

所述通过坐标系转换方法将最优抓取姿态转换为机器人坐标系中的抓取姿态向量包括以下步骤：机器人坐标系中的抓取姿态向量表示为G_r，G_r＝(P,Θ_r,W_r,Q)，其中，P＝(x,y,z)是工具的中心位置，Θ_r是工具绕Z轴的旋转，W_r是工具所需的宽度，Q是抓取质量得分；通过以下公式来实现坐标系转换：G_r＝T_rc(T_ci(G_i))；其中，T_ci表示为从机器人末端执行器坐标系到相机坐标系的变换矩阵，描述了相机在机器人坐标系中的位置和方向；T_rc表示为从相机坐标系到世界坐标系的变换矩阵，描述了相机看到的物体在世界坐标系中的位置和方向；G_r为机器人坐标系中的抓取姿态向量；G_i为图像坐标系中机器人手爪的姿态向量。

10.一种基于图像识别的煤矸石分类抓取系统，其特征在于，包括：

目标检测模块，所述目标检测模块包括预先构建好的煤矸石目标检测模型，所述煤矸石目标检测模型用于对煤炭和煤矸石两种目标的识别和分类；

位姿检测模块，与所述目标检测模块连接，所述目标检测模块将识别到的煤矸石类别信息反馈至所述位姿检测模块中；所述位姿检测模块包括预先构建好的煤矸石抓取检测模型，所述煤矸石抓取检测模型用于生成识别到的煤矸石的最优抓取姿态；

抓取执行模块，与所述位姿检测模块连接，所述位姿检测模块将所述最优抓取姿态反馈至所述抓取执行模块，所述抓取执行模块通过坐标系转换方法将所述最优抓取姿态转换为机器人坐标系中的抓取姿态向量；所述抓取执行模块包括机器人，所述机器人用于移动至所述姿态位置，执行抓取任务。