CN115376125A

CN115376125A - 一种基于多模态数据融合的目标检测方法以及基于目标检测模型的在体果实采摘方法

Info

Publication number: CN115376125A
Application number: CN202211173171.5A
Authority: CN
Inventors: 饶元; 束雅丽; 罗庆; 金�秀; 江朝晖; 张武; 张筱丹
Original assignee: Anhui Agricultural University AHAU
Current assignee: Anhui Agricultural University AHAU
Priority date: 2022-09-26
Filing date: 2022-09-26
Publication date: 2022-11-22

Abstract

本发明公开了一种基于多模态数据融合的目标检测方法以及基于目标检测模型的在体果实采摘方法，属于智能检测技术领域。一方面目标检测模型的训练方法中，利用深度相机获取自然环境下在体果实的多模态视觉数据，引入坐标注意力机制增强特征提取网络对目标物的感知能力，结合深度可分离卷积模块减少模型参数量和推理时间；另一方面将目标检测模型应用到机械臂对果实的识别中，提出基于果实位置信息和遮挡状态分类的视觉伺服检测机制，该机制利用机械臂在果实采摘过程中具有运动特性的优势，通过机械臂运动带动相机视角变化，不断更新相机视野内所检测到的果实目标，实现对果实的动态检测，克服因光照和果实遮挡造成的漏检，提高果实的检出率。

Description

一种基于多模态数据融合的目标检测方法以及基于目标检测模型的在体果实采摘方法

技术领域

本发明属于智能检测技术领域，具体地说，涉及一种基于多模态数据融合的目标检测方法以及基于目标检测模型的在体果实采摘方法。

背景技术

随着农业生产的现代化程度逐渐提高，越来越多的传统人力劳动都可以被机器所代替。选择性果实采摘作业是农业生产链中最耗时、劳动量最大、季节性最强的一个环节，因此提高采摘环节的自动化程度将会大大提高农业生产的效率。自动采摘必然会涉及对作物上的果实等可采摘部位的检测和定位。但在果园非结构化环境中，由于果树枝叶的遮挡和覆盖，使得果实可见率普遍较低，限制了农业机器人的作业。因此，实现在多变光照和非结构环境下准确快速的检测被遮挡果实具有重要的应用价值。

近些年来，随着人工智能与农业信息化相结合，基于计算机视觉技术的应用场景已拓展到农业生产中。得益于机器视觉技术部署难度低、平台搭建简单、成本低廉等优点，目前已有许多农场开始将其应用于实践中。例如，Kurtser和Edan在《IEEE InternationalWorkshop on Intelligent Robots and Systems 2018》上提出的使用动态感知策略提高甜椒采摘机器人的检测性能。其研究通过单目视觉算法决定当前视角是否需要一个额外检测视点，额外视点的选择是基于对果实被遮挡程度和该视角下果实目标预期数量所决定的，并根据执行此操作的效率从预设位置中选择最佳视点。但单目视觉算法在复杂光照环境下难以实现准确决策，且无法检测到被枝叶完全覆盖的果实。Lehnert等在《IEEEInternational Workshop on Intelligent Robots and Systems 2019》上提出利用3D相机阵列结合末端执行器从不同角度获取多个视角来寻找下一最优视点。其利用捕获的多个视角和果实分割结果来估计最佳视角方向的梯度。但需要对3D相机阵列在不同视角下获取的图像分别处理和计算，无法满足果实自动化采摘的实时性需求。同时，在果园的复杂环境下使用RGB图像作为检测果实的唯一信息，易因果实成熟度、品种不同以及果园光照条件多变导致果实特征发生变化的影响，无法实现准确鲁棒的果实检测。

从上述技术可知，现有的果实检测方法尚存在检测角度受限、感知能力弱和抗干扰性能差等缺陷，而结合多模态视觉数据和多视角检测的视觉伺服技术能够在一定程度上降低环境因素对检测效果的影响，那么如何将多模态视觉数据和多视角检测的视觉伺服技术结合也是本领域技术人员研究的重点问题。

发明内容

针对现有的检测模型对目标感知能力弱，识别能力差的问题，本发明提供了一种基于多模态数据融合的目标检测方法，引入坐标注意力机制增强特征提取网络对目标物的感知能力，结合深度可分离卷积模块减少模型参数量和推理时间，使改进的模型具有更少的计算量和参数量、更小的模型体积及更快的检测速度，在模型检测资源占用和检测速度上取得了良好的平衡，适合在嵌入式平台上部署应用。

此外，针对非结构化果园中，果树的无序生长导致果实被分布密集的枝叶完全覆盖，无法在单视角中被检测出来的问题，本发明又提供了一种基于上述目标检测模型的在体果实采摘方法。该方法提出一种利用果实的位置信息和遮挡状态指导机械臂进行选择性采摘的视觉伺服机制，将机械臂运动过程中相机更新的视图构成一个视图集合，寻找视图集合中果实可采摘率最大的视图，并将记录此视图时的机械臂位置作为下一次采摘的任务起点。循环此过程，直至相机视野内无可直接采摘目标，从而提高了果实检出率。

为实现本发明目的，采用如下的技术方案：

本发明第一方面提供一种基于多模态数据融合的目标检测方法，包括以下步骤：

S110：构建基于多模态数据融合的目标检测模型，所述目标检测模型包括特征提取网络、颈部结构和预测层，在所述特征提取网络中和颈部结构均引入坐标注意力机制增强对目标物感知能力，其中所述多模态视觉数据包含RGB图像、红外图像和深度图像的多模态视觉数据；

S120：获取在体目标物的多模态视觉数据作为训练集，并输入所述目标检测模型进行训练，得到训练好的目标检测模型；

S130：获取待测多模态视觉数据，所述待测多模态视觉数据包含待采摘的目标物；将所述待测多模态视觉数据输入目标检测模型对多模态视觉数据中目标物进行识别，输出识别结果。

作为一个示例，在所述特征提取网络中和颈部结构均引入坐标注意力机制增强对目标物感知能力包括：在所述特征提取网络中嵌入坐标注意力模块，在所述颈部结构的末端嵌入坐标注意力模块

作为一个示例，所述特征提取网络采用YOLOv5s模型，在所述YOLOv5s模型中采用深度可分离卷积替换CBL模块中的普通卷积形成DPBL模块，在CSP_1_X模块级联操作后嵌入坐标注意力模块，形成CSP_CA_X模块。

所述颈部结构包括DBPL模块和CSP_2_X模块，CSP_2_X模块由普通卷积和X个Resunit级联而成，在所述颈部结构的末端嵌入坐标注意力模块；

将特征提取网络的Focus模块结构的通道数调整为五通道以实现多模态视觉数据的读取。

作为一个示例，所述坐标注意力模块具体用于：

对输入的特征图

使用尺寸为H×1和1×W的池化核沿水平坐标和垂直坐标方向对每个通道进行编码，因此，高度为h的第c个通道和宽度为w的第c个通道的输出表示分别如式(1)、(2)所示，其中x_c(j,i)为特征图x_c在(j,i)位置的值，x_c(j,w)为特征图x_c在(j,w)位置的值。

将上述两个变换分别沿两个空间方向聚合特征，然后级联生成两个特征图z^h和z^w，再使用一个共享的1x1卷积核进行卷积运算F₁。

如公式(3)，生成的

是对空间信息在水平方向和垂直方向进行编码的中间特征图，δ为非线性激活函数。

f＝δ(F₁([z^h,z^w])) (3)

接着，沿着空间维度将f切分为两个单独的张量

和

结合两个卷积核大小为1×1的卷积运算F_h和F_w将特征图f^h和f^w变换到和输入X相同的通道数，生成一对方向感知和位置敏感的注意力图g^h和g^w，计算分别如公式(4)、(5)所示，其中σ为Sigmoid激活函数。

g^h＝σ(F_h(f^h)) (4)

g^w＝σ(F_w(f^w)) (5)

最后，将g^h和g^w作用于特征图X，得到和特征图X具有相同大小的坐标注意力图Y＝[y₁,y₂,...,y_C]，计算公式(6)如下：

y_c(i,j)＝x_c(i,j)×g_c ^h(i)×g_c ^w(j) (6)

作为一个示例，所述步骤S120包括：

配置目标检测模型训练关键参数，所述关键参数包括输入图像的尺寸、类别数、训练迭代次数、初始学习率、学习率调整策略和每批处理的输入图像数量；

采用CIOU_Loss作为边界框损失函数，训练至所述目标检测模型收敛，保存每个训练迭代次数训练结束后得到的权重文件，保存验证效果最好的权重文件，从而得到训练好的目标检测模型。

作为一个示例，获取在体目标物的多模态视觉数据作为训练集步骤包括：

采集目标物图像信息，所述图像信息包含RGB图像、红外图像和深度图像的多模态视觉数据；

根据采摘环境图像中目标物被遮挡的情况进行分类标记，所述分类标记包括未被遮挡、被无影响物遮挡和被有影响物遮挡三类；

将获取的目标多模态视觉数据和分类标记按照预定的比例随机分成训练集、验证集以及测试集。

作为一个示例，所述特征提取网络采用改进型CSPDarknet53网络；所述CSPDarknet53包括10个模块{Focus，CBL，CSP_1_X，CBL，CSP_1_X，CBL，CSP_1_X，CBL，CSP_1_X，SPP}；其中Focus模块采用切片操作对目标物图像信息进行下采样；CBL模块包括普通卷积、批量归一化处理和激活函数三个部分；CSP_1_X模块由CBL模块、X个Res unit、普通卷积、和Concat操作组成，Res unit是借鉴残差结构思想构建的网络结构，由最初的输入和经过两个连续CBL模块后的输出进行相加构成；SPP(Spatial Pyramid Pooling)模块采用四个不同尺寸的池化核对输入特征图进行池化操作，再将不同的池化结果进行Concat拼接，以实现多尺度特征的融合。

本发明第二方面提供一种基于目标检测模型的在体果实采摘方法，包括以下步骤：

S210：根据上述的一种基于多模态数据融合的目标检测方法得到识别结果，所述识别结果包括目标物的多个分类标记和边界框坐标，所述分类标记包括未被遮挡、被无影响物遮挡和被有影响物遮挡三类；

S220：获取所述目标物的边界框坐标相对于所述深度相机的第一空间位置坐标；将目标物相对于所述深度相机的空间位置坐标转换为机械臂基底位置坐标信息；

S230：获取所述原始机械臂位置信息，控制机械臂运动到指定的第一空间位置，用于对目标物进行采摘作业；随机选择一个分类标记为未被遮挡或被无影响物遮挡的，作为可采摘目标果实执行采摘任务；根据多组采摘环境图像中目标物的识别结果和定位结果，结合对应的机械臂位置信息计算出机械臂下一运动起点；

S240：重复上述S210至S230，直到机械臂所带深度相机的视野中不存在可采摘对象，采摘作业完成。

作为一个示例，所述步骤S210还包括：

接收深度相机实时拍摄的采摘环境图像的多模态视觉数据，所述多模态视觉数据包括RGB图像、深度图像和红外图像；

对所述的RGB图像、深度图像和红外图像进行通道融合，将图像调整大小设置为预定大小，得到多模态图像；

将所述多模态图像输入到所述目标检测模型中，输出目标物对应的边界框坐标和分类标记以及对应的置信度；

根据置信度阈值判断，去除置信度较小的预测结果，获取可能包含目标果实的边界框坐标和类别概率；

利用非极大值抑制算法去除同一目标物上的多余边界框，得到最佳的预测结果。

作为一个示例，所述步骤S240还包括：

采摘作业时，控制深度相机获取运动路径上多组目标的多模态图像，并记录获取每组所述目标的多模态图像的机械臂位置信息；

所述机械臂运动路径上多组所述目标的多模态图像集合表示为下式：

V＝{v₁,v₂,v₃,…,v_n}

将多组所述目标的多模态图像依次输入到所述目标检测模型，输出与目标物对应的多个分类标记和边界框坐标；

将未被遮挡、被无影响物遮挡设定为可采摘对象(PO)；将被有影响物遮挡设定为不可采摘对象(NPO)；

计算每组多模态图像中可采摘对象(PO)和不可采摘对象(NPO)的数值，并通过下式计算每组多模态图像中目标果实的可采摘率

计算出目标果实可采摘率最高的一组多模态图像，计算公式为下式：

将该组多模态图像的所对应的机械臂位置信息作为机械臂下一运动起点，在执行下一次采摘任务时，控制机械臂运动至该运动起点。

本发明第三方面提供一种基于目标检测模型的在体果实采摘系统，包括：

图像处理模块，其用于获取深度相机拍摄的多模态视觉数据，所述多模态视觉数据包含待采摘的目标物；使用如上述的一种基于多模态数据融合的目标检测方法训练得到的目标检测模型对多模态视觉数据中目标物进行识别和定位，输出目标物的多个分类标记和边界框坐标，所述分类标记包括未被遮挡、被无影响物遮挡和被有影响物遮挡三类；

空间坐标转换模块，其用于获取所述目标物的边界框坐标相对于所述深度相机的第一空间位置坐标；将目标物相对于所述深度相机的空间位置坐标转换为机械臂基底位置坐标信息；

运动控制模块，其用于获取所述原始机械臂位置信息，控制机械臂运动到指定的第一空间位置，用于对目标物进行采摘作业；随机选择一个分类标记为未被遮挡或被无影响物遮挡的，作为可采摘目标果实执行采摘任务；

运动计算模块，其用于根据多组采摘环境图像中目标物的识别结果和定位结果，结合对应的机械臂位置信息计算出机械臂下一运动起点。

本发明第四方面提供一种电子设备，包括处理器、输入设备、输出设备和存储器，所述处理器、输入设备、输出设备和存储器依次连接，所述存储器用于存储计算机程序，所述计算机程序包括程序指令，所述处理器被配置用于调用所述程序指令，执行上述的方法。

本发明第五方面提供一种可读存储介质，所述存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被处理器执行时使所述处理器执行上述的方法。

相比于现有技术，本发明的有益效果为：

(1)本发明在目标检测模型设计过程中，使用了深度可分离卷积代替普通卷积操作；改进的模型具有更少的计算量和参数量、更小的模型体积及更快的检测速度，在模型检测资源占用和检测速度上取得了良好的平衡，适合在嵌入式平台上部署应用，如果实采摘机器人，满足其实时检测的要求。

(2)本发明在目标检测模型的特征提取层和颈部结构均嵌入了坐标注意力机制，注意力机制能够增强网络对目标特征信息的关注，抑制其他无用的背景特征，以提高模型预测结果的准确度；考虑大多数注意力机制会给轻量级网络带来额外计算开销，而本发明引入的坐标注意力机制简单灵活，可以高效提升网络的检测精度和准确性。

(3)本发明在模型训练过程中重新定义了YOLOv5s的边界框预测标准，使用CIoU更加准确地表示两个边界框的重叠程度；CIoU把anchor的长宽比和目标框的长宽比用比例系数进行衡量，使得本发明具有在训练过程中有着更快更准确的回归，也使得检测算法对图像中的小目标检测更加友好。

(4)本发明将RGB图像、深度图像和红外图像在通道方向上进行融合得到多模态视觉数据；红外图像在光照较弱和夜间情况下可以为目标检测任务提供信息。深度图像不受亮度和颜色变化的影响，在复杂场景下也能提供有用信息，本发明目标检测模型能同时处理多模态信息的算法和网络，能够提高复杂光照环境下的目标识别准确率。

(5)本发明对深度相机和机械臂采用“eye in hand”的标定方式，并控制深度相机在随着机械臂运动过程中采集不同视角的目标果实图像。为防止机械臂末端执行器在强行采摘过程中对机械臂和果树造成伤害，被树枝和其他果实遮挡的果实在本发明中被定义为不可采摘对象；通过视角的不断变化可以使得采摘机器人发现更多可采摘对象，防止重叠的果实和被树枝遮挡的果实无法被识别并采摘；另外通过本发明所述的目标检测模型识别出视图中果实的位置和被遮挡形式，根据识别结果计算出所有视图中果实的可采摘率，寻找果实采摘率最高的视图，并将此视图记录的机械臂位置作为机械臂下一运动起点，方便高效。

附图说明

图1为本发明实施例提供的一种基于多模态数据融合的目标检测方法流程图；

图2为本发明实施例提供的在体果实检测与采摘方法流程图一；

图3为本发明实施例一种基于目标检测模型的在体果实采摘方法流程图二；

图4为本发明实施例提供的电子设备的框图；

图5为本发明实施例的深度可分离卷积模块结构示意图；

图6为本发明实施例的坐标注意力模块结构示意图；

图7为本发明实施例提供的目标检测模型结构示意图；

图8为本发明实施例提供的一种基于目标检测模型的在体果实采摘系统框图。

具体实施方式

下面，将参考附图详细地描述根据本申请的示例实施例。显然，所描述的实施例仅仅是本申请的一部分实施例，而不是本申请的全部实施例，应理解，本申请不受这里描述的示例实施例的限制。

示例性方法

在果园的复杂环境下，考虑目前检测模型对目标感知能力弱，识别能力差等问题。参考图1和图2，本示例提供一种基于多模态数据融合的目标检测方法，包括如下步骤：

S110：构建基于多模态数据融合的目标检测模型，所述目标检测模型包括特征提取网络、颈部结构和预测层，在所述特征提取网络中和颈部结构均引入坐标注意力机制增强对目标物感知能力，其中所述多模态视觉数据包含RGB图像、红外图像和深度图像的多模态视觉数据。

具体的，如图7所示，本示例通过改进YOLOv5s模型构建基于多模态数据融合的目标检测模型；本示例基于改进YOLOv5s的目标检测模型包括特征提取网络、颈部结构和预测层，在所述特征提取网络中嵌入坐标注意力模块；在所述颈部结构的末端嵌入坐标注意力模块，可以提升目标检测模型的特征提取能力，突出所述目标的特征信息，抑制复杂背景因素的干扰，同时减少模型的参数量。

作为一种可能的实施方式，特征提取网络采用改进型CSPDarknet53网络；CSPDarknet53包括10个模块{Focus，CBL，CSP_1_X，CBL，CSP_1_X，CBL，CSP_1_X，CBL，CSP_1_X，SPP}。其中Focus模块采用切片操作对图像进行下采样；CBL(Convolution，BatchNormalization，and Leaky-ReLU)模块包括普通卷积、批量归一化处理和激活函数三个部分；CSP_1_X模块由CBL模块、X个Res unit、普通卷积、和Concat操作组成，其中Res unit是借鉴残差结构思想构建的网络结构，由该结构最初的输入特征图和此特征图以及经过两个连续CBL模块后的输出进行相加构成；SPP(Spatial Pyramid Pooling)模块采用四个不同尺寸的池化核对输入特征图进行池化操作，再将不同的池化结果进行Concat拼接，以实现多尺度特征的融合。

作为优选的，将所述特征提取网络中第一层Focus模块结构的通道数调整为五通道以实现多模态视觉数据的读取。

需要说明的是，本示例改进型CSPDarknet53网络引入DPBL(Depth-wiseConvolution，Point-wise convolution，Batch Normalization，and Leaky-ReLU)模块替换CBL模块，所述DPBL模块采用深度可分离卷积替换CBL模块中的普通卷积，深度可分离卷积相对于普通卷积可有效减少模型的参数量和网络的整体计算量。所述改进型CSP_CA_X模块在CSP_1_X模块Concat操作后嵌入坐标注意力模块CA(Coordinate Attention)。

在一个示例中，YOLOv5s模型的颈部结构包括四个CBL模块和四个CSP_2_X模块，CSP_2_X模块由普通卷积和X个Res unit级联组成。所述目标检测模型将颈部结构中的CBL模块替换为DBPL模块，并在颈部结构末端嵌入坐标注意力模块CA。

具体的，如图5所示，本示例深度可分离卷积模块由深度卷积和点卷积两个部分组成；对输入的特征图X，假设特征图尺寸为H×W×c₁，深度可分离卷积采用c₁个大小为h×w×1深度卷积核对每个通道使用一个卷积核进行卷积，再利用c₂个1×1×c₁的点卷积对输出的特征图在深度方向上进行加权组合，调整特征图的通道数为c₂，最终输出的特征图大小为H×W×c₂。

S120：获取在体目标物的多模态视觉数据作为训练集，并输入所述目标检测模型进行训练，得到训练好的目标检测模型。

具体的，预先设置网络模型训练关键参数，所述关键参数包括输入图像的尺寸(size＝640×640×5)、类别数(num_class＝4)、训练迭代次数(epoch＝200)、初始学习率(learning_rate＝0.001)、学习率调整策略(每10个epochs衰减0.0005)和每批处理的图像数量(batch_size＝8)。

训练过程中，记录模型每一次迭代训练后验证集损失值变化，若在训练迭代次数达到200时损失值趋于零，测试集平均准确率在IoU(交并比)设置为0.5的条件下达到0.8，则继续训练至最大迭代次数，得到目标检测模型；否则，终止训练模型，重新配置网络模型训练关键参数，重新配置的关键参数包括初始学习率(learning_rate)和学习率调整策略。

本示例通过引入坐标注意力机制增强特征提取网络对目标物的感知能力，结合深度可分离卷积模块减少模型参数量和推理时间，使改进的模型具有更少的计算量和参数量、更小的模型体积及更快的检测速度，在模型检测资源占用和检测速度上取得了良好的平衡，适合在嵌入式平台上部署应用。

需要说明的是，本示例举例的场景以果园中果实目标的为例，但是应该理解茶园中茶叶目标识别，菜园中蔬菜识别等需要目标检测的应用场景，都可以运用本示例的方法，上述场景均涵盖在本发明的保护范围内。

如图6所示，在一种可能的实施方式中，所述坐标注意力模块处理流程具体为：

对输入的特征图

使用尺寸为H×1和1×W的池化核沿水平坐标和垂直坐标方向对每个通道进行编码，因此，高度为h的第c个通道和宽度为w的第c个通道的输出表示分别如式(1)、(2)所示：

将上述两个变换分别沿两个空间方向聚合特征，然后级联生成两个特征图z^h和z^w，再使用一个共享的1x1卷积核进行卷积运算F₁；其中x_c(j,i)为特征图x_c在(j,i)位置的值，x_c(j,w)为特征图x_c在(j,w)位置的值。

如公式(3)，生成的

f＝δ(F₁([z^h,z^w])) (3)

接着，沿着空间维度将f切分为两个单独的张量

和

g^h＝σ(F_h(f^h)) (4)

g^w＝σ(F_w(f^w)) (5)

y_c(i,j)＝x_c(i,j)×g_c ^h(i)×g_c ^w(j) (6)

作为一个示例，目标检测模型的预测层采用CIOU_Loss作为边界框损失函数，所述CIOU_Loss函数如式(7)所示，α和v的值如式(8)、(9)所示：

其中，b表示预测框中心点的坐标，b^gt表示真实框中心点的坐标，w和h分别表示预测框的宽和高，w^gt和h^gt表示真实框的宽和高，ρ²(b,b^gt)表示预测框与真实框中心点的欧式距离，c表示能够同时包含预测框和真实框的最小闭包区域的对角线距离。

具体的，这里的待测多模态视觉数据使用获取深度相机拍摄的多模态视觉数据，将所述待测多模态视觉数据输入目标检测模型对多模态视觉数据中目标物进行识别和定位，输出识别结果，这里的识别结构包括目标物的多个分类标记和边界框坐标，所述分类标记包括未被遮挡、被无影响物遮挡和被有影响物遮挡三类。

作为一个示例，获取在体目标的多模态视觉数据步骤包括：

S121：采集目标物图像信息，所述图像信息包含RGB图像、红外图像和深度图像的多模态视觉数据。

具体的，这里的采集目标指的是使用深度相机对成熟期果实采摘环境进行图像采集。在实施过程中，图像采集时间分布在早上、中午、下午、晚上不同时段。采集的图像可以包括正常光照图像、强光照图像、逆光图像和夜晚人工光源图像。这里的图像信息是包含RGB图像、红外图像和深度图像的多模态视觉数据。

作为一种可能的实施方式，本示例使用深度相机以采集毛桃采摘环境图像数据为例，采集时间包括上午8点-11点、中午12点-1点、下午2点-5点、晚上6点-9点。首先使用三脚架固定深度相机，使其相机镜头视角保持水平，垂直于桃树树干，然后调整三脚架高度使相机距离桃树枝干约0.5m-1.5m的距离，三脚架高度调整为1.1m-1.8m，仰角设置为15°-30°，拍摄过程中水平旋转深度相机，旋转角度控制在-30°-30°之间，拍摄得到的多模态视觉数据以mkv视频格式进行保存。随后使用ffmpeg视频处理工具以每秒3帧的速率对共计175段视频提取RGB图、深度图、红外图以及对应时间戳的相机内外参数，得到不少于3000组在正常光照、强光、逆光、暗光和夜晚等不同环境下的视觉数据。

S122：对每组多模态视觉数据进行统一命名。

优选的，为了方便模型准确读取每一组多模态数据，对每组多模态视觉数据重命名，命名格式由数据类别和编号连续的四位数字组成。RGB图以rgb0001.png、rgb0002.png、…、rgb2050.png命名，深度图命名为depth0001.png、depth0002.png、…、depth2050.png，红外图命名为ir0001.png、ir0002.png、…、ir2050.png。

S123：根据采摘环境图像(目标物图像信息)进行分类标记，例如可以使用LabelImg软件对所述采摘环境图像进行标记，根据采摘环境中果实被遮挡的情况，将分类标记包括未被遮挡、被无影响物遮挡和被有影响物遮挡三类。

应当理解，这里的采摘环境图像是指深度相机在拍摄时涵盖的所有物体的图像，而目标物图像信息仅是采摘环境图像的一部分。例如在桃子的采摘过程中，深度相机会记录包括桃树的树干、树叶以及桃子等物体，这里目标物图像信息仅是指桃子作为采摘目标图像信息。

具体的，采摘过程中，将分类标记设定为未被遮挡(NO)；被无影响物遮挡，例如被树叶遮挡(OL)；被有影响物遮挡，例如被其他果实遮挡(OF)以及被树干(OB)遮挡。为避免采摘过程中机械臂末端执行器强行摘取果实对机械臂和果树造成伤害，将未被遮挡(NO)和被树叶遮挡(OL)设为可采摘对象(PO)，被其他果实遮挡(OF)和被树干(OB)遮挡为不可采摘对象(NPO)。

S124：将获取的目标物图像信息和分类标记按照预定的比例随机分成训练集、验证集以及测试集。

具体的，获取的目标物图像和标注信息以7:1:2的比例随机分成训练集、验证集以及测试集，这里的比例可以根据实际情况调整，在此不做为对本发明的限定。

参见图2和图3所示，本示例还提供了一种基于目标检测模型的在体果实采摘方法，包括如下步骤：

S210：根据上述的一种基于多模态数据融合的目标检测方法得到识别结果，所述识别结果包括目标物的多个分类标记和边界框坐标，所述分类标记包括未被遮挡、被无影响物遮挡和被有影响物遮挡三类。

具体的实现步骤如下：

S211：接收深度相机实时拍摄的采摘环境图像的多模态视觉数据，所述多模态视觉数据包括RGB图像、深度图像和红外图像；

S212：对所述的RGB图像、深度图像和红外图像进行通道融合，通过调整图像的纵横比、缩放等操作，将图像大小设置为640×640×5，得到多模态图像。

S213：将所述多模态图像输入到所述目标检测模型中，输出目标物对应的边界框坐标和分类标记以及对应的置信度；

具体的，将所述大小为640×640×5的多模态图像输入到所述目标检测模型中，输出三个大小分别为3×80×80(box+confidence+class_num)、3×40×40(box+confidence+class_num)和3×20×20(box+confidence+class_num)的特征图。其中box为预测目标物的边界框坐标(x，y，w，h)，分别表示预测目标框的中心点坐标和长宽的值；confidence为置信度；class_num的值为4，这里指的表示未被遮挡(NO)；被树叶遮挡(OL)；被其他果实遮挡(OF)以及被树干(OB)遮挡中4种类别概率。

S215：通过置信度阈值判断，去除置信度较小的预测结果，得到可能包含目标果实的边界框坐标、置信度和类别概率。

S216：通过非极大值抑制算法删除同一目标上的多余检测框，得到最佳的预测结果。

S220：获取所述目标物的边界框坐标相对于所述深度相机的第一空间位置坐标；将目标物相对于所述深度相机的空间位置坐标转换为机械臂基底位置坐标信息。

具体的，深度相机相对于机械臂的位置采用手眼标定方式，即将相机安装在机械臂末端执行器上；计算深度相机与机械臂末端执行器的相对位置关系X，求解方式如S221-S227。

S221，建立手眼标定系统，所述手眼标定系统包括机械臂、标定板、末端执行器和深度相机，这里手眼标定系统架构比较常规，在此不做赘述。

S222，根据机械臂基底到标定板的关系矩阵

不变，有公式(10)成立。其中

表示末端执行器坐标系到机械臂基底坐标系的转换矩阵，

表示相机坐标系到末端执行器坐标系的转换矩阵，

表示标定板坐标系转换到相机坐标系的转换矩阵。

S223，变换机械臂的姿态，则有：

S224，联立公式(11)(12)得

S225，令

则公式(14)可化简为AX＝XB，未知数

就是手眼之间的关系矩阵，采用经典的Tsai两步法可求解AX＝XB矩阵方程。

S226，通过相机外参可得到图像坐标系转换到相机坐标系的转换矩阵

将目标物的图像坐标转换到深度相机坐标系，计算公式(15)如下：

S227，已知手眼关系矩阵

和从机械臂系统中读取的末端执行器坐标系到机械臂基底坐标系的转换矩阵

可得到相机坐标系到机械臂基底坐标系的转换矩阵

利用式(16)将目标物的坐标转换到机械臂基底坐标系，得到目标物在机械臂基底坐标系的空间坐标。

S230：获取所述原始机械臂位置信息，控制机械臂运动到指定的第一空间位置，用于对目标物进行采摘作业；具体的，机械臂随机选择一个遮挡形式为未被遮挡(NO)或被树叶遮挡(OL)的可采摘目标果实执行采摘任务；根据多组采摘环境图像中目标物的识别结果和定位结果，结合对应的机械臂位置信息计算出机械臂下一运动起点。

S231：在执行采摘任务时，控制深度相机获取运动路径上的多组目标的多模态图像，并记录获取每组所述目标的多模态图像的机械臂位置信息。

具体的，在执行所述选择性采摘任务的同时，深度相机以15FPS的速率获取运动路径上的多组目标果树多模态图像，并记录获取每组所述目标果树多模态图像的机械臂位置信息。

S232，机械臂运动路径上多组所述目标果树多模态图像集合V表示为式(17)，v₁到v_n表示从第一组到第n组目标果树多模态图像：

V＝{v₁,v₂,v₃,…,v_n} (17)

S233，将多组所述目标多模态图像依次输入到所述目标检测模型，输出目标物多个分类标记和边界框坐标；将未被遮挡、被无影响物遮挡设定为可采摘对象(PO)；将被有影响物遮挡设定为不可采摘对象(NPO)。随后，计算每组多模态图像中可采摘对象(PO)和不可采摘对象(NPO)的数值v_j，并通过公式(18)计算每组多模态图像中目标果实的可采摘率

v_j表示目标果树多模态图像集合V中第i个。

S234，计算出目标果实可采摘率最高的一组多模态图像，计算公式为式(19)：

S235，将该组多模态图像所对应的机械臂位置信息作为机械臂下一运动起点，在执行下一次采摘任务时，控制机械臂运动至该运动起点。

S236：与机械臂通信以获取所述机械臂位置信息，并控制机械臂运动到指定的第一空间位置，机械臂用于对目标物进行采摘作业。

示例性系统

如图8所示，一种基于多模态数据融合的在体果实采摘系统，在具体应用过程中，所述深度相机安装并固定在机械臂末端，所述深度相机和所述机械臂模块均与所述主控制器通讯连接，所述主控制器包括如下：

图像处理模块20，其用于获取深度相机拍摄的多模态视觉数据，所述多模态视觉数据包含待采摘的目标物；使用上述的一种基于多模态数据融合的目标检测方法训练得到的目标检测模型对多模态视觉数据中目标物进行识别和定位，输出目标物的多个分类标记和边界框坐标，所述分类标记包括未被遮挡、被无影响物遮挡和被有影响物遮挡三类。

空间坐标转换模块30，其用于获取所述目标物的边界框坐标相对于所述深度相机的第一空间位置坐标；将目标物相对于所述深度相机的空间位置坐标转换为机械臂基底位置坐标信息。

运动控制模块40，其用于获取所述原始机械臂位置信息，控制机械臂运动到指定的第一空间位置，用于对目标物进行采摘作业；随机选择一个分类标记为未被遮挡或被无影响物遮挡的，作为可采摘目标果实执行采摘任务。

运动计算模块50，其用于根据多组采摘环境图像中目标物的识别结果和定位结果，结合对应的机械臂位置信息计算出机械臂下一运动起点。

示例性电子设备

下面，参考图4来描述根据本申请实施例的电子设备。该电子设备可以是可移动设备本身，或与其独立的单机设备，该单机设备可以与可移动设备进行通信，以从它们接收所采集到的输入信号，并向其发送所选择的目标决策行为。

图4图示了根据本申请实施例的电子设备的框图。

如图4所示，电子设备10包括一个或多个处理器11和存储器12。

处理器11可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元，并且可以控制电子设备10中的其他组件以执行期望的功能。

存储器12可以包括一个或多个计算机程序产品，所述计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令，处理器11可以运行所述程序指令，以实现上文所述的本申请的各个实施例的决策行为决策方法以及/或者其他期望的功能。

在一个示例中，电子设备10还可以包括：输入装置13和输出装置14，这些组件通过总线系统和/或其他形式的连接机构(未示出)互连。例如，该输入设备13可以包括例如车载诊断系统(OBD)、统一诊断服务(UDS)、惯性测量单元(IMU)、摄像头、激光雷达、毫米波雷达、超声波雷达、车载通信(V2X)等各种设备。该输入设备13还可以包括例如键盘、鼠标等等。该输出装置14可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等等。

当然，为了简化，图4中仅示出了该电子设备10中与本申请有关的组件中的一些，省略了诸如总线、输入/输出接口等等的组件。除此之外，根据具体应用情况，电子设备10还可以包括任何其他适当的组件。

示例性计算机程序产品和计算机可读存储介质

除了上述方法和设备以外，本申请的实施例还可以是计算机程序产品，其包括计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本申请各种实施例的决策行为决策方法中的步骤。

所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本申请实施例操作的程序代码，所述程序设计语言包括面向对象的程序设计语言，诸如Java、C++等，还包括常规的过程式程序设计语言，诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。

此外，本申请的实施例还可以是计算机可读存储介质，其上存储有计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本申请各种实施例的决策行为决策方法中的步骤。

所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

以上结合具体实施例描述了本申请的基本原理，但是，需要指出的是，在本申请中提及的优点、优势、效果等仅是示例而非限制，不能认为这些优点、优势、效果等是本申请的各个实施例必须具备的。另外，上述公开的具体细节仅是为了示例的作用和便于理解的作用，而非限制，上述细节并不限制本申请为必须采用上述具体的细节来实现。

本申请中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的，可以按任意方式连接、布置、配置这些器件、装置、设备、系统。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇，指“包括但不限于”，且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”，且可与其互换使用，除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”，且可与其互换使用。

还需要指出的是，在本申请的装置、设备和方法中，各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本申请的等效方案。

提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本申请。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的，并且在此定义的一般原理可以应用于其他方面而不脱离本申请的范围。因此，本申请不意图被限制到在此示出的方面，而是按照与在此公开的原理和新颖的特征一致的最宽范围。

为了例示和描述的目的已经给出了以上描述。此外，此描述不意图将本申请的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例，但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。

Claims

1.一种基于多模态数据融合的目标检测方法，其特征在于，包括以下步骤：

2.根据权利要求1中所述的一种基于多模态数据融合的目标检测方法，其特征在于，在所述特征提取网络中和颈部结构均引入坐标注意力机制增强对目标物感知能力包括：在所述特征提取网络中嵌入坐标注意力模块，在所述颈部结构的末端嵌入坐标注意力模块。

3.根据权利要求2中所述的一种基于多模态数据融合的目标检测方法，其特征在于，所述目标检测模型采用YOLOv5s模型，所述YOLOv5s模型中特征提取网络采用深度可分离卷积替换CBL模块中的普通卷积形成DPBL模块，在CSP_1_X模块级联操作后嵌入坐标注意力模块；

所述颈部结构包括DBPL模块和CSP_2_X模块，CSP_2_X模块由普通卷积和X个Res unit级联而成，在所述颈部结构的末端嵌入坐标注意力模块；

4.根据权利要求1中所述的一种基于多模态数据融合的目标检测方法，其特征在于，所述步骤S120包括：

5.一种基于目标检测模型的在体果实采摘方法，其特征在于，包括以下步骤:

S210：根据权利要求1-4任意一项所述的一种基于多模态数据融合的目标检测方法得到识别结果，所述识别结果包括目标物的多个分类标记和边界框坐标，所述分类标记包括未被遮挡、被无影响物遮挡和被有影响物遮挡三类；

S220：随机选择一个遮挡形式为未被遮挡或被无影响物遮挡的目标物作为采摘对象，获取所述采摘对象的边界框坐标相对于所述深度相机的第一空间位置坐标；将所述采摘对象相对于所述深度相机的空间位置坐标转换为机械臂基底位置坐标信息；

S230：获取所述原始机械臂位置信息，控制机械臂运动到指定的第一空间位置，用于对所述采摘对象进行采摘作业；根据多组采摘环境图像中目标物的识别结果和定位结果，结合对应的机械臂位置信息计算出机械臂下一运动起点；

6.根据权利要求5中所述的一种基于目标检测模型的在体果实采摘方法，其特征在于，所述步骤S210还包括：

利用非极大值抑制算法去除同一目标物上的多余边界框，得到预测结果。

7.根据权利要求6中所述的一种基于目标检测模型的在体果实采摘方法，其特征在于，所述步骤S230还包括：

所述机械臂运动路径上多组所述目标的多模态图像集合V表示为下式：

V＝{v₁,v₂,v₃,…,v_n}

将多组所述目标的多模态图像依次输入到所述目标检测模型，输出与目标物对应的多个分类标记和边界框坐标；将未被遮挡、被无影响物遮挡设定为可采摘对象(PO)；将被有影响物遮挡设定为不可采摘对象(NPO)；

将该组多模态图像所对应的机械臂位置信息作为机械臂下一运动起点，在执行下一次采摘任务时，控制机械臂运动至该运动起点。

8.一种基于目标检测模型的在体果实采摘系统，其特征在于，包括：

图像处理模块，其用于根据权利要求1-4任意一项所述的一种基于多模态数据融合的目标检测方法得到识别结果，所述识别结果包括目标物的多个分类标记和边界框坐标，所述分类标记包括未被遮挡、被无影响物遮挡和被有影响物遮挡三类；

9.一种电子设备，其特征在于，包括处理器、输入设备、输出设备和存储器，所述处理器、输入设备、输出设备和存储器依次连接，所述存储器用于存储计算机程序，所述计算机程序包括程序指令，所述处理器被配置用于调用所述程序指令，执行如权利要求1-7任一项所述的方法。

10.一种可读存储介质，其特征在于，所述存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被处理器执行时使所述处理器执行如权利要求1-7任一项所述的方法。