CN115063724A

CN115063724A - 一种果树田垄的识别方法及电子设备

Info

Publication number: CN115063724A
Application number: CN202210711029.5A
Authority: CN
Inventors: 郭健; 孙瑜; 蔡云飞; 徐胜元; 李晨星; 陈祥龙
Original assignee: Nanjing University of Science and Technology
Current assignee: Nanjing University of Science and Technology
Priority date: 2022-06-22
Filing date: 2022-06-22
Publication date: 2022-09-16

Abstract

本发明公开了一种果树田垄的识别方法及电子设备，该方法包括：获取相机拍摄的视频序列；通过基于时间空间视觉注意机制以及全卷积神经网络的语义标签模型，在线生成果树、田垄感兴趣目标的语义标签；基于卷积神经网络的果树、田垄深度语义感知模型进行融合语义感知；提取果树、田垄特征值，通过分类器识别出果树和田垄区域；通过对视频帧进行光流估计，基于条件随机场模型与运动光流的果树、田垄感兴趣目标进行在线轮廓推理和目标边界框再定位；基于核相关滤波算法进行感兴趣目标的跟踪，更新果树、田垄深度语义感知模型。该方法在设备正常运行时，能够100％识别果树和田垄区域。

Description

一种果树田垄的识别方法及电子设备

技术领域

本发明涉及图像识别领域，具体涉及一种果树田垄的识别方法及电子设备。

背景技术

图像识别技术作为采摘机器人中的关键模块，该领域的发展对机器人的研究有着不可或缺的作用。近年来，国内外大量的研究人员投身在该领域的研究，这使得图像识别领域得到的飞快的发展。现有的图像分割算法研究也比较多比如BAI等人采用基于SVM分类器的水稻冠层分割方法，同时利用卷积神经网络自动学习的特性降低错分率。这类算法的分割效果较好，但分割模型的学习依赖于大量样本标注，对计算机硬件要求较高，因此应用成本较高。

关于野外果园茶园的果树、茶垄的识别感知研究也不在少数，但是现有的果树茶垄等的识别感知技术一般采用深度学习技术或者支持向量机(SVM)技术。虽然支持向量机解决非线性模型识别的时候具有优势，但是在实际的应用中仍存在一些缺点。比如，随着训练样本集逐渐增加，支持向量机(SVM)的支持向量也会大量增加，当突破一定的极限时可能会导致过度拟合，计算效率下降等，并且SVM的核心函数使用起来限制比较苛刻，必须满足某种条件。

发明内容

本发明的目的在于提出一种果树田垄的识别方法及电子设备，不受SVM的核心函数的限制，且大大提高了果树田垄感兴趣目标的实时识别的准确率。

实现本发明目的的技术解决方案为：

一种果树田垄的识别方法，包括步骤：

获取相机拍摄的视频序列；

通过基于时间空间视觉注意机制以及全卷积神经网络的语义标签模型，在线生成果树、田垄感兴趣目标的语义标签；

基于卷积神经网络的果树、田垄深度语义感知模型进行融合语义感知；

提取果树、田垄特征值，通过分类器识别出果树和田垄区域；

通过对视频帧进行光流估计，基于条件随机场模型与运动光流的果树、田垄感兴趣目标进行在线轮廓推理和目标边界框再定位；

基于核相关滤波算法进行感兴趣目标的跟踪，更新果树、田垄深度语义感知模型。

进一步地，所获取相机拍摄的视频序列具体包括：

步骤1.1：将搭载相机的移动机器人在果园中行走以拍摄果树以及田垄信息；

步骤1.2：获取拍摄得到感兴趣目标信息输出的视频序列。

进一步地，所述语义标签模型通过离线训练获取，具体包括：

步骤2.1：基于包含果树、田垄两类语义标签的图像数据集，分别离线训练全卷积神经网络；

步骤2.2：将门控循环单元连接在全卷积神经网络之后，用于捕获视频的时序信息，将GRU改进为卷积GRU层，提升算法的效率与性能，分别得到图像中果树、田垄感兴趣目标的语义标签模型；

步骤2.3：语义标签模型的语义分割过程中引入时间和空间的选择注意机制，采集视频序列相邻的两帧图像，通过语义标签模型在线生成对应的语义标签。

进一步地，所述图像数据集的获取方法为：

获取视频图像序列后，多视频序列进行逐帧检测，并将获取的每一帧图像进行灰度转换，建立数字灰度图像数学模型，得到增强灰度值后的图像；

对增强灰度值后的图像进行第一次滤波和第二次滤波以及降噪处理；

逐帧检测图像，当检测到图像中突然出现果树或田垄时，就将该帧图像更新为初始帧，图像中出现的果树或田垄就是感兴趣目标，锁定该感兴趣目标区域；

获取多组包含感兴趣目标的图像，作为图像数据集。

进一步地，所述深度语义感知模型通过离线训练获取，包括：

获取第i帧视频序列图像；

获取基于高斯扰动模型的目标跟踪置信图；

对生成的果树、田垄感兴趣目标的语义标签进行语义选择和基于核化相关滤波器语义滤波，得到感兴趣目标的语义密集置信图；

将目标跟踪置信图和语义密集置信图作为深度感知网络的输入，对深度感知网络进行离线训练生成深度感知网络的参数；

采用多尺度的循环卷积网络，在多层面深度融合时空特征，采用门控循环网络作为循环单元，生成深度语义感知模型。

进一步地，所述提取果树、田垄特征值，通过分类器识别出果树和田垄区域具体包括：

步骤4.1：获取包含果树、田垄的图像；

步骤4.2：对果树、田垄的图像通过降噪网络进行降噪处理；

步骤4.3：通过深度残差收缩网络进行特征值的提取，深度残差收缩网络的全连接输出层为分类器，进行果树、田垄分类识别。

进一步地，所述基于条件随机场模型与运动光流的果树、田垄感兴趣目标进行在线轮廓推理和目标边界框再定位具体包括：

步骤5.1：获取视频某帧中的彩色图像，并经过像素增强处理得到图像像素强度和特征图；

步骤5.2：基于深度语义感知模型，获取视频某帧中感兴趣目标的语义感知置信图；

步骤5.3：基于视频帧得到感兴趣目标的视频帧间光流运动估计图；

步骤5.4：基于线下构建的随机条件场模型，将图像像素强度和特征图、语义感知置信图和光流运动估计图作为条件随机场模型非子模目标轮廓推理的输入，得到目标轮廓，在进行目标边界框定位。

进一步地，所述基于核相关滤波算法进行感兴趣目标的跟踪，更新果树、田垄深度语义感知模型具体包括：

步骤6.1：基于感兴趣目标的轮廓推理和目标边界框的定位，更新感兴趣目标的高斯扰动模型；

步骤6.2：获取基于核化相关滤波器高斯扰动的目标跟踪置信图，更新果树、田垄深度语义感知模型。

进一步地，所述全卷积神经网络采用AlexNet、VGG或GoogleNet网络架构。

一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现所述的果树田垄的识别方法。

本发明与现有技术相比，其显著效果为：本发明提出的基于视频序列的时间和空间的注意机制的离线方式结合神经网络的训练的在线方式，能够精准的将图像中感兴趣区域和非感兴趣区域分割；本发明通过神经网络的训练准确的得到感兴趣区域的语义标签，然后基于生成的语义标签和基于深度感知语义网络训练结合生成感兴趣目标的深度感知模型，最后进行目标的轮廓推理和目标边界框的定位；本发明缩小感兴趣区域以及基于神经网络的离线语义模型的训练相结合大大提高了果树田垄感兴趣目标的实时识别的准确率，在设备正常运行时，能够100％识别果树和田垄区域。

附图说明

图1是本发明所提供的果树茶垄识别模块框图。

图2是在线视频感兴趣目标语义生成示意图。

图3是深度残差收缩模块和分类器单元示意图。

图4是融合语义感知与运动光流的感兴趣目标轮廓联合识别示意图。

图5是机器人在果园中的工作场景图。

具体实施方式

为了更好的了解本发明的步骤、优势以及实施过程，下面结合说明书附图对本发明作进一步说明。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是，本发明还可以采用其他不同于在此描述的其他方式来实施，因此，本发明的保护范围并不受下面公开的具体实施例的限制。

本发明涉及到果茶园的果树茶垄感兴趣目标在线视频语义标签的生成、目标深度语义感知模型的构建和基于语义感知和运动光流的感兴趣目标的轮廓推理以及目标边界框的定位，本发明通过基于视觉注意机制和感兴趣目标在线语义生成模块、感兴趣目标深度语义感知模型模块和感兴趣目标轮廓识别和目标框定位模块相结合，实现一种野外果园果树和田垄的识别方法。

如图5，现以果茶采摘机器人为例，在机器人的头上安装相机，使其能够实时的侦测机器人周围的环境，基于相机进行果树茶垄等的识别检测。具体的步骤如图1所示：

步骤1：获取相机拍摄的视频序列，转入步骤2；

步骤1.1：获取机器人在果园中沿着田垄行走一圈所拍摄得到的视频序列；

步骤2：基于时间空间视觉注意机制以及全卷积神经网络在线生成果树田垄感兴趣目标的语义标签，转入步骤3；

步骤2.1：在第一步获取视频图像序列后，多视频序列进行逐帧检测，并将获取的每一帧图像进行灰度转换，建立数字灰度图像数学模型，得到增强灰度值后的图像；

步骤2.2：对增强灰度图进行第一次滤波和第二次滤波以及降噪处理；

表1图像背景滤波处理

步骤2.3：在基于上诉步骤的基础上，逐帧检测图像，当检测到图像中突然出现果树或田垄时，就将该帧图像更新为初始帧，图像中出现的果树或田垄就是感兴趣目标，锁定该感兴趣目标区域；

步骤2.4：获取多组包含感兴趣目标(果树、田垄)的图像，作为训练样本以及测试样本；

步骤2.5：离线训练：基于全卷积神经网络对训练样本进行训练，得到图像感兴趣区域的语义模型；

步骤2.6：在线训练：将门控循环单元(GRU)和全卷积神经网络进行组合前向传播，捕捉视频的时序信息，进行在线的语义标签的生成；

所述全卷积神经网络可以选取AlexNet,VGG,GoogleNet等常用的网络架构。

步骤3：结合图2，基于卷积神经网络的果树、田垄深度语义感知模型构建与训练；

步骤3.1：获取包含感兴趣目标(果树、田垄)的第i帧图像；

步骤3.2：在线方式：对图像进行步骤2的处理可以得到感兴趣目标的语义标签，对得到的语义目标进行语义选择和基于核化相关滤波器语义滤波之后得到感兴趣目标的语义密集置信图；

步骤3.3：离线方式：针对第i帧图像获取基于高斯扰动模型的密集目标跟踪置信图；

步骤3.4：分别将步骤3.2和步骤3.3语义置信图作为深度感知网络的输入，对深度感知网络进行训练生成感知网络的参数；

步骤3.5：采用多尺度的循环卷积网络(RCN)，在多层面深度融合时空特征，采用门控循环网络(GRU)作为循环单元，快速的实现各个空间分辨率上捕获视频的时序特征，生成感兴趣目标的语义感知模型；

步骤4：果树茶垄特征值的提取，通过分类器识别出果树和田垄区域，如图3所示；

步骤4.1：获取包含果树、田垄的图像；

步骤4.2：图像通过降噪网络进行降噪处理；

步骤4.3：通过目前改进的深度残差收缩网络(DRSN)进行特征值的提取，网络的全连接输出层用于分类器进行分类识别；

步骤5：通过对视频帧进行光流估计，基于条件随机场的融合语义感知与运动光流的果树、田垄感兴趣目标在线轮廓推理和目标边界框定位，参考图4；

步骤5.1：基于视频帧得到感兴趣目标(果树、田垄)的视频帧间光流运动估计图，作为基于条件随机场模型(CRF)非子模目标轮廓推理方法的第一路输入；

步骤5.2：获取视频某帧中感兴趣目标(果树、田垄)的语义感知置信图，作为基于条件随机场模型(CRF)非子模目标轮廓推理方法的第二路输入；

步骤5.3：获取视频某帧中的彩色图像，并经过像素增强处理得到像素颜色强度图和特征图，作为基于条件随机场模型(CRF)非子模目标轮廓推理方法的第三路输入；

步骤5.4：将前三路的输出结果融合基于条件随机场模型(CRF)非子模目标轮廓推理方法得到感兴趣目标的精准轮廓掩膜；

基于步骤5方法的输入，结合本领域公知的条件随机场模型网络结构可离线获取所述条件随机场模型(CRF)，在此不再累述；本研究将构建的CRF与传统视频分割的CRF有两点不同：首先，由于感兴趣目标语义感知网络的卷积特性，使置信图不存在空洞，因此课题CRF用于细化置信图，而非传统CRF用于平滑分割结果；其次，本课题利用移动光流区分目标，而非传统方法中使用光流强制感兴趣目标移动的一致性，这种一致性在移动过程中可能会遭到破坏，进而影响分割效果。

步骤6：通过步骤5感兴趣目标的边界框定位更新感兴趣目标通用数据模型(高斯扰动模型)；

步骤7：基于核相关滤波算法进行感兴趣目标的跟踪，更新步骤3中的感兴趣目标的深度语义感知模型；

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种果树田垄的识别方法，其特征在于，包括步骤：

获取相机拍摄的视频序列；

2.根据权利要求1所述的果树田垄的识别方法，其特征在于，所获取相机拍摄的视频序列具体包括：

步骤1.2：获取拍摄得到感兴趣目标信息输出的视频序列。

3.根据权利要求1所述的果树田垄的识别方法，其特征在于，所述语义标签模型通过离线训练获取，具体包括：

步骤2.2：将门控循环单元连接在全卷积神经网络之后，将GRU改进为卷积GRU层，分别得到图像中果树、田垄感兴趣目标的语义标签模型；

4.根据权利要求3所述的果树田垄的识别方法，其特征在于，所述图像数据集的获取方法为：

获取视频序列后，多视频序列进行逐帧检测，并将获取的每一帧图像进行灰度转换，建立数字灰度图像数学模型，得到增强灰度值后的图像；

对增强灰度值后的图像进行两次滤波以及降噪处理；

获取多组包含感兴趣目标的图像，作为图像数据集。

5.根据权利要求1所述的果树田垄的识别方法，其特征在于，所述深度语义感知模型通过离线训练获取，包括：

获取第i帧视频序列图像；

获取基于高斯扰动模型的目标跟踪置信图；

采用多尺度的循环卷积网络，在多层面深度融合时空特征，采用门控循环网络作为循环单元，确定深度语义感知模型。

6.根据权利要求1所述的果树田垄的识别方法，其特征在于，所述提取果树、田垄特征值，通过分类器识别出果树和田垄区域具体包括：

步骤4.1：获取包含果树、田垄的图像；

步骤4.2：对果树、田垄的图像通过降噪网络进行降噪处理；

7.根据权利要求1所述的果树田垄的识别方法，其特征在于，所述基于条件随机场模型与运动光流的果树、田垄感兴趣目标进行在线轮廓推理和目标边界框再定位具体包括：

8.根据权利要求5所述的果树田垄的识别方法，其特征在于，所述基于核相关滤波算法进行感兴趣目标的跟踪，更新果树、田垄深度语义感知模型具体包括：

9.根据权利要求1所述的果树田垄的识别方法，其特征在于，所述全卷积神经网络采用AlexNet、VGG或GoogleNet网络架构。

10.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1-9中任一所述的果树田垄的识别方法。