CN111553200A

CN111553200A - 一种图像检测识别方法及装置

Info

Publication number: CN111553200A
Application number: CN202010268657.1A
Authority: CN
Inventors: 杨贵军; 吴金涛; 徐波; 杨小冬; 王聪聪; 李振海; 杨浩; 龙慧灵
Original assignee: Beijing Research Center for Information Technology in Agriculture
Current assignee: Beijing Research Center for Information Technology in Agriculture
Priority date: 2020-04-07
Filing date: 2020-04-07
Publication date: 2020-08-18

Abstract

本发明实施例提供一种图像检测识别方法及装置，将无人机航拍图像数据输入区域卷积神经网络Faster‑RCNN的网络模型，得到所述Faster‑RCNN的网络模型输出的目标物体的准确位置；其中，所述Faster‑RCNN的网络模型根据探测分类概率和探测边框回归对分类概率和边框回归进行训练得到。通过基于图像识别技术结合无人机平台采集的图像数据，应用深度学习中的目标检测算法和训练特定深度的学习模型，实现目标物体的精确定位和识别，同时减少了复杂的图像预处理过程，检测效率高，检测精度高，实用性强，具有较好的适应性及可靠性，能够快速检测识别目标物体。

Description

一种图像检测识别方法及装置

技术领域

本发明涉及计算机领域，具体涉及一种图像检测识别方法及装置。

背景技术

随着时代的进步和产业的发展，果树产业发展逐步呈现出规模化、现代化、智能化的发展趋势。果树的精确定位和识别，在智能化果园管理和病虫害监测中发挥积极的作用，并可以为现代化果园中无人机喷药技术提供更加可靠的数据。在现代化大规模果园中，果树的精确定位和识别对每棵果树的长势分析也是非常重要的。现有的大面积果树定位和识别方法一般采用人工实地调查或者利用地理信息系统和卫星遥感图像处理等技术，但由于现代化果园规模的不断扩大，单纯靠人工实地调查，费时费力；传统的卫星遥感图像由于空间分辨率低，导致定位和识别准确率较低且实时性不强。对于现代化果园中果树的定位和识别需要一项更方便、更精确、成本更低的技术。

深度学习(Deep Learning，以下简称DL)是机器学习的技术和研究领域之一，通过建立类似人脑的多层网络结构的人工神经网络(Artifitial Neural Networks，以下简称ANNs)来模拟人脑存储和处理数据信息的机制，以此在计算机系统中实现人工智能，如解释图像、声音和文本等数据格式。深度学习提出了一种让计算机自动学习出模式特征的方法，并将特征学习融入到了建立模型的过程中，从而减少了人为设计特征造成的不完备性，具有强大的自适应能力。这些优势，使得深度学习在当今大数据背景下获得了大量应用，在满足特定条件的应用场景下，已经达到了超越现有算法的识别或分类性能。

因此，如何实现通过经典的深度学习网络框架来进行快速图像检测识别，进而减少人工成本，成为亟待解决的问题。

发明内容

针对现有技术中的缺陷，本发明实施例提供一种图像检测识别方法及装置。

第一方面，本发明实施例提供一种图像检测识别方法及装置，包括：

将无人机航拍图像数据输入区域卷积神经网络Faster-RCNN的网络模型，得到所述Faster-RCNN的网络模型输出的目标物体的准确位置；

其中，所述Faster-RCNN的网络模型根据探测分类概率和探测边框回归对分类概率和边框回归进行训练得到。

可选地，所述Faster-RCNN的网络模型根据探测分类概率和探测边框回归对分类概率和边框回归进行训练得到包括：

根据探测分类概率和探测边框回归对分类概率和边框回归进行训练，得到损失函数。

可选地，所述损失函数为：

其中，i表示锚点的索引；p_i表示是目标物体的概率；

表示对应前景预测概率；t_i表示锚点预测的偏移量；

表示锚点实际的偏移量；L_reg表示平滑损失函数；L_cls表示不同类别的对数损失值；N_reg表示锚点的数量；N_cls表示最小批大小；λ表示权重平衡参数。

可选地，所述得到所述Faster-RCNN的网络模型输出的目标物体的准确位置包括：

根据滑框的识别结果和滑框与原始图像的位置关系确定目标物体与原始图像的位置关系；

根据重叠度IOU值剔除所述目标物体与原始图像的位置关系中的冗余位置关系，确定目标物体的准确位置；其中，所述IOU值表示预测滑框与目标物体真实区域的交集面积与并集面积之比。

可选地，所述根据滑框的识别结果和滑框与原始图像的位置关系确定目标物体与原始图像的位置关系包括：

根据公式

确定目标物体与原始图像的位置关系；

其中，ox表示目标物体的左上角横坐标，w，h分别表示滑框的宽度与高度，r表示滑框重叠度，i和n为可变参数。

可选地，所述根据重叠度IOU值剔除所述目标物体与原始图像的位置关系中的冗余位置关系，确定目标物体的准确位置包括：

若待处理候选框集合满足预设规则，则确定优选框集合中的框的位置为目标物体的准确位置；

所述预设规则为候选框集合中所有框与置信度最高的框的IOU交并比的值高于预设阈值。

第二方面，本发明实施例提供一种图像检测识别装置，包括：

第一处理模块：将无人机航拍图像数据输入区域卷积神经网络Faster-RCNN的网络模型，得到所述Faster-RCNN的网络模型输出的目标物体的准确位置；

第三方面本发明实施例提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现以上任一项所述的图像检测识别方法的步骤。

第四方面本发明实施例提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以上任一项所述的图像检测识别方法的步骤。

本发明实施例提供了图像检测识别方法，通过基于图像识别技术结合无人机平台采集的图像数据，应用深度学习中的目标检测算法和训练特定深度的学习模型，实现目标物体的精确定位和识别，同时减少了复杂的图像预处理过程，检测效率高，检测精度高，实用性强，具有较好的适应性及可靠性，能够快速检测识别目标物体。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种图像检测识别方法的流程示意图；

图2为本发明实施例提供的另一图像检测识别方法的流程示意图；

图3为本发明实施例提供的一种XML标注文件示例图；

图4为本发明实施例提供的一种基于Faster-RCNN深度学习网络框架的果树快速检测识别方法的结果实例图；

图5为本发明实施例提供的一种图像检测识别装置的结构示意图；

图6为本发明实施例提供的一种电子设备的实体结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1是本发明实施例提供的一种图像检测识别方法的流程示意图，如图1所示，该方法包括：

S101：将无人机航拍图像数据输入区域卷积神经网络Faster-RCNN的网络模型，得到所述Faster-RCNN的网络模型输出的目标物体的准确位置。

所述Faster-RCNN的网络模型特点是提取特征的卷积神经网络的输入是整个测试图像，而不是各个提议区域。

所述探测分类概率为交叉熵损失softmax-loss层计算的候选区域类别的概率。

所述探测边框回归为修正锚点获得精确候选区域的过程。

具体地，首先利用无人机平台并搭配高分辨率数码相机获取厘米级分辨率的图像，例如配备索尼QX-100高清摄像机，分辨率为5472×3648，像素尺寸为2.44×2.44μm2，无人机距离地面飞行高度不高于30米，采集无人机航拍图像的实验数据，将无人机航拍图像的实验数据输入区域卷积神经网络Faster-RCNN的网络模型，可以得到Faster-RCNN的网络模型输出的目标物体的准确位置。

再通过编写脚本将研究所需的样本数据从原始图像数据里面按照确定的尺度切割出来，如切割图像尺寸为1000行×800列，切割出来的样本数据以唯一标识符加图像格式后缀名命名，如：“000001.jpg”来命名，丢掉不包含目标的图像以及目标显示不到一半的图像，得到实验所需要的数据集“样本集”。

再利用图形标注工具Labellmg按照标准化数据集VOC数据格式对采集的无人机航拍实验数据用矩形进行标注，得到每个样本数据对应图像的XML标注文件，再存入数据库。

通过随机采样的方式按照合适采样比从数据库中选取训练集、测试集和验证集，如采样比选取6:2:2。

再在深度学习框架Tensorflow中搭建Faster-RCNN的网络架构，其中Faster-RCNN的网络架构包括：卷积层(Convolutional layer)、区域提案网络层(Region ProposalNetwork，以下简称RPN)、感兴趣区域池化层(RoI pooling)和分类层，卷积层常用一些预训练好的网络如计算机视觉组(VGG)、Inception模型、残差网络(Resnet)等，来提取输入图像的特征图(feature maps)，该特征图被共享用于后续RPN层和全连接层。

RPN层用于生成候选区域(region proposals)，该层通过逻辑回归模型softmax判断锚点(anchors)属于前景或者背景，再利用边框回归(bounding box regression)修正锚点获得精确的候选区域。

RoI Pooling层收集输入的feature maps和region proposals，综合这些信息提取候选区域的特征图(proposal feature maps)，送入后续全连接层判定目标类别。

分类层利用proposal feature maps计算该候选区域的类别，同时再次使用bounding box regression获得滑框(bounding box)信息，bounding box包含5个值，分别是x，y，w，h，和置信度(confidence)，其中x，y分别表示bounding box中心的坐标，w、h表示bounding box的宽度和高度。confidence反映当前bbox是否包含物体，以及物体位置的准确性，计算方式如下：

confidence＝P(object)×IOU

其中，当P(object)＝1时表示bounding box包含目标物体(object)，P(object)＝0则不包含；重叠度(Interection-over-union，以下简称IOU)为预测bounding box与物体真实区域的交集面积与并集面积之比，面积以像素面积计算，结果归一化到[0,1]区间内。

再根据研究需求，修改Faster-RCNN网络模型源码中其网络架构中的各个训练参数，训练参数包括：迭代次数、类别名称、类别数量、训练集及测试集路径；如修改源码中pascal_voc.py文件的类别名称、类别数量信息，修改源码中train_faster_rcnn.sh和test_faster_rcnn.sh文件中的迭代次数信息。

再利用测试集测试训练后的Faster-RCNN网络模型，运行测试脚本文件，输出定位与识别的结果保存到对应的结果文件夹中，若结果符合预设要求，如准确度达到75％，则对原始无人机航拍图像进行裁剪，对裁剪的图像进行检测识别，得到所述Faster-RCNN的网络模型输出的目标物体的准确位置。

需要说明的是，Faster-RCNN的网络模型根据探测分类概率和探测边框回归对分类概率和边框回归进行训练得到，详细地，根据指定的迭代次数在Faster-RCNN网络结构中对训练集的样本进行迭代训练，直至网络收敛。具体训练过程包括七个步骤，步骤一：输入训练图片；步骤二：对输入的图片缩放至固定尺度，并对缩放后的图片利用卷积层进行特征提取，常用一些预训练好的网络如计算机视觉组(VGG)、Inception模型、残差网络(Resnet)等，获得特征图；步骤三：在特征图上的每一个锚点上取9个感兴趣区域，包括3个不同尺度，3个不同长宽比，并根据相应的比例将其映射到原始图像中；步骤四：接着将这些候选的ROI输入到RPN网络中，RPN网络对这些ROI进行分类(即确定这些ROI是前景还是背景)同时对其进行初步回归；步骤五：通过ROI pooling层(即将其映射为特定大小的feature map，如设置默认大小是7x7)使每个ROI生成固定尺寸的feature map；步骤六：利用Softmax Loss(探测分类概率)和Smooth L1 Loss(探测边框回归)对分类概率和边框回归(Bounding boxregression)联合训练。

本发明实施例提供了图像检测识别方法，该方法中，基于图像识别技术结合无人机平台采集的图像数据，应用深度学习中的目标检测算法和训练特定深度的学习模型，实现目标物体的精确定位和识别，同时减少了复杂的图像预处理过程，检测效率高，检测精度高，实用性强，具有较好的适应性及可靠性，能够快速检测识别目标物体。

进一步地，在上述发明实施例的基础上，所述Faster-RCNN的网络模型根据探测分类概率和探测边框回归对分类概率和边框回归进行训练得到包括：

其中，所述损失函数为计算神经网络每次迭代的前向计算结果与真实值的差距，从而指导下一步的训练向正确的方向进行。

具体地，Faster-RCNN的网络模型根据探测分类概率和探测边框回归对分类概率和边框回归进行训练得到，还包括得到损失函数，计算神经网络每次迭代的前向计算结果与真实值的差距，从而指导下一步的训练向正确的方向进行。

本发明实施例提供了图像检测识别方法，该方法中，通过损失函数能够计算神经网络每次迭代的前向计算结果与真实值的差距，指导下一步的训练向正确的方向进行。

进一步地，在上述发明实施例的基础上，所述损失函数为：

其中，i表示锚点的索引；p_i表示是目标物体的概率；

表示对应前景预测概率；t_i表示锚点预测的偏移量；

具体地，损失函数用公式

来表示，损失函数值根据锚点的索引、目标物体的概率、真值预测概率、预测滑框、真值滑框、L_reg、L_cls、N_reg、N_cls和λ来计算。

进一步地，在上述发明实施例的基础上，所述得到所述Faster-RCNN的网络模型输出的目标物体的准确位置包括：

根据滑框的识别结果和滑框与原始图像的位置关系确定目标物体与原始图像的位置关系。

根据重叠度IOU值剔除所述目标物体与原始图像的位置关系中的冗余位置关系，确定目标物体的准确位置。

其中，所述IOU值表示预测滑框与目标物体真实区域的交集面积与并集面积之比。

具体地，对原始无人机航拍图像进行裁剪，对裁剪的图像进行检测识别，再对检测识别进行冗余结果剔除处理，详细地，首先根据滑框大小和滑框重叠度，自左至右，自上至下收集包含在原始无人机图像中的所有滑框以及相对于原始图像的位置；在此基础上对所有滑框利用训练好的Faster-RCNN网络模型进行目标物体识别，记录每个滑框中目标物体的位置与概率；根据滑框的识别结果和每个滑框相对于原始图像的位置，计算出目标物体在原始图像中的位置，对每个滑框中的每个检测结果都进行上述的位置更新操作，至此可以得到原始图像中所有目标物体检测的候选框，但是，这些框很可能有互相重叠的部分，即存在目标冗余的情况，剔除检测结果中IOU值较大的情况，选取最优的框，即能够输出的目标物体的准确位置。

本发明实施例提供了图像检测识别方法，该方法中，通过根据滑框的识别结果和滑框与原始图像的位置关系确定目标物体与原始图像的位置关系，再根据重叠度IOU值剔除所述目标物体与原始图像的位置关系中的冗余位置关系，可以实现目标物体的精确定位和识别。

进一步地，在上述发明实施例的基础上，所述根据滑框的识别结果和滑框与原始图像的位置关系确定目标物体与原始图像的位置关系包括：

根据公式

确定目标物体与原始图像的位置关系；

具体地，以原始图像大小5472×3648，滑框大小1000×800，重叠度为30％为例，则从该原始图像中可收集wn×hn个滑框。其中：

W，H分别表示原始图片的宽度与高度，如本例中分别为5472，3648；w，h表示滑框的宽度与高度，如本例中分别为1000，800；r表示滑框重叠度，如本例中为30％。

记录每个滑框的位置(x，y)，如可以记录每个滑框在原始图像中左上角的坐标，其中：

将所有的滑框利用训练好的Faster-rcnn模型进行目标物体识别，并记录每个滑框的识别结果res＝{O₁，O₂，…，O_k，…}，其中O_k＝(ox，oy，ow，oh，conf)，k表示滑框的索引号，(ox，oy)表示滑框的左上角坐标即相对于滑框的目标位置，ow，oh分别表示滑框的宽度与高度，conf表示该滑框是目标物体的置信度。根据这些信息以及滑框相对于原始图像的位置，将相对于滑框的位置更新为相对于原始图像的位置，更新公式如下：

对每个滑框中的每个检测结果都进行上述的位置更新操作，至此可以得到原始图像中所有目标物体检测的候选框，即确定了目标物体与原始图像的位置关系。

本发明实施例提供了图像检测识别方法，该方法中，通过公式

能够准确确定目标物体与原始图像的位置关系，进而为确定目标物体的准确位置提供基础。

进一步地，在上述发明实施例的基础上，所述根据重叠度IOU值剔除所述目标物体与原始图像的位置关系中的冗余位置关系，确定目标物体的准确位置包括：

若待处理候选框集合满足预设规则，则确定优选框集合中的框的位置为目标物体的准确位置。

其中，所述置信度反映真实性的程度。

具体地，本发明实施例提供用非极大值抑制的思想剔除检测结果中IOU较大的情况，具体步骤如下所示。假设在原始图像中有N个框，每个框被分类器计算得到的置信度为conf_i，1<＝i<＝N，按照以下几步处理：

第一步：构建一个候选框集合candidate，初始化为包含全部N个框；将candidate中的框按照置信度大小进行排序；建造一个存放最优框的优选框集合optimal，将其初始化为空集。

第二步：从集合candidate中选出置信度最高的框O，并从集合candidate移到集合optimal中；

第三步：遍历集合candidate中的所有框，分别与框O计算IOU交并比，如果高于某个阈值，如0.2，则认为当前框与框O重叠，将此框从集合candidate中去除。

第四步：回到第二步进行迭代，直到集合candidate为空，则集合optimal中的框为我们所需要的。

再根据集合optimal中的框以及原始无人机航拍图像数据，利用跨平台计算机视觉库opencv进行处理，确定目标物体的准确位置。

本发明实施例提供了图像检测识别方法，该方法中，通过非极大值抑制的思想剔除检测结果中IOU较大的情况，能够消除目标物体的冗余的问题，确定目标物体的准确位置。

本发明是基于图像识别技术结合无人机平台，应用深度学习中的目标检测算法，训练特定深度的学习模型。然后将训练好的网络模型用于检测园内无人机影像数据，实现范围区域的目标物体的高准确率定位和识别，如实现大规模果园中单棵果树的高准确率定位和识别。图2是本发明实施例提供的另一图像检测识别方法的流程示意图，如图2所示，一种基于Faster-RCNN深度学习网络框架的目标物体的快速检测识别方法包括下列步骤：

步骤一：获取数据，利用无人机平台并搭配高分辨率数码相机(例如配备索尼QX-100高清摄像机，分辨率高5472×3648，像素尺寸2.44×2.44μm2)，为了保证获取具有厘米级分辨率的图像，无人机距离地面飞行高度不高于30米，采集无人机航拍图像实验数据，例如采集现代化果园的无人机航拍图像实验数据，考虑到北方苹果树在春季3月份与其他植被物候差异最明显，此时苹果树数体只有树干树枝，与地面土壤、地表植被区分度最佳，故无人机飞行在3月中旬前完成。

步骤二：切割图像数据，通过编写脚本将研究所需的样本数据从原始图像数据里面按照确定的尺度切割出来，如切割图像尺寸为1000行×800列，切割出来的样本数据以唯一标识符加图像格式后缀名命名，例如：“000001.jpg”来命名，并丢掉不包含果树目标的图像以及果树目标显示不到一半的图像得到实验所需要的数据集“样本集”。

步骤三：获取果树数据库，图3是本发明实施例提供的一种XML标注文件示例，如图3所示，利用Labelimg图形标注工具按照标准VOC数据格式对采集的无人机航拍实验数据用矩形进行标注，得到每个样本数据对应图像的XML标注文件，以存入数据库，如果树数据库。

步骤四：选取训练集、测试集和验证集，例如，通过随机采样的方式按照6:2:2的采样比从果树数据库中选取训练集、测试集和验证集。

步骤五：再在深度学习框架Tensorflow中搭建Faster-RCNN的网络架构，其中Faster-RCNN的网络架构包括：卷积层(Convolutional layer)、区域提案网络层(RegionProposal Network，RPN)、感兴趣区域池化层(RoI pooling)和分类层，卷积层常用一些预训练好的网络如计算机视觉组(VGG)、Inception模型、残差网络(Resnet)等，来提取输入图像的特征图(feature maps)，该特征图被共享用于后续RPN层和全连接层。

RoI Pooling层收集输入的feature maps和region proposals，综合这些信息提取候选区域的特征图(proposal feature maps)，送入后续全连接层判定目标类别；

confidence＝P(object)×IOU

步骤六：再根据研究需求，修改Faster-RCNN网络模型源码中其网络架构中的各个训练参数，训练参数包括：迭代次数、类别名称、类别数量、训练集及测试集路径；如修改源码中pascal_voc.py文件的类别名称、类别数量信息，修改源码中train_faster_rcnn.sh和test_faster_rcnn.sh文件中的迭代次数信息。

步骤七：Faster-RCNN的网络模型根据探测分类概率和探测边框回归对分类概率和边框回归进行训练得到，详细地，根据指定的迭代次数在Faster-RCNN网络结构中对训练集的样本进行迭代训练，直至网络收敛。具体训练过程包括七个步骤，步骤一：输入训练图片；步骤二：对输入的图片缩放至固定尺度，并对缩放后的图片利用卷积层进行特征提取，常用一些预训练好的网络如计算机视觉组(VGG)、Inception模型、残差网络(Resnet)等，获得特征图；步骤三：在特征图上的每一个锚点上取9个感兴趣区域，包括3个不同尺度，3个不同长宽比，并根据相应的比例将其映射到原始图像中；步骤四：接着将这些候选的ROI输入到RPN网络中，RPN网络对这些ROI进行分类(即确定这些ROI是前景还是背景)同时对其进行初步回归；步骤五：通过ROI pooling层(即将其映射为特定大小的feature map，如设置默认大小是7x7)使每个ROI生成固定尺寸的feature map；步骤六：利用Softmax Loss(探测分类概率)和Smooth L1 Loss(探测边框回归)对分类概率和边框回归(Bounding boxregression)联合训练，损失函数如下：

其中，i表示锚点的索引；p_i表示是目标物体的概率；

表示对应前景预测概率；t_i表示锚点预测的偏移量；

步骤八：再利用测试集测试训练后的Faster-RCNN网络模型，运行测试脚本文件，输出定位与识别的结果保存到对应的结果文件夹中。

步骤九：为了满足对原始无人机航拍图像进行目标物体检测的需要，如目标物体为果树，在检测之前对原始图像进行了裁剪，对裁剪的图像进行检测识别，最后对这些结果进行非极大值抑制处理，剔除检测结果中的冗余结果；具体的，首先根据滑框大小和滑框重叠度，自左至右，自上至下收集包含在原始无人机图像中的所有滑框以及相对于原始图像的位置；在此基础上对所有滑框利用训练好的Faster-RCNN网络模型进行果树识别，记录每个滑框中每棵果树的位置与概率；根据每个滑框相对于原始图像的位置与滑框中果树的位置，计算出果树在原始图像中的位置；利用非极大值抑制思想剔除检测结果中冗余的滑框。

以原始图像大小5472×3648，滑框大小1000×800，重叠度为30％为例，则从该原始图像中可收集wn×hn个滑框。其中：

将所有的滑框利用训练好的Faster-rcnn模型进行目标物体识别，如进行果树识别，并记录每个滑框的识别结果res＝{O₁，O₂，…，O_k，…}，其中O_k＝(ox，oy，ow，oh，conf)，k表示滑框的索引号，(ox，oy)表示滑框的左上角坐标即相对于滑框的目标位置，ow，oh分别表示滑框的宽度与高度，conf表示该滑框是目标物体的置信度。根据这些信息以及滑框相对于原始图像的位置，将相对于滑框的位置更新为相对于原始图像的位置，更新公式如下：

对每个滑框中的每个检测结果都进行上述的位置更新操作，至此可以得到原始图像中所有目标物体检测的候选框，但是这些框很可能有互相重叠的部分，即存在目标冗余的情况，只需要保留最优的框，通过非极大值抑制的思想剔除检测结果中IOU较大的情况，具体步骤如下所示。假设在原始图像中有N个框，每个框被分类器计算得到的置信度为conf_i，1<＝i<＝N，按照以下几步处理：

本发明实施例充分利用了深度学习的优势，采用前沿的目标检测方法即Faster-RCNN算法，结合无人机航拍平台，以大规模果园中果树检测识别为例，成功实现了对大规模果园中果树的高准确率定位和识别，为智能化果园管理提供了技术支撑。航拍图像复杂度较高，包含的地物较多，能够从复杂的航拍图像中对果树进行定位和识别；减少了复杂的图像预处理过程，检测效率高，检测精度高，实用性强，具有较好的适应性及可靠性。图4是本发明实施例提供的一种基于Faster-RCNN深度学习网络框架的果树快速检测识别方法的结果实例图，如图4所示，A表示部分原始图像，B表示原始图像，C表示部分原始图像的果树识别结果，D表示原始图像的果树识别结果，大规模果园中果树检测识别为例正确率能够达到0.953，达到了较高的检测识别正确率，并且在采用GPU加速的情况下每帧处理速度能够达到毫秒级别，实现快速检测识别，基于图像识别技术结合无人机平台实现果园内果树的检测识别，应用深度学习中的目标检测算法，训练特定深度的学习模型，进而应用于无人机拍摄的果园信息智能检测，达到果树的精确定位和识别。

图5是本发明实施例提供的一种图像检测识别装置的结构示意图，如图5所示，该装置包括：

第一处理模块501：将无人机航拍图像数据输入区域卷积神经网络Faster-RCNN的网络模型，得到所述Faster-RCNN的网络模型输出的目标物体的准确位置；

本发明实施例提供了图像检测识别装置，该装置中，通过基于图像识别技术结合无人机平台采集的图像数据，应用深度学习中的目标检测算法和训练特定深度的学习模型，实现目标物体的精确定位和识别，同时减少了复杂的图像预处理过程，检测效率高，检测精度高，实用性强，具有较好的适应性及可靠性，能够快速检测识别目标物体。

进一步地，在上述实施例基础上，所述Faster-RCNN的网络模型根据探测分类概率和探测边框回归对分类概率和边框回归进行训练得到包括：

进一步地，在上述实施例基础上，所述损失函数为：

其中，i表示锚点的索引；p_i表示是目标物体的概率；

表示对应前景预测概率；t_i表示锚点预测的偏移量；

进一步地，在上述实施例基础上，所述得到所述Faster-RCNN的网络模型输出的目标物体的准确位置包括：

进一步地，在上述实施例基础上，所述根据滑框的识别结果和滑框与原始图像的位置关系确定目标物体与原始图像的位置关系包括：

根据公式

确定目标物体与原始图像的位置关系；

进一步地，在上述实施例基础上，所述根据重叠度IOU值剔除所述目标物体与原始图像的位置关系中的冗余位置关系，确定目标物体的准确位置包括：

本实施例所述的图像检测识别装置可以用于执行上述对应的方法实施例，其原理和技术效果类似，此处不再赘述。

图6示例了电子设备的实体结构示意图，如图6所示，该电子设备可以包括：处理器(Processor)601、存储器(Memory)602、通信接口(Communications Interface)603和通信总线604，其中，处理器601，存储器602，通信接口603通过通信总线604完成相互间的通信。处理器601可以调用存储器602中的逻辑指令，以执行上述各方法实施例所提供的方法，例如包括：将无人机航拍图像数据输入区域卷积神经网络Faster-RCNN的网络模型，得到所述Faster-RCNN的网络模型输出的目标物体的准确位置；其中，所述Faster-RCNN的网络模型根据探测分类概率和探测边框回归对分类概率和边框回归进行训练得到。

此外，上述的存储器602中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

本发明实施例还提供非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各方法实施例所提供的方法，例如包括：将无人机航拍图像数据输入区域卷积神经网络Faster-RCNN的网络模型，得到所述Faster-RCNN的网络模型输出的目标物体的准确位置；其中，所述Faster-RCNN的网络模型根据探测分类概率和探测边框回归对分类概率和边框回归进行训练得到。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。