CN110751206A

CN110751206A - 一种多目标智能成像与识别装置及方法

Info

Publication number: CN110751206A
Application number: CN201910989536.3A
Authority: CN
Inventors: 王晛; 高磊; 费宝顶; 张旭; 尹继伟
Original assignee: Vimicro Corp
Current assignee: Vimicro Corp
Priority date: 2019-10-17
Filing date: 2019-10-17
Publication date: 2020-02-04

Abstract

本发明公开了一种多目标智能成像与识别装置及方法，所述装置包括：连接在一起的定焦变焦光学防抖镜头、电荷耦合器件CCD、电子轰击电荷耦合器件EBCCD成像ISP图像处理模块、镜头变焦、对焦、光学防抖驱动模块、多目标图像识别处理模块、HDMI输出接口、网络输出接口、USB接口。所述方法通过成像画面中目标跟踪锁定的办法，根据目标图像的准确位置区域内的目标区域成像计算对比后，采用这些局部目标特征的参数的最佳值去调节ISP的对焦、曝光、白平衡的参数以使得需要被识别目标成像能达到最高成像清晰度，提高了目标的识别率，解决了以往成像中识别的目标图像成像不佳，而其他非识别对象过于清晰的问题。

Description

一种多目标智能成像与识别装置及方法

技术领域

本发明涉及一种多目标智能成像与识别装置及方法，属于智能成像技术领域。

背景技术

传统的成像抓拍设备摄像机、DV、照相机、录像机、实时图像采集设备，在使用过程中成像设备在顺光、逆光、外界震动、运动的条件下导致在图像采集中需要做识别的目标画面模糊、暗淡不明的现象时有发生，最终导致后期做图像目标识别中无法识别或分辨识别度降低。传统模式的成像是通过计算画面整体来调整ISP成像参数的，通过对焦、白平衡、曝光的算法来调整成像画面的质量，不足之处是不需要的背景拍摄得很清晰，需要做目标识别的局部画面成像效果不佳，最后导致后期用户做目标识别和分析时效果变差。

例如，申请号为201480013211.7的智能成像系统，包括智能芯片以及与智能芯片连接的微型拍照镜头和显示屏，以及一种安装有智能成像系统的捕虫装置，包括灯罩、固定板、设置在灯罩内的捕虫装置以及智能成像系统，所述捕虫装置包括粘纸、卷筒以及粘纸架。

例如，申请号为201821849597.7的智能成像设备包括前盖、嵌入式处理模块、图像采集模块、电池模块和后壳；所述嵌入式处理模块、图像采集模块和电池模块均收容于前盖与后壳配合后形成的内腔中，所述图像采集模块的一端安装在后壳上。综上所述，在环境背景复杂的画面中，传统的成像设备将非识别目标，如树木、水、沙地、建筑物的拍摄得非常清楚，需要做识别的人、车、动物的目标拍摄得成像不佳，即传统技术存在成像中识别的目标图像成像不佳而其他非识别对象过于清晰的缺点。

发明内容

为解决在不同环境下目标图像采集昏暗模糊且目标图像成像不佳的问题，本发明提出一种多目标智能成像与识别装置及方法。

本发明所述装置包括：固定在机架上的定焦变焦光学防抖镜头、电荷耦合器件CCD、电子轰击电荷耦合器件EBCCD成像ISP图像处理模块、镜头变焦(ZOOM)、对焦(FOCUS)、光学防抖(OIS)驱动模块、多目标图像识别处理模块、HDMI输出接口、网络输出接口、USB接口。所述电荷耦合器件CCD、电子轰击电荷耦合器件EBCCD能够由CMOS传感器代替。定焦变焦光学防抖镜头与电荷耦合器件CCD、电子轰击电荷耦合器件EBCCD成像ISP图像处理模块的光学成像轴线重合；多目标图像识别处理模块滑动架能够前后移动，以适应安装多种规格的前端电荷耦合器件CCD、电子轰击电荷耦合器件EBCCD成像ISP图像处理模块。

定焦变焦光学防抖镜头、电荷耦合器件CCD、电子轰击电荷耦合器件EBCCD成像ISP图像处理模块和变焦光学防抖镜头的光轴轴线重合，以使定焦变焦光学防抖镜头与电荷耦合器件CCD、电子轰击电荷耦合器件EBCCD成像ISP图像处理模块中的电荷耦合器件CCD或CMOS传感器成像器件之间的轴向垂直，并使焦距对齐并将外界景物清晰地成像到电荷耦合器件CCD、电子轰击电荷耦合器件EBCCD成像ISP图像处理模块的器件焦平面上。本发明所述装置的主体机架的材料为金属、塑料、尼龙、电胶木、木质、有机玻璃之一。

HDMI输出接口能将原始采集ISP处理后的图像在显示器上实时输出，网络输出接口能通过以太网口输出分类跟踪定位的结构化数据，其他控制外设通过USB接口与本发明所述装置连接，通过USB接口设定ISP参数和控制设备的光学变焦防抖镜头。

本发明所述装置中的定焦变焦光学防抖镜头与电荷耦合器件CCD、电子轰击电荷耦合器件EBCCD成像ISP图像处理模块在装配时是同光轴安装与装配，电荷耦合器件CCD、电子轰击电荷耦合器件EBCCD成像ISP图像处理模块和定焦变焦光学防抖镜头的光轴轴线重合，以使定焦变焦光学防抖镜头与电荷耦合器件CCD、电子轰击电荷耦合器件EBCCD成像ISP图像处理模块中的电荷耦合器件CCD或CMOS传感器成像器件之间的轴向垂直，焦距对齐并能将外界景物清晰地成像到电荷耦合器件CCD、电子轰击电荷耦合器件EBCCD成像ISP图像处理模块的器件焦平面上。

HDMI输出接口、网络输出接口与系统外设连接，其中HDMI输出接口输出实时目标图像，网络输出接口输出结构化分类数据与图片。

将本发明所述装置固定于任何一种支架中，将HDMI视频输出接口接入显示器，将网络输出接口接入计算机主机，通过设定相关参数就能正常使用设备，将USB接口接入计算机主机或控制外设，通过设定相关参数就能设定对ISP参数调整和正常控制设备的变焦镜头。

本发明所述一种多目标智能成像与识别方法包括以下步骤：

步骤1，采用了新的YOLO_V3算法和CornerNet-Lite神经网络的算法，以提高目标跟踪的准确率和速度：

步骤1.1，新的Yolo_v3算法采用一个单独的卷积CNN模型实现端到端(end-to-end)的目标检测，将采集的数字输入图片resize到448x448，送入CNN网络，处理网络预测结果得到检测的目标以及目标大小和位置；YOLO_V3将图片分成S*S个块，每个单元格预测B个边界框(bounding box)以及边界框的置信度(confidence score)；置信度包含＝边界框中目标存在的可能性大小、边界框的位置准确度，记做Pr(obj)，当框中没有目标物，则Pr(obj)＝0，当含有目标物则Pr(obj)＝1；

步骤1.2，边界框的位置的准确度的判断：

采用了一种称为IOU(交并比)的方法，即预测的框与真实的框相交的面积，和预测的框与真实框合并的面积的比例，记做IOU(pred)，置信度定义为这两项相乘；

步骤1.3，每个格子预测的边界框表示如下：边界框的大小和位置能用四个值来表示，(x,y,w,h)，x，y是指预测出的边界框的中心位置相对于格子的左上角位置的偏移量，偏移量是以格子的大小为一个单位，(x,y,w,h,c)这五个值理论上都在[0,1]区间上，最后一个c是置信度，一个网格预测多个框，置信度是用来评判哪一个框是预测最准确的边界框，使用维度聚类的方法来预测边界框，每个单元格预测3个尺寸：

步骤1.4，在YOLO_V3神经网络的算法训练期间，使用平方误差损失的总和，设定对于一些坐标预测的值是t^*，梯度就是由ground truth box计算出的ground truth的值减去预测值：t^*-t*，逆算就能算出ground truth的值，YOLO_V3使用逻辑回归的方法给每个bounding box预测一个对象分数，算法只为每个ground truth对象分配一个边界框。

步骤2，分类预测：

步骤2.1，类别预测，是将原来的单标签分类改进为多标签分类，网络结构上就将原来用于单标签多分类的softmax层换成用于多标签多分类的Logistic分类器；

步骤2.2，Yolo v2网络中的Softmax分类器，认为一个目标只属于一个类别，通过输出Score大小，使得每个框分配到Score最大的一个类别，原来分类网络中的softmax层都是假设一张图像或一个object只属于一个类别，但是在一些场景下，一个object可能属于多个类，当类别中有woman和person这两个类，当一张图像中有一个woman，则检测的结果中类别标签就要同时有woman和person两个类，即多标签分类，需用Logistic分类器来对每个类别做二分类，Logistic分类器用到sigmoid函数，函数能将输入约束在0到1的范围内，当一张图像经过特征提取后的输出经过sigmoid函数约束后大于0.5，就表示属于边界框负责的目标；

步骤2.3，Yolo v3采用多个scale融合的方式做预测，原来的Yolo v2有一个层称为passthrough layer，passthrough layer是用于加强Yolo算法对小目标检测的精确度并在Yolo v3中得到了进一步加强；

步骤2.4，在Yolo v3中采用类似FPN(feature pyramid networks)的upsample和融合做法，融合了3个scale，两个scale的大小分别是26×26和52×52，在多个scale的feature map上做检测，越精细的grid cell就能检测出越精细的物体，对于小目标的检测效果提升明显；

Yolo v3设定的是每个网格单元预测3个box，每个box有(x,y,w,h,confidence)五个基本参数；Yolo v3输出了3个不同尺度的feature map，y1,y2,y3。y1,y2和y3的深度都是255，边长的规律是13:26:52；每个预测任务得到的特征大小都为N×N×[3*(4+1+80)]，N为格子大小，3为每个格子得到的边界框数量，4是边界框坐标数量，1是目标预测值，80是类别数量，对于COCO类别，有80个类别的概率，所以每个box对每个种类都输出一个概率，3×(5+80)＝255；

步骤2.5，Yolo v3用上采样的方法来实现多尺度的feature map，在Darknet-53得到的特征图的基础上，经过六个DBL结构和最后一层卷积层得到第一个特征图谱，在特征图谱上做第一次预测，Y1支路上，从后向前的倒数第3个卷积层的输出，经过一个DBL结构和一次(2,2)上采样，将上采样特征与第2个Res8结构输出的卷积特征张量连接，经过六个DBL结构和最后一层卷积层得到第二个特征图谱，在第二个特征图谱上做第二次预测；Y2支路上，从后向前倒数第3个卷积层的输出，经过一个DBL结构和一次(2,2)上采样，将上采样特征与第1个Res8结构输出的卷积特征张量连接，经过六个DBL结构和最后一层卷积层得到第三个特征图谱，在第三个特征图谱上做第三次预测；就整个网络而言，Yolo v3多尺度预测输出的feature map尺寸为y1：(13×13)，y2：(26×26)，y3：(52×52)，网络接收一张(416×416)的图，经过5个步长为2的卷积来进行降采样(416/2^5＝13，y1输出(13×13)，从y1的倒数第二层的卷积层上采样(x2，up sampling)再与最后一个26×26大小的特征图张量连接，y2输出26×26。从y2的倒数第二层的卷积层上采样(x2，up sampling)再与最后一个52×52大小的特征图张量连接，y3输出52×52。

步骤3，边界框预测：

Yolo_v3预测3种不同尺度的框，采用FPN算法，融合多层特征映射信息；80类物体对应的输出张量为N×N×[3×(4+1+80)]，与Yolo_v2算法相同，使用k-means聚类来确定边界框的坐标，选择9个聚类(clusters)和3个尺度(scales)，在整个尺度上均匀分割聚类，在COCO图像数据集上，9个聚类是：(10×13)；(16×30)；(33×23)；(30×61)；(62×45)；(59×119)；(116×90)；(156×198)；(373×326)。

步骤4，特征提取：

步骤4.1，设计了darknet-53神经网络结构，采用残差网络结构，交替使用3×3与1×1卷积神经网络以简化resnet神经网络并加快了训练速度；

步骤4.2，采用多尺度训练，Yolo_v3将格子划分，从13*13细化到了52*52，每个框预测3个框；

步骤4.3，对于所有目标检测器，卷积层所学习的特征被传递到分类器/回归器预测边界框的坐标、类别标签；在YOLO中，预测通过全卷积神经网络完成，尺寸为：1×1×(B×(5+C))；

步骤4.4，输出一个特征图，使用1×1的卷积，在YOLO v3及其更新的版本上，预测图就是每个能预测固定数量边界框的单元格；

形容特征图中单元的正确术语是“神经元”，但本发明为了更为直观将其称为单元格(cell)；深度方面，特征图中有(B x(5+C))**个条目，B代表每个单元能预测的边界框数量，B边界框中的每一个都可能专门用于检测某种对象，每个边界框都有5+C个属性，分别描述每个边界框的中心坐标、维度、objectness分数和C类置信度，YOLO v3在每个单元中预测3个边界框；

步骤4.5，当对象的中心位于单元格的感受野内，特征图的每个单元格都能通过其中一个边界框预测对象，感受野是输入图像对于单元格可见的区域，只有一个边界框负责检测任意给定对象；确定这个边界框属于哪个单元格，切分输入图像拆成维度等于最终特征图的网格；输入图像大小是416×416，网络的步幅是32，特征图的维度是13×13，将输入的数字图像分为13×13个网格；输入图像中包含了真值对象框中心的网格会作为负责预测对象的单元格；在图像中是被标记为红色的单元格，其中包含了真值框的中心，被标记为黄色；红色单元格是网格中第七行的第七个，使特征图中第七行第七个单元格即特征图中的对应单元格作为检测狗的单元，单元格能预测三个边界框，所述单元格是预测特征图上的单元格，将输入图像分隔成网格以确定预测特征图的哪个单元格负责预测对象；

步骤4.6，YOLO v3在3个不同尺度上进行预测，检测层用于在三个不同大小的特征图上执行预测，特征图步幅分别是32、16、8，当输入图像大小是416x 416时，在尺度13x 13、26x 26和52x 52上执行检测，网络在第一个检测层之前对输入图像执行下采样，检测层使用步幅为32的层的特征图执行检测，随后在执行因子为2的上采样后，并与前一个层的特征图拼接，另一个检测在步幅为16的层中执行，重复同样的上采样步骤，最后一个检测在步幅为8的层中执行；上采样能帮助网络学习细粒度特征以检测较小目标；

步骤4.7，在每个尺度上，每个单元使用3个锚点预测3个边界框，锚点的总数为9，不同尺度的锚点有所不同；

步骤4.8，输出处理：对于大小为416x 416的图像，YOLO预测((52x 52)+(26x 26)+13x13))x 3＝10647个边界框，目标置信度阈值，根据objectness分数过滤边界框，分数低于阈值的边界框被忽略。

步骤4.9，非极大值抑制(NMS)解决对同一个图像的多次检测的问题，红色网格单元的3个边界框能检测一个框，临近网格检测相同对象；

步骤4.10，在loss function中，第一行和第二行表示localization error即坐标误差，第一行是box中心坐标(x,y)的预测，第二行为宽和高的预测，用宽和高的开根号代替原来的宽和高，相同的宽和高误差对于小的目标精度影响比大的目标要大，原来w＝10，h＝20，预测出来w＝8，h＝22，跟原来w＝3，h＝5，预测出来w1，h＝7相比，前者的误差要比后者小，但是不加开根号，则损失都是一样：4+4＝8，但是加上根号后，变成0.15和0.7；

在loss function中，第三、四行表示bounding box的confidence损失，分成gridcell包含与不包含object两种情况，每个grid cell包含两个bounding box，当groundtruth和网格中的某个bounding box的IOU值最大的时候才进行计算，第五行表示预测类别的误差，前面的系数只有在grid cell包含object的时候为1，通过损失函数公式计算和特征提取检测以解决小目标检测不到的问题以及多个框重叠在一起只能画出一个框的问题以最终达到对于小尺寸的对象的理想检测效果。

本发明具有以下有益效果：

(1)采用了YOLO_V3和CornerNet-Lite算法能够实时分类、标注、跟踪定位多种图像目标并根据定位跟踪的不同种类目标的最佳成像来实时动态调节ISP的曝光、聚焦、伽马矫正、白平衡的成像参数，解决了以往传统成像过程中需要做目标识别的局部对象图像画面成像不佳，而其他不需要做目标识别的局部对象画面过于清晰的问题，确保了需要做目标识别的图像采集、分类处理的实时性和准确性，并通过实时调整参数的方式去进行跟踪目标的最佳成像拍摄，并将分类数据结果通过标准的RJ45以太网络接口输出给其他设备或系统使用。

(2)采用了标准USB接口与其他外设相接，也能通过USB接口，采用人工手动设定参数方式来针对不同被抓拍目标来调整ISP曝光参数，使得被抓拍目标能达到最佳的成像质量，同时也能通过USB接口控制镜头的变焦以及防抖功能的开启。

(3)采用变焦、光学防抖成像结构，解决了在不同距离、各种环境下由成像设备抖动而引发的成像模糊的问题，采用了OIS(光学防抖)结构使镜头与电荷耦合器件CCD或CMOS传感器成像器件之间的轴向垂直，以使焦距的对齐并将外界景物清晰地成像到摄像机的器件焦平面上。

(4)解决了在不同环境光照度条件下，通过成像画面中目标跟踪锁定的办法，实时提供前端图像处理模块以确定目标图像的准确位置区域，根据目标图像的准确位置区域内的目标区域成像计算对比后，采用局部目标特征的参数的最佳值去调节ISP的对焦、曝光、白平衡的参数以使得需要被识别目标成像能达到最高成像清晰度，用于对不同目标采用不同成像曝光参数，使得目标抓拍和识别中目标成像始终处于最佳状态，确保后期做图像目标识别时能对被检测目标画面做出准确的分析，提高了目标的识别率。

附图说明

图1为本发明所述装置的系统架构框图和系统使用框图；

图1(a)为多目标智能成像与识别装置的系统框图；图1(b)为多目标智能成像与识别装置使用图；

图2为本发明所述装置的变焦防抖镜头与成像器件电荷耦合器件CCD\CMOS传感器\电子轰击电荷耦合器件EBCCD器件装配同光轴结构示意图；

其中，图(a)为光学防抖变焦镜头与CCD(CMOS)的ISP图像处理模块装配同光轴示意图；图(b)为光学防抖变焦镜头与CCD(CMOS)的ISP图像处理模块装配同光轴示意图；

图3为本发明所述装置的输出接口结构示意图；

图(a)为输出接口RJ45接口、USB结构示意图；图(b)为输出接口HDMI结构示意图；

图4为本发明所述装置的模块装配结构示意图，图(a)为RJ45、USB接口+镜头驱动模块结构示意图；图(b)为HDMI接口+镜头驱动模块结构示意图；其中：1-变焦光学防抖镜头，2-电荷耦合器件CCD、电子轰击电荷耦合器件EBCCD或CMOS传感器成像ISP图像处理模块，3-镜头变焦(ZOOM)、对焦(FOCUS)、光学防抖(OIS)驱动模块，4-多目标图像识别处理模块，5-图像输出接口(HDMI)，6-网络接口(RJ45)，7-USB接口；

图5是本发明所述方法的Yolo_v3整个神经网络算法架构的结构示意图；

图6是本发明所述方法的Darknet-53神经网络算法的结构示意图；

图7是本发明所述方法的目标搜索预测定位示意图；

图8是本发明所述方法的预测目标的特征尺度维度示意图；

图9是本发明所述方法的多尺度目标预测检测示意图；

图10是本发明所述方法的损失函数公式示意图。

具体实施方式

下面结合附图和实施例对本发明做进一步说明。

如图4所示，本发明所述装置包括：固定在机架上的定焦变焦光学防抖镜头1、电荷耦合器件CCD、电子轰击电荷耦合器件EBCCD成像ISP图像处理模块2、镜头变焦(ZOOM)、对焦(FOCUS)、光学防抖(OIS)驱动模块3、多目标图像识别处理模块4、HDMI输出接口5、网络输出接口6、USB接口7。所述电荷耦合器件CCD、电子轰击电荷耦合器件EBCCD能够由CMOS传感器代替。所述定焦变焦光学防抖镜头1与电荷耦合器件CCD、电子轰击电荷耦合器件EBCCD成像ISP图像处理模块2的光学成像轴线重合；所述多目标图像识别处理模块4滑动架能够前后移动以适应安装多种规格的前端电荷耦合器件CCD、电子轰击电荷耦合器件EBCCD成像ISP图像处理模块2。

如图2所示，定焦变焦光学防抖镜头1、电荷耦合器件CCD、电子轰击电荷耦合器件EBCCD成像ISP图像处理模块2和变焦光学防抖镜头1的光轴轴线重合，以使定焦变焦光学防抖镜头1与电荷耦合器件CCD、电子轰击电荷耦合器件EBCCD成像ISP图像处理模块2中的电荷耦合器件CCD或CMOS传感器成像器件之间的轴向垂直，以使焦距的对齐并将外界景物清晰地成像到电荷耦合器件CCD、电子轰击电荷耦合器件EBCCD成像ISP图像处理模块2的器件焦平面上。本发明所述装置的主体机架的材料为金属、塑料、尼龙、电胶木、木质、有机玻璃之一。

如图1所示，HDMI输出接口5能将原始采集ISP处理后的图像在显示器上实时输出，网络输出接口6能通过以太网口输出分类跟踪定位的结构化数据，其他控制外设通过USB接口7与本发明所述装置连接，通过USB接口设定ISP参数和控制设备的光学变焦防抖镜头。

如图2所示，本发明所述装置中的定焦变焦光学防抖镜头1与电荷耦合器件CCD、电子轰击电荷耦合器件EBCCD成像ISP图像处理模块2在装配时是同光轴安装与装配，电荷耦合器件CCD、电子轰击电荷耦合器件EBCCD成像ISP图像处理模块2和定焦变焦光学防抖镜头1的光轴轴线重合以使定焦变焦光学防抖镜头1与电荷耦合器件CCD、电子轰击电荷耦合器件EBCCD成像ISP图像处理模块2中的电荷耦合器件CCD或CMOS传感器成像器件之间的轴向垂直，焦距对齐并能将外界景物清晰地成像到电荷耦合器件CCD、电子轰击电荷耦合器件EBCCD成像ISP图像处理模块2的器件焦平面上。

如图3所示，HDMI输出接口5、网络输出接口6都与系统外设连接，其中HDMI输出接口5输出实时目标图像，网络输出接口6输出结构化分类数据与图片。

如图4所示，将本发明所述装置固定于任何一种支架中，将HDMI视频输出接口5接入显示器，将网络输出接口6接入计算机主机，通过设定相关参数就能正常使用设备，将USB接口7接入计算机主机或控制外设，通过设定相关参数就能设定对ISP参数调整和正常控制设备的变焦镜头。

本发明所述一种多目标智能成像与识别方法包括以下步骤：

步骤1，采用了新的YOLO_V3算法和CornerNet-Lite神经网络的算法以提高目标跟踪的准确率和速度：

步骤1.1，新的Yolo_v3算法采用一个单独的卷积CNN模型实现端到端(end-to-end)的目标检测，将采集的数字输入图片resize到448x448，送入CNN网络，处理网络预测结果得到检测的目标以及目标大小和位置；Yolo_v3将图片分成S*S个块，每个单元格预测B个边界框(bounding box)以及边界框的置信度(confidence score)；置信度包含两个方面，一是边界框中目标存在的可能性大小，二是边界框的位置准确度，记做Pr(obj)，当框中没有目标物，则Pr(obj)＝0，当含有目标物则Pr(obj)＝1；

步骤1.2，边界框的位置的准确度的判断：

步骤1.3，每个格子预测的边界框表示如下：边界框的大小和位置能用四个值来表示，(x,y,w,h)，x，y是指预测出的边界框的中心位置相对于格子的左上角位置的偏移量，偏移量是以格子的大小为一个单位，(x,y,w,h,c)这五个值理论上都在[0,1]区间上，最后一个c是置信度，一个网格预测多个框，置信度是用来评判哪一个框是最准确的、最想得到的框，使用维度聚类的方法来预测边界框，每个单元格预测3个尺寸；如图7所示：

步骤2，分类预测：

步骤2.2，Yolo v2网络中的Softmax分类器，认为一个目标只属于一个类别，通过输出Score大小，使得每个框分配到Score最大的一个类别，原来分类网络中的softmax层都是假设一张图像或一个object只属于一个类别，但是在一些场景下，一个object可能属于多个类，如类别中有woman和person这两个类，当一张图像中有一个woman，则检测的结果中类别标签就要同时有woman和person两个类，即多标签分类，需用Logistic分类器来对每个类别做二分类，Logistic分类器用到sigmoid函数，函数能将输入约束在0到1的范围内，当一张图像经过特征提取后的输出经过sigmoid函数约束后大于0.5，就表示属于边界框负责的目标；

如图5所示，Yolo v3设定的是每个网格单元预测3个box，每个box有(x,y,w,h,confidence)五个基本参数；Yolo v3输出了3个不同尺度的feature map，如图5所示的y1,y2,y3。y1,y2和y3的深度都是255，边长的规律是13:26:52；每个预测任务得到的特征大小都为N×N×[3*(4+1+80)]，N为格子大小，3为每个格子得到的边界框数量，4是边界框坐标数量，1是目标预测值，80是类别数量，对于COCO类别，有80个类别的概率，所以每个box对每个种类都输出一个概率，3×(5+80)＝255；

步骤2.5，Yolo v3用上采样的方法来实现多尺度的feature map，在Darknet-53得到的特征图的基础上，经过六个DBL结构和最后一层卷积层得到第一个特征图谱，在特征图谱上做第一次预测，Y1支路上，从后向前的倒数第3个卷积层的输出，经过一个DBL结构和一次(2,2)上采样，将上采样特征与第2个Res8结构输出的卷积特征张量连接，经过六个DBL结构和最后一层卷积层得到第二个特征图谱，在第二个特征图谱上做第二次预测；Y2支路上，从后向前倒数第3个卷积层的输出，经过一个DBL结构和一次(2,2)上采样，将上采样特征与第1个Res8结构输出的卷积特征张量连接，经过六个DBL结构和最后一层卷积层得到第三个特征图谱，在第三个特征图谱上做第三次预测；就整个网络而言，Yolo v3多尺度预测输出的feature map尺寸为y1：(13×13)，y2：(26×26)，y3：(52×52)，网络接收一张(416×416)的图，经过5个步长为2的卷积来进行降采样(416/2^5＝13，y1输出(13×13)，从y1的倒数第二层的卷积层上采样(x2，up sampling)再与最后一个26×26大小的特征图张量连接，y2输出(26×26)。从y2的倒数第二层的卷积层上采样(x2，up sampling)再与最后一个52×52大小的特征图张量连接，y3输出(52×52)。

步骤3，边界框预测：

步骤4，特征提取：

步骤4.3，如图8所示，对于所有目标检测器，卷积层所学习的特征被传递到分类器/回归器预测边界框的坐标、类别标签；在YOLO中，预测通过全卷积神经网络完成，尺寸为：1×1×(B×(5+C))；

如图5所示，Yolo_v3整个神经网络算法的结构，Yolo_v3的算法采用了使用独立的逻辑分类器代替softmax算法，采用空间金字塔结构预测边界框并设计了darknet-53神经网络结构。

如图5所示，DBL，其中的Darknetconv2d_BN_Leaky是Yolo_v3的基本组件，卷积+BN+Leaky relu；在Yolo_v3的算法结构中，BN和leaky relu是和卷积层不可分离的部分，最后一层卷积除外，共同构成了最小组件。

resn：n代表数字，包括res1，res2,…,res8，表示res_block里含有多少个res_unit，是Yolo_v3的大组件，Yolo_v3采用了ResNet的残差结构，从Yolo_v2的darknet-19上升到Yolo_v3的darknet-53，Yolo_v2没有残差结构；res_block能在图5的右下角看到且其基本组件是DBL。

concat：张量拼接，将darknet中间层和后面的某一层的上采样进行拼接，拼接会扩充张量的维度，add只是直接相加不会导致张量维度的改变，整个Yolo_v3_body包含252层结构，对于算法代码层面的layers数量一共有252层，包括add层23层，用于res_block的构成，每个res_unit需要一个add层，一共有1+2+8+8+4＝23层)；BN层和LeakyReLU层数量一样，是72层，在网络结构中的表现为：每一层BN后面都会接一层LeakyReLU；卷积层一共有75层，其中有72层后面都会接BN+LeakyReLU的组合构成基本组件DBL；上采样和concat都有2次，和图5中对应上；每个res_block都会用上一个零填充，一共有5个res_block。

本发明不限于上述实施方式，本领域技术人员所做出的对上述实施方式任何显而易见的改进或变更，都不会超出本发明的构思和所附权利要求的保护范围。

Claims

1.一种多目标智能成像与识别装置，其特征在于，包括：固定在机架上的定焦变焦光学防抖镜头、电荷耦合器件CCD、电子轰击电荷耦合器件EBCCD成像ISP图像处理模块、镜头变焦、对焦、光学防抖驱动模块、多目标图像识别处理模块、HDMI输出接口、网络输出接口、USB接口；所述电荷耦合器件CCD、电子轰击电荷耦合器件EBCCD能够由CMOS传感器代替；所述定焦变焦光学防抖镜头与电荷耦合器件CCD、电子轰击电荷耦合器件EBCCD成像ISP图像处理模块的光学成像轴线重合；所述多目标图像识别处理模块滑动架能够前后移动以适应安装多种规格的前端电荷耦合器件CCD、电子轰击电荷耦合器件EBCCD成像ISP图像处理模块。

2.根据权利要求1所述的一种多目标智能成像与识别装置，其特征在于，所述定焦变焦光学防抖镜头、电荷耦合器件CCD、电子轰击电荷耦合器件EBCCD成像ISP图像处理模块和变焦光学防抖镜头的光轴轴线重合。

3.根据权利要求1所述的一种多目标智能成像与识别装置，其特征在于，所述定焦变焦光学防抖镜头与电荷耦合器件CCD、电子轰击电荷耦合器件EBCCD成像ISP图像处理模块在装配时是同光轴安装与装配，电荷耦合器件CCD、电子轰击电荷耦合器件EBCCD成像ISP图像处理模块和定焦变焦光学防抖镜头的光轴轴线重合。

4.根据权利要求1所述的一种多目标智能成像与识别装置，其特征在于，所述装置的主体机架的材料为金属、塑料、尼龙、电胶木、木质、有机玻璃之一。

5.根据权利要求1所述的一种多目标智能成像与识别装置，其特征在于，所述HDMI输出接口、网络输出接口都与系统外设连接。

6.一种多目标智能成像与识别方法，其特征在于，包括以下步骤：

步骤1，采用了新的YOLO_V3算法和CornerNet-Lite神经网络的算法以提高目标跟踪的准确率和速度；

步骤2，分类预测；

步骤3，边界框预测：Yolo_v3预测3种不同尺度的框，采用FPN算法，融合多层特征映射信息；80类物体对应的输出张量为N×N×[3×(4+1+80)]，与Yolo_v2算法相同，使用k-means聚类来确定边界框的坐标，选择9个聚类(clusters)和3个尺度(scales)，在整个尺度上均匀分割聚类，在COCO图像数据集上，9个聚类是：(10×13)；(16×30)；(33×23)；(30×61)；(62×45)；(59×119)；(116×90)；(156×198)；(373×326)；

步骤4，特征提取。

7.根据权利要求6所述的一种多目标智能成像与识别方法，其特征在于，所述步骤1包括以下步骤：

步骤1.2，边界框的位置的准确度的判断：采用了一种称为IOU的方法，即预测的框与真实的框相交的面积，和预测的框与真实框合并的面积的比例，记做IOU，置信度定义为这两项相乘；

步骤1.3，每个格子预测的边界框表示如下：边界框的大小和位置能用四个值来表示，(x,y,w,h)，x，y是指预测出的边界框的中心位置相对于格子的左上角位置的偏移量，偏移量是以格子的大小为一个单位，(x,y,w,h,c)这五个值理论上都在[0,1]区间上，最后一个c是置信度，一个网格预测多个框，置信度是用来评判哪一个框是最准确的、最想得到的框，使用维度聚类的方法来预测边界框，每个单元格预测3个尺寸；

8.根据权利要求6所述的一种多目标智能成像与识别方法，其特征在于，所述步骤2包括以下步骤：

步骤2.4，在Yolo v3中采用类似FPN(feature pyramid networks)的upsample和融合做法，融合了3个scale，两个scale的大小分别是26×26和52×52，在多个scale的featuremap上做检测，越精细的grid cell就能检测出越精细的物体；Yolo v3设定的是每个网格单元预测3个box，每个box有(x,y,w,h,confidence)五个基本参数；Yolo v3输出了3个不同尺度的feature map，y1,y2,y3；y1,y2和y3的深度都是255，边长的规律是13:26:52；每个预测任务得到的特征大小都为N×N×[3*(4+1+80)]，N为格子大小，3为每个格子得到的边界框数量，4是边界框坐标数量，1是目标预测值，80是类别数量，对于COCO类别，有80个类别的概率，所以每个box对每个种类都输出一个概率，3×(5+80)＝255；

步骤2.5，Yolo v3用上采样的方法来实现多尺度的feature map，在Darknet-53得到的特征图的基础上，经过六个DBL结构和最后一层卷积层得到第一个特征图谱，在特征图谱上做第一次预测，Y1支路上，从后向前的倒数第3个卷积层的输出，经过一个DBL结构和一次(2,2)上采样，将上采样特征与第2个Res8结构输出的卷积特征张量连接，经过六个DBL结构和最后一层卷积层得到第二个特征图谱，在第二个特征图谱上做第二次预测；Y2支路上，从后向前倒数第3个卷积层的输出，经过一个DBL结构和一次(2,2)上采样，将上采样特征与第1个Res8结构输出的卷积特征张量连接，经过六个DBL结构和最后一层卷积层得到第三个特征图谱，在第三个特征图谱上做第三次预测；就整个网络而言，Yolo v3多尺度预测输出的feature map尺寸为y1：(13×13)，y2：(26×26)，y3：(52×52)，网络接收一张(416×416)的图，经过5个步长为2的卷积来进行降采样(416/2^5＝13，y1输出(13×13)，从y1的倒数第二层的卷积层上采样(x2，up sampling)再与最后一个26×26大小的特征图张量连接，y2输出(26×26)；从y2的倒数第二层的卷积层上采样(x2，up sampling)再与最后一个52×52大小的特征图张量连接，y3输出(52×52)。

9.根据权利要求6所述的一种多目标智能成像与识别方法，其特征在于，所述步骤4包括以下步骤：

步骤4.6，YOLO v3在3个不同尺度上进行预测，检测层用于在三个不同大小的特征图上执行预测，特征图步幅分别是32、16、8，当输入图像大小是416 x 416时，在尺度13 x 13、26x 26和52 x 52上执行检测，网络在第一个检测层之前对输入图像执行下采样，检测层使用步幅为32的层的特征图执行检测，随后在执行因子为2的上采样后，并与前一个层的特征图拼接，另一个检测在步幅为16的层中执行，重复同样的上采样步骤，最后一个检测在步幅为8的层中执行；上采样能帮助网络学习细粒度特征以检测较小目标；

步骤4.8，输出处理：对于大小为416 x 416的图像，YOLO预测((52 x 52)+(26 x 26)+13 x 13)) x 3＝10647个边界框，目标置信度阈值，根据objectness分数过滤边界框，分数低于阈值的边界框被忽略；

步骤4.9，非极大值抑制解决对同一个图像的多次检测的问题，红色网格单元的3个边界框能检测一个框，临近网格检测相同对象；

步骤4.10，在loss function中，第一行和第二行表示localization error即坐标误差，第一行是box中心坐标(x,y)的预测，第二行为宽和高的预测，用宽和高的开根号代替原来的宽和高，相同的宽和高误差对于小的目标精度影响比大的目标要大，原来w＝10，h＝20，预测出来w＝8，h＝22，跟原来w＝3，h＝5，预测出来w1，h＝7相比，前者的误差要比后者小，但是不加开根号，则损失都是一样：4+4＝8，但是加上根号后，变成0.15和0.7；在lossfunction中，第三、四行表示bounding box的confidence损失，分成grid cell包含与不包含object两种情况，每个grid cell包含两个bounding box，当ground truth和网格中的某个bounding box的IOU值最大的时候才进行计算，第五行表示预测类别的误差，前面的系数只有在grid cell包含object的时候为1，通过损失函数公式计算和特征提取检测以解决小目标检测不到的问题以及多个框重叠在一起只能画出一个框的问题以最终达到对于小尺寸的对象的理想检测效果。