CN108446694A

CN108446694A - 一种目标检测方法及装置

Info

Publication number: CN108446694A
Application number: CN201710084854.6A
Authority: CN
Inventors: 虞抒沁
Original assignee: Hangzhou Hikvision Digital Technology Co Ltd
Current assignee: Hangzhou Hikvision Digital Technology Co Ltd
Priority date: 2017-02-16
Filing date: 2017-02-16
Publication date: 2018-08-24
Anticipated expiration: 2037-02-16
Also published as: CN108446694B

Abstract

本发明实施例提供了一种目标检测方法及装置，其中，目标检测方法包括：根据预设的待检测目标的尺寸，确定第一卷积核的尺寸；利用第一卷积核对原图像进行卷积运算，得到原图像的初始特征图；确定包含有多个预设特征提取层的特征提取模型，其中，特征提取模型用于根据初始特征图，并通过多个预设特征提取层的卷积运算，输出符合预设任务的图像的有效特征信息；根据该特征信息，通过预设多类回归算法及预设位置回归算法，得到待检测目标的类别及待检测目标在原图像中的位置信息。通过本发明可以提高目标检测的实际运行效率。

Description

一种目标检测方法及装置

技术领域

本发明涉及图像处理技术领域，特别是涉及一种目标检测方法及装置。

背景技术

目标检测是一项涉及计算机视觉和图像处理的重要技术，其主要目的是在图像和视频中检测出某些类别的目标实例，例如人类、建筑、车辆等。目标检测技术目前应用于图像检索、视频监控以及人机交互领域。传统的目标检测方法多以人工构造特征配合机器学习的方式进行，该类方法适用于场景固定，目标姿态变化不大，光照条件变化不大的情况。

针对上述传统的目标检测方法存在的问题，深度学习提取特征的方法应运而生。深度学习提取特征的方法的主要思想在于建立、模拟人脑进行分析学习的神经网络，它模仿人脑的机制来解释数据，深度学习通过组合低层特征形成更加抽象的高层表示属性类别或特征，以发现数据的分布式特征表示。深度学习提取特征的方法使得目标检测算法的性能得到了极大提高，基本解决了目标姿态变化的问题，对于场景和光照的鲁棒性也有很大提高。卷积神经网络属于深度学习提取特征的方法中一种多层结构学习的方法，卷积神经网是一个多层的神经网络，每层通过卷积运算得到图像对应的特征图像，卷积神经网络的方法通过减少参数数目使得训练性能得到了提高。

但是，基于卷积神经网络的方法，在计算每一层的特征图像时，计算量极为庞大，远远超出DSP(Digital Signal Processor，数字信号处理器)和ARM(Advanced ReducedInstruction Set Computer Machines，精简指令集计算机微处理器)芯片的处理能力，从而导致目标检测的实际运行效率很低，并且在降低计算量时，易影响特征提取的效果。

发明内容

本发明实施例的目的在于提供一种目标检测方法及装置，以通过降低方法的计算量，提高目标检测的实际运行效率，并提高特征提取的效果。具体技术方案如下：

第一方面，本发明实施例提供了一种目标检测方法，所述方法包括：

根据预设的待检测目标的尺寸，确定第一卷积核的尺寸；

利用所述第一卷积核对原图像进行卷积运算，得到所述原图像的初始特征图；

确定包含有多个预设特征提取层的特征提取模型，其中，所述特征提取模型用于根据所述初始特征图，并通过所述多个预设特征提取层的卷积运算，输出符合预设任务的图像的有效特征信息；

所述特征提取模型中每个预设特征提取层利用第一1*1卷积核对上一个特征提取层输出的特征图进行卷积运算得到第一特征图，利用第二1*1卷积核对所述特征图进行卷积运算得到第二特征图，并设置所述第二1*1卷积核的预设输出通道数为所述第一1*1卷积核的输出通道数的预设倍数；利用第三1*1卷积核对所述第一特征图进行卷积运算得到第三特征图，利用第四卷积核对所述第一特征图进行卷积运算得到第四特征图，并设置所述第三1*1卷积核的输出通道数与所述第四卷积核的输出通道数之和为所述预设输出通道数；拼接所述第三特征图与所述第四特征图，得到第五特征图；将所述第二特征图与所述第五特征图中的对应元素相加后、得到的特征图输出至下一个特征提取层；

根据所述有效特征信息，通过预设多类回归算法及预设位置回归算法，得到所述待检测目标的类别及所述待检测目标在所述原图像中的位置信息。

可选的，所述利用所述第一卷积核对原图像进行卷积运算，得到所述原图像的初始特征图之前，所述方法还包括：

提取原图像的全局属性信息，对所述属性信息进行预处理，得到预处理后的图像；

所述利用所述第一卷积核对原图像进行卷积运算，包括：

利用所述第一卷积核对所述预处理后的图像进行卷积运算。

可选的，所述提取原图像的全局属性信息，对所述属性信息进行预处理，得到预处理后的图像之前，所述方法还包括：

对获取的图像进行缩放操作，得到满足预设分辨率的图像；

所述利用所述第一卷积核对原图像进行卷积运算，包括：

利用所述第一卷积核对所述满足预设分辨率的图像进行卷积运算。

可选的，所述预设倍数大于或者等于1；

所述第三1*1卷积核的输出通道数及所述第四卷积核的输出通道数均为所述第一1*1卷积核的输出通道数的数倍。

可选的，所述根据所述有效特征信息，通过多类回归算法及位置回归算法，得到所述待检测目标的类别及所述待检测目标在所述原图像中的位置信息，包括：

根据所述有效特征信息，通过预设多类回归算法，确定所述待检测目标属于不同类别的置信度；

选择所述置信度中的最大值，并根据所述最大值确定所述待检测目标的类别；

根据所述有效特征信息，通过预设位置回归算法，得到所述待检测目标的顶点坐标；

确定所述顶点坐标为所述待检测目标在所述原图像中的位置信息。

可选的，所述根据所述有效特征信息，通过预设多类回归算法及预设位置回归算法，得到所述待检测目标的类别及所述待检测目标在所述原图像中的位置信息之后，所述方法还包括：

获取所有待检测目标的检测框；

若任一待检测目标存在多个所述检测框，采用预设非极大值抑制方法对所述多个检测框进行处理、得到所述待检测目标的感兴趣区域。

可选的，所述针对同一个目标存在多个所述检测框，采用预设非极大值抑制方法处理、得到最终检测结果作为感兴趣区域之后，所述方法还包括：

采用预设贪心算法分割所述感兴趣区域，得到多个待拼接矩形图像块，以使得所有待拼接矩形图像块的面积相加最小；

根据预设匹配优先策略，对所述待拼接矩形图像块进行二维装箱操作，得到装箱后的图像；

确定所述装箱后的图像为分辨率小于原图像的图像。

可选的，所述根据预设匹配优先策略，对所述待拼接矩形图像块进行二维装箱操作，得到装箱后的图像，包括：

在可拼接的轮廓线中选取平行于水平方向的最低的第一线段，其中，所述可拼接的轮廓线为已拼接的矩形图像块与未拼接区域之间形成的线段；选取所述第一线段中位于最左侧的第一线段作为第二线段，按照预设拼接序列依次将所述待拼接矩形图像块与所述第二线段进行比较；选择所述待拼接矩形图像块中宽度与所述第二线段的宽度相等、且拼接后满足填平条件的待拼接矩形图像块，其中，所述填平条件为所述待拼接矩形图像块的顶端与相邻已拼接的矩形图像块的顶端平齐；拼接所有待拼接矩形图像块，得到装箱后的图像；

或者，

在可拼接的轮廓线中选取平行于水平方向的最低的第一线段，其中，所述可拼接的轮廓线为已拼接的矩形图像块与未拼接区域之间形成的线段；选择所述待拼接矩形图像块中宽度与所述第一线段的宽度相等、且面积最大的待拼接矩形图像块；拼接所有待拼接矩形图像块，得到装箱后的图像；

或者，

在可拼接的轮廓线中选取平行于水平方向的最低的第一线段，其中，所述可拼接的轮廓线为已拼接的矩形图像块与未拼接区域之间形成的线段；按照预设拼接序列依次组合相邻两个矩形图像块，得到组合矩形图像块；选择所述组合矩形图像块中宽度与所述第一线段的宽度相等、且第一个矩形图像块的面积最大的组合矩形图像块；拼接所有待拼接矩形图像块，得到装箱后的图像；

或者，

在可拼接的轮廓线中选取平行于水平方向的最低的第一线段，其中，所述可拼接的轮廓线为已拼接的矩形图像块与未拼接区域之间形成的线段；按照预设拼接序列依次比较所述待拼接矩形图像块的宽度与所述第一线段的宽度；选择所述待拼接矩形图像块中宽度不大于所述第一线段的宽度、且面积最大的待拼接矩形图像块；拼接所有待拼接矩形图像块，得到装箱后的图像。

第二方面，本发明实施例提供了一种目标检测装置，所述装置包括：

尺寸确定模块，用于根据预设的待检测目标的尺寸，确定第一卷积核的尺寸；

第一运算模块，用于利用所述第一卷积核对原图像进行卷积运算，得到所述原图像的初始特征图；

模型确定模块，用于确定包含有多个预设特征提取层的特征提取模型，所述特征提取模型用于根据所述初始特征图，并通过所述多个预设特征提取层的卷积运算，输出符合预设任务的图像的有效特征信息，其中，所述特征提取模型中每个预设特征提取层利用第一1*1卷积核对上一个特征提取层输出的特征图进行卷积运算得到第一特征图，利用第二1*1卷积核对所述特征图进行卷积运算得到第二特征图，并设置所述第二1*1卷积核的预设输出通道数为所述第一1*1卷积核的输出通道数的预设倍数；利用第三1*1卷积核对所述第一特征图进行卷积运算得到第三特征图，利用第四卷积核对所述第一特征图进行卷积运算得到第四特征图，并设置所述第三1*1卷积核的输出通道数与所述第四卷积核的输出通道数之和为所述预设输出通道数；拼接所述第三特征图与所述第四特征图，得到第五特征图；将所述第二特征图与所述第五特征图中的对应元素相加后、得到的特征图输出至下一个特征提取层；

目标确定模块，用于根据所述有效特征信息，通过预设多类回归算法及预设位置回归算法，得到所述待检测目标的类别及所述待检测目标在所述原图像中的位置信息。

可选的，所述装置还包括：

预处理模块，用于提取原图像的全局属性信息，对所述属性信息进行预处理，得到预处理后的图像；所述利用所述第一卷积核对原图像进行卷积运算，包括：利用所述第一卷积核对所述预处理后的图像进行卷积运算。

可选的，所述装置还包括：

缩放模块，用于对获取的图像进行缩放操作，得到满足预设分辨率的图像，以利用所述第一卷积核对所述满足预设分辨率的图像进行卷积运算。

可选的，所述模型确定模块中，所述预设倍数大于或者等于1；

可选的，所述目标确定模块，包括：

第一确定子模块，用于根据所述有效特征信息，通过预设多类回归算法，确定所述待检测目标属于不同类别的置信度；

第二确定子模块，用于选择所述置信度中的最大值，并根据所述最大值确定所述待检测目标的类别；

坐标计算子模块，用于根据所述有效特征信息，通过预设位置回归算法，得到所述待检测目标的顶点坐标；

第三确定子模块，用于确定所述顶点坐标为所述待检测目标在所述原图像中的位置信息。

可选的，所述装置还包括：

第一获取模块，用于获取所有待检测目标的检测框；

处理模块，用于若任一待检测目标存在多个所述检测框，采用预设非极大值抑制方法对所述多个检测框进行处理、得到所述待检测目标的感兴趣区域。

可选的，所述装置还包括：

分割模块，用于采用预设贪心算法分割所述感兴趣区域，得到多个待拼接矩形图像块，以使得所有待拼接矩形图像块的面积相加最小；

装箱模块，用于根据预设匹配优先策略，对所述待拼接矩形图像块进行二维装箱操作，得到装箱后的图像；

确定模块，用于确定所述装箱后的图像为分辨率小于原图像的图像。

可选的，所述装箱模块，具体用于：

或者，

本发明实施例提供的一种目标检测方法及装置，通过卷积运算得到原图像的特征图，再由建立的特征提取模型对该特征图进行多特征提取层的卷积运算得到特征信息，最后对特征信息进行多类回归及位置回归得到待检测目标的类别及在原图像中的位置信息。特征提取模型中每一个特征提取层都通过减少输入通道数减少了该特征提取层的计算量，从而提高目标检测的实际运行效率；并且通过第三1*1卷积核和第四卷积核的卷积运算及拼接，将减少输出通道数后得到的特性图的通道数恢复至与原通道数相同，然后通过第二1*1卷积核的卷积结果与上述拼接后得到的特征图的对应元素相加，提升了特征提取的效果。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为现有技术的特征提取模型的一种结构示意图；

图2为本发明实施例的目标检测方法的第一种流程示意图；

图3为本发明实施例的目标检测方法的第二种流程示意图；

图4为本发明实施例的目标检测方法的第三种流程示意图；

图5为本发明实施例的目标检测方法的第四种流程示意图；

图6为本发明实施例的特征提取层的一种结构示意图；

图7为本发明实施例的原图像中目标检测框示意图；

图8a为本发明实施例的已装箱矩形图像块及待装箱矩形图像块的结构示意图；

图8b为基于图5所示实施例的步骤S208中采用第一种预设匹配优先策略对图8a中待装箱矩形图像块进行装箱的结构示意图；

图8c为基于图5所示实施例的步骤S208中采用第二种预设匹配优先策略对图8a中待装箱矩形图像块进行装箱的结构示意图；

图8d为基于图5所示实施例的步骤S208中采用第四种预设匹配优先策略对图8a中待装箱矩形图像块进行装箱的结构示意图；

图9a、图9b、图9c、图9d及图9e为本发明实施例的完整的矩形图像块装箱流程对应的结构示意图；

图10为本发明实施例的目标检测装置的第一种流程示意图；

图11为本发明实施例的目标检测装置的第二种流程示意图；

图12为本发明实施例的目标检测装置的第三种流程示意图；

图13为本发明实施例的目标检测装置的第四种流程示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为了提高目标检测的运行效率，本发明实施例提供了一种目标检测方法及装置。

下面首先对本发明实施例所提供的目标检测方法进行介绍。

需要说明的是，本发明实施例所提供的一种目标检测方法的执行主体可以为图像处理系统中的核心处理单元，例如GPU(Graphics Processing Unit，图形处理器)。其中，实现本实施例所提供的一种目标检测方法的方式可以为设置于核心处理单元中的软件或者硬件电路。当然，需要强调的是，本发明实施例的执行主体不仅限于上述核心处理单元，实现目标检测方法的方式也不仅限于上述软件或硬件电路。

需要说明的是，图1为现有技术的卷积神经网络中的特征提取模型，卷积神经网络是一种高效识别的方法，由于卷积神经网络避免了对图像的复杂前期预处理，可以直接输入原始图像，因此卷积神经网络已发展为图像处理领域中常用的方法，用于进行图像的特征提取。特征提取模型中包含多个特征提取层101，每个特征提取层中的神经元的输入与前一层的局部接受域相连，提取该局部接受域的特征，然后通过特征映射得到每个局部接受域的特征对应的特征图。每一个特征提取层的输出通道数往往会很多，从而导致计算量太大，而在现有降低计算量的方法中，易使得特征提取的效果较差，因此，可以考虑通过调整每一个特征提取层的通道数目来减少计算量，并且保证特征提取的效果。

如图2所示，本发明实施例所提供的一种目标检测方法，可以包括如下步骤：

S201，根据预设的待检测目标的尺寸，确定第一卷积核的尺寸。

需要说明的是，本实施例中，目标检测是指确定待检测目标在获取的原图像中的位置及待检测目标的类别，在进行目标检测之前，用户可以根据实际检测的需求，确定待检测目标的以像素为单位的尺寸，待检测目标一般为根据需求预先设定的。

需要强调的是，卷积神经网络作为图像处理领域的一种常用的深度学习的网络结构，可以通过卷积实现图像的特征提取，为了能够与用户的实际检测需求进行比对，本实施例根据待检测目标的图像尺寸确定第一卷积核的尺寸，其中，第一卷积核的尺寸可以与待检测目标的图像尺寸的大小相同，也可以包含待检测目标的部分特征、且小于待检测目标的图像尺寸。

S202，利用第一卷积核对原图像进行卷积运算，得到原图像的初始特征图。

需要说明的是，利用上述尺寸的第一卷积核与原图像进行卷积运算，得到多个初始特征图。需要强调的是，初始特征图的个数可以是在初始化时设定的，而初始特征图的尺寸是由卷积核的尺寸和原图像的图像尺寸以及卷积步长决定的，假设原图像的图像尺寸是n*n、第一卷积核的尺寸是k*k，步长为s，则得到的初始特征图的尺寸是((n-k+1)/s)*((n-k+1)/s)。例如，原图像的图像尺寸为24*24，第一卷积核的尺寸为7*7，步长为1，则得到的初始特征图的尺寸为(24-7+1)*(24-7+1)＝18*18。

需要强调的是，获取的原图像可以是一段视频中的任一视频帧，也可以是输入的任一图片，这些都是合理的。

S203，确定包含有多个预设特征提取层的特征提取模型，该特征提取模型用于根据原图像的初始特征图，并通过多个预设特征提取层的卷积运算，输出符合预设任务的图像的有效特征信息。

其中，特征提取模型中每个预设特征提取层利用第一1*1卷积核对上一个特征提取层输出的特征图进行卷积运算得到第一特征图，利用第二1*1卷积核对特征图进行卷积运算得到第二特征图，并设置第二1*1卷积核的预设输出通道数为第一1*1卷积核的输出通道数的预设倍数；利用第三1*1卷积核对第一特征图进行卷积运算得到第三特征图，利用第四卷积核对第一特征图进行卷积运算得到第四特征图，并设置第三1*1卷积核的输出通道数与第四卷积核的输出通道数之和为预设输出通道数；拼接第三特征图与第四特征图，得到第五特征图；将第二特征图与第五特征图中的对应元素相加后、得到的特征图输出至下一个特征提取层。需要说明的是，在本实施例中，预设任务为目标检测任务，但是预设任务不仅限于此，例如，在图像分割的应用场景中，预设任务为图像分割任务。

具体的，拼接第三特征图与第四特征图，对具体的拼接形式不作限定，可以是根据获得第三特征图和第四特征图的先后顺序，依次进行拼接，也可以是根据属性信息进行拼接。当然，需要保证拼接后得到的第五特征图中特征信息与第二特征图中特征信息表征的图像信息相对应。

可选的，预设倍数大于或者等于1，第三1*1卷积核的输出通道数及第四卷积核的输出通道数均为第一1*1卷积核的输出通道数的数倍。

需要说明的是，假设卷积核的尺寸是m*m，上一个特征提取层输出的特征图的尺寸是w*h*c1，输出特征图像的通道数是c2，步长是s，其中，w为上一个特征提取层输出的特征图的宽，h为上一个特征提取层输出的特征图的高，c1为上一个特征提取层输出特征图像的通道数，则本层特征提取层的计算量为：m*m*c1*c2*((w/s)*(h/s))。例如，假设现有技术的卷积核尺寸为3*3，上一个特征提取层输出的特征图的尺寸是56*56*192，输出特征图像的通道数是256，步长为1，则计算量为56*56*192*256*((3/1)*(3/1))＝1387266048；通过本实施例，在3*3卷积核前增加了1*1卷积核，令该1*1卷积核的输出特征图像的通道为64，其他参数不变，则该1*1卷积核的计算量为38535168，1*1卷积核的输出特征图像作为3*3卷积核的输入，则3*3卷积核的计算量为462422016，总的计算量降至500957184，即降至原计算量的36.1％。根据上述例子可以得到：在原特征提取层的前端增加了输出通道数更小的卷积层，相当于减小了原特征提取层的输入通道数，即减小了c1，通过这样的处理，使得计算量下降，并且保持输出通道数量不变，保证特征提取效果不受影响。因此，本实施例首先通过减少输入通道数减少了特征提取层的计算量，然后通过第三1*1卷积核和第四卷积核的卷积运算及拼接，将减少通道数后得到的特性图的通道数恢复到与原通道数相同，并且通过第二1*1卷积核的卷积结果与上述拼接后得到的特征图的对应元素相加，提升了特征提取的效果。

S204，根据特征提取模型输出的有效特征信息，通过预设多类回归算法及预设位置回归算法，得到待检测目标的类别及待检测目标在原图像中的位置信息。

需要说明的是，目标检测就是检测出待检测目标的类别属性及位置信息。其中，预设多类回归算法及预设位置回归算法为在初始化时设定的算法，预设多类回归算法用于确定待检测目标的类别，预设位置回归算法用于确定待检测目标在原图像中的位置信息。

需要强调的是，待检测目标的类别可以用于确定待检测目标是人物、动物、车、树等实物目标对象，也可以用于确定人的面部特征、着装的颜色等用于表征特征的目标对象；待检测目标在原图像中的位置信息，可以是在原图像中的具体坐标，或者是具体方位。在确定类别和位置信息后，可以根据类别和位置信息提取待检测目标以进行显示。

可选的，所述根据特征提取模型输出的有效特征信息，通过预设多类回归算法及预设位置回归算法，得到待检测目标的类别及待检测目标在原图像中的位置信息，可以包括：

首先，根据有效特征信息，通过预设多类回归算法，确定待检测目标属于不同类别的置信度。

具体的，可以利用公式(1)确定待检测目标属于不同类别的置信度。

其中，h_θ(x(i))为待检测目标的置信度，x(i)为待检测目标所处位置i的特征，为类别为j的待检测目标的指数，j＝1,2,…,k，θ为有效特征信息，为所有类别的待检测目标的指数的总和。

其次，选择置信度中的最大值，并根据该最大值确定待检测目标的类别。

需要说明的是，在统计学中，一个概率样本的置信区间是对这个样本的某个总体参数的区间估计；置信区间表示的是这个参数的真实值有一定概率落在测量结果的周围的程度；置信区间给出的是被测量参数的测量值的可信程度，即前面所要求的一定概率；这个概率被称为置信度。在本实施例中，置信度越大说明待检测目标为对应类别的概率越大，因此，可以将待检测目标的类别设定为置信度中的最大值对应的类别。

再次，根据有效特征信息，通过预设位置回归算法，得到待检测目标的顶点坐标。

需要说明的是，待检测目标的顶点坐标可以直接通过预设位置回归算法，对特征信息卷积得到，卷积的过程属于现有技术，这里不再赘述。顶点坐标可以是待检测目标的至少一个顶点的坐标。

最后，确定顶点坐标为待检测目标在所述原图像中的位置信息。

需要说明的是，待检测目标在原图像中的位置信息可以是在原图像中，待检测目标到原图像的左边缘的距离和/或到原图像的下边缘的距离的信息；也可以是将原图像中任一点作为坐标原点，待检测目标的具体坐标。当然位置信息为到右边缘和/或到上边缘的距离的信息，也都是合理的。

应用本实施例，通过卷积运算得到原图像的特征图，再由建立的特征提取模型对该特征图进行多特征提取层的卷积运算得到特征信息，最后对特征信息进行多类回归及位置回归得到待检测目标的类别及在原图像中的位置信息。特征提取模型中每一个特征提取层都通过减少输入通道数减少了该特征提取层的计算量，从而提高目标检测的实际运行效率；并且通过第三1*1卷积核和第四卷积核的卷积运算及拼接，将减少输出通道数后得到的特性图的通道数恢复至与原通道数相同使最终的输出特征与一般网络结构的输出特征具有相同的信息描述能力，然后通过第二1*1卷积核的卷积结果与上述拼接后得到的特征图的对应元素相加来进一步弥补第一卷积核减少通道导致的信息缺失，最终提升了特征提取的效果。

如图3所示，本实施例所提供的一种目标检测方法，在如图2所示的实施例的基础上，S202，利用第一卷积核对原图像进行卷积运算，得到原图像的初始特征图的步骤之前，目标检测方法还可以包括：

S301，提取原图像的全局属性信息，对该属性信息进行预处理，得到预处理后的图像，以利用第一卷积核对预处理后的图像进行卷积运算。

需要说明的是，在得到输入的原图像时，获取的原图像的质量不能有所保证，在获取到的原图像中存在干扰因素时，需要对干扰因素先进行消除，以保证原图像在进行目标检测的步骤中具有较高的图像质量。一般情况下，提取原图像的像素值，对原图像的像素值进行预处理。预处理可以包括裁剪均值、归一化及去模糊的操作，裁剪均值、归一化及去模糊为现有技术，这里不再一一赘述。

具体的，可以将原图像的像素值转换为三个通道的数据，三个通道分别为第一通道、第二通道、第三通道，每个通道的数据独立获取，作为目标检测的输入。三个通道的数据可以根据YUV像素值的各通道的数据确定，根据YUV像素值确定三个通道的数据的方法属于现有技术，这里不再赘述。

需要强调的是，将第一通道、第二通道、第三通道的输出数据作为预处理后的像素值，对预处理后的原图像进行目标检测。因此，在执行目标检测之前，先对获取的原图像进行预处理，消除原图像的干扰因素，对图像预处理可以采用现有的任一种方法，如灰度变换、直方图修正、图像平滑去噪等。本实施例中，步骤S201至S204与图2所示实施例的步骤相同，这里不再赘述。

应用本实施例，通过卷积运算得到原图像的特征图，再由建立的特征提取模型对该特征图进行多特征提取层的卷积运算得到特征信息，最后对特征信息进行多类回归及位置回归得到待检测目标的类别及在原图像中的位置信息。特征提取模型中每一个特征提取层都通过减少输入通道数减少了该特征提取层的计算量，从而提高目标检测的实际运行效率；并且通过第三1*1卷积核和第四卷积核的卷积运算及拼接，将减少输出通道数后得到的特性图的通道数恢复至与原通道数相同使最终的输出特征与一般网络结构的输出特征具有相同的信息描述能力，然后通过第二1*1卷积核的卷积结果与上述拼接后得到的特征图的对应元素相加来进一步弥补第一卷积核减少通道导致的信息缺失，最终提升了特征提取的效果。并且在执行目标检测之前，先对获取的原图像进行预处理，消除原图像的干扰因素。

如图4所示，本实施例所提供的一种目标检测方法，在如图3所示的实施例的基础上，S301，提取原图像的全局属性信息，对属性信息进行预处理，得到预处理后的图像的步骤之前，目标检测方法还可以包括：

S401，对获取的图像进行缩放操作，得到满足预设分辨率的图像，以利用第一卷积核对满足预设分辨率的图像进行卷积运算。

需要说明的是，输入的原图像的尺寸可能会很大，例如1080P，太大的原图像尺寸会严重影响运算的效率。因此，为了进一步提升目标检测的效率，通过缩放操作，将大尺寸的原图像缩放到预设分辨率上，预设分辨率可以为便于提升运算的小的分辨率。本实施例中，步骤S301及S201至S204与图3所示实施例的步骤相同，这里不再赘述。

应用本实施例，通过卷积运算得到原图像的特征图，再由建立的特征提取模型对该特征图进行多特征提取层的卷积运算得到特征信息，最后对特征信息进行多类回归及位置回归得到待检测目标的类别及在原图像中的位置信息。特征提取模型中每一个特征提取层都通过减少输入通道数减少了该特征提取层的计算量，从而提高目标检测的实际运行效率；并且通过第三1*1卷积核和第四卷积核的卷积运算及拼接，将减少输出通道数后得到的特性图的通道数恢复至与原通道数相同使最终的输出特征与一般网络结构的输出特征具有相同的信息描述能力，然后通过第二1*1卷积核的卷积结果与上述拼接后得到的特征图的对应元素相加来进一步弥补第一卷积核减少通道导致的信息缺失，最终提升了特征提取的效果。并且通过缩放操作，将大尺寸的原图像缩放到预设分辨率上，进一步提升目标检测的效率。在执行目标检测之前，先对获取的原图像进行预处理，消除原图像的干扰因素。

如图5所示，本实施例所提供的一种目标检测方法，所述根据特征提取模型输出的有效特征信息，通过预设多类回归算法及预设位置回归算法，得到待检测目标的类别及待检测目标在原图像中的位置信息的步骤之后，目标检测方法还可以包括：

S205，获取所有待检测目标的检测框。

需要说明的是，目标检测系统中，在待检测目标所处区域的周围会形成至少一个矩形框，称该矩形框为检测框，检测框主要用来覆盖待检测目标，例如在一般的人物拍摄时，会形成一个检测框，覆盖人物眼睛周围的区域，以识别拍摄到的是人物的脸庞。

S206，若任一待检测目标存在多个检测框，采用预设非极大值抑制方法对多个检测框进行处理、得到该待检测目标的感兴趣区域。

其中，非极大值抑制方法的本质是搜索局部极大值，抑制非极大值元素，在目标检测中应用非极大值抑制方法的主要目的是消除多余的检测框，找到最佳目标检测位置，例如在人脸检测中，虽然每个窗口均检测到人脸，但仅需给出一个最有可能表征人脸的窗口。非极大值抑制方法的具体计算方法属于现有技术，这里不再赘述。

需要说明的是，感兴趣区域可以是包含有待检测目标的原图像中的多个区域，这些区域中包含了除待检测目标以外很多冗余的内容，因此，可以对多个感兴趣区域进行拼图，再执行目标检测的步骤，以减少检测得到的图像中包含的冗余内容。当然，经过多次的拼图、目标检测，可以检测得到尽可能不包含冗余内容的图像。

S207，采用预设贪心算法分割感兴趣区域，得到多个待拼接矩形图像块，以使得所有待拼接矩形图像块的面积相加最小。

需要说明的是，预设贪心算法是指在分割感兴趣区域时，总是做出在当前看来是最好的选择；也就是说，不从整体最优的分割策略予以考虑，所做出的仅是局部最优选择。贪心算法的特点是以当前情况为基础，根据某个优化参数作为最优选择，而不考虑整体情况，省去了为找最优解要穷尽所有可能而必须耗费的大量时间，该贪心算法采用自顶向下，以迭代的方法做出相继的选择，每做一次选择就将所求问题简化为一个规模更小的子问题，通过每一步选择，可得到问题的一个最优解。贪心算法属于现有技术，这里不再赘述。其中，通过预设贪心算法得到的待拼接矩形图像块的面积相加最小。

S208，根据预设匹配优先策略，对待拼接矩形图像块进行二维装箱操作，得到装箱后的图像。

需要说明的是，在只知道待拼接矩形图像块的面积总和的情况下，求待拼接矩形图像块的排布使得该排布的面积最小的问题是一个非确定多项式问题，一般无法找到最优解，可以利用以下规则计算近似的最优解：第一，面积较大的待拼接矩形图像块在拼接后产生的空洞较大，面积较小的待拼接矩形图像块在拼接后产生的空洞较小；第二，面积较大的待拼接矩形图像块在拼接后产生的空洞常常可以拼接面积较小的待拼接矩形图像块；第三，拼接过程中产生的轮廓线越规整，即轮廓线中平行于水平方向的线段的数量越少，越有利于后期待拼接矩形图像块的拼接，其中，轮廓线为已拼接的矩形图像块与未拼接区域之间形成的线段。

可选的，根据上述规则，所述根据预设匹配优先策略，对待拼接矩形图像块进行二维装箱操作，得到装箱后的图像，具体可以包括：

根据第一种预设匹配优先策略，对待拼接矩形图像块进行二维装箱操作，得到装箱后的图像。具体的，在可拼接的轮廓线中选取平行于水平方向的最低的第一线段，其中，可拼接的轮廓线为已拼接的矩形图像块与未拼接区域之间形成的线段；当有多条第一线段时，选取第一线段中位于最左侧的第一线段作为第二线段，按照预设拼接序列依次将待拼接矩形图像块与第二线段进行比较；选择待拼接矩形图像块中宽度与第二线段的宽度相等、且拼接后满足填平条件的待拼接矩形图像块，其中，填平条件为待拼接矩形图像块的顶端与相邻已拼接的矩形图像块的顶端平齐；拼接所有待拼接矩形图像块，得到装箱后的图像。

或者，

根据第二种预设匹配优先策略，对待拼接矩形图像块进行二维装箱操作，得到装箱后的图像。具体的，在可拼接的轮廓线中选取平行于水平方向的最低的第一线段，其中，可拼接的轮廓线为已拼接的矩形图像块与未拼接区域之间形成的线段；选择待拼接矩形图像块中宽度与第一线段的宽度相等、且面积最大的待拼接矩形图像块；拼接所有待拼接矩形图像块，得到装箱后的图像。

或者，

根据第三种预设匹配优先策略，对待拼接矩形图像块进行二维装箱操作，得到装箱后的图像。具体的，在可拼接的轮廓线中选取平行于水平方向的最低的第一线段，其中，可拼接的轮廓线为已拼接的矩形图像块与未拼接区域之间形成的线段；按照预设拼接序列依次组合相邻两个矩形图像块，得到组合矩形图像块；选择组合矩形图像块中宽度与第一线段的宽度相等、且第一个矩形图像块的面积最大的组合矩形图像块；拼接所有待拼接矩形图像块，得到装箱后的图像。

或者，

根据第四种预设匹配优先策略，对待拼接矩形图像块进行二维装箱操作，得到装箱后的图像。具体的，在可拼接的轮廓线中选取平行于水平方向的最低的第一线段，其中，可拼接的轮廓线为已拼接的矩形图像块与未拼接区域之间形成的线段；按照预设拼接序列依次比较待拼接矩形图像块的宽度与第一线段的宽度；选择待拼接矩形图像块中宽度不大于第一线段的宽度、且面积最大的待拼接矩形图像块；拼接所有待拼接矩形图像块，得到装箱后的图像。

S209，确定装箱后的图像为分辨率小于原图像的图像。

需要说明的是，由于通过对图像的分割及拼接的过程，完成装箱后得到的图像，该图像的分辨率小于原图像的分辨率，针对该图像，可以进一步进行目标检测的步骤，以使得检测到的待检测目标更为精确，并提高后续目标检测步骤的效率。

应用本实施例，通过卷积运算得到原图像的特征图，再由建立的特征提取模型对该特征图进行多特征提取层的卷积运算得到特征信息，最后对特征信息进行多类回归及位置回归得到待检测目标的类别及在原图像中的位置信息。特征提取模型中每一个特征提取层都通过减少输入通道数减少了该特征提取层的计算量，从而提高目标检测的实际运行效率；并且通过第三1*1卷积核和第四卷积核的卷积运算及拼接，将减少输出通道数后得到的特性图的通道数恢复至与原通道数相同使最终的输出特征与一般网络结构的输出特征具有相同的信息描述能力，然后通过第二1*1卷积核的卷积结果与上述拼接后得到的特征图的对应元素相加来进一步弥补第一卷积核减少通道导致的信息缺失，最终提升了特征提取的效果。并通过拼图及级联目标检测，使得检测到的待检测目标更为精确，并提高目标检测的效率。

图6为本发明实施例中特征提取层的一种具体实施方式。

假设如图1所示的现有技术的特征提取模型中本特征提取层101的输出通道数为256。

第一模块601，利用第一1*1卷积核对上一个特征提取层输出的特征图进行卷积运算得到第一特征图，并将第一1*1卷积核的输出通道数降至如图1所示的现有技术的特征提取模型中本特征提取层的输出通道数的1/4，即第一1*1卷积核的输出通道数为64；

第二模块602，利用第三1*1卷积核对第一特征图进行卷积运算得到第三特征图，并将第三1*1卷积核的输出通道数设置为第一1*1卷积核的输出通道数的2倍，即第三1*1卷积核的输出通道数为128；

第三模块603，利用第四3*3卷积核对第一特征图进行卷积运算得到第四特征图，并将第四3*3卷积核的输出通道数设置为第一1*1卷积核的输出通道数的2倍，即第四3*3卷积核的输出通道数为128；

第四模块604，拼接第三特征图与第四特征图，得到第五特征图，并且第四模块604的输出通道数为256；

第五模块605，利用第二1*1卷积核对上一个特征提取层输出的特征图进行卷积运算得到第二特征图，并设置第二1*1卷积核的输出通道数与如图1所示的现有技术的特征提取模型中本特征提取层的输出通道数相同，即第二1*1卷积核的输出通道数为256；

第六模块606，将第二特征图与第五特征图中的对应元素相加后、得到的特征图输出至下一个特征提取层。

如图7所示，在第六模块606输出特征图后，通过目标框位置回归策略，根据目标的特征属性及目标在图像701中的远近位置，得到面积大小不同、形状不同的目标检测框，这些目标检测框即为矩形图像块；然后通过贪心算法分割各感兴趣区域，得到待拼接矩形图像块；然后利用预设匹配优先策略，对矩形图像块进行二维装箱操作。需要说明的是，目标检测框的面积越大，说明目标的在图像701中的位置越近，图中长条状的矩形可能表示目标为人，方形可能表示为汽车等等。

图8a所示，为本发明实施例的已装箱矩形图像块及待装箱矩形图像块的结构示意图，图8a中已在箱子800装入了4个矩形图像块，分别为第一矩形图像块801、第二矩形图像块802、第三矩形图像块803及第四矩形图像块804，每个矩形图像块与未拼接区域之间形成可拼接的轮廓线e1、e2、e3及e4，其中，e2为所有可拼接的轮廓线中的平行于水平方向的位于最左侧的最低轮廓线，轮廓线e2所对应的区域是接下来矩形图像框拼接首先要考虑的区域。

如图8b所示，为基于图5所示实施例的步骤S208中采用第一种预设匹配优先策略对图8a中待装箱矩形图像块进行装箱的结构示意图。与轮廓线e2等宽的矩形图像块有第六矩形图像块806及第八矩形图像块808，但由于只有第八矩形图像块808装入后能够实现左填平，因此优先选择矩形图像块808装入，并且形成可拼接的轮廓线e5、e3及e4。

如图8c所示，为基于图5所示实施例的步骤S208中采用第二种预设匹配优先策略对图8a中待装箱矩形图像块进行装箱的结构示意图。与轮廓线e2等宽的矩形图像块有第六矩形图像块806及第八矩形图像块808，但由于第六矩形图像块806面积较大，所以优先选择第六矩形图像块806装入，并形成可拼接的轮廓线e1、e6、e3及e4。

如图8c所示，为基于图5所示实施例的步骤S208中采用第四种预设匹配优先策略对图8a中待装箱矩形图像块进行装箱的结构示意图。第六矩形图像块806、第七矩形图像块807及第八矩形图像块808，都满足宽度不大于轮廓线e2的宽度的条件，但只有第七矩形图像块807和第八矩形图像块808装入后能够实现左填平使得轮廓线最少，且第七矩形图像块807的位置在第八矩形图像块808之前，所以优先选择第七矩形图像块807装入，并形成可拼接的轮廓线e7、e8、e3及e4。

如图9a、图9b、图9c、图9d及图9e所示，为本发明实施例的完整的矩形图像块装箱流程对应的结构示意图。如图9a所示，在箱子900内没有任何矩形图像块时，第一矩形图像块901和第五矩形图像块905的组合宽度等于箱子宽度，第二矩形图像块902和第四矩形图像块904的组合同样与箱子等宽，根据第三预设匹配优先策略选择第一矩形图像块901和第二矩形图像块902中面积较大的第一矩形图像块901装入；如图9b所示，装入第一矩形图像块901之后，形成可拼接的轮廓线e1及e2，将可拼接的轮廓线e2设定为第一线段，根据第二预设匹配优先策略，第五矩形图像块905的宽度正好等于可拼接的轮廓线e2的宽度，选择第五矩形图像块905装入；如图9c所示，装入第五矩形图像块905之后，形成可拼接的轮廓线e1及e3，将可拼接的轮廓线e1设定为第一线段，根据第三预设匹配优先策略，第二矩形图像块902和第三矩形图像块903的组合能填平当前的第一线段e1，根据先选择第二矩形图像块902、后选择第三矩形图像块903的顺序装入；如图9d所示，装入第二矩形图像块902和第三矩形图像块903之后，形成可拼接的轮廓线e4及e5，将可拼接的轮廓线e5设定为第一线段，根据第一预设匹配优先策略，选择第四矩形图像块904装入；如图9e所示为所有矩形图像块装入后的图像。

应用本实施例，特征提取模型中每一个特征提取层都通过减少输入通道数减少了该特征提取层的计算量，从而提高目标检测的实际运行效率；并且通过第三1*1卷积核和第四卷积核的卷积运算及拼接，将减少输出通道数后得到的特征图的通道数恢复至与原通道数相同，然后通过第二1*1卷积核的卷积结果与上述拼接后得到的特征图的对应元素相加，提升了特征提取的效果。特征提取模型中的每一层都按照本实施例的步骤进行计算，能够减少约70％的计算量。

相应于上述方法实施例，本发明实施例提供了一种目标检测装置，如图10所述，所述装置可以包括：

尺寸确定模块1010，用于根据预设的待检测目标的尺寸，确定第一卷积核的尺寸；

第一运算模块1020，用于利用所述第一卷积核对原图像进行卷积运算，得到所述原图像的初始特征图；

模型确定模块1030，用于确定包含有多个预设特征提取层的特征提取模型，所述特征提取模型用于根据所述初始特征图，并通过所述多个预设特征提取层的卷积运算，输出符合预设任务的图像的有效特征信息，其中，所述特征提取模型中每个预设特征提取层利用第一1*1卷积核对上一个特征提取层输出的特征图进行卷积运算得到第一特征图，利用第二1*1卷积核对所述特征图进行卷积运算得到第二特征图，并设置所述第二1*1卷积核的预设输出通道数为所述第一1*1卷积核的输出通道数的预设倍数；利用第三1*1卷积核对所述第一特征图进行卷积运算得到第三特征图，利用第四卷积核对所述第一特征图进行卷积运算得到第四特征图，并设置所述第三1*1卷积核的输出通道数与所述第四卷积核的输出通道数之和为所述预设输出通道数；拼接所述第三特征图与所述第四特征图，得到第五特征图；将所述第二特征图与所述第五特征图中的对应元素相加后、得到的特征图输出至下一个特征提取层；

目标确定模块1040，用于根据所述有效特征信息，通过预设多类回归算法及预设位置回归算法，得到所述待检测目标的类别及所述待检测目标在所述原图像中的位置信息。

更进一步的，在包含尺寸确定模块1010、第一运算模块1020、模型确定模块1030、目标确定模块1040的基础上，如图11所示，本发明实施例所提供的一种目标检测装置还可以包括：

预处理模块1110，用于提取原图像的全局属性信息，对所述属性信息进行预处理，得到预处理后的图像，以利用所述第一卷积核对所述预处理后的图像进行卷积运算。

更进一步的，在包含尺寸确定模块1010、第一运算模块1020、模型确定模块1030、目标确定模块1040、预处理模块1110的基础上，如图12所示，本发明实施例所提供的一种目标检测装置还可以包括：

缩放模块1210，用于对获取的图像进行缩放操作，得到满足预设分辨率的图像，以利用所述第一卷积核对所述满足预设分辨率的图像进行卷积运算。

可选的，所述模型确定模块1030中，所述预设倍数大于或者等于1。

可选的，所述目标确定模块1040，可以包括：

更进一步的，在包含尺寸确定模块1010、第一运算模块1020、模型确定模块1030、目标确定模块1040的基础上，如图13所示，本发明实施例所提供的一种目标检测装置还可以包括：

第一获取模块1050，用于获取所有待检测目标的检测框；

处理模块1060，用于若任一待检测目标存在多个所述检测框，采用预设非极大值抑制方法对所述多个检测框进行处理、得到所述待检测目标的感兴趣区域；

分割模块1070，用于采用预设贪心算法分割所述感兴趣区域，得到多个待拼接矩形图像块，以使得所有待拼接矩形图像块的面积相加最小；

装箱模块1080，用于根据预设匹配优先策略，对所述待拼接矩形图像块进行二维装箱操作，得到装箱后的图像；

确定模块1090，用于确定所述装箱后的图像为分辨率小于原图像的图像。

可选的，所述装箱模块1080，具体用于：

或者，

可以理解的是，本发明实施例的另一实施例中目标检测装置可以同时包括：尺寸确定模块1010、第一运算模块1020、模型确定模块1030、目标确定模块1040、预处理模块1110、缩放模块1210、第一获取模块1050、处理模块1060、分割模块1070、装箱模块1080和确定模块1090。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种目标检测方法，其特征在于，所述方法包括：

根据预设的待检测目标的尺寸，确定第一卷积核的尺寸；

2.根据权利要求1所述的目标检测方法，其特征在于，所述利用所述第一卷积核对原图像进行卷积运算，得到所述原图像的初始特征图之前，所述方法还包括：

所述利用所述第一卷积核对原图像进行卷积运算，包括：

利用所述第一卷积核对所述预处理后的图像进行卷积运算。

3.根据权利要求2所述的目标检测方法，其特征在于，所述提取原图像的全局属性信息，对所述属性信息进行预处理，得到预处理后的图像之前，所述方法还包括：

对获取的图像进行缩放操作，得到满足预设分辨率的图像；

所述利用所述第一卷积核对原图像进行卷积运算，包括：

4.根据权利要求1所述的目标检测方法，其特征在于，所述预设倍数大于或者等于1；

5.根据权利要求1所述的目标检测方法，其特征在于，所述根据所述有效特征信息，通过多类回归算法及位置回归算法，得到所述待检测目标的类别及所述待检测目标在所述原图像中的位置信息，包括：

6.根据权利要求1所述的目标检测方法，其特征在于，所述根据所述有效特征信息，通过预设多类回归算法及预设位置回归算法，得到所述待检测目标的类别及所述待检测目标在所述原图像中的位置信息之后，所述方法还包括：

获取所有待检测目标的检测框；

若任一待检测目标存在多个检测框，采用预设非极大值抑制方法对所述多个检测框进行处理、得到所述待检测目标的感兴趣区域。

7.根据权利要求6所述的目标检测方法，其特征在于，所述针对同一个目标存在多个所述检测框，采用预设非极大值抑制方法处理、得到最终检测结果作为感兴趣区域之后，所述方法还包括：

确定所述装箱后的图像为分辨率小于原图像的图像。

8.根据权利要求7所述的目标检测方法，其特征在于，所述根据预设匹配优先策略，对所述待拼接矩形图像块进行二维装箱操作，得到装箱后的图像，包括：

或者，

9.一种目标检测装置，其特征在于，所述装置包括：

10.根据权利要求9所述的目标检测装置，其特征在于，所述装置还包括：

11.根据权利要求10所述的目标检测装置，其特征在于，所述装置还包括：

12.根据权利要求9所述的目标检测装置，其特征在于，所述模型确定模块中，所述预设倍数大于或者等于1；

13.根据权利要求9所述的目标检测装置，其特征在于，所述目标确定模块，包括：

14.根据权利要求9所述的目标检测装置，其特征在于，所述装置还包括：

第一获取模块，用于获取所有待检测目标的检测框；

15.根据权利要求14所述的目标检测装置，其特征在于，所述装置还包括：

16.根据权利要求15所述的目标检测装置，其特征在于，所述装箱模块，具体用于：

或者，