CN113496150B

CN113496150B - 密集目标检测方法、装置、存储介质及计算机设备

Info

Publication number: CN113496150B
Application number: CN202010199855.7A
Authority: CN
Inventors: 赵君杰; 谢伟; 黄倩倩; 李逸; 胡荣东
Original assignee: Changsha Intelligent Driving Research Institute Co Ltd
Current assignee: Changsha Intelligent Driving Research Institute Co Ltd
Priority date: 2020-03-20
Filing date: 2020-03-20
Publication date: 2023-03-21
Anticipated expiration: 2040-03-20
Also published as: WO2021185379A1; CN113496150A

Abstract

本申请涉及一种密集目标检测方法、装置、存储介质及计算机设备，获取初始特征，并根据初始特征得到至少两个图像特征；分别提取各图像特征对应的各深度特征；基于各深度特征，以及前一层级图像特征进行融合，得到各融合特征；分别对各融合特征进行目标检测，基于各目标检测结果得到目标检测信息。在本申请的技术方案中，一方面，基于不同层级的图像特征进行深度特征提取，从而可以获取更丰富的层级语义特征信息；另一方面，通过进行特征融合得到融合特征，并在融合特征的基础上进行目标检测，从而，通过结合不同层级的图像特征以及深度特征，使得用于进行目标检测的语义特征信息更加丰富，进而提高密集场景下的目标检测结果的准确性。

Description

密集目标检测方法、装置、存储介质及计算机设备

技术领域

本申请涉及图像处理技术领域，特别是涉及一种密集目标检测方法、装置、存储介质及计算机设备。

背景技术

公交系统是交通系统中不可缺少的重要部分，随着科学技术的发展，出现了“智慧公交”系统。“智慧公交”系统的一项重要功能，是进行公交的客流量统计，从而帮助管理者基于客流量进行车辆调配，提升运维效率。同时，也能为乘客提供实时的车内拥挤度信息，以便乘客可以合理地选择交通工具，减少盲目等车时间。

现有技术中，常采用物理检测方法进行客流量统计，例如，通过压力传感器或者红外传感器等进行客流量统计。物理检测方法在乘客数量较少时可以对乘客数量进行较为准确的统计。然而，当乘客数量较多、乘客站位密集时，物理检测方法容易造成误检或漏检的情况，从而导致公交客流计数不准确。

发明内容

基于此，有必要针对现有技术存在的问题，提供一种有助于在密集场景对目标进行准确检测的密集目标检测方法、装置、存储介质及计算机设备。

一种密集目标检测方法，包括：

获取待处理图像的初始特征，并根据所述初始特征进行迭代特征提取以得到至少两个不同层级的图像特征；

分别提取各所述图像特征对应的各深度特征；

基于各所述深度特征，以及所述深度特征对应的图像特征的前一层级图像特征进行融合，得到各所述深度特征对应的融合特征，所述前一层级图像特征的层级低于所述深度特征对应的图像特征的层级；

分别对各所述融合特征进行目标检测，基于各所述融合特征的目标检测结果得到所述待处理图像的目标检测信息。

一种密集目标检测装置，包括：

特征获取模块，用于获取待处理图像的初始特征，并根据所述初始特征进行迭代特征提取以得到至少两个不同层级的图像特征；

深度特征提取模块，用于分别提取各所述图像特征对应的各深度特征；

特征融合模块，用于基于各所述深度特征，以及所述深度特征对应的图像特征的前一层级图像特征进行融合，得到各所述深度特征对应的融合特征，所述前一层级图像特征的层级低于所述深度特征对应的图像特征的层级；

目标检测模块，用于分别对各所述融合特征进行目标检测，基于各所述融合特征的目标检测结果得到所述待处理图像的目标检测信息。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述方法的步骤。

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述方法的步骤。

上述密集目标检测方法、装置、存储介质及计算机设备，获取待处理图像的初始特征，并根据初始特征进行迭代特征提取以得到至少两个不同层级的图像特征；分别提取各图像特征对应的各深度特征；基于各深度特征，以及深度特征对应的图像特征的前一层级图像特征进行融合，得到各深度特征对应的融合特征，前一层级图像特征的层级低于深度特征对应的图像特征的层级；分别对各融合特征进行目标检测，基于各融合特征的目标检测结果得到待处理图像的目标检测信息。

在本申请的技术方案中，一方面，基于不同层级的图像特征进行深度特征提取，从而可以获取更丰富的层级语义特征信息；另一方面，通过进行特征融合得到融合特征，并在融合特征的基础上进行目标检测，从而，通过结合不同层级的图像特征以及深度特征，使得用于进行目标检测的语义特征信息更加丰富，进而提高密集场景下的目标检测结果的准确性。

附图说明

图1为一个实施例中密集目标检测方法的应用环境示意图；

图2为一个实施例中密集目标检测方法的流程示意图；

图3为一个实施例中各特征的关系示意图；

图4为一个实施例中分别对各融合特征进行目标检测的流程示意图；

图5为一个实施例中对候选框进行位置回归的示意图；

图6为一个实施例根据初始特征Stage1进行特征提取得到第一层级图像特征Stage2的实例图；

图7为一个实施例中空洞卷积处理的示意图；

图8为一个实施例中得到各深度特征对应的融合特征的流程示意图；

图9为一个实施例中计算交并比的示意图；

图10为一个实施例中实现密集目标检测方法所使用的网络模型的结构示意图；

图11为一个实施例中初始化模块的结构示意图；

图12为一个实施例中特征提取模块的结构示意图；

图13为一个实施例中深度特征提取模块的结构示意图；

图14为一个实施例中降维模块的结构示意图；

图15为一个实施例中密集目标检测装置示意图；

图16为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请提供的密集目标检测方法，可以应用于如图1所示的应用环境中。该应用环境具体包括终端10以及服务器20，其中，终端10通过网络与服务器20通过网络进行通信。

终端10可以拍摄图像和/或视频，并通过网络发送至服务器20，该图像和/或视频具体可以是包含密集目标的图像和/或视频。例如，终端10具体可以是安装在公交车上的车载摄像头，该车载摄像头可以对车内客流及乘客上下车的图像和/或视频进行采集，然后通过相关的上传模块将客流图像和/或视频发送至服务器20。此外，终端10还可以是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备等，只要该终端具备图像和/或视频的拍摄功能即可。

服务器20在接收到终端10发送的包含密集目标的图像和/或视频后，可以通过本申请的密集目标检测方法对该图像和/或视频进行目标检测，从而得到该图像和/或视频中的密集目标的检测结果。服务器20可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

在一个实施例中，如图2所示，提供一种密集目标检测方法，以该方法应用于图1中的服务器为例进行解释说明，该方法主要包括以下步骤：

步骤S100，获取待处理图像的初始特征，并根据初始特征进行迭代特征提取以得到至少两个不同层级的图像特征；

其中，待处理图像是指包含较为密集的待检测目标的图像，待检测目标具体可以是人或者其他物体等。待处理图像具体可以是由图1中的终端拍摄、并发送至服务器的图像。当终端拍摄的是包含密集目标的单张图像时，待处理图像即为该单张图像；当终端拍摄的是包含密集目标的视频时，待处理图像可以是该视频中包含密集目标的任意一帧或者多帧图像。例如，待处理图像可以是在客流高峰期时，车载摄像头拍摄的公交车内的乘客图像。

初始特征是指对待处理图像进行初步特征提取得到的特征，初始特征可以是由服务器在获取待处理图像之后，由服务器对待处理图像进行特征提取得到。

可选地，在初始特征是由服务器提取得到时，获取待处理图像的初始特征的步骤，具体包括：对待处理图像进行卷积、最大池化以及空洞卷积处理，得到初始特征。服务器的其他后续处理过程，可以基于初始特征进行，而不是基于原始的待处理图像进行，从而可以通过降低图像分辨率，减少计算量，以保证图像处理效率。可以理解，服务器也可以是通过其他方式获取初始特征，在此不做限定。

具体地，服务器可以首先对待处理图像进行第一次卷积处理，卷积核的大小例如可以是3*3；在得到第一次卷积处理结果后，再对第一次卷积处理结果分别进行第二次卷积处理以及最大池化处理，第二次卷积处理具体可以是包括使用3*3、1*1两种卷积核的卷积处理；在得到第二次卷积处理结果以及最大池化处理结果后，将二者融合，并对融合结果进行空洞卷积处理，该空洞卷积的卷积核大小可以是1*1，膨胀率Rate为2。经过空洞卷积处理得到的结果即为初始特征。

服务器在获取初始特征以后，根据初始特征进行迭代特征提取以得到至少两个不同层级的图像特征，迭代处理的停止条件可以是迭代次数达到预设次数，即得到预设数量的图像特征。不同层级的图像特征为多尺度不同层级特征，具体是指通过初始特征得到的两级以上、层级各不相同的图像特征，例如，不同层级的图像特征具体可以是包括全局特征、局部特征等。

本步骤中，迭代特征提取的处理过程，具体是指根据初始特征进行特征提取，得到第一层级图像特征，该第一层级图像特征分辨率低于该初始特征，但是层级高于该初始特征。然后，根据第一层级图像特征进行特征提取，得到第二层级图像特征，该第二层级图像特征分辨率低于该第一层级图像特征，但是第二层级高于第一层级，以此类推。不同层级的图像特征的具体数量可以根据实际情况进行选择，例如，为了兼顾图像处理的准确度和效率，图像特征具体可以是包含四个层级的图像特征。

步骤S200，分别提取各图像特征对应的各深度特征；

服务器在得到不同层级的图像特征之后，在不同层级的图像特征的基础上，进一步提取各图像特征对应的深度特征，以获取更加丰富的层级语义特征信息。

可选地，服务器提取各图像特征对应的各深度特征的处理过程，具体包括：分别对各图像特征进行至少一次卷积处理以及至少一次激活处理，得到各图像特征对应的各深度特征。其中，卷积处理的作用是为了对图像特征进行进一步的特征提取；激活处理的作用是能够在服务器进行图像处理的过程中加入一些非线性因素，从而可以更好地解决较为复杂的问题，使得图像处理过程更鲁棒。

步骤S300，基于各深度特征，以及深度特征对应的图像特征的前一层级图像特征进行融合，得到各深度特征对应的融合特征；

服务器在得到深度特征以后，基于深度特征进行特征融合处理，具体是将深度特征与该深度特征对应的图像特征的前一层级图像特征进行融合，从而得到融合特征。其中，前一层级图像特征的层级低于深度特征对应的图像特征的层级。

具体地，以本申请中不同层级的图像特征的数量为两个为例对特征融合的过程进行解释说明。

如图3所示，本申请中，服务器当前得到的特征包括：初始特征Stage1、根据初始特征Stage1进行特征提取得到的第一层级图像特征Stage2、根据第一层级图像特征Stage2进行特征提取得到的第二层级图像特征Stage3、根据第一层级图像特征Stage2进行深度特征提取得到的第一深度特征T1、以及根据第二层级图像特征Stage3进行深度特征提取得到的第二深度特征T2。

对于第一深度特征T1，其对应的图像特征为第一层级图像特征Stage2，第一层级图像特征Stage2的前一层级图像特征为初始特征Stage1，则第一深度特征T1对应的前一层级图像特征为初始特征Stage1，在进行特征融合时，将第一深度特征T1与初始特征Stage1进行特征融合，得到对应的第一融合特征Temp1。

同理，可以得出，第二深度特征T2对应的前一层级图像特征为第一层级图像特征Stage2，因此，在进行特征融合时，将第二深度特征T2与第一层级图像特征Stage2进行特征融合，得到对应的第二融合特征Temp2。

步骤S400，分别对各融合特征进行目标检测，基于各融合特征的目标检测结果得到待处理图像的目标检测信息。

服务器在得到不同的深度特征对应的融合特征后，基于各融合特征进行目标检测，得到各融合特征的目标检测结果，并基于各融合特征的目标检测结果得到待处理图像的最终的目标检测信息。

可选地，服务器在基于各融合特征进行目标检测之前，还可以先进行降维处理，以减少计算量。如图4所示，服务器分别对各融合特征进行目标检测的处理过程，具体包括步骤S410至步骤S420。

步骤S410，分别对各融合特征进行降维处理，得到各融合特征对应的降维特征；

步骤S420，基于各降维特征进行目标检测，得到各融合特征的目标检测结果。

其中，对融合特征进行降维处理，具体可以是采用卷积的方式实现。例如，可以采用3*3大小的卷积核，对融合特征进行步长为1的卷积处理，得到融合特征对应的降维特征，从而大大减少工作量。

在对降维特征进行目标检测时，首先，在降维特征图像上生成一系列的候选框(Anchor)，例如，可以是在降维特征的每个像素上按照宽高比为1:1、1:2、2:1，生成对应的候选框；然后，选择包含有目标的候选框，并将该类候选框与目标对应的实际匹配目标框(Ground Truth Bound)进行比对，得到候选框对应的回归位置参数，不断的训练优化，从而得到包含目标的最佳的目标框(Refine Anchors)。

具体地，如图5所示，图中较大的矩形框K1为候选框，椭圆形物体为目标Tar，较小的矩形框K2为与目标Tar相对应的实际匹配目标框，K1的中心点为O1(X1,Y1)，长为H1，宽为W1；K2的中心点为O2(X2,Y2)，长为H2，宽为W2，则候选框对应的回归位置参数可以通过以下公式计算得到：

通过计算得到的回归位置参数包括中心点O1与中心点O2的X坐标的差值△X以及Y坐标的差值△Y，候选框K1与实际匹配目标框K2长的差值△H以及宽的差值△W。从而，基于候选框以及对应的回归位置参数即可确定包含目标Tar的目标框。

另外，在对降维特征进行目标检测时，还包括对目标框内的目标进行类型识别，确定目标分类结果。

目标分类结果具体可以是指目标框内图像的分类信息，具体地，目标分类结果的形式可以是N+1个分类类别以及对应的概率值，N是指预设的目标分类种类的数量，1指的是背景。例如，预设的目标分类种类包括A、B、C、D、E五种，则分类结果的形式具体可以是：

[(A，a％)，(B，b％)，(C，c％)，(D，d％)，(E，e％)，(Background，x％)]

其中，a％为候选目标框内图像属于类别A的概率值，同理，b％、c％、d％、e％、x％分别对应为候选目标框内图像属于类别B、C、D、E以及背景的概率值。

本实施例提供一种密集目标检测方法，在本实施例的技术方案中，一方面，基于不同层级的图像特征进行深度特征提取，从而可以获取更丰富的层级语义特征信息；另一方面，通过进行特征融合得到融合特征，并在融合特征的基础上进行目标检测，从而，通过结合不同层级的图像特征以及深度特征，使得用于进行目标检测的语义特征信息更加丰富，进而提高密集场景下的目标检测结果的准确性。

在一个实施例中，不同层级的图像特征至少包括第一图像特征(即前文中的第一层级图像特征Stage2)以及第二图像特征(即前文中的第二层级图像特征Stage3)，第二图像特征的层级高于第一图像特征。根据初始特征进行迭代特征提取以得到至少两个不同层级的图像特征，包括以下处理步骤：

根据初始特征，迭代进行包含卷积以及空洞卷积的特征提取处理，将迭代次数达到第一预设次数时得到的处理结果作为第一图像特征；

根据第一图像特征，迭代进行包含卷积以及空洞卷积的特征提取处理，将迭代次数达到第二预设次数时得到的处理结果作为第二图像特征，第二预设次数与第一预设次数不同。

本实施例中，在进行特征提取处理的过程中，通过卷积处理可以进一步提取图像中的特征，低层卷积可以提取到图像的边缘、线条、角等特征，高层卷积能够从低层卷积中提取到更复杂的特征，从而便于进行目标检测。通过进行空洞卷积处理，可以起到扩大感受野的作用。

另外，将迭代次数达到第一预设次数时得到的处理结果作为第一图像特征，具体是指，在对初始特征Stage1进行单次特征提取处理后，若第一预设次数为一次，则直接将该单次特征提取处理的处理结果作为第一图像特征。若第一预设次数为大于或者等于两次，则再次对得到的处理结果进行单次特征提取处理，直到特征提取处理的次数达到第一预设次数为止，将最终的处理结果作为第一图像特征。同理，对第一图像特征迭代进行第二预设次数的特征提取处理，可以得到第二图像特征。需要说明的是，第二预设次数和第一预设次数不同。

本实施例通过迭代特征提取处理，得到不同层级的图像特征，加强了特征的传播，可以获取更多的综合信息特征，从而提高目标检测结果的准确性。

可选地，进行包含卷积以及空洞卷积的单次特征提取处理，具体包括：

对当前特征进行至少两次分支处理，每次分支处理包含卷积处理以及空洞卷积处理，每次分支处理包含的卷积处理次数各不相同，其中，当前特征为初始特征或前一次特征提取处理的处理结果；

对至少两次分支处理的处理结果进行融合，得到当前特征对应的特征提取处理结果。

具体地，如图6所示，为根据初始特征Stage1进行特征提取得到第一层级图像特征Stage2的实例图。对于初始特征Stage1，在进行第一次分支处理时，可以使用1*1大小的卷积核进行卷积处理，再使用3*3大小的卷积核对卷积处理结果进行膨胀率为2的空洞卷积处理，得到第一分支处理结果。在进行第二次分支处理时，可以使用1*1大小的卷积核进行两次卷积处理，然后使用3*3大小的卷积核对两次卷积处理后的结果进行膨胀率为2的空洞卷积处理，得到第二分支处理结果。然后，对第一分支处理结果和第二分支处理结果进行融合，得到初始特征Stage1对应的单次特征提取处理结果Feature1。

可选地，参考图6，在得到第一分支处理结果和第二分支处理结果之后，在进行结果融合时，也可以是结合初始特征Stage1、第一分支处理结果和第二分支处理结果进行融合，得到处理结果Feature1。

然后，对处理结果Feature1进行包含卷积以及空洞卷积的单次特征提取处理，得到处理结果Feature2(为便于理解，具体处理过程在图6中未示出)，以此类推，得到处理结果Feature i-1。再对处理结果Feature i-1进行包含卷积以及空洞卷积的单次特征提取处理，此时，特征提取处理的迭代次数达到第一预设次数i，则将处理结果Feature i-1对应的单次特征提取处理结果作为第一层级图像特征Stage2。

在后续处理过程中，根据第一层级图像特征Stage2进行第二预设次数的迭代特征提取处理，以得到第二层级图像特征Stage3的处理过程，与图6所示的处理过程原理相同，在此不再赘述。

在一个实施例中，对空洞卷积处理的处理过程进行解释说明。如图7所示，为空洞卷积处理的示意图，其中，图A为原图，从原图角度，所谓空洞是指在原图上做采样。采样的频率是根据膨胀率(Rate)来设置的，当Rate为1时候，原图不丢失任何信息采样，此时卷积处理就是标准的卷积处理，当Rate>1，比如2的时候，在原图上每隔1(Rate-1＝2-1＝1)个像素采样，即如图B所示，图B中的圆点可以理解为在原图上的采样点，然后将采样后的图像与卷积核(Kernel)做卷积，从而起到变相增大感受野的目的。同理，图C为对原图进行Rate为4的空洞卷积处理的过程中，通过对原图进行采用得到的图像。

在一个实施例中，如图8所示，基于各深度特征，以及深度特征对应的图像特征的前一层级图像特征进行融合，得到各深度特征对应的融合特征，包括步骤S310至步骤S320。

步骤S310，对各深度特征分别进行上采样处理，得到与各深度特征对应的图像特征的前一层级图像特征尺寸相同的上采样特征；

步骤S320，分别对各深度特征对应的上采样特征，以及各深度特征对应的图像特征的前一层级图像特征进行融合，得到各深度特征对应的融合特征。

在进行特征融合时，需要保证进行融合的各特征的尺寸大小相同，因此，服务器首先对深度特征进行上采样处理，得到与前一层级图像特征尺寸相同的上采样特征。上采样处理具体包括反卷积以及双线性插值。其中，反卷积处理可以认为是卷积处理的逆过程，从而实现图像的上采样处理。另外，由于双线性差值处理可以实现任意图像大小变化，因此还可以通过双线性差值处理进行上采样。

本实施例中，对与不同尺寸大小的图像特征，可以采取不同的上采样处理策略，以实现特征大小的变化，便于进行图像融合。

在一个实施例中，各融合特征的目标检测结果包括各融合特征中各目标对应的目标框以及目标框对应的目标分类结果。基于各融合特征的目标检测结果得到待处理图像的目标检测信息，包括：基于各融合特征中各目标对应的目标框以及目标框对应的目标分类结果，确定待处理图像中各目标对应的目标框；当同一个目标对应的目标框数量为多个时，对多个目标框进行筛选，得到目标对应的单个目标框，直至待处理图像中所有的目标对应的目标框数量为一个；待处理图像的目标检测信息包含待处理图像中各目标对应的单个目标框以及对应的目标分类结果。

本实施例中，由于各融合特征的目标检测结果都包含各特征中目标对应的目标框，对于不同融合特征都包含的同一目标，可能存在对应多个目标框的情况，因此，本实施例中还包括对同一目标对应的多个目标框进行筛选的处理过程。

可选地，对多个目标框进行筛选，得到目标对应的单个目标框，具体包括：根据交并比对各目标框进行非极大值抑制，得到筛选后目标框。

其中，交并比(Intersection-Over-Union，IOU)是包含同一目标的两个目标框(以第一目标框和第二目标框为例)的交叠率，即两个目标框的交集与并集的比值。如图9所示，对于包含同一目标Tar的第一目标框Kp和第二目标框Kq，IOU可以通过以下计算公式得到：

其中，area(i)表示目标框i对应的框内区域。

具体地，非极大值抑制(Non-Maximum Suppression，NMS)是指抑制不是极大值的元素，可以理解为局部最大搜索，通过非极大值可以去除目标框中冗余的目标框，而保留效果最好的目标框。例如，对于某一目标，包含该目标的目标框有6个(A、B、C、D、E、F)，根据对应的目标分类结果，将该6个目标框属于该目标的概率按照从小到大的顺序排列依次为A、B、C、D、E、F，则非极大值抑制的处理流程依次包括以下步骤：

(1)从概率最大的目标框F开始，分别判断A～E与F的IOU是否大于某一预设阈值；

(2)假设B、D与F的IOU超过该预设阈值，则去掉B、D；并标记F，标记的目标框为保留下来的目标框；

(3)从剩下的A、C、E中，选择概率最大的E，然后分别判断E与A、E与C的IOU是否大于预设阈值，若是，则去掉，并标记E；

在实际处理过程中，可以通过重复上述流程对所有的目标框进行筛选，直至找到所有目标对应的单一目标框。

在一个实施例中，提供一种密集目标检测方法的应用实例。本实施例主要是通过训练好的网络模型对输入的待处理图像进行目标检测。如图10所示，为本实施例中所使用的网络模型的结构示意图，该网络模型进行图像处理主要包括以下步骤：

(1)参考图10，本实施例中，输入的待处理图像大小为640*1088*3，其中，640*1088为分辨率大小，3为通道数(其他尺寸参数的含义对应相同)。首先，通过初始化模块对待处理图像进行特征提取，得到初始特征Stage1，初始特征Stage1的大小为40*68*512。初始化模块的结构如图11所示，主要包括卷积层、最大池化层以及空洞卷积层，初始化模块主要用于降低分辨率，减少计算量。

(2)在得到初始特征Stage1后，通过特征提取模块进行迭代特征提取，依次得到第一层级图像特征Stage2、第二层级图像特征Stage3、第三层级图像特征Stage4、第四层级图像特征Stage5，各图像特征的大小分别为20*34*704、10*17*256、8*15*256、6*13*256。

特征提取模块的结构如图12所示，该特征提取模块包括至少两个处理分支，每个处理分支包含卷积层以及空洞卷积层，且各个处理分支中卷积层的数量各不相同。参考图12，图中的特征提取模块包含两个处理分支，其中，第一个处理分支包含一个卷积层以及一个空洞卷积层，第二个处理分支包含两个卷积层以及一个空洞卷积层。特征提取模块还可以包括其他数量的处理分支，在此不做限定。

可以理解，在通过第N层级图像特征得到第N+1层级图像特征时，可以是通过多个特征提取模块进行迭代处理，将迭代结束后得到的最终结果最为该第N+1层级图像特征。例如，对于本实施例中，初始特征Stage1到第四层级图像特征Stage5之间，可以是分别经过3个、4个、8个、6个特征提取模块进行迭代处理。

(3)通过深度提取模块分别提取各图像特征对应的深度特征，得到第一深度特征T1、第二深度特征T2、第三深度特征T3、第四深度特征T4，深度特征的大小分别为20*34*704、10*17*256、8*15*256、6*13*256，即各深度特征的大小与对应的图像特征大小相同。深度特征提取模块的结构如图13所示，主要包括至少一个卷积层以及至少一个激活层。

(4)对各深度特征进行上采样处理，得到第一上采样特征Block1、第二上采样特征Block2、第三上采样特征Block3、第四上采样特征Block4，各上采样特征的大小分别为40*68*512、20*34*704、10*17*256、8*15*256。

由于初始特征Stage1到第一层级图像特征Stage2，第一层级图像特征Stage2到第二层级图像特征Stage3的大小为成倍数的缩减(40*68–20*34–10*17)，第二层级图像特征Stage3到第三层级图像特征Stage4，第三层级图像特征Stage4到第四层级图像特征Stage5不成倍数的缩减(10*17–8*15–6*13)。因此，为了便于进行特征融合，第一深度特征T1、第二深度特征T2对应的上采样处理为反卷积处理，第三深度特征T3、第四深度特征T4对应的上采样处理为双线性插值。

(5)将各上采样特征分别与对应的前一层级图像特征进行融合，分得到第一融合特征Temp1、第二融合特征Temp2、第三融合特征Temp3、第四融合特征Temp4，各融合特征的大小分别为40*68*512、20*34*704、10*17*256、8*15*256。

(6)通过降维模块对各融合特征进行降维处理，得到第一降维特征Result1、第二降维特征Result2、第三降维特征Result3、第四降维特征Result4。其中，降维模块的结构如图14所示，主要由1个卷积层组成，卷积核的尺寸大小为3*3，通道数为256，步长为1，通过该降维模块进行降维处理，可以大大减少计算量，使得网络更加轻量级。

(7)基于各降维特征进行目标检测，得到各降维特征的目标检测结果，基于各降维特征的目标检测结果得到待处理图像的目标检测信息。

另外，参考图10，在图像处理过程中，为了保证层级特征的丰富性，可以将通过深度提取模块对第四层级图像特征Stage5进行深度特征提取得到的第四深度特征T4作为额外的第五融合特征Temp5，并通过降维模块对第五融合特征Temp5进行降维处理，得到第五降维特征Result5，然后对第五降维特征Result5进行目标检测，结合第五降维特征Result5的目标检测结果得到待处理图像最终的目标检测信息。

在合理条件下应当理解，虽然前文各实施例涉及的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，各流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图15所示，提供一种密集目标检测装置，该密集目标检测装置包括以下模块：

特征获取模块100，用于获取待处理图像的初始特征，并根据初始特征进行迭代特征提取以得到至少两个不同层级的图像特征；

深度特征提取模块200，用于分别提取各图像特征对应的各深度特征；

特征融合模块300，用于基于各深度特征，以及深度特征对应的图像特征的前一层级图像特征进行融合，得到各深度特征对应的融合特征，前一层级图像特征的层级低于深度特征对应的图像特征的层级；

目标检测模块400，用于分别对各融合特征进行目标检测，基于各融合特征的目标检测结果得到待处理图像的目标检测信息。

本实施例提供一种密集目标检测装置，一方面，基于不同层级的图像特征进行深度特征提取，从而可以获取更丰富的层级语义特征信息；另一方面，通过进行特征融合得到融合特征，并在融合特征的基础上进行目标检测，从而，通过结合不同层级的图像特征以及深度特征，使得用于进行目标检测的语义特征信息更加丰富，进而提高密集场景下的目标检测结果的准确性。

在一个实施例中，特征获取模块100还用于：对待处理图像进行卷积、最大池化以及空洞卷积处理，得到初始特征。

在一个实施例中，特征获取模块100还用于：根据初始特征，迭代进行包含卷积以及空洞卷积的特征提取处理，将迭代次数达到第一预设次数时得到的处理结果作为第一图像特征；根据第一图像特征，迭代进行包含卷积以及空洞卷积的特征提取处理，将迭代次数达到第二预设次数时得到的处理结果作为第二图像特征，第二预设次数与第一预设次数不同。

在一个实施例中，特征获取模块100还用于：对当前特征进行至少两次分支处理，每次分支处理包含卷积处理以及空洞卷积处理，每次分支处理包含的卷积处理次数各不相同，其中，当前特征为初始特征或前一次特征提取处理的处理结果；对至少两次分支处理的处理结果进行融合，得到当前特征对应的特征提取处理结果。

在一个实施例中，深度特征提取模块200还用于：分别对各图像特征进行至少一次卷积处理以及至少一次激活处理，得到各图像特征对应的各深度特征。

在一个实施例中，特征融合模块300还用于：对各深度特征分别进行上采样处理，得到与各深度特征对应的图像特征的前一层级图像特征尺寸相同的上采样特征；分别对各深度特征对应的上采样特征，以及各深度特征对应的图像特征的前一层级图像特征进行融合，得到各深度特征对应的融合特征。

在一个实施例中，目标检测模块400还用于：分别对各融合特征进行降维处理，得到各融合特征对应的降维特征；基于各降维特征进行目标检测，得到各融合特征的目标检测结果。

在一个实施例中，目标检测模块400还用于：基于各融合特征中各目标对应的目标框以及目标框对应的目标分类结果，确定待处理图像中各目标对应的目标框；当同一个目标对应的目标框数量为多个时，对多个目标框进行筛选，得到目标对应的单个目标框，直至待处理图像中所有的目标对应的目标框数量为一个；待处理图像的目标检测信息包含待处理图像中各目标对应的单个目标框以及对应的目标分类结果。

关于密集目标检测装置的具体限定可以参见上文中对于密集目标检测方法的限定，在此不再赘述。上述密集目标检测装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现以下步骤：获取待处理图像的初始特征，并根据初始特征进行迭代特征提取以得到至少两个不同层级的图像特征；分别提取各图像特征对应的各深度特征；基于各深度特征，以及深度特征对应的图像特征的前一层级图像特征进行融合，得到各深度特征对应的融合特征，前一层级图像特征的层级低于深度特征对应的图像特征的层级；分别对各融合特征进行目标检测，基于各融合特征的目标检测结果得到待处理图像的目标检测信息。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：对待处理图像进行卷积、最大池化以及空洞卷积处理，得到初始特征。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：根据初始特征，迭代进行包含卷积以及空洞卷积的特征提取处理，将迭代次数达到第一预设次数时得到的处理结果作为第一图像特征；根据第一图像特征，迭代进行包含卷积以及空洞卷积的特征提取处理，将迭代次数达到第二预设次数时得到的处理结果作为第二图像特征，第二预设次数与第一预设次数不同。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：对当前特征进行至少两次分支处理，每次分支处理包含卷积处理以及空洞卷积处理，每次分支处理包含的卷积处理次数各不相同，其中，当前特征为初始特征或前一次特征提取处理的处理结果；对至少两次分支处理的处理结果进行融合，得到当前特征对应的特征提取处理结果。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：分别对各图像特征进行至少一次卷积处理以及至少一次激活处理，得到各图像特征对应的各深度特征。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：对各深度特征分别进行上采样处理，得到与各深度特征对应的图像特征的前一层级图像特征尺寸相同的上采样特征；分别对各深度特征对应的上采样特征，以及各深度特征对应的图像特征的前一层级图像特征进行融合，得到各深度特征对应的融合特征。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：分别对各融合特征进行降维处理，得到各融合特征对应的降维特征；基于各降维特征进行目标检测，得到各融合特征的目标检测结果。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：基于各融合特征中各目标对应的目标框以及目标框对应的目标分类结果，确定待处理图像中各目标对应的目标框；当同一个目标对应的目标框数量为多个时，对多个目标框进行筛选，得到目标对应的单个目标框，直至待处理图像中所有的目标对应的目标框数量为一个；待处理图像的目标检测信息包含待处理图像中各目标对应的单个目标框以及对应的目标分类结果。

图16为一个实施例中计算机设备的内部结构图。该计算机设备具体可以是终端(或服务器)。如图16所示，该计算机设备包括该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、输入装置和显示屏。其中，存储器包括非易失性存储介质和内存储器。该计算机设备的非易失性存储介质存储有操作系统，还可存储有计算机程序，该计算机程序被处理器执行时，可使得处理器实现密集目标检测方法。该内存储器中也可储存有计算机程序，该计算机程序被处理器执行时，可使得处理器执行密集目标检测方法。计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图16中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：获取待处理图像的初始特征，并根据初始特征进行迭代特征提取以得到至少两个不同层级的图像特征；分别提取各图像特征对应的各深度特征；基于各深度特征，以及深度特征对应的图像特征的前一层级图像特征进行融合，得到各深度特征对应的融合特征，前一层级图像特征的层级低于深度特征对应的图像特征的层级；分别对各融合特征进行目标检测，基于各融合特征的目标检测结果得到待处理图像的目标检测信息。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：对待处理图像进行卷积、最大池化以及空洞卷积处理，得到初始特征。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：根据初始特征，迭代进行包含卷积以及空洞卷积的特征提取处理，将迭代次数达到第一预设次数时得到的处理结果作为第一图像特征；根据第一图像特征，迭代进行包含卷积以及空洞卷积的特征提取处理，将迭代次数达到第二预设次数时得到的处理结果作为第二图像特征，第二预设次数与第一预设次数不同。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：对当前特征进行至少两次分支处理，每次分支处理包含卷积处理以及空洞卷积处理，每次分支处理包含的卷积处理次数各不相同，其中，当前特征为初始特征或前一次特征提取处理的处理结果；对至少两次分支处理的处理结果进行融合，得到当前特征对应的特征提取处理结果。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：分别对各图像特征进行至少一次卷积处理以及至少一次激活处理，得到各图像特征对应的各深度特征。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：对各深度特征分别进行上采样处理，得到与各深度特征对应的图像特征的前一层级图像特征尺寸相同的上采样特征；分别对各深度特征对应的上采样特征，以及各深度特征对应的图像特征的前一层级图像特征进行融合，得到各深度特征对应的融合特征。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：分别对各融合特征进行降维处理，得到各融合特征对应的降维特征；基于各降维特征进行目标检测，得到各融合特征的目标检测结果。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：基于各融合特征中各目标对应的目标框以及目标框对应的目标分类结果，确定待处理图像中各目标对应的目标框；当同一个目标对应的目标框数量为多个时，对多个目标框进行筛选，得到目标对应的单个目标框，直至待处理图像中所有的目标对应的目标框数量为一个；待处理图像的目标检测信息包含待处理图像中各目标对应的单个目标框以及对应的目标分类结果。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种密集目标检测方法，其特征在于，包括：

获取待处理图像的初始特征，并根据所述初始特征进行迭代特征提取以得到至少两个不同层级的图像特征，所述不同层级的图像特征至少包括第一图像特征以及第二图像特征；

分别提取各所述图像特征对应的各深度特征；

分别对各所述融合特征进行目标检测，基于各所述融合特征的目标检测结果得到所述待处理图像的目标检测信息，所述目标检测结果包含各融合特征中目标对应的目标框以及目标框对应的目标分类结果；

所述根据所述初始特征进行迭代特征提取以得到至少两个不同层级的图像特征，包括：

根据所述初始特征，迭代进行包含卷积以及空洞卷积的特征提取处理，将迭代次数达到第一预设次数时得到的处理结果作为所述第一图像特征；

根据所述第一图像特征，迭代进行包含卷积以及空洞卷积的特征提取处理，将迭代次数达到第二预设次数时得到的处理结果作为所述第二图像特征，所述第二预设次数与所述第一预设次数不同；

其中，所述包含卷积以及空洞卷积的特征提取处理，包括：

对当前特征进行至少两次分支处理，每次分支处理包含卷积处理以及空洞卷积处理，每次分支处理包含的卷积处理次数各不相同，其中，所述当前特征为所述初始特征或前一次特征提取处理的处理结果；

对所述至少两次分支处理的处理结果进行融合，得到所述当前特征对应的特征提取处理结果。

2.根据权利要求1所述的方法，其特征在于，获取待处理图像的初始特征，包括：

对所述待处理图像进行卷积、最大池化以及空洞卷积处理，得到所述初始特征。

3.根据权利要求1所述的方法，其特征在于，分别提取各所述图像特征对应的各深度特征，包括：

分别对各所述图像特征进行至少一次卷积处理以及至少一次激活处理，得到各所述图像特征对应的各深度特征。

4.根据权利要求1所述的方法，其特征在于，基于各所述深度特征，以及所述深度特征对应的图像特征的前一层级图像特征进行融合，得到各所述深度特征对应的融合特征，包括：

对各所述深度特征分别进行上采样处理，得到与各所述深度特征对应的图像特征的前一层级图像特征尺寸相同的上采样特征；

分别对各所述深度特征对应的上采样特征，以及各所述深度特征对应的图像特征的前一层级图像特征进行融合，得到各所述深度特征对应的融合特征。

5.根据权利要求1所述的方法，其特征在于，分别对各所述融合特征进行目标检测，包括：

分别对各所述融合特征进行降维处理，得到各所述融合特征对应的降维特征；

基于各所述降维特征进行目标检测，得到各所述融合特征的目标检测结果。

6.根据权利要求1所述的方法，其特征在于，所述基于各融合特征的目标检测结果得到待处理图像的目标检测信息，包括：

基于各融合特征中各目标对应的目标框以及目标框对应的目标分类结果，确定待处理图像中各目标对应的目标框；

当同一个目标对应的目标框数量为多个时，对多个目标框进行筛选，得到目标对应的单个目标框，直至待处理图像中所有的目标对应的目标框数量为一个，得到待处理图像的目标检测信息，所述待处理图像的目标检测信息包含待处理图像中各目标对应的单个目标框以及对应的目标分类结果。

7.根据权利要求6 所述的方法，其特征在于，所述对多个目标框进行筛选，得到目标对应的单个目标框，包括：

根据交并比对多个目标框进行非极大值抑制，得到目标对应的单个目标框。

8.一种密集目标检测装置，其特征在于，包括：

特征获取模块，用于获取待处理图像的初始特征，并根据所述初始特征进行迭代特征提取以得到至少两个不同层级的图像特征，所述不同层级的图像特征至少包括第一图像特征以及第二图像特征；

目标检测模块，用于分别对各所述融合特征进行目标检测，基于各所述融合特征的目标检测结果得到所述待处理图像的目标检测信息，所述目标检测结果包含各融合特征中目标对应的目标框以及目标框对应的目标分类结果；

特征获取模块还用于：根据初始特征，迭代进行包含卷积以及空洞卷积的特征提取处理，将迭代次数达到第一预设次数时得到的处理结果作为第一图像特征；根据第一图像特征，迭代进行包含卷积以及空洞卷积的特征提取处理，将迭代次数达到第二预设次数时得到的处理结果作为第二图像特征，第二预设次数与第一预设次数不同；

其中，所述包含卷积以及空洞卷积的特征提取处理，包括：

对当前特征进行至少两次分支处理，每次分支处理包含卷积处理以及空洞卷积处理，每次分支处理包含的卷积处理次数各不相同，其中，当前特征为初始特征或前一次特征提取处理的处理结果，对至少两次分支处理的处理结果进行融合，得到当前特征对应的特征提取处理结果。

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。