CN108764235B

CN108764235B - 目标检测方法、设备及介质

Info

Publication number: CN108764235B
Application number: CN201810501013.5A
Authority: CN
Inventors: 程志; 隋运峰; 刘宝树; 黄忠涛; 赵士瑄; 冯家琪; 孟令同
Original assignee: Second Research Institute of CAAC
Current assignee: Second Research Institute of CAAC
Priority date: 2018-05-23
Filing date: 2018-05-23
Publication date: 2021-06-29
Anticipated expiration: 2038-05-23
Also published as: CN108764235A

Abstract

本发明提供一种神经网络模型、目标检测方法、设备及介质，其中，神经网络模型，包括：特征生成层，用于获取待检测图像对应的特征图的集合，形成特征数据集；分类评分层，用于基于特征数据集，确定对应至少一个分类类别的得分数据集，其中，得分数据集中包含至少一个得分图，一个得分图对应一个分类类别；区域描述层，用于基于得分数据集，确定至少一个分类类别的候选目标区域及对应的区域描述特征；结果生成层，用于基于至少一个分类类别的候选目标区域及对应的区域描述特征，确定至少一个目标的目标结果信息。

Description

目标检测方法、设备及介质

技术领域

本发明涉及图像识别和深度学习技术领域，尤其涉及一种神经网络模型、目标检测方法、设备及介质。

背景技术

目前，基于深度学习的神经网络模型是用于对图像进行目标检测的主流技术。为了获取更好的性能，神经网络模型本身也需要不断地优化和改进。当前，用于对图像进行目标检测的神经网络模型，大多属于两步式模型，其中，第一步为，生成检测目标预选框(即，疑似目标区域)，第二步为，对预选框内图像进行识别，实现目标识别和目标定位。但是，两步式模型的缺陷为，由于对图像进行目标检测时，需要分步进行，检测效率较低。

发明内容

本发明要解决的技术问题是提供一种神经网络模型、目标检测方法、设备及介质，同时进行目标区域计算和目标区域识别，且可同时识别至少一个分类类别的目标，可在保持识别率前提下降低计算复杂度。

为解决上述技术问题，本发明提供的技术方案如下：

第一方面，本发明实施例提供了一种神经网络模型，用于对图像进行目标检测，模型包括：

特征生成层，用于获取待检测图像对应的特征图的集合，形成特征数据集；

分类评分层，用于基于特征数据集，确定对应至少一个分类类别的得分数据集，其中，得分数据集中包含至少一个得分图，一个得分图对应一个分类类别；

区域描述层，用于基于得分数据集，确定至少一个分类类别的候选目标区域及对应的区域描述特征；

结果生成层，用于基于至少一个分类类别的候选目标区域及对应的区域描述特征，确定至少一个目标的目标结果信息。

进一步地，目标结果信息包括：

目标所在区域、目标对应的分类类别、检测结果可信度。

进一步地，特征生成层，用于：

获取待检测图像；

根据预设的缩放比例序列对待检测图像进行尺度变换，获取至少一个尺度缩放图像；

针对每个尺度缩放图像，进行卷积处理，并获取至少一个神经元对应输出的初始特征图；

针对每个神经元，对相应神经元输出的各初始特征图进行尺度反变换，以获取与待检测图像的尺度相同的至少一个中间特征图，形成中间数据集；

针对相应神经元的中间数据集中每个像素坐标点，将特征维度的最大像素值，确定为最终特征图在相应像素坐标点的像素值，将产生最大像素值对应的相应神经元的感受野半径，确定为感受野图在相应像素坐标点的像素值，形成最终特征图和感受野图；

将至少一个神经元对应的最终特征图和感受野图合并，形成特征数据集。

进一步地，分类评分层，用于：

针对特征数据集中每个像素坐标点，基于相应像素坐标点在特征维度的各特征值，计算相应像素坐标点对各分类类别的识别得分值；

针对每个分类类别，将对应相应分类类别的识别得分值合并，形成相应分类类别的得分图；

将各分类类别的得分图合并，形成得分数据集。

进一步地，区域描述层，用于：

针对每个得分图，针对设定阈值集中的每个阈值，采用相应阈值将相应得分图转化为二值图像，将二值图像中像素值为1的相连像素坐标点的集合，确定为候选目标区域；

针对每个候选目标区域，筛选相应候选目标区域中满足筛选条件的至少一个像素坐标点，并记录筛选出的各像素坐标点的像素坐标、识别得分值和特征维度的各特征值，其中，各像素坐标点的像素坐标、识别得分值和特征维度的各特征值为对应的区域描述特征。

进一步地，区域描述层，还用于：

确定相应候选目标区域的区域中心点和区域高度；

针对相应候选目标区域中每个像素坐标点，将相应像素坐标点的像素坐标减去区域中心点的像素坐标后再除以区域高度，将相应像素坐标点的各感受野半径分别除以区域高度。

进一步地，结果生成层，用于：

针对每个分类类别，针对相应分类类别的每个候选目标区域，基于相应候选目标区域的区域描述特征，计算相应候选目标区域的检测结果可信度、区域中心修正值、区域宽修正值和区域高修正值；

基于区域中心修正值、区域宽修正值和区域高修正值调整相应候选目标区域的区域位置；

将对应检测结果可信度最高的候选目标区域对应的调整后的区域位置，确定为相应分类类别的目标所在区域。

第二方面，本发明实施例提供了一种目标检测方法，采用第一方面实施例提供的神经网络模型进行目标检测，方法包括：

获取待检测图像对应的特征图的集合，形成特征数据集；

基于特征数据集，确定对应至少一个分类类别的得分数据集，其中，得分数据集中包含至少一个得分图，一个得分图对应一个分类类别；

基于得分数据集，确定至少一个分类类别的候选目标区域及对应的区域描述特征；

基于至少一个分类类别的候选目标区域及对应的区域描述特征，确定至少一个目标的目标结果信息。

第三方面，本发明实施例提供了一种目标检测设备，包括：至少一个处理器、至少一个存储器以及存储在存储器中的计算机程序指令，当计算机程序指令被处理器执行时实现如上述实施方式中第二方面的方法。

第四方面，本发明实施例提供了一种计算机可读存储介质，其上存储有计算机程序指令，当计算机程序指令被处理器执行时实现如上述实施方式中第二方面的方法。

本发明实施例提供的神经网络模型、目标检测方法、设备及介质，同时进行目标区域计算和目标区域识别，且可同时识别至少一个分类类别的目标，可在保持识别率前提下降低计算复杂度。

附图说明

图1是本发明实施例提供的神经网络模型结构示意图；

图2是本发明实施例提供的目标检测方法流程图；

图3是本发明实施例提供的目标检测设备的硬件结构示意图。

具体实施方式

下面通过具体的实施例进一步说明本发明，但是，应当理解为，这些实施例仅仅是用于更详细具体地说明之用，而不应理解为用于以任何形式限制本发明。

实施例一

结合图1，本实施例提供的神经网络模型，用于对图像进行目标检测，模型包括：

特征生成层101，用于获取待检测图像对应的特征图的集合，形成特征数据集；

分类评分层102，用于基于特征数据集，确定对应至少一个分类类别的得分数据集，其中，得分数据集中包含至少一个得分图，一个得分图对应一个分类类别；

区域描述层103，用于基于得分数据集，确定至少一个分类类别的候选目标区域及对应的区域描述特征；

结果生成层104，用于基于至少一个分类类别的候选目标区域及对应的区域描述特征，确定至少一个目标的目标结果信息。

本发明实施例提供的神经网络模型，同时进行目标区域计算和目标区域识别，且可同时识别至少一个分类类别的目标，可在保持识别率前提下降低计算复杂度。

优选地，目标结果信息包括：

目标所在区域、目标对应的分类类别、检测结果可信度。

本实施例中，神经网络模型用于对图像进行多种物体检测，得到目标所在区域、物体类型和结果可信度。神经网络模型整体依次由特征生成层101、分类评分层102、区域描述层103、结果生成层104四个层组成。其中，特征生成层101的输入为分辨率为W×H的待检测图像，输出为W×H×2N的特征数据集，这里特征数据集为数组形式，其中，N为包含中间层神经元在内的全部神经元的个数，即为，特征生成层101的所有神经元的个数；分类评分层102的输入为W×H×2N的特征数据集，输出为W×H×M的得分数据集，这里，得分数据集为数组形式；区域描述层103的输入为特征数据集和得分数据集，输出为候选目标区域及对应的区域描述特征；结果生成层104的输入为候选目标区域及对应的区域描述特征，输出为目标所在区域、物体类型(即，目标对应的分类类别)和检测结果可信度。

优选地，特征生成层101，用于：

获取待检测图像；

本实施例中，具体地，特征生成层101与常见的卷积层相似，均是由多个卷积层级联组成的基本构架。但是，本实施例的输出为与待检测图像分辨率相同的N张特征图和N张感受野图，且实现过程如下：

(1)去除降分辨率处理：在整个卷积层中不进行任何降低分辨率的操作，卷积层输出与输入的分辨率保持不变；

(2)在预处理阶段，增加多尺度输入处理：按照等比数列设置多个缩放比例，将待检测图像分别缩小成不同分辨率的图像，分别输入卷积层，并分别记录N个神经元输出的特征图；

(3)在后处理阶段，增加多尺度输出合并处理。

本实施例中，多尺度输出合并处理过程为包括如下步骤：

1)对于每个神经元输出的多种分辨率的特征图，均上采样到原始分辨率；这里，针对每个神经元，对相应神经元输出的各初始特征图进行尺度反变换，以获取与待检测图像的尺度相同的至少一个中间特征图，形成中间数据集；其中，进行尺度变换后又进行尺度反变换，旨在提高模型对输入目标尺度、长宽比例具有更高的适应能力，即提高模型性能。

2)在每个像素坐标点位置，将特征维度的所有特征图的最大值记录在最终特征图的同一坐标位置，并将产生该最大值时神经元在待检测图像中的感受野半径记录在感受野图中同一坐标位置；这里，针对相应神经元的中间数据集中每个像素坐标点，将特征维度的最大像素值，确定为最终特征图在相应像素坐标点的像素值，将产生最大像素值对应的相应神经元的感受野半径，确定为感受野图在相应像素坐标点的像素值，形成最终特征图和感受野图。其中，感受野为音译词，对应翻译为receptive field，在神经网络中，感受野的定义是：卷积神经网络的每一层输出的特征图(Feature map)上的像素点在原图像上映射的区域大小。

3)合并最终特征图和感受野图，生成W×H×2N的特征数据集。这里，将至少一个神经元对应的最终特征图和感受野图合并，形成特征数据集。

优选地，分类评分层102，用于：

将各分类类别的得分图合并，形成得分数据集。

本实施例中，具体地，分类评分层102，具体用于

1)对每个像素坐标点对应的2N维度的特征向量，输入分类器，得到M个数值，分别表示该像素对M种物体的识别得分，分类器可以使用直连层，SVM，决策树等方法；这里，实际应用中，相应像素坐标点对各分类类别的识别得分值的计算为：基于相应像素坐标点在特征维度的各特征值，采用直连层、SVM、决策树等方法计算获得。

2)对所有像素重复步骤1)操作，得到W×H×M的得分数据集。

进一步地，区域描述层103，用于：

进一步优选地，区域描述层103，还用于：

确定相应候选目标区域的区域中心点和区域高度；

本实施例中，将得分数据集视为M张得分图像，区域描述层103有M个处理方法相同的并行分支，分别对每张得分图像进行以下处理：

本实施例中，预先设定有设定阈值集，且依次采用设定阈值集中的阈值对得分图转化为二值图像。具体地，包括如下步骤：

1)采用设定阈值集中的第一个阈值将得分图转化为二值图像，计算二值图像中的连通区域，作为候选目标区域；

2)采用设定阈值集中的下一个阈值，重复步骤1，得到新的候选目标区域；其中，设定阈值集中的阈值可以按照步长进行设置，例如，阈值可以为 0.1,0.2,0.3……0.9，这里，阈值的步长为0.1，此外，阈值的步长还可以是其它值，本实施例不做具体限定，此外，阈值的个数也可以按照需要进行设定，本实施例不做具体限定。

3)在每个候选目标区域，按照识别得分值从高到低依次选取前K个局部最大点，对每个像素坐标点从特征数据集提取对应坐标的2N维特征，并记录坐标的X、Y，以及识别得分值，组成(2N+3)×K维的区域描述特征；其中，采用局部非最大值抑制方法，得到局部最大点。

4)先将区域描述特征中的每个像素坐标点的像素坐标(即，X、Y值)分别减去区域中心点的像素坐标后，再将每个像素坐标点的X、Y值和感受野半径值除以区域的高度。这里，将区域描述特征中的每个像素坐标点的像素坐标分别减去区域中心点的像素坐标，旨在获取候选目标区域框；再将每个像素坐标点的X、Y值和感受野半径值除以区域的高度，旨在将获得的候选目标区域框的大小进行归一化，便于目标识别，可排除区域框的大小的影响因素，提高目标识别率。

优选地，结果生成层104，用于：

本实施例中，结果生成层104有M个处理方法相同但是参数不同的并行分支，分别处理区域描述层103的每个分支的输出，每个分支处理步骤如下：

1)使用多个直连层组合的层，计算每个候选目标区域的检测结果可信度、区域中心修正值(ΔX_i,ΔY_i)，和区域宽修正值ΔW_i、区域高修正值ΔH_i，其中，i 为第i个候选目标区域；这里，检测结果可信度、区域中心修正值、区域宽修正值和区域高修正值，均是基于检测出的候选目标区域和模型训练数据集的标注数据进行计算获得。

2)修正输出的区域位置，令目标初步所在区域中心点为(X_i,Y_i)，宽和高为 (W_i,H_i)，其修正输出中心点为(X_i+ΔX_i×ΔW_i,Y_i+ΔY_i×ΔH_i)，宽高为 (W×ΔW,H×ΔH)；

3)对于同类物体的多个重叠的检测区域，仅保留可信度最高的区域。

实施例二

结合图2，本发明实施例提供的目标检测方法，采用实施例一的神经网络模型进行目标检测，方法包括：

步骤S201，获取待检测图像对应的特征图的集合，形成特征数据集；

步骤S202，基于特征数据集，确定对应至少一个分类类别的得分数据集，其中，得分数据集中包含至少一个得分图，一个得分图对应一个分类类别；

步骤S203，基于得分数据集，确定至少一个分类类别的候选目标区域及对应的区域描述特征；

步骤S204，基于至少一个分类类别的候选目标区域及对应的区域描述特征，确定至少一个目标的目标结果信息。

进一步地，目标结果信息包括：

目标所在区域、目标对应的分类类别、检测结果可信度。

进一步地，步骤S201，包括：

获取待检测图像；

针对每个尺度缩放图像，输入卷积层，获取至少一个神经元对应输出的初始特征图；

进一步地，步骤S202，包括：

将各分类类别的得分图合并，形成得分数据集。

进一步地，步骤S203，包括：

确定相应候选目标区域的区域中心点和区域高度；

针对相应候选目标区域中每个像素坐标点，将相应像素坐标点的像素坐标减去区域中心点的像素坐标，将相应像素坐标点的各特征值分别除以区域高度。

进一步地，步骤S204，包括：

上述实施例提供的目标检测方法与神经网络模型实施例属于同一构思，其具体实现过程详见神经网络模型实施例，这里不再赘述。

实施例三

结合图3描述的本发明实施例的目标检测方法可以由目标检测设备来实现。图3示出了本发明实施例提供的目标检测设备的硬件结构示意图。

实现目标检测方法的目标检测设备可以包括处理器301以及存储有计算机程序指令的存储器302。

具体地，上述处理器301可以包括中央处理器(CPU)，或者特定集成电路(Application Specific Integrated Circuit，ASIC)，或者可以被配置成实施本发明实施例的一个或多个集成电路。

存储器302可以包括用于数据或指令的大容量存储器。举例来说而非限制，存储器302可包括硬盘驱动器(Hard Disk Drive，HDD)、软盘驱动器、闪存、光盘、磁光盘、磁带或通用串行总线(Universal Serial Bus，USB)驱动器或者两个或更多个以上这些的组合。在合适的情况下，存储器302可包括可移除或不可移除(或固定)的介质。在合适的情况下，存储器302可在数据处理装置的内部或外部。在特定实施例中，存储器302是非易失性固态存储器。在特定实施例中，存储器302包括只读存储器(ROM)。在合适的情况下，该ROM可以是掩模编程的ROM、可编程ROM(PROM)、可擦除PROM(EPROM)、电可擦除PROM (EEPROM)、电可改写ROM(EAROM)或闪存或者两个或更多个以上这些的组合。

处理器301通过读取并执行存储器302中存储的计算机程序指令，以实现上述实施例中的任意一种目标检测方法。

在一个示例中，目标检测设备还可包括通信接口303和总线310。其中，如图3所示，处理器301、存储器302、通信接口303通过总线310连接并完成相互间的通信。

通信接口303，主要用于实现本发明实施例中各模块、装置、单元和/或设备之间的通信。

总线310包括硬件、软件或两者，将目标检测设备的部件彼此耦接在一起。举例来说而非限制，总线可包括加速图形端口(AGP)或其他图形总线、增强工业标准架构(EISA)总线、前端总线(FSB)、超传输(HT)互连、工业标准架构(ISA)总线、无限带宽互连、低引脚数(LPC)总线、存储器总线、微信道架构(MCA)总线、外围组件互连(PCI)总线、PCI-Express(PCI-X)总线、串行高级技术附件(SATA)总线、视频电子标准协会局部(VLB)总线或其他合适的总线或者两个或更多个以上这些的组合。在合适的情况下，总线310可包括一个或多个总线。尽管本发明实施例描述和示出了特定的总线，但本发明考虑任何合适的总线或互连。

实施例四

另外，结合上述实施例中的目标检测方法，本发明实施例可提供一种计算机可读存储介质来实现。该计算机可读存储介质上存储有计算机程序指令；该计算机程序指令被处理器执行时实现上述实施例中的任意一种目标检测方法。

需要明确的是，本发明并不局限于上文所描述并在图中示出的特定配置和处理。为了简明起见，这里省略了对已知方法的详细描述。在上述实施例中，描述和示出了若干具体的步骤作为示例。但是，本发明的方法过程并不限于所描述和示出的具体步骤，本领域的技术人员可以在领会本发明的精神后，作出各种改变、修改和添加，或者改变步骤之间的顺序。

以上的结构框图中所示的功能块可以实现为硬件、软件、固件或者它们的组合。当以硬件方式实现时，其可以例如是电子电路、专用集成电路(ASIC)、适当的固件、插件、功能卡等等。当以软件方式实现时，本发明的元素是被用于执行所需任务的程序或者代码段。程序或者代码段可以存储在机器可读介质中，或者通过载波中携带的数据信号在传输介质或者通信链路上传送。“机器可读介质”可以包括能够存储或传输信息的任何介质。机器可读介质的例子包括电子电路、半导体存储器设备、ROM、闪存、可擦除ROM(EROM)、软盘、CD-ROM、光盘、硬盘、光纤介质、射频(RF)链路，等等。代码段可以经由诸如因特网、内联网等的计算机网络被下载。

还需要说明的是，本发明中提及的示例性实施例，基于一系列的步骤或者装置描述一些方法或系统。但是，本发明不局限于上述步骤的顺序，也就是说，可以按照实施例中提及的顺序执行步骤，也可以不同于实施例中的顺序，或者若干步骤同时执行。

以上所述，仅为本发明的具体实施方式，所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的系统、模块和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。应理解，本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。

尽管本发明已进行了一定程度的描述，明显地，在不脱离本发明的精神和范围的条件下，可进行各个条件的适当变化。可以理解，本发明不限于所述实施方案，而归于权利要求的范围，其包括所述每个因素的等同替换。

Claims

1.一种目标检测系统，用于对图像进行目标检测，其特征在于，所述系统包括：

分类评分层，用于基于所述特征数据集，确定对应至少一个分类类别的得分数据集，其中，得分数据集中包含至少一个得分图，一个得分图对应一个分类类别；

区域描述层，用于基于所述得分数据集，确定至少一个分类类别的候选目标区域及对应的区域描述特征；

结果生成层，用于基于所述至少一个分类类别的候选目标区域及对应的区域描述特征，确定至少一个目标的目标结果信息；

所述特征生成层，用于：

获取待检测图像；

根据预设的缩放比例序列对所述待检测图像进行尺度变换，获取至少一个尺度缩放图像；

针对每个神经元，对相应神经元输出的各初始特征图进行尺度反变换，以获取与所述待检测图像的尺度相同的至少一个中间特征图，形成中间数据集；

针对所述相应神经元的所述中间数据集中每个像素坐标点，将特征维度的最大像素值，确定为最终特征图在相应像素坐标点的像素值，将产生所述最大像素值对应的所述相应神经元的感受野半径，确定为感受野图在所述相应像素坐标点的像素值，形成最终特征图和感受野图；

将所述至少一个神经元对应的所述最终特征图和所述感受野图合并，形成特征数据集。

2.根据权利要求1所述的系统，其特征在于，所述目标结果信息包括：

目标所在区域、目标对应的分类类别、检测结果可信度。

3.根据权利要求1所述的系统，其特征在于，所述分类评分层，用于：

针对所述特征数据集中每个像素坐标点，基于相应像素坐标点在特征维度的各特征值，计算所述相应像素坐标点对各分类类别的识别得分值；

针对每个分类类别，将对应相应分类类别的识别得分值合并，形成所述相应分类类别的得分图；

将各分类类别的得分图合并，形成得分数据集。

4.根据权利要求1所述的系统，其特征在于，所述区域描述层，用于：

针对每个得分图，针对设定阈值集中的每个阈值，采用相应阈值将相应得分图转化为二值图像，将所述二值图像中像素值为1的相连像素坐标点的集合，确定为候选目标区域；

针对每个候选目标区域，筛选相应候选目标区域中满足筛选条件的至少一个像素坐标点，并记录筛选出的各像素坐标点的像素坐标、识别得分值和特征维度的各特征值，其中，所述各像素坐标点的像素坐标、识别得分值和特征维度的各特征值为所述对应的区域描述特征。

5.根据权利要求4所述的系统，其特征在于，所述区域描述层，还用于：

确定所述相应候选目标区域的区域中心点和区域高度；

针对所述相应候选目标区域中每个像素坐标点，将相应像素坐标点的像素坐标减去所述区域中心点的像素坐标后再除以所述区域高度，将所述相应像素坐标点的各感受野半径分别除以所述区域高度。

6.根据权利要求1所述的系统，其特征在于，所述结果生成层，用于：

针对每个分类类别，针对相应分类类别的每个候选目标区域，基于相应候选目标区域的区域描述特征，计算所述相应候选目标区域的检测结果可信度、区域中心修正值、区域宽修正值和区域高修正值；

基于所述区域中心修正值、所述区域宽修正值和所述区域高修正值调整所述相应候选目标区域的区域位置；

将对应检测结果可信度最高的候选目标区域对应的调整后的区域位置，确定为所述相应分类类别的目标所在区域。

7.一种基于神经网络模型的目标检测方法，其特征在于，采用如权利要求1至6中任一项所述的目标检测系统，所述方法包括：

获取待检测图像对应的特征图的集合，形成特征数据集；

基于所述特征数据集，确定对应至少一个分类类别的得分数据集，其中，得分数据集中包含至少一个得分图，一个得分图对应一个分类类别；

基于所述得分数据集，确定至少一个分类类别的候选目标区域及对应的区域描述特征；

基于所述至少一个分类类别的候选目标区域及对应的区域描述特征，确定至少一个目标的目标结果信息。

8.一种计算机可读存储介质，其上存储有计算机程序指令，其特征在于，当所述计算机程序指令被处理器执行时实现如权利要求7所述的方法。