CN113298080B

CN113298080B - 目标检测增强模型、目标检测方法、装置及电子装置

Info

Publication number: CN113298080B
Application number: CN202110841272.4A
Authority: CN
Inventors: 徐剑炯; 张香伟; 毛云青; 王国梁
Original assignee: CCI China Co Ltd
Current assignee: CCI China Co Ltd
Priority date: 2021-07-26
Filing date: 2021-07-26
Publication date: 2021-11-05
Anticipated expiration: 2041-07-26
Also published as: CN113298080A

Abstract

本申请实施例提出一种目标检测增强模型、目标检测方法、装置及电子装置，该模型包括：主干网络、增强模块及级联预测网络；所述主干网络用于对待检测图像依次进行多层卷积，提取得到对应卷积层的图像特征；下采样所述待检测图像得到第二图像，所述增强模块用于对所述第二图像进行特征增强得到具有多尺度上下文特征；所述级联预测网络用于通过多尺度上下文特征与图像特征得到融合特征，并对所述融合特征进行特征分类处理和边框回归处理并输出最终边框回归结果。该模型通过增强模块提取多尺度上下文特征，提高了模型对小目标的检测性能，并通过融合多尺度上下文特征和图像特征，进行特征分类和边框回归解决了目标类和背景类不平衡的问题。

Description

目标检测增强模型、目标检测方法、装置及电子装置

技术领域

本申请涉及人工智能技术领域，具体涉及一种目标检测增强模型、目标检测方法、装置及电子装置。

背景技术

随着人工智能技术的发展，目标检测已经广泛应用于行人检测、车牌识别、人脸检测等领域。许多研究人员在目标检测和识别领域取得了一定的进展，但这些方法的应用具有局限性，对非限定条件下的目标检测效果并不好，在实际使用时主要体现在以下两个方面：

（1）由于图像的大小及分辨率的限制，对图像中小目标的特征无法高效地提取，以至于检测图像中的小目标时精度较差。

（2）由于标准的目标检测模型实现最高精度的同时保持其高速度检测，主要存在两个障碍。首先是标准的一阶段目标检测卷积神经网络（SSD）难以应对大尺度变化，这可能是由于SSD的预测层中的上下文信息固定所致。其次是在训练SSD检测模型期间遇到目标类和背景类不平衡的问题，该问题现有的解决方案包括：在稀疏的难例集上进行训练，同时对经过良好分类的示例对其损失进行打折；或者是整合两阶段anchor优化策略，以通过消除负样本的anchors来减少分类器的搜索空间。这两种方法尽管取得了成功，但这些特征与优化的anchors无法很好地对齐，所以通常采用自上而下的特征金字塔表示法，并且仅对anchors进行了优化，导致最终预测结果精度不足的问题。

发明内容

第一方面，本申请实施例提供了一种目标检测增强模型，通过其中设计的增强模块和优化的级联预测网络，不仅可以提高对小目标检测的性能，还可以解决在训练目标检测增强模型时目标类和背景类不平衡的问题。

具体的，该模型包括：主干网络、增强模块及级联预测网络，所述主干网络包括多层依次连接的卷积层，所述级联预测网络包括多层依次连接的级联预测模块，所述级联预测模块与所述主干网络的卷积层层级对应，所述级联预测网络连接于所述增强模块和所述主干网络；

所述主干网络用于对待检测图像依次进行多层卷积，提取得到对应卷积层的图像特征；

下采样所述待检测图像得到第二图像，所述增强模块用于对所述第二图像进行特征增强得到具有多尺度上下文特征；

第一层级联预测模块用于融合同层的图像特征和所述多尺度的上下文特征集合得到融合特征，其余级联预测模块用于下采样上一层级联预测模块输出的融合特征后，再融合对应层的图像特征得到融合特征，所述级联预测网络用于对所述融合特征进行特征分类处理和边框回归处理并输出边框回归结果。

首先，为了提高该模型对小目标检测的性能，本申请实施例设计了增强模块，将下采样后的图像作为增强模块的输入，并输出多尺度上下文特征。在一些实施例中，所述增强模块包括：

将所述第二图像进行连续卷积，产生初始特征投影；

将所述初始特征投影再次卷积并切分，得到多个低维分支；

对不同的所述低维分支串联不同层数的膨胀卷积核，得到对应的上下文特征集合；

堆叠所述上下文特征集合，得到多尺度上下文特征。

其中，堆叠得到的多尺度上下文特征集合了相同的特征分辨率、不同的语义信息特征以及不同的感受野，这种联合原始尺度、扩大尺度的感受野，并联不同低维分支且低维分支串联膨胀卷积核的方式，能够像多尺度感受野一样覆盖所有的目标。

具体的，“将所述第二图像进行连续卷积”包括所述第二图像通过依次连接的3*3的卷积层和1*1的卷积层；所述多个低维分支为所述初始特征投影通过1*1卷积层并切分得到四个低维分支，且同一所述低维分支串联的所述膨胀卷积核的膨胀率均不相同且随层数增加而增加。其中，所述膨胀卷积核为膨胀率为2、4、6或8中任一卷积核为3*3的卷积。

其次，所述级联预测网络包括依次相连的浅层级联预测模块、中层级联预测模块及深层级联预测模块；

在所述浅层级联预测模块中，融合所述多尺度上下文特征与同层的所述图像特征，得到浅层融合特征；

在所述中层级联预测模块中，下采样所述浅层融合特征后融合同层的所述图像特征，得到中层融合特征；

在所述深层级联预测模块中，下采样所述中层融合特征后融合同层的所述图像特征，得到深层融合特征。

为了解决目标类和背景类不平衡导致最终边框回归结果的精度不足的问题，在一些实施例中，所述级联预测网络包括精炼模块，其中所述精炼模块包括：

根据所述融合特征获得初始特征分类结果和初始目标框；

对所述初始特征分类结果进行特征分类获得增强特征分类结果；

根据所述增强特征分类结果，将所述融合特征输入可变性卷积提取强化特征；

根据所述强化特征对所述初始目标框进行边框回归，得到优选目标框。

所述级联预测网络的每层级联预测模块输出对应层的预测边框回归结果，通过非极大值抑制选出所述预测边框回归结果中标签损失最小作为最终边框回归结果。

第二方面，本申请实施例基于上述模型，还提供了一种目标检测方法，该方法将获取的待检测图像输入到上述模型中，包括：

获取待检测图像；

将所述待检测图像输入已训练的目标检测增强模型中获取最终边框回归结果，其中所述已训练的目标检测增强模型通过训练数据训练得到；

所述已训练的目标检测增强模型包括主干网络、增强模块及级联预测网络，所述主干网络包括多层依次连接的卷积层，所述级联预测网络包括多层依次连接的级联预测模块，所述级联预测模块与所述主干网络的卷积层层级对应，所述级联预测网络连接于所述增强模块和所述主干网络；

将上述方法应用于人脸检测时，在所述级联预测网络中加入面部关键点定位的损失计算，可以通过所述面部关键点对人脸图像进行校正。

将上述方法应用于人脸识别时，具体还包括以下步骤：

根据所述边框回归结果获取目标图像；

根据所述面部关键点获取矫正目标图像；

提取所述矫正目标图像中的目标特征，获取目标特征库中与所述目标特征相似度最大的相似目标特征；

根据所述相似目标特征识别对应的身份信息。

第三方面，本申请实施例还提供了一种目标检测装置，该装置包括：

获取单元：用于获取待检测图像；

检测单元：用于将所述待检测图像输入已训练的目标检测增强模型中获取最终边框回归结果，其中所述已训练的目标检测增强模型通过训练数据训练得到；

第四方面，本申请实施例提出了一种电子装置，包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以如上任一项所述的目标检测方法。

第五方面，本申请实施例提出了一种计算机程序产品，所述计算机程序产品包括：程序或指令，当所述程序或指令在计算机上运行时，使得所述计算机执行如上任一项所述的目标检测方法。

第六方面，本申请实施例提出了一种存储介质，所述存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行如上任一项所述的目标检测方法。

本申请实施例提出的一种目标检测增强模型、目标检测方法、装置及电子装置，首先通过增强模块提取多尺度上下文特征，用于丰富提取的特征并增强该模型对多尺度的判别能力，进而提高了模型对小目标的检测性能；其次，优化了级联预测网络，通过融合多尺度上下文特征和图像特征得到融合特征，对融合特征进行特征分类和边框回归强化待检测图像中的目标特征并弱化背景特征，解决了目标类和背景类不平衡的问题，进而通过级联选择得到标签损失最小的最终边框回归结果。

值得一提的是，本申请实施例中优化级联预测网络的方法是建立在拥有多尺度上下文特征的基础上，在提高增强该模型的判别能力的基础上，提高了对小目标的检测性能，并通过融合多尺度上下文特征和图像特征，进行特征分类和边框回归解决目标类与背景类分类不平衡导致的初始回归框精度不足的问题。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1是根据本申请实施例的目标检测增强模型架构图；

图2是根据本申请实施例的增强模块的流程示意图；

图3是根据本申请实施例的精炼模块的示意图；

图4是根据本申请实施例的区域安全检测方法流程图；

图5是根据本申请实施例的人脸特征提取流程图；

图6是根据本申请实施例的人脸匹配流程图；

图7是根据本申请实施例的目标检测装置的结构框图；

图8是根据本申请实施例的电子装置的硬件结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员所获得的所有其他实施例，都属于本申请保护的范围。

需要说明的是：在其他实施例中并不一定按照本说明书示出和描述的顺序来执行相应方法的步骤。在一些其他实施例中，其方法所包括的步骤可以比本说明书所描述的更多或更少。此外，本说明书中所描述的单个步骤，在其他实施例中可能被分解为多个步骤进行描述；而本说明书中所描述的多个步骤，在其他实施例中也可能被合并为单个步骤进行描述。

实施例一

本实施例提供了一种目标检测增强模型，图1是根据本申请实施例的目标检测增强模型架构图，如图1所示，该模型具体包括：主干网络、增强模块及级联预测网络，所述主干网络包括多层依次连接的卷积层，所述级联预测网络包括多层依次连接的级联预测模块，所述级联预测模块与所述主干网络的卷积层层级对应，所述级联预测网络连接于所述增强模块和所述主干网络；

在本实施例中，主干网络包括依次相连的第一、第二和第三卷积层，且卷积的步长均为2。对应的，级联预测网络包括依次连接的浅层、中层和深层级联预测模块，主干网络中的卷积层与级联预测网络中的级联预测模块一一对应。

具体的，原始图像作为待检测图像输入到主干网络中，经过第一卷积层提取得到第一层图像特征并输入浅层级联预测模块，经过第二卷积层提取得到第二层图像特征并输入中层级联预测模块，经过第三卷积层提取得到第三层图像特征并输入深层级联预测模块。

首先，为了提高该模型对小目标检测的性能，本实施例设计的增强模块，将下采样后的图像作为增强模块的输入，并输出多尺度上下文特征。具体的，该增强模块包括：

将所述第二图像进行连续卷积，产生初始特征投影；

将所述初始特征投影再次卷积并切分，得到多个低维分支；

堆叠所述上下文特征集合，得到多尺度上下文特征。

具体的参照图2，图2是根据本申请实施例的增强模块的流程示意图。

如图2所示，在本实施例中，第二图像先通过依次连接的3*3的卷积层和1*1的卷积层，产生初始特征投影，然后将初始特征投影通过1*1的卷积层切分成四个低维分支，图2从左往右分别为第一低维分支、第二低维分支、第三低维分支及第四低维分支，其中每一低维分支相当于四分之一个初始特征投影。

在该步骤中，然后为了捕获多尺度上下文信息，对不同的低维分支串联不同层数的膨胀卷积核，且同一低维分支串联的膨胀卷积核的膨胀率均不相同且随层数增加而增加，其中膨胀卷积核为膨胀率为2、4、6或8中任一卷积核为3*3的卷积。

其中，第一低维分支串联膨胀率为2、且卷积核为3*3的卷积；第二低维分支依次串联膨胀率分别为2和4、且卷积核均为3*3的卷积；第三低维分支依次串联膨胀率分别为2、4和6、且卷积核均为3*3的卷积；第四低维分支依次串联膨胀率分别为2、4、6和8、且卷积核均为3*3的卷积。膨胀卷积核将初始特征投影转换为上下文特征集合。

最后，堆叠四个分支的上下文特征集合，得到多尺度上下文特征。特别的是，该堆叠运算要求四个分支输出的特征矩阵宽高相等。

其中，该多尺度上下文特征集合了相同的特征分辨率、不同的语义信息特征以及不同的感受野，这种联合原始尺度、扩大尺度的感受野，并联不同低维分支且低维分支串联膨胀卷积核的方式，能够像多尺度感受野一样覆盖所有的目标。

其次，本实施例中的级联预测网络包括依次相连的浅层级联预测模块、中层级联预测模块及深层级联预测模块；在所述浅层级联预测模块中，融合所述多尺度上下文特征与同层的所述图像特征，得到浅层融合特征；在所述中层级联预测模块中，下采样所述浅层融合特征后融合同层的所述图像特征，得到中层融合特征；在所述深层级联预测模块中，下采样所述中层融合特征后融合同层的所述图像特征，得到深层融合特征。

在本实施例的级联预测网络中，为了解决目标类和背景类不平衡导致最终边框回归结果的精度不足的问题，该级联预测网络包括精炼模块，其中所述精炼模块包括：

根据所述融合特征获得初始特征分类结果和初始目标框；

具体的，在本实施例的精炼模块中，以浅层级联预测模块为例，在融合了第一层图像特征和多尺度上下文特征后得到融合特征，将融合特征输入精炼模块。具体参考图3，图3是根据本申请实施例的精炼模块的示意图。

如图3所示：先对融合特征进行第一次特征分类和边框回归，获取到初始特征分类结果和初始目标框，对初始特征分类结果再次进行特征分类，分类时根据融合特征输出两个特征矩阵，其中一个特征矩阵为目标特征矩阵，另一个矩阵为目标特征矩阵的冗余矩阵，也就是背景特征矩阵，融合特征分别融合两个矩阵后再融合得到增强特征分类结果。然后根据该增强特征分类结果，将融合特征输入3*3可变性卷积重新提取获得强化特征，根据该强化特征和初始目标框再次进行边框回归，得到浅层优选目标框。

同理，中层级联预测模块通过精炼模块得到中层优选目标框，深层级联预测模块通过精炼模块得到深层优选目标框。

最后，所述级联预测网络的每层级联预测模块输出对应层的预测边框回归结果，通过非极大值抑制选出所述预测边框回归结果中标签损失最小作为最终边框回归结果。

关于该目标检测增强模型的模型架构如上所述，该模型需要被训练后才能对视频中的目标检测检测，通过输出的最终边框回归结果获取目标的位置及包围该目标的目标框大小。具体的，该目标检测增强模型的训练方法如下：

标记训练和测试样本：

首先，获取含有目标的原始图像集。在本实施例中，原始图像集选自监控视频片段，并且，为了使该模型可以从复杂的环境中检测到目标，更好地减少环境场景对检测造成的干扰，该原始图像集选自不同地点、不同时间以及不同天气的监控视频片段。

关于目标的标记框的标记：若在Windows操作系统、linux操作系统或者MAC操作系统配置python和xml环境之后，使用LabelImg标注工具得到目标图像标签框，对于在监控环境下满足这些条件的，要求标注人员对其进行边界框标注，将标注图像数据信息存为XML格式文件，生成的 XML 文件是遵循 PASCAL VOC 的格式的，根据训练模型框架的不同，把XML标注数据格式转化为和框架匹配的标签数据格式。

然后，将原始图像集分为训练图像集和测试图像集。在本实施例中，为了丰富原始图像集并增强训练效果，对该原始图像集中的目标进行几何变换以得到更多的图像。

具体的，将该图像集中部分图像中的目标通过平移、旋转、缩小、Mosaic数据增强和剪切变换来得到更多图像。其中，旋转的旋转角度包括但不限于45度、90度、180度和270度；缩小的范围包括但不限于原尺寸的二分之一和三分之一。

最后将该原始图像集中的90%作为训练图像集，10%作为测试图像集，并且保证训练图像集和测试图像集中的图像不重复。

训练该目标检测增强模型的架构：

随机初始化各层的连接权值w和偏置b,给定学习速率η和最小批次Batch，选定激活函数RELU，选定损失函数Loss以及当前数据下最大迭代次数（代数）；利用k-means算法生成9个候选框，根据大中小目标每层依次分配三个尺寸的候选框，即在每层的最后输出特征图上进行单元格划分，利用特征金字塔其中一层输出特征图尺寸大小为W*H，根据当前数据聚类结果，如果当前数据下聚类结果显示大目标数据多，我们就在输出特征图上分配大于3个候选框使其在输出特征图上逐单元格去遍历特征图，其次根据聚类结果在中目标特征图上分配小于3个候选框，同理在小目标特征图上分配小于3个候选框，使其三个级联优化预测网络上分配的候选框个数为9个；确定好以上各个参数之后将标注图像按批次输入网络模型的体系结构神经网络，通过级联预测层预测一个和目标对应的候选框，进行最后的卷积输出结果；输入数据反复迭代直到神经网络输出层误差达到预设精度要求或训练次数达到最大迭代次数，结束训练，保存网络结构和参数，得到训练好的目标检测增强模型。

关于模型的迭代：

搜集一批新的图像集，让模型去检测这一批图像集，将检测结果划分为两大类：有框图像和无框图像，有框图像又分为真正目标图像和误报目标图像，无框图像又可分为未检测目标的图像和图像中本来就没有目标的图像，其中将误报目标图像作为负样本，将含有行人目标但未检测到的图像作为训练样本，随后这些没检测到目标图像进行数据标注和数据增强，然后在原有模型的基础上在训练出一个新的模型，测试模型效果检查精度是否达标，如果新的模型未达标加入新的数据并对网络调整参数训练，如果模型精度已经达到要求并且在目前训练数据下最优时停止训练，循环这个步骤以达到模型适合实际环境中样本的复杂度。

实施例二

上述目标检测增强模型可以应用于目标为行人、车辆、人脸等的检测场景中。因此，基于上述实施例中的目标检测增强模型，本实施例提供了一种目标检测方法。该方法将获取的待检测图像输入到上述模型中，包括：

获取待检测图像；

第一层级联预测模块用于融合同层的图像特征和所述多尺度的上下文特征集合得到融合特征，其余级联预测模块用于下采样上一层级联预测模块输出的融合特征后，再融合对应层的图像特征得到融合特征，所述级联预测网络用于对所述融合特征进行特征分类处理和边框回归处理并输出边框回归结果。具体的，该方法中的目标检测模型可以是实施例一中任意一种的目标检测模型，其中的主干网络、增强模块和级联预测网络均可按照实施例一中的目标检测模型实施。

将上述方法应用于行人检测时，目标检测增强模型的训练图像集中需要对行人进行标注。

将上述方法应用于人脸检测时，目标检测增强模型的训练图像集中需要对人脸进行标注。并且为了提高人脸检测的精读，还可以在所述级联预测网络中加入面部关键点定位的损失计算，后续需要人脸识别时可以通过所述面部关键点对人脸图像进行校正。具体的，在该模型的级联预测模块中加入面部关键点定位的损失计算。其中，损失函数为wingloss损失函数，面部关键点包括：两个眼睛中间的点、鼻尖的点以及嘴角的两点。由于人脸检测中应用面部关键点定位是现有技术，因此不再过多赘述。

另外，还可以根据已训练的用于行人检测的目标检测增强模型输出的边框回归结果，直接获取行人图像，将该行人图像作为已训练的用于人脸检测的目标检测增强模型的输入，获取更加准确的人脸检测结果。

更进一步的，按照上述方法，还可以根据人脸检测结果进行人脸识别。具体步骤为：

根据所述边框回归结果获取目标图像；

根据所述面部关键点获取矫正目标图像；

根据所述相似目标特征识别对应的身份信息。

以基于实时人脸识别的区域安全管理为例，通过实时对出现在监控视频中的人进行人脸检测和识别，以实现区域内对于流动人员的高效管理和对潜在危险人员的高效检测。

本实施例提供了一种区域安全检测方法。该方法是在区域的四周以及内部的墙面上安装摄像头，通过行人检测、人脸检测、人脸识别以及人脸特征匹配识别出监控视频中人员对应的身份信息，以实现社区治理中的安全检测，实时关注其中的特殊人群，例如在逃罪犯和患有精神疾病的人员，并根据需要及时向安保中心进行预警。

具体的，以社区管理为例，该方法将外来人员在本社区中有房屋租住且已经向公安局进行暂住证办理登机的人员以及不是特殊人群的作为白名单人员，有效的管理常住人口和外来人员问题；其次将特殊人群作为黑名单人员，对识别到的黑名单人员进行实时跟踪监控。

需要说明的是该方法还可以进一步应用于其他合适的应用场景，例如：街道社区治理、小区单元治理、商场管理或酒店管理等。

该方法是将将监控视频图像输入到已训练的目标检测模型中，先进行行人检测获取到行人图像，再对行人图像进行人脸检测获取到人脸图像，然后通过提取人脸图像中的人脸特征，与人脸特征库中的人脸特征进行对比，以识别该人脸图像对应的身份信息。具体参照图4，图4是根据本申请实施例的区域安全检测方法流程图。该方法包括：

获取监控视频图像；

将所述监控视频图像输入用于行人检测的目标检测增强模型中获取所述行人最终边框回归结果，其中所述已训练的目标检测增强模型通过训练数据训练得到；

根据所述行人最终边框回归结果获取行人图像，并输入用于人脸检测的目标检测增强模型中获取人脸最终边框回归结果和面部关键点，其中所述已训练的目标检测增强模型通过训练数据训练得到；

根据所述人脸最终边框回归结果获取人脸图像，并根据所述面部关键点获得矫正人脸图像；

提取所述矫正人脸图像的目标人脸特征，获取人脸特征库中人脸特征与所述目标人脸特征相似度最大的相似人脸特征；

根据所述相似人脸特征识别对应的身份信息。

在该方法中，人脸特征的提取方法参考图5，图5是根据本申请实施例的人脸特征提取流程图。如图5所示，校正后的人脸图像通过EfficientNet将人脸进行编码，得到长度为128维的人脸特征向量。另外，人脸特征库的建立也是根据上述提取方法，提取到人脸图像库中每个人的人脸特征向量。

另外，本实施例中具体的人脸匹配流程参考图6，图6是根据本申请实施例的人脸匹配流程图。如图6所示，先构建人脸特征库，然后从行人图像中检测到人脸，并通过面部关键点获得矫正人脸图像，提取矫正人脸图像中的目标人脸特征，具体的为人脸特征向量，然后与人脸特征库中的人脸特征向量进行匹配，找到相似度最大的人脸特征向量并输出。

在一些实施例中，在进行人脸特征匹配时设有阈值，当相似度大于阈值时，再根据该人脸特征获取对应的身份信息；当相似度小于阈值时，说明该人脸特征不存在于本人脸特征库中。

最后，还可以根据所述身份信息选择对应的预警模式。

具体的，在该步骤中，当根据身份信息判断人员为白名单上的人员时，预警模式为绿色；当根据身份信息判断人员为黑名单上的人员时，预警模式为红色；当根据身份信息判断人员为陌生人时，预警模式为黄色。其中，若黑名单上的人员为在逃罪犯时，对其建档记录，以备公安部门破案查证，同时通知保安人员及时到达现场，以免其作案得逞。

实施例三

基于相同构思，本实施例提供了一种执行上述目标检测方法的目标检测装置，具体参考图7，图7是根据本申请实施例的目标检测装置的结构框图。

如图7所示，该装置包括：

获取单元：用于获取待检测图像；

实施例四

本实施例还提供了一种电子装置，具体参考图8，图8是根据本申请实施例的电子装置的硬件结构示意图。如图8所示，该电子装置包括存储器304和处理器302，该存储器304中存储有计算机程序，该处理器302被设置为运行计算机程序以执行上述实施例中任意一种目标检测方法的步骤。

具体地，上述处理器302可以包括中央处理器（CPU），或者特定集成电路（Application Specific Integrated Circuit，简称为ASIC），或者可以被配置成实施本申请实施例的一个或多个集成电路。

其中，存储器304可以包括用于数据或指令的大容量存储器304。举例来说而非限制，存储器304可包括硬盘驱动器（Hard Disk Drive，简称为HDD）、软盘驱动器、固态驱动器（Solid State Drive，简称为SSD）、闪存、光盘、磁光盘、磁带或通用串行总线（UniversalSerial Bus，简称为USB）驱动器或者两个或更多个以上这些的组合。在合适的情况下，存储器304可包括可移除或不可移除（或固定）的介质。在合适的情况下，存储器304可在数据处理装置的内部或外部。在特定实施例中，存储器304是非易失性（Non-Volatile）存储器。在特定实施例中，存储器304包括只读存储器（Read-Only Memory，简称为ROM）和随机存取存储器（Random Access Memory，简称为RAM）。在合适的情况下，该ROM可以是掩模编程的ROM、可编程ROM（Programmable Read-Only Memory，简称为PROM）、可擦除PROM（ErasableProgrammable Read-Only Memory，简称为EPROM）、电可擦除PROM（Electrically ErasableProgrammable Read-Only Memory，简称为EEPROM）、电可改写ROM（ElectricallyAlterable Read-Only Memory，简称为EAROM）或闪存（FLASH）或者两个或更多个以上这些的组合。在合适的情况下，该RAM可以是静态随机存取存储器（Static Random-AccessMemory，简称为SRAM）或动态随机存取存储器（Dynamic Random Access Memory，简称为DRAM），其中，DRAM可以是快速页模式动态随机存取存储器304（Fast Page Mode DynamicRandom Access Memory，简称为FPMDRAM）、扩展数据输出动态随机存取存储器（ExtendedDate Out Dynamic Random Access Memory，简称为EDODRAM）、同步动态随机存取内存（Synchronous Dynamic Random-Access Memory，简称SDRAM）等。

存储器304可以用来存储或者缓存需要处理和/或通信使用的各种初始化数据文件，以及处理器302所执行的可能的计算机程序指令。

处理器302通过读取并执行存储器304中存储的计算机程序指令，以实现上述实施例中任意一种目标检测方法。

可选地，上述电子装置还可以包括传输设备306以及输入输出设备308，其中，该传输设备306和上述处理器302连接，该输入输出设备308和上述处理器302连接。

可选地，在本实施例中，上述处理器302可以被设置为通过计算机程序执行上述实施例中的任意一种目标检测方法。

传输设备306可以用来经由一个网络接收或者发送数据。上述的网络具体实例可包括电子装置的通信供应商提供的有线或无线网络。在一个实例中，传输设备包括一个网络适配器（Network Interface Controller，简称为NIC），其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，传输设备306可以为射频（Radio Frequency，简称为RF）模块，其用于通过无线方式与互联网进行通讯。

输入输出设备308用于输入或输出信息。例如，上述输入输出设备可以是显示屏、鼠标、键盘或其他设备。在本实施例中，输入设备用于输入采集得到的信息，输入的信息可以是数据、表格、图像、实时视频，输出的信息可以是通过业务系统展示的文本、图表以及告警信息等等。

另外，结合上述实施例中的一种目标检测方法或区域安全检测方法，本申请实施例可一种计算机程序产品来实现。该计算机程序产品包括：程序或指令，当所述程序或指令在计算机上运行时，使得所述计算机执行实现上述实施例中的目标检测方法或区域安全检测方法。

另外，结合上述实施例中的一种目标检测方法，本申请实施例可提供一种存储介质来实现。该存储介质上存储有计算机程序；该计算机程序被处理器执行时实现上述实施例中的目标检测方法或区域安全检测方法。

本领域的技术人员应该明白，以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请的保护范围应以所附权利要求为准。

Claims

1.目标检测增强模型，其特征在于，包括：主干网络、增强模块及级联预测网络，所述主干网络包括多层依次连接的卷积层，所述级联预测网络包括多层依次连接的级联预测模块，所述级联预测模块与所述主干网络的卷积层层级对应，所述级联预测网络连接于所述增强模块和所述主干网络；

下采样所述待检测图像得到第二图像，所述增强模块用于对所述第二图像进行特征增强得到具有多尺度上下文特征，其中所述多尺度上下文特征集合了相同的特征分辨率、不同的语义信息以及不同的感受野；

第一层级联预测模块用于融合同层的图像特征和所述多尺度上下文特征得到融合特征，其余级联预测模块用于下采样上一层级联预测模块输出的融合特征后，再融合对应层的图像特征得到融合特征，所述级联预测网络用于对所述融合特征进行特征分类处理和边框回归处理并输出最终边框回归结果。

2.根据权利要求1所述的目标检测增强模型，其特征在于，所述增强模块包括：

将所述第二图像进行连续卷积，产生初始特征投影；

将所述初始特征投影再次卷积并切分，得到多个低维分支；

堆叠所述上下文特征集合，得到多尺度上下文特征。

3.根据权利要求2所述的目标检测增强模型，其特征在于，“将所述第二图像进行连续卷积”包括：所述第二图像通过依次连接的3*3的卷积层和1*1的卷积层。

4.根据权利要求2所述的目标检测增强模型，其特征在于，所述多个低维分支为所述初始特征投影通过1*1卷积层并切分得到四个低维分支。

5.根据权利要求2所述的目标检测增强模型，其特征在于，同一所述低维分支串联的所述膨胀卷积核的膨胀率均不相同且随层数增加而增加。

6.根据权利要求1所述的目标检测增强模型，其特征在于，所述级联预测网络包括依次相连的浅层级联预测模块、中层级联预测模块及深层级联预测模块；

7.根据权利要求1所述的目标检测增强模型，其特征在于，所述级联预测网络包括精炼模块，其中所述精炼模块包括：

根据所述融合特征获得初始特征分类结果和初始目标框；

8.根据权利要求1所述的目标检测增强模型，其特征在于，所述级联预测网络的每层级联预测模块输出对应层的预测边框回归结果，通过非极大值抑制选出所述预测边框回归结果中标签损失最小作为最终边框回归结果。

9.目标检测方法，其特征在于，包括：

获取待检测图像；

所述主干网络对待检测图像依次进行多层卷积，提取得到对应卷积层的图像特征；

10.根据权利要求9所述的目标检测方法，其特征在于，所述增强模块对所述第二图像进行特征增强得到具有多尺度上下文特征包括：

将所述第二图像进行连续卷积，产生初始特征投影；

将所述初始特征投影再次卷积并切分，得到多个低维分支；

堆叠所述上下文特征集合，得到多尺度上下文特征。

11.根据权利要求10所述的目标检测方法，其特征在于，“将所述第二图像进行连续卷积”包括：所述第二图像通过依次连接的3*3的卷积层和1*1的卷积层。

12.根据权利要求10所述的目标检测方法，其特征在于，所述多个低维分支为所述初始特征投影通过1*1卷积层并切分得到四个低维分支。

13.根据权利要求10所述的目标检测方法，其特征在于，同一所述低维分支串联的所述膨胀卷积核的膨胀率均不相同且随层数增加而增加。

14.根据权利要求9所述的目标检测方法，其特征在于，所述级联预测网络包括依次相连的浅层级联预测模块、中层级联预测模块及深层级联预测模块；

15.根据权利要求9所述的目标检测方法，其特征在于，所述级联预测网络包括精炼模块，其中所述精炼模块包括：

根据所述融合特征获得初始特征分类结果和初始目标框；

16.根据权利要求9所述的目标检测方法，其特征在于，所述级联预测网络的每层级联预测模块输出对应层的预测边框回归结果，通过非极大值抑制选出所述预测边框回归结果中标签损失最小作为最终边框回归结果。

17.根据权利要求9所述的目标检测方法，其特征在于，所述方法还包括：在所述级联预测网络中加入面部关键点定位的损失计算。

18.根据权利要求17所述的目标检测方法，其特征在于，所述方法还包括：

根据所述边框回归结果获取目标图像；

根据所述面部关键点获取矫正目标图像；

根据所述相似目标特征识别对应的身份信息。

19.目标检测装置，其特征在于，包括：

获取单元：用于获取待检测图像；

20.一种电子装置，包括存储器和处理器，其特征在于，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以如执行权利要求9-18中任一项所述的目标检测方法。

21.一种计算机程序产品，其特征在于，所述计算机程序产品包括：程序或指令，当所述程序或指令在计算机上运行时，使得所述计算机执行如权利要求9-18任一项所述的目标检测方法。

22.一种存储介质，其特征在于，所述存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行如权利要求9-18任一项所述的目标检测方法。