CN112381183B

CN112381183B - 目标检测方法、装置、电子设备及存储介质

Info

Publication number: CN112381183B
Application number: CN202110032432.0A
Authority: CN
Inventors: 张子浩; 杨家博
Original assignee: Beijing Yizhen Xuesi Education Technology Co Ltd
Current assignee: Beijing Yizhen Xuesi Education Technology Co Ltd
Priority date: 2021-01-12
Filing date: 2021-01-12
Publication date: 2021-05-07
Anticipated expiration: 2041-01-12
Also published as: CN112381183A

Abstract

本申请公开了目标检测方法、装置、电子设备及存储介质，具体实现方案为：对待检测图像进行特征提取，得到多尺度特征图；将所述多尺度特征图输入训练好的目标检测网络，得到第一子特征图及第二子特征图；其中，所述第一子特征图用于表征所述待检测图像的中心区域特征，所述第二子特征图用于表征所述待检测图像的边框区域特征；在所述训练好的目标检测网络中，将所述第一子特征图及所述第二子特征图采用基于中心区域预测的回归方式进行预测，输出多个候选检测框；根据所述多个候选检测框，得到目标检测框。采用本申请，可以提高目标检测的准确率。

Description

目标检测方法、装置、电子设备及存储介质

技术领域

本申请涉及计算机视觉技术领域，尤其涉及一种目标检测方法、装置、电子设备及存储介质。

背景技术

随着便携设备、手机终端等电子设备相比以往更智能化，芯片的解析能力更强，可以通过计算机视觉技术对图文信息、视频信息等进行高效的解析，并对图文信息、视频信息等中的目标对象进行检测。

目标检测算法大多是采用矩形方框作为目标检测框，并检测图像中规则形状的图文信息，然而，在实际应用中存在倾斜角度或不规则的图像，或者图像中存在不规则形状的图文信息等，在这些情况下，如何提高目标检测准确率，未存在有效的解决方案。

发明内容

本申请提供了一种目标检测方法、装置、电子设备及存储介质。

根据本申请的一方面，提供了一种目标检测方法，包括：

对待检测图像进行特征提取，得到多尺度特征图；

将所述多尺度特征图输入训练好的目标检测网络，得到第一子特征图及第二子特征图；其中，所述第一子特征图用于表征所述待检测图像的中心区域特征，所述第二子特征图用于表征所述待检测图像的边框区域特征；

在所述训练好的目标检测网络中，将所述第一子特征图及所述第二子特征图采用基于中心区域预测的回归方式进行预测，输出多个候选检测框；

根据所述多个候选检测框，得到目标检测框。

根据本申请的另一方面，提供了一种目标检测装置，包括：

特征提取模块，用于对待检测图像进行特征提取，得到多尺度特征图；

特征分类模块，用于将所述多尺度特征图输入训练好的目标检测网络，得到第一子特征图及第二子特征图；其中，所述第一子特征图用于表征所述待检测图像的中心区域特征，所述第二子特征图用于表征所述待检测图像的边框区域特征；

目标检测模块，用于在所述训练好的目标检测网络中，将所述第一子特征图及所述第二子特征图采用基于中心区域预测的回归方式进行预测，输出多个候选检测框；

根据所述多个候选检测框，得到目标检测框。

根据本申请的另一方面，提供了一种电子设备，包括：

至少一个处理器；以及

与该至少一个处理器通信连接的存储器；其中，

该存储器存储有可被该至少一个处理器执行的指令，该指令被该至少一个处理器执行，以使该至少一个处理器能够执行本申请任意一实施例所提供的方法。

根据本申请的另一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，该计算机指令用于使该计算机执行本申请任意一项实施例所提供的方法。

采用本申请，可以对待检测图像进行特征提取，得到多尺度特征图。可以将所述多尺度特征图输入训练好的目标检测网络，得到第一子特征图及第二子特征图。其中，所述第一子特征图用于表征所述待检测图像的中心区域特征，所述第二子特征图用于表征所述待检测图像的边框区域特征。在所述训练好的目标检测网络中，可以将所述第一子特征图及所述第二子特征图采用基于中心区域预测的回归方式进行预测，输出多个候选检测框。由于将多尺度特征图输入训练好的目标检测网络，可以得到第一子特征图及第二子特征图，因此，在在训练好的目标检测网络中可以将第一子特征图及第二子特征图采用基于中心区域预测的回归方式进行预测，输出多个任意多边形（不限于矩形方框）构成的候选检测框；根据所述多个候选检测框，得到目标检测框。

应当理解，本部分所描述的内容并非旨在标识本申请的实施例的关键或重要特征，也不用于限制本申请的范围。本申请的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本申请的限定。其中：

图1是根据本申请实施例的目标检测方法的流程示意图；

图2是根据本申请实施例的应用示例中目标检测方法的网络主体结构示意图；

图3是根据本申请实施例的应用示例中网络主体结构的head网络示意图；

图4是根据本申请实施例的应用示例中任意多边形的外接矩形示意图；

图5是根据本申请实施例的应用示例中center map的高斯分布示意图；

图6是根据本申请实施例的应用示例中对任意多边形的标注示意图；

图7是根据本申请实施例的应用示例中任意多边形的中心点预测示意图；

图8是根据本申请实施例的应用示例中基于中心点预测poly点的映射对应示意图；

图9是根据本申请实施例的应用示例中后处理流程的示意图；

图10是根据本申请实施例的目标检测装置的组成结构示意图；

图11是用来实现本申请实施例的目标检测方法的电子设备的框图。

具体实施方式

以下结合附图对本申请的示范性实施例做出说明，其中包括本申请实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本申请的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。本文中术语“至少一种”表示多种中的任意一种或多种中的至少两种的任意组合，例如，包括A、B、C中的至少一种，可以表示包括从A、B和C构成的集合中选择的任意一个或多个元素。本文中术语“第一”、“第二”表示指代多个类似的技术用语并对其进行区分，并不是限定顺序的意思，或者限定只有两个的意思，例如，第一特征和第二特征，是指代有两类/两个特征，第一特征可以为一个或多个，第二特征也可以为一个或多个。

另外，为了更好的说明本申请，在下文的具体实施方式中给出了众多的具体细节。本领域技术人员应当理解，没有某些具体细节，本申请同样可以实施。在一些实例中，对于本领域技术人员熟知的方法、手段、元件和电路未作详细描述，以便于凸显本申请的主旨。

随着人工智能的发展和应用，目标检测算法越来越成熟，目标检测算法包括：SSD、YOLO、Faster CNN等，尤其目前anchor free 算法成为主流研究领域。相关技术中，这些目标检测算法大多是检测矩形方框，但是在实际应用场景中，待检测目标存在一定的倾斜角度或不规则目标。

针对上述待检测目标存在一定的倾斜角度或不规则目标的情况，本申请是基于中心预测和极值回归的任意多边形目标检测算法，可以采用中心点预测，对目标进行极值点回归，以完成针对任意多边形的目标检测。

根据本申请的实施例，提供了一种目标检测方法，图1是根据本申请实施例的目标检测方法的流程示意图，该方法可以应用于目标检测装置，例如，该装置可以部署于终端或服务器或其它处理设备执行的情况下，可以执行特征提取、特征分类、基于中心预测和极值回归的任意多边形目标检测等等。其中，终端可以为用户设备（UE，User Equipment）、移动设备、蜂窝电话、无绳电话、个人数字处理（PDA，Personal Digital Assistant）、手持设备、计算设备、车载设备、可穿戴设备等。在一些可能的实现方式中，该方法还可以通过处理器调用存储器中存储的计算机可读指令的方式来实现。如图1所示，包括：

S101、对待检测图像进行特征提取，得到多尺度特征图。

一示例中，针对特征提取而言，可以采用包括：resnet50、vggnet等特征提取网络来实现，比如，将待检测图像输入特征提取网络，根据特征提取网络对所述待检测图像进行特征提取，得到该多尺度特征图。这些特征提取网络在整个处理流程中可以作为主干网络，目标检测网络接入该主干网络，以构成整个处理流程中用到的整体网络架构。本申请的特征提取网络不限于resnet50、vggnet等，主干网络类型的网络都在本申请的保护范围之内。通过特征提取网络对该待检测图像进行特征提取，提取得到的图像特征，可以用于后续目标检测网络的处理，比如基于该图像特征的分类及其目标检测等等。

其中，该特征提取网络和该目标检测网络可以联合训练，以实现整体网络架构的网络参数的调整，以得到更为优化的训练后网络，也可以采用训练好的该特征提取网络，只对该目标检测网络进行训练，以调整目标检测网络的网络参数，直至得到训练好的目标检测网络。无论哪种训练方式，只要得到的整体网络架构，针对任意多边形（如倾斜目标和任意度变形所形成的不规则形状）实现上述目标检测流程（即基于中心预测和极值回归来实现任意多边形的目标检测），都在本申请的保护范围之内。

S102、将所述多尺度特征图输入训练好的目标检测网络，得到第一子特征图及第二子特征图；其中，所述第一子特征图用于表征所述待检测图像的中心区域特征，所述第二子特征图用于表征所述待检测图像的边框区域特征。

一示例中，该多尺度特征图，可以为图片尺寸不同且特征含义相同的多个特征图。比如，该多尺度特征图可以包括：特征图C1、特征图C2、特征图C3、特征图C4这四个特征图，特征图C1-特征图C4表征的特征含义相同，只是特征图的尺寸不同，特征图所表征的特征，可以用向量矩阵表示，以指示物体的轮廓信息，诸如每个像素点的颜色、纹理等。特征图C1-特征图C4的尺寸可以分别为128*128*128，64*64*256，32*32*256，16*16*512。采用本示例，特征图尺寸上的差异，目的是既能提取到较大物体的特征，也能提取到较小物体的特征。由于尺寸不同，分辨率不同，因此，所显示的特征即便含义相同，但是所表达的具体细节存在区别，通过这四个特征图可以得到更多用于后续分类的细节，对检测准确率的提高有帮助。

一示例中，第一子特征图可以为目标检测框外接矩形的中心区域预测图，记为center map。第二子特征图可以为标识目标检测框外接矩形的最大外接多边形最大组合点的预测图，记为poly map。

S103、在所述训练好的目标检测网络中，将所述第一子特征图及所述第二子特征图采用基于中心区域预测的回归方式进行预测，输出多个候选检测框。

一示例中，可以采用基于中心区域预测的回归方式进行预测出多个候选检测框，比如，将第一子特征图（center map）的每个像素点，映射到第二子特征图（poly map）图中，获取第一子特征图的每个像素点在第二子特征图对应的中心区域预测点（即用于计算边框区域预测点的预测回归值）。根据在第二子特征图对应的中心区域预测点得到多个候选检测框。

S104、根据所述多个候选检测框，得到目标检测框。

一示例中，可以对所述多个候选检测框执行非极大值抑制（NMS，Non-Maximumsuppression）处理，得到目标检测框。或者，在得到该多个候选检测框之前，针对构成任一候选检测框的预测点进行置信度计算后得到该目标检测框。

其中，针对NMS处理而言，可以是将多个候选检测框构成集合B，多个候选检测框分别对应的得分构成集合S，从集合S找出分数最高的候选检测框M，之后将候选检测框M从集合B删除，将候选检测框M添加到新集合D中，以及从集合B删除与该候选检测框M对应候选检测框重叠区域大于阈值的其他框，直至经过多次筛选及替换，从新集合D中得到最终的目标检测框。

一实施方式中，所述将所述多尺度特征图输入训练好的目标检测网络，得到第一子特征图及第二子特征图，包括：所述训练好的目标检测网络中包括分类子网络（如head网络）的情况下，将所述多个特征图输入所述分类子网络；所述多个特征图中的每个特征图经所述分类子网络第一分支上的第一卷积操作，得到中心区域特征图，并作为所述第一子特征图。其中，多个特征图中的每个特征图经所述分类子网络第二分支上的第二卷积操作，得到边框区域特征图（如用于多边形检测的边框区域特征图），并作为所述第二子特征图；将所述第一子特征图及所述第二子特征图作为对应每个特征图的一组数据，所述多个特征图分别对应所述第一子特征图及所述第二子特征图构成的多组数据。

采用本实施方式，可以输入多个特征图到head网络中，输出多个特征图分别对应的多组第一子特征图（center map）及第二子特征图（poly map），通过head网络的分类处理，可以得到实现基于中心区域预测回归的两类不同的特征图，从而为提高目标检测准确率提供了先决条件。

一实施方式中，所述在所述训练好的目标检测网络中，将所述第一子特征图及所述第二子特征图采用基于中心区域预测的回归方式进行预测，输出多个候选检测框，包括：所述训练好的目标检测网络中包括检测子网络的情况下，将所述第一子特征图及所述第二子特征图输入所述检测子网络；在所述检测子网络中，将所述第一子特征图中的每个像素点进行极值回归并映射到所述第二子特征图中，得到所述第一子特征图中的像素点在所述第二子特征图中对应的边框区域预测点，根据所述边框区域预测点得到多个候选检测框；通过所述检测子网络输出所述多个候选检测框。

一示例中，将第一子特征图（center map）的每个像素点，映射到第二子特征图（poly map）图中，获取第一子特征图的每个像素点在第二子特征图对应的中心区域预测点（即用于计算边框区域预测点的预测回归值），例如C1特征图经上述分类子网络（如head网络）得到第一子特征图和第二子特征图后，比如，第一子特征图中像素点位置为（i，j）的像素点，其分类为前景中的一类，那么其对应的28个预测值（极坐标系下的预测值）就在第二子特征图中的（i，j）位置上，从而，结合第一子特征图及第二子特征图后，可以得到第二子特征图中匹配于第一子特征图中心区域的边框区域预测点。还可以将预测的值由极坐标转为笛卡尔坐标（笛卡尔坐标系为直角坐标系和斜角坐标系的统称，两条数轴互相垂直的笛卡尔坐标系，称为笛卡尔直角坐标系，否则称为笛卡尔斜角坐标系。

采用本实施方式，根据两类不同的特征图（第一子特征图和第二子特征图）实现了基于中心区域的极值点预测回归，最终得到多个候选检测框，提高了目标检测的准确率。其中，训练该目标检测网络，为了得到更好的网络训练效果，采用极坐标下的极值点，由于利用极坐标可以表示多个边框点到中心点的相对位置或偏移量，因此，训练得到的目标检测网络能实现更好的目标检测准确率。

一实施方式中，所述根据所述边框区域预测点得到多个候选检测框，包括：将所述边框区域预测点由极坐标系转换为笛卡尔坐标系，得到笛卡尔坐标系下的边框区域预测点；根据所述笛卡尔坐标系下的边框区域预测点，得到所述多个候选检测框。

采用本实施方式，还可以将预测的值由极坐标转为笛卡尔坐标（笛卡尔坐标系为直角坐标系和斜角坐标系的统称，两条数轴互相垂直的笛卡尔坐标系，称为笛卡尔直角坐标系，否则称为笛卡尔斜角坐标系。本实施方式中，采用笛卡尔直角坐标系，进而，基于28个预测值（极坐标系下的预测值）得到14个坐标点（笛卡尔直角坐标系下的预测值），根据该坐标点的预测角度进行排序，可以得到多个候选检测框。

一实施方式中，还包括如下对目标检测网络的训练过程，以得到上述训练好的目标检测网络。

训练过程：

1、获取对样本图像进行特征提取后得到的多尺度特征图。

2、获取对所述样本图像进行图像尺寸缩放及人工标注后得到的标注数据，其中，图像尺寸缩放的比例，参考所述多尺度特征图，并得到与所述多尺度特征图尺寸相同的图像。

3、将所述多尺度特征图及所述标注数据构成样本数据，根据所述样本数据对目标检测网络进行训练，得到所述训练好的目标检测网络。

一示例中，可以根据所述多尺度特征图，生成第一样本子特征图及第二样本子特征图，从所述标注数据中，分别提取对应第一样本子特征图的第一标注数据（第一标注数据包括目标检测框的中心区域图）、及对应第二样本子特征图的第二标注数据（所述第二标注数据包括目标检测框的边框区域图）。根据所述第一样本子特征图及所述第一标注数据计算损失，得到第一损失函数，根据所述第二样本子特征图及所述第二标注数据计算损失，得到第二损失函数，根据所述第一损失函数及所述第二损失函数，得到目标损失函数，根据所述目标损失函数的反向传播对目标检测网络进行训练，以得到所述训练好的目标检测网络。

应用示例：

应用本申请实施例一处理流程包括如下内容：

图2是根据本申请实施例的应用示例中目标检测方法的网络主体结构示意图，如图2所示，输入的待检测图像经过预处理（如resize和padding等图像大小尺寸调整等）后图像尺寸为512×512×3，特征提取网络采用Resnet50的情况下，获取多尺度特征图，多尺度特征图可以包括：特征图C1、特征图C2、特征图C3、特征图C4这四个不同层的特征图，特征图C1-特征图C4表征的特征含义相同，只是特征图尺寸不同。表征的特征可以用向量矩阵表示，指示物体的轮廓信息，诸如每个像素点的颜色、纹理等，特征图C1的尺寸为128×128×128，特征图C2的尺寸为64×64×256，特征图C3的尺寸为32×32×256，特征图C4的尺寸为16×16×512，特征图在尺寸上的差异，目的是既能提取到较大物体的特征，也能提取到较小物体的特征。以64×64×256为例，其中64×64为特征图的宽及高，256指维度，诸如RGB三个维度等，能体现分辨率。

图3是根据本申请实施例的应用示例中网络主体结构的head网络示意图，head网络用于网络，在该网络主体结构中可以作为分类子网络使用。如图3所示，将当前的特征图C_i，如特征图C1-特征图C4分别输入head网络，通过head网络进行分类，以提取对应的输出的子特征图，如每个特征图分别对应两个子特征图构成的一组数据，如第一子特征图（center map）及第二子特征图（poly map）。具体的，通过head网络对输入的特征图分为两个分支分别提取center map和poly map。其中，在head网络的第一分支上经过4次卷积操作，得到尺寸为h×w×c的center map，其中h、w为对应特征图C_i的尺寸，C为分类的个数（指实物类别数，如人、电视等，本方案分80个类，加上背景一共81类）；在head网络的第二分支上同样经过4次卷积操作，得到尺寸为h×w×14的poly map，其中14代表最大外接多边形最大组合点（14个像素点，每个像素点2个值，合计28个值）。需要说明的是，两个分支计算方式一样，参数类型一样，但参数的数值不一样，使得获得的结果不一样。

在目标检测网络的训练过程中，可以采用如下基于多尺度特征图的多尺度特征训练及对应的人工标注。

一：基于多尺度特征图的多尺度特征训练

获取样本图片，针对每张样本图片进行预处理（包括大小尺寸调整等），以得到512×512的图片。将512×512的图片输入ResNet50，分别得到不同层的特征图C1、C2、C3、C4，其尺寸分别为128×128×128，64×64×256，32×32×256，16×16×512。将4个特征图分别输入目标检测网络的head结构，得到预测的center map和poly map。其中，特征图C1对应生成第一组center map和poly map，类似的，特征图C2-特征图C4均分别生成对应的第二组、第三组、第四组center map和poly map。

二、人工标注：

针对上述不同层的特征图C1、C2、C3、C4，对512×512的图片按尺寸进行缩放，以得到四种尺寸的缩放图128×128×128，64×64×256，32×32×256，16×16×512，再针对缩放图进行人工标注，以标定目标多边形的中心图以及多边形图，也就是说，通过人工标注可以得到用于训练目标检测网络且携带人工标签的真实图片（目标多边形的中心图及多边形图），以分别对应生成的图片（预测的center map和poly map），从而，可以基于真实图片和生成的图片计算目标损失函数，通过目标损失函数来训练目标检测网络。

其中，在目标检测中，不同尺寸的目标需要不同大小的感受野，较大的目标在感受野较大的特征图可以获取较为理想的特征，相反，较小的目标在感受野较小的特征图中可以获取较为精细的特征。本申请采用多尺度特征图可以分别预测不同尺寸的目标，因此，在训练时，按以下公式（1）中对应的映射关系，对缩放后的图片进行上述人工标注。公式（1）中，

指多边形目标其最大外接矩形的宽，

指多边形目标其最大外接矩形的高。

（1）

图4是根据本申请实施例的应用示例中任意多边形的外接矩形示意图，如图4所示，若样本图片中针对目标多边形如一个星形的多边形目标其最大外接矩形的宽高分别为bw和bh，其bw和bh最大值为210，那么由上述公式（1）中对应的映射关系可以得到：负责该目标的预测和回归的特征图为C3，因为（一个目标只能由一个特征图负责进行预测，其他的特征图不参与该目标的预测。具体该目标由哪个特征图负责需要经过公式（1）计算得到。）。

基于真实图片和生成的图片计算目标损失函数的过程中，即根据预测的四组center map和poly map，以及进行上述人工标注得到的标定缩放图，对目标检测网络每个特征层的分类损失（loss）采用如下公式（2）进行分别计算。采用公式（3）计算所有特征图得到的均值分类损失，在最终的训练阶段公式11会将公式（3）计算在内。公式（2）-公式（3）中，

指当前特征图的分类损失，如特征图C1-特征图C4分别对应的损失，分别为

、

、

、

；

指均值分类损失；

指真实值；

指预测值；根据真实值情况分情况计算loss，其中α值为1，β为3。

（2）

（3）

针对上述center map而言，center map为目标框外接矩形的中心点预测图。图5是根据本申请实施例的应用示例中center map的高斯分布示意图，如图5所示，距离中心点越近，则概率越高；距离越远，则概率越低。在中心点其概率为1时最高，并且在该中心点附近的中心区域，也就是近邻的像素点概率应该符合高斯分布，即每个像素点负责预测一个分类结果，会得到每个类的概率值。其中，中心点包含其周围的近邻点，且其概率分布符合高斯分布。例如，一个检测框的中心点为c（x*,y*），通过上述公式（1）得到其预测特征图为Ci，对应原图的缩放尺度为r。通过如下公式（4）的运算，该中心点映射到Ci特征图的中心为p（x',y'），那么以p为中心的高斯分布采用公式（5）计算，其中，σ值是与检测框面积相关，w为检测框的宽，h为检测框的高，如公式（6）所示（Near指的是结果值是否和2差距较小。计算出的值会和2、4值分别计算差值，距离哪个值近就赋给哪个值。）。

（4）

（5）

（6）

需要指出的是，本申请可以采用中心区域来预测，而不用中心点预测。中心点的概率虽然是最高的1，但是只代表一个像素点，对于网络来说只预测一个像素点难度较大，训练阶段可能会出现发散无法收敛的情况，为了更好的有利于网络预测，采用中心区域来预测，可以让网络更好的学习中心点数据的概率分布，从而提高网络训练的效果，使网络更利于提高目标检测的准确度。

针对上述poly map而言，poly map为标识目标检测框外接矩形的最大外接多边形最大组合点的预测图，尺寸大小为hi×wi×28，其中hi、wi对应为Ci特征图的高和宽。图6是根据本申请实施例的应用示例中对任意多边形的标注示意图，如图6所示，针对多边形目标的检测，本申请采用14点坐标进行多边形标注。其中记一个多边形标注为P={(xi,yi), i∈[1-14]}，

指像素点的坐标，其最大外接矩形的中心点为（cx,cy），以（cx,cy）为原点，将14点坐标转为极值坐标，极值坐标即为R={(ri,ti), i∈[1-14]}，其中，ri表示14个点中各点到中心点的距离，ti表示各点和中心点连线相对水平位置的水平夹角（夹角从-180°至180°的范围），如公式（7）所示，一个中心点负责预测回归的14个极坐标点，共28个值。

（7）

需要指出的是，针对poly map，本申请将上述14点坐标转为极值坐标，是因为极坐标表示多个点到中心点的相对位置或偏移量，更容易进行网络学习，从而提高网络训练的效果，使网络更利于提高目标检测的准确度。

在计算loss时，针对上述每个极值坐标点的预测值r和t，分别将其与对应的真实值计算loss，可以分别采用采用如下公式（8）及公式（9）进行计算，然后，通过公式（10）计算所有检测框的loss并取均值。其中公式（8）的r和r*分别代表poly点和中心点距离的预测值和真实标注值，并采用smoothL1这个函数计算loss。公式（9）中t和t*分别代表poly点和中心点的预测夹角值和真实标注夹角值。

（8）

（9）

（10）

需要指出的是，在上述网络训练的loss计算过程中，训练时需要将所有loss进行计算，包含公式（3）中基于center map 计算loss，及公式（10）中基于poly map计算得到的预测loss。网络训练的目标损失函数（即总loss）计算如公式（11）所示，公式（11）中，a为30，b为1（a、b为经验值，根据实验得到，a在25-35之时候，训练结果较为理想）。

（11）

基于上述运算训练目标检测网络，得到训练好的目标检测网络后，通过该训练好的目标检测网络来实现基于中心区域的极值回归，可以得到如图7-图8所示的预测结果。其中，图7是根据本申请实施例的应用示例中任意多边形的中心点预测示意图，图8是根据本申请实施例的应用示例中基于中心点预测poly点的映射对应示意图。具体的，获取待检测图像后，经过上述预处理对图像尺寸进行调整，基于Resnet50网络的特征提取以得到多尺度特征图，基于head网络得到对应多尺度特征图（特征图C1-特征图C4）的多组子特征图（分别为center map及poly map），可以将各个阶段的center map 和poly map同时映射到待检测图像的原图后，得到相关的预测结果。该预测结果，包括基于特征图C1-特征图C4预测得到的center map结果（如图7所示），center map结果包含多个预测中心点。该预测结果，还包括基于poly map和center map结合的预测结果（如图8所示），图8可以反映出center map结果中预测中心点与poly map结果中边框区域点间的对应关系，其中，箭头31-箭头38所指示的多个方框点分别为多个预测中心点，14个圆点代表预测的14个poly点，每个预测中心点负责预测其周边的14个圆点。

图9是根据本申请实施例的应用示例中后处理流程的示意图，如图9所示，该后处理流程（或称应用上述训练好的目标检测网络的流程）包括如下内容：

1、获取每个center map特征图中分类最大的类，去掉背景类，记为集合C。

比如，可以根据每个center map的值进行softmax计算，获取每个像素点的分类结果（即判断每个像素点属于81类中的哪一类），去掉背景类，记为集合C。

2、获取集合C中每个值映射在poly map特征图中的预测点，记为集合P。

比如，可以根据集合C的像素点的位置映射到poly map图中，获取其每个点在polymap对应的预测回归值，例如C1特征图经过head得到的center map和poly map后，centermap中位置为（i，j）的像素点其分类为前景中的一类，那么其对应的28个预测值就在ploymap中的（i，j）位置上。

3、将集合P中每个像素点预测的28个值由极坐标转为笛卡尔坐标，记为M。

比如，可以将预测的28个值由极坐标转为笛卡尔坐标，进而得到14个坐标点，根据预测角度进行排序，得到预测框并记为集合M。最终将集合M中所有预测框进行NMS，得到所有检测框（即目标检测框）。

根据本申请的实施例，提供了一种目标检测装置，图10是根据本申请实施例的目标检测装置的组成结构示意图，如图10所示，包括：特征提取模块41，用于对待检测图像进行特征提取，得到多尺度特征图；特征分类模块42，用于将所述多尺度特征图输入训练好的目标检测网络，得到第一子特征图及第二子特征图；其中，所述第一子特征图用于表征所述待检测图像的中心区域特征，所述第二子特征图用于表征所述待检测图像的边框区域特征；目标检测模块43，用于在所述训练好的目标检测网络中，将所述第一子特征图及所述第二子特征图采用基于中心区域预测的回归方式进行预测，输出多个候选检测框；筛选模块44，用于根据所述多个候选检测框，得到目标检测框。

一实施方式中，所述筛选模块，用于将该多个候选检测框执行NMS处理，以得到该目标检测框。或者，在得到该多个候选检测框之前，针对构成任一候选检测框的预测点进行置信度计算后得到该目标检测框。

一实施方式中，所述特征提取模块，用于将所述待检测图像输入特征提取网络，根据所述特征提取网络对所述待检测图像进行特征提取，得到所述多尺度特征图；其中，所述多尺度特征图包括：图片尺寸不同且特征含义相同的多个特征图。

一实施方式中，所述特征分类模块，用于所述训练好的目标检测网络中包括分类子网络的情况下，将所述多个特征图输入所述分类子网络；所述多个特征图中的每个特征图经所述分类子网络第一分支上的第一卷积操作，得到中心区域特征图，并作为所述第一子特征图；所述多个特征图中的每个特征图经所述分类子网络第二分支上的第二卷积操作，得到边框区域特征图（如用于多边形检测的边框区域特征图），并作为所述第二子特征图；将所述第一子特征图及所述第二子特征图作为对应每个特征图的一组数据，所述多个特征图分别对应所述第一子特征图及所述第二子特征图构成的多组数据。

一实施方式中，所述目标检测模块，用于所述训练好的目标检测网络中包括检测子网络的情况下，将所述第一子特征图及所述第二子特征图输入所述检测子网络；在所述检测子网络中，将所述第一子特征图中的每个像素点进行极值回归并映射到所述第二子特征图中，得到所述第一子特征图中的像素点在所述第二子特征图中对应的边框区域预测点，根据所述边框区域预测点得到多个候选检测框；通过所述检测子网络输出所述多个候选检测框。

一实施方式中，所述目标检测模块，用于将所述边框区域预测点由极坐标系转换为笛卡尔坐标系，得到笛卡尔坐标系下的边框区域预测点；根据所述笛卡尔坐标系下的边框区域预测点，得到所述多个候选检测框。

一实施方式中，还包括训练模块，用于获取对样本图像进行特征提取后得到的多尺度特征图；获取对所述样本图像进行图像尺寸缩放及人工标注后得到的标注数据，其中，图像尺寸缩放的比例，参考所述多尺度特征图，并得到与所述多尺度特征图尺寸相同的图像；将所述多尺度特征图及所述标注数据构成样本数据，根据所述样本数据对目标检测网络进行训练，得到所述训练好的目标检测网络。

一实施方式中，所述训练模块，用于根据所述多尺度特征图，生成第一样本子特征图及第二样本子特征图；从所述标注数据中，分别提取对应第一样本子特征图的第一标注数据、及对应第二样本子特征图的第二标注数据；根据所述第一样本子特征图及所述第一标注数据计算损失，得到第一损失函数；根据所述第二样本子特征图及所述第二标注数据计算损失，得到第二损失函数；根据所述第一损失函数及所述第二损失函数，得到目标损失函数，根据所述目标损失函数的反向传播对目标检测网络进行训练，以得到所述训练好的目标检测网络。

一实施方式中，所述第一标注数据包括目标检测框的中心区域图；所述第二标注数据包括目标检测框的边框区域图。

本申请实施例各装置中的各模块的功能可以参见上述方法中的对应描述，在此不再赘述。

根据本申请的实施例，本申请还提供了一种电子设备和一种可读存储介质。

如图11所示，是用来实现本申请实施例的目标检测方法的电子设备的框图。该电子设备可以为前述部署设备或代理设备。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本申请的实现。

如图11所示，该电子设备包括：一个或多个处理器801、存储器802，以及用于连接各部件的接口，包括高速接口和低速接口。各个部件利用不同的总线互相连接，并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理，包括存储在存储器中或者存储器上以在外部输入/输出装置（诸如，耦合至接口的显示设备）上显示GUI的图形信息的指令。在其它实施方式中，若需要，可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样，可以连接多个电子设备，各个设备提供部分必要的操作（例如，作为服务器阵列、一组刀片式服务器、或者多处理器系统）。图11中以一个处理器801为例。

存储器802即为本申请所提供的非瞬时计算机可读存储介质。其中，所述存储器存储有可由至少一个处理器执行的指令，以使所述至少一个处理器执行本申请所提供的目标检测方法。本申请的非瞬时计算机可读存储介质存储计算机指令，该计算机指令用于使计算机执行本申请所提供的目标检测方法。

存储器802作为一种非瞬时计算机可读存储介质，可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块，如本申请实施例中的目标检测方法对应的程序指令/模块。处理器801通过运行存储在存储器802中的非瞬时软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例中的目标检测方法。

存储器802可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据电子设备的使用所创建的数据等。此外，存储器802可以包括高速随机存取存储器，还可以包括非瞬时存储器，例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中，存储器802可选包括相对于处理器801远程设置的存储器，这些远程存储器可以通过网络连接至电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

目标检测方法的电子设备，还可以包括：输入装置803和输出装置804。处理器801、存储器802、输入装置803和输出装置804可以通过总线或者其他方式连接，图11中以通过总线连接为例。

输入装置803可接收输入的数字或字符信息，以及产生与电子设备的用户设置以及功能控制有关的键信号输入，例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置804可以包括显示设备、辅助照明装置（例如，LED）和触觉反馈装置（例如，振动电机）等。该显示设备可以包括但不限于，液晶显示器（LCD）、发光二极管（LED）显示器和等离子体显示器。在一些实施方式中，显示设备可以是触摸屏。

此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用ASIC（专用集成电路）、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

这些计算程序（也称作程序、软件、软件应用、或者代码）包括可编程处理器的机器指令，并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的，术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置（例如，磁盘、光盘、存储器、可编程逻辑装置（PLD）），包括，接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置（例如，CRT（阴极射线管）或者LCD（液晶显示器）监视器）；以及键盘和指向装置（例如，鼠标或者轨迹球），用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈（例如，视觉反馈、听觉反馈、或者触觉反馈）；并且可以用任何形式（包括声输入、语音输入或者、触觉输入）来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统（例如，作为数据服务器）、或者包括中间件部件的计算系统（例如，应用服务器）、或者包括前端部件的计算系统（例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互）、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信（例如，通信网络）来将系统的部件相互连接。通信网络的示例包括：局域网（LAN）、广域网（WAN）和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本申请公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本申请保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等，均应包含在本申请保护范围之内。

Claims

1.一种目标检测方法，其特征在于，所述方法包括：

对待检测图像进行特征提取，得到多尺度特征图；

将所述多尺度特征图输入训练好的目标检测网络，得到第一子特征图及第二子特征图；其中，所述第一子特征图用于表征所述待检测图像的中心区域特征，所述第一子特征图为目标检测框外接矩形的中心区域预测图；所述第二子特征图用于表征所述待检测图像的边框区域特征，所述第二子特征图为标识目标检测框外接矩形的最大外接多边形最大组合点的预测图；

在所述训练好的目标检测网络中，将所述第一子特征图及所述第二子特征图采用基于中心区域预测的回归方式进行预测的过程中，所述训练好的目标检测网络中包括检测子网络的情况下，将所述第一子特征图及所述第二子特征图输入所述检测子网络；在所述检测子网络中，将所述第一子特征图中的每个像素点进行极值回归并映射到所述第二子特征图中，得到所述第一子特征图中的像素点在所述第二子特征图中对应的边框区域预测点，根据所述边框区域预测点得到多个候选检测框；通过所述检测子网络输出所述多个候选检测框；

根据所述多个候选检测框，得到目标检测框。

2.根据权利要求1所述的方法，其特征在于，所述根据所述多个候选检测框，得到目标检测框，包括：

对所述多个候选检测框执行非极大值抑制NMS处理，得到目标检测框。

3.根据权利要求1所述的方法，其特征在于，所述对待检测图像进行特征提取，得到多尺度特征图，包括：

将所述待检测图像输入特征提取网络，根据所述特征提取网络对所述待检测图像进行特征提取，得到所述多尺度特征图；

其中，所述多尺度特征图包括：图片尺寸不同且特征含义相同的多个特征图。

4.根据权利要求3所述的方法，其特征在于，所述将所述多尺度特征图输入训练好的目标检测网络，得到第一子特征图及第二子特征图，包括：

所述训练好的目标检测网络中包括分类子网络的情况下，将所述多个特征图输入所述分类子网络；

所述多个特征图中的每个特征图经所述分类子网络第一分支上的第一卷积操作，得到中心区域特征图，并作为所述第一子特征图；

所述多个特征图中的每个特征图经所述分类子网络第二分支上的第二卷积操作，得到边框区域特征图，并作为所述第二子特征图；

将所述第一子特征图及所述第二子特征图作为对应每个特征图的一组数据，所述多个特征图分别对应所述第一子特征图及所述第二子特征图构成的多组数据。

5.根据权利要求4所述的方法，其特征在于，所述根据所述边框区域预测点得到多个候选检测框，包括：

将所述边框区域预测点由极坐标系转换为笛卡尔坐标系，得到笛卡尔坐标系下的边框区域预测点；

根据所述笛卡尔坐标系下的边框区域预测点，得到所述多个候选检测框。

6.根据权利要求1-5中任一项所述的方法，其特征在于，还包括：

获取对样本图像进行特征提取后得到的多尺度特征图；

获取对所述样本图像进行图像尺寸缩放及人工标注后得到的标注数据，所述图像尺寸缩放与所述多尺度特征图的尺寸相同；

将所述多尺度特征图及所述标注数据构成样本数据，根据所述样本数据对目标检测网络进行训练，得到所述训练好的目标检测网络。

7.根据权利要求6所述的方法，其特征在于，所述根据所述样本数据对目标检测网络进行训练，得到所述训练好的目标检测网络，包括：

根据所述多尺度特征图，生成第一样本子特征图及第二样本子特征图；

从所述标注数据中，分别提取对应第一样本子特征图的第一标注数据、及对应第二样本子特征图的第二标注数据；

根据所述第一样本子特征图及所述第一标注数据计算损失，得到第一损失函数；

根据所述第二样本子特征图及所述第二标注数据计算损失，得到第二损失函数；

根据所述第一损失函数及所述第二损失函数，得到目标损失函数，根据所述目标损失函数的反向传播对目标检测网络进行训练，以得到所述训练好的目标检测网络。

8.根据权利要求7所述的方法，其特征在于，所述第一标注数据包括目标检测框的中心区域图；

所述第二标注数据包括目标检测框的边框区域图。

9.一种目标检测装置，其特征在于，所述装置包括：

特征分类模块，用于将所述多尺度特征图输入训练好的目标检测网络，得到第一子特征图及第二子特征图；其中，所述第一子特征图用于表征所述待检测图像的中心区域特征，所述第一子特征图为目标检测框外接矩形的中心区域预测图；所述第二子特征图用于表征所述待检测图像的边框区域特征，所述第二子特征图为标识目标检测框外接矩形的最大外接多边形最大组合点的预测图；

目标检测模块，用于在所述训练好的目标检测网络中，将所述第一子特征图及所述第二子特征图采用基于中心区域预测的回归方式进行预测的过程中，所述训练好的目标检测网络中包括检测子网络的情况下，将所述第一子特征图及所述第二子特征图输入所述检测子网络；在所述检测子网络中，将所述第一子特征图中的每个像素点进行极值回归并映射到所述第二子特征图中，得到所述第一子特征图中的像素点在所述第二子特征图中对应的边框区域预测点，根据所述边框区域预测点得到多个候选检测框；通过所述检测子网络输出多个候选检测框；

筛选模块，用于根据所述多个候选检测框，得到目标检测框。

10.根据权利要求9所述的装置，其特征在于，所述筛选模块，用于：

11.根据权利要求9所述的装置，其特征在于，所述特征提取模块，用于：

12.根据权利要求11所述的装置，其特征在于，所述特征分类模块，用于：

13.根据权利要求12所述的装置，其特征在于，所述目标检测模块，用于：

14.根据权利要求9-13中任一项所述的装置，其特征在于，还包括训练模块，用于：

获取对样本图像进行特征提取后得到的多尺度特征图；

15.根据权利要求14所述的装置，其特征在于，所述训练模块，用于：

16.根据权利要求15所述的装置，其特征在于，所述第一标注数据包括目标检测框的中心区域图；

所述第二标注数据包括目标检测框的边框区域图。

17.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-8中任一项所述的方法。

18.一种存储有计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使计算机执行权利要求1-8中任一项所述的方法。