CN112149636B

CN112149636B - 用于检测目标物体的方法、装置、电子设备及存储介质

Info

Publication number: CN112149636B
Application number: CN202011143175.XA
Authority: CN
Inventors: 袁宇辰
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2020-10-23
Filing date: 2020-10-23
Publication date: 2023-07-25
Anticipated expiration: 2040-10-23
Also published as: EP3989116A1; CN112149636A; US20210319231A1; US11790553B2

Abstract

本申请实施例公开了用于检测目标物体的方法、装置、电子设备及计算机可读存储介质，涉及计算机视觉、深度学习、智慧交通领域。该方法的一具体实施方式包括：获取待检测图像；利用包含可形变卷积层的物体检测模型处理待检测图像，得到可形变卷积层的偏移预测结果；利用偏移预测结果调整锚点的尺寸，并利用调整后尺寸的锚点确定目标物体在待检测图像中的位置信息。该实施方式通过应用可形变卷积层来缩小不同尺寸的物体之间的特征差异，利用可形变卷积层的偏移预测结果来指导调整锚点尺寸，使得调整后的锚点的尺寸与目标物体的尺寸相对应，进而通过使用与目标物体尺寸大小对应的锚点实现更精准的物体检测。

Description

用于检测目标物体的方法、装置、电子设备及存储介质

技术领域

本申请涉及计算机技术领域，具体涉及人工智能领域，尤其涉及用于检测目标物体的方法、装置、电子设备及计算机可读存储介质。

背景技术

随着互联网和人工智能技术的不断发展，越来越多的领域开始涉及自动化计算与分析，其中物体检测是最重要的功能之一，例如针对监控视频中的行人检测等。

现有利用深度卷积神经网络来进行图像中物体检测的方式中，针对提取出的图像特征均采用一套固定尺寸的锚点来进行是否包含目标物体的检测。

发明内容

本申请实施例提出了一种用于检测目标物体的方法、装置、电子设备及计算机可读存储介质。

第一方面，本申请实施例提出了一种用于检测目标物体的方法，包括：获取待检测图像；利用包含可形变卷积层的物体检测模型处理待检测图像，得到可形变卷积层的偏移预测结果；利用偏移预测结果调整锚点的尺寸，并利用调整后尺寸的锚点确定目标物体在待检测图像中的位置信息。

第二方面，本申请实施例提出了一种用于检测目标物体的装置，包括：待检测图像获取单元，被配置成获取待检测图像；偏移预测结果获取单元，被配置成利用包含可形变卷积层的物体检测模型处理待检测图像，得到可形变卷积层的偏移预测结果；锚点尺寸调整及位置确定单元，被配置成利用偏移预测结果调整锚点的尺寸，并利用调整后尺寸的锚点确定目标物体在待检测图像中的位置信息。

第三方面，本申请实施例提供了一种电子设备，该电子设备包括：至少一个处理器；以及与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，该指令被至少一个处理器执行，以使至少一个处理器执行时能够实现如第一方面中任一实现方式描述的用于检测目标物体的方法。

第四方面，本申请实施例提供了一种存储有计算机指令的非瞬时计算机可读存储介质，该计算机指令用于使计算机执行时能够实现如第一方面中任一实现方式描述的用于检测目标物体的方法。

本申请实施例提供的用于检测目标物体的方法、装置、电子设备及计算机可读存储介质，首先，获取待检测图像；然后，利用包含可形变卷积层的物体检测模型处理待检测图像，得到可形变卷积层的偏移预测结果；接着，利用偏移预测结果调整锚点的尺寸，并利用调整后尺寸的锚点确定目标物体在待检测图像中的位置信息。

本申请通过应用可形变卷积层来缩小不同尺寸的物体之间的特征差异，利用可形变卷积层的偏移预测结果来指导调整锚点尺寸，使得调整后的锚点的尺寸与目标物体的尺寸相对应，进而通过使用与目标物体尺寸大小对应的锚点实现更精准的物体检测。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本申请的其它特征、目的和优点将会变得更明显：

图1是本申请可以应用于其中的示例性系统架构；

图2为本申请实施例提供的一种用于检测目标物体的方法的流程图；

图3为本申请实施例提供的另一种用于检测目标物体的方法的流程图；

图4为本申请实施例提供的用于检测目标物体的方法中利用物体检测模型处理待检测图像的方法的流程示意图；

图5为本申请实施例提供的一种用于检测目标物体的装置的结构框图；

图6为本申请实施例提供的一种适用于执用于检测目标物体的方法的电子设备的结构示意图。

具体实施方式

下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释相关发明，而非对该发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与有关发明相关的部分。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

图1示出了可以应用本申请的用于检测目标物体的方法、装置、电子设备及计算机可读存储介质的实施例的示例性系统架构100。

如图1所示，系统架构100可以包括终端设备101、102、103，网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

用户可以使用终端设备101、102、103通过网络104与服务器105交互，以接收或发送消息等。终端设备101、102、103和服务器105上可以安装有各种用于实现两者之间进行信息通讯的应用，例如图像传输类应用、物体检测类应用、即时通讯类应用等。

终端设备101、102、103和服务器105可以是硬件，也可以是软件。当终端设备101、102、103为硬件时，可以是具有显示屏的各种电子设备，包括但不限于智能手机、平板电脑、监控摄像头、膝上型便携计算机和台式计算机等等；当终端设备101、102、103为软件时，可以安装在上述所列举的电子设备中，其可以实现成多个软件或软件模块，也可以实现成单个软件或软件模块，在此不做具体限定。当服务器105为硬件时，可以实现成多个服务器组成的分布式服务器集群，也可以实现成单个服务器；服务器为软件时，可以实现成多个软件或软件模块，也可以实现成单个软件或软件模块，在此不做具体限定。

服务器105通过内置的各种应用可以提供各种服务，以可以提供目标物体检测服务的物体检测类应用为例，服务器105在运行该物体检测类应用时可实现如下效果：首先，通过网络104从终端设备101、102、103中获取待检测图像；然后，利用包含可形变卷积层的物体检测模型处理待检测图像，得到可形变卷积层的偏移预测结果；接着，利用偏移预测结果调整锚点的尺寸，并利用调整后尺寸的锚点确定目标物体在待检测图像中的位置信息。

需要指出的是，待检测图像除可以实时从终端设备101、102、103通过网络104获取到之外，也可以通过各种方式预先存储在服务器105本地。因此，当服务器105检测到本地已经存储有这些数据时(例如开始处理之前留存的待处理物体检测任务)，可选择直接从本地获取这些数据，在此种情况下，示例性系统架构100也可以不包括终端设备101、102、103和网络104。

由于针对图像进行的各项处理需要占用较多的运算资源和较强的运算能力，因此本申请后续各实施例所提供的用于检测目标物体的方法一般由拥有较强运算能力、较多运算资源的服务器105来执行，相应地，用于检测目标物体的装置一般也设置于服务器105中。但同时也需要指出的是，在终端设备101、102、103也具有满足要求的运算能力(例如本地存储有该物体检测模型)和运算资源时，终端设备101、102、103也可以通过其上安装的物体检测类应用完成上述本交由服务器105做的各项运算，进而输出与服务器105同样的结果。尤其是在同时存在多种具有不同运算能力的终端设备的情况下，但物体检测类应用判断所在的终端设备拥有较强的运算能力和剩余较多的运算资源时，可以让终端设备来执行上述运算，从而适当减轻服务器105的运算压力，相应的，用于检测目标物体的装置也可以设置于终端设备101、102、103中。在此种情况下，示例性系统架构100也可以不包括服务器105和网络104。

应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。

请参考图2，图2为本申请实施例提供的一种用于检测目标物体的方法的流程图，其中流程200包括以下步骤：

步骤201：获取待检测图像；

本步骤旨在由用于检测目标物体的方法的执行主体(例如图1所示的服务器105)获取待检测图像。

其中，由于本申请的目的是要对待检测图像中是否包含目标物体进行检测，因此待检测图像为疑似包含有目标物体的图像，根据目标物体类型的不同，该待检测图像可通过多种渠道获取到。例如在行人检测场景，目的为检测待检测图像中是否有经过的行人，那么可能包含经过的行人的待检测图像就可以是通过道路周围安装的监控摄像头拍摄得到，若直接得到的是监控视频，还可以通过将监控视频拆分为多个监控图像帧的方式来获取多张待检测图像；在人脸识别场景下，根据该人脸识别的后续使用方式，该检测图像可以是由多种安装有摄像头的终端设备拍摄得到，例如支持人脸识别的自动售货机等等。除上述实时获取到的待检测图像，待检测图像也可以对包含有目标物体的已有图像进行模糊或类似的处理，以得到用于测试物体检测模型的检测准确率的待检测图像。

进一步的，为了便于后续对待检测图像的处理，在真正开始检测之前，还可以对待检测图像使用多种预处理方法来凸显其中用于识别目标物体的相关图像特征，例如提升对比度、滤波、调整色值、去除干扰部分等等，此处不做具体限定。

步骤202：利用包含可形变卷积层的物体检测模型处理待检测图像，得到可形变卷积层的偏移预测结果；

在步骤201的基础上，本步骤旨在由上述执行主体利用包含可形变卷积层的物体检测模型处理待检测图像，以得到可形变卷积层的偏移预测结果。

其中，可形变卷积层是采用可形变卷积核的卷积层，可形变卷积核是区别于固定尺寸的传统卷积核的另一种卷积核，可形变卷积核是在传统卷积核上经偏移得到，该偏移(即可形变卷积层输出的偏移预测结果)是预先从图像特征中学习得到的，用于表征传统卷积核的固定尺寸与目标物体的实际尺寸之间的相对位置关系。相比于矩形的传统卷积核，经偏移后的可形变卷积核可以形变为任意尺寸。可形变卷积层的偏移预测结果也会不断更新，以逐渐更加适配于目标物体的实际尺寸。

使用包含可形变卷积层的物体检测模型来处理待检测图像，是为了借助可形变卷积层从待检测图像中提取出与目标物体尺寸对应的图像特征，即改善现有采用固定尺寸的传统卷积核在提取图像特征上无视目标物体的尺寸大小的做法。换句话说，针对尺寸小于预设尺寸的物体(可简单理解为小尺寸物体)，适当的外扩可形变卷积核，使得外扩后的可形变卷积提取出的图像特征可以囊括更大感受野的信息，从而借助更大感受野中包含的除目标物体外的其它图像特征(例如背景图像特征)来更好的识别目标物体；针对尺寸不小于预设尺寸的物体(可简单理解为大尺寸物体)，则适当的内缩可形变卷积核，使得内缩后的可形变卷积提取出图像特征尽可能的专注于局部。

本步骤采用了可形变卷积层来提取出与目标物体尺寸对应的图像特征，以缩小不同尺寸物体的特征差异，即针对大尺寸物体提取出相对更小的图像特征，针对小尺寸物体提取出相对更大的图像特征，尽可能使不同尺寸物体输出相同大小的图像特征，以使后续的分类任务得以在统一的特征描述上更容易进行，进而产生更准确的分类结果，该分类结果用于描述检测框中是否包含目标物体的可能性。

步骤203：利用偏移预测结果调整锚点的尺寸，并利用调整后尺寸的锚点确定目标物体在待检测图像中的位置信息。

在步骤202的基础上，本步骤旨在由上述执行主体利用偏移预测结果中的偏移量来调整锚点的默认尺寸，使得调整后的锚点的新尺寸更加适配于目标物体的实际尺寸，进而利用与目标物体的实际尺寸更加接近的新锚点来更加精准的确定目标物体在待检测图像中的位置信息。

应当理解的是，传统的物体检测方案中，锚点的尺寸都是预先给定出的一套固定尺寸，例如2×2、5×6、6×5等，因此在给定了一套固定尺寸的锚点的情况下，为了尽可能精准的找到除含盖目标物体外部分占比最少的优选检测框，现有技术需要分别尝试对每个不同尺寸的锚点都计算其IOU值(定位为两个矩形框面积的交集和并集的比值)，从而找到IOU值最接近1的检测框，考虑到锚点需要不断在整张待检测图像上不断滑动，此举必然带来较多的运算量。而且还需要考虑到可能给定的一套锚点的尺寸没有特别适合目标物体的实际尺寸的，这种情况下将必然导致对目标物体的检测精度不会特别高。

针对上述技术缺陷，本申请并非从给定更多的、不同尺寸的默认锚点来通过更多的尝试来提升检测精度，而是借助能够在一定程度上表征目标物体的尺寸的偏移量来指导调整锚点的尺寸，即将原有与目标物体的实际尺寸不匹配的锚点尺寸调整为与实际尺寸更加一致的锚点尺寸，不仅减少了盲目尝试的次数，也提升了检测精度。

本申请实施例提供的用于检测目标物体的方法，通过应用可形变卷积层来缩小不同尺寸的物体之间的特征差异，利用可形变卷积层的偏移预测结果来指导调整锚点尺寸，使得调整后的锚点的尺寸与目标物体的尺寸相对应，进而通过使用与目标物体尺寸大小对应的锚点实现更精准的物体检测。

请参考图3，图3为本申请实施例提供的另一种用于检测目标物体的方法的流程图，其中流程300包括以下步骤：

步骤301：获取待检测图像；

步骤302：利用包含可形变卷积层的物体检测模型处理待检测图像，得到可形变卷积层的偏移预测结果；

以上步骤301-302与如图2所示的步骤201-202一致，相同部分内容请参见上一实施例的相应部分，此处不再进行赘述。

步骤303：将偏移预测结果中的预测偏移量反向叠加至锚点的默认尺寸上，得到锚点的新尺寸；

本步骤旨在由上述执行通过将偏移预测结果中的预测偏移量反向叠加至锚点的默认尺寸上的方式，得到与目标物体的实际尺寸更加匹配的锚点的新尺寸。之所以采用反向叠加的方式是因为可形变卷积层输出的预测偏移值是与锚点的改善方向是反向的。

步骤304：利用新尺寸的锚点预测得到当前检测框的坐标偏移值；

在步骤303的基础上，本步骤旨在由上述执行主体利用新尺寸的锚点预测得到当前检测框的坐标偏移值，该坐标偏移值用于在定位阶段描述当前检测框在待检测图像中的位置，偏移值辅以基准值来共同确定，该偏移值可以由右上、右下、左下、左上四个值组成。

步骤305：将确定包含目标物体的中心点的检测框确定为目标检测框；

在步骤304的基础上，本步骤旨在由上述执行主体根据检测框中是否包含有目标物体的中心点来确定哪个检测框为目标检测框。

步骤306：根据目标检测框的坐标偏移值计算得到目标物体在待检测图像中的位置信息。

在步骤305的基础上，本步骤旨在由上述执行主体根据目标检测框的坐标偏移值计算得到目标物体在待检测图像中的位置信息。

在上一实施例的基础上，本实施例通过步骤303-步骤306给出了流程200中步骤203的一种具体的下位实现方式，首先，通过在锚点的默认尺寸上反向叠加偏移预测结果的方式得到与目标物体的实际尺寸更加匹配的锚点的新尺寸，然后借助新尺寸的锚点在定位阶段预测得到当前检测框的坐标偏移值，接着在确定目标检测框的情况下，即可根据目标检测框的坐标偏移值确定目标物体在待检测图像中的位置信息。

应当理解的是，步骤304-步骤306提供的确定目标物体在待检测图像中的位置信息的方案与步骤303所具体给出的调整锚点尺寸的方式之间，并无因果或依赖关系，步骤304-步骤仅作为“利用新尺寸的锚点确定目标物体在待检测图像中的位置信息”的一种具体的下位实现方式，两部分优选的下位实现方案完全可以单独与上一实施例形成两个单独的实施例，本实施例仅作为同时存在两部分优选的下位实现方案的优选实施例存在。

为了加深对可形变卷积层如何处理待检测图像、如何能够为不同尺寸物体输出相同大小的图像特征，以实现产生更准确的分类结果的效果方面的理解，本实施例还给出了一种具体的实现方式，需要预先说明的是，可形变卷积层的处理对象是从待检测图像中提取出的图像特征，即需要先利用物体检测模型从待检测图像中提取得到初始图像特征，然后再利用可形变卷积层处理初始图像特征，得到采用相同尺寸来表示不同尺寸的不同物体的处理后图像特征。在其基础上，请参见图4示出的一种具体实现方式的流程图，流程400包括以下步骤：

步骤401：利用物体检测模型从待检测图像中提取得到初始图像特征；

步骤402：针对尺寸小于预设尺寸的物体，向外扩张可形变卷积层的可形变卷积核，并利用外扩后的可形变卷积核处理初始图像特征，得到小尺寸物体图像特征；

即针对小尺寸物体，通过外扩可形变卷积核使得外扩后的可形变卷积提取出的图像特征可以囊括更大感受野的信息，从而借助更大感受野中包含的除目标物体外的其它图像特征(例如背景图像特征)来更好的识别目标物体。

步骤403：针对尺寸不小于预设尺寸的物体，向内收缩可形变卷积层的可形变卷积核，并利用内缩后的可形变卷积核处理初始图像特征，得到大尺寸物体图像特征。

针对大尺寸物体，通过内缩可形变卷积核使得内缩后的可形变卷积提取出图像特征尽可能的专注于局部，从而使得小尺寸物体图像特征和大尺寸物体图像特征在分别用于检测小尺寸物体和大尺寸物体方面起到相同程度的精度。进一步的，还可以辅以预设数量的下采样操作来保障内缩后的目标物体的图像特征提取完全。

在上述实施例的基础上，本实施例分别针对小尺寸物体和大尺寸物体提供的向外扩张和向内收缩的卷积核形变方案，尽可能使不同尺寸物体输出相同大小的图像特征，以使后续的分类任务得以在统一的特征描述上更容易进行，进而产生更准确的分类结果。

在上述任意实施例的基础上，在确定目标物体在待检测图像中的位置信息之后，在不同应用场景下还可以有后续的处理方式，以行人检测场景为例，还可以根据传入的信息将与该位置信息对应区域内包含的目标物体确定为跟踪目标，然后从包含该跟踪目标的视频中确定该跟踪目标的行动轨迹，以进一步根据该行人的行动轨迹来判断其是否在行动过程中是否存在违规操作，例如闯红灯、翻栏杆等等。

在其它诸如人脸识别场景下，还可以将框定出的目标人脸记录并存储，以用于充实数据库来提升后续的人脸检测速度等等。

为加深理解，本申请还结合一个具体应用场景，给出了一种具体的实现方案：

针对十字路口的行人动作检测场景，需要通过设置在十字路口的监控摄像头拍摄得到的监控视频，从视频内容中识别出经过十字路口的行人，并进一步针对识别出的行人的行动轨迹判断是否走了人行道和是否闯了红灯。

1)服务器接收到设置在目标十字路口附件的监控摄像头拍摄得到的监控视频；

2)服务器调用本地存储的包含有可形变卷积层的行人检测模型分别检测构成该监控视频的每一帧监控图像中是否存在行人；

3)服务器使用与出现在监控图像中的行人的实际大小匹配的检测框标定出各行人所在的目标检测框，假定该视频中一共出现A、B、C共3位行人，分别以距摄像头50米、80米和150米的距离经过该十字路口，目标检测框的大小则分别是大、一般、小；

4、服务器汇总相同行人在各帧监控图像上的位置信息，得到每位行人的行动轨迹，并判断出：

行人A未闯红灯、走人行道通过该十字路口；

行人B闯了红灯、走人行道通过该十字路口；

行人C未闯红灯、翻栏杆通过该十字路口。

进一步参考图5，作为对上述各图所示方法的实现，本申请提供了一种用于检测目标物体的装置的一个实施例，该装置实施例与图2所示的方法实施例相对应，该装置具体可以应用于各种电子设备中。

如图5所示，本实施例的用于检测目标物体的装置500可以包括：待检测图像获取单元501、偏移预测结果获取单元502、锚点尺寸调整及位置确定单元503。其中，待检测图像获取单元501，被配置成获取待检测图像；偏移预测结果获取单元502，被配置成利用包含可形变卷积层的物体检测模型处理待检测图像，得到可形变卷积层的偏移预测结果；锚点尺寸调整及位置确定单元503，被配置成利用偏移预测结果调整锚点的尺寸，并利用调整后尺寸的锚点确定目标物体在待检测图像中的位置信息。

在本实施例中，用于检测目标物体的装置500中：待检测图像获取单元501、偏移预测结果获取单元502、锚点尺寸调整及位置确定单元503的具体处理及其所带来的技术效果可分别参考图2对应实施例中的步骤201-203的相关说明，在此不再赘述。

在本实施例的一些可选的实现方式中，锚点尺寸调整及位置确定单元503可以进一步被配置成：

将偏移预测结果中的预测偏移量反向叠加至锚点的默认尺寸上，得到锚点的新尺寸；

利用新尺寸的锚点确定目标物体在待检测图像中的位置信息。

在本实施例的一些可选的实现方式中，锚点尺寸调整及位置确定单元503可以包括被配置成利用调整后尺寸的锚点确定目标物体在待检测图像中的位置信息的位置确定子单元，该位置确定子单元可以进一步被配置成：

利用调整后尺寸的锚点预测得到当前检测框的坐标偏移值；

将确定包含目标物体的中心点的检测框确定为目标检测框；

根据目标检测框的坐标偏移值计算得到目标物体在待检测图像中的位置信息。

在本实施例的一些可选的实现方式中，偏移预测结果获取单元502可以包括：

初始图像特征提取子单元，被配置成利用物体检测模型从待检测图像中提取得到初始图像特征；

可形变卷积层处理子单元，被配置成利用可形变卷积层处理初始图像特征，得到处理后图像特征；其中，处理后图像特征采用相同尺寸来表示不同尺寸的不同物体。

在本实施例的一些可选的实现方式中，该可形变卷积层处理子单元可以进一步被配置成：

针对尺寸小于预设尺寸的物体，向外扩张可形变卷积层的可形变卷积核，并利用外扩后的可形变卷积核处理初始图像特征，得到小尺寸物体图像特征；

针对尺寸不小于预设尺寸的物体，向内收缩可形变卷积层的可形变卷积核，并利用内缩后的可形变卷积核处理初始图像特征，得到大尺寸物体图像特征。

在本实施例的一些可选的实现方式中，针对尺寸不小于预设尺寸的物体，用于检测目标物体的装置500还可以包括：

下采样单元，被配置成在得到大尺寸物体图像特征之前，执行预设数量的下采样操作。

在本实施例的一些可选的实现方式中，用于检测目标物体的装置500还可以包括：

跟踪目标确定单元，被配置成将与位置信息对应区域内包含的目标物体确定为跟踪目标；

行动轨迹确定单元，被配置成从包含跟踪目标的视频中确定跟踪目标的行动轨迹。

本实施例作为对应于上述方法实施例的装置实施例存在，本申请实施例提供的用于检测目标物体的装置，通过应用可形变卷积层来缩小不同尺寸的物体之间的特征差异，利用可形变卷积层的偏移预测结果来指导调整锚点尺寸，使得调整后的锚点的尺寸与目标物体的尺寸相对应，进而通过使用与目标物体尺寸大小对应的锚点实现更精准的物体检测。

根据本申请的实施例，本申请还提供了一种电子设备和一种计算机可读存储介质。

图6示出了一种适于用来实现本申请实施例的用于检测目标物体的方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本申请的实现。

如图6所示，该电子设备包括：一个或多个处理器601、存储器602，以及用于连接各部件的接口，包括高速接口和低速接口。各个部件利用不同的总线互相连接，并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理，包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如，耦合至接口的显示设备)上显示GUI的图形信息的指令。在其它实施方式中，若需要，可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样，可以连接多个电子设备，各个设备提供部分必要的操作(例如，作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图6中以一个处理器601为例。

存储器602即为本申请所提供的非瞬时计算机可读存储介质。其中，存储器存储有可由至少一个处理器执行的指令，以使至少一个处理器执行本申请所提供的用于检测目标物体的方法。本申请的非瞬时计算机可读存储介质存储计算机指令，该计算机指令用于使计算机执行本申请所提供的用于检测目标物体的方法。

存储器602作为一种非瞬时计算机可读存储介质，可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块，如本申请实施例中的用于检测目标物体的方法对应的程序指令/模块(例如，附图5所示的待检测图像获取单元501、偏移预测结果获取单元502、锚点尺寸调整及位置确定单元503)。处理器601通过运行存储在存储器602中的非瞬时软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例中的用于检测目标物体的方法。

存储器602可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储该电子设备在执行用于检测目标物体的方法所创建的各类数据等。此外，存储器602可以包括高速随机存取存储器，还可以包括非瞬时存储器，例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中，存储器602可选包括相对于处理器601远程设置的存储器，这些远程存储器可以通过网络连接至适用于执行用于检测目标物体的方法的电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

适用于执行用于检测目标物体的方法的电子设备还可以包括：输入装置603和输出装置604。处理器601、存储器602、输入装置603和输出装置604可以通过总线或者其他方式连接，图6中以通过总线连接为例。

输入装置603可接收输入的数字或字符信息，以及产生适用于执行用于检测目标物体的方法的电子设备的用户设置以及功能控制有关的键信号输入，例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置604可以包括显示设备、辅助照明装置(例如，LED)和触觉反馈装置(例如，振动电机)等。该显示设备可以包括但不限于，液晶显示器(LCD)、发光二极管(LED)显示器和等离子体显示器。在一些实施方式中，显示设备可以是触摸屏。

此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用ASIC(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令，并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的，术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如，磁盘、光盘、存储器、可编程逻辑装置(PLD))，包括，接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决传统物理主机与虚拟专用服务器(VPS，Virtual Private Server)服务中存在的管理难度大，业务扩展性弱的缺陷。

本申请实施例通过应用可形变卷积层来缩小不同尺寸的物体之间的特征差异，利用可形变卷积层的偏移预测结果来指导调整锚点尺寸，使得调整后的锚点的尺寸与目标物体的尺寸相对应，进而通过使用与目标物体尺寸大小对应的锚点实现更精准的物体检测。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本申请公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本申请保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等，均应包含在本申请保护范围之内。

Claims

1.一种用于检测目标物体的方法，包括：

获取待检测图像；

利用包含可形变卷积层的物体检测模型处理所述待检测图像，得到所述可形变卷积层的偏移预测结果；

利用所述偏移预测结果调整锚点的尺寸，并利用调整后尺寸的锚点确定所述目标物体在所述待检测图像中的位置信息；

其中，所述利用包含可形变卷积层的物体检测模型处理所述待检测图像，包括：

利用所述物体检测模型从所述待检测图像中提取得到初始图像特征；

针对尺寸小于预设尺寸的物体，向外扩张所述可形变卷积层的可形变卷积核，并利用外扩后的可形变卷积核处理所述初始图像特征，得到小尺寸物体图像特征；针对尺寸不小于所述预设尺寸的物体，向内收缩所述可形变卷积层的可形变卷积核，并利用内缩后的可形变卷积核处理所述初始图像特征，得到大尺寸物体图像特征。

2.根据权利要求1所述的方法，其中，所述利用所述偏移预测结果调整锚点的尺寸，并利用调整后尺寸的锚点确定所述目标物体在所述待检测图像中的位置信息，包括：

将所述偏移预测结果中的预测偏移量反向叠加至所述锚点的默认尺寸上，得到所述锚点的新尺寸；

利用所述新尺寸的锚点确定所述目标物体在所述待检测图像中的位置信息。

3.根据权利要求1所述的方法，其中，所述利用调整后尺寸的锚点确定所述目标物体在所述待检测图像中的位置信息，包括：

利用所述调整后尺寸的锚点预测得到当前检测框的坐标偏移值；

将确定包含所述目标物体的中心点的检测框确定为目标检测框；

根据所述目标检测框的坐标偏移值计算得到所述目标物体在所述待检测图像中的位置信息。

4.根据权利要求1所述的方法，针对尺寸不小于所述预设尺寸的物体，在得到所述大尺寸物体图像特征之前，还包括：

执行预设数量的下采样操作。

5.根据权利要求1至4任一项所述的方法，还包括：

将与所述位置信息对应区域内包含的目标物体确定为跟踪目标；

从包含所述跟踪目标的视频中确定所述跟踪目标的行动轨迹。

6.一种用于检测目标物体的装置，包括：

待检测图像获取单元，被配置成获取待检测图像；

偏移预测结果获取单元，被配置成利用包含可形变卷积层的物体检测模型处理所述待检测图像，得到所述可形变卷积层的偏移预测结果；

锚点尺寸调整及位置确定单元，被配置成利用所述偏移预测结果调整锚点的尺寸，并利用调整后尺寸的锚点确定所述目标物体在所述待检测图像中的位置信息；

所述偏移预测结果获取单元被进一步配置成：利用所述物体检测模型从所述待检测图像中提取得到初始图像特征；针对尺寸小于预设尺寸的物体，向外扩张所述可形变卷积层的可形变卷积核，并利用外扩后的可形变卷积核处理所述初始图像特征，得到小尺寸物体图像特征；针对尺寸不小于所述预设尺寸的物体，向内收缩所述可形变卷积层的可形变卷积核，并利用内缩后的可形变卷积核处理所述初始图像特征，得到大尺寸物体图像特征。

7.根据权利要求6所述的装置，其中，所述锚点尺寸调整及位置确定单元进一步被配置成：

8.根据权利要求6所述的装置，其中，所述锚点尺寸调整及位置确定单元包括被配置成利用调整后尺寸的锚点确定所述目标物体在所述待检测图像中的位置信息的位置确定子单元，所述位置确定子单元进一步被配置成：

9.根据权利要求6所述的装置，针对尺寸不小于所述预设尺寸的物体，还包括：

下采样单元，被配置成在得到所述大尺寸物体图像特征之前，执行预设数量的下采样操作。

10.根据权利要求6至9任一项所述的装置，还包括：

跟踪目标确定单元，被配置成将与所述位置信息对应区域内包含的目标物体确定为跟踪目标；

行动轨迹确定单元，被配置成从包含所述跟踪目标的视频中确定所述跟踪目标的行动轨迹。

11.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-5中任一项所述的用于检测目标物体的方法。

12.一种存储有计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使所述计算机执行权利要求1-5中任一项所述的用于检测目标物体的方法。