CN111488776A

CN111488776A - 对象检测方法、对象检测装置和电子设备

Info

Publication number: CN111488776A
Application number: CN201910344504.8A
Authority: CN
Inventors: 周强; 黄子龙; 王兴刚; 宫永超; 申涵; 黄李超; 黄畅; 刘文予
Original assignee: Beijing Horizon Robotics Technology Research and Development Co Ltd
Current assignee: Beijing Horizon Robotics Technology Research and Development Co Ltd
Priority date: 2019-01-25
Filing date: 2019-04-26
Publication date: 2020-08-04
Anticipated expiration: 2039-04-26
Also published as: CN111488776B

Abstract

公开了一种对象检测方法、对象检测装置和电子设备。该对象检测方法包括：确定初始帧图像中的多个参考区域；获取当前帧图像中与所述多个参考区域各自对应的第一子图像以得到多个第一子图像；对所述多个第一子图像进行置信度评分以获得分值最高的第一子图像；以及，基于所述当前帧图像中所述分值最高的第一子图像确定所述当前帧图像中的目标对象。这样，可以使得对于对象的尺度变化不敏感，并且提高检测速度。

Description

对象检测方法、对象检测装置和电子设备

技术领域

本申请涉及图像处理技术领域，且更为具体地，涉及一种对象检测方法、对象检测装置和电子设备。

背景技术

目前，在计算机视觉、自动驾驶、图像编辑、视频目标追踪等领域中，均涉及视频中预定对象的检测。也就是，给定视频中的某一帧中的某个对象，需要在该视频的后续帧中检测到该对象。

目前的对象检测方法面临着以下困难：1.要检测的目标对象的训练样本少(通常仅第一帧有对象的标注)；2.要检测的目标对象在一个视频中变化剧烈(尺度变化和外观变化)；3.多个相似对象的相互重叠遮挡；4.目标对象可能长时间消失和重新出现。

针对上述问题，如果是通过增加训练样本数据的方法来解决，则加入未能完全覆盖所有的可能情况就容易导致对象检测失败。另外，如果利用视频的中间帧的信息，则不能够保证检测的准确性。此外，使用其它的一些行人再识别系统来检测对象速度慢、效率较低。

因此，期望通过改进的对象检测方案。

发明内容

为了解决上述技术问题，提出了本申请。本申请的实施例提供了一种对象检测方法、对象检测装置和电子设备，其能够首先确定初始帧图像中的参考区域，再确定当前帧图像中与所述参考区域对应且置信度评分最高的子图像，以基于所述子图像进行对象检测，从而使得对于对象的尺度变化不敏感，并且提高了检测速度。

根据本申请的一方面，提供了一种对象检测方法，包括：确定初始帧图像中的多个参考区域；获取当前帧图像中与所述多个参考区域各自对应的第一子图像以得到多个第一子图像；对所述多个第一子图像进行置信度评分以获得分值最高的第一子图像；以及，基于所述当前帧图像中所述分值最高的第一子图像确定所述当前帧图像中的目标对象。

根据本申请的另一方面，提供了一种对象检测装置，包括：区域确定单元，用于确定初始帧图像中的多个参考区域；子图像获取单元，用于获取当前帧图像中与所述多个参考区域各自对应的第一子图像以得到多个第一子图像；子图像评分单元，用于对所述多个第一子图像进行置信度评分以获得分值最高的第一子图像；以及，目标检测单元，用于基于所述当前帧图像中所述分值最高的第一子图像确定所述当前帧图像中的目标对象。

根据本申请的再一方面，提供了一种电子设备，包括：处理器；以及，存储器，在所述存储器中存储有计算机程序指令，所述计算机程序指令在被所述处理器运行时使得所述处理器执行如上所述的对象检测方法。

根据本申请的又一方面，提供了一种计算机可读介质，其上存储有计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行如上所述的对象检测方法。

本申请提供的对象检测方法、对象检测装置和电子设备由于首先确定了待检测的目标对象周围的参考区域，并通过置信度评分来定位到当前帧图像中的目标对象的大致区域，使得目标对象的检测对于对象的尺度变化不敏感。并且，由于可以在当前帧图像中确定目标对象的大致区域再进行对象检测，也提高了目标对象的检测速度。

附图说明

通过结合附图对本申请实施例进行更详细的描述，本申请的上述以及其他目的、特征和优势将变得更加明显。附图用来提供对本申请实施例的进一步理解，并且构成说明书的一部分，与本申请实施例一起用于解释本申请，并不构成对本申请的限制。在附图中，相同的参考标号通常代表相同部件或步骤。

图1图示了根据本申请实施例的对象检测方法的流程图。

图2图示了根据本申请实施例的对象检测方法的网络结构的示意图。

图3图示了根据本申请实施例的对象检测方法中的获得子图像的过程的流程图。

图4图示了根据本申请实施例的对象检测方法中的子图像评分的过程的流程图。

图5图示了根据本申请实施例的对象检测方法中的检测目标对象的过程的流程图。

图6图示了根据本申请实施例的对象检测方法中的检测目标对象的示例的示意图。

图7图示了根据本申请实施例的对象检测装置的框图。

图8图示了根据本申请实施例的子图像获取单元的框图。

图9图示了根据本申请实施例的子图像评分单元的框图。

图10图示了根据本申请实施例的目标检测单元的框图。

图11图示了根据本申请实施例的电子设备的框图。

具体实施方式

下面，将参考附图详细地描述根据本申请的示例实施例。显然，所描述的实施例仅仅是本申请的一部分实施例，而不是本申请的全部实施例，应理解，本申请不受这里描述的示例实施例的限制。

申请概述

如上所述，在诸如图像处理和自动驾驶的很多领域中，需要从视频中检测对象。例如，视频目标分割任务需要在给定一个视频的第一帧的标注(用掩码来指示要跟踪什么)的情况下，在后续帧预测出掩码，从而指示目标对象的精确位置。

目前有很多方法可以通过掩码传播以及第一帧和其他帧的匹配来解决这个任务，也有使用行人再识别模型来进一步解决这个问题的，也有通过光流等方法来进行辅助分割的。

但是，这些方法通常速度较慢，不能达到实时应用的标准，这主要是由于算法中引入了光流，行人再识别，条件随机场等模块。另外，对于视频中目标变化剧烈的对象往往分割结果较差，这是由于只有第一帧的信息，所以分割视频中其他帧由于外观完全不一致，导致了算法不能够准确识别。第三，对于视频中长时间消失或多个相似物体同时出现的问题很难处理，这是由于长时间消失，算法难以预测具体在哪一个位置，只有目标的局部外表，使得算法难以确定是不是要跟踪的目标，而多个相似物体是一个本身就很困难的问题，对于算法如果不考虑时序信息，很难从外观信息获取正确的结果。

基于上述技术问题，本申请的基本构思是首先在初始帧图像中确定目标对象周围的参考区域，并获取所述参考区域对应的当前帧图像中的多个子图像，通过对该多个子图像的置信度评分，可以定位到当前帧图像中的目标对象的大致区域，再进行对象检测。

具体来说，本申请提供的对象检测方法，对象检测装置和电子设备首先确定初始帧图像中的多个参考区域，再获取当前帧图像中与所述多个参考区域各自对应的第一子图像以得到多个第一子图像，然后对所述多个第一子图像进行置信度评分以获得分值最高的第一子图像，最后基于所述当前帧图像中所述分值最高的第一子图像确定所述当前帧图像中的目标对象。

因此，本申请提供的对象检测方法、对象检测装置和电子设备首先确定在初始帧图像中待检测的目标对象周围的参考区域，并确定当前帧图像中参考区域所对应的子图像，从而可以通过置信度评分来定位到当前帧图像中的目标对象的大致区域，再进一步确定所要检测的目标对象在当前帧图像中的精确位置。

这样，即使对象的尺度变化大，也可以在当前帧图像中确定待检测的目标对象的大致区域，而不至于失去目标对象在多个帧中的跟踪结果，从而使得目标对象的检测对于对象的尺度变化不敏感。

并且，由于可以在当前帧图像中所确定的目标对象的大致区域中进行对象检测，可以缩小当前帧图像中目标对象的检测范围以减小所要处理的数据量，从而提高目标对象的检测速度。

在介绍了本申请的基本原理之后，下面将参考附图来具体介绍本申请的各种非限制性实施例。

示例性方法

图1图示了根据本申请实施例的对象检测方法的流程图。

如图1所示，根据本申请实施例的对象检测方法包括以下步骤。

步骤S110，确定初始帧图像中的多个参考区域。这里，所述初始帧图像例如可以是给定视频中的某帧，比如第一帧，且要从所述视频中检测要跟踪的目标对象。

图2图示了根据本申请实施例的对象检测方法的网络结构的示意图。如图2所示，在本申请实施例中，对于初始帧图像I₁，可以通过OPN(对象提取网络：Object ProposalNetwork)提取待跟踪的目标对象O周围的一些矩形框，例如如图2所示的F₁、F₂和F₃，以作为所述多个参考区域。

具体地，所述OPN可以包括用于给出所述初始图像帧所有感兴趣物体的候选框的通用目标检测器，例如区域卷积神经网络(Mask-RCNN)，其对于给定的一张图片，能够检测出所有感兴趣的物体，并且以矩形框的形式标识出来。

此外，除了将OPN直接检测出的矩形框作为参考区域以外，还可以计算直接检测出的矩形框与其它矩形框的重叠数值，这可以称为IoU(单元间交叉：Intersection overUnion)。这样，通过提取IoU大于某个数值，例如0.3的矩形框，可以确定待检测的目标对象的位置周围由通用目标检测器检测到的部分矩形框，以作为所述参考区域。

在步骤S120中，获取当前帧图像中与所述多个参考区域各自对应的第一子图像以得到多个第一子图像。例如，在如上所述所述初始帧图像是给定视频的第一帧的情况下，所述当前帧图像可以是所述给定视频的后续帧，比如第N帧。因此，需要从当前帧图像中检测目标对象，以实现视频中的对象跟踪。

继续参考图2，可以根据所述多个参考区域在所述初始帧图像中的矩形框F₁、F₂和F₃，从所述当前帧图像I_N中截取矩形框范围的图像I_N1、I_N2和I_N3，以获得所述多个第一子图像。也就是说，通过将所述初始帧图像中确定的所述多个参考区域映射到当前帧图像上，可以获得所述多个第一子图像。

在步骤S130中，对所述多个第一子图像进行置信度评分以获得分值最高的第一子图像。也就是说，通过对所述多个第一子图像进行置信度评分，可以确定所述待检测的目标对象在所述当前帧图像中最有可能对应的子图像。

这里，继续参考图2，对于所述多个第一子图像I_N1、I_N2和I_N3，可以通过OTN(对象跟踪网络：Object Tracking Network)进行置信度评分，从而获得分值最高的第一子图像，例如I_N2。

具体地，OTN可以包括通用的判别器，所述判别器例如可以首先接收所述初始图像帧，例如第一帧F₁作为输入来进行训练，以让它知道要判别什么，然后对于多个第一子图像I_N1、I_N2和I_N3进行评分。例如，可以认为分值大于0就可能所述初始图像帧中的目标对象。

另外，所述OTN还可以进一步包括一个简单的排序器，例如top-k选择器，从而将判别器的评分结果进行排序，以获得分值最高的第一子图像。

在步骤S140中，基于所述当前帧图像中所述分值最高的第一子图像确定所述当前帧图像中的目标对象。如上所述，通过上述步骤，确定了所述目标对象在所述当前帧图像中的大致区域，即如图2所示的子图像I_N2所在的区域。然后，通过例如DRSN(动态参考分割网络：Dynamic Reference Segmentation Network)，得到第N帧中的子图像I_N2的掩码，再根据OTN的矩形框还原到第N帧的原始图像上，以检测到所述目标对象。

这里，本领域技术人员可以理解，使用DRSN可以进行图像分割，而如果不进行图像分割，也可以使用其它类型的检测器从第N帧中检测所述目标对象。

这样，通过基于所述当前帧图像中所述分值最高的第一子图像检测目标对象，就可以消除目标对象在初始帧图像和当前帧图像之间的尺度变化的影响，从而使得目标对象的检测对于对象的尺度变化不敏感。另外，代替在整个当前帧图像中检测所述目标对象，在本申请实施例中，仅需要在所述分值最高的第一子图像对应的大致区域内检测目标对象，这样可以快速地确定所述目标对象在所述当前帧图像内的精确位置。

如图3所示，在如图1所示的实施例的基础上，步骤S120包括以下步骤。

步骤S1201，确定所述多个参考区域的数目是否大于第一阈值。也就是，确定例如如图2所示的对象提取网络所提取到的参考区域是否达到预定数目，即，矩形框的数目是否大于预定阈值，例如，所述预定阈值可以设置为5。

步骤S1202，响应于所述多个参考区域的数目大于所述第一阈值，获取所述多个参考区域各自对应的第一子图像以得到多个第一子图像。也就是，如果参考区域的数目达到了预定数目，即矩形框的数目大于所述第一阈值，则获取矩形框对应的第一子图像，例如，上述矩形框F₁、F₂和F₃对应的第一子图像I_N1、I_N2和I_N3。

步骤S1203，响应于所述多个参考区域的数目小于或等于所述第一阈值，利用高斯模型从所述当前帧图像生成多个第四子图像，并基于所述多个第四子图像确定多个第一子图像。也就是，如果参考区域的数目未达到预定数目，即矩形框的数目小于或等于所述第一阈值，说明对象提取网络未能有效地提取到参考区域，可以直接利用高斯模型来从所述当前帧图像确定待检测的目标对象可能位于其中的子图像。

例如，对于当前帧图像，可以对于其中心位置，或者初始帧图像中待检测的目标对象对应的位置，对该位置的中心和大小用高斯模型进行一些随机变换生成一些矩形框以作为所述参考区域。

这样，通过如图3所示的获得子图像的过程，可以基于从所述初始帧图像确定的参考区域的数目来以不同方式获得待检测的目标对象可能位于其中的子图像，从而保证在所述当前帧图像中所确定的目标对象的大致区域的相对准确性，提高目标对象的检测的准确度。

如图4所示，在如图1所示的实施例的基础上，步骤S130包括以下步骤。

步骤S1301，确定所述多个第一子图像中分值最高的预定数目的第一子图像的置信度分值的平均分值。例如，通过如上所述的top-k选择器，可以将判别器的评分结果进行排序并取前5个分值计算其均值。

步骤S1302，确定所述平均分值是否大于第二阈值。也就是，通过计算所述平均分值是否大于所述第二阈值，来确定所述多个第一子图像是否具有足够的置信度，即，所述多个第一子图像是否对应于正确的待检测的目标对象。

步骤S1303，响应于所述平均分值大于第二阈值，获取所述分值最高的第一子图像。也就是，如果所述多个第一子图像对应于正确的待检测的目标对象，则可以基于所述分组最高的第一子图像来检测目标对象。

步骤S1304，响应于所述平均分值小于第二阈值，获取所述当前帧图像的前一帧图像中的所述目标对象，获取所述前一帧图像中的所述目标对象对应的所述当前帧图像中的部分图像作为所述分值最高的第一子图像。

也就是，如果所述平均分值小于所述第二阈值，则认为所述多个第一子图像均不包含正确的目标对象。此时，可以使用前一帧图像，例如第N-1帧图像中的所述目标对象的检测结果，来获取其对应的第N帧中的部分来作为所述分值最高的第一子图像。

因此，通过如图4所示的子图像评分的过程，可以保证所获得的分值最高的第一子图像对应于正确的待检测的目标对象，也就是，所述目标对象包含在所述分值最高的第一子图像的预定范围内，从而可以准确地检测到所述目标对象，并且不至于由于不包含目标对象来浪费检测时间和计算资源，提高了目标对象的检测的准确度和效率。

如图5所示，在如图1所示的实施例的基础上，步骤S140包括以下步骤。

步骤S1401，确定所述当前帧图像上所述分值最高的第一子图像周围预定倍数的区域图像。这里，由于在所述初始帧图像和所述当前帧图像之间，所述待检测的目标对象的尺度和位置都可能会发生变化，为了应对这种变化，在当前帧图像中，在所述分值最高的第一子图像的基础上适当扩大检测的范围。

具体地，在本申请实施例中，所述区域图像的大小可以是所述分值最高的第一子图像的1.2到2倍。进一步地，所述区域图像的大小可以设置为所述分值最高的第一子图像的1.2到1.8倍。例如，在某个具体示例中，可以将所述分值最高的第一子图像周围1.5倍尺寸的图像确定为所述区域图像。

步骤S1402，在所述区域图像中检测所述目标对象。这样，通过在将所述分值最高的第一子图像扩大适当范围而获得的所述区域图像中检测所述目标对象，可以应对所述目标对象在所述初始帧图像和所述当前帧图像之间的尺度和位置的变化，从而提高检测精确度。

如图6所示，用于目标检测的DRSN 200可以包括特征编码器210和特征解码器220。其中，特征编码器210用于接收所述区域图像和所述当前帧的前一帧图像的掩码，然后输出到特征解码器220。特征解码器220可以包括图形卷积网络和精调卷积模块，从而对于第N帧基于第N-1帧的掩码进行图像分割，以获得所述目标对象的图像掩码。但是，在仅使用第N-1的掩码进行图像分割的情况下，由于待分割的目标对象不明确，仅能够区分当前帧图像中的前景和背景。

因此，为了明确待分割的目标对象，需要获取所述初始帧图像中与所述待检测的目标对象有关的图像信息。在本申请实施例中，获取所述初始帧图像中与所述多个参考区域各自对应的多个第二子图像。并且，基于所述多个第二子图像及其对应的掩码，以及所述区域图像和所述当前帧图像的前一帧图像的掩码，通过对所述当前帧图像进行图像分割以获取所述目标对象的图像掩码，可以明确所述当前帧图像中的待分割的目标对象。

如图6所示，DRSN 200进一步包括存储单元230，用于存储第一帧的信息。并且，所述特征编码器210用于从所述存储单元230接收第一帧的信息，如图6中的虚线所示。所述特征解码器220用于在第N帧中找到和第1帧中相似的相似点并标记为前景，然后逐尺度地优化掩码边缘，最终输出第N帧的图像掩码。

为了进一步提高目标检测的精度，还可以使用所述初始图像帧和所述当前图像帧之间的一个或多个中间图像帧的图像信息。也就是，可以获取所述初始帧图像和所述当前帧图像之间的所述至少一帧图像中所述多个参考区域各自对应的多个第三子图像，并且基于所述多个第二子图像及其对应的掩码，所述多个第三子图像及其对应的掩码，以及所述区域图像和所述当前帧图像的前一帧图像的掩码对所述当前帧图像进行图像分割以获取所述目标对象的图像掩码。

也就是，在存储单元230进一步存储至少一个中间图像帧的信息，例如第P帧和第Q帧的信息。然后，所述特征编码器210进一步用于从所述存储单元230接收第P帧和第Q帧的信息，如图6中的点划线所示。所述特征解码器220用于在第N帧中找到和第1帧、第P帧和第Q帧中相似的相似点并标记为前景，然后逐尺度地优化掩码边缘，最终输出第N帧的图像掩码。在本申请实施例中，所述第P帧和第Q帧可以是第N-2帧和第N-4帧。

相应地，基于以上所述，在本申请实施例中，进一步保存所述当前帧图像中所述目标对象的检测结果，以用于后续帧中的所述目标对象的检测。

另外，在本申请实施例中，为了提高处理速度，所述OPN，OTN和DRSN可以共享特征。也就是，因为这些网络均为多层神经网络，由于任务的不同，应该使用不同特征。但是，在本申请实施例中，对于这些多层神经网络的前N层，例如前10层，可以使用相同特征以提高处理速度，而后续层则因为任务不同仍然使用不同特征。

示例性装置

图7图示了根据本申请实施例的对象检测装置的框图。

如图7所示，根据本申请实施例的对象检测装置300包括：区域确定单元310，用于确定初始帧图像中的多个参考区域；子图像获取单元320，用于获取当前帧图像中与所述区域确定单元310所确定的所述多个参考区域各自对应的第一子图像以得到多个第一子图像；子图像评分单元330，用于对所述子单元获取单元320所获得的多个第一子图像进行置信度评分以获得分值最高的第一子图像；以及，目标检测单元340，用于基于所述子图像评分单元330所获得的所述当前帧图像中所述分值最高的第一子图像确定所述当前帧图像中的目标对象。

图8图示了根据本申请实施例的子图像获取单元的框图。

如图8所示，在如图7所示的实施例的基础上，所述子图像获取单元320包括：阈值确定子单元3201，用于确定所述区域确定单元310所确定的所述多个参考区域的数目是否大于第一阈值；直接获取子单元3202，用于响应于所述第一阈值确定子单元3201确定所述多个参考区域的数目大于所述第一阈值，获取所述多个参考区域各自对应的第一子图像以得到多个第一子图像；以及，子图像生成子单元3203，用于响应于所述第一阈值确定子单元3201确定所述多个参考区域的数目小于或等于所述第一阈值，利用高斯模型从所述当前帧图像生成多个第四子图像，并基于所述多个第四子图像确定多个第一子图像。

图9图示了根据本申请实施例的子图像评分单元的框图。

如图9所示，在如图7所示的实施例的基础上，所述子图像评分单元330包括：平均分值确定子单元3301，用于确定所述子单元获取单元320所获得的所述多个第一子图像中分值最高的预定数目的第一子图像的置信度分值的平均分值；平均分值判定子单元3302，用于确定所述平均分值确定子单元3301所确定的所述平均分值是否大于第二阈值；第一子图像获取子单元3303，用于响应于所述平均分值判定子单元3302判定所述平均分值大于所述第二阈值，获取所述分值最高的第一子图像；以及，第二子图像获取子单元3304，用于响应于所述平均分值判定子单元3302判定所述平均分值小于或等于所述第二阈值，获取所述当前帧图像的前一帧图像中的所述目标对象，并获取所述前一帧图像中的所述目标对象对应的所述当前帧图像中的部分图像作为所述分值最高的第一子图像。

图10图示了根据本申请实施例的目标检测单元的框图。

如图10所示，在如图7所示的实施例的基础上，所述目标检测单元340包括：区域扩大子单元3401，用于确定所述子图像评分单元330所获得的所述当前帧图像上所述分值最高的第一子图像周围预定倍数的区域图像；以及，对象检测子单元3402，用于在所述区域扩大子单元3401所确定的所述区域图像中检测所述目标对象。

在一个示例中，在上述对象检测装置300中，所述对象检测子单元3402用于：基于所述区域图像和所述当前帧图像的前一帧图像的掩码对所述当前帧图像进行图像分割以获取所述目标对象的图像掩码。

在一个示例中，在上述对象检测装置300中，所述对象检测子单元3402用于：获取所述初始帧图像中与所述多个参考区域各自对应的多个第二子图像；以及，基于所述多个第二子图像及其对应的掩码，以及所述区域图像和所述当前帧图像的前一帧图像的掩码对所述当前帧图像进行图像分割以获取所述目标对象的图像掩码。

在一个示例中，在上述对象检测装置300中，所述对象检测子单元3402用于：获取所述初始帧图像和所述当前帧图像之间的所述至少一帧图像中所述多个参考区域各自对应的多个第三子图像；以及，基于所述多个第二子图像及其对应的掩码，所述多个第三子图像及其对应的掩码，以及所述区域图像和所述当前帧图像的前一帧图像的掩码对所述当前帧图像进行图像分割以获取所述目标对象的图像掩码。

在一个示例中，在上述对象检测装置300中，进一步包括：结果保存单元，用于保存所述目标检测单元340所获得的所述当前帧图像中所述目标对象的检测结果。

这里，本领域技术人员可以理解，上述对象检测装置300中的各个单元和模块的具体功能和操作已经在上面参考图1到图6的对象检测方法的描述中得到了详细介绍，并因此，将省略其重复描述。

如上所述，根据本申请实施例的对象检测装置300可以实现在各种终端设备中，例如包括流处理器的计算机等。在一个示例中，根据本申请实施例的对象检测装置300可以作为一个软件模块和/或硬件模块而集成到终端设备中。例如，该对象检测装置300可以是该终端设备的操作系统中的一个软件模块，或者可以是针对于该终端设备所开发的一个应用程序；当然，该对象检测装置300同样可以是该终端设备的众多硬件模块之一。

替换地，在另一示例中，该对象检测装置300与该终端设备也可以是分立的设备，并且该对象检测装置300可以通过有线和/或无线网络连接到该终端设备，并且按照约定的数据格式来传输交互信息。

示例性电子设备

下面，参考图11来描述根据本申请实施例的电子设备。

图11图示了根据本申请实施例的电子设备的框图。

如图11所示，电子设备10包括一个或多个处理器11和存储器12。

处理器13可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元，并且可以控制电子设备10中的其他组件以执行期望的功能。

存储器12可以包括一个或多个计算机程序产品，所述计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令，处理器11可以运行所述程序指令，以实现上文所述的本申请的各个实施例的对象检测方法以及/或者其他期望的功能。在所述计算机可读存储介质中还可以存储诸如参考区域所对应的子图像，各帧图像及其掩码等各种内容。

在一个示例中，电子设备10还可以包括：输入装置13和输出装置14，这些组件通过总线系统和/或其他形式的连接机构(未示出)互连。

该输入装置13可以包括例如键盘、鼠标等等。

该输出装置14可以向外部输出各种信息，包括当前图像帧中目标对象的检测结果等。该输出装置14可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等等。

当然，为了简化，图11中仅示出了该电子设备10中与本申请有关的组件中的一些，省略了诸如总线、输入/输出接口等等的组件。除此之外，根据具体应用情况，电子设备10还可以包括任何其他适当的组件。

示例性计算机程序产品和计算机可读存储介质

除了上述方法和设备以外，本申请的实施例还可以是计算机程序产品，其包括计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本申请各种实施例的对象检测方法中的步骤。

所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本申请实施例操作的程序代码，所述程序设计语言包括面向对象的程序设计语言，诸如Java、C++等，还包括常规的过程式程序设计语言，诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。

此外，本申请的实施例还可以是计算机可读存储介质，其上存储有计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本申请各种实施例的对象检测方法中的步骤。

所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

以上结合具体实施例描述了本申请的基本原理，但是，需要指出的是，在本申请中提及的优点、优势、效果等仅是示例而非限制，不能认为这些优点、优势、效果等是本申请的各个实施例必须具备的。另外，上述公开的具体细节仅是为了示例的作用和便于理解的作用，而非限制，上述细节并不限制本申请为必须采用上述具体的细节来实现。

本申请中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的，可以按任意方式连接、布置、配置这些器件、装置、设备、系统。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇，指“包括但不限于”，且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”，且可与其互换使用，除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”，且可与其互换使用。

还需要指出的是，在本申请的装置、设备和方法中，各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本申请的等效方案。

提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本申请。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的，并且在此定义的一般原理可以应用于其他方面而不脱离本申请的范围。因此，本申请不意图被限制到在此示出的方面，而是按照与在此公开的原理和新颖的特征一致的最宽范围。

为了例示和描述的目的已经给出了以上描述。此外，此描述不意图将本申请的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例，但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。

Claims

1.一种对象检测方法，包括：

确定初始帧图像中的多个参考区域；

获取当前帧图像中与所述多个参考区域各自对应的第一子图像以得到多个第一子图像；

对所述多个第一子图像进行置信度评分以获得分值最高的第一子图像；以及

基于所述当前帧图像中所述分值最高的第一子图像确定所述当前帧图像中的目标对象。

2.如权利要求1所述的对象检测方法，其中，基于所述当前帧图像中所述分值最高的第一子图像确定所述当前帧图像中的目标对象包括：

确定所述当前帧图像上所述分值最高的第一子图像周围预定倍数的区域图像；以及

在所述区域图像中检测所述目标对象。

3.如权利要求2所述的对象检测方法，其中，在所述区域图像中检测所述目标对象包括：

基于所述区域图像和所述当前帧图像的前一帧图像的掩码对所述当前帧图像进行图像分割以获取所述目标对象的图像掩码。

4.如权利要求3所述的对象检测方法，其中，基于所述区域图像和所述当前帧图像的前一帧图像的掩码对所述当前帧图像进行图像分割以获取所述目标对象的图像掩码包括：

获取所述初始帧图像中与所述多个参考区域各自对应的多个第二子图像；以及

基于所述多个第二子图像及其对应的掩码，以及所述区域图像和所述当前帧图像的前一帧图像的掩码对所述当前帧图像进行图像分割以获取所述目标对象的图像掩码。

5.如权利要求4所述的对象检测方法，其中，基于所述多个第二子图像及其对应的掩码，以及所述区域图像和所述当前帧图像的前一帧图像的掩码对所述当前帧图像进行图像分割以获取所述目标对象的图像掩码包括：

获取所述初始帧图像和所述当前帧图像之间的所述至少一帧图像中所述多个参考区域各自对应的多个第三子图像；以及

基于所述多个第二子图像及其对应的掩码，所述多个第三子图像及其对应的掩码，以及所述区域图像和所述当前帧图像的前一帧图像的掩码对所述当前帧图像进行图像分割以获取所述目标对象的图像掩码。

6.如权利要求1所述的对象检测方法，其中，获取当前帧图像中与所述多个参考区域各自对应的第一子图像以得到多个第一子图像包括：

确定所述多个参考区域的数目是否大于第一阈值；以及

响应于所述多个参考区域的数目大于所述第一阈值，获取所述多个参考区域各自对应的第一子图像以得到多个第一子图像；

响应于所述多个参考区域的数目小于或等于所述第一阈值，

利用高斯模型从所述当前帧图像生成多个第四子图像；以及

基于所述多个第四子图像确定多个第一子图像。

7.如权利要求1所述的对象检测方法，其中，对所述多个第一子图像进行置信度评分以获得分值最高的第一子图像包括：

确定所述多个第一子图像中分值最高的预定数目的第一子图像的置信度分值的平均分值；

确定所述平均分值是否大于第二阈值；

响应于所述平均分值大于所述第二阈值，获取所述分值最高的第一子图像；以及

响应于所述平均分值小于或等于所述第二阈值，

获取所述当前帧图像的前一帧图像中的所述目标对象；以及

获取所述前一帧图像中的所述目标对象对应的所述当前帧图像中的部分图像作为所述分值最高的第一子图像。

8.如权利要求1所述的对象检测方法，进一步包括：

保存所述当前帧图像中所述目标对象的检测结果。

9.一种对象检测装置，包括：

区域确定单元，用于确定初始帧图像中的多个参考区域；

子图像获取单元，用于获取当前帧图像中与所述区域确定单元所确定的所述多个参考区域各自对应的第一子图像以得到多个第一子图像；

子图像评分单元，用于对所述子图像获取单元所得到的多个第一子图像进行置信度评分以获得分值最高的第一子图像；以及

目标检测单元，用于基于所述子图像评分单元所获得的所述当前帧图像中所述分值最高的第一子图像确定所述当前帧图像中的目标对象。

10.一种电子设备，包括：

处理器；以及

存储器，在所述存储器中存储有计算机程序指令，所述计算机程序指令在被所述处理器运行时使得所述处理器执行如权利要求1-8中任一项所述的对象检测方法。