CN108985240A

CN108985240A - 评估对象检测算法的方法、装置、电子设备和存储介质

Info

Publication number: CN108985240A
Application number: CN201810813488.8A
Authority: CN
Inventors: 白校铭; 邹浔; 陈雪; 朱霞; 毛楠
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2018-07-23
Filing date: 2018-07-23
Publication date: 2018-12-11
Anticipated expiration: 2038-07-23
Also published as: CN108985240B

Abstract

本公开的实施例提供了一种评估对象检测算法的方法、装置、电子设备和计算机可读存储介质。在该方法中，确定由对象检测算法从视频中检测出的包含对象的评估帧；获取视频中被预先标注有对象的多个帧和与对象相关联的参考特征，参考特征有助于识别对象；基于对象在多个帧中的多个特征与参考特征的比较，从多个帧中选择目标帧；以及基于对象在目标帧和评估帧中的特征的差异来评估对象检测算法。本公开的实施例可以实现对象检测算法的高效和客观评估。

Description

评估对象检测算法的方法、装置、电子设备和存储介质

技术领域

本公开的实施例一般地涉及信息处理领域，并且更特别地，涉及一种评估对象检测算法的方法、装置、电子设备和计算机可读存储介质。

背景技术

随着计算机技术的发展，图像处理技术应用到越来越多的领域。对象识别，特别是人脸识别，也受到越来越多的关注。例如，人脸识别技术已经应用于安防和金融等各种领域。

在基于视频的对象识别技术中，通常需要首先对视频中的对象进行检测，以将目标对象与周围环境和其他对象区分出来。因此，对象的正确检测是进行对象识别的基础。只有将视频中出现的对象正确检测出来才能进行后续的识别。一般而言，使用对象检测算法来确定视频中的一个或多个对象，以用于后续的对象识别。因此，对象检测算法的性能是重要的。

发明内容

本公开的实施例涉及一种评估对象检测算法的方法、装置、电子设备和计算机可读存储介质。

在本公开的第一方面，提供了一种评估对象检测算法的方法。该方法包括：确定由对象检测算法从视频中检测出的包含对象的评估帧。该方法还包括：获取视频中被预先标注有对象的多个帧和与对象相关联的参考特征，参考特征有助于识别对象。该方法进一步包括：基于对象在多个帧中的多个特征与参考特征的比较，从多个帧中选择目标帧。该方法进一步包括：基于对象在目标帧和评估帧中的特征的差异来评估对象检测算法。

在本公开的第二方面，提供了一种评估对象检测算法的装置。该装置包括：评估帧确定模块，被配置为确定由对象检测算法从视频中检测出的包含对象的评估帧。该装置还包括：获取模块，被配置为获取视频中被预先标注有对象的多个帧和与对象相关联的参考特征，参考特征有助于识别所述对象。该装置进一步包括：目标帧选择模块，被配置为基于对象在多个帧中的多个特征与参考特征的比较，从多个帧中选择目标帧。该装置进一步包括：评估模块，被配置为基于对象在目标帧和评估帧中的特征的差异来评估对象检测算法。

在本公开的第三方面，提供了一种电子设备。该电子设备包括一个或多个处理器；以及存储装置，用于存储一个或多个程序。当一个或多个程序被一个或多个处理器执行时，使得一个或多个处理器实现第一方面的方法。

在本公开的第四方面，提供了一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现第一方面的方法。

应当理解，发明内容部分中所描述的内容并非旨在限定本公开的实施例的关键或重要特征，亦非用于限制本公开的范围。本公开的其他特征通过以下的描述将变得容易理解。

附图说明

通过参考附图阅读下文的详细描述，本公开的实施例的上述以及其他目的、特征和优点将变得容易理解。在附图中，以示例性而非限制性的方式示出了本公开的若干实施例，其中：

图1示出了本公开的一些实施例能够在其中实现的示例环境的示意图；

图2示出了根据本公开的实施例的评估对象检测算法的方法的示意性流程图；

图3示出了根据本公开的一些实施例的获取与对象相关联的参考特征的示意图；

图4示出了根据本公开的一些实施例的从包含对象的多个帧中选择目标帧的示意图；

图5示出了根据本公开的一些实施例的确定对象在目标帧和评估帧中的特征的差异的示意图；

图6示出了根据本公开的实施例的评估对象检测算法的装置的示意性框图；以及

图7示出了一种可以被用来实施本公开的实施例的设备的示意性框图。

贯穿所有附图，相同或者相似的参考标号被用来表示相同或者相似的组件。

具体实施方式

下面将参考附图中所示出的若干示例性实施例来描述本公开的原理和精神。应当理解，描述这些具体的实施例仅是为了使本领域的技术人员能够更好地理解并实现本公开，而并非以任何方式限制本公开的范围。

如前文所提及的，对象检测算法的性能，特别是对象检测算法能否从包含对象的视频中得出最适合于识别该对象的帧，对于后续的对象识别是重要的。因此，在对象识别的领域中，需要评估对象检测算法，以验证对象检测算法的性能并且帮助改进对象检测算法。

当前，一般采用人工的方法来验证特定的对象检测算法确定得出的帧是否适合用于识别对象，从而评估该对象检测算法。例如，通过人眼来查看对象检测算法给出的帧中的对象图像是否清晰、是否为正脸(在人脸识别的场景中)，等等。例如，如果对象检测算法给出的是正脸则可以被认为给出了最优脸，进而认为对象检测算法具有良好的性能。

由此可见，这种传统的方案以人的主观判断作为依据，但人眼认为最好的帧(或图像)并不一定最适合于识别出对象。此外，肉眼看起来非常像的两个图像，用于对象识别的结果可能相差很大。因此，需要一种改进的用于评估对象检测算法的技术方案。

为了至少部分地解决传统方案中存在的上述以及其他潜在的技术问题，本公开的实施例提出了一种评估对象检测算法的方案。在该方案中，基于有助于识别某个对象的参考特征，从包含对象的视频中确定出适合于识别该对象的目标帧。然后，利用该目标帧来评估对象检测算法所给出的用于识别该对象的帧，从而可以评估对象检测算法确定的帧是否适合于识别该对象，进而评估对象检测算法的性能。在一些实施例中，该参考特征可以从适合于识别该对象的目标图像中来获取。本公开的实施例提出的方案可以实现对象检测算法的高效和客观评估，从而可以帮助对象检测算法提高对象识别的准确率和召回率，等等。以下将参考图1到图7来具体地描述本公开的实施例。

图1示出了本公开的实施例能够在其中实现的示例环境100的示意图。在该示例环境100中，由计算设备110生成针对对象检测算法120的评估结果115。应当理解，尽管图1将示例环境100示出为包括特定数目的特定组件，但是这仅是示例性的，无意以任何方式限制本公开的范围。在其他实施例中，示例环境100可以包括任何数目的任何适合的单元、模块或组件。

如图所示，包含待检测的对象140的视频105被输入到对象检测算法120。视频105可以是为了评估对象检测算法120的目的而拍摄的视频，也可以是在对象检测算法120将要应用的场景实地采集的视频。例如，视频105可以是在地铁站、机场、银行、公司大门等处利用已安装摄像头采集的。应当理解，本公开的实施例可以适用于任何包含有待识别的对象的视频。

存储库130包括对视频105的帧进行预先标注得到的帧集合107，具体可以包括帧105-1至105-N，其中N指代大于1的正整数。这些经预先标注的帧105-1至105-N是对视频105进行预处理而获得的。在预处理的过程中，对视频105的各个帧中出现的对象140进行标注，以确保帧105-1至105-N中均包括对象140。

此外，存储库130还包括参考特征135，其是有助于识别对象140的特征。在一些实施例中，参考特征135可以是预先存储的用于识别对象140的信息。例如，在对人进行识别的场景中，参考特征135可以是对象140的面部特征、行为特征、穿戴特征、轮廓特征、姿态，等等。

对象检测算法120用于从视频105中确定出某个帧105-X，其中X是大于等于1且小于等于N的正整数。该帧105-X由对象检测算法120通过预定的算法确定为最适合于识别对象140的帧。换句话说，在使用对象检测算法120时，首先由对象检测算法120从视频105中确定出帧105-X，然后帧105-X将进一步被用于识别对象140。例如，在识别特定人的场景中，帧105-X将被用于识别对象140的身份。基于对象检测算法120的上述操作流程，在本公开的示例环境100中，计算设备110采用本公开的实施例提出的方案来判断对象检测算法120给出的帧105-X用于识别对象140的优劣程度。

计算设备110可以基于参考特征135从帧105-1至105-N中选择出目标帧105-Y，其可以认为是明确地被确定为适合用于识别对象140的帧，其中Y是大于等于1且小于等于N的正整数。换句话说，在所有包括对象140的帧105-1至105-N中，目标帧105-Y被确定为适合于识别对象140的优劣程度为较好的。在一些实施例中，目标帧105-Y可以被确定为是最适合于识别对象140的帧。

因此，计算设备110可以基于对象140在目标帧105-Y和评估帧105-X中的特征的差异来确定对象检测算法120给出的评估帧105-X是否为视频105中的适合于识别对象140的帧，从而生成对象检测算法120的评估结果115。在一些实施例中，评估结果115可以指示对象检测算法120的性能，例如准确率百分比。在本文中，术语“准确率”可以用于指示对象检测算法120给出的评估帧105-X作为用于识别对象140的帧的适合程度。

应当理解，图1中示出的特定的帧数目和对象数目仅是示例性的，帧集合107可以包括更多或更少的帧并且可以包括更多或更少的对象。还应当理解，根据对象检测算法120所应用的对象的不同，视频105中包含的对象可以具有多种类型。例如，对象可以包括人脸、动物、物体(诸如，汽车、水杯等)。在一些情况下，对象也可以是多种类型的，例如既包括人脸又包括动物。下文将参考图2来详细描述本公开的实施例所提供的评估对象检测算法的方法。

图2示出了根据本公开的实施例的评估对象检测算法的方法200的示意性流程图。方法200可以由图1的计算设备110来实现，例如可以由计算设备110的处理器或处理单元来实现。在其他实施例中，方法200的全部或部分也可以由独立于计算设备系统110的计算设备来实现，或者可以由示例环境100中的其他单元来实现。为便于讨论，将结合图1来描述方法200。

在210处，计算设备110确定由对象检测算法120从视频105中检测出的包含对象140的评估帧105-X。如上文提到的，对象检测算法120的任务或目标是在视频105的包括有对象140的帧105-1至105-N中，针对对象140，找出最适合识别对象140的帧。换言之，在视频105被输入到对象检测算法120之后，对象检测算法120将最终输出视频105中的某个帧105-X。该帧105-X是包含对象140的帧之一，并且对象检测算法120通过计算认为帧105-X是最适合用于识别出对象140的帧。因此，计算设备110可以将视频105输入到对象检测算法120，从而确定由对象检测算法120从视频105中检测出的评估帧105-X。

例如，在该确定过程中，对象检测算法120可以首先对视频105中出现的对象140进行检测，以确定视频105中的哪些帧中包括有对象140。然后，对象检测算法120可以基于预先设置的算法对这些出现对象140的帧进行比较，最终确定出帧105-X是最适合识别出对象140的帧。应当理解，被评估的对象检测算法120可以是任何适当的对象检测算法，包括目前已有的对象检测算法和有待未来开发的对象检测算法。

在220处，计算设备110获取视频105中被预先标注有对象140的多个帧105-1至105-N。在一些实施例中，计算设备110可以对视频105进行预处理，以标注视频105的帧105-1至105-N中的对象140。具体地说，计算设备110可以逐帧地确定视频105中的哪些帧中包括有对象140，然后对这些帧中出现的对象140进行标注，以便于后续从帧105-1至105-N中选择出目标帧105-X。通过这样的方式，计算设备110可以更有针对性地从视频105确定出评估对象检测算法120需要涉及到的帧，从而提高评估方法200的效率。

此外，在220处，计算设备110还获取与对象140相关联的参考特征135，有助于识别对象140。如上文所述，参考特征135可以是预先存储的用于识别对象140的信息。例如，在对人进行识别的场景中，该信息可以包括特定人的面部特征、行为特征、穿戴特征、轮廓特征、姿态，等等。通过这些具体的特征，计算设备110可以确保其确定得出的目标帧105-Y能够高效且准确地识别出对象140。

在一些实施例中，有助于识别对象140的参考特征135可以从对象140的参考图像中获得，该参考图像集中体现了对象140的特征。例如，在对人进行识别的场景中，参考图像可以例如是对象140的证件照片，诸如身份证照片。在参考特征135从参考图像获取的情况下，参考特征135除了可以包括属于对象140本身的特性以外，还可以包括对象140在参考图像中的大小以及清晰度，等等。

图3示出了根据本公开的一些实施例的获取与对象140相关联的参考特征135的示意图300。在图3的具体示例中，对象140是一个人，并且参考图像310是对象140的证件照片。在这种情况下，计算设备110可以首先获取被预先标注有对象140的参考图像310。作为示例，参考图像310可以是某公司员工的证件照片，其作为员工信息存储在该公司的存储库130中。此外，在该示例中，计算设备110还标注对象140的正面的清晰的面部部分315以用于确定参考特征135，诸如面部特征、轮廓特征、面部部分315在参考图像310中的大小。在一些实施例中，在标注过程中还可以标注对象140是公司的哪位员工，以便在存储库130中基于该员工的标识符(例如，姓名，工号等)搜索到对象140的参考图像310。

然后，计算设备110可以从参考图像310提取参考特征135。例如，计算设备110可以从参考图像310中提取关于对象140的面部特征、行为特征、穿戴特征、轮廓特征、姿态、在参考图像310中的大小以及清晰度，等等。在一些实施例中，计算设备110可以按照信息的方式将参考特征13存储在存储库130中。替换地或另外地，计算设备110也可以直接将参考图像310存储在存储库130中。以此方式，计算设备110可以更加便利地获得参考特征135，从而提高评估方法200的效率。

返回参考图2，在230处，计算设备110基于对象140在多个帧105-1至105-N中的多个特征与参考特征135的比较，从多个帧105-1至105-N中选择目标帧。如上文指出的，参考特征135是有助于识别对象140的特征。换句话说，通过将对象140在帧105-1至105-N中的特征与参考特征135进行比较，计算设备110可以确定帧105-1至105-N中的哪些帧较为适合于识别对象140，并且有可能确定出哪个帧最为适合于识别对象140。

因此，基于上述比较的结果，计算设备110可以明确地且准确地从帧105-1至105-N中选择出目标帧105-Y，以用于评估对象检测算法120确定的评估帧105-X。在一些实施例中，计算设备110可以从帧105-1至105-N选择最适合于识别对象140的帧来作为目标帧105-Y。替换地或另外地，取决于具体的应用环境和设计要求，计算设备110也可以选择其他较为适合识别对象140的帧作为目标帧105-Y。下面参考图4来描述选择目标帧105-Y的具体示例。

图4示出了根据本公开的一些实施例的从包含对象140的多个帧105-1至105-N中选择目标帧105-Y的示意图。在图4的示例中，对象140是特定的人脸，帧105-1至105-4均包括对象140。在该具体示例中，参考特征135可以是对象140在参考图像310中的大小(参考图3)。

如图所示，对象140在帧105-1中由于拍摄距离较远而具有较小的大小，对象140在帧105-3中由于被其他对象遮挡而具有较小的大小，而对象140在帧105-4中由于拍摄不完全而具有较小的大小。因此，计算设备110可以确定对象140在帧105-2中具有最大的大小。由于参考特征135是对象140在参考图像310中的大小，所以计算设备110可以进而确定帧105-2最适合用于识别对象140的目标帧105-Y。

在一些实施例中，计算设备110可以基于对象140在多个帧105-1至105-N中的特征与参考特征135的比较，来确定与多个帧105-1至105-N相对应的多个得分。此处，每个得分可以指示相应的帧能够成功识别对象140的可能性。例如，在上述示例中，计算设备110可以根据参考特征135是对象140在参考图像310中的大小，而确定帧105-1至105-4的得分分别为60分、80分、55分和62分。从另一个角度来说，这些得分体现了帧105-1至105-4用于识别对象140的优劣程度。

通过这样的方式，计算设备110可以量化帧105-1至105-N用于识别对象140的优劣程度，从而更为准确地从帧105-1至105-N中选择出目标帧105-Y。将理解，尽管该示例中仅描述了帧105-1至105-4的得分，但是计算设备110可以按照类似的方法确定每个帧105-1至105-N的得分。在一些实施例中，这些得分可以通过标签(label)文件来记录。

基于上述得分，计算设备110可以从多个帧105-1至105-N中选择得分高的帧105-2作为目标帧105-Y。在其他的实施例中，依赖于具体的实施方式，计算设备110也可以选择具有较高得分的帧(例如帧105-4)作为目标帧105-Y。应当理解，上述具体的得分值仅是示例性的，无意以任何方式限制本公开的范围。在其他实施例中，计算设备110可以使用任何适合的分值来表达各个帧在识别对象140方面的优劣。

此外，应当理解，尽管上面的示例中使用对象140在参考图像310中的大小作为参考特征315，但是在其他实施例中，参考特征315可以是任何有助于识别对象140的用于参考的特征。相应地，用于与参考特征315进行比较的特征可以包括对象140的面部特征、行为特征、穿戴特征、轮廓特征、姿态、在对应帧中清晰度和任何其他的参数，等等。

返回参考图2，在240处，计算设备110基于对象140在目标帧105-Y和评估帧105-X中的特征的差异来评估对象检测算法120。如上文所述，计算设备110已经基于对象140的参考特征135预先明确地确定了视频105中的某个帧是最适合识别对象140的目标帧105-Y。因此，计算设备110可以使用对象140在评估帧105-X中的特征与对象140在目标帧105-Y中的特征之间的差异来确定评估帧105-X是否适合用于识别对象140，也即评估对象检测算法120的算法结果。下面参考图5来描述一个具体的示例。

图5示出了根据本公开的一些实施例的确定对象140在目标帧105-Y和评估帧105-X中的特征的差异的示意图500。为了清楚，图5中省略了目标帧105-Y和评估帧105-X中的其他对象。在图5示出的具体示例中，假设对象检测算法120给出的评估帧105-X是帧105-1，即对象检测算法120计算得出帧105-1是最适合识别出对象140的帧。另外，帧105-2是计算设备110从视频105的帧105-1至105-N中明确地确定得出的目标帧105-Y。

在该情况下，计算设备110基于对象140在目标帧105-2和评估帧105-1中的特征的差异来得出对象检测算法120的评估结果115。例如，评估结果115可以是一个百分比，用于指示对象检测算法120给出的评估帧105-1作为用于识别对象140的帧的适合程度，在该示例中可以理解为与目标帧102-2的接近程度。

在一些实施例中，在评估对象检测算法120时，类似于在选择目标帧105-Y时确定帧105-1至105-N的得分，计算设备110可以基于对象140在评估帧105-X中的特征与参考特征135的比较，来确定评估帧105-X的得分。同样地，该得分指示评估帧105-X能够成功识别对象140的可能性，也即评估帧105-X用于识别对象140的优劣程度。

接着，计算设备110可以确定目标帧105-Y的得分与评估帧105-X的得分之间的差异。基于评估帧105-X与目标帧105-Y的得分之间的差异，计算设备110可以评估对象检测算法120。通过这样的方式，视频105中的帧105-1至105-N以及评估帧105-X和目标帧105-Y用于识别对象140的优劣程度可以被量化，因此可以实现对象检测算法120的更加精确的评估。

在图5的具体示例中，计算设备110可以获知评估帧105-1的得分为60分，而目标帧105-2的得分为80分。因此，计算设备110可以确定对象检测算法120的评估结果115为60/80×100％＝75％。应当理解，图5的具体示例中使用的具体数值仅为示例性的，无意限制本公开的范围。在其他实施例中，本公开的实施例可以采用任何适当的数值。

进一步地，计算设备110还可以将对象140在评估帧105-X和在目标帧105-Y的差异与阈值差异进行比较。如果该差异低于阈值差异，计算设备110可以增加对象检测算法120从视频105中准确地检测出有助于对象140的分类的帧的准确率。如果该差异超过阈值差异，计算设备110可以减小对象检测算法120的准确率。在一些实施例中，阈值差异可以根据具体的应用环境和设计要求来确定。以此方式，对象检测算法120可以针对多个识别对象被评估，并且评估结果可以基于设计要求灵活地被调节。

继续参考图5的示例，计算设备110可以预先设置阈值差异为15分，而对象140在评估帧105-1和在目标帧105-2中的得分差异为80-60＝20，超过了阈值差异15。因此，在该设置下，计算设备110将减小对象检测算法120针对包括对象140在内的多个对象的总体准确率。如果阈值差异设置为较为宽松的20分，则计算设备110将增加对象检测算法120的总体准确率。

图6示出了根据本公开的实施例的评估对象检测算法的装置600的示意性框图。在一些实施例中，装置600可以被包括在图1的计算设备110中或者被实现为计算设备110。

如图6所示，装置600包括评估帧确定模块610、获取模块620、目标帧选择模块630和评估模块640。评估帧确定模块610被配置为确定由对象检测算法从视频中检测出的包含对象的评估帧。获取模块620被配置为获取视频中被预先标注有对象的多个帧和与对象相关联的参考特征，参考特征有助于识别对象。目标帧选择模块630被配置为基于对象在多个帧中的多个特征与参考特征的比较，从多个帧中选择目标帧。评估模块640被配置为基于对象在目标帧和评估帧中的特征的差异来评估对象检测算法。

在一些实施例中，目标帧选择模块630可以包括：第一得分确定模块，被配置为基于多个特征与参考特征的比较，确定与多个帧相对应的多个得分，多个得分中的每一个指示相应帧能够成功识别对象的可能性；以及高分帧选择模块，被配置为基于多个得分来从多个帧中选择得分高的帧作为目标帧。

在一些实施例中，评估模块640可以包括：第二得分确定模块，被配置为基于对象在评估帧中的特征与参考特征的比较，确定评估帧的得分，得分指示评估帧能够成功识别对象的可能性；得分差异确定模块，被配置为确定目标帧的得分与评估帧的得分之间的差异；以及基于得分的算法评估模块，被配置为基于得分之间的差异来评估对象检测算法。

在一些实施例中，评估模块640可以包括：比较模块，被配置为将差异与阈值差异进行比较；准确率增加模块，被配置为响应于差异低于阈值差异，增加对象检测算法从视频中准确地检测出有助于对象分类的帧的准确率；以及准确率减小模块，被配置为响应于差异超过阈值差异，减小对象检测算法的准确率。

在一些实施例中，特征可以包括对象的面部特征、行为特征、穿戴特征、轮廓特征、姿态、在对应帧中的大小以及清晰度中的至少一项。

在一些实施例中，装置600还可以包括预处理模块，其被配置为对视频进行预处理，以标注视频的帧中的对象。

在一些实施例中，获取模块620可以包括：参考图像获取模块，被配置为获取被预先标注有对象的参考图像；以及参考特征提取模块，被配置为从参考图像提取参考特征。

图7示意性地示出了一种可以被用来实施本公开的实施例的设备700的框图。如图7中所示出的，设备700包括中央处理单元(CPU)701，其可以根据存储在只读存储设备(ROM)702中的计算机程序指令或者从存储单元708加载到随机访问存储设备(RAM)703中的计算机程序指令，来执行各种适当的动作和处理。在RAM 703中，还可存储设备700操作所需的各种程序和数据。CPU 701、ROM 702以及RAM 703通过总线704彼此相连。输入/输出(I/O)接口705也连接至总线704。

设备700中的多个部件连接至I/O接口705，包括：输入单元706，例如键盘、鼠标等；输出单元707，例如各种类型的显示器、扬声器等；存储单元708，例如磁盘、光盘等；以及通信单元709，例如网卡、调制解调器、无线通信收发机等。通信单元709允许设备700通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

上文所描述的各个过程和处理，例如方法200可由处理单元701来执行。例如，在一些实施例中，方法200可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元708。在一些实施例中，计算机程序的部分或者全部可以经由ROM 702和/或通信单元709而被载入和/或安装到设备700上。当计算机程序被加载到RAM 703并由CPU 701执行时，可以执行上文描述的方法200的一个或多个步骤。

如本文所使用的，术语“包括”及其类似用语应当理解为开放性包含，即“包括但不限于”。术语“基于”应当理解为“至少部分地基于”。术语“一个实施例”或“该实施例”应当理解为“至少一个实施例”。术语“第一”、“第二”等等可以指代不同的或相同的对象。本文还可能包括其他明确的和隐含的定义。

如本文所使用的，术语“确定”涵盖各种各样的动作。例如，“确定”可以包括运算、计算、处理、导出、调查、查找(例如，在表格、数据库或另一数据结构中查找)、查明等。此外，“确定”可以包括接收(例如，接收信息)、访问(例如，访问存储器中的数据)等。此外，“确定”可以包括解析、选择、选取、建立等。

应当注意，本公开的实施例可以通过硬件、软件或者软件和硬件的结合来实现。硬件部分可以利用专用逻辑来实现；软件部分可以存储在存储器中，由适当的指令执行系统，例如微处理器或者专用设计硬件来执行。本领域的技术人员可以理解上述的设备和方法可以使用计算机可执行指令和/或包含在处理器控制代码中来实现，例如在可编程的存储器或者诸如光学或电子信号载体的数据载体上提供了这样的代码。

此外，尽管在附图中以特定顺序描述了本公开的方法的操作，但是这并非要求或者暗示必须按照该特定顺序来执行这些操作，或是必须执行全部所示的操作才能实现期望的结果。相反，流程图中描绘的步骤可以改变执行顺序。附加地或备选地，可以省略某些步骤，将多个步骤组合为一个步骤执行，和/或将一个步骤分解为多个步骤执行。还应当注意，根据本公开的两个或更多装置的特征和功能可以在一个装置中具体化。反之，上文描述的一个装置的特征和功能可以进一步划分为由多个装置来具体化。

虽然已经参考若干具体实施例描述了本公开，但是应当理解，本公开不限于所公开的具体实施例。本公开旨在涵盖所附权利要求的精神和范围内所包括的各种修改和等效布置。

Claims

1.一种评估对象检测算法的方法，包括：

确定由所述对象检测算法从视频中检测出的包含对象的评估帧；

获取所述视频中被预先标注有所述对象的多个帧和与所述对象相关联的参考特征，所述参考特征有助于识别所述对象；

基于所述对象在所述多个帧中的多个特征与所述参考特征的比较，从所述多个帧中选择目标帧；以及

基于所述对象在所述目标帧和所述评估帧中的特征的差异来评估所述对象检测算法。

2.根据权利要求1所述的方法，其中从所述多个帧中选择目标帧包括：

基于所述多个特征与所述参考特征的比较，确定与所述多个帧相对应的多个得分，所述多个得分中的每一个指示相应帧能够成功识别所述对象的可能性；以及

基于所述多个得分来从所述多个帧中选择得分高的帧作为所述目标帧。

3.根据权利要求2所述的方法，其中评估所述对象检测算法包括：

基于所述对象在所述评估帧中的特征与所述参考特征的比较，确定所述评估帧的得分，所述得分指示所述评估帧能够成功识别所述对象的可能性；

确定所述目标帧的得分与所述评估帧的得分之间的差异；以及

基于所述得分之间的差异来评估所述对象检测算法。

4.根据权利要求3所述的方法，其中基于所述差异来评估所述对象检测算法包括：

将所述差异与阈值差异进行比较；

响应于所述差异低于阈值差异，增加所述对象检测算法从所述视频中准确地检测出有助于对象分类的帧的准确率；以及

响应于所述差异超过所述阈值差异，减小所述对象检测算法的所述准确率。

5.根据权利要求1所述的方法，其中所述特征包括所述对象的面部特征、行为特征、穿戴特征、轮廓特征、姿态、在对应帧中的大小以及清晰度中的至少一项。

6.根据权利要求1所述的方法，还包括：

对所述视频进行预处理，以标注所述视频的帧中的所述对象。

7.根据权利要求1所述的方法，其中获取所述参考特征包括：

获取被预先标注有所述对象的参考图像；以及

从所述参考图像提取所述参考特征。

8.一种评估对象检测算法的装置，包括：

评估帧确定模块，被配置为确定由所述对象检测算法从视频中检测出的包含对象的评估帧；

获取模块，被配置为获取所述视频中被预先标注有所述对象的多个帧和与所述对象相关联的参考特征，所述参考特征有助于识别所述对象；

目标帧选择模块，被配置为基于所述对象在所述多个帧中的多个特征与所述参考特征的比较，从所述多个帧中选择目标帧；以及

评估模块，被配置为基于所述对象在所述目标帧和所述评估帧中的特征的差异来评估所述对象检测算法。

9.根据权利要求8所述的装置，其中所述目标帧选择模块包括：

第一得分确定模块，被配置为基于所述多个特征与所述参考特征的比较，确定与所述多个帧相对应的多个得分，所述多个得分中的每一个指示相应帧能够成功识别所述对象的可能性；以及

高分帧选择模块，被配置为基于所述多个得分来从所述多个帧中选择得分高的帧作为所述目标帧。

10.根据权利要求9所述的装置，其中所述评估模块包括：

第二得分确定模块，被配置为基于所述对象在所述评估帧中的特征与所述参考特征的比较，确定所述评估帧的得分，所述得分指示所述评估帧能够成功识别所述对象的可能性；

得分差异确定模块，被配置为确定所述目标帧的得分与所述评估帧的得分之间的差异；以及

基于得分的算法评估模块，被配置为基于所述得分之间的差异来评估所述对象检测算法。

11.根据权利要求10所述的装置，其中所述评估模块包括：

比较模块，被配置为将所述差异与阈值差异进行比较；

准确率增加模块，被配置为响应于所述差异低于阈值差异，增加所述对象检测算法从所述视频中准确地检测出有助于对象分类的帧的准确率；以及

准确率减小模块，被配置为响应于所述差异超过所述阈值差异，减小所述对象检测算法的所述准确率。

12.根据权利要求8所述的装置，其中所述特征包括所述对象的面部特征、行为特征、穿戴特征、轮廓特征、姿态、在对应帧中的大小以及清晰度中的至少一项。

13.根据权利要求8所述的装置，还包括：

预处理模块，被配置为对所述视频进行预处理，以标注所述视频的帧中的所述对象。

14.根据权利要求8所述的装置，其中所述获取模块包括：

参考图像获取模块，被配置为获取被预先标注有所述对象的参考图像；以及

参考特征提取模块，被配置为从所述参考图像提取所述参考特征。

15.一种电子设备，包括：

一个或多个处理器；以及

存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如权利要求1-7中任一项所述的方法。

16.一种计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行时实现如权利要求1-7中任一项所述的方法。