CN109145752B

CN109145752B - 用于评估对象检测和跟踪算法的方法、装置、设备和介质

Info

Publication number: CN109145752B
Application number: CN201810814218.9A
Authority: CN
Inventors: 白校铭; 邹浔; 陈雪; 朱霞; 毛楠
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2018-07-23
Filing date: 2018-07-23
Publication date: 2022-07-01
Anticipated expiration: 2038-07-23
Also published as: CN109145752A

Abstract

根据本公开的示例实施例，提供了用于评估对象检测和跟踪算法的方法、装置、设备和介质。用于评估对象检测和跟踪算法的方法包括确定视频中的多个帧，多个帧中的每一个被预定的对象检测和跟踪算法确定为包含第一对象。该方法还包括基于第一对象的至少一个属性在多个帧中的多个属性值，从多个帧中选择目标帧。该方法进一步包括确定目标帧中的第一对象与对应于目标帧的参考帧中的参考对象之间的匹配程度，参考对象在参考帧中被预先标注。该方法又包括至少部分地基于匹配程度来评估对象检测和跟踪算法。以此方式，本公开的实施例不仅能够提高算法的评估效率，并且能够减少误差。

Description

用于评估对象检测和跟踪算法的方法、装置、设备和介质

技术领域

本公开的实施例总体涉及计算机领域，并且更具体地，涉及用于评估对象检测和跟踪算法的方法、装置、电子设备和计算机可读存储介质。

背景技术

随着计算机技术的发展，图像处理技术应用到越来越多的领域。对象识别，特别是人脸识别，也受到越来越多的关注。例如，人脸识别技术已经应用于安防和金融领域。

在基于视频的对象识别技术中，需要首先对视频中的对象进行检测和跟踪，以将目标对象与周围环境和其他对象区分出来。例如，在利用监控视频识别逃犯的场景中，需要先对视频中的人脸对象进行检测和跟踪，然后将所确定的人脸对象与参考库中的逃犯人脸进行对比。因此，对象的正确检测和跟踪是进行对象识别的基础。只有将视频中出现的对象正确且全部地检测出来才能进行后续的识别。一般而言，使用对象检测和跟踪算法来确定视频中的一个或多个对象，以用于后续的对象识别。因此，对象检测和跟踪算法的性能(诸如，检测率、漏检率等)是重要的。

发明内容

根据本公开的示例实施例，提供了一种用于评估对象检测和跟踪算法的方案。

在本公开的第一方面中，提供了一种的方法。该方法包括确定视频中的多个帧，多个帧中的每一个被预定的对象检测和跟踪算法确定为包含第一对象。该方法还包括基于第一对象的至少一个属性在多个帧中的多个属性值，从多个帧中选择目标帧。该方法进一步包括确定目标帧中的第一对象与对应于目标帧的参考帧中的参考对象之间的匹配程度，参考对象在参考帧中被预先标注。该方法又包括至少部分地基于匹配程度来评估对象检测和跟踪算法。

在本公开的第二方面中，提供了一种的装置。该装置包括第一帧确定模块，被配置为确定视频中的多个帧，多个帧中的每一个被预定的对象检测和跟踪算法确定为包含第一对象。该装置还包括帧选择模块，被配置为基于第一对象的至少一个属性在多个帧中的多个属性值，从多个帧中选择目标帧。该装置进一步包括第一匹配程度确定模块，被配置为确定目标帧中的第一对象与对应于目标帧的参考帧中的参考对象之间的匹配程度，参考对象在所述参考帧中被预先标注。该装置还包括第一算法评估模块，被配置为至少部分地基于匹配程度来评估对象检测和跟踪算法。

在本公开的第三方面中，提供了一种电子设备，包括一个或多个处理器；以及存储装置，用于存储一个或多个程序，当一个或多个程序被一个或多个处理器执行，使得一个或多个处理器实现根据本公开的第一方面的方法。

在本公开的第四方面中，提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现根据本公开的第一方面的方法。

应当理解，发明内容部分中所描述的内容并非旨在限定本公开的实施例的关键或重要特征，亦非用于限制本公开的范围。本公开的其它特征将通过以下的描述变得容易理解。

附图说明

结合附图并参考以下详细说明，本公开各实施例的上述和其他特征、优点及方面将变得更加明显。在附图中，相同或相似的附图标注表示相同或相似的元素，其中：

图1示出了本公开的实施例能够在其中实现的示例环境的示意图；

图2示出了根据本公开的实施例的评估对象检测和跟踪算法的过程的流程图；

图3示出了图示根据本公开的一些实施例的包含第一对象的多个帧的示意图；

图4示出了图示根据本公开的一些实施例的目标帧和参考帧的示意图；

图5示出了根据本公开的一些实施例的确定匹配程度的示意图；

图6示出了根据本公开的实施例的用于评估对象检测和跟踪算法的装置的示意性框图；以及

图7示出了能够实施本公开的多个实施例的计算设备的框图。

具体实施方式

下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例，然而应当理解的是，本公开可以通过各种形式来实现，而且不应该被解释为限于这里阐述的实施例，相反提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是，本公开的附图及实施例仅用于示例性作用，并非用于限制本公开的保护范围。

在本公开的实施例的描述中，术语“包括”及其类似用语应当理解为开放性包含，即“包括但不限于”。术语“基于”应当理解为“至少部分地基于”。术语“一个实施例”或“该实施例”应当理解为“至少一个实施例”。术语“第一”、“第二”等等可以指代不同的或相同的对象。下文还可能包括其他明确的和隐含的定义。

如前文所提及的，对象检测和跟踪算法能否正确和完整地确定视频中的对象对于后续的对象识别是重要的。因此，需要评估对象检测和跟踪算法，以验证算法的准确性或帮助改进算法。

传统上，采用人工方法来验证视频中的对象是否被对象检测和跟踪算法得到，从而评估该算法。这种对视频中的对象进行检测和跟踪的过程又可以称为抓拍。通常先人工统计出视频中出现的对象的数目，再由人工辨别对象检测和跟踪算法的结果(为了便于讨论，在本文中又称为算法结果)，并去除重复抓拍的对象。最后将去重的算法结果与人工统计的对象数目进行比较，以确定对象检测和跟踪算法正确抓拍到的对象的比例。这种实现涉及大量人工劳动，因而耗时长、效率低。此外，人工辨别的主观因素较大，导致评估结果存在较大偏差。

根据本公开的实施例，提出了一种评估对象检测和跟踪算法的方案。在该方案中，通过将由对象检测和跟踪算法获取的目标对象的信息与预先标注的参考对象的信息进行比较来评估对象检测和跟踪算法。具体地，可以先确定视频中包含目标对象的多个帧并从多个帧中选择目标帧。然后确定目标帧中的目标对象与对应的参考帧中的参考对象的匹配程度，并且至少基于确定的匹配程度来评估对象检测和跟踪算法。以此方式，可以实现对象检测和跟踪算法的高效和客观评估。因此，本公开的方案不仅能够提高算法的评估效率，并且能够减少误差。

以下将参考图1到图7来具体描述本公开的实施例。

图1示出了本公开的实施例能够在其中实现的示例环境100的示意图。在该示例环境100中，由计算设备102生成针对对象检测和跟踪算法104(在本文中也简称为算法104)的评估结果103。应当理解，图1中示出的环境仅是示例性的，还可以使用多个计算设备来生成评估结果103。

视频105包含至少一个待检测的对象。视频105可以是为了评估算法104的目的而拍摄的视频，也可以是在算法104将要应用的场景实地采集的视频。例如，视频105可以是在地铁站、机场、银行等处利用已安装摄像头采集的。本公开的实施例在此方面不受限制。

对象检测和评估算法104用于对视频105中出现的对象进行检测和跟踪，以确定视频105中出现的对象。具体而言，算法104可以检测每帧中出现的对象，将不同帧中出现的同一对象相关联，以获得该对象在视频105中的跟踪序列。算法104可以是已完成开发或正在开发中的算法。利用对象检测和跟踪算法104对视频105进行处理，获得算法结果106。

算法结果106至少包括针对第一对象101的输出。例如，算法结果106可以包括多个帧110、120、130和140，这些帧均包括第一对象101。算法结果106还可以包括第一对象101在这些帧中的信息。此外，算法结果106可以进一步包括针对视频105中的其他对象的输出。计算设备102可以从多个帧110、120、130和140选择一个帧作为目标帧，例如帧120。

参考库107包括经预先标注的帧的集合108，这些经预先标注的帧是对视频105进行预处理而获得的。在预处理过程中，对视频105 的各个帧中出现的对象进行标注以将其作为参考对象，例如参考对象 111。应当注意，虽然图1中仅示出一个参考对象111，但是还可以包括多个参考对象。对视频105进行预先标注旨在将视频105的各个帧中出现的对象标注出来作为参考对象。集合108中的帧还包括对其中的参考对象的预先标注信息。计算设备102可以从集合108中选择与目标帧120对应的参考帧121。

计算设备102可以基于目标帧120和参考帧121及其中包含的信息来确定第一对象101与参考对象121的匹配程度，从而生成对算法 104的评估结果103。评估结果103可以指示算法104的准确率。在本文中，术语“准确率”用于指示对象检测和跟踪算法正确地检测和跟踪视频中的对象的概率。准确率例如可以包括召回率、检测率等。

应当理解，图1中示出的帧的数目和对象的数目仅是示例性的，算法结果106和集合108可以包括更多或更少的帧并且可以包括更多或更少的对象。还应当理解，根据对象检测和跟踪算法104所应用的对象的不同，视频105中包含的对象可以具有多种类型。例如，对象可以包括人脸、动物、物体(诸如，汽车、水杯等)。在一些情况下，对象也可以是多种类型的，例如既包括人脸又包括动物。

为了更清楚地理解本公开的实施例所提供的评估对象检测和跟踪算法的方案，将参照图2来详细描述。图2示出了根据本公开的实施例的评估对象检测和跟踪算法的过程200的流程图。过程200可以由图1的计算设备102来实现。为便于讨论，将结合图1来描述过程 200。

在210，计算设备102确定视频105中的多个帧110、120、130 和140，多个帧110、120、130和140中的每一个被预定的对象检测和跟踪算法104确定为包含第一对象101。具体地，计算设备102从由对象检测和跟踪算法104获取的算法结果106中确定包含第一对象101的多个帧110、120、130和140。这些帧形成第一对象101在视频105中的序列。

参考图3，其示出了根据本公开的一些实施例的包含第一对象101 的多个帧110、120、130、140的示意图300。图3所示可以被视为图 1中所示的多个帧110、120、130、140的具体示例。如图3所示，除第一对象101之外，该多个帧还可以包括其他对象，诸如对象302、303、304和305。这些其他对象可以出现在多个帧110、120、130、 140中的部分帧中，例如，对象305出现在帧120、130、140中。应当理解，在图3中将对象图示为人脸仅仅是示例性的，而无意限制本公开的范围。

经由算法104处理的多个帧110、120、130和140中的每一个还可以包括由算法104获取的关于第一对象101的检测信息。在一些实施例中，检测信息可以包括用于标识第一对象101在帧中的位置的信息。例如，这样的检测信息可以包括对象框。图3中的对象框311、321、331、341用于标识第一对象101在相应的帧中的位置(例如坐标)、面积、像素数目等。应当理解，尽管未被示出，但是各个帧中还可以包括关于其他对象(诸如，对象302-305)的检测信息。备选地或附加地，检测信息可以包括描述第一对象101的特征的信息，诸如描述第一对象101的面部特征、行为特征、穿戴特征、轮廓特征中的至少一项的信息。下文将对此进行详细描述。

继续参考图2，在220，计算设备102基于第一对象101的至少一个属性在多个帧110、120、130和140中的多个属性值，从多个帧 110、120、130和140中选择目标帧。第一对象101的至少一个属性可以用于指示第一对象101的基本性质或整体性质。通过这种方式选择目标帧，可以统一目标帧的选择标准，以尽可能避免主观因素的影响。

在一些实施例中，计算设备102还可以获取第一对象101的至少一个属性，该至少一个属性可以包括第一对象101的大小、姿态和亮度中的至少一项。大小可以指示第一对象101在相应的帧中所占的面积或面积比。姿态可以指示第一对象101在相应的帧中所处的状态，例如俯仰角、偏转角。亮度可以指示由于拍摄时的不同光线条件第一对象101在相应的帧中所展示的明暗度。

以图3为例，大小可以指示第一对象101在帧110、120、130、 140中的每一个中所占的面积(例如，相应的对象框的面积)。姿态可以指示第一对象101在帧110、120、130、140中的每一个中是正脸还是侧脸，或者是仰头还是低头。这样的姿态属性可以由三维空间中的角度值来表示。另外，由于第一对象101在视频105中通常处于移动状态，因此其在不同帧中所处的光线条件可能不同。在这种情况下，可以考虑第一对象101在帧110、120、130、140中的每一个中的亮度。

在一些实施例中，可以结合这些属性来选择目标帧。在其他的一些实施例中，也可以仅基于其中的一项来选择目标帧。举例而言，对于图3中所示的第一对象101，可以结合人脸的大小、是否为正脸以及亮度的值来选择目标帧。例如，可以将大小、姿态和亮度因素相结合，确定最优帧标准，以从帧110、120、130、140中选择最优帧作为目标帧。替代地，也可以仅考虑例如亮度属性，例如可以选择其中第一对象101的亮度适中的帧作为目标帧。为了便于讨论，假设计算设备102在220将帧120确定为目标帧。

继续参考图2，在230，计算设备102确定目标帧120中的第一对象101与对应于目标帧120的参考帧121中的参考对象之间的匹配程度，参考对象在参考帧121中被预先标注。在选择目标帧120之后，计算设备102可以基于目标帧120在参考库107中选择对应的参考帧121。

具体而言，计算设备102首先确定目标帧120在视频105中的时间位置，即，确定目标帧120是视频105的第几帧。然后计算设备102 可以检索参考库107或者以其他方式选择参考帧121，参考帧121在视频105中处于与目标帧120相同的时间位置。换言之，参考帧121与目标帧120中的图像是一致的。

参考图4，其示出了图示根据本公开的一些实施例的目标帧120 和参考帧121的示意图400。在图4中，参考帧121包括参考对象111 和参考对象402-405。应当理解，虽然参考帧121与目标帧120中的图像是一致的，但是对应的对象使用不同的附图标记来区分。

与上文参考图3所提及的类似，参考帧121可以相应地包括关于参考对象111和402-405的预先标注信息。预先标注信息可以包括用于标识参考对象111和402-405在参考帧121中的位置的信息，诸如预先标注框421-425。备选地或附加地，预先标注信息可以包括描述参考对象111和402-405的特征的信息，诸如描述参考对象111和 402-405的面部特征、行为特征、穿戴特征、轮廓特征中的至少一项的信息。

在确定参考帧121并获取参考对象111和402-405的预先标注信息之后，计算设备102可以确定第一对象101与参考对象111和 402-405的匹配程度430。具体而言，计算设备103可以确定第一对象102是否与参考对象111和402-405中的一个参考对象匹配。例如，在图4的示例中，计算设备102可能确定第一对象101与参考对象111 匹配。在其他的一些情况下，计算设备102也可能确定第一对象101 与参考对象111和402-405中的任何一个都不匹配(这可能是由于算法104不够完善导致检测信息不准确而引起的)。确定匹配程度430 可以基于目标帧120中包含的检测信息和参考帧121中包含的预先标注信息。下文还将参考图5详细描述确定匹配程度430的过程。

继续参考图2，在240，计算设备102至少部分地基于在230确定的匹配程度430来评估对象检测和跟踪算法104。例如，计算设备 103可以输出评估结果103，其可以包括算法104的准确率。。

在一些实施例中，可以预先定义针对算法104的基准准确率。如果在230确定第一对象101与参考对象111相匹配，则可以增加(诸如，递增)基准准确率。如果在230确定第一对象101与参考对象111 不匹配，则可以减小(诸如，递减)基准准确率。在这样的实施例中，还可以确定由算法104检测到的其他对象是否与预先标注的参考对象中的一个参考对象匹配，然后可以基于匹配程度430来增加或减小基准准确率。在对一定数目的其他对象(例如，算法104所检测到的所有对象)进行类似的操作后，可以确定算法的准确率。

在一些实施例中，可以将包括第一对象101在内的多个对象与参考对象的匹配程度进行平均，以评估算法104。在一些实施例中，可以直接将第一对象101与参考对象111的匹配程度430作为用于评估算法104的参数。

如以上参考图2所描述的，本公开的实施例可以用于评估针对视频的对象检测和跟踪算法。以此方式，可以制定评估算法的一致标准，从而减少人工方案中主观因素的影响。同时，本公开的方案还可以节省人力，提高算法的评估效率。

如上文所提及的，可以基于目标帧120中的检测信息和参考帧 121中的预先标注信息来确定第一对象101与参考对象111的匹配程度430。以下来具体描述这一过程。接下来参考图5，其示出了根据本公开的一些实施例的确定匹配程度430的示意图500。结合图5所描述的过程可以被视为图2中的框230的具体实现。

如上文参考图3所提及的，检测信息可以包括用于标识第一对象 101在目标帧120中的位置的信息，例如对象框321。相应地，参考帧121中的预先标注信息也可以包括用于标识参考对象111和 402-405中的每一个在参考帧121中的位置的信息，例如参考框 421-425。这样的位置信息可以例如由对象框321或参考框421的多个顶点的坐标或像素值指示，也可以由顶点的坐标和框的边长来指示。

计算设备102可以从例如检测信息中获取由对象检测和跟踪算法 104所确定的第一对象101在目标帧120中的检测位置，如对象框321。计算设备102然后确定参考对象111在参考帧121中的参考位置，如参考框421。然后，计算设备102基于对象框321和参考框421确定两者的重叠面积501。基于该重叠面积501以及对象框321和参考框 421的面积，确定面积重叠比(即，确定交并比)。

如果所确定的面积重叠比超过阈值比例(例如50％或80％)，则计算设备102可以确定第一对象101与参考对象111相匹配。如果所确定的面积重叠比低于阈值比例，则计算设备102可以确定第一对象 101与参考对象111不匹配。应当理解，以上关于阈值比例仅是示例性的，而无意限制本公开的范围。

在一些实施例中，可以直接使用所确定的面积重叠比在240评估对象检测和跟踪算法104。例如，该面积重叠比越接近100％，可以指示算法104的准确率越高。

在这样的实施例中，通过面积重叠比可以简单且快捷地确定第一对象101与参考对象111是否匹配。以这种方式，可以提高评估对象检测和跟踪算法的效率。

在一些实施例中，如上文所提交的，检测信息可以包括描述第一对象101的特征的信息，特征可以包括面部特征、行为特征、穿戴特征、轮廓特征中的至少一项。相应地，预先标注信息可以包括描述参考对象111的对应特征的信息。

举例而言，与特征有关的检测信息可以包括关于第一对象101的眼、鼻、口等五官的信息、关于第一对象101是否戴眼镜的信息、以及关于第一对象101的脸型的信息等。当检测对象为整个人而不是仅仅检测脸部时，还可以包括关于第一对象101的行为特征的信息，诸如第一对象101处于站姿、坐姿、平卧或运动中等等。因此，在这样的实施例中，可以利用特征的相似性来确定匹配程度430。

具体地，计算设备102可以利用本领域已知的方法从目标帧120 中提取第一对象101的特征(诸如，眼睛特征或是否佩戴眼镜)，并从参考帧121中提取参考对象111的对应特征。然后，计算设备102 可以确定这两个特征的相似度。确定相似度可以使用本领域中已知的方法，例如计算余弦相似度、皮尔森相关系数等。

如果所确定的相似度超过阈值相似度，则计算设备102可以确定第一对象101与参考对象111相匹配；如果所确定的相似度低于阈值相似度，则计算设备102可以确定第一对象101与参考对象111不匹配。在确定第一对象101与参考对象111是否匹配之后，可以如上文参考图2所描述的那样来评估算法104。

在这样的实施例中，通过特征比对的方式可以更为准确地确定第一对象101与参考对象111是否匹配。以这种方式，可以提高本公开的评估对象检测和跟踪算法的评估精确性。

以上描述了确定第一对象101是否与预先标注的参考对象匹配的实施例。在一些实施例中，还可以针对视频105中的其他对象(诸如，图3中所示的第二对象305)执行与图2所示的过程200类似的过程。

具体地，计算设备102可以利用与上文参考框220描述的方法类似的方法来确定视频105中包含第二对象305的另一目标帧，例如另一目标帧为图3中的帧130。计算设备102接下来可以从参考库107 中选择与另一目标帧130相对应的另一参考帧(未示出)。然后，计算设备102可以如上文所描述的那样确定第二对象305与另一参考帧中的(一个或多个)另一参考对象之间的另一匹配程度。

在这样的实施例中，计算设备102可以基于针对第一对象101确定的匹配程度430和该另一匹配程度来评估对象检测和跟踪算法 104。例如，如果第二对象305与另一参考对象相匹配，则可以增加算法104的准确率；如果第二对象305与另一参考对象不匹配，则可以增加算法104的准确率。又如，在上述确定面积重叠比的实施例中，可以将针对第一对象101和第二对象305确定的面积重叠比平均，以评估算法104。

在一些实施例中，可以针对算法104所检测到的每个对象执行与过程200类似的过程，以确定所检测的对象是否与预先标注的参考对象匹配。举例而言，基于预先标注确定视频105中存在5个待检测对象，并且确定算法104所检测到的对象中有4个对象与预先标注的参考对象匹配，则可以确定算法104的检测率为80％。应当理解，以上对象数目和百分比数目仅是示例性的，而无意限制本公开的范围。

在这样的实施例中，由于对算法104的评估基于更多的对象的匹配程度，因此可以更全面、准确地评估算法104。

在一些实施例中，还可以对视频105进行预处理，以标注视频105 的帧中的参考对象。例如，可以利用已经过验证的对象检测和跟踪算法来处理视频105，并且将该算法所检测到的视频105中的对象作为参考对象。还可以使用待评估的对象检测和跟踪算法104来处理视频 105，然后由人工对其检测结果进行校正，以确定参考对象。

图6示出了根据本公开实施例的用于评估对象检测和跟踪算法的装置600的示意性框图。装置600可以被包括在图1的计算设备102 中或者被实现为计算设备102。如图6所示，装置600包括第一帧确定模块610，被配置为确定视频中的多个帧，多个帧中的每一个被预定的对象检测和跟踪算法确定为包含第一对象。装置600还包括帧选择模块620，被配置为基于第一对象的至少一个属性在多个帧中的多个属性值，从多个帧中选择目标帧。装置600进一步包括第一匹配程度确定模块630，被配置为确定目标帧中的第一对象与对应于目标帧的参考帧中的参考对象之间的匹配程度，参考对象在所述参考帧中被预先标注。装置600还包括第一算法评估模块640，被配置为至少部分地基于匹配程度来评估对象检测和跟踪算法。

在一些实施例中，第一匹配程度确定模块630包括：检测位置获取模块，被配置为获取由对象检测和跟踪算法所确定的第一对象在目标帧中的检测位置；参考位置确定模块，被配置为确定参考对象在参考帧中的参考位置；重叠比确定模块，被配置为基于检测位置和参考位置，确定第一对象与参考对象的面积重叠比；第一匹配确定模块，被配置为响应于面积重叠比超过阈值比例，确定第一对象与参考对象相匹配；以及第二匹配确定模块，被配置为响应于面积重叠比低于阈值比例，确定第一对象与参考对象不匹配。

在一些实施例中，第一匹配程度确定模块630包括：相似度确定模块，被配置为确定第一对象在目标帧中的特征与参考对象的对应特征的相似度，特征包括对象的面部特征、行为特征、穿戴特征、轮廓特征中的至少一项；第三匹配确定模块，被配置为响应于相似度超过阈值相似度，确定第一对象与参考对象相匹配；以及第四匹配确定模块，被配置为响应于相似度低于阈值相似度，确定第一对象与参考对象不匹配。

在一些实施例中，装置600还包括属性获取模块，其被配置为获取第一对象的至少一个属性，至少一个属性包括第一对象的大小、姿态和亮度中的至少一项。

在一些实施例中，第一算法评估模块640包括：第二帧确定模块，被配置为确定视频中的包含第二对象的另一目标帧；第二匹配程度确定模块，被配置为确定另一目标帧中的第二对象与对应于另一目标帧的另一参考帧中的、被预先标注的另一参考对象之间的另一匹配程度；以及第二算法评估模块，被配置为基于匹配程度和另一匹配程度来评估对象检测和跟踪算法。

在一些实施例中，第一算法评估模块640包括：准确率增加模块，被配置为响应于第一对象与参考对象相匹配，增加对象检测和跟踪算法正确地检测和跟踪视频中的对象的准确率；以及准确率减小模块，被配置为响应于第一对象与参考对象不匹配，减小对象检测和跟踪算法的准确率。

在一些实施例中，装置600还包括：视频预处理模块，被配置为对所述视频进行预处理，以标注所述视频的帧中的参考对象。

图7示出了可以用来实施本公开的实施例的示例设备700的示意性框图。设备700可以用于实现图1的计算设备102。如图所示，设备700包括中央处理单元(CPU)701，其可以根据存储在只读存储器(ROM)702中的计算机程序指令或者从存储单元708加载到随机访问存储器(RAM)703中的计算机程序指令，来执行各种适当的动作和处理。在RAM 703中，还可存储设备700操作所需的各种程序和数据。CPU 701、ROM 702以及RAM 703通过总线704彼此相连。输入/输出(I/O)接口705也连接至总线704。

设备700中的多个部件连接至I/O接口705，包括：输入单元706，例如键盘、鼠标等；输出单元707，例如各种类型的显示器、扬声器等；存储单元708，例如磁盘、光盘等；以及通信单元709，例如网卡、调制解调器、无线通信收发机等。通信单元709允许设备700通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/ 数据。

处理单元701执行上文所描述的各个方法和处理，例如过程200。例如，在一些实施例中，过程200可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元708。在一些实施例中，计算机程序的部分或者全部可以经由ROM 702和/或通信单元709而被载入和/或安装到设备700上。当计算机程序加载到RAM 703并由 CPU 701执行时，可以执行上文描述的过程200的一个或多个步骤。备选地，在其他实施例中，CPU 701可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行过程200。

本文中以上描述的功能可以至少部分地由一个或多个硬件逻辑部件来执行。例如，非限制性地，可以使用的示范类型的硬件逻辑部件包括：场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)等等。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

此外，虽然采用特定次序描绘了各操作，但是这应当理解为要求这样操作以所示出的特定次序或以顺序次序执行，或者要求所有图示的操作应被执行以取得期望的结果。在一定环境下，多任务和并行处理可能是有利的。同样地，虽然在上面论述中包含了若干具体实现细节，但是这些不应当被解释为对本公开的范围的限制。在单独的实施例的上下文中描述的某些特征还可以组合地实现在单个实现中。相反地，在单个实现的上下文中描述的各种特征也可以单独地或以任何合适的子组合的方式实现在多个实现中。

尽管已经采用特定于结构特征和/或方法逻辑动作的语言描述了本主题，但是应当理解所附权利要求书中所限定的主题未必局限于上面描述的特定特征或动作。相反，上面所描述的特定特征和动作仅仅是实现权利要求书的示例形式。

Claims

1.一种评估对象检测和跟踪算法的方法，包括：

利用已经过验证的对象检测和跟踪算法来对视频进行预处理，以标注所述视频的帧中的参考对象；

确定所述视频中的多个帧，所述多个帧中的每一个被预定的对象检测和跟踪算法确定为包含第一对象；

基于所述第一对象的至少一个属性在所述多个帧中的多个属性值，从所述多个帧中选择目标帧；

基于由所述预定的对象检测和跟踪算法获取的关于所述第一对象的检测信息和关于参考帧中的参考对象的预先标注信息，确定所述目标帧中的所述第一对象与所述参考对象之间的匹配程度，所述参考对象在所述参考帧中被预先标注，所述参考帧对应于所述目标帧，并且与所述目标帧图像一致；以及

至少部分地基于所述匹配程度来评估所述预定的对象检测和跟踪算法正确地检测和跟踪所述视频中的对象的准确率。

2.根据权利要求1所述的方法，其中确定所述匹配程度包括：

基于所述检测信息，确定由所述预定的对象检测和跟踪算法所确定的所述第一对象在所述目标帧中的检测位置；

基于所述预先标注信息，确定所述参考对象在所述参考帧中的参考位置；

基于所述检测位置和所述参考位置，确定所述第一对象与所述参考对象的面积重叠比；

响应于所述面积重叠比超过阈值比例，确定所述第一对象与所述参考对象相匹配；以及

响应于所述面积重叠比低于所述阈值比例，确定所述第一对象与所述参考对象不匹配。

3.根据权利要求1所述的方法，其中确定所述匹配程度包括：

基于所述检测信息和所述预先标注信息，确定所述第一对象在所述目标帧中的特征与所述参考对象的对应特征的相似度，所述特征包括对象的面部特征、行为特征、穿戴特征、轮廓特征中的至少一项；

响应于所述相似度超过阈值相似度，确定所述第一对象与所述参考对象相匹配；以及

响应于所述相似度低于所述阈值相似度，确定所述第一对象与所述参考对象不匹配。

4.根据权利要求1所述的方法，还包括：

获取所述第一对象的所述至少一个属性，所述至少一个属性包括所述第一对象的大小、姿态和亮度中的至少一项。

5.根据权利要求1所述的方法，其中评估所述预定的对象检测和跟踪算法的所述准确率包括：

确定所述视频中的包含第二对象的另一目标帧；

确定所述另一目标帧中的所述第二对象与对应于所述另一目标帧的另一参考帧中的、被预先标注的另一参考对象之间的另一匹配程度；以及

基于所述匹配程度和所述另一匹配程度来评估所述预定的对象检测和跟踪算法的所述准确率。

6.根据权利要求1所述的方法，其中评估所述预定的对象检测和跟踪算法的所述准确率包括：

响应于所述第一对象与所述参考对象相匹配，增加所述准确率；以及

响应于所述第一对象与所述参考对象不匹配，减小所述准确率。

7.一种用于评估对象检测和跟踪算法的装置，包括：

视频预处理模块，被配置为利用已经过验证的对象检测和跟踪算法来对视频进行预处理，以标注所述视频的帧中的参考对象；

第一帧确定模块，被配置为确定所述视频中的多个帧，所述多个帧中的每一个被预定的对象检测和跟踪算法确定为包含第一对象；

帧选择模块，被配置为基于所述第一对象的至少一个属性在所述多个帧中的多个属性值，从所述多个帧中选择目标帧；

第一匹配程度确定模块，被配置为基于由所述预定的对象检测和跟踪算法获取的关于所述第一对象的检测信息和关于参考帧中的参考对象的预先标注信息，确定所述目标帧中的所述第一对象与所述参考对象之间的匹配程度，所述参考对象在所述参考帧中被预先标注，所述参考帧对应于所述目标帧，并且与所述目标帧图像一致；以及

第一算法评估模块，被配置为至少部分地基于所述匹配程度来评估所述预定的对象检测和跟踪算法正确地检测和跟踪所述视频中的对象的准确率。

8.根据权利要求7所述的装置，其中所述第一匹配程度确定模块包括：

检测位置获取模块，被配置为基于所述检测信息，确定由所述预定的对象检测和跟踪算法所确定的所述第一对象在所述目标帧中的检测位置；

参考位置确定模块，被配置为基于所述预先标注信息，确定所述参考对象在所述参考帧中的参考位置；

重叠比确定模块，被配置为基于所述检测位置和所述参考位置，确定所述第一对象与所述参考对象的面积重叠比；

第一匹配确定模块，被配置为响应于所述面积重叠比超过阈值比例，确定所述第一对象与所述参考对象相匹配；以及

第二匹配确定模块，被配置为响应于所述面积重叠比低于所述阈值比例，确定所述第一对象与所述参考对象不匹配。

9.根据权利要求7所述的装置，其中所述第一匹配程度确定模块包括：

相似度确定模块，被配置为基于所述检测信息和所述预先标注信息，确定所述第一对象在所述目标帧中的特征与所述参考对象的对应特征的相似度，所述特征包括对象的面部特征、行为特征、穿戴特征、轮廓特征中的至少一项；

第三匹配确定模块，被配置为响应于所述相似度超过阈值相似度，确定所述第一对象与所述参考对象相匹配；以及

第四匹配确定模块，被配置为响应于所述相似度低于所述阈值相似度，确定所述第一对象与所述参考对象不匹配。

10.根据权利要求7所述的装置，还包括：

属性获取模块，被配置为获取所述第一对象的所述至少一个属性，所述至少一个属性包括所述第一对象的大小、姿态和亮度中的至少一项。

11.根据权利要求7所述的装置，其中所述第一算法评估模块包括：

第二帧确定模块，被配置为确定所述视频中的包含第二对象的另一目标帧；

第二匹配程度确定模块，被配置为确定所述另一目标帧中的所述第二对象与对应于所述另一目标帧的另一参考帧中的、被预先标注的另一参考对象之间的另一匹配程度；以及

第二算法评估模块，被配置为基于所述匹配程度和所述另一匹配程度来评估所述预定的对象检测和跟踪算法的所述准确率。

12.根据权利要求7所述的装置，其中所述第一算法评估模块包括：

准确率增加模块，被配置为响应于所述第一对象与所述参考对象相匹配，增加所述准确率；以及

准确率减小模块，被配置为响应于所述第一对象与所述参考对象不匹配，减小所述准确率。

13.一种电子设备，包括：

一个或多个处理器；以及

存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-6中任一项所述的方法。

14.一种计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行时实现如权利要求1-6中任一项所述的方法。