CN110728229A

CN110728229A - 图像处理方法、装置、设备和存储介质

Info

Publication number: CN110728229A
Application number: CN201910955880.0A
Authority: CN
Inventors: 刘博�
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2019-10-09
Filing date: 2019-10-09
Publication date: 2020-01-24
Anticipated expiration: 2039-10-09
Also published as: CN110728229B

Abstract

根据本公开的示例实施例，提供了图像处理方法、装置、设备和计算机可读存储介质，可用于自动驾驶领域。图像处理方法包括基于检测模型，确定图像中的至少一个候选对象。方法还包括从至少一个候选对象中确定至少部分地位于图像的背景区域中的可运动对象。方法进一步包括基于可运动对象和分类模型，确定检测模型的检测性能。以此方式，能够有利地实时监测检测模型对不可运动对象的错误检测，并且避免了常规方案中改进检测效果所需的长周期。

Description

图像处理方法、装置、设备和存储介质

技术领域

本公开的实施例主要涉及图像处理领域，可用于自动驾驶，并且更具体地，涉及图像处理方法、装置、设备和计算机可读存储介质。

背景技术

随着计算机和互联网的发展，越来越多的场景中需要对图像或视频中的对象进行检测。例如，在车联网(V2X)场景中，需要对路侧设备拍摄的图像进行目标检测，来为车辆提供各种信息。在使用检测模型进行目标检测的过程中，可能出现不可运动物体(例如，树木，花草，路牌，锥桶等)被错误地检测为可运动物体(车辆，行人等)的情况。

发明内容

根据本公开的示例实施例，提供了一种图像处理方案。

在本公开的第一方面中，提供了一种图像处理方法。该方法包括基于检测模型，确定图像中的至少一个候选对象。该方法还包括从至少一个候选对象中确定至少部分地位于图像的背景区域中的可运动对象。该方法进一步包括基于可运动对象和分类模型，确定检测模型的检测性能。

在本公开的第二方面中，提供了一种图像处理装置。该装置包括对象确定模块，被配置为基于检测模型，确定图像中的至少一个候选对象。该装置还包括对象选择模块，被配置为从至少一个候选对象中确定至少部分地位于图像的背景区域中的可运动对象。该装置进一步包括性能确定模块，被配置为基于可运动对象和分类模型，确定检测模型的检测性能。

在本公开的第三方面中，提供了一种电子设备，包括一个或多个处理器；以及存储装置，用于存储一个或多个程序，当一个或多个程序被一个或多个处理器执行，使得一个或多个处理器实现根据本公开的第一方面的方法。

在本公开的第四方面中，提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现根据本公开的第一方面的方法。

应当理解，发明内容部分中所描述的内容并非旨在限定本公开的实施例的关键或重要特征，亦非用于限制本公开的范围。本公开的其它特征将通过以下的描述变得容易理解。

附图说明

结合附图并参考以下详细说明，本公开各实施例的上述和其他特征、优点及方面将变得更加明显。在附图中，相同或相似的附图标注表示相同或相似的元素，其中：

图1示出了本公开的多个实施例能够在其中实现的示例环境的示意图；

图2示出了根据本公开的一些实施例的处理图像的过程的流程图；

图3示出了根据本公开的一些实施例的确定潜在误检对象的示意图；

图4示出了根据本公开的一些实施例的确定检测性能的过程的流程图；

图5示出了根据本公开的一些实施例的图像处理装置的示意性框图；以及

图6示出了能够实施本公开的多个实施例的计算设备的框图。

具体实施方式

下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例，然而应当理解的是，本公开可以通过各种形式来实现，而且不应该被解释为限于这里阐述的实施例，相反提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是，本公开的附图及实施例仅用于示例性作用，并非用于限制本公开的保护范围。

在本公开的实施例的描述中，术语“包括”及其类似用语应当理解为开放性包含，即“包括但不限于”。术语“基于”应当理解为“至少部分地基于”。术语“一个实施例”或“该实施例”应当理解为“至少一个实施例”。术语“第一”、“第二”等等可以指代不同的或相同的对象。下文还可能包括其他明确的和隐含的定义。

在本公开的实施例的描述中，术语“模型”可以从训练数据中学习到相应的输入与输出之间的关联，从而在训练完成后基于训练得到的参数集对给定的输入进行处理以生成对应的输出。“模型”有时也可以被称为“神经网络”、“学习模型”、“学习网络”或“网络”。这些术语在本文中可互换地使用。

如上文所提及的，在使用检测模型对图像(例如，视频的帧)进行目标检测的过程中，可能出现不可运动物体被错误地检测为可运动物体的情况。在这种情况下，被误检的物体通常具有较高的置信度，因而难以通过阈值进行过滤。另外，这种情况对于检测模型的检测性能也有较大的影响。因为这类物体(诸如，被误检为行人的配电柜)将被稳定地错误输出，严重降低检测模型的表现。除非对检测模型进行更新或替代，否则无法解决消除被误检的物体所产生的影响。

传统上，存在两种解决方案。第一种方案是收集包含误检实例(又称为难例样本)的图像来重新训练检测模型，使用更新的、误检率更低的检测模型来替代先前的检测模型。这种方案涉及两个方面。一个方面是数据即难例样本的收集，这仅能通过人工观察的方式；另一方面是需要新的数据对先前的检测模型进行微调。

这种传统方案首先需要收集数据，然而，在检测模型实际使用的过程中，并没有标签，因此需要人工对当前的检测模型结果进行评价，找出在当前检测结果出现误检的情况，并人工收集这样的难例样本，这加大了解决该问题的工作量。另外，在这种方案中，需要使用新的数据对原始检测模型进行微调，一方面新训练的检测模型对于原本出现的误检问题是否有改善需要建立相应的评测集进行检验；另一方面这种方式耗费的时间更长，即误检的纠错周期更长。

第二种传统解决方案并不对已有检测模型进行微调，而是直接采用其他的(例如，更加先进的)网络结构或者检测流程，来创建新的检测模型以获得更好的检测结果。这种传统解决方案的纠错周期更长，并且无法预期时间消耗和性能提升程度。

可见传统的解决方案均需要耗费较长的纠错周期，并且无法对被误检的物体进行实时监测和纠正。因此，需要寻求解决方案来实时地标识检测模型的误检结果，并从而进行纠正。

根据本公开的实施例，提出了一种图像处理方案。在该方案中，首先确定检测模型对图像中的对象的潜在错误检测，例如被检测为出现在图像的背景区域中的可运动对象是潜在被误检的对象。然后，将与潜在被误检的对象有关的信息应用到分类模型，基于分类模型的分类结果来确定检测模型的检测性能，例如确定该潜在被误检的对象是否实际上被误检。以此方式，能够实时发现检测模型对图像中的不可运动对象的错误检测。因此，本公开的方案能够有利地实时监测并且从而纠正检测模型对不可运动对象的错误检测，并且避免了常规方案中改进检测效果所需的长周期。

以下将参照附图来具体描述本公开的实施例。

图1示出了本公开的多个实施例能够在其中实现的示例环境100的示意图。在该示例环境100中，由计算设备102处理图像110。计算设备102可以利用检测模型103(例如，经训练的2D检测模型)来检测图像110中的一个或多个对象。计算设备102还可以利用分类模型104来确定检测模型103的检测性能，例如，确定检测模型103对图像110中的对象的检测是否正确。应当理解，图1中示出的环境100仅是示例性的，还可以使用多个计算设备来处理图像110。

计算设备102可以是任何具有计算能力的设备。作为非限制性示例，计算设备102可以是任意类型的固定计算设备、移动计算设备或便携式计算设备，包括但不限于台式计算机、膝上型计算机、笔记本计算机、上网本计算机、平板计算机、多媒体计算机、移动电话等；计算设备102的全部组件或一部分组件可以分布在云端。

在图1的示例环境100中，图像110是视频101的帧。尽管未示出，但是应当理解，视频101还可以包括其他帧，并且可以对其他帧执行根据本公开的图像处理。仅作为一个示例，在诸如V2X的场景中，视频101可以是由现场设备(例如，路侧相机)采集的。视频101也可以是通过任何适当的方式获取的。

在图1的示例中，图像110中包括对象111-114，其中对象111被示出为路上行驶的车辆，对象112被示出为等待过马路的行人，对象113被示出为路侧的树木，以及对象114被示出为交通标识牌。在下文中，将图像110中所包括的这些元素统称为对象或者目标。这些对象包括可运动对象，例如被示出为车辆的对象111、被示出为行人的对象112，并且还包括不可运动对象，例如被示出为树木的对象113、被示出为标识牌的对象114。应当理解，图1中所示的图像110包括的对象的数目和类型仅是示例性的，而无意限制。图像110可以包括任何数目和类型的对象。另外，尽管未标记，但是道路及道路上的标示线也可以是待检测的对象。

检测模型103可以是能够对图像110进行对象或目标检测的任何模型，例如，2D目标检测模型。检测模型103可以确定图像110中的对象，包括对象在图像110中的位置和对象的类别。例如，检测模型103可以用检测框来表示对象的位置。检测模型103可以将所检测到的对象分成任何合适的类别，例如可以分类为人类、交通工具、植物、标识等。

分类模型104可以是能够确定所输入的对象或目标的类别的任何模型，例如，多分类器或二分类器。在一些实施例中，可以用相同的训练数据集来训练检测模型103和分类模型104。在一些实施例中，分类模型104可以采用与检测模型103相同的类别划分。例如，在检测模型103将目标或对象划分为人类、交通工具、植物、标识的情况下，分类模型104也可以将目标或对象划分为人类、交通工具、植物、标识。在一些实施例中，分类模型104也可以采用与检测模型103不同的类别划分，如下文将进一步描述的。

在本文中，为了便于讨论，将分类模型104所确定的对象类别称为第一类别，并且将检测模型103所确定的对象类别称为第二类别。应当理解，这无意任何限制。

检测模型103在对图像110进行目标检测时，可能将某个不可运动对象错误地检测为可运动对象。例如，检测模型103可能将对象113的类别标识为行人或其他可运动类型的对象。计算设备102可以利用分类模型104来确定是否存在这样的错误检测。

为了更清楚地理解本公开的实施例所提供的处理图像的方案，将参照图2来进一步描述本公开的实施例。图2示出了根据本公开的实施例的处理图像的过程200的流程图。过程200可以由图1的计算设备102实现。为便于讨论，将结合图1来描述过程200。

在框210，计算设备102基于检测模型103，确定图像110中的至少一个候选对象。确定至少一个候选对象包括确定该至少一个候选对象在图像110中的位置和类别(即，上文所提及的第二类别)。例如，计算设备102可以利用检测模型103对作为视频101的当前帧的图像110进行2D目标检测，例如，从而检测到候选对象111-114。可以用检测框来分别表示候选对象111-114在图像110中的位置。检测模型103还可以标识候选对象111-114的类别。

在框220，计算设备102从至少一个候选对象中确定至少部分地位于图像110的背景区域中的可运动对象。此处的术语“可运动对象”指的是由检测模型103检测为可运动的对象。举例而言，如果检测模型103将候选对象113的类别标识为行人，则候选对象113可以在此被认为是可运动对象。

为了确定候选对象中至少部分地位于背景区域中的可运动对象(其在本文中有时也可以被称为“潜在误检对象”)，计算设备102可以首先确定图像110的背景区域。在根据本公开的实施例中，计算设备102可以采用任何适合的方法来确定图像101的背景区域。

在一个示例中，计算设备102可以采用背景建模来确定图像110的背景区域。例如，计算设备102可以首先针对视频101的当前帧(即，图像110)更新背景模型，然后通过差分来获取图像110的运动前景和静止背景，从而确定图像101的背景区域。计算设备102可以采用各种背景建模方法，包括但不限于基于混合高斯的方法、基于码本的方法等。

现在参考图3，其示出了根据本公开的一些实施例的确定潜在误检对象的示意图300。图像310可以是由检测模型103处理的另一示例图像。在背景建模之后，计算设备102可以确定图像310的背景区域320和前景区域330。

应当理解，图3中所示的背景区域和前景区域的分布和划分仅是示例性的，而无意限制。确定图像110的背景区域的步骤可以在框210之前执行或者与框210并行执行等。本公开的范围在此方面不受限制。

计算设备102可以以多种方式确定检测模型103所检测到的至少部分地位于背景区域中的可运动对象。在一些实施例中，计算设备102可以从在框210处确定的至少一个候选对象中选择至少部分地位于背景区域中的候选对象。例如，可以选择检测框与背景区域的重合超过一定比例的候选对象。

计算设备102继而可以基于检测模型103对图像110的检测，确定所选择的候选对象是否可运动。例如，计算设备102可以基于检测模型103确定的候选对象的类别来确定该候选对象是否可运动。如果确定所选择的候选对象可运动，则计算设备102可以将所选择的候选对象确定为可运动对象。换言之，在这种情况下，计算设备102将所选择的候选对象确定为潜在误检对象。

下面参考图3来描述这样的一个示例。检测框311-313是检测模型103获取的候选对象的表示，其中检测框313完全位于背景区域320中，而检测框311和312与背景区域部分地重叠。计算设备102可以根据重叠程度的阈值来选择重叠程度超过阈值的检测框。例如，在图3的示例中，计算设备102可以选择检测框311和313，而不再考虑检测框312。接下来，计算设备102可以基于检测模型103的分类结果，确定检测框311和313所对应的类别是否是可运动的。如果检测框311所对应的类别是行人，则计算设备102可以认为检测框311所表示的候选对象是潜在误检对象；如果检测框313所对应的类别是植物，则计算设备102可以检测模型103对检测框313的检测是正确的，而无需再考虑检测框313。

在一些实施例中，计算设备102可以基于检测模型103对图像110的检测，从至少一个候选对象中选择可运动的候选对象。例如，计算设备102可以遍历检测模型103所检测出的所有检测框，并且查找出可运动的候选对象。计算设备102继而可以确定可运动的候选对象是否至少部分地位于背景区域中，例如，可以基于表示该可运动的候选对象的检测框与背景区域的重叠程度来确定。如果确定该可运动的候选对象至少部分地位于背景区域中，则计算设备102可以将该可运动的候选对象确定为可运动对象。换言之，在这种情况下，计算设备102将该所运动的候选对象确定为潜在误检对象。

继续参考图3来描述这样的一个示例。计算设备102可以遍历所检测到的所有检测框311-313，并且确定其中对应于可运动类别的检测框。例如，计算设备102可以确定检测框311和312对应于可运动类别，诸如分别是人类和交通工具类别。接下来，计算设备102可以确定检测框311和312与背景区域320的重叠程度。在图3的示例中，检测框311与背景区域320的重叠程度超过阈值，而检测框312与背景区域320的重叠程度小于阈值。在这种情况下，计算设备102将检测框311所标识的对象确定为潜在误检对象，并且认为检测模型103对检测框312的检测是正确的，而不再考虑框312。

在确定了潜在误检对象之后，过程200继续进行到框230。在框230，计算设备102基于在框220确定的可运动对象(即，潜在误检对象)和分类模型104，确定检测模型103的检测性能。例如，计算设备102可以利用分类模型104来判断检测模型103对潜在误检对象的检测是否正确，例如确定该潜在误检对象是否是可运动的。计算设备102还可以进一步评估检测模型103的总体性能，例如确定误检率等。

以上描述了根据本公开的图像处理的一个示例过程。根据本公开的图像处理方案的思想是：当类别为可运动的对象(例如，由检测框表示的对象)出现在图像的背景区域时，则该对象有可能是被误检的(因为运动物体没有运动而是静止的，而且出现在背景建模的背景区域中则是长期静止的)，因此需要另一辅助模型来判断这样的对象是不是可运动的；如果不是可运动的则出现了误检。基于此，所利用的分类模型可以是多分类模型(例如，判断对象或目标具体是行人，还是车辆，还是交通标志之类)，也可以是二分类模型(例如，判断对象或目标是可运动的还是不可运动的)，如下文将进一步描述的。

利用该辅助模型，可以更准确地判断检测模型103的检测性能(例如，是否发生误检)。以此方式，本公开的实施例能够有利地实时监测检测模型对不可运动对象的错误检测，并且避免了常规方案中改进检测效果所需的长周期。

图4示出了根据本公开的一些实施例的确定检测性能的过程400的流程图。过程400可以视为图2中框230的一个实现。在框410，计算设备102可以将与在框220确定的可运动对象有关的信息应用到分类模型104。例如，计算设备102可以将与潜在误检对象有关的信息输入到分类模型104。

与潜在误检对象有关的信息可以包括多种形式。在一些实施例中，计算设备102可以基于检测模型103，获取可运动对象(即，潜在误检对象)的特征表示，并且将该特征表示应用到分类模型104。在这样的实施例中，可以直接利用检测模型103所得到的潜在误检对象的特征，而无需进行额外的特征提取，因此可以提高效率。

继续上文关于图3的示例，在检测模型103包括神经网络的情况下，计算设备102可以将与检测框311相对应的特征图作为分类模型104的输入。该特征图可以是神经网络输出层之前的一层或多层。例如，可以将神经网络输出层之前的一层直接作为分类模型104的输入，还可以将输出层之前的两层或更多层进行组合作为分类模型104的输入。

在另一些实施例中，可以直接利用初始的图像110。例如，计算设备102可以提取图像110中与潜在误检对象相对应的图像部分，例如，提取与检测框311相对应的图像部分。然后将所提取的图像部分进行特性提取等处理，并将所提取的特征表示作为分类模型104的输入。在分类模型104自身也可以实现特征提取功能的情况下，可以将所提取的图像部分直接作为分类模型104的输入。

在框420，计算设备102可以获取由分类模型104确定的可运动对象的类别(在本文中又可以被称为第一类别，如上文所述)。换言之，计算设备102可以获取分类模型104所确定的潜在误检对象的第一类别。如上文所提及的，分类模型104可以是任何合适的多分类器或二分类器。

在一些实施例中，分类模型104可以采用与检测模型103相同的类别划分。例如，在检测模型103将目标或对象划分为人类、交通工具、植物、标识的情况下，分类模型104也可以将目标或对象划分为人类、交通工具、植物、标识。在一些实施例中，分类模型104也可以采用与检测模型103不同的类别划分。在一些实施例中，分类模型104可以是二分类模型，其将目标或对象划分为可运动类别或不可运动类别。

在框430，计算设备102可以基于第一类别，确定检测模型103对可运动对象的检测的正确性。在一些实施例中，计算设备102可以确定由分类模型104针对潜在误检对象而确定的第一类别是否对应于可运动类别。如果第一类别对应于可运动类别(例如，人类或交通工具)，则可以认为检测模型103对潜在误检对象的检测是正确的，即，该潜在误检对象是可运动的。如果第二类别对应于不可运动类别(例如，植物或标识)，则可以认为检测模型103对潜在误检对象的检测是不正确的。

在这样的实施例中，分类模型104可以被实现为多分类器或二分类器。在被实现为二分类器的情况下，如果分类模型104将潜在误检对象划分为可运动类别，则可以认为检测模型103对潜在误检对象的检测是正确的；如果分类模型104将潜在误检对象划分为不可运动类别，则可以认为检测模型103对潜在误检对象的检测是不正确的。

在一些实施例中，计算设备102可以进一步考虑检测模型103所确定的潜在误检对象的类别(在文本中，也可以被称为第二类别)。例如，计算设备102可以确定由检测模型103确定的可运动对象(即，潜在误检对象)的第二类别是否与第一类别相匹配。如果第二类别与第一类别不匹配，则计算设备102可以确定检测模型103对可运动对象的检测不正确。换言之，计算设备102可以确定检测模型103对潜在误检对象的检测是不正确的。

取决于检测模型103和分类模型104的类别划分，本文中的术语“匹配”可以指的是第一类别与第二类别相同、相似或者属于同一更高级的类别。举例而言，在分类模型104采用与检测模型103完全相同的类别划分的情况下，如果第一类别与第二类别相同，则可以确定检测模型103对潜在误检对象的检测是正确的；如果第一类别与第二类别不相同，则可以确定检测模型103对潜在误检对象的检测是不正确的。

作为另一示例，在分类模型104采用与检测模型103相似的类别划分的情况下，如果第一类别与第二类别相似或者均属于同一大类别(例如，均属于可运动类别)，则可以确定检测模型103对潜在误检对象的检测是正确的；如果第一类别与第二类别不相似或者不属于同一大类别，则可以确定检测模型103对潜在误检对象的检测是不正确的。

继续参考图4，如果在框430确定检测模型103对潜在误检对象的检测是不正确的，则计算设备102可以输出该误检，并且输出该对象(例如，检测框311所标识的对象)目前为误检且具体类别未知。

在一些实施例中，计算设备102还可以进一步对检测模型103的检测结果进行纠正。例如，计算设备102可以将潜在误检对象与由检测模型103确定的第二类别解除关联，并且将潜在误检对象与由分类模型104确定的第一类别相关联。作为一个示例，假设检测模型103将检测框311的类别标识为“人类”，而分类模型104将检测框311的类别标识为“植物”。在这种情况下，计算设备102可以相应地将与检测框311相关联的类别修改为“植物”。

在一些实施例中，检测模型103和分类模型104可以是用相同的训练数据集训练的。应当理解，检测模型103和分类模型104可以在计算设备102处实现，也可以在其他计算设备处实现。例如，在训练过程中，可以收集在背景建模的背景区域中出现的检测框，将检测框所对应的特征图作为训练数据，将检测框所表示的对象或目标的实际类别作为标签，从而训练分类模型。在这样的示例中，因为使用的是神经网络中对象所对应的特征图，因此仅需要使用线性支持向量机(SVM)即可。需要注意的是，在使用前调整特征图的尺寸，使得它们具有相同的尺寸。

图5示出了根据本公开的一些实施例的图像处理装置500的示意性框图。装置500可以被包括在图1的计算设备102中或者被实现为计算设备102。如图5所示，装置500包括对象确定模块510，被配置为基于检测模型，确定图像中的至少一个候选对象。装置500还包括对象选择模块520，被配置为从至少一个候选对象中确定至少部分地位于图像的背景区域中的可运动对象。装置500进一步包括性能确定模块530，被配置为基于可运动对象和分类模型，确定检测模型的检测性能。

在一些实施例中，性能确定模块530包括：分类模型应用模块，被配置为将与可运动对象有关的信息应用到分类模型；第一类别获取模块，被配置为获取由分类模型确定的可运动对象的第一类别；以及正确性确定模块，被配置为基于第一类别，确定检测模型对可运动对象的检测的正确性。

在一些实施例中，分类模型应用模块包括：特征表示获取模块，被配置为基于检测模型，获取可运动对象的特征表示；以及特征表示应用模块，被配置为将特征表示应用到分类模型。

在一些实施例中，正确性确定模块包括：匹配确定模块，被配置为确定由检测模型确定的可运动对象的第二类别是否与第一类别相匹配；以及正确性判断模块，被配置为响应于确定第二类别与第一类别不匹配，确定检测模型对可运动对象的检测不正确。

在一些实施例中，装置500还包括：类别移除模块，被配置为将可运动对象与由检测模型确定的第二类别解除关联；以及类别关联模块，被配置为将可运动对象与由分类模型确定的第一类别相关联。

在一些实施例中，对象选择模块520包括：第一候选对象选择模块，被配置为从至少一个候选对象中选择至少部分地位于背景区域中的候选对象；第一判断模块，被配置为基于检测模型对图像的检测，确定所选择的候选对象是否可运动；以及第一可运动对象确定模块，被配置为响应于确定所选择的候选对象是可运动的，将所选择的候选对象确定为可运动对象。

在一些实施例中，对象选择模块520包括：第二候选对象选择模块，被配置为基于检测模型对图像的检测，从至少一个候选对象中选择可运动的候选对象；第二判断模块，被配置为确定可运动的候选对象是否至少部分地位于背景区域中；以及第二可运动对象确定模块，被配置为响应于确定可运动的候选对象至少部分地位于背景区域中，将可运动的候选对象确定为可运动对象。

在一些实施例中，检测模型和分类模型使用相同的数据集被训练。

图6示出了可以用来实施本公开的实施例的示例设备600的示意性框图。设备600可以用于实现图1的计算设备102。如图所示，设备600包括中央处理单元(CPU)601，其可以根据存储在只读存储器(ROM)602中的计算机程序指令或者从存储单元608加载到随机访问存储器(RAM)603中的计算机程序指令，来执行各种适当的动作和处理。在RAM 603中，还可存储设备600操作所需的各种程序和数据。CPU 601、ROM 602以及RAM 603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。

设备600中的多个部件连接至I/O接口605，包括：输入单元606，例如键盘、鼠标等；输出单元607，例如各种类型的显示器、扬声器等；存储单元608，例如磁盘、光盘等；以及通信单元609，例如网卡、调制解调器、无线通信收发机等。通信单元609允许设备600通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

处理单元601执行上文所描述的各个方法和处理，例如过程200和400中的任一项。例如，在一些实施例中，过程200和400中的任一项可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元608。在一些实施例中，计算机程序的部分或者全部可以经由ROM 602和/或通信单元609而被载入和/或安装到设备600上。当计算机程序加载到RAM 603并由CPU 601执行时，可以执行上文描述的过程200和400中的任一项的一个或多个步骤。备选地，在其他实施例中，CPU 601可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行过程200和400中的任一项。

本文中以上描述的功能可以至少部分地由一个或多个硬件逻辑部件来执行。例如，非限制性地，可以使用的示范类型的硬件逻辑部件包括：场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)等等。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

此外，虽然采用特定次序描绘了各操作，但是这应当理解为要求这样操作以所示出的特定次序或以顺序次序执行，或者要求所有图示的操作应被执行以取得期望的结果。在一定环境下，多任务和并行处理可能是有利的。同样地，虽然在上面论述中包含了若干具体实现细节，但是这些不应当被解释为对本公开的范围的限制。在单独的实施例的上下文中描述的某些特征还可以组合地实现在单个实现中。相反地，在单个实现的上下文中描述的各种特征也可以单独地或以任何合适的子组合的方式实现在多个实现中。

尽管已经采用特定于结构特征和/或方法逻辑动作的语言描述了本主题，但是应当理解所附权利要求书中所限定的主题未必局限于上面描述的特定特征或动作。相反，上面所描述的特定特征和动作仅仅是实现权利要求书的示例形式。

Claims

1.一种图像处理方法，包括：

基于检测模型，确定图像中的至少一个候选对象；

从所述至少一个候选对象中确定至少部分地位于所述图像的背景区域中的可运动对象；以及

基于所述可运动对象和分类模型，确定所述检测模型的检测性能。

2.根据权利要求1所述的方法，其中确定所述检测性能包括：

将与所述可运动对象有关的信息应用到所述分类模型；

获取由所述分类模型确定的所述可运动对象的第一类别；以及

基于所述第一类别，确定所述检测模型对所述可运动对象的检测的正确性。

3.根据权利要求2所述的方法，其中将与所述可运动对象有关的信息应用到所述分类模型包括：

基于所述检测模型，获取所述可运动对象的特征表示；以及

将所述特征表示应用到所述分类模型。

4.根据权利要求2所述的方法，其中确定所述正确性包括：

确定由所述检测模型确定的所述可运动对象的第二类别是否与所述第一类别相匹配；以及

响应于确定所述第二类别与所述第一类别不匹配，确定所述检测模型对所述可运动对象的检测不正确。

5.根据权利要求4所述的方法，还包括：

将所述可运动对象与由所述检测模型确定的所述第二类别解除关联；以及

将所述可运动对象与由所述分类模型确定的所述第一类别相关联。

6.根据权利要求1所述的方法，其中确定所述可运动对象包括：

从所述至少一个候选对象中选择至少部分地位于所述背景区域中的候选对象；

基于所述检测模型对所述图像的检测，确定所选择的候选对象是否可运动；以及

响应于确定所选择的候选对象是可运动的，将所选择的候选对象确定为所述可运动对象。

7.根据权利要求1所述的方法，其中确定所述可运动对象包括：

基于所述检测模型对所述图像的检测，从所述至少一个候选对象中选择可运动的候选对象；

确定所述可运动的候选对象是否至少部分地位于所述背景区域中；以及

响应于确定所述可运动的候选对象至少部分地位于所述背景区域中，将所述可运动的候选对象确定为所述可运动对象。

8.根据权利要求1所述的方法，其中所述检测模型和所述分类模型使用相同的数据集被训练。

9.一种图像处理装置，包括：

对象确定模块，被配置为基于检测模型，确定图像中的至少一个候选对象；

对象选择模块，被配置为从所述至少一个候选对象中确定至少部分地位于所述图像的背景区域中的可运动对象；以及

性能确定模块，被配置为基于所述可运动对象和分类模型，确定所述检测模型的检测性能。

10.根据权利要求9所述的装置，其中所述性能确定模块包括：

分类模型应用模块，被配置为将与所述可运动对象有关的信息应用到所述分类模型；

第一类别获取模块，被配置为获取由所述分类模型确定的所述可运动对象的第一类别；以及

正确性确定模块，被配置为基于所述第一类别，确定所述检测模型对所述可运动对象的检测的正确性。

11.根据权利要求10所述的装置，其中所述分类模型应用模块包括：

特征表示获取模块，被配置为基于所述检测模型，获取所述可运动对象的特征表示；以及

特征表示应用模块，被配置为将所述特征表示应用到所述分类模型。

12.根据权利要求10所述的装置，其中所述正确性确定模块包括：

匹配确定模块，被配置为确定由所述检测模型确定的所述可运动对象的第二类别是否与所述第一类别相匹配；以及

正确性判断模块，被配置为响应于确定所述第二类别与所述第一类别不匹配，确定所述检测模型对所述可运动对象的检测不正确。

13.根据权利要求12所述的装置，还包括：

类别移除模块，被配置为将所述可运动对象与由所述检测模型确定的所述第二类别解除关联；以及

类别关联模块，被配置为将所述可运动对象与由所述分类模型确定的所述第一类别相关联。

14.根据权利要求9所述的装置，其中所述对象选择模块包括：

第一候选对象选择模块，被配置为从所述至少一个候选对象中选择至少部分地位于所述背景区域中的候选对象；

第一判断模块，被配置为基于所述检测模型对所述图像的检测，确定所选择的候选对象是否可运动；以及

第一可运动对象确定模块，被配置为响应于确定所选择的候选对象是可运动的，将所选择的候选对象确定为所述可运动对象。

15.根据权利要求9所述的装置，其中所述对象选择模块包括：

第二候选对象选择模块，被配置为基于所述检测模型对所述图像的检测，从所述至少一个候选对象中选择可运动的候选对象；

第二判断模块，被配置为确定所述可运动的候选对象是否至少部分地位于所述背景区域中；以及

第二可运动对象确定模块，被配置为响应于确定所述可运动的候选对象至少部分地位于所述背景区域中，将所述可运动的候选对象确定为所述可运动对象。

16.根据权利要求9所述的装置，其中所述检测模型和所述分类模型使用相同的数据集被训练。

17.一种电子设备，所述设备包括：

一个或多个处理器；以及

存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-8中任一项所述的方法。

18.一种计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行时实现如权利要求1-8中任一项所述的方法。