CN116778004A

CN116778004A - 图像流中对象的改进的屏蔽

Info

Publication number: CN116778004A
Application number: CN202310232425.4A
Authority: CN
Inventors: 卢德维格·哈斯布林; 袁嵩
Original assignee: Axis AB
Current assignee: Axis AB
Priority date: 2022-03-16
Filing date: 2023-03-10
Publication date: 2023-09-19
Also published as: EP4246465B1; EP4246465C0; KR20230135521A; EP4246465A1; US20230298182A1

Abstract

本发明涉及图像流中对象的改进的屏蔽。提供了屏蔽或标记图像流中的对象的方法，包括：通过对捕获场景的输入图像流进行处理来生成一个或多个输出图像流，包括丢弃由输入图像流的像素提供的关于场景的像素信息，使得丢弃的关于场景的像素信息不包括在任何输出图像流中；以及使用丢弃的像素信息检测场景中的对象，其中，生成一个或多个输出图像流包括：一旦判定对象在至少一个输出图像流中至少部分地可见，则在至少一个输出图像流中屏蔽或标记所检测到的对象。还提供了相应的装置、计算机程序和计算机程序产品。

Description

图像流中对象的改进的屏蔽

技术领域

本公开涉及屏蔽或标记图像流中的对象。具体而言，本公开涉及当对象仅部分可见或突然出现在图像流中时如何改进这种屏蔽或标记。

背景技术

各种对象检测算法是可用的，它们通常能够识别和定位图像中的对象。识别可以包括例如告知检测到的对象属于哪一类，并确定该对象是否应当被屏蔽或标记，而定位可以包括提供例如图像内对象的坐标和整体形状。来自对象检测算法的信息然后可以被提供给对象跟踪算法，使得特定对象的运动可以在例如由相机捕获的图像流(即视频流)中的多个图像上被跟踪。知道对象的位置和/或移动可能是有用的，例如当需要在对象上应用隐私屏蔽，以使得观看图像流的用户不容易获取对象的身份时。

然而，如果对象例如在图像流中仅部分可见，则对象检测算法可能无法正确识别和定位对象。如果对象接近图像流的边界，例如当对象刚刚进入或正要离开图像流所捕获的场景时，情况尤其如此。如果对象检测算法无法正确地识别和定位这样的对象，则它将不能向对象跟踪算法提供关于对象的信息。这可能导致针对这种对象的对象跟踪算法的性能降低，因为对象跟踪算法在能够锁定并开始跟踪对象之前，通常需要从对象检测算法接收至少几次信息更新。

作为上述情况的结果，在图像流的边界附近或例如在图像流的边界，对图像流中的对象的屏蔽或标记将变得更加不可靠，在该边界对象更有可能被部分隐藏和/或突然进入视场。如果由于例如各种隐私原因需要屏蔽，这可能特别是有问题的，因为可能不再保证充分遵守现有的隐私规则。

发明内容

为了至少部分地解决屏蔽(或例如标记)图像流中部分隐藏或突然出现的对象的上述问题，本公开提供了用于屏蔽或标记图像流中的对象的改进的方法、改进的装置、改进的计算机程序以及改进的计算机程序产品，如所附独立权利要求中所定义的。改进的方法、装置、计算机程序和计算机程序产品的各种可选实施例在所附的从属权利要求中定义。

根据本公开的第一方面，提供了屏蔽或标记图像流中的对象的方法。方法包括通过对捕获场景的至少一部分的第一输入图像流进行处理来生成一个或多个输出图像流。该处理包括丢弃由第一输入图像流的一个或多个像素提供的关于场景的像素信息，使得丢弃的像素信息不包括在一个或多个输出图像流中的任何输出图像流中。方法还包括通过使用丢弃的像素信息(即不包括在一个或多个输出图像流中的任何输出图像流中的像素信息)来检测场景中的对象。最后，生成一个或多个输出图像流包括至少暂时屏蔽或标记一个或多个输出图像流中的至少一个输出图像流中的所检测到的对象，其中，在判定对象至少部分地位于一个或多个输出图像流中的至少一个输出图像流内之后(即响应于此)执行该屏蔽或标记。方法还可以可选地包括输出所生成的一个或多个输出图像流(例如输出到服务器、用户终端、存储装置等)。

如本文稍后将更详细说明的，所设想的方法对当前可用的技术(诸如传统的处理链)进行了改进，因为它不仅利用关于包括在输出图像流中的场景的信息来确定感兴趣对象是否存在，而是，还使用这样的关于场景的信息：其可能被作为与检测对象无关的一些处理的一部分被丢弃，而不被进一步考虑。这允许对象检测(算法)在对象进入输出图像流之前更好地检测对象。通过这样做，即使对象例如仅一半在输出图像流内，对象检测也可以成功，并且例如未能正确屏蔽这种对象的风险由此被降低或甚至消除。这与通常可用的技术相反，在通常可用的技术中，在执行对象检测(和跟踪)之前，丢弃关于场景的像素信息，使得传统的对象检测(和跟踪)仅被允许使用关于场景的也在输出图像流中结束的信息。

因此，所设想的方法不是关于在处理输入图像流时丢弃关于场景的像素信息，而是关于，对这种像素信息已经作为(第一)输入图像流的处理的一部分而被丢弃(无论是出于什么原因)进行检测。因此，所设想的方法可以包括附加步骤，即明确地检测到存在这样的关于场景的像素信息：如果不用于检测对象，则该像素信息将被丢弃，然后，在该检测之后，继续基于关于场景的还没有被丢弃的这种像素信息来检测对象。本文中，“基于”当然表示可以使用还没有被丢弃(但即将被丢弃)的像素信息，以及不会被丢弃而是作为输出图像流的一部分的像素信息来检测对象。这可以适用于例如在检测当前进入场景的对象时(在输出图像流中进行描绘)，并且在这种情况时，关于对象的在输出图像流以外的部分的信息因此仅包括在还没有丢弃的像素信息中。

本文所使用的处理第一输入图像流以生成一个或多个输出图像流可以包括：处理第一输入图像流的特定图像(或图像帧)以生成一个或多个输出图像流中的一个图像流的特定图像(或图像帧)。第一输入图像流的特定图像可以被称为特定输入图像，并且所讨论的输出图像流的特定图像可以被称为特定输出图像。如本文稍后将更详细说明的，如果除了对象检测之外还使用例如对象跟踪，当在特定输出图像(其描述与特定输入图像相同时刻的场景)中以及在一个或多个其他输出图像(其描述比特定输入图像晚一个或多个时刻的场景)中屏蔽/标记对象时，可以使用在处理特定输入图像时丢弃的像素信息，因为对象跟踪算法可以基于所接收到的关于早期图像的对象的信息来猜测对象的未来位置。

本文所使用的像素信息是“关于场景”的，应当被理解为在特定时刻记录的(输入图像流的)图像的像素提供关于该特定时刻的场景的信息。设想从例如场景中的对象反射的光线到达用于捕获场景的相机的图像传感器，并且当图像传感器的读出提供图像(输入图像流)的相应像素的值时，这些像素然后提供关于对象和包含对象的场景的信息。由输入图像流(的图像)的一个或多个像素提供的像素信息可以被丢弃，例如，如果像素(作为输入图像流的处理的一部分)被裁剪并且不包括在输出流(的图像)中，和/或例如如果像素的值/颜色被改变成与其原始值不相关的预定义值。后者例如可以是这样的情况，如果作为输入图像流的处理的一部分应用屏蔽，使得例如最初描述场景的一些细节的一个或多个像素反而被强制具有例如纯黑色(或其他)颜色。

然而，本文所设想的像素的精确值/颜色可能与通过图像传感器的读出所发现的原始值不同，这是由于例如首先已经对像素应用了诸如颜色校正等各种功能。然而，设想这种像素仍然被认为提供了关于场景的像素信息，只要该像素没有作为处理的一部分被裁剪或屏蔽(如上所述)，使得它最初携带的关于场景的像素信息不会出现在任何输出图像流中。

对象(至少部分地)“在输出图像流内”应当被理解为，如果假设没有首先发生对象的屏蔽，对象(至少部分地)位于输出图像流的至少一个特定图像之内。

如本文先前所讨论的，“通过使用丢弃的像素信息检测场景中的对象”可以包括例如使用丢弃的像素信息作为例如对象检测算法的输入。这可以与例如提供一个或多个像素的值相对应，该一个或多个像素提供丢弃的像素信息作为对象检测算法的输入。

在方法的一个或多个实施例中，第一输入图像流的一个或多个像素可以属于第一输入图像流的被认为比第一输入图像流的一个或多个其他区域具有更低视觉质量的区域。本文中，“第一输入图像流的区域”也被设想为例如第一输入图像流的图像(帧)的区域，例如第一输入图像流的图像的一组像素。该区域不必是一个单一的连续区域，而是可以分成几个彼此不重叠或不直接邻接的子区域。如本文稍后将说明的，这样的区域例如可以包括提供场景的较低分辨率和/或由于其他原因而失真的像素。然而，仍然假设这些像素包含至少一些关于场景的信息，并且关于场景的信息因此可以用于检测对象，即使该信息在其他情况下作为第一输入图像流的处理的一部分被丢弃。相反，在传统的处理链中，这些像素通常被裁剪和/或屏蔽而没有进一步考虑，使得这些较低质量的像素在一个或多个输出图像流中不可见。

在方法的一个或多个实施例中，第一输入图像流的被认为具有较低视觉质量的一个或多个像素(即第一输入图像流的图像的一个或多个像素)可以源自用于捕获第一输入图像流(的图像)的图像传感器的外围区域，和/或源自经由镜头布置的外围部分到达图像传感器的光，和/或源自以足以导致所谓光晕的角度到达镜头布置的光。所有这些都是一些像素与例如源自图像传感器中心的像素和/或来自直接到达图像传感器的光的像素相比获得较低视觉质量的原因的示例，并且可能导致例如较低的视觉质量，其形式为在发现这些像素的区域模糊增加、锐度降低和/或场景的整体分辨率降低。与如在传统处理链中的做法那样丢弃/裁剪和/或屏蔽这些像素而没有进一步考虑不同，本公开设想这些像素可能仍然包含关于场景的像素信息，该信息对于检测场景中的对象可能是有用的。

在方法的一个或多个实施例中，在第一输入图像流中，场景的至少一部分的描述可以是非矩形的。第一输入图像流的一个或多个像素可以属于位于非矩形描述的矩形区域之外的像素(即可以在非矩形描述内定义矩形区域，并且一个或多个像素可以是位于该矩形区域之外的像素)。(场景的至少一部分的)非矩形描述可以由以下项中的至少一项导致：a)通过其捕获场景的至少一部分的镜头布置的属性，以及b)应用于第一输入图像流的变换(例如作为第一输入图像流的处理的一部分以生成一个或多个输出图像流)。本文中，场景的描述是非矩形的，表示例如在场景的图像中存在一些像素是例如黑色的并且不包含关于场景的任何信息，而描述场景并且包含关于场景的信息的像素的外围具有非矩形形状。当创建输出图像流时，可能通常希望裁剪这样的图像，使得在一个或多个输出图像流中描述的场景的外围变成矩形。在传统的处理链中，位于期望的矩形形状之外的像素被裁剪和/或屏蔽，而无需进一步考虑。然而，本公开设想这些像素可能仍然包含关于场景的信息，这在检测场景中的对象时可能是有用的。

在方法的一个或多个实施例中，丢弃关于场景的像素信息可能是由于编码标准要求输出图像流应当具有特定的几何形状，即使得通过例如裁剪或屏蔽这些“外部像素”来丢弃由位于特定几何形状之外的一个或多个像素提供的关于场景的像素信息。特定几何形状通常是矩形的，但是可以设想存在(或将存在)特定几何形状是非矩形的编码标准，诸如椭圆形、圆形、三角形等。

在方法的一个或多个实施例中，上述变换可以作为以下项中的一项或多项的一部分来应用：b-1)镜头失真校正过程；b-2)合成场景的至少一部分的鸟瞰图，以及b-3)应用于将一个或多个图像拼接在一起的一个或多个投影，一个或多个图像捕获该场景的不同部分，其中，这些图像中的至少一个包括在第一输入图像流中。镜头失真校正过程可以是例如桶形失真校正(BDC)过程、枕形失真校正(PDC)过程或例如切向失真校正(TDC)过程等过程。合成鸟瞰视图可以包括使用来自多个相机的输入图像流，其中，并没有相机实际上被定位成具有该场景的自顶向下的视图，但是其中，各种透视变换被应用到各个图像流，使得它们组合起来模拟出如同从被定位成具有该场景的自顶向下的视图的相机发出的视图。将多个图像拼接在一起以例如创建全景图像(流)可以包括首先对每个图像应用(映射)投影形式的一个或多个变换(其中，这种投影可以是例如直线的、圆柱的、球形的、全景的、立体的，等)。投影例如可以用于将所有图像投影到公共表面，例如球形或圆柱形表面。

在所有上述类型的变换中，变换后的输入图像流中所描述的场景的外围可能不再是矩形，并且传统的处理链可能会丢弃/裁剪和/或屏蔽位于期望的矩形区域之外的像素，而无需进一步考虑。然而，本公开设想期望矩形区域之外的像素仍然可以提供关于场景的像素信息，该信息可以用于检测场景中的对象。

在方法的一个或多个实施例中，生成输出图像流可以包括将第一输入图像流与第二输入图像流拼接在一起，该第二输入图像流捕获第一输入图像流没有捕获的场景部分。第一输入图像流的一个或多个像素可以源自不仅由第一输入图像流而且由第二输入图像流捕获的场景区域。当在第一和第二输入图像流中都找到关于场景的一部分的信息时，可以设想简单地裁剪第一输入图像流的属于第一和第二输入图像流之间的重叠的像素，而不执行例如混合或淡化。传统的处理链将丢弃第一输入图像流的这种“重叠像素”，而无需进一步考虑，而本公开设想这些像素可以包含关于场景的像素信息，该信息可以用于检测场景中的对象。

在方法的一个或多个实施例中，生成输出图像流可以包括对第一输入流应用电子图像稳定(EIS)过程。第一输入图像流的一个或多个像素可以属于由EIS裁剪或屏蔽的像素。EIS可以裁剪或屏蔽这些像素的原因将在本文稍后详述，但是现在应当已经注意到，传统的处理链将会丢弃由这些像素提供的信息而无需进一步考虑，而本公开设想这些像素可以提供关于场景的像素信息，该信息可以用于检测场景中的对象。

在方法的一个或多个实施例中，方法可以在监视相机中执行。监视相机例如可以形成监视相机系统的一部分。监视相机可以被配置成捕获第一输入图像流。在监视相机中执行该方法可以允许所谓的“边缘计算”，其中，在例如从监视相机接收输出图像流的服务器或用户终端可能不需要进一步的处理，并且其中，例如可以减少延迟，因为计算尽可能靠近被监视的场景来进行。

在方法的一个或多个实施例中，判定对象至少部分地在输出图像流内可以包括使用对象跟踪算法。例如，当对象仍然不在输出图像流内时，可以使用丢弃的像素信息来检测对象，但是当对象移动并进入输出图像流内时，则使用对象跟踪算法。因此，在本公开中设想的方法中，使用丢弃的像素信息可能是有用的，即使对象还不在输出图像流中，即使丢弃的像素信息本身从未在任何输出图像流中结束。

根据本公开的第二方面，提供了用于屏蔽或标记图像流中的对象的装置。装置包括处理器(或“处理电路”)和存储器。存储器存储指令，当处理器执行这些指令时，使该装置执行第一方面的方法。换句话说，这些指令是这样的，它们(当由处理器执行时)使该装置：通过对捕获至少一部分场景的第一输入图像流进行处理来生成一个或多个输出图像流，其中，该处理包括丢弃由第一输入图像流的一个或多个像素提供的关于场景的像素信息，使得丢弃的像素信息不包括在一个或多个输出图像流中的任何输出图像流中；使用不包括在一个或多个输出图像流中的任何输出图像流中的丢弃的像素信息来检测场景中的对象；以及使用不包括在一个或多个输出图像流中的任何输出图像流中的丢弃的像素信息来检测场景中的对象。生成一个或多个输出图像流包括：在判定对象至少部分地位于一个或多个输出图像流中的所述至少一个输出图像流内之后，至少暂时屏蔽或标记一个或多个输出图像流中的至少一个输出图像流中的所检测到的对象。该装置可选地还可以被配置成(向例如服务器、用户终端、存储装置等)输出输出图像流。

在装置的一个或多个实施例中，指令可以使得它们(当由处理器执行时)使该装置执行本文公开和设想的第一方面的方法的任何实施例。

在装置的一个或多个实施例中，装置例如可以是监视相机。监视相机可以被配置成捕获第一输入图像流。监视相机例如可以形成监视相机系统的一部分。

根据本公开的第三方面，提供了用于图像流中的对象检测的计算机程序。计算机程序被配置成当由例如装置(其中，该装置可以是例如根据第二方面的装置)的处理器执行时，使得该装置执行根据第一方面的方法。换句话说，计算机程序被配置成使得当由装置的处理器执行时，使该装置：通过对捕获至少一部分场景的第一输入图像流进行处理来生成一个或多个输出图像流，其中，该处理包括丢弃由第一输入图像流的一个或多个像素提供的关于场景的像素信息，使得丢弃的像素信息不包括在一个或多个输出图像流中的任何输出图像流中；使用不包括在一个或多个输出图像流中的任何输出图像流中的丢弃的像素信息来检测场景中的对象；并且使用不包括在一个或多个输出图像流中的任何输出图像流中的丢弃的像素信息来检测场景中的对象。生成一个或多个输出图像流包括：在判定对象至少部分地位于一个或多个输出图像流的所述至少一个内之后，至少暂时屏蔽或标记一个或多个输出图像流中的至少一个输出图像流中的所检测到的对象。

在计算机程序的一个或多个实施例中，指令还使得它们(当由处理器执行时)使得装置执行本文公开和设想的方法的任何实施例。

根据本公开的第四方面，提供了计算机程序产品。计算机程序产品包括计算机可读存储介质，其上存储有根据第三方面的计算机程序。

本公开的其他目的和优点将从以下详细描述、附图和权利要求中变得显而易见。在本公开的范围内，设想参考例如第一方面的方法描述的所有特征和优点与参考第二方面的装置、第三方面的计算机程序和/或第四方面的计算机程序产品所描述的任何特征和优点相关、适用并且可以结合使用，反之亦然。

附图说明

下文将参考附图描述示例性实施例，其中：

图1示出了示意性地说明用于屏蔽或标记图像流中的对象的传统处理链/方法的功能框图；

图2A示出了示意性地说明根据本公开的屏蔽或标记图像流中的对象的方法的各种实施例的功能框图；

图2B示意性地示出了根据本公开的方法的一个或多个实施例的流程图；

图3A至图3E示意性地示出了导致丢弃关于场景的像素信息的各种示例情况，如根据本公开的方法也适用的的一个或多个实施例中所设想的，以及

图4A和图4B示意性地示出了根据本公开的装置的一个或多个实施例。

在附图中，相同的附图标记将用于相同的元素，除非另有说明。附图仅示出了说明示例性实施例所必需的元素，除非明确指出相反的情况，而为了清楚起见，其他元素可以被省略或仅被建议。如图所示，为了说明的目的，元素和区域的(绝对或相对)尺寸可能相对于它们的真实值被夸大或低估，因此，被提供以说明实施例的一般结构。

具体实施方式

本文中，设想可以通过使用一种或多种通常可用的算法来实施对象检测，该算法已经在计算机技术的各个领域中可用，诸如计算机视觉和/或图像处理。这种算法例如可以被设想为包括非神经和神经方法。然而，最低要求是无论使用什么算法(或算法的组合)都能够确定特定对象(例如人脸、身体、牌照等)存在于图像中，特别是对象位于图像的什么位置和/或区域。只要满足上述要求，所使用的算法是基于特征的、基于模板的和/或基于运动的并不重要。例如，可以使用一个或多个为此目的专门训练的神经网络来实施对象检测。出于本公开的目的，还假设在对象检测中使用的/用于对象检测的这种算法可能难以正确地识别和/或定位在图像内部分隐藏的对象，在该图像中假设执行对象检测，例如当/如果人被树木、车辆等部分遮挡时。

类似地，本文中，对象跟踪被设想为可使用例如一个或多个通常可用的对象跟踪算法来实施。这种算法例如可以是依赖于目标表示和定位的自底向上的过程，并且包括例如基于内核的跟踪、轮廓跟踪等。其他设想的跟踪算法可以是例如自顶向下的过程，包括例如使用滤波和数据关联，并实施例如一个或多个卡尔曼和/或粒子滤波器。本文中，设想这样的跟踪算法可以从对象检测接收输入，，并且在没有提供来自对象检测的进一步输入/更新的情况下，则使用所接收的输入来随时间跟踪场景中的对象(即跨多个后续图像)。出于本公开的目的，假设即使对象跟踪能够在停止接收来自对象检测的更新之后跟踪/跟随对象至少图像流的几个图像/帧，这种跟踪的质量也会随着时间而降低，因为没有来自检测的新输入到达。一段时间后，跟踪将无法合适地跟踪对象。还假设跟踪在接收到来自检测的第一次输入/更新之后需要一些时间，然后才能锁定对象并执行成功的跟踪。换句话说，跟踪需要多于单个的来自检测的数据点，以得出关于对象下一步将位于哪里/移动到哪里的结论(因为很难甚至不可能从单个数据点进行合适的推断)。在下文中，术语“对象检测算法”、“对象检测”、“对象检测模块”和“检测器”可互换使用。这同样适用于术语“对象跟踪算法”、“对象跟踪”、“对象跟踪模块”和“跟踪器”，它们也可以互换使用。

现在将参考图1更详细地描述用于屏蔽或标记图像流中的对象的传统处理链/方法的示例。

图1示出了功能框图100，其示意性地示出了在现有技术中发现和使用的方法100(的流程)。在方法100中，从例如捕获场景的图像传感器接收输入图像流110(借助于例如作为例如瞄准场景的相机的一部分的各种镜头布置)。输入图像流110包括输入图像I_n(其中，索引n指示特定输入图像I_n是在第n个时刻捕获的)。输入图像流110由图像处理模块120接收，图像处理模块120对输入图像流110和输入图像I_n执行图像处理，以在处理链100的结尾生成相应的输出图像O_n作为输出图像流114的一部分。

在模块120中执行的图像处理产生中间图像I′_n。由于各种原因，如将在本文稍后详述的，图像处理导致丢弃由输入图像I_n的一个或多个像素提供的关于场景的像素信息。因此，在中间图像I′_n中，一个或多个像素113被裁剪或屏蔽，使得由一个或多个像素113提供的丢弃的关于场景的像素信息将不包括在输出图像流114的任何输出图像O_n中。结果，由于一个或多个像素113的裁剪和/或屏蔽，中间图像I′_n中描述场景的区域112可能小于原始图像I′_n中的区域。当然，在其他示例中，图像处理可以包括在裁剪或屏蔽像素113之后对区域112的变焦/缩放，使得中间图像I′_n和/或输出图像O_n中场景的所描述的部分112的尺寸与整个输入图像I_n的尺寸相同(或甚至更大)。在任何情况下，中间图像I′_n的区域112都不会提供与整个输入图像I_n一样多的关于场景的像素信息。这是因为，例如，即使对区域112变焦/缩放(使用例如上采样)，丢弃的关于场景的像素信息也不能被恢复。

由于上述原因，在传统方法100中，只有由中间图像I′_n的剩余区域112中的像素提供的关于场景的像素信息可用于方法100的流程中的任何后续功能模块。如前所述，作为在模块120中执行的图像处理的结果，最初由一个或多个像素113提供的关于场景的像素信息因此被丢弃。通过裁剪或屏蔽像素来丢弃的像素信息通常在处理链的早期执行，以避免将计算资源花费在进一步处理或分析稍后将以任何方式裁剪或屏蔽的任何像素上。

然后，中间图像I′_n被传递到对象检测模块130，其中，尝试识别和定位区域112中的一个或多个对象。在模块130中执行的对象检测的结果作为对象检测数据132被传递到特征添加模块150，其中，例如如果检测到的对象被识别为待屏蔽的对象，则将隐私屏蔽应用于检测到的对象。特征添加模块150还可以或改为在输出图像流114中添加例如被检测对象的身份和/或位置的可视指示(被示为例如包围被检测对象的框架等)，或任何其他类型的标记。因此，特征添加模块150通过向中间图像I′_n添加一个或多个这样的特征来对其进行修改，并将结果作为输出图像O_n输出。输出图像O_n形成输出图像流114的一部分。对象检测数据132例如可以包括所识别的对象的位置、关于对象检测模块230有多确定所识别的对象是待屏蔽(或至少被跟踪)的对象的估计等。

可选地，中间图像I′_n也可以被提供给例如可选的对象跟踪模块140。对象跟踪模块140还可以(附加地或替代地)从对象检测模块130接收对象检测数据133，对象检测数据133指示例如在中间图像I′_n中检测到的对象的估计位置，以及例如该对象应当由对象跟踪模块140跟踪的指示。这可以帮助对象跟踪模块140在几个图像上跟踪对象。例如，对象跟踪模块140可以使用针对中间图像I′_n获取的对象检测数据133，也可以使用为一个或多个先前的中间图像I′_m<n获取的对象检测数据133，以随时间跟踪对象(换句话说，为中间图像I′_n获取的对象检测数据133可以用于跟踪对象，使得对象可以在随后的输出图像O_k>n中被屏蔽)。这种跟踪的结果可以作为对象跟踪数据142从对象跟踪模块140提供给特征添加模块150。对象跟踪数据142例如可以包括由对象跟踪模块140估计的对象的位置、形状等，以及例如以此确定的对象位置的估计不确定性。当例如将一个或多个屏蔽、标记等应用于一个或多个对象时，特征添加模块150然后也可以使用这样的对象跟踪数据142。在一些其他示例中，可以设想特征添加模块150仅从对象跟踪模块140接收数据142，而不从对象检测模块130接收数据132。在这样的示例中，方法100然后仅依赖于对象跟踪来向输出图像O_n和输出图像流114中的一个或多个对象添加例如屏蔽、标记等。如前所述，当使用对象跟踪时，中间图像I′_n中可用于跟踪的数据因此也可以在稍后输出输出图像流114的一个或多个后续输出图像O_k>n时使用。

然而，如本文先前所讨论的，对象检测模块130可能通常纠结于或甚至通常无法合适地识别和定位例如仅部分位于中间图像I′_n的区域112内的对象。因此，对象检测可能无法定位特定的这种对象，对象跟踪模块140(如果使用)可能随着时间而无法跟踪这种对象，如果它停止从对象检测模块130接收进一步的对象检测数据133，并且特征添加模块150可能无法例如合适地屏蔽场景中的所有对象，对于这些对象，例如身份应当由隐私屏蔽来保护，因为数据132和/或142可能不再可用或不再足够准确。

现在将参考图2A和图2B更详细地说明本公开中设想的方法如何提供对传统方法100的改进。

图2A示出了功能框图200，其示意性地示出了用于执行根据本公开的方法200的各种实施例的各种功能模块的交互。图2B示意性地示出了方法200的这些实施例的相应流程图。

在步骤S201中，从例如一个或多个相机(诸如监视相机)的一个或多个图像传感器接收一个或多个输入图像流210。本文中，j是表示第j个这样的输入图像流的索引，并且n是时间索引以使/>表示在第n个时刻捕获的第j个输入图像流的输入图像。第“n”个时刻例如可以与时间t₀+Δ×n相对应，其中，t₀是某个开始时间，并且Δ是每个被捕获图像之间的时间差(如果假设对于所有输入图像流和每个输入图像流的所有输入图像之间的时间差Δ相等)。至少一个输入图像/>由图像处理模块220接收，以在处理链的结束，并且经由一个或多个中间图像/>生成并输出一个或多个输出图像流/> 214，其中，/>指示第i个这样的输出图像流的输出图像，其描述了在第n个时刻的场景的至少一部分。在下文中，仅出于简化的目的，如果没有相反的说明，将假设只有单个输入图像流S_in＝{…，I_n-1，I_n，I_n+1，…}、每个输入图像I_n的单个中间图像I′_n以及单个生成的输出图像流S_out＝{…，O_n-1，O_n，O_n+1，…}。

正如在参考图1描述的传统方法100中，为了生成输出图像流214的输出图像O_n，由于与例如对象检测和/或对象跟踪无关的各种原因，由模块220执行的图像处理(在步骤S202中)导致丢弃由某个输入图像流210的输入图像的一个或多个像素提供的关于场景的像素信息。由于提供丢弃的关于场景的像素信息的一个或多个像素213已经被例如裁剪或屏蔽，因此由模块220中的图像处理产生的中间图像I′_n也具有占据比输入图像I_n小的区域212的场景的剩余描述。如前所述，在模块220中执行的图像处理还可以包括缩放区域212，使得它再次匹配(或甚至超过)输入图像I_n的整个区域的区域(然而，它不会重新获取在裁剪或屏蔽一个或多个像素213时丢失的关于场景的任何信息)。因此，同样在改进的方法200中，由最初在输入图像I_n和输入图像流210中找到的一个或多个像素213提供的关于场景的像素信息不包括在任何相应的输出图像和输出图像流214中。应当注意，本文中，输出图像和输入图像具有相同的时间索引n表示，两个图像都表示在相同时刻的场景，而不一定是输出图像O_n与输入图像I_n同时生成。例如，由于例如完成输入图像I_n的处理所需的时间等原因，在捕获输入图像I_n和最终生成输出图像O_n之间可能存在一些延迟。

如本文所设想的，当丢弃的关于场景的像素信息称为不包括在任何输出图像和输出图像流214中时，这表示对特定的第j个输入图像流的特定输入图像执行处理，并且不存在(在任何输出图像流中都不存在)这样的输出图像/>其包括从来自该特定输入图像的一个或多个被屏蔽或裁剪的像素获取的关于场景的像素信息。当然可以存在这样的情况，即，输出图像/>仍然包含关于场景的该像素信息，但是在这种情况下，该信息已经从例如另一个输入图像流的另一个输入图像的处理中获取。例如，如本文稍后将更详细地讨论的，可以组合几个输入图像流来创建场景的全景视图，并且如果它们被捕获使得它们在空间上重叠，则场景的一些部分因此可以在这些多个输入图像流的多个图像中可见。然而，如果特定的一个这样的输入图像流的特定输入图像的一个或多个像素在该特定输入图像的处理期间被裁剪或屏蔽，则由这些像素提供的关于场景的像素信息不被认为是输出图像流的一部分，即使一个或多个其他输入图像流的一个或多个其他输入图像中的其他像素恰好提供了关于场景的相同或相似的像素信息。换句话说，本文已经使用的由特定输入图像流的特定输入图像的一个或多个像素提供的丢弃的关于场景的像素信息，如本文所设想的，不包括在任何输出图像流的任何输出图像中，因为作为特定输入图像和输入图像流的处理结果，一个或多个像素被裁剪或屏蔽。特别地，如本文所设想的，由在特定时刻捕获场景的一部分的特定输入图像提供的关于场景的像素信息不被提供在任何描述场景的一部分的输出图像流的任何图像中，这是因为其在那个特定时刻处。

由输入图像I_n的处理产生的中间图像I′_n被提供给对象检测模块230，对象检测模块230可以使用区域212的剩余像素和由这些像素提供的关于场景的像素信息来检测(在步骤S203中)场景中的对象。然而，与参考图1描述的传统方法100相比，改进方法200的处理链不会简单地丢弃由一个或多个(裁剪或屏蔽的)像素113提供的关于场景的像素信息而不去进一步考虑。相反，并且最重要的是，在方法200中，一个或多个像素213和它们提供的关于场景的像素信息还被提供给对象检测模块230，使得对象检测模块230在检测(即在步骤S203中)对象时也可以使用关于场景的该像素信息。结果，为对象检测模块230提供了关于场景的整个输入图像I_n的信息，而不仅仅是在输入图像I_n的处理之后剩余的区域212。这允许对象检测模块230检测在区域212内和输出图像流214中的输出图像O_n中仅部分可见的对象，因为对象在完整的输入图像I_n(即区域212加上一个或多个像素213的组合)中仍然是完全可见的(或至少足够可见以被对象检测合适地识别和/或定位)。这将提供对象检测的改进的、更可靠的性能，使得对象更有可能在例如输出图像流214中的输出图像O_n中被合适地屏蔽或标记。

如果使用对象跟踪，使用整个输入图像I_n的内容来检测对象也可以帮助例如在输出图像流214中的输出图像O_n之后的一个或多个输出图像O_k>n(未示出)中跟踪对象。例如，在一些实施例中，设想对象检测模块230在分析整个输入图像I_n时，识别在一个或多个像素213内可见但在区域212内不可见的对象。因此，该对象在输出图像O_n中将是不可见的，并且因此在该输出图像O_n中既不被屏蔽也不被标记。然而，对象检测数据233仍然被发送到对象跟踪模块240，使得该模块可以在对象在例如后续图像I′_k>n的区域212中变得可见之前开始跟踪场景中的对象(如果还没有开始)。当对象在区域212中变得可见时，对象检测模块240将因此已经在跟踪对象，并且对象一旦进入区域212，就可以在后续输出图像O_k>m中被合适地屏蔽。如图2A所示，一个或多个像素213当然也可以可选地提供给对象跟踪模块240，而不仅仅是对象检测模块230，如果对象跟踪模块240使用像素信息来跟踪对象，而不是例如仅更新由对象检测模块230提供的对象的位置，这可能是有用的。

还设想在一些实施例中，不一定所有丢弃的像素都需要用于对象的检测和/或跟踪。例如，一些丢弃的像素可能属于统计上已知不包含感兴趣对象的场景的一部分(如在输入图像中捕获的)。然后可以判定不将由这种像素提供的关于场景的像素信息提交给例如对象检测模块，即使相应的像素被屏蔽和/或裁剪。场景的这一部分例如可以与天空或场景的任何其他区域相对应，其中，感兴趣对象不可能出现(如果对象是例如人、汽车等)。在其他情况下，相反的情况当然也是成立的，并且其中，不可能出现对象的区域可以是例如街道、田野等(如果感兴趣对象是例如飞机、无人驾驶飞机或其他飞行对象)。通过不向例如对象检测算法提供这种像素信息，可以避免在已知(或至少通常已知)不需要对象检测资源的区域中花费对象检测资源。可以通过例如手动将场景的一个或多个区域指示为“不感兴趣”或“感兴趣”来预先确定是否将所有或仅一些丢弃的像素(以及它们提供的关于场景的像素信息)用于检测和/或跟踪，或例如可以使用收集的历史数据来确定，该历史数据示出了感兴趣对象先前被检测或跟踪以及没有被检测或跟踪的区域。其他类型的场景或图像分析等当然也可以用于确定场景的哪些区域是不感兴趣的，以及哪些是感兴趣的。

将中间图像I′_n(其中，区域212表示将如何在输出图像O_n中描述场景)与来自对象检测模块230的对象检测数据232和来自对象跟踪模块240的对象跟踪数据242(如果包括)一起提供给特征添加模块250。特征添加模块250然后可以(在步骤S205中)将一个或多个(隐私)屏蔽或标记添加到中间图像I′_n(或在其顶部)，以在输出输出图像O_n作为输出图像流214的一部分之前屏蔽(或标记)一个或多个检测和/或跟踪的对象。正如在参考图1描述的传统方法100中，在方法200的一些实施例中，对象跟踪模块240可以是可选的，并且如果被使用/可用，可以向其提供来自对象检测模块230的对象检测数据233，以帮助对象跟踪模块240实现对象的合适的跟踪。同样，在一些其他实施例中，如果包括对象跟踪模块240，则特征添加模块250可以仅依赖于对象跟踪数据242而不依赖于对象检测数据232来知道在哪里添加屏蔽或标记(在这种情况下，可以可选地将对象检测数据232发送到特征添加模块250)。对输出图像O_n和输出图像流214中的对象的屏蔽或标记例如可以是暂时的，表示一旦例如对象不再处于输出图像O_n和输出图像流214中所描述的场景中，或例如如果对象变得隐藏在场景中的另一个对象之后(使得它不再能够被检测和/或跟踪，或使得例如屏蔽不再是必要的)，则可以移除所应用的屏蔽或标记。在其他设想的情况下，如果对象改变其在场景内的方向，使得即使没有屏蔽也不再可能推断出对象的身份，则例如可以移除对象的屏蔽。例如，如果人的方向使得其人脸朝向相机，则可能需要对人进行屏蔽，而如果人改变其方向使得其人脸背离相机等，则可能不再需要对人进行屏蔽。可以仅在首先判定(在步骤S204中)对象至少部分地在输出图像O_n和输出图像流214内之后，在输出图像O_n和输出图像流中对对象进行屏蔽或标记。这种判定可以由例如对象检测模块230和/或对象跟踪模块240做出，然后被传送给特征添加模块250。还设想这样的判定可以由特征添加模块250本身做出，或由具有足够信息来确定对象是否或将至少部分地在输出图像O_n和输出图像流214内的任何其他模块做出。

如本文先前所述，判定对象是否“在场景内”包括：考虑对象在场景中的位置是否使得在没有执行屏蔽的情况下，它在输出图像O_n和输出图像流214中至少部分地可见。

一般而言，应当注意，尽管在图2A中示出了由不同的实体/模块执行的对象检测和对象跟踪，但是当然也可以是这样的，即两种功能都由组合的对象检测和跟踪功能提供，并且在例如相同的这种组合的对象检测和跟踪模块中实施。这种情况可以根据用于对象检测和跟踪的确切算法而变化，因为一些算法例如可以基于自己对一些图像中的对象位置的观察等来跟踪对象。总体而言，当然也可以是以下情况，即将图2A中所示的两个、三个或甚至所有模块220、230、240和250实施为单个模块，或至少实施为比图2A中所示数量更少的模块。这是因为各种模块不一定代表物理模块，而是也可以仅使用软件来实施，或例如作为物理硬件和软件的组合来实施，如本文稍后将描述的。

作为图2A和图2B以及本文所设想的改进的方法200的概括，应当注意到，通过使用由一个或多个像素213提供的在其他情况下将由于其他原因而被丢弃的关于场景的像素信息(例如通过裁剪或屏蔽一个或多个像素213)，当对象至少在一个或多个像素213内时(即，在对象至少部分地进入输出图像O_n和输出图像流214中描述的场景部分之前)，对象检测(和/或跟踪)可以已经获取关于对象的信息。这表示当(或如果)对象稍后进入后续输出图像O_k>n的可见区域212时，待屏蔽(或标记)的对象的位置可能已经是已知的。这与通常可用的方法相反，通常可用的方法中由一个或多个像素113提供的关于场景的像素信息从不被提供给任何对象检测和/或跟踪功能，并且其中，这样的对象检测和/或跟踪因此不知道关于包括在一个或多个像素113内的对象的任何信息。因此，虽然通常可用的方法面临较高的失败风险，例如不能正确地识别、定位、跟踪和屏蔽/标记突然出现在输出图像流的输出图像中的对象，但是根据本公开的设想的方法200可以更好地执行，因为它使得能够使用丢弃的关于场景的像素信息，即使该像素信息仍然没有被包括在任何输出图像和输出图像流中。

现在将参考图3A至图3E更详细地说明图像处理模块220可以选择从输入图像和输入图像流中丢弃(即裁剪或屏蔽)某些像素的设想情况的各种示例。

图3A示意性地示出了电子图像稳定(EIS)导致某些像素被裁剪的情况。输入图像I_n包括人320a和人320b形式的两个对象。先前的输入图像I_n-1是相同的场景，并且从图3A中可以看出，相机在捕获图像I_n-1和I_n之间移动。假设该移动是由于相机的抖动。如图3A所示，检测到的运动与平移向量d相对应。使用图像处理310，可以通过简单地应用逆向平移-d来校正相机的抖动，使得图像I_n中的人320a和320b将在先前的图像I_n-1中与他们本身重叠(如虚线轮廓所示)。然而，为了使输出图像中所描述的场景的大小保持恒定，这种逆向平移将产生中间图像I′_n，其中，输入图像I_n的多个像素213已经被裁剪以保持人320a和320b在场景中静止，并且其中，中间图像的剩余可视区域212因此小于输入图像I_n的可视区域。

在通常可用的屏蔽或标记图像流中的对象的方法中，对象检测算法将被提供仅由中间图像I′_n的区域212中的像素提供的关于场景的像素信息。由于人320a仍然完全在区域212内，对象检测算法对于定位人320a并将人320a识别为例如待屏蔽或标记的对象没有问题。然而，由于人320b现在在区域212中仅部分可见，相同的算法可能很难正确识别和定位人320b。利用本文所设想的方法，这将不成为问题，因为对象检测算法也将被提供由丢弃的像素213提供的关于场景的像素信息。由于人320b在区域212的像素和像素213的联合集合中是完全可见的，因此对象检测算法也将成功地定位和识别人320b。

图3B示意性地示出了以下情况，其中，用于捕获输入图像流的镜头布置使得输入图像I_n受到所谓的桶形失真。实际上，所描述的场景在背景中具有矩形网格321a(例如砖墙等)，并且在前面包括应当被屏蔽或标记的对象321b。由于镜头布置导致的桶形失真，网格321a的线在输入图像I_n中不再是笔直的。为了校正这种桶形失真，存在各种算法，这些算法可以用作输入图像I_n的图像处理311的一部分，以创建中间图像I′_n，其中，网格321a的线再次是笔直的。然而，这种算法的连带效果是，它们在拉直网格321a的线的同时，也使所描述的场景的外围形状变形。例如，如图3B所示，输入图像I_n将场景描述为具有矩形外围，但是网格321a的线并非任一处都是笔直的。在图像处理311之后，网格321a的线再次是笔直的，但是所描述的场景的外围现在已经扭曲，使得看起来如同场景的先前矩形外围的角现在已经被径向向外拉。通常不希望向用户呈现这种场景的非矩形描述，因此图像处理311还包括以下步骤，其中，在桶形失真校正之后位于矩形区域212之外的所有像素都被裁剪(或屏蔽)。在图3B中，这些被裁剪或屏蔽的像素是像素213。因此，作为由于桶形失真校正和随后对输入图像I_n的一个或多个像素的裁剪/屏蔽而应用于输入图像I_n的变换的结果，处理311导致由像素213提供的关于场景的像素信息被丢弃，并且不包括在基于中间图像I′_n生成的输出图像O_n中。

从图3B也可以看出。对象321b完全位于输入图像I_n中描述的场景内，但是最终仅部分位于中间图像I′_n的矩形区域212内。因此，如同传统方法，仅由区域212的像素提供关于场景的像素信息的对象检测算法将因此可能无法正确地识别和/或定位对象321b，并且对象321b将很可能不会在输出图像O和输出图像流中被合适地屏蔽或标记。然而，在本文所设想的改进方法200中，对象检测算法还被提供由像素213提供的关于场景的像素信息，并且因此将有更大的机会合适地识别和定位对象321b，因为对象321b完全位于区域212中的像素和像素213的联合集合内。如本文所设想的，其他类型的失真(诸如枕形失真、切向失真等失真)也可能导致需要变换输入图像I_n以校正这种失真，并且用于校正的算法可能导致在校正之后所描述的场景的外围是非矩形的，并且一个或多个像素213因此由于位于期望的矩形区域212之外而在中间图像I′_n中被丢弃(即被裁剪或屏蔽)。本文描述的设想的方法同样适用于这种替代情况。

图3C示意性地示出了另一种情况，其中，由输入图像流的一个或多个像素提供的像素信息由于应用于第一输入图像流的变换而最终被丢弃。本文中，设想输入图像流由在不同方向上瞄准的几个相机记录的图像数据形成，并且图像I_n因此是通过将来自几个相机的图像数据拼接在一起所创建的场景的全景图，作为处理的早期部分的一部分。处理图像流的这种早期部分包括在各种(映射)透视投影方面应用各种变换，例如在将这些投影的图像拼接在一起以形成输入图像I_n之前，将来自几个相机的图像投影到公共的例如柱面或球面上。作为这种透视投影的结果，输入图像I_n中描述的场景322a的外围是非矩形的。

场景还包括对象322b和对象322c，它们都在输入图像I_n中描述的场景322a内。然而，呈现这种场景的非矩形描述是不期望的，并且输入图像流的处理的另一部分312因此包括裁剪(或至少屏蔽)位于由这种处理产生的中间图像I′_n中的矩形区域212之外的输入图像I_n的所有像素213。因此，对象322b将最终完全位于区域212之外，而对象322c仅部分在区域212内。如前所述，传统方法仅向对象检测算法提供由区域212内的像素提供的关于场景的像素信息，将无法识别和定位对象322b，并且也很可能无法或至少难以正确识别和定位对象322c。因此，对输出图像O_n和输出图像流中的对象322c进行合适的屏蔽或标记可能会失败，并且如果(或每当)对象322b部分地进入输出图像流的后续输出图像中的区域212，传统过程也不会准备好直接屏蔽或标记对象322b，因为跟踪器(如果使用)还没有被提供对象322b的任何先前位置。利用改进的方法，还向对象检测算法提供了关于由一个或多个像素213提供的场景的像素信息，并且因此即使对象322b在区域212之外，也可以设法定位和识别对象322b，并且还帮助更好地定位和识别对象322c，即使该对象仅部分地位于将构成输出图像O_n的内容的区域212内。此外，如果使用跟踪，一旦在像素213中检测到对象，就可以将对象322b的位置提供给对象跟踪算法，并且因此一旦对象322b在区域212中变得至少部分地可见，就可以在输出图像流的后续输出图像中执行对象322b的屏蔽或标记。

图3D示意性地示出了以下情况，其中，光路在到达图像传感器之前如何穿过镜头布置以及光如何击中图像传感器，可能导致输入图像I_n的一个或多个像素被认为具有比输入图像I_n和输入图像流中的其他像素更低的视觉质量。本文使用鱼眼镜头捕获输入图像I_n和输入图像流，例如，与更传统的具有更长焦距的镜头相比，从多个方向捕获光并提供更大视场的镜头，从而可以在单个图像中捕获场景的更大部分。该场景是停车场，并且包括如输入图像I_n中所描述的朝场景中心移动的车辆323a。然而，由于这种镜头布置的特性，从场景的中心区域323b外部发出的光已经在镜头布置的外围穿过镜头布置，并且特别是以与从场景的中心区域323b内部发出的光相比以更大的角度。这可能导致在该(外围)光照射到图像传感器的图像传感器部分(最通常的是在图像传感器的一个或多个外围区域)，所记录的场景的分辨率较低。这也可能导致更少的光子击中传感器的这些区域，这可能导致所谓的光晕，其中，在输入图像I_n中看起来离场景的中心越远，场景显得就越暗。为了避免向观看输出图像流的用户呈现这种较低质量的细节，圆形区域323b之外的像素可以被认为比属于输入图像I_n和输入图像流的一个或多个其他区域的像素(诸如圆形区域323b内的像素)具有更低的视觉质量。作为输入图像I_n和输入图像流的处理313的一部分，区域212之外的一个或多个像素213因此可以在形成输出图像O_n和输出图像流的基础的结果中间图像I′_n中被裁剪或至少被屏蔽，并且由像素213提供的关于场景的像素信息因此被丢弃并且不包括在任何输出图像和输出图像流中。因此，当汽车323a在中间图像I′_n的区域212之外时，传统方法将不能检测到汽车323a，并且当(或如果)汽车323a稍后进入后续中间图像I′_k>n和输出图像的区域212时，对象跟踪算法(如果使用)将不会准备好，并且当(或如果)汽车首先(部分地)进入区域212时，对汽车323a的屏蔽将因此失败。对于本文描述的设想的改进方法200，这将不成为问题，因为对象检测算法还将被提供由一个或多个像素213提供的丢弃的关于场景的信息，并且因此将能够通知对象跟踪算法，使得一旦汽车323a在区域212内和输出图像流的输出图像内变得至少部分地可见，就准备好提供汽车323a的位置，并且汽车323a因此可以在输出图像流中被合适地屏蔽或标记。

图3E示意性地示出了以下情况，其中，丢弃的像素信息是由一个输入图像流与另一个输入图像流的拼接产生的。本文中，第一输入图像流的输入图像/>捕获包括对象324a、324b和324c的场景的一部分。第二输入图像流/>的另一输入图像/>捕获场景的另一部分(即包括第一输入图像流没有捕获的场景的部分)，并且包括对象324c和另一对象324d。作为输入图像/>和/>的处理314的一部分，识别两个输入图像/>和/>之间的重叠(例如通过找出场景的哪些对象被包括在两个输入图像/>和/>中，例如对象324c，以及这些公共对象的方向和大小如何在输入图像/>和/>之间改变)。设想可以使用任何合适的已经可用的技术将多个图像拼接在一起以形成例如场景的全景图像来执行重叠的识别。

作为处理的部分314的一部分，判定所得到的中间图像的区域212之外的像素213，以及所得到的中间图像/>的区域212’之外的像素213’要被裁剪，并且不包括在所得到的输出图像O_n中。因此，至少由第一输入图像/>的一个或多个像素213提供的关于场景的像素信息将不包括在任何输出图像流的任何输出图像O_n中。换句话说，第一输入图像/>和第一输入图像流的一个或多个像素213(至少部分地)源自也由第二输入图像/>和第二输入图像流捕获的场景的区域，其中，在图3E所示的特定情况下该区域是对象324c的区域。

结果，在由邻接两个中间图像和/>产生的输出图像流的输出图像O_n中，传统方法可能难以合适地屏蔽例如对象324b和324c，因为对象324b在区域212中仅部分可见，并且因为对象324c在中间图像/>中仅部分可见，并且因为在第一输入图像/>的像素213中提供的关于场景的像素信息被丢弃并且不可用于对象检测算法。然而，在本文所设想的改进方法中，这不成为问题，因为由像素213提供的丢弃的关于场景的像素信息仍然被提供给对象检测算法，并且所有对象324a-d因此可以在输出图像流中被合适地屏蔽或标记，如已经本文先前几次描述的。

因此，图3A至图3E用于示意性地示出这种情况的示例，其中，在处理输入图像流期间，关于场景的像素信息被丢弃，以生成一个或多个输出图像流，使得该像素信息(如由特定输入图像流的特定输入图像中的像素提供)不包括在以此生成的任何输出图像或输出图像流中。当然，除了参考图3A到图3E所描述的那些情况之外，还可能存在其他情况，其中，像素被裁剪或屏蔽，作为特定输入图像的处理的一部分，而这种裁剪或屏蔽是出于除了对象检测和/或跟踪之外的其他原因，并且其中，，关于场景的因此被丢弃的像素信息被本文所设想的以及在例如所附权利要求中所陈述和使用的对象检测算法所使用。因此，本文所设想的改进方法被设想为能够使用关于场景的任何像素信息，该像素信息在其他情况下在处理输入图像和输入图像流以生成一个或多个输出图像和输出图像流时被丢弃。这与提供该丢弃的像素信息的输入图像流的像素例如在处理期间被裁剪或屏蔽的确切原因无关，只要丢弃的关于场景的像素信息不包括在通过对输入图像和输入图像流进行处理而生成的任何输出图像流的任何输出图像中。这允许方法在检测和屏蔽输出图像流中的一个或多个对象时也利用该像素信息。在方法的一些实施例中，由于如图3A至图3E所描述的一种或多种(或甚至所有)情况，方法可能特别需要丢弃关于场景的像素信息。在方法的其他实施例中，由于例如图3A至图3E中所描述的任意两种情况的任何组合、这些情况中任意三种的任何组合、这些情况中任意四种的任何组合或所有五种情况的组合，该方法可能特别需要丢弃关于场景的像素信息。因此，丢弃关于场景的像素信息的确切原因被设想为从包含本文描述的所有可能情况(例如参考图3A到图3E)的单个列表中选择，并且还包含两个或更多这样的情况的所有可能的组合。

要特别清楚的是，应当注意，通常可用的方法可以包括这样的情况，其中，从相机接收的图像流首先被以某种方式处理以生成处理后的图像流，并且其中，该已处理的图像流然后被用于生成和输出第一输出图像流。特别地，通常可用的方法可以包括使用该已处理的图像流，除了第一输出图像流之外，还生成附加的第二输出图像流，并且其中，该第二输出图像流的生成可以包括裁剪或屏蔽已处理的图像流的一个或多个像素。

例如，在这种“传统情况”下，可以接收并处理来自相机的输入图像流，以生成例如示出场景概览的第一输出图像流。相机可以是例如提供大视场的鱼眼相机，或例如具有自顶向下的场景视图的鸟瞰相机。对于观看场景概览的操作者而言，如果在场景概览的特定区域中出现重要的事物，可能希望能够例如数字地放大场景。为了执行这种数字放大，可以首先定义场景的特定区域(例如通过点击或以其他方式标记第一输出图像流中的感兴趣区域)，然后可以裁剪第一输出图像流的该区域之外的所有对应像素，并且可以对剩余像素进行上采样，作为生成附加的第二输出图像流的一部分，该第二输出图像流示出了场景的以此数字放大的细节视图。因此，存在基于单个输入图像流生成的两个输出图像流，并且该处理包括从第一输出图像流中裁剪像素以生成至少第二输出流。

然而，最重要的是，应当注意，在这种“传统情况”下，当生成第二输出图像流时，像素的裁剪并不与本文所描述的以及如所附权利要求中所使用的关于场景的像素信息的丢弃相对应。这是因为在传统情况下，裁剪的像素仍然存在于场景的概览中，因此没有丢弃由输入图像流的一个或多个像素提供的关于场景的像素信息，使得该“丢弃的”像素信息不包括在任何输出图像流中。

如果在描述传统情况时使用本公开的术语，如果例如由图像传感器记录的一个或多个像素被认为具有较低的视觉质量(例如由于使用了鱼眼镜头)，并且来自图像传感器的原始图像流首先通过例如裁剪或屏蔽被认为具有较低视觉质量的像素而被处理，则可能发生关于场景的像素信息的丢弃，并且其结果被提供作为用于生成两个输出图像流的输入图像流。在本公开中，特别是在所附权利要求中使用的“输入图像流”在本文是在低质量像素被屏蔽或裁剪之前的图像流，并且丢弃的关于场景的像素信息是由这些裁剪或屏蔽的像素提供的关于场景的信息。

在传统情况下，当生成两个输出图像流中的任何一个时，不提供关于场景的这种被丢弃的信息，并且因此不用于例如检测概览中的对象和/或屏蔽概览(第一)或详细(第二)输出图像流中的一个或两个中的对象，并且如果对象恰好至少部分地在低质量像素内，则传统情况因此受到本文描述的缺点。换句话说，参考图1，在传统情况下，对对象的任何检测仅基于由中间图像I′_n的区域112内的像素提供的关于场景的像素信息，而不是基于由一个或多个像素113提供的关于场景的像素信息。

本文所设想的(隐私)屏蔽例如可以具有纯色/不透明的颜色、半透明，包括对对象应用运动模糊，使得对象不再容易被识别，和/或例如对输出图像流中的对象进行强制像素化和/或模糊，使得对象不再容易被识别，等。在其他设想的实施例中，隐私屏蔽可以包括使对象本身在输出图像流中至少部分地透明，使得背景通过对象可见。如果例如前面没有对象的背景图像是可用的(来自例如在较早时刻捕获的输入图像流的输入图像)，则这是可能的。本文所设想的标记例如可以是添加到输出图像流中的任何图形特征，该图形特征不屏蔽对象，而是例如替代地提供关于对象的附加信息(诸如对象的确认身份、对象的识别类型，或例如通过例如添加包围对象的矩形等，仅在视觉上标记对象在输出图像流中的位置)。

本公开还设想了用于屏蔽或标记图像流中的对象的装置，如现在将参考图4A和图4B进行更详细的描述。

图4A示意性地示出了装置400的实施例。装置400至少包括处理器(或“处理电路”)410和存储器412。本公开中所使用的“处理电路”或“处理器”例如可以是能够执行存储在存储器412中的软件指令的一个或多个合适的中央处理单元(CPU)、多处理器、微控制器(μC)、数字信号处理器(DSP)、图形处理单元(GPU)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)等的任何组合。存储器412可以在处理器410的外部，或在处理器410的内部。本公开中所使用的存储器例如可以是随机存取存储器(RAM)和只读存储器(ROM)的任何组合。存储器412包含(即存储)指令，该指令当由处理器410执行时，使得装置400执行例如本文先前公开的方法200的任何实施例。装置400还可以包括一个或多个附加项416，在某些情况下，这些项对于执行该方法是必要的。在一些实施例中，装置400例如可以是监视相机(其可以形成例如监视相机系统的一部分，并且其可以被配置成如本文所讨论的那样捕获输入图像流)，并且附加项416然后可以包括例如图像传感器和例如一个或多个镜头(或镜头布置)，用于将从场景(监视相机所指向的)捕获的光聚焦在图像传感器上，以捕获场景的输入图像流。附加项416还可以包括例如捕获场景所需的各种其他电子部件，例如合适地操作图像传感器和/或镜头。这允许方法在监视相机本身中执行(即在“边缘”)，这可以减少出于隐私屏蔽等目的对从监视相机输出的图像流进行任何后续处理的需要。如果装置400要连接到网络(例如如果装置400是网络相机)，则装置400还可以包括网络接口414。网络接口414可以是例如支持例如Wi-Fi(如在例如IEEE802.11或后续标准中定义的)的无线接口，和/或支持例如以太网(如在例如IEEE802.3或后续标准中定义的)的有线接口。例如，可以提供通信总线418来互连各个部分410、412、414、416和418，使得这些部分可以根据需要相互通信以获取期望的功能。

图4B示意性地示出了参考图4A描述的装置400的实施例，但是被表示为与例如参考图2A讨论的那些相对应的功能块/模块的集合。装置400至少包括图像处理模块220、对象检测模块230和特征添加模块250。如果还使用对象跟踪，则装置400还可以包括对象跟踪模块240。模块220、230、250(以及可选的240)被互连，使得它们可以在必要时彼此通信(由线420表示)，即使得它们可以操作以执行本文所设想的以及例如参考图2A和图2B所描述的方法。模块220、230、240和250中的一个、多个或全部例如可以仅利用软件、仅利用硬件和/或作为软件和硬件的组合来实施。这种软件例如可以由存储在存储器412中的指令来提供。每个模块220、230、240和250可以被提供为单独的实体，或模块220、230、240和250中的两个或更多个或全部可以被提供为形成同一单个实体的一部分。

本文的设想还提供了一个或多个计算机程序。一个这样的计算机程序例如可以用于执行本文讨论的在输出图像流中进行屏蔽的方法400，用于在参考图4A和图4B描述的装置400中执行这样的方法。计算机程序例如可以与存储在装置400的存储器412中的指令相对应，使得当处理器(或处理电路)410执行指令时，由装置400执行相应的方法200或其任何实施例。在其他设想的实施例中，计算机程序可以是不可由处理器410读取的形式，而是作为例如根据编程语言指定的文本来提供，该文本需要被编译成处理器410可读的格式，例如通过使用合适的编译器。编译器当然可以由处理器410本身执行，或甚至形成处理器410本身的一部分用于实时编译。

本文的设想还提供了一个或多个计算机程序产品。每个这样的计算机程序产品包括计算机可读存储介质，其上存储有一个或多个上述计算机程序。例如，一个计算机程序产品可以包括用于在输出图像流中执行如本文公开和讨论的所设想的屏蔽方法的计算机程序。(计算机可读)存储介质(例如“存储器”)可以是例如随机存取存储器(RAM)和只读存储器(ROM)的任何组合。在一些实施例中，计算机可读存储介质可以是暂时性的(例如处理器可读的电信号)。在其他实施例中，计算机可读存储介质可以是非暂时性的(例如以非易失性存储器的形式，诸如硬盘驱动器(HDD)、固态驱动器(SSD)、安全数字(SD)卡等、USB闪存驱动器等，诸如磁存储器、光存储器、固态存储器或甚至远程安装的存储器的任何组合)。也可以设想其他类型的计算机可读存储介质，只要它们的功能允许存储计算机程序，使得它们可由处理器和/或中间编译器读取。

作为本文呈现的各种实施例的概括，本公开提供了在图像流中屏蔽或标记对象的改进方式，特别是在对象检测器和/或对象跟踪器由于对象例如在从输入图像流生成的输出图像流中仅部分可见而可能无法合适地指示和/或跟踪一个或多个对象的情况下。本公开基于这样的认识，即除了对象检测和/或跟踪(诸如例如由于图像稳定、图像校正、透视投影、拼接或例如本文描述的任何其他变换)之外，还可能出于其他原因对输入流进行处理，并且当作为输入图像流处理的一部分对像素进行裁剪或屏蔽时，关于场景的有价值的像素信息可能会丢失或丢弃。与这种实现相结合，通过在没有进一步考虑的情况下不丢弃关于场景的这种像素信息，而是使用这种像素信息作为对象检测的输入，本公开提供了优于通常可用的方法和技术的上述优点，从而降低了例如在输出图像流中未能合适地屏蔽或标记对象的风险。

尽管以上可能以特定的组合描述了特征和元素，但是每个特征或元素可以在没有其他特征和元素的情况下单独使用，或在具有或不具有其他特征和元素的各种组合中使用。此外，本领域技术人员在实践所要求保护的发明时，通过研究附图、公开内容和所附权利要求，可以理解和实现所公开的实施例的变型。

在权利要求中，词语“包括”不排除其他元素，并且不定冠词“一”不排除多个。在互不相同的从属权利要求中引用某些特征并不表示这些特征的组合不能被有利地使用。

附图标记列表

100 传统屏蔽/标记的方法

110，210 输入图像流

112，212 图像处理后剩余的像素区域

113，213 提供丢弃的关于场景的像素信息的像素

113'，213' 提供丢弃的关于场景的像素信息的像素

114，214 输出图像流

120，220 图像处理模块

130，230 对象检测模块

132，232 对象检测数据

133，233 对象检测数据

140，240 对象跟踪模块

142，242 对象跟踪数据

150，250 特征添加模块

200 屏蔽/标记的改进方法

320a，320b 对象

310-314，314' 图像处理

321a；321b 对象；矩形背景网格

322a 如所描述的场景

322b，322c 对象

323a 对象

323b 被认为具有较低的视觉质量的像素之外的区域

324a-d 对象

400 装置

410 处理器

412 存储器

414 网络接口

416 附加部件

418，420 通信总线

I_n 输入图像

I_n 中间图像

O_n 输出图像/>

Claims

1.一种屏蔽或标记图像流中的对象的方法，所述方法包括：

通过对捕获场景的至少一部分的第一输入图像流进行处理来生成一个或多个输出图像流，其中，所述处理包括由所述第一输入图像流的一个或多个像素提供的关于所述场景的像素信息，所述像素信息不包括在所述一个或多个输出图像流中的任何输出图像流中，以及

通过使用不包括在所述一个或多个输出图像流中的任何输出图像流中的所述像素信息来检测所述场景中的对象，

其中，生成所述一个或多个输出图像流包括：在判定所述对象至少部分地位于所述一个或多个输出图像流中的至少一个输出图像流内之后，至少暂时屏蔽或标记所述一个或多个输出图像流中的所述至少一个输出图像流中的所检测到的对象，并且

其中，在所述一个或多个输出图像流中的任何输出图像流中不包括所述像素信息是由于以下项中的至少一项：

i)所述第一输入图像流的所述一个或多个像素源自以下项中的至少一项：

用于捕获所述第一输入图像流的图像传感器的外围区域；经由镜头布置的外围部分到达所述图像传感器的光；以及以足以导致光晕的角度到达所述镜头布置的光；

ii)在所述第一输入图像流中，所述第一输入图像流的所述一个或多个像素位于所述场景的所述至少一部分的非矩形描述的矩形区域之外；

iii)所述第一输入图像流的属于所述第一输入图像流和第二输入图像流之间的重叠的所述一个或多个像素捕获所述场景的未被所述第一输入图像流捕获的附加部分，以及

iv)所述第一输入图像流的一个或多个像素由电子图像稳定过程裁剪或屏蔽。

2.根据权利要求1所述的方法，其中，所述非矩形描述由以下项中的至少一项导致：

a)镜头布置的属性，所述场景的所述至少一部分通过所述镜头布置捕获，以及

b)应用于所述第一输入图像流的变换。

3.根据权利要求2所述的方法，其中，所述变换作为以下项中的一项或多项的一部分来应用：

b-1)镜头失真校正过程；

b-2)合成所述场景的所述至少一部分的鸟瞰图；以及

b-3)应用于将多个图像拼接在一起的一个或多个投影，所述多个图像捕获所述场景的不同部分，并且其中，这些多个图像中的至少一个图像被包括为所述第一输入图像流的一部分。

4.根据权利要求3所述的方法，其中，所述镜头失真校正过程包括桶形失真校正、枕形失真校正和切向失真校正中的至少一个。

5.根据权利要求1所述的方法，所述方法在被配置成捕获所述第一输入图像流的监视相机中执行。

6.根据权利要求1所述的方法，其中，判定所述对象至少部分地位于所述输出图像流内包括使用对象跟踪算法。

7.一种用于屏蔽或标记图像流中的对象的装置，所述装置包括：

处理器，以及

存储指令的存储器，所述指令当由所述处理器执行时，使得所述装置：

使用不包括在所述一个或多个输出图像流中的任何输出图像流中的所述像素信息来检测所述场景中的对象，

8.根据权利要求7所述的装置，其中，所述装置是被配置成捕获所述第一输入图像流的监视相机。

9.一种计算机可读存储介质，包括用于屏蔽或标记图像流中的对象的计算机程序，所述计算机程序被配置成当由装置的处理器执行时，使所述装置：

i)所述第一输入图像流的所述一个或多个像素源自以下项中的至少一项：用于捕获所述第一输入图像流的图像传感器的外围区域；经由镜头布置的外围部分到达所述图像传感器的光；以及以足以导致光晕的角度到达所述镜头布置的光；