CN112543330B

CN112543330B - 模糊隐私遮蔽的编码方法、系统及存储介质

Info

Publication number: CN112543330B
Application number: CN202010904640.0A
Authority: CN
Inventors: 维克托·埃德帕尔姆; 袁嵩
Original assignee: Axis AB
Current assignee: Axis AB
Priority date: 2019-09-20
Filing date: 2020-09-01
Publication date: 2022-10-18
Anticipated expiration: 2040-09-01
Also published as: US20210092398A1; US11240510B2; EP3796654A1; CN112543330A

Abstract

本公开涉及模糊隐私遮蔽。具体地，描述了实施并且使用由编码器对包括多个图像帧的视频序列进行编码的技术的方法，装置，包括计算机程序产品。从视频流接收图像帧。接收输入，该输入指示所接收的图像帧中的应当被施加隐私遮蔽的一个或多个区域。该一个或多个区域由一个或多个编码单元表示。图像帧被编码成输出帧，其中，用具有设置为零的变换系数的帧内预测编码单元来代替一个或多个区域中的图像数据，该帧内预测编码单元是从编码器的预测阶段中获得的。

Description

模糊隐私遮蔽的编码方法、系统及存储介质

技术领域

本发明涉及视频编码，并且更具体地涉及对包括一个或多个隐私遮蔽的视频流进行编码。

背景技术

监视相机被用于许多不同的应用中，在室内和在户外两者，用于监视各种环境。可以由例如操作者或者警卫来监视描绘捕捉的场景的图像。在特定情况下，可能需要与一个部分不同处理所捕捉的图像的另一部分——诸如当例如为了个人诚信而需要排除图像的一部分时。

在此类实例中，操作者可以在监控装备的设定期间定义一个或多个隐私遮蔽。隐私遮蔽可以是静态的或动态的。直到操作者决定移动或去除它们之前，静态的隐私遮蔽典型地不移位。动态隐私遮蔽可以随时间而改变，并且操作者也可以定义应当何时施加隐私遮蔽。例如，操作者能够定义动态隐私遮蔽；使得如果在遮蔽的区域内检测到面部，则将面部遮蔽出去，否则将不向该区域施加遮蔽。

常常将隐私遮蔽作为覆盖施加到图像。隐私遮蔽常常具有多边形的形状，但是其他形状(其更精密地遵循要隐去的区域的形状)也是可能的。一些隐私遮蔽采取不透明区(例如，均匀黑区)的形式，而其他隐私遮蔽采取其中在隐私遮蔽区域上将图像数据“涂抹”的模糊的形式，或像素化的形式。像素化是单个像素值(常常是编码单元内的多个或所有像素的平均值)替换编码单元中的所有像素的处理。尽管如此，通常，与像素化相比，考虑对隐私遮蔽进行模糊更理想，因为其允许平滑边缘并且因此更好看。然而，与在硬件块中当前经济上可行的相比，模糊更难以实现并且需要更多计算资源来实施。

发明内容

本发明的目的是提供用于对具有多个图像帧的视频序列进行编码的技术，其使得能够向视频施加有美感的隐私遮蔽，而不会显著增加编码所需要的计算机资源方面的任何成本。此目的以及其他目的通过根据权利要求1所述的方法、根据权利要求8所述的编码器系统、根据权利要求12所述的计算机程序产品以及根据权利要求14所述的存储介质来实现。

根据第一方面，在计算机系统中通过用于对具有多个图像帧的视频序列进行编码的方法来全部或至少部分地实现这些和其他目的。该方法包括：

●从视频流接收图像帧；

●接收输入，该输入指示所接收的图像帧中的应当被施加隐私遮蔽的一个或多个区域，其中，一个或多个区域由一个或多个编码单元表示；

●将图像帧编码成输出帧，其中，用具有设置为零的变换系数的帧内预测编码单元来代替一个或多个区域中的图像数据，帧内预测编码单元是从编码器的预测阶段中获得的。

这提供使用在视频编码器的预测阶段中可用的信息的方式，并且使用该信息以产生与常规像素化的隐私遮蔽相比更加有美感的模糊的隐私遮蔽。此外，像素化解决方案典型地具有最大尺寸限制，因此它们将仅仅支持高达图像的某部分的遮蔽。当使用根据本发明的技术时，此类最大尺寸不存在。使用该方法还允许在不要求任何大量附加的计算资源的情况下来产生隐私遮蔽。此外，能够实现理想的帧同步，并且能够保证编码器不以任何方式改变隐私遮蔽。

根据一个实施例，由编码器自动地执行选择编码单元的尺寸的步骤。这允许编码器选择其在质量和比特率之间的最佳折衷选择。

根据一个实施例，由用户手动地进行选择编码单元的尺寸的步骤。能够接收用户输入允许用户对编码进行更好的控制，以及覆写由编码器确定的任何设置的能力。在特定情况下可以尤其有用，诸如例如满足特定像素化水平的正式用户需求。

根据一个实施例，基于期望的模糊水平来选择编码单元的尺寸。通常，较大的编码单元提供更多的模糊。可能存这样的情形：例如，其中对象位于远方并且较小。在这种情况下，与其中你具有对象的全貌图并且可能需要更多模糊的情形形成对比，较小的模糊可能是理想的，使得对象的特定特征仍然是可区分的。

根据一个实施例，从预测阶段获得的图像数据是从在预测阶段的结尾输出的图像帧获得的图像数据，并且该图像帧用作编码器的变换阶段的基础图像帧。能够挖掘和使用已经在常规编码设置中产生的信息、而不是必须执行额外的计算，会节省计算资源并且也使得在不用必须作出任何显著修改的情况下使用常规编码器成为可能。反过来，常规(“符合标准的”)解码器也能够用于对编码的视频流进行解码。

根据一个实施例，使用对象检测技术来自动地识别所接收的图像帧中的应当被施加隐私遮蔽的一个或多个区域。这可以提供选择容易识别的大量对象(诸如图像中的停车场中的大量汽车的所有牌照，或穿着红色夹克的任何个体，等等)的有效方式。在特定实施例中，能够通过对象检测技术进行自动选择，并且然后通过人类操作员进行检验，这可以允许有益的协同效果。

根据一个实施例，按以下格式之一对视频进行编码：高效图像文件格式、高级视频编码、高效视频编码、H.265、H.266、VP9、VP10和AV1。也就是说，根据本发明的方法能够被施加于标准编码格式的范围，并且因此不需要用于解码的任何特殊的定制装备。

根据第二方面，本发明涉及用于对具有多个图像帧的视频序列进行编码的编码器系统。系统包括接收模块和编码器。接收模块被配置为：从视频流接收图像帧，以及接收输入，该输入指示所接收的图像帧中的应当被施加隐私遮蔽的一个或多个区域，其中，一个或多个区域由一个或多个编码单元表示。编码器被配置为将图像帧编码成输出帧，其中，用具有设置为零的变换系数的帧内预测编码单元来代替一个或多个区域中的图像数据，帧内预测编码单元是从预测阶段获得的。

根据第三方面，本发明涉及用于对具有多个图像帧的视频序列进行编码的计算机程序。计算机程序包括与以下步骤相对应的指令：

●从视频流接收图像帧；

根据第四方面，本发明涉及包括此类计算机程序的数字存储介质。计算机程序和存储介质涉及与方法的优点相对应的优点并且可以类似地变化。

在附图和以下说明书中阐述本发明的一个或多个实施例的详情。根据说明书和附图并且根据权利要求，本发明的其他特征和优点将是明显的。

附图说明

图1示出了根据一个实施例的用于对具有多个图像帧的视频序列进行编码的系统。

图2示出了根据一个实施例的由监视相机捕捉的场景的图像。

图3示出了根据一个实施例的由图2中的相机捕捉的图像的主要结构的示意性示例。

图4示出了根据一个实施例的将图3中的图像的像素分组到编码单元中的示意性示例。

图5示出了根据一个实施例的用于在所接收的视频流中产生隐私遮蔽的处理。

图6示出了根据一个实施例的在被施加隐私遮蔽的情况下的由图2中的相机捕捉的图像。

图7示出其中能够实施本发明的各个实施例的相机的示意性示例。

各个附图中的相似附图标记指示相似的要素。

具体实施方式

如上所述，本发明的各个实施例的一个目标是以更有美感的方式通过使用模糊对具有多个图像帧(其中至少一些图像帧应当包括隐私遮蔽)的视频序列进行编码，同时不显著地增加对计算资源的需要。

通常将由监视相机捕捉的图像传送到使用的地点，诸如可以查看和/或存储图像的控制中心。替换地，它们能够被存储在所谓的“边缘存储器”中，即，相机处的存储器，板载在相机上(诸如在SD卡上)的存储器，或与相机相连的存储器(诸如在NAS(网络附接存储)上)。在传输或边缘存储之前，典型地对图像进行编码以节省带宽和存储空间。可以以许多不同的方式(例如根据H.264、H.265标准，或其他编码标准)执行编码。

在许多数字视频编码系统中，两种主要模式被用于压缩视频帧的序列中的视频帧：帧内模式和帧间模式。在帧内模式中，通过经由预测、变换和熵编码利用单帧的给定通道中的像素的空间冗余来对亮度和色度通道(或在特定情况下RGB或拜耳数据)进行编码。编码帧被称作内帧(也被称为“I-帧”)。在I帧内，在帧内模式中对也被称为宏块、编码单元或编码树单元的像素的块进行编码，也就是说，参考相同的图像帧内的类似的块对它们进行编码，或者根本没有参考地对它们进行原始编码。

相比之下，帧间模式利用单独的帧之间的时间冗余度，并且依赖运动补偿预测技术，该运动补偿预测技术通过对像素的所选择的块对一个帧到另一个帧的像素中的运动进行编码来从一个或多个先前帧预测帧的数个部分。编码帧被称为能够以解码顺序参考先前帧的间帧、P帧(正向预测帧)，或能够参考两个或更多先前解码的帧并且能够具有用于预测的帧的任何任意的显示顺序关系的B帧(双向预测帧)。在间帧内，可以在帧间模式中对像素的块进行编码(意味着参考先前解码的图像中的类似的块对它们进行编码)或者在帧内模式中对像素的块进行编码(意味着参考相同的图像帧内的类似的块对它们进行编码或者没有参考地对它们进行原始编码)。

被编码的图像帧被布置在图片组(GOP)中。每个GOP开始于不参考任何其他帧的I帧，并且其之后是参考其他帧的许多间帧(即，P帧或B帧)。不一定非得与捕捉或显示图像帧相同的顺序来编码和解码图像帧。唯一的固有限制是必须在其他帧之前对充当参考帧的帧进行解码，使用该帧作为参考的其他帧能够被编码。在监测或监视应用中，通常实时地进行编码，意味着最实用的方法是以捕捉和显示图像帧相同的顺序来编码和解码图像帧，因为否则将存在不期望的延迟。现在将通过示例并且参考图来描述根据本发明的各个实施例的技术。

图1是图示出其中能够实施根据各个实施例的图像编码技术的系统100的示意性框图。能够例如在捉取场景的图像(例如，视频序列)的监视相机中实施系统100。

图2示出由监视相机中的图像传感器102所捕捉的场景的图像200。在图像200 中，存在多个人体模型，为了图示目的，该多个人体模型在该示例实施例中表示应当通过向他们的面部施加隐私遮蔽而使他们的身份被隐藏的人。

图3示出如由图像传感器捕捉的图像200的主要结构。图像200是由与相机中的图像传感器的像素相对应的许多像素304组成。图像可以例如由1280x720个像素、 1920x1080个像素或3840x2160个像素构成。

向对图像进行处理的图像处理单元104发送由传感器102所捕捉的图像。图像的处理能够例如包括降噪、局部色调映射、空间和时间滤波，等等。为了在本文描述的本发明的各个实施例，由图像处理单元104执行的一个重要的操作包括将图像302的像素304分组到邻居像素304的编码单元402中，如图4中所示。编码单元402也被称为块、宏块、像素块、编码树单元或编码单元。

编码单元402典型地是方形并且由例如8x8个像素、15 16x16个像素，或32x32 个像素组成。然而，也可以将像素304分组到其他尺寸和形状的编码单元402中。应当注意到，为了说明和解释目的，与在图3中的像素的尺寸相比较，夸大了在图4中的编码单元402的尺寸。在真实情景中，对图3的许多像素304典型地将存在大得多的数量的编码单元402。在经图像处理单元104处理之后，向编码器106发送经处理的图像。现在将参考图2、图5和图6来解释编码器106的操作。

在图5中能够看出，编码器106接收第一图像帧，步骤502。在图2中示出了此类图像帧的示例，如以上讨论的。接下来，编码器接收感兴趣区域(ROI)，感兴趣区域(ROI)表示将通过模糊来遮蔽的图像的区域，步骤504。也就是说，该输入指定了图像帧内的特定编码单元应当具有更好质量并且一些编码单元应当具有较低质量。通常，通过编码单元的尺寸来确定模糊的量。例如，如果编码单元被设置为4x4像素，模糊将小于如果编码单元被设置为64x64像素时的模糊，并且也将在结果得到的图像中产生较平滑边缘。应当注意到，在一些实施例中，也能够通过改变用于编码单元的变换系数的数作为对改变编码单元的尺寸的替代或补充来改变图像的模糊。典型地，数较小的变换系数引起较大量的模糊，并且相反地，用于编码单元的数较大的变换系数导致较小量的模糊。

能够由用户通过为本领域技术人员所公知的常规类型用户接口来提供ROI。替换地，能够使用某版本的自动对象检测。例如，仅仅提及多个示例，对象检测算法能够用于自动地识别所捕捉的图像中的任何面部或汽车上的牌照，等等。

典型地，隐私遮蔽的边界被调整为与编码单元402的边界重合，使得隐私遮蔽覆盖一定数量的整体编码单元402。当使用H.265编码方案时，编码单元402的尺寸能够被编码器106自动地选择，并且典型地是4x4、8x8、16x16、32x32或64x64像素。然而，在一些实施方式中，编码单元尺寸的该自动选择能够被用户手动覆写并且被设置为用户指定值。

接下来，编码器执行图像帧中的编码单元的帧内预测和量化以生成图像帧的简化表示，步骤506。这些是本领域技术人员所公知的常规操作并且将因此在这里不在任何详情中描述。

在使用诸如H.264或H.265之类的常规编码技术的常规编码器中，帧内预测和量化步骤之后是向简化的图像中的编码单元施加变换系数的集合以向简化的图像添加进一步的详情。例如，图像的不同的部分可以包括与图像的其它部分相比较显著不同的频率，并且当使用常规编码器时在编码步骤中典型地被抑制或去除。

然而，根据在本文描述的遮蔽技术，对于图像的与遮蔽的区域相对应的区域，频率的此类去除或抑制不发生。而是，对于图像的所识别的ROI区域内的表示将被隐私遮蔽的区域的任何编码单元，将变换系数设置为零，步骤508。对于ROI外部的编码单元，它们具有按照常规方式处理的变换系数。结果，这样的一个图像帧被获得：其中ROI(即，遮蔽区域)保留了来自简化的图像的“模糊”，同时ROI外部的区域具有与按照常规方式处理图像帧时它们将具有的外观相同的外观。

最后，输出被编码的图像，步骤510，处理结束于此。然后对于所接收的视频序列中的每个图像重复该处理500，因此导致具有被施加模糊的隐私遮蔽(并且其与像素化的隐私遮蔽相比较具有更平滑的外观)的编码的视频。

图7示出包括系统100的相机700，系统100诸如图1中示出的一个系统100。相机700还具有许多其他组件，但是由于这些不是本发明的一部分，所以它们未被示出并且将不在这里被进一步讨论。相机700可以是任何种类的相机，诸如可见光相机、IR相机或者热感相机。

尽管图7示出图1的编码系统100被集成到相机700中，但也可以意识到，编码系统100的一些部分或整体能够被分开地布置，并且通过有线或无线连接操作地连接到相机700以接收视频流的图像数据。也可以没有隐私遮蔽地从相机700向例如控制中心传送图像，并且在控制中心中(例如在VMS(视频管理系统)中)施加隐私遮蔽。在这样的情况下，编码系统可以被布置在VMS中或否则被布置在控制中心中并且用于所谓的代码转换，其中从相机接收被编码的图像、但是现在利用隐私遮蔽对其进行解码并且然后重新编码。如果不同的访问权利施加于图像的不同的用户，可能对这感兴趣。例如，可能希望记录没有隐私遮蔽的视频序列以用于供警察的以后取证使用，但是不授权观看实时传输的警卫来观看未遮蔽的图像。

在本文描述的本发明的各个实施例能够被用于具有内帧和随后的间帧的GOP结构的任何编码方案，例如，所有为本领域技术人员所公知的高效视频编码 (HEVC/H.265)、通用视频编码(VVC)、基本视频编码(EVC)、VP9，和AV1。

因此将编码器适配为如上所述对视频流进行编码。编码器能够包括，或被连接到用于调取预先计算的运动矢量的存储器。编码器能够包括处理单元用于计算图像变换，和/或从图像变换计算样本运动矢量。替换地，或另外地，编码器能够被适配为接收从单独的计算单元图像变换和/或运动矢量，该单独的计算单元被适配为计算或确定此类图像变换和/或运动矢量。

编码器典型地包括一个或多个处理单元(例如，CPU)用于如上所述对所接收的图像数据进行编码。CPU例如能够被适配为运行具有被适配为执行当由CPU执行时来执行任何以上所描述的实施例的编码方法的指令的从计算机可读存储介质安装的软件。编码器可以进一步被适配为(例如，经由因特网)无线地或有线地向被适配为对编码的视频流进行解码的解码器传送编码的视频流。

在本文公开的系统(例如，编码器)和方法能够被实施为软件、固件、硬件或其组合。在硬件实施中，在以上描述中提及的功能单元或组件之间的任务的划分不一定对应于划分为物理单元；相反，一个物理组件能够执行多个功能，并且可以以协作通过多个物理组件来执行一个任务。

特定组件或所有组件可以被实施为由数字信号处理器或微处理器执行的软件，或被实施为硬件或专用集成电路。可以在计算机可读介质上分发此类软件，该计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域技术人员公知的，术语计算机存储介质包括“易失性”和非易失性两者，在以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据之类的信息的任何方法或技术中所实施的可移动的和不可移动的介质。计算机存储介质包括但是不局限于 RAM、ROM、EEPROM、闪速存储器或其他存储器技术、CD-ROM、数字通用磁盘 (DVD)或其他光盘存储器、磁带盒、磁带、磁盘存储器或其他磁存储设备，或能够用于存储期望的信息并且能够被计算机访问的任何其他介质。

在图中的流程图和框图图示出根据本发明的各个实施例的系统、方法，和计算机程序产品的可能的实施方式的架构、功能，和操作。在这点上，流程图或框图中的每个框可以表示模块、指令的片段或部分，其包括实现用于指定的逻辑功能(多个)的一个或多个可执行的指令。在一些替换实施方式中，框中所表示的功能可以与在图中表示的顺序不同地出现。例如，取决于所涉及的功能，实际上、可以、基本上并行地、执行连续地示出的两个框，或者有时可以逆序地执行框。也请注意，能够通过执行指定的功能或动作或执行专用硬件和计算机指令的组合的基于专用硬件的系统来实施框图和/或流程图图示的每个框以及框图和/或流程图图示中的框的组合。

将理解的是，本领域技术人员能够以许多方式修改以上所描述的实施例并且仍然使用在以上实施例中示出的本发明的优点。例如，能够以任何适当的方式改变对辅助帧和对辅助帧进行补充的帧进行编码的顺序。例如，在将与编码的辅助帧交错的参考辅助帧的帧间编码的帧包括在编码的视频流中之前，可以首先对GOP内的所有辅助帧进行编码。此外，如以上提及的，可以存在例如根据变焦水平或者到遮蔽的对象的已知的距离(例如，随着对象朝着相机移动或远离相机移动时)而致不同水平的模糊可以是理想的情形。根据在本文描述的各个实施例，能够通过动态地改变编码单元的尺寸来适应此类情形。因而，本发明不应当被限制到示出的实施例，而是应当通过所附权利要求物来限定。另外地，如本领域技术人员所理解的，可以将示出的实施例组合。

Claims

1.一种由编码器对包括多个图像帧的视频序列进行编码的方法，所述方法包括：

从视频流接收图像帧；

接收输入，所述输入指示所接收的图像帧中的应当被施加隐私遮蔽的一个或多个区域，其中，所述一个或多个区域由一个或多个编码单元表示；

通过执行所述一个或多个编码单元的帧内预测和量化来生成所述图像帧的简化表示；以及

将所述图像帧编码成输出帧，其中将所述一个或多个编码单元的变换系数设置为零，由此在所述输出帧中用来自所述图像帧的所述简化表示的对应的未变换编码单元来代替所述一个或多个编码单元。

2.根据权利要求1所述的方法，进一步包括：由所述编码器自动地选择所述编码单元的尺寸。

3.根据权利要求1所述的方法，进一步包括：由用户手动地选择所述编码单元的尺寸。

4.根据权利要求1所述的方法，其中，基于期望的模糊水平来选择所述编码单元的尺寸，并且其中，所述编码单元的尺寸和所述期望的模糊水平与所述图像帧的所述简化表示的那些相对应。

5.根据权利要求1所述的方法，其中，所接收的图像帧中的应当被施加隐私遮蔽的所述一个或多个区域是使用对象检测技术来自动地识别的。

6.根据权利要求1所述的方法，其中，按以下格式之一来对所述视频进行编码：高效图像文件格式、高级视频编码、高效视频编码、H.265、H.266、VP9、VP10和AV1。

7.一种用于对包括多个图像帧的视频序列进行编码的编码器系统，包括：

接收模块，所述接收模块被配置为：

从视频流接收图像帧，

接收输入，所述输入指示所接收的图像帧中的应当被施加隐私遮蔽的一个或多个区域，其中，所述一个或多个区域由一个或多个编码单元表示；以及

编码器，所述编码器被配置为：

将所述图像帧编码成输出帧，其中，将所述一个或多个编码的变换系数设置为零，由此在所述输出帧中用来自所述图像帧的所述简化表示的对应的未变换编码单元来代替所述一个或多个编码单元。

8.根据权利要求7所述的编码器系统，其中，所述编码器被进一步配置为自动地选择所述编码单元的尺寸。

9.根据权利要求7所述的编码器系统，其中，基于期望的模糊水平来选择所述编码单元的尺寸，并且其中，所述编码单元的尺寸和所述期望的模糊水平与所述图像帧的所述简化表示的那些相对应。

10.一种用于对包括多个图像帧的视频序列进行编码的非暂时性计算机可读存储介质，所述非暂时性计算机可读存储介质具有实施的程序指令，所述程序指令由处理器可执行以使所述处理器执行包括以下步骤的方法：

从视频流接收图像帧；

将所述图像帧编码成输出帧，其中，将所述一个或多个编码单元的变换系数设置为零，由此在所述输出帧中用来自所述图像帧的所述简化表示的对应的未变换编码单元来代替所述一个或多个编码单元。

11.根据权利要求10所述的非暂时性计算机可读存储介质，其中，基于期望的模糊水平来选择所述编码单元的尺寸，并且其中，所述编码单元的尺寸和所述期望的模糊水平与所述图像帧的所述简化表示的那些相对应。