CN112534816A

CN112534816A - 用于视频图像编码的编码参数的基于事件自适应

Info

Publication number: CN112534816A
Application number: CN201880096331.6A
Authority: CN
Inventors: 赵志杰; 方运潭; 查钧; 陈虎; 周建同
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2018-08-14
Filing date: 2018-08-14
Publication date: 2021-03-19
Anticipated expiration: 2038-08-14
Also published as: CN112534816B; US20210168372A1; EP3808085A4; EP3808085A1; US11490092B2; WO2020034078A1

Abstract

本公开涉及使用编码参数对视频图像进行编码，编码参数基于与视频图像内的运动有关的事件进行适应。通过标准图像传感器和事件触发传感器捕获图像内容，事件触发传感器提供了指示图像强度变化(例如变化量和时‑空位置变化)的事件信号。基于评估对象的运动的事件信号以及提取的对象的纹理在视频图像内检测对象。基于事件信号的位置和强度以及检测到的对象的移动程度来确定视频图像的空‑时编码参数。事件信号结合对象的纹理信息的使用允许从背景中执行视频图像的分割，从而进一步优化背景和动态图像内容(包括不同大小的快速和慢速运动的对象)的编码。

Description

用于视频图像编码的编码参数的基于事件自适应

技术领域

本公开涉及使用编码参数对视频图像进行编码。

背景技术

视频编解码(视频编码和解码)用于广泛的数字视频应用，例如广播数字TV、通过互联网和移动网络的视频传输、诸如视频聊天和视频会议的实时对话应用、DVD和蓝光盘、视频内容获取和编辑系统、以及安全应用的便携式摄像机。

自从1990年H.261标准中开发基于块的混合视频编码方法以来，开发了新的视频编解码技术和工具并形成了新的视频编码标准的基础。大多数视频编码标准的目标之一是在不牺牲图片质量的情况下与之前标准相比降低比特率。其他的视频编码标准包括MPEG-1视频、MPEG-2视频、ITU-TH.262/MPEG-2、ITU-TH.263、ITU-TH.264/MPEG-4第10部分(Part10)、高级视频编码(advanced video coding，AVC)、ITU-TH.265、高效视频编码(highefficiency video coding，HEVC)、以及这些标准的扩展，例如可缩放性和/或三维(three-dimensional，3D)扩展。

在例如H.264/AVC或HEVC(H.265)或下一代的一些当前视频编码器和解码器中，用于视频图像编码的编码参数(如帧率、图像尺寸、或量化参数(quantization parameter，QP))通常是预设的(例如由使用编码器的用户或应用预设)并指示给编码器。然而，在计算机视觉设备和应用(例如视频监控应用)中，关键问题是如何确定这些编码参数以获得优化的性能。

发明内容

因此，对于计算机视觉应用，需要根据特定应用控制图像/视频编码和解码的速率。利用事件(即事件驱动相机提供的事件信号)可以尤其适用于控制图像/视频编解码速率。

本发明实施例由独立权利要求的特征定义，实施例的其他有利实施方式由从属权利要求的特征定义。

根据本公开的一个方面，提供了一种用于对视频图像的样本进行编码的装置，该装置包括处理电路，该处理电路用于：从图像传感器获得视频图像；从事件触发传感器获得指示图像强度变化的位置的事件信号；根据获得的事件信号确定用于对视频图像进行编码的编码参数；以及通过应用确定的编码参数对视频图像进行编码。

这可以提供的优势是，通过组合低空间分辨率动态图像特征与高空间分辨率视频图像，以高准确度确定用于对视频图像进行编码的编码参数。

根据本公开的一个方面，上述事件信号还指示了相应位置的图像强度变化的量。

根据本公开的一个方面，上述装置的处理电路还用于：基于事件信号确定指示视频图像中的对象的运动的运动信息；以及基于上述运动信息检测视频图像内与图像强度变化的位置对应的位置上的对象。

例如，当运动信息等于或大于第一预定阈值时，检测到对象。

这可以提供的优势是，使用事件信号作为动态特征，快速且准确地检测到视频图像内的对象。特别地，准确地检测到视频图像内快速移动的对象。

根据本公开的一个方面，上述运动信息是使用图像强度变化的度量来计算的。

根据本公开的一个方面，上述处理电路用于：根据计算的运动信息和/或检测到的对象确定与视频图像的时间分辨率和空间分辨率有关的编码参数。

这可以提供的优势是，使用经由运动信息的动态图像特征以及对检测到的对象的知识，促进编码参数的空间和时间自适应。

例如，编码参数是帧率、图像尺寸、或量化参数(quantization parameter，QP)中的任一项。

根据本公开的一个方面，上述处理电路用于：当检测到对象并且该对象以等于或低于预定速度阈值的速度移动时，参考默认值保持帧率和图像尺寸；当检测到对象并且该对象以大于速度阈值的速度移动时，参考默认值增大帧率；当没有检测到对象时，参考默认值减小帧率和图像尺寸。

将是否检测到对象和对象的移动速度快慢组合使用可以提供的优势是执行编码参数自适应，这些编码参数针对视频图像内的特定区域优化。编码参数自适应可以得到优化的编码视频图像。这还可以提供的优势是提高例如依赖于(优化)编码视频图像的机器视觉系统的速度和准确性。

根据本公开的一个方面，上述处理电路还用于：基于事件信号确定视频图像内的感兴趣区域(region of interest，ROI)和不感兴趣区域(region of non-interest，RONI)；根据ROI和RONI，为每个区域确定用于对ROI和RONI内的样本进行编码的相应编码参数；以及通过应用相应的编码参数对ROI和RONI内的样本进行编码。

根据本公开的一个方面，上述处理电路还用于：通过以下检测与ROI-RONI位图对应的ROI和RONI，该ROI-RONI位图具有每个单元的比特，一个单元对应于一个或多个样本：对于每个事件信号，将图像强度变化的绝对值与第二预定义阈值进行比较；当该绝对值等于或大于第二预定阈值时，将相应值设为1，否则设为0；关联ROI内的值1和ROI外的值0，ROI外的值0与RONI对应；对应于基于设置的值1的图像强度变化的位置，将视频图像的样本标记为对象的一部分。处理电路还用于对ROI和RONI进行编码。

在一个示例性实施方式中，通过将ROI-RONI位图映射到视频图像上以匹配视频图像的样本的位置，从而基于计算的运动信息和检测到的ROI来检测到视频图像内的对象。

使用ROI-RONI图和运动信息可以提供的优势是，快速且更可靠地检测视频图像内的对象以及图像所在的区域。

根据本公开的一个方面，如下确定视频图像的编码块的编码参数QP：当部分或全部编码块位于ROI内和/或检测到对象时，减小QP；当编码块位于RONI内时，增大QP。

根据一个示例性实施方式，上述装置还包括处理电路，该处理电路用于：提取检测到的对象的特征；根据提取的特征确定编码参数；以及通过应用编码参数对特征进行编码。

特征特定的编码参数对基于事件的检测到的对象的特征的考虑可以提供的优势是，进一步改进用于对视频图像进行编码的编码参数集合。

根据本公开的一个方面，强度变化的位置映射到与视频图像中的样本坐标对应的样本位置上。

根据本公开的一个方面，提供了一种用于对视频图像的样本进行编码的方法，该方法包括以下步骤：从图像传感器获得视频图像；从事件触发传感器获得指示图像强度变化的位置的事件信号；根据获得的事件信号确定用于对视频图像进行编码的编码参数；以及通过应用确定的编码参数对视频图像进行编码。

根据本公开的一个方面，上述方法步骤还包括：基于事件信号确定指示视频图像中的对象的运动的运动信息；以及基于运动信息检测视频图像内与图像强度变化的位置对应的位置上的对象。

例如，当运动信息等于或大于第一预定阈值时，对对象的检测结束。

根据本公开的一个方面，其中，在运动信息的计算步骤中，使用图像强度变化的度量。

根据本公开的一个方面，上述方法步骤包括：根据计算的运动信息和/或检测到的对象确定与视频图像的时间分辨率或空间分辨率有关的编码参数。

根据本公开的一个方面，上述方法步骤包括：当检测到对象并且该对象以等于或低于预定速度阈值的速度移动时，参考默认值保持帧率和图像尺寸；当检测到对象并且该对象以大于速度阈值的速度移动时，参考默认值增大帧率；当没有检测到对象时，参考默认值减小帧率和图像尺寸。

根据本公开的一个方面，上述方法步骤包括：基于事件信号确定视频图像内的感兴趣区域(ROI)和不感兴趣区域(RONI)；根据ROI和RONI，为每个区域确定用于对ROI和RONI内的样本进行编码的相应编码参数；以及通过应用相应的编码参数对ROI和RONI内的样本进行编码。

根据本公开的一个方面，上述方法步骤包括：通过以下检测与ROI-RONI位图对应的ROI和RONI，该ROI-RONI位图具有每个单元的比特，一个单元对应于一个或多个样本：对于每个事件信号，将图像强度变化的绝对值与第二预定义阈值进行比较；当该绝对值等于或大于第二预定阈值时，将相应值设为1，否则设为0；关联ROI内的值1和ROI外的值0，ROI外的值0与RONI对应；对应于基于设置的值1的图像强度变化的位置，将视频图像的样本标记为对象的一部分。上述方法步骤还包括对ROI和RONI进行编码。

根据本公开的一个方面，用于基于计算的运动信息和检测到的ROI检测视频图像内的对象的方法步骤包括：将ROI-RONI位图映射到视频图像上，从而匹配视频图像的样本的位置。

根据本公开的一个方面，用于确定视频图像的编码块的编码参数QP的方法步骤包括：当编码块的一部分或整个编码块位于ROI内和/或检测到对象时，减小QP；当编码块位于RONI内时，增加QP。

根据本公开的一个方面，上述方法步骤包括：提取检测到的对象的特征；根据提取的特征确定编码参数；以及通过应用编码参数对特征进行编码。

根据本公开的一个方面，上述方法步骤包括：将强度变化的位置映射到与视频图像中的样本坐标对应的样本位置上。

根据本公开的一个方面，提供了一种存储有程序的计算机可读非暂时性介质，该程序包括指令，当在处理器上执行时，该指令使处理器执行用于对视频图像的样本进行编码的方法的步骤。

在附图和下面的描述中阐述了一个或多个实施例的细节。其他特征、对象、和优点将从说明书、附图、和权利要求书中显而易见。

附图说明

下面将参照附图更详细地描述本发明的实施例，其中：

图1是示出用于实现本发明的实施例的视频编码器的示例的框图。

图2是示出用于实现本发明的实施例的视频解码器的示例结构的框图。

图3是示出用于实现本发明的实施例的视频编解码系统的示例的框图。

图4是具有其接口的视频编解码器(编码器或解码器)的框图。

图5A是示出标准相机和事件驱动EDS相机的输出之间的差异的示意图。

图5B是示出标准相机和事件驱动EDS相机的同步输出信号和异步输出信号以及映射的数据CMOS帧+EDS事件的示意图。

图6是示出如何从单个事件触发传感器获得事件的示意图。

图7是双相机设置的示意图，其中具有单独的RGB传感器和事件驱动传感器。

图8是单相机设置的示意图，其中具有联合的RGB传感器和事件驱动传感器。

图9A、图9B、图9C是示出不同的处理顺序的示意图。

图10是示出将事件驱动传感器输出映射到标准图像传感器输出上以进行对象检测的示意图。

图11是根据基于事件的运动信息适应编码参数的实施例的框图。

图12是包括用于编码参数自适应的各个模块的实施例的框图，该实施例使用基于事件的运动分析和基于事件的ROI-RONI检测。

图13是用于基于事件的对象检测和基于事件的编码参数自适应的实施例的相关方法的流程图。

图14是用于基于事件的ROI-RONI检测和相应ROI-RONI编码参数的自适应的实施例的相关方法的流程图。

图15是用于基于事件的对象检测和后续对象特征提取以及特征编码的实施例的相关方法的流程图。

在下文中，相同的附图标记指代相同或至少功能上等同的特征。

具体实施方式

在以下描述中，参考附图，附图形成本公开的一部分，并且通过图示示出实施例的特定方面或者可以使用实施例的特定方面。应当理解，实施例可以用在其他方面，并且包括附图中未示出的结构或逻辑变化。因此，以下具体实施方式不应被理解为限制性的，并且本发明的范围由所附权利要求限定。

例如，应当理解，与所描述的方法有关的公开内容对于用于执行该方法的对应设备或系统也是适用的，反之亦然。例如，如果描述了一个或多个特定方法步骤，则对应的设备可以包括一个或多个单元，例如功能单元，以执行所描述的一个或多个方法步骤(例如，一个单元执行一个或多个步骤，或者多个单元各自执行多个步骤中的一个或多个步骤)，即使这样的一个或多个单元未在附图中明确地描述或示出。另一方面，例如，如果基于一个或多个单元(例如，功能单元)来描述特定装置，则对应的方法可以包括一个步骤来执行一个或多个单元的功能(例如，一个步骤执行一个或多个单元的功能，或者多个步骤中的每一个执行多个单元中的一个或多个单元的功能)，即使这种一个或多个步骤未在图中明确地描述或示出。此外，应当理解，除非另外特别指出，否则本文所述的各种示例性实施例和/或方面的特征可彼此组合。

视频编解码(video coding)通常是指对形成视频或视频序列的图像序列的处理。在视频编解码领域，术语“图像(picture)”、“帧(frame)”或“图片(image)”可以用作同义词。视频编解码包括两个部分，视频编码和视频解码。视频编码在源侧执行，通常包括处理(例如，通过压缩)原始视频图像以减少表示视频图像所需的数据量(以便更有效地存储和/或传输)。视频解码在目的地侧执行，并且通常包括与编码器相比的逆处理，以重建视频图像。涉及视频图像(或一般地，图像，如稍后将解释的)的“编解码”的实施例应当被理解为涉及视频图像的“编码”和“解码”两者。编码部分和解码部分的组合也被称为CODEC(COding和DECoding)。

在无损视频编解码的情况下，可以重建原始视频图像，即，重建的视频图像具有与原始视频图像相同的质量(假设在存储或传输期间没有传输损失或其他数据损失)。在有损视频编解码的情况下，例如通过量化执行进一步压缩，以减少表示视频图像的数据量，该视频图像不能在解码器处完全重建，即，重建的视频图像的质量与原始视频图像的质量相比更低或更差。

自H.261以来的若干视频编码标准属于“有损混合型视频编解码器”组(即，组合样本域中的空间和时间预测以及用于在变换域中应用量化的2D变换编解码)。视频序列的每个图像通常被分割成一组不重叠的块，并且编解码通常在块级上执行。换句话说，在编码器处，通常通过以下在块(视频块)级别上处理(即，编码)视频：例如，使用空间(图像内)预测和时间(图像间)预测来生成预测块，从当前块(当前处理/将被处理的块)中减去预测块以获得残差块，在变换域中变换残差块并量化残差块以减少要传输的数据量(压缩)，而在解码器处，与编码器相比的逆处理被应用于编码或压缩块以重建当前块以用于表示。此外，编码器复制解码器处理循环，使得两者将产生相同的预测(例如，帧内预测和帧间预测)和/或重建以用于处理(即，编解码)后续块。

由于视频图像处理(也称为运动图像处理)和静止图像处理(术语“处理”包括编解码)共享许多概念和技术或工具，因此在下文中，术语“图像”用于指视频序列的视频图像(如上所述)和/或静止图像，以避免视频图像与静止图像之间不必要的重复和区别。在描述仅涉及静止图像(或静止图片)的情况下，将使用术语“静止图像”。

在下文中，基于图1至图3描述编码器100、解码器200、和编解码系统300的实施例。

图3是示出了编解码系统300(例如图像编解码系统300)的实施例的示意框图，其中编解码系统300包括源设备310，其用于将例如编码图像330的编码数据330提供给目的地设备320以便对编码数据330进行解码。

源设备310包括编码器100或编码单元100，并且可以附加地即可选地包括图像源312、预处理单元314(例如图像预处理单元314)、和通信接口或通信单元318。

图像源312可以包括或者可以是任何种类的图像捕获设备(例如用于捕获真实世界图像)、和/或任何种类的图像生成设备(例如用于生成计算机动画图像的计算机图形处理器)、或者任何种类的用于获得和/或提供真实世界图像、计算机动画图像(例如，屏幕内容、虚拟现实(virtual reality，VR)图像)、和/或其任何组合(例如，增强现实(augmentedreality，AR)图像)的设备。在下文中，除非另外特别描述，否则所有这些类型的图像和任何其它类型的图像将被称为“图像”，而除非明确地不同地指定，否则关于术语“图像”涵盖“视频图像”和“静止图像”的先前解释仍然适用。

(数字)图像是或者可以被认为是具有强度值的样本的二维阵列或矩阵。阵列中的样本也可以被称为像素(图像元素的短形式)或“pel”。阵列或图像的水平方向和垂直方向(或轴)上的样本数目定义了图像的尺寸和/或分辨率。为了表示颜色，通常采用三个颜色分量，即，图像可以用三个样本阵列表示或包括三个样本阵列。在RBG格式或颜色空间中，图像包括相应的红色、绿色、和蓝色样本阵列。然而，在视频编解码中，每一像素通常以亮度/色度格式或色彩空间(例如，YCbCr)表示，其包括由Y指示的亮度分量(有时也替代地使用L)和由Cb和Cr指示的两个色度分量。亮度(或简称luma)分量Y表示亮度或灰阶强度(例如，在灰度图像中)，而两个色度(或简称chroma)分量Cb和Cr表示色度或颜色信息分量。因此，YCbCr格式的图像包括亮度样本值(Y)的亮度样本阵列和色度值(Cb和Cr)的两个色度样本阵列。RGB格式的图像可以被转换或变换为YCbCr格式，反之亦然，该过程也被称为颜色变换或转换。如果图像是单色的，则该图像可以仅包括亮度样本阵列。

图像源312可以是例如用于捕获图像的相机、包括或存储先前捕获或生成的图像的存储器(例如图像存储器)、和/或用于获得或接收图像的任何种类的接口(内部或外部)。相机可以是例如集成在源设备中的本地或集成相机，存储器可以是例如集成在源设备中的本地或集成存储器。接口可以是例如用于从外部视频源接收图像的外部接口，外部视频源例如是诸如相机的外部图像捕获设备、外部存储器、或外部图像生成设备，外部图像生成设备例如是外部计算机图形处理器、计算机、或服务器。接口可以是根据任何专有或标准化接口协议的任何种类的接口，例如有线接口或无线接口、光学接口。用于获得图像数据312的接口可以是与通信接口318相同的接口或其一部分。

与预处理单元314和由预处理单元314执行的处理不同，图像或图像数据313也可被称为原始图像或原始图像数据313。

预处理单元314用于接收(原始)图像数据313并且对图像数据313执行预处理以获得预处理图像315或预处理图像数据315。由预处理单元314执行的预处理可以例如包括裁剪、颜色格式转换(例如，从RGB到YCbCr)、颜色校正、或去噪。

编码器100用于接收预处理图像数据315并提供编码图像数据171(将例如基于图1来描述进一步的细节)。

源设备310的通信接口318可用于接收编码图像数据171并将其直接传送到另一设备，例如目的地设备320或任何其他设备，以供存储或直接重建，或者分别在存储编码数据330和/或将编码数据330传送到另一设备(例如目的地设备320或任何其他设备)以供解码或存储之前处理编码图像数据171。

目的地设备320包括解码器200或解码单元200，并且可以附加地即可选地包括通信接口或通信单元322、后处理单元326、和显示设备328。

目的地设备320的通信接口322用于例如直接从源设备310或从任何其它源(例如，存储器，例如，编码图像数据存储器)接收编码图像数据171或编码数据330。

通信接口318和通信接口322可以用于经由源设备310和目的地设备320之间的直接通信链路或者经由任何种类的网络分别发送和接收编码图像数据171或编码数据330，直接通信链路例如是直接有线连接或无线连接，网络例如是有线或无线网络或其任何组合，或者任何种类的专用网络和公共网络或其任何种类的组合。

通信接口318例如可用于将编码图像数据171封装为适当格式(例如包)以供经由通信链路或通信网络传输，且还可以包括数据丢失保护及数据丢失恢复。

形成通信接口318的对应部分的通信接口322例如可以用于对编码数据330进行解封装以获得编码图像数据171，并且还可以用于执行数据丢失保护和数据丢失恢复，例如包括错误隐藏。

通信接口318和通信接口322两者都可以用于如图3中的编码图像数据330的从源设备310指向目的地设备320的箭头所指示的单向通信接口，或者双向通信接口，并且可以用于例如发送和接收消息，例如以建立连接，确认和/或重新发送丢失或延迟的数据(包括图像数据)，并且交换与通信链路和/或数据传输(例如，编码图像数据传输)相关的任何其他信息。

解码器200用于接收编码图像数据171并且提供解码图像数据231或解码图像231(将例如基于图2描述进一步的细节)。

目的地设备320的后处理器326用于对解码图像数据231(例如，解码图像231)进行后处理以获得后处理图像数据327(例如，后处理图像327)。由后处理单元326执行的后处理可包括例如颜色格式转换(例如，从YCbCr到RGB)、颜色校正、裁剪、或重采样、或任何其它处理，例如用于准备解码图像数据231以供例如显示设备328显示。

目的地设备320的显示设备328用于接收后处理图像数据327以用于将图像显示给例如用户或观看者。显示设备328可以是或包括用于表示重建图像的任何种类的显示器，例如集成或外部显示器或监视器。显示器可以例如包括阴极射线管(cathode ray tube，CRT)、液晶显示器(liquid crystal display，LCD)、等离子体显示器、有机发光二极管(organic light emitting diode，OLED)显示器或任何种类的其它显示器，例如投影仪、全息图(3D)等。

虽然图3将源设备310和目的地设备320描绘为单独的设备，但是设备的实施例还可以包括两个设备或两种功能，源设备310或对应的功能以及目的地设备320或对应的功能。在这样的实施例中，源设备310或相应的功能和目的地设备320或相应的功能可以使用相同的硬件和/或软件或通过单独的硬件和/或软件或其任何组合来实现。

如基于描述对本领域技术人员将显而易见的，如图3所示的源设备310和/或目的地设备320内的不同单元的功能或功能的存在和(精确)划分可以取决于实际设备和应用而变化。

因此，如图3所示的源设备310和目的地设备320仅仅是示例实施例，并且实施例不限于图3所示的内容。

源设备310和目的地设备320可包括各种各样的设备中的任何一种，包括任何种类的手持式或固定设备，例如，笔记本或膝上型计算机、移动电话、智能电话、平板或平板计算机、相机、台式计算机、机顶盒、电视机、显示设备、数字媒体播放器、视频游戏控制台、视频流送设备、广播接收机设备等，并且可不使用或使用任何种类的操作系统。

编码器和编码方法

图1示出了编码器100(例如图像编码器100)的实施例的示意性/概念性框图，其包括输入102、残差计算单元104、变换单元106、量化单元108、反量化单元110、和反变换单元112、重建单元114、缓冲区118、环路滤波器120、解码图像缓冲器(decoded picturebuffer，DPB)130、预测单元160、帧间估计单元142、帧间预测单元144、帧内估计单元152、帧内预测单元154、模式选择单元162、熵编码单元170、和输出172。如图1所示的视频编码器100也可以称为混合视频编码器或根据混合视频编解码器的视频编码器。

例如，残差计算单元104、变换单元106、量化单元108、和熵编码单元170形成编码器100的前向信号路径，而例如反量化单元110、反变换单元112、重建单元114、缓冲区118、环路滤波器120、解码图像缓冲区(DPB)130、帧间预测单元144、和帧内预测单元154形成编码器的反向信号路径，其中编码器的反向信号路径对应于解码器(见图2中的解码器200)的信号路径。

编码器用于例如通过输入102接收图像101或图像101的图像块103，例如形成视频或视频序列的图像序列中的图像。图像块103也可以被称为当前图像块或待编解码图像块，并且图像101也可以被称为当前图像或待编解码图像(特别是在视频编解码中，为了将当前图像与其它图像区分开，其他图像例如是同一视频序列(即，也包括当前图像的视频序列)的先前编码和/或解码的图像)。

分割

编码器100的实施例可以包括分割单元(图1中未示出)，例如其也可以称为图像分割单元，其用于将图像103分成多个块，例如，类似于块103的块，通常分成多个非重叠块。分割单元可用于对视频序列的所有图像使用相同的块尺寸，并使用界定上述块尺寸的对应网格，或在图像或图像子集或图像组之间改变块尺寸，且将每一图像分成对应的块。

例如，在HEVC中，图像可以被细分为所谓的编码树单元(coding tree unit，CTU)。CTU具有相同的尺寸，该尺寸可以通过一些信令参数确定或由标准固定。CTU通常是不重叠的。每个CTU随后可以被进一步划分为编码和/或变换单元，即分别对其执行预测和/或变换的块。通过提供将每个块进一步划分为四个其他块(四叉树分割)或两个其他块(二叉树分割)或任何其他种类的分割的可能性，递归地执行上述划分。是否划分CTU以及每个CTU块的深度可以通过率失真优化来决定。然而，一般来说，还可以基于其他标准定义上述划分，例如CTU中的边缘的存在等。相应地，在本公开中，当提及“块”或“单元”作为图片的一部分时，是指CTU或通过CTU划分获得的任何单元——正方形或非正方形的矩形。一般地，还存在其中块可以重叠的实施例。

与图像101类似，块103也被视为或者可以被视为具有强度值(样本值)的样本的二维阵列或矩阵，但其维度小于图像101。换句话说，块103可以包括例如一个样本阵列(例如，在单色图像101的情况下的亮度阵列)或三个样本阵列(例如，在彩色图像101的情况下的一个亮度和两个色度阵列)或任何其他数量和/或种类的阵列，这取决于所应用的颜色格式。块103的水平方向和垂直方向(或轴)上的样本数目定义块103的尺寸。

如图1中所示的编码器100用于逐块地对图像101进行编码，例如，按块103执行编码和预测。

残差计算

残差计算单元104用于基于图像块103和预测块165(稍后提供关于预测块165的进一步细节)来计算残差块105，例如，通过逐个样本(逐个像素)地从图像块103的样本值减去预测块165的样本值，以获得样本域中的残差块105。残差值(形成残差信号)对应于预测误差(预测误差信号)。

变换

变换单元106用于对残差块105的样本值应用变换(例如，空间频率变换或线性空间(频率)变换，例如，离散余弦变换(discrete cosine transform，DCT)或离散正弦变换(discrete sine transform，DST))以获得变换域中的变换系数107。变换系数107还可被称作变换残差系数并表示变换域中的残差块105。

变换单元106可用于应用DCT/DST的整数近似，例如针对HEVC/H.265指定的核心变换。与标准正交DCT变换相比，这种整数近似通常由某个因子来缩放。为了保留通过前向变换和反向变换处理的残差块的范数，应用附加的缩放因子作为变换处理的一部分。通常基于某些约束来选择缩放因子，例如，对于移位操作来说缩放因子是2的幂、变换系数的位深度、准确度与实施成本之间的折衷等。例如，在解码器200处，特定的缩放因子例如由反变换单元212指定用于反变换(以及在编码器100处，相应的反变换单元112指定用于反变换)，并且可以相应地在编码器100处，例如由变换单元106指定用于前向变换的相应缩放因子。

量化

量化单元108用于例如通过应用标量量化或向量量化来对变换系数107进行量化，以获得量化系数109。量化系数109还可被称作量化残差系数109。例如，对于标量量化，可以应用不同的缩放以实现更精细或更粗的量化。较小的量化步长对应于较精细的量化，而较大的量化步长对应于较粗的量化。可由量化参数(QP)指示适用的量化步长。量化参数可以例如是对预定义的一组适用的量化步长的索引。例如，小量化参数可以对应于精细量化(小量化步长)，并且大量化参数可以对应于粗量化(大量化步长)，反之亦然。量化可以包括除以量化步长，并且例如由反量化110进行的对应反量化可以包括乘以量化步长。根据HEVC的实施例可用于使用量化参数来确定量化步长。通常，可以使用包括除法的等式的固定点近似基于量化参数来计算量化步长。可引入额外的缩放因子用于量化和去量化以恢复残差块的范数，所述范数可能由于在用于量化步长和量化参数的等式的固定点近似中使用的缩放而被修改。在一个示例实施方式中，可以组合反变换和去量化的缩放。或者，可使用定制的量化表，并且，例如，在位流中将该量化表从编码器发信号通知给解码器。量化是有损操作，其中损失随着量化步长的增加而增加。

编码器100的实施例(或量化单元108)可以用于例如通过对应的量化参数来输出量化方案和量化步长，使得解码器200可以接收并应用对应的反量化。编码器100(或量化单元108)的实施例可用于输出量化方案及量化步长，例如直接输出或经由熵编码单元170或任何其它熵编解码单元进行熵编码而输出。

反量化单元110用于例如通过基于或使用与量化单元108相同的量化步长来应用由量化单元108应用的量化方案的逆，来对量化系数应用量化单元108的反量化，以获得去量化系数111。去量化系数111还可被称作去量化残差系数111，且对应于变换系数108，不过通常由于量化损失而与变换系数不相同。

反变换单元112用于应用由变换单元106应用的变换的反变换，例如，离散余弦反变换(DCT)或离散正弦反变换(DST)，以获得样本域中的反变换块113。反变换块113也可以被称为反变换去量化块113或反变换残差块113。

重建单元114用于例如通过逐样本地将解码残差块113的样本值和预测块165的样本值相加来组合反变换块113和预测块165以获得样本域中的重建块115。

缓冲区单元116(或简称“缓冲区”116)，例如行缓冲区116，用于缓冲或存储重建块和相应的样本值，例如用于帧内估计和/或帧内预测。在另外的实施例中，编码器可以用于使用未滤波的重建块和/或存储在缓冲区单元116中的相应样本值进行任何种类的估计和/或预测。

编码器100的实施例可以用于使得例如缓冲区单元116不仅用于存储重建块115以进行帧内估计152和/或帧内预测154，还用于环路滤波器单元120(图1中未示出)，和/或使得例如缓冲区单元116和解码图像缓冲区单元130形成一个缓冲区。其他实施例可以用于使用滤波块121和/或来自解码图像缓冲区130的块或样本(图1中均未示出)作为帧内估计152和/或帧内预测154的输入或基础。

环路滤波器单元120(或简称“环路滤波器”120)用于例如通过应用去块滤波器、样本自适应偏移(SAO)滤波器或其他滤波器(例如锐化或平滑滤波器或协同滤波器)，对重建块115进行滤波以获得滤波块121。滤波块121还可以称为滤波重建块121。

环路滤波器单元120的实施例可以包括(图1中未示出)滤波器分析单元和实际滤波器单元，其中滤波器分析单元被配置成确定实际滤波器的环路滤波器参数。如下将详细讨论地，滤波器分析单元可以用于将固定的预定滤波器参数应用于实际环路滤波器，从一组预定滤波器参数中自适应地选择滤波器参数，或者自适应地计算实际环路滤波器的滤波器参数。

环路滤波器单元120的实施例可以包括(图1中未示出)一个或多个滤波器，例如，串联或并联或其任意组合连接的不同类型的滤波器中的一个或多个，其中，多个滤波器中的每一个可以单独地或与多个滤波器中的其他滤波器共同地包括滤波器分析单元，以如在前一段中所描述地确定相应的环路滤波器参数。

编码器100(相应地，环路滤波器单元120)的实施例可以用于输出环路滤波器参数，例如，直接输出或经由熵编码单元170或任何其他熵编码单元进行熵编码输出，使得例如解码器200可以接收并应用相同的环路滤波器参数进行解码。

解码图像缓冲区(DPB)130用于接收和存储滤波块121。解码图像缓冲区130还可以用于存储同一当前图像或不同图像(例如，先前的重建图像)的其它先前的滤波块(例如，先前的重建和滤波块121)，且可提供完整的先前重建(即，解码)图像(和对应参考块和样本)和/或部分重建的当前图像(和对应参考块和样本)，例如用于帧间估计和/或帧间预测。

其他实施例还可以用于使用解码图像缓冲区130的先前滤波块和对应的滤波样本值进行任何种类的估计或预测，例如帧内和帧间估计和预测。

预测单元160(也称为块预测单元160)用于接收或获得图像块103(当前图像101的当前图像块103)和解码的或至少重建的图像数据(例如，来自缓冲区116的相同(当前)图像的参考样本和/或来自解码图像缓冲区130的一个或多个先前解码图像的解码图像数据231)，并且处理这样的数据用于预测，即，提供预测块165，其可以是帧间预测块145或帧内预测块155。

模式选择单元162可用于选择预测模式(例如，帧内预测模式或帧间预测模式)和/或对应的预测块145或155用作预测块165，以用于残差块105的计算和用于重建块115的重建。

模式选择单元162的实施例可用于选择预测模式(例如，从预测单元160所支持的预测模式中选择)，该预测模式提供最佳匹配或换句话说最小残差(最小残差意味着更好的压缩以用于传输或存储)，或最小信令开销(最小信令开销意味着更好的压缩以用于传输或存储)，或考虑或平衡两者。模式选择单元162可以用于基于率失真优化(rate distortionoptimization，RDO)来确定预测模式，即，选择提供最小率失真优化或关联的率失真至少满足预测模式选择标准的预测模式。

在下文中，将更详细地解释由示例编码器100执行的预测处理(例如，预测单元160和由模式选择单元162进行的模式选择)。

如上文所描述，编码器100用于从一组(预定)预测模式中确定或选择最佳或最优预测模式。该组预测模式例如可以包括帧内预测模式和/或帧间预测模式。

该组帧内预测模式可包含如H.264中所定义的32个不同的帧内预测模式，例如，非定向模式(例如，DC(或平均值)模式和平面模式)或定向模式，或可包含如H.265中所定义的65个不同帧内预测模式，例如，非定向模式(例如，DC(或平均值)模式和平面模式)或定向模式。

该组(或可能的)帧间预测模式取决于可用的参考图像(即，例如存储在DBP 230中的先前至少部分解码的图像)和其它帧间预测参数，例如，是使用整个参考图像还是仅使用参考图像的一部分(例如，当前块的区域周围的搜索窗口区域)来搜索最佳匹配参考块，和/或例如是否应用像素插值，例如，半/半像素和/或四分之一像素插值。

除了上述预测模式之外，还可以应用跳过模式和/或直接模式。

预测单元160可进一步用于例如迭代地使用四叉树分割(quad-tree-partitioning，QT)、二叉树分割(binary-partitioning，BT)、或三叉树分割(triple-tree-partitioning，TT)或其任何组合将块103分割成较小块分区或子块，且执行例如对每个块分区或子块的预测，其中，模式选择包括选择分割的块103的树结构和应用于每个块分区或子块的预测模式。

帧间估计单元142(也称为图像间估计单元142)用于接收或获得图像块103(当前图像101的当前图像块103)和解码图像231，或至少一个或多个先前重建块，例如一个或多个其它/不同的先前解码图像231的重建块，用于帧间估计(或“图像间估计”)。举例来说，视频序列可包括当前图像和先前解码图像231，或换句话说，当前图像和先前解码图像231可以是形成视频序列的图像序列的一部分或形成该图像序列。

编码器100可以例如用于从多个其他图像中的相同或不同图像的多个参考块中选择参考块，并且将参考图像(或参考图像索引)和/或参考块的位置(x，y坐标)与当前块的位置之间的偏移(空间偏移)作为帧间估计参数143提供给帧间预测单元144。这个偏移也被称为运动矢量(motion vector，MV)。帧间估计也被称为运动估计(motion estimation，ME)，帧间预测也被称为运动预测(motion prediction，MP)。

帧间预测单元144用于获得(例如接收)帧间预测参数143，并且基于或使用帧间预测参数143执行帧间预测以获得帧间预测块145。

尽管图1示出了用于帧间编码的两个不同单元(或步骤)，即帧间估计142和帧间预测152，但是这两个功能可以作为一个来执行(帧间估计需要/包括计算帧间预测块，即上述帧间预测154或“一类”帧间预测154)，例如，通过迭代地测试所有可能的帧间预测模式或其预定子集，同时存储当前最佳的帧间预测模式和相应的帧间预测块，并且使用当前最佳的帧间预测模式和相应的帧间预测块作为(最终)帧间预测参数143和帧间预测块145，而不执行另一次帧间预测144。

帧内估计单元152用于获得(例如接收)图像块103(当前图像块)和同一图像的一个或多个先前重建块(例如，重建的相邻块)以用于帧内估计。编码器100例如可以用于从多个帧内预测模式中选择帧内预测模式，并且将其作为帧内估计参数153提供给帧内预测单元154。

编码器100的实施例可以用于基于优化标准选择帧内预测模式，优化标准例如是最小残差(例如提供与当前图像块103最相似的预测块155的帧内预测模式)或最小率失真。

帧内预测单元154用于基于帧内预测参数153(例如选择的帧内预测模式153)确定帧内预测块155。

尽管图1示出了帧内编码的两个不同单元(或步骤)，即帧内估计152和帧内预测154，但是这两个功能可以作为一个来执行(帧内估计包括计算帧内预测块，即上述帧内预测154或“一类”帧内预测154)，例如通过迭代地测试所有可能的帧内预测模式或其预定子集，同时存储当前最佳帧内预测模式和相应的帧内预测块，并且使用当前最佳帧内预测模式和相应的帧内预测块作为(最终)帧内预测参数153和帧内预测块155，而不执行另一次帧内预测154。

熵编码单元170用于单独地或联合地(或根本不)对量化残差系数109、帧间预测参数143、帧内预测参数153、和/或环路滤波器参数应用熵编码算法或方案(例如，可变长度编码(variable length coding，VLC)方案、上下文自适应VLC方案(context adaptive VLCscheme，CALVC)、算术编码方案、上下文自适应二进制算术编码(context adaptive binaryarithmetic coding，CABAC))，以获得可由输出172例如以编码位流171的形式输出的编码图像数据171。

图2示出了用于接收例如由编码器100编码的编码图像数据(例如，编码位流)171以获得解码图像231的示例性视频解码器200。

解码器200包括输入202、熵解码单元204、反量化单元210、反变换单元212、重建单元214、缓冲区216、环路滤波器220、解码图像缓冲区230、预测单元260、帧间预测单元244、帧内预测单元254、模式选择单元260、和输出232。

熵解码单元204用于对编码图像数据171进行熵解码，以获得量化系数209和/或解码编码参数(图2中未示出)，例如(解码的)帧间预测参数143、帧内预测参数153、和/或环路滤波器参数中的任意一个或全部。

在解码器200的实施例中，反量化单元210、反变换单元212、重建单元214、缓冲区216、环路滤波器220、解码图像缓冲区230、预测单元260、和模式选择单元260用于执行编码器100(和各个功能单元)的逆处理以对编码图像数据171进行解码。

特别地，反量化单元210可以在功能上与反量化单元110相同，反变换单元212可以在功能上与反变换单元112相同，重建单元214可以在功能上与重建单元114相同，缓冲区216可以在功能上与缓冲区116相同，环路滤波器220可以在功能上与环路滤波器120相同(关于实际环路滤波器，因为环路滤波器220通常不包括用于基于原始图片101或块103确定滤波器参数的滤波器分析单元，而是例如从熵解码单元204接收(显式或隐式地)或获得用于编码的滤波器参数)，并且解码图像缓冲区230可以在功能上与解码图像缓冲区130相同。

预测单元260可以包括帧间预测单元244和帧间预测单元254，其中，帧间预测单元144可以在功能上与帧间预测单元144相同，帧间预测单元154可以在功能上与帧内预测单元154相同。预测单元260和模式选择单元262通常用于执行块预测和/或仅从编码数据171获得预测块265(没有关于原始图片101的任何进一步的信息)，并且例如从熵解码单元204接收或获得(显式或隐式)预测参数143或153和/或关于所选择的预测模式的信息。

解码器200用于例如经由输出232输出解码后的图像230，以向用户呈现或供用户观看。

图4是根据本公开实施例的视频编解码设备400的示意图。视频编解码设备400适于实现本文描述的公开实施例，例如实现为编码器或解码器。视频编解码设备400包括用于接收数据的入口端口410和接收器单元(Rx)420；用于处理数据的处理器、逻辑单元、或中央处理单元(CPU)430；用于发送数据的发射器单元(Tx)440和出口端口450；以及用于存储数据的存储器460。视频编解码设备400还可以包括耦合到入口端口410、接收器单元420、发射器单元440、以及出口端口450的光电(optical-to-electrical，OE)部件和电光(electrical-to-optical，EO)部件，这些部件用于光信号或电信号的输入或输出。在一些示例中，视频编解码设备400还可以包括无线发射器和/或接收器。

处理器430通过硬件和软件实现。处理器430可以实现为一个或多个CPU芯片、核(例如，作为多核处理器)、现场可编程门阵列(field-programmable gate array，FPGA)、专用集成电路(application specific integrated circuit，ASIC)、以及数字信号处理器(digital signal processor，DSP)。处理器与入口端口410、接收器单元420、发射器单元440、出口端口450、以及存储器460通信。处理器430包括编解码模块470。编解码模块470实现上述公开的实施例。例如，编解码模块470实现、处理、准备、或提供各种编解码操作。因此，将编解码模块470包括在内为视频编解码设备400的功能提供了实质性的改进，并且实现了视频编解码设备400到不同状态的转换。替代地，编解码模块470被实现为存储在存储器460中并且由处理器430执行的指令。

存储器460包括一个或多个磁盘、磁带驱动器、和固态驱动器，并且可以用作溢出数据存储设备，以在程序被选择执行时存储这些程序，并存储在程序执行期间读取的指令和数据。存储器460可以是易失性的和/或非易失性的，并且可以是只读存储器(read-onlymemory，ROM)、随机存取存储器(random access memory，RAM)、三态内容可寻址存储器(ternary content-addressable memory，TCAM)、和/或静态随机存取存储器(staticrandom-access memory，SRAM)。

注意，本说明书提供了图像(帧)的说明，但是在隔行扫描图像信号的情况下，场(field)代替了图像。

尽管已经主要基于视频编解码描述了实施例，但是应当注意，编码器100和解码器200(以及相应地系统300)的实施例也可以被配置用于静止画面处理或编解码，即，独立于如在视频编码中的任何先前或连续图像的单独图像的处理或编解码。通常，在图像处理编解码限于单个图像101的情况下，仅帧间估计142、帧间预测144、242不可用。视频编码器100和视频解码器200的大多数(如果不是所有)其它功能(也称为工具或技术)可同样用于静止图像，例如分割、变换(缩放)106、量化108、反量化110、反变换112、帧内估计142、帧内预测154、254、和/或环路滤波120、220、以及熵编码170和熵解码204。

本领域技术人员将理解，各个附图(方法和设备)的“块”(“单元”)表示或描述实施例的功能(而不是必须是硬件或软件中的单独“单元”)，并且因此同等地描述设备实施例以及方法实施例的功能或特征(单元＝步骤)。

术语“单元”仅用于编码器/解码器的实施例的功能性的说明性目的，且无意限制本发明。

在本申请所提供的若干实施例中，应该理解，所揭露的系统、设备和方法可以通过其它的方式实现。例如，所描述的设备实施例仅仅是示例性的。例如，单元划分只是逻辑功能划分，在实际实现中可以是其他划分。例如，多个单元或组件可以被组合或集成到另一系统中，或者一些特征可以被忽略或不执行。另外，所显示或讨论的相互耦合或直接耦合或通信连接可以通过使用一些接口来实现。设备或单元之间的间接耦合或通信连接可以以电子、机械、或其它形式实现。

作为分离部件描述的单元可以是或者也可以不是物理上分离的，作为单元显示的部件可以是或者也可以不是物理单元，可以位于一个位置，或者也可以分布在多个网络单元上。可以根据实际需要选择其中的一些或全部单元，以实现本发明实施例方案的目的。

另外，实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

实施例还可以包括一种设备，例如编码器和/或解码器，其包括用于执行本文描述的任何方法和/或过程的处理电路。

编码器100和/或解码器200的实施例可以被实现为硬件、固件、软件或其任意组合。例如，编码器/编码或解码器/解码的功能可以由具有或不具有固件或软件的处理电路来执行，例如，处理器、微控制器、数字信号处理器(digital signal processor，DSP)、现场可编程门阵列(field programmable gate array，FPGA)、专用集成电路(application-specific integrated circuit，ASIC)等。

编码器100(和对应的编码方法100)和/或解码器200(和对应的解码方法200)的功能可以由存储在计算机可读介质上的程序指令来实现。程序指令在被执行时使处理电路、计算机、处理器等执行编码和/或解码方法的步骤。计算机可读介质可以是任何介质，包括其上存储程序的非暂时性存储介质，诸如蓝光盘、DVD、CD、USB(闪存)驱动器、硬盘、经由网络可用的服务器存储等。

本发明的实施例包括或者是计算机程序，该计算机程序包括当在计算机上执行时用于执行本文描述的任何方法的程序代码。

本发明的实施例包括或者是包括程序代码的计算机可读介质，当由处理器执行时，所述程序代码使计算机系统执行本文描述的任何方法。

在监控问题中，一个关键方面是检测除图像背景以外在视频图像中是否存在感兴趣对象(例如人、机动车或非机动车等)、这些对象是否移动、以及移动的速度。根据这些因素，可以对编码参数进行适应以实现优化的监控结果。

对于图像处理，人类视觉系统模型(human visual system model，HVS模型)与视频处理算法(尤其是图像和视频编码算法)一起使用，以便有效压缩和编码原始输入信号，而不会明显降低视觉质量。在视频信号中，可以基于HVS模型(通过该模型，可以在比特率限制内提高感知质量)，通过调整帧率和分辨率来调整每个视频帧的质量。基于HVS的视频/图像处理算法优化对于那些面向人眼的应用表现良好，例如广播和视频流应用。在HVS模型中，可以优化图像压缩标准(例如JPEG)和视频压缩标准HEVC(high efficiency videocoding，高效视频编码)，并且可以将感知优化的量化矩阵应用于JPEG，而可以将感知速率控制应用于HEVC。

但是，对于非基于HVS的应用，例如面向机器的视频监控和视觉分析，机器(即计算机)需要自动“查看”和“检查”视频，例如以查找/识别感兴趣对象。由于在例如视频监控期间获得的视频/图像数据，对于人们来说检查全部内容是不可行的。通常，计算机视觉算法用于检测、跟踪对象和识别对象。

但是，与人眼相对的计算机视觉算法可以具有不同的标准来评估和判断图像和视频的质量。在许多计算机视觉问题中，已经表明，诸如梯度之类的高频空间信息确实是有用的特征。但是，这种高频信息对那些高空间频率变化不太敏感，所以其不太适合人眼，因此可以在HVS指导的速率控制方案中删除这些空间信息。此外，为了评估感知质量，对于面向人眼的应用，需要高帧率和高分辨率。

反过来，对于计算机视觉应用，在某些情况下可能不需要高帧率和高分辨率；例如，当对象在视频中缓慢移动时，可能不需要高帧率。当视频中的若干个人非常靠近相机时，较低的帧分辨率可能足以执行视频的计算机分析。因此，对于计算机视觉应用而言，不一定总是需要高帧率或高空间分辨率。因此，仅将更多的位分配给视频/图像中实际发现对象的那些感兴趣区域。

通常，在视频图像或视频帧中识别对象之前(例如，经由基于机器学习的方法进行特征提取和特征分类)，还必须在图像内实际检测到除了不重要图像背景之外的对象本身。关于对象是否存在的这种对象检测应当以快速且可靠的方式进行。

可以使用事件相机执行这种对象检测，事件相机是受生物学启发的相机，其中，视觉传感器用于模拟视网膜的功能。与普通的基于CMOS的传感器相反，此类视觉传感器测量每像素的强度变化，而不是强度本身。此外，此类视觉传感器不同于使用例如标准CMOS传感器的标准相机的普通范式，在标准相机中，视频图像是逐帧提供的。相反，视觉传感器遵循生物学范式，其中，强度的变化是独立且以异步方式测量的。

图5A示出了真实图像的两个图像内容之间的差异，这两个图像内容由标准图像传感器(例如CMOS)和基于事件视觉传感器的事件相机获得。该真实图像是视频图像，如虚线箭头所示，该视频图像随时间旋转变化。图像内容大部分是同质的，因此这些内容随着时间的推移保持不变。仅与黑斑有关的图像内容改变其在图像内的位置(这里以循环方式改变)。

标准传感器在规律的时刻拍摄帧图像，即，如图5A所示，传感器拍摄CMOS帧的时间点之间的差是恒定的。重要的是，标准图像传感器不区分帧与帧之间的内容是否改变——帧内容仅基于强度。这意味着图像的静止图像部分被捕获，即使该图像部分在不同帧之间不提供任何新的图像信息。因此，对于(准)静止图像，在存储和编码这些帧图像部分(由标准图像传感器拍摄)方面存在很大的冗余。

反过来，事件相机的输出是事件驱动信号(event-driven signal，EDS)，其中，像素视觉传感器提供正或负强度变化作为输出，而不是强度本身。在图5A的示例中，这意味着相机拍摄的图像仅包括发生强度变化的位置上的内容。因此，当真实图像匀速旋转时，事件相机的EDS输出是旋转黑斑的(连续)螺旋轨迹。注意，事件相机还在标准相机没有提供输出的时间上提供输出。从本示例显然可见，标准相机的图像内容是满的，而EDS相机的图像内容十分稀疏。

因此，术语“事件”或事件驱动信号涉及视频图像中发生的变化，并且是一种指示由图像中的运动对象引起的运动量的方式。该(像素/样本形式的)事件信息由事件触发的相机获得。

图5B示出了更真实场景的另一示例，该场景包括一个人主要移动他的手，抛出旋转的足球。因此，真实图像的内容不仅包含更多纹理和各种对象，而且特别地包含图像内容的更不规则的变化。标准相机同样在规律的时刻捕获整个图像的内容，仅包含发生在真实图像中的动作的快照。这在该图的靠上的部分示出为“CMOS帧”。

相反，EDS相机仅输出强度变化的位置，强度变化是真实图像中的移动对象的动作相关变化的结果。如图5B所示(标记为“EDS事件”)，事件驱动信号在发生上述变化的不规律时刻上输出，这些时刻包括在标准相机输出完整帧图像的时间点之间的时刻。

图5B的下半部分示出了EDS相机的内容如何映射到标准帧图像，以便在与运动对象(这里是手和足球)相关联的帧区域内而不是没有运动的区域内进行局部检测。

这些运动区域分别称为感兴趣区域(region of interest，ROI)、不感兴趣区域(regions of non-interest，RONI)。如上所述，ROI和RONI是视频帧内的区域，但这些区域是基于由事件触发的相机提供的事件信号确定(即检测)的。换句话说，由事件触发的相机检测到的事件的位置被映射到由图像相机拍摄的视频图像(帧)上。

术语“事件”指的是样本/像素和/或一组样本/像素的图像强度变化，这些变化是视频图像中的一个对象或多个对象以不同速度移动的结果。

因此，速度的量和图像强度变化的量直接相关，并且是图像中是否存在一个或多个对象的指示符。相应地，对弱运动区域RONI的感兴趣程度低于对强运动区域ROI的感兴趣程度。换句话说，视频帧的ROI和RONI指示了在图像的哪一部分中运动相比于预定阈值更大(ROI)或更小(RONI)。

因此，术语“感兴趣区域”ROI涉及视频帧中的如下区域：对象的运动量(如图像强度变化所指示的)大于当对象缓慢移动或是静止对象时的运动量。相应地，此类弱运动区域称为不感兴趣区域RONI。

由于EDS信号(分别地，EDS内容)是稀疏的，因此如图5B的下半部分中所标记的，在帧的全部内容内，EDS信号的内容特征仅在特定帧区域中显示。

因此，标准相机(CMOS)和EDS相机在某种程度上提供了互补信息，这使其组合使用对于例如视频监控是尤其感兴趣的。因此，视频的特征(尤其是其动态特征)可以以更直接的方式提供，通过这种方式，可以节省在经由分析算法的进一步处理中的时间。

从标准图像传感器/相机和事件驱动传感器/相机的组合使用中获得的技术效果还部分源于其在空间和时间分辨率方面的互补图像捕获性能。

例如，CMOS传感器对于全HD图像的空间分辨率为1920x 1080，对于4K图像为3840x2160。时间分辨率约为30fps(帧每秒)，即，相邻帧之间的时间差约为34ms。事件触发传感器的空间(像素)分辨率为128x128，时间分辨率为每秒一百万(1M)个样本(或甚至更高)，对应于1MHz。然而，这仅是示例，实际上，可以提供具有各种不同空间和时间分辨率的EDS传感器。一般地，EDS的分辨率低于或等于图像传感器。因此，为了定位由图像传感器捕获的图像中的运动，将来自EDS传感器的位置映射到图像传感器中的图像。

所公开的实施例使用例如由事件驱动相机获得的事件驱动信号来确定动态视频特征，并使用这些特征来执行面向机器的图像/视频编码和解码的速率控制。

速率控制通过空间和时间编码参数的自适应来执行，编码参数包括块形式量化参数QP值以及空间分辨率和时间帧率(ST参数自适应)。这些参数是自适应确定的，因此可以获得视频的最佳时间和空间特征。这些特征包括，例如，感兴趣区域ROI的位置和面积，感兴趣(即，被检测到的)对象的尺寸、以及对象的运动强度。

图6通过单个事件驱动像素的示例示出了事件驱动传感器(也称为事件触发传感器、事件传感器、事件视觉传感器)如何生成事件信号。所示为时变的第一输出信号V(t)与时间t的关系。量V(t)例如可以是由光电二极管或光电晶体管等提供的光电压或光电流。这样的信号电压或电流可以是强度(例如亮度或色度)量的测量。

当自上一事件以来的V(t)的变化量大于预定阈值C时，事件驱动像素传感器输出非零信号，该非零信号定义事件。上述变化可以是强度变化，其中，变化是正的或是负的。由于信号V(t)在时间上是不规律的，所以强度变化超出阈值的时间是不规律的。换句话说，由于事件驱动信号是由原始不规律信号V(t)的强度变化量触发的，所以事件驱动信号是异步的。这在图6中的上箭头和下箭头示出，其中，正/负事件之间的时间差取决于信号V(t)从某些时间点开始的变化程度。

这与标准图像传感器不同，在标准图像传感器中，传感器在规律的时刻输出图像信号(图像信号为强度而非强度变化)。因此，标准图像传感器在规律的时间点提供真实图像的图像强度。

图6的左边部分示出了事件驱动像素传感器的可能电路实现，该电路包括光接收(即光电二极管、光电晶体管)、差分运算放大器(OP或OP-Amp)(例如用作差分放大器)、以及用于阈值化(thresholding)的电路。这是本领域技术人员已知的。

输出信号(为事件信号或事件)包括正/负强度变化量和强度变化的位置。术语“位置”指的是事件发生的位置，即强度变化超过阈值的相应像素的位置。替代地或另外地，术语“位置”可以指在所述像素坐标处发生强度变化的时间(即时间戳)。

事件相机已经用于通过基于像素的时间差信息检测运动的对象检测。在专利申请US9,817,507B2的方法中，从多个像素中检测到事件并输出事件信号。存储与发生事件的像素对应的时间信息。然后，提取包括与预定时间范围对应的时间信息的事件信号。

图7和图8示出了视频图像捕获设备的两种不同的布置。特别地，图7示出了具有两个单独的光学系统的视频捕获设备。第一光学系统由透镜710(或多个透镜)1和RGB传感器730形成，而第二光学系统由透镜710(或多个透镜)和事件驱动传感器720形成。如果已知RBG传感器和EDS传感器的相对位置，则可以在融合块中相应地执行EDS传感器捕获的运动到RGB传感器的视频图像上的映射。

另一方面，图8示出了具有公共透镜810(或透镜系统)2的视频捕获设备。在滤波器820对捕获的图像进行滤波之后，RGB传感器和EDS传感器并置。然后，在融合块840中融合RGB传感器和EDS传感器的信号，在融合块840中，将EDS传感器信号映射到由RGB传感器捕获的视频图像上。

这种EDS-RGB图像融合的示例性结果在图5B的下半部分示出，其中，EDS事件被覆盖(即通过融合映射)到CMOS帧(即RGB图像帧)上。图像帧具有由标准相机在特定时间拍摄的完整图像内容，EDS事件信号指示图像中对象(此处为手和足球)运动的区域。

如图9A和图9B所示，在内容融合之前，由标准图像传感器910和事件驱动传感器920捕获的内容可以在配准940和融合950之前经过组合的预处理930(参见图9A)或单独的预处理930(参见图9B)。然后，融合的(即组合的)内容可以用于进一步提取960对象的特征。可替代地，如图9C所示，可以基于由事件驱动传感器920提供的预处理930EDS信号来检测970对象。基于事件的检测结果被映射到标准图像传感器910的(真实)图像中的对象上，以便提取对象的特征。

一旦检测到对象，则可以通过完善的机器学习方法执行特征提取，这些机器学习方法包括神经网络(neural network，NN)、深度神经网络(deep neural network，DNN)、卷积神经网络(convolutional neural network，CNN)、全连接神经网络(fully connectedneural network，FCNN)、支持向量机(support vector machine，SVM)、或任何其他学习模型。

图10示出了“从事件相机中的事件映射到图像传感器中的对象”的含义。标准图像传感器和事件驱动传感器这两个传感器分别提供内容图像1020和1010。由于EDS相机输出强度变化而标准相机输出强度，因此EDS内容仅包含移动物体1012和1014的形状(即轮廓边缘)。

如之前参考图6所述，事件驱动像素输出的EDS内容(分别地，EDS信号)包括强度变化量和强度变化的位置，其中，位置是强度变化的位置(参考像素坐标)以及发生强度变化的时间。因此，稀疏的EDS内容可以被映射到标准图像的内容上，并用于检测整个对象1022和1024。将EDS位置映射到标准图像传感器的帧上从而匹配对应的位置(即图像样本的位置)可以通过例如像素配准算法来执行。这种算法在图像配准中是完善的算法，其中，由不同传感器获得的数据集需要匹配(即映射)到同一图像上。

换句话说，由EDS相机在相邻标准图像帧之间的那些时刻跟踪的轮廓形状覆盖在完整图像帧上，从而使用标准图像通过对象的形状来检测对象。在对象检测之后，可以经由机器学习方法执行对检测到的对象的特征的后续提取。

如本发明后续示例实施例中所公开的，本公开利用事件信号进行用于对视频图像进行编码的一个或多个编码参数的自适应。

根据实施例，提供了一种装置，其中，视频图像(包括多个视频帧)使用编码参数进行编码，从而提供视频位流作为输出。编码可以是已知压缩标准之一，例如AVC、HEVC、JPEG2000等。在下文中，术语“视频”、“视频图像”、“视频帧”、或“帧”可以互换使用。

上述装置包括电路，该电路用于从图像传感器获得视频图像。图像传感器可以是标准图像传感器，例如CMOS传感器。

此外，通过事件触发的传感器获得事件信号，其中该事件信号指示图像强度变化的位置。强度变化的位置可以是与事件触发传感器的像素坐标对应的发生强度变化的位置。另外或替代地，上述位置可以是在所述像素中发送强度变化的时刻。

根据获得的事件信号确定(即适应)用于对视频图像进行编码的编码参数。

通过应用适应的编码参数对视频图像进行编码。

可以针对视频图像的一个样本或一组样本确定编码参数。不同的单个样本或不同的样本组的编码参数可以不同。

另外或替代地，事件信号可以指示强度变化量。强度变化可以是正的或负的。

编码参数可以是帧率、图像尺寸、或量化参数QP中的任一项。编码参数图像尺寸和量化参数CP指的是空间分辨率的参数。帧率指的是时间分辨率。图像尺寸和帧率的自适应也表示为ST自适应。待适应的用于对视频图像进行编码的编码参数不限于帧率、图像大小、或量化参数。用于编码的其他参数可以包括块分割(视频帧如何分成可能不同尺寸和/或形状的块)、预测类型或预测模式等。

图11示出了本发明的示例实施例，其中视频图像基于编码参数在模块1140中进行编码，以生成位流视频。在图11的实施例中，编码参数的自适应也由编码模块1140执行。编码参数基于由模块1130确定的基于事件的运动信息进行自适应。

与视频图像对应的真实视频图像1110可以通过捕获真实图像的图像内容的标准图像传感器(例如CMOS传感器)来获得。视频图像或其帧的图像内容包括强度(亮度和/或色度)。从事件图像视频1120获得基于事件的运动信息确定1130。事件图像视频对应于事件驱动/事件触发传感器的输出，包括多个事件驱动/事件触发像素。事件视频图像的内容包括来自事件视频图像的多个事件像素中的事件像素的事件信号。

视频图像包括样本或一组样本。通过应用确定的编码参数对样本进行编码。对样本的编码由编码器1140执行，并且提供编码视频图像作为位流视频。对样本的编码可以包括对一个样本或一组样本的编码。编码器可以根据不同的编码参数对一个样本或一组样本不同地进行编码。

在图11的示例性实施例中，上述装置的处理电路用于执行编码参数的自适应和编码。然而，编码参数自适应和图像编码可以替代地由布置在同一芯片或不同芯片上的不同电路执行。换句话说，此后讨论的任何任务都可以由单个电路或不同电路以组合方式执行。根据应用，任务的各个部分也可以以任何合适的方式组合。

在标准视频编码器中，编码参数如帧率、空间分辨率、或压缩强度由用户(例如使用编码器的应用或使用编码的个人)输入编码器。另一方面，一些编码器实施方式可以基于率失真优化或率失真复杂度优化等确定其他编码参数或甚至对输入的编码参数进行适应。

在本公开中，输入编码器的编码参数是基于事件特征自动(预先)确定的。这一功能不一定是编码器电路的一部分，而是可以在单独的集成电路或软件和/或硬件中实现。然而，本公开不限于此类实施方式，编码参数的确定可以在与编码器相同的硬件(例如IC、处理器等)内实现。

根据图12所示的实施例，上述装置的处理电路(用虚线框标记)用于执行以下任务：通过运动分析器1220基于基于事件的运动信息对运动进行分析，以及对编码参数进行自适应，例如帧率自适应1240、图像尺寸自适应1250、以及经由ROI-RONI检测器1230的QP自适应。

在本文中，编码器1210(分别地，电路)与编码参数自适应(即模块1240、1250、1230)分离。将编码器的电路(即编码器1210本身)与其他电路分离使得能够使用标准视频编码器(例如H.264/AVC或HEVC(H.265))。在这种情况下，编码器需要与其他模块的外部功能块的接口。这些模块1240、1250、1230随后基于基于事件的运动信息执行编码参数自适应。例如，通过信令将自适应的编码参数提供给编码器1210。从以上描述中可以清楚，上述装置的每个功能块一般可以具有其自身的电路，这些电路实现为硬件和/或软件。

根据实施例，处理电路用于基于事件信号(指示视频图像中的对象的运动)确定运动信息。运动信息使用图像强度变化的度量来计算。

图像强度变化的度量可以是p范数，其中p是大于等于1的正整数。也可以使用满足熟知的度量条件的其他类型的度量。

指示对象的运动的运动信息例如是由事件触发相机提供的帧的每个事件像素传感器(即事件像素的事件信号)的强度变化的绝对值的和。

术语“运动”指的是视频图像内的对象或多个对象的位置的时间变化(对应于像素坐标中的变化)，这产生帧的样本或一组样本的强度变化(亮度和/或色度)。因此，运动信息或运动的量是帧内是否存在对象或多个对象的指示符。

另外或替代地，可以从事件信号中计算其他种类的运动信息。例如，可以基于运动统计来指示运动，包括事件信号的均值和/或标准差和/或偏度。根据任一此类值，可以相应地对与时间或空间分辨率有关的任意编码参数进行适应。

一般地，可以针对由事件触发相机拍摄的事件图像帧的一组事件信号和/或多组事件信号计算运动信息。上述一组事件信号(对应于一组事件触发像素)可以是非重叠或重叠的。

基于运动信息，在视频图像内的与图像强度变化的位置对应的位置处检测到对象。当计算的运动信息等于或大于预定阈值时，检测到对象。

用于对象检测的阈值可以是在ST参数自适应时使用的相同阈值。替代地，用于对象检测的阈值可以与ST参数自适应时的阈值不同。这允许单独调节在ST参数的自适应过程和在对象检测过程中的标准。这使得应用的方法更加灵活。

根据实施例，处理电路用于根据计算的运动信息和/或检测到的对象来确定与视频图像的时间分辨率或空间分辨率有关的编码参数。

根据计算的运动的幅度，对与时间或空间分辨率有关的编码参数进行适应。

根据第一实施例，处理电路用于根据是否检测到对象来对编码参数进行适应。根据该标准，当检测到对象时，参考默认值增大帧率和/或图像尺寸。当没有检测到对象时，参考默认值保持或减小帧率和/或图像尺寸。

根据第二实施例，编码参数可以根据附加标准进行适应。其中，处理电路用于在检测到对象并且该对象以等于或低于预定速度阈值的速度移动时，参考默认值保持帧率和图像尺寸。当检测到对象并且该对象以大于速度阈值的速度移动时，参考默认值增大帧率。当没有检测到对象时，参考默认值减小帧率和图片尺寸。

基于第二实施例，表1示例性地示出了ST参数、帧率、以及图像尺寸可以如何根据由运动分析器1220计算的运动幅度m进行适应。计算的运动对应于对象在视频图像内移动的速度。

表1：使用运动分析器结果的视频编码的空间-时间自适应规则

例如，可以通过由事件触发相机提供的帧的每个像素传感器(即事件像素的事件信号)的强度变化的绝对值的和来计算与运动信息(分别地，运动)对应的速度。由于仅当对象存在于视频图像中从而在其移动时引起图像强度变化时才假定运动是普遍存在的，因此图像强度的时间变化的总幅度是对象的整体速度的度量。

替代地或除了以上提供的示例之外，可以从事件信号中计算用于指定对象的速度的其他类运动信息。例如，还可以基于运动统计(包括事件信号的均值和/或标准差和/或偏度)来指示速度(即运动)。根据任何此类值或此类值的组合，可以相应地对与时间或空间分辨率有关的任何编码参数进行适应。

在表1的示例中，引入了两个阈值TH和TL，通过这两个阈值，定义了三个区域“等待”、“低速运动”、以及“标准”，以及帧率和图像尺寸的相应值。

这些阈值TH和TL对应于预定义速度阈值。换句话说，通过阈值化确定视频图像中对象移动的快慢。在表1的示例性情况下，该阈值根据运动(速度)的区间[T_H,T_L]来指定。替代地，可以使用预定速度阈值的单个值。

作为任一编码参数帧率和图像尺寸的默认值，假定选项“低速运动”的相应值。然而，根据不同的“选项”，每个编码参数可以具有其默认值。

例如，TH和TL的值可以预定义并且在编码器/解码器内设置和/或可以由用户远程设置。此外，帧率和图像尺寸的值不限于以上值，而是可以根据发展的技术进行改变。例如，对于4k视频，图像尺寸的标准设置1920x 1080可以改变到3840x 1280。此外，随着处理芯片的速度增加，帧率可以进一步增加。

根据第三实施例，编码参数可以仅基于速度进行适应。这意味着仅在检测到速度超过速度阈值时才对编码参数进行适应。例如，如果检测到任何运动，则对编码参数进行适应。运动反过来要求尤其当使用事件触发传感器时在视频图像存在对象。因此，由于对象检测隐含在事件触发传感器输出中，因此可以不需要单独或附加的对象检测。

在全HD中，默认分辨率是1920x 1080(对应于图像尺寸)。替代的低分辨率是960x540。因此，图像尺寸是与空间分辨率有关的编码参数。指定图像尺寸的指定像素数不限于此。随着视频图像和显示技术朝更高的空间分辨率发展，这些像素数可以改变，从而得到更大的图像尺寸。例如，在4k技术中，默认分辨率将是3840x 2160，其中1920x 1080或960x540是较低的替代分辨率。

如图12所示，计算的运动信息(这里为运动m)被分别指示给帧率自适应1240和图像尺寸自适应1250。在这些模块1240和1250中的每个模块中，可以根据运动m的值，例如根据表1来对帧率和/或图像尺寸进行适应。

相应的适应后的编码参数接着被指示给视频编码器1210，视频编码器1210使用这些值对视频图像进行编码。

接下来进一步详细描述量化参数QP的自适应。

根据实施例，处理电路用于基于事件信号确定视频图像内的感兴趣区域ROI和不感兴趣区域RONI。根据ROI和RONI，为每个区域确定相应的编码参数以对ROI和RONI内的样本进行编码。通过应用相应的编码参数，对ROI和RONI内的样本进行编码。

ROI和RONI的确定基于事件信号意味着事件信号用于确定事件信号的量(例如绝对值)，并且当确定的量大于预定值时，将样本或一组样本分配给ROI，否则分配给RONI。如上所述，ROI和RONI是指视频图像中对象或多个对象的运动是普遍存在(ROI)或不是普遍存在(RONI)的那些区域，其中，对象运动引起图像强度变化。运动的强烈程度取决于运动的强度(即运动的绝对值)并由事件信号的幅度反映。因此，通过将事件信号幅度与预定义阈值进行比较，图像中像素或一组像素所在的区域可以按像素或按块划分成显著运动区域ROI或弱运动区域RONI。

根据图12所示的实施例，ROI-RONI检测器1230使用来自事件触发相机的事件信号作为输入来确定区域ROI和RONI。可以由检测器1230执行ROI-RONI的确定。

根据实施例，通过针对每个事件信号比较图像强度变化的绝对值与第二预定义阈值来检测ROI和RONI(对应于ROI-RONI位图)。与位图有关的比特是每个单元的比特，一个单元对应于一个或多个样本。

当绝对值等于或大于第二预定阈值时，相应的值设为1，否则设为0。

值1(即比特值“1”)与ROI之内相关联，值0(即比特值“0”)与ROI之外相关联，对应于RONI。

对应于基于设置的值1的图像强度变化的位置，视频图像的样本被标记为对象的一部分，并对ROI和RONI进行编码。

标记视频图像中与强度变化对应的样本或一组样本是通过预先将事件驱动相机与标准(RGB)图像传感器相机进行校准来实现的。这允许将强度变化分配给视频图像内的对应位置。

ROI-RONI检测器的输出(包括位图)通过为ROI设置1-比特并为RONI设置0-比特，在一比特级别上指示了样本或样本块是ROI还是RONI。换句话说，ROI-RONI位图可以是像素形式的或块形式的位图。

块形式的位图可以由ROI-RONI检测器通过将帧图像的整个编码树单元(codingtree unit，CTU)或编码单元(coding unit，CU)的比特值设为1来获得，这对应于CTU/CU中的所有样本(如果CTU/CU包含一个或多个ROI样本)。

ROI-RONI检测器1230将ROI-RONI位图指示给视频编码器1210，视频编码器执行ROI和RONI的编码。

根据实施例，通过将ROI-RONI位图映射到视频图像上从而匹配视频图像的样本的位置，基于计算的运动信息和检测的ROI来在视频图像内检测到对象。

由于事件驱动相机和标准图像相机是预先校准的，所以位图的映射可以由ROI-RONI检测器执行，所以ROI-RONI检测器不需要视频图像作为额外的输入。

根据实施例，强度变化的位置映射到与视频图像中的样本坐标对应的样本位置上。

由于事件驱动相机和标准图像相机是校准的，所以编码器1210可以将输入的ROI-RONI位图转换为视频图像的对应位图。

如参考图10和图5所述，基于事件触发事件分别获得的位置的位图映射，意味着位图在事件触发帧中的位置处具有比特值“1”，这些位置在视频图像内具有相应位置(即，样本/像素坐标)。这是因为事件信号还指示了图像强度变化的位置(即定位)。因此，这允许将位图和/或强度变化位置映射到视频帧(即标准视频帧)上，从而匹配视频帧中的对应位置。可以通过像素配准算法来执行将事件触发数据(由事件触发传感器获得)的位置映射到另一数据(由标准图像传感器获得)的位置。

由于ROI-RONI区域和运动信息是基于事件信号结合阈值化以及与视频图像内的对象的运动相关联的事件来确定的，所以在映射之后可以实际地在视频图像内检测到对象。这在图10中示出，并且对于真实帧，这在图5B的下半部分示出。

现在可以确定与空间分辨率有关的编码参数QP。QP参数的自适应可以由编码器1210根据编码器类型执行，例如，在速率控制模块(未示出)中执行。可替代地，QP参数可以由不是编码器的一部分的外部电路进行适应。

根据实施例，用于视频图像的编码块的编码参数QP如下确定：当编码块的一部分或整个编码块在ROI内和/或检测到对象时，减小QP。当编码块在RONI内时，增大QP。

编码块可以是视频图像或视频图像帧的编码树单元(CTU)和/或编码单元(CU)。

量化参数是用于编码的比特的倒数(inverse number)。因此，较小的QP值对应于较大的比特数，分别地，大量的较小增量。因此，可以编码视频图像内的较精细的空间变化，提高图像质量。

在图12的示例性实施例中，视频编码器1210根据从ROI-RONI检测器1230指示的ROI-RONI位图执行QP值的自适应。

在标准HEVC编解码器的情况下，出于兼容性原因，ROI-RONI指示通过块形式的位图来实现，即，基于CTU/CU。编码器1210使用该位图并根据位图中的相应条目是“1”还是“0”来针对每个CTU/CU对编码参数QP进行适应。

当CTU(或编码块)是如位图中的比特值“1”所指示的ROI时，编码器1210减小QP值，对应于较高的比特分辨率。换句话说，图像内容中的空间渐变(就亮度和/或色度而言)可以通过更多数量的(不同)值来解析。反过来，当CTU/CU是如比特值“0”所指示的RONI时，编码器1210增加QP值。

对于HEVC，较小的QP和较大的QP之间的差可以是12。然而，这可以根据ROI的所需图像质量改变。

在对象检测之后，可以经由机器学习方法执行对检测到的对象的特征的后续提取。

根据实施例，上述装置包括处理电路，该处理电路用于提取检测到的对象的特征。编码参数根据提取的特征确定，并且该特征通过应用编码参数进行编码。

上述特征可以是特定应用所需的任何特征。例如，传统特征可以包括尺度不变特征变换(scale-invariant-feature-transform，SIFT)、加速鲁棒特征(speed-up-robust-feature，SURF)、或二级制鲁棒独立基本特征(binary-robust-independent-elementary-feature，BRIEF)等。

在SURF的情况下，此类特征可以是从对应描述子中获得的特征，例如高斯导数、不变矩、复杂特征(complex feature)、方向可调滤波器、基于相位的局部特征、或表示较小尺度特征在邻域兴趣点内的分布的描述子。这些特征具有鲁棒性，可以快速计算。

SIFT旨在从视频图像中提取尺度不变特征，从而实现场景和/或对象的不同视角之间的可靠匹配。这些特征可以包括潜在感兴趣点，以及基于局部图像梯度方向的这些点的局部稳定性和方向的确定。SIFT一般生成大量特征。例如，包含500x 500个像素的图像提供约2000个稳定特征。对于对象识别来说，尤其是当对象较小时，充足数量的此类稳定特征是重要的，以便实现鲁棒匹配。这在D.G.Lowe的“Distinct Image Features from Scale-Invariant Keypoints”中更详细地描述，该文章已在2004年的国际计算机视觉杂志上发表。

这些特征也可以是更高级的特征，例如基于CNN的特征，例如由Choi和Bajic在2018年2月12日发表的“Deep Feature Compression for Collaborative ObjectDetection”arXiv:1802.03931v1中详细描述。

用于对提取的特征进行编码的编码参数可以与ST编码参数或QP参数中任一项不同。替代地，特征编码参数可以与ST参数或QP参数等中的任一项相同。

例如，可以通过神经网络(neural network，NN)执行对检测到的对象的特征的提取。替代地，特征提取可以由任何其他机器学习方法执行，包括深度神经网络(DNN)、卷积神经网络(CNN)、全连接神经网络(FCNN)、支持向量机(SVM)等。

根据实施例，提供了一种用于对视频图像的样本进行编码的方法，包括以下步骤：从图像传感器获得视频图像；从事件触发传感器获得指示图像强度变化的位置的事件信号；根据获得的事件信号确定用于对视频图像进行编码的编码参数；以及通过应用确定的编码参数对视频图像进行编码。

根据图13的示例性实施例，通过基于事件的传感器和标准图像传感器捕获真实图像的内容S1310。检测来自基于事件的传感器的事件并输出相应的事件信号S1320。基于该事件信号，检测对象并计算该对象的运动信息S1330。

如果检测到对象S1340(“是”)，则增加由标准图像传感器捕获的视频图像的时间和/或空间分辨率(即相应的编码参数)S1360。对调整后的视频图像进行编码1362。

如果没有检测到对象S1340(“否”)，则减小由标准图像传感器捕获的视频图像的时间和/或空间分辨率(即相应的编码参数)S1350。对调整后的视频图像进行编码1352。

根据图14的示例性实施例，通过基于事件的传感器和标准图像传感器捕获真实图像的内容S1410。检测来自基于事件的传感器的事件并输出相应的事件信号S1420。基于该事件信号，在由标准图像传感器S1430捕获的图像中检测感兴趣区域ROI S1430。基于该事件信号，针对ROI和RONI调整编码参数S1440。

根据图15的示例性实施例，通过基于事件的传感器和标准图像传感器捕获真实图像的内容S1510。检测来自基于事件的传感器的事件并输出相应的事件信号S1520。基于该事件信号，在标准图像传感器的图像中检测对象S1530。提取在标准图像传感器的图像中识别的检测到的对象的特征，并且对提取的特征进行编码S1550。

根据实施例，一种计算机可读非暂时性介质存储有程序，该程序包括指令，当在处理器上执行时，该指令使处理器执行上述方法的步骤。

上述实施例利用由事件触发传感器提供的事件信号来执行针对由标准图像传感器拍摄的图像的运动分析(例如，根据运动统计)和对象检测。这允许可靠且准确地检测不同大小的快速移动的对象，并且调节用于对视频图像进行编码的时间和空间编码参数(包括量化参数QP)。结合对视频图像中的ROI和RONI的基于事件的检测，可以根据图像事件(即视频图像中发生的动态变化)对任何编码参数进行适应和精调。

因此，上述实施例使得能够针对视频图像和/或视频图像帧之一内的区域(例如ROI和/或RONI)进行编码复杂度的自适应。这例如在编码带宽自适应方面提高了自动计算机视觉算法和用于机器视觉应用(包括使用最优编码参数的图像编码/编解码)的装置中的编码效率。

因此，实施例所公开的方法提供了更准确的背景提取和对象检测(包括对象识别)的有益效果，与视频监控、计算机视觉驱动视频编(解)码、或自动驾驶有关。

实施例所公开的方法可以在监控相机或其他包含具有对象检测功能的相机的用户设备中的芯片(例如IPC相机芯片)上使用和实现。

总而言之，本公开涉及使用编码参数的视频图像编码，编码参数基于与视频图像内的运动有关的事件进行自适应。图像内容由标准图像传感器和事件触发传感器捕获，事件触发传感器提供了指示图像强度变化(例如变化量和时空位置变化)的事件信号。基于评估对象的运动的事件信号以及提取的对象的纹理在视频图像内检测对象。基于事件信号的位置和强度以及检测到的对象的移动程度来确定视频图像的空-时编码参数。事件信号结合对象的纹理信息的使用允许从背景中执行视频图像的分割，从而进一步优化背景和动态图像内容(包括不同大小的快速和慢速运动的对象)的编码。

参考标号列表

图1

100 编码器

103 图像块

102 输入(例如输入端口、输入接口)

104 残差计算[单元或步骤]

105 残差块

106 变换(例如额外地包括缩放[单元或步骤])

107 变换系数

108 量化[单元或步骤]

109 量化系数

110 反量化[单元或步骤]

111 去量化系数

112 反变换(例如额外地包括缩放)[单元或步骤]

113 反变换块

114 重建[单元或步骤]

115 重建块

116 (行)缓冲区[单元或步骤]

117 参考样本

120 环路滤波器[单元或步骤]

121 滤波块

130 解码图像缓冲区(DPB)[单元或步骤]

142 帧间估计(或图像间估计)[单元或步骤]

143 帧间估计参数(例如参考图像/参考图像索引、运动矢量/偏移)

144 帧间预测(或图像间预测)[单元或步骤]

145 帧间预测块

152 帧内估计(或图像内估计)[单元或步骤]

153 帧内预测参数(例如帧内预测模式)

154 帧内预测(帧/图像内预测)[单元或步骤]

155 帧内预测块

162 模式选择[单元或步骤]

165 预测块(帧间预测块145或帧内预测块155)

170 熵编码[单元或步骤]

171 编码图像数据(例如位流)

172 输出(输出端口、输出接口)

231 解码图像

图2

200 解码器

171 编码图像数据(例如位流)

202 输入(端口/接口)

204 熵解码

209 量化系数

210 反量化

211 去量化系数

212 反变换(缩放)

213 反变换块

214 重建(单元)

215 重建块

216 (行)缓冲区

217 参考样本

220 环路滤波器(环路内滤波器)

221 滤波块

230 解码图像缓冲区(DPB)

231 解码图像

232 输出(端口/接口)

244 帧间预测(帧/图像间预测)

245 帧间预测块

254 帧内预测(帧/图像内预测)

255 帧内预测块

260 模式选择

265 预测块(帧间预测块245或帧内预测块255)

图3

300 编解码系统

310 源设备

312 图像源

313 (原始)图像数据

314 预处理器/预处理单元

315 预处理图像数据

318 通信单元/接口

320 目的地设备

322 通信单元/接口

326 后处理器/后处理单元

327 后处理图像数据

328 显示设备/单元

330 发送/接口/通信的(编码)图像数据

图4

400 视频编解码设备

410 入口端口

420 接收器单元(Rx)

430 中央处理单元(CPU)

440 发射器单元

450 出口端口

460 存储器

470 编解码模块

图7

710 透镜1和透镜2

720 事件驱动传感器

730 RGB传感器

740 融合

图8

850 透镜

860 滤波器

870 RGB和事件驱动传感器

880 融合

图9A

910 标准图像传感器

920 事件驱动传感器

930 预处理

940 配准

950 融合

960 从对象中提取特征

图9B

910 标准图像传感器

920 事件驱动传感器

930 预处理

940 配准

950 融合

960 从对象中提取特征

图9C

910 标准图像传感器

920 事件驱动传感器

930 预处理

970检测的事件/对象

图10

1010 事件驱动传感器输出

1012 人

1014 车

1020 标准图像传感器输出

1022 人

1024 车

图11

1110 事件图像视频

1120 真实图像视频

1130 基于事件的运动信息

1140 编码参数+编码

图12

1210 视频编码器

1220 运动分析器

1230 ROI-RONI检测器

1240 帧率自适应

1250 图像尺寸自适应

图13

S1310 通过基于事件的传感器和标准图像传感器捕获内容

S1320 从基于事件的传感器检测事件并输出事件信号

S1330 基于事件信号检测对象并基于事件信号计算运动信息

S1340 检查是否检测到对象：是/否？

S1350 是：减小标准图像传感器的时间和/或空间分辨率

S1352 对调整的视频图像进行编码

S1360 否：增加标准图像传感器的时间和/或空间分辨率

S1362 对调整的视频图像进行编码

图14

S1410 通过基于事件的传感器和标准图像传感器捕获内容

S1420 从基于事件的传感器检测事件并输出事件信号

S1430 基于输出的事件信号检测标准图像传感器的图像中的ROI

S1440 针对ROI和非ROI区域调整编码参数

图15

S1510 通过基于事件的传感器和标准图像传感器捕获内容

S1520 从基于事件的传感器检测事件并输出事件信号

S1530 基于输出的事件信号检测标准图像传感器的图像中的对象

S1540 提取在标准图像传感器的图像中识别的检测到的对象上的特征

S1550 对提取的特征进行编码

Claims

1.一种用于对视频图像的样本进行编码的装置(1100，1200)，包括：

处理电路，用于：

从图像传感器获得所述视频图像(1120)；

从事件触发传感器获得事件信号(1100)，所述事件信号(1100)指示图像强度变化的位置；

根据获得的所述事件信号确定用于对所述视频图像进行编码的编码参数(1140，1240，1250，1230)；以及

通过应用确定的所述编码参数对所述视频图像进行编码(1140，1210)。

2.根据权利要求1所述的装置，其中，所述事件信号还指示相应位置的所述图像强度变化的量。

3.根据权利要求1或2所述的装置，其中，所述处理电路还用于

基于所述事件信号确定运动信息(1130，1220)，所述运动信息(1130，1220)指示所述视频图像中的对象的运动；

基于所述运动信息检测所述视频图像内与所述图像强度变化的所述位置对应的位置上的对象。

4.根据权利要求3所述的装置，其中，当所述运动信息等于或大于第一预定阈值时，检测到所述对象。

5.根据权利要求2所述的装置，其中，所述运动信息使用所述图像强度变化的度量来计算。

6.根据权利要求1至5所述的装置，其中，所述处理电路用于根据计算的所述运动信息和/或检测到的所述对象确定与所述视频图像的时间分辨率或空间分辨率有关的所述编码参数。

7.根据权利要求1所述的装置，其中，所述编码参数是帧率、图像尺寸、或量化参数(QP)中的任一项。

8.根据权利要求1至7所述的装置，其中，所述处理电路用于

当检测到所述对象并且所述对象以等于或低于所述预定速度阈值的速度移动时，参考默认值保持所述帧率和所述图像尺寸；

当检测到所述对象并且所述对象以大于所述速度阈值的速度移动时，参考所述默认值增大所述帧率(1240)；以及

当没有检测到对象时，参考所述默认值减小所述帧率(1240)和所述图像尺寸(1250)。

9.根据权利要求1和2所述的装置，其中，所述处理电路还用于：

基于所述事件信号确定(1230)所述视频图像内的感兴趣区域(ROI)以及不感兴趣区域(RONI)；

根据所述ROI和所述RONI确定每个区域的相应编码参数，所述相应编码参数用于对所述ROI和所述RONI内的样本进行编码；以及

通过应用所述相应编码参数对所述ROI和所述RONI内的所述样本进行编码。

10.根据权利要求9所述的装置，其中，所述处理电路还用于

按如下方式检测与ROI-RONI位图对应的所述ROI和所述RONI，所述ROI-RONI位图具有每个单元的比特，一个单元对应于一个或多个样本：

对于每个事件信号，将所述图像强度变化的绝对值与第二预定义阈值进行比较；

当所述绝对值等于或大于所述第二预定阈值时，将相应值设为1，否则设为0；

关联所述ROI内的值1和所述ROI外的值0，所述ROI外的值0与所述RONI对应；

对应于基于设置的值1的所述图像强度变化的所述位置，将所述视频图像的所述样本标记为所述对象的一部分；

对所述ROI和所述RONI进行编码。

11.根据权利要求2至10所述的装置，其中，通过将所述ROI-RONI位图映射到所述视频图像上以匹配所述视频图像的所述样本的位置，从而基于计算的所述运动信息和检测到的所述ROI来检测到所述视频图像内的所述对象。

12.根据权利要求2至11所述的装置，其中，如下确定所述视频图像的编码块的所述编码参数QP：

当部分或全部所述编码块位于所述ROI内和/或检测到所述对象时，减小所述QP；

当所述编码块位于所述RONI内时，增大所述QP。

13.根据权利要求3所述的装置，其中，所述装置还包括处理电路，所述处理电路用于：

提取检测到的所述对象的特征；

根据提取的所述特征确定编码参数；

通过应用所述编码参数对所述特征进行编码。

14.根据权利要求1所述的装置，其中，所述强度变化的所述位置被映射到所述样本的位置上，所述样本的所述位置对应于所述视频图像中的所述样本的坐标。

15.一种用于对视频图像的样本进行编码的方法，包括

从图像传感器获得所述视频图像(1310，1410，1510)；

从事件触发传感器获得指示图像强度变化的位置的事件信号(1310，1410，1510)；

根据获得的所述事件信号确定用于对所述视频图像进行编码的编码参数(1350，1360，1440)；以及

通过应用确定的所述编码参数对所述视频图像(1352，1362，)进行编码。

16.一种计算机可读非暂时性介质，存储有程序，所述程序包括指令，当在处理器上执行时，所述指令使所述处理器执行根据权利要求15所述的方法。