CN107924576A

CN107924576A - 用于视频稳定化的视频图像对齐

Info

Publication number: CN107924576A
Application number: CN201680051291.4A
Authority: CN
Inventors: D·S·杨库
Original assignee: Utron Semiconductor Technology Co Ltd
Current assignee: Utron Semiconductor Technology Co Ltd; Optimum Semiconductor Technologies Inc
Priority date: 2015-08-19
Filing date: 2016-08-18
Publication date: 2018-04-17
Also published as: WO2017031270A1; EP3338249B1; KR20180043312A; EP3338249A4; US9948859B2; US20170054909A1; EP3338249A1

Abstract

一种系统和方法，涉及计算与参考视频帧相关联的第一边缘图，生成与输入视频帧相关联的第二边缘图，基于第一边缘图的第一频域表示和第二边缘图的第二频域表示来生成参考视频帧和视频帧之间的偏移，根据计算出的偏移来平移输入视频帧的多个像素的位置，以使输入视频帧相对于参考视频帧对齐，以及将对齐的视频帧发送到下游设备。

Description

用于视频稳定化的视频图像对齐

相关申请的交叉引用

本申请要求2015年8月19日提交的美国临时专利申请No.62/206911和2016年8月15日提交的美国发明专利申请No.15/236904的权益，其公开内容以引用的方式整体并入本文中。

技术领域

本公开的实施方式涉及视频处理，并且更具体地，涉及用于视频稳定化的视频帧对齐。

背景技术

当人使用手持摄像机来记录视频时，该视频可能由于人无意识的身体移动而呈现出摇动和抖动。这些摇动和抖动可能会对视频质量产生不利影响。

发明内容

因此，需要稳定视频记录中的图像。本公开的实施方式提供了采用频域视频帧对齐方法来稳定视频记录的技术方案。该方法利用时间和空间上的频域信息编码信息来评估视频记录中两个视频帧之间的偏移(例如，以像素数量的形式)，以用于视频帧对齐。由于频域处理的计算复杂度低于空域处理方法需要的计算复杂度，因此频域处理方法对于视频稳定化更高效。

通过提供计算输入视频帧与参考视频帧之间在频域中的偏移的处理设备而得以弥补上述问题。处理设备可以将输入视频帧从空间域变换到频域以获得频域表示。处理设备可以基于频域表示来评估参考视频帧的边缘与变换的图像的边缘之间的偏移。根据该偏移，处理设备可以将输入视频帧与参考视频帧对齐以生成对齐的视频帧。处理设备可以将对齐的图像发送到下游设备。

处理设备可以检测输入视频帧的边缘。可以使用边缘检测方法(例如，Canny边缘检测器或高斯微分(DOG)边缘检测器)来检测边缘。处理设备可以确定输入视频帧中的边缘与参考视频帧中的对应边缘之间的偏移。对齐处理器可以根据偏移来调整输入视频帧的每个像素的位置。可以以取决于视频帧速率或视频质量中的至少一个的速率来更新参考帧。

附图说明

根据下文提供的示例性实施方式的详细描述结合考虑以下附图，可以更容易地理解本发明：

图1是示出根据本公开的实施方式的计算系统的框图。

图2是可以在如图1所示的计算系统中采用的向量处理器。

图3是如图2所示的向量处理器的向量单元。

图4是示出根据本公开的实施方式的用于对齐视频帧的方法的流程图。

图5是示出根据本公开的实施方式的提供视频帧对齐的与图1的计算系统相关联的方法的流程图。

图6A是测试视频帧和对应的检测到的边缘(测试视频帧1(即，tr1))。

图6B是测试视频帧和对应的检测到的边缘(由OST2检测到的边缘)。

图6C是测试视频帧和对应的检测到的边缘(由OST2检测到的边缘(线)和由SIFT找到的关键点(点))。

图7A是测试视频帧和对应的检测到的边缘(测试视频帧2(即，tr2))。

图7B是测试视频帧和对应的检测到的边缘(由OST2检测到的边缘)。

图8A是测试视频帧和对应的检测到的边缘(归一化相关；tr1和tr2归一化相关结果)。

图8B是测试视频帧和对应的检测到的边缘(峰值周围的归一化相关；tr1和tr2归一化相关结果)。

图8C是测试视频帧和对应的检测到的边缘(峰值周围的归一化相关；tr1和tr2归一化相关结果)。

图9A是测试视频帧和对应的检测到的边缘(测试视频帧13(即，tr3))。

图9B是测试视频帧和对应的检测到的边缘(由OST2检测到的边缘)。

图10A是测试视频帧和对应的检测到的边缘(归一化相关；tr1和tr3归一化相关结果)。

图10B是测试视频帧和对应的检测到的边缘(峰值周围的归一化相关；tr1和tr3归一化相关结果)。

图10C是测试视频帧和对应的检测到的边缘(峰值周围的归一化相关；tr1和tr3归一化相关结果)。

图11A是测试视频帧和对应的检测到的边缘(测试视频帧4(即，tr4))。

图11B是测试视频帧和对应的检测到的边缘(由OST2检测到的边缘)。

图12A是测试视频帧和对应的检测到的边缘(归一化相关；tr1和tr4归一化相关结果)。

图12B是测试视频帧和对应的检测到的边缘(峰值周围的归一化相关；tr1和tr4归一化相关结果)。

图12C是测试视频帧和对应的检测到的边缘(峰值周围的归一化相关；tr1和tr4归一化相关结果)。

图13A是测试视频帧和对应的检测到的边缘(测试视频帧5(即，tr5))。

图13B是测试视频帧和对应的检测到的边缘(由OST2检测到的边缘)。

图14A是测试视频帧和对应的检测到的边缘(归一化相关；tr1和tr5归一化相关结果)。

图14B是测试视频帧和对应的检测到的边缘(峰值周围的归一化相关；tr1和tr5归一化相关结果)。

图14C是测试视频帧和对应的检测到的边缘(峰值周围的归一化相关；tr1和tr5归一化相关结果)。

图15A是测试视频帧和对应的检测到的边缘(测试视频帧6(即，tr6))。

图15B是测试视频帧和对应的检测到的边缘(由OST2检测到的边缘)。

图16A是测试视频帧和对应的检测到的边缘(归一化相关；tr1和tr6归一化相关结果)。

图16B是测试视频帧和对应的检测到的边缘(峰值周围的归一化相关；tr1和tr6归一化相关结果)。

图16C是测试视频帧和对应的检测到的边缘(峰值周围的归一化相关；tr1和tr6归一化相关结果)。

图17示出采用计算机系统的示例形式的机器的图形表示，在该计算机系统内可以执行一组指令以使得该机器执行本文讨论的任何一种或多种方法。

具体实施方式

视频剪辑由一系列视频帧组成，每个视频帧具有取决于记录格式的预定尺寸。每个视频帧可以包括像素阵列(例如，HDTV格式下的1920×1080像素)，并且视频帧的序列是由图像传感器以视频帧速率(例如，30帧/秒)捕捉的场景的图像表示。所记录的视频可以根据视频压缩标准(例如，MPEG-2)来编码，并且可以在回放期间被解码为原始图像数据。本公开的实施方式包括针对视频稳定化处理视频帧的方法。可以将每一个视频帧抽取(即，空间子采样)为较低分辨率的视频帧以减少计算量。可以采用边缘检测器(例如，Canny边缘检测器)来计算与视频帧相关联的边缘图。然后，将频率变换(例如，傅立叶变换)应用于与视频帧相关联的边缘图，以将它们转换为频域表示。在频域中，根据视频帧与参考视频帧的频域表示来评估它们之间的像素的偏移。所评估的偏移可以被用来相对于参考视频帧对齐视频帧。如果视频帧的大小为m×n像素，则用于计算频域中的边缘的计算复杂度约为O(mn logmn)。因此，能够以更高效的方式来稳定视频，而不会牺牲稳定视频的质量。

图1是示出根据本公开的实施方式的稳定图像数据(例如，数字静止图像或视频帧)的计算系统的框图。如图1所示，计算系统100可以从可以是数字视频捕捉系统105或网络内容共享平台110的来源接收编码的图像数据。计算系统100可以包括处理设备135，处理设备135进一步包括一个或多个中央处理单元165a-165n。处理设备135可以通信地耦合到主存储器140。主存储器140可以存储由接收器115接收、由解码器120解码并且被传送至主存储器140中的图像数据缓冲器145的解码的图像数据(例如，数字图像或视频数据)。接收器115可以直接从数字视频捕捉系统105或者从网络内容共享平台110接收编码的图像数据。在一个实施方式中，接收器115或解码器120之一或两者可以在处理设备135的外部。在另一个实施方式中，接收器115或解码器120之一或两者可以与处理设备135集成。

处理设备135还可以实现向量处理器(VP)150。本领域技术人员应该理解，除了VP之外还可以利用其他协处理器架构，例如但不限于DSP、FPGA或ASIC，或者处理设备135自身的附属固定功能特征。本领域技术人员还应理解，可以将向量处理器150与中央处理单元165a-165n布置在相同的物理芯片或逻辑设备(也称为“APU”)上，例如在移动电话和平板电脑上提供的APU。在(VP是物理扩展卡的)计算机服务器系统，以及个人计算机系统和笔记本电脑上可存在单独的VP和CPU功能。VP 150可以包括VP存储器155。本领域技术人员应理解，主存储器140和VP存储器155也可以布置在相同的物理芯片或逻辑设备上，诸如在APU上。

处理设备135可以被配置为接收解码的图像数据。处理设备135可以被配置为基于接收的解码的图像数据在主存储器140中创建图像数据缓冲器145。图像数据缓冲器145是主存储器140中用于存储数据(诸如解码的图像数据)的区域。处理设备135可以被配置为将图像数据缓冲器145中存储的内容输送到VP存储器150中的图像数据缓冲器160。

处理设备135可以被配置为实现对齐处理器145，以接收图像数据缓冲器160中存储的图像数据。在一个实施方式中，处理设备135可以将对齐处理器145实现为VP 150的组件。

对齐处理器145可以从视频记录中选择参考视频帧，其中可以通过对齐过程来更新该参考视频帧，并且可以基于视频帧速率，视频质量或者用于对齐(以稳定视频)的其他标准来确定更新参考视频图像的频率。在选择了参考视频帧之后，响应于接收输入视频帧(其与参考视频帧不同)，对齐处理器145可以执行计算以使输入视频帧相对于参考视频帧对齐。当由对齐处理器145接收到输入视频帧时，对齐处理器145可以将输入视频帧抽取(或空间子采样)为较低分辨率。如果参考帧还未被抽取，则对齐处理器145可以将参考帧抽取为与输入视频帧相同的比例。抽取视频帧减少了剩余处理步骤的计算复杂度。此外，对齐处理器145可以对经抽取的输入视频帧执行边缘检测计算。数字图像中的边缘由图像中的像素强度不连续性形成。边缘可以被组织成直线或曲线段。可以采用边缘检测器(例如，Canny边缘检测器或任何其他合适的边缘检测器)来识别图像中的边缘以生成与图像相关联的边缘图。

对齐处理器145可以将经抽取的输入视频图像与经抽取的参考视频图像中的检测到的边缘对齐。对齐处理器145可以首先使用边缘检测器来执行边缘检测，从而生成边缘图以显示检测到的边缘。边缘图可以包括二进制像素值，其中第一强度值(例如，高值)可指示边缘像素并且第二强度值(例如，低值)可指示经抽取的输入视频帧中的非边缘像素。对齐处理器145可以对经抽取的输入视频图像的边缘图执行频率变换(例如，通过傅立叶变换)，将边缘图从时间/空间域转换到频域。此外，对齐处理器145可以基于经抽取的参考视频图像的频域表示来评估输入视频帧和参考视频帧之间的像素偏移。为了避免视频图像边界处被破坏的特征带来的影响，对齐处理器145可以丢弃边界附近的信息，并且可以基于经抽取的输入视频帧的裁剪的中心部分来评估像素偏移。

响应于确定输入视频帧相对于参考视频帧之间的像素偏移，对齐处理器145可以根据所确定的像素偏移来调整输入视频帧的每个像素的位置，以产生对齐的视频帧。稳定的视频由一系列对齐的视频帧组成。

对齐处理器145可以将对齐的视频帧存储在图像数据缓冲器160中，其适于在显示器170上显示输出或者适于传输到一个或多个下游设备175(例如，编码器)。

可以在使用寄存器到寄存器可变长度向量指令的向量处理器150上执行本公开的示例。该向量处理器150被设计为允许可以以不同速率执行相同指令的不同的实施方式，从而允许适应未来的架构设计和不同的价格/性能权衡。本公开的示例包括支持数字信号处理和图形处理以及高性能计算的特征。

本公开的示例包括适于在微处理器中实现的可变长度寄存器向量处理器150。在一个示例中，向量处理器150可以：允许指令指定具有比当前可以在硬件中实现的值更大的值的向量长度；并且使向量长度指定要执行的操作的数量，其独立于可装入具体实施方式的寄存器的元素的数量。

在一个示例中，假设向量处理器150是现代无序处理器中的数个单元之一，如图2所示，其示出了根据本公开的一个实施方式的向量处理器150。

如图2所示的向量处理器150可以包括保存用于执行的指令的指令高速缓存202。向量处理器150还可以包括指令取出单元204，其从指令高速缓存202取出指令。向量处理器150还可以包括控制/分支执行单元206，其基于取出的指令和各种预测方法来控制从指令高速缓存202中取出的指令。向量处理器150还可以包括多个单元，包括用于执行整数指令的整数单元210和用于执行浮点指令的浮点单元212。向量处理器150还可以包括负载/存储单元214，其负责协调从存储器到与各个单元相关联的寄存器的数据移动。向量处理器150还可以包括保存数据元素的数据高速缓存216。向量处理器150还可以包括向量单元208。

如图3所示，向量单元208可以包括多个电路块。图3示出了根据本公开的实施方式的向量单元208。如图3所示的向量单元208可以包括寄存器重命名块302，其将架构的向量单元寄存器重命名为物理寄存器。向量单元208还可以包括无序发送块304，其保存还不完整的向量指令，并负责发送这些指令以供执行。应注意，基于向量长度和指令可用的功能单元的数量可能重复地发送向量指令。向量单元308还可以包括多种物理向量寄存器文件314，其包括：保存元素的向量的向量寄存器文件306；用于指定由向量指令执行的操作次数的向量长度寄存器文件308；保存由诸如对向量求和的操作产生的标量值的向量累加寄存器文件310；保存单比特值并用于控制向量操作的执行的向量屏蔽寄存器文件312；并且，向量单元还可以包括多种功能块(如图3所示)，其可以包括：两个乘法器316，4个ALU 318，单个除法和/或平方根320，用于搜索最小/最大值的搜索块322，以及用于将向量元素合并为单个值的归约块324。

如图3所示的这种块的组合是出于说明的目的而选择的，并且不是穷尽的。

在一个示例中，形成向量子集的向量处理器寄存器可以包括：向量寄存器，其保存由向量指令操作的元素的集合；向量计数寄存器，其用于指定向量指令的长度以及使用元素计数的其他位置；向量屏蔽寄存器，其保存单比特的向量，用于控制向量指令在单个元素上的行为；以及向量累加寄存器，其在需要标量值作为向量指令的输入或输出时使用。

图4是示出根据本公开的实施方式的用于对齐频域中的视频帧的方法400的示例的流程图。方法400可以由图1的处理设备135的对齐处理器145来执行，并且可以包括硬件(例如，电路、专用逻辑、可编程逻辑，微码等)、软件(例如，在处理设备上运行的指令)或其组合。

如图4所示，在框405处，处理设备135的对齐处理器145可以选择参考视频帧，抽取参考视频帧以生成小于原始图像的抽取图像，对经抽取的图像执行边缘检测以生成边缘图，以及应用频率变换以将经抽取的参考视频帧的边缘图转换为频域表示。在框410处，对齐处理器145可以接收由于相对于参考视频帧的抖动因而需要稳定的输入视频帧。在框415处，对齐处理器145可以以与参考视频帧相同的抽取比率来抽取输入视频帧。在框420处，对齐处理器145可以使用边缘检测器(例如，Canny边缘检测器)来计算经抽取的输入视频帧的边缘图。

在框425处，对齐处理器145可以将频率变换(例如，2D傅立叶变换)应用于经抽取的输入视频帧的边缘图，以生成边缘图的频域表示。

在块430处，对齐处理器145可以基于经抽取的输入视频帧的边缘图的频域表示和经抽取的参考视频帧的边缘图的频域表示来评估参考视频帧与输入视频帧之间的偏移。在一个实施方式中，对齐处理器145可以通过将经抽取的输入视频帧的边缘图的频域表示和经抽取的参考视频帧的边缘图的频域表示进行互相关来计算偏移。在框435处，对齐处理器145可以根据偏移将输入视频帧与所选择的参考视频帧对齐，以生成对齐的经变换的图像。对齐可以包括根据偏移来移动输入视频帧，其可以包括输入视频帧在水平方向(x轴)上的像素位置平移以及在垂直方向(y轴)上的像素位置平移。对齐处理器145可以根据一个或多个像素偏移来调整经变换的图像的每个像素的位置。

图5是示出根据本公开的实施方式的提供用于视频稳定化的视频帧对齐的与图1的系统相关联的方法500的流程图。在框505处，如果图像大于特定尺寸(例如，1024×1080像素)，则对齐处理器145可以从该图像裁剪较小的窗口(例如，1024×512像素)，并且处理裁剪的图像以避免边界效应。在框510处，对齐处理器145可以将图像抽取k次(例如，k可为4)，从而得到子采样的图像(例如，当k＝4时为256×128像素)。在框515处，对齐处理器145可以对子采样的图像使用边缘检测器(例如，Canny边缘检测器)来执行边缘检测。在一个实施方式中，对齐检测器可以首先对子采样的图像执行预处理。预处理可以包括使用高斯模糊滤波器的图像平滑。

在框520处，对齐处理器145选择参考视频帧。对于视频稳定化而言，在一个示例中，参考视频帧可以是视频记录中的第一帧。如果总的偏差超过m％(例如，m可以是10％)，则对齐处理器145可以改变参考图像。例如，正被对齐的序列中的最后视频帧可以成为参考，或者可以是中间的帧成为参考。

在框525处，对齐处理器145可以执行参考帧与之后的图像/帧之间的快速相关。快速相关可以在频域中执行。在一个实施方式中，对齐处理器145可以通过以下过程来执行频域中的快速相关：首先将经抽取的视频帧和经抽取的参考视频帧的边缘图变换为频域表示，并且将它们的频域表示互相关以确定视频帧和参考视频帧之间的偏移。

在框530处，对齐处理器145可以从互相关图像裁剪出M×N像素，以丢弃相关边界效应。

在框535处，对齐处理器145可以检测并存储每个图像的互相关峰值(x，y)位置。在一个示例中，框535可以在向量处理器150的向量FP单元212中执行。

在框540处，在处理了多个图像(3-6个图像)或帧(例如，10-60帧)之后，对齐处理器145可以根据每个图像或帧的(x，y)位置对齐(平移)原始完整尺寸的图像。在框545处，在平移之后，图像可能具有黑色边界。对齐处理器145可以通过裁剪每个图像/帧的最小尺寸图像来丢弃黑色边界(具有最大偏差的图像将是最小的并且将具有最大的黑色边界)。注意，对于多个参考，重叠帧尺寸应该是相同的以避免重新缩放后续的帧。

在移除黑色边界之后，在框550处，对齐处理器145可以将每个图像放大到原始尺寸。放大可以包括将经处理的图像重新采样为原始尺寸(例如，1024×1080像素)。在一个示例中，框550主要是滤波，并且可以由向量FP单元312中的对齐处理器145来执行。

对齐分辨率可以等于抽取因子。例如，如果抽取因子是4，则分辨率将是4个像素。如果需要更好的分辨率，则在框555处，可以重复如下过程：对齐处理器145可以从每个对齐的图像的中心裁剪例如256/128像素，然后对齐处理器145可以重复框515到550的执行。在这种情况下，得到的分辨率将是一个像素。

可以评估五种方法以与频域方法进行比较。为了便于表达，OST可以表示由OST实现的尺度不变特征变换(SIFT)，OST2可以表示所提出的频域处理方法，Lowe可以表示如Canny,J.,“A Computational Approach To Edge Detection”,IEEE Trans.PatternAnalysis and Machine Intelligence,pp.679-698,1986中所描述的那样来实现的SIFT，AV可以表示如“http://vision.ucla.edu/～vedaldi/code/sift.html”中所描述的SIFT实施方式，并且KLT可以表示如“http://www.ces.clemson.edu/～stb/klt/”中所描述的Karhunen-Loeve变换。

如图6A、7A、9A、11A、13A和15A所示，从(捕捉自视频的)一个视频帧中分别创建六个视频帧tr1-tr6。为了评估每种方法的有效性，可以采用视频帧的某个区域来创建六个图像。任何一对图像之间的偏移是已知的，并且该偏移被用作参考以验证每种评估的方法是否能够精确地找到每个图像对之间的像素偏移。此外，可以增加这些图像的强度，因为强度也影响视频质量以及视频稳定化的复杂度。

在OST2中，第一步是找出每个图像的边缘。由OST2检测到的边缘可以在图6B、7B、9B、11B、13B和15B中看到。另外，图6C示出了由OST2找到的边缘(即，白线)和由Lowe选择的关键点(即，紫色的点)。可以预先观察边缘检测和关键点选择之间的处理结果的关系。

为了对齐视频帧，评估输入视频帧的边缘与参考视频帧的边缘之间的像素偏移。在该评估中，将tr1应用为参考视频帧，并且根据tr1校正作为输入视频帧的tr2-tr6。为了评估每个输入视频帧的像素偏移，计算这两个视频帧之间的检测到的边缘/关键点的互相关。互相关的峰值位置被用作对齐的参考。为了便于观察，进一步归一化互相关的结果。图8A-8C、10A-10C、12A-12C、14A-14C以及16A-16C示出了tr2-tr6的归一化互相关的结果。

表1：对齐所需要的关键点数量

表1列出了用于正确对齐六个视频帧tr1-tr6的所需要的关键点的数量。尽管如图8A-8C、10A-10C、12A-12C、14A-14C以及16A-16C所示每种方法的归一化互相关的峰值位置相同，但评估正确的峰值位置所使用的关键点的数量不一样。为了正确地对齐视频帧，OST2(频域处理)对关键点的数量没有最低限度的要求，这与SIFT和KLT不同。此外，在如Lowe所描述的SIFT中，计算复杂度依赖于关键点的目标数量，并且正确的偏移评估需要更多的关键点。与SIFT相比，KLT需要更多的关键点以用于偏移评估。另外，所需要的关键点是相同的，因为OST、Lowe、AV只是SIFT的不同实施方式。

在前面的描述中，阐述了很多细节。然而，对受益于本公开的本领域普通技术人员将显而易见的是，本公开可在没有这些特定细节的情况下被实施。在一些实例中，以框图形式而非详细地示出公知的结构和设备，以避免使本公开模糊。

从对在计算机存储器内的数据位的操作的算法和符号表示方面呈现详细描述的一些部分。这些算法描述和表示是由在数据处理领域中的技术人员使用来最有效地将他们的工作的实质传达给本领域中的其他技术人员的手段。算法在这里且通常被设想为导致期望结果的步骤的自一致的序列。该步骤是需要对物理量的物理操纵的那些步骤。通常，虽然不是必须，这些量采取能够被存储、传送、组合、比较和以其他方式操纵的电或磁信号的形式。主要为了普遍使用的原因，将这些信号称为位、值、元素、符号、字符、项、数字等有时证明是方便的。

然而应牢记的是，所有这些和类似的术语应与适当的物理量相关联且仅仅是应用于这些量的方便标签。除非另外特别规定，如从下面的讨论显而易见的是，应认识到，在整个描述中，利用术语例如“分段”、“分析”、“确定”、“启用”、“识别”、“修改”等的讨论是指计算机系统或类似的电子计算设备的行动和过程，计算机系统或类似的电子计算设备将被表示为在计算机系统的寄存器和存储器内的物理(例如电子)量的数据操纵并变换成类似地被表示为在计算机系统存储器或寄存器或其它这样的信息存储、传输或显示设备内的物理量的其它数据。

本公开还涉及用于执行本文的操作的装置。该装置可为了所需目的而被特别构造，或它可包括由存储在计算机中的计算机程序选择性地激活或重新配置的通用计算机。这样的计算机程序可存储在计算机可读存储介质中，例如但不限于任何类型的盘，包括软盘、光盘、CD-ROM和磁光盘、只读存储器(ROM)、随机存取存储器(RAM)、EPROM、EEPROM、磁卡或光卡或适合于存储电子指令的任何类型的介质。

词“例子”或“示例性”在本文用于意指用作例子、实例或例证。在本文被描述为“例子”或“示例性”的任何方面或设计不必然被解释为相对于其它方面或设计是优选的或有利的。更确切地，词“例子”或“示例性”的使用意欲以具体的方式来呈现概念。如在本说明书中使用的，术语“或”意欲意指包括性的“或”而不是排他性的“或”。也就是说，除非另有规定或从上下文清楚的，“X包括A或B”意指任一自然包括的排列。也就是说，如果X包括A、X包括B或X包括A和B，则“X包括A或B”在任一前述实例下被满足。此外，如在本申请和所附权利要求中使用的冠词“a”和“an”应通常被解释为意指“一个或多个”，除非另有规定或从上下文清楚应指向单数形式。而且，术语“实施方式”或“一个实施方式”或“实现”或“一个实现”的使用始终并不意欲意指同一实施方式或实现，除非被描述为这样。

在整个这个说明书中对“一个实施方式”或“实施方式”的提及意指结合该实施方式所述的特定特征、结构或特性被包括在至少一个实施方式中。因此，短语“在一个实施方式中”或“在实施方式中”在整个这个说明书中的不同地方中的出现并不一定都指同一实施方式。此外，术语“或”意欲意指包括性的“或”而不是排他性的“或”。

图17示出了采用计算机系统1700的示例形式的机器的图形表示，在该计算机系统1700内可以执行一组指令，以使得机器执行本文讨论的任何一个或多个方法。在一些示例中，机器可以连接(例如，联网)到LAN、内联网、外联网或互联网中的其他机器。该机器可以在客户机-服务器网络环境中作为服务器机器运行。该机器可以是个人计算机(PC)、机顶盒(STB)、服务器、网络路由器、交换机或网桥或者能够执行(指定由该机器采取的动作的)一组指令(顺序或以其他方式)的任何机器。此外，虽然仅示出单个机器，但术语“机器”也应被理解为包括单独或联合执行一组(或多组)指令以执行本文讨论的任何一种或多种方法的任何机器集合。

示例计算机系统1700包括处理设备(处理器)1702、主存储器1704(例如，只读存储器(ROM)、闪存、诸如同步DRAM(SDRAM)的动态随机存取存储器(DRAM))、静态存储器1706(例如，闪存、静态随机存取存储器(SRAM))以及数据存储设备1716，其经由总线1708彼此通信。

处理器1702表示一个或多个通用处理设备，例如微处理器、中央处理单元等。更具体地，处理器1702可以是复杂指令集计算(CISC)微处理器、精简指令集计算(RISC)微处理器、超长指令字(VLJW)微处理器、或者实现其他指令集的处理器或实现指令集的组合的处理器。处理器1702也可以是一个或多个专用处理设备，诸如专用集成电路(ASIC)、现场可编程门阵列(FPGA)、数字信号处理器(DSP)、网络处理器等。图1所示的对齐处理器145可以由处理器1702执行，处理器1702被配置为执行本文讨论的操作和步骤。

计算机系统1700还可以包括网络接口设备1722。计算机系统1700还可以包括视频显示单元1710(例如，液晶显示器(LCD)或阴极射线管(CRT))、字母数字输入设备1712(例如，键盘)、光标控制设备1714(例如，鼠标)和信号生成设备1720(例如，扬声器)。

驱动单元1716可以包括计算机可读介质1724，在该计算机可读介质1724上存储有体现本文描述的任何一个或多个方法或功能的一个或多个指令集(例如，对齐处理器145的指令)。对齐处理器145的指令还可以在计算机系统1700执行期间完全或至少部分地驻留在主存储器1704内和/或处理器1702内，主存储器1704和处理器1702也构成计算机可读介质。可以经由网络接口设备1722在网络上进一步发送或接收对齐处理器145的指令。

虽然在示例中所示的计算机可读存储介质1724是单个介质，但是术语“计算机可读存储介质”应被认为包括存储一组或多组指令的单个非瞬态介质或者多个非瞬态介质(例如，集中式或分布式数据库，和/或相关联的高速缓存和服务器)。术语“计算机可读存储介质”还应被理解为包括能够存储、编码或承载由机器执行的一组指令并且使得机器执行本公开的任何一种或多种方法的任何介质。因此，术语“计算机可读存储介质”应被视为包括但不限于固态存储器、光学介质和磁性介质。

在以上描述中阐述了许多细节。然而，对于受益于本公开的本领域普通技术人员显而易见的是，可以在没有这些具体细节的情况下实现本公开的示例。在一些情况下，为了避免模糊描述，以框图形式而不是详细地示出公知的结构和设备。

然而应牢记的是，所有这些和类似的术语应与适当的物理量相关联且仅仅是应用于这些量的方便标签。除非另外特别规定，如从下面的讨论显而易见的是，应认识到，在整个描述中，利用术语例如“接收”、“写”、“维护”等的讨论是指计算机系统或类似的电子计算设备的行动和过程，计算机系统或类似的电子计算设备将被表示为在计算机系统的寄存器和存储器内的物理(例如电子)量的数据操纵并变换到新坐标系统，并且操纵并变换成类似地被表示为在计算机系统存储器或寄存器或其它这样的信息存储、传输或显示设备内的物理量的其它数据。

本公开的示例还涉及用于执行本文的操作的装置。该装置可以为了所需目的而专门构造，或者它可以包括由计算机中存储的计算机程序选择性地激活或重新配置的通用计算机。本文公开的用于发送、接收以及恢复和放大超过一个倍频程的经抽取的色度通道的系统和方法提高了现有图像和视频压缩或传输系统和方法的感知质量和/或传输或存储效率，解决了许多领域中的问题，诸如，顶级视频输送的实时效率；在上传和下载来自移动设备的视频和图像数据时，以低成本实时减少公共无线接入网络拥塞；增强了实时通带电视输送能力；增强了卫星转发器能力；降低了内容管理系统和网络DVR架构的存储成本；以及，在分布式网核心处图像和视频的高吞吐量处理等等。

这样的计算机程序可存储在计算机可读存储介质中，例如但不限于任何类型的盘，包括软盘、光盘、CD-ROM和磁光盘、只读存储器(ROM)、随机存取存储器(RAM)、EPROM、EEPROM、磁卡或光卡或适合于存储电子指令的任何类型的介质。

这里提供的算法和显示并不固有地涉及任何特定的计算机或其他装置。根据本文的教导，各种通用系统可以与程序一起使用，或者其可以证明构造更专业的装置来执行所需的方法步骤是方便的。从本文的描述中可以看出各种这样的系统的示例结构。另外，没有参考任何特定的编程语言来描述本公开。应该理解的是，可以使用各种编程语言来实现本文所述的本公开的教导。

然而，在阅读了前面的描述之后，本公开的许多变更和修改对于本领域普通技术人员来说无疑将变得显而易见，应当理解，以实例示出和描述的任何特定实施方式没有任何意图被认为是限制。因此，对各个实施方式的细节的参考并非旨在限制权利要求的范围，权利要求本身仅列举被视为本公开的那些特征。

Claims

1.一种方法，包括：

由执行边缘检测器的处理设备生成与参考视频帧相关联的第一边缘图；

由所述执行边缘检测器的处理设备生成与输入视频帧相关联的第二边缘图；

由所述处理设备基于所述第一边缘图的第一频域表示和所述第二边缘图的第二频域表示来计算所述参考视频帧和所述视频帧之间的偏移；

由所述处理设备根据计算出的偏移来平移所述输入视频帧的多个像素的位置，以使所述输入视频帧相对于所述参考视频帧对齐；以及

由所述处理设备将对齐的视频帧发送到下游设备。

2.根据权利要求1所述的方法，其中，平移多个像素的位置还包括：

基于所述偏移来调整所述视频帧的多个像素中的每一个的位置。

3.根据权利要求1所述的方法，其中，以取决于视频帧速率或视频质量中的至少一个的速率更新所述参考视频帧。

4.根据权利要求1所述的方法，还包括：

抽取所述输入视频帧以生成经抽取的输入视频帧；以及

抽取所述参考视频帧以生成经抽取的参考视频帧。

5.根据权利要求4所述的方法，还包括：

通过在所述经抽取的参考视频帧上应用边缘检测器来生成所述第一边缘图；以及

通过在所述经抽取的输入视频帧上应用边缘检测器来生成所述第二边缘图。

6.根据权利要求5所述的方法，还包括：

对所述第一边缘图应用频率变换以生成所述第一频域表示；以及

对所述第二边缘图应用频率变换以生成所述第二频域表示。

7.根据权利要求6所述的方法，其中，所述频率变换是傅立叶变换。

8.根据权利要求1所述的方法，其中，所述边缘检测器是Canny边缘检测器。

9.根据权利要求1所述的方法，其中，计算所述参考视频帧和所述视频帧之间的偏移还包括：

计算所述第一频域表示和所述第二频域表示之间的互相关；

确定所述互相关中的峰值的位置；以及

基于所述互相关中的峰值的位置确定偏移。

10.一种系统，包括：

存储器；

处理设备，其可操作地耦合到所述存储器以：

通过执行边缘检测器来生成与参考视频帧相关联的第一边缘图；

通过执行边缘检测器来生成与输入视频帧相关联的第二边缘图；

基于所述第一边缘图的第一频域表示和所述第二边缘图的第二频域表示来计算所述参考视频帧和所述视频帧之间的偏移；

根据计算出的偏移来平移所述输入视频帧的多个像素的位置，以使所述输入视频帧相对于所述参考视频帧对齐；以及

将对齐的视频帧发送到下游设备。

11.根据权利要求10所述的系统，其中，为了平移所述多个像素的位置，所述处理设备还基于所述偏移来调整所述视频帧的所述多个像素中的每一个的位置。

12.根据权利要求10所述的系统，其中，所述处理设备还用于：

抽取所述输入视频帧以生成经抽取的输入视频帧；以及

抽取所述参考视频帧以生成经抽取的参考视频帧。

13.根据权利要求12所述的系统，其中，所述处理设备还用于：

14.根据权利要求13所述的系统，其中，所述处理设备还用于：

对所述第二边缘图应用频率变换以生成所述第二频域表示。

15.根据权利要求14所述的系统，其中，所述频率变换是傅里叶变换，并且其中，所述边缘检测器是Canny边缘检测器。

16.一种存储指令的非瞬态计算机可读介质，所述指令在由处理设备执行时使得所述处理设备：

由所述处理设备将对齐的视频帧发送到下游设备。

17.根据权利要求16所述的非瞬态计算机可读介质，为了平移所述多个像素的位置，所述处理设备还基于所述偏移来调整所述视频帧的所述多个像素中的每一个的位置。

18.根据权利要求16所述的非瞬态计算机可读介质，其中，所述处理设备还用于：

抽取所述输入视频帧以生成经抽取的输入视频帧；以及

抽取所述参考视频帧以生成经抽取的参考视频帧。

19.根据权利要求18所述的非瞬态计算机可读介质，其中，所述处理设备还用于：

20.根据权利要求19所述的非瞬态计算机可读介质，其中，所述处理设备还用于：

对所述第二边缘图应用频率变换以生成所述第二频域表示。