CN102474622A

CN102474622A - 用于视频译码的模板匹配

Info

Publication number: CN102474622A
Application number: CN2010800300716A
Authority: CN
Inventors: 马尔塔·卡切维奇; 钱威俊
Original assignee: Qualcomm Inc
Current assignee: Qualcomm Inc
Priority date: 2009-07-02
Filing date: 2010-06-29
Publication date: 2012-05-23
Anticipated expiration: 2030-06-29
Also published as: KR101632126B1; WO2011002809A2; JP5752771B2; EP2449786B1; ES2452866T3; TW201130316A; JP2012532501A; CN102474622B; KR20120042910A; JP2014064301A; HUE038078T2; US20110002388A1; WO2011002809A3; EP2449786A2; KR101521336B1; KR20140068269A; ES2675578T3; EP2704442A1; JP5623521B2; US8873626B2

Abstract

在本发明的一个方面中，将模板匹配运动预测应用于B帧。在本发明的另一方面中，应用于视频块译码的模板匹配运动预测可包括：产生模板偏差，产生绝对差的加权总和，基于与假设的数目相关联的成本来选择用以编码视频块的假设的所述数目并通过新语法向解码器发信号通知用于编码的假设的所述数目，如果假设与参考假设之间的值的差大于阈值，则拒绝假设，及/或通过组合运动补偿预测及明度残余来产生不具有可用重建数据的子块的内容。

Description

用于视频译码的模板匹配

相关申请案

本申请案主张2009年7月2日申请的第61/222,836号美国临时申请案的权益，所述申请案的全文以引用的方式并入本文中。

技术领域

本发明涉及视频译码，且更确切地说，涉及使用模板匹配运动预测的视频译码技术。

背景技术

数字多媒体能力可并入到广泛范围的装置中，包括数字电视、数字直播系统、无线通信装置、无线广播系统、个人数字助理(PDA)、膝上型或桌上型计算机、数字相机、数字记录装置、视频游戏装置、视频游戏控制台、蜂窝式或卫星无线电电话、数字媒体播放器及其类似物。数字多媒体装置可实施例如MPEG-2、ITU-H.263、MPEG-4或ITU-H.264/MPEG-4第10部分、高级视频译码(AVC)的视频译码技术以较有效地传输及接收或存储及检索数字视频数据。数字编码技术可经由空间及时间预测来执行视频压缩以减少或移除视频序列中固有的冗余。

在视频编码中，压缩常包括空间预测、运动估计及运动补偿。帧内译码依赖于空间预测及变换译码(例如，离散余弦变换(DCT))以减少或移除给定视频帧中的视频块之间的空间冗余。帧间译码依赖于时间预测及变换译码以减少或移除视频序列的连续视频帧的视频块之间的时间冗余。帧内译码帧(“I帧”)常用作随机存取点以及用于其它帧的帧间译码的参考。然而，I帧通常展现比其它帧少的压缩。术语I单元可指代I帧、I片段、或I帧的其它可独立解码部分。

对于帧间译码，视频编码器执行运动估计以追踪在两个或两个以上相邻帧或其它译码单元(例如，帧的片段)之间匹配视频块的移动。帧间译码的帧可包括预测性帧(“P帧”)(其可包括根据先前帧预测的块)，及双向预测性帧(“B帧”)(其可包括根据视频序列的先前帧及后继帧预测的块)。常规运动补偿视频译码技术将视频块与先前或后继视频帧的其它视频块作比较，以便识别可用以编码当前视频块的预测性视频数据。视频块可分解成子块分区以促进较高质量译码。

经译码视频块可由可用以产生或识别预测性块的预测信息及指示正译码的块与所述预测性块之间的差异的残余数据块来表示。所述预测信息可包含用以识别所述预测性数据块的一个或一个以上运动向量。给定所述运动向量，则解码器能够重建曾用以译码所述残余的预测性块。因而，给定一组残余块及一组运动向量(及可能的一些额外语法)，解码器可能能够重建最初编码的视频帧。经编码视频序列可包含残余数据块、运动向量且可能包含其它类型的语法。

模板匹配为可用以消除运动向量但又提供运动补偿视频译码的优点的技术。在模板匹配中，相对于正译码的视频块的相邻像素可界定模板，且可将此模板(而非正译码的视频块)与先前或后继视频帧的数据比较。视频编码器及视频解码器均可执行模板匹配过程以在不使用运动向量的情况下识别运动。因而，在使用模板匹配的情况下，不将运动向量译码到位流中。实际上，当编码及解码帧时，基本上从模板匹配过程导出运动向量。

发明内容

大体上，本发明描述适用于视频单元中的视频块的模板匹配运动预测译码的视频译码技术。视频单元可包含视频帧或视频帧的片段。在模板匹配运动预测中，基于一个或一个以上预测性参考数据列表而不依赖于运动向量来预测性地编码及解码视频块，同时仍提供运动补偿视频译码的优点。确切地说，相对于正译码的视频块的相邻像素可界定一模板，且可将此模板(而非正译码的视频块)与存储于预测性参考数据的列表中的数据比较。预测性参考数据是基于可在目标帧之前或之后出现的一个或一个以上参考帧而产生。

当将模板匹配预测应用于B帧时，两个预测性视频数据列表，第一列表是根据出现在目标帧之前的帧(例如，先前帧)产生且第二列表是根据在目标帧之后的帧(例如，将来帧)产生。在本发明的一方面中，应用模板匹配以编码及解码B帧。在将模板匹配应用于B帧的过程中，可将一个或两个假设集合用于B帧。如果使用一个假设集合，则所述假设集合可含有从第一列表及第二列表两者找到的假设。如果使用两个假设集合，则第一假设集合可含有来自第一列表的假设且第二假设集合可含有从第二列表找到的假设。可由双向运动预测形成第三假设集合，在所述双向运动预测中来自第一列表的数据及来自第二列表的数据经组合并用于预测。

在本发明的另一方面中，将改进的假设选择及拒绝应用于P帧与B帧两者的模板匹配预测。在此情形下，引入语法元素以向解码器发信号通知在使用模板匹配预测而编码或解码视频数据时由译码器使用的假设的数目。举例来说，编码器可经配置以选择指定编码过程期间所使用的假设的数目的两个不同数目中的一者，且解码器可经配置以应用由编码器所识别的所述数目的假设。编码器可确定与在编码期间使用任一数目的假设相关联的成本且可选择具有最低成本的假设的数目。编码器接着可基于具有最低成本的所述数目的假设来编码视频数据且可使用语法元素向解码器发信号通知此数目。

当确定拒绝哪些假设而不做考虑时，编码器或解码器将考虑中的假设(即，候选假设)与参考假设比较。如果候选假设与参考假设之间的差大于预定义阈值，则可拒绝候选假设而不做考虑。在一个实例中，可通过将所有考虑中的假设取平均值而产生参考假设，或在另一实例中，可通过将考虑中的最佳假设的子集取平均值而产生参考假设。在本发明的假设拒绝方面中，对于应用于P帧或B帧的模板匹配运动预测来说，不需要就哪些假设被接受或拒绝而向编码器或解码器发信号通知。

在本发明的另一方面中，预期用于在对P帧及B帧的模板匹配运动预测中对绝对差的总和加权的技术。可相对于当前块来界定模板形状且可相对于目标块来界定对应模板形状。绝对差的总和为相对于当前块所界定的模板形状中的每一像素的像素值与相对于参考块所界定的模板形状中的每一对应像素的像素值之间的差的绝对值。相对于当前块或目标块所界定的模板形状各自可分割成两个或两个以上分区。每一分区被赋予一随着每一分区与对应块之间的距离增加而减小的权重。通过对绝对差的总和加权，可在执行模板匹配预测时考虑到模板与视频块的空间关系，此可产生更准确的模板匹配。

在本发明的另一方面中，将计算出的模板偏差应用于如应用于P帧及B帧的模板匹配运动预测。模板偏差可用以预测参考块与目标块之间的偏差。当搜索匹配模板时，参考块中的每一像素可具有界定每一像素位于参考块中何处的一组对应坐标。所述坐标指示搜索位置。对于每一搜索位置，可计算当前帧的模板中的每一像素的像素值与参考帧中的每一像素的像素值之间的平均差。可将整个模板的像素值的此平均差定义为模板偏差。对于每一模板，可通过此技术计算一个偏差。一旦计算出模板偏差，本发明的技术便可通过取得目标块的每一像素值，减去参考块中的对应像素的像素值及进一步减去偏差而计算目标块的绝对差的总和。通过按所述偏差调整目标块的绝对差的总和，选定的假设为最佳假设的可能性可能更大，借此减少残余并改进视频压缩。

本发明的另一方面预期用于将明度残余并入应用于P帧及B帧的模板匹配预测中的技术。在此状况下，目标块可为明度视频块且所述明度视频块可分成多个子块。当明度块的第一子块不具有可用的重建像素时，依赖于第一子块的第二子块的译码可被延迟直至第一子块的译码完成，或第二子块的译码可基于如通过组合运动补偿预测与译码的明度残余而产生的第一子块的内容。通过组合运动补偿预测与译码的明度残余，第一子块的所产生内容可较接近于原始数据，且第二子块的模板匹配运动预测可更准确。

在一个实例中，本发明描述一种译码当前视频块的方法。所述方法包括产生用于模板匹配预测性视频译码的假设集合，其中所述假设集合中的至少一些假设是基于来自第一预测性视频单元的至少一部分的第一预测性视频数据集合及基于来自第二预测性视频单元的至少一部分的第二预测性视频数据集合，且其中所述假设集合中的假设的每一者包含对应于相对于视频块位置而界定的模板形状的预测性视频数据。所述方法进一步包括从所述假设集合中选择所述假设中的一者，及经由视频译码器使用由所述假设中的选定一者所识别的预测性视频数据来译码当前视频块。

在另一实例中，本发明描述一种用于译码当前视频块的方法。所述方法可包括产生用于模板匹配预测性视频译码的第一假设集合，其中第一假设集合中的至少一些假设是基于来自第一预测性视频单元的至少一部分的第一预测性视频数据集合，且其中所述第一假设集合中的每一假设包含对应于相对于第一视频块位置而界定的模板形状的预测性视频数据。所述方法可进一步包括产生用于模板匹配预测性视频译码的第二假设集合，其中第二假设集合中的至少一些假设是基于来自第二预测性视频单元的至少一部分的第二预测性视频数据集合，且其中所述第二假设集合中的每一假设包含对应于相对于第二视频块位置而界定的模板形状的预测性视频数据。所述方法还可包括基于所述第一假设集合及所述第二假设集合而产生双向运动预测，及基于双向运动预测而产生第三假设集合。另外，所述方法可包括选择第三假设集合中的假设的一者，及经由视频译码器使用由所述假设中的选定一者所识别的预测性视频数据来译码当前视频块。

在另一实例中，本发明描述一种视频译码设备，其包含产生用于模板匹配预测性视频译码的假设集合的预测单元，其中所述假设集合中的至少一些假设是基于来自第一预测性视频单元的至少一部分的第一预测性视频数据集合及基于来自第二预测性视频单元的至少一部分的第二预测性视频数据集合，且其中所述假设集合中的假设的每一者包含对应于相对于视频块位置而界定的模板形状的预测性视频数据。在此实例中，预测单元从所述假设集合中选择假设中的一者，其中所述视频译码设备使用由所述假设中的选定一者所识别的预测性视频数据来译码当前视频单元。

在另一实例中，本发明描述一种译码视频数据的视频译码设备，所述装置包含用于产生用于模板匹配预测性视频编码的假设集合的装置，其中所述假设集合中的至少一些假设是基于来自第一预测性视频单元的至少一部分的第一预测性视频数据集合及基于来自第二预测性视频单元的至少一部分的第二预测性视频数据集合，且其中所述假设集合中的假设的每一者包含对应于相对于视频块位置而界定的模板形状的预测性视频数据。所述视频译码设备进一步包含用于从所述假设集合中选择假设中的一者的装置，及用于使用由所述假设中的选定一者所识别的预测性视频数据来译码当前视频块的装置。

可以硬件、软件、固件或其任何组合来实施本发明中所描述的技术。如果以软件实施，则可在一个或一个以上处理器(例如，微处理器、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或数字信号处理器(DSP))中执行软件。执行所述技术的软件最初可存储于计算机可读媒体中且加载于处理器中并在处理器中执行。

因此，本发明还预期一种编码有指令的计算机可读存储媒体，所述指令用于使一个或一个以上可编程处理器产生用于模板匹配预测性视频译码的假设集合，其中所述假设集合中的至少一些假设是基于来自第一预测性视频单元的至少一部分的第一预测性视频数据集合及基于来自第二预测性视频单元的至少一部分的第二预测性视频数据集合，其中所述假设集合中的假设的每一者包含对应于相对于视频块位置而界定的模板形状的预测性视频数据。所述指令进一步包含用于使所述一个或一个以上可编程处理器从所述假设集合中选择假设中的一者以译码当前视频块并使用所述假设中的选定一者译码当前视频块的指令。

下文在随附图式及描述中陈述本发明的一个或一个以上实施例的细节。本发明的其它特征、目标及优点将通过描述及图式且通过权利要求书而变得显而易见。

附图说明

图1为说明视频编码及解码系统的示范性框图。

图2为说明符合本发明的视频编码器的实例的框图。

图3为说明符合本发明的实例目标视频单元及参考视频单元的概念框图。

图4为说明符合本发明的其中确定视频块的内容的模板匹配运动预测的实例的概念框图。

图5为说明符合本发明的视频解码器的实例的框图。

图6A至图6B为说明符合本发明的由视频编码器执行的示范性过程的流程图。

图7A至图7B为说明符合本发明的由视频解码器执行的示范性过程的流程图。

具体实施方式

本发明描述适用于视频单元的模板匹配运动预测译码的视频译码技术。在本发明中，术语“译码”指代编码或解码。类似地，术语“译码器”通常指任何视频编码器、视频解码器或组合的编码器/解码器(编解码器)。因此，在本文中术语“译码器”用以指代执行视频编码或视频解码或视频编码与视频解码两者的专用计算机装置或设备。

模板匹配为可用以消除运动向量但仍提供运动补偿视频译码的优点的技术。在模板匹配中，模板相对于正译码的视频块而界定相邻像素的形状。模板形状是相对于视频块而界定，且可毗邻或环绕视频块，但无需紧邻视频块而定位。模板形状可应用于参考视频单元中的一个或一个以上视频块。假设可基于模板形状中所含有的预测性视频数据、基于来自第一预测性视频单元的至少一部分的第一预测性视频数据集合，或基于来自第一预测性视频单元的至少一部分的第一预测性视频数据集合及来自第二预测性视频单元的至少一部分的第二预测性视频数据集合。在模板匹配运动预测期间产生及考虑的假设可称为候选假设。对于每一正译码的视频块可存在多个候选假设。

本发明的技术包括将模板匹配应用于B帧，以及当应用于B帧或P帧时可应用以改进模板匹配的若干技术。在本发明的一方面中，将改进的假设选择及拒绝应用于模板匹配运动预测。在此情形下，引入语法元素以向解码器发信号通知当使用模板匹配预测编码或解码视频数据时由译码器使用的假设的数目。当确定拒绝哪些假设而不做考虑时，编码器或解码器将候选假设与参考假设进行比较。如果候选假设与参考假设之间的差大于预定义阈值，则可拒绝候选假设而不做考虑。

在本发明的另外方面中，预期用于对绝对差的总和加权、应用计算出的模板偏差且在模板匹配运动预测中并入明度残余的技术。通过对绝对差的总和加权，可在执行模板匹配预测时考虑模板与视频块的空间关系，此可产生更准确的模板匹配。模板偏差可用以预测参考块与目标块之间的偏差。一旦计算出模板偏差，本发明的技术便可通过取得目标块的每一像素值，减去参考块中的对应像素的像素值及进一步减去偏差而计算目标块的绝对差的总和。通过按所述偏差来调整目标块的绝对差的总和，所选定假设为最佳假设的可能性可能较大，借此减少残余并改进视频压缩。如果通过组合运动补偿预测与译码的明度残余而产生第一子块的内容，则所述所产生的内容可较接近于原始数据，且基于第一子块的第二子块的模板匹配运动预测可更准确。以此方式，本发明的技术可通过产生含有较少残余值的译码视频块而改进模板匹配运动预测。

图1为说明可实施本发明的技术的一个示范性视频编码及解码系统10的框图。如图1中所示，系统10包括源装置12，其将经编码的视频经由通信信道15传输到目的地装置16。源装置12及目的地装置16可包含多种装置中的任一者。在一些状况下，源装置12及目的地装置16包含无线通信装置，例如，无线手持机、所谓的蜂窝式或卫星无线电电话、或可经由通信信道15而传达视频信息的任何装置，通信信道15可以是或可以不是无线的。然而，关于模板匹配预测技术的本发明的技术不必限于无线应用或设定。

在图1的实例中，源装置12可包括视频源20、视频编码器22、调制器/解调器(调制解调器)23及发射器24。目的地装置16可包括接收器26、调制解调器27、视频解码器28及显示装置30。根据本发明，源装置12的视频编码器22可经配置以将模板匹配预测应用于B帧以及P帧。视频编码器22可经进一步配置以应用本发明的特定模板匹配运动预测方面。举例来说，视频编码器22可经配置以识别在编码视频数据时所使用的假设的数目。可使用语法元素将假设的数目作为编码位流的一部分向视频解码器28发信号通知。视频解码器28可经配置以解译及应用识别在解码视频数据时要使用的假设的数目的语法元素。

图1的所说明系统10仅为示范性的。本发明的模板匹配预测技术可由使用模板匹配支持运动补偿视频译码的任一译码装置来执行。源装置12及目的地装置16仅为这些译码装置的实例，其中源装置12产生用于传输到目的地装置16的经译码的视频数据。在一些状况下，装置12、16可以实质上对称的方式操作，使得装置12、16中的每一者包括视频编码及解码组件。因此，系统10可支持视频装置12、16之间的单向或双向视频传输，例如，用于视频串流、视频播放、视频广播或视频电话。

源装置12的视频源20可包括视频捕获装置，例如，视频相机、含有先前捕获的视频的视频存档，或来自视频内容提供者的视频馈入。作为另一替代，视频源20可产生基于计算机图形的数据作为源视频、或实况视频、存档视频及计算机产生的视频的组合。在一些状况下，如果视频源20为视频相机，则源装置12及目的地装置16可形成所谓的相机电话或视频电话。在每一状况下，经捕获、预先捕获或计算机产生的视频可由视频编码器22编码。经编码的视频信息接着可由调制解调器23根据通信标准(例如，码分多址(CDMA)或另一通信标准)调制，且经由发射器24传输到目的地装置16。调制解调器23可包括各种混频器、滤波器、放大器或经设计以用于信号调制的其它组件。发射器24可包括经设计以用于传输数据的电路，包括放大器、滤波器及一个或一个以上天线。

目的地装置16的接收器26经由信道15接收信息，且调制解调器27解调所述信息。又，视频编码过程可实施本文中所描述的技术中的一者或一者以上。经由信道15传达的信息可包括由视频编码器22界定的信息，其可由符合本发明的视频解码器28使用。显示装置30向用户显示经解码的视频数据，且可包含例如阴极射线管、液晶显示器(LCD)、等离子显示器、有机发光二极管(OLED)显示器或另一类型的显示装置的多种显示装置中的任一者。

在图1的实例中，通信信道15可包含任何无线或有线通信媒体，例如，射频(RF)频谱或一个或一个以上物理传输线、或无线与有线媒体的任何组合。因此，调制解调器23及发射器24可支持许多可能的无线协议、有线协议，或有线及无线协议。通信信道15可形成例如局域网络(LAN)、广域网络(WAN)或全域网络(例如，包含一个或一个以上网络的互连的因特网)的基于包的网络的一部分。通信信道15通常表示用于将视频数据从源装置12传输到目的地装置16的任何合适通信媒体或不同通信媒体的集合。通信信道15可包括路由器、交换器、基站或可用于促进从源装置12到目的地装置16的通信的任何其它设备。

视频编码器22及视频解码器28可根据视频压缩标准(例如，ITU-T H.264标准，替代地描述为MPEG-4，第10部分，高级视频译码(AVC))来操作。然而，本发明的技术不限于任何特定译码标准。虽然未展示于图1中，但在一些方面中，视频编码器22及视频解码器28可各自与音频编码器及解码器集成，且可包括适当MUX-DEMUX单元或其它硬件及软件以处置共同数据流或分开的数据流中的音频与视频两者的编码。如果适用，则MUX-DEMUX单元可遵照ITU H.223多路复用器协议，或例如用户数据报协议(UDP)的其它协议。

ITU-T H.264/MPEG-4(AVC)标准是作为称为联合视频小组(JVT)的集体合作的产物，由ITU-T视频译码专家组(VCEG)连同ISO/IEC动画专家组(MPEG)一起制定。在一些方面中，本发明中所描述的技术可应用于大体符合H.264标准的装置。H.264标准描述于由ITU-T研究组在2005年3月发表的ITU-T推荐H.264(用于一般视听服务的高级视频译码)中，其在本文中可被称作H.264标准或H.264规范或H.264/AVC标准或规范。联合视频小组(JVT)继续致力于对H.264/MPEG-4 AVC的扩展。

视频编码器22及视频解码器28各自可实施为一个或一个以上微处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)、离散逻辑、软件、硬件、固件、或其任何组合。视频编码器22及视频解码器28中的每一者可包括于一个或一个以上编码器或解码器中，其任一者可作为组合的编码器/解码器(CODEC)的部分而集成于相应移动装置、用户装置、广播装置、服务器或其类似物中。

视频序列通常包括一连串视频帧。视频编码器22及视频解码器28可对各个视频帧中的视频块操作，以便编码及解码视频数据。视频块可具有固定或变化大小，且可根据指定译码标准而在大小方面不同。每一视频帧可包括一连串片段或其它可独立解码单元。每一片段可包括一连串宏块，其可布置成子块。作为一实例，ITU-T H.264标准支持各种块大小(例如，针对明度分量的16乘16、8乘8或4乘4，及针对色度分量的8×8)的帧内预测，以及各种块大小(例如，针对明度分量的16乘16、16乘8、8乘16、8乘8、8乘4、4乘8及4乘4，及针对色度分量的对应经缩放的大小)的帧间预测。视频块可包含像素数据的块，或变换系数的块(例如，在例如离散余弦变换或概念上类似的变换过程的变换过程之后)。本发明的一些技术可特定地应用于被分割成子块的明度块(或其它类型的块)。

较小视频块可提供较好分辨率，且可用于视频帧的包括高细节等级的位置。大体来说，可将宏块及各种子块视为视频块。另外，可将片段视为一连串视频块，例如，宏块及/或子块。每一片段可为视频帧的可独立解码单元。或者，帧自身可为可解码单元，或帧的其它部分可被定义为可解码单元。术语“经译码单元”指代视频帧的任何可独立解码单元，例如，整个帧、帧的片段、图像群组(GOP)，或根据所使用的译码技术而定义的另一可独立解码单元。

在基于帧间的预测性编码(其可包括本发明的模板匹配技术)之后，及在任何变换(例如用于H.264/AVC中的4×4或8×8整数变换或离散余弦变换或DCT)之后，可执行量化。量化大体上指将系数量化以可能地减少用以表示所述系数的数据量的过程。所述量化过程可减少与所述系数中的一些或全部相关联的位深度。举例来说，16位值在量化期间可舍去为15位值。在量化之后，可(例如)根据内容自适应可变长度译码(CAVLC)、上下文自适应二进制算术译码(CABAC)或另一熵译码方法来执行熵译码。

本发明的技术特定地适用于模板匹配预测。双向预测为基于两个不同数据列表的所谓的“B视频块”的预测。可根据来自两个先前帧的两个数据列表、来自后继帧的两个数据列表，或来自先前帧的一个数据列表及来自后继帧的一个数据列表而预测B视频块。对比来说，P视频块是基于一个列表而预测，所述列表可对应于一个预测性帧，(例如)一个先前帧或一个后继帧。B帧及P帧可更一般地称为P单元及B单元。也可以较小译码单元(例如帧的片段或帧的部分)而实现P单元及B单元。B单元可包括B视频块、P视频块或I视频块。P单元可包括P视频块或I视频块。I单元仅可包括I视频块。

模板匹配为可用以消除运动向量但仍提供运动补偿视频译码的优点的技术。在模板匹配中，模板相对于正译码的视频块而界定相邻像素的形状。相对于视频块界定模板形状。模板形状可毗邻视频块或环绕视频块。然而，模板无需紧邻于视频块而定位。即，视频块的一个或一个以上像素可存在于模板形状的最近边缘与视频块之间。

在一个实例中，假设可基于包含于模板形状中的预测性视频数据。模板形状可应用于参考视频单元中的一个或一个以上视频块。假设指代参考视频单元中的对应模板形状，所述对应模板形状是相对于参考视频单元内的预测性视频数据的块而界定。假设可基于来自第一预测性视频单元的至少一部分的第一预测性视频数据集合。假设也可基于来自第一预测性视频单元的至少一部分的第一预测性视频数据集合及基于来自第二预测性视频单元的至少一部分的第二预测性视频数据集合。在模板匹配运动预测期间产生及考虑的假设可称为候选假设。对于每一正译码的视频块可存在多个候选假设。

可将由与正译码的视频块相关联的模板(而非正译码的视频块自身)界定的数据与先前或后继视频单元中的对应模板的数据比较。基于所述比较，模板匹配运动预测算法从候选假设集合中识别最佳假设。在编码过程期间可考虑参考视频单元中的多个假设以使将发现参考视频单元中的最接近匹配假设的可能性较高。对应于最接近匹配假设的视频块可为最接近当前视频块的视频块，且因此所得译码的视频块可含有较少残余值。当前视频块为正译码的视频块且也可称为目标视频块。视频编码器22及视频解码器28可执行模板匹配过程以在不使用运动向量的情况下识别运动。因而，在使用模板匹配的情况下，不将运动向量译码到位流中。实际上，当编码及解码视频单元时基本上从模板匹配过程导出运动向量。

图2为说明可执行符合本发明的模板匹配运动预测技术与基于向量的运动预测技术两者的视频编码器40的实例的框图。视频编码器40为本文中称为“译码器”的专用视频计算机装置或设备的一个实例。视频编码器40可对应于源装置12的视频编码器22或不同装置的视频编码器。视频编码器40可执行视频帧内的块的帧内译码及帧间译码，但为了说明的简易起见而未在图2中展示帧内译码组件。帧内译码依赖于空间预测以减少或移除给定视频帧内的视频的空间冗余。帧间译码依赖于时间预测以减少或移除视频序列中的相邻帧内的视频的时间冗余。帧内模式(I模式)可指基于空间的压缩模式，且例如预测(P模式)或双向(B模式)的帧间模式可指基于时间的压缩模式。使用B模式编码的单元是参考两个帧加以编码。在H.264及其它标准中，可参考两个时间上相邻的帧来编码B帧或其它单元。举例来说，如果待编码的当前单元驻留于帧N中，则可将帧N-1及N-2用作参考帧以编码当前单元。在另一实例中，帧N+1及N+2可用作参考帧以编码当前单元。在一些状况下，至少一个时间上在后(future)的帧(例如，帧N+1)及至少一个时间上在前的帧(例如，帧N-1)可用以编码驻留于帧N中的当前单元。常常在编码中实际上仅考虑或使用先前或后继帧的一部分。

如图2中所示，视频编码器40接收待编码的视频单元内的视频块。在图2的实例中，视频编码器40包括一包含模板匹配运动估计(TM ME)单元43及模板匹配运动补偿(TM MC)单元45的模板匹配预测单元42(“TM预测单元42”)。视频编码器还包括存储器44、加法器46、变换单元48、量化单元50及熵译码单元52。对于视频块重建，视频编码器40还包括逆量化单元54、逆变换单元56及加法器58。视频编码器40还可包括解块滤波器(未图示)以对块边界滤波以从重建的视频中移除块假影。如果需要，则解块滤波器通常将对加法器58的输出进行滤波。虽然图2中未展示，但视频编码器40还可包括用于执行基于向量的运动预测技术的预测单元。所述预测单元可产生预测模式及运动向量，其包含可用来识别用以译码当前视频块的目标块的语法元素。所述预测单元可包括运动估计及运动补偿单元。

在编码过程期间，视频编码器接收待译码的视频块，且TM ME单元43及TM MC单元45执行帧间预测性译码。TM ME单元43及TM MC单元45可高度地集成，但为概念目的而分开加以说明。通常将运动估计视为产生运动向量的过程，所述运动向量估计视频块的运动。运动向量(例如)可指示预测性帧(或其它译码单元)内的预测性块相对于当前帧(或其它译码的单元)内的正译码的当前块的位移。运动补偿通常被视为基于由运动估计确定的运动向量而提取或产生预测性块的过程。又，可在功能上集成TMME单元43及TM MC单元45。出于示范的目的，本发明中所描述的技术经描述为由TM预测单元42执行。

在一个实例中，TM预测单元42应用模板匹配运动预测以编码当前视频块(例如，目标视频块)。作为一实例，TM预测单元42可将相对于正译码的目标块而界定的模板形状中的像素与先前及/或后继视频单元的对应数据比较。当应用模板匹配运动预测时，TM预测单元42可从第一视频单元集合(其可称为列表0)中选择一先前视频单元或将来视频单元，且仅使用来自列表0的此先前或将来视频单元确定假设集合。或者，TM预测单元42可从第二视频单元集合(其可称为列表1)中选择一先前或将来视频单元，且仅使用来自列表1的此先前或将来视频单元确定假设集合。

为了允许实现B帧上的模板匹配，对于B帧可使用一个或两个假设集合。如果使用一个假设集合，则所述假设集合可含有从列表0与列表1两者找到的假设。如果使用两个假设集合，则一个假设集合可含有从列表1找到的假设且另一个假设集合可含有从列表0找到的假设。此外，可由双向运动预测形成第三假设集合，其中将来自列表0的数据及来自列表1的数据用于预测，可能以加权方式使用以界定第三假设集合的数据。任何给定列表的假设集合可包括一个识别最类似于正译码的视频块的所要预测性视频块的特定假设。例如绝对差的总和(SAD)或平方差的总和(SSD)的量度可用以找到最好假设，所述最好假设又识别应用于译码的预测性视频块。

TM预测单元42在编码过程期间从所产生的假设集合中选择一个或一个以上假设。在一个实例中，引入语法元素，以便发信号通知用于模板匹配运动预测过程中的假设的数目。在此实例中，两个不同假设数目(例如，K₁及K₂)可为可用的。K₁表示可在编码及解码目标块时使用的假设的第一数目，且K₂表示可在编码及解码目标块时使用的假设的第二数目(例如，最大数目)。举例来说，K₁可为四，且K₂可为八。为了确定用于编码目标块的假设的数目，TM预测单元42可基于K₁个假设产生第一预测性视频数据集合，及基于K₂个假设产生第二预测性视频数据集合。TM预测单元42可通过识别含有来自所有可能假设的集合的K₁个最佳假设的假设子集而产生第一预测性视频数据集合。给定子集中的最佳假设可为最接近地匹配相对于正译码的目标视频块而界定的模板形状内的视频数据的假设。举例来说，可应用绝对差的总和(SAD)或平方差的总和(SSD)以确定最佳假设以界定给定子集。TM预测单元42可识别对应于假设子集中的假设中的每一者的参考视频块，且将所识别的参考视频块中具有相同相对位置的每一像素的像素值取平均值。TM预测单元42可以实质上相同的方式基于K₂个假设产生第二预测性视频数据集合。虽然在此实例中计算参考块中的每一像素的平均像素值以产生与K₁及/或K₂个假设相关联的预测性视频数据集合，但是可使用其它数学计算或量度以组合与K₁及/或K₂个假设相关联的不同预测性数据集合。

在TM预测单元42产生第一及第二预测性视频数据集合中的至少一者后，TM预测单元42可应用拉格朗日乘数以确定在使用第一或第二预测性视频数据集合时编码目标块的成本。为了确定成本，TM预测单元42使用经定义为C＝D+λR的成本函数，其中C为成本，D为失真，λ为拉格朗日乘数，且R为编码速率。TM预测单元42选择将最终产生最低速率-失真成本的数目的假设，且可经由新语法元素识别在编码目标帧的过程中由TM预测单元42使用的假设的数目。当考虑太多假设时，模板匹配的译码效率可受损失。通过并入语法元素以发信号通知在编码目标块时产生较低成本的假设的数目，可在编码及解码期间考虑更理想的数目的假设，借此改进模板匹配的总译码效率。

在本发明的一个方面中，TM预测单元42还可使用改进的假设拒绝技术来拒绝假设。在此技术中，将考虑中的每一假设与参考假设作比较。可通过为所有假设的像素值或考虑中的最佳假设子集的像素值求平均值而产生参考假设。如果考虑中的假设与参考假设之间的差大于阈值，则可移除考虑中的假设而不做考虑。举例来说，可基于下文描述的绝对差的加权总和(WSAD)或考虑中的假设与参考假设的像素的SAD来计算所述差。可在不向解码器发信号通知哪些假设被拒绝或被选择的情况下拒绝或选择假设。

根据本发明的另一方面，SAD可经加权以改进假设选择。SAD为当前块中每一像素的像素值与参考块中对应像素的像素值之间的差的绝对值的总和。可将当前块的模板及参考块的模板分割成K个部分。如图3中所示，目标视频单元62包括目标块64及目标块模板66，且参考视频单元68包括参考块70及参考块模板72。在此实例中，目标块模板66及参考块模板72各自被分割成四个模板分区。赋予目标块模板66或参考块模板72的每一特定模板分区的权重可在每一模板分区与目标块64或参考块70之间的距离增加时减小。绝对差的加权总和(WSAD)可定义为：

WSAD = Σ_{k = 1}^{K} \underset{n_{k}}{Σ} w_{k} \cdot | T_{Pk} - T_{Bk} |

其中w_k为第k个模板分区的加权值，T_Pk为与参考块相关联的第k个模板分区，T_Bk为与目标块相关联的第k个模板分区，n_k为模板分区k中的像素的数目，且K为与目标块相关联的模板及与参考块相关联的模板各自分成的分区的数目。

TM预测单元42还可应用计算出的模板偏差以预测参考块与目标块之间的偏差以改进视频编码的质量。当搜索由模板形状界定的最佳匹配假设时，TM预测单元42可使用以下公式计算相对于目标块而界定的模板中的每一像素的像素值与候选假设中的每一像素的像素值之间的平均差：

其中T_Bk为候选假设中的像素的像素值，T_Pk为相对于目标块而界定的模板中的像素的像素值，K为相对于目标块而界定的模板中的像素的数目，且偏差为候选假设的像素与相对于目标块而界定的模板之间的像素值的平均差。此像素值的平均差被称为模板偏差。对于可能假设集合中的每一候选假设，TM预测单元42可计算一个此偏差。

一旦针对特定候选假设计算出模板偏差，TM预测单元42便可通过取得候选假设的每一像素值，减去参考模板中的对应像素的像素值及进一步减去偏差而计算候选假设的绝对差的总和。候选假设的绝对差的总和经定义为：

其中T_Bk为候选假设中的像素的像素值，T_Pk为相对于目标块而界定的模板中的像素的像素值，K为候选假设中的像素的数目，且偏差为候选假设的像素与相对于目标块而界定的模板的像素之间的像素值的平均差。假设获得的模板偏差为目标块的偏差。通过考虑模板偏差，目标块的运动补偿预测可表示为：

B′＝P+偏差

其中B′为目标块的运动补偿预测，P为参考块中的像素的像素值，且偏差为如先前计算出的模板的平均偏差。通过按模板偏差来调整目标块的绝对差的总和，选定的假设实际上为最佳假设的可能性可能较大，借此减少残余并减少必须存储的信息量。

在图4中，模板74是相对于目标子块76而界定且上覆子块78的一部分，其中子块76及子块78为同一视频块的分区。如果子块78不具有可用的重建像素，则可通过(例如)使用运动补偿预测结果来确定子块78的内容。如果通过使用运动补偿预测结果来确定了子块78的内容，则目标子块76的运动预测的准确度可受损失，因为子块78的运动补偿预测结果可能与原始数据显著不同。为了改进在子块78不具有可用的重建像素时目标子块76的运动预测的准确度，TM预测单元42可一直等待直到在译码目标子块76之前已译码子块78。通过一直等待直到子块78已被译码，子块78的内容较接近于原始数据且目标子块76的模板匹配运动预测可更准确。

在一个实例中，子块76及子块78为明度视频块的子块。大体上，明度视频块为视频块内的像素的明度值的16乘16块。举例来说，明度视频块可分割成多个8乘8、8乘4或4乘4像素子块。为了确定子块78的内容，TM预测单元42首先计算子块78的运动补偿预测及明度残余。运动补偿预测包括参考视频单元中的对应子块的像素值。明度残余为子块78与参考视频单元中的对应子块的明度值的差。TM预测单元42接着将运动补偿预测及译码的明度残余组合成译码的明度结果以确定子块78的内容。一旦TM预测单元42已确定子块78的内容，则像素值可用于模板74且TM预测单元42可继续执行针对子块76的模板匹配运动预测。

图5为说明视频解码器80的实例的框图，视频解码器80可执行与上文描述的编码技术相反的解码技术，例如，将模板匹配运动预测应用于P帧及B帧，应用由语法元素定义的假设数目，计算并应用WSAD及/或计算并应用模板偏差。视频解码器80可包括熵解码单元82、模板匹配(TM)预测单元84、逆量化单元86、逆变换单元88、存储器90及加法器92。TM预测单元84可包括模板匹配运动估计(TM ME)单元85、模板匹配运动补偿(TM MC)单元87以及空间预测组件，为了简单及易于说明而未展示空间预测组件。

大体来说，熵解码单元82接收编码的位流并解码所述位流以产生量化的系数及其它语法元素。预测单元84可执行符合本发明的模板匹配运动预测。语法元素可包括指定在编码经编码的视频单元时由视频编码器所考虑的假设的数目的信息。TM预测单元84可通过将在解码过程期间使用的假设的数目限于由语法元素所识别的假设的数目来在解码视频单元时考虑所识别数目的假设。当使用由语法元素所识别的数目的假设解码经编码的视频单元时，TM预测单元84可通过从所有可能假设集合中识别含有由语法元素识别的数目的最佳假设的假设的子集而产生预测性视频数据集合。给定子集中的最佳假设可为最接近地匹配相对于正译码的目标块而界定的模板形状内的视频数据的假设。举例来说，可应用SAD或SSD以确定最佳假设以界定给定的子集。TM预测单元84可识别对应于假设子集中的假设的每一者的参考视频块，且将所识别的参考视频块中具有相同相对位置的每一像素的像素值求平均值。虽然在此实例中计算参考块中的每一像素的平均像素值以产生与由语法元素所识别的数目的假设相关联的预测性视频数据集合，但可使用其它数学计算或量度。大体来说，由编码器使用的同一数学计算也由解码器使用。以此方式，TM预测单元84产生用于解码经编码的视频块的预测性视频数据集合。

将量化的系数从熵解码单元82发送到逆量化单元86，逆量化单元86执行逆量化。逆变换单元88接着将解量化的系数逆变换回到像素域以产生残余块。加法器92将由TM预测单元84所产生的预测性数据集合与来自逆变换单元88的残余块组合以产生重建的视频块，其可存储于存储器90中及/或作为解码的视频输出从视频解码器80输出。

图6A至图6B为说明符合本发明的由视频编码器执行的示范性过程的流程图。将从图2的视频编码器40的视点来描述图6A至图6B。如图6A中所示，TM预测单元42产生参考列表(100)。参考列表可包括来自一个或一个以上参考视频单元的视频信息。参考视频单元可在时间上相对于包括目标视频块的视频单元出现在之前或之后。TM预测单元42接着选择目标视频块(102)且相对于所述目标块而界定模板形状。如果所述目标块为明度块的子块且模板形状的某一部分不具有可用的重建像素(104中的否)，则TM预测单元42产生与模板形状的不具有可用的重建像素的部分相关联的子块分区内容(106)。确切地说，可通过组合明度残余与子块分区的运动补偿预测而产生子块分区内容。一旦产生了子块分区内容(106)或如果对于与目标块相关联的整个模板均有重建像素可用(104中的是)，则TM预测单元42基于参考列表及与目标块相关联的模板而产生一个或一个以上假设集合(108)。

对于假设集合中的每一假设，TM预测单元42通过计算相对于目标块而界定的模板形状中的每一像素值与来自假设集合的候选假设中的每一像素的像素值之间的平均差来计算模板偏差(110)。TM预测单元42接着可计算每一假设的绝对差的加权总和(112)。在一个实例中，TM预测单元42通过将计算出的像素值乘以加权因子(使得所述加权因子随着视频块与模板分区之间的距离增加而减小)而使用基于模板偏差计算的像素值计算WSAD。在另一实例中，TM预测单元42通过将计算出的像素值乘以加权因子(使得所述加权因子随着视频块与模板分区之间的距离增加而减小)但不基于模板偏差调整像素值来计算WSAD。TM预测单元42可通过消除加权因子来计算SAD而非WSAD。在计算WSAD或SAD的过程中，TM预测单元42可将计算出的模板偏差并入。一旦模板偏差及WSAD或SAD被计算出，TM预测单元42便可(在一个实例中)通过将考虑中的所有假设求平均值或(在另一实例中)通过将考虑中的最佳假设子集求平均值而产生参考假设(114)。

参看图6B，TM预测单元42接着可选择可用于考虑的假设中的一者(116)，并计算正考虑的假设H_K与参考假设H_R之间的差且将所述值的差与阈值T比较(118)。正考虑的假设H_K与参考假设H_R之间的此差值可包含正考虑的假设H_K的每一像素与参考假设H_R的每一像素之间的绝对差的总和。如果此差(即，如果考虑中的假设与参考假设的像素的SAD)大于阈值T(118的是)，则可对所述假设不做考虑(120)。然而，如果H_K的像素与H_R的像素之间的差小于T(118中的否)或在对H_K不做考虑(120)之后，TM预测单元42确定在考虑中的假设集合中是否有任何剩余的假设(122)。如果有剩余假设，则TM预测单元42选择新假设供考虑(116)，且确定正考虑的假设与先前产生的参考假设之间的差是否大于阈值(118)。一旦不再有可供考虑的尚未考虑的假设(122中的否)，则TM预测单元42通过计算在来自假设集合的第一数目的假设用于编码时与编码目标视频块相关联的成本及在来自假设集合的第二数目的假设用于编码时与编码目标视频块相关联的成本而选择假设数目(124)。

为了选择用于编码目标块的假设的数目(124)，TM预测单元42可基于第一数目的假设产生第一预测性视频数据集合及基于第二数目的假设产生第二预测性视频数据集合。TM预测单元42可通过从所有可能假设集合中识别含有第一数目的最佳假设的假设子集而产生第一预测性视频数据集合。TM预测单元42接着可识别对应于假设子集中的假设中的每一者的参考视频块，并将所识别的参考视频块中具有相同相对位置的每一像素的像素值求平均值。TM预测单元42可以实质上相同的方式基于第二数目的假设产生第二预测性视频数据集合。在TM预测单元42产生第一及第二预测性视频数据集合后，TM预测单元42确定在使用第一或第二预测性视频数据集合时编码目标块的速率-失真成本。TM预测单元42选择最终将产生最低速率-失真成本的假设的数目。

TM预测单元42接着产生用于选定的假设数目的语法元素(126)。所述语法元素向解码器发信号通知在编码目标块时是使用第一数目的选定假设还是第二数目的选定假设(126)。视频编码器40接着可基于预测性视频数据集合来编码视频块(128)。在一个实例中，视频编码器40基于与具有最低成本的假设数目相关联的预测性视频数据集合来编码视频块。在另一实例中，TM预测单元42选择最佳假设，且视频编码器40基于与最佳假设相关联的参考视频块内所含有的预测性视频数据来编码视频块。在另一实例中，TM预测单元42可基于与可供考虑的所有剩余假设相关联的所有参考视频块产生预测性视频数据，且视频编码器40基于此预测性视频数据来编码视频块。

图7A至图7B为说明符合本发明的由视频解码器执行的示范性过程的流程图。将从图5的视频解码器80的视点来描述图7A至图7B。如图7A中所示，视频解码器80接收经编码的视频数据(132)，且接收识别在编码经编码的视频数据的过程中由视频编码器使用的假设数目的一个或一个以上语法元素。TM预测单元84选择目标视频块，识别与目标块相关联的模板，且产生参考列表(134)。参考列表包括来自一个或一个以上参考视频单元的视频信息。参考视频单元可在时间上出现于包括目标视频块的视频单元之前或之后。如果相对于目标块而界定的模板形状的部分不具有可用的重建像素(136中的否)且所述目标块为明度块的子块，则TM预测单元84可产生与模板形状的不具有可用的重建像素的部分相关联的子块分区内容(138)。确切地说，可通过组合明度残余与运动补偿预测而产生子块分区内容。一旦产生了子块分区内容(138)或如果对于相对于目标块而界定的整个模板形状有重建像素可用(136中的是)，则TM预测单元42基于参考列表及与目标块相关联的模板产生一个或一个以上假设集合(140)。

对于假设集合中的每一假设，TM预测单元84可通过计算相对于目标块而界定的模板形状中的每一像素的像素值与假设集合的候选假设中的每一对应像素的像素值之间的平均差来计算模板偏差(142)。TM预测单元84接着可计算每一假设的绝对差的加权总和(144)。在一个实例中，TM预测单元84通过将计算出的像素值乘以加权因子(使得所述加权因子随着视频块与模板分区之间的距离增加而减小)而使用基于模板偏差计算的像素值来计算WSAD。在另一实例中，TM预测单元84通过将计算出的像素值乘以加权因子(使得所述加权因子随着视频块与模板分区之间的距离增加而减小)但不基于模板偏差调整像素值来计算WSAD。TM预测单元84可通过消除加权因子来计算SAD而非WSAD。在计算SAD的过程中，TM预测单元84可将计算出的模板偏差并入。

参看图7B，TM预测单元84可(在一个实例中)通过将考虑中的所有假设求平均值或(在另一实例中)通过将考虑中的最佳假设的子集求平均值来计算参考假设(146)。TM预测单元84接着可选择可供考虑的假设中的一者(148)，并计算正考虑的假设H_K与参考假设H_R之间的差且将所述值的差与阈值T比较(150)。正考虑的假设H_K与参考假设H_R之间的此差值可包含正考虑的假设H_K的每一像素与参考假设H_R的每一像素之间的绝对差的总和。如果此差(即，如果考虑中的假设与参考假设的像素的SAD)大于阈值T(150中的是)，则可对所述假设不做考虑。如果值的差小于T(150中的否)或在对H_K不做考虑之后(152)，TM预测单元84确定在考虑中的假设集合中是否有任何剩余的假设(154)。如果有剩余的假设，则预测单元选择新假设供考虑(148)，且确定正考虑的假设与先前产生的参考假设之间的值的差是否大于阈值(150)。一旦不再有可供考虑的尚未考虑的假设(154中的否)，则TM预测单元84可解码识别在编码目标块的过程中考虑的假设的数目的语法元素并应用所述假设数目(156)。

为了应用所述假设数目(156)，TM预测单元84通过从所有可能假设集合中识别含有由语法元素识别的数目的最佳假设的假设子集而产生预测性视频数据集合。TM预测单元84接着可识别对应于假设子集中的假设的每一者的参考视频块且将所识别参考视频块中具有相同相对位置的每一像素的像素值求平均值。视频解码器80接着可基于预测性视频数据来解码视频(158)。在一个实例中，视频解码器80基于与具有最低成本的假设数目相关联的预测性视频数据集合来解码视频块。在另一实例中，TM预测单元84选择最佳假设且视频解码器80基于与最佳假设相关联的参考视频块内所含有的预测性视频数据来解码视频块。在另一实例中，TM预测单元84可基于与可用于考虑的所有剩余假设相关联的所有参考视频块而产生预测性视频数据且视频解码器80基于此预测性视频数据来编码视频块。

根据本发明操作的视频译码器可省略图6A至图6B及图7A至图7B中所示的实例方法的一个或一个以上步骤。举例来说，视频译码器可能并不计算模板偏差，计算绝对差的加权总和，产生参考假设，或利用指定假设数目的语法。大体来说，视频译码器将通过至少选择目标块、产生假设集合及基于所述假设集合译码视频单元来执行本发明中所描述的模板匹配运动预测技术。

可在包括无线手持机及集成电路(IC)或一组IC(即，芯片组)的广泛各种装置或设备中实施本发明的技术。已描述的任何组件、模块或单元经提供以强调功能性方面，且未必要求通过不同硬件单元来实现。可以硬件、软件、固件或其任何组合来实施本文中所描述的技术。可将被描述为模块、单元或组件的任何特征一同实施于集成逻辑装置中或单独地实施为离散但可交互操作的逻辑装置。在一些状况下，可将各种特征实施为集成电路装置(例如集成电路芯片或芯片组)。

如果以软件来实施，则所述技术可至少部分地由计算机可读媒体来实现，所述计算机可读媒体包含在处理器中执行时执行上述方法中的一者或一者以上的指令。所述计算机可读媒体可包含计算机可读存储媒体且可形成计算机程序产品的一部分，所述计算机程序产品可包括封装材料。所述计算机可读存储媒体可包含随机存取存储器(RAM)(例如，同步动态随机存取存储器(SDRAM))、只读存储器(ROM)、非易失性随机存取存储器(NVRAM)、电可擦除可编程只读存储器(EEPROM)、闪存、磁性或光学数据存储媒体，及其类似者。额外或替代地，所述技术可至少部分通过载运或传达呈指令或数据结构的形式的代码且可由计算机存取、读取及/或执行的计算机可读通信媒体来实现。

可由例如一个或一个以上数字信号处理器(DSP)、通用微处理器、专用集成电路(ASIC)、现场可编程逻辑阵列(FPGA)或其它等效集成逻辑电路或离散逻辑电路的一个或一个以上处理器来执行代码或指令。因此，如本文中所使用的术语“处理器”可指代上述结构或适于实施本文中所描述的技术的任何其它结构中的任一者。另外，在一些方面中，本文所描述的功能性可提供于经配置以用于编码及解码的专用软件模块或硬件模块内，或并入于组合的视频编解码器中。又，所述技术可完全实施于一个或一个以上电路或逻辑元件中。

本发明还预期多种集成电路装置中的任一者，所述集成电路装置包括用以实施本发明中所描述的技术中的一者或一者以上的电路。可将此电路提供于单一集成电路芯片中或提供于位于所谓的芯片组中的多个可交互操作的集成电路芯片中。可将这些集成电路装置用于多种应用中，所述应用中的一些可包括用于无线通信装置(例如移动电话手持机)中。

已描述本发明的各种实施例。这些及其它实施例在所附权利要求书的范畴内。

Claims

1.一种用于译码当前视频单元的当前视频块的视频译码方法，所述方法包含：

产生用于模板匹配预测性视频译码的假设集合，其中所述假设集合中的所述假设中的至少一些是基于来自第一预测性视频单元的至少一部分的第一预测性视频数据集合及基于来自第二预测性视频单元的至少一部分的第二预测性视频数据集合，且其中所述假设集合中的所述假设的每一者包含对应于相对于视频块位置而界定的模板形状的预测性视频数据；

从所述假设集合中选择所述假设中的一者；及

经由视频译码器使用由所述假设中的所述选定一者所识别的预测性视频数据来译码所述当前视频块。

2.根据权利要求1所述的视频译码方法，其中所述视频译码器包含视频编码器，其中所述方法进一步包含：

基于所述假设集合中的第一假设子集产生第一预测性视频数据集合；

基于所述假设集合中的第二假设子集产生第二预测性视频数据集合；

计算与编码所述当前视频块相关联的第一成本，其中计算所述第一成本包括确定在使用所述第一预测性视频数据集合编码后位的数目及所述当前视频块的质量级别；

计算与编码所述当前视频块相关联的第二成本，其中计算所述第二成本包括确定在使用所述第二预测性视频数据集合编码后位的数目及所述当前视频块的质量级别；

从所述第一成本及所述第二成本确定与编码所述当前视频块相关联的最低成本；及

设定语法元素以发信号通知解码器应使用所述第一假设子集还是所述第二假设子集。

3.根据权利要求1所述的视频译码方法，

其中所述视频译码器包含视频解码器，

其中所述方法进一步包含：

解码一个或一个以上语法元素，所述一个或一个以上语法元素识别在编码经编码的视频数据的过程中所使用的所述假设集合中的假设的数目；

从所述假设集合中识别假设子集，其中所述子集包括由所述一个或一个以上语法元素发信号通知的所述数目的假设；及

基于所述假设子集产生预测性视频数据集合，且

其中译码所述当前视频块进一步包含使用所述产生的预测性视频数据集合来解码所述经编码的视频数据。

4.根据权利要求1所述的视频译码方法，从所述假设集合中选择所述假设中的一者包含：

基于所述假设集合产生参考假设，其中所述参考假设包含所述假设集合中的多个假设的每一像素位置的像素值的平均值；

确定所述假设集合中的第一假设与所述参考假设之间的值的差是否大于阈值；及

如果所述第一假设与所述参考假设之间的值的所述差大于所述阈值，则从所述假设集合中移除所述第一假设。

5.根据权利要求1所述的视频译码方法，其中产生所述假设集合包含计算绝对差的加权总和，其中计算所述加权总和包括将与所述当前视频块相关联的模板分割成多个分区及将所述多个分区中的每一分区的所述绝对差的总和乘以随着考虑中的所述分区距所述当前视频块的距离增加而减小的值。

6.根据权利要求1所述的视频译码方法，其中产生所述假设集合包含：

计算模板偏差，其中计算包含计算相对于所述当前视频块而界定的模板的像素值与所述假设集合中的第一假设的像素值的平均差；及

将所述模板偏差应用于所述第一假设的所述像素值中的每一者与相对于所述当前视频块界定的所述模板的所述像素值中的每一者之间的差。

7.根据权利要求1所述的视频译码方法，其中所述当前视频块为明度视频块，其中所述明度视频块包括多个子块，且其中从所述假设集合中选择所述假设中的一者以译码所述当前视频块包含：

选择所述多个子块中的第一子块；

相对于所述第一子块的位置而界定模板形状；

计算第二子块的明度残余，其中所述第二子块的至少一部分位于所述模板形状的至少一部分中；

计算所述第二子块的像素值的运动补偿预测；及

基于所述明度残余及像素值的所述运动补偿预测而产生所述模板形状内的像素的预测性视频数据。

8.一种用于译码当前视频块的视频译码方法，所述方法包含：

产生用于模板匹配预测性视频译码的第一假设集合，其中所述假设集合中的所述假设中的至少一些是基于来自第一预测性视频单元的至少一部分的第一预测性视频数据集合，且其中所述第一假设集合中的每一假设包含对应于相对于第一视频块位置而界定的模板形状的预测性视频数据；

产生用于模板匹配预测性视频译码的第二假设集合，其中所述假设集合中的所述假设中的至少一些是基于来自第二预测性视频单元的至少一部分的第二预测性视频数据集合，且其中所述第二假设集合中的每一假设包含对应于相对于第二视频块位置而界定的所述模板形状的预测性视频数据；

基于所述第一假设集合及所述第二假设集合产生双向运动预测；

基于所述双向运动预测产生第三假设集合；

选择所述第三假设集合中的所述假设中的一者；及

9.一种译码当前视频块的视频译码设备，所述设备包含：

预测单元，其基于来自第一预测性视频单元的至少一部分的第一预测性视频数据集合及基于来自第二预测性视频单元的至少一部分的第二预测性视频数据集合产生用于模板匹配预测性视频译码的假设集合，其中所述假设集合中的所述假设的每一者包含对应于相对于视频块位置而界定的模板形状的预测性视频数据，且从所述假设集合中选择所述假设中的一者；及

视频译码单元，其使用由所述假设中的所述选定一者所识别的所述预测性视频数据来译码所述当前视频块。

10.根据权利要求9所述的视频译码设备，其中所述视频译码单元为视频编码器，且其中所述预测单元进一步基于所述假设集合中的第一假设子集产生第一预测性视频数据集合，基于所述假设集合中的第二假设子集产生第二预测性视频数据集合，通过至少确定在使用所述第一预测性视频数据集合编码后位的第一数目及所述当前视频块的第一质量级别来计算与编码所述当前视频块相关联的第一成本，通过至少确定在使用所述第二预测性视频数据集合编码后位的第二数目及所述当前视频块的第二质量级别来计算与编码所述当前视频块相关联的第二成本，从所述第一成本及所述第二成本确定与编码所述当前视频块相关联的最低成本，及设定语法元素以发信号通知解码器应使用所述第一假设子集还是所述第二假设子集。

11.根据权利要求9所述的视频译码设备，其中所述视频译码单元为视频解码器，其中所述视频解码器包含接收经编码的视频数据并解码识别在编码所述经编码的视频数据的过程中使用的假设的数目的一个或一个以上语法元素的熵单元，从所述假设集合中识别假设子集，其中所述子集包括由所述一个或一个以上语法元素发信号通知的所述数目的假设，且基于所述假设子集产生预测性视频数据集合，且其中所述视频解码器使用所述产生的预测性视频数据集合来解码所述经编码的视频数据。

12.根据权利要求9所述的视频译码设备，其中所述预测单元通过以下动作而从所述假设集合中选择所述假设中的一者：基于所述假设集合而至少产生参考假设，其中所述参考假设包含所述假设集合中的多个假设的每一像素位置的像素值的平均值，确定所述假设集合中的第一假设与所述参考假设之间的值的差是否大于阈值，及如果所述第一假设与所述参考假设之间的值的所述差大于所述阈值，则从所述假设集合中移除所述第一假设。

13.根据权利要求9所述的视频译码设备，其中所述预测单元通过至少计算绝对差的加权总和而产生所述假设集合，其中绝对差的所述加权总和是通过至少将与所述当前视频块相关联的模板分割成多个分区及将所述多个分区中的每一分区的所述绝对差的总和乘以随着考虑中的所述分区距所述当前视频块的距离增加而减小的值而计算。

14.根据权利要求9所述的视频译码设备，其中所述预测单元通过以下动作而产生所述假设集合：通过至少计算相对于所述当前视频块而界定的模板的像素值与所述假设集合中的第一假设的像素值的平均差来至少计算模板偏差，及将模板偏差应用于所述第一假设的所述像素值中的每一者与相对于所述当前视频块而界定的所述模板的所述像素值中的每一者之间的差。

15.根据权利要求9所述的视频译码设备，其中所述当前视频块为明度视频块，其中所述明度视频块包括多个子块，且其中所述预测单元通过以下动作而从所述假设集合中选择所述假设中的一者：至少选择所述多个子块中的第一子块，相对于第一子块位置界定模板形状，计算第二子块的明度残余，其中所述第二子块的至少一部分位于所述模板形状的至少一部分内，计算所述第二子块的像素值的运动补偿预测，及基于所述明度残余及像素值的所述运动补偿预测而产生所述模板形状内的像素的预测性视频数据。

16.根据权利要求9所述的视频译码设备，其中所述视频译码设备包含集成电路。

17.根据权利要求9所述的视频译码设备，其中所述视频译码设备包含微处理器。

18.根据权利要求9所述的视频译码设备，其中所述视频译码设备包含包括视频译码器的无线通信装置。

19.一种译码当前视频块的装置，所述装置包含：

用于产生用于模板匹配预测性视频译码的假设集合的装置，其中所述假设集合中的所述假设中的至少一些是基于来自第一预测性视频单元的至少一部分的第一预测性视频数据集合及基于来自第二预测性视频单元的至少一部分的第二预测性视频数据集合，且其中所述假设集合中的所述假设中的每一者包含对应于相对于视频块位置而界定的模板形状的预测性视频数据；

用于从所述假设集合中选择所述假设中的一者的装置；及

用于使用由所述假设中的所述选定一者所识别的所述预测性视频数据来译码所述当前视频块的装置。

20.根据权利要求19所述的装置，其中所述用于译码所述当前视频块的装置进一步包含：

用于基于所述假设集合中的第一假设子集产生第一预测性视频数据集合的装置；

用于基于所述假设集合中的第二假设子集产生第二预测性视频数据集合的装置；

用于计算与编码所述当前视频块相关联的第一成本的装置，其中计算所述第一成本包括确定在使用所述第一预测性视频数据集合编码后位的数目及所述当前视频块的质量级别；

用于计算与编码所述当前视频块相关联的第二成本的装置，其中计算所述第二成本包括确定在使用所述第二预测性视频数据集合编码后位的数目及所述当前视频块的质量级别；

用于从所述第一成本及所述第二成本确定与编码所述当前视频块相关联的最低成本的装置；及

用于设定语法元素以发信号通知解码器应使用所述第一假设子集还是所述第二假设子集的装置。

21.根据权利要求19所述的装置，

其中用于译码所述当前视频块的装置进一步包含用于解码经编码的视频数据的装置，

其中所述装置进一步包含：

用于解码一个或一个以上语法元素的装置，所述一个或一个以上语法元素识别在编码经编码的视频数据的过程中使用的所述假设集合中的假设的数目；

用于从所述假设集合中识别假设子集的装置，其中所述子集包括由所述一个或一个以上语法元素发信号通知的所述数目的假设；及

用于基于所述假设子集产生预测性视频数据集合的装置，且

其中所述用于解码所述经编码的视频数据的装置使用所述所产生的预测性视频数据集合来解码所述经编码的视频。

22.根据权利要求19所述的装置，其中所述用于选择所述假设中的一者的装置进一步包含：

用于基于所述假设集合产生参考假设的装置，其中所述参考假设包含所述假设集合中的多个假设的每一像素位置的像素值的平均值；

用于确定所述假设集合中的第一假设与所述参考假设之间的值的差是否大于阈值的装置；及

用于如果所述第一假设与所述参考假设之间的值的所述差大于所述阈值则从所述假设集合中移除所述第一假设的装置。

23.根据权利要求19所述的装置，其中所述用于产生所述假设集合的装置包含用于计算绝对差的加权总和的装置，其中计算绝对差的所述加权总和包括将与所述当前视频块相关联的模板分割成多个分区，及将所述多个分区中的每一分区的所述绝对差的所述总和乘以随着考虑中的所述分区距所述当前视频块的距离增加而减小的值。

24.根据权利要求19所述的装置，其中所述用于产生所述假设集合的装置包含：

用于计算模板偏差的装置，所述计算包含计算所述当前视频块的模板的像素值与所述假设集合的第一假设的像素值的平均差；及

用于将所述模板偏差应用于所述第一假设的所述像素值中的每一者与相对于所述当前视频块而界定的所述模板的所述像素值中的每一者之间的差的装置。

25.根据权利要求19所述的装置，其中所述当前视频块为明度视频块，其中所述明度视频块包括多个子块，且其中所述用于从所述假设集合中选择所述假设中的一者的装置包含：

用于选择所述多个子块中的第一子块的装置；

用于相对于所述第一子块的位置来界定模板形状的装置；

用于计算第二子块的明度残余的装置，其中所述第二子块的至少一部分位于所述模板形状的至少一部分内；

用于计算所述第二子块的像素值的运动补偿预测的装置；及

用于基于所述明度残余及像素值的所述运动补偿预测而产生所述模板形状内的像素的预测性视频数据的装置。

26.一种计算机可读存储媒体，其编码有用于使一个或一个以上可编程处理器执行以下动作的指令：

产生用于模板匹配预测性视频译码的假设集合，其中所述假设集合中的所述假设中的至少一些是基于来自第一预测性视频单元的至少一部分的第一预测性视频数据集合及基于来自第二预测性视频单元的至少一部分的第二预测性视频数据集合，且其中所述假设集合中的所述假设中的每一者包含对应于相对于视频块位置而界定的模板形状的预测性视频数据；

从所述假设集合中选择所述假设中的一者；及

使用由所述假设中的所述选定一者所识别的预测性视频数据来译码所述当前视频块。

27.根据权利要求26所述的计算机可读存储媒体，其中所述使所述一个或一个以上可编程处理器译码所述当前视频块的指令进一步包含用于使所述一个或一个以上可编程处理器执行以下动作的指令：

设定语法值以发信号通知解码器应使用所述第一假设子集还是所述第二假设子集。

28.根据权利要求26所述的计算机可读存储媒体，其中所述使所述一个或一个以上可编程处理器选择所述假设集合中的所述假设中的一者的指令进一步包含用于使所述一个或一个以上可编程处理器执行以下动作的指令：

从所述假设集合中识别假设子集，其中所述子集包括由所述一个或一个以上语法元素发信号通知的所述数目的假设；

基于所述假设子集产生预测性视频数据集合；及

使用所述产生的预测性视频数据集合来解码所述经编码的视频数据。

29.根据权利要求26所述的计算机可读存储媒体，其中所述使所述一个或一个以上可编程处理器选择所述假设集合中的所述假设中的一者的指令进一步包含用于使所述一个或一个以上可编程处理器执行以下动作的指令：

30.根据权利要求26所述的计算机可读存储媒体，其中所述使所述一个或一个以上可编程处理器产生所述假设集合的指令进一步包含用于使所述一个或一个以上可编程处理器执行以下动作的指令：通过至少将与所述当前视频块相关联的模板分割成多个分区并将所述多个分区中的每一分区的所述绝对差的总和乘以随着考虑中的所述分区距所述当前视频块的距离增加而减小的值而计算绝对差的加权总和。

31.根据权利要求26所述的计算机可读存储媒体，其中所述使所述一个或一个以上可编程处理器产生所述假设集合的指令进一步包含用于使所述一个或一个以上可编程处理器执行以下动作的指令：

通过至少计算相对于所述当前视频块而界定的模板的像素值与所述假设集合中的第一假设的像素值的平均差来计算模板偏差；及

将所述模板偏差应用于所述第一假设的所述像素值中的每一者与相对于所述当前视频块而界定的所述模板的所述像素值中的每一者之间的差。

32.根据权利要求26所述的计算机可读存储媒体，其中所述使所述一个或一个以上可编程处理器产生所述假设集合的指令进一步包含用于使所述一个或一个以上可编程处理器执行以下动作的指令：

选择所述多个子块中的第一子块；

相对于所述第一子块的位置界定模板形状；

计算第二子块的明度残余，其中所述第二子块的至少一部分位于所述模板形状的至少一部分内；

计算所述第二子块的像素值的运动补偿预测；及