CN102497545B - 内容自适应和艺术可引导可缩放视频编码 - Google Patents

内容自适应和艺术可引导可缩放视频编码 Download PDF

Info

Publication number
CN102497545B
CN102497545B CN201110038344.8A CN201110038344A CN102497545B CN 102497545 B CN102497545 B CN 102497545B CN 201110038344 A CN201110038344 A CN 201110038344A CN 102497545 B CN102497545 B CN 102497545B
Authority
CN
China
Prior art keywords
sequence
source images
image
redirected
bit stream
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201110038344.8A
Other languages
English (en)
Other versions
CN102497545A (zh
Inventor
尼考劳斯·斯蒂梵诺斯基
奥吉萨·斯莫里克
王永喆
曼纽尔·郎
亚历山大·霍能
迈克斯·戈洛斯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Eidgenoessische Technische Hochschule Zurich ETHZ
Disney Enterprises Inc
Original Assignee
Eidgenoessische Technische Hochschule Zurich ETHZ
Disney Enterprises Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Eidgenoessische Technische Hochschule Zurich ETHZ, Disney Enterprises Inc filed Critical Eidgenoessische Technische Hochschule Zurich ETHZ
Publication of CN102497545A publication Critical patent/CN102497545A/zh
Application granted granted Critical
Publication of CN102497545B publication Critical patent/CN102497545B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
    • H04N19/51Motion estimation or motion compensation
    • H04N19/537Motion estimation other than block-based
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/30Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using hierarchical techniques, e.g. scalability
    • H04N19/33Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using hierarchical techniques, e.g. scalability in the spatial domain
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/46Embedding additional information in the video signal during the compression process
    • H04N19/463Embedding additional information in the video signal during the compression process by compressing encoding parameters before transmission

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

本发明提供了内容自适应和艺术可引导可缩放视频编码。公开了用于执行可缩放视频编码的系统、方法和制品。在一个实施例中,非线性函数被用于利用重定向的视频数据来预测源视频数据。可以确定预测的视频数据与源视频数据之间的差异。重定向的视频数据、非线性函数和差异可被联合编码成可缩放比特流。可缩放比特流可被传送并选择性地解码以产生用于多个预定的目标平台之一的输出视频。

Description

内容自适应和艺术可引导可缩放视频编码
技术领域
本发明涉及计算机图形的领域,具体而言涉及用于可缩放视频编码的系统和方法。
背景技术
现今存在着各种设备用于显示视频内容。这些设备的示例包括电影院、电视机、用于家庭影院的投影仪、智能电话等等。这些设备经常支持不同的宽高比,例如4∶3、16∶9、21∶9、1∶1、2∶1和5∶8。为了在特定的设备上适当地显示视频内容,视频内容可以被“重定向”(retarget)以便在该设备上重放-例如被重定向到该设备本身的宽高比。对视频内容进行重定向包括执行一个或多个视频处理操作以使得视频内容更好地适合于特定的设备。
用于视频重定向的一种技术包括线性缩小(downscaling),其中源内容被线性地缩放(在垂直和水平方向上)以便能够适合于目标设备的帧大小。其他技术通过裁剪(cropping)和/或淘选(panning)来去除“不重要的”内容。裁剪包括修剪源视频的宽度和/或高度以产生具有较小的宽度和/或高度的目标视频以便能够适合于目标设备的帧大小。淘选包括选择源视频的匹配目标设备的帧大小的一部分。
发明内容
本发明的一个实施例提供了一种方法,该方法可包括接收具有目标图像格式的重定向图像序列。该重定向图像序列是从具有源图像格式的源图像序列重定向而来的。该方法还可以包括确定至少一个非线性函数,该非线性函数配置来从具有目标图像格式的所述重定向图像序列生成具有源图像格式的预测图像序列。该方法还可以包括确定具有源图像格式的所述源图像序列和具有源图像格式的所述预测图像序列之间的差异。该方法还可以包括通过对(i)所接收到的具有目标图像格式的所述重定向图像序列,(ii)所述至少一个非线性函数,以及(iii)所确定的差异进行编码来生成单个比特流。
本发明的另一个实施例提供了一种包含程序的计算机可读存储介质,所述程序在被运行时执行操作,该操作可以包括接收具有目标图像格式的重定向图像序列。所述重定向图像序列是从具有源图像格式的源图像序列重定向而来的。该操作还可以包括确定至少一个非线性函数,该非线性函数配置来从具有目标图像格式的所述重定向图像序列生成具有源图像格式的预测图像序列。该操作还可以包括确定具有源图像格式的所述源图像序列和具有源图像格式的所述预测图像序列之间的差异。该操作还可以包括通过对(i)所接收到的具有目标图像格式的所述重定向图像序列,(ii)所述至少一个非线性函数,以及(iii)所确定的差异进行编码来生成单个比特流。
本发明的另一个实施例提供了一种系统,该系统包括计算机处理器和包含程序的存储器,所述程序在被所述计算机处理器运行时配置来执行操作,该操作可以包括接收具有目标图像格式的重定向图像序列。所述重定向图像序列是从具有源图像格式的源图像序列重定向而来的。该操作还可以包括确定至少一个非线性函数,该非线性函数配置来从具有目标图像格式的所述重定向图像序列生成具有源图像格式的预测图像序列。该操作还可以包括确定具有源图像格式的所述源图像序列和具有源图像格式的所述预测图像序列之间的差异。该操作还可以包括通过对(i)所接收到的具有目标图像格式的所述重定向图像序列,(ii)所述至少一个非线性函数,以及(iii)所确定的差异进行编码来生成单个比特流。
本发明的另一个实施例提供了一种方法,该方法可以包括接收单个比特流。该单个比特流可以包括:(i)经编码的具有目标图像格式的重定向图像序列,(ii)至少一个经编码的非线性函数,用来从所述重定向图像序列预测具有源图像格式的源图像序列,从而生成具有源图像格式的预测图像序列,(iii)经编码的所述源图像序列和所述预测图像序列之间的差异。该方法还可以包括对所述单个比特流进行解码来生成目标图像格式和源图像格式之一的图像序列。
本发明的另一个实施例提供了一种方法,该方法可以包括接收对单个比特流的请求。该方法还可以包括响应于所述请求发送所述单个比特流。所述单个比特流可以包括:(i)经编码的具有目标图像格式的重定向图像序列,(ii)至少一个经编码的非线性函数,用来从所述重定向图像序列预测具有源图像格式的源图像序列,从而生成具有源图像格式的预测图像序列,(iii)经编码的所述源图像序列和所述预测图像序列之间的差异。所述单个比特流在被解码后可以生成目标图像格式和源图像格式之一的图像序列。
本发明的另一个实施例提供了一种方法,该方法可以包括通过对下述内容进行编码来生成单个比特流:(i)具有目标图像格式的重定向图像序列,(ii)至少一个非线性函数,用来从所述重定向图像序列预测具有源图像格式的源图像序列,从而生成具有源图像格式的预测图像序列,以及(iii)所述源图像序列和所述预测图像序列之间的差异。所述单个比特流在被解码后可以生成目标图像格式和源图像格式之一的图像序列。
本发明的另一个实施例提供了一种方法,该方法可以包括接收单个比特流,接收具有目标图像格式的重定向图像序列。所述重定向图像序列可以是从具有源图像格式的源图像序列重定向而来的。该方法还可以包括利用至少一个非线性函数,从具有目标图像格式的所述重定向图像序列生成具有源图像格式的预测图像序列。
本发明的另一个实施例提供了一种方法,该方法可以包括提供至少一个非线性函数,该非线性函数配置来从具有目标图像格式的所述重定向图像序列生成具有源图像格式的预测图像序列。所述重定向图像序列是从具有源图像格式的源图像序列重定向而来的。该方法还可以包括对所述至少一个非线性函数进行编码。
附图说明
为了能够详细理解以上记载的本发明的特征,通过参考实施例可以对以上简要总结的本发明进行更具体的描述,实施例中的一些在附图中图示。然而,要注意,附图只图示了本发明的典型实施例,因此不应被认为限制了其范围,因为本发明可涵盖其他具有相同效果的实施例。
图1是示出根据本发明一个实施例的用于生成可缩放比特流的系统的框图。
图2示出了根据本发明一个实施例的视频重定向器产生的图像。
图3示出了根据本发明一个实施例的用于对视频进行重定向的过程。
图4示出了根据本发明一个实施例的用于可缩放视频编码的过程。
图5示出了根据本发明一个实施例的用于预测源视频的过程。
图6示出了根据本发明一个实施例的视频编码器的组件。
图7示出了根据本发明一个实施例的图像序列的两个变形(warp)。
图8示出了根据本发明一个实施例的变形编码器的组件。
图9示出了根据本发明一个实施例的带有四个时间层的层次帧编码顺序。
图10示出了根据本发明一个实施例的梅花式分辨率金字塔(quincunxresolution pyramid)的三个相继的分辨率。
图11示出了根据本发明一个实施例的空间预测的两种类型。
图12示出了根据本发明一个实施例的变形解码器的组件。
图13是示出根据本发明一个实施例的用于执行可缩放视频编码的方法的流程图。
图14是示出根据本发明一个实施例的用于预测第二格式的视频数据的方法的流程图。
图15是示出根据本发明一个实施例的用于从可缩放比特流选择性地解码出具有不同格式的视频数据的方法的流程图。
具体实施方式
本发明的实施例提供了用于支持目标平台之间的非线性关系的可缩放视频编码的技术。非线性关系可以是诸如变形之类的函数的形式。诸如线性缩小、裁剪和/或淘选之类的线性变形技术没有考虑被重定向的基本内容。与之不同,非线性变形可以保留图像的特定信息(例如脸部和身体比例),但损害图像的不那么重要的信息(例如背景中的墙壁)。因此,非线性变形可用于以内容自适应(和艺术可引导)的方式来对视频进行重定向。有利地,利用非线性变形对视频内容进行重定向可以产生更好地适合于目标平台的视频输出。
本发明的一个实施例生成可缩放比特流,该可缩放比特流可以被传送并被选择性地解码以产生用于多个预定的目标平台之一的输出视频。例如,该可缩放比特流可以被解码以产生具有16∶9的宽高比(例如1280x720分辨率)的输出视频。有利地,该可缩放视频编码可被解码以产生具有4∶3的宽高比(例如720x576分辨率)的输出视频。另外,该可缩放比特流支持各个宽高比的输出视频之间的非线性变形。有利地,适合于多个目标平台的视频内容可以被更高效地存储和传送。
在下文中,述及了本发明的实施例。然而,应当理解,本发明并不限于所描述的具体实施例。而是,无论是否与不同的实施例有关,以下特征和要素的任何组合都已被设想来实现和实践本发明。另外,虽然本发明的实施例可以实现相对于其他可能的方案和/或现有技术的优点,但是本发明并不受特定的优点是否由给定的实施例实现所限。从而,以下方面、特征、实施例和优点只是例示性的,而并不被认为是所附权利要求的要素或限定,除非在(一个或多个)权利要求中有明确记载。类似地,对“本发明”的述及不应当被理解为是对这里公开的任何发明主题的概括,并且不应当被认为是所附权利要求的要素或限定,除非在(一个或多个)权利要求中有明确记载。
本发明的一个实施例被实现为结合计算机系统使用的程序产品。该程序产品的(一个或多个)程序限定了实施例的功能(包括这里描述的方法)并且可被包含在多种计算机可读存储介质上。例示性的计算机可读存储介质包括但不限于:(i)其上永久地存储着信息的不可写存储介质(例如计算机内的只读存储器设备,比如CD-ROM驱动器可读的CD-ROM盘);(ii)其上存储着可更改的信息的可写存储介质(例如,磁盘驱动器内的软盘或硬盘驱动器)。这种计算机可读存储介质在承载着指导本发明的功能的计算机可读指令时是本发明的实施例。其他介质包括通信介质,通过这种通信介质,信息被传达给计算机,例如通过计算机或电话网络,包括无线通信网络。后一种实施例具体地包括向/从因特网和其他网络传送信息。这种通信介质在在承载着指导本发明的功能的计算机可读指令时是本发明的实施例。广泛地说,计算机可读存储介质和通信介质在这里可被称为计算机可读介质。
一般地,被执行来实现本发明的实施例的例程可以是操作系统的一部分或者特定的应用、组件、程序、模块、对象或指令序列。本发明的计算机程序通常包括众多指令,这些指令将被本地计算机转化成机器可读格式并且因此转化成可执行指令。另外,程序包括变量和数据结构,它们或者驻留在程序本地,或者存在于存储器中或存储设备上。此外,以下描述的各种程序可以基于其在本发明的特定实施例中所为其实现的应用来标识。然而,应当明白,以下的任何特定程序命名只是为了方便而使用的,因此本发明不应当限于仅用在这种命名所标识和/或暗示的任何特定应用中。
图1是示出根据本发明一个实施例的用于生成可缩放比特流的系统100的框图。联网的系统100包括计算机102。计算机102可经由网络130连接到其他计算机。一般地,网络130可以是电信网络和/或广域网(WAN)。在特定实施例中,网络130是因特网。
计算机102一般地包括经由总线112连接到存储器106的处理器104、网络接口设备110、视频卡115、存储装置108、输入设备114和显示设备116。计算机102一般受操作系统的控制。操作系统的示例包括UNIX、Microsoft Windows操作系统的各版本以及Linux操作系统的各发布版。(注意,Linux是Linux Torvalds在美国和其他国家的商标)。更一般地,支持这里公开的功能的任何操作系统都可被使用。处理器104被包括来作为单个CPU、多个CPU、具有多个处理核的单个CPU等等的代表。类似地,存储器106可以是随机访问存储器。虽然存储器106被示为单个实体,但是应当理解,存储器106可包括多个模块,并且存储器106可存在于多个级别,从高速寄存器和缓存到低速但较大的DRAM芯片。网络接口设备110可以是使计算机102可经由网络130与其他计算机通信的任何类型的网络通信设备。
存储装置108可以是硬盘驱动器存储设备。虽然存储装置108被示为单个单元,但存储装置108可以是诸如固定盘驱动器、软盘驱动器、磁带驱动器、可移除存储卡或光存储装置的固定和/或可移除存储设备的组合。存储器106和存储装置108可以是跨多个主存储设备和次存储设备的一个虚拟地址空间的一部分。
输入设备114可以是用于向计算机102提供输入的任何设备。例如,可以使用键盘、键区、光笔、触摸屏、轨迹球或者声音识别单元、音频/视频播放器等等。显示设备116可以与视频卡115联合操作,以向计算机102的用户提供输出。虽然是与输入设备114分开示出的,但显示设备116和输入设备114可被组合。例如,可以使用具有集成的触摸屏的显示屏或具有集成的键盘的显示器。
在一个实施例中,视频卡115结合了针对图形和视频处理进行优化并且构成图形处理单元(GPU)的电路。在另一实施例中,视频卡115结合了针对通用处理进行优化的电路。在另一实施例中,视频卡115可与一个或多个其他系统元件(例如处理器104)相集成,以形成片上系统(SoC)。在另一实施例中,视频卡115被省略,并且处理器104执行的软件执行视频卡115的功能。
像素数据可直接从处理器104提供给视频卡115。在本发明的一些实施例中,表示场景的指令和/或数据经由网络接口设备110或存储装置108被提供给服务器计算机的集合或渲染集群(render farm),其中每个服务器计算机类似于系统100。渲染集群利用所提供的指令和/或数据来生成该场景的一个或多个渲染图像。这些渲染图像可以以数字格式被存储在计算机可读介质上,并且可选地被返回到系统100以供显示。类似地,经视频卡115处理的图像可被输出到其他系统以供显示、被存储在存储装置108中、或者被以数字格式存储在计算机可读介质上。
或者,处理器104向视频卡115提供定义期望的输出图像的数据和/或指令,视频卡115根据这些数据和/或指令来生成一个或多个输出图像的像素数据。定义期望的输出图像的数据和/或指令可被存储在存储器106中或视频卡115内的图形存储器中。在一个实施例中,视频卡115包括3D渲染能力,用于根据定义场景的几何结构、光照明暗、纹理、运动和/或相机参数的指令和数据生成输出图像的像素数据。视频卡115还可包括一个或多个可编程的执行单元,这些单元能够执行着色器程序、色调映射程序,等等。
互连图1中的各种组件的通信路径可利用诸如PCI(外围组件互连)、快速PCI(PCI-E)、AGP(加速图形端口)、超传输或任何其他(一个或多个)总线或点对点通信协议之类的任何适当的协议来实现,并且不同设备之间的连接可使用不同的协议,这是本领域中已知的。
在一个实施例中,计算机102的存储器106包括视频重定向器148、视频编码器150、变形函数156、图像差异160以及视频解码器164。计算机102的存储装置108包括源视频152、重定向的视频154、预测的视频158以及可缩放比特流162。在一个实施例中,视频重定向器148可以是任何接收源视频152并且产生适合于目标平台的视频输出(重定向的视频154)的软件应用。在一个实施例中,视频编码器150可以是任何利用重定向的视频154和其他输入来生成可缩放比特流162的软件应用。可缩放比特流可以被传送到具有各自的视频解码器164的一个或多个目标设备。在一个实施例中,视频解码器164可以是任何选择性地解码所接收的可缩放视频编码以产生用于多个预定的目标平台之一的输出视频的软件应用。在替换实施例中,视频重定向器148和视频编码器150的功能可以被组合在单个应用中。
图2示出了根据本发明一个实施例的视频重定向器148产生的图像。如上所述,视频重定向器148产生了适合于目标平台的视频输出。例如,视频重定向器148可以将源视频的图像202重定向为第一目标格式的图像204和第二目标格式的图像206。例如,源视频图像202可具有16∶9宽高比(例如高清晰度(HD)视频),而第一目标格式具有4∶3宽高比(例如PAL/NTSC),并且第二目标格式具有1∶1宽高比(例如个人数字助理(PDA)设备)。视频重定向器148可以使用非线性变形来保留图像202的特定信息(例如脸部和身体比例),而牺牲图像202的不那么重要的信息(例如背景中的墙壁)。
在一个实施例中,视频重定向器148为源视频152的每个帧计算变形函数。源视频152的给定帧的变形函数规定了在被映射到目标平台时该帧的每个像素的形状如何被改变。源视频152的帧与帧之间,变形函数可以不同,以更适当地对源视频152进行重定向。可以基于从源视频152提取的显着信息来计算变形函数。还可以基于源视频152的特定关键帧处的用户指定的特征区域来计算变形函数。在将图像变形到目标平台时,视频重定向器148还可执行操作(例如2D抛雪球(splatting))来去除混叠。
图3示出了根据本发明一个实施例的视频重定向器148执行的用于对视频进行重定向的过程302。如图所示,过程302根据下式来计算目标视频帧Ir
    Ir=g(Is,W)    (式1)
其中Is是源视频帧304,Ir是目标视频帧306,W是变形函数310,并且g()是图像映射运算符。在一个实施例中,图像映射操作符可包括2D抛雪球以去除混叠。还示出了变形函数310的可视化308。变形函数310规定了在被映射到目标视频帧306时源视频帧304的每个像素的形状如何被改变。移近到变形函数310的部分312可以看出,变形函数310可由四边形网格表示。在一个实施例中,四边形网格310具有与目标视频帧306相同的宽高比,而四边形网格310的每个四边形被唯一地指派给源视频帧304中的一个像素。尤其,四边形网格310的四边形的数目可以等于源视频帧304的像素的数目。变形函数310的每个四边形描述了源视频帧304的相应像素的形状改变,这种形状改变是在重定向302期间将该像素映射到目标视频帧306时施加的。
在一个实施例中,视频编码器150把源视频152和一个或多个重定向的视频154联合编码成单个可缩放比特流。该单个可缩放比特流可以被传送和选择性地解码以产生源视频152或任何重定向的视频154。为了更高效地编码,视频编码器150可以识别和利用源视频152与一个或多个重定向的视频154之间的依赖关系。视频编码器150可以利用所识别的依赖关系来更高效地编码。
图4示出了根据本发明一个实施例的用于可缩放视频编码的过程400。如图所示,视频编码器150将源视频404和一个或多个目标视频406编码成可缩放比特流410。另外,源视频404与目标视频406之间的依赖关系408可以被计算并作为辅助数据被提供到视频编码器150中。视频编码器150可以使用该辅助数据来更高效地对源视频404和目标视频406编码。在一个实施例中,辅助数据可包括用于目标视频的每个帧的变形函数156。在一个实施例中,目标视频的给定帧的变形函数156规定了该帧中的每个像素的形状在被映射到源视频的相应帧时如何被改变。即,这些变形函数156在用于将源视频重定向到目标视频的变形函数的相反方向上映射像素形状(即从目标视频回到源视频)。因此,这些变形函数156在这里也可被称为逆变形函数。在替换实施例中,视频编码器150可以对从源视频404到目标视频的变形而不是逆变形编码。例如,从源视频404到目标视频的变形可用在“后向映射”方案中来预测视频,这将在下文中结合图6的预测模块610来论述。
图5示出了根据本发明一个实施例的用于预测源视频的过程502。换言之,图5示出了视频编码器150执行的从重定向的视频154生成预测视频158的操作。如图所示,过程502根据下式来预测源视频帧
I ^ s = f ( W - 1 , I r ) (式2)
其中是预测的源视频帧504,Ir是重定向的(或目标)视频帧306,W-1是逆变形函数510,并且f()是逆图像映射运算符。重定向的视频帧Ir在这里也可被表达为目标视频帧IT。如下文中进一步论述的,预测的源视频帧504可能不一定与图3的源视频帧304完全相同。还示出了逆变形函数510的可视化508。逆变形函数510规定了在被映射到预测的源视频帧504时目标视频帧306的每个像素的形状如何被改变。移近到逆变形函数510的部分512可以看出,逆变形函数510可由四边形网格表示。四边形网格510可具有与源视频帧504相同的宽高比,而四边形网格510的每个四边形被唯一地指派给目标视频帧306中的一个像素。尤其,四边形网格510的四边形的数目可以等于目标视频帧306的像素的数目。逆变形函数510的每个四边形描述了目标视频帧306的相应像素的形状改变,这种形状改变是在逆重定向或预测502期间将该像素映射到源视频帧504时施加的。
在一个实施例中,视频编码器150可计算预测视频158与源视频152之间的差异。例如,视频编码器150可计算预测视频158的每个帧与源视频152的每个帧之间的每像素差异。视频编码器150随后把重定向的视频154、逆变形函数508和每像素差异编码成可缩放比特流。可缩放比特流可被传送到目标设备,目标设备执行视频解码器164以从可缩放比特流选择性地解码出重定向的视频154或源视频152。例如,视频解码器164可从可缩放比特流解码出重定向的视频154、逆变形函数156和每像素差异160。视频解码器164可以向重定向的视频154应用逆变形函数以获得预测视频158。视频解码器164随后可向预测视频158应用每像素差异以生成源视频152。
图6示出了根据本发明一个实施例的图1的视频编码器150的组件。如图所示,视频编码器150包括基本层编码器602、变形编码器604、变形解码器606、基本层解码器608、预测模块610、差异模块611、增强层编码器612以及复用器614。这里使用的基本层指的是满足预定的标准(例如在要编码的重定向视频之中具有最低分辨率)的重定向视频。在一个实施例中,基本层编码器602对重定向的视频306(例如PAL图像序列)编码。变形编码器604对把像素形状从重定向的视频306的每个帧映射到源视频304(例如HD图像序列)的相应帧的逆变形的序列编码。
在一个实施例中,预测模块610、变形解码器606和基本层解码器608联合操作以生成预测视频158。差异模块611计算预测视频158与源视频304之间的每像素差异160。每像素差异在这里也可被称为增强层。复用器614把经编码的基本层、经编码的逆变形和经编码的增强层组合成可缩放比特流162。有利地,可缩放比特流162可被传送和解码以产生用于多个预定平台之一的输出视频。例如,可缩放比特流162可被视频解码器164选择性地解码以产生重定向的视频306或源视频304。因此,利用可缩放比特流162,可以更高效地存储和传送适合于多个目标平台的视频内容。
在一个实施例中,变形由常规的二维四边形网格表示,其具有参数域:
        D:=I×J    (式3)
其中I={0,...,I}并且J={0,...,J},并且D的每个网格顶点(i,j)被指派有2D位置
因为图像序列的每个帧f被指派以一个变形,所以帧f中的网格顶点的位置可以被表示为
图7示出了根据本发明一个实施例的图像序列的两个变形。如图所示,这些变形包括对应于图像序列的帧300的第一变形702。这些变形还包括对应于图像序列的帧320的第二变形704。变形702、704的每个顶点表示经由边缘连接到最多达四个邻居顶点的位置wf[i,j]。尤其,2D位置(i,j),(i-1,j),(i,j-1),(i-1,j-1)描述了像素的形状,而2D位置w[i,j],w[i-1,j],w[i,j-1],w[i-1,j-1]则描述了此像素根据变形函数w[.,.]的形状改变。
在一个实施例中,变形是利用连续(而不是离散)参数域来表示的。利用连续参数域表示变形使得可以在网格顶点之间的任意位置处对变形进行二次采样。从而,连续变形可被表示为
其中x∈[0,I]并且y∈[0,J]。当根据i∈{0,...,I}和j∈{0,...,J}.限制整数坐标时,连续变形具有属性
                w(i,j)=w[i,j]
在一个实施例中,利用Wachspress坐标,可在非整数位置处定义函数w(x,y)。正如已知的,Wachspress坐标指的是一类广义重心坐标。重心坐标是由单形体(例如三角形、四面体等等)的顶点定义的坐标。广义重心坐标指的是对于多面体(而不是单形体)定义的重心坐标。在替换实施例中,其他类型的广义重心坐标(例如平均值坐标)可用于定义非整数位置处的函数w(x,y)。
如上所述,可利用Wachspress坐标在非整数位置处定义函数w(x,y)。对于i=1,2,3,4,令
(式4)
表示点相对于2D点的Wachspress坐标coordinates(a,b,c,d)t。从而,(a,b,c,d)t表示(a,b,c,d)的转置,即,(a,b,c,d)是行向量而(a,b,c,d)t是列向量。因此,另外,令
w ( x , y ) : = w ( q → 1 ) w ( q → 2 ) w ( q → 3 ) w ( q → 4 ) · Q ( x → , q → 1 , q → 2 , q → 3 , q → 4 ) (式5)
其中
并且
Wachspress坐标也可用于计算逆变形iw(r,s)。令
q → 1 : = ( i , j ) t ,
q → 2 : = ( i + 1 , j ) t ,
q → 3 : = ( i + 1 , j + 1 ) t , 并且
q → 4 : = ( i + 1 , j ) t
为离散参数域中定义四边形的点,该四边形以点(r,s)t作为内点。逆位置iw(r,s)可根据下式来确定:
iw ( r , s ) : = q → 1 q → 2 q → 3 q → 4 · Q ( ( r , s ) t , w ( q → 1 ) , w ( q → 2 ) , w ( q → 3 ) , w ( q → 4 ) ) . (式6)
当使用Wachspress坐标时,逆变形可能不一定满足属性w(iw(r,s))=(r,s)。然而,与利用满足此属性的坐标(例如平均值坐标)相比,利用Wachspress坐标来反转变形可以产生优良的性能。
如上所述,在一个实施例中,变形编码器604对把像素形状从重定向视频的每个帧映射到源视频的相应帧的逆变形的序列进行编码。为了方便,逆变形iwf因此可被表示为wf。另外,在变形内和变形之间分别可存在强烈的空间和时间依赖关系。在一个实施例中,变形编码器604利用这些依赖关系来更高效地压缩逆变形。图8示出了根据本发明一个实施例的图6的变形编码器604的组件。如图所示,这些组件包括梅花式分解器802、空间预测器804、时间预测器806、熵编码器808、量化器810以及逆量化器812。
在一个实施例中,变形编码器604按层次化帧编码顺序对逆变形的序列iw1,...,iwf编码。在下文中结合图9来进一步描述层次化帧编码顺序。变形编码器604可执行梅花式分解来利用变形的规律性。具体而言,梅花式分解器802利用下式把每个逆变形iwf的参数域D分解成不相交集合Dl
D = ∪ l = 1 L D l . (式7)
从而,梅花式分解器802输出一个维度为2|Dl|的向量,其堆叠了所有顶点位置iwf[i,j],其中(i,j)在Dl中。网格顶点位置的这个向量可被表示为在下文中结合图10来进一步描述梅花式分解。
在一个实施例中,对于每个帧f,空间预测器804从低到高空间l相继地编码向量使每个空间层的向量与同一帧的较低空间层的解码后向量解除相关。空间预测器804计算空间预测误差向量
v l f : = u l f - u ^ l f , (式8)
其在接下来的步骤中被在时间上解除相关。时间预测器806使用经处理的帧r的解码后空间预测误差向量来预测从而,变形编码器604计算空间-时间预测误差向量
e l f : = v l f - v ^ l f . (式9)
一般地,变形编码器604可以通过确定来自较低分辨率空间层的相邻函数值的重心来从空间上预测较高分辨率空间层的函数值。变形编码器604还可基于以下各项来从时间上预测较高分辨率空间层的空间预测误差:(i)空间预测函数值,以及(ii)来自对根据预定编码顺序选择的另一变形函数编码的空间预测误差,从而生成空间-时间预测误差。每个函数值可从至少以下各项中选择:(i)由基于点的变形确定的像素位置,以及(ii)由基于四边形的变形确定的四边形的顶点位置。在下文中结合图11来进一步描述空间预测和时间预测。
在一个实施例中,量化器810和熵编码器808分别对每个空间-时间预测误差向量的坐标进行量化和熵编码。对于某个量化步长Δ,量化器810可以根据以下式子来对每个坐标e进行量化:
如果e≥0,以及    (式10)
如果e<0    (式11)
熵编码器808可利用上下文自适应二元算术编码(CABAC)对经量化的坐标进行熵编码。逆量化器812可将量化的空间-时间预测误差重建为向量该向量可能由于量化误差而失真。向量可用于重建空间预测误差向量空间预测误差向量可被存储以用于接下来的帧的同一层l的时间预测。另外,空间预测误差向量可用于重建包括解码器侧网格顶点位置的向量这些顶点位置可被存储以用于同一帧的较高空间层的空间预测。
如上所述,在一个实施例中,变形编码器604按层次化帧编码顺序对逆变形的序列iw1,...,iwf编码。图9示出了根据本发明一个实施例的具有四个时间层的层次化帧编码顺序900。如图所示,逆变形的序列902被分割成第一逆变形904及其后跟随的多组逆变形。这多组逆变形包括第一组逆变形906和第二组逆变形908。每一组可包括2T-1个帧,其中T表示层次化帧编码顺序所支持的时间层的数据。如图所示,在每组逆变形内,相应的帧是按以下顺序被显示的:8,4,2,1,3,6,5,7。在一个实施例中,通过对于图像和变形使用相同的编码顺序,图像和变形都可以一起被逐帧地编码(和解码)。
如上所述,在一个实施例中,变形编码器604可以执行梅花式分解来利用逆变形的规律性。在一个实施例中,变形编码器604利用参数域D的层次化表示来得出D的分割。在一个实施例中,D的层次化表示是梅花式分辨率金字塔。梅花式分辨率金字塔可由具有以下属性的集合Sl来指定
D = : S 0 ⊃ . . . ⊃ S L - 1 . (式12)
图10示出了根据本发明一个实施例的梅花式分辨率金字塔的三个相继的分辨率1002、1004、1006。如图所示,分辨率1004是分辨率1002的子集。另外,分辨率1006是分辨率1004的子集。在一个实施例中,D的梅花式分辨率金字塔由下式定义
S l : = 1 - 1 1 1 l Z 2 ∩ D (式13)
其中表示所有2D点的集合,其中i和j是整数坐标。在一个实施例中,对于l=2,...,L,根据以下式子来得出分割:
D1:=SL-1以及             (式14)
Dl:=SL-l\SL-l+1          (式15)
如上所述,在一个实施例中,变形编码器604利用空间依赖关系来更高效地压缩逆变形。返回参考图8,向量包括顶点位置iwf[i,j]的坐标,其中(i,j)t∈Dl。利用解码后顶点位置iw’f[i,j](其中对于k<l,(i,j)t∈Dk)来预测每个顶点位置iwf[i,j](其中(i,j)t∈Dl)。在一个实施例中,变形编码器604利用空间上封闭的解码后顶点位置来执行空间预测。从而,变形编码器604可将预测的顶点位置存储在向量中,该向量具有与相同的维度。图11示出了根据本发明一个实施例,在编码期间对于每个帧迭代地应用的空间预测的两种类型1102,1106。空间预测的每种类型1102、1106可根据相应的预测模板1104、1108来执行。
如上所述,在一个实施例中,变形编码器604利用空间依赖关系来更高效地压缩逆变形。图9的层次化帧编码顺序包括解码后的帧(参考帧)。这些帧可用于时间预测。在一个实施例中,变形编码器604可基于所使用的参考帧的数目(分别可为0、1和2)来执行内编码帧(I帧)、预测帧(P帧)和双预测帧(B帧)预测。对于I帧预测,每个空间预测误差向量可利用零向量来预测,即因此,不执行时间预测。对于P帧预测,根据(式16),参考帧r的空间预测误差向量可用于预测。类似地,对于使用参考帧r1和r2的B帧预测,可根据下式来定义预测:
v ^ l f : = 1 2 ( v ′ l r 1 + v ′ l r 2 ) . (式17)
在一个实施例中,变形编码器604可以改为使用基于图像的方案(而不是以上所述的基于四边形网格的方案)来对变形编码。变形编码器604可以按x坐标和y坐标来分离2D位置wf[i,j]=(wf x[i,j],wf y[i,j])。变形编码器604随后可量化和存储各坐标在两个分离的灰度图像Df x[i,j],Df y[i,j]中,以用于作为视频来编码。
在一个实施例中,变形解码器606对变形编码器604编码的逆变形进行解码。图12示出了根据本发明一个实施例的变形解码器606的组件。如图所示,这些组件包括熵解码器1202、时间预测器806、空间预测器804、梅花式组成器1208和逆量化器812。熵解码器1202对来自图8的熵编码器808的输出进行解码。在一个实施例中,逆量化器812按层次化帧编码顺序对所有帧的所有经量化的空间-时间预测误差相继地解码。对于每个帧和每个空间层,逆量化器812计算空间-时间预测误差该空间-时间预测误差可被时间预测器806用于重建空间预测误差该空间预测误差随后可被空间预测器804用于重建空间层l的网格顶点位置在重建帧的空间层之后,重建所有网格顶点位置其中(i,j)∈D。在一个实施例中,梅花式组成器1208组合重建的网格顶点位置以产生逆变形
如上所述,在一个实施例中,预测模块610执行逆重定向以生成预测视频158。假定有两个图像序列分别具有参数域{1,...,N1}x{1,...,M1}和{1,...,N2}x{1,...,M2},分别具有不同的宽高比N1/M1和N2/M2。假定是用于预测源图像序列的重定向的图像序列。逆重定向利用和变形函数来预测在这里称为“前向映射”的预测的第一方案中,变形函数可具有重定向的图像序列的分辨率。在这里称为“后向映射”的预测的第二方案中,变形函数可具有源图像序列的分辨率。因为重定向的图像序列的分辨率低于源图像序列的,所以用前向映射来预测在一些情况下可能产生比后向映射更低的比特率开销。然而,用后向映射来预测在一些情况下可产生比后向映射更高的预测精确度。即,预测的后向映射和前向映射方案可代表提高预测精确度和减小变形编码的比特率成本之间的折衷。
在一个实施例中,预测模块610利用后向映射方案来执行逆重定向。预测模块610可以从相应的基于四边形的变形(例如具有1281x721的分辨率)得出基于点的变形(例如具有1280x720的分辨率)。基于点的变形描述了基于四边形的变形的像素位置而不是像素形状。基于点的变形可具有源图像序列的分辨率。预测模块610随后可计算重定向的图像序列中的相应像素位置(x,y)。计算出的位置(x,y)可能不一定在重定向的图像序列的像素栅格上。预测模块610随后可利用样条插值来计算预测值正如已知的,样条插值是数值分析领域中的一种形式的插值,其中插值子是特殊的一类分段多项式,被称为样条。样条是由多项式分段定义的特殊函数。
在一个实施例中,预测模块610利用前向映射方案来执行逆重定向。预测模块610可通过利用广义重心坐标得出变形函数的连续参数化来从给定的变形计算逆变形iwf。预测模块610随后可根据逆变形iwf改变的每个像素的形状,以产生具有源图像序列的宽高比的连续图像。预测模块610随后可利用具有源图像序列的分辨率的狄拉克梳状函数对该连续图像采样。预测模块610还可对经采样的图像执行低通滤波以减轻经采样的图像中的混叠伪影。
如上所述,使用前向映射方案的逆重定向利用和iwf来预测另外,iwf[i,j]∈[0,N1]x[0,M1]从离散参数域映射,其中i∈{0,...,N2}并且j∈{0,...,M2}。注意,像素位置(i,j)被指派给逆变形函数iwf[.,.]的离散参数域中的具有顶点位置(i,j),(i-1,j),(i,j-1),(i-1,j-1)的四边形。
为了方便,在以下定义中,从记号I1,I2和w中省略帧索引f。
YUV图像:
I [ n , m ] = Y [ n , m ] U [ n , m ] V [ n , m ] ∈ { 0 , . . . , 255 } 3 (式18)
示性函数,箱式滤波器::
1 n , m ( x , y ) : = 1 n - 1 &le; x < n and m - 1 &le; y 0 otherwise (式19)
连续图像:
I ( x , y ) = &Sigma; n = 1 N &Sigma; m = 1 M I [ n , m ] 1 n , m ( x , y ) = Y ( x , y ) U ( x , y ) V ( x , y ) (式20)
sin c ( x ) : = 1 x = 0 sin &pi;x &pi;x otherwise (式21)
根据这些定义,连续图像I2(x,y)是通过利用箱式滤波器折叠图像I2[n,m]来获得的。预测的连续图像通过下式来获得:
其中(x1,y1)=w(x2,y2).            (式22)
此预测方案对应于利用变形函数w的四边形的形状所指定的连续移变示性函数(continuous shift variant indicator function)来折叠重定向图像I2(x,y)。
在一个实施例中,对于i∈{1,...,N1}并且j∈{1,...,M1},离散的预测图像可通过利用狄拉克梳状函数对采样来获得,即,
I ^ 1 [ i , j ] : = I ^ 1 ( i - 0.5 , j - 0.5 ) (式23)
然而,由于利用示性函数进行的移变折叠,预测的连续图像在图像域中可能具有不连续(在四边形边界处的不连续)。这可能在离散的预测图像中产生混叠伪影。
在一个实施例中,虽然预测的连续图像不是频带受限的(采样定理得不到满足),但是通过利用较高采样频率对预测的连续图像采样然后进行适当的低通滤波和下采样,可以减轻由采样引起的混叠伪影。对于i∈{1,...,2kN1}并且j∈{1,...,2kM1},通过使用2k次较高采样频率而得到的图像由下式定义:
I ^ 1 , k [ i , j ] : = I ^ 1 ( i 2 k - 2 - k - 1 , j 2 k - 2 - k - 1 ) (式24)
在利用适当的2D低通滤波器g[.,.],根据下式进行滤波和下采样之后,可以得出具有减轻的混叠伪影的图像I[i,j]的预测。
I ^ 1 [ i , j ] : = I ^ 1 . k * g [ 2 k i , 2 k j ] (式25)
已证明k=1双采样频率在一些情况下对于在滤波后增强预测质量是有用的。
在一个实施例中,特定的截止频率可用于低通滤波。假定预测是利用均一变形函数亦即由相同形状的四边形定义的变形函数来执行的。这产生了预测的连续图像
I ^ 1 ( x , y ) = I 2 ( s x x , s y y ) (式26)
其中并且因此,预测的图像是通过图像I2(.,.)的线性伸展来获得的。从而,亮度通道Y1的相应傅立叶谱是通过按因子对Y2的傅立叶谱进行线性压缩来获得的。因此,预测的数字图像的傅立叶级数的最高频率在水平和垂直方向上分别低于或等于±sxπ和±syπ。假定均一变形函数足够近似实际变形函数,则等于±sxπ和±syπ的截止频率可用于执行低通滤波。
在一个实施例中,可利用Lanczos滤波器对预测的连续图像进行水平和垂直滤波。连续的1DLanczos可根据下式来定义并且表示具有截止频率±π的sinc滤波器的有限冲击响应(FIR)滤波器近似:
l ( x ) : = sin c ( x ) &CenterDot; sin c ( x a ) - a < x < a 0 otherwise (式27)
对于截止频率±sπ,相应的离散Lanczos可根据下式来定义:
ls[n]:=s·l(sn)                    (式28)
另外,可应用a=4。注意ls[n]具有之间的支持。
在一个实施例中,可通过对于水平和垂直方向,利用具有适当截止频率的箱式函数乘以图像的傅立叶谱,来对预测的连续图像进行滤波。这对应于利用混叠的离散1D sinc函数在原始域中在图像的宽度和高度上折叠图像。因为滤波器(分别)跨越图像的宽度和高度,所以在傅立叶域中可以更高效地执行滤波。
图13是示出根据本发明一个实施例的用于执行可缩放视频编码的方法1300的流程图。如图所示,方法1300开始于步骤1310,其中视频编码器150接收第一格式的视频数据。第一格式的视频数据对应于图1的重定向的视频154。在一个实施例中,第一格式的视频数据可以是从第二格式的视频数据重定向来的。第二格式的视频数据对应于图1的源视频152。在步骤1320,视频编码器150利用非线性变形函数对第一格式的视频数据进行重缩放以生成第二格式的预测视频数据。第二格式的预测视频数据对应于图1的预测视频158。在下文中结合图14进一步描述步骤1320。在b步骤1330,视频编码器150计算第二格式的预测视频数据与第二格式的视频数据之间的差异160。在步骤1340,视频编码器150对第一格式的视频数据、非线性变形函数和计算出的差异编码以生成可缩放比特流。在步骤1340之后,方法1300终止。
图14是示出根据本发明一个实施例的用于预测第二格式的视频数据的方法1400的流程图。方法1400对应于图13的步骤1320。如图所示,方法1400开始于步骤1410,其中视频编码器150进入循环,以处理第一格式的视频数据的每个帧。在步骤1420,视频编码器150利用各个帧的非线性变形函数执行基于四边形的插值以产生预测的连续图像。例如,视频编码器150可以利用由非线性变形函数的四边形的形状指定的连续移变示性函数来折叠帧。另外,各个帧的非线性变形函数可以是基于用于从第二格式的视频数据重定向第一格式的视频数据的相应非线性变形函数计算出的逆变形函数。在步骤1430,视频编码器150执行狄拉克采样以产生离散的预测图像。例如,视频编码器150可以利用狄拉克梳状函数来对预测的连续图像采样。在步骤1440,视频编码器150从离散的预测图像中去除混叠伪影以产生第二格式的预测视频数据的帧。在步骤1450,视频编码器150判定是否还剩有更多的(第一格式的视频数据的)帧要重缩放。如果有,则方法1400返回到步骤1420以处理第一格式的视频数据的下一帧。否则,方法1400终止。
图15是示出根据本发明一个实施例的用于从图1的可缩放比特流162选择性地解码出具有不同格式的视频数据的方法1500的流程图。如图所示,方法1500开始于步骤1510,其中视频解码器164接收可缩放比特流。如果想要第一格式(步骤1520),则视频解码器164从可缩放比特流解码出第一格式的视频数据(步骤1525)。例如,视频解码器162可以对可缩放比特流的基本层解码。如果想要第二格式(步骤1530),则视频解码器162从可缩放比特流解码出第二格式的视频数据(步骤1535)。例如,视频解码器164从比特流解码出基本层、变形函数156和图像差异160。视频解码器164从解码的基本层、变形函数156和图像差异160生成第二格式的视频数据。在步骤1535之后,方法1500终止。
有利地,本发明的实施例提供了用于支持目标平台之间的非线性变形的可缩放视频编码的技术。本发明的一个实施例生成可被传送并选择性地解码来产生用于多个预定目标平台之一的输出视频的可缩放比特流。因此,适合于多个目标平台的视频内容可被更高效地存储和传送。另外,支持目标平台之间的非线性(而不是线性)变形可以产生更好地适合于给定的目标平台的输出视频。
以上已经参考特定实施例描述了本发明并且记载了具体细节以帮助更透彻地理解本发明。然而,本领域的技术人员将会理解,在不脱离本发明的更宽精神和范围的情况下可对其进行各种修改和变化。因此,以上描述和附图应当被认为是例示性的而不是限制性的。

Claims (13)

1.一种计算机实现的用于对图像进行编码的方法,包括以下步骤:
接收具有目标图像格式的重定向图像序列,其中所述重定向图像序列是从具有源图像格式的源图像序列重定向而来的,所述源图像格式和所述目标图像格式具有不同的宽高比;
确定至少一个非线性函数,该非线性函数配置来从具有目标图像格式的所述重定向图像序列生成具有源图像格式的预测图像序列;
利用一个或多个计算机处理器的操作来确定具有源图像格式的所述源图像序列和具有源图像格式的所述预测图像序列之间的差异;以及
通过对至少三个成分进行编码来生成单个比特流,所述至少三个成分包括:
(i)第一成分,包括所接收到的具有目标图像格式的所述重定向图像序列;
(ii)第二成分,包括所述至少一个非线性函数;以及
(iii)第三成分,包括所确定的差异;
其中所述单个比特流能够根据所述第一成分被解码以生成目标图像格式的图像序列,所述单个比特流还能够根据所述三个成分被解码以生成源图像格式的图像序列。
2.如权利要求1所述的计算机实现的方法,其中所述源图像格式具有源图像分辨率,所述源图像分辨率大于所述目标图像格式的目标图像分辨率,其中所述至少一个非线性函数被配置为从包括目标图像分辨率的低分辨率映射到包括源图像分辨率的高分辨率,其中所述至少一个非线性函数包括至少一个基于四边形的变形,其中每个基于四边形的变形指定在映射到所述预测图像序列中所述重定向图像序列的像素形状如何被改变,并且其中所述预测图像序列是由应用生成的,其中所述应用被配置为在第一情形下通过下述操作经由后向映射生成所述预测图像序列:
从所述至少一个基于四边形的变形导出至少一个基于点的变形,其中每个基于点的变形指定所述预测图像序列的目标像素位置;
基于所指定的所述预测图像序列的目标像素位置确定所述重定向图像序列的源像素位置;以及
基于(i)所述重定向图像序列和(ii)所确定的所述重定向图像序列的源像素位置,利用样条插值来确定所述预测图像序列的像素值。
3.如权利要求2所述的计算机实现的方法,其中所述至少一个非线性函数包括至少一个逆变形,其中每个逆变形包括针对所述重定向图像序列中的每个像素指定所述预测图像序列中的一个四边形的基于四边形的变形,其中所述至少一个逆变形是通过利用广义重心坐标对用于从所述源图像序列重定向所述重定向图像序列的至少一个非线性变形函数进行连续参数化而导出的,其中所述应用还被配置为在第二情形下通过下述操作经由前向映射生成所述预测图像序列:
基于所述至少一个逆变形改变所述重定向图像序列的像素形状来生成连续图像的序列;
对所述连续图像的序列进行采样来生成采样图像的序列;以及
对所述采样图像的序列执行低通滤波来生成所述预测图像序列。
4.如权利要求3所述的计算机实现的方法,其中所述应用还被配置为在第三情形下通过下述操作对所述至少一个非线性函数进行编码:
对(i)包括所述至少一个非线性函数的量化x坐标的第一图像(ii)包括所述至少一个非线性函数的量化y坐标的第二图像进行编码;
其中所述应用还被配置为在第四情形下通过基于梅花式分辨率金字塔对所述至少一个非线性函数的参数域进行分解来生成多个空间层来对所述至少一个非线性函数进行编码,每个空间层包括所述至少一个非线性函数的所述参数域和相应图像域的一个子集,其中所述多个空间层包括较低分辨率的空间层和较高分辨率的空间层,其中所述较高分辨率空间层被基于所述较低分辨率空间层预测编码。
5.如权利要求4所述的计算机实现的方法,其中预测编码所述较高分辨率空间层包括:
通过确定来自较低分辨率空间层的相邻函数值的重心来从空间上预测较高分辨率空间层的函数值;
基于以下各项来从时间上预测较高分辨率空间层的空间预测误差:(i)空间预测函数值,以及(ii)来自对所述至少一个非线性函数的另一非线性函数编码的空间预测误差,其中根据预定编码顺序选择所述另一非线性函数,从而生成空间-时间预测误差;
对所述空间-时间预测误差进行量化;以及
对经量化的空间-时间预测误差进行熵编码。
6.一种用于对图像进行编码的系统,包括:
接收装置,用于接收具有目标图像格式的重定向图像序列,其中所述重定向图像序列是从具有源图像格式的源图像序列重定向而来的,所述源图像格式和所述目标图像格式具有不同的宽高比;
第一确定装置,用于确定至少一个非线性函数,该非线性函数配置来从具有目标图像格式的所述重定向图像序列生成具有源图像格式的预测图像序列;
第二确定装置,用于确定具有源图像格式的所述源图像序列和具有源图像格式的所述预测图像序列之间的差异;以及
生成装置,用于通过对至少三个成分进行编码来生成单个比特流,所述至少三个成分包括:
(i)第一成分,包括所接收到的具有目标图像格式的所述重定向图像序列;
(ii)第二成分,包括所述至少一个非线性函数;以及
(iii)第三成分,包括所确定的差异;
其中所述单个比特流能够根据所述第一成分被解码以生成目标图像格式的图像序列,所述单个比特流还能够根据所述三个成分被解码以生成源图像格式的图像序列。
7.如权利要求6所述的系统,其中所述源图像格式具有源图像分辨率,所述源图像分辨率大于所述目标图像格式的目标图像分辨率,其中所述至少一个非线性函数被配置为从包括目标图像分辨率的低分辨率映射到包括源图像分辨率的高分辨率,其中所述至少一个非线性函数包括至少一个基于四边形的变形,其中每个基于四边形的变形指定在映射到所述预测图像序列中所述重定向图像序列的像素形状如何被改变,并且其中所述预 测图像序列是由应用生成的,其中所述应用被配置为在第一情形下通过下述装置经由后向映射生成所述预测图像序列:
导出装置,用于从所述至少一个基于四边形的变形导出至少一个基于点的变形,其中每个基于点的变形指定所述预测图像序列的目标像素位置;
第三确定装置,用于基于所指定的所述预测图像序列的目标像素位置确定所述重定向图像序列的源像素位置;以及
第四确定装置,用于基于(i)所述重定向图像序列和(ii)所确定的所述重定向图像序列的源像素位置,利用样条插值来确定所述预测图像序列的像素值。
8.如权利要求7所述的系统,其中所述至少一个非线性函数包括至少一个逆变形,其中每个逆变形包括针对所述重定向图像序列中的每个像素指定所述预测图像序列中的一个四边形的基于四边形的变形,其中所述至少一个逆变形是通过利用广义重心坐标对用于从所述源图像序列重定向所述重定向图像序列的至少一个非线性变形函数进行连续参数化而导出的,其中所述应用还被配置为在第二情形下通过下述装置经由前向映射生成所述预测图像序列:
改变形状装置,用于基于所述至少一个逆变形改变所述重定向图像序列的像素形状来生成连续图像的序列;
采样装置,用于对所述连续图像的序列进行采样来生成采样图像的序列;以及
执行装置,用于对所述采样图像的序列执行低通滤波来生成所述预测图像序列。
9.一种计算机实现的方法,包括以下步骤:
接收单个比特流,该单个比特流包括至少三个成分,所述至少三个成分包括:
(i)第一成分,包括经编码的具有目标图像格式的重定向图像序列,
(ii)第二成分,包括至少一个经编码的非线性函数,用来从所述重定向图像序列预测具有源图像格式的源图像序列,从而生成具有源图像格式的预测图像序列,所述源图像格式和所述目标图像格式具有不同的宽高 比,
(iii)第三成分,包括经编码的所述源图像序列和所述预测图像序列之间的差异;
其中所述单个比特流能够根据所述第一成分被解码以生成目标图像格式的图像序列,所述单个比特流还能够根据所述三个成分被解码以生成源图像格式的图像序列;以及
利用一个或多个计算机处理器的操作对所述单个比特流进行解码来生成目标图像格式和源图像格式之一的图像序列。
10.一种计算机实现的方法,包括以下步骤:
接收对单个比特流的请求;以及
响应于所述请求并且通过一个或多个计算机处理器的操作发送所述单个比特流,其中所述单个比特流包括至少三个成分,所述至少三个成分包括:
(i)第一成分,包括经编码的具有目标图像格式的重定向图像序列,
(ii)第二成分,包括至少一个经编码的非线性函数,用来从所述重定向图像序列预测具有源图像格式的源图像序列,从而生成具有源图像格式的预测图像序列,所述源图像格式和所述目标图像格式具有不同的宽高比,
(iii)第三成分,包括经编码的所述源图像序列和所述预测图像序列之间的差异;以及
其中所述单个比特流能够根据所述第一成分被解码以生成目标图像格式的图像序列,所述单个比特流还能够根据所述三个成分被解码以生成源图像格式的图像序列。
11.一种计算机实现的方法,包括以下步骤:
利用一个或多个计算机处理器的操作通过对至少三个成分进行编码来生成单个比特流,所述至少三个成分包括:
(i)第一成分,包括具有目标图像格式的重定向图像序列,
(ii)第二成分,包括至少一个非线性函数,用来从所述重定向图像序列预测具有源图像格式的源图像序列,从而生成具有源图像格式的预测图像序列,所述源图像格式和所述目标图像格式具有不同的宽高比,以及
(iii)第三成分,包括所述源图像序列和所述预测图像序列之间的差异;
其中所述单个比特流能够根据所述第一成分被解码以生成目标图像格式的图像序列,所述单个比特流还能够根据所述三个成分被解码以生成源图像格式的图像序列。
12.一种计算机实现的方法,包括以下步骤:
接收具有目标图像格式的重定向图像序列,其中所述重定向图像序列是从具有源图像格式的源图像序列重定向而来的,所述源图像格式和所述目标图像格式具有不同的宽高比;以及
通过一个或多个计算机处理器的操作并且利用至少一个非线性函数,从具有目标图像格式的所述重定向图像序列生成具有源图像格式的预测图像序列;
其中,能够对至少三个成分进行编码来生成单个比特流,所述至少三个成分包括:
(i)第一成分,包括所接收到的具有目标图像格式的所述重定向图像序列;
(ii)第二成分,包括所述至少一个非线性函数;以及
(iii)第三成分,包括所确定的差异;
其中所述单个比特流能够根据所述第一成分被解码以生成目标图像格式的图像序列,所述单个比特流还能够根据所述三个成分被解码以生成源图像格式的图像序列。
13.一种计算机实现的方法,包括以下步骤:
提供至少一个非线性函数,该非线性函数配置来从具有目标图像格式的重定向图像序列生成具有源图像格式的预测图像序列,其中所述重定向图像序列是从具有源图像格式的源图像序列重定向而来的,所述源图像格式和所述目标图像格式具有不同的宽高比;以及
利用一个或多个计算机处理器的操作来对所述至少一个非线性函数进行编码;
其中,能够对至少三个成分进行编码来生成单个比特流,所述至少三个成分包括:
(i)第一成分,包括所接收到的具有目标图像格式的所述重定向图像序列;
(ii)第二成分,包括所述至少一个非线性函数;以及
(iii)第三成分,包括所确定的差异;
其中所述单个比特流能够根据所述第一成分被解码以生成目标图像格式的图像序列,所述单个比特流还能够根据所述三个成分被解码以生成源图像格式的图像序列。
CN201110038344.8A 2010-02-08 2011-02-09 内容自适应和艺术可引导可缩放视频编码 Active CN102497545B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US12/702,195 2010-02-08
US12/702,195 US8514932B2 (en) 2010-02-08 2010-02-08 Content adaptive and art directable scalable video coding

Publications (2)

Publication Number Publication Date
CN102497545A CN102497545A (zh) 2012-06-13
CN102497545B true CN102497545B (zh) 2015-05-20

Family

ID=43920120

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201110038344.8A Active CN102497545B (zh) 2010-02-08 2011-02-09 内容自适应和艺术可引导可缩放视频编码

Country Status (5)

Country Link
US (1) US8514932B2 (zh)
EP (2) EP3373584B1 (zh)
CN (1) CN102497545B (zh)
HK (1) HK1172173A1 (zh)
NZ (1) NZ590990A (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013036972A1 (en) * 2011-09-09 2013-03-14 Panamorph, Inc. Image processing system and method
WO2013109126A1 (ko) * 2012-01-20 2013-07-25 한국전자통신연구원 비디오 정보 전송 방법, 비디오 복호화 방법, 비디오 부호화기 및 비디오 복호화기
US9202258B2 (en) * 2012-06-20 2015-12-01 Disney Enterprises, Inc. Video retargeting using content-dependent scaling vectors
US11087644B2 (en) 2015-08-19 2021-08-10 E Ink Corporation Displays intended for use in architectural applications
PL3465628T3 (pl) * 2016-05-24 2020-12-14 E Ink Corporation Sposób renderowania barwnych obrazów
US10726872B1 (en) 2017-08-30 2020-07-28 Snap Inc. Advanced video editing techniques using sampling patterns
US11297203B2 (en) 2018-05-09 2022-04-05 Panamorph, Inc. Image processing system and method

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6437795B1 (en) * 1999-07-21 2002-08-20 Sun Microsystems, Inc. Method and apparatus for clipping a function
DE60222894D1 (de) * 2001-06-12 2007-11-22 Silicon Optix Inc Verfahen und vorrichtung zur verarbeitung einer nichtlinearen zweidimensionalen räumlichen transformation
JP4321484B2 (ja) * 2005-04-12 2009-08-26 日本ビクター株式会社 空間スケーラブル符号化方法、空間スケーラブル符号化装置、空間スケーラブル符号化プログラム、空間スケーラブル復号化方法、空間スケーラブル復号化装置及び空間スケーラブル復号化プログラム
US7574069B2 (en) * 2005-08-01 2009-08-11 Mitsubishi Electric Research Laboratories, Inc. Retargeting images for small displays
US8400472B2 (en) * 2009-02-25 2013-03-19 Technion Research & Development Foundation Limited Method and system of geometric deformation

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
A System for Retargeting of Streaming Video;Philipp Krahenbuhl et al.;《ACM Transactions on Graphics》;20091130;第28卷(第5期);第1-2页 *
Extended spatial scalability with a partial geometric transform;Satoru SAKAZUME et al.;《Joint Video Team (JVT) of ISO/IEC MPEG & ITU-T VCEG》;20050422;第1-17页 *
MOTION-COMPENSATED 3-D SUBBAND CODING WITH MULTIRESOLUTION REPRIBENTATION OF MOTION PARAMETERS;Jens-Rainer Ohm;《IEEE》;19941231;250-253页 *

Also Published As

Publication number Publication date
US20110194024A1 (en) 2011-08-11
EP2355515A3 (en) 2012-10-17
NZ590990A (en) 2012-03-30
HK1172173A1 (zh) 2013-04-12
EP3373584A1 (en) 2018-09-12
EP2355515A2 (en) 2011-08-10
EP3373584B1 (en) 2019-08-28
CN102497545A (zh) 2012-06-13
US8514932B2 (en) 2013-08-20
EP2355515B1 (en) 2018-06-20

Similar Documents

Publication Publication Date Title
EP4006839A1 (en) Device for transmitting point cloud data, method for transmitting point cloud data, device for receiving point cloud data, and method for receiving point cloud data
CN102497545B (zh) 内容自适应和艺术可引导可缩放视频编码
KR102609776B1 (ko) 포인트 클라우드 데이터 처리 방법 및 장치
KR102634079B1 (ko) 포인트 클라우드 데이터 처리 장치 및 방법
US11979607B2 (en) Apparatus and method for processing point cloud data
US12010341B2 (en) Device and method for processing point cloud data
US20220321912A1 (en) Point cloud data transmission device, point cloud data transmission method, point cloud data reception device, and point cloud data reception method
CN115486068A (zh) 用于视频编码中基于深度神经网络的帧间预测的方法和设备
JP7486883B2 (ja) Haarベースの点群符号化のための方法および装置
US20220337872A1 (en) Point cloud data transmission device, point cloud data transmission method, point cloud data reception device, and point cloud data reception method
CN113170154B (zh) 采用退火迭代几何平滑的点云编解码方法、装置和介质
EP4111419A1 (en) Super-resolution of block-compressed texture for texture mapping applications
JP2023552114A (ja) メッシュ展開のための方法、装置及びプログラム
CN113115019B (zh) 视频编解码方法、装置、计算机设备及存储介质
CN114897681A (zh) 基于实时虚拟视角插值的多用户自由视角视频方法及系统
JP5522736B2 (ja) 画像超解像装置およびそのプログラム
CN104350748A (zh) 使用低分辨率深度图的视图合成
US20240029312A1 (en) Point cloud data transmission method, point cloud data transmission device, point cloud data reception method, and point cloud data reception device
US20230412837A1 (en) Point cloud data transmission method, point cloud data transmission device, point cloud data reception method, and point cloud data reception device
JP7504298B2 (ja) 3次元(3d)メッシュのuv座標を処理するための方法、装置及びコンピュータプログラム
US11138694B2 (en) Method and apparatus for geometric smoothing
US20240020885A1 (en) Point cloud data transmission method, point cloud data transmission device, point cloud data reception method, and point cloud data reception device
EP4358519A1 (en) Point cloud data transmission device and method, and point cloud data reception device and method
CN118176719A (zh) 动态网格顶点位移编码

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 1172173

Country of ref document: HK

C14 Grant of patent or utility model
GR01 Patent grant
REG Reference to a national code

Ref country code: HK

Ref legal event code: GR

Ref document number: 1172173

Country of ref document: HK