CN105580373B - 用于视频编码和解码的装置和方法 - Google Patents

用于视频编码和解码的装置和方法 Download PDF

Info

Publication number
CN105580373B
CN105580373B CN201480052088.XA CN201480052088A CN105580373B CN 105580373 B CN105580373 B CN 105580373B CN 201480052088 A CN201480052088 A CN 201480052088A CN 105580373 B CN105580373 B CN 105580373B
Authority
CN
China
Prior art keywords
picture
prediction
coding
decoding
sampling
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201480052088.XA
Other languages
English (en)
Other versions
CN105580373A (zh
Inventor
J·莱内马
K·乌尔
M·汉努卡塞拉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nokia Technologies Oy
Original Assignee
Nokia Technologies Oy
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nokia Technologies Oy filed Critical Nokia Technologies Oy
Publication of CN105580373A publication Critical patent/CN105580373A/zh
Application granted granted Critical
Publication of CN105580373B publication Critical patent/CN105580373B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
    • H04N19/51Motion estimation or motion compensation
    • H04N19/55Motion estimation with spatial constraints, e.g. at image or region borders
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/44Decoders specially adapted therefor, e.g. video decoders which are asymmetric with respect to the encoder
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/103Selection of coding mode or of prediction mode
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/103Selection of coding mode or of prediction mode
    • H04N19/107Selection of coding mode or of prediction mode between spatial and temporal predictive coding, e.g. picture refresh
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/167Position within a video image, e.g. region of interest [ROI]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/70Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by syntax aspects related to video coding, e.g. related to compression standards
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/90Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using coding techniques not provided for in groups H04N19/10-H04N19/85, e.g. fractals
    • H04N19/91Entropy coding, e.g. variable length coding [VLC] or arithmetic coding

Abstract

一种用于从比特流解码编码的视频表示的方法,该方法包括:解码标识符,该标识符指示所述比特流的范围内所有采样已经使用预测限制被编码;确定所述范围覆盖了图片内的感兴趣区域;在解析模式中解码在解码顺序中在所述感兴趣区域前面的至少第一编码单元,由此属于所述至少第一编码单元的语义元素被解析,但是所述语义元素的采样重构过程被省略;以及解码属于所述感兴趣区域的至少第二编码单元,由此属于所述至少第二编码单元的语义元素被解析且针对该语义元素执行采样重构过程。

Description

用于视频编码和解码的装置和方法
技术领域
本发明涉及用于视频编码和解码的装置、方法和计算机程序。
背景技术
一些视频用例可以需要提取一部分高分辨率视频。这些用例包括例如缩放到视频中的某区域,跟随视频中的某些对象或分析视频序列中有限区域中的内容。这些用例的最直接实施可以涉及解码完整图片和对这些图片执行期望的操作。这种方式产生对计算操作的高需求,增加功率消耗并放慢处理。
H.265/HEVC中的瓦片(tile)和H.265/HEVC和H.264/AVC标准中的切片(slice)允许视频编码器产生能够彼此独立被解码的预定义图片区域。解码器然后可以选择其需要解码的瓦片或切片以得到感兴趣的采样值。这种方式的缺点是编码器需要以死板的瓦片或切片的格子划分图片。单个瓦片或切片的区域越小,能够独立解码的特定像素区域越多,但是同时编码效率严重降低,因为编码器不能使用来自其他切片或瓦片的信息来预测当前切片或瓦片中的信息。另一个缺点是解码器需要典型地解码实际感兴趣区域以外的明显量的像素,因为其需要解码与该感兴趣区域相交的所有切片和瓦片。
发明内容
鉴于这些考虑提出本发明以在视频帧内解码感兴趣区域而不需要全部解码所述区域外的不必要的数据,之后介绍了用于在视频帧内执行对该区域的随机接入的改进方法。
根据第一实施方式的方法包括用于解码来自比特流的已编码视频表示的方法,该方法包括
解码标识符,该标识符指示在比特流范围内的所有采样已经用预测限制被编码;
确定图片内包含感兴趣区域的范围;
在解析模式中解码在解码顺序中在所述感兴趣区域之前的至少第一编码单元,由此属于所述至少第一编码单元的语义元素被解析,但是所述语义严肃的采样重构过程被省略;以及
解码属于所述感兴趣区域的至少第二编码单元,由此属于所述至少第二编码单元的语义元素被解析且采样重构过程被执行到所述语义元素。
根据一个实施方式,所述预测限制包括以下一者或多者:
-没有内编码用于采样;
-没有内预测用于采样;
-没有图片中采样预测用于采样;
-没有跨采样的基础单元的边界的内预测被使用;
-没有跨采样的基础单元的边界的图片中采样预测被使用;
-仅图片间的预测用于采样。
根据一个实施方式,该方法还包括推断或解码所述范围为以下一者或多者:
-比特流;
-比特流的间预测图片;
-比特流内的至少一个缩放性层;
-图片;
-感兴趣区域。
根据一个实施方式,该方法还包括选择仅被解析的第一编码单元,以及省略解析和解码解码顺序中第一编码单元之前的编码单元。
根据一个实施方式,该方法还包括基于在编码编码单元中使用了切片、瓦片和/或波前(wavefront)选择要在解析模式中被解码的第一编码单元。
根据一个实施方式,当没有使用瓦片或波前时,要在解析模式中被解码的第一编码单元被选择为在解码顺序中是在在全解码模式中被解码的区域的左上编码单元的前一个的切片的第一编码单元,其中编码单元被解析并经过采样重构过程。
根据一个实施方式,当波前被使用时,要在解析模式中被解码的第一编码单元被选择为包含要在全解码模式中被解码的区域的左上编码单元的 CTU行的第一编码单元。
根据一个实施方式,当瓦片被使用时,要在解析模式中被解码的第一编码单元被选择为在解码顺序中是在在全解码模式中被解码的区域的左上编码单元的前一个的瓦片的第一编码单元。
根据一个实施方式,该方法还包括从在比特流中或沿比特流指示的进入点定位CTU行或瓦片的被编码数据的起始。
根据一个实施方式,该方法还包括基于在编码和编代码单元中使用的是切片、瓦片和/或波前来选择省略解析和解码的编码单元。
根据一个实施方式中,当没有使用瓦片或波前且切片不是均匀部分地在要在全解码模式中被解码的区域内时,可以省略切片的解析和解码。
根据一个实施方式,当使用了波前且CTU行不是均匀部分地在要在全解码模式中被解码的区域内时,可以省略CTU行的解析和解码。
根据一个实施方式,当使用了瓦片且瓦片不是均匀部分地在要在全解码模式中被解码的区域中时,可以省略瓦片的解析和解码。
根据一个实施方式,该方法还包括如果期望全解码图片,则针对完整图片在全解码模式中执行。
根据一个实施方式,所述标识符应用的感兴趣区域是帧封装视频中的完整视频帧、切片、瓦片、连续图片的一者或以其他方式指示的区域。
根据一个实施方式,标识符指示针对感兴趣区域禁用环路滤波过程。
根据一个实施方式,全解码模式涉及与标准兼容解码不同的当仅区域被解码时的修改的解码过程。
根据一个实施方式,该方法还包括针对被编码图片的至少一个点或编码树单元或编码单元生成熵解码进入点(EDEP)数据。
根据一个实施方式,该方法还包括与CTU行或瓦片的进入点相似地解码和使用EDEP数据以选择要在解析模式中被解码的第一编码单元。
根据第二实施方式的装置,包括:
被配置用于解码包括已编码视频表示的比特流的视频解码器,该视频解码器被配置用于
解码标识符,该标识符指示比特流范围内的所有采样已经使用预测限制被编码;
确定该范围包含图片内的感兴趣区域;
在解析模式中解码在解码顺序中在所述感兴趣区域之前的第一编码单元,由此属于所述至少一个编码单元的语义元素被解析,但是所述语义元素的采样重构过程被省略;以及
解码属于所述感兴趣区域的至少第二编码单元由此属于所述至少第二编码单元的语义元素被解析且对所述语义元素执行采样重构过程。
根据第三实施方式提供了计算机可读存储介质,存储有供装置使用的代码,该代码当被处理器执行时使得装置执行:
解码标识符,该标识符指示比特流范围内的所有采样已经使用预测限制被编码;
确定该范围包含图片内的感兴趣区域;
在解析模式中解码在解码顺序中在所述感兴趣区域之前的第一编码单元,由此属于所述至少一个编码单元的语义元素被解析,但是所述语义元素的采样重构过程被省略;以及
解码属于所述感兴趣区域的至少第二编码单元由此属于所述至少第二编码单元的语义元素被解析且对所述语义元素执行采样重构过程。
根据第四实施方式提供了至少一个处理器和至少一个存储器,所述至少一个存储器存储有代码,该代码当被所述至少一个处理器执行时使得装置执行:
解码标识符,该标识符指示比特流范围内的所有采样已经使用预测限制被编码;
确定该范围包含图片内的感兴趣区域;
在解析模式中解码在解码顺序中在所述感兴趣区域之前的第一编码单元,由此属于所述至少一个编码单元的语义元素被解析,但是所述语义元素的采样重构过程被省略;以及
解码属于所述感兴趣区域的至少第二编码单元由此属于所述至少第二编码单元的语义元素被解析且对所述语义元素执行采样重构过程。
根据第五实施方式的方法包括用于编码视频表示的方法,该方法包括:
编码第一图片;
使用来自第一图片的预测限制编码第二图片内的至少一个区域;以及
生成与第二已编码图片相关联的标识符,指示所述预测限制已经用于至少所述第二图片内的所述区域的采样。
根据一个实施方式,所述预测限制包括以下一者或多者:
-没有内编码用于采样;
-没有内预测用于采样;
-没有图片中采样预测用于采样;
-没有跨采样的基础单元的边界的内预测被使用;
-没有跨采样的基础单元的边界的图片中采样预测被使用;
-仅图片间的预测用于采样。
根据一个实施方式,编码器可以将标识符包含到例如以下一者或多者且解码器可以从以下一者或多者解码该标识符:
-补充增强信息(SEI)消息
-序列参数集(SPS)
-图片参数集(PPS)
-视频可用性信息(VUI)
-容器文件格式结构。
根据一个实施方式,该方法还包括针对已编码图片的至少一个点或编码树单元或编码单元生成熵解码进入点(EDEP)数据。
根据第六实施方式的装置包括:
视频编码器,被配置用于编码视频表示,其中所述视频编码器还被配置用于
编码第一图片;
使用来自第一图片的仅间编码来编码第二图片内的至少一区域;以及
生成与第二已编码图片相关联的标识符,其指示仅间预测已经用于第二图片内的至少所述区域。
根据第七实施方式提供了计算机可读存储介质,存储有供装置使用的代码,该代码当被处理器执行时使得装置执行:
编码第一图片;
使用来自第一图片的预测限制编码第二图片内的至少一区域;以及
生成与第二已编码图片相关联的标识符,其指示所述预测限制已经用于至少所述第二图片内的所述区域的采样。
根据第八实施方式提供了至少一个处理器和至少一个存储器,所述至少一个存储器存储有代码,该代码当被所述至少一个处理器执行时使得装置执行:
编码第一图片;
使用来自第一图片的预测限制编码第二图片内的至少一区域;以及
生成与第二已编码图片相关联的标识符,其指示所述预测限制已经用于至少所述第二图片内的所述区域的采样。
根据第九实施方式提供了一种被配置用于解码已编码视频表示的视频解码器,该视频解码器被配置用于:
解码标识符,该标识符指示比特流范围内的所有采样已经使用预测限制被编码;
确定该范围包含图片内的感兴趣区域;
在解析模式中解码在解码顺序中在所述感兴趣区域之前的第一编码单元,由此属于所述至少一个编码单元的语义元素被解析,但是所述语义元素的采样重构过程被省略;以及
解码属于所述感兴趣区域的至少第二编码单元由此属于所述至少第二编码单元的语义元素被解析且对所述语义元素执行采样重构过程。
根据第十实施方式提供了被配置用于编码视频表示的视频编码器,其中所述视频编码器还被配置用于:
编码第一图片;
使用来自第一图片的预测限制编码第二图片内的至少一区域;以及
生成与第二已编码图片相关联的标识符,其指示所述预测限制已经用于至少第二图片内的所述区域的采样。
附图说明
为了更好理解本发明,通过示例的方式参考附图,其中:
图1示意性示出了使用本发明的一些实施方式的电子设备;
图2示意性示出了适用于使用本发明的一些实施方式的用户设备;
图3进一步示意性示出了使用无线和有线网络连接的使用本发明的实施方式的电子设备;
图4示意性示出了适用于实施本发明的一些实施方式的编码器;
图5示出了根据本发明的实施方式的解码过程的流程图;
图6示出了根据本发明的实施方式的解码过程的示例;
图7示出了根据本发明的实施方式的另一解码过程的示例;
图8示出了根据本发明的实施方式的另一解码过程的示例;
图9示出了根据本发明的一些实施方式的解码器的示意图;
图10示出了根据本发明的实施方式的编码过程的流程图;以及
图11示出了适用于是是本发明的一些实施方式的通用多媒体通信系统的示例。
具体实施方式
以下更详细描述了用于执行实施方式的合适的装置和可能的机制。为此首先参考图1,其示出了可以结合根据本发明的实施方式的编解码器的示意性装置或电子设备50的示意框图。
电子设备50可以例如是无线通信系统的移动终端或用户设备。但是,可以理解本发明的实施方式可以在可以需要编码和解码或编码或解码视频图像的任意电子设备或装置中被实施。
装置50可以包括用于结合并保护设备的外壳30。装置50还可以包括以液晶显示形式的显示器32。在本发明的其他实施方式中,显示器可以是适用于显示图像或视频的任何合适的显示技术。装置50还可以包括键盘 34。在本发明的其他实施方式中,可以使用任何合适的数据或用户界面机制。例如用户界面可以被实施为虚拟键盘或数据输入系统,作为触感显示器的部分。装置可以包括麦克风36或可以是数字或模拟信号输入的任意合适的音频输入。装置50还可以包括音频输出设备,其在本发明的实施方式可以是以下的任意一者:耳机38、扬声器或模拟音频或数字音频输出连接。装置50还可以包括电池40(或在本发明的其他实施方式中设备可以由任意合适的能量设备供电,例如太阳能电池、燃料电池或时钟发生器)。装置还可以包括用于与其他设备短程可见通信的红外端口42。在其他实施方式中,装置50还可以包括任意合适的短程通信方案,例如蓝牙无线连接或 USB/火线有线连接。
装置50可以包括用于控制装置50的控制器56或处理器。控制器56 可以连接到存储器58,其在本发明的实施方式中可以以图像形式的数据和音频数据和/或还可以存储用于控制器56上的执行的指令。控制器56还可以连接到编解码器电路54,其适用于执行音频和/或视频数据的编码和解码或帮助控制器56执行编码和解码。
装置50还可以包括读卡器48和智能卡46,例如UICC和UICC读取器,用于提供用户信息和适用于提供用于用户在网络的认证和授权的认证信息。
装置50可以包括连接到控制器的无线电接口电路52,适用于生成无线通信信号,例如用于与蜂窝通信网络、无线通信系统或无线局域网通信。装置50还可以包括连接到无线电接口电路52的天线44,用于传送在无线电接口电路52处生成的射频信号给其他装置和用于从其他装置接收射频信号。
在本发明的一些实施方式中,装置50包括能够记录或检测单独帧的相机,该帧然后被传递给编解码54或控制器用于处理。在本发明的其他实施方式中,装置可以在传输和/或存储之前从另一设备接收用于处理的视频图像数据。在本发明的其他实施方式中,装置50可以通过无线或有线连接接收用于编码/解码的图像。
关于图3,示出了能够在本发明的实施方式中使用的系统的示例。系统10包括能够通过一个或多个网络通信的多个通信设备。系统10可以包括有线或无线网络的任意组合,包括但不限于无线蜂窝电话网(例如GSM、 UMTS、CDMA网络等)、无线局域网(WLAN)(例如由IEEE802.x 标准定义的任意)、蓝牙个域网、以太局域网、令牌环局域网、广域网以及因特网。
系统10可以包括适用于实施本发明的实施方式的有线和无线通信设备或装置50。
例如,图3中示出的系统示出了移动电话网络11和代表的因特网28。因特网28的连接可以包括但不限于长距离无线连接、短程无线连接和各种有线连接,包括但不限于电话线、电缆线、电源线以及类似的图形路径。
系统10中示出的示例通信设备可以包括但不限于电子设备或装置50、个人数字助理(PDA)和移动电话14的组合、PDA 16、集成消息设备(IMD) 18、台式计算机20、笔记本计算机22。装置50当被移动的个人携带时可以是固定的或移动的。装置50还可以位于运输模式中,包括但不限于私家车、卡车、出租车、公共汽车、火车、船、飞机、自行车、摩托车或任意类似的合适的运输模式。
一些或进一步通信装置可以发送和接收呼叫和消息并通过到基站24 的无线连接25与服务供应商通信。基站24可以连接到网络服务器26,其允许移动电话网络11与因特网28之间的通信。系统可以包括另外的通信设备和各种类型的通信设备。
通信设备可以使用各种传输技术来通信,包括但不限于码分多址 (CDMA)、全球移动通信系统(GSM)、通用移动电信系统(UMTS)、时分多址(TDMA)、频分多址(FDMA)、传输控制协议-网际协议 (TCP-IP)、短消息服务(SMS)、多媒体消息服务(MMS)、电子邮件、即时消息服务(IMS)、蓝牙、IEEE 802.11和任意类似的无线通信技术。实施本发明的各种实施方式涉及的通信设备可以使用各种媒介来通信,包括但不限于无线电、红外、激光、电缆连接和任意合适的连接。
视频编解码器包括将输入视频变换成适用于存储/传输的压缩表示形式的编码器和能够将被压缩的视频表示解压缩成可视形式的解码器。典型地,编码器抛弃原始视频序列中的一些信息以以更紧凑的形式(即,较低比特率)表示视频。
典型的混合视频编解码器,例如ITU-T H.263和H.264,在两个阶段编码视频信息。首先,例如通过运动补偿方式(在紧密对应于被编码的块的之前已编码视频帧之一中找到和指示区域)或通过空间方式(使用以指定方式被编码的块周围的像素值)预测某图片区域(或“块”中的像素值)。第二预测误差,即预测的像素块和原始像素块之间的差被编码。这典型地通过以下完成:使用指定变换(例如离散余弦变换(DCT)或其变化)变换像素值的差,量化系数并对量化系数进行熵编码。通过变化量化过程的保真度,编码器能够控制像素表示精度(图片质量)和得到的已编码视频表示的尺寸(文件大小或传输比特率)之间的平衡。
典型地视频编码是两阶段过程:第一,基于之前编码的数据生成视频信号的预测。第二,预测的信号和源信号之间的残差被编码。可以称为时间预测、运动补偿或运动补偿预测的间预测降低时间冗余。在间预测中,预测的源是之前被解码的图片。内预测使用的事实是相同图片内的相邻像素可能相关。内预测能够在空间或变换域中被执行,即采样值或变换系数能被预测。内预测典型地在内编码中被利用,其中不用应用间预测。
编码过程的一个结果是编码参数集,例如运动向量和量化变换系数。如果许多参数首先从相邻参数空间编码或时间编码,则它们能够更有效地被熵编码。例如,可以从空间相邻运动向量预测运动向量且仅相对于运动向量预测器的差可以被编码。图片内的编码参数的预测和内编码可以统称为图片中预测。
参考图4,示出了适用于执行本发明的实施方式的视频编码器的框图。图4示出了编码器,包括像素预测器302、预测误差编码器303和预测误差解码器304。图4还示出了像素预测器302的实施方式,包括间预测器 306、内预测器308、模式选择器310、滤波器316和参考帧存储器318。像素预测器302接收要在间预测器306(其确定图像和运动补偿参考帧318之间的差)和内预测器308(其仅基于当前帧或图片的已经处理的部分来确定图像块的预测)处被编码的图像300。间预测器和内预测器的输出被传递给模式选择器310。内预测器308可以具有多于一种内预测模式。因此,每种模式可以执行内预测并可以提供预测信号给模式选择器310。模式选择310还接收图像300的副本。
依据选择哪种编码模式来编码当前块,间预测器306的输出或可选内预测器模式之一的输出或模式选择器内的表面编码器的输出被传递给模式选择器310的输出。模式选择器的输出被传递给第一求和设备321。第一求和设备可以从图像300中减去像素预测器302的输出以产生第一预测误差信号320,其被输入给预测误差编码器303。
像素预测器302还从初步重构器339接收图像块312的预测表示和预测误差解码器304的输出338的组合。初步重构的图像314可以被传递给内预测器308和滤波器316。接收初步表示的滤波器316可以对初步表示进行过滤并输出最终重构的图像340,其可以被保存在参考帧存储器318 中。参考帧存储器318可以连接到间预测器306以用作在间预测操作中比较将来图像300所针对的参考图像。
像素预测器302的操作可以被配置成执行本领域中已知的任意已知的像素预测算法。
预测误差编码器303包括变换单元342和量化器344。变换单元342 将第一预测误差信号320变换到变换域。该变换例如是DCT变换。量化器344量化变换域信号,例如DCT系数以形成量化的系数。
预测误差解码器304接收来自预测误差编码器303的输出并执行与预测误差编码器303相反的过程以产生解码的预测误差信号338,其在在第二求和设备339处与图像块312的预测表示结合时产生初步重构图像314。预测误差解码器可以被认为包括解量化器316,其解量化量化的系数值,例如DCT系数以重构变换信号;和逆变换单元363,其对重构的变换信号执行逆变换,其中逆变换单元363的输出包含重构块。预测误差解码器还可以包括宏块滤波器,其可以根据进一步解码的信息和滤波器参数来过滤重构的宏块。
熵编码器330接收预测误差编码器303的输出并可以对该信号执行合适的熵编码/可变长度编码以提供误差检测和校正能力。
可以以许多方式执行熵编码/解码。例如,基于上下文的编码/解码可以被应用,其中编码器和解码器基于之前编码/解码的编码参数修改编码参数的上下文状态。基于上下文的编码可以例如是上下文自适应二进制数学编码(CABAC)或基于上下文的可变长度编码(CAVLC)或任意类似的熵编码。熵编码/解码可以可替换地或附加地使用可变长度编码方案来执行,例如霍夫曼编码/解码或Exp-Golomb编码/解码。从熵编码的比特流或码字解码编码参数可以成为解析。
H.264/AVC标准由国际电信联盟电信标准化部门(ITU-T)的视频编码专家组(VCEG)和国际标准化组织(ISO)/国际电子技术委员会(IEC) 的移动图像专家组(MPEG)的联合视频队(JVT)开发。H.264/AVC标准由这两个鼻祖标准化组织公布,且称为ITU-T建议H.264和ISO/IEC 国际标准14496-10,也称为MPEG-4部分10高级视频编码(AVC)。已经有多个版本的H.264/AVC标准,每个将特征的新扩展整合到规范。这些扩展包括可缩放视频编码(SVC)和多视图(view)视频编码(MVC)。
高效视频编码表标准(其可以称为HEVC或H.265/HEVC)由VCEG 和MPEG的联合协作队-视频编码(JCT-VC)开发。该标准称为ITU-T 建议H.265和ISO/IEC国际标准23008-2,也称为MPEG-H部分2高效视频编码(HEVC)。目前有正在进行的标准化项目开发H.265/HEVC的扩展,包括可缩放、多视图、三维和保真范围的扩展。
H.264/AVC和HEVC的一些关键定义、比特流和编码结构和概念在本节中被描述,作为视频编码器、解码器、编码方法、解码方法和比特流结构的示例,其中可以实施实施方式。H.264/AVC和HEVC的一些关键定义、比特流和编码结构和概念与在HEVC标准中的相同,因此,它们在下面一起被描述。本发明的方面不限于H.264/AVC或HEVC,而是描述是针对一种可能的基础给出的,除了该基础之外还可以部分或全部实现本发明。
当描述H.264/AVC和HEVC以及在示例实施方式中时,可以使用用于例如如在H.264/AVC或草案HEVC中指定的数学运算符、逻辑运算符、关系运算符、比特类运算符、赋值运算符和范围运算符的常用符号。此外,例如如在H.264/AVC或草案HEVC中指定的常用数学函数可以被使用且如在H.264/AVC或草案HEVC中指定的运算符的常用的先后顺序和执行顺序(从左至右,或从右至左)可以被使用。
当描述H.264/AVC和HEVC以及在示例实施方式中时,以下描述符可以用于指定每个语义元素的解析过程。
–b(8):具有任意样式的比特串的字节(8比特)。
–se(v):首先是左边比特的有符号的整数Exp-Golomb编码的语义元素。
–u(n):使用n个比特的没有符号的整数。当n是语义表中的“v”时,比特的数量依据其他语义元素的值而变化。该描述符的解析过程由来自比特流的下n个比特指定,该比特流被解译为首先写入最高有效位的没有符号的整数的二进制表示。
–ue(v):首先是左边比特的没有符号的整数Exp-Golomb 编码的语义元素。
Exp-Golomb比特串可以例如使用下表被转换成编码号(codeNum):
比特串 codeNum
1 0
0 1 0 1
0 1 1 2
0 0 1 0 0 3
0 0 1 0 1 4
0 0 1 1 0 5
0 0 1 1 1 6
0 0 0 1 0 0 0 7
0 0 0 1 0 0 1 8
0 0 0 1 0 1 0 9
对应于Exp-Golomb比特串的编码号可以例如使用下表被转换成se (v):
codeNum 语义元素值
0 0
1 1
2 -1
3 2
4 -2
5 3
6 -3
当描述H.264/AVC和HEVC以及在示例实施方式中时,可以如下指定语义结构、语义元素的语意以及解码过程。比特流中的语义元素由粗体表示。每个语义元素由其名称(所有的具有下划线符号的小写字母)描述,可选地由其一个或两个语义类别,和用于其已编码表示的方法的一个或两个描述符来描述。解码过程根据语义元素的值和之前解码的语义元素的值来进行。当语义元素在值在语义表或文本中被使用时,其显示常规(即非粗体)类型。在一些情况中,语义表可以使用从语义元素值得到的其他变量的值。这些变量出现在语义表或文本中,命名为小写和大写且没有任何下划线符号的混合。开始于大写字母的变量被导出用于解码当前语义结构和所有从属的语义结构。开始于大写字母的变量可以用于对之后语义结构的解码过程中,且不用提及该变量的原始语义结构。开始于小写字母的变量仅用在导出该变量所在的上下文内。在一些情况中,用于语义元素值或变量值的名称“mnemonic”可以与其数字值交换使用。名称根据被下划线符号分隔的一个或多个组的字母构建。每个组开始于大写字母并可以包含更多大写字母。
当描述H.264/AVC和HEVC以及在示例实施方式中时,可以使用以下来指定语义结构。包围在小括号中的一组陈述是复合陈述,且被按功能视为单个陈述。“while”结构指定条件是否是真的测试,且如果是真,则重复指定陈述(或复合陈述)的评估直到条件不再是真。“do…while”结构指示陈述的评估一次,之后是条件是否是真的测试,且如果是真,则指定陈述的重复评估直到条件不再是真。“if….else”结构指示条件是否是真的测试,且如果条件是真,则指定初步陈述的评估,否则,指定替换陈述的评估。如果不需要替换陈述评估,则该结构的“elso”部分和相关联的替换陈述被省略。“for”结构指定初始陈述的评估,之后是条件的测试,且如果条件是真,则指定初步陈述的重复评估,之后是后续的陈述,直到条件不再为真。
与许多较早视频编码标准类似,H.264/AVC和HEVC中指定的比特流语义和语意以及用于无误差比特流的解码过程。编码过程没有被指定,但是编码器必须生成相适应的比特流。比特流和解码器适应能够使用假设参考解码器(HRD)来验证。该标准包含帮助处理传输误差和损失的编码工具,但是使用该工具用于编码是可选的且没有为错误比特流指定解码过程。
在描述已有标准以及描述示例实施方式中,语义元素可以被定义为在比特流中表示的数据的元素。语义结构可以被定义为按指定顺序的在比特流中一起存在的0个或更多个语义元素。
简档可以被定义为由解码/编码标准或规范指定的整个比特流语义的子集。在给定简档的语义强加的限制内,仍然可能依据比特流中的语义元素采用的值(例如解码的图片的指定大小)获得编码器和解码器性能的非常大的变化。在许多应用中,可能的是实施能够处理特定简档内的语义的所有假设使用的解码器既不实际也不经济。为了处理这个问题,可以使用等级。等级可以被定义为对比特流中的语义元素的值和解码/编码标准或规范中指定的变量施加的指定的约束集合。这些约束可以是简单的对值的限制。可替换地或附加地,它们可以采取对值的数学组合的约束的形式(例如,图片宽乘以图片高乘以每秒解码的图片数)。用于指定约束等级的其他方式也可以被使用。一等级中指定的约束的一些可以例如关于关于每时段(例如一秒)的编码单元(例如宏块)的最大图片尺寸、最大比特率和最大数据率。等级的相同集合可以被定义用于所有简档。可以优选的是例如增加执行不同简档的终端的互操作性,每个等级的定义的大多数或所有方面在不同简档之间可以是共用的。
到H.264/AVC或HEVC编码器的输入和H.264/AVC或HEVC解码器的输出的基础单元分别是图片。在H.264/AVC和HEVC中,图片可以是帧或字段。帧包括亮度采样的矩阵和可能的相应的色度采样。字段是帧的交替采样行的集合,且当源信号被交织时可以用作编码器输入。色度图片可以没有(且因此单色度采样可以被使用)或可以在与亮度图片比较时被子采样。一些色度格式可以总结如下:
-在单色度采样中有仅一个采样阵列,其可以是名义上认为是亮度阵列。
-在4:2:0采样中,两个色度阵列的每一个具有亮度阵列的一半高度和一半宽度。
-在4:2:2采样中,两个色度阵列的每一个具有亮度阵列的相同高度和一半宽度。
-在4:4:4采样中,当没有分开的颜色平面被使用时,两个色度阵列的每一个具有与亮度阵列相同的高度和宽度。
在H.264/AVC和HEVC中,可能的是将作为分开的颜色平面的采样阵列编码为比特流且从比特流分别解码分开编码的颜色平面。当分开的颜色平面被使用时,其每一个被分开处理(由编码器和/或解码器)为具有单色度采样的图片。
当使用色度子采样(例如4:2:0或4:2:2色度采样)时,色度采样关于亮度采样的位置可以在编码器侧被确定(例如作为预处理步骤或编码的部分)。关于亮度采样位置的色度采样位置可以例如以编码标准(例如H.264/AVC或HEVC)被与定义,或可以在比特流中被指示,例如作为H.264/AVC或HEVC的VUI的部分。
划分可以被定义为将集合分为子集,由此该集合的每一个元素实际在子集中的一个中。图片划分可以被定义为将图片划分为更小的不重叠的单元。块划分可以被定义为将块分为更小的不重叠的单元,例如子块。在一些情况中术语块划分可以认为是包含多级划分,例如图片到切片的划分,每个切片到更小单元(例如H.264/AVC宏块)的划分。注意相同的单元(例如图片)可以具有多于一种划分。例如,草案HEVC标准的编码单元可以被划分成预测单元且单独被另一四叉树划分成变换单元。
在H.264/AVC中,宏块是亮度采样的16x16块且相应的色度采样块。例如,在4:2:0采样模式中,宏块包含每个色度分量的色度采样的8x8 块。在H.264/AVC中,图片被划分成一个或多个切片组,且切片组包含一个或多个切片。在H.264/AVC中,切片包含整数个宏块,其在特定切片组内在光栅扫描中是连续排序的。
在HEVC标准化期间,对例如图片划分单元的术语已经演化。在下一段中,提供了HEVC术语的一些非限制性示例。
在HEVC(解)编码中,在编码树块的单元中处理采样。每个亮度编码树块的阵列尺寸可以由编码器确定并包含在比特流中和/或由解码器从该比特流解码。在比特流中指定宽度和高度的是采样单元中的Ctb尺寸Y。每个色度编码树块的阵列的宽度和高度可以从被使用的亮度编码数块和色度格式的宽度和高度得出。
在HEVC中,每个编码树块被指派划分信令以标识用于内或间预测和用于变换编码的块尺寸。该划分是回归四叉树划分。该四叉树的根与编码树块相关联。四叉树被分开直到到达叶,其成为编码块。当分量宽度不是整数个编码数块尺寸时,在右边分量边界的编码数块是不完整的。当分量高度不是编码数块尺寸的整数倍时,在底部分量边界的编码树块是不完整的。
在HEVC中,编码块是两个树(预测树和变换树)的根节点。预测树指定预测块的位置和尺寸。变换树指定变换块的位置和尺寸。用于亮度和色度的分离信息针对预测树是相同的且针对变换树可以是相同的或可以不是相同的。
可以如下在“单元”中封装块和相关联的语义结构:
-一个预测块(当单色度图片或分开的颜色平面被使用时)或三个预测块(亮度和色度)和相关联的预测语义结构单元被封装在预测单元中。
-一个变换块(当单色度图片或分开的颜色平面被使用时)或三个变换块(亮度和色度)和相关联的变换语义结构单元被封装在变换单元中。
-一个编码块(当单色度图片或分开的颜色平面被使用时)或三个编码块(亮度和色度),相关联的编码语义结构和相关联的预测和变换单元被封装在编码单元中。
-一个编码树块(当单色度图片或分开的颜色平面被使用时) 或三个编码树块(亮度和色度),相关联的编码树语义结构和相关联的编码单元被封装在编码树单元中。
下面可以描述HEVC中使用的一些术语。视频图片被分成编码单元 (CU),覆盖图片的区域。CU包括一个或多个预测单元(PU),定义 CU的采样的预测过程;和一个或多个变换单元(TU),定义在所述CU 中的采样的预测误差编码过程。典型地,CU包括采样的方形块,具有从可能的CU尺寸的预定义集合中选择的尺寸。具有最大允许尺寸的CU可以称为LCU(最大编码单元)或编码树单元(CTU)和视频图片被分成不重叠的LCU。LCU能够被进一步分成较小CU的组合,例如通过回归分割LCU和得到的CU。每个得到的CU典型地具有至少一个PU和至少一个与其相关联的TU。每个PU和TU能够进一步被分成更小的PU和TU 以分别增加预测和预测误差编码过程的粒度。每个PU具有与其相关联的预测信息,定义什么种类的预测被应用于PU内的像素(例如,用于间预测PU的运动向量信息和用于内预测PU的内预测方向性信息)。类似地,每个TU与信息相关联,该信息描述所述TU内的采样的预测误差解码过程(包括例如DCT系数信息)。典型地在CU级用信号通知预测误差编码是否应用于每个CU。在没有与CU相关联的预测误差残差的情况中,能够认为没有用于所述CU的TU。典型地在比特流中用信号通知CU分成PU和TU,允许解码器复制这些单元的期望结构。
在HEVC标准中,图片能够被划分成瓦片,其是矩形的且包含整数个 LCU。在HEVC标准中,划分成瓦片形成规则的网格,其中瓦片的高度和宽度彼此最大相差一个LCU。在比特流中在图片内的栅极扫描中连续排序瓦片。瓦片可以包含整数个切片。瓦片边界类似于切片边界中断熵编码、参数预测和内预测相关性。因此,瓦片能够独立被处理,除了环路滤波,其能够越过瓦片边界,除非被编码器关闭(且在比特流中被指示)。
在HEVC中,切片包括整数个LCU。如果瓦片没有被使用,则LCU 以LCU的栅扫描顺序在瓦片内或图片内被扫描。切片可以包含整数个瓦片或能够在瓦片中包含切片。在CU内,CU具有特定的扫描顺序。
在HEVC,切片包含一个独立的切片片段和所有后续的从属的切片片段(如果有),其在相同接入单元内的下一个独立切片片段(如果有)之前。在HEVC中,独立切片片段被定义为切片片段,针对该片段从之前切片片段的值推断不出切片片段头的语义元素的值,且独立切片片段被定义为切片片段,针对该片段从在解码顺序中前面的独立切片片段的值推断出切片片段头的一些语义元素的值。在HEVC中,切片头被定义为独立切片片段的切片片段头,该独立切片片段是当前切片片段或是在当前独立切片片段之前的独立切片片段,且切片片段头被定义为编码的切片片段的部分,包含关于在切片片段中表示的第一或所有编码树单元的数据元素。
解码器通过应用类似于编码器的预测方式形成像素块(使用编码器产生的和存储在压缩的表示中的运动或空间信息)的预测表示和预测误差解码(恢复空间像素域中量化预测误差信号的预测误差编码的逆操作)来重构输出视频。在应用预测和预测误差解码方式之后,解码器对预测和预测误差信号(像素值)求和以形成输出视频帧。解码器(和编码器)还能够应用另外的过滤方式来在传递输出视频用于显示之前和/或存储输出视频作为预测参考用于视频序列中的后来的帧之前改进该输出视频的质量。
在典型编解码器中,运动信息被指示具有与每个运动补偿图像块相关联的运动向量。这些运动向量的每一个代表在要被编码(在编码器侧)或解码(在解码器侧)的图片中的图像块和在之前编码或解码的图片的一个中的预测源块的位移。为了有效代表运动向量,这些典型地关于块特定预测运动向量被编码。在典型的视频编码器中,以预定义方式产生预测运动向量,例如计算相邻块的编码或解码运动向量的中值。产生运动向量预测的另一种方式是在时间参考图片中的相邻块和/或共位块生成候选预测列表,并用信号通知所选候选作为运动向量预测器。除了预测运动向量值,还能够预测之前编码/解码的图片的参考索引。参考索引典型地从时间参考图片中的相邻块和/或共位块被预测。此外,典型的高效率视频编解码器使用另外的运动信息编码/解码机制,通常称为融合模式,其中所有的运动字段信息,其包括针对每个可用参考图片列表的运动向量和相应的参考图片索引,被预测并使用,而不需要任何修改/校正。类似地,使用时间参考图片中的相邻块和/或共位块的运动字段信息来执行预测运动字段信息,且使用的运动字段信息在运动字段候选列表间用信息被通知,该列表填充有可用相邻/共位块的运动字段信息。
在典型的视频编解码器中,在运动补偿之后的预测残差首先使用变换核(像DCT)被变换且然后被编码。其原因是残差间经常仍然存在某相关且变换能够在许多情况中帮助降低该相关并提供更有效率的编码。
典型的视频编码器使用拉格朗日成本函数来找到最优编码模式,例如期望的宏块模式和相关联的运动向量。这种成本函数使用加权因子λ来将由于有损编码方法导致的(精确或估计的)图像失真和表示图像区域中的像素值所需的信息的(精确或估计的)量关联在一起:
C=D+λR, (1)
其中C是要被最小化的拉格朗日成本,D是考虑的模式和运动向量的图像失真(例如均方差),以及R是表示用于重构解码器中的图像块所需的数据(包括用于表示候选运动向量的数据量)所需的比特数。
视频编码标准和规范可以允许编码器将编码的图片分成编码的切片或类似的。图片中预测典型地在切片边界被禁用。因此,切片能够被认为是将编码的图片分割成独立可解码片的方式。在H.264/AVC和HEVC中,图片中预测可以在切片边界被禁用。因此,切换能够认为是用于将编码的图片分割成独立可解码的片的方式,且切片因此常被认为是用于传输的基础单元。在许多情况中,编码器可以在比特流中指示在切片边界关闭哪种图片中预测,且解码器操作例如在得出哪些预测源是可以的时考虑这种新型。例如,如果相邻宏块或CU位于不同的切片中,则来自相邻宏块或CU 的采样可以认为是不可用于内预测。
下面对在一些编码标准中可用的切片类型进行分类。
栅扫描顺序切片是一种编码片段,其包括按栅扫描顺序的连续宏块或类似的。例如,MPEG-4部分2的视频分组和在H.263中开始于非空GOB 头的宏块群组(GOB)是栅扫描顺序切片的示例。
矩形切片是一种编码片段,其包括矩形区域的宏块或类似的。矩形切片可以比一个宏块或类似的行要高且比整个图片宽度要窄。H.263包括可选的矩形切片子模式,且H.261GOB也能够被认为是矩形切片。
灵活的切片能够得到任意预定义宏块(或类似的)位置。H.264/AVC 编解码器允许宏块分组成多于一个的切片群组。切片群组能够得到任意的宏块位置,包括不相邻的宏块位置。H.264/AVC的一些简档中的切片包括按栅扫描顺序的特定切片群组内的至少一个宏块。
H.264/AVC或HEVC编码器的输出和H.264/AVC或HEVC解码器的输入的基础单元分别是网络抽象层(NAL)单元。针对通过面向分组的网络的传输或存储到结构文件中,NAL单元可以被封装在分组或类似结构中。字节流格式已经在H.264/AVC和HEVC中被指定用于不提供帧结构的传输或存储环境。字节流格式通过在每个NAL单元的签名附着起始代码来将NAL单元彼此分开。为了避免NAL单元边界的错误检测,编码器运行面向字节的起始代码竞争阻止算法,其将竞争阻止字节添加到NAL 单元净荷(如果起始代码已经发生)。为了实现面向分组和面向流的系统之间的直接网关操作,起始代码竞争阻止可以一直被执行,不管字节流格式是否被使用。NAL单元可以被定义为包含遵循的数据类型的指示的语义结构和包含在需要时与散步有竞争阻止字节的RBSP形式的数据的字节。原始子集序列净荷(RBSP)可以被定义为包含整数个被封装在NAL单元中的字节的语义结构。RBSP是空的或者具有数据比特串的形式,包含语义元素,之后是RBSP停止比特且之后是零或更多等于0的后续比特。
NAL单元包括头和净荷。在H.264/AVC和HEVC中,NAL单元头指示NAL单元的类型和包含在NAL单元的编码的切片是参考图片还是非参考图片的部分。
H.264/AVC NAL单元头包括2比特的nal_ref_idc语义元素,其当等于0时指示包含在NAL单元中的编码的切片是非参考图片的部分,且当大于0时指示包含在NAL单元中的变换的切片是参考图片的部分。SVC 和MVC NAL单元的头可以另外包含与缩放性和多视图等级有关的各种指示。
在HEVC中,二字节NAL头用于所有指定的NAL单元类型。NAL 单元头包含一个预留比特、六比特NAL单元类型指示、六比特预留字段 (称为nuh_layer_id)和用于时间等级的三比特temporal_id_plus1指示。 temporal_id_plus1语义元素可以认为是用于NAL单元的时间标识符,且基于零的TemporalId变量可以从以下得出:TemporalId= temporal_id_plus1–1。TemporalId等于0对应于最低时间等级。 temporal_id_plus1的值需要不为零以避免涉及两个NAL单元头字节的起始代码竞争。通过排除具有大于或等于所选的值的TemporalId的所有 VCL NAL单元并包括所有其他VCL NAL单元产生的比特流仍然是合格的。因此,具有等于TID的TemporalId的图片不使用具有大于TID的 TemporalId的任意图片作为间预测参考。子层或时间子层可以被定义为是时间可缩放比特流的时间可缩放层,包括具有TemporalId变量的特定值的VCL NAL单元和相关联的非VCL NAL单元。不失一般性,在一些示例实施方式中,变量LayerId例如如下从nuh_layer_id的值中得出: LayerId=nuh_layer_id。在下文中,LayerId、nuh_layer_id和layer_id 互换使用,除非另有指明。
期望NAL单元头中的nuh_layer_id和/或类似的语义元素可以携带关于缩放性层级的信息。例如,LayerId值nuh_layer_id和/或类似的语义元素可以被映射到变量或语义元素的值,描述不同的缩放性尺寸,例如 quality_id或类似的,dependency_id或类似的,任意其他类型的层标识符,视图顺序索引或类似的,视图标识符,NAL单元是否涉及深度或质地的指示,即depth_flag或类似的,或类似于SVC的priority_id的标识符,指示在大于特定标识符值的所有NAL单元从比特流中被移除的情况下的有效子比特流提取。nuh_layer_id和/或类似的语义元素可以被划分成指示缩放性属性的一个或多个语义元素。例如,nuh_layer_id和/或类似语义元素中的某数量的比特可以用于dependency_id类似的,而nuh_layer_id和/ 或类似语义元素中的另一某数量的比特可以用于quality_id或类似的。可替换地,LayerId值或类似的到描述不同缩放性尺寸的变量或语义元素的值的映射可以例如在视频参数集、序列参数集或另一语义结构中被提供。
NAL单元能被分类成视频编码层(VCL)NAL单元和非VCL NAL 单元。VCL NAL单元典型地是编码的切片NAL单元。在H.264/AVC中,编码的切片NAL单元包含代表一个或多个编码的宏块的语义元素,每个宏块对应于在未压缩图片中的采样块。在HEVC中,编码的切片NAL单元包含代表一个或多个CU的语义元素。
在H.264/AVC和HEVC中,编码的切片NAL单元能够被指示为是在即时解码刷新(IDR)图片中的编码的切片或非IDR图片中的编码的切片。
在HEVC,编码的切片NAL单元能够被指示是以下类型的一种。
在HEVC中,图片类型的缩写可以被如下定义:拖尾(TRAIL)图片、时间子层接入(TSA)、步进时间子层接入(STSA)、随机接入可解码引导(leading)(RADL)图片、随机接入跳过引导(RASL)图片、断开链路接入(BLA)图片、即时可解码刷新(IDR)图片、干净随机接入(CRA)图片。
随机接入点(RAP)图片,也可以或可替换地称为内随机接入点(IRAP) 图片,是每个切片或切片片段具有范围在16至23(包含端点)的 nal_unit_type的图片。RAP图片包含仅内编码的切片,且可以是BLA图片、CRA图片或IDR图片。比特流中的第一图片是RAP图片。如果所需的参数集在它们需要被激活时是可用的,则RAP图片和解码顺序中所有后续的非RASAL图片能够正确被解码而不需要执行在解码顺序中在RAP 图片前面的任何图片的解码过程。在比特流中可以有包含不是RAP图片的仅内编码的切片的图片。
在HEVC中,CRA图片可以是比特流中按解码顺序的第一个图片,或可以在比特流中较后出现。HEVC中的CRA图片允许所谓的引导图片在解码顺序中在CRT图片的后面但是在输出顺序中在CRA图片的前面。一些引导图片,所谓的RASL图片可以使用在CRA图片之前被解码的图片作为参考。如果在CRA图片处执行了随机接入,则在解码和输出顺序中在CRA图片的后面的图片是可解码的,且因此类似于IDR图片的干净随机接入功能实现干净随机接入。
CRA图片可以具有相关联的RADL或RASL图片。当CRA图片在比特流中是在解码顺序中的第一个图片时,CRA图片是在解码顺序中的编码器的视频序列的第一个图片,且任何相关联的RASL图片不被解码器输出且不可以被解码,因为它们可以包含在比特流中不存在的图片的参考。
引导图片是在输出顺序中在相关联的RAP图片前面的图片。相关联的RAP图片是在解码顺序中之前的RAP图片(如果存在)。引导图片可以是RADL图片或RASL图片。
所有RASL图片是相关联的BLA或CRA图片的引导图片。当相关联的RAP图片是BLA图片或是比特流中的第一个编码的图片时,RASL图片不被输出且可能不能正确解码,因为RASL图片可以包含比特流中不存在的图片的参考。但是,如果解码从在RASL图片的相关联的RAP图片之前的RAP图片开始,则RASL图片能够被正确解码。RASL图片不被用作用于非RASL图片的解码过程的参考图片。当存在时,所有RASL图片在解码顺序中在相同的相关联的RAP图片的所有拖尾图片的前面。在 HEVC标准的一些较早草案中,RASL图片被称为标记抛弃(TFD)图片。
所有RADL图片是引导图片。RADL图片不用当做用于相同的相关联 RAP图片的拖尾图片的解码过程的参考图片。当存在时,所有RADL图片在解码顺序中在相同的相关联RAP图片的所有拖尾图片的前面。RADL 图片不是指在解码顺序中在相关联的RAP图片的前面的任何图片,且因此能够在该解码从相关联的RAP图片开始时被正确解码。在HEVC标准的一些较早草案中,RADL图片称为可解码引导图片(DLP)。
可解码引导图片可以是其能够在解码从CRA图片开始时被正确解码的图片。换句话说,可解码引导图片仅使用在解码顺序中的初始CRA图片或后续的图片作为间预测中的参考。非可解码引导图片是在解码从初始 CRA图片开始时不能被正确解码的图片。换句话说,非可解码引导图片使用在解码顺序中在初始CRA图片前面的图片作为间预测中的参考。
当从CRA图片开始的比特流的部分被包含在另一比特流中时,与 CRA图片相关联的RASL图片可能不被正确解码,因为这些参考图片的一些可能不存在与组合的比特流中。为了使得这样的交接操作直接点,能够改变CAR图片的NAL单元类型来指示其是BLA图片。与BLA图片相关联的RASL图片不能不可正确解码,因此不被输出/显示。此外,与BLA 图片相关联的RASL图片可以从解码中被省略。
BLA图片可以是比特流中在解码顺序中的第一个图片,或可以在比特流中较后出现。每个BLA图片开始新的编码的视频序列,且对解码过程的影响与IDR图片的相似。但是,BLA图片包含指定非空参考图片集的语义元素。当BLA图片具有等于BLA_W_LP的nal_unit_type时,其可以具有相关联的RASL图片,该图片不被解码器输出且可以不是可解码的,因为它们可以包含比特流中不存在的图片的参考。当BLA图片具有等于 BLA_W_LP的nal_unit_type时,其还可以具有相关联的RADL图片,其被指定被解码。当BLA图片具有等于BLA_W_LP的nal_unit_type时,其不具有相关联的RASL图片,但是可以具有相关联的RADL图片,其被指定被解码。BLA_W_DLP还可以被称为BLA_W_RADL。当BLA图片具有等于BLA_N_LP的nal_unit_type时,其不具有任何相关联的引导图片。
具有等于IDR_N_LP的nal_unit_type的IDR图片不具有比特流中存在的相关联的引导图片。具有等于IDR_W_DLP的nal_unit_type的IDR 图片不具有在比特流中存在的相关联的RASL图片,但可以在比特流中具有相关联的RADL图片。IDR_W_DLP还可以称为IDR_W_RADL。
当nal_unit_type的值等于TRAIL_N,TSA_N,STSA_N,RADL_N, RASL_N,RSV_VCL_N10,RSV_VCL_N12或RSV_VCL_N14时,解码的图片不用做用于相同时间子层的任意其他图片的参考。也就是,在草案 HEVC标准中,当nal_unit_type的值等于TRAIL_N,TSA_N,STSA_N,RADL_N,RASL_N,RSV_VCL_N10,RSV_VCL_N12或RSV_VCL_N14 时,解码的图片不被包含在具有TemporalId的相同值的任意图片的 RefPicSetStCurrBefore,RefPicSetStCurrAfter和RefPicSetLtCurr的任意中。具有等于TRAIL_N,TSA_N,STSA_N,RADL_N,RASL_N, RSV_VCL_N10,RSV_VCL_N12或RSV_VCL_N14的nal_unit_type的编码的图片可以被丢弃,而不会影响具有TemporalId相同值的其他图片的可解码性。
拖尾图片可以被定义为在输出顺序中跟随相关联的RAP图片的图片。是拖尾图片的任意图片不具有等于RADL_N,RADL_R,RASL_N或 RASL_R的nal_unit_type。是引导图片的任意图片可以被约束到在解码顺序中在与相同RAP图片相关联的所有拖尾图片的前面。在比特流中不存在与具有等于BLA_W_DLP或BLA_N_LP的nal_unit_type的BLA图片相关联的RASL图片。在比特流中不存在与具有等于BLA_N_LP的 nal_unit_type的BLA图片相关联或与具有等于IDR_N_LP的 nal_unit_type的IDR图片相关联的RADL图片。任意与CRA或BLA图片相关联的RASL图片可以被约束为在输出顺序中在与CRA或BLA图片相关联的任意RADL图片前面。与CRA图相关联的任意RASL图片可以被约束为在输出顺序中跟随在解码顺序中在CRA图片前面的任意其他 RAP图片。
在HEVC中,有两种图片类型,TSA和STSA图片类型,其能够用于指示时间子层切换点。如果具有多至N的TemporalId的时间子层已经被解码直到TSA和STSA图片(不包括)且TSA或STSA图片具有等于 N+1的TemporalId,则TSA或STSA图片能够实现解码具有等于N+1的 TemporalId的所有后续图片(按解码顺序)。TSA图片类型可以对TSA 图片本身和在相同子层中在解码顺序中跟随该TSA图片的所有图片施加限制。这些图片都不被允许使用从相同子层中的在解码顺序中在TSA图片前面的任意图片的间预测。TSA定义还可以对较高子层中在解码顺序中跟随TSA图片的图片施加限制。这些图片都不被允许涉及在解码顺序中在TSA图片前面的图片(如果图片属于与TSA图片相同或更高的子层)。 TSA图片具有大于0的TemporalId。STSA类似于TSA图片但是不对更高子层中在解码顺序中跟随STSA图片的图片施加限制,且因此能够将上切换仅执行到STSA图片位于的子层上。
非VCL NAL单元可以是例如以下类型的一种:序列参数集、图片参数集、补充增强信息(SEI)NAL单元、接入单元定界符、序列NAL单元的端点、流NAL单元的端点或填充符数据NAL单元。参数集可以被需要用于重构解码的图片,而许多其他非VCL NAL单元不需要用于重构解码的采样值。
通过编码的视频序列仍然不变的参数可以被包含在序列参数集中。除了可以解码过程可能需要的参数之外,序列参数集还可以可选地包含视频可用性信息(VUI),其包括可以对缓冲、图片输出定时、渲染和资源预留是重要的参数。在H.264/AVC中指定了三种NAL单元来携带序列参数集:序列参数集NAL单元,包含用于序列中的H.264/AVC VCL NAL单元的所有数据;序列参数集扩展NAL单元,包含用于辅助编码的图片的数据;以及用于MVC和SVCVCL NAL单元的子集序列参数集。在HEVC 标准中,序列参数集RBSP包括能够被一个或多个图片参数集RBSP或包含缓冲周期SEI消息的一个或多个SEI NAL单元涉及的参数。图片参数集包含可能在某些编码的图片中不变的这样的参数。图片参数集RBSP可以包括能够被一个或多个编码的图片的编码的切片NAL单元涉及的参数。
自适应参数集(APS),其包括可能在一些编码的切片中没有变化但可以例如针对每个图片或每一些图片而变化的参数,被提出用于HEVC但是最终没有被采纳到标准。已经提出APS语义结构包括与量化矩阵(QM)、自适应采样偏移(SAO)、自适应环滤波(ALF)和解块滤波有关的参数或语义元素。APS还可以是NAL单元且在不用从任意其他NAL单元的参考或预测的情况下被编码。称为aps_id语义元素的标识符被包含在APS NAL单元中,并被包含并用在切片头中以涉及特定APS。APS语义结构可以仅包含ALF参数。
HEVC标准还包括视频参数集(VPS)NAL单元。视频参数集RBSP 可以包括能够被一个或多个序列参数集RBSP涉及的参数。
视频参数集(VPS)、序列参数集(SPS)和图片参数集(PPS)之间的关系和层级可以如下描述。VPS在参数集层级中和在缩放性和/或3DV 的上下文中位于SPS上面一级。VPS可以包括在整个编码的视频序列中所有(缩放性或视图)层的所有切片是公共的参数,且可以被多个(缩放性或视图)层共享。PPS包括在特定层表示(一个接入单元中的一个缩放性或视图层的表示)中的所有切片是公共的参数,且可能被多个层表示中的所有切片共享。
VPS可以提供关于比特流中的层的依赖关系的信息,以及适用于整个编码的视频序列中的所有(缩放性或视图)层的所有切片的许多其他信息。在HEVC的可缩放扩展中,VPS可以例如包括从NAL单元头得到的 LayerId值到一个或多个缩放性尺寸值的映射,例如对应于类似于SVC和 MVC定义的针对层的dependency_id,quality_id,view_id和depth_flag。 VPS可以包括一个或多个层的简档和级信息以及层表示的一个或多个时间子层(包括在某temporal_id值处和下面的VCL NAL单元)的简档和/ 或级。
H.264/AVC和HEVC语义允许许多参数集实例,且每个实例用唯一标识符来标识。为了限制参数集需要的存储器使用,限制了参数集标识符的值范围。在H.264/AVC和HEVC标准中,每个切片头包括针对包含该切片的图片的解码是活动的图片参数集的标识符,且每个图片参数集包含活动的序列参数集的标识符。因此,图片和序列参数集的传输不必精确地与切片的传输同步。而是,活动的序列和图片参数集在它们被参考之前的任意时刻被接收就足够了,这允许参数集的传输与用于切片数据的协议相比使用更可靠的传输机制“带外”。例如,参数集能够被包括作为实时传输协议(RTP)会话的会话描述中的参数。如果参数集被带内传输,它们能够被重复以改进误差鲁棒性。
参数集可以被来自切片或来自另一活动参数集或在一些情况中来自另一语义结构(例如缓冲周期SEI消息)的参考激活。
SEI NAL单元可以包含一个或多个SEI消息,其不需要用于输出图片的解码但是可以帮助相关的处理,例如图片输出定时、渲染、误差检测、误差隐藏和资源预留。一些SEI消息在H.264/AVC和HEVC中被指定,且用户数据SEI消息能够使得组织和公司指定它们自己使用的SEI消息。 H.264/AVC和HEVC包含用于指定的SEI消息的语义和语意,但是没有定义用于在接收器中处理消息的过程。因此,需要编码器在它们产生SEI 消息时遵循H.264/AVC标准或HEVC标准,以及不需要分别符合 H.264/AVC标准或HEVC标准的解码器针对输出顺序一致性来处理SEI 消息。包括H.264/AVC和HEVC中的SEI消息的语义和语意的原因之一是允许不同的系统规范一致地解译补充的信息且因此相互操作。期望系统规范能够需要在编码端和解码端使用特定SEI消息,且另外能够制定在接收器中处理特定SEI消息的过程。
编码的图片是图片的编码的表示。H.264/AVC中的编码的图片包括图片解码需要的VCL NAL单元。在H.264/AVC中,编码的图片能够是主编码图片或冗余编码图片。主编码图片用在有效比特流的解码过程中,而冗余编码图片是只应当在主编码图片不能被成功解码时被解码的冗余表示。在HEVC中,没有指定冗余编码图片。
在H.264/AVC中,接入单元包括主编码图片和这些与其相关联的NAL 单元。在HEVC中,接入单元被定义为根据指定的分类规则彼此相关联的 NAL单元的集合,其在解码顺序中是连续的,且包含正好一个编码图片。在H.264/AVC中,接入单元内的NAL单元的出现顺序限制如下。可选的接入单元定界符NAL单元可以指示接入单元的开始。其之后是零个或更多个SEI NAL单元。接下来出现的是主编码图片的编码的切片。在 H.264/AVC中,主编码图片的编码的切片的后面是零个或更多个冗余编码图片的编码的切片。冗余编码图片是图片或图片部分的编码的表示。如果解码器例如由于在传输中的损失或在物理存储介质中的腐坏而没有接收到主编码图片,则可以解码冗余解码图片。
在H.264/AVC中,接入单元还可以包括辅助编码图片,其是补充主编码图片的图片且可以用在例如显示过程中。辅助编码图片可以例如用作指定解码的图片中的采样的透明等级的α信道或α平面。α信道或平面可以用在分层组成或渲染系统中,其中输出图片由在彼此的上面至少部分透明的层叠图片形成。辅助编码图片具有与单色度冗余编码图片相同的语义和语意。在H.264/AVC中,辅助编码图片包含与主编码图片相同数量的宏块。
在H.264/AVC中,编码的视频序列被定义为在解码顺序中从IDR接入单元(含)到下一个IDR接入单元(不含),或到比特流的末尾(以较早出现者为准)的连续接入单元的序列。在HEVC中,编码的视频序列可以被定义为接入单元的序列,其包括按解码顺序,是比特流中第一个接入单元的CRA接入单元、IDR接入单元或BLA接入单元,之后是零个或更多非IDR或非BLA接入单元,包括至多所有后续接入单元但是不包括任意的后续IDR或BLA接入单元。
图片组(GOP)和其特性可以如下定义。GOP能够被解码,不管任意之前的图片是否被解码。开放GOP是这样的图片组,其中在输出顺序中在初始内图片前面的图片在解码从开放GOP的初始内图片开始时可能不能被正确解码。换句话说,开放GOP的图片可以(在间预测中)涉及属于之前GOP的图片。H.264/AVC解码器能够从H.264/AVC比特流中恢复点SEI消息识别开始开放GOP的内图片。HEVC解码器能够识别开始开放GOP的内图片,因为特定的NAL单元类型、CRA NAL单元类型用于其编码的切片。封闭GOP是这样的图片组,其中当解码从封闭GOP的初始内图片开始时能够正确解码所有图片。换句话说,封闭GOP中没有图片涉及之前GOP的任意图片。在H.264/AVC和HEVC中,封闭GOP 从IDR接入单元开始。在HEVC中,封闭GOP还可以从BLA_W_DLP 或BAL_N_LP图片开始。因此,封闭GOP结构与开放GOP结构相比具有更好的误差恢复潜力,但是代价是可能降低压缩效率。开放GOP编码结构由于参考图片选择的更大灵活性可能在压缩方面是更有效率的。
H.264/AVC和HEVC的比特流语义指示特定图片是否是用于任意其他图片的间预测的参考图片。任意编码类型(I、P、B)的图片能够是 H.264/AVC和HEVC中的参考图片或非参考图片。
H.264/AVC指定用于解码的参考图片标记的过程以控制解码器中的存储消耗。用于间预测的参考图片的最大数量(M)在序列参数集中被确定。当参考图片被解码时,其被标记为“用于参考”。如果参考图片的解码使得多于M个图片被标记为“用于参考”,则至少一个图片被标记为“不用于参考”。有两种类型的用于解码的参考图片标记的操作:自适应存储控制和滑动窗。用于解码的参考图片标记的操作模式基于图片被选择。自适应存储控制实现显式用信号通知哪些图片被标记为“不用于参考”且还可以将长期索引指派给短期参考图片。自适应存储控制可以需要在比特流中存在存储管理控制操作(MMCO)参数。MMCO参数可以被包含在解码的参考图片标记语义结构中。如果滑动窗操作模式在使用中且有M个图片被标记为“用于参考”,则是在被标记为“用于参考”的这些短期参考图片中的第一个被解码的图片的短期参考图片被标记为“不用于参考”。换句话说,滑动窗操作模式导致在短期参考图片间的先进先出缓冲操作。
H.264/AVC中的存储管理控制操作的一个使得除了当前图片的所有参考图片被标记为“不用于参考”。即时解码刷新(IDR)图片包含仅内编码的切片并造成参考图片的类似“重置”。
在HEVC标准中,参考图片标记语义结构和相关的解码过程不被使用,而是参考图片集(RPS)语义结构和解码过程用于类似的目的。针对图片有效或活动的参考图片集包括用作用于该图片的参考的所有参考图片和用于解码顺序中任意后续图片的被保持标记为“用于参考”的所有参考图片。有参考图片集的六个子集,即其称为RefPicSetStCurr0,RefPicSetStCurr1,RefPicSetStFoll0,RefPicSetStFoll1,RefPicSetLtCurr, 和RefPicSetLtFoll。六个子集的符号如下。“Curr”指被包括在当前图片的参考图片列表中的参考图片,且因此可以用作用于当前图片的间预测参考。“Foll”指没有包括在当前图片的参考图片列表中但可以在解码顺序中的后续图片中用作参考图片的参考图片。“St”指短期参考图片,其一般可以通过其POC值的某数量的最低有效位来标识。“Lt”指长期参考图片,其被特别标识且一般比所述某数量的最低有效位能够描述的具有相对当前图片的POC值的更大差异。“0”指具有比当前图片的POC值更小的POC值的这些参考图片。“1”指具有比当前图片的POC值更大的 POC值的这些参考图片。RefPicSetStCurr0,RefPicSetStCurr1,RefPicSetStFoll0和RefPicSetStFoll1一起称为参考图片集的短期子集。RefPicSetLtCurr和RefPicSetLtFoll一起称为参考图片集的长期子集。
在HEVC标准中,可以在序列参数集中指定参考图片集且通过对参考图片集的索引将其用在切片头中。参考图片集还可以在切片头中被指定。参考图片集的长期子集一般仅被指定在切片头中,而相同参考图片集的短期子集可以在图片参数集或切片头中被指定。参考图片集可以被独立编码或可以从另一参考图片集被预测(称为RPS间预测)。当参考图片集被独立编码时,语义结构包括至多三个环,其在不同类型的参考图片重复:短期参考图片,具有低于当前图片的POC值,具有高于当前图片的POC值的短期参考图片以及长期参考图片。每个环输入指定图片被标记为“用于参考”。一般来说,该图片被指定具有差分POC值。RPS间预测利用这一事实:当前图片的参考图片集能够从之前解码的图片的参考图片集被预测。这是因为当前图片的所有参考图片是之前图片的参考图片或之前解码的图片本身。仅需要指示这些图片中哪些应该是参考图片且用于当前图片的预测。在这两种类型的参考图片集编码中,标志 (used_by_curr_pic_X_flag)另外针对每个参考图片被发送,指示参考图片是否用于当前图片的参考(是,包含在*Curr列表中,或否,包含在*Foll 列表中)。被包含在当前切片使用的参考图片集中的图片被标记为“用于参考”,且没有在当前切片使用的参考图片集中的图片被标记为“不用于参考”。如果当前图片是IDR图片,则RefPicSetStCurr0,RefPicSetStCurr1, RefPicSetStFoll0,RefPicSetStFoll1,RefPicSetLtCurr和RefPicSetLtFoll都被设置为空。
可以在编码器和/或解码器中使用解码的图片缓冲器(DPB)。有两个原因来缓冲解码的图片,用于参考间预测和用于将解码的图片重新排序成输出顺序。由于H.264/AVC和HEVC提供用于参考图片标记和输出重新排序的大量灵活性,用于参考图片缓冲和输出图片缓冲的分开的缓冲器可能浪费存储资源。因此,DPB可以包括用于参考图片和输出重新排序的统一的解码的图片缓冲过程。解码的图片在其不再用作参考且不被输出所需要时可以从DPB移除。
在H.264/AVC和HEVC的许多编码模式中,用于间预测的参考图片用针对参考图片列表的索引被指示。该索引可以用可变长度编码被编码,其一般使得更小的索引具有用于相应语义元素的更短值。在H.264/AVC和 HEVC中,针对每二预测(B)切片生成两个参考图片列表(参考图片列表0和参考图片列表1),且针对每个间编码(P)切片形成一个参考图片列表(参考图片列表0)。
参考图片列表,例如参考图片列表0和参考图片列表1,典型地由两步构成:首先,生成初始参考图片列表。该初始参考图片列表可以例如基于帧号、POC、temporal_id或关于例如GOP结构的预测层级的信息或这些的任意组合被生成。第二,初始参考图片列表可以通过参考图片列表重新排序(RPLR)命令(也称为参考图片列表修改语义结构,其可以被包含在切片头中)被重新排序。RPLR命令指示被排序到各自参考图片列表的开始的图片。该第二步也可以称为参考图片列表修改过程,且RPLR命令可以被包含在参考图片列表修改语义结构中。如果参考图片集被使用,则参考图片列表0可以被初始化以首先包含RefPicSetStCurr0,其次是 RefPicSetStCurr1,再是RefPicSetLtCurr。参考图片列表1可以被初始化以首先包含RefPicSetStCurr1,之后是RefPicSetStCurr0。初始参考图片列表可以通过参考图片列表修改语义结构被修改,其中初始参考图片列表中的图片可以通过该列表的项索引来标识。
分类不同类型的可以在视频编码和/或视频解码中应用的预测的方式是考虑预测是应用于采样值还是(解)编码参数。
在采样预测中,某图片区域或“块”中的像素或采样值被预测。这些像素或采样值能够例如使用以下方式的一种或多种被预测:
-运动补偿机制(其也可以称为时间预测或运动补偿时间预测或运动补偿预测或MCP),其涉及找到并指示在紧密对应于被编码的块的之前编码的视频帧之一中的区域。
-视图间预测,其涉及找到并指示紧密对应于被编码的块的之前编码的视图分量之一中的区域。
-视图同步预测,其涉及同步预测块或图像区域,其中预测块基于重构/解码的测距信息被得到。
-使用重构/解码的采样的层间预测,例如所谓的SVC的BL内 (基层)模式。
-层间残差预测,其中例如参考层的编码的残差或从重构/解码的参考层图片和相应的重构的/解码的增强层图片的差得到的残差可以用于预测当前增强层块的残差块。残差块可以例如被添加到运动补偿预测块以得到当前增强层块的最终预测块。残差预测有时可以被认为是采样和语义预测外的分开的预测类型。
-内预测,其中像素或采样值能够通过涉及找到并指示空间区域关系的空间机制来预测。
在语义预测中,其也可以成为参数预测,语义元素和/或语义元素值和 /或从语义元素导出的变量从较早被(解)编码的语义元素和/或较早导出的变量被预测。语义预测的非限制性示例提供如下:
-在运动向量预测中,例如用于间和/或视图间预测的运动向量可以关于块特定预测的运动向量被差别编码。在许多视频编解码器中,预测的运动向量以预定义方式被产生,例如通过计算相邻块的编码或解码的运动向量的中值。产生运动向量预测的另一种方式(有时称为高级运动向量预测(AMVP))是从时间参考图片中的相邻块和 /或共位块生成候选预测列表,并用信号通知所选的候选为运动向量预测器。除了预测运动向量值以外,还能够预测之前编码/解码的图片的参考索引。参考索引可以从时间参考图片中的相邻块和/或共位块被预测。运动向量的差分编码在切片边界可以被禁用。
-例如从CTU到CU和下至PU的快划分可以被预测。
-在滤波器参数预测中,例如用于采样自适应偏移的滤波参数可以被预测。
分类不同类型的可以在视频编码和/或视频解码中应用的预测的另一方式是考虑该预测跨了哪些域或缩放性类型。该分类可以导致以下预测类型的一个或多个,其有时也可以成为预测方向:
-从一般相同缩放性层、视图和分量类型(纹理或深度)的较早图片的例如采样值或运动向量的时间预测。
-视图间预测(其也可以成为跨视图预测),涉及预测发生在一般相同时刻或接入单元和相同分量类型的视图分量之间。
-层间预测,涉及预测发生在一般相同时刻、相同分量类型和相同视图的层之间。
-分量间预测可以被定义为包括从一种类型的分量图片到另一种类型的分量图片的解码过程中使用的语义元素值、采样值、变量值等的预测。例如,分量间预测可以包括从深度视图分量的纹理视图分量的预测,或反之亦然。
使用来自之前编码的图像的图像信息的预测方式也能成为间预测方法。间预测可以有时被认为仅包括运动补偿时间预测,而其有时可以被认为包括所有类型的预测,其中重构/解码的采样块被用作预测源,因此包括例如常规的视图间预测。间预测可以被认为包括仅采样预测,但是其可以可替换地被认为包括采样和语义预测两者。作为语义和采样预测的结构,可以得到采样的像素的预测块。
使用相同图像内的图像信息的预测方式也能够称为内预测方法。内预测可以被认为包括仅采样预测,但其可以可替换地被认为包括采样和语义预测两者。
如果例如预测的变量值和/或预测块的预测没有由编码器使用任意形式的预测误差或残差编码来改善,则预测可以称为继承。
称为隔离区的编码技术是基于联合约束图片中预测和间预测的。图片中的隔离区能够得到任意宏块(或类似的)位置,且图片能够得到没有重叠的零个或更多个隔离区。剩余区(如果有)是图片的任意隔离区没有覆盖的图片的区域。当编码隔离区时,在其边界禁用至少一些类型的图片中预测。剩余区可以从相同图片的隔离区被预测。
在没有相同编码的图片的任意其他隔离或剩余区的情况下能够解码编码的隔离区。可能需要在剩余区之前解码图片的所有隔离区。在一些实施中,隔离区或剩余区包含至少一个切片。
其隔离区从彼此被预测的图片可以被分组到隔离区图片组。隔离区能够从相同隔离区图片组内的其他图片中的相应隔离区被间预测,而从其他隔离区或隔离区图片组之外的间预测可以不被允许。剩余区可以从任意隔离区被间预测。耦合的隔离区的形状、位置和尺寸可以在隔离区图片组中从一个图片演进到另一个图片。
H.264/AVC编解码器中的隔离区的编码可以基于切片组。宏块位置到切片组的映射可以在图片参数集中被指定。H.264/AVC语义包括用于编码某些切片组模式的语义,该模式能够被分类成两种,静态和演进。静态切片组保持不变,只要图片集是有效的,而演进切片组能够根据图片参数集中的相应参数和切片头中的切片组改变周期参数在图片间是改变的。静态切片组模式包括交织、棋盘、矩形导向和自由形态。演进切片组模式包括水平擦除、垂直擦除、盒状收缩、盒状放大。矩形导向模式和演进模式尤其适用于隔离区的编码且在下面更详细描述。
针对矩形导向切片组模式,在图片区内指定期望数量的矩形。前景切片组包括在相应矩形内的宏块位置但是排除已经由较早指定的切片组分配的宏块位置。剩余切片组包含前景切片组没有覆盖的宏块。
通过指定宏块位置的扫描顺序和切片组的尺寸的变化率(每图片宏块的数量)来指定演进切片组。每个编码的图片与切片组改变周期参数(在切片头中传达)相关联。改变周期乘以改变率指示第一切片组中的宏块数量。第二切片组包含其余的宏块位置。
在H.264/AVC中,在切片组边界禁用图片中预测,因为切片组边界位于切片边界。因此,每个切片组是隔离区或剩余区。
每个切片组具有图片内的识别号。编码器能够以这样的方式来限制运动向量:它们仅涉及属于具有与要被编码的切片组相同的识别号的切片组的解码的宏块。编码器应当考虑一事实:在分数像素内插中需要一范围的源采样且所有源采样应当在特定切片组内。
H.264/AVC编解码器包括解块环滤波器。环滤波器被应用于每个4x4 块边界,但是环滤波能够被编码器在切片边界处关闭。如果在切片边界处关闭了环滤波,则当执行渐进随机接入时能够实现在解码器处的完美重构的图片。否则,重构的图片在内容上是不完美的,即使在恢复点以后。
H.264/AVC标准的恢复点SEI消息和运动约束切片组集SEI消息能够用于指示一些切片组使用限制的运动向量被编码为隔离区。解码器可以使用该信息例如来实现更快的随机接入或通过忽略剩余区来节省处理时间。
已经针对HEVC提出了子图片概念,例如在文献JCTVC-I0356< http://phenix.int-evry.fr/jct/doc_end_user/documents/9_Geneva/wg11/JCT VC-I0356-v1.zip>中,其与h.264/AVC的矩形隔离区或矩形运动约束切片组集类似。JCTVC-I0356中提出的子图片概念在下面被描述,但应当理解子图片可以其他类似被定义但不与下面描述的完全一致。在子图片概念中,图片被划分为预定义的矩形区。每个子图片可以作为单独图片被处理,除了构成图片的所有子图片共享相同的全局信息,例如SPS、PPS和参考图片集。子图片在几何形状上与瓦片类似。其属性如下:它们是在序列级指定的LCU对准的矩形区。图片中的子图片可以按图片的子图片栅扫描被扫描。每个子图片开始新的切片。如果图片中存在多个瓦片,子图片边界和瓦片边界被对准。在子图片间没有环滤波。没有子图片外的采样值和运动信息的预测,且在使用子图片外的一个或多个采样值得到的分数采样位置没有采样值可以用于间预测子图片内的任意采样。如果运动向量指向子图片外的区域,则可以应用为图片边界定义的填充过程。在子图片内以栅扫顺序扫描LCU,除非子图片包含多于一个瓦片。子图片内的瓦片以子图片的瓦片栅扫描被扫描。瓦片不能跨越子图片边界,除了默认每图片一个瓦片的情况。在图片级可用的所有编码机制在子图片级被支持。
在HEVC中,已经进行了一些改进以使得编解码器更好使用并行化,即并行处理编码和/或解码任务,因此更有效地使用现代多核处理器架构。当切片原则上能够用于并行化解码器时,使用用于并行化的切片典型地导致相对差的编码效率。波前处理的概念已经引用到HEVC以改进并行化的使用。
为了实现波前处理,编码器和/或解码器使用之前CTU行的第二CTU 的CABAC状态作为当前CTU行的初始CABAC状态。因此,当之前CTU 的第二CTU已经结束时能够开始当前CTU行的处理。由于该特性,能够以并行方式处理CTU行。一般来说,可以例如在编码标准中预先定义哪个CTU用于传输CTU的之前行的熵(解)编码状态,或其可以在比特流中由编码器确定和指示和/或从比特流由解码器解码。
HEVC中的波前处理可以用在两种并行化方式中,即波前并行处理 (WPP)和重叠波前(OWF)。WPP允许在不用导致高编码损耗的情况下产生能够被并行处理的图片划分。
WPP并行处理编码树单元(CTU)的行,同时保留所有编码依赖性。在WPP中,熵解码、预测编码以及环路滤波能够被应用在单个处理步骤中,其更直接实施WPP。而OWF实现重叠连续图片的执行。当当前图片中的编码树单元行的处理已经完成且没有更多的行可用时,下一个图片的处理能够开始而不是等待当前图片完成。
当针对波前处理约束了编码的图片时或当已经使用了瓦片时,可以在比特流中对CTU行或瓦片(分别)进行字节对准,其可以被开始代码超前。此外,进入点可以被提供在比特流中(例如在切片头中)和/或外部提供(例如在容器文件中)。进入点是字节指针或字节计数或类似的直接参考机制,用于CTU行(针对波前使能的编码的图片)或瓦片的开始。在HEVC中,可以使用切片头的entry_point_offset_minus1[i]指定进入点。在HEVC文件格式(ISO/IEC 14496-15)中,子采样信息框可以提供进入点的信息。在一些情况中,代替进入点或作为其附加,当针对波前处理约束编码的图片时从属的切片片段可以例如针对CTU行被形成,且因此从属切片片段NAL单元的开始可以用于确定CTU行边界。
可缩放视频编码涉及编码结构,其中一个比特流能够包含不同比特率、分辨率或帧率的内容的多个表示。在这些情况中,接收器能够依据期望的表示的特性(例如最佳匹配显示设备的分辨率)提取该期望的表示。可替换地,服务器或网络元件能够依据例如接收器的网络特性或处理能力提取要被传送给接收器的比特流的部分。可缩放比特流典型地包括提供可用的最低质量视频的“基层”和当与较低层一起接受和解码时增强视频质量的一个或多个层。为了改善增强层的编码效率,该层的编码的表示典型地依据较低层。例如增强层的运动和模式信息能够从较低层被预测。类似地较低层的像素数据能够用于产生增强层的预测。
在一些可缩放视频编码方案中,视频信号能够被编码成基层和一个或多个增强层。增强层可以增强时间分辨率(即帧率)、空间分辨率、或简单地另一层表示的视频内容的质量或其部分。每个层与其所有从属层一起是在某空间分辨率、时间分辨率和质量级的视频信号的一个表示。在本文中,我们将可缩放层与其所有从属层一起称为“可缩放层表示”。对应于可缩放层表示的可缩放比特流的部分能够被提取和解码以产生在某保真度的初始信号的表示。
一些编码标准允许产生可缩放比特流。通过仅解码可缩放比特流的某些部分能够产生有意义的解码的表示。可缩放比特流能够用于例如流服务器中的预编码单播流的速率适应和用于将单比特流传输到具有不同能力和 /或不同网络条件的终端。能够在ISO/IECJTC1SC29WG11(MPEG) output document N5540,“Applications and Requirements forScalable Video Coding”,the 64th MPEG meeting,March 10to 14,2003,Pattaya,Thailand中找到用于可缩放视频编码的一些其他用例的列表。
在一些情况中,能够在某位置或甚至在任意位置缩短增强层中的数据,其中每个缩短位置可以包括表示逐渐增强的视觉质量的另外数据。这些可缩放性称为细粒度(粒度)可缩放性(FGS)。
SVC使用层间预测机制,其中某信息能够从当前重构层或下一个较低层以外的层被预测。能够被层间预测的信息包括内纹理、运动和残差数据。层间运动预测包括块编码模式、头信息等的预测,其中从较低层的运动可以用于较高层的预测。在内编码的情况中,从较低层的周围宏块或共位宏块的预测是可能的。这些预测技术不使用来自较早编码的接入单元的信息,且因此被称为内预测技术。此外,来自较低层的残差数据还能够用于当前层的预测。
可缩放视频(解)编码可以实现称为单环解码的概念,其中解码的参考图片被重构仅用于被解码的最高层,同时在较低层的图片可以不被完全解码或在使用它们用于层间预测之后可以被丢弃。在单环解码中,解码器执行运动补偿和全图片重构仅用于期望用于回放的可缩放层(称为“期望层”或“目标层”),因此当与多环解码相比时降低解码复杂性。该期望层以外的所有层不需要被完全解码,因为编码的图片数据的所有或部分不需要用于期望层的重构。但是,较低层(比目标层低)可以用于层间语义或参数预测,例如层间运动预测。此外或可替换地,较低层可以用于层间内预测且因此较低层的内编码块可以必须被解码。此外或可替换地,层间残差预测可以被应用,其中较低层的残差信息可以用于目标层的解码且残差信息可以需要被解码或重构。在一些编码配置中,需要单解码环用于解码多数图片,而第二解码环可以被选择性应用以重构所谓的基础表示(即,解码的基层图片),其可以被需要作为预测参考但是不用于输出或显示。
SVC允许使用单环解码。其通过使用约束的内纹理预测模式来实现,由此层间内纹理预测能够被应用到宏块(MB),针对该MB基层的相应块位于内MB内。同时,基层中的这些内MB使用约束的内预测(例如,具有等于1的语义元素“constrained_intra_pred_flag”)。在单环解码中,解码器仅针对用于回放期望的可缩放层(称为“期望层”或“目标层”) 执行运动补偿和全图片重构,由此极大降低了解码复杂度。期望层以外的所有层不需要被全解码,因为不用于层间预测(层间内纹理预测、层间运动预测或层间残差预测)的MB的数据的全部或部分不需要用于期望层的重构。
单解码环需要用于多数图片的解码,而第二解码环可选择被应用以重构基础表示,其被需要作为预测参考但是不用于输出或显示,且被重构仅用于所谓的关键图片(针对此的“store_ref_base_pic_flag”等于1)。
FGS被包含在SVC标准的一些草案版本中,但是其最终被排除在最终SVC标准之外。之后在SVC标准的一些草案版本的上下文中讨论FGS。不能被缩短的这些增强层提供的缩放性称为粗粒(粒度)缩放性(CGS)。其共同地包括传统质量(SNR)缩放性和空间缩放性。SVC标准支持所谓的中粒缩放性(MGS),其中质量增强图片类似于SNR可缩放层图片被编码但是类似于FGS层图片由高级语义元素指示,具有大于0的quality_id 语义元素。
SVC草案中的缩放性结构的特征有三个语义元素:“temporal_id”、“dependency_id”和“quality_id”。语义元素“temporal_id”用于指示时间缩放性层级,或间接地帧率。包括更小最大“temporal_id”值的图片的可缩放层表示具有比包括更大最大“temporal_id”的图片的可缩放层表示更小的帧率。给定时间层典型地依据较低时间层(即,具有较小“temporal_id”值的时间层)但是不依据任意较高时间层。语义元素“dependency_id”用于指示CGS层间编码依赖性层级(其如上所述,包括SNR和空间缩放性)。在任意时间级位置,较小“dependency_id”值的图片可以用于具有较大“dependency_id”值的图片编码的层间预测。语义元素“quality_id”用于指示FGS或MGS层的质量级层级。在任意时间位置,且具有相同的“dependency_id”值,具有等于QL的“quality_id”的图片使用具有等于 QL-1的“quality_id”的图片用于层间预测。具有大于0的“quality_id”的编码的切片可以被编码为可缩短的FGS切片或非可缩短的MGS切片。
为了简便,具有相同的“dependency_id”值的一个接入单元中的所有数据单元(例如,SVC上下文中的网络抽象层单元或NAL单元)称为依赖单元或依赖表示。在一个依赖单元内,具有相同的“quality_id”值的所有数据单元被称为质量单元或层表示。
基础表示,也称为解码的基础图片,是从解码具有等于0的“quality_id”的依赖单元的视频编码层(VCL)NAL单元得到的解码的图片,且对此“store_ref_base_pic_flag”被设置为1。增强表示,也称为解码的图片,从常规解码过程得到,其中针对最高依赖表示存在的所有层表示被解码。
如上所述,CGS包括空间缩放性和SNR缩放性。空间缩放性初始被设计以支持具有不同分辨率的视频的表示。针对每个时刻,VCL NAL单元在相同的接入单元中被编码且这些VCL NAL单元能够对应于不同的分辨率。在解码期间,低分辨率VCL NAL单元提供运动字段和残差,其能够可选地集成自高分辨率图片的最终解码和重构。当与较早视频压缩标准比较时,SVC的空间缩放性已经被一般化以使得基层是增强层的裁剪的和缩放的版本。
MGS质量层用“quality_id”来指示,与FGS质量层类似。针对每个依赖单元(具有相同的“dependency_id”),有“quality_id”等于0的层且能够有“quality_id”大于0的其他层。“quality_id”大于0的这些层是MGS层或FGS层(依据切片是否被编码为可缩减的切片)。
在FGS增强层的基础形式中,仅使用层间预测。因此,FGS增强层能被自由裁剪而不会造成解码序列的任何错误传播。但是,FGS的基础形式面临低压缩效率。该问题会发生是因为仅低质量图片用于间预测参考。因此提出了FGS增强的图片用作间预测参考。但是,这当丢弃一些FGS 数据时可以导致编码-解码不匹配,也称为漂移。
草案SVC标准的一个特征是FGS NAL单元能够被自由地丢掉或裁剪,且SVCV标准的特征是MGS NAL单元能够被自由丢掉(但不能被裁剪)而不会影响比特流的一致性。如上所述,当这些FGS或MGS数据在编码期间已经用于间预测参考,则数据的丢掉或裁剪会导致解码器侧中的解码的图片与编解码侧中的解码的图片之间的不匹配。该不匹配也称为漂移。
为了控制由于FGS或MGS数据的丢弃或裁剪的漂移,SVC应用以下方案:在某依赖单元中,基础表示(通过仅解码“quality_id”等于0的CGS 图片和所有依赖的较低层数据)被存储在解码图片缓冲器中。当编码具有相同“dependency_id”值的后续的依赖单元时,所有NAL单元,包括FGS 或MGS NAL单元,使用该基础表示用于间预测参考。因此,由于较早接入单元中的FGS或MGS NAL单元的丢弃或裁剪的所有漂移在该接入单元处被停止。针对具有相同“dependency_id”值的其他依赖单元,所有NAL 单元使用用于间预测参考的该解码的图片,以为了高编码效率。
每个NAL单元在NAL单元头中包括语义元素“use_ref_base_pic_flag”。当该元素的值等于1时,NAL单元的解码在间预测过程期间使用参考图片的基础表示。该语义元素“store_ref_base_pic_flag”指定是(当等于1时)否(当等于0时)为将来的图片存储当前图片的基础表示以用于间预测。
“quality_id”大于0的NAL单元不包含与参考图片列表构成有关的语义元素,且加权预测即语义元素“num_ref_active_lx_minus1”(x=0或1)、参考图片列表重排序语义表和加权预测语义表不存在。因此,MGS或FGS 层必须在需要时从相同依赖单元的具有“quality_id”等于0的NAL单元继承这些语义元素。
在SVC中,参考图片列表包括仅基础表示(当“use_ref_base_pic_flag”等于1时)或仅没有标记为“基础表示”的解码的图片(当“use_ref_base_pic_flag”等于0时),这两者不会同时存在。
已经在SVC中指定了可缩放织网(nesting)SEI消息。可缩放织网 SEI消息提供用于将SEI消息与比特流的子集(例如指示的依赖表示或其他可缩放层)相关联的机制。可缩放织网SEI消息包含不是可缩放织网SEI 消息本身的一个或多个SEI消息。可缩放织网SEI消息中包含的SEI消息称为织网SEI消息。没有包含在可缩放织网SEI消息中的SEI消息称为非织网SEI消息。与可缩放织网SEI消息类似的SEI消息已经在MVC中被指定用于指示该织网SEI消息应用到哪些视图。与可缩放织网SEI消息类似的另一SEI消息已经在H.264/AVC的多视图和深度扩展(也称为 MVC+D)中被指定以指定该织网SEI消息应用到哪些纹理和/或深度视图。 H.264/AVC还包括类似的可缩放织网SEI消息。
用于质量缩放性(也称为信噪比或SNR)和/或空间缩放性的可缩放视频编解码器可以如下实施。针对基础层,使用常规的非可缩放视频编码器和解码器。基础层的重构的/解码的图片被包含在参考图片缓冲器中用于增强层。在H.264/AVC、HEVC和使用参考图片列表用于间预测的类似的编解码器中,基础层解码的图片可以被插入到参考图片列表用于类似于增强层的解码的参考图片编码/解码增强层图片。因此,编码器可以选择基础层参考图片作为间预测参考并典型地在编码的比特流中用参考图片索引来指示其使用。解码器从该比特流(流入从参考图片索引)解码出基础层图片用作用于增强层的间预测参考。当解码的基础层图片用作用于增强层的预测参考时,其成为层间参考图片。
除了质量缩放性,还存在下面的缩放性模式:
·空间缩放性:在比增强层图片低的分辨率编码的基础层图片。
·位深缩放性:在比增强层图片(例如10或12比特) 低的位深(例如8比特)编码的基础层图片。
·色度格式缩放性:基础层图片提供比增强层图片(流入4:4:4格式)更低的色度保真度(例如在4:2:0格式编码)。
·色域缩放性,其中增强层图片具有比基础层图片更丰富/更宽的颜色表示范围,例如增强层可以具有UHDTV (ITU-R BT.2020)色域以及基础层可以具有ITU-R BT.709 色域。
·视图缩放性,其中不同的层表示多视图视频的不同视图。
·深度缩放性,其中某些层可以表示常规颜色视频内容且其他的可以表示测距信息、差别、深度等。
·辅助图片缩放性,其中某些层可以表示辅助视频内容,例如α平面,其可以用于例如指示透光或透明度信息,或色度键值。
在上述缩放性情况的所有中,基础层信息能够用于编码增强层以最小化另外的比特流开销。
帧封装涉及多于一个的帧在编码器侧被封装成单个帧的方法,作为用于编码的预处理步骤且然后使用常规2D视频编码方案编码帧封装的帧。因此解码器产生的输出帧包含其组成帧,对应于在编码器侧被空间封装成一个帧的输入帧。帧封装可以用于立体视频,其中一对帧,一个对应于左眼/相机/视图和另一个对应于右眼/相机/视图,被封装成单个帧。帧封装还可以或可替换地用于深度或差异增强视频,其中组成帧的一个表示对应于包含常规颜色信息(亮度和色度信息)的另一组成帧的深度或差异信息。帧封装的使用可以在视频比特流中用信号通知,例如使用H.264/AVC的帧封装配置SEI消息或类似的。帧封装的使用还可以或可替换地通过视频接口来指示,例如高清多媒体接口(HDMI)。帧封装的使用还可以或可替换地使用各种能力交换和模式协商协议(例如会话描述协议(SDP))来指示和/或协商。
可用的媒体文件格式标准包括ISO基础媒体文件格式(ISO/IEC 14496-12,其可以简写为ISOBMFF)、MPEG-4文件格式(ISO/IEC 14496-14,也称为MP4格式)、用于NAL构建的媒体的文件格式(ISO/IEC 14496-15)和3GPP文件格式(3GPP TS 26.244,也称为3GP格式)。ISO/IEC 14496-15最初被开发为用于H.264/AVC的文件格式。SVC和MVC文件格式被指定为对AVC文件格式的修改。后来,HEVC的支持被添加到 ISO/IEC 14496-15。ISO文件格式是所有上述文件格式衍生的基础(除了 ISO文件格式本身)。这些文件格式(包括ISO文件格式本身)统称为文件格式ISO族。
ISO基础媒体文件格式中的基础构造块称为框。每个框具有头和净荷。框头指示框的类型和框在字节方面的尺寸。框可以包围其他框,且ISO文件格式指定在某类型的框内允许哪些框类型。此外,一些框的存在在每个文件中可以是强制性的,而其他框的存在可以是可选的。此外,针对一些框类型,可允许在文件中具有多于一个框存在。因此,ISO基础媒体文件格式可以被认为指定框的层级结构。
根据文件格式的ISO族,文件包括被分离的框包围的媒体数据和元数据。在示例实施方式中,媒体数据可以在媒体数据(mdat)框中被提供且电影(moov)框可以用于包围源数据。在一些情况中,针对可操作的文件,必须存在mdat和moov。电影(moov)框可以包括一个或多个轨道,且每个轨道可以位于一个相应的轨道框中。轨道可以是以下类型之一:媒体、线索、定时的元数据。媒体轨道涉及根据媒体压缩格式(且其封装到ISO 基础媒体文件格式)格式化的采样。线索轨道涉及线索采样,包含用于构建通过指示的通信协议传输的分组的码本指令。码本指令可以包括分组头构建的指导和包括分组净荷构建。在分组净荷构建中,位于其他轨道或项的数据可以被参考。这样例如,位于其他轨道或项的数据可以通过参考来指示关于特定轨道或项中的哪个数据被指令在分组构建过程期间被复制到分组。定时的元数据轨道可以涉及描述涉及的媒体和/或线索采样的采样。针对一个媒体类型的表示,典型地一个媒体轨道被选择。轨道的采样可以与在采样的指示的解码顺序中被累加1的采样号隐式相关联。轨道中的第一个采样可以与采样号1相关联。
可以如下描述根据ISO基础媒体文件格式的简化的文件结构的示例。该文件可以包括moov框和mdat框且该moov框可以包括分别对应于视频和音频的一个或多个轨道。
ISO基础媒体文件格式不将表示限制到包含在一个文件中。这样,表示可以被包括在多个文件中。作为示例,一个文件可以包括用于整个表示的元数据且可以由此包括所有媒体数据以使得该表示自我包含。其他文件 (如果被使用)可以不需要被格式化成ISO基础媒体文件格式,且可以用于包括媒体数据,且还可以包括未使用的媒体数据,或其他信息。ISO基础媒体文件格式涉及仅表示文件的结构。媒体数据文件的格式可以由ISO 基础媒体文件格式或其派生格式约束,仅因为媒体文件中的媒体数据如 ISO基础媒体文件格式或其派生的格式指定的被格式化。
涉及外部文件的能力可以通过参考来实现。在一些情况中,包含在每个轨道中的采样描述框可以提供采样项的列表,每个提供关于使用的编码类型的详细信息,和编码所需的任何初始化信息。数据块(chunk)的所有采样和轨道片段的所有采样可以使用相同的采样项。数据块可以被定义为针对一个轨道的采样的连续集合。也包含在每个轨道中的数据参考 (dref)框可以定义统一资源定位符(URL)、统一资源名(URN)和/ 或包含元数据的文件的自参考的索引列表。采样项可以指向数据参考框的一个索引,由此指示包含各自的数据块或轨道片段的采样的文件。
一些视频用例可以需要提取高分辨率视频的部分。这样的用例包括例如放大到该视频中的某区域,跟随视频中的某些对象或修改或分析视频序列中的有区域中的内容。这样的用例的最直接的实施可以涉及解码完整图片并对此执行期望的操作。这种方式导致对计算操作的高需求,增加了功率消耗并降低处理速度。
如上所述,H.265/HEVC中的瓦片和H.265/HEVC和H.264/AVC中的切片允许视频编码器产生能够彼此独立被解码的预定义图片区域。解码器然后可以选择其需要解码哪些瓦片或切片以接入感兴趣的采样值。这种方式的缺点之一是编码器需要将图片分割成瓦片或切片的固定格。单独瓦片的区域越小,能够独立解码的特定像素区域越多,但是同时编码效率严重降低,因为编码器不能使用来自其他切片或瓦片带的信息来预测当前切片或瓦片中的信息或来自其他切片或瓦片的信息的仅子集可以被允许用于预测当前切片中的信息。另一个缺点是解码器需要典型地解码实际感兴趣区域外的大量像素,因为其需要解码与感兴趣区域相交的所有切片和瓦片。
现在为了解码视频帧内的感兴趣区域而不需要全部解码该区域外的不必要的数据,下面介绍用于执行对视频帧内这样的区域的随机接入的改进方法。
在一方法中,其在图5中被公开,编码的视频表示从比特流被解码,由此标识符被解码(500),该标识符指示比特流范围内的所有采样已经使用预测限制被编码。确定(502)该范围覆盖了图片内的感兴趣区域。然后在解析模式中解码(504)按解码顺序在所述感兴趣区域前面的至少第一编码单元,由此属于所述至少第一编码单元的语义元素被解析,但是所述语义元素的采样重构过程被完全或部分省略,且属于所述感兴趣区域的至少第二编码单元被解码(506)由此属于所述至少第二编码单元的语义元素被解析且对所述语义元素执行采样重构过程。
根据一个实施方式,所述预测限制包括以下一者或多者:
-没有内编码已经用于采样;
-没有内预测已经用于采样;
-没有图片中采样预测已经用于采样;
-没有在采样的基础单元的边界使用内预测;
-没有在采样的基础单元的边界使用图片中采样预测;
-仅图片间的预测用于采样。
如上所述的采样的基础单元可以在不同实施方式中是例如以下的一者:
-编码树单元(如在H.265/HEVC中)或宏块(如在H.264/AVC中),等等;
-编码单元(如在H.265/HEVC中)等;
-瓦片(如在H.265/HEVC中)、切片组(如在H.264/AVC中),等等;
-切片(例如矩形切片)等。
根据不同的实施方式,采样的基础单元可以用于推断感兴趣区域可以被定义和/或图片能够被接入的空间粒度。例如,如果采样的基础单元是 CTU,则感兴趣区域可以被定义为包括某些CTU和/或图片可以从任意 CTU被接入。
在一些实施方式中,采样的基础单元可以在例如编码标准中被预定义。在一些实施方式中,采样的基础单元可以由编码器或文件产生器等在比特流或文件中被指示,且由解码器或文件解析器等从比特流或文件被解码。
根据一实施方式,方法还包括推断或解码该范围是以下一者或多者:
-比特流;
-比特流的间预测图片‘
-比特流内的至少一个缩放性层;
-图片;
-感兴趣区域。
因此,通过在限制地编码的图片中限制编码工具的使用(由此,在视频帧中的感兴趣区域内的采样值之间没有空间依赖性)并指示该比特流中的该限制来向编码的视频表示中的采样值提供细粒度接入。解码器被配置成读取该指示并然后通过仅解析比特流直到代表感兴趣区域的采样值的位置并从解析模式切换到全解码模式以恢复感兴趣区域内的采样数据来生成编码的采样值。
图6中示出了解码过程的示例,其中视频帧650包括感兴趣区域652,其中属于该感兴趣区域的编码单元被限制地编码,例如由此在感兴趣区域内不允许内编码。该感兴趣区域代表执行空间随机接入所在的区域。编码单元654是在解码顺序中在所述感兴趣区域前面的编码单元,且其在解析模式中被解码,由此属于该编码单元654的语义元素被解析,但是所述语义元素的采样重构过程被省略。而编码单元656是属于所述感兴趣区域的编码单元,且其在全解码模式中被解码由此属于该编码单元656的语义元素被解析且对所述语义元素执行采样重构过程。
根据一个实施方式,解码器可以选择要在解析模式中被解码的第一编码单元,即仅解析,且解码器可以省略解析和解码在解码顺序中在该第一编码单元前面的编码单元。
根据一个实施方式,当没有使用瓦片或波前时(或单个瓦片覆盖整个图片),要在解析模式中被解码的第一编码单元可以是在解码顺序中刚好在在全解码模式中被解码的区域的左上编码单元前面的切片的第一编码单元。换句话说,可以选择解码顺序中的最后的切片,其左上的编码单元是要在全解码模式中被解码的区域的左上的编码单元或在它前面。要在解析模式中被解码的编码单元包括按解码顺序该切片的编码单元,直到要在全解码模式中被解码的区域的左上的编码单元(不含)。
根据一个实施方式,当使用波前时,要在解析模式中被解码的第一编码单元可以是CTU行的第一编码单元,该行包含要在全解码模式中被解码的区域的左上的编码单元。解码器可以定位针对CTU行的编码数据的开始,例如从在比特流中指示的进入点,或其他。例如,解码器可以使用H.265/HEVC的entry_point_offset_minus1[i]语义元素。根据实施方式,仅具有指示的进入点的CTU行在确定要在解析模式中被解码的第一编码单元中被考虑。
根据一个实施方式,当使用了瓦片时,要在解析模式中被解码的第一编码单元可以是在解码顺序中刚好在在全解码模式中被解码的区域的左上编码单元的前面的瓦片的第一编码单元。解码器可以定位针对瓦片的编码数据的开始,例如从在比特流中指示的进入点,或其他。例如,解码器可以使用H.265/HEVC的entry_point_offset_minus1[i]语义元素。根据一个实施方式,仅具有指示的进入点的瓦片在确定要在解析模式中被解码第一编码单元中被考虑。
根据一个实施方式,解码器可以基于在编码编码单元中使用的是切片、瓦片和/或波前来选择省略解析和解码的编码单元。
根据一个实施方式中,当没有使用瓦片或波前且切片甚至不是部分在要在全解码模式中被解码的区域中时,可以省略切片的解析和解码。
根据一个实施方式,当使用了波前且CTU甚至不是部分在要在全解码模式中被解码的区域中时,可以省略CTU行的解析和解码。
根据一个实施方式,当使用了瓦片且瓦片甚至不是部分在要在全解码模式中被解码的区域中时,可以省略瓦片的解析和解码。
根据一个实施方式,如果期望图片的全解码,则解码器能够针对完整的图片运行在全解码模式中。
根据一个实施方式,当预测限制应用到采样的基础单元,例如CTU 时,全解码模式被约束到符合预测限制。例如,如果预测限制是不允许在 CTU的边界进行内预测,则全解码模式被修改为不适用CTU外的采样用于CTU内的采样的内预测。所述的全解码模式可以在其他实施方式应用或可以在以下方法等独立应用:编码的视频表示从比特流被解码由此标识符被解码,该标识符指示比特流的范围内的采样的基础单元是否使用预测限制被编码。作为指示比特流的范围内的采样的基础单元是否使用预测限制被编码的该标识符的响应,在采样的基础单元的预测中省略该范围内的采样的基础单元之外的采样。作为指示比特流的范围内的采样的基础单元是否使用预测限制被编码的该标识符的响应,在采样的基础单元的预测中使用该范围内的采样的基础单元外的采样。
根据一个实施方式,所述标识符应用的感兴趣区域能够是完整的视频帧、切片、瓦片、帧封装的视频的组成图片或其他方式指示的区域。
这里限制编码的采样能够涉及已经使用时间方式预测的采样,例如运动补偿预测。根据一个实施方式,除了指示视频帧中的感兴趣内的所有采样被限制地编码,其可以还被指示针对感兴趣区域禁用环路滤波过程(例如解块滤波器,SAO)。该禁用能够:
-感兴趣区域内没有某或某些类型的边缘使用环路滤波。例如,可以指示在感兴趣区域内的切片边缘的任意和/或感兴趣区域内的切片边缘的任意上不应用环路滤波。
-针对环路滤波限制仅感兴趣区域的边界处的边缘。
根据一个实施方式,全解码模式可以涉及当仅区域被解码时的修改的解码过程(其不同于标准兼容解码)。例如,边缘像素的环路滤波可以被省略,因为该区域外的像素不可用。可替换地,仅在感兴趣区域的边界处的编码单元能够在修改的解码模式中被解码。
图7示出了针对感兴趣区域的应用修改的解码过程的示例。视频帧700 包括感兴趣区域702,其中属于该区域的编码单元被限制编码。编码单元 704是在解码顺序中在所述感兴趣区域前面的编码单元,且其在解析模式中被解码。而编码单元706是属于所述感兴趣区域的编码单元,且其如上所述在全解码模式中被解码。在该示例中,修改的解码过程已经被定义,由此仅在感兴趣区域的边界处的编码单元在修改的解码模式中被解码。因此,编码单元708是在修改的解码模式中被解码的编码单元。
根据一个实施方式,不是指示区域内的所有像素被间编码,而是可以指示没有在感兴趣区域的边界处的编码单元被内编码,而是其余的编码单元能够被内或间编码。
图8示出了没有被内编码的感情戏区域的边界处的编码单元的示例。视频帧800包括感兴趣区域802,其中属于该区域的编码单元被限制地编码。
参考短语例如“所有块已经被间预测/编码”或“没有内编码已经被使用/允许”描述不同的实施方式。需要理解实施方式能够使用其他类似的短语表达类似实现且通过参考某些类型预测/编码已经用于所有块或没有某些其他类型的预测/编码已经被使用。例如,实施方式能够参考以下来实现:
-没有内编码已经被使用
-没有内预测已经被使用
-没有任何类型的图片中采样预测已经被使用
-LCU或CTU边界没有内预测已经被使用(但是LCU或 CTU内的内预测可以已经被使用)
-在LCU或CTU边界没有任何类型的图片中采样预测已经被使用(但是LCU或CTU内的图片中采样预测可以已经被使用)
-仅图片之间的预测已经或被允许被使用,其中该预测可以是任意类型,包括但不限于:
--时间预测,也称为间预测,也称为层间预测
--层间预测
--视图间预测
--分量间预测,例如从纹理到深度,或反之亦然
-图片之间仅特定类型的预测已经或被允许被使用(例如以上类型的一个或多个)。
根据一个实施方式,编码器和/或解码器可以针对编码的图片的至少一个点或编码树或编码单元生成熵解码进入点(EDEP)(之后,EDEP)。 EDEP数据可以实现从EDEP开始解析过程。EDEP数据可以包括在EDEP 的熵解码器的上下文和状态。EDEP数据还可以包含针对编码的数据内的位置的指针或另一指示符,其可以例如能够指示编码的图片内的EDEP的比特位置。存储EDEP数据的格式可以例如在标准中被指定或可以是专有的。EDEP数据可以存储在例如可选框中的容器文件中和/或EDEP数据可以存储在容器文件外部。EDEP数据可以例如在针对图片的某部分的随机接入期望被频繁执行时(例如当空间区域被用作用于图库或类似物的封面图片或类似的)被生成。编码器和/或解码器和/或文件生成器和/或文件编辑器和/或文件解析器/播放器可以存储EDEP数据。
根据一个实施方式,解码器可以类似于CTU行(当波前已经被使用时)或瓦片的进入点解码并使用EDEP数据,以选择要在解析模式中解码的第一编码单元。换句话说,要在解析模式中解码的第一编码单元可以是切片或瓦片或CTU行(当已经使用波前时)的EDEP或第一编码单元,以解码顺序中后面的为准,在解码顺序中刚好在要在全解码模式中被解码的区域的左上的编码单元的前面。
根据一个实施方式,当具有EDEP数据的比特流或文件被复制或移动到另一物理存储介质和/或另一文件时,可以关于所述复制或移动移除该 EDEP数据。类似地,如果比特流或文件被传输,EDEP数据可以被移除或从省去传输。因此,在一些实施方式中,EDEP数据可以被认为是元数据,其帮助加速和/或简化对解码图片内的空间区域的随机接入。
上述实施方式可以在解码器中实施,该解码器被配置成从比特流解码编码的视频表示。图9示出了适合用于使用本发明的实施方式的视频解码器的框图。
例如关于图9描述的解码过程可以被认为是在各种实施方式中的采样重构过程。应当理解导致从编码的输入信号(例如比特流)的解码的采样或像素值的任意过程可以被认为是采样重构过程。采样重构过程可以排除熵解码。
解码器包括熵解码器600,其对接收的信号执行熵解码,作为对上述的编解码器的熵编码器330的逆操作。熵解码器600输出熵解码结果给预测误差解码器602和像素预测器604。
像素预测器604接收熵解码器600的输出。像素预测器604内的预测器选择器614确定要执行内预测、间预测还是内插操作。预测器选择器还可以输出图像块616的预测的表示给第一组合器613。图像块616的预测的表示与重构预测误差信号612结合用于生成初步重构图像618。该初步重构图像618可以在预测器614中被使用或可以被传递给滤波器620。滤波器620应用滤波,其输出最终的重构信号622。最终的重构信号622可以被存储在参考帧存储器624中,该参考帧存储器624还被连接到预测器 614用于预测操作。
预测误差解码器602接收熵解码器600的输出。预测误差解码器602 的解量化器692可以解量化熵解码器600的输出且逆变换块693可以对解量化器692输出的解量化信号执行逆变换操作。熵解码器600的输出还可以指示不应用预测误差信号且在该情况中预测误差解码器产生所有的零输出信号。
本发明的另一方面是编码操作,其在图10中示出。在编码过程中,其可以例如在图4的编码器中被执行,编码器可以编码(1000)第一图片且然后使用从第一图片的预测限制编码(1002)第二图片内的至少一区域(例如,内预测可以在所述第二图片中的所述区域的编码中被关闭)。编码器然后生成(1004)与第二编码的图片相关联的标识符,其指示所述预测限制已经用于第二图片内的所述区域的至少采样。
根据一个实施方式中,所述预测限制包括以下一者或多者:
-没有内编码用于采样;
-没有内预测用于采样;
-没有图片中采样预测用于采样;
-采样的基础单元边界没有内预测被使用;
-采样的基础单元边界没有图片中采样预测被使用;
-仅图片间的预测用于采样。
因此,编码器可以例如在间编码的图片中实施有限使用编码工具,由此感兴趣区被编码而在视频帧中的感兴趣区域内的采样值之间不需要任何空间依赖,且编解码器指示比特流中的该限制。
视频编码过程可以包括例如通过逆量化和逆变换的图片重构。因此,在各种实施方式中编码过程的部分可以被认为是采样重构过程。应当理解作为编码过程的部分的导致像素值的重构采样的任意过程可以被认为是采样重构过程。采样重构过程可以排除熵编码。
根据一个实施方式,编码器可以例如将标识符包括在以下一者或多者中且解码器可以例如从以下一者或多者解码标识符:
-补充增强信息(SEI)消息
-序列参数集(SPS)
-图片参数集(PPS)
-视频可用性信息(VUI)
-容器文件格式结构。在ISO基础媒体文件格式或其衍生物的上下文中,这样的文件格式结构可以例如是包含在被指示用于相应图片的采样描述项中的框。
此外或可替换地,文件生成器可以生成标识符且将标识符包含在例如上述结构的一者或多者中。此外或可替换地,文件解析器或播放器可以从例如上述结构的一者或多者解码该标识符。
在ISO基础媒体文件格式或其衍生物中包含标识符的示例实施方式在下面被描述。标识符可以被包含在可选框中,例如所谓的 CodingConstraintBox,其可以被包含在采样项中,例如用于HEVC编码的轨道的HEVCSampleEntry结构。CodingConstraintBox框可以携带信息,该信息有助于播放器在解码HEVC视频或图像序列时调整其操作。
CodingConstraintBox的语义可以例如如下。该语义元素 NoIntraPredInRefPics对应于不同实施方式中的标识符。
class CodingConstraintsBox extends FullBox(‘ccst’,version=0,0){
unsigned int(1)IntraOnlyFlag;
unsigned int(1)AllReferencePicturesIntra;
unsigned int(1)NoIntraPredInRefPics;
unsigned int(29)ReservedFlags;
Box();//zero or more reserved boxes
}
CodingConstraintsBox中的语义元素的语意可以例如如下指定。
IntraOnlyFlag:如果该标志被设定为1,其指示轨道中的所有采样被内编码。如果该标志被设定为0,其指示在轨道中可以有从其他图片被预测的图片。
AllReferencePicturesIntra:该标志当被设定为1时指示限制:如果在轨道中有间预测的图片,则这些图片都是从内编码的图片被预测的。
NoIntraPredInRefPics:该标志当被设定为1时指示在任意间预测的图片中没有使用内预测。当该标志被设定为0时,在间预测图片中可以或可以不使用内预测。
另外可以指定的是如果IntraOnlyFlag等于1,则 AllReferencePicturesIntra和NoIntraPredInRefPics的语意被预留或未指定。
根据各种实施方式的标识符可以在比特流或文件中被指示,具有一个或多个指示,其可以被编码为在一个或多个语义结构中的一个或多个语义元素或语义元素值。编码器可以在比特流中编码指示。解码器可以从比特流解码指示。
语义结构可以确定指示的范围或有效性或持续性。例如,如果该指示位于序列参数集中,则指示在一些实施方式中能够针对编码的视频序列是有效的,对此序列参数集是活动的。同样,如果指示位于图片参数集中,其针对图片参数集是或的图片是有效的。可替换地,指示的范围/有效性/ 持续性可以被包含在该指示中或与指示相关联的其他语义元数据中。在一些实施方式中,指示的范围或有效性或持续性可以包括层的集合。在一些实施方式中,指示的范围或有效性或持续性可以包括缩放性尺寸的集合,例如视图的集合、分量类型的集合(例如纹理和/或深度)和/或缩放性层的集合(例如空间和/或质量缩放性层)。
在一些实施方式中,可以有多于一个标识符例如应用于比特流的不同部分。例如,一个标识符可以应用于基础层且另一个标识符可以应用于增强层。在第二示例中,一个标识符应用于第一图片且第二标识符应用于第二图片。每个标识符或标识符集合可以在比特流或文件中被指示,具有一个或多个指示,其可以被变为一个或多个语义结构中的一个或多个语义元素或语义元素值。指示可以类似于如上所述地被处理。
上面已经关于将指示、语义元素和/或语义结构编码成比特流或编码的视频序列和/或从比特流或从编码的视频序列解码指示、语义元素和/或语义结构描述了一些实施方式。但是需要理解实施方式能够实现为将指示、语义元素和/或语义结构编码成比特流或编码的视频序列外部的语义结构或数据单元,包括视频编码层数据,例如编码的切片,和/或从比特流或编码的视频序列外部的语义结构或数据单元解码指示、语义元素和/或语义结构,该语义结构或数据单元包括视频编码层数据,例如编码的切片。例如,在一些实施方式中,根据上述任意实施方式的指示可以被编码成视频参数集或序列参数集,其从编码的视频外部被传达,例如使用控制协议(例如 SDP)。继续该同一个示例,接收器可以例如使用该控制协议得到视频参数集或序列参数集并提供该视频参数集或序列参数集用于解码。
图11是可以实施各种实施方式的通用多媒体通信系统的示例的图示。如图11所示,数据源1100提供模拟、未压缩的数字或压缩的数字格式或这些格式的任意组合的源信号。编码器1110将源信号编码成编码的媒体比特流。应当注意要被解码的比特流能够从虚拟地位于任意类型的网络内的远程设备直接或间接被接收。此外,比特流能够从本地硬件或软件接收。编码器1110可以能够编码多于一个媒体类型,例如音频和视频,或多于一个编码器1110可以被需要编码不同媒体类型的源信号。编码器1110还可以获取合成产生的输入,例如图形和文本,或其可以能够产生合成媒体的编码的比特流。在下面,仅考虑一个媒体类型的一个编码的媒体比特流的处理以简化描述。但是应当注意典型地实时广播服务包括多个流(典型地至少一个音频、视频和文本字幕流)。还应当注意该系统可以包括多个编解码器,但是在图11中仅一个编码器1110被示出以简化描述,但不失一般性。还应当理解虽然这里包含的文本和示例可以特别描述编码过程,但本领域技术人员可以理解相同的概念和原理也应用于相应的解码过程,且反之亦然。
编码的媒体比特流被传输到存储设备1120。该存储设备1120可以包括任意类型的大容量存储器,用于存储编码的媒体比特流。存储设备1120 中的编码的媒体比特流的格式可以是基础自包含比特流格式,或一个或多个编码的媒体比特流可以被封装在容器文件中。编码器1110和/或存储设备1120可以包括文件生成器或产生器或与之连接,输出媒体比特流并将其封装在容器文件。一些系统“现场”工作,即省略存储且从编码器1110 直接向发送器1130传输编码的媒体比特流。编码的媒体比特流然后根据需要被传输到发送器1130,也称为服务器。在传输中使用的格式可以是基础字包含比特流格式、分组流格式,或一个或多个编码的媒体比特流可以被封装到容器文件。编码器1110、存储设备1120和发送器1130可以操作现场实时内容,在该情况中编码的媒体比特流典型地不永久被存储,而是在内容编码器1110和/或发送器1130中缓冲小段时间以平缓处理延迟、传输延迟以及编码的媒体比特率的变化。
发送器1130使用通信协议栈来发送编码的媒体比特流。该栈可以包括但不限于实施传输协议(RTP)、用户数据包协议(UDP)和网际协议(IP)。当通信协议栈是面向分组的时,发送器1130将编码的媒体比特流封装到分组。例如,当RTP被使用时,发送器1130根据RTP净荷格式将编码的媒体比特流封装到RTP分组。典型地,每个媒体类型具有专用的RTP净荷格式。还应当注意到系统可以包含多于一个发送器1130,但是为了简便,下面的描述仅考虑了一个发送器1130。
如果媒体内容被封装在容器文件中用于存储设备1120或用于输出数据到发送器1130,发送器1130可以包括或可操作地附着到“发送文件解析器”(图中未示出)。特别地,如果容器文件没有这样被传输但是包含的编码的媒体比特流的至少一个被封装用于通过通信协议传输,则发送文件解析器定位编码的媒体比特流的合适部分通过该通信协议被传输。发送文件解析器还可以帮助产生用于通信系统的正确格式,例如分组头和净荷。多媒体容器文件可以包含封装指令,例如ISO基础媒体文件格式中的线索轨迹,用于在该通信协议上封装包含的媒体比特流的至少一个。
发送器1130可以或可以不通过通信网络连接到网关1140。网关1140 可以执行不同类型的功能,例如根据一个通信协议栈将分组流转译成另一个通信协议栈,聚合和分开数据流,以及根据下行链路和/或接收器能力处理数据流(例如根据现行下行链路网络条件控制转发的流的比特率)。网关1140的示例包括MCU、电路交换和分组交换视频电话之间的网关、通过蜂窝(PoC)服务器的一键通、数字视频广播处理(DVB-H)系统中的 IP封装器、或将广播传输本地转发到家用无线网络的机顶盒。当RTP被使用时,网关1140称为RTP混合器或RTP转译器且典型地用作RTP连接的端点。
该系统包括一个或多个接收器1150,典型地能够接收、解调和解封装传输的信号成编码的媒体比特流。编码的媒体比特流被传输到记录存储设备1155。该记录存储设备1155可以包括任意类型的大容量存储器,用于存储编码的媒体比特流。记录存储设备1155可以可替换地或附加地包括计算存储器,例如随机存取存储器。记录存储设备1155中的编码的媒体比特流的格式可以是基础字包含比特流格式,或一个或多个编码的媒体比特流可以被封装到容器文件。如果有多个编码的媒体比特流,例如音频流和视频流,彼此相关联,则容器文件典型地被使用且接收器1150包括或附着到容器文件生成器,其从输入流产生容器文件。一些系统“现场”操作,即省去记录存储设备1155,且从接收器1150直接向解码器1160传输编码的媒体比特流。在一些系统中,仅记录的流的最近的部分(例如记录的流的最近10分钟的摘录)被保存在记录存储设备1155中,而任意更早的记录的数据从记录存储设备1155中被丢弃。
编码的媒体比特流从记录存储设备1155被传输到解码器1160。如果有多个编码的媒体比特流,例如音频流和视频流,彼此相关联并被封装在容器文件,则文件解析器(图中未示出)用于从容器文件解封装每个编码的媒体比特流。记录存储设备1155或解码器1160可以包括文件解析器,或文件解析器可以附着到记录存储设备1155或解码器1160。
编码的媒体比特流可以进一步由解码器1160处理,其输出是一个或多个未压缩的媒体流。最终,渲染器1170可以例如使用扬声器或显示器再生该未压缩的媒体流。接收器1150、记录存储设备1155、解码器1160以及渲染器1170可以位于相同的物理设备或它们可以被包含在分开的设备中。
与图11有关的一些实施方式在下面被提供。需要理解实施方式也能以在图11中的系统中的其他方式或其部分来实施。例如,实施方式可以仅在编码侧(1110、1120)或解码侧(1160、1170)被实现。
在一些实施方式中,编码器(1110)可以指示或比特流分析器可以标识是否约束编码的图片的所有或子集(例如在编码的图片的所有或子集中不使用内预测)。该子集可以例如是比特流的所有间预测的图片。如果编码的图片的所有或某子集被约束,则文件生成器可以生产上述实施方式的标识符并将该表示包括在例如容器文件中。
在一些实施方式中,例如作为用户交互(例如放大)的响应,渲染器 (1170)或播放器(其可以包括或连接到文件解析器和/或解码器1160和/ 或渲染器1170)可以确定期望解码子集,例如图片中的矩形区域。文件解析器或解码器(1160)可以从容器文件解码上述实施方式的标识符。基于该标识符,解码器1160或播放器可以确定可以执行根据图5等的操作。
在上文中,在比特流的语义的帮助下描述了示例实施方式。但是需要理解,相应的结构和/或计算机程序可以位于编码器处,用于生成比特流,和/或在解码器侧,用于解码比特流。同样,如果参考编码器描述示例实施方式需要理解产生的比特流和解码器可以在其中具有相应的元件。同样,如果参考解码器描述了示例实施方式,需要理解,编码器具有用于生成要被解码器解码的比特流的结构和/或计算机程序。
上述的本发明的实施方式在分开的编码器和解码器装置方面描述了编解码器以帮助理解涉及的过程。但是,可以理解装置、结构和操作可以被实施为单个编码器-解码器装置/结构/操作。此外在本发明的一些实施方式中,编码器和解码器可以共享一些或所有公共元件。
虽然上述示例描述了本发明的实施方式在电子设备内的编解码器内操作,但是可以理解下面描述的本发明可以作为任意视频编解码器的部分来实施。因此,例如本发明的实施方式可以在视频编解码器中被实施,其可以通过固定或有线通信路径来执行视频编码。
因此,用户设备可以包括视频编解码器,例如在上述的本发明的实施方式中描述的。应理解术语用户设备旨在包含任意合适类型的无线用户设备,例如移动电话、便携式数据处理设备或便携式网页浏览器。
此外,公共陆地移动网络(PLMN)的元件也可以包括上述的视频编解码器。
一般来说,本发明的各种实施方式可以以硬件或专用电路、软件、逻辑或其任意组合来实施。例如,一些方面可以以硬件来实施,而其他方面可以以固件或软件来实施,固件或软件可以由控制器、微处理器或其他计算设备来执行,但是本发明不限于此。虽然本发明的各个方面可以被示出并描述为框图、流程图,或使用一些其他图形表示,但应当理解这里描述的这些框、装置、系统、技术或方法可以以(非限制性示例)硬件、软件、固件、专用电路或逻辑、通用硬件或控制器或其他计算设备或这些的某组合来实施。
本发明的实施方式可以由移动设备的数据处理器可执行的计算机软件来实施,例如在处理器实体中,或由硬件来实施,或软件和硬件的组合来实施。此外在这方面应当注意图中的逻辑流的任意框可以表示程序步骤,或互连的逻辑电路,块或功能,或程序步骤和逻辑电路、块和功能的组合。软件可以被存储在例如存储芯片的物理介质上,或在处理器内实施的存储块上,例如硬盘或软盘的磁介质上,以及例如DVD和其数据变体CD的光介质上。
存储器可以是适用于本地技术环境的任意类型且可以使用任意合适的数据存储技术来实施,例如基于半导体的存储设备、磁存储设备和系统、光存储设备和系统、固定存储器和可移动存储器。数据处理器可以是适用于本地技术环节的任意类型,且可以包括通用计算机、专用计算机、微处理器、数字信号处理器(DSP)和基于多核处理器架构的处理器(非限制示例)的一个或多个。
本发明的实施方式可以被实施为各种组件,例如集成电路模块。集成电路的设计是大部分根据高度自动化的工艺。复杂和功能强大的软件工具可用于将逻辑层设计转换成准备被蚀刻并形成在半导体衬底上的半导体电路设计。
例如由加利福尼亚州Mountain View的Synopsys公司和加利福尼亚州圣荷西的Cadence Design提供的程序使用制定完善的设计规则以及预先存储的设计模块库在半导体芯片上对导体走线和定位组件。一旦半导体电路的设计完成,标准化电子格式(例如Opus、GDSII等)的最终设计可以被传输给半导体制造厂或“fab”用于制造。
下面的描述通过示意性且非限制示例的方式提供了本发明的示意性实施方式的全面且含信息量的描述。但是,本领域技术人员在上述描述的基础上当结合附图和权利要求书一起阅读时明白有各种修改和改动。但是本发明的教示的所有这样和类似的修改都落入本发明的范围。
根据第一实施方式的方法包括用于从比特流解码编码的视频表示的方法,该方法包括:
解码标识符,该标识符指示比特流的范围内所有采样已经使用预测限制被编码;
确定所述范围覆盖了图片内的感兴趣区域;
在解析模式中解码在解码顺序中在所述感兴趣区域前面的至少第一编码单元,由此属于所述至少第一编码单元的语义元素被解析,但是所述语义元素的采样重构过程被省略;以及
解码属于所述感兴趣区域的至少第二编码单元,由此属于所述至少第二编码单元的语义元素被解析且针对该语义元素执行采样重构过程。
根据一个实施方式,所述预测限制包括以下一者或多者:
-针对所述采样没有使用内编码;
-针对所述采样没有使用内预测;
-针对所述采样没有使用图片中采样预测;
-在采样的基础单元的边界没有使用内预测;
-在采样的基础单元的边界没有使用图片中采样预测;
-针对所述采样仅使用图片之间的预测。
根据一个实施方式,该方法还包括将所述范围推断或解码为以下一者或多者:
-所述比特流;
-所述比特流的间预测图片;
-所述比特流内的至少一个缩放性层;
-所述图片;
-所述感兴趣区域。
根据一个实施方式,该方法还包括选择仅要被解析的所述第一编码单元,且省略对在解码顺序中在所述第一编码单元前面的编码单元的所述解析和解码。
根据一个实施方式,该方法还包括基于在编码所述编码单元中使用的是切片、瓦片和/或波前来选择要在所述解析模式中被解码的所述第一编码单元。
根据一个实施方式,当没有使用瓦片或波前时,要在所述解析模式中被解码的所述第一编码单元被选择为在解码顺序中刚好在在全解码模式中被解码的区域的左上编码单元前面的切片的所述第一编码单元,在该全解码模式中编码单元被解析并经历采样重构过程。
根据一个实施方式,当使用了波前时,要在所述解析模式中被解码的所述第一编码单元被选为包含要在所述全解码模式中被解码的区域的左上编码单元的CTU行的所述第一编码单元。
根据一个实施方式,当使用了瓦片时,要在所述解析模式中被解码的所述第一编码单元被选为在解码顺序中刚好在在所述全解码模式中被解码的区域的左上编码单元前面的瓦片的所述第一编码单元。
根据一个实施方式,该方法还包括从在所述比特流中或随所述比特流指示的进入点定位CTU行或瓦片的所述编码的数据的开始。
根据一个实施方式,该方法还包括基于在编码所述编码单元中使用的是切片、瓦片和/或波前来选择省略了所述解析和解码的编码单元。
根据一个实施方式,当没有使用瓦片或波前且切片甚至不是部分在要在所述全解码模式中被解码的区域内时,所述切片的解析和解码可以被省略。
根据一个实施方式,当使用了波前且CTU行甚至不是部分在要在所述全解码模式中被解码的所述区域内时,所述CTU行的解析和解码可以被省略。
根据一个实施方式,当使用了瓦片且瓦片甚至没有部分在要在所述全解码模式中被解码的所述区域内时,所述瓦片的解析和解码可以被省略。
根据一个实施方式,该方法还包括如果期望图片的全解码,则针对完整的图片执行所述全解码模式。
根据一个实施方式,所述标识符应用的所述感兴趣区域是完整视频帧、切片、帧封装视频中的组成图片或其他方式指示的区域中的一者。
根据一个实施方式,所述标识符指示针对所述感兴趣区域禁用环路滤波过程。
根据一个实施方式,所述全解码模式涉及当仅解码区域时的修改的解码过程,该修改的解码过程不同于所述标准兼容解码。
根据一个实施方式,该方法还包括针对编码的图片的至少一个点或编码树单元或编码单元生成熵解码进入点(EDEP)数据。
根据一个实施方式,该方法还包括类似于针对CTU行或针对瓦片的进入点解码和使用EDEP数据来选择要在所述解析模式中被解码的所述第一编码单元。
根据第二实施方式的装置包括:
视频解码器,被配置用于解码包括编码的视频表示的比特流,该视频解码器被配置用于
解码标识符,该标识符指示比特流的范围内所有采样已经使用预测限制被编码;
确定所述范围覆盖了图片内的感兴趣区域;
在解析模式中解码在解码顺序中在所述感兴趣区域前面的至少第一编码单元,由此属于所述至少第一编码单元的语义元素被解析,但是所述语义元素的采样重构过程被省略;以及
解码属于所述感兴趣区域的至少第二编码单元,由此属于所述至少第二编码单元的语义元素被解析且针对该语义元素执行采样重构过程。
根据第三实施方式提供了一种计算机可读存储介质,在该计算机可读存储介质上存储有供装置使用的代码,当处理器执行该代码时,该代码使得该装置执行:
解码标识符,该标识符指示比特流的范围内所有采样已经使用预测限制被编码;
确定所述范围覆盖了图片内的感兴趣区域;
在解析模式中解码在解码顺序中在所述感兴趣区域前面的至少第一编码单元,由此属于所述至少第一编码单元的语义元素被解析,但是所述语义元素的采样重构过程被省略;以及
解码属于所述感兴趣区域的至少第二编码单元,由此属于所述至少第二编码单元的语义元素被解析且针对该语义元素执行采样重构过程。
根据第四实施方式提供了至少一个处理器和至少一个存储器,在所述至少一个存储器上存储有代码,当所述至少一个处理器执行该代码时,该代码使得装置执行:
解码标识符,该标识符指示比特流的范围内所有采样已经使用预测限制被编码;
确定所述范围覆盖了图片内的感兴趣区域;
在解析模式中解码在解码顺序中在所述感兴趣区域前面的至少第一编码单元,由此属于所述至少第一编码单元的语义元素被解析,但是所述语义元素的采样重构过程被省略;以及
解码属于所述感兴趣区域的至少第二编码单元,由此属于所述至少第二编码单元的语义元素被解析且针对该语义元素执行采样重构过程。
根据第五实施方式的方法包括用于编码视频表示的方法,该方法包括:
编码第一图片;
从所述第一图片使用预测限制编码第二图片内的至少一区域;以及
生成与所述第二编码的图片相关联的标识符,该标识符指示针对所述第二图片内的所述区域的至少采样使用了所述预测限制。
据一个实施方式,所述预测限制包括以下一者或多者:
-针对所述采样没有使用内编码;
-针对所述采样没有使用内预测;
-针对所述采样没有使用图片中采样预测;
-在采样的基础单元的边界没有使用内预测;
-在采样的基础单元的边界没有使用图片中采样预测;
-针对所述采样仅使用图片之间的预测。
根据一个实施方式,所述编码器可以将所述标识符包含在例如以下一者或多者中以及所述解码器可以从例如以下一者或多者解码该标识符:
-补充增强信息(SEI)消息
-序列参数集(SPS)
-图片参数集(PPS)
-视频可用性信息(VUI)
-容器文件格式结构。
根据一个实施方式,该方法还包括针对编码的图片的至少一个点或编码树单元或编码单元生成熵解码进入点(EDEP)数据。
根据第六实施方式的装置包括:
被配置用于编码视频表示的视频编码器,其中所述视频编码器还被配置用于:
编码第一图片;
从所述第一图片使用仅间编码编码第二图片内的至少一区域;以及
生成与所述第二编码的图片相关联的标识符,该标识符指示仅间预测已经用于所述第二图片内的至少所述区域。
根据第七实施方式,提供了一种计算机可读存储介质,在该计算机可读存储介质上存储有供装置使用的代码,该代码当被处理器执行时使得该装置执行:
编码第一图片;
从所述第一图片使用预测限制编码第二图片内的至少一区域;以及
生成与所述第二编码的图片相关联的标识符,该标识符指示所述预测限制已经用于所述第二图片内的所述区域的至少采样。
根据第八实施方式,提供了至少一个处理器和至少一个存储器,在所述至少一个存储器上存储有代码,该代码当被所述至少一个处理器执行时使得装置执行:
编码第一图片;
从所述第一图片使用预测限制编码第二图片内的至少一区域;以及
生成与所述第二编码的图片相关联的标识符,该标识符指示所述预测限制已经用于所述第二图片内的所述区域的至少采样。
根据第九实施方式,提供了被配置用于解码编码的视频表示的视频解码器,该视频解码器被配置用于
解码标识符,该标识符指示比特流的范围内所有采样已经使用预测限制被编码;
确定所述范围覆盖了图片内的感兴趣区域;
在解析模式中解码在解码顺序中在所述感兴趣区域前面的至少第一编码单元,由此属于所述至少第一编码单元的语义元素被解析,但是所述语义元素的采样重构过程被省略;以及
解码属于所述感兴趣区域的至少第二编码单元,由此属于所述至少第二编码单元的语义元素被解析且针对该语义元素执行采样重构过程。
根据第十实施方式,提供了一种被配置用于编码视频表示的视频编码器,其中所述视频编码器还被配置用于
编码第一图片;
从所述第一图片使用预测限制编码第二图片内的至少一区域;以及
生成与所述第二编码的图片相关联的标识符,该标识符指示所述预测限制已经用于所述第二图片内的所述区域的至少采样。

Claims (38)

1.一种用于从比特流解码编码的视频表示的装置,其中,所述装置包括至少一个存储器和至少一个处理器,所述至少一个存储器和所述至少一个处理器被配置为:
解码标识符,该标识符指示比特流的范围内所有采样已经使用预测限制被编码,其中,所述预测限制包括针对所述采样没有使用图片中采样预测;
确定所述范围覆盖了图片内的感兴趣区域;
在解析模式中解码在解码顺序中在所述感兴趣区域前面的至少第一编码单元,由此属于所述至少第一编码单元的语义元素被解析,但是所述语义元素的采样重构过程被省略;以及
解码属于所述感兴趣区域的至少第二编码单元,由此属于所述至少第二编码单元的语义元素被解析且针对该语义元素执行采样重构过程。
2.如权利要求1所述的装置,其中所述预测限制还包括以下一者或多者:
-针对所述采样没有使用内编码;
-针对所述采样没有使用内预测;
-在采样的基础单元的边界没有使用内预测;
-在采样的基础单元的边界没有使用图片中采样预测;以及
-针对所述采样仅使用图片之间的预测。
3.如权利要求1所述的装置,该装置还被配置为将所述范围推断或解码为以下一者或多者:
-所述比特流;
-所述比特流的间预测图片;
-所述比特流内的至少一个缩放性层;
-所述图片;以及
-所述感兴趣区域。
4.如权利要求1-3中任意一项所述的装置,该装置还被配置为:
选择仅要被解析的第一编码单元;以及
省略对在解码顺序中在所述第一编码单元前面的编码单元的解析和解码。
5.如权利要求4所述的装置,其中该装置还被配置为:
基于用于编码所述编码的是切片、瓦片和/或波前来选择要在所述解析模式中被解码的第一编码单元。
6.如权利要求1所述的装置,其中该装置还被配置为:
从在所述比特流中或随所述比特流指示的进入点定位编码树单元(CTU)行或瓦片的编码的数据的开始。
7.如权利要求4所述的装置,其中该装置还被配置为:
基于用于编码所述编码单元的是切片、瓦片和/或波前来选择省略了解析和解码的编码单元。
8.如权利要求7所述的装置,其中当没有使用瓦片或波前且切片不是部分在要在全解码模式中被解码的区域内时,所述切片的解析和解码被省略。
9.如权利要求7所述的装置,其中当使用了波前且CTU行不是部分在要在全解码模式中被解码的区域内时,所述CTU行的解析和解码被省略。
10.如权利要求7所述的装置,其中当使用了瓦片且瓦片没有部分在要在全解码模式中被解码的区域内时,所述瓦片的解析和解码被省略。
11.如权利要求1所述的装置,该装置还被配置为:
如果期望图片的全解码,则针对完整的图片执行全解码模式。
12.如权利要求1所述的装置,其中所述标识符应用的感兴趣区域是完整视频帧、切片、帧打包视频中的组成图片或其他方式指示的区域中的一者。
13.如权利要求1所述的装置,其中所述标识符指示针对所述感兴趣区域禁用环路滤波过程。
14.如权利要求1所述的装置,该装置还被配置为:
针对编码的图片的至少一个点或编码树单元(CTU)或编码单元生成熵解码进入点(EDEP)数据;以及
类似于针对CTU行或针对瓦片的进入点解码和使用EDEP数据来选择要在所述解析模式中被解码的第一编码单元。
15.一种用于从比特流解码编码的视频表示的方法,该方法包括:
解码标识符,该标识符指示比特流的范围内所有采样已经使用预测限制被编码,其中,所述预测限制包括针对所述采样没有使用图片中采样预测;
确定所述范围覆盖了图片内的感兴趣区域;
在解析模式中解码在解码顺序中在所述感兴趣区域前面的至少第一编码单元,由此属于所述至少第一编码单元的语义元素被解析,但是所述语义元素的采样重构过程被省略;以及
解码属于所述感兴趣区域的至少第二编码单元,由此属于所述至少第二编码单元的语义元素被解析且针对该语义元素执行采样重构过程。
16.如权利要求15所述的方法,其中所述预测限制还包括以下一者或多者:
-针对所述采样没有使用内编码;
-针对所述采样没有使用内预测;
-在采样的基础单元的边界没有使用内预测;
-在采样的基础单元的边界没有使用图片中采样预测;以及
-针对所述采样仅使用图片之间的预测。
17.如权利要求15所述的方法,该方法还包括将所述范围推断或解码为以下一者或多者:
-所述比特流;
-所述比特流的间预测图片;
-所述比特流内的至少一个缩放性层;
-所述图片;以及
-所述感兴趣区域。
18.如权利要求15-17中任意一项所述的方法,该方法还包括:
选择仅要被解析的第一编码单元;以及
省略对在解码顺序中在所述第一编码单元前面的编码单元的解析和解码。
19.如权利要求18所述的方法,该方法还包括:
基于用于编码所述编码单元的是切片、瓦片和/或波前来选择要在所述解析模式中被解码的第一编码单元。
20.如权利要求15所述的方法,该方法还包括:
从在所述比特流中或随所述比特流指示的进入点定位编码树单元(CTU)行或瓦片的编码的数据的开始。
21.如权利要求18所述的方法,该方法还包括:
基于用于编码所述编码单元的是切片、瓦片和/或波前来选择省略了解析和解码的编码单元。
22.如权利要求21所述的方法,其中当没有使用瓦片或波前且切片甚至不是部分在要在全解码模式中被解码的区域内时,所述切片的解析和解码被省略。
23.如权利要求21所述的方法,其中当使用了波前且CTU行甚至不是部分在要在全解码模式中被解码的区域内时,所述CTU行的解析和解码被省略。
24.如权利要求21所述的方法,其中当使用了瓦片且瓦片甚至没有部分在要在全解码模式中被解码的区域内时,所述瓦片的解析和解码被省略。
25.如权利要求15所述的方法,该方法还包括:
如果期望图片的全解码,则针对完整的图片执行全解码模式。
26.如权利要求15所述的方法,其中所述标识符应用的感兴趣区域是完整视频帧、切片、帧打包视频中的组成图片或其他方式指示的区域中的一者。
27.如权利要求15所述的方法,其中所述标识符指示针对所述感兴趣区域禁用环路滤波过程。
28.如权利要求15所述的方法,该方法还包括:
针对编码的图片的至少一个点或编码树单元或编码单元(CTU)生成熵解码进入点(EDEP)数据;以及
类似于针对CTU行或针对瓦片的进入点解码和使用EDEP数据来选择要在所述解析模式中被解码的第一编码单元。
29.一种用于将视频序列编码成比特流的装置,其中,所述装置包括至少一个存储器和至少一个处理器,所述至少一个存储器和所述至少一个处理器被配置为:
编码第一图片;
从所述第一图片使用预测限制编码第二图片内的至少一区域,其中,所述预测限制包括针对所述第二图片内的所述区域的采样没有使用图片中采样预测;以及
生成与所述第二图片相关联的标识符,该标识符指示针对所述第二图片内的所述区域的至少采样使用了所述预测限制。
30.如权利要求29所述的装置,其中所述预测限制还包括以下一者或多者:
-针对所述采样没有使用内编码;
-针对所述采样没有使用内预测;
-在采样的基础单元的边界没有使用内预测;
-在采样的基础单元的边界没有使用图片中采样预测;以及
-针对所述采样仅使用图片之间的预测。
31.如权利要求29或30所述的装置,其中该装置还使得:
将所述标识符包含在以下一者或多者中:
-补充增强信息(SEI)消息;
-序列参数集(SPS);
-图片参数集(PPS);
-视频可用性信息(VUI);以及
-容器文件格式结构。
32.如权利要求29所述的装置,其中该装置还使得:
针对编码的图片的至少一个点或编码树单元或编码单元生成熵解码进入点(EDEP)数据。
33.一种用于编码视频表示的方法,该方法包括:
编码第一图片;
从所述第一图片使用预测限制编码第二图片内的至少一区域,其中,所述预测限制包括针对所述第二图片内的所述区域的采样没有使用图片中采样预测;以及
生成与所述第二图片相关联的标识符,该标识符指示针对所述第二图片内的所述区域的至少采样使用了所述预测限制。
34.如权利要求33所述的方法,其中所述预测限制还包括以下一者或多者:
-针对所述采样没有使用内编码;
-针对所述采样没有使用内预测;
-在采样的基础单元的边界没有使用内预测;
-在采样的基础单元的边界没有使用图片中采样预测;以及
-针对所述采样仅使用图片之间的预测。
35.如权利要求33或34所述的方法,该方法还包括:
将所述标识符包含在以下一者或多者中:
-补充增强信息(SEI)消息;
-序列参数集(SPS);
-图片参数集(PPS);
-视频可用性信息(VUI);以及
-容器文件格式结构。
36.如权利要求33所述的方法,该方法还包括:
针对编码的图片的至少一个点或编码树单元或编码单元生成熵解码进入点(EDEP)数据。
37.一种计算机可读存储介质,在该计算机可读存储介质上存储有供装置使用的代码,当处理器执行该代码时,该代码使得该装置执行:
解码标识符,该标识符指示比特流的范围内所有采样已经使用预测限制被编码,其中,所述预测限制包括针对所述采样没有使用图片中采样预测;
确定所述范围覆盖了图片内的感兴趣区域;
在解析模式中解码在解码顺序中在所述感兴趣区域前面的至少第一编码单元,由此属于所述至少第一编码单元的语义元素被解析,但是所述语义元素的采样重构过程被省略;以及
解码属于所述感兴趣区域的至少第二编码单元,由此属于所述至少第二编码单元的语义元素被解析且针对该语义元素执行采样重构过程。
38.一种计算机可读存储介质,在该计算机可读存储介质上存储有供装置使用的代码,当处理器执行该代码时,该代码使得该装置执行:
编码第一图片;
从所述第一图片使用预测限制编码第二图片内的至少一区域,其中,所述预测限制包括针对所述第二图片内的所述区域的采样没有使用图片中采样预测;以及
生成与所述第二图片相关联的标识符,该标识符指示所述预测限制已经用于所述第二图片内的所述区域的至少采样。
CN201480052088.XA 2013-07-23 2014-07-16 用于视频编码和解码的装置和方法 Active CN105580373B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
GB1313113.1A GB2516824A (en) 2013-07-23 2013-07-23 An apparatus, a method and a computer program for video coding and decoding
GB1313113.1 2013-07-23
PCT/FI2014/050582 WO2015011339A1 (en) 2013-07-23 2014-07-16 An apparatus, a method and a computer program for video coding and decoding

Publications (2)

Publication Number Publication Date
CN105580373A CN105580373A (zh) 2016-05-11
CN105580373B true CN105580373B (zh) 2019-04-02

Family

ID=49119129

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201480052088.XA Active CN105580373B (zh) 2013-07-23 2014-07-16 用于视频编码和解码的装置和方法

Country Status (8)

Country Link
US (1) US10154274B2 (zh)
EP (1) EP3025501A4 (zh)
JP (2) JP2016533077A (zh)
KR (1) KR101790156B1 (zh)
CN (1) CN105580373B (zh)
CA (1) CA2918961C (zh)
GB (1) GB2516824A (zh)
WO (1) WO2015011339A1 (zh)

Families Citing this family (62)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
PL2744202T3 (pl) * 2011-08-11 2020-12-28 Sun Patent Trust Sposób kodowania obrazów, sposób dekodowania obrazów, urządzenie do kodowania obrazów, urządzenie do dekodowania obrazów oraz urządzenie do kodowania/dekodowania obrazów
US9621905B2 (en) * 2012-06-29 2017-04-11 Qualcomm Incorporated Tiles and wavefront parallel processing
EP2901688B1 (en) 2012-09-28 2019-10-23 Nokia Technologies Oy An apparatus and a method for video coding and decoding
WO2015056179A1 (en) * 2013-10-15 2015-04-23 Nokia Technologies Oy Video encoding and decoding using syntax element
EP3085096A1 (en) * 2013-12-18 2016-10-26 Intel Corporation Techniques for image bitstream processing
US11228764B2 (en) 2014-01-15 2022-01-18 Avigilon Corporation Streaming multiple encodings encoded using different encoding parameters
US9712837B2 (en) * 2014-03-17 2017-07-18 Qualcomm Incorporated Level definitions for multi-layer video codecs
US10212445B2 (en) * 2014-10-09 2019-02-19 Qualcomm Incorporated Intra block copy prediction restrictions for parallel processing
JP6776229B2 (ja) * 2014-10-16 2020-10-28 サムスン エレクトロニクス カンパニー リミテッド ビデオデータ処理方法及び装置並びにビデオデータ生成方法及び装置
US10217471B2 (en) 2015-02-14 2019-02-26 Samsung Electronics Co., Ltd. Method and apparatus for decoding audio bitstream including system data
GB2538997A (en) * 2015-06-03 2016-12-07 Nokia Technologies Oy A method, an apparatus, a computer program for video coding
CN106303673B (zh) * 2015-06-04 2021-01-22 中兴通讯股份有限公司 码流对齐、同步处理方法及发送、接收终端和通信系统
WO2017018775A1 (ko) * 2015-07-28 2017-02-02 엘지전자 주식회사 방송 신호 송신 장치, 방송 신호 수신 장치, 방송 신호 송신 방법 및 방송 신호 수신 방법
US20170374364A1 (en) * 2016-06-23 2017-12-28 Mediatek Inc. Method and Apparatus of Face Independent Coding Structure for VR Video
CN105933060B (zh) * 2016-06-24 2018-02-13 温州大学 一种基于动力学反馈神经网络的波前重构方法
CN106210717B (zh) * 2016-08-05 2017-07-21 北京航空航天大学 一种基于视频显著性的hevc解码复杂度控制方法
FR3064145A1 (fr) * 2017-03-16 2018-09-21 Orange Procede de codage et decodage d'images, dispositif de codage et decodage et programmes d'ordinateur correspondants
GB2560720B (en) * 2017-03-20 2021-08-25 Canon Kk Method and apparatus for encoding and transmitting at least a spatial part of a video sequence
GB2560921B (en) 2017-03-27 2020-04-08 Canon Kk Method and apparatus for encoding media data comprising generated content
CN110692249A (zh) * 2017-04-11 2020-01-14 Vid拓展公司 使用面部连续性的360度视频编码
WO2019007490A1 (en) * 2017-07-04 2019-01-10 Huawei Technologies Co., Ltd. DECODER INTEGRATED MODE (DIMD) INTEGRATED DEVICE TOOL CALCULATION COMPLEXITY REDUCTION
EP3685585A1 (en) 2017-09-20 2020-07-29 Vid Scale, Inc. Handling face discontinuities in 360-degree video coding
CN115442597A (zh) * 2017-10-20 2022-12-06 韩国电子通信研究院 图像编码、解码方法以及存储比特流的记录介质
US11445215B2 (en) 2017-12-28 2022-09-13 Electronics And Telecommunications Research Institute Method and device for image encoding and decoding, and recording medium having bit stream stored therein
WO2019166508A1 (en) 2018-02-28 2019-09-06 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Composed prediction and restricted merge
KR20230119739A (ko) * 2018-03-29 2023-08-16 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 병렬 코딩 기능들 향상을 위한 컨셉
US11509937B2 (en) * 2018-04-09 2022-11-22 Sk Telecom Co., Ltd. Method and apparatus for encoding/decoding video
US11695967B2 (en) * 2018-06-22 2023-07-04 Op Solutions, Llc Block level geometric partitioning
CN110830423A (zh) * 2018-08-10 2020-02-21 北京仁光科技有限公司 一种安全网络数据交互系统及方法
BR112021004636A2 (pt) * 2018-09-13 2021-05-25 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. codificador e decodificador de vídeo, mesclador de vídeo e métodos para fornecerem uma representação de vídeo codificado e mesclado
EP3871419A1 (en) * 2018-10-25 2021-09-01 InterDigital VC Holdings, Inc. Method and apparatus for video encoding and decoding with signaling of coding type or coding tree type
CN112219400B (zh) * 2018-11-06 2024-03-26 北京字节跳动网络技术有限公司 依赖位置的对运动信息的存储
KR102154407B1 (ko) * 2018-11-15 2020-09-09 한국전자기술연구원 타일 기반 스트리밍을 위한 모션 제한 av1 영상 부호화 방법 및 장치
MX2021006627A (es) * 2018-12-04 2021-08-16 Vid Scale Inc Particionamiento de grupos de mosaicos.
PH12019000380A1 (en) * 2018-12-17 2020-09-28 Nokia Technologies Oy An apparatus, a method and a computer program for video coding and decoding
CN113302930A (zh) 2019-01-09 2021-08-24 华为技术有限公司 视频译码中的时间运动约束子图像指示
KR20200104252A (ko) * 2019-02-26 2020-09-03 주식회사 엑스리스 영상 신호 부호화/복호화 방법 및 이를 위한 장치
CN113475072B (zh) * 2019-03-04 2023-12-15 北京字节跳动网络技术有限公司 视频处理中滤波信息的信令
EP4358036A2 (en) * 2019-03-11 2024-04-24 Huawei Technologies Co., Ltd. Interpolation filter clipping for sub-picture motion vectors
US11252442B2 (en) * 2019-04-08 2022-02-15 Tencent America LLC Method and apparatus for video coding
CN117956188A (zh) * 2019-04-20 2024-04-30 北京字节跳动网络技术有限公司 用于色度残差的联合编解码的语法元素的信令
US11109041B2 (en) * 2019-05-16 2021-08-31 Tencent America LLC Method and apparatus for video coding
US11166033B2 (en) * 2019-06-06 2021-11-02 Qualcomm Incorporated Adaptation parameter set in access unit in video coding
CN117336468A (zh) * 2019-08-10 2024-01-02 北京字节跳动网络技术有限公司 视频比特流中的子图片相关信令通知
US11375238B2 (en) 2019-09-20 2022-06-28 Tencent America LLC Method for padding processing with sub-region partitions in video stream
US11716488B2 (en) 2019-09-20 2023-08-01 Qualcomm Incorporated Subpicture signaling in high-level syntax for video coding
CN114450954A (zh) * 2019-09-27 2022-05-06 北京字节跳动网络技术有限公司 不同视频单元之间的自适应环路滤波
US11310511B2 (en) * 2019-10-09 2022-04-19 Tencent America LLC Method and apparatus for video coding
KR20220078600A (ko) * 2019-10-18 2022-06-10 베이징 바이트댄스 네트워크 테크놀로지 컴퍼니, 리미티드 서브픽처들의 파라미터 세트 시그널링에서의 신택스 제약들
CN113038140A (zh) * 2019-12-24 2021-06-25 扬智电子科技(中国)有限公司 视频解码方法与视频解码装置
CN114930814A (zh) * 2019-12-24 2022-08-19 韩国电子通信研究院 图像编码/解码方法以及装置
JP7425204B2 (ja) 2019-12-26 2024-01-30 バイトダンス インコーポレイテッド ビデオビットストリームにおける仮想参照デコーダパラメータのシグナリングに対する制約
JP7431330B2 (ja) 2019-12-26 2024-02-14 バイトダンス インコーポレイテッド ビデオコーディングにおけるプロファイル、層及びレイヤの指示
EP4066387A4 (en) 2019-12-27 2023-02-15 ByteDance Inc. SUBPICTURE SIGNALING IN PARAMETER SETS
WO2021138652A1 (en) * 2020-01-04 2021-07-08 Bytedance Inc. Restrictions on inter prediction for subpicture
KR20220125235A (ko) 2020-01-09 2022-09-14 바이트댄스 아이엔씨 상이한 sei 메시지들의 디코딩 순서
EP4128786A1 (en) * 2020-04-02 2023-02-08 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. File format schemes allowing efficient roi, stream access and parameter set handling
CN113875245A (zh) 2020-04-24 2021-12-31 株式会社迓廷试 影像的译码方法及装置
WO2022047129A1 (en) * 2020-08-28 2022-03-03 Op Solutions, Llc Methods and systems for combined lossless and lossy coding
CN113055674B (zh) * 2021-03-24 2022-05-10 电子科技大学 一种基于两阶段多帧协同的压缩视频质量增强方法
CN113705240B (zh) * 2021-08-03 2024-04-19 科大讯飞(北京)有限公司 基于多语种分支模型的文本处理方法及相关装置
WO2023163357A1 (ko) * 2022-02-25 2023-08-31 광운대학교 산학협력단 스케일러블 구조 기반 하이브리드 태스크 목적 부/복호화 방법

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102422640A (zh) * 2009-05-07 2012-04-18 高通股份有限公司 具有用于局部化解码的时间上受约束的空间依存性的视频编码

Family Cites Families (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2801911B2 (ja) 1987-10-16 1998-09-21 日本電気ホームエレクトロニクス 株式会社 予測符号化による画像データの圧縮装置
US8290062B1 (en) * 2000-09-27 2012-10-16 Intel Corporation Method and apparatus for manipulating MPEG video
GB2382940A (en) * 2001-11-27 2003-06-11 Nokia Corp Encoding objects and background blocks
FI114679B (fi) 2002-04-29 2004-11-30 Nokia Corp Satunnaisaloituspisteet videokoodauksessa
JP2004056616A (ja) * 2002-07-23 2004-02-19 Media Glue Corp 符号化信号復号装置、符号化信号復号方法および符号化信号復号プログラム
JP2005142654A (ja) 2003-11-04 2005-06-02 Matsushita Electric Ind Co Ltd 映像送信装置および映像受信装置
KR100878812B1 (ko) 2005-05-26 2009-01-14 엘지전자 주식회사 영상신호의 레이어간 예측에 대한 정보를 제공하고 그정보를 이용하는 방법
CN101313578B (zh) 2005-09-26 2011-10-19 韩国电子通信研究院 用于在可伸缩视频编码中定义和重构感兴趣区域的方法和装置
KR101255226B1 (ko) 2005-09-26 2013-04-16 한국과학기술원 스케일러블 비디오 코딩에서 다중 roi 설정, 복원을위한 장치 및 방법
US8270496B2 (en) 2005-10-12 2012-09-18 Thomson Licensing Region of interest H.264 scalable video coding
US8902992B2 (en) 2007-04-04 2014-12-02 Entropic Communications, Inc. Decoder for selectively decoding predetermined data units from a coded bit stream
CN101478671B (zh) 2008-01-02 2011-05-11 中兴通讯股份有限公司 应用于视频监控的视频编码装置及其视频编码方法
US8542748B2 (en) * 2008-03-28 2013-09-24 Sharp Laboratories Of America, Inc. Methods and systems for parallel video encoding and decoding
CN101262604A (zh) 2008-04-23 2008-09-10 哈尔滨工程大学 一种感兴趣区优先传输的可伸缩视频编码方法
CN101742324A (zh) 2008-11-14 2010-06-16 北京中星微电子有限公司 视频编解码方法、视频编解码系统及编解码器
US20100232504A1 (en) * 2009-03-13 2010-09-16 The State of Oregon acting by and through the State Board of Higher Education on behalf of the Supporting region-of-interest cropping through constrained compression
US8724707B2 (en) 2009-05-07 2014-05-13 Qualcomm Incorporated Video decoding using temporally constrained spatial dependency
GB2486733A (en) * 2010-12-24 2012-06-27 Canon Kk Video encoding using multiple inverse quantizations of the same reference image with different quantization offsets
US9060173B2 (en) * 2011-06-30 2015-06-16 Sharp Kabushiki Kaisha Context initialization based on decoder picture buffer
US20140003504A1 (en) 2012-07-02 2014-01-02 Nokia Corporation Apparatus, a Method and a Computer Program for Video Coding and Decoding
EP2901688B1 (en) 2012-09-28 2019-10-23 Nokia Technologies Oy An apparatus and a method for video coding and decoding
CA2897152C (en) 2013-01-07 2019-03-05 Kemal Ugur Inter-layer video encoding and decoding with adaptive resolution change at indicated switching points
CN105075271A (zh) 2013-04-08 2015-11-18 索尼公司 利用shvc的关注区域可伸缩性
GB2516224A (en) 2013-07-11 2015-01-21 Nokia Corp An apparatus, a method and a computer program for video coding and decoding
WO2015008986A1 (ko) 2013-07-14 2015-01-22 엘지전자 주식회사 하이브리드 방송 시스템의 방송 신호를 송신/수신하는 방법 및 장치
ES2913983T3 (es) 2014-03-17 2022-06-07 Nokia Technologies Oy Un aparato, un método y un programa informático para codificación y decodificación de vídeo

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102422640A (zh) * 2009-05-07 2012-04-18 高通股份有限公司 具有用于局部化解码的时间上受约束的空间依存性的视频编码

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Motion and inter-layer prediction constrained SEI message;Kemal Ugur et al;《Joint Collaborative Team on Video Coding (JCT-VC) of ITU-T SG 16 WP 3 and ISO/IEC JTC 1/SC 29/WG 11 14th Meeting》;20130712;第1页至第4页
Motion-constrained tile sets SEI message;Yongjun Wu et al;《Joint Collaborative Team on Video Coding (JCT-VC) of ITU-T SG 16 WP 3 and ISO/IEC JTC 1/SC 29/WG 11 13th Meeting》;20130426;全文

Also Published As

Publication number Publication date
JP2016533077A (ja) 2016-10-20
GB201313113D0 (en) 2013-09-04
US10154274B2 (en) 2018-12-11
EP3025501A4 (en) 2017-02-22
CA2918961C (en) 2019-08-06
CN105580373A (zh) 2016-05-11
US20160165248A1 (en) 2016-06-09
JP6687770B2 (ja) 2020-04-28
KR20160034998A (ko) 2016-03-30
KR101790156B1 (ko) 2017-11-20
CA2918961A1 (en) 2015-01-29
JP2019075823A (ja) 2019-05-16
WO2015011339A1 (en) 2015-01-29
GB2516824A (en) 2015-02-11
EP3025501A1 (en) 2016-06-01

Similar Documents

Publication Publication Date Title
CN105580373B (zh) 用于视频编码和解码的装置和方法
CN106464893B (zh) 用于视频编码和解码的装置、方法和计算机程序
CN105981387B (zh) 用于处理视频的方法、装置和计算机可读存储介质
CN105637884B (zh) 多层视频文件格式设计的方法及装置
CN104813671B (zh) 用于处理视频数据的方法和设备
CN108702503A (zh) 用于视频编码和解码的装置、方法及计算机程序
KR101881677B1 (ko) 비디오 코딩 및 디코딩을 위한 장치, 방법 및 컴퓨터 프로그램
CN105556965B (zh) 用于视频编码和解码的方法、装置和计算机程序产品
CN104205819B (zh) 用于视频编码的方法和装置
CN105325003B (zh) 用于视频编码和解码的装置、方法
CN106105220B (zh) 用于视频编码和解码的方法和装置
CN104604236B (zh) 用于视频编码的方法和装置
CN110431849A (zh) 包含用于视频译码的子图片位流的视频内容的信令传输
CN109565602A (zh) 视频编码和解码
CN104813669B (zh) 用于视频编码的方法和装置
CN104396244B (zh) 用于视频编码和解码的装置、方法和计算机可读存储介质
CN108886620A (zh) 用于视频编码和解码的装置、方法及计算机程序
CN109155861A (zh) 用于编码媒体内容的方法和装置以及计算机程序
CN107431819A (zh) 用于可伸缩视频编码和解码的层间预测
CN105027567A (zh) 用于视频编码和解码的方法和装置
CN108293127A (zh) 用于视频编码和解码的装置、方法和计算机程序
CN110419219A (zh) 用于视频编码和解码的装置、方法和计算机程序
CN106664424A (zh) 参数集编码
CN106464891A (zh) 用于视频编码和解码的方法和装置
CN104604223A (zh) 用于视频编码和解码的装置、方法和计算机程序

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant