CN110800300A - 用于不可分开转换的存储器减少 - Google Patents

用于不可分开转换的存储器减少 Download PDF

Info

Publication number
CN110800300A
CN110800300A CN201880039839.2A CN201880039839A CN110800300A CN 110800300 A CN110800300 A CN 110800300A CN 201880039839 A CN201880039839 A CN 201880039839A CN 110800300 A CN110800300 A CN 110800300A
Authority
CN
China
Prior art keywords
block
video
transform
separable
inverse
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201880039839.2A
Other languages
English (en)
Other versions
CN110800300B (zh
Inventor
赵欣
V·谢廖金
A·赛义德
M·卡切维奇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qualcomm Inc
Original Assignee
Qualcomm Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qualcomm Inc filed Critical Qualcomm Inc
Publication of CN110800300A publication Critical patent/CN110800300A/zh
Application granted granted Critical
Publication of CN110800300B publication Critical patent/CN110800300B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/60Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding
    • H04N19/61Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding in combination with predictive coding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/12Selection from among a plurality of transforms or standards, e.g. selection between discrete cosine transform [DCT] and sub-band transform or selection between H.263 and H.264
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/157Assigned coding mode, i.e. the coding mode being predefined or preselected to be further used for selection of another element or parameter
    • H04N19/159Prediction type, e.g. intra-frame, inter-frame or bidirectional frame prediction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/176Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a block, e.g. a macroblock
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/18Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being a set of transform coefficients
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/42Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by implementation details or hardware specially adapted for video compression or decompression, e.g. dedicated software implementation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/42Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by implementation details or hardware specially adapted for video compression or decompression, e.g. dedicated software implementation
    • H04N19/423Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by implementation details or hardware specially adapted for video compression or decompression, e.g. dedicated software implementation characterised by memory arrangements
    • H04N19/426Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by implementation details or hardware specially adapted for video compression or decompression, e.g. dedicated software implementation characterised by memory arrangements using memory downsizing methods
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/60Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/60Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding
    • H04N19/649Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding the transform being applied to non rectangular image segments

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Discrete Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

本发明描述以下技术:其中解码器经配置以接收输入数据块及将逆向不可分开转换应用于至少部分所述输入数据块以产生逆向不可分开转换输出系数块。所述应用所述逆向不可分开转换包括指派窗口、为所述经指派窗口内部的各位置指派权重,及基于所述经指派权重确定所述逆向不可分开转换输出系数块。所述解码器进一步经配置以基于所述经确定逆向不可分开转换输出系数块形成经解码视频块,其中形成所述经解码视频块包括对所述残余视频块与一或多个预测性块求和。

Description

用于不可分开转换的存储器减少
相关申请案
本申请案涉及2017年6月29日递交的美国临时申请案第62/526,807号,及2018 年6月27日递交的美国申请案第16/020,511号,其全文以引用的方式并入本文中。
技术领域
本发明涉及视频译码。
背景技术
数字视频能力可并入至广泛范围的装置中,包含数字电视、数字直播系统、无线广播系统、个人数字助理(PDA)、膝上型或台式计算机、平板计算机、电子书阅读器、数字相机、数字记录装置、数字媒体播放器、视频游戏装置、视频游戏控制台、蜂窝或卫星无线电电话(所谓的“智能电话”)、视频电话会议装置、视频流式发射装置及其类似者。数字视频装置实施视频译码技术,诸如包含由ITU-T H.261、ISO/IEC MPEG-1Visual、 ITU-T H.262或ISO/IEC MPEG-2Visual、ITU-T H.263、ISO/IEC MPEG-4Visual、ITU-T H.264/MPEG-4、先进视频译码(AVC)第10部分及ITU-T H.265、高效率视频译码(HEVC) 所界定的各种标准及这些标准的扩展中所描述的技术。视频装置可通过实施此类视频译码技术来更有效地发射、接收、编码、解码及/或存储数字视频信息。
视频译码技术包含空间(图片内)预测及/或时间(图片间)预测以减少或移除视频序列中所固有的冗余。对于基于块的视频译码,可视频切片(例如,视频帧或视频帧的一部分) 分割成视频块(其还可被称作树块)、译码单元(CU)及/或译码节点。图片可被称作帧,且参考图片可被称作参考帧。
空间或时间预测导致待译码的块的预测性块。残余数据表示待译码的原始块与预测性块之间的像素差。为了进一步压缩,可将残余数据从像素域转换至转换域,从而导致可接着进行量化的残余转换系数。
发明内容
一般来说,本发明描述关于在视频译码中应用的不可分开转换设计的技术。转换可用于先进视频编解码器的情形中,诸如HEVC、HEVC的扩展或下一代视频译码标准。
在一实例中,本发明描述一种编码视频数据的方法,所述方法包括:形成残余视频块,其中形成所述残余视频块包括从正被译码的视频块减去至少一个预测性块;将不可分开转换应用于至少部分输入数据块,以产生不可分开转换输出系数块,其中应用所述不可分开转换包括:指派一窗口,为所述经指派窗口内部的各位置指派权重,及基于所述经指派权重确定所述不可分开转换输出系数块;及基于所述经确定不可分开转换输出系数块,产生所述经编码视频数据。
在一实例中,本发明描述一种解码视频数据的方法,所述方法包括:接收输入数据块;将逆向不可分开转换应用于至少部分所述输入数据块以产生逆向不可分开转换输出系数块,其中应用所述逆向不可分开转换包括:指派一窗口,为所述经指派窗口内部的各位置指派权重,及基于所述经指派权重确定所述逆向不可分开转换输出系数块;及基于所述经确定逆向不可分开转换输出系数块形成经解码视频块,其中形成所述经解码视频块包括对残余视频块与一或多个预测性块求和。
在一实例中,本发明描述一种用于编码视频数据的设备,其包括:存储器,其经配置以存储所述视频数据;及视频编码器,其经配置以:形成残余视频块,其中形成所述残余视频块包括从正被译码的视频块减去至少一个预测性块;将不可分开转换应用于至少部分输入数据块,以产生不可分开转换输出系数块,其中应用所述不可分开转换包括:指派一窗口,为所述经指派窗口内部的各位置指派权重,及基于所述经指派权重确定所述不可分开转换输出系数块;及基于所述经确定不可分开转换输出系数块产生所述经编码视频数据。
在一实例中,本发明描述一种用于解码视频数据的设备,其包括:存储器,其经配置以存储所述视频数据;及视频解码器,其经配置以:接收输入数据块;将逆向不可分开转换应用于至少部分所述输入数据块以产生逆向不可分开转换输出系数块,其中应用所述逆向不可分开转换包括:指派一窗口,为所述经指派窗口内部的各位置指派权重,及基于所述经指派权重确定所述逆向不可分开转换输出系数块;及基于所述经确定逆向不可分开转换输出系数块形成经解码视频块,其中形成所述经解码视频块包括对残余视频块与一或多个预测性块求和。
附图说明
图1为说明可利用本发明中所描述的技术的实例视频编码及解码系统的简化框图。
图2A是视频编码器处的转换过程的简化说明。
图2B是视频解码器处的转换过程的简化说明。
图3是通过视频解码器应用的实例旋转转换的简化说明。
图4A是通过编码器的实例不可分开转换及通过解码器的逆向不可分开转换的简化说明。
图4B是从明度帧内模式至转换集索引的实例映射的简化说明。
图5A是不可分开转换矩阵的简化说明。
图5B是所述空间域中的不可分开转换矩阵的简化说明。
图6是说明可实施本发明中所描述的技术的视频编码器的实例的简化流程图。
图7是说明可实施本发明中所描述的技术的视频解码器的实例的简化流程图。
图8A是经指派窗口的简化说明。
图8B是经指派窗口的简化说明。
图8C是经指派窗口的简化说明。
图8D是经指派窗口的简化说明。
图8E是经指派窗口的简化说明。
图9是经指派窗口内的经指派权重的简化说明。
图10是说明可实施本发明中所描述的技术的视频编码器的实例的简化框图。
图11是说明可实施本发明中所描述的技术的视频解码器的实例的简化框图。
图12A是通过视频编码器根据本发明中所描述的一或多个技术的实例转换处理的简化说明。
图12B为根据本发明中所描述的一或多个技术的通过视频解码器进行的实例逆转换处理的说明。
具体实施方式
图1为说明可利用本发明中所描述的技术的实例视频编码及解码系统的框图100。如图1中所展示,系统100包含源装置110,其提供稍后时间将由目的地装置150解码的经编码视频数据。确切地说,源装置110经由计算机可读媒体145将视频数据提供至目的地装置150。源装置110及目的地装置150可包括广泛范围的装置中的任一者,包含台式计算机、笔记型(即,膝上型)计算机、平板计算机、机顶盒、电话手机(诸如,所谓的“智能”电话)、所谓的“智能”垫片、电视、相机、显示装置、数字媒体播放机、视频游戏控制台、视频流式发射装置或其类似者。在一些状况下,源装置110及目的地装置150可经装备以用于无线通信。
目的地装置150可经由计算机可读媒体145接收待解码的经编码视频数据。计算机可读媒体145可包括能够将经编码视频数据从源装置110移动至目的地装置150的任何类型的媒体或装置。在一实例中,计算机可读媒体145可包括通信媒体以使得源装置110 能够实时地将经编码视频数据直接发射至目的地装置150。可根据通信标准(诸如,无线通信协议)调制经编码视频数据,且将经编码视频数据发射至目的地装置150。通信媒体可包括任何无线或有线通信媒体,诸如,射频(RF)频谱或一或多个物理发射线路。通信媒体可形成基于包的网络(诸如,区域网络、广域网络或诸如因特网的全域网络)的部分。通信媒体可包含路由器、交换器、基站或任何其它可以用于促进从源装置110到目的地装置150的通信的设备。
在一些实例中,经编码数据可从输出接口140输出至存储装置。类似地,可由输入接口180从存储装置存取经编码数据。存储装置可包含多种分散式或本地存取式数据存储媒体中的任一者,诸如,硬盘驱动器、Blu-ray光盘、DVD、CD-ROM、快闪存储器、易失性或非易失性存储器,或用于存储经编码视频数据的任何其它合适的数字存储媒体。在再一实例中,存储装置可对应于文件服务器或可存储由源装置110产生的经编码视频的另一中间存储装置。目的地装置150可经由流式发射或下载从存储装置存取存储的视频数据。文件服务器可为能够存储经编码视频数据并将经编码视频数据发射至目的地设备150的类型的服务器。实例文件服务器包含网页服务器(例如,用于网站)、FTP 服务器、网络附接存储(NAS)设备及本地磁盘驱动器。目的地装置150可经由任何标准数据连接(包含因特网连接)存取经编码视频数据。此可包含无线通道(例如,Wi-Fi连接)、有线连接(例如,DSL、缆线调制解调器等),或两者的组合,其适于存取存储于文件服务器上的经编码视频数据。从存储装置的经编码视频数据的发射可为串流发射、下载发射或其组合。
本发明的技术不必限于无线应用或设置。所述技术可应用于支持多种多媒体应用中的任一者的视频译码,诸如,空中电视广播、有线电视发射、卫星电视发射、因特网流式视频发射(诸如,经由HTTP的动态自适应串流(DASH))、经编码至数据存储媒体上的数字视频、存储于数据存储媒体上的数字视频的解码或其它应用。在一些实例中,系统100可经配置以支持单向或双向视频发射以支持诸如视频流式发射、视频播放、视频广播及/或视频电话的应用。
在图1的实例中,源装置110包含视频源120、视频编码器130及输出接口140。目的地装置150包含输入接口180、视频解码器170及显示装置160。根据本发明,源装置110的视频编码器130可经配置以应用本发明中描述的技术,诸如与二次转换有关的技术。根据本发明,目的地装置150的视频解码器170可经配置以应用本发明中描述的技术,诸如与二次转换有关的技术。在其它实例中,源装置及目的地装置可包含其它组件或布置。举例来说,源装置110可从外部视频源120(诸如,外部摄像机)接收视频数据。同样地,目的地装置150可与外部显示装置介接,而非包含集成显示装置。
如上文所提及,源装置110包含输出接口140且目的地装置150包含输入接口180。在一些实例中,输出接口140表示发射器且输入接口180表示接收器。在其它实例中,输出接口140及输入接口180表示收发器的实例(即,能够无线地发射及接收数据信号的接口)。收发器可经配置以发送及接收无线信号中的视频数据。举例来说,输出接口140 当实施为收发器时可发送包含经编码视频数据的数据信号(例如,计算机可读媒体145),而输入接口180当实施为收发器时可接收包含经编码视频数据的数据信号(例如,计算机可读媒体145)。如上文所论述,视频编码器130可将经编码视频数据提供至输出接口140,而输入接口180可将经编码视频数据提供至视频解码器170。
图1的所说明系统100仅是一个实例。本发明中所描述的技术可由任何数字视频编码及/或解码设备执行。尽管通常本发明的技术由视频编码设备和视频解码设备来执行,但所述技术还可由视频编码器/解码器(通常被称作“编解码器”)执行。源装置110及目的地装置150仅为源装置110产生经译码视频数据以用于发射至目的地装置150的这些译码装置的实例。在一些实例中,装置110、150可以基本上对称的方式操作,使得装置110、150中的每一者包含视频编码及解码组件。因此,系统100可支持源装置110 与目的地装置150之间的单向或双向视频发射,例如用于视频流式发射、视频播放、视频广播或视频电话。
源装置110的视频源120可包含视频捕捉装置,诸如,视频相机、含有先前捕捉的视频的视频存档及/或用以从视频内容提供者接收视频的视频馈送接口。作为另一个替代,视频源120可产生基于计算机图形的数据,作为源视频、或实况视频、存档视频及计算机产生的视频的组合。在一些情况下,源装置110及目的地装置150可形成所谓的相机电话或视频电话。然而,如上文所提及,本发明所描述的技术一般可适用于视频译码,且可适用于无线及/或有线应用。在每一情况下,捕捉、预先捕捉或计算机产生的视频可由视频编码器130编码。经编码视频信息可接着由输出接口140输出至计算机可读媒体145上。
计算机可读媒体145可包含暂态媒体,诸如无线广播或有线网络发射。在一些实例中,网络服务器(图中未展示)可例如,经由网络发射,从源装置110接收经编码视频数据及提供所述经编码视频数据至目的地装置150。因此,在各种实例中,计算机可读媒体145可理解为包含各种形式的一或多个计算机可读媒体。
目的地装置150的输入接口180自计算机可读媒体145接收信息。计算机可读媒体145的信息可包含由视频编码器130定义的语法信息,所述语法信息还供视频解码器170 使用,其包含描述块及其它经译码单元的特性及/或处理的语法元素。显示装置160向用户显示经解码视频数据,且可包括多种显示装置中的任一者,诸如阴极射线管(CRT)、液晶显示器(LCD)、等离子显示器、有机发光二极管(OLED)显示器或另一类型的显示装置。
视频编码器130及视频解码器170各自可实施为多种合适编码器电路中的任一者,诸如一或多个微处理器、数字信号处理器DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)、离散逻辑、软件、硬件、固件或其任何组合。当所述技术以软件部分地实施时,装置可将用于软件的指令存储于合适的非暂时性计算机可读媒体中,且在硬件中使用一或多个处理器执行指令以执行本发明的技术。视频编码器130及视频解码器170中的每一者可包含于一或多个编码器或解码器中,编码器或解码器中的任一者可集成为相应装置中的组合式编码器/解码器(编解码器)的部分。包含视频编码器130及/或视频解码器170的装置可包括集成电路、微处理器及/或无线通信装置(诸如蜂窝电话)。
视频编码器130及视频解码器170可根据视频译码标准(诸如上文所描述的标准)且在一些实例中根据高效视频译码(HEVC)标准(也称作ITU-T H.265或所述HEVC标准的扩展)或根据下一代视频译码标准操作。然而,本发明的技术并不限于任何特定译码标准。视频译码标准的其它实例包括MPEG-2和ITU-T H.263。尽管图1中未展示,但在一些方面中,视频编码器130及视频解码器170 16可各自与音频编码器及解码器集成,且可包含适当多路复用器-多路分用器(MUX-DEMUX)单元,或其它硬件及软件,以处置在共同数据流或单独数据流中的音频及视频两者的编码。若适用,则多路复用器-多路分用器单元可符合协议(诸如ITU H.223多路复用器协议)或其它协议(诸如,用户数据报协议 (UDP))。
一般关于ITU-T H.265(也称作高效视频译码(HEVC),其描述于2013年4月的“H 系列:视听及多媒体系统,视听服务的基础设施——移动视频的译码(SERIES H:AUDIOVISUAL AND MULTIMEDIA SYSTEMS,Infrastructure of audiovisual services--Coding of moving video)”高效视频译码,ITU-T H.265中)描述本发明的技术。然而,这些技术可施加至其它视频译码标准,包含HEVC及其扩展、HEVC的扩展、其它标准的扩展,以及其它视频压缩技术(例如,非标准化编解码器)的后置标准。其它视频译码标准的实例包含ITU-T H.261、ISO/IEC MPEG-1Visual、ITU-T H.262或ISO/IEC MPEG-2Visual、ITU-TH.263、ISO/IEC MPEG-4Visual及ITU-T H.264/MPEG-4,先进视频译码(AVC)第10部分,包含其可调式视频译码(SVC)及多视图视频译码(MVC)扩展。
H.265标准最近由ITU-T视频译码专家组(VCEG)及ISO/IEC动画专家组(MPEG)的视频译码联合合作小组(JCT-VC)完成。在下文中被称作HEVC WD的HEVC草案规格可从http://phenix.int-evry.fr/jct/doc_end_user/documents/14_Vienna/wg11/JCTVC-N1003-v1.zip 获得。
HEVC的多视图扩展,MV-HEVC,还由JCT-3V开发。MV-HEVC的工作草案(WD) 的实例(被称作MV-HEVC WD8)可从phenix.it-sudparis.eu/jct2/doc_end_user/documents/ 8_Valencia/wg11/JCT3V-H1002-v5.zip获得。HEVC的可调式扩展(命名为SHVC)还已由JCT-VC开发。被称作SHVC WD6的SHVC的工作草案(WD)的实例可从 phenix.it-sudparis.eu/jct/doc_end_user/documents/17_Valencia/wg11/JCTVC-Q1008-v2.zip 获得。
在HEVC及其它视频编解码器中,视频帧或图片可分成可包含明度及色度样本两者的树块的序列,树块还称为最大译码单元LCU)。位流内的语法数据可定义LCU的大小, LCU就像素的数目来说为最大译码单元。切片包含按译码次序的数个连续树块。视频帧或图片可分割成一或多个片段。
在HEVC中为产生经编码CTU(即为编码CTU),视频编码器130可对CTU的译码树块递回地执行四分树分割,以将译码树块划分成译码块,因此命名“译码树单元”。译码块为样本的N×N块。CU可为图片的明度样本的译码块及色度样本的两个对应译码块,所述图片具有明度样本阵列、Cb样本阵列及Cr样本阵列,及用以对译码块的样本进行译码的语法结构。在单色图片或具有三个单独色彩平面的图片中,CU可包括单一译码块及用于译码所述译码块的样本的语法结构。
可根据四分树数据结构将每一树块分裂成CU。一般来说,四分树数据结构包含每CU一个节点,其中根节点对应于树块。如果将CU拆分成四个子CU,那么对应于所述 CU的节点包含四个叶节点,所述四个叶节点中的每一者对应于所述子CU中的一者。所述四分树数据结构中的每一节点可提供针对对应CU的语法数据。举例来说,所述四分树中的节点可包含分裂旗标,从而指示是否将对应于所述节点的CU分裂成子CU。针对CU的语法元素可经递回地定义,且可取决于所述CU是否分裂成子CU。如果CU 未经进一步分裂,那么其被称作叶CU。在本发明中,叶CU的四个子CU还称作叶CU,即使不存在原始叶CU的明确分裂。举例来说,如果16×16大小的CU未经进一步分裂,那么尽管所述16×16CU从未经分裂,但4个8×8子CU还被称作叶CU。
除CU不具有大小区别外,CU具有与H.264标准的宏块类似的用途。举例来说,可将树块分裂成四个子节点(还称作子CU),且每一子节点又可为上代节点且可被分裂成另外四个子节点。被称作四分树的叶节点的最终的未分裂子节点包括译码节点,所述译码节点还被称作叶CU。与一经译码位流相关联的语法数据可定义可分裂一树块的最大次数(其被称作最大CU深度),且还可定义所述译码节点的最小大小。因此,位流还可界定最小译码单元(SCU)。CU的大小对应于译码节点的大小,且一般为正方形形状。CU 的大小范围可为8×8像素达到最大大小为例如64×64像素或大于64×64像素的树块的大小。
CU包含译码节点及与所述译码节点相关联的预测单元(PU)及转换单元(TU)。每一CU可含有一或多个PU及一或多个TU。与CU相关联的语法数据可描述例如将CU分割成一或多个PU。作为编码CU的部分,视频编码器130可将CU的译码块分割成一或多个预测块。预测块可为应用相同预测的样本的矩形(即,正方形或非正方形)块。CU的预测单元(PU)可为图片的明度样本的预测块,图片的色度样本的两个对应预测块,及用以对预测块样本进行预测的语法结构。视频编码器130可针对CU的每一PU的明度、 Cb及Cr预测块产生预测性明度、Cb及Cr块。在单色图片或包括单独色彩平面的图片中,PU可包括单个预测块及用于预测所述预测块的语法结构。
视频编码器130可使用帧内预测或帧间预测来产生PU的预测性块。每一CU是以帧内预测模式或帧间预测模式中的一者译码。如果视频编码器130使用帧内预测以产生 PU的预测性块,那么视频编码器130可基于与PU相关联的图片的经解码样本而产生 PU的预测性块。如果视频编码器130使用帧间预测以产生PU的预测性块,那么视频编码器130可基于除与PU相关联的图片外的一或多个图片的经解码样本,产生PU的预测性块。
分割模式可在CU经跳过或直接模式编码、帧内预测模式编码还是帧间预测模式编码之间不同。PU可被分割成非正方形形状。
此外,视频编码器130可将CU的每一残余块分解为一或多个转换块。转换块可为经应用相同转换的样本的矩形(正方形或非正方形)块。CU的转换单元(TU)可为明度样本的转换块、色度样本的两个对应转换块,及用以对转换块样本进行转换的语法结构。因此,CU的每一TU可与明度转换块、Cb转换块及Cr转换块相关联。与TU相关联的亮度转换块可为CU的亮度残余块的子块。Cb转换块可为CU的Cb残余块的子块。Cr转换块可为CU的Cr残余块的子块。在单色图片或具有三个单独色彩平面的图片中,TU 可包括单一转换块及用以使转换块的样本转换的语法结构。在一些实例中,明度及色度分量的相同CU的残余块可以不同方式分割。
与CU相关联的语法数据还可描述(例如)根据四分树将CU分割成一或多个TU。TU可为正方形或非正方形(例如,矩形)形状。在HEVC的背景下,或其它标准(例如, H.264/AVC中的宏块及其子块)的背景下的相似数据结构中,本发明可使用术语“块”指代CU、PU或TU中的任一者。
HEVC标准允许根据TU进行转换,所述转换对于不同CU可为不同的。通常基于针对经分割LCU所定义的给定CU内的PU的大小来对TU设置大小,但可能情况并非总是如此。TU的大小通常与PU相同或比PU小。在一些实例中,可使用被称为“残余四分树”(RQT)的四分树结构而将对应于CU的残余样本再分为较小单元。可将RQT的叶节点称作转换单元(TU)。与TU相关联的像素差值可经转换以产生可经量化的转换系数。
叶CU可包含一或多个PU。一般来说,PU表示对应于所述对应CU的全部或一部分的空间区域,且可包含用于针对PU检索及/或产生参考样品的数据。此外,PU包含与预测有关的数据。举例来说,当PU经帧内模式编码时,PU的数据可包含于RQT中,所述RQT可包含描述用于对应于PU的TU的帧内预测模式的数据。RQT也可被称作转换树。在一些实例中,可在叶CU语法而非RQT中用信号表示帧内预测模式。作为实例,当PU经帧间模式编码时,PU可包含定义PU的运动信息(诸如一或多个运动向量)的数据。定义PU的运动向量的数据可描述(例如)运动向量的水平分量、运动向量的竖直分量、运动向量的解析度(例如,四分之一像素精度或八分之一像素精度)、运动向量所指向的参考图片,及/或运动向量的参考图片列表(例如,列表0、列表1或列表C)。
具有一或多个PU的叶CU还可包含一或多个TU。如上文所论述,可使用RQT(还称作TU四分树结构)来指定所述转换单元。举例来说,分裂旗标可指示叶CU是否分裂成四个转换单元。接着,可将每一转换单元进一步分裂为其它若干子TU。当TU未进一步分裂时,可将其称作叶TU。一般来说,对于帧内译码来说,属于叶CU的所有叶TU 共用相同的帧内预测模式。即,一般应用相同帧内预测模式来计算叶CU的所有TU的预测值。对于帧内译码,视频编码器可使用帧内预测模式将每一叶TU的残余值计算为CU的对应于所述TU的部分与原始块之间的差。TU不必受限于PU的大小。因此,TU 可大于或小于PU。对于帧内译码,PU可与用于同一CU的对应叶TU共置。在一些实例中,叶TU的最大大小可对应于对应叶CU的大小。
此外,叶CU的TU还可与相应四分树数据结构(称作RQT或如上文所提的转换树) 相关联。即,叶CU可包含指示所述叶CU如何被分割成TU的四分树。TU四分树的根节点一般对应于叶CU,而CU四分树的根节点一般对应于树块。将RQT的未被分裂的 TU称作叶TU。一般来说,除非另有指示,否则本发明分别使用术语CU及TU来指叶 CU及叶TU。
视频序列通常包含一系列视频帧或图片。图片的每一切片可包含描述所述相应切片的编码模式的切片语法数据。视频编码器130通常对个别视频切片内的视频块进行操作,以便编码视频数据。视频块可对应于CU内的译码节点。视频块可具有固定或变化的大小,且可根据指定译码标准而大小不同。
在本发明中,“N×N”及N乘N"可互换使用以就竖直及水平尺寸来说指代视频块的像素尺寸,例如,16×16像素或16乘16像素。一般来说,16×16块在竖直方向上具有 16个像素(y=16)且在水平方向上具有16个像素(x=16)。同样地,N×N块通常在竖直方向上具有N个像素且在水平方向上具有N个像素,其中N表示非负整数值。可按行及列来布置块中的像素。此外,块未必需要在水平方向上与在竖直方向上具有相同数目个像素。举例来说,块可包括N×M个像素,其中M未必等于N。
在使用CU的PU的帧内预测性或帧间预测性译码之后,视频编码器130可计算CU 的TU的残余数据。PU可包括描述在空间域(还被称作像素域)中产生预测性像素数据的技术或模式的语法数据,且TU可包括在对残余视频数据应用转换(例如离散余弦转换 (DCT)、整数转换、小波转换或概念上类似的转换)之后转换域中的系数。所述残余数据可对应于未经编码的图片的像素与对应于PU的预测值之间的像素差。视频编码器130 可形成包含表示CU的残余数据的经量化转换系数的TU。即,视频编码器130可计算残余数据(以残余块的形式)、转换残余块以产生转换系数的块,且接着量化转换系数以形成经量化转换系数。视频编码器130可形成包含经量化转换系数的TU,以及其它语法信息(例如,TU的分裂信息)。
如上文所提及,在应用任何转换以产生转换系数之后,视频编码器130可执行转换系数的量化。量化一般是指量化转换系数以可能地减少用以表示系数的数据量从而提供进一步压缩的过程。量化过程可减小与系数中的一些或所有相关联的位深度。举例来说,可在量化期间将n位值四舍五入至m位值,其中n大于m。
在量化之后,视频编码器130可扫描转换系数,从而自包含经量化转换系数的二维矩阵产生一维向量。扫描可经设计以将较高能量(且因此较低频率)系数置于阵列前部,及将较低能量(且因此较高频率)系数置于阵列后部。在一些实例中,视频编码器130可利用预定义扫描次序来扫描经量化转换系数以产生可经熵编码的经串行化向量。在其它实例中,视频编码器130可执行自适应扫描。在扫描经量化转换系数以形成一维向量后,视频编码器130可(例如)根据上下文自适应性可变长度译码(CAVLC)、上下文自适应性二进制算术译码(CABAC)、基于语法的上下文自适应性二进制算术译码(SBAC)、机率区间分割熵(PIPE)译码或另一熵编码方法熵编码表示一维向量中的转换系数的特定语法元素。视频编码器130还可熵编码与经编码的视频数据相关联的供由视频解码器170用于解码视频数据的语法元素。
一般来说,视频解码器170执行尽管与由视频编码器130执行的处理互逆向但类似的处理,以解码经编码数据。举例来说,视频解码器170逆量化且逆转换所接收TU的系数以重现残余块。视频解码器170可使用信令预测模式(帧内预测或帧间预测)以形成经预测块。视频解码器170可(在逐像素基础上)使经预测块与残余块组合以重现原始块。视频解码器170可执行额外处理,诸如执行解块处理以减少沿块边界的视觉伪影。另外,视频解码器170可以尽管与由视频编码器130的CABAC编码过程互逆向但与其基本上类似的方式使用CABAC解码语法元素。
如前所提及,视频编码器130可将DCT、整数转换、小波转换或概念地类似转换应用于残余视频数据。这些可分开转换可指示导出输入信号的替代表示的处理。给定N点向量x=[x0、x1、…、xN-1]T及给定向量的集合{φ0、φ1,…、φM-1},可使用φ0、φ1、…、φM-1的线性组合估计或恰好地表示x,可公式化如下,
Figure BDA0002317956430000111
其中
Figure BDA0002317956430000112
可以为x的近似或等效,向量f=[fi,f2,…,fM-1]被称为转换系数向量,及{φ0,φ1,…,φM-1}是转换依据向量。
在视频译码的情形中,转换系数可大致不相关且稀疏。举例来说,输入端向量x可仅仅在几个转换系数上压缩,且剩余的大部分转换系数通常接近于零。
给定特定输入数据,在能量压缩方面的最佳转换可为所谓的卡南-洛维(Karhunen-Loeve)转换(Karhunen-Loeve transform;KLT)。KLT使用输入数据的共变数矩阵的特征向量作为转换基础向量。因此,KLT实际上为数据独立的转换且不具有通用数学公式。然而,在某些假定(诸如输入数据形成一阶静止马尔可夫处理)下,文献中已证实对应KLT实际上为单一转换的正弦族中的成员,在1979年模式分析及机器智能IEEE 汇刊,1,356,Jain,A.K的单一转换的正弦族中描述单一转换。单一转换的正弦族可使用经公式化如下的转换基础向量指示转换:
φm(k)=A·eikθ+B·e-ikθ
在上述等式中,e为大致等于2.71828的自然对数的底,A、B及θ一般为复数,且取决于m的值。另外,在上述等式中,φm为向量,φm(k)指示向量φm的第k个分量,且 i指示复数的虚部。
若干熟知转换(包含离散傅立叶转换、余弦转换、正弦转换及KLT(用于一阶静止马尔可夫处理))为单一转换的此正弦族的成员。如IEEE Trans.Sig.Processing SP-42,1038-1051(1994年),S.A.Martucci的“对称卷积及离散正弦和余弦转换(Symmetricconvolution and the discrete sine and cosine transforms)”中所描述,完整DCT及离散正弦转换(DST)族可基于不同类型包含总共16个转换且不同类型DCT及DST的完整定义在下文中给出。不同类型可对应于A、B及θ的不同值。
假定输入N点向量表示为x=[x0X1、…、xN-1]T,且N点向量通过乘以矩阵而转换至表示为y=[y0Y1、…、yN-1]T的另一N点转换系数向量。将x转换至y的处理可根据以下转换公式中的一者进一步说明,其中k在0至N-1范围内,包含:
DCT类型I(DCT-1):
Figure BDA0002317956430000121
其中
Figure BDA0002317956430000122
DCT类型II(DCT-2):
其中
Figure BDA0002317956430000124
DCT类型III(DCT-3):
其中
Figure BDA0002317956430000126
DCT类型-IV(DCT-4):
DCT类型V(DCT-5):
其中
Figure BDA0002317956430000133
DCT类型VI(DCT-6):
Figure BDA0002317956430000134
其中
Figure BDA0002317956430000135
DCT类型VII(DCT-7):
其中
Figure BDA0002317956430000137
DCT类型VIII(DCT-8):
Figure BDA0002317956430000138
DST类型I(DST-1):
Figure BDA0002317956430000139
DST类型-II(DST-2):
Figure BDA00023179564300001310
其中
Figure BDA00023179564300001311
DST类型III(DST-3):
Figure BDA00023179564300001312
其中
Figure BDA00023179564300001313
DST类型IV(DST-4):
DST类型V(DST-5):
Figure BDA0002317956430000142
DST类型VI(DST-6):
Figure BDA0002317956430000143
DST类型VII(DST-7):
Figure BDA0002317956430000144
DST类型VIII(DST-8):
Figure BDA0002317956430000145
其中
转换类型(诸如DST类型)可由转换基底函数的数学公式指定。举例来说,4点 DST-VII及8-点DST-VII具有相同转换类型,无论N的值为何。
在不损失一般性的情况下,上文所有转换类型可使用下文的通用公式来表示:
Figure BDA0002317956430000147
在上文等式中,T为可由一个某种转换(例如,DCT类型-I至DCT类型-VIII,或DST类型-I至DST类型-VIII)的定义指定的转换矩阵,且T的行向量(例如,[Ti,0、Ti,1、Ti,2、…、Ti,N-1])为第i个转换基础向量。应用于N点输入向量上的转换可被称作N点转换。
还应注意,应用于1-D输入数据x上的以上转换公式可以如下文的矩阵乘法形成来表示:
y=T·x
在上述等式中,T指示转换矩阵,x指示输入数据向量,且y指示输出转换系数向量。
先前章节中介绍的转换可应用于1-D输入数据上,且转换还可经扩展用于2-D输入数据源。在以下论述中,X为输入的M×N个数据阵列。于2-D输入数据上应用转换的技术可包含可分开的及非可分开的2-D转换。
可分开的2-D转换顺序应用X的水平向量及竖直向量的1-D转换,公式如下:
厂=C·X·RT
在上述等式中,C及R分别表示给定M×M及N×N个转换矩阵。自所述公式,可见 C针对X的列向量应用1-D转换,而R针对X的行向量应用1-D转换。在本文的稍后部分中,为简单起见,C及R表示为左(竖直)及右(水平)转换且其皆形成转换对。存在C 等于R且为正交矩阵的情况。在此情况下,可分开的2-D转换可仅由一个转换矩阵所确定。
在一些实例中,非可分开的2-D转换可通过应用以下数学映射首先将X的所有元素重组成单个向量,即X':
X′(i·N+j)=Xi,j
接着,1-D转换T'可如下应用于X':
厂=T′·X′
在上述等式中,T'为(M*N)×(M*N)转换矩阵。
在视频译码中,可应用可分开2-D转换,此是由于2-D转换与1-D转换相比可使用较少操作计数(例如,加法、乘法)。
在习知视频编解码器,诸如H.264/AVC中,4点及8点DCT类型II的整数近似值可应用于帧内及帧间预测残余两者。换句话说,视频译码器可将4点及8点DCT类型 II的整数近似值应用于使用帧内或帧间预测产生的残余块。为较佳地适应残余样本的各种统计,除DCT类型II外的更可挠类型的转换可用于新一代视频编解码器中。举例来说,在HEVC中,4点类型VII DST的整数近似值可用于帧内预测残余。如2010年3 月,声学、话音及信号处理的IEEE国际会议(International Conference on Acoustics,Speech and SignalProcessing;ICASSP),第726至729页,J.Han,A.Saxena及K.Rose的“共同朝向视讯/图像译码中的最优空间预测及自适应转换(Towards jointly optimal spatial prediction andadaptive transform in video/image coding)”中所描述,皆已在理论上证实并以实验方式验证用于HEVC的DST类型VII与DCT类型II相比更高效用于沿帧内预测方向产生的残余向量。举例来说,DST类型VII与DCT类型II相比更高效用于由水平帧内预测方向产生的行残余向量。在HEVC中,4点DST类型VII的整数近似值可仅应用于4×4明度帧内预测残余块。用于HEVC中的4点DST-VII在下文展示:
4x4 DST-VII:
{29,55,74,84}
{74,74,0,-74}
{84,-29,-74,55}
{55,-84,74,-29}
在HEVC中,对于不为4×4明度帧内预测残余块的残余块,还可应用4点、8点、 16点及32点DCT类型II的整数近似值,如下文所示:
4点DCT-II:
{64,64,64,64}
{83,36,-36,-83}
{64,-64,-64,64}
{36,-83,83,-36}
8点DCT-II:
{64,64,64,64,64,64,64,64}
{89,75,50,18,-18,-50,-75,-89}
{83,36,-36,-83,-83,-36,36,83}
{75,-18,-89,-50,50,89,18,-75}
{64,-64,-64,64,64,-64,-64,64}
{50,-89,18,75,-75,-18,89,-50}
{36,-83,83,-36,-36,83,-83,36}
{18,-50,75,-89,89,-75,50,-18}
16点DCT-II:
{64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64}
{90,87,80,70,57,43,25,9,-9,-25,-43,-57,-70,-80,-87,-90}
{89,75,50,18,-18,-50,-75,-89,-89,-75,-50,-18,18,50,75,89}
{87,57,9,-43,-80,-90,-70,-25,25,70,90,80,43,-9,-57,-87}
{83,36,-36,-83,-83,-36,36,83,83,36,-36,-83,-83,-36,36,83}
{80,9,-70,-87,-25,57,90,43,-43,-90,-57,25,87,70,-9,-80}
{75,-18,-89,-50,50,89,18,-75,-75,18,89,50,-50,-89,-18,75}
{70,-43,-87,9,90,25,-80,-57,57,80,-25,-90,-9,87,43,-70}
{64,-64,-64,64,64,-64,-64,64,64,-64,-64,64,64,-64,-64,64}
{57,-80,-25,90,-9,-87,43,70,-70,-43,87,9,-90,25,80,-57}
{50,-89,18,75,-75,-18,89,-50,-50,89,-18,-75,75,18,-89,50}
{43,-90,57,25,-87,70,9,-80,80,-9,-70,87,-25,-57,90,-43}
{36,-83,83,-36,-36,83,-83,36,36,-83,83,-36,-36,83,-83,36}
{25,-70,90,-80,43,9,-57,87,-87,57,-9,-43,80,-90,70,-25}
{18,-50,75,-89,89,-75,50,-18,-18,50,-75,89,-89,75,-50,18}
{9,-25,43,-57,70,-80,87,-90,90,-87,80,-70,57,-43,25,-9}
32点DCT-II:
{64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64, 64,64,64,64}
{90,90,88,85,82,78,73,67,61,54,46,38,31,22,13,4,-4,-13,-22,-31,-38,-46,-54,-61,-67,-73, -78,-82,-85,-88,-90,-90}
{90,87,80,70,57,43,25,9,-9,-25,-43,-57,-70,-80,-87,-90,-90,-87,-80,-70,-57,-43,-25,-9,9, 25,43,57,70,80,87,90}
{90,82,67,46,22,-4,-31,-54,-73,-85,-90,-88,-78,-61,-38,-13,13,38,61,78,88,90,85,73,54, 31,4,-22,-46,-67,-82,-90}
{89,75,50,18,-18,-50,-75,-89,-89,-75,-50,-18,18,50,75,89,89,75,50,18,-18,-50,-75,-89, -89,-75,-50,-18,18,50,75,89}
{88,67,31,-13,-54,-82,-90,-78,-46,-4,38,73,90,85,61,22,-22,-61,-85,-90,-73,-38,4,46,78, 90,82,54,13,-31,-67,-88}
{87,57,9,-43,-80,-90,-70,-25,25,70,90,80,43,-9,-57,-87,-87,-57,-9,43,80,90,70,25,-25, -70,-90,-80,-43,9,57,87}
{85,46,-13,-67,-90,-73,-22,38,82,88,54,-4,-61,-90,-78,-31,31,78,90,61,4,-54,-88,-82,-38, 22,73,90,67,13,-46,-85}
{83,36,-36,-83,-83,-36,36,83,83,36,-36,-83,-83,-36,36,83,83,36,-36,-83,-83,-36,36,83, 83,36,-36,-83,-83,-36,36,83}
{82,22,-54,-90,-61,13,78,85,31,-46,-90,-67,4,73,88,38,-38,-88,-73,-4,67,90,46,-31,-85, -78,-13,61,90,54,-22,-82}
{80,9,-70,-87,-25,57,90,43,-43,-90,-57,25,87,70,-9,-80,-80,-9,70,87,25,-57,-90,-43,43, 90,57,-25,-87,-70,9,80}
{78,-4,-82,-73,13,85,67,-22,-88,-61,31,90,54,-38,-90,-46,46,90,38,-54,-90,-31,61,88,22, -67,-85,-13,73,82,4,-78}
{75,-18,-89,-50,50,89,18,-75,-75,18,89,50,-50,-89,-18,75,75,-18,-89,-50,50,89,18,-75, -75,18,89,50,-50,-89,-18,75}
{73,-31,-90,-22,78,67,-38,-90,-13,82,61,-46,-88,-4,85,54,-54,-85,4,88,46,-61,-82,13,90, 38,-67,-78,22,90,31,-73}
{70,-43,-87,9,90,25,-80,-57,57,80,-25,-90,-9,87,43,-70,-70,43,87,-9,-90,-25,80,57,-57, -80,25,90,9,-87,-43,70}
{67,-54,-78,38,85,-22,-90,4,90,13,-88,-31,82,46,-73,-61,61,73,-46,-82,31,88,-13,-90,-4, 90,22,-85,-38,78,54,-67}
{64,-64,-64,64,64,-64,-64,64,64,-64,-64,64,64,-64,-64,64,64,-64,-64,64,64,-64,-64,64, 64,-64,-64,64,64,-64,-64,64}
{61,-73,-46,82,31,-88,-13,90,-4,-90,22,85,-38,-78,54,67,-67,-54,78,38,-85,-22,90,4,-90, 13,88,-31,-82,46,73,-61}
{57,-80,-25,90,-9,-87,43,70,-70,-43,87,9,-90,25,80,-57,-57,80,25,-90,9,87,-43,-70,70,43, -87,-9,90,-25,-80,57}
{54,-85,-4,88,-46,-61,82,13,-90,38,67,-78,-22,90,-31,-73,73,31,-90,22,78,-67,-38,90, -13,-82,61,46,-88,4,85,-54}
{50,-89,18,75,-75,-18,89,-50,-50,89,-18,-75,75,18,-89,50,50,-89,18,75,-75,-18,89,-50, -50,89,-18,-75,75,18,-89,50}
{46,-90,38,54,-90,31,61,-88,22,67,-85,13,73,-82,4,78,-78,-4,82,-73,-13,85,-67,-22,88, -61,-31,90,-54,-38,90,-46}
{43,-90,57,25,-87,70,9,-80,80,-9,-70,87,-25,-57,90,-43,-43,90,-57,-25,87,-70,-9,80,-80, 9,70,-87,25,57,-90,43}
{38,-88,73,-4,-67,90,-46,-31,85,-78,13,61,-90,54,22,-82,82,-22,-54,90,-61,-13,78,-85, 31,46,-90,67,4,-73,88,-38}
{36,-83,83,-36,-36,83,-83,36,36,-83,83,-36,-36,83,-83,36,36,-83,83,-36,-36,83,-83,36, 36,-83,83,-36,-36,83,-83,36}
{31,-78,90,-61,4,54,-88,82,-38,-22,73,-90,67,-13,-46,85,-85,46,13,-67,90,-73,22,38,-82, 88,-54,-4,61,-90,78,-31}
{25,-70,90,-80,43,9,-57,87,-87,57,-9,-43,80,-90,70,-25,-25,70,-90,80,-43,-9,57,-87,87, -57,9,43,-80,90,-70,25}
{22,-61,85,-90,73,-38,-4,46,-78,90,-82,54,-13,-31,67,-88,88,-67,31,13,-54,82,-90,78, -46,4,38,-73,90,-85,61,-22}
{18,-50,75,-89,89,-75,50,-18,-18,50,-75,89,-89,75,-50,18,18,-50,75,-89,89,-75,50,-18, -18,50,-75,89,-89,75,-50,18}
{13,-38,61,-78,88,-90,85,-73,54,-31,4,22,-46,67,-82,90,-90,82,-67,46,-22,-4,31,-54,73, -85,90,-88,78,-61,38,-13}
{9,-25,43,-57,70,-80,87,-90,90,-87,80,-70,57,-43,25,-9,-9,25,-43,57,-70,80,-87,90,-90, 87,-80,70,-57,43,-25,9}
{4,-13,22,-31,38,-46,54,-61,67,-73,78,-82,85,-88,90,-90,90,-90,88,-85,82,-78,73,-67,61, -54,46,-38,31,-22,13,-4}
图2A为视频编码器(诸如视频编码器130)处的实例转换过程的说明。图2B为视频解码器(诸如视频解码器170)处的实例转换过程的说明。在图2A的实例中,视频编码器130应用前向一次转换210(fwdT),紧接着二次转换220(fwdR),紧接着前向量化230 (fwdQua)。在图2B的实例中,视频解码器170应用逆量化240(invQ),紧接着逆向二次转换250(invR),紧接着逆向一次转换260(invTran)。前向一次转换310可将残余样本自像素域转化成频域中的转换系数。逆向一次转换240可将频域中的转换系数转化至像素域中的残余样本。
二次转换220可以用于转换系数的较佳能量压缩。如图2A及2B中所说明,二次转换320可将另一转换应用于自第一转换过程导出的转换系数上。
如2011年3月,日内瓦,ITU-T SG16 WP3及ISO/IEC JTC1/SC29/WG11的视频译码联合合作小组(JCT-VC),JCTVC-E380,第16至23章,E.Alshina,A.Alshin,F. Fernandes,A.Saxena,V.Seregin,Z.Ma,W.-J.Han(Samsung)的“CE7:三星进行的ROT 的实验结果(CE7:Experimental results of ROT by Samsung)”中所描述,二次转换可为旋转转换(ROT)。ROT不替换一次转换。然而,ROT经应用为二次转换以用于转换系数矩阵的仅仅低频部分。使用如上文中所描述的ROT情况下,对于每一经帧内译码TU,信令指示从四个预定义转换候选中应用哪个ROT的索引。4×4二次转换应用于4×4经帧内译码TU,而8×8二次转换应用于8×8及更大经帧内译码TU。举例来说,在实例中,二次转换可指定如下。
Figure BDA0002317956430000191
在上文所说明的四个转换候选中,一个候选对应于不应用二次转换且其它三候选对应于由α1、α2、…、α6的三个不同设置产生的Rvertical及Rhorizontal。更多详细描述可在 2010年4月15至23日,德国德累斯顿,ITU-T SG16 WP3及ISO/IEC JTC1/SC29/WG11 的视频译码联合合作小组(JCT-VC),JCTVC-A124,K.McCann,W.-J.Han,I.-K.Kim, J.-H.Min,E.Alshina,A.Alshin,T.Lee,J.Chen,V.Seregin,S.Lee,Y.-M.Hong, M.-S.Cheon,N.Shlyakhov的“(三星(及BBC)提出的视频译码技术(Video coding technology proposalby Samsung(and BBC))”中发现。
图3为通过视频解码器(诸如视频解码器170)应用的实例ROT的说明。在图3的实例中,视频解码器对大小在4×4至32×32范围内的转换系数块302执行逆量化310(Inv Q)。此外,在图3的实例中,视频解码器应用逆向ROT 320(Inv ROT)作为用于转换系数矩阵的仅低频部分的二次转换。举例来说,如图3的实例中所示,4×4及8×8转换系数矩阵的所有转换系数可被认为在转换系数矩阵的低频部分中。然而,如图3中所示,仅16×16及32×32转换系数矩阵的左上8×8子块中的转换系数被考虑为在转换系数矩阵的低频部分中。此外,在图3的实例中,视频解码器将逆向DCT转换330(逆向DCT转换)应用于转换系数矩阵以将转换系数矩阵转化成残余块。在图3的实例中,在将逆向 DCT转换330应用于16×16及32×32转换系数矩阵的前,视频解码器可使用由应用逆向 ROT 320产生的对应8×8转换系数矩阵替换16×16及32×32转换系数矩阵的左上8×8子块。
如2015年6月,ITU-T SG16 Doc.VCEG-AZ05,E.Alshina,A.Alshin,J.-H.Min,K.Choi,A.Saxena,M.Budagavi的“用于下一代视频译码的已知工具性能研究(Known toolsperformance investigation for next generation video coding)”中所描述,ROT可经扩展至整个TU,不仅仅低频部分。更确切地说,三个4×4可分开二次转换候选可经预定义,且所选择候选可在CU级别处以2位索引明确地用信号表示。2位索引可在本文中称为ROT索引。在一个实例中,当ROT索引为0时,不应用二次转换。然而,在此实例中,当ROT索引为1、2及3时,对应于三个预定义二次转换候选中的一者的二次转换可应用于当前CU内部的每一TU。给定所选择二次转换,对于当前TU的每一4×4 子块,可应用二次4×4可分开二次转换。
在2015年9月29日递交的美国临时申请案第62/234,644号、2016年2月 12日递交的美国临时申请案第62/294,897号、2016年4月15日递交的美国临时申请案第62/323,496号、2016年5月17日递交的美国临时申请案第62/337,736号、2016年9 月20日递交的美国专利申请案第15/270,455号,及2016年9月20日递交的美国专利申请案第15/270,507号中,模式附属不可分开二次转换(MDNSST(mode dependent non- separable secondarytransform),或被称为NSST(non-separable secondary transform))被应用于编码器处的前向核心转换与量化之间,及解码器处的去量化及逆向核心转换之间。
图4A是对于经帧内编码CU内的转换系数的各4×4子群独立地执行的不可分开二次转换的实例应用。作为实例使用输入块X描述所述不可分开转换的应用。为应用所述不可分开转移,4×4输入块X:
Figure BDA0002317956430000201
被表示为向量
Figure BDA0002317956430000211
不可分开转换可以
Figure BDA0002317956430000213
计算,其中
Figure BDA0002317956430000214
指示转换系数向量,T是转换矩阵,例如16×16转换矩阵。可使用彼块的扫描次序(水平、竖直或对角线)再组织16x1系数向量
Figure BDA0002317956430000215
为4×4块。具更小索引的系数通常放置在4×4系数块中的更小扫描索引。
在一些实施方案中,存在11×3(用于定向模式)6+1×2(用于不定向模式)个不可分开转换矩阵,其中11代表用于定向帧内预测模式的转换集的数目,其中各转换集包含3个转换矩阵。而对于不定向模式,即平面、DC及LM模式,可应用包含2个转换矩阵的一转换集。图4B是自明度帧内模式至转换集索引的实例映射的说明。
在所述实例中,根据图4B,应用于明度/色度转换系数的转换集由对应明度/色度帧内预测模式指定。指定经选择转换集,若目前系数块中存在超过特定数目(例如,2)的非零系数,则可发讯经选择的不可分开二次转换的索引。否则(非零系数的数目小于或等于特定数目,例如,2),不应用MDNSST,且索引不经发讯或假设为不发讯。
对于各转换集,经选择不可分开二次转换候选项可进一步由明确地用信号表示的CU级别MDNSST索引指定。在一实例中,在使用转换系数及经截断一元平分化之后,可在每帧内CU中的位流中用信号表示索引。在一实例中,在平面或DC模式的情况下经截断值是2,且对于角帧内预测模式是3。可在CU中存在超过一个非零系数时用信号表示此MDNSST索引。当其不被用信号表示时,默认值是零。此语法元素的零值指示二次转换未应用于所述当前CU,值1-3指示应应用自所述组的哪一者二次转换。
在JEM中,MDNSST未应用于通过转换跳过模式译码的块。当MDNSST索引对于 CU被用信号表示且不等于零时,MDNSST不被用于通过CU中的转换跳过模式译码的分量的块。当具有以转换跳过模式译码的全部分量的块的CU时,不对于CU用信号表示MDNSST索引。在JEM中,MDNSST仅应用于左上8×8(低频)一次转换系数,对于左上8×8区域外部的系数,原始一次转换系数保持无变化。
如X.Zhao、A.Said、V.Seregin、M.Karczewicz、J.Chen的“相关EE2.7:经改进的不可分开的二次转换(EE2.7 related:Improved non-separable secondary transform)”,ITU-T SG 16WP 3的联合视频探索小组(JVET)及ISO/IEC JTC 1/SC 29/WG 11,Doc. JVET-C0063中所描述,不可分开二次转换扩展为8×8,产生较佳译码性能,即应用于8×8 块大小的不可分开转换可被用作一次转换系数块的二次转换,其高度及宽度皆大于或等于8。
不可分开转换矩阵通常是疏松的,其意谓小数目的系数展示较大的绝对值。图5A展示实例8×8不可分开矩阵,其是64×64矩阵。在此实例中,第一行具有大于3的幅值的64个系数中的11个,而大部分系数较小,例如-2至2。
可以观察到,对于上述不可分开转换矩阵的一行,在映射其坐标至空间域之后,主导(相对较大幅值)系数通常彼此接近。举例来说,第一行具有位于0(219)、1(-76)、2(-43)、8(-85)、9(35)、10(14)、16(-29)、17(9)、18(7)处的较大系数,其对应于8×8块中的以下2-D空间坐标:(0,0)、(0,1)、(0,2)、(1,0)、(1,1)、(1,2)、(2,0)、(2,1)、(2,2),即图 5B中所示的8×8块中的加阴影位置。
基于不可分开转换矩阵的此特性,有可能受益于不可分开转换矩阵的更紧凑表示。用于存储不可分开转换矩阵的存储器可减小。所述技术提供用于更大不可分开转换大小的更多存储器存储节约。
转换的设计可应用不可分开转换作为一次转换、二次转换或多次转换。
图6及7是基于不可分开转换的编码(及解码)视频数据的一种方法的示范性实施例的简化流程图。图6是说明视频编码器130在一般意义上的步骤的流程图。图7是说明视频解码器170在一般意义上的步骤的流程图。
在一实施例中,所述方法在块602处开始,其中形成残余视频块。残余视频块可是基于从经译码视频块减去至少一个预测性块。
形成残余视频块之后,技术继续至块604,其中所述视频编码器将不可分开转换应用于残余视频块的至少一部分以产生不可分开转换输出系数。在另一个实施例中,视频编码器经配置以应用多次转换,包含第一及第二转换。在此实施例的一方面中,第一转换是可分开转换(诸如KLT),而第二转换是不可分开转换。在此实例中,第一转换被应用于残余视频块以产生第一转换输出系数块。第一转换从像素域转化残余视频块至频域。如本文所使用,像素域或空间域可指其中像素的值的变化对应于彼像素的明度及/ 或色彩的变化的域。然而,如本文所使用,频域可指其中像素值的变化对应于像素的像素值在像素域中改变的速率的变化的域。随后,可将不可分开转换应用于第一转换输出系数块(例如,2-D)的至少一部分以产生不可分开转换输出系数块。此可由下式表示:
Figure BDA0002317956430000221
其中T代表M×N个二次不可分开转换矩阵,
Figure BDA0002317956430000222
代表输出二次转换系数,也被称作不可分开转换输出系数块,且
Figure BDA0002317956430000223
是由第一转换产生的2-D第一转换输出系数块的向量化的 X。
基于上文所述的观测,具有疏松特性的不可分开转换矩阵与转换矩阵T中的每一行的较大系数的坐标在2-D空间坐标中彼此接近,下文描述具有有限大小窗口的技术的不可分开转换的计算的近似。
视频编码器130可经配置以通过在输入2-D块上指派窗口、为经指派窗口内部的各位置指派权重,及基于经指派权重确定不可分开转换输出系数块,确定不可分开转换系数,换句话说,
Figure BDA0002317956430000231
的样本。
图8A至8E说明可被指派的各种窗口形状,包含正方形、矩形、三角形、菱形及任意预定义形状。在描述为三角形及菱形时,本领域的技术人员将了解这些形状表示三角形状及菱形状的形状。尽管图8A中示出一个任意预定义形状,但本领域的技术人员将了解所述任意预定义形状可呈数个变化的形状。在另一个实施例中,经指派窗口可基于不可分开转换输出系数的索引。在另一个实施例中,经指派窗口可基于经解码信息,其中经解码信息包括基于帧内模式、块大小、块形状、块高度、块宽度、QP或第一系数块的数个非零系数中的至少一者的信息。在此实施例的一方面中,第一系数块的非零系数的数目是第一转换的输出,所述第一转换可是可分开或不可分开转换。
一旦可表示经量化转换依据(还被称作权重)的经选择转换依据的系数经指派用于经指派窗口内的各位置,则可确定不可分开转换输出系数块。在一个实施例中,所述不可分开转换输出系数块可通过计算经指派窗口中的输入数据块的加权和确定,其中输入数据块由相同位置中的对应经指派权重加权。在此实施例的一方面中,输入数据块包括残余视频块。在此实施例的另一方面中,输入数据块包括通过将第一转换应用于残余视频块产生的第一转换输出系数块。
图9说明应用于具经指派权重的输入数据块的窗口的实例。在此实例中,为计算8×8 输入数据块的不可分开转换系数,可指派3×3窗口,且指派权重(例如,位置内的数值)。在此实施例中,过滤(不可分开转换输出系数块)的输出可计算为乘积的和:
Figure BDA0002317956430000232
其中(Wx0,Wy0)及(Wx1,Wy1)是用于计算mth过滤输出的指派窗口的左上及右下坐标。
在应用不可分开转换之后,视频编码器130继续至块606,其中可基于所述经确定不可分开转换输出系数块产生经编码视频数据。在一个实施例中,量化单元可经配置以量化不可分开转换输出系数块。在一实例中,不可分开转换输出系数块可为2维系数块,其可经量化单元量化以形成经量化转换系数。
在多次转换实施例中,可确定第一系数块的子块内的第一系数块的非零系数的数目,且比较其与阈值。在一实例中,第一系数块可产生为第一转换的输出,其在此实例的一方面中可为可分开转换。在一实例中,NSST发信可取决于发射多少非零系数。例如,当存在小于阈值(例如,2)的非零系数时,可能不发讯NSST索引,且可导出为0。可仅统计及考虑第一系数块的子块内的第一系数块的非零系数用于发信NSST索引,而非计数整个转换系数块内部的非零系数的总数目。在另一实例中,当存在超过阈值(例如, 2)的非零系数时,可发讯NSST索引,其中确定不可分开输出系数块。
如上所述,视频解码器170执行尽管与视频编码器130执行的处理互逆向但类似的过程。图7是说明视频解码器170在一般意义上的步骤的流程图。
在一实施例中,所述方法在块702处开始,其中可接收输入数据块。在一个实施例中,输入数据块可由逆量化或逆量化的输出产生。在另一个实施例中,输入数据块可自编码器130产生,不经逆量化。在此实施例的一实例中,输入数据块可由转换处理单元 1052产生。在此实施例的另一实例中,输入数据块可由熵编码单元1056产生。
接收输入数据块之后,技术继续至块704,其中视频解码器将逆向不可分开转换应用于输入数据块的至少一部分以产生逆向不可分开转换输出系数块。在另一个实施例中,视频解码器可经配置以应用多次逆转换,包含第一逆转换及第二逆转换。在此实施例的一方面中,第二逆转换(其可在视频解码器中的第一逆转换的前被应用),可为逆向不可分开转换;及第一逆转换可为可分开逆转换。在此实例中,逆向不可分开转换可被应用于输入数据块以产生逆向不可分开转换输出系数块。随后,逆向可分开转换可被应用于逆向不可分开转换输出系数块的至少一部分,以产生残余视频块。产生的残余视频块可为形成在视频编码器中的残余块的经重建残余视频块。
与视频编码器相似,视频解码器可经配置以基于指派窗口、为经指派窗口各内部位置指派权重,及如上文更详细地描述确定逆向不可分开转换输出系数块,确定逆向不可分开转换输出系数块。
应用一或多个逆转换之后,视频解码器170继续至块706,其中可基于所述经确定逆向不可分开转换输出系数块形成经解码视频块。在多次转换实施例的一实例中,经解码视频块可基于从逆向可分开转换形成的输出,其可基于在逆向可分开转换的前应用的逆向不可分开转换的输出。替代的多次转换及多次逆转换实施例可包括应用多次不可分开转换及对应的多次逆向不可分开转换。
图10为说明可实施本发明中所描述的技术的视频编码器130的实例的框图。根据本发明,视频编码器130可经配置以应用在本发明中描述的技术,诸如与不可分开转换相关的技术。视频编码器130可对视频切片内的视频块执行帧内译码及帧间译码。帧内译码依赖于空间预测以减小或移除给定视频帧或图片内的视频的空间冗余。帧间译码依赖于时间预测以减小或移除视频序列的邻近帧或图片内的视频中的时间冗余。帧内模式(I模式)可指若干基于空间的译码模式中的任一者。帧间模式(诸如,单向预测(P模式) 或双向预测(B模式))可指代若干基于时间的译码模式中的任一者。
如图10中所展示,视频编码器130接收待编码的视频帧内的当前视频块。在图10的实例中,视频编码器130包含模式选择单元1040、参考图片存储器1064(其还可被称为经解码图片缓冲器(DPB))、求和器1050、转换处理单元1052、量化单元1054及熵编码单元1056。模式选择单元1040继而包含运动补偿单元1044、运动估计单元1042、帧内预测单元1046及分割单元1048。用于视频块重构建,视频编码器130还包含逆量化单元1058、逆转换单元1060及求和器1062。在一些实例中还包含解块滤波器(图8中未展示)以对块边界进行滤波以从重构建的视频移除块效应伪影。解块滤波器将求和器 1062的输出滤波。除解块滤波器外,还可使用额外滤波器(回路中或回路后)。为简洁起见未展示此类滤波器,但若需要,此类滤波器可对求和器1050的输出进行滤波(作为回路内滤波器)。
在编码处理期间,视频编码器130接收待译码的视频帧或切片。可将所述帧或切片划分成多个视频块。运动估计单元1042及运动补偿单元1044执行所接收视频块相对于一或多个参考帧中的一或多个块的帧间预测性编码以提供时间预测。替代地,帧内预测单元1046可执行所接收视频块相对于与待译码块相同的帧或切片中的一或多个相邻块的帧内预测性编码以提供空间预测。视频编码器130可执行多次译码遍次,例如,以选择各视频数据块的合适译码模式。
此外,分割单元1048可基于对先前译码遍次中的先前分割方案的评估而将视频数据的块分割成子块。举例来说,分割单元1048可首先将帧或切片分割成LCU,且基于位率-失真分析(例如,位率-失真最佳化)来将所述LCU中的每一者分割成子CU。模式选择单元1040可进一步产生一指示将LCU分割为子CU的四分树数据结构。四分树的叶节点CU可包含一或多个PU及一或多个TU。
模式选择单元1040可例如基于误差结果选择帧内预测模式或帧间预测模式的一,且提供所得预测块至求和器250以产生残余数据,及提供至求和器1062以重建经编码块,以用作参考帧。模式选择单元1040还将语法元素(诸如运动向量、帧内模式指示符、分割信息及其它这些语法信息)提供至熵编码单元1056。
运动估计单元1042及运动补偿单元1044可高度集成,但为概念目的而分别说明。由运动估计单元1042执行的运动估计为产生运动向量的处理,所述运动向量估计视频块的运动。举例来说,运动向量可指示在当前视频帧或图片内的视频块的PU相对于在参考帧(或其它经译码单元)内的预测性块相对于在所述当前帧(或其它经译码单元)内正经译码的当前块的位移。预测性块为就像素差来说被发现紧密地匹配待译码块的块,所述像素差可通过绝对差总和(SAD)、平方差总和(SSD)或其它差度量确定。在一些实例中,视频编码器130可计算存储于参考图片存储器1064中的参考图片的次整数像素位置的值。举例来说,视频编码器130可内插参考图片的四分之一像素位置、八分之一像素位置或其它分数像素位置的值。因此,运动估计单元1042可执行关于全像素位置及分数像素位置的运动搜寻且输出具有分数像素精确度的运动向量。
运动估计单元1042通过比较PU的位置与参考图片的预测性块的位置来计算经帧间译码切片中的视频块的PU的运动向量。参考图片可选自第一参考图片列表(列表0)或第二参考图片列表(列表1),所述列表中的每一者识别存储于参考图片存储器1064中的一或多个参考图片。运动估计单元1042将所计算的运动向量发送至熵编码单元1056及运动补偿单元1044。
由运动补偿单元1044执行的运动补偿可涉及基于由运动估计单元1042确定的运动向量提取或产生预测性块。再次,在一些实例中,运动估计单元1042与运动补偿单元1044可在功能上集成。在接收当前视频块的PU的运动向量之后,运动补偿单元1044 即可在参考图片列表中的一者中定位运动向量所指向的预测性块。求和器1050通过从正经译码的当前视频块的像素值减去预测性块的像素值来形成残余视频块,从而形成像素差值,如下文所论述。一般来说,运动估计单元1042相对于明度分量执行运动估计,且运动补偿单元1044将基于明度分量计算的运动向量用于色度分量与明度分量两者。模式选择单元1040还可产生与视频块及视频切片相关联的语法元素以供视频解码器170 在解码视频切片的视频块处理中使用。
如上文所描述,作为由运动估计单元1042及运动补偿单元1044执行的帧间预测的替代方案,帧内预测单元1046可对当前块进行帧内预测。确切地说,帧内预测单元1046 可确定待用以编码当前块的帧内预测模式。在一些实例中,帧内预测单元1046在例如分离编码遍次期间,可使用各种帧内预测模式编码当前块,及帧内预测单元1046(或在一些实例中为模式选择单元1040)可从测试模式选择合适帧内预测模式使用。
举例来说,帧内预测单元1046可使用对各种所测试帧内预测模式的速率-失真分析来计算速率-失真值,且可在所测试模式当中选择具有最佳速率-失真特性的帧内预测模式。速率失真分析一般确定经编码块与原始、未经编码块(其经编码以产生经编码块)之间的失真(或误差)量,以及用以产生经编码块的位率(即,位的数目)。帧内预测单元1046 可根据不同经编码块的失真及速率来计算比率以确定哪一帧内预测模式展现所述块的最佳率失真值。
在选择用于块的帧内预测模式后,帧内预测单元1046可将指示用于块的所选帧内预测模式的信息提供至熵编码单元1056。熵编码单元1056可编码指示所选帧内预测模式的信息。视频编码器130可在所发射的位流中包含以下各者:配置数据,其可包含多个帧内预测模式索引表及多个经修改的帧内预测模式索引表(也称作码字映射表);各种块的编码上下文的定义;及待用于所述上下文中的每一者的最可能的帧内预测模式、帧内预测模式索引表及经修改的帧内预测模式索引表的指示。
视频编码器130通过从正经译码的原始视频块减去来自模式选择单元1040的预测数据而形成残余视频块。求和器1050表示执行此减法计算的所述或所述组件。转换处理单元1052将转换(诸如离散余弦转换(DCT)或概念上类似的转换)应用于残余块,从而产生包括转换系数值的视频块。可使用小波转换、整数转换、子带转换、DST或其它类型的转换而不是DCT。在任何情况下,转换处理单元252将转换应用于残余块,从而产生转换系数的块。转换可将残余信息从像素域转换至转换域,诸如频域。
另外,如上文所论述,转换处理单元1052可经配置以应用不可分开转换。在一些实例中,转换处理单元1052可经配置以指派窗口、为所述窗口内部的各位置指派权重,及基于经指派权重确定不可分开转换输出系数块。转换处理单元252可将所得转换系数发送至量化单元254。
量化单元1054量化转换系数以进一步减少位速率。量化过程可减小与系数中的一些或所有相关联的位深度。可通过调整量化参数来修改量化程度。
在量化之后,熵编码单元1056扫描并熵编码指示经量化转换系数的语法元素。举例来说,熵编码单元256可执行CAVLC、CABAC、SBAC、PIPE译码或另一熵译码技术。在基于上下文的熵译码的状况下,上下文可基于邻近块。在由熵编码单元1056进行熵译码之后,可将经编码位流发射至其它装置(例如,视频解码器170),或加以存档以供稍后发射或检索。
逆量化单元1058及逆转换单元1060分别应用逆量化及逆转换以重构建像素域中的残余块。确切地说,求和器1062将经重建残余块添加至由运动补偿单元1044或帧内预测单元1046产生的运动补偿预测块,以产生用于存储于参考图片存储器1064中的经重构建的视频块。所述经重构建的视频块可由运动估计单元1042及运动补偿单元1044使用,作为参考块以对后续视频帧中的块进行帧间译码。
视频编码器130一般使用上文所论述处理来对经译码视频序列中的每一图片的每一块进行编码。另外,在一些实例中,视频编码器130可确定向其指派图片中的每一者的时间层。此外,视频编码器130可经配置以对其它层(例如,其它视图、可调式视频译码层等)的图片进行编码。在任何情况下,视频编码器130可对于一或多个层(例如,各种视频尺寸的层)进一步编码数据,其指示各图片属于哪些层。
图11为说明可实施本发明中所描述的技术的视频解码器170的实例的框图。根据本发明,视频解码器170可经配置以应用在本发明中描述的技术,诸如与不可分开转换相关的技术。在图11的实例中,视频解码器170包含熵解码单元1070、运动补偿单元 1072、帧内预测单元1074、逆量化单元1076、逆转换单元1078、参考图片存储器1082 及求和器1080。在一些实例中,视频解码器170可执行一般互逆于关于视频编码器130 (图10)所描述的编码遍次的解码遍次。运动补偿单元1072可基于自熵解码单元1070接收的运动向量产生预测数据,而帧内预测单元1074可基于自熵解码单元1070接收的帧内预测模式指示符产生预测数据。
在解码处理期间,视频解码器170从视频编码器130接收表示经编码视频切片的视频块及相关联的语法元素的经编码视频位流。视频解码器170的熵解码单元1070对位流进行熵解码以产生经量化系数、运动向量或帧内预测模式指示符及其它语法元素。熵解码单元1070将运动向量及其它语法元素转递至运动补偿单元1072。视频解码器170 可在视频切片级别及/或视频块级别接收语法元素。
当视频切片经译码为帧内译码(I)切片时,帧内预测单元1074可基于用信号表示的帧内预测模式及来自当前帧或图片的先前经解码块的数据而产生当前视频切片的视频块的预测数据。当视频帧通过经帧间译码(即,B、P或广义P及B图片(GPB))切片译码时,运动补偿单元1072基于从熵解码单元1070所接收的运动向量及其它语法元素,产生用于当前视频切片的视频块的预测性块。可由参考图片列表中的一者内的参考图片中的一者产生预测性块。视频解码器170可基于存储于参考图片存储器1082中的参考图片使用默认构建技术构建参考图片列表--列表0及列表1。运动补偿单元1072通过解析运动向量及其它语法元素确定用于当前视频切片的视频块的预测信息,且使用预测信息产生用于正解码的当前视频块的预测性块。举例来说,运动补偿单元1072使用所接收语法元素中的一些来确定用于译码视频切片的视频块的预测模式(例如,帧内或帧间预测)、帧间预测切片类型(例如,B切片、P切片或GPB切片)、所述切片的参考图片列表中的一或多者的构建信息、所述切片的每一经帧间编码视频块的运动向量、所述切片的每一经帧间译码视频块的帧间预测状态及用以解码当前视频切片中的视频块的其它信息。
运动补偿单元1072还可执行基于内插滤波器的内插。运动补偿单元1072可使用如由视频编码器130在视频块的编码期间使用的内插滤波器,以计算参考块的子整数像素的内插值。在此状况下,运动补偿单元1072可根据接收的语法元素确定由视频编码器 130使用的内插滤波器且使用所述内插滤波器来产生预测性块。
逆量化单元1076逆量化(即,去量化)位流中所提供,并由熵解码单元1070解码的经量化转换系数。逆量化过程可包含使用由视频解码器170针对视频切片中的每一视频块计算的量化参数QPY确定应应用的量化的程度及同样地逆量化的程度。
逆转换单元1078将逆转换(例如,逆DCT、逆整数转换或在概念上类似的逆转换过程)应用于转换系数,以便在像素域中产生残余块。另外,根据本发明的各种技术,逆转换单元1078可经配置以应用逆向非二次转换。逆转换单元1078可经配置以指派窗口、为窗口内部的各位置指派权重,及基于经指派权重确定逆向不可分开转换输出系数块。
在运动补偿单元1072基于运动向量及其它语法元素产生当前视频块的预测性块后,视频解码器170通过对来自逆转换单元1078的残余块与由运动补偿单元1072产生的对应预测性块求和而形成经解码的视频块。求和器1080表示执行此求和计算的所述或所述组件。必要时,还可应用解块滤波器对经解码块进行滤波以便移除块效应伪影。还可使用其它回路滤波器(在译码回路内或在译码回路之后)使像素转换平滑,或另外改进视频质量。接着,将给定帧或图片中的经解码视频块存储于存储用于随后运动补偿的参考图片的参考图片存储器1082中。参考图片存储器1082还存储经解码的视频以用于稍后在显示装置(诸如,图1的显示装置160)上呈现。
视频解码器170一般使用上文所论述处理来对经译码视频序列中的每个图片的每一块进行解码。另外,在一些实例中,视频解码器170可对指示向其指派图片的时间层的数据进行解码。此外,视频解码器170可经配置以对其它层(例如,其它视图、可调式视频译码层等)的图片进行解码。在任何情况下,视频解码器170可对于一或多个层(例如,各种视频尺寸的层)进一步解码指示各图片属于哪些层的数据。
在下文更详细地描述可通过视频编码器130或视频解码器170执行的本发明的技术。
图12A为根据本发明中所描述的一或多个技术的通过视频编码器130进行的实例转换处理的说明。在图12A的实例中,视频编码器130的转换处理单元1052包括一次转换单元1202及二次转换单元1204。一次转换单元1202将一次转换(诸如DST或DCT) 应用于残余块上以产生2维系数块。二次转换单元1204应用逆向不可分开转换,其包含指派一窗口、为所述经指派窗口内部的各位置指派一权重,及基于所述经指派权重确定所述逆向不可分开转换输出系数块。量化单元1054量化2维块。
图12B为根据本发明中所描述的一或多个技术的通过视频解码器170进行的实例转换处理的说明。在的图12B实例中,视频解码器170的逆转换单元1078包括二次逆转换单元1226及一次逆转换单元1228。逆量化单元1076逆量化提供于位流中且由熵解码单元1070解码的经量化转换系数。二次逆转换单元1226应用不可分开逆转换,其包含指派窗口、为窗口内部的各位置指派权重,及基于经指派权重确定不可分开转换输出系数块。一次逆转换单元1228将可分离逆转换应用于2维系数块上以产生用于视频数据的残余系数块。
应认识到,取决于实例,本文中所描述的技术中的任一者的某些动作或事件可以不同序列被执行、可被添加、合并或完全省去(例如,并非所有所描述动作或事件为实践所述技术所必要)。此外,在某些实例中,可例如经由多线程处理、中断处理或多个处理器同时而非顺序执行动作或事件。
在一或多个实例中,所描述功能可以硬件、软件、固件或其任何组合来实施。如果以软件实施,那么所述功能可作为一或多个指令或代码而存储于计算机可读媒体上或经由计算机可读媒体进行发射,且通过基于硬件的处理单元执行。计算机可读媒体可包含计算机可读存储媒体(其对应于诸如数据存储媒体的有形媒体)或通信媒体,所述通信媒体包含(例如)根据通信协议促进计算机程序从一处传送至另一处的任何媒体。以此方式,计算机可读媒体通常可对应于(1)非暂时性的有形计算机可读存储媒体,或(2)诸如信号或载波的通信媒体。数据存储媒体可为可通过一或多个计算机或一或多个处理器存取以检索指令、代码及/或数据结构以用于实施本发明所描述的技术的任何可用媒体。计算机程序产品可包含计算机可读媒体。
通过实例而非限制,这些计算机可读存储媒体可包括RAM、ROM、EEPROM、 CD-ROM或其它光盘存储器、磁盘存储器或其它磁性存储装置、快闪存储器或可用于存储呈指令或数据结构形式的所要程序代码且可由计算机存取的任何其它媒体。又,任何连接被适当地称为计算机可读媒体。举例来说,如果使用同轴缆线、光缆、双绞线、数字订户线(DSL)或无线技术(诸如红外线、无线电及微波)从网站、服务器或其它远程源发射指令,那么同轴缆线、光缆、双绞线、DSL或无线技术(诸如红外线、无线电及微波) 包含于媒体的定义中。然而,应理解,计算机可读存储媒体及数据存储媒体不包含连接、载波、信号或其它暂时性媒体,而实情为关于非暂时性有形存储媒体。如本文中所使用,磁盘及光盘包含光盘(CD)、激光光盘、光学光盘、数字多功能光盘(digital versatile disc; DVD)、软盘及蓝光光盘,其中磁盘通常以磁性方式重现数据,而光盘用激光以光学方式重现数据。以上各者的组合还应包含于计算机可读媒体的范围内。
指令可由一或多个处理器执行,所述一或多个处理器诸如一或多个数字信号处理器(DSP)、通用微处理器、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或其它等效的集成或离散逻辑电路。因此,如本文中所使用的术语“处理器”可指前述结构或适于实施本文中所描述的技术的任何其它结构中的任一者。此外,在一些方面中,本文所描述的功能可设置于经配置以供编码及解码或并入于经组合编/解码器中的专用硬件及/或软件模块内。再者,所述技术可完全实施于一或多个电路或逻辑元件中。
本发明的技术可实施于各种装置或设备中,包含无线手持机、集成电路(IC)或一组 IC(例如,芯片组)中。在本发明中描述各种组件、模块或单元以强调经配置以执行所揭示技术的设备的功能方面,但未必要求由不同硬件单元来实现。相反地,如上所述,各种单元可与合适的软件及/或固件一起组合在编解码器硬件单元中或由互操作硬件单元的集合提供,硬件单元包含如上文所描述的一或多个处理器。
各种实例已予以描述。这些及其它实例在以下权利要求书的范围内。

Claims (44)

1.一种对视频数据编码的方法,所述方法包括:
形成残余视频块,其中形成所述残余视频块包括从正被译码的视频块减去至少一个预测性块;
将不可分开转换应用于至少部分输入数据块,以产生不可分开转换输出系数块,其中应用所述不可分开转换包括:
指派窗口,
为所述经指派窗口内部的各位置指派权重,及
基于所述经指派权重确定所述不可分开转换输出系数块;及
基于所述经确定不可分开转换输出系数块,产生所述经编码视频数据。
2.根据权利要求1所述的方法,其中所述输入数据块包括所述残余视频块。
3.根据权利要求1所述的方法,其中所述不可分开转换包括第一转换或第二转换。
4.根据权利要求1所述的方法,其中所述产生所述经编码视频数据包括量化所述不可分开转换输出系数块。
5.根据权利要求1所述的方法,其中基于所述经指派权重确定所述不可分开转换输出系数块包括在所述经指派窗口中计算所述输入数据块的样本的加权和,其中所述输入数据块的所述样本由相同位置中的对应的经指派权重加权。
6.根据权利要求1所述的方法,其中所述经指派窗口包括正方形、矩形、三角形、菱形或任意预定义形状中的至少一者。
7.根据权利要求1所述的方法,其中所述经指派窗口是基于不可分开转换输出系数的索引。
8.根据权利要求1所述的方法,其中所述经指派窗口是基于经解码信息,其中所述经解码信息包括基于帧内模式、块大小、块形状、块高度、块宽度、QP,或第一系数块的数个非零系数中的至少一者的信息。
9.根据权利要求1所述的方法,其进一步包括:
将第一转换应用于所述残余视频块以产生第一转换输出系数块;且其中所述输入数据块包括所述第一转换输出系数块。
10.根据权利要求9所述的方法,其中所述不可分开转换包括第二转换。
11.根据权利要求10所述的方法,其进一步包括:
确定在第一系数块的子块内的所述第一系数块的数个非零系数;及
确定非零系数的数目是否超过阈值。
12.根据权利要求11所述的方法,其中如果超出所述阈值,那么确定所述不可分开转换输出系数块。
13.根据权利要求11所述的方法,其中如果不超出所述阈值,那么不确定所述不可分开转换输出系数块。
14.一种对视频数据解码的方法,所述方法包括:
接收输入数据块;
将逆向不可分开转换应用于至少部分所述输入数据块以产生逆向不可分开转换输出系数块,其中应用所述逆向不可分开转换包括:
指派窗口,
为所述经指派窗口内部的各位置指派权重,及
基于所述经指派权重确定所述逆向不可分开转换输出系数块;及
基于所述经确定逆向不可分开转换输出系数块形成经解码视频块,其中形成所述经解码视频块包括对残余视频块与一或多个预测性块求和。
15.根据权利要求14所述的方法,其中所述逆向不可分开转换输出系数块包括所述残余视频块。
16.根据权利要求14所述的方法,其中所述逆向不可分开转换包括第一逆转换或第二逆转换。
17.根据权利要求14所述的方法,其中所述输入数据块经配置以使用逆量化产生。
18.根据权利要求14所述的方法,其中基于所述经指派权重确定所述逆向不可分开转换输出系数块包括在所述经指派窗口中计算所述输入数据块的样本的加权和,其中所述输入数据块的样本由相同位置中的对应的经指派权重加权。
19.根据权利要求14所述的方法,其中所述经指派窗口包括正方形、矩形、三角形、菱形或任意预定义形状中的至少一者。
20.根据权利要求14所述的方法,其中所述经指派窗口是基于逆向不可分开转换输出系数的索引。
21.根据权利要求14所述的方法,其中所述经指派窗口是基于经解码信息,其中所述经解码信息包括基于帧内模式、块大小、块形状、块高度、块宽度或QP中的至少一者的信息。
22.根据权利要求14所述的方法,其进一步包括:
将第一逆转换应用于所述逆向不可分开转换输出系数块,以产生所述残余视频块;且其中所述输入数据块包括第一转换输出系数块。
23.一种用于编码视频数据的设备,其包括:
存储器,其经配置以存储所述视频数据;及
视频编码器,其经配置以:
形成残余视频块,其中形成所述残余视频块包括从正被译码的视频块减去至少一个预测性块;
将不可分开转换应用于至少部分输入数据块,以产生不可分开转换输出系数块,其中应用所述不可分开转换包括:
指派窗口,
为所述经指派窗口内部的各位置指派权重,及
基于所述经指派权重确定所述不可分开转换输出系数块;及
基于所述经确定不可分开转换输出系数块产生所述经编码视频数据。
24.根据权利要求23所述的设备,其中所述输入数据块包括所述残余视频块。
25.根据权利要求23所述的设备,其中所述不可分开转换包括第一转换或第二转换。
26.根据权利要求23所述的设备,其中产生所述经编码视频数据包括量化所述不可分开转换输出系数块。
27.根据权利要求23所述的设备,其中基于所述经指派权重确定所述不可分开转换输出系数块包括在所述经指派窗口中计算所述输入数据块的样本的加权和,其中所述输入数据块的所述样本由相同位置中的对应的经指派权重加权。
28.根据权利要求23所述的设备,其中所述经指派窗口包括正方形、矩形、三角形、菱形或一任意预定义形状中的至少一者。
29.根据权利要求23所述的设备,其中所述经指派窗口是基于不可分开转换输出系数的索引。
30.根据权利要求23所述的设备,其中所述经指派窗口是基于经解码信息,其中所述经解码信息包括基于帧内模式、块大小、块形状、块高度、块宽度、QP或第一系数块的数个非零系数中的至少一者的信息。
31.根据权利要求23所述的设备,其进一步包括:
将第一转换应用于所述残余视频块以产生第一转换输出系数块;且其中所述输入数据块包括所述第一转换输出系数块。
32.根据权利要求31所述的设备,其中所述不可分开转换包括第二转换。
33.根据权利要求32所述的设备,其进一步包括:
确定在第一系数块的子块内的所述第一系数块的数个非零系数;及
确定非零系数的数目是否超过阈值。
34.根据权利要求33所述的设备,其中如果超出所述阈值,那么确定所述不可分开转换输出系数块。
35.根据权利要求33所述的设备,其中如果不超出所述阈值,那么不确定所述不可分开转换输出系数块。
36.一种用于解码视频数据的设备,其包括:
存储器,其经配置以存储所述视频数据;及
视频解码器,其经配置以:
接收输入数据块;
将逆向不可分开转换应用于至少部分所述输入数据块以产生逆向不可分开转换输出系数块,其中应用所述逆向不可分开转换包括:
指派窗口,
为所述经指派窗口内部的各位置指派权重,及
基于所述经指派权重确定所述逆向不可分开转换输出系数块;及
基于所述经确定逆向不可分开转换输出系数块形成经解码视频块,其中形成所述经解码视频块包括对残余视频块与一或多个预测性块求和。
37.根据权利要求36所述的设备,其中所述逆向不可分开转换输出系数块包括所述残余视频块。
38.根据权利要求36所述的设备,其中所述逆向不可分开转换包括第一逆转换或第二逆转换。
39.根据权利要求36所述的设备,其中所述输入数据块经配置以使用逆量化产生。
40.根据权利要求36所述的设备,其中基于所述经指派权重确定所述逆向不可分开转换输出系数块包括在所述经指派窗口中计算所述输入数据块的样本的加权和,其中所述输入数据块的样本由相同位置中的对应的经指派权重加权。
41.根据权利要求36所述的设备,其中所述经指派窗口包括正方形、矩形、三角形、菱形或一任意预定义形状中的至少一者。
42.根据权利要求36所述的设备,其中所述经指派窗口是基于逆向不可分开转换输出系数的索引。
43.根据权利要求36所述的设备,其中所述经指派窗口是基于经解码信息,其中所述经解码信息包括基于帧内模式、块大小、块形状、块高度、块宽度或QP中的至少一者的信息。
44.根据权利要求36所述的设备,其进一步包括:
将第一逆转换应用于所述逆向不可分开转换输出系数块以产生所述残余视频块。
CN201880039839.2A 2017-06-29 2018-06-28 用于不可分开转换的存储器减少 Active CN110800300B (zh)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201762526807P 2017-06-29 2017-06-29
US62/526,807 2017-06-29
US16/020,511 US11134272B2 (en) 2017-06-29 2018-06-27 Memory reduction for non-separable transforms
US16/020,511 2018-06-27
PCT/US2018/040060 WO2019006148A1 (en) 2017-06-29 2018-06-28 MEMORY REDUCTION FOR NON-SEPARABLE TRANSFORMERS

Publications (2)

Publication Number Publication Date
CN110800300A true CN110800300A (zh) 2020-02-14
CN110800300B CN110800300B (zh) 2024-06-07

Family

ID=

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101453643A (zh) * 2007-12-04 2009-06-10 华为技术有限公司 量化模式、图像编码、解码方法、编码器、解码器及系统
CN102986215A (zh) * 2010-07-09 2013-03-20 高通股份有限公司 使用帧内预测模式的子集及对应定向变换的视频译码
CN105723707A (zh) * 2013-11-01 2016-06-29 高通股份有限公司 用于视频译码的色彩残差预测
CN105791867A (zh) * 2016-03-23 2016-07-20 北京大学 基于边界自适应变换的优化视频数据编码方法
US20170094314A1 (en) * 2015-09-29 2017-03-30 Qualcomm Incorporated Non-separable secondary transform for video coding with reorganizing
CN106664422A (zh) * 2014-06-26 2017-05-10 高通股份有限公司 用于视频译码中的高级残余预测的滤波器

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101453643A (zh) * 2007-12-04 2009-06-10 华为技术有限公司 量化模式、图像编码、解码方法、编码器、解码器及系统
CN102986215A (zh) * 2010-07-09 2013-03-20 高通股份有限公司 使用帧内预测模式的子集及对应定向变换的视频译码
CN105723707A (zh) * 2013-11-01 2016-06-29 高通股份有限公司 用于视频译码的色彩残差预测
CN106664422A (zh) * 2014-06-26 2017-05-10 高通股份有限公司 用于视频译码中的高级残余预测的滤波器
US20170094314A1 (en) * 2015-09-29 2017-03-30 Qualcomm Incorporated Non-separable secondary transform for video coding with reorganizing
CN105791867A (zh) * 2016-03-23 2016-07-20 北京大学 基于边界自适应变换的优化视频数据编码方法

Also Published As

Publication number Publication date
KR20200021944A (ko) 2020-03-02
US20190007705A1 (en) 2019-01-03
BR112019027003A2 (pt) 2020-06-30
US11134272B2 (en) 2021-09-28
SG11201910592YA (en) 2020-01-30
WO2019006148A1 (en) 2019-01-03
EP3646592A1 (en) 2020-05-06
KR102435840B1 (ko) 2022-08-23
AU2018291156A1 (en) 2019-12-05
TW201907718A (zh) 2019-02-16

Similar Documents

Publication Publication Date Title
US10873762B2 (en) Non-separable secondary transform for video coding
KR102435840B1 (ko) 비분리형 변환들을 위한 메모리 감소
US11095893B2 (en) Primary transform and secondary transform in video coding
CN108605126B (zh) 滤波视频数据的经解码块的方法和装置及存储介质
JP6612767B2 (ja) 色空間変換コーディングのための量子化パラメータ
US9432696B2 (en) Systems and methods for low complexity forward transforms using zeroed-out coefficients
RU2584498C2 (ru) Видеокодирование интра-режима
JP6129969B2 (ja) スケーラブルビデオコード化における代替変換
CN113612997A (zh) 针对视频译码使用与位置相关的预测组合的改进视频帧内预测
WO2015038928A1 (en) Partial intra block copying for video coding
KR20160135226A (ko) 비디오 코딩에서 인트라 블록 카피를 위한 검색 영역 결정
JP2020039138A (ja) パレットモードコード化のためのエスケープ画素をコード化すること
KR20200096227A (ko) 블록 형상에 기초한 비디오 인코딩 및 디코딩을 위한 방법 및 장치
CN110800300B (zh) 用于不可分开转换的存储器减少

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40015265

Country of ref document: HK

GR01 Patent grant