CN105453566B - 数据编码及数据解码 - Google Patents

数据编码及数据解码 Download PDF

Info

Publication number
CN105453566B
CN105453566B CN201480044705.1A CN201480044705A CN105453566B CN 105453566 B CN105453566 B CN 105453566B CN 201480044705 A CN201480044705 A CN 201480044705A CN 105453566 B CN105453566 B CN 105453566B
Authority
CN
China
Prior art keywords
value
data
transformation
video data
matrix
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201480044705.1A
Other languages
English (en)
Other versions
CN105453566A (zh
Inventor
詹姆斯·亚历山大·戈梅
卡尔·詹姆斯·沙曼
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Publication of CN105453566A publication Critical patent/CN105453566A/zh
Application granted granted Critical
Publication of CN105453566B publication Critical patent/CN105453566B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/60Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/60Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding
    • H04N19/625Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding using discrete cosine transform [DCT]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/14Fourier, Walsh or analogous domain transformations, e.g. Laplace, Hilbert, Karhunen-Loeve, transforms
    • G06F17/147Discrete orthonormal transforms, e.g. discrete cosine transform, discrete sine transform, and variations therefrom, e.g. modified discrete cosine transform, integer transforms approximating the discrete cosine transform
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/12Selection from among a plurality of transforms or standards, e.g. selection between discrete cosine transform [DCT] and sub-band transform or selection between H.263 and H.264
    • H04N19/122Selection of transform size, e.g. 8x8 or 2x4x8 DCT; Selection of sub-band transforms of varying structure or type
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/156Availability of hardware or computational resources, e.g. encoding based on power-saving criteria

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Discrete Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Analysis (AREA)
  • Pure & Applied Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Mathematics (AREA)
  • Algebra (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

一种用于编码视频数据值的阵列的视频数据编码方法,包括以下步骤:根据频率变换对视频数据值进行频率变换,以便使用具有大于六位的数据精确度的变换矩阵,通过矩阵相乘处理生成频率变换值的阵列。

Description

数据编码及数据解码
相关申请的交叉引证
本申请要求于2013年8月15日提交给英国知识产权局的GB1314612.1的在先提交日的权益,通过引证将其全部内容结合于此。
技术领域
本公开涉及数据编码和数据解码。
背景技术
本文中提供的“背景技术”的描述是为了概括地呈现本公开的背景。就其描述程度而言,描述在背景技术部分的、目前署名的发明人的工作以及申请时未另限定为现有技术资格的说明方面,既没有明确地也没有隐含地承认作为与本公开相对的现有技术。
存在若干种视频数据压缩和解压缩系统,其涉及将视频数据变换成频域表示,量化频域系数,并且然后将熵编码的一些形式应用到量化系数。
编码器侧的变换至空间频域与解码器侧的逆变换相对应。示例变换包括:所谓的离散余弦变换(DCT)和所谓的离散正弦变换(DST)。在一些示例中,通过(从编码的视频数据得到的)输入样品的阵列与变换系数矩阵的矩阵相乘来执行变换,以生成频率变换数据。频率变换数据转换回样品数据,可通过频率变换数据阵列与逆变换系数矩阵的矩阵相乘从该样品数据得到输出视频数据。
诸如所谓的高效视频编码(HEVC)标准的一些标准和起草标准通过定义用作解码侧的逆变换系数的矩阵来定义空间频率变换。
发明内容
本公开提供了一种根据第一方面所述的数据编码方法。
在从属权利要求中定义了另外的相应的方面和特征。
应理解的是,前述的一般性描述及之后的详细描述为示例性的而非限制本公开。
附图说明
将容易获得本公开的更全面理解以及本公开伴随的许多优点,因为这些在结合附图进行考虑时参考实施方式的以下描述将变得更好理解,在附图中:
图1示意性示出了使用视频数据压缩及解压缩的音频/视频(A/V)数据传输及接收系统;
图2示意性示出了使用视频数据解压缩的视频显示系统;
图3示意性示出了使用视频数据压缩及解压缩的音频/视频存储系统;
图4a示意性示出了使用视频数据解压缩的摄像机;
图4b更详细地示意性示出了示例性摄影机;
图4c示意性示出了另一示例性摄影机;
图4d和图4e示意性示出了数据载体;
图5提供了视频数据压缩及解压缩设备的示意性概图;
图6示意性示出了预测图像的产生;
图7示意性示出了最大编码单元(LCU);
图8示意性示出了一组四个编码单元(CU);
图9和10示意性示出了将图8的编码单元次分割为较小的编码单元;
图11示意性示出了预测单元(PU)阵列;
图12示意性示出了变换单元(TU)阵列;
图13示意性示出了4×4DST变换矩阵;
图14示意性示出了根据图13的矩阵的用于逆变换的系数值;
图15示意性示出了32×32组合DCT变换矩阵;
图16示意性示出了根据图13的矩阵的用于逆变换的系数值;
图17a至图17c示意性示出了根据图13的矩阵的用于正向变换的系数值;
图18a至图18c示意性示出了根据图15的矩阵的用于正向变换的系数值;
图19至图21示意性示出了从图15的矩阵二次采样系数值;以及
图22至图26示意性示出了使用根据本技术的实施方式的技术所获得的实验结果。
具体实施方式
现在参考附图,提供图1至图4e以给出利用压缩和/或解压缩设备的设备或系统的示意性图示,以便结合实施方式而描述于下。
以下将要描述的所有数据压缩和/或解压缩设备可以以硬件、运行在诸如通用计算机、诸如专用集成电路(ASIC)或现场可编程门阵列(FPGA)或者其组合的可编程硬件的通用数据处理设备上的软件实施。在由软件和/或固件实现实施方式的情况下,将理解,这样的软件和/或固件以及通过其存储或另外设置这样的软件和/或固件的非易失性机器可读数据存储介质被视为实施方式。
图1示意性示出了使用视频数据压缩及解压缩的音频/视频数据传输及接收系统。
输入音频/视频信号10被供应至视频数据压缩设备20,其压缩音频/视频信号10的至少视频成分以供传输沿着传输路由30,诸如缆线、光纤、无线链路等。压缩信号由解压缩设备40处理以提供输出音频/视频信号50。针对返回路径,压缩设备60压缩音频/视频信号以供传输沿着传输路由30而至解压缩设备70。
压缩设备20及解压缩设备70可因此形成传输链路的一个节点。解压缩设备40及压缩设备60可形成传输链路的另一节点。当然,在传输链路为单向的情况下,仅一个节点需要压缩设备并且另一节点仅需要解压缩设备。
图2示意性示出了使用视频数据解压缩的视频显示系统。特别地,压缩音频/视频信号100由解压缩设备110处理,以便提供可被显示在显示器120上的解压缩信号。解压缩设备110可被实现为显示器120的部分,例如提供在与显示设备相同的外壳内。可选地,解压缩设备110可被提供为(例如)所谓的机顶盒(STB),注意:用词“机顶”并非暗示机盒需设置相对于显示器120的任何特定方位或位置;其仅为用在本领域中的术语,以指示可连接至显示器以作为周边设备的一种设备。
图3示意性示出了使用视频数据压缩及解压缩的音频/视频存储系统。输入音频/视频信号130被供应至压缩设备140,其产生压缩信号以供由诸如磁盘设备、光盘设备置、磁带设备、固态存储设备(诸如半导体存储器或其他存储设备)的存储设备150储存。为了回放,从存储设备150读取压缩数据并传递至解压缩设备160以供解压缩,以提供输出音频/视频信号170。
将理解,压缩或编码信号以及存储介质或存储该信号的数据载体被视为实施方式。以下参考图4d和图4e进行描述。
图4a示意性示出了使用视频数据解压缩的视频摄像机。在图4a中,诸如电荷耦合设备(CCD)图像传感器及相关的控制和读出电子设备等图像捕获设备180生成传送给压缩设备190的视频信号。一个麦克风(或多个麦克风)200产生音频信号以供传递至压缩设备190。压缩设备190产生压缩音频/视频信号210以便被储存和/或传输(通常示出为示意性阶段220)。
以下描述的技术主要涉及视频数据压缩。应理解,许多现有技术可结合将描述的视频数据压缩技术而被用于音频数据压缩,以产生压缩音频/视频信号。因此,将不提供音频数据压缩的各自讨论。也将理解,与视频数据(特别是广播质量视频数据)相关的数据率一般大大高于与音频数据相关的数据率(无论压缩还是未压缩)。因此应理解,未压缩音频数据可伴随压缩视频数据以形成压缩音频/视频信号。将进一步理解,虽然目前的示例(图1至图4e中所示出的)涉及音频/视频数据,但以下将描述的技术可发现应用于仅处理(即,压缩、解压缩、储存、显示和/或传输)视频数据的系统。换言之,实施发送可应用于视频数据压缩而不一定具有任何相关的音频数据处置。
图4b更详细地示意性示出了示例性摄影机设备183。将不再进一步描述与图4a的编号相同的那些特征。图4b是图4a的照相机的示例(在图4a的单元220提供存储能力的情况下),其中,压缩数据首先通过缓冲器221缓冲,并且随后存储在诸如磁盘、光盘、闪存、所谓的固态光盘驱动器(SSD)等的存储介质222中。注意到,图4b的布置可实现为单个(物理)单元182。
图4c示意性示出了另一示例性摄影机,其中,取代图4b的存储布置,提供了网络接口223以允许压缩数据被传输至另一单元(未示出)。网络接口223也可允许诸如控制数据的引入数据由摄影机接收。注意到,图4b的布置可实现为单个(物理)单元183。
图4d和图4e示意性示出了数据载体,例如,用作存储介质222并且携带根据本申请中描述的压缩技术而压缩的压缩数据。图4d示出了实现为诸如闪存的固态存储器的可移除非易失性存储介质225的示意性实施例。图4e示出了实现为诸如光盘的磁盘介质的可移除非易失性存储介质226的示意性实施例。
图5提供了视频数据压缩及解压缩设备的示意性概图。
输入视频信号300的连续图像被供应至加法器310及图像预测器320。以下将参考图6更详细地描述图像预测器320。加法器310事实上执行相减(负相加)运算,因为它在“+”输入上接收输入视频信号300,并且在“-”输入上接收图像预测器320的输出,以便从输入图像减去预测图像。结果是产生代表实际图像与投影图像之间的差异的所谓的残差图像信号330。
残差图像信号产生的一个原因如下。将要描述的数据编码技术,即,将要应用于残差图像信号的技术在待编码的图像中存在较少“能量”时趋向于更有效地工作。本文中,术语“有效地”指少量编码数据的生成;对于特定的图像质量水平,期望(并且视为“有效地”)实际上生成尽可能少的数据。对残留图像中的“能量”的引用涉及包含在残留图像中的信息量。如果预测图像与实际图像完全相同,则两者之间的差异(即,残留图像)将含有零信息(零能量)且将极易于编码成少量编码数据。通常,如果可使预测程序合理地作用良好,则预期残留图像数据将含有较输入图像更少的信息(较少能量)而因此将较易于编码成少量编码数据。
残差图像信号330被供应至变换单元340,其产生残留图像数据的离散余弦变换(DCT)表示。DCT技术本身是众所周知的,且在本文中将不会详细描述。然而,以下将更详细描述本设备中所使用的技术的形态,特别是有关于可应用DCT操作的不同区块的数据的选择。以下将参考图7-图12来讨论这些。
注意到,在一些实施方式中,使用离散正弦变换(DST)而不是DCT。在其他实施方式中,可不使用变换。这可选择性地完成,使得例如在“变换跳跃(transform skip)”指令或模式的控制下,变换阶段实际上被旁路(bypass)。
变换单元340的输出(即,针对图像数据的各变换区块的一组变换系数)被供应至量化器350。各种量化技术在视频数据压缩领域中是已知的,范围涵盖在量化参数的控制下,从量化标度因子的简单相乘直至复杂查找表的应用。一般目标是两倍。首先,量化程序减少变换数据的可能值的数目。其次,量化程序可增加变换数据为零的值的可能性。这两者可使得熵编码程序更有效地作用于产生少量压缩视频数据。
由扫描单元360施加数据扫描程序。扫描程序的目的为重新排列量化变换数据以将尽可能多的非零已量化变换系数收集在一起,而当然因而将尽可能多的零值系数收集在一起。这些特征可容许有效率地施加所谓的运行长度编码或类似技术。因此,扫描程序涉及从量化的变换数据选择系数,特别是从相应于根据“扫描顺序”而变换且量化的图像数据的区块的系数的区块,使得:(a)所有系数当作扫描的部分被选择一次;以及(b)扫描趋向于提供期望的重新排列。能够趋向于给出有用结果的一个示例性扫描顺序是所谓的之字形扫描顺序。
随后,扫描系数被传递至熵编码器(EE)370。再次,可使用各类熵编码。两个示例是所谓的CABAC(背景适应二进制算术编码)系统的变体及所谓的CAVLC(背景适应可变长度编码)系统的变体。通常,CABAC被视为提供较佳的效率,且在某些研究中已显示出针对相当图像质量(相较于CAVLC)的编码输出数据的量提供10%-20%的减少。然而,CAVLC被视为代表比CABAC的复杂度更低的等级(依照其实现方式)。注意到,扫描程序及熵编码程序被显示为分离程序,但事实上可被结合或一起处理。即,数据读入熵编码器可以扫描顺序发生。对应考虑应用于相应的逆处理。
熵编码器370的输出连同额外数据(例如,限定预测器320产生预测图像的方式的额外数据)提供压缩输出视频信号380。
然而,还提供返回路径,因为预测器320本身的操作取决于压缩输出数据的解压缩版本。
此特征的原因如下。在解压缩过程的适当阶段中,生成残留数据的解压缩版本。该解压缩残留数据必须被加至预测图像以产生输出图像(因为原始残留数据是输入图像与预测图像之间的差异)。为了使该处理例如,在压缩侧与解压缩侧之间是可比的,在压缩处理期间及解压缩处理期间,由预测器320产生的预测图像应相同。当然,在解压缩时,设备对于原始输入图像不具有存取权,而仅对于解压缩图像有存取权。因此,在压缩时,预测器320以压缩图像的解压缩版本为其预测(至少,针对图像间编码)的基础。
由熵编码器370所执行的熵编码程序被视为“无损(lossless)”,也就是说,其可被反转以达成与其首先供应至熵编码器370的数据完全相同的数据。因此,可在熵编码阶段之前实现返回路径。确实,由扫描单元360执行的扫描程序也被视为无损的,但在本实施方式中,返回路径390是从量化器350的输出到互补逆量化器420的输入。
通常,熵解码器410、反转扫描单元400、逆量化器420及逆变换单元430提供熵编码器370、扫描单元360、量化器350及变换单元340的各自的逆功能。现在,将继续压缩处理的讨论;对输入压缩视频信号进行解压缩的处理对应于压缩处理的返回路径。
在压缩处理中,扫描系数由返回路径390从量化器350传递至逆量化器420,其执行扫描单元360的逆操作。逆量化及逆变换程序由单元420、430执行以产生压缩-解压缩的残差图像信号440。
在加法器450处,图像信号440被添加至预测器320的输出以产生重建输出图像460。这形成了向图像预测器320的一个输入。
现转向应用于接收的压缩视频信号470的处理,在由加法器450将其加到图像预测器320的输出之前,信号被提供至熵编码器410以及从此处到逆扫描单元400、逆量化器420以及逆变换单元430的链。明确地,加法器450的输出460形成输出的解压缩视频信号480。实际上,在信号输出之前可施加进一步过滤。
图6示意性示出了预测图像的产生,并且更具体地,示出了图像预测器320的操作。
有两种预测的基本模式:所谓的图像内预测(intra-image prediction)及所谓的图像间(inter-image)(或运动补偿(MC))预测。
图像内预测以来自相同图像内的数据为图像区块内容预测的基础。这对应于其他视频压缩技术中的所谓的I帧编码。不同于I帧编码(其中,整个图像被内编码),在本实施方式中,可以逐区块的方式来进行内编码与间编码之间的选择,虽然在其他实施方式中仍以逐图像的方式进行选择。
运动补偿预测利用尝试在另一邻近或附近图像中定义在当前图像中编码的图像细节来源的运动信息。因此,在理想示例中,预测图像中的图像数据的区块内容可非常易于编码为参考(运动向量),其指向相邻图像中位于相同或稍微不同位置上的相应区块。
回到图6,示出了两个图像预测配置(对应于图像内及图像间预测),其结果在模式信号510的控制下由多任务器500选择,以提供预测图像的区块,以便供应至加法器310及450。基于哪一个选择给出最低“能量”(如上讨论的,其可被视为需要编码的信息内容)而进行选择,且该选择被发送至编码输出数据流内的编码器。在本文中,例如,通过来自输入图像的预测图像的两版本的区域的试验相减、将差异图像的各像素值平方、加上平方值、及识别两版本的哪一个导致关于该图像区域的差异图像的较低均方值,可检测图像能量。
在内编码系统中,基于被接收作为信号460的部分的图像区块来进行实际预测,换言之,预测是基于编码-解码图像区块的,以便可在解压缩设备上进行完全相同的预测。然而,可由内模式选择器520从输入视频信号300获取数据,以控制图像内预测器530的操作。
针对图像间预测,运动补偿(MC)预测器540使用运动信息,诸如由运动估计器550从输入视频信号300得到的运动向量。那些运动向量通过运动补偿预测器540被施加至重建图像460的处理版本,以产生图像间预测的区块。
现将描述施加至信号460的处理。首先,由过滤器单元560过滤信号。这涉及应用“除区块”过滤器来移除或至少尝试减少由变换单元340执行的基于区块的处理及后续操作的效果。同样,使用通过处理重建信号460及输入视频信号300所得到的系数来应用自适应环路过滤器。自适应环路过滤器是一类过滤器,其使用已知技术将自适应过滤器系数应用至待过滤的数据。即,过滤器系数可根据各种因素改变。定义应使用哪些过滤器系数的数据被包括作为编码输出数据流的部分。
事实上,来自过滤器单元560的滤波输出形成输出视频信号480。其还缓存在一个或多个图像存储器570中;连续图像的存储是运动补偿预测处理的要求,并具体为运动矢量的生成。为了节省存储需求,图像存储器570中的存储图像可以压缩形式保存并接着解压缩以用来产生运动向量。为了此特定目的,可使用任何已知的压缩/解压缩系统。存储图像被传递至内插过滤器580,其产生储存图像的较高分辨率版本;在本实例中,产生中间样本(子样本),使得由内插过滤器580输出的内插图像的分辨率(在每个维度上)是存储在图像存储器570中的图像的分辨率的8倍。内插图像被传递作为向运动估计器550以及运动补偿预测器540的输入。
在实施方式中,提供进一步的可选阶段,其使用乘法器600将输入视频信号的数据值乘以因子四(有效地正好将数据值向左移位两位),并且在设备输出时,使用除法器或右移位器610应用相应的除法运算(右移两位)。因此,左移位及右移位纯粹为了设备的内部操作而改变数据。由于任何数据舍入误差的效果降低,所以该措施在设备内可提供较高的计算精确度。
现将描述图像针对压缩处理而被分割的方式。在基本层面,要压缩的图像被视为样本的区块阵列。出于讨论目的,考虑之中的最大区块是所谓的最大编码单元(LCU)700(图7),其表示64x64样本的正方形阵列。本文中,讨论涉及亮度样本。根据诸如4:4:4、4:2:2、4:2:0或4:4:4:4(GBR加密钥数据)的色度模式,将有对应于亮度区块的对应色度样本的不同数目。
将描述三个基本类型的区块:编码单元、预测单元及变换单元。通常,LCU的递归次划分容许输入图像被分割成使得区块尺寸及区块编码参数(诸如预测或残留编码模式)可依据待编码图像的特定特性而被设定。
LCU可被次划分为所谓的编码单元(CU)。编码单元总是正方形的且具有8×8样本与LCU 700的完整尺寸之间的尺寸。编码单元可被布置为一种树状结构,使得第一次划分可发生为如图8所示,给出32x32样本的编码单元710;后续次划分可接着依选择性方式而发生,以给出16x16样本的某些编码单元720(图9)及8×8样本的潜在的某些编码单元730(图10)。总之,此程序可提供CU区块的内容调适的编码树状结构,其每一者可如LCU一般大或者如8×8样本一般小。基于编码单元结构而出现输出视频数据的编码。
图11示意性示出了预测单元(PU)阵列。预测单元是基础单元,该基础单元用于携载关于图像预测程序的信息、或者换言之,被加至熵编码残留图像数据以形成来自图5的设备的输出视频信号的额外数据。通常,预测单元不限于正方形形状。只要编码单元大于最小(8×8)大小,预测单元可以是其他形状,具体地,形成方形编码单元中的一个的一半的矩形形状。目的是允许相邻预测单元的边界与图片中真实对象的边界(尽可能密切地)相匹配,使得不同的预测参数能够应用于不同的真实对象。各个编码单元可含有一个或多个预测单元。
图12示意性示出了变换单元(TU)阵列。变换单元是变换和量化程序的基础单元。变换单元始终是正方形并且可采取从4×4到32x32样本的大小。各编码单元可含有一个或多个变换单元。图12中的缩写SDIP-P表示所谓的短距离内预测分割。在此布置中,仅使用一维变换,所以4xN区块通过N变换传递,其中,变换的输入数据是基于当前SDIP-P内的先前解码的相邻区块及先前解码的相邻线的。
变换矩阵
以下讨论涉及变换单元340和逆变换单元430的方面。应注意,如上所述,变换单元存在于编码器中。逆变换单元存在于编码器的返回解码路径以及解码器的解码路径中。
变换单元和逆变换单元旨在向空间频域提供互补变换并且从空间频域提供互补变换。就是说,变换单元340作用于成组视频数据(或者从视频数据得到的数据,诸如以上讨论的差异或剩余数据),并且生成对应的成组空间频率系数。逆变换单元430作用于成组空间频率系数并且生成对应的成组视频数据。
在实践中,变换实现为矩阵计算。由变换矩阵定义正向变换,并且通过变换阵列与样品值阵列的矩阵相乘来实现变换以生成空间频率系数的对应阵列。在一些示例中,样品阵列M由变换矩阵T左乘,并且随后结果由变换矩阵TT的转换右乘。所以,输出系数阵列定义为:
T.M.TT
表示该类型的空间频率变换的矩阵类型的性能是矩阵的转换与其逆转换相同。所以,原则上,正向和逆向变换矩阵是通过简单转换相关的。
在提出的HEVC标准中,由于其存在于本申请的提交日中,所以变换仅定义为用在解码器函数中的逆变换矩阵。编码器变换矩阵不限于此。解码器(逆)变换被限定为六位的精确度。
如上所述,原则上,能够获得正向(编码器)矩阵的合适组作为逆矩阵转换。然而,只有当值表达为无限精确度时,才可应用正向矩阵与逆矩阵之间的关系。将值表达为有限精确度(诸如六位)意味着转换不必是正向矩阵与逆矩阵之间的适当关系。
应认识到,相比使用浮动点计算的相似单元,制造或实现整数-算数变换以及逆变换单元更简单、更便宜、更快速、和/或处理器密度更小。因此,以下讨论的矩阵系数表达为整数,该整数从实现变换(通过大量位(2的幂数))所需的实际值增大比例以允许所需的系数精确度。如果需要,可通过过程中的另一阶段的移位(除以大量的2的幂数)来移除比例增大(scaling-up)。换言之,实际变换系数与以下讨论的值成比例。
6位逆变换矩阵
本部分详细说明存在于所有解码器中的当前的HEVC标准的逆变换矩阵。
4×4DST
变换矩阵是图13中示出的形式,其中,每个字母表示相应的系数值,并且其中,根据图14的表定义网格中的值。
组合DCT矩阵
为了便于实现,可描述单个32×32DCT矩阵M32,通过根据以下的二次采样从该矩阵M32得到每个较小的NxN DCT矩阵MN
MN[x][y]=M32[x][(2(5–log2(N)))y] 对于x,y=0..(N–1)。
例如,根据要变换的数据阵列的尺寸,N可以是小于32(诸如4、8或16)的二的幂数。
组合矩阵M32是图15中示出的形式,其中,再一次,不同字母表示相应的系数值。应注意,相同字母的大写格式版本和小写格式版本表示不同系数,所以“A”表示的值与“a”表示的值不同。
根据图16中示出的表定义网格中的值。
正向变换矩阵的精确度的增加
结合以上讨论来阅读的本部分讨论了一种编码方法和设备,其用于使用各种水平精确度的正向变换矩阵来编码视频数据值阵列。
该讨论的基础是:可通过使用匹配至标准逆矩阵的正向矩阵来获得改善结果,该标准逆矩阵具有表达得高于六位的分辨率的系数。在系统编码高位深度视频数据(即,具有大“位深度”的视频数据、或数据精确度表达为大量位,例如16位视频数据)时,尤其是这种情况。本文中,根据视频数据值的位深度而选择变换矩阵的数据精确度是有用的。
例如,以下讨论的矩阵值可适用于根据频率变换而频率变换视频数据值、通过矩阵相乘程序(使用具有大于六位的数据精确度的变换矩阵)而生成频率变换值的阵列、具有由以下讨论的值的至少一个子集定义的系数的变换矩阵、以及执行这种操作的频率变换单元(诸如,单元340)。
在一些实施方式中,使用,例如,具有N-2或N-3位的位深度或精确度的矩阵系数来处理具有N位的位深度的视频数据是有用的。
本文中,术语“匹配”暗示正向矩阵,当“匹配”用来补足标准逆矩阵时,其将给出低于表达该精确度的其他正向矩阵的低级误差。在一些情况下,误差可最小;在其他情况下中,误差可至少减轻。术语“误差”涉及(在正向变换和逆变换的链的环境中)提供为向正向变换的输入的数据与产生作为逆变换的输出的对应数据之间的差值。
4×4DST
变换矩阵再次是图13中示出的形式,其中,根据图17a至图17c的表,通过矩阵精确度定义网格中的值。应注意,尽管示出的值指示本技术的实施方式(就是说,可使用等于那些数字的值),但是这些数字中的每一个可变化(例如)+/-2。本文中,每一行都涉及定义系数的字母中的不同的一个。每一列都涉及矩阵系数的不同精确度或位深度。
组合DCT矩阵
再次,为了便于实现,可描述单个32×32DCT矩阵M32,通过根据以下的二次采样从该矩阵M32得到每个较小的N×N DCT矩阵MN
MN[x][y]=M32[x][(2(5–log2(N)))y] 其中x,y=0..(N–1)。
组合矩阵M32再次是图15中示意性示出的形式,但是,这次,根据图18a至图18c的表,通过矩阵精确度定义网格中的值。应注意,尽管示出的值指示了本技术的实施方式,但是这些数字中的每一个可变化+/-2。因此,可使用基本上等于表中的值的实际值,其中,术语“基本上等于”意味着“+/-2的表值”。
为了完整性,本文中呈现了从32×32矩阵得到的较小DCT矩阵。根据上表,通过矩阵系数精确度定义每个网格中的值。
4×4DCT
根据以上列出的方程式,将矩阵M4定义为组合矩阵M32的每第8行的前4个系数。在图19中示出了这些系数。
8×8DCT
根据以上列出的方程式,将矩阵M8定义为组合矩阵M32的每第4行的前8个系数。在图20中示出了这些系数。
16×16DCT
根据以上列出的方程式,将矩阵M16定义为组合矩阵M32的每偶数行的前16个系数。在图21中示出了这些系数。
因此,根据列于附图所示的相关表上的值的数据精确度而选择系数值。
示例性结果
根据与逆变换相同的矩阵,标准HEVC v1实现过程同样使用正向转换。然而,由于输入位深度增加,将正向变换与逆转换相匹配变得适当,否则因为由于以上讨论的原因,在应用正向转换与其逆转换之间引入误差。此外,增加变换矩阵的有效固定位深度也变得适当,再次因为,否则误差将开始变得巨大。在本技术的实施方式中,编码至N位输入数据(具有高SNR)的编码器可使用至少3位(例如N-2位)的正向变换位深度(例如,以便提供小于视频数据值的位深度的2或3位的偏移)。根据实现过程,这种编码器可以或不可以使用较低精确性的正向变换位深度,用于低级输入位深度系统(例如,它能够降低电力,或者利用快速软件实现过程)。
因此,在实施方式中,正向变换单元340能操作以存储涉及(例如)图18a至图18c的表的数据,并且根据使用中的内部视频位深度,从这些表的适当列中选择数据。
以下描述的图形示出了(a)与通过使用匹配至6位逆变换的较高精确度正向变换所获得的结果一起,参考性能使用标准6位逆变换作为其自身正向变换(提交时的当前标准HEVC c模型)。以正在处理的视频数据的不同的相应位深度提供结果,并且该结果将系统性能指示作为以分贝(dB)计的噪声比率(SNR)相对于以每秒千比特(kbps)计的比特率的信号测量。根据指定的比特率和位深度,从视频的试验序列的编码以及随后的解码获得SNR测量,并且从测试序列的平均值的误差得到该SNR测量。以实线示出了参考结果,并且以虚线示出了增加的精确度矩阵的试验结果。图22至图24示出了获得的用于14位矩阵精确度(即,使用图18a中的标题为“14位”的列的数据)、用于12位(图22)、14位(图24)、以及16位(图26)的内部(处理操作内)视频位深度的结果。
图25和图26示出了获得的用于矩阵精确度<内部视频位深度>-2、用于12位(图25)和14位(图26)的内部视频位深度的结果。
在图22至图26的每个图中,在测试的比特率的至少某些范围中,可看到,相比较在某一视频位深度的参考系统的SNR,每个试验结果的SNR更佳。
使用这些技术来编码或解码的图像数据以及携带这种图像数据的数据载体被视为表示本公开的实施方式。
至少一些实施方式的相应方面和特征由以下编号条款来限定:
1.一种用于编码视频数据值的阵列的视频数据编码方法,所述方法包括以下步骤:
根据频率变换对所述视频数据值进行频率变换,以使用具有大于六位的数据精确度的变换矩阵,通过矩阵相乘处理而成频率变换值的阵列,所述变换矩阵具有通过以下值中的至少一子集限定的系数:
(a)对于所述频率变换是离散余弦变换的情况:
(b)对于所述频率变换是离散正弦变换的情况:
根据从基本上等于下表中列出的值的值的数据精确度选择系数值:
(a)对于所述频率变换是离散余弦变换的情况:
(b)对于所述频率变换是离散正弦变换的情况:
15位 16位 17位 18位 19位
a 14849 29698 59396 118791 237583
b 28162 56323 112647 225294 450588
c 37787 75573 151146 302292 604584
d 43011 86021 172043 344085 688170
e 0 0 0 0 0
20位 21位 22位 23位 24位
a 475165 950330 1900660 3801320 7602640
b 901175 1802350 3604700 7209400 14418800
c 1209169 2418337 4836675 9673350 19346700
d 1376340 2752680 5505360 11010720 22021440
e 0 0 0 0 0
2.根据条款1所述的方法,其中,所述系数值等于从相应的表选择的值。
3.根据条款1或条款2所述的方法,包括:根据所述视频数据值的位深度选择所述变换矩阵的所述数据精确度。
4.根据条款3所述的方法,其中,所述选择步骤包括:
将所述变换矩阵的所述数据精确度设定为小于所述视频数据值的所述位深度的位偏移量。
5.根据条款4所述的方法,其中,所述位偏移量等于2或3。
6.根据前述条款中任一项所述的方法,其中,对于N×N值的阵列的离散余弦变换,其中,N是小于32的2的幂数,值的子集MN[x][y]由下式定义:
MN[x][y]=M32[x][(2(5–log2(N)))y] 对于x,y=0..(N–1)。
7.根据条款6所述的方法,其中,N是4、8或16。
8.一种通过前述条款中任一项所述的编码方法编码的图像数据。
9.一种存储根据条款8所述的图像数据的数据载体。
10.一种计算机软件,当通过计算机执行所述计算机软件时,使所述计算机执行根据前述条款中任一项所述的方法。
11.一种非易失性机器可读存储介质,其上存储有根据条款8的计算机软件。
12.一种用于编码视频数据值的阵列的数据编码设备,所述设备包括:
频率变换单元,被配置为根据频率变换而频率变换所述视频数据值,以便使用具有大于六位的数据精确度的变换矩阵,通过矩阵相乘处理而生成频率变换值的阵列,所述变换矩阵具有通过以下值中的至少一个子集限定的系数:
(a)对于所述频率变换是离散余弦变换的情况:
(b)对于所述频率变换是离散正弦变换的情况:
从基本上等于下表中列出的值的值中,根据数据精确度选择系数值:
(a)对于所述频率变换是离散余弦变换的情况:
20位 21位 22位 23位 24位
a 1048576 2097152 4194304 8388608 16777216
b 1361035 2722070 5444140 10888280 21776560
c 590328 1180657 2361314 4722627 9445255
d 1460056 2920112 5840224 11680448 23360895
e 1231635 2463269 4926539 9853077 19706155
f 817225 1634450 3268899 6537799 13075597
g 292035 584070 1168141 2336282 4672564
h 1479667 2959333 5918667 11837334 23674667
i 1412045 2824090 5648179 11296358 22592717
j 1308827 2617653 5235307 10470613 20941227
k 1150199 2300397 4600795 9201590 18403179
l 937060 1874119 3748238 7496477 14992954
m 710995 1421991 2843981 5687962 11375925
n 412549 825098 1650196 3300393 6600785
o 148227 296454 592908 1185815 2371630
p 1478788 2957576 5915152 11830305 23660609
q 1462520 2925040 5850080 11700160 23400319
r 1436472 2872944 5745888 11491775 22983550
s 1398249 2796498 5592996 11185992 22371984
t 1343671 2687342 5374684 10749368 21498736
u 1267818 2535636 5071272 10142545 20285089
v 1190466 2380931 4761862 9523724 19047449
w 1097123 2194246 4388491 8776982 17553965
x 1005942 2011884 4023769 8047537 16095074
y 886598 1773197 3546394 7092787 14185574
z 751944 1503889 3007778 6015555 12031111
A 630139 1260278 2520556 5041112 10082224
B 506101 1012202 2024405 4048809 8097618
C 356674 713348 1426696 2853391 5706783
D 209987 419973 839947 1679894 3359787
E 60515 121030 242061 484122 968243
(b)对于所述频率变换是离散正弦变换的情况:
7位 8位 9位 10位 11位 12位 13位 14位
a 58 116 232 464 928 1856 3712 7424
b 110 220 440 880 1760 3520 7040 14081
c 148 295 590 1181 2362 4723 9447 18893
d 168 336 672 1344 2688 5376 10753 21505
e 0 0 0 0 0 0 0 0
15位 16位 17位 18位 19位
a 14849 29698 59396 118791 237583
b 28162 56323 112647 225294 450588
c 37787 75573 151146 302292 604584
d 43011 86021 172043 344085 688170
e 0 0 0 0 0
20位 21位 22位 23位 24位
a 475165 950330 1900660 3801320 7602640
b 901175 1802350 3604700 7209400 14418800
c 1209169 2418337 4836675 9673350 19346700
d 1376340 2752680 5505360 11010720 22021440
e 0 0 0 0 0
13.根据条款12所述的设备,其中,所述系数值等于从相应的表选择的值。
14.根据条款12或条款13所述的设备,其中,所述频率变换单元被配置为根据所述视频数据值的位深度选择所述变换矩阵的所述数据精确度。
15.根据条款14所述的设备,其中,所述频率变换单元被配置为将所述变换矩阵的所述数据精确度设定为小于所述视频数据值的所述位深度的位偏移量。
16.根据条款15所述的设备,其中,所述位偏移量等于2或3。
17.根据条款12至16所述的设备,其中,对于N×N值的阵列的离散余弦变换,其中,N是小于32的2的幂数,值的子集MN[x][y]由下式定义:
MN[x][y]=M32[x][(2(5–log2(N)))y] 对于x,y=0..(N–1)。
18.根据条款17所述的设备,其中,N是4、8或16。
19.一种视频数据捕获、传输、显示和/或存储设备,所述设备包括:根据条款12至18所述的设备。
数据信号
将理解,由以上讨论的由编码设备的变异所产生的数据信号(及携载此类信号的存或储传输介质)被视为代表本公开的实施方式。
在到目前为止已被描述为通过软件控制的数据处理设备实施(至少部分)的实施方式中,应当理解,诸如光盘、磁盘、半导体存储器等承载这样的软件的非易失性机器可读介质也被视为表示本公开的实施方式。
显而易见的是根据上述教导可以对本公开进行各种修改及变形。因此,应了解,在所附权利要求的范围内,此技术可以如本文所明确描述之外的方式实施。

Claims (13)

1.一种用于编码视频数据值的阵列的视频数据编码方法,所述方法包括步骤:
根据频率变换对所述视频数据值进行频率变换,以使用具有大于六位的数据精确度的变换矩阵,通过矩阵相乘处理生成频率变换值的阵列,所述频率变换是离散余弦变换,所述变换矩阵具有通过以下的值中的至少一子集限定的系数,其中,对于N×N值的阵列的离散余弦变换,其中,N是小于32的2的幂数,值的子集MN[x][y]由下式定义:
MN[x][y]=M32[x][(2(5–log2(N)))y] 对于x,y=0..(N–1):
根据从等于下表中所列出的值的值的数据精确度选择系数值:
2.根据权利要求1所述的方法,包括根据所述视频数据值的位深度选择所述变换矩阵的所述数据精确度。
3.根据权利要求2所述的方法,其中,所述选择步骤包括:
将所述变换矩阵的所述数据精确度设定为小于所述视频数据值的所述位深度的位偏移量。
4.根据权利要求3所述的方法,其中,所述位偏移量等于2或3。
5.根据权利要求1所述的方法,其中,N是4、8或16。
6.一种用于编码视频数据值的阵列的数据编码设备,所述设备包括:
频率变换单元,被配置为根据频率变换对所述视频数据值进行频率变换,以使用具有大于六位的数据精确度的变换矩阵,通过矩阵相乘处理生成频率变换值的阵列,所述频率变换是离散余弦变换,所述变换矩阵具有通过以下的值中的至少一子集限定的系数,其中,对于N×N值的阵列的离散余弦变换,其中,N是小于32的2的幂数,值的子集MN[x][y]由下式定义:
MN[x][y]=M32[x][(2(5–log2(N)))y] 对于x,y=0..(N–1):
根据从等于下表中所列出的值的值的数据精确度选择系数值:
7.根据权利要求6所述的设备,其中,所述频率变换单元被配置为根据所述视频数据值的位深度选择所述变换矩阵的所述数据精确度。
8.根据权利要求7所述的设备,其中,所述频率变换单元被配置为将所述变换矩阵的所述数据精确度设定为小于所述视频数据值的所述位深度的位偏移量。
9.根据权利要求8所述的设备,其中,所述位偏移量等于2或3。
10.根据权利要求6所述的设备,其中,N是4、8或16。
11.一种视频数据捕获、传输、显示和/或存储设备,包括根据权利要求6所述的设备。
12.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1至5中任一项所述的方法。
13.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求1至5中任一项所述的方法。
CN201480044705.1A 2013-08-15 2014-07-24 数据编码及数据解码 Active CN105453566B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
GB1314612.1A GB2517416A (en) 2013-08-15 2013-08-15 Data encoding and decoding
GB1314612.1 2013-08-15
PCT/GB2014/052262 WO2015022488A1 (en) 2013-08-15 2014-07-24 Data encoding and decoding

Publications (2)

Publication Number Publication Date
CN105453566A CN105453566A (zh) 2016-03-30
CN105453566B true CN105453566B (zh) 2019-07-09

Family

ID=49301754

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201480044705.1A Active CN105453566B (zh) 2013-08-15 2014-07-24 数据编码及数据解码

Country Status (6)

Country Link
US (2) US11323744B2 (zh)
EP (1) EP3033885B1 (zh)
JP (2) JP6789114B2 (zh)
CN (1) CN105453566B (zh)
GB (1) GB2517416A (zh)
WO (1) WO2015022488A1 (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015061143A (ja) * 2013-09-18 2015-03-30 沖電気工業株式会社 映像符号化装置、および、映像符号化プログラム
CN106303548B (zh) * 2015-05-22 2019-03-19 北大方正集团有限公司 Hevc帧内预测编码方法
US11405647B2 (en) * 2020-02-18 2022-08-02 Tencent America LLC Primary transforms using 8-bit and 10-bit cores
GB2593778A (en) * 2020-04-03 2021-10-06 Sony Group Corp Video data encoding and decoding

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101641734A (zh) * 2007-03-23 2010-02-03 三星电子株式会社 对音频信号编码的方法和设备以及对音频信号解码的方法和设备
CN103096074A (zh) * 2011-11-07 2013-05-08 索尼公司 视频数据编码和解码

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8374237B2 (en) * 2001-03-02 2013-02-12 Dolby Laboratories Licensing Corporation High precision encoding and decoding of video images
US20030118097A1 (en) * 2001-12-21 2003-06-26 Koninklijke Philips Electronics N.V. System for realization of complexity scalability in a layered video coding framework
US8576914B2 (en) * 2011-01-10 2013-11-05 Cisco Technology, Inc. Integer transform video compression system, method and computer program product
CN101766573B (zh) * 2010-02-05 2013-02-13 上海安必生制药技术有限公司 硫酸氢氯吡格雷固体制剂的制备工艺
KR20140098114A (ko) 2011-11-07 2014-08-07 브이아이디 스케일, 인크. 홀수-짝수 정수 변환 백그라운드를 사용하는 비디오 및 데이터 처리
JP2013147346A (ja) * 2012-01-23 2013-08-01 Toshiba Elevator Co Ltd 乗客コンベア、結合体、及び連結方法
GB2513111A (en) 2013-04-08 2014-10-22 Sony Corp Data encoding and decoding
AU2013206815A1 (en) * 2013-07-11 2015-03-05 Canon Kabushiki Kaisha Method, apparatus and system for encoding and decoding video data

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101641734A (zh) * 2007-03-23 2010-02-03 三星电子株式会社 对音频信号编码的方法和设备以及对音频信号解码的方法和设备
CN103096074A (zh) * 2011-11-07 2013-05-08 索尼公司 视频数据编码和解码

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
AHG 5 and 18: Internal Precision for High Bit Depths;SHARMAN K ET AL;《JOINT COLLABORATIVE TEAM ON CODING OF ISO/IEC JTC1/SC29/WG11 AND ITU-T SG.16》;20130808;第1-24页

Also Published As

Publication number Publication date
EP3033885A1 (en) 2016-06-22
JP2019071697A (ja) 2019-05-09
EP3033885B1 (en) 2019-09-04
GB201314612D0 (en) 2013-10-02
CN105453566A (zh) 2016-03-30
JP2016532380A (ja) 2016-10-13
WO2015022488A1 (en) 2015-02-19
JP6777780B2 (ja) 2020-10-28
US11323744B2 (en) 2022-05-03
US20160198194A1 (en) 2016-07-07
US20220256193A1 (en) 2022-08-11
JP6789114B2 (ja) 2020-11-25
GB2517416A (en) 2015-02-25

Similar Documents

Publication Publication Date Title
CN105379283B (zh) 数据编码和解码
CN105103549B (zh) 一种数据编码方法、数据解码方法及计算机可读介质
JP5590133B2 (ja) 動画像符号化装置、動画像符号化方法、動画像符号化用コンピュータプログラム、動画像復号装置及び動画像復号方法ならびに動画像復号用コンピュータプログラム
CN105580367B (zh) 数据编码和解码
CN104394418B (zh) 一种视频数据编码、解码的方法及装置
EP2523458A1 (en) Video encoding device, and video decoding device
GB2519070A (en) Data encoding and decoding
CN103918186B (zh) 上下文自适应数据编码
CN103650496A (zh) 用于在hevc中编码的基于像素的帧内预测
CN104919798A (zh) 量化矩阵编码的方法和装置
JP2023156438A (ja) データ符号化方法及び装置、データ復号化方法及び装置、画像処理装置
CN105453566B (zh) 数据编码及数据解码
CN106165428A (zh) 数据编码和解码
JP2009021775A (ja) 符号化装置及び符号化方法
JP2019515552A (ja) デジタル画像のデコーディング方法、コーディング方法、装置および付随するコンピュータプログラム
CN101083769A (zh) 处理n比特视频数据的编/解码器和编/解码方法
CN108206950B (zh) 一种码流长度计算方法及设备
JP6495834B2 (ja) 映像符号化方法、映像符号化装置及び映像符号化プログラム
TW201334427A (zh) 上下文適應資料編碼
CN115380533A (zh) 视频数据编码和解码
JP5696248B2 (ja) 動画像符号化装置及び動画像復号化装置
Hoffman Efficient Software and Hardware Implementations of the H. 264 Entropy Encoders
JP2017103722A (ja) 符号化装置、復号装置、及びプログラム

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant