CN111819851A

CN111819851A - 用于使用预测运动向量起点对视频编码执行运动向量预测的系统和方法

Info

Publication number: CN111819851A
Application number: CN201980010676.XA
Authority: CN
Inventors: 崔炳都; 基兰·穆克什·米斯拉; 赵杰; 菲利普·柯兰; 朱维佳; 萨钦·G·德什潘德; 弗兰克·博森; 克里斯托弗·安德鲁·塞格尔
Original assignee: FG Innovation Co Ltd; Sharp Corp
Current assignee: Sharp Corp
Priority date: 2018-01-30
Filing date: 2019-01-24
Publication date: 2020-10-23
Also published as: US11240528B2; US20210037255A1; EP3747193A4; EP3747193A1; US20220116646A1; WO2019151093A1

Abstract

本发明公开了用于对视频编码执行运动向量预测的系统和方法。至少部分地基于与所选择的预测运动向量起点相关联的运动信息和对应于所选择的采样点的偏移值来确定预测运动向量。采样点根据预测运动向量起点的采样图上的一组方向和距离指定。

Description

用于使用预测运动向量起点对视频编码执行运动向量预测的系统和方法

技术领域

本公开涉及视频编码，并且更具体地涉及用于执行运动向量预测的技术。

背景技术

数字视频功能可以结合到各种设备中，包括数字电视、笔记本电脑或台式电脑、平板电脑、数字录音设备、数字媒体播放器、视频游戏设备、蜂窝电话(包括所谓的智能电话)、医学成像设备等。可以根据视频编码标准对数字视频进行编码。视频编码标准可以结合视频压缩技术。视频编码标准的示例包括ISO/IEC MPEG-4 Visual和ITU-T H.264(也称为ISO/IEC MPEG-4AVC)和高效率视频编码(HEVC)。HEVC在2016年12月的ITU-T H.265建议书的高效视频编码(HEVC)中有所描述，该文献以引用方式并入本文，并且在本文中称为ITU-TH.265。目前正在考虑对ITU-T H.265进行扩展和改进以开发下一代视频编码标准。例如，ITU-T视频编码专家组(VCEG)和ISO/IEC活动图像专家组(MPEG)(统称为联合视频研究组(JVET))正在研究压缩能力显著超过当前HEVC标准的未来视频编码技术的标准化的潜在需求。以引用方式并入本文的联合探索模型7(JEM 7)、联合探索测试模型7(JEM 7)的算法描述、ISO/IEC JTC1/SC29/WG11文档：JVET-G1001(2017年7月，意大利，都灵)描述了由JVET在联合测试模型研究下的编码特征，该技术是超越ITU-T H.265功能的潜在增强视频编码技术。应当指出的是，JEM 7的编码特征在JEM参考软件中实现。如本文所用，术语JEM可统称包括在JEM 7中的算法以及JEM参考软件的具体实施。

视频压缩技术可减少存储和传输视频数据的数据需求。视频压缩技术可通过利用视频序列中固有的冗余来减少数据需求。视频压缩技术可将视频序列再分成连续较小的部分(即视频序列内的帧组、帧组内的帧、帧内的片段、片段内的编码树单元(例如，宏块)、编码树单元内的编码块等)。可以使用帧内预测编码技术(例如，图片内(空间))和帧间预测技术(即图片间(时间))来生成待编码的视频数据单元与视频数据的参考单元之间的差值。该差值可被称为残差数据。残差数据可被编码为量化变换系数。语法元素可以涉及残差数据和参考编码单元(例如，帧内预测模式索引、运动向量和块向量)。可以对残差数据和语法元素进行熵编码。熵编码的残差数据和语法元素可以包括在合规比特流中。

发明内容

在一个示例中，重构视频数据的方法包括确定当前视频块的所选择的预测运动向量起点、确定该预测运动向量起点的采样图、导出与该采样图上的采样点相对应的偏移值、确定所选择的采样点、至少部分地基于与所选择的预测运动向量起点相关联的运动信息和对应于所选择的采样点的偏移值来确定预测运动向量，以及使用该确定的预测运动向量生成对当前视频块的预测。

在一个示例中，对视频数据进行编码的方法包括选择当前视频块的预测运动向量起点、选择预测运动向量起点的采样图、导出与该采样图上的采样点相对应的偏移值、选择采样点以及用信号发送所选择的预测运动向量起点、所选择的采样图和所选择的采样点预测运动向量。

附图说明

[图1]图1是示出根据本公开的一种或多种技术的依照四叉树二叉树分割进行编码的一组图片的示例的概念图。

[图2]图2是示出根据本公开的一种或多种技术的视频分量采样格式的示例的概念图。

[图3]图3是示出根据本公开的一种或多种技术的用于视频数据块的可能的编码结构的概念图。

[图4A]图4A是示出根据本公开的一种或多种技术的对视频数据块进行编码的示例的概念图。

[图4B]图4B是示出根据本公开的一种或多种技术的对视频数据块进行编码的示例的概念图。

[图5]图5是示出根据本公开的一种或多种技术的用于包含在预测运动向量的一组候选中的相邻视频块的位置的概念图。

[图6]图6是示出根据本公开的一种或多种技术的用于包含在一组候选预测运动向量中的位置相邻视频块的概念图。

[图7]图7是示出根据本公开的一种或多种技术的可被配置为对视频数据进行编码和解码的系统的示例的框图。

[图8]图8是示出根据本公开的一种或多种技术的可被配置为对视频数据进行编码的视频编码器的示例的框图。

[图9]图9是示出根据本公开的一种或多种技术的在示例性视频块划分的上下文中包含在一组预测运动向量中的相邻视频块的位置的概念图。

[图10]图10是示出根据本公开的一种或多种技术的采样图的概念图。

[图11]图11是示出根据本公开的一种或多种技术的采样图的概念图。

[图12]图12是示出根据本公开的一种或多种技术的用于使用预测运动向量起点和采样图进行运动向量预测的过程的流程图。

[图13]图13是示出根据本公开的一种或多种技术的可被配置为对视频数据进行解码的视频解码器的示例的框图。

[图14]图14是示出根据本公开的一种或多种技术的用于使用预测运动向量起点和采样图进行运动向量预测的过程的流程图。

具体实施方式

一般来讲，本公开描述用于编码视频数据的各种技术。具体而言，本公开描述了用于运动向量预测的技术。应当指出的是，虽然本公开的技术是关于ITU-T H.264、ITU-TH.265和JEM描述的，但是本公开的技术通常可应用于视频编码。例如，本文所述的编码技术可并入视频编码系统，(包括基于未来视频编码标准的视频编码系统)，包括块结构、帧内预测技术、帧间预测技术、变换技术、滤波技术和/或其他熵编码技术，而不包括ITU-T H.265和JEM中的技术。因此，对ITU-T H.264、ITU-T H.265和/或JEM的参考用于描述性目的，并且不应将其解释为限制本文所述技术的范围。此外，应当指出的是，将文献以引用方式并入本文是出于描述性目的，并且不应被解释为限制或产生关于本文所用术语的歧义。例如，在某个并入的参考文献中提供的对某个术语的定义不同于另一个并入的参考文献和/或如本文中使用的该术语的情况下，则该术语应以广泛地包括每个相应定义的方式和/或以包括替代方案中每个特定定义的方式来解释。

在一个示例中，用于重构视频数据的设备包括一个或多个处理器，该一个或多个处理器被配置为确定当前视频块的所选择的预测运动向量起点、确定该预测运动向量起点的采样图、导出与该采样图上的采样点相对应的偏移值、确定所选择的采样点、至少部分地基于与所选择的预测运动向量起点相关联的运动信息和对应于所选择的采样点的偏移值来确定预测运动向量，以及使用该确定的预测运动向量生成对当前视频块的预测。

在一个示例中，非暂态计算机可读存储介质包括存储在其上的指令，这些指令在被执行时使得设备的一个或多个处理器确定当前视频块的所选择的预测运动向量起点、确定该预测运动向量起点的采样图、导出与该采样图上的采样点相对应的偏移值、确定所选择的采样点、至少部分地基于与所选择的预测运动向量起点相关联的运动信息和对应于所选择的采样点的偏移值来确定预测运动向量，以及使用该确定的预测运动向量生成对当前视频块的预测。

在一个示例中，装置包括用于确定当前视频块的所选择的预测运动向量起点的构件、用于确定该预测运动向量起点的采样图的构件、用于导出与该采样图上的采样点相对应的偏移值的构件、用于确定所选择的采样点的构件、用于至少部分地基于与所选择的预测运动向量起点相关联的运动信息和对应于所选择的采样点的偏移值来确定预测运动向量的构件，以及用于使用该确定的预测运动向量生成对当前视频块的预测的构件。

在一个示例中，用于对视频数据进行编码的设备包括一个或多个处理器，该一个或多个处理器被配置为选择当前视频块的预测运动向量起点、选择该预测运动向量起点的采样图、导出与该采样图上的采样点相对应的偏移值、选择采样点以及用信号发送所选择的预测运动向量起点、所选择的采样图和所选择的采样点预测运动向量。

在一个示例中，非暂态计算机可读存储介质包括存储在其上的指令，这些指令在被执行时使得设备的一个或多个处理器选择当前视频块的预测运动向量起点、选择该预测运动向量起点的采样图、导出与该采样图上的采样点相对应的偏移值、选择采样点以及用信号发送所选择的预测运动向量起点、所选择的采样图和所选择的采样点预测运动向量。

在一个示例中，装置包括用于选择当前视频块的预测运动向量起点的构件、用于选择该预测运动向量起点的采样图的构件、用于导出与该采样图上的采样点相对应的偏移值的构件、用于选择采样点的构件以及用于用信号发送所选择的预测运动向量起点、所选择的采样图和所选择的采样点预测运动向量的构件。

在以下附图和描述中阐述了一个或多个示例的细节。其他特征、目的和优点将从描述和附图以及权利要求书中显而易见。

视频内容通常包括由一系列帧(或图片)组成的视频序列。一系列帧也可被称为一组图片(GOP)。每个视频帧或图片可以包括多个片段或图块，其中片段或图块包括多个视频块。如本文所用，术语“视频块”通常可以指图片的区域，或者可以更具体地指可以被预测性地编码的样本值的最大阵列、其子分区和/或对应结构。此外，术语当前视频块可以指正被编码或解码的图片的区域。视频块可被定义为可被预测性地编码的样本值的阵列。应当指出的是，在一些情况下，像素值可被描述为包括视频数据的相应分量的样本值，其也可被称为颜色分量(例如，亮度(Y)和色度(Cb和Cr)分量或红色、绿色和蓝色分量)。应当指出的是，在一些情况下，术语“像素值”和“样本值”可互换使用。视频块可以根据扫描模式(例如，光栅扫描)在图片内排序。视频编码器可对视频块和其子分区执行预测编码。视频块和其子部分可以被称为节点。

ITU-T H.264指定了包括16×16亮度样本的宏块。也就是说，在ITU-T H.264中，图片被分割成宏块。ITU-T H.265指定了类似的编码树单元(CTU)结构(也称为最大编码单元(LCU))。在ITU-T H.265中，图片被分割成CTU。在ITU-T H.265中，对于图片，CTU尺寸可被设定为包括16×16、32×32或64×64亮度样本。在ITU-T H.265中，CTU由视频数据的每个分量(例如，亮度(Y)和色度(Cb和Cr))的相应编码树块(CTB)组成。此外，在ITU-T H.265中，可根据四叉树(QT)划分结构对CTU进行划分，这导致CTU的CTB被划分成编码块(CB)。也就是说，在ITU-T H.265中，CTU可被划分为四叉树叶节点。根据ITU-T H.265，一个亮度CB连同两个对应的色度CB和相关联的语法元素被称为编码单元(CU)。在ITU-T H.265中，可以用信号发送CB的最小允许尺寸。在ITU-T H.265中，亮度CB的最小允许最小尺寸是8×8亮度样本。在ITU-T H.265中，使用帧内预测或帧间预测对图片区域进行编码的决定在CU级进行。

在ITU-T H.265中，CU与在CU处具有其根的预测单元(PU)结构相关联。在ITU-TH.265中，PU结构允许分割亮度CB和色度CB以生成对应的参考样本。也就是说，在ITU-TH.265中，可将亮度CB和色度CB分割成相应的亮度和色度预测块(PB)，其中PB包括应用了相同预测的样本值的块。在ITU-T H.265中，可将CB分成1、2或4个PB。ITU-T H.265支持从64×64样本向下至4×4样本的PB尺寸。在ITU-T H.265中，支持正方形PB来进行帧内预测，其中CB可形成PB，或者CB可被分割成四个正方形PB(即，帧内预测PB类型包括M×M或M/2×M/2，其中M为正方形CB的高度和宽度)。在ITU-T H.265中，除了正方形PB之外，还支持矩形PB来进行帧间预测，其中CB可垂直地或水平地减半以形成PB(即，帧间预测PB类型包括M×M、M/2×M/2、M/2×M或M×M/2)。此外，应当指出的是，在ITU-T H.265中，对于帧间预测，支持四个非对称PB划分，其中CB在CB的高度(顶部或底部)或宽度(左侧或右侧)的四分之一处被划分成两个PB(即，非对称划分包括M/4×M左、M/4×M右、M×M/4顶部和M×M/4底部)。对应于PB的帧内预测数据(例如，帧内预测模式语法元素)或帧间预测数据(例如，运动数据语法元素)用于生成PB的参考和/或预测样本值。

JEM指定了具有最大尺寸的256×256亮度样本的CTU。JEM指定了四叉树加二叉树(QTBT)块结构。在JEM中，QTBT结构使四叉树叶节点能够通过二叉树(BT)结构进一步划分。也就是说，在JEM中，二叉树结构使四叉树叶节点能够垂直或水平递归划分。图1示出了CTU(例如，具有256×256亮度样本的尺寸的CTU)被划分成四叉树叶节点并且四叉树叶节点根据二叉树进一步划分的示例。也就是说，在图1中，虚线指示四叉树中的附加二叉树划分。因此，JEM中的二叉树结构实现了正方形和矩形叶节点，其中每个叶节点包括CB。如图1所示，包括在GOP中的图片可包括片段，其中每个片段包括CTU序列，并且每个CTU可根据QTBT结构被划分。图1示出了包括在片段中的一个CTU的QTBT划分的示例。

在JEM中，通过用信号发送QT分割标记和BT分割模式语法元素来用信号发送QTBT。此外，在JEM中，亮度和色度分量可具有单独的QTBT划分。也就是说，在JEM中，可以通过用信号发送相应QTBT来独立地划分亮度分量和色度分量。目前，在JEM中，对使用帧内预测技术的片段启用独立的QTBT结构。另外，应当指出的是，JEM包括用信号发送QTBT树的以下参数。

CTU尺寸：四叉树的根节点尺寸(例如，256×256、128×128、64×64、32×32、16×16亮度样本)；

MinQTSize：最小允许的四叉树叶节点尺寸(例如，16×16、8×8亮度样本)；

MaxBTSize：最大允许的二叉树根节点尺寸，即可通过二叉树分割来划分的四叉树叶节点的最大尺寸(例如，64×64个亮度样本)；

MaxBTDepth：最大允许的二叉树深度，即可发生二叉树分割的最低位阶，其中四叉树叶节点为根(例如，3)；

MinBTSize：最小允许的二叉树叶节点尺寸，即二叉树叶节点的最小宽度或高度(例如，4个亮度样本)。

应当指出的是，在一些示例中，对于视频的不同分量，MinQTSize、MaxBTSize、MaxBTDepth和/或MinBTSize可不同。在JEM中，CB用于预测而不需要任何进一步的划分。也就是说，在JEM中，CB可以是对其应用相同预测的样本值的块。因此，JEM QTBT叶节点可类似于ITU-T H.265中的PB。

视频采样格式(也可以称为色度格式)可以相对于CU中包括的亮度样本的数量来定义CU中包括的色度样本的数量。例如，对于4∶2∶0采样格式，亮度分量的采样率是水平方向和垂直方向色度分量的两倍。因此，对于根据4∶2∶0格式格式化的CU，用于亮度分量的样本阵列的宽度和高度是用于色度分量的每个样本阵列的宽度和高度的两倍。图2是示出根据4∶2∶0样本格式格式化的编码单元的示例的概念图。图2示出了色度样本相对于CU内的亮度样本的相对位置。如上所述，通常根据水平和垂直亮度样本的数量来定义CU。因此，如图2所示，根据4∶2∶0样本格式格式化的16×16CU包括亮度分量的16×16个样本和用于每个色度分量的8×8个样本。此外，在图2所示的示例中，示出了16×16CU的相邻视频块的色度样本相对于亮度样本的相对位置。对于根据4∶2∶2格式格式化的CU，亮度分量的样本阵列的宽度是每个色度分量的样本阵列宽度的两倍，但是亮度分量的样本阵列的高度等于每个色度分量的样本阵列的高度。此外，对于根据4∶4∶4格式格式化的CU，亮度分量的样本阵列具有与每个色度分量的样本阵列相同的宽度和高度。

如上所述，帧内预测数据或帧间预测数据用于产生样本值的块的参考样本值。包括在当前PB或另一类型的图片区域结构和相关联的参考样本(例如，使用预测生成的那些)中的样本值之间的差可以被称为残差数据。残差数据可以包括对应于视频数据的每个分量的相应差值阵列。残差数据可能在像素域中。可对差值阵列应用变换诸如离散余弦变换(DCT)、离散正弦变换(DST)、整数变换、小波变换或概念上类似的变换，以生成变换系数。应当指出的是，在ITU-T H.265中，CU与在CU级具有其根的变换单元(TU)结构相关联。也就是说，在ITU-T H.265中，为了生成变换系数，可以对差值的阵列进行再分(例如，四个8×8变换可以应用于16×16残差值阵列)。对于视频数据的每个分量，差值的这种再分可被称为变换块(TB)。应当指出的是，在ITU-T H.265中，TB不一定与PB对准。图3示出了可用于编码特定CB的另选PB和TB组合的示例。此外，应当指出的是，在ITU-T H.265中，TB可具有以下尺寸4×4、8×8、16×16和32×32。在JEM中，对应于CB的残差值用于生成变换系数而无需进一步划分。也就是说，在JEM中，QTBT叶节点可以类似于ITU-T H.265中的PB和TB。应当指出的是，在JEM中，可以(在视频编码器中)应用核心变换和后续二次变换来生成变换系数。对于视频解码器，变换的顺序是相反的。此外，在JEM中，是否应用二次变换来生成变换系数可取决于预测模式。

可以对变换系数执行量化处理。量化实质上对变换系数进行缩放以改变表示一组变换系数所需的数据量。量化可包括将变换系数除以量化缩放因子和任何相关联的取整函数(例如，取整为最接近的整数)。量化的变换系数可以被称为系数位阶值。逆量化(或“去量化”)可以包括将系数位阶值与量化缩放因子相乘。应当指出的是，如本文所用，术语量化过程在一些情况下可指除以缩放因子以生成位阶值，并且乘以缩放因子以在一些情况下恢复变换系数。也就是说，量化过程在一些情况下可以指量化，而在一些情况下可以指逆量化。

图4A至图4B是示出对视频数据块进行编码的示例的概念图。如图4A所示，通过从当前视频数据块中减去一组预测值来生成残差，对该残差执行变换并且对变换系数进行量化以生成位阶值从而对当前视频数据块(例如，对应于视频分量的CB)进行编码。如图4B所示，通过对位阶值执行逆量化，执行逆变换，以及将一组预测值添加到所得到的残差来对当前视频数据块进行解码。应当指出的是，在图4A至图4B的示例中，重构块的样本值不同于被编码的当前视频块的样本值。这样，编码可被认为是有损的。然而，对于重构视频的观看者，样本值的差异可被认为是可接受的或不可察觉的。另外，如图4A至图4B所示，使用缩放因子阵列执行缩放。

如图4A所示，可将量化的变换系数编码成比特流。可根据熵编码技术对量化的变换系数和语法元素(例如，指示视频块的编码结构的语法元素)进行熵编码。熵编码技术的示例包括内容自适应可变长度编码(CAVLC)、上下文自适应二进制算术编码(CABAC)、概率区间划分熵编码(PIPE)等。熵编码的量化变换系数和对应的熵编码语法元素可形成可用于在视频解码器处再现视频数据的兼容比特流。熵编码过程可包括对语法元素进行二值化。二值化是指将语法值的值转换为一个或多个比特的序列的过程。这些比特可以被称为“二进制位”。二值化是一个无损过程，并且可以包括以下编码技术中的一种或组合：固定长度编码、一元编码、截断一元编码、截断Rice编码、Golomb编码、k阶指数Golomb编码和Golomb-Rice编码。例如，二值化可包括使用8位固定长度二值化技术将语法元素的整数值5表示为00000101，或者使用一元编码二值化技术将整数值5表示为11110。如本文所用，术语固定长度编码、一元编码、截断一元编码、截断Rice编码、Golomb编码、k阶指数Golomb编码和Golomb-Rice编码中的每一个可以指这些技术的一般实现和/或这些编码技术的更具体实现。例如，可以根据视频编码标准(例如，ITU-T H.265)具体地定义Golomb-Rice编码实现。熵编码过程还包括使用无损数据压缩算法对箱值进行编码。在CABAC的示例中，对于特定箱，可从与该箱相关联的一组可用上下文模型中选择一个上下文模型。在一些示例中，可以基于先前的箱和/或先前语法元素的值来选择上下文模型。上下文模型可以识别某个箱具有特定值的概率。例如，上下文模型可以指示对值为0的箱进行编码的概率为0.7，并且对值为1的箱进行编码的概率为0.3。应当指出的是，在一些情况下，编码0值的箱的概率和编码1值的箱的概率之和可不等于1。在选择可用的上下文模型之后，CABAC熵编码器可以基于所识别的上下文模型对箱进行算术编码。可以基于已编码的箱的值来更新上下文模型。可基于与上下文一起存储的相关联的变量例如适应窗口尺寸、使用上下文编码的箱的数量，来更新上下文模型。应当指出的是，根据ITU-T H.265，可以实现CABAC熵编码器，使得可以使用算术编码对一些语法元素进行熵编码而不使用明确指定的上下文模型，此类编码可以被称为旁路编码。

如上所述，帧内预测数据或帧间预测数据可以将图片的区域(例如，PB或CB)与对应的参考样本相关联。对于帧内预测编码，帧内预测模式可指定图片内的参考样本的位置。在ITU-T H.265中，已定义的可能的帧内预测模式包括平面(即表面拟合)预测模式(predMode：0)、DC(即平坦的整体平均)预测模式(predMode：1)，以及33个角度预测模式(predMode：2-34)。在JEM中，定义的可能的帧内预测模式包括平面预测模式(predMode：0)、DC预测模式(predMode：1)，以及65个角度预测模式(predMode：2-66)。应当指出的是，平面预测模式和DC预测模式可以被称为无方向预测模式，并且角预测模式可以被称为方向预测模式。应当指出的是，无论定义的可能的预测模式的数量如何，本文所述的技术通常都是适用的。

对于帧间预测编码，运动向量(MV)识别除了待编码的视频块的图片之外的图片中的参考样本，从而利用视频中的时间冗余。例如，可以从位于先前编码的帧中的参考块预测当前视频块，并且可以使用运动向量来指示参考块的位置。运动向量和相关联的信息可描述例如运动向量的水平分量、运动向量的竖直分量、运动向量的分辨率(例如，四分之一像素精度、二分之一像素精度、一像素精度、二像素精度、四像素精度)、预测方向和/或参考图片索引值。此外，编码标准，诸如例如ITU-T H.265，可以支持运动向量预测。运动向量预测使能够基于另一运动向量来导出该运动向量的值。运动向量预测的示例包括高级运动向量预测(AMVP)、时间运动向量预测(TMVP)、所谓的“合并”模式，以及“跳过”和“直接”运动推理。此外，JEM支持高级时间运动向量预测(ATMVP)和空间-时间运动向量预测(STMVP)。

ITU-T H.265支持用于运动向量预测的两种模式：合并模式和所谓的高级运动向量预测(AMVP)。在ITU-T H.265中，对于当前PB的合并模式和AMVP两者，导出一组候选块。视频编码器和视频解码器两者执行相同的过程以导出一组候选。因此，对于当前视频块，在编码和解码期间生成相同组的候选。候选块包括具有相关联的运动信息的视频块，从该相关联的运动信息可导出用于生成当前视频块的预测的运动信息。对于ITU-T H.265中的合并模式，与所选择的候选相关联的所有运动信息(即运动向量位移值、参考图片索引和参考图片列表)被继承作为当前PB的运动信息。也就是说，在视频编码器处，从导出组的候选中选择候选块，并且包括在比特流中的索引值指示所选择的候选，并因此指示当前PB的运动信息。对于ITU-T H.265中的AMVP，用于所选择的候选的运动向量信息被用作当前PB的运动向量的预测运动向量。也就是说，在视频编码器处，从导出组的候选中选择候选块，并且指示所选择的候选的索引值和指示预测运动向量与当前PB的运动向量之间的差值的增量值包括在比特流中。

在ITU-T H.265中，可从空间相邻块和时间块导出一组候选块。此外，所生成的(或默认的)运动信息可用于运动向量预测。用于当前PB的运动向量预测的运动信息是否包括与空间相邻块相关联的运动信息、与时间块相关联的运动信息，或者所生成的运动信息取决于要包括在组中的候选的数量、是否启用时间运动向量预测、块的可用性和/或与块相关联的运动信息是否冗余。

对于ITU-T H.265中的合并模式，可包括在一组候选块中的候选的最大数量可由视频编码器设置并用信号发送，并且最多可以是五个。此外，视频编码器可禁用时间运动向量候选的使用(例如，以便减少在视频解码器处存储运动信息所需的存储器资源的量)，并且用信号发送是对图片启用还是禁用时间运动向量候选的使用。图5示出了可包括在ITU-TH.265中的合并模式的一组候选块中的空间相邻块和时间块的位置。ITU-T H.265中用于合并模式的候选组的导出包括确定A1、B1、B0、A0和B2的可用性。应当指出的是，如果块是帧内预测的(即不具有对应的运动信息)或不包括在当前片段(或图块)中，则该块被认为是不可用的。在确定A1、B1、B0、A0和B2的可用性之后，执行一组比较(如图5中的虚线箭头所示)以从候选组中移除冗余的条目。例如，将B2与B1进行比较，并且如果B1具有与B2相等的相关联运动信息，则将其从候选组中移除。从一组候选中移除条目可称为修剪过程。应当指出的是，在图5中，为了降低复杂性，不执行对候选的完整比较(例如，不将A0与B0进行比较)，并且因此冗余的条目可能包括在候选组中。

再次参考图5，标记为温度的虚线块是指可包括在候选组中的时间候选。在用于合并模式的ITU-T H.265中，对于时间候选，定义了包括在参考图片中的空间并置PU，并且该时间候选包括具有恰好位于并置PU(如果可用)的右下角外部的位置的块，或者位于并置PU的中心位置的块。如上所述，设置可包括在一组候选块中的候选的最大数量。如果候选的最大数量设置为N，则在可用空间候选(修剪后)和时间候选的数量大于或等于N的情况下，将N-1个空间候选和时间候选包括在该组中。在可用空间候选(修剪后)和时间候选的数量小于N的情况下，生成的运动信息包括在组中以填充该组。

对于ITU-T H.265中的AMVP，参考图6，候选组的导出包括基于A0、A1、B0、B1、B2的可用性将A0或A1(即左候选)中的一者和B0、B1或B2(上述候选)中的一者添加到组中。也就是说，将第一可用左候选和第一可用上述候选添加到该组中。当左候选和上述候选具有冗余的运动向量分量时，从该组中移除一个冗余的候选。如果包括在该组中的候选的数量小于两个，并且启用时间运动向量预测，则时间候选(温度)包括在该组中。在该组中包括的可用空间候选(修剪后)和时间候选的数量小于两个的情况下，该组中包括零值运动向量以便填充该组。如下面进一步详细描述的，ITU-T H.265中的运动向量预测技术可能不太理想。

图7是示出根据本公开的一种或多种技术的可被配置为对视频数据进行编码(例如，编码和/或解码)的系统的示例的框图。系统100表示可根据本公开的一个或多个示例使用运动向量预测技术执行视频编码的系统的示例。如图7所示，系统100包括源设备102、通信介质110和目标设备120。在图7所示的示例中，源设备102可以包括被配置为对视频数据进行编码并将编码的视频数据发送到通信介质110的任何设备。目标设备120可包括被配置为经由通信介质110接收编码的视频数据并且对编码的视频数据进行解码的任何设备。源设备102和/或目标设备120可包括配备用于进行有线和/或无线通信的计算设备，并且可以包括机顶盒、数字视频录像机、电视机、台式电脑、膝上型电脑或平板电脑、游戏控制台、移动设备，包括例如“智能”电话、蜂窝电话、个人游戏设备和医学成像设备。

通信介质110可以包括无线和有线通信介质和/或存储设备的任意组合。通信介质110可以包括同轴电缆、光纤电缆、双绞线电缆、无线发射器和接收器、路由器、交换机、中继器、基站或可用于促进各种设备和站点之间的通信的任何其他设备。通信介质110可以包括一个或多个网络。例如，通信介质110可以包括被配置为允许访问万维网例如互联网的网络。网络可以根据一个或多个电信协议的组合来运营。电信协议可以包括专有方面和/或可以包括标准化电信协议。标准化电信协议的示例包括数字视频广播(DVB)标准、高级电视系统委员会(ATSC)标准、综合服务数字广播(ISDB)标准、有线数据业务接口规范(DOCSIS)标准、全球移动通信系统(GSM)标准、码分多址(CDMA)标准、第3代合作伙伴计划(3GPP)标准、欧洲电信标准协会(ETSI)标准、互联网协议(IP)标准、无线应用协议(WAP)标准以及电气与电子工程师协会(IEEE)标准。

存储设备可以包括能够存储数据的任何类型的设备或存储介质。存储介质可以包括有形或非暂态计算机可读介质。计算机可读介质可以包括光盘、闪存、磁存储器或任何其他合适的数字存储介质。在一些示例中，存储器设备或其部分可以被描述为非易失性存储器，并且在其他示例中，存储器设备的部分可以被描述为易失性存储器。易失性存储器的示例可以包括随机存取存储器(RAM)、动态随机存取存储器(DRAM)和静态随机存取存储器(SRAM)。非易失性存储器的示例可以包括磁性硬盘、光盘、软盘、闪存或电可编程存储器(EPROM)或电可擦除和可编程(EEPROM)存储器的形式。存储设备可以包括存储卡(例如，安全数字(SD)存储卡)、内部/外部硬盘驱动器和/或内部/外部固态驱动器。数据可以根据定义的文件格式存储在存储设备上。

再次参考图7，源设备102包括视频源104、视频编码器106和接口108。视频源104可包括配置为捕获和/或存储视频数据的任何设备。例如，视频源104可以包括摄像机和可操作地与其耦接的存储设备。视频编码器106可包括被配置为接收视频数据并生成表示视频数据的兼容比特流的任何设备。兼容比特流可以指视频解码器可以从其接收和再现视频数据的比特流。兼容比特流的各方面可根据视频编码标准来定义。当生成兼容比特流时，视频编码器106可以压缩视频数据。压缩可能是有损的(可觉察的或不可觉察的)或无损的。接口108可以包括被配置为接收兼容视频比特流并且将该兼容视频比特流传输和/或存储到通信介质的任何设备。接口108可以包括网络接口卡诸如以太网卡，并且可以包括光收发器、射频收发器或者可以发送和/或接收信息的任何其他类型的设备。此外，接口108可以包括计算机系统接口，该计算机系统接口可以使兼容视频比特流能够存储在存储设备上。例如，接口108可以包括支持外围组件互连(Peripheral Component Interconnec，PCI)和高速外围组件互连(Peripheral Component Interconnect Express，PCIe)总线协议的芯片集、专用总线协议、通用串行总线(Universal Serial Bus，USB)协议、I2C、或任何其他可用于互连对等设备的逻辑和物理结构。

再次参考图7，目标设备120包括接口122、视频解码器124和显示器126。接口122可包括被配置为从通信介质接收兼容视频比特流的任何设备。接口108可包括网络接口卡诸如以太网卡，并且可包括光收发器、射频收发器或者可接收和/或发送信息的任何其他类型的设备。此外，接口122可包括计算机系统接口，使得能够从存储设备检索兼容视频比特流。例如，接口122可包括支持PCI和PCIe总线协议、专用总线协议、USB协议、I2C的芯片组，或者可被用于互连对等设备的任何其他逻辑和物理结构。视频解码器124可包括被配置为接收兼容比特流和/或其可接受变体，并且从其再现视频数据的任何设备。显示器126可以包括被配置为显示视频数据的任何设备。显示器126可以包括各种显示设备诸如液晶显示器(LCD)、等离子显示器、有机发光二极管(OLED)显示器或另一种类型的显示器中的一种。显示器126可以包括高清显示器或超高清显示器。应当指出的是，虽然在图7所示的示例中，视频解码器124被描述为将数据输出到显示器126，但视频解码器124可被配置为将视频数据输出到各种类型的设备和/或其子部件。例如，视频解码器124可被配置为将视频数据输出到任何通信介质，如本文所述。

图8是示出可实现本文所述的用于编码视频数据的技术的视频编码器200的示例的框图。应当指出的是，尽管示例性视频编码器200被示出为具有不同的功能块，但此类图示旨在用于描述目的，并且不将视频编码器200和/或其子部件限制为特定的硬件或软件架构。可使用硬件、固件和/或软件具体实施的任何组合来实现视频编码器200的功能。在一个示例中，视频编码器200可被配置为根据本文所述的技术对视频数据进行编码。视频编码器200可执行图片区域的帧内预测编码和帧间预测编码，并且因此可被称为混合视频编码器。在图8所示的示例中，视频编码器200接收源视频块。在一些示例中，源视频块可以包括已经根据编码结构划分的图片区域。例如，源视频数据可包括宏块、CTU、CB、其子分区和/或另一等效编码单元。在一些示例中，视频编码器200可被配置为执行源视频块的附加细分。应当指出的是，本文所述的一些技术可通常适用于视频编码，而不管在编码之前和/或期间如何划分源视频数据。在图8所示的示例中，视频编码器200包括求和器202、变换系数生成器204、系数量化单元206、逆量化/变换处理单元208、求和器210、帧内预测处理单元212、帧间预测处理单元214、滤波器单元216和熵编码单元218。

如图8所示，视频编码器200接收源视频块并输出比特流。视频编码器200可通过从源视频块中减去预测视频块来生成残差数据。求和器202表示被配置为执行该减法运算的部件。在一个示例中，减去视频块出现在像素域中。变换系数生成器204将变换，诸如离散余弦变换(Discrete Cosine Transform，DCT)、离散正弦变换(Discrete Sine Transform，DST)或概念上类似的变换，应用到其残余块或子分区(例如，可以将四个8×8变换应用于16×16残差值阵列)以生成一组残差变换系数。变换系数生成器204可以被配置为执行离散三角变换系列中包括的变换的任何和全部组合。变换系数生成器204可将变换系数输出到系数量化单元206。系数量化单元206可被配置为执行变换系数的量化。如上所述，可以通过调整量化参数来修改量化程度。系数量化单元206可进一步被配置为确定量化参数(QP)并且输出QP数据(例如，用于确定量化组尺寸和/或增量QP值的数据)，视频解码器可使用该QP数据来重构量化参数以在视频解码期间执行逆量化。应当注意的是，在其他示例中，可以使用一个或多个附加或另选的参数来确定量化位阶(例如，缩放因子)。本文所述的技术通常可应用于基于对应于视频数据的另一分量的变换系数的量化位阶，确定对应于视频数据的分量的变换系数的量化位阶。

如图8所示，量化的变换系数被输出到逆量化/变换处理单元208。逆量化/变换处理单元208可被配置为应用逆量化和逆变换来生成重构的残差数据。如图8所示，在求和器210处，重构的残差数据可以被添加到预测视频块。这样，可以重构编码的视频块，并且可以使用所得到的重构的视频块来评估给定的预测、变换和/或量化的编码质量。视频编码器200可被配置为执行多个编码回合(例如，在改变预测、变换参数和量化参数中的一个或多个的同时执行编码)。比特流的率失真或其他系统参数可以基于重构的视频块的评估来优化。此外，重构的视频块可被存储并用作预测后续块的参考。

如上所述，可使用帧内预测模式对视频块进行编码。帧内预测处理单元212可被配置为针对当前视频块选择帧内预测模式。帧内预测处理单元212可被配置为评估帧和/或其区域并且确定用于对当前块进行编码的帧内预测模式。如图8所示，帧内预测处理单元212将帧内预测数据(例如，语法元素)输出到熵编码单元218和变换系数生成器204。如上所述，可能的帧内预测模式可以包括平面预测模式、DC预测模式和角预测模式。帧间预测处理单元214可被配置为针对当前视频块执行帧间预测编码。帧间预测处理单元214可被配置为接收源视频块并且计算视频块的PU的运动信息。运动向量可以指示当前视频帧内的视频块的PU(或类似的编码结构)相对于参考帧内的预测块的位移。帧间预测编码可以使用一个或多个参考图片。例如，帧间预测处理单元214可以定位帧缓冲器内的预测视频块(图8中未示出)。需注意，帧间预测处理单元214可以进一步被配置为将一个或多个内插滤波器应用于重构的残差块，以计算用于运动估计的子整数像素值。此外，运动预测可以是单向预测(使用一个运动向量)或双向预测(使用两个运动向量)。帧间预测处理单元214可被配置为通过计算由例如绝对差之和(SAD)、平方差之和(SSD)或其他差值度量确定的像素差来选择预测块。帧间预测处理单元214可将所计算的运动向量的运动预测数据输出到熵编码单元218。

如上所述，可根据运动向量预测技术来确定和指定运动信息。帧间预测处理单元214可被配置为执行运动向量预测技术。如上所述，ITU-T H.265中提供的运动向量预测技术可能不太理想。具体而言，参考图9，图9示出了CTU的示例性PB划分以及空间相邻视频块(画有交叉阴影线PBA0、PBA1、PBB0、PBB1和PBB0)的位置，这些空间相邻视频块可包括在根据上述ITU-T H.265中的合并模式的导出过程而导出的一组候选中。在一些情况下，PBA0、PBA1、PBB0、PBB1和PBB0中的每个可具有相关联的运动信息，如果使用ITU-T H.265合并模式选择这些信息，则会导致对PB_当前的低质量预测。在这种情况下，根据ITU-T H.265中提供的运动向量预测技术，使用根据上述ITU-T H.265中的AMVP技术使用增量值和预测运动向量用信号发送的运动信息生成对PB_当前的预测可能更有效。

表1示出了ITU-T H.265中提供的在AMVP中用信号发送增量值的语法。应当指出的是，在表1中，ae(v)描述符指示上下文自适应算术熵编码的语法元素。

表1

ITU-T H.265为语法元素abs_mvd_greater0_flag、abs_mvd_greater1_flag、abs_mvd_minus2_flag和mvd_sign_flag提供以下语义：

abs_mvd_greater0_flag[compIdx]指定运动向量分量差的绝对值是否大于0。

abs_mvd_greater1_flag[compIdx]指定运动向量分量差的绝对值是否大于1。

当abs_mvd_greater1_flag[compIdx]不存在时，推断其等于0。

abs_mvd_minus2[compIdx]plus 2指定运动向量分量差的绝对值。

当abs_mvd_minus2[compIdx]不存在时，推断其等于-1。

mvd_sign_flag[compIdx]指定运动向量分量差的符号，如下所示：

-如果mvd_sign_flag[compIdx]等于0，则对应的运动向量分量差具有正值。

-否则(mvd_sign_flag[compIdx]等于1)，对应的运动向量分量差具有负值。

当mvd_sign_flag[compIdx]不存在时，推断其等于0。

如上所述，二值化是指将语法值的值转换为一个或多个比特的序列的过程，并且各种编码技术可用于二值化。表2：ITU-T H.265中针对语法元素abs_mvd_greater0_flag、abs_mvd_greater1_flag、abs_mvd_minus2_flag和mvd_sign_flag提供的二值化。

表2

相对于表2，ITU-T H.265提供了对固定长度(FL)二值化的以下描述：

通过使用symbolVal符号值的固定长度位无符号整数二进制字符串重构FL二值化，其中fixedLength＝Ceil(Log2(cMax+1))。FL二值化的二进制位的索引使得binldx＝0与最高有效位关联，其中binldx的值朝最低有效位递增。

此外，相对于表2，ITU-T H.265提供了对k阶Exp-Golomb(EGk)二值化的以下描述：

每个symbolVal值的EGk二值化过程的二进制字符串指定如下，其中函数put(X)的每次调用(X等于0或1)在二进制字符串的末尾添加该二进制值X：

在一些情况下，在AMVP中提供的用信号发送增量可能是低效的。也就是说，例如，用信号发送大于2的增量值对于abs_mvd_greater0_flag、abs_mvd_greater1_flag中的每个均需要一个位。因此，根据本文所述的技术，为视频编码器200提供一种机制以增加与预测运动向量候选相关联的相关联运动信息可用于运动向量预测的方式可能是有用的。应当指出的是，本文所述的技术可独立于其他运动向量预测技术和/或与其他运动向量预测技术组合使用。例如，在一些具体实施中，视频编码器200可启用或禁用各种运动向量预测技术。

根据本文所述的技术，视频编码器200可被配置为导出候选组的预测运动向量起点和对应的采样图。运动向量起点提供相关联运动信息，并且用作采样图的方向和距离的起点。因此，在一些示例中，运动向量起点可包括具有相关联运动信息的视频块，可从该相关联运动信息导出用于生成对当前视频块的预测的运动信息，并因此可类似于候选块。采样图用于识别具有对应的偏移值的采样点。偏移值可用于修改与起点处的视频块相关联的运动信息。该修改的运动信息可用于生成预测。例如，该修改的运动信息可由当前PB继承来生成预测。在一个示例中，根据本文所述的技术，类似于如上所述导出一组候选，视频编码器和视频解码器两者执行相同的过程以导出候选组的预测运动向量起点。因此，在一些示例中，根据上述技术导出的候选块可用作运动向量起点。在其他示例中，可使用不同的技术来导出一组预测运动向量起点。例如，一组运动向量预测起点可包括与根据上述技术导出的那些视频块相比位于距当前块更大的空间和/或时间距离处的视频块。在一个示例中，如下面进一步详细描述的，视频编码器200可被配置为用信号发送与预测运动向量起点相对应的采样图并用信号发送采样点。因此，在一些情况下，用信号发送采样图和用信号发送采样点的过程可以是相互关联和互换的。例如，在一些情况下，视频编码器200可评估(即根据比特流语法)启用的用信号发送的所有可能的采样图，选择可使用可能的采样图用信号发送的所得的预测运动向量(例如，最佳预测运动向量)，并选择可能的采样图和对应采样点中的一者，使所选择的运动能够被识别。

图10是示出根据本公开的一种或多种技术的预测运动向量起点和采样图的概念图。如上所述，预测运动向量起点具有相关联运动信息，并且采样图用于识别具有对应的偏移值的采样点。如图10所示，定义起点，并使用方向(即东、南、西和北)和单位距离(即0、1)相对于起点来指定采样图上的采样点。表3示出了对应于图10中的采样图上的每个采样点的偏移的示例。如上所述，偏移可用于修改对应于起点的运动向量。例如，如果起点的相关联运动向量等于(10，20)，则可将采样点北1添加到预测运动向量(10，24)的运动信息中。在一个示例中，对于当前PB，预测运动向量(10，24)可被继承以生成预测。在一个示例中，对于当前PB，可将增量值添加到预测运动向量(10，24)以生成预测。

	东	北	西	南
					0	(+2，0)	(0，+2)	(-2，0)	(0，-2)
1	(+4，0)	(0，+4)	(-4，0)	(0，-4)

表3

应当指出的是，用于指定图10所示的方向和距离的示例性约定不应被解释为限制本文所述的技术的范围。例如，在其他示例中，可使用其他约定来指示方向(例如，弧度、度数等)。此外，在一些示例中，每个方向上的采样点的密度可能不均匀。应当指出的是，在一些示例中，用信号发送具有任意方向和密度的采样图可被启用。在一些情况下，采样图可被分类为具有指示方向和/或密度的定义的形状。例如，图10和图11中的每个采样图可被分类为矩形形状，并且图10所示的采样图可被细分为加号形状采样图，并且图11所示的采样图可被细分为具有X形状采样图。

表4示出了对应于图11中的采样图上的每个采样点的偏移的示例。

	NE	NW	SW	SE
					0	(+2，+2)	(-2，+2)	(-2，-2)	(+2，-2)
1	(+4，+4)	(-4，+4)	(-4，-4)	(+2，-4)

表4

另一种可能的形状分类可包括菱形分类，其中围绕一条轴的密度大于围绕另一条轴的密度。例如，北轴/南轴包括四个采样点，并且东轴/西轴包括8个采样点。如下面进一步详细描述的，根据定义的形状对采样图进行分类在用信号发送采样图给视频解码器，并因此识别预测运动向量方面可能是有用的。例如，可使用一位标记来指示矩形采样图和菱形采样图中的一者。此外，如进一步详细描述的，起始角度值可用于对形状进行细分。例如，0度的起始角可指示加号形状，并且45度的起始角可指示X形状。应当指出的是，图10中的加号形采样图和图11中的X形采样图在每个方向上具有相同数量的方向和密度。在这种情况下，可使用通用语法来指定用于指示这些采样图中的每个采样图的采样点的方向和采样(例如，每个采样点的两位语法元素)。在其他示例中，具有不同形状的采样图可具有不同的方向的密度(2个、4个、6个、8个方向等)以及每个方向上的不同的密度(例如2、4等)。在这种情况下，用于指定方向和单位距离的语法可以所指示的采样图为条件。应当指出的是，在其他示例中，可使用数学公式来定义采样图。此外，应当指出的是，在一些示例中，可根据一个或多个查找表来索引预先确定的采样图(或其部件)。

在一些示例中，根据本文所述的技术，对应于采样点的偏移可基于当前视频块的上下文。例如，如果相邻视频块的运动向量具有相对较大的一个和/或多个值，则增大可用于修改与运动向量预测起点相关联的运动信息的值偏移可能是有用的。例如，在运动向量起点的相关联运动向量等于(10，20)的情况下，缩放偏移值以便生成具有较大值的运动向量预测，并因此提高运动向量预测的质量可能是有用的。表5示出了示例，其中，表3的示例中示出的这些偏移中的每个偏移都取决于第一条件(条件1)或第二条件(条件2)中的一个条件被满足。例如，如果相邻视频块的运动向量的量值小于阈值，则可满足第一条件，并且如果相邻运动向量的量值小于或等于阈值，则可满足第二条件。

表5

根据本文所述的技术，对应于采样点的偏移可基于以下各项中的一者或多者：CU/PU尺寸(宽度和高度)、当前片段与参考片段之间的图片顺序计数(POC)距离、相邻运动向量或运动向量增量值、相邻运动向量与运动向量增量值的方差、时间深度、划分深度、片段类型(P或B)、帧间预测类型(前向、后向、双预测)、量化参数、解码器侧运动向量导出工具的存在(例如帧速率上转换(FRUC))、CU级编码或PU级编码，以及累积统计值。在一个示例中，采样图的偏移的默认值可以是预定义的(例如，根据视频编码标准)，或者可以在参数集、片段标头或补充消息中用信号发送。在一个示例中，对每个编码视频序列(CVS)、随机接入点、图片、片段、图块、CTU、CU或PU执行采样图的更新。例如，在一个示例中，表3中包括的偏移可表示可对于图片中包括的每个片段更新的图片的默认值。如上所述，可基于当前视频块的上下文来缩放或修改片段的当前偏移。

在一个示例中，对于每个采样点，可基于当前视频块的上下文将特定增量值(正或负)添加到当前偏移值。增量值可根据采样点位置和上述条件中的一者或多者具有不同的值。也就是说，对应于采样点的偏移可基于默认值、用信号发送的更新值，并且可基于当前视频块的上下文由增量值来缩放和/或修改。

如上所述，在一些示例中，视频编码器200可被配置为用信号发送对应于预测运动向量起点的采样图。在一个示例中，视频编码器200可被配置为基于可包括在相对较高级别语法(例如，参数集诸如视频参数集(VPS)、序列参数集(SPS)、图片参数集(PPS)或片段标头)中的以下示例性语法元素来用信号发送采样图：

presence_flag指示视频块(例如，CU)语法中mode_flag的存在以及较高级别语法(例如，VPS、SPS、PPS或片段标头)中语法元素num_mv_origin、num_sampling_points、num_direction、starting_angle、num_sampling_dir、SM_shape和scale_from_sm_to_motion_distance的存在，并且指示在当前序列、图片或片段中是否启用基于采样图的运动向量预测。

num_mv_origin指示运动向量起点的数量。如果不存在，则将该字段的值设定为等于0。

num_sampling_points指示采样图中的采样点的总数量。

注意：例如，图10中的采样图包括8个采样点。

num_direction指示采样图中的方向的数量。

注意：例如，当num_direction等于4时可使用方向0(E)、90(N)、180(W)和270(S)，并且当num_direction等于8时，使用方向0(E)、45(NE)、90(N)、135(NW)、180(W)、225(SW)、270(S)和315(SE)。在一些示例中，方向的数量可根据以下函数来指定：方向的数量等于2^{num_direction}。

注意：根据图片、片段、图块、搜索范围或时空相邻运动向量的上下文的边界，一些方向可能不可用。然后，采样点将仅存在于可用方向上。

starting_angle指示第一方向的角度，以度为单位。该角度值从东方向逆时针增大。该字段的值应大于或等于0，并且应小于或等于360。如果不存在，则将该字段的值设定为等于0。

num_sampling_dir指示采样图中的每个方向的采样点的数量。

SM_shape指示采样图的形状。SM_shape等于0指示矩形形状，SM_shape等于1指示菱形形状。实际采样点图由num_direction、num_sampling_dir、starting_angle和SM_shape的组合来确定。

注意：例如，SM_shape等于0、num_direction等于4并且starting_angle等于0可指示上述加号形状，而SM_shape等于0、num_direction等于4并且starting_angle等于45可指示上述X形状。

scale_from_pdf_to_motion_distance指示将sm_distance转换为图像域中的运动向量距离的缩放因子。如果不存在，则将该字段的值设定为等于1。

以及可包括在相对较低级别语法(例如，CU语法)中的以下语法元素：

mode_flag指示origin_index、sm_direction、sm_distance的存在，并且指示使用基于采样图的运动向量预测。

注意：在一些示例中，当skip_flag等于1时，可在skip_flag之后定位mode_flag。

origin_index指示导出的预测运动向量起点中的哪个用作当前视频块(例如，CB、CU、PU、PB)的预测运动向量起点。

sm_direction指示为当前视频块的采样点选择哪个方向。

注意：在一些示例中，sm_direction可被二值化为多个标记，这些标记指示例如北/南、西/东、对角线。

sm_distance指示针对当前视频块的采样点所选择的距起点的距离。

以指示所选择的预测运动向量起点及其相关联运动信息、所选择的采样点及其对应的偏移值。如上所述，与所选择的运动向量预测起点和对应于所选择的采样点的偏移值相关联的运动信息可用于运动向量预测。

应当指出的是，在一些示例中，sm_distance指示用于确定采样点距起点的距离的感知索引。像素分辨率的实际距离可从以下过程导出：

MV_distance＝PDF[sm_distance]*scale_from_pdf_to_motion_distance

PDF[x]将由sm_distance指示的感知距离转换为像素域中的实际距离。

PDF[x]可以是预定义的，或者可以在VPS/SPS/PPS/片段标头中用信号发送。

PDF[x]可以在每个CTU/CU处更新。

根据包括CU/PU尺寸(宽度和高度)、当前片段与参考片段之间的POC距离、相邻MV或MVD值、相邻MV与MVD值的方差、分层B结构中的时间深度、QT、BT或QTBT组合的深度、片段类型(P或B)、帧间预测类型(前向、后向、双向预测)、量化参数、解码器侧运动向量导出工具(例如，FRUC)的存在、CU级别或PU级别编码以及累积统计值的上下文，CU的每个起点可具有不同的PDF[x]。如果通过以上语法元素和PDF[x]确定采样点，则确定运动向量X值和Y值。可将指示帧间预测的方向(例如，前向、后向或双向预测)的inter_pred_idc的值、指示参考图片索引的ref_idx_1x设置为等于起点向量的值。

因此，在一个示例中，通过将图10中的偏移相关联采样点北1添加到图9中的与PBB2相关联的运动信息而形成的运动向量预测可如下用信号发送：

presence_flag指示真。

num_mv_origin指示在导出组的预测运动向量起点中包括PB_B2的数量。

num_sampling_points指示8个采样点。

num_direction指示4(即基于形状的方向0(E)、90(N)、180(W)和270(S)或45(NE)、135(NW)、225(SW)和315(SE))。

starting_angle指示0，以区分加号形状与x形状。

num_sampling_dir指示2种采样点(即0或1)。

SM_shape指示矩形。

mode_flag指示真。

origin_index指示PBB2。

sm_direction指示N、W、S和E中的N。

sm_distance指示从图10中的1开始。

应当指出的是，在一些示例中，对于每个预测运动向量起点可如下定义不同的点分布函数(PDF)：

注意：运动向量X和运动向量Y可被修剪以位于搜索范围之内。

应当指出的是，上述示例性语法元素定义了启用的用信号发送的可能的采样图。因此，视频编码器可使用语法元素来确定可用信号发送的可能的采样图。图12是示出根据本公开的一种或多种技术的用于使用预测运动向量起点和采样图进行运动向量预测的过程的流程图。视频编码器200可被配置为基于图12所示的示例性过程300来执行运动向量预测。视频编码器200导出一组预测运动向量起点(302)。如上所述，可以与导出一组预测运动向量候选类似的方式导出一组预测运动向量起点。视频编码器200确定起点的可能的采样图(304)。如上所述，语法元素定义启用的用信号发送的可能的采样图。视频编码器200基于上下文导出采样点的偏移值(306)。例如，如上所述，视频编码器200可基于一个或多个条件被满足来修改当前偏移值。视频编码器200选择预测运动向量起点、采样图和采样点(308)。视频编码器200用信号发送所选择的预测运动向量起点、所选择的采样图和所选择的采样点(310)。也就是说，如上文的示例中所述，视频编码器200设置包括在比特流中的语法元素的值以指示运动向量预测。这样，视频编码器200表示设备的示例，该设备被配置为确定当前视频块的所选择的预测运动向量起点、确定该预测运动向量起点的采样图、导出与该采样图上的采样点相对应的偏移值、确定所选择的采样点、至少部分地基于与所选择的预测运动向量起点相关联的运动信息和对应于所选择的采样点的偏移值来确定预测运动向量，以及使用该确定的预测运动向量生成对当前视频块的预测。

应当指出的是，基于上文的示例性语法，在用信号发送origin_index之后，附加语法元素sm_direction和sm_distance可根据确定偏移值所施加的上下文条件来指示若干个可能的偏移值中的一个偏移值。例如，可使用两位来指示方向值，并且可使用一位来指示单位距离0或1中的一者。因此，在该示例中，根据本文所述的技术，一旦指示了运动向量预测起点，就可使用信令开销中的3位来修改与预测运动向量相关联的运动信息，该运动信息可用于指示各种预测运动向量值。

如上所述，ITU-T H.265包括用于从候选组中移除冗余的预测运动向量候选的技术。在ITU-T H.265中，预测运动向量候选的冗余源是运动信息，即两个候选具有相等的运动向量。如上所述，根据本文所述的技术，每个预测运动向量起点包括相关联运动信息，可为每个预测运动向量起点定义采样图，并且可基于上下文来修改采样图。因此，根据采样图和上下文，如果两个预测运动向量起点包括相对接近的运动向量，则当将对应于相应采样图的采样点的偏移应用于该预测运动向量起点的相对运动向量时，可导致冗余。例如，表6示出了示例，其中第一预测运动向量(MVP起点1)的运动向量为(10，20)，并且第二预测运动向量(MVP起点2)的运动向量为(22，20)。在表6所示的示例中，当满足第一条件时，第一预测运动向量起点的偏移对应于表3所示的示例，并且当满足第二条件时，第二预测运动向量起点的偏移对应于表3所示的示例。表6中的每个条目包括所得的预测运动向量值。

表6

如表6所示，这些条目中的一些条目是冗余的。例如，可使用第一预测运动向量的采样点(东1和西1)来指示从第二预测运动向量起点的西方向的采样点所得的预测运动向量(即(14，20)和(6，20))。根据本文的技术，当预测运动向量起点导致冗余的预测运动向量或可能导致冗余的预测运动向量起点时，可修改预测运动向量起点、与其相关联的运动信息和/或采样图。应当指出的是，视频编码器和视频解码器可执行用于确定预测运动向量起点是否可能导致冗余的预测运动向量的相同过程，并因此执行该相同过程以减轻冗余。

在一个示例中，可基于相应运动向量的分量在值上相等(例如，如果x1＝x2或y1＝y2)和/或相应运动向量的一个或多个分量在值上相对接近(例如，x1-x2小于或等于阈值，其中该阈值等于4、8、16等)来确定预测运动向量的起点是否可能导致冗余的预测运动向量。在一个示例中，如果预测运动向量起点可能导致冗余的预测运动向量，则可为每个预测运动向量起点定义一个或多个新的采样图。表7示出了示例，其中对于对应于表6的示例，定义了新的联合采样图并将其应用于第一预测运动向量起点和第二预测运动向量起点中的每个起点。在表7所示的示例中，通过取每个采样点处的偏移值的平均值来生成新的偏移值。在其他示例中，可使用其他技术来生成新的采样图和/或联合采样图。例如，第二预测运动向量起点的采样图的一个或多个方向的偏移值可被移位(例如，对于每个竖直偏移+10)。

表7

在一个示例中，如果预测运动向量起点可能导致冗余的预测运动向量，则可修改MVP起点中的一个起点的运动信息。表8示出了示例，其中对于对应于表6的示例，修改了与第二预测运动向量起点相关联的运动信息。

表8

在一个示例中，根据本文的技术，当预测运动向量起点导致冗余的预测运动向量或可能导致冗余的预测运动向量时，可根据修剪过程从候选组的预测运动向量起点中移除预测运动向量起点。例如，在类似于上文相对于ITU-T H.265所述的修剪过程中。在一个示例中，可将新的预测运动向量起点候选添加到候选组中。例如，表8中所示的示例可对应于其中移除第二预测运动向量起点并替换为新的预测运动向量候选的示例。在一个示例中，新的候选可以是根据候选导出过程的下一个预测运动向量起点候选。在一个示例中，新的预测运动向量起点候选可以从预测运动向量起点候选的组合导出。

在一个示例中，如果预测运动向量起点可能导致冗余的预测运动向量，则可组合运动向量起点的运动信息并且/或者可为每个预测运动向量起点定义一个或多个新的采样图。表9示出了示例，其中对于对应于表6的示例，通过组合第一预测运动向量起点和第二预测运动向量起点的运动信息创建了新的运动信息，并且定义了新的联合采样图并将其应用于该新的运动信息。

表9

在一个示例中，如果预测运动向量起点可能导致冗余的预测运动向量，则可从候选组的预测运动向量起点中移除该预测运动向量起点，并且可扩展未被移除的预测运动向量起点的采样图以包括被移除的预测运动向量起点的采样图。表10示出了示例，其中对于对应于表6的示例，移除了第二预测运动向量起点，并且扩展了第一预测运动向量起点的采样图以包括对应于该第二预测运动向量起点的采样图的采样点。

表10

在一个示例中，如果预测运动向量起点可能导致冗余的预测运动向量，则可组合预测运动向量起点，并且可将两个采样图应用于该组合的预测运动向量起点。表11示出了示例，其中对于对应于表6的示例，组合了预测运动向量并且组合了采样图。

表11

如上所述，PDF将感知距离转换为像素域中的实际距离。在一个示例中，当将两个或更多个预测运动向量起点组合时，可通过每个预测运动向量起点的PDF的组合来确定组合的预测运动向量的PDF。例如，如果第一预测运动向量起点和第二预测运动向量起点具有以下PDF值：

PDF₁[10]＝{1，2，4，8，12，16，24，32，48，64}

PDF₂[10]＝{2，4，8，12，16，24，32，48，64，80}

则组合的预测运动向量起点的PDF可具有以下PDF值；

PDF₁₊₂[10]＝{3，6，12，20，28，40，56，80，112，144}。

在一个示例中，可根据当前帧与参考帧之间的图片顺序计数(POC)距离来缩放偏移值。例如，在当POC距离等于1时偏移值等于X的情况下，如果另一参考帧的POC距离等于4，则该偏移值可被缩放为4X。此外，在双向预测的情况下，如果前向预测的偏移值等于X，则后向预测的偏移值可以为-X(例如，当绝对距离相同时)。

再次参考图8，如图8所示，帧间预测处理单元214可经由滤波器单元216接收重构的视频块，该滤波器单元可以是环路内滤波处理的一部分。滤波器单元216可被配置为执行解块和/或样本自适应偏移(SAO)滤波。解块是指平滑化重构视频块边界的过程(例如，使观察者不易察觉到边界)。SAO滤波是一种可用于通过向重构的视频数据添加偏移以改善重构的非线性振幅映射。熵编码单元218接收量化的变换系数和预测语法数据(即帧内预测数据、运动预测数据和QP数据等)。熵编码单元218可被配置为根据本文中所描述的技术中的一种或多种执行熵编码。熵编码单元218可被配置为输出兼容比特流(即视频解码器可从其接收和再现视频数据的比特流)。

图13是示出根据本公开的一种或多种技术可被配置为对视频数据进行解码的视频解码器示例的框图。在一个示例中，视频解码器400可被配置为基于上文所述的技术中的一种或多种来重构视频数据。也就是说，视频解码器400可以与上文所述的视频编码器200互逆的方式操作。视频解码器400可被配置为执行帧内预测解码和帧间预测解码，并且因此可被称为混合解码器。在图13所示的示例中，视频解码器400包括熵解码单元402、逆量化单元404、逆变换处理单元406、帧内预测处理单元408、帧间预测处理单元410、求和器412、滤波器单元414和参考缓冲器416。视频解码器400可被配置为以与视频编码系统一致的方式对视频数据进行解码，该视频编码系统可以实现视频编码标准的一个或多个方面。应当指出的是，尽管示例性视频解码器400被示出为具有不同的功能块，但此类图示旨在用于描述目的，并且不将视频解码器400和/或其子部件限制为特定的硬件或软件架构。可使用硬件、固件和/或软件具体实施的任何组合来实现视频解码器400的功能。

如图13所示，熵解码单元402接收熵编码的比特流。熵解码单元402可被配置为根据与熵编码过程互逆的过程对来自比特流的量化语法元素和量化系数进行解码。熵解码单元402可被配置为根据上文所述的熵编码技术中的任何一种来执行熵解码。熵解码单元402可以与视频编码标准一致的方式对编码的比特流进行解析。视频解码器400可被配置为对基于上文所述的技术所生成的编码的比特流进行解析。逆量化单元404从熵解码单元402接收量化变换系数(即，位阶值)和量化参数数据。量化参数数据可包括上面描述的增量QP值和/或量化组尺寸值等的任何和所有组合。视频解码器400和/或逆量化单元404可被配置为基于由视频编码器用信号发送的值和/或通过视频属性和/或编码参数来确定用于逆量化的QP值。也就是说，逆量化单元404可以与上文所述的系数量化单元206互逆的方式操作。逆量化单元404可被配置为应用逆量化。逆变换处理单元406可被配置为执行逆变换以生成重构的残差数据。分别由逆量化单元404和逆变换处理单元406执行的技术可类似于由上文所述的逆量化/变换处理单元208执行的技术。逆变换处理单元406可被配置为应用逆DCT、逆DST、逆整数变换、不可分二次变换(NSST)或概念上类似的逆变换过程来变换系数，以便生成像素域中的残差块。此外，如上所述，是否执行特定变换(或特定变换的类型)可以取决于帧内预测模式。如图13所示，可将重构的残差数据提供给求和器412。求和器412可将重构的残差数据添加到预测视频块并且生成重构的视频数据。

如上所述，可根据预测视频技术(即帧内预测和帧间预测)确定预测视频块。帧内预测处理单元408可被配置为接收帧内预测语法元素并且从参考缓冲器416检索预测视频块。参考缓冲器416可包括被配置为存储一个或多个视频数据帧的存储器设备。帧内预测语法元素可识别帧内预测模式，诸如上述的帧内预测模式。在一个示例中，帧内预测处理单元408可使用根据本文所述的帧内预测编码技术中的一种或多种来重构视频块。帧间预测处理单元410可接收帧间预测语法元素并生成运动向量，以识别存储在参考缓冲器416中的一个或多个参考帧中的预测块。帧间预测处理单元410可生成运动补偿块，也可能基于内插滤波器执行内插。用于具有子像素精度的运动估计的内插滤波器的标识符可以被包括在语法元素中。帧间预测处理单元410可使用内插滤波器来计算参考块的子整数像素的内插值。

如上所述，视频解码器400可解析编码的比特流，其中该编码的比特流基于上述技术而生成，并且如上所述，视频编码器200可根据上述运动向量预测技术生成比特流。图14是示出根据本公开的一种或多种技术的用于使用预测运动向量起点和采样图进行运动向量预测的过程的流程图。视频解码器400可被配置为基于图14所示的示例性过程500来执行运动向量预测。视频解码器400导出一组预测运动向量起点(502)。如上所述，可以与导出一组预测运动向量候选类似的方式导出一组预测运动向量起点。视频解码器400确定所选择的预测运动向量起点(504)。例如，视频解码器400可基于类似于上述示例性语法元素origin_index的语法元素的值确定所选择的预测运动向量起点。视频解码器400确定所选择的预测运动向量起点的采样图(506)。例如，视频解码器400可基于类似于上述示例性语法元素num_sampling_points、num_direction、num_sampling_dir和SM_shape的语法元素的值来确定采样图。视频解码器400基于上下文导出采样点的偏移值(508)。例如，如上所述，视频解码器300可基于一个或多个条件被满足来修改当前偏移值。视频解码器400确定所选择的采样点(508)。例如，视频解码器400可基于类似于上述示例性语法元素sm_direction和sm_distance的语法元素的值来确定所选择的采样点。视频解码器400基于与所选择的预测运动向量起点相关联的运动向量和对应于所选择的采样点的偏移来确定运动向量预测(510)。例如，视频解码器400可将该偏移添加到该运动向量。视频解码器400使用所选择的候选生成预测(512)。例如，在一个示例中，对于当前视频块，视频解码器400可使用预测运动向量作为运动向量来生成预测。在一个示例中，视频解码器400可将增量值添加到预测运动向量来生成预测。这样，视频编码器200表示设备的示例，该设备被配置为确定当前视频块的所选择的预测运动向量起点、确定该预测运动向量起点的采样图、导出与该采样图上的采样点相对应的偏移值、确定所选择的采样点、至少部分地基于与所选择的预测运动向量起点相关联的运动信息和对应于所选择的采样点的偏移值来确定预测运动向量，以及使用该确定的预测运动向量生成对当前视频块的预测。

再次参考图13，滤波器单元414可被配置为对重构的视频数据执行滤波。例如，滤波器单元414可被配置为执行解块和/或SAO滤波，如上文相对于滤波器单元216所述的。此外，应当指出的是，在一些示例中，滤波器单元414可被配置为执行专用的任意滤波(例如，视觉增强)。如图13所示，视频解码器400可输出重构的视频块。

在一个或多个示例中，所描述的功能可以通过硬件、软件、固件或其任何组合来实现。如果以软件实现，则可将功能作为一个或多个指令或代码存储在计算机可读介质上或经由计算机可读介质上传输，并且由基于硬件的处理单元执行。计算机可读介质可包括对应于有形介质诸如数据存储介质的计算机可读存储介质，或者包括例如根据通信协议促进计算机程序从某个地方传输到另一个地方的任何介质的通信介质。这样，计算机可读介质通常可对应于：(1)非暂态的有形计算机可读存储介质，或者(2)通信介质诸如信号或载波。数据存储介质可以是可以由一个或多个计算机或一个或多个处理器访问以检索用于实现本公开中描述的技术的指令、代码和/或数据结构的任何可用介质。计算机程序产品可以包括计算机可读介质。

以举例而非限制的方式，此类计算机可读存储介质可包括RAM、ROM、EEPROM、CD-ROM或其他光盘存储设备、磁盘存储设备或其他磁存储设备、闪存存储器，或者可用于存储指令或数据结构形式的所需程序代码并且可由计算机访问的任何其他介质。而且，任何连接都被适当地称为计算机可读介质。例如，如果使用同轴电缆、光纤电缆、双绞线、数字用户线路(DSL)或无线技术诸如红外线、无线电和微波从网站、服务器或其他远程源传输指令，则同轴电缆、光纤电缆、双绞线、DSL或无线技术诸如红外线、无线电和微波都包括在介质的定义中。然而，应当理解，计算机可读存储介质和数据存储介质不包括连接、载波、信号或其他暂态介质，而是针对非暂态有形存储介质。如本文所用，磁盘和光盘包括压缩光盘(CD)、激光盘、光学光盘、数字通用光盘(DVD)、软磁盘及Blu-ray光盘，其中磁盘通常以磁性方式复制数据，而光盘则利用激光以光学方式复制数据。上述的组合也应该包括在计算机可读介质的范围内。

可以由一个或多个处理器诸如一个或多个数字信号处理器(DSP)、通用微处理器、专用集成电路(ASIC)、现场可编程逻辑阵列(FPGA)或其他等效集成或离散逻辑电路执行指令。因此，如本文所使用的术语“处理器”可以指任何前述结构或适用于实现本文所述的技术的任何其他结构。此外，在一些方面中，可以在被配置用于编码和解码的专用硬件和/或软件模块内提供本文所述的功能，或者将其结合到组合编解码器中。而且，这些技术可以完全在一个或多个电路或逻辑元件中实现。

本公开的技术可以在各种设备或装置包括无线手机、集成电路(IC)或一组IC(例如，芯片组)中实现。在本公开中描述了各种部件、模块或单元，以强调被配置为执行所公开的技术的设备的功能方面，但是不一定需要通过不同的硬件单元来实现。相反，如上所述，可以将各种单元组合在编解码器硬件单元中，或者通过互操作硬件单元包括如上所述的一个或多个处理器的集合，组合合适的软件和/或固件来提供各种单元。

此外，每个上述实施方案中所使用的基站设备和终端设备的每个功能块或各种特征可通过电路(通常为一个集成电路或多个集成电路)实施或执行。被设计为执行本说明书中所述的功能的电路可包括通用处理器、数字信号处理器(DSP)、专用或通用集成电路(ASIC)、现场可编程门阵列(FPGA)，或其他可编程逻辑设备、分立栅极或晶体管逻辑器，或分立硬件部件，或它们的组合。通用处理器可为微处理器，或另选地，该处理器可为常规处理器、控制器、微控制器或状态机。通用处理器或上述每种电路可由数字电路进行配置，或可由模拟电路进行配置。此外，当由于半导体技术的进步而出现制成取代当前集成电路的集成电路的技术时，也能够使用通过该技术生产的集成电路。

已经描述了各种示例。这些示例和其他示例在以下权利要求的范围内。

<交叉引用>

本非临时专利申请根据《美国法典》第35卷第119节(35 U.S.C.§119)要求于2018年1月30日提交的临时申请62/624,005、2018年2月2日提交的临时申请62/625,825的优先权，这两个申请的全部内容据此以引用方式并入。

Claims

1.一种重构视频数据的方法，所述方法包括：

确定当前视频块的所选择的预测运动向量起点；

确定所述预测运动向量起点的采样图；

导出与所述采样图上的采样点相对应的偏移值；

确定所选择的采样点；

至少部分地基于与所述所选择的预测运动向量起点相关联的运动信息和对应于所述所选择的采样点的所述偏移值来确定预测运动向量；以及

使用所述确定的预测运动向量生成对所述当前视频块的预测。

2.一种对视频数据进行编码的方法，所述方法包括：

选择当前视频块的预测运动向量起点；

选择所述预测运动向量起点的采样图；

导出与所述采样图上的采样点相对应的偏移值；

选择采样点；以及

用信号发送所述所选择的预测运动向量起点、所述所选择的采样图和所述所选择的采样点预测运动向量。

3.根据权利要求1至2中任一项所述的方法，其中采样图包括根据一组方向和距离指定的采样点。

4.根据权利要求1至3中任一项所述的方法，其中导出与所述采样图上的采样点相对应的偏移值包括基于当前视频块的所述上下文导出偏移值。

5.根据权利要求1、3或4中任一项所述的方法，其中至少部分地基于与所述所选择的预测运动向量起点相关联的运动信息和对应于所述所选择的采样点的所述偏移值来确定预测运动向量包括将所述偏移值添加到所述运动信息。

6.根据权利要求2至4中任一项所述的方法，其中用信号发送所述所选择的预测运动向量起点、所述所选择的采样图和所述所选择的采样点预测运动向量包括设置包括在比特流中的语法元素的值。

7.一种设备，所述设备包括被配置为执行根据权利要求1至6中所述的步骤的任意和全部组合的一个或多个处理器。

8.根据权利要求7所述的设备，其中所述设备包括视频编码器。

9.根据权利要求7所述的设备，其中所述设备包括视频解码器。

10.一种系统，包括：

根据权利要求8所述的设备；和

根据权利要求9所述的设备。

11.一种用于对视频数据进行编码的装置，所述装置包括用于执行权利要求1至6中所述的步骤的任意和全部组合的构件。

12.一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质包括存储在其上的指令，当执行所述指令时，使得用于对视频数据进行编码的设备的一个或多个处理器执行权利要求1至6中所述的步骤的任意和全部组合。