CN114026851A - 利用光流的运动补偿的精度细化 - Google Patents

利用光流的运动补偿的精度细化 Download PDF

Info

Publication number
CN114026851A
CN114026851A CN202080045525.0A CN202080045525A CN114026851A CN 114026851 A CN114026851 A CN 114026851A CN 202080045525 A CN202080045525 A CN 202080045525A CN 114026851 A CN114026851 A CN 114026851A
Authority
CN
China
Prior art keywords
sample
motion vector
prediction
block
refinement
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202080045525.0A
Other languages
English (en)
Inventor
陈伟
贺玉文
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Vid Scale Inc
Original Assignee
Vid Scale Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Vid Scale Inc filed Critical Vid Scale Inc
Publication of CN114026851A publication Critical patent/CN114026851A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
    • H04N19/51Motion estimation or motion compensation
    • H04N19/513Processing of motion vectors
    • H04N19/521Processing of motion vectors for estimating the reliability of the determined motion vectors or motion vector field, e.g. for smoothing the motion vector field or for correcting motion vectors
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/136Incoming video signal characteristics or properties
    • H04N19/137Motion inside a coding unit, e.g. average field, frame or block difference
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/132Sampling, masking or truncation of coding units, e.g. adaptive resampling, frame skipping, frame interpolation or high-frequency transform coefficient masking
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/176Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a block, e.g. a macroblock
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/30Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using hierarchical techniques, e.g. scalability
    • H04N19/33Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using hierarchical techniques, e.g. scalability in the spatial domain
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
    • H04N19/51Motion estimation or motion compensation
    • H04N19/523Motion estimation or motion compensation with sub-pixel accuracy
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
    • H04N19/51Motion estimation or motion compensation
    • H04N19/537Motion estimation other than block-based
    • H04N19/54Motion estimation other than block-based using feature points or meshes
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
    • H04N19/51Motion estimation or motion compensation
    • H04N19/567Motion estimation based on rate distortion criteria
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
    • H04N19/51Motion estimation or motion compensation
    • H04N19/577Motion compensation with bidirectional frame interpolation, i.e. using B-pictures
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/70Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by syntax aspects related to video coding, e.g. related to compression standards

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Mobile Radio Communication Systems (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

描述了用于在基于块的视频编码中细化运动补偿预测的系统和方法。在示例实施例中,运动补偿预测被用于生成当前样本块中的预测样本值。用于所述当前块的运动向量细化和精度差值在比特流中被用信号发送。对于所述当前块中的每个样本,在该样本处计算空间梯度,并且计算该空间梯度和所述运动向量细化之间的标量积。将所述标量积缩放(例如,比特移位)由所述精度差值指示的量以产生样本差值,且将所述样本差值加到所述预测的样本值以产生细化的样本值。

Description

利用光流的运动补偿的精度细化
相关申请的交叉引用
本申请是以下申请的非临时申请并按照35 U.S.C.§119(e)要求其权益:2019年6月21日提交的题为“Precision Refinement for Motion Compensation with OpticalFlow(利用光流的运动补偿的精度细化)”的美国临时专利申请NO.62/864,825,该申请通过引用而被整体结合于此。
背景技术
视频译码(coding)系统广泛用于压缩数字视频信号以减少这种信号的存储需要和/或传输带宽。在各种类型的视频译码系统中,例如基于块的系统、基于小波的系统和基于对象的系统,现今基于块的混合视频译码系统被最广泛地使用和部署。基于块的视频译码系统的示例包括国际视频译码标准,诸如MPEG-1/2/4部分2、H.264/MPEG-4部分10AVC、VC-1和高效视频译码(HEVC),其由ITU-T/SG16/Q.6/VCEG和ISO/IEC/MPEG的JCT-VC(视频译码联合协作团队)开发。
在2017年10月,ITU-T和ISO/IEC提出了关于具有超出HEVC的能力的视频压缩的联合提案(CfP)。在2018年4月份,在第10次JVET会议时接收并评估了标准动态范围类别的22个22CfP响应,证明压缩效率增益超过HEVC约40%。基于这样的评估结果,联合视频专家组(JVET)发起了新项目来开发名为通用视频译码(VVC)的新一代视频译码标准。在同一个月,建立了称为VVC测试模型(VTM)的参考软件代码库,用于演示VVC标准的参考实现。对于初始VTM-1.0,除了在VTM中使用基于多类型树的块分区结构之外,包括帧内预测、帧间预测、变换/逆变换和量化/去量化以及环内滤波器的大多数译码模块遵循现有HEVC设计。同时,为了便于新译码工具的评估,还生成了称为基准集(BMS)的另一参考软件库。在BMS代码库中,从联合探索模型(JEM)继承的译码工具列表提供了更高的编码效率和适中的实现复杂度,该列表被包括在VTM之上,并且在VVC标准化过程期间评估类似译码技术时被用作基准。具体地,在BMS-1.0中集成了九种JEM译码工具,这其中包括65个角度帧内预测方向、修改的系数译码、高级多重变换(AMT)+4×4不可分离的二次变换(NSST)、仿射运动模型、广义自适应环路滤波器(GALF)、高级时间运动向量预测(ATMVP)、自适应运动向量精度、解码器侧运动向量细化(DMVR)和线性模型(LM)色度模式。
发明内容
本文描述的实施例包括在视频编码和解码(统称为“译码”)中使用的方法。描述了用于在基于块的视频编码中细化运动补偿预测的系统和方法。根据一些实施例的视频译码方法包括:使用运动补偿预测,生成当前样本块中至少第一样本位置的初始预测样本值;确定与至少所述第一样本位置相关联的运动向量细化;在所述第一样本位置处,确定样本值的空间梯度;通过计算所述空间梯度和所述运动向量细化的标量积,确定样本差值;以及将所述样本差值加到所述初始预测样本值以产生细化样本值。
在一些实施例中,所述方法由解码器执行,并且确定运动向量细化包括:从比特流解码所述运动向量细化。
一些实施例进一步包含从所述比特流解码细化精度信息,其中确定所述样本差值包括:按由所述精度信息指示的量,缩放所述标量积。所述标量积的所述缩放可以包括将所述标量积比特移位由所述精度信息指示的量。
在一些实施例中,所述运动补偿预测通过使用具有初始精度的至少一个运动向量而被执行,且所述细化精度信息包括表示所述初始精度与所述细化精度之间的差的精度差值。
在一些实施例中,缩放所述标量积包含:将所述标量积右移等于所述精度差值与所述初始精度之和的比特的数目。
在一些实施例中,所述方法由编码器执行,所述运动向量细化的所述确定包含:选择所述运动向量细化以大体上最小化相对于输入视频块的预测误差,且所述方法进一步包含:将所述运动向量细化编码于比特流中。
在一些实施例中,所述运动向量细化在比特流中作为索引而被用信号发送。在一些实施例中,所述索引可从由(0,-1),(1,0),(0,1),和(-1,0)组成的群组中标识多个运动向量细化中的一者。在一些其它实施例中,所述索引可以从由(0,-1),(1,0),(0,1),(-1,0),(-1,-1),(1,-1),(1,1),和(-1,1)组成的群组中标识多个运动向量细化中的一个。
在一些实施例中,所述运动向量细化与所述当前块中(或当前子块中)的所有样本位置相关联。在一些其它实施例中,所述运动向量细化是在逐样本基础上确定的,且对于不同样本可不同。
一些实施例包括被配置为执行本文描述的任何方法的至少一个处理器。在一些这样的实施例中,提供了存储指令的计算机可读介质(例如,非暂时性介质),所述指令操作用于执行本文描述的任何方法。
一些实施例包括存储使用本文公开的方法中的一种或多种编码的视频的计算机可读介质(例如,非暂时性介质)。
编码器或解码器系统可以包括处理器和存储用于执行本文描述的方法的指令的非暂时性计算机可读介质。
本发明实施例中的一者或多者还提供一种计算机可读存储介质,其上存储有用于根据上述方法中的任意者编码或解码视频数据的指令。本实施例还提供了一种计算机可读存储介质(例如,非暂时性介质),其上存储有根据上述方法生成的比特流。本实施例还提供了一种用于发送根据上述方法生成的比特流的方法和装置。本发明实施例还提供一种计算机程序产品,其包括用于执行所描述的方法中的任意者的指令。
附图说明
图1A是示出了在其中可实施一个或多个公开的实施例的示例通信系统的系统图。
图1B是示出了根据一种实施例可在图1A所示的通信系统内使用的示例无线发射/接收单元(WTRU)的系统图。
图1C是在本文描述的一些实施例中使用的系统的功能框图。
图2A是基于块的视频编码器(例如用于VVC的编码器)的功能框图。
图2B是基于块的视频解码器(例如用于VVC的解码器)的功能框图。
图3A-3B示出了运动补偿预测。
图4A示出了四参数仿射运动模型。
图4B示出了仿射块的子块级运动导出。
图5示出了六参数仿射模式:V0,V1,和V2是控制点运动向量;(MVx,MVy)是以位置(x,y)为中心的子块的运动向量。
图6示出子块运动向量VSB和像素细化Δv(i,j)。
图7示出了使用相邻位置来用信号发送附加运动向量。
图8是示出在一些实施例中执行的编码和解码方法的流程图,这其中包括可在编码器和解码器两者处执行的译码功能。
图9是示出示例通信系统的图。
用于实施例的实施的示例设备及网络
图1A是示出了可在其中实施一个或多个所公开的实施例的示例通信系统100的图示。该通信系统100可以是将诸如语音、数据、视频、消息发送、广播等的内容提供给多个无线用户的多接入系统。该通信系统100可以通过系统资源(包括无线带宽)的共享使得多个无线用户能够访问这些内容。例如,该通信系统100可以使用一种或多种信道接入方法,例如码分多址(CDMA)、时分多址(TDMA)、频分多址(FDMA)、正交FDMA(OFDMA)、单载波FDMA(SC-FDMA)、零尾独特字DFT-扩展OFDM(ZT UW DTS-s OFDM)、唯一字OFDM(UW-OFDM)、资源块滤波OFDM、滤波器组多载波(FBMC)等等。
如图1A所示,通信系统100可以包括无线发射/接收单元(WTRU)102a、102b、102c、102d、RAN 104/113、CN 106/115、公共交换电话网络(PSTN)108、因特网110和其他网络112,但应理解的是所公开的实施例涵盖任意数量的WTRU、基站、网络和/或网络元件。WTRU102a、102b、102c、102d中的每一个可以是被配置成在无线环境中运行和/或通信的任何类型的设备。作为示例,WTRU 102a、102b、102c、102d中的任一者可以被称为“站”和/或“STA”,其可以被配置成传送和/或接收无线信号,并且可以包括用户设备(UE)、移动站、固定或移动订户单元、基于订户的单元、寻呼机、蜂窝电话、个人数字助理(PDA)、智能电话、便携式电脑、上网本、个人计算机、无线传感器、热点或Mi-Fi设备、物联网(IoT)设备、手表或其他可穿戴设备、头戴式显示器(HMD)、车辆、无人机、医疗设备和应用(例如远程手术)、工业设备和应用(例如,在工业和/或自动处理链环境中操作的机器人和/或其他无线设备)、消费电子设备,在商业和/或工业无线网络上运行的设备等等。WTRU 102a、102b、102c、和102d中的任一者可以可互换地称为UE。
通信系统100还可以包括基站114a和/或基站114b。基站114a、114b中的每一个可以是被配置成与WTRU 102a、102b、102c、102d中的至少一者无线对接,以便于接入一个或多个通信网络(例如,CN 106/115、因特网110和/或网络112)。作为示例,基站114a、114b可以是基站收发信站(BTS)、节点B、e节点B、家用节点B、家用e节点B、gNB、NR节点B、站点控制器、接入点(AP)、无线路由器等。尽管基站114a、114b每个均被描述为单个元件,但应当理解的是基站114a、114b可以包括任何数量的互联基站和/或网络元件。
基站114a可以是RAN 104/113的一部分,其还可以包括诸如基站控制器(BSC)、无线电网络控制器(RNC)、中继节点等的其他基站和/或网络元件(未示出)。基站114a和/或基站114b可以被配置成在一个或多个载波频率上传送和/或接收无线信号,其可以被称为小区(未示出)。这些频率可在许可频谱、未经许可频谱、或许可频谱和未经许可频谱的组合中。小区可以将无线服务的覆盖范围提供给可相对固定或可随时间而改变的特定地理区域。小区还可以被划分成小区扇区。例如,与基站114a相关联的小区可以被划分成三个扇区。由此,在一种实施例中,基站114a可以包括三个收发信机,例如针对所述小区的每个扇区都有一个收发信机。在一种实施例中,基站114a可以使用多输入多输出(MIMO)技术,并且可以使用针对小区的每个扇区的多个收发信机。例如,波束成形可以用于在期望的空间方向上传送和/或接收信号。
基站114a、114b可以通过空中接口116与WTRU 102a、102b、102c、102d中的一者或多者通信,该空中接口116可以是任何合适的无线通信链路(例如,射频(RF)、微波、厘米波、微米波、红外(IR)、紫外(UV)、可见光等)。空中接口116可以使用任何合适的无线电接入技术(RAT)来建立。
更特别地,如上所述,通信系统100可以是多接入系统,并且可以使用一种或多种信道接入方案,例如CDMA、TDMA、FDMA、OFDMA、SC-FDMA等。例如,在RAN 104/113中的基站114a和WTRU 102a、102b、102c可以实施诸如通用移动电信系统(UMTS)陆地无线电接入(UTRA)之类的无线电技术,其可以使用宽带CDMA(WCDMA)来建立空中接口115/116/117。WCDMA可以包括诸如高速分组接入(HSPA)和/或演进型HSPA(HSPA+)的通信协议。HSPA可以包括高速下行链路(DL)分组接入(HSDPA)和/或高速UL分组接入(HSUPA)。
在一种实施例中,基站114a和WTRU 102a、102b、102c可以实施诸如演进型UMTS陆地无线电接入(E-UTRA)之类的无线电技术,其可以使用长期演进(LTE)和/或高级LTE(LTE-A)和/或专业版高级LTE(LTE-A Pro)来建立空中接口116。
在一种实施例中,基站114a和WTRU 102a、102b、102c可以实施诸如NR无线电接入的无线电技术,其可以使用新无线电(NR)来建立空中接口116。
在一种实施例中,基站114a和WTRU 102a、102b、102c可以实施多种无线电接入技术。例如,基站114a和WTRU 102a、102b、102c可以例如使用双连接(DC)原理来实施LTE无线电接入和NR无线电接入。因此,WTRU 102a、102b、102c所使用的空中接口可以由多种类型的无线电接入技术和/或发送到/自多种类型的基站(例如,eNB和gNB)的传输来表征。
在其他实施例中,基站114a和WTRU 102a、102b、102c可以实施诸如IEEE 802.11(即,无线保真(WiFi)、IEEE 802.16(即,全球微波互联接入(WiMAX))、CDMA2000、CDMA20001X、CDMA2000 EV-DO、临时标准2000(IS-2000)、临时标准95(IS-95)、临时标准856(IS-856)、全球移动通信系统(GSM)、增强型数据速率GSM演进(EDGE)、GSM EDGE(GERAN)之类的无线电技术。
图1A中的基站114b可以是例如无线路由器、家用节点B、家用e节点B或者接入点,并且可以使用任何合适的RAT,以用于促进在诸如商业区、家庭、车辆、校园、工业设施、空中走廊(例如,供无人机使用)、道路之类的局部区域的无线连接。在一种实施例中,基站114b和WTRU 102c、102d可以实施诸如IEEE 802.11之类的无线电技术以建立无线局域网(WLAN)。在一种实施例中,基站114b和WTRU 102c、102d可以实施诸如IEEE 802.15的无线电技术以建立无线个域网(WPAN)。在又一种实施例中,基站114b和WTRU 102c、102d可以使用基于蜂窝的RAT(例如,WCDMA、CDMA2000、GSM、LTE、LTE-A、LTE-A Pro、NR等)以建立微微小区(picocell)或毫微微小区(femtocell)。如图1A所示,基站114b可以具有至因特网110的直接连接。由此,基站114b可不需要经由CN 106/115来接入因特网110。
RAN 104/113可以与CN 106/115通信,该CN 106/115可以是被配置成将语音、数据、应用和/或通过网际协议的语音(VoIP)服务提供到WTRU 102a、102b、102c、102d中的一者或多者的任何类型的网络。数据可以具有不同的服务质量(QoS)要求,例如不同的吞吐量要求、延时要求、容错要求、可靠性要求、数据吞吐量要求,移动性要求等。CN 106/115可以提供呼叫控制、账单服务、基于移动位置的服务、预付费呼叫、网际互联、视频分配等,和/或执行高级安全性功能,例如用户验证。尽管图1A中未示出,但应理解的是RAN 104/113和/或CN 106/115可以直接或间接地与其他RAN进行通信,这些其他RAN使用与RAN 104/113相同的RAT或者不同的RAT。例如,除了连接到可以采用NR无线电技术的RAN 104/113,CN 106/115也可以与使用GSM、UMTS、CDMA2000、WiMAX、E-UTRA、或者WiFi无线电技术的另一RAN(未示出)通信。
CN 106/115也可以用作WTRU 102a、102b、102c、102d接入PSTN 108、因特网110和/或其他网络112的网关。PSTN 108可以包括提供普通老式电话服务(POTS)的电路交换电话网络。因特网110可以包括使用公共通信协议的互联计算机网络及设备的全球系统,该公共通信协议例如是传输控制协议(TCP)/网际协议(IP)因特网协议套件中的TCP、用户数据报协议(UDP)和/或IP。网络112可以包括由其他服务提供方拥有和/或运营的无线和/或有线通信网络。例如,网络112可以包括连接到一个或多个RAN的另一CN,该一个或多个RAN可以使用与RAN 104/113相同的RAT或者不同的RAT。
通信系统100中的WTRU 102a、102b、102c、102d中的一些或者全部可以包括多模式能力(即WTRU 102a、102b、102c、102d可以包括用于通过不同的无线链路与不同的无线网络进行通信的多个收发信机)。例如,图1A中显示的WTRU 102c可以被配置成与可使用基于蜂窝的无线电技术的基站114a进行通信,并且与可使用IEEE 802无线电技术的基站114b进行通信。
图1B是示例WTRU 102的系统图。如图1B所示,WTRU 102可以包括处理器118、收发信机120、发射/接收元件122、扬声器/麦克风124、键盘126、显示屏/触摸板128、不可移除存储器130、可移除存储器132、电源134、全球定位系统(GPS)芯片组136和其他外围设备138等。应该理解的是,在保持与实施例一致的情况下,WTRU 102可以包括上述元件的任何子组合。
处理器118可以是通用处理器、专用处理器、常规处理器、数字信号处理器(DSP)、多个微处理器、与DSP核心相关联的一个或多个微处理器、控制器、微控制器、专用集成电路(ASIC)、现场可编程门阵列(FPGA)电路、任何其它类型的集成电路(IC)、状态机等。处理器118可以执行信号编码、数据处理、功率控制、输入/输出处理、和/或使得WTRU 102能够运行在无线环境中的其他任何功能。处理器118可以耦合到收发信机120,该收发信机120可以耦合到发射/接收元件122。尽管图1B中将处理器118和收发信机120描述为独立的组件,但是应当理解的是处理器118和收发信机120可以被一起集成到电子封装或者芯片中。
发射/接收元件122可以被配置成通过空中接口116将信号传送到基站(例如,基站114a),或者从基站(例如,基站114a)接收信号。例如,在一种实施例中,发射/接收元件122可以是被配置成传送和/或接收RF信号的天线。例如,在一种实施例中,发射/接收元件122可以是被配置成传送和/或接收例如IR、UV或者可见光信号的发射器/检测器。在又一种实施例中,发射/接收元件122可以被配置成传送和/或接收RF信号和光信号两者。应当理解,发射/接收元件122可以被配置成传送和/或接收无线信号的任意组合。
此外,尽管发射/接收元件122在图1B中被描述为单个元件,但是WTRU 102可以包括任何数量的发射/接收元件122。更具体地,WTRU 102可以使用MIMO技术。由此,在一种实施例中,WTRU 102可以包括两个或更多个发射/接收元件122(例如,多个天线)以用于通过空中接口116传送和/或接收无线信号。
收发信机120可以被配置成对将由发射/接收元件122传送的信号进行调制,并且被配置成对由发射/接收元件122接收的信号进行解调。如上所述,WTRU 102可以具有多模式能力。由此,收发信机120可以包括多个收发信机以使得WTRU 102能够经由多个RAT进行通信,例如NR和IEEE 802.11。
WTRU 102的处理器118可以被耦合到扬声器/麦克风124、键盘126和/或显示屏/触摸板128(例如,液晶显示(LCD)显示单元或者有机发光二极管(OLED)显示单元),并且可以从上述装置接收用户输入数据。处理器118还可以向扬声器/麦克风124、键盘126、和/或显示屏/触摸板128输出用户数据。此外,处理器118可以访问来自任何类型的合适的存储器中的信息,以及在任何类型的合适的存储器中存储数据,所述存储器例如可以是不可移除存储器130和/或可移除存储器132。不可移除存储器130可以包括随机存取存储器(RAM)、只读存储器(ROM)、硬盘或者任何其他类型的存储器存储设备。可移除存储器132可以包括订户标识模块(SIM)卡、记忆棒、安全数字(SD)存储卡等。在其他实施例中,处理器118可以访问来自物理上未位于WTRU 102上(例如位于服务器或者家用计算机(未示出)上)的存储器的信息,以及在上述存储器中存储数据。
处理器118可以从电源134接收电能,并且可以被配置成将该电能分配给WTRU 102中的其他组件和/或对在WTRU 102中的其他组件的电能进行控制。电源134可以是任何用于给WTRU 102供电的设备。例如,电源134可以包括一个或多个干电池(例如,镍镉(NiCd)、镍锌(NiZn)、镍氢(NiMH)、锂离子(Li-ion)等)、太阳能电池、燃料电池等。
处理器118还可以耦合到GPS芯片组136,该GPS芯片组136可以被配置成提供关于WTRU 102的当前位置的位置信息(例如,经度和纬度)。作为来自GPS芯片组136的信息的补充或者替代,WTRU 102可以通过空中接口116从基站(例如,基站114a、114b)接收位置信息,和/或基于从两个或更多个相邻基站接收到的信号的定时来确定其位置。应当理解,在与实施例保持一致的同时,WTRU 102可以通过任何合适的位置确定方法来获取位置信息。
处理器118还可以耦合到其他外围设备138,该外围设备138可以包括提供附加特征、功能和/或无线或有线连接的一个或多个软件和/或硬件模块。例如,外围设备138可以包括加速度计、电子指南针(e-compass)、卫星收发信机、数字相机(用于照片和/或视频)、通用串行总线(USB)端口、震动设备、电视收发信机、免持耳机、
Figure BDA0003423353170000111
模块、调频(FM)无线电单元、数字音乐播放器、媒体播放器、视频游戏机模块、因特网浏览器、虚拟现实和/或增强现实(VR/AR)设备,活动追踪器等等。外围设备138可以包括一个或多个传感器,传感器可以是以下中的一者或多者:陀螺仪、加速计、霍尔效应传感器、磁力计、方位传感器、接近传感器、温度传感器、时间传感器、地理位置传感器、高度计、光传感器、触摸传感器、磁力计、气压计、手势传感器、生物传感器、和/或湿度传感器。
WTRU 102可以包括全双工无线电,对于该全双工无线电,一些或全部信号(例如,与用于UL(例如,用于传输)和下行链路(例如用于接收)两者的特定子帧相关联)的传输和接收可以是并发和/或同时的。全双工无线电可以包括干扰管理单元,以通过硬件(例如扼流器)或经由处理器(例如,单独的处理器(未示出)或者经由处理器118)的信号处理来减少和/或基本上消除自干扰。在一种实施例中,WRTU 102可以包括一些或全部信号的传输和接收(例如,与用于UL(例如,用于传输)或下行链路(例如,用于接收)的特定子帧相关联)的半双工无线电。
尽管WTRU在图1A-1B中被描述为无线终端,但是可以预期的是,在某些代表性的实施例中,这样的终端可(例如,临时地或永久地)使用与通信网络的有线通信接口。
在代表性实施例中,所述其他网络112可以是WLAN。
参考图1A-1B以及相应描述,这里描述的一种或多种或所有功能可以由一个或多个模拟设备(未示出)执行。模拟设备可以是被配置为模拟本文描述的一个或多个或所有功能的一个或多个设备。例如,模拟设备可以用于测试其他设备和/或仿真网络和/或WTRU功能。
模拟设备可以被设计为实施实验室环境中和/或运营商网络环境中的其他设备的一个或多个测试。例如,一个或多个模拟设备可在完全或部分地实施和/或部署为有线和/或无线通信网络的一部分的同时执行一个或多个或所有功能,以测试通信网络内的其他设备。一个或多个模拟设备可以在作为有线和/或无线通信网络的一部分临时实施/部署的同时执行一个或多个或所有功能。模拟设备可以为了测试的目的直接耦合到另一个设备和/或可以使用空中无线通信执行测试。
一个或多个模拟设备可以执行包括所有功能的一个或多个功能,而不是作为有线和/或无线通信网络的一部分来实施/部署。例如,模拟设备可以在测试实验室和/或非部署(例如,测试)有线和或无线通信网络中的测试场景被利用以实施一个或多个组件的测试。一个或多个模拟设备可以是测试设备。模拟设备可以使用经由RF电路(例如,其可以包括一个或多个天线)的直接RF耦合和/或无线通信来传送和/或接收数据。
示例性系统
一些实施例使用诸如图1C的系统来实现。图1C是其中实现了各个方面和实施例的系统的示例的框图。系统1000可以被实现为包括以下描述的各种组件的设备,并且被配置为执行本文中描述的一个或多个方面。此类设备的示例包括但不限于各种电子设备,诸如个人计算机、膝上型计算机、智能电话、平板计算机、数字多媒体机顶盒、数字电视接收机、个人视频记录系统、连接的家用电器和服务器。系统1000的元件可以单独地或组合地被实现在单个集成电路(IC)、多个IC和/或分立组件中。例如,在至少一个实施例中,系统1000的处理和编码器/解码器元件分布在多个IC和/或分立组件上。在各种实施例中,所述系统1000经由例如通信总线或通过专用输入和/或输出端口而被通信地耦合到一个或多个其他系统或其他电子设备。在各种实施例中,所述系统1000被配置为实现本文中描述的一个或多个方面。
所述系统1000包括至少一个处理器1010,其被配置为执行加载在其中的指令,以用于实现例如本文中描述的各个方面。处理器1010可以包括嵌入式存储器、输入输出接口和本领域已知的各种其它电路。所述系统1000包括至少一个存储器1020(例如,易失性存储器设备和/或非易失性存储器设备)。系统1000包括存储设备1040,其可以包括非易失性存储器和/或易失性存储器,这其中包括但不限于电可擦除可编程只读存储器(EEPROM)、只读存储器(ROM)、可编程只读存储器(PROM)、随机存取存储器(RAM)、动态随机存取存储器(DRAM)、静态随机存取存储器(SRAM)、闪存、磁盘驱动器和/或光盘驱动器。作为非限制性示例,所述存储设备1040可以包括内部存储设备、附接的存储设备(包括可拆卸的存储设备和不可拆卸的存储设备)和/或网络可访问的存储设备。
系统1000包括编码器/解码器模块1030,其被配置为例如处理数据以提供所编码的视频或所解码的视频,并且所述编码器/解码器模块1030可以包括其自己的处理器和存储器。所述编码器/解码器模块1030表示可包括在设备中以执行编码和/或解码功能的模块(一个或多个)。如已知的,设备可以包括所述编码模块和解码模块中的一个或两个。另外,编码器/解码器模块1030可实施为系统1000的单独元件或可并入处理器1010内作为如所属领域的技术人员已知的硬件与软件的组合。
要加载到处理器1010或编码器/解码器1030上以执行本文档中描述的各个方面的程序代码可以存储在存储设备1040中,并且随后加载到存储器1020上以供处理器1010执行。根据各种实施例,处理器1010、存储器1020、存储设备1040和编码器/解码器模块1030中的一者或多者可以在执行本文中描述的过程期间存储各种项中的一者或多者。这些存储的项可以包括但不限于输入视频、所解码的视频或该解码的视频的部分、比特流、矩阵、变量以及来自方程式、公式、运算和运算逻辑的处理的中间或最终结果。
在一些实施例中,所述处理器1010和/或所述编码器/解码器模块1030内的存储器用于存储指令,并且提供用于在编码或解码期间需要的处理的工作存储器。然而,在其它实施例中,所述处理设备(例如,所述处理设备可为所述处理器1010或所述编码器/解码器模块1030)外部的存储器用于这些功能中的一者或多者。外部存储器可以是存储器1020和/或存储设备1040,例如,动态易失性存储器和/或非易失性闪存。在几个实施例中,外部非易失性闪存用于存储例如电视的操作系统。在至少一个实施例中,诸如RAM的快速外部动态易失性存储器被用作视频译码和解码操作的工作存储器,诸如用于MPEG-2(MPEG是指运动图像专家组,MPEG-2也被称为ISO/IEC 13818,并且13818-1也被称为H.222,并且13818-2也被称为H.262)、HEVC(HEVC是指高效视频译码,也被称为H.265和MPEG-H部分2)、或VVC(通用视频译码,由联合视频团队专家JVET开发的新标准)的工作存储器。
如框1130中所示,可以通过各种输入设备来提供对系统1000的元件的输入。这样的输入设备包括但不限于:(i)接收例如由广播者通过空中传输的射频(RF)信号的RF部分,(ii)分量(COMP)输入端子(或一组分量输入端子),(iii)通用串行总线(USB)输入端子,和/或(iv)高清晰度多媒体接口(HDMI)输入端子。图1C中未示出的其它示例包括合成视频。
在各种实施例中,框1130的输入设备具有本领域已知的相关联的相应输入处理元件。例如,所述RF部分可以与适合于以下的元件相关联:(i)选择期望频率(也称为选择信号,或将信号频带限制到一频带),(ii)将所选择的信号下变频,(iii)再次将频带限制到较窄频带,以选择(例如,)在某些实施例中可以称为信道的信号频带,(iv)解调所述下变频且频带限制的信号,(v)执行纠错,和(vi)解复用以选择期望的数据分组流。各种实施例的RF部分包括一个或多个元件以执行这些功能,例如,频率选择器、信号选择器、限带器、信道选择器、滤波器、下变频器、解调器、纠错器和解复用器。所述RF部分可以包括执行各种这些功能的调谐器,这些功能包括例如将所接收的信号下变频到较低频率(例如,中频或近基带频率)或基带。在一个机顶盒实施例中,所述RF部分及其相关的输入处理元件接收通过有线(例如,电缆)介质发送的RF信号,并通过滤波、下变频和再次滤波来执行到期望频带的频率选择。各种实施例重新安排上述(和其它)元件的顺序,移除这些元件中的一些,和/或添加执行类似或不同功能的其它元件。添加元件可以包括在现有元件之间插入元件,例如插入放大器和模数转换器。在各种实施例中,所述RF部分包括天线。
另外,USB和/或HDMI终端可以包括用于通过USB和/或HDMI连接将系统1000连接到其它电子设备的相应接口处理器。应当理解,输入处理的各个方面(例如,所罗门纠错)可以根据需要在例如单独的输入处理IC或处理器1010内实现。类似地,USB或HDMI接口处理的各方面可以根据需要在单独的接口IC内或在处理器1010内实现。解调、纠错和解复用的流被提供给各种处理元件,这其中包括例如处理器1010和编码器/解码器1030,其与存储器和存储元件结合操作以根据需要来处理所述数据流以便在输出设备上呈现。
系统1000的各种元件可以设置在集成壳体内。在该集成壳体内,各种元件可以使用合适的连接布置1140(例如,本领域已知的内部总线,包括IC间(I2C)总线、布线和印刷电路板)互连并在其间传输数据。
所述系统1000包括通信接口1050,其使得能够经由通信信道1060与其他设备通信。所述通信接口1050可以包括但不限于被配置为通过通信信道1060发送和接收数据的收发器。所述通信接口1050可以包括但不限于调制解调器或网卡,并且所述通信信道1060可以例如在有线和/或无线介质内实现。
在各种实施例中,使用无线网络(例如,Wi-Fi网络,例如IEEE 802.11(IEEE是指电气和电子工程师协会)),将数据流式传输或以其他方式提供给所述系统1000。这些实施例的Wi-Fi信号通过适用于Wi-Fi通信的通信信道1060和通信接口1050来接收。这些实施例的通信信道1060通常连接到接入点或路由器,所述接入点或路由器提供对包括因特网的外部网络的接入以允许流式传输应用和其它云上通信。其它实施例使用通过输入框1130的HDMI连接来传递数据的机顶盒而向系统1000提供流式传输的数据。还有一些实施例使用输入框1130的RF连接而向所述系统1000提供流式传输的数据。如上所述,各种实施例以非流式传输方式提供数据。另外,各种实施例使用除Wi-Fi之外的无线网络,例如,蜂窝网络或蓝牙网络。
所述系统1000可以向各种输出设备(包括显示器1100、扬声器1110和其他外围设备1120)提供输出信号。各种实施例的显示器1100包含以下中的一者或多者:例如触摸屏显示器、有机发光二极管(OLED)显示器、弯曲显示器和/或可折叠显示器。所述显示器1100可以用于电视、平板电脑、膝上型计算机、蜂窝电话(移动电话)或其他设备。所述显示器1100还可与其它组件集成(例如,如在智能电话中),或是单独的(例如,用于膝上型计算机的外部监视器)。在各实施例的各示例中,所述其它外围设备1120包括以下中的一者或多者:独立数字视频盘(或数字多功能盘)(DVR,针对这两项)、盘播放器、立体声系统和/或照明系统。各种实施例使用一个或多个外围设备1120,其基于系统1000的输出来提供功能。例如,盘播放器执行播放所述系统1000的输出的功能。
在各种实施例中,使用信令(诸如,AV.Link(AV.链路)、消费电子控制(CEC)、或在有或没有用户干预的情况下实现设备到设备控制的其他通信协议)在系统1000和显示器1100、扬声器1110或其它外围设备1120之间传送控制信号。所述输出设备可以经由通过相应接口1070、1080和1090的专用连接而通信地耦合到系统1000。作为替代,所述输出设备可以使用通信信道1060经由通信接口1050连接到系统1000。所述显示器1100和扬声器1110可以与系统1000的其它组件一起集成在电子设备(例如,电视机)中的单个单元中。在各种实施例中,显示接口1070包括显示驱动器,例如定时控制器((T Con)芯片。
例如,如果输入1130的RF部分是单独机顶盒的一部分,则所述显示器1100和扬声器1110可以备选地与其它组件中的一个或多个分离。在所述显示器1100和扬声器1110是外部组件的各种实施例中,所述输出信号可以经由专用输出连接来提供,所述专用输出连接例如包括HDMI端口、USB端口或COMP输出。
这些实施例可以由处理器1010或由硬件实现的计算机软件或由硬件和软件的组合来实现。作为非限制性示例,所述实施例可以由一个或多个集成电路实现。所述存储器1020可以是适合于技术环境的任何类型,并且可以使用任何适当的数据存储技术来实现,作为非限制性示例,诸如光学存储器设备、磁存储器设备、基于半导体的存储器设备、固定存储器和可移动存储器。所述处理器1010可以是适合于技术环境的任何类型,并且作为非限制性示例,可以包含以下中的一者或多者:微处理器、通用计算机、专用计算机和基于多核架构的处理器。
具体实施方式
基于块的视频译码
与HEVC类似,VVC建立在基于块的混合视频译码框架上。图2A给出了基于块的混合视频编码系统200的框图。可以设想该编码器200的变型,但是为了清楚起见,下面描述编码器200,而没有描述所有预期的变型。
在被编码之前,视频序列可以经历预编码处理(204),例如,对输入颜色图片应用颜色变换(例如,从RGB 4:4:4到YCbCr 4:2:0的转换),或者执行对输入图片分量的重新映射以便获得对压缩更有弹性的信号分布(例如,使用颜色分量之一的直方图均衡)。元数据可以与所述预处理相关联并且被附加到比特流。
包括要编码的图片的输入视频信号202被逐块分区(206)和处理。一些块可被称为译码单元(CU)。不同的CU可以具有不同的大小。在VTM-1.0中,CU可以高达128×128像素。然而,与仅基于四叉树来分块的HEVC不同,在VTM-1.0中,译码树单元(CTU)基于四叉树/二叉树/三叉树而被划分成多个CU以适应的变化的局部特性。另外,去除了HEVC中多个分区单元类型的概念,使得VVC-1.0中不再存在CU、预测单元PU和变换单元TU的分离;相反,每一CU始终用作预测和变换两者的基本单元,而无需进一步分区。在多类型树结构中,首先通过四叉树结构来对CTU分区。然后,每个四叉树叶节点可以进一步由二叉树和三叉树结构分区。有五种划分类型:四元分区、垂直二元分区、水平二元分区、垂直三元分区和水平三元分区。
在图2A的编码器中,可以执行空间预测(208)和/或时间预测(210)。空间预测(或“帧内预测”)使用来自同一视频图片/切片中的已译码相邻块的样本(其被称为参考样本)的像素来预测当前视频块。空间预测减少了视频信号中固有的空间冗余。时间预测(也称为“帧间预测”或“运动补偿预测”)使用来自已译码视频图片的经重构像素来预测当前视频块。时间预测减少了视频信号中固有的时间冗余。可通过指示当前CU与其时间参考之间的运动的量和方向的一个或一个以上运动向量(MV)用信号发送给定CU的时间预测信号。此外,如果支持多个参考图片,则可以附加地发送参考图片索引,该参考图片索引用于标识所述时间预测信号来自参考图片存储库(212)中的哪个参考图片。
编码器中的模式决策框(214)例如基于速率失真优化方法来选择最佳预测模式。该选择可以在执行空间和/或时间预测之后进行。帧内/帧间决策可以由例如预测模式标志来指示。从当前视频块中减去预测块(216)以生成预测残差。使用变换(218)对所述预测残差去相关并量化(220)。(对于一些块,编码器可绕过变换和量化这两者,在此情况下可直接译码所述残差而不应用变换或量化过程)。将经量化的残差系数逆量化(222)和逆变换(224)以形成经重构残差,接着将所述经重构残差加回到预测块(226)以形成所述CU的经重构信号。可对经重构CU应用(228)例如解块/SAO(样本自适应偏移)滤波等进一步环内滤波以在将经重构CU放入参考图片存储库(212)中且将其用于译码未来视频块之前减少编码假象。为了形成输出视频比特流230,译码模式(帧间或帧内)、预测模式信息、运动信息和量化的残差系数都被发送到熵译码单元(108),以被进一步压缩和打包以形成所述比特流。
图2B给出基于块的视频解码器250的框图。在解码器250中,如下所述,由解码器元件解码比特流。视频解码器250通常执行与如图2A中所描述的编码回合互逆的解码回合。编码器200通常还执行视频解码作为编码视频数据的一部分。
具体地,所述解码器的输入包括视频比特流252,其可以由视频编码器200生成。所述视频比特流252首先在熵解码单元254被解包和熵解码以获得变换系数、运动向量和其它译码信息。图片分区信息指示图片如何被分区。解码器因此可以根据解码的图片分区信息来划分(256)所述图片。所述译码模式和预测信息被发送到空间预测单元258(如果是帧内译码的)或时间预测单元260(如果是帧间译码的)以形成所述预测块。将所述残差变换系数发送到逆量化单元262和逆变换单元264以重构残差块。然后在266将所述预测块和所述残差块加在一起以生成重构块。该重构块在其被存储在参考图片存储库270中以用于预测未来视频块之前可进一步经历环内滤波268。
经解码图片272可进一步经历解码后处理(274),例如,逆颜色变换(例如,从YCbCr4:2:0到RGB 4:4:4的转换)或执行在预编码处理(204)中执行的重新映射过程的逆重新映射。所述解码后处理可以使用在预编码处理中导出并且在比特流中用信号发送的元数据。经解码、处理的视频可被发送到显示设备276。该显示设备276可以是与解码器250分离的设备,或者解码器250和显示设备276可以是同一设备的组件。
本发明中描述的各种方法和其它方面可用于修改视频编码器200或解码器250的模块。此外,本文公开的系统和方法不限于VVC或HEVC,并且可以应用于例如其他标准和建议(无论是预先存在的还是将来开发的)、以及任何这样的标准和建议的扩展(包括VVC和HEVC)。除非另外指出或在技术上排除,否则本公开中描述的方面可以单独或组合使用。
帧间预测
图3A和3B是示出了视频块的运动预测(例如,使用帧间预测模块210或260)的示例的图。图3B示出了图片内的块级运动的示例,其是示出了包括例如参考图片“Ref pic 0,”“Ref pic 1,”和“Ref pic2”的示例解码图片缓冲器的图。当前图片中的块B0、B1和B2可以分别从参考图片“Ref pic 0,”“Ref pic 1,”和“Ref pic2”中的块进行预测。运动预测可使用来自相邻视频帧的视频块来预测当前视频块。运动预测可以利用时间相关性和/或去除视频信号中固有的时间冗余。举例来说,在H.264/AVC和HEVC中,可对各种大小的视频块执行时间预测(例如,对于亮度分量,时间预测块大小可在H.264/AVC中从16x16变化到4x4,且在HEVC中从64x64变化到4x4)。利用(mvx,mvy)的运动向量,可以如由以下方程提供的那样执行时间预测:
P(x,y)=ref(x-mvx,y-mvy)
其中ref(x,y)可为参考图片中的位置(x,y)处的像素值,且P(x,y)可为预测块。一种视频译码系统可支持具有分数像素精度的帧间预测。当运动向量(mvx,mvy)具有分数像素值时,可应用一个或一个以上内插滤波器以获得分数像素位置处的像素值。基于块的视频译码系统可以使用多假设预测来改进时间预测,例如,其中可以通过组合来自不同参考图片的数个预测信号来形成预测信号。例如,H.264/AVC和/或HEVC可以使用可以组合两个预测信号的双向预测。双向预测可组合两个预测信号(每一预测信号来自一参考图片),以形成预测,例如以下方程:
Figure BDA0003423353170000211
其中P0(x,y)和P1(x,y)可分别为第一和第二预测块。可以通过分别根据两个参考图片ref0(x,y)和ref1(x,y)并利用两个运动向量(mvx0,mvy0)和(mvx1,mvy1)执行运动补偿预测来获得所述两个预测块。可(例如,在216处)从源视频块减去所述预测块P(x,y)以形成预测残差块。可对该预测残差块进行变换(例如,在变换单元218处)和/或量化(例如,在量化单元220处)。可将经量化的残差变换系数块发送到熵译码单元(例如,熵译码单元232)以进行熵译码以减小比特速率。可将熵译码残差系数打包以形成输出视频比特流(例如,比特流230)的部分。在解码器侧,可以执行相同的运动补偿预测过程(例如,通过帧间预测模块260),并且可以将得到的预测块添加到解码的残差块(例如,在266)。
仿射模式
在HEVC中,仅平移运动模型被应用于运动补偿预测。而在真实世界中,存在许多种运动,例如放大/缩小、旋转、透视运动和其它不规则运动。在VTM-2.0中,应用仿射运动补偿预测。仿射运动模型是4参数或6参数的。用信号发送用于每一帧间译码块的第一标志以指示平移运动模型还是仿射运动模型被应用于帧间预测。如果是仿射运动模型,则发送第二标志以指示使用4参数还是6参数模型。
具有四个参数的仿射运动模型可具有以下参数:两个参数用于水平和垂直方向上的平移运动、一个参数用于两个方向上的缩放运动、以及一个参数用于两个方向上的旋转运动。使用单个缩放参数,因为水平缩放参数等于垂直缩放参数。使用单个旋转参数,因为水平旋转参数等于垂直旋转参数。使用在当前块的左上角和右上角处界定的两个控制点位置处的两个运动向量在VTM中对所述四参数仿射运动模型进行译码。如图4A中所示,块的仿射运动场由两个控制点运动向量(V0,V1)描述。基于控制点运动,仿射译码块的运动场(vx,vy)被描述为:
Figure BDA0003423353170000221
在Eq(1)中,(v0x,v0y)是左上角控制点的运动向量,(v1x,v1y)是右上角控制点的运动向量,如图4A所示,w是块的宽度。在VTM-2.0中,在4×4子块级别导出仿射译码块的运动场,从而为当前块内的4×4子块(图4B)中的每一个导出(vx,vy)并将其应用于相应的4×4子块。(应当注意,在一些上下文中被称为块的一组样本在其它上下文中可被称为子块。为了清楚起见,不同的术语可在不同的上下文中使用)
可迭代地估计四参数仿射模型的那四个参数。将步骤k处的MV对表示为
Figure BDA0003423353170000231
将原始输入亮度信号表示为I(i,j),以及将预测亮度信号表示为I′k(i,j)。空间梯度gx(i,j)和gy(i,j)是利用分别在水平和垂直方向上应用于预测信号I′k(i,j)的Sobel滤波器导出的。Eq.(1)的导数可以表示为:
Figure BDA0003423353170000232
在Eq.(2)中,(a,b)是步骤k处的增量平移参数,以及(c,d)是步骤k处的增量缩放和旋转参数。控制点处的增量MV能够通过其坐标而被导出,如Eq.(3)和(4)所示。例如,(0,0),(w,0)分别是左上和右上控制点的坐标。
Figure BDA0003423353170000233
Figure BDA0003423353170000234
基于光流方程,亮度变化与空间梯度和时间移动之间的关系被公式化为:
Figure BDA0003423353170000241
用Eq.(2)取代
Figure BDA0003423353170000242
Figure BDA0003423353170000243
可给出针对参数(a,b,c,d)的方程。
Figure BDA0003423353170000246
因为块中的所有样本都满足Eq.(6),参数集(a,b,c,d)可以使用最小二乘误差法来求解。在步骤(k+1)处的两个控制点处的MV
Figure BDA0003423353170000244
可以用Eq.(3)以及(4)求解,并且它们被舍入到特定精度(例如1/4pel)。使用迭代,可以细化两个控制点处的MV,直到当参数(a,b,c,d)全为零或者迭代次数满足预定限制时它们收敛。
具有六个参数的示例仿射运动模型具有以下参数:两个参数用于在水平和垂直方向上平移运动、一个参数用于水平方向上的缩放运动、一个参数用于水平方向上的旋转运动、一个参数用于垂直方向上的缩放运动、一个参数用于垂直方向上的旋转运动。用三个控制点处的三个MV来译码该六参数仿射运动模型。如图5的示例所示,在块的左上角、右上角和左下角定义了用于六参数仿射编码块的三个控制点。左上控制点处的运动与平移运动相关,右上控制点处的运动与水平方向上的旋转和缩放运动相关,并且左下控制点处的运动与垂直方向上的旋转和缩放运动相关。对于6参数仿射运动模型,水平方向上的旋转和缩放运动可与垂直方向上的那些运动不同。每个子块的运动向量(vx,vy)可以使用控制点处的三个MV来导出如下:
Figure BDA0003423353170000245
Figure BDA0003423353170000251
在Eq.(7)中,(v2x,v2y)为左下控制点的运动向量,(x,y)为子块的中心位置,w和h为块的宽度和高度。
可以类似于四参数模型中所使用的方式的方式来估计六参数仿射模型的六个参数。Eq.(2)可以被修正为Eq.(8)如下所述。
Figure BDA0003423353170000252
在Eq.(8)中,(a,b)是在步骤k处的增量平移参数,(c,d)是在步骤k处的水平方向的增量缩放和旋转参数,以及(e,f)是在步骤k处的垂直方向的增量缩放和旋转参数。Eq.(6)相应地改变以得到Eq.(9)。
Figure BDA0003423353170000258
通过考虑块内的所有样本,可以使用最小二乘法来求解参数集(a,b,c,d,e,f)。利用Eq.(3)计算左上控制点的
Figure BDA0003423353170000253
利用Eq.(10)计算右上控制点的
Figure BDA0003423353170000254
利用Eq.(11)计算右上控制点的
Figure BDA0003423353170000255
Figure BDA0003423353170000256
Figure BDA0003423353170000257
对于仿射模式,使用光流的预测细化(PROF)
为了实现运动补偿的更精细粒度,已经提出了一种用于利用光流细化基于子块的仿射运动补偿预测的方法,如以下文章中所描述的:Jiancong(Daniel)Luo,Yuwen He,“CE2-related:Prediction refinement with optical flowfor affine mode(有关CE2的:对于仿射模式,利用光流进行预测细化)”,JVET-N0236,2019年3月,Geneva,Switzerland。在执行基于子块的仿射运动补偿之后,通过添加由光流方程导出的差来细化每个亮度预测样本。所提出的PROF被描述为包括以下步骤。
在第一步骤中,执行所述基于子块的仿射运动补偿以生成子块预测I(i,j)。
在第二步骤中,使用3抽头滤波器[-1,0,1]在每个样本位置处计算所述子块预测的空间梯度gx(i,j)和gy(i,j)。
gx(i,j)=I(i+1,j)-I(i-1,j)
gy(i,j)=I(i,j+1)-I(i,j-1)
所述子块预测每侧上扩展一个像素以用于梯度计算。为了减少存储器带宽和复杂性,从参考图片中最近的整数像素位置复制扩展边界上的像素。因此,避免了用于填充区域的额外内插。
在第三步骤中,通过光流方程来计算亮度预测细化。
ΔI(i,j)=gx(i,j)*Δvx(i,j)+gy(i,j)*Δvy(i,j) (12)
其中,如图6所示,Δv(i,j)是针对样本位置(i,j)计算的像素MV(由v(i,j)表示)与像素(i,j)所属的子块的子块MV之间的差值。
因为仿射模型参数和相对于子块中心的像素位置在子块之间没有改变,所以可以针对第一子块计算Δv(i,j),并且将其重新用于同一个块中的其它子块。假设x和y是从像素位置到子块中心的水平和垂直偏移,Δv(x,y)可以通过以下方程导出:
Figure BDA0003423353170000271
对于四参数仿射模型来说,
Figure BDA0003423353170000272
对于六参数仿射模型来说,
Figure BDA0003423353170000273
其中,(v0x,v0y),(v1x,v1y),(v2x,v2y)是左上、右上和左下控制点运动向量,w和h是块的宽度和高度。
在第四步骤中,将所述亮度预测细化添加到所述子块预测I(i,j)。最终预测I’可以使用以下方程来生成。
I′(i,j)=I(i,j)+ΔI(i,j) (13)
在一些实施例中解决的问题
当前运动补偿过程通常受运动向量的精度限制。例如,在解码器侧指示的运动向量被用于在样本级或子块级或块级的运动补偿预测中,其将确定整数参考样本位置和分数位置处的内插滤波器(如果其具有分数部分)。相关运动向量的精度是每个样本处的运动补偿预测精度的一个因素。如果四个额外的比特用于运动向量的分数部分,则可以实现1/16PEL精度。然而,这种精度限制导致潜在的问题。一个问题是,如果运动补偿预测已经足够准确,则所述额外的比特会浪费信令开销。另一个问题是,在某些情况下,所提供的额外比特的数量可能仍然不足,并且可能期望甚至更高的精度。为了提供更有效的精度表示,更灵活和准确的方法在提高运动补偿精度方面可能是有益的。
在VTM-5.0中,如果期望特定的精度粒度,则预先定义在该精度或更高精度下的相应内插滤波器(一个或多个),这防止使用任意精度。举例来说,对于用以实现比VTM-5.0中的1/16PEL精度更精细的1/32PEL的精度的解码器,1/32PEL精度或较高精度(例如,1/64PEL)的内插滤波器将为预定内插滤波器(例如,视频标准规范中所界定的滤波器)。
示例实施例的概述
本公开描述了以灵活的方式利用光流细化针对运动补偿(MC)预测过程的预测精度以用于精度细化的系统和方法。在一些实施例中,在执行运动补偿之后,通过添加由光流方程导出的差值来细化每个样本处的预测。这种细化可以被称为利用光流的运动补偿精度细化(MCPROF)。可以在块级(其可以是预测单元级,诸如CU级或子CU级)将光流作为运动向量细化用信号发送。由所述光流方程导出的所述差值可以表示不同的精度,使得可以实现更精细的精度。本文描述的一些实施例可以实现像素级粒度而不显著增加复杂度,并且可以保持最坏情况存储器访问带宽与常规块级运动补偿相同。本文描述的各种实施例可应用于任何基于子块的帧间预测模式和/或基于块的帧间预测模式。本文描述的实施例可应用于单预测和双预测这两者,且其可应用于帧间合并模式和非合并模式这两者。一些实施例的一个潜在益处是提供精度细化而无需要求任何附加的内插滤波器。
利用光流的运动补偿精度细化(MCPROF)
为了实现运动补偿的更精细精度,在一些实施例中采用方法来使用光流细化所述运动补偿预测。在执行运动补偿处理之后,通过添加由光流方程导出的差来细化每个样本处的亮度或/和色度预测。使用MCPROF的示例编码方法如下进行。
在示例方法中,运动补偿过程用于在帧间非合并模式的运动估计之后在每个样本位置(i,j)处生成预测I(i,j)。可以使用现有的帧间预测过程(包括单向预测、双向预测和仿射预测)来执行所述运动补偿过程。在该步骤中可以执行一个或多个运动补偿过程(例如,多个运动向量候选可用)。在多个运动补偿过程的情况下,可以根据预定标准(例如,具有最小速率失真成本的运动补偿处理)选择所述多个运动补偿过程中的一个,如在VTM 5.0中所做的。
评估一个或多个所选运动补偿过程以确定是否使用精度细化。例如,如果在MC过程之后提供的现有精度(例如1/4PEL)足够精确,则可以确定不进行精度细化。如果(例如)残差值在当前运动补偿精度下接近0(例如,低于预定量值阈值),那么可作出此确定。
然而,在一些情况下,做出进行精度细化的确定。在这种情况下,可以确定用于传达细化程度的精度差N。例如,可以通过运动补偿过程确定基本上最优(或精确)的残差值将是大约9/16PEL。为了适应该最佳精度,1/16PEL的运动补偿精度可能是期望的。然而,如果当前运动补偿过程使用1/4PEL的精度(例如,由现有经界定内插滤波器提供),那么当前精度与期望精度之间的精度差N为二。
在一些实施例中,如下使用光流来确定运动补偿预测细化。将利用一个或多个现有运动向量的运动补偿预测表示为MCP(i,j),未压缩的原始输入样本值表示为O(i,j),MCP(i,j)的水平空间梯度表示为gx(i,j),MCP(i,j)的垂直空间梯度表示为gy(i,j)。在光流中使用附加运动向量细化(Δmvx,Δmvy)。可以选择运动向量细化(Δmvx,Δmvy)以便基本上满足Eq.14.
O(i,j)=MCP(i,j)+gx(i,j)*Δmvx+gy(i,j)*Δmvy (14)
在一些实施例中,如在Eq.(15)中那样,利用最小二乘法来估计所述运动向量细化(Δmvx,Δmvy)。
Figure BDA0003423353170000301
如果确定使用更精细的精度(例如,在比特深度方面),则可以在比特流中用信号发送运动向量细化值Δmv(i,j)(即,(Δmvx(i,j),Δmvy(i,j))),在一些实施例中,还可以在比特流中用信号发送相关联的精度差N。为了节省信令开销,可以在诸如切片/图片级别、CTU级别、或CU(或其它块)级别的不同级别用信号发送N。类似地,还可以在诸如切片/图片级别、CTU级别、CU(或其它块)级别、或样本级别的不同级别用信号发送运动向量细化值。如果未在样本级别用信号发送运动向量细化值,则一块或子块内的运行向量细化值可能对于该块或子块内的每一样本均是相同的。
在一些实施例中,可以特定相邻样本位置的格式用信号发送额外运动向量细化值。如图7中所示,可使用相邻位置来指示运动向量细化值,其可由4个最近的相邻位置或8个最近的相邻位置(例如,1个像素距离)或甚至更进一步的相邻位置(例如,大于1个像素距离)中的一者表示。在图7中所示的示例中,如果用信号发送相邻样本位置(i,j-1),那么其具有用信号发送运动向量细化值Δmv(i,j)=(0,-1)的效果,其中Δmvx(i,j)=0,Δmvy(i,j)=-1。或者,如果用信号发送相邻样本位置(i-1,j-1),那么其具有用信号发送运动向量细化值Δmv(i,j)=(-1,-1)的效果,其中Δmvx(i,j)=-1,Δmvy(i,j)=-1。
在一些实施例中,可以索引值的格式用信号发送所述运动向量细化值。例如,如果使用4个最近的相邻位置,则作为一个示例,对应的上方、下方、左侧和右侧相邻位置可被索引为0、1、2、3。可以用可变长度码字对所述索引进行二进制化。例如,如果允许8个最近的相邻位置,则4个最近的相邻位置的索引可以使用具有比在两个对角线方向上的其他4个剩余相邻位置的码字更短的长度的码字来进行译码。
在一些实施例中,相关联的精度差N可为等于当前精度与期望精度之间的比特深度差的整数值。例如,如果运动补偿预测过程的当前精度是1/4PEL,并且期望精度是1/16PEL,则用信号发送的精度可以是N=2。在一些实施例中,编码器用信号发送指示是否使用MCPROF的标志。
使用利用光流的精度细化的预测
在生成块或子块的预测中,编码器(例如,在模块210处)或解码器(例如,在模块260处)可以使用所述精度差N和所述运动向量细化值。在使用MCPROF的情况下(例如,在比特流中用信号通知使能标志),用信号发送的Δmv(i,j)和N的值可被获得。空间梯度gx(i,j)和gy(i,j)是针对每个样本位置(i,j)计算的。可使用如上文所述的三抽头滤波器或使用其它技术来执行关于空间梯度的确定。
例如使用单向预测、双向预测和/或仿射预测为当前块生成初始运动补偿预测I(i,j)。根据Eq.16,使用所述运动向量细化和所述空间梯度的标量积来计算精度细化。
Figure BDA0003423353170000311
其中Δmv(i,j)是用信号发送的运动向量细化值(例如,从编码器接收),N是当前精度与期望精度之间的用信号发送的比特深度差,且g(i,j)是如上文所描述而计算的空间梯度。
通过添加强度变化(例如,亮度或色度)来细化每个样本处的运动补偿预测。最终预测I’可以根据以下方程生成。
I′(i,j)=I(i,j)+ΔI(i,j) (17)
在上述示例实施例中,考虑4个相邻或8个相邻的位置。每个所选择的相邻位置用于指示精度细化的方向,并且对于等待其相邻样本的运动补偿处理完成没有依赖性。
图8中示出了示例方法,在视频编码器处,基于运动补偿预测,针对当前样本块中的至少第一样本位置,获得(802)初始预测样本值。针对至少所述第一样本位置,确定(804)运动向量细化。可以将该运动向量细化编码(806)在比特流中,例如用于存储或传输。
在所述第一样本位置处,确定(808)样本值的空间梯度。基于所述空间梯度和所述运动向量细化的标量积,确定(810)样本差值。在一些实施例中,所述样本差值的所述确定可以包括缩放(例如,比特移位)所述样本差值,并且指示缩放量的精度信息可以被编码在比特流中。基于所述样本差值,修改(812)所述初始预测样本值,这可例如通过将所述样本差值加到所述初始预测样本值以生成细化样本值而进行。
在一些实施例中,所述运动向量细化的所述确定(804)可以包括:选择所述运动向量细化以基本上最小化关于输入视频块的预测误差。在逐个样本地选择运动向量细化的实施例中,所述预测误差可以基于所细化的样本值与所述输入视频块的相应样本值之间的差(例如,绝对差或平方差)。在逐块(或逐子块)地选择运动向量细化的实施例中,所述预测误差可基于所述块(或子块)中的多个样本位置上的细化样本值与对应的输入视频块样本值之间的差的总和(例如,绝对差或平方差的总和)。
在一些实施例中,所述编码器可使用如在812处产生的细化样本值来确定预测残差,且还可在比特流中编码所述预测残差。
在由视频解码器执行的方法中,所述解码器基于运动补偿预测获得当前样本块中的至少第一样本位置的初始预测样本值(814)。例如通过从比特流中解码所述运动向量细化来确定(816)至少所述第一样本位置的运动向量细化。在所述第一样本位置处,确定(818)样本值的空间梯度。通过所述计算空间梯度和所述运动向量细化的标量积来确定(820)样本差值。在一些实施例中,所述样本差值的所述确定还可以包括基于从比特流解码的精度信息来缩放所述样本差值。基于所述样本差值,修改(822)所述初始预测样本值。例如,所述样本差值可以被加到所述初始预测样本值以生成细化样本值。
在一些实施例中,所述解码器可以进一步从所述比特流解码预测残差,并且该预测残差可以用于确定第一样本位置处的重构样本值。该重构样本值可以被显示或被传送到单独的显示设备以供显示。
示例通信系统
图9是示出了通信系统的示例的图。该通信系统900可以包括编码器902、通信网络904和解码器906。编码器902可经由连接908与网络904通信,该连接可以是有线连接或无线连接。编码器902可类似于图2A的基于块的视频编码器。编码器902可包含单层编解码器或多层编解码器。解码器906可以经由连接910与网络904进行通信,该连接可以是有线连接或无线连接。解码器906可类似于图2B的基于块的视频解码器。解码器906可以包括单层编解码器或多层编解码器。
所述编码器902和/或解码器906可被结合到各种有线通信设备和/或无线发射/接收单元(WTRU)中,诸如但不限于数字电视、无线广播系统、网络元件/终端、诸如内容或web服务器(诸如超文本传输协议(HTTP)服务器)之类的服务器、个人数字助理(PDA)、膝上型或台式计算机、平板计算机、数码相机、数字记录设备、视频游戏控制台、蜂窝或卫星无线电话、数字媒体播放器和/或类似设备。
所述通信网络904可以是合适类型的通信网络。例如,所述通信网络904可以是向多个无线用户提供诸如语音、数据、视频、消息收发、广播等内容的多址系统。所述通信网络904可以使多个无线用户能够通过共享包括无线带宽的系统资源来访问这样的内容。例如,所述通信网络904可以采用一种或多种信道接入方法,例如码分多址(CDMA)、时分多址(TDMA)、频分多址(FDMA)、正交FDMA(OFDMA)、单载波FDMA(SC-FDMA)和/或类似方法。所述通信网络904可以包括多个连接的通信网络。所述通信网络904可以包括因特网和/或一个或多个专用商业网络,诸如蜂窝网络、WiFi热点和/或因特网服务提供商(ISP)网络等。
其它实施例
根据一些实施例的基于块的视频编码方法包括,在解码器处:生成当前样本块中的样本值的运动补偿预测;从比特流解码所述当前块的运动向量细化和精度差值;以及对于所述当前块中的每个预测样本:确定所述样本处的空间梯度;计算所述空间梯度和所述运动向量细化的标量积;将所述标量积缩放由所述精度差值指示的量以生成样本差值;以及将所述样本差值加到所述预测样本值以产生细化样本值。
在一些实施例中,所述当前块中的样本值的运动补偿预测是利用单向预测生成的。
在一些实施例中,所述当前块中的样本值的运动补偿预测是利用双向预测生成的。
在一些实施例中,所述运动向量细化在比特流中作为索引而用信号发送。所述索引可以标识形式(i,j)的多个运动向量细化中的一个,其中i和j是整数。所述索引可从由(0,-1),(1,0),(0,1),和(-1,0)组成的群组标识多个运动向量细化中的一者。所述索引可以从由(0,-1),(1,0),(0,1),(-1,0),(-1,-1),(1,-1),(1,1),和(-1,1)组成的群组中标识多个运动向量细化中的一个。
在一些实施例中,所述标量积的所述缩放包括对所述标量积进行比特移位。
在一些实施例中,所述精度差值为N,且缩放所述标量积包括将所述标量积右移等于用信号发送的精度差值N与现有MC精度的总和的比特数。
根据一些实施例的基于块的视频编码方法包括,在编码器处:针对输入视频块,生成当前样本块中的样本值的运动补偿预测;选取精度差值;确定所述样本处的相应空间梯度;确定所述当前块的运动向量细化,其中所述运动向量细化经选择以大体上最小化(i)所述空间梯度与所述运动向量细化的标量积和(ii)所述输入视频块与所述运动补偿预测之间的差之间的误差;以及在比特流中用信号发送所述当前块的所述运动向量细化和精度差值。
在一些实施例中,所述当前块中的样本值的所述运动补偿预测是利用单向预测生成的。
在一些实施例中,所述当前块中的样本值的所述运动补偿预测是利用双向预测生成的。
在一些实施例中,所述运动向量细化在比特流中作为索引而用信号发送。所述索引可以标识形式(i,j)的多个运动向量细化中的一个,其中i和j是整数。所述索引可从由(0,-1),(1,0),(0,1),和(-1,0)组成的群组标识多个运动向量细化中的一者。所述索引可以从由(0,-1),(1,0),(0,1),(-1,0),(-1,-1),(1,-1),(1,1),和(-1,1)组成的群组中标识多个运动向量细化中的一个。
在一些实施例中,选择所述运动向量细化以大体上最小化(i)所述空间梯度与所述运动向量细化的标量积与(ii)所述输入视频块与经运动补偿的预测之间的差之间的平方差的和。
一些实施例包括处理器和非暂时性计算机可读介质,其可操作以执行本文描述的任何功能。
本公开描述了各种方面,这其中包括工具、特征、实施例、模型、方法等。这些方面中的许多方面被描述为具有特异性,并且至少为了示出个体特性,通常以可能听起来受限的方式来描述。然而,这是为了描述清楚的目的,并且不限制那些方面的公开或范围。实际上,所有不同的方面可以组合和互换以提供另外的方面。此外,这些方面也可以与在较早的申请中描述的方面组合和互换。
本公开中描述和设想的方面可以以许多不同的形式来实现。虽然具体示出了一些实施例,但是可以设想其他实施例,并且对特定实施例的讨论不限制实现的广度。至少一个方面主要涉及视频编码和解码,并且至少一个其它方面主要涉及传送所生成或编码的比特流。这些和其它方面可以实现为方法、装置、其上存储有用于根据所描述的任何方法来编码或解码视频数据的指令的计算机可读存储介质、和/或其上存储有根据所描述的任何方法生成的比特流的计算机可读存储介质。
在本发明中,术语“经重构”和“经解码”可互换使用,术语“像素”和“样本”可互换使用,术语“图像”、“图片”和“帧”可互换使用。
本文描述了各种方法,并且每种方法包括用于实现所描述的方法的一个或多个步骤或动作。除非方法的正确操作需要特定顺序的步骤或动作,否则可修改或组合特定步骤和/或动作的顺序和/或使用。另外,诸如“第一”、“第二”等术语可在各种实施例中用于修改元件、组件、步骤、操作等,诸如例如“第一解码”和“第二解码”。除非特别要求,否则这些术语的使用并不意味着对修改后的操作的排序。因此,在该示例中,第一解码不需要在第二解码之前执行,并且可以例如在第二解码之前、期间或在与第二解码重叠的时间段中发生。
例如,在本公开中可以使用各种数值。具体值是出于示例目的,并且所描述的方面不限于这些具体值。
这里描述的实施例可以通过由处理器或其他硬件实现的计算机软件来实现,或者通过硬件和软件的组合来实现。作为非限制性示例,实施例可以由一个或多个集成电路实现。所述处理器可以是适合于技术环境的任何类型,并且可以包含作为非限制性示例的微处理器、通用计算机、专用计算机和基于多核架构的处理器中的一个或多个。
各种实现方式涉及解码。如本公开中所使用的,“解码”可以包括例如对接收到的编码序列执行的全部或部分过程,以便产生适合于显示的最终输出。在各种实施例中,此类过程包括通常由解码器执行的过程中的一个或多个,例如熵解码、逆量化、逆变换和差分解码。在各种实施例中,这样的过程还或替代地包括由本公开中描述的各种实现的解码器执行的过程,例如,从图块化(封装的)图片提取图片、确定要使用的上采样滤波器且接着对图片进行上采样、以及将图片翻转回其既定朝向。
作为进一步的示例,在一个实施例中,“解码”仅指熵解码,在另一实施例中,“解码”仅指差分解码,并且在另一实施例中,“解码”指熵解码和差分解码的组合。短语“解码过程”是旨在具体地指代操作的子集还是一般地指代更广泛的解码过程,这基于具体描述的上下文将是清楚的。
各种实现涉及编码。以与以上关于“解码”的讨论类似的方式,如在本公开中使用的“编码”可以包括例如对输入视频序列执行的以便产生编码比特流的过程的全部或部分。在各种实施例中,此类过程包括通常由编码器执行的一个或多个过程,例如,分区、差分编码、变换、量化和熵译码。在各种实施例中,这样的过程还或替代地包括由本公开中描述的各种实现的编码器执行的过程。
作为进一步的示例,在一个实施例中,“编码”仅指熵编码,在另一实施例中,“编码”仅指差分编码,而在另一实施例中,“编码”指差分编码和熵译码的组合。短语“编码过程”的旨在具体地指代操作的子集还是一般地指代更广泛的编码过程,这将基于具体描述的上下文而变得清楚。
当附图被呈现为流程图时,应当理解,它还提供了对应装置的框图。类似地,当附图被呈现为框图时,应当理解,它还提供了对应的方法/过程的流程图。
各种实施例可能涉及速率失真优化。特别地,在编码过程期间,通常考虑速率和失真之间的平衡或折衷,通常给出计算复杂度的约束。所述速率失真优化通常被公式化为最小化速率失真函数,该速率失真函数是速率和失真的加权和。存在不同的方法来解决速率失真优化问题。例如,这些方法可以基于对所有编码选项的广泛测试,这其中包括所有考虑的模式或译码参数值,且对它们的译码成本和在译码和解码之后的重构信号的相关失真进行完整评估。还可以使用更快的方法来节省编码复杂度,特别是基于预测或预测残差信号而不是重构信号来计算近似失真。还可以使用这两种方法的混合,例如通过仅对一些可能的编码选项使用近似失真,而对其他编码选项使用完全失真。其它方法仅评估可能的编码选项的子集。更一般地,许多方法采用各种技术中的任何一种来执行所述优化,但是该优化不一定是对译码成本和相关失真这两者的完整评估。
本文描述的实现方式和方面可以在例如方法或过程、装置、软件程序、数据流或信号中实现。即使仅在单一形式的实现的上下文中被讨论(例如,仅作为方法而被讨论),所讨论的特征的实现也可以以其他形式(例如,装置或程序)来实现。例如,可以以适当的硬件、软件和固件来实现装置。所述方法可以在例如处理器中实现,所述处理器通常指处理设备,这其中包括例如计算机、微处理器、集成电路或可编程逻辑设备。处理器还包括通信设备,例如计算机、蜂窝电话、便携式/个人数字助理(“PDA”)和便于终端用户之间的信息通信的其他设备。
对“一个实施例”或“一实施例”或“一个实现方式”或“一实现方式”以及其它变化形式的提及意味着结合该实施例描述的特定特征、结构、特性等包含于至少一个实施例中。因此,在本公开中的各个地方出现的短语“在一个实施例中”或“在一实施例中”或“在一个实现方式中”或“在一实现方式中”以及任何其他变型的出现不一定都指同一实施例。
另外,本公开可以涉及“确定”各种信息。确定该信息可以包括例如以下一者或多者:估计该信息、计算该信息、预测该信息或从存储器检索该信息。
此外,本公开可以涉及“访问”各种信息。访问该信息可以包括例如以下一者或多者:接收该信息、检索该信息(例如,从存储器检索该信息)、存储该信息、移动该信息、复制该信息、计算该信息、确定该信息、预测该信息或估计该信息。
另外,本公开可以指“接收”各种信息。如同“访问”一样,接收旨在是广义的术语。接收所述信息可以包括例如以下一者或多者:访问该信息或(例如,从存储器)检索该信息。此外,在诸如存储信息、处理信息、发送信息、移动信息、复制信息、擦除信息、计算信息、确定信息、预测信息或估计信息的操作期间,通常以一种方式或另一种方式涉及“接收”。
应当理解,例如在“A/B”、“A和/或B”以及“A和B中的至少一者”的情况下,使用以下“/”、“和/或”以及“中的至少一者”中的任意者旨在涵盖仅对第一列出的选项(A)的选择、或仅对第二列出的选项(B)的选择、或对两个选项(A和B)的选择。作为进一步的示例,在“A、B和/或C”和“A、B和C中的至少一者”的情况下,这样的措词旨在包括仅选择第一个列出的选项(A)、或者仅选择第二个列出的选项(B)、或者仅选择第三个列出的选项(C)、或者仅选择第一个和第二个列出的选项(A和B)、或者仅选择第一个和第三个列出的选项(A和C)、或者仅选择第二个和第三个列出的选项(B和C)、或者选择所有三个选项(A和B和C)。这可以扩展到所列的多个项目。
此外,如本文所使用的,词语“信号”尤其是指向对应的解码器指示某物。例如,在某些实施例中,编码器用信号通知用于去伪影滤波的基于区域的滤波器参数选择的多个参数中的特定一个。这样,在一实施例中,在编码器侧和解码器侧使用相同的参数。因此,例如,编码器可以向解码器发送(显式地用信号发送)特定参数,使得解码器可以使用该相同的特定参数。相反,如果解码器已经具有所述特定参数以及其它参数,则可以使用信令而不进行发送(隐式地用信号发送),以简单地允许解码器知道并选择所述特定参数。通过避免任何实际功能的传输,在各种实施例中实现了比特节省。应当理解,可以以各种方式来实现信令。例如,在各种实施例中,一个或多个语法元素、标志等被用于将信息用信号发送给对应的解码器。虽然前述内容涉及词语“信号”的动词形式,但是词语“信号”在本文中也可以用作名词。
实现方式可以产生被格式化以携带例如可以被存储或发送的信息的各种信号。该信息可以包括例如用于执行方法的指令,或者由所描述的实现方式之一产生的数据。例如,信号可以被格式化以携带所描述的实施例的比特流。这种信号可以被格式化为例如电磁波(例如,使用频谱的射频部分)或基带信号。所述格式化可以包括例如对数据流进行编码并且利用所编码的数据流对载波进行调制。所述信号携带的信息可以是例如模拟或数字信息。如已知的,所述信号可以通过各种不同的有线或无线链路来传输。所述信号可以存储在处理器可读介质上。
我们描述了多个实施例。这些实施例的特征可以跨各种权利要求类别及类型而单独提供或以任何组合提供。此外,跨越各种权利要求类别和类型,实施例可以单独或以任意组合包括以下特征、设备或方面中的一者或多者:
·一种比特流或信号,包括传达根据所描述的任何实施例生成的信息的语法。
·根据所述的任何实施例,创建和/或发送和/或接收和/或解码。
·根据所描述的任何实施例的方法、过程、装置、存储指令的介质、存储数据的介质或信号。
·TV、机顶盒、蜂窝电话、平板电脑或其他电子设备,其根据所描述的任何实施例执行编码或解码方法。
·TV、机顶盒、蜂窝电话、平板电脑或其他电子设备,其根据所描述的任何实施例执行解码方法,并且显示(例如,使用监视器、屏幕或其他类型的显示器)所得到的图像。
·TV、机顶盒、蜂窝电话、平板电脑或其他电子设备,其选择(例如,使用调谐器)信道以接收包括所编码的图像的信号,并且根据所描述的任何实施例执行解码。
·TV、机顶盒、蜂窝电话、平板电脑或其他电子设备,其通过空中接收(例如,使用天线)包括所编码的图像的信号,并且根据所描述的任何实施例执行解码。
注意,所描述的实施例中的一个或多个的各种硬件元件被称为“模块”,其执行(即,运行、实行等)在此结合相应模块描述的各种功能。如本文所使用的,模块包括相关领域的技术人员认为适合于给定实施方式的硬件(例如,一个或多个处理器、一个或多个微处理器、一个或多个微控制器、一个或多个微芯片、一个或多个专用集成电路(ASIC)、一个或多个现场可编程门阵列(FPGA)、一个或多个存储器设备)。每个所描述的模块还可以包括可执行用于执行被描述为由相应模块执行的一个或多个功能的指令,并且注意,这些指令可以采取硬件(即,硬连线的)指令、固件指令、和/或软件指令等的形式或包括它们,并且可以被存储在任何合适的非暂时性计算机可读介质或媒体中,其诸如通常被称为RAM、ROM等。
虽然在上文中描述了采用特定组合或顺序的特征和元素,但是本领域普通技术人员将会认识到,每一个特征或元素既可以单独使用,也可以与其他特征和元素进行任何组合来使用。此外,这里描述的方法可以在引入计算机可读介质中以供计算机或处理器运行的计算机程序、软件或固件中实施。计算机可读存储媒体的示例包括但不局限于只读存储器(ROM)、随机存取存储器(RAM)、寄存器、缓冲存储器、半导体存储设备、诸如内部硬盘和可移除盘之类的磁媒体、磁光媒体、以及诸如CD-ROM盘和数字多用途盘(DVD)的的光媒体。与软件关联的处理器可以用于实施在WTRU、UE、终端、基站、RNC或任何主计算机中使用的射频收发信机。

Claims (15)

1.一种视频译码方法,包括:
基于运动补偿预测,获得当前样本块中的至少第一样本位置的初始预测样本值;
确定与至少所述第一样本位置相关联的运动向量细化;
在所述第一样本位置处,确定样本值的空间梯度;
基于所述空间梯度与所述运动向量细化的标量积,确定样本差值;以及
基于所述样本差值,修改所述初始预测样本值。
2.根据权利要求1所述的方法,由解码器执行,其中确定运动向量细化包括从比特流解码所述运动向量细化。
3.根据权利要求2所述的方法,其进一步包括:从所述比特流解码细化精度信息,其中确定所述样本差值包括:按由所述精度信息指示的量,缩放所述标量积。
4.根据权利要求3所述的方法,其中缩放所述标量积包括:将所述标量积比特移位由所述精度信息指示的量。
5.根据权利要求3或4所述的方法,其中所述运动补偿预测通过使用具有初始精度的至少一个运动向量而被执行,且其中所述细化精度信息包括表示所述初始精度与所述细化精度之间的差的精度差值。
6.根据权利要求3到5中任一权利要求所述的方法,其中缩放所述标量积包括:将所述标量积右移等于所述精度差值与所述初始精度之和的比特的数目。
7.根据权利要求1所述的方法,其由编码器执行,其中确定运动向量细化包含:选择所述运动向量细化以大体上最小化相对于输入视频块的预测误差,且其中所述方法进一步包含:将所述运动向量细化编码于比特流中。
8.根据权利要求2到7中任一权利要求所述的方法,其中所述运动向量细化在所述比特流中作为索引而被用信号发送。
9.根据权利要求8所述的方法,其中所述索引通过由(0,-1),(1,0),(0,1),和(-1,0)组成的群组来标识多个运动向量细化中的一者。
10.根据权利要求8所述的方法,其中所述索引通过由(0,-1),(1,0),(0,1),(-1,0),(-1,-1),(1,-1),(1,1),和(-1,1)组成的群组来标识多个运动向量细化中的一者。
11.根据权利要求1-10中任一项所述的方法,其中,所述运动向量细化与所述当前块中的所有样本位置相关联。
12.一种包括处理器的装置,所述处理器被配置为至少执行:
基于运动补偿预测,获得当前样本块中的至少第一样本位置的初始预测样本值;
确定与至少所述第一样本位置相关联的运动向量细化;
在所述第一样本位置处,确定样本值的空间梯度;
基于所述空间梯度与所述运动向量细化的标量积,确定样本差值;以及
基于所述样本差值,修改所述初始预测样本值。
13.根据权利要求12所述的装置,其中所述装置包括解码器,且其中确定运动向量细化包括:从比特流解码所述运动向量细化。
14.根据权利要求13所述的装置,其中所述处理器进一步被配置以从所述比特流解码细化精度信息,且其中确定所述样本差值包括:将所述标量积缩放由所述精度信息指示的量。
15.根据权利要求12所述的装置,其中所述装置包含编码器,且其中确定运动向量细化包含:选择所述运动向量细化以大体上最小化所细化的样本值与输入视频块的对应样本值之间的误差,且其中所述方法进一步包含:将所述运动向量细化编码于比特流中。
CN202080045525.0A 2019-06-21 2020-06-18 利用光流的运动补偿的精度细化 Pending CN114026851A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201962864825P 2019-06-21 2019-06-21
US62/864,825 2019-06-21
PCT/US2020/038476 WO2020257484A1 (en) 2019-06-21 2020-06-18 Precision refinement for motion compensation with optical flow

Publications (1)

Publication Number Publication Date
CN114026851A true CN114026851A (zh) 2022-02-08

Family

ID=71465490

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202080045525.0A Pending CN114026851A (zh) 2019-06-21 2020-06-18 利用光流的运动补偿的精度细化

Country Status (5)

Country Link
US (1) US20220286688A1 (zh)
EP (2) EP4300964A3 (zh)
JP (1) JP2022536967A (zh)
CN (1) CN114026851A (zh)
WO (1) WO2020257484A1 (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021001220A1 (en) * 2019-07-01 2021-01-07 Interdigital Vc Holdings France, Sas Bi-directional optical flow refinement of affine motion compensation
EP4062638A4 (en) * 2019-12-27 2023-01-11 Zhejiang Dahua Technology Co., Ltd AFFINE PREDICTION PROCESS AND ASSOCIATED DEVICES

Family Cites Families (48)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102086145B1 (ko) * 2010-12-13 2020-03-09 한국전자통신연구원 인트라 예측 방법 및 그 장치
CN107071411B (zh) * 2011-04-25 2020-08-28 Lg电子株式会社 一种由解码设备和编码设备执行的帧内预测方法
KR101383775B1 (ko) * 2011-05-20 2014-04-14 주식회사 케이티 화면 내 예측 방법 및 장치
EP3253059A1 (en) * 2014-03-04 2017-12-06 Microsoft Technology Licensing, LLC Block flipping and skip mode in intra block copy prediction
WO2015143090A1 (en) * 2014-03-18 2015-09-24 Arris Enterprises, Inc. Scalable video coding using reference and scaled reference layer offsets
EP3160143A4 (en) * 2014-06-18 2018-01-17 Samsung Electronics Co., Ltd. Multi-view image encoding/decoding methods and devices
CN104333760B (zh) * 2014-10-10 2018-11-06 华为技术有限公司 三维图像编码方法和三维图像解码方法及相关装置
KR101770300B1 (ko) * 2015-06-09 2017-08-22 삼성전자주식회사 비디오 부호화 방법 및 그 장치, 비디오 복호화 방법 및 그 장치
US20160373742A1 (en) * 2015-06-18 2016-12-22 Qualcomm Incorporated Intra prediction and intra mode coding
US11463689B2 (en) * 2015-06-18 2022-10-04 Qualcomm Incorporated Intra prediction and intra mode coding
KR102460912B1 (ko) * 2015-07-08 2022-10-28 인터디지털 매디슨 페턴트 홀딩스 에스에이에스 교차 평면 필터링을 이용한 향상된 크로마 코딩
WO2017069419A1 (ko) * 2015-10-22 2017-04-27 엘지전자 주식회사 비디오 코딩 시스템에서 인트라 예측 방법 및 장치
CN108293116A (zh) * 2015-11-24 2018-07-17 三星电子株式会社 视频解码方法及设备和视频编码方法及设备
WO2017124298A1 (zh) * 2016-01-19 2017-07-27 北京大学深圳研究生院 视频编码、解码方法及其帧间预测方法、装置和系统
US10750172B2 (en) * 2016-04-22 2020-08-18 Vid Scale, Inc. Prediction systems and methods for video coding based on filtering nearest neighboring pixels
CN109076241B (zh) * 2016-05-04 2023-06-23 微软技术许可有限责任公司 利用样本值的非相邻参考线进行帧内图片预测
CN117221585A (zh) * 2016-06-22 2023-12-12 Lx 半导体科技有限公司 图像编码/解码方法以及图像数据的传输方法
CN109417636B (zh) * 2016-06-24 2022-04-01 韩国电子通信研究院 用于基于变换的图像编码/解码的方法和设备
CN109417629B (zh) * 2016-07-12 2023-07-14 韩国电子通信研究院 图像编码/解码方法以及用于该方法的记录介质
CN116614639A (zh) * 2016-07-12 2023-08-18 韩国电子通信研究院 图像编码/解码方法和用于所述方法的记录介质
KR20180007680A (ko) * 2016-07-13 2018-01-23 한국전자통신연구원 영상 부호화/복호화 방법 및 장치
JP2019525577A (ja) * 2016-07-18 2019-09-05 エレクトロニクス アンド テレコミュニケーションズ リサーチ インスチチュートElectronics And Telecommunications Research Institute 画像符号化/復号方法、装置、及び、ビットストリームを保存した記録媒体
US11405620B2 (en) * 2016-08-01 2022-08-02 Electronics And Telecommunications Research Institute Image encoding/decoding method and apparatus with sub-block intra prediction
CN116634140A (zh) * 2016-08-03 2023-08-22 株式会社Kt 用于对视频进行编码和解码的方法和装置
WO2018030773A1 (ko) * 2016-08-11 2018-02-15 한국전자통신연구원 영상 부호화/복호화 방법 및 장치
WO2018062702A1 (ko) * 2016-09-30 2018-04-05 엘지전자 주식회사 영상 코딩 시스템에서 인트라 예측 방법 및 장치
US10798375B2 (en) * 2016-11-01 2020-10-06 Samsung Electronics Co., Ltd. Encoding method and device therefor, and decoding method and device therefor
EP3563571A4 (en) * 2016-12-30 2020-02-12 Telefonaktiebolaget LM Ericsson (publ) DECODED IMAGE BUFFER MEMORY MANAGEMENT FOR PROCESSING PREDICTION OF CROSS IMAGE DATA
US10602180B2 (en) * 2017-06-13 2020-03-24 Qualcomm Incorporated Motion vector prediction
EP3652936A1 (en) * 2017-07-05 2020-05-20 Huawei Technologies Co., Ltd. Devices and methods for video coding
EP3661212A4 (en) * 2017-09-28 2020-11-25 Samsung Electronics Co., Ltd. IMAGE CODING PROCESS AND APPARATUS, AND IMAGE DECODING PROCESS AND APPARATUS
WO2019078629A1 (ko) * 2017-10-18 2019-04-25 한국전자통신연구원 영상 부호화/복호화 방법, 장치 및 비트스트림을 저장한 기록 매체
US11611757B2 (en) * 2018-04-02 2023-03-21 Qualcomm Incorproated Position dependent intra prediction combination extended with angular modes
KR20240051319A (ko) * 2018-06-11 2024-04-19 삼성전자주식회사 부호화 방법 및 그 장치, 복호화 방법 및 그 장치
US11277644B2 (en) * 2018-07-02 2022-03-15 Qualcomm Incorporated Combining mode dependent intra smoothing (MDIS) with intra interpolation filter switching
US11128872B2 (en) * 2018-07-16 2021-09-21 Qualcomm Incorporated Position dependent intra prediction combination with wide angle intra prediction
US20200162737A1 (en) * 2018-11-16 2020-05-21 Qualcomm Incorporated Position-dependent intra-inter prediction combination in video coding
US11652984B2 (en) * 2018-11-16 2023-05-16 Qualcomm Incorporated Position-dependent intra-inter prediction combination in video coding
WO2020149770A1 (en) * 2019-01-18 2020-07-23 Huawei Technologies Co., Ltd. Method and apparatus of local illumination compensation for predictive coding
US11632563B2 (en) * 2019-02-22 2023-04-18 Qualcomm Incorporated Motion vector derivation in video coding
US20200288159A1 (en) * 2019-03-08 2020-09-10 Qualcomm Incorporated Combined residual coding in video coding
WO2020185890A1 (en) * 2019-03-11 2020-09-17 Futurewei Technologies, Inc. Tile level filtering in video coding
JP2022525876A (ja) * 2019-03-17 2022-05-20 北京字節跳動網絡技術有限公司 オプティカルフローベースの予測精緻化の計算
US11019360B2 (en) * 2019-03-21 2021-05-25 Qualcomm Incorporated Generalized reference sample derivation methods for intra prediction in video coding
WO2020211867A1 (en) * 2019-04-19 2020-10-22 Beijing Bytedance Network Technology Co., Ltd. Delta motion vector in prediction refinement with optical flow process
WO2020211866A1 (en) * 2019-04-19 2020-10-22 Beijing Bytedance Network Technology Co., Ltd. Applicability of prediction refinement with optical flow process
WO2020211864A1 (en) * 2019-04-19 2020-10-22 Beijing Bytedance Network Technology Co., Ltd. Region based gradient calculation in different motion vector refinements
CN114128285A (zh) * 2019-06-14 2022-03-01 现代自动车株式会社 用于利用帧间预测来编码和解码视频的方法和装置

Also Published As

Publication number Publication date
EP3987778B1 (en) 2023-11-22
JP2022536967A (ja) 2022-08-22
EP4300964A2 (en) 2024-01-03
EP4300964A3 (en) 2024-03-13
EP3987778A1 (en) 2022-04-27
US20220286688A1 (en) 2022-09-08
WO2020257484A1 (en) 2020-12-24

Similar Documents

Publication Publication Date Title
US11582458B2 (en) Adaptive motion vector precision for affine motion model based video coding
TWI805788B (zh) 降低解碼器側運動精化的寫碼潛時的方法及裝置
JP7311589B2 (ja) 双方向オプティカルフローのための複雑性低減およびビット幅制御
CN112106367A (zh) 基于编码和解码时延减少的基于模板的帧间预测技术
US11729417B2 (en) Generalized bi-prediction and weighted prediction
US20240107024A1 (en) Affine motion model derivation method
EP3987778B1 (en) Precision refinement for motion compensation with optical flow
US20220182634A1 (en) Methods and systems for post-reconstruction filtering
US20220132136A1 (en) Inter prediction bandwidth reduction method with optical flow compensation
KR20220027833A (ko) 광류를 이용한 블록 경계 예측 정제
RU2803895C2 (ru) Уточнение прогнозирования с компенсацией движения с помощью оптического потока
TWI834722B (zh) 雙向光流複雜度降低及位元寬度控制的裝置及方法
RU2811563C2 (ru) Системы, устройства и способы для уточнения интерпрогнозирования с помощью оптического потока
WO2024078896A1 (en) Template type selection for video coding and decoding

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination