CN108141583A - 使用背景图片执行预测性随机存取的方法和系统 - Google Patents

使用背景图片执行预测性随机存取的方法和系统 Download PDF

Info

Publication number
CN108141583A
CN108141583A CN201680057394.1A CN201680057394A CN108141583A CN 108141583 A CN108141583 A CN 108141583A CN 201680057394 A CN201680057394 A CN 201680057394A CN 108141583 A CN108141583 A CN 108141583A
Authority
CN
China
Prior art keywords
picture
arbitrary access
pictures
background
predictive
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201680057394.1A
Other languages
English (en)
Inventor
陈颖
张雪瑞
马亚诺·蒂瓦里
毕宁
普拉桑吉特·潘达
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qualcomm Inc
Original Assignee
Qualcomm Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qualcomm Inc filed Critical Qualcomm Inc
Publication of CN108141583A publication Critical patent/CN108141583A/zh
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/157Assigned coding mode, i.e. the coding mode being predefined or preselected to be further used for selection of another element or parameter
    • H04N19/159Prediction type, e.g. intra-frame, inter-frame or bidirectional frame prediction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/103Selection of coding mode or of prediction mode
    • H04N19/105Selection of the reference unit for prediction within a chosen coding or prediction mode, e.g. adaptive choice of position and number of pixels used for prediction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/162User input
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/172Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a picture, frame or field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/176Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a block, e.g. a macroblock
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/188Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being a video data packet, e.g. a network abstraction layer [NAL] unit
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/46Embedding additional information in the video signal during the compression process
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
    • H04N19/51Motion estimation or motion compensation
    • H04N19/58Motion compensation with long-term prediction, i.e. the reference frame for a current frame not being the temporally closest one
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/70Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by syntax aspects related to video coding, e.g. related to compression standards

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

本发明提供用于使用背景图片执行预测性随机存取的技术和系统。举例来说,对视频数据进行解码的方法包含获得包括多个图片的经编码视频位流。所述多个图片包含多个预测性随机存取图片。预测性随机存取图片是使用基于至少一个背景图片的帧间预测至少部分地经编码。所述方法进一步包含针对所述视频位流的时间实例确定所述多个预测性随机存取图片中具有在时间上与所述时间实例最接近的时戳的预测性随机存取图片。所述方法进一步包含确定与所述预测性随机存取图片相关联的背景图片,以及使用基于所述背景图片的帧间预测对所述预测性随机存取图片的至少一部分进行解码。

Description

使用背景图片执行预测性随机存取的方法和系统
技术领域
本发明大体上涉及用于视频内容的随机存取,且更具体来说涉及用于基于背景图片执行预测性随机存取的技术和系统。
背景技术
许多装置和系统允许处理和输出视频数据以用于消费。举例来说,因特网协议相机(IP相机)是可用于监控或其它应用的一种类型的数码摄像机。不同于模拟闭路电视(CCTV)相机,IP相机可经由计算机网络和因特网发送且接收数据。数字视频数据包含大量数据以满足消费者和视频供应商的需求。举例来说,视频数据的消费者希望视频具有最佳的质量以及高保真度、分辨率、帧率等等。因此,需要满足这些需求的大量视频数据给处理和存储视频数据的通信网络和装置造成了负担。
各种视频译码技术可用以压缩视频数据。根据一或多个视频译码标准执行视频译码。举例来说,视频译码标准包含高效视频译码(HEVC)、高级视频译码(AVC)、移动图片专家组(MPEG)译码或类似标准。视频译码通常使用预测方法(例如,帧间预测、帧内预测、或类似物),这些预测方法利用存在于视频图像或序列中的冗余。视频译码技术的重要目标是使用较低位速率将视频数据压缩成表格,同时避免避免最小化视频质量的降级。随着不断演进的视频服务变得可供使用,需要具有较好译码效率的编码技术。
发明内容
在一些实施例中,描述提供基于背景图片的译码方案的技术和系统。举例来说,提供可预测性地依赖于背景图片的新随机存取图片。所述新随机存取图片称为预测性随机存取图片。编码器可通过执行帧间预测且使用背景图片作为参考图片将预测性随机存取图片编码到视频位流中。解码器可接收视频位流且可使用基于背景图片的帧间预测对预测性随机存取图片进行解码。在一些实例中,可使用帧内预测或使用以背景图片作为参考图片的帧间预测对预测性随机存取图片进行译码。在此类实例中,可使帧内预测和帧间预测选项两者可用于对预测性随机存取图片进行译码。
视频分析引擎可用以为译码系统提供智能。视频分析引擎可使用来自一或多个连接网络的相机的视频数据产生一或多个背景图片。举例来说,视频分析引擎可使用背景提取(或背景减除)或其它合适的技术从一或多个所捕获视频图片产生背景图片。由视频分析提供的智能可由视频编码器使用以实现所记录视频的带宽的高效管理。
在一些实施例中,还描述用于基于背景图片和预测性随机存取图片执行随机存取的技术和系统,包含如何在位流层级以及输送和应用层级上执行随机存取。在一些实例中,描述对视频文件格式的修改以基于预测性随机存取图片实现随机存取,从而允许文件格式辨识背景图片和预测性随机存取图片且允许播放器和/或解码器利用背景图片和预测性随机存取图片用于随机存取。
根据至少一个实例,提供对视频数据进行编码的方法,其包含获得背景图片。所述背景图片是基于由图像传感器捕获的多个图片而产生,且所述背景图片经产生为包含所捕获图片中的每一个中识别的背景部分。所述方法进一步包括将由图像传感器捕获的图片群组编码到视频位流中,其中所述图片群组包括至少一个随机存取图片。对所述图片群组进行编码包括使用基于背景图片的帧间预测对所述至少一个随机存取图片的至少一部分进行编码。
在另一实例中,提供一种设备,其包含经配置以存储视频数据的存储器以及处理器。所述处理器经配置以且可以获得背景图片,所述背景图片是基于由图像传感器捕获的多个图片而产生,且其中所述背景图片经产生为包含所捕获图片中的每一个中识别的背景部分。所述处理器进一步经配置以且可以将由图像传感器捕获的图片群组编码到视频位流中,其中所述图片群组包括至少一个随机存取图片,其中对所述图片群组进行编码包括使用基于背景图片的帧间预测对所述至少一个随机存取图片的至少一部分进行编码。
在另一实例中,提供一种计算机可读媒体,其上存储有指令,所述指令在由处理器执行时执行包含以下各项的方法:获得背景图片,所述背景图片是基于由图像传感器捕获的多个图片而产生,且其中所述背景图片经产生为包含所捕获图片中的每一个中识别的背景部分;以及将由图像传感器捕获的图片群组编码到视频位流中,其中所述图片群组包括至少一个随机存取图片,其中对所述图片群组进行编码包括使用基于背景图片的帧间预测对所述至少一个随机存取图片的至少一部分进行编码。
在另一实例中,提供一种设备,其包含:用于获得背景图片的装置,所述背景图片是基于由图像传感器捕获的多个图片而产生,且其中所述背景图片经产生为包含所捕获图片中的每一个中识别的背景部分。所述设备进一步包括用于将由图像传感器捕获的图片群组编码到视频位流中的装置,其中所述图片群组包括至少一个随机存取图片,其中对所述图片群组进行编码包括使用基于背景图片的帧间预测对所述至少一个随机存取图片的至少一部分进行编码。
在一些方面中,使用基于背景图片的帧间预测对所述至少一个随机存取图片的至少所述部分进行编码包括使用背景图片作为参考图片预测所述至少一个随机存取图片的至少所述部分。
上文对于编码视频数据所述的方法、设备和计算机可读媒体可进一步包括将背景图片编码到视频位流中。上文对于编码视频数据所述的方法、设备和计算机可读媒体可进一步包括将背景图片编码为长期参考图片。上文对于编码视频数据所述的方法、设备和计算机可读媒体可进一步包括将背景图片编码为短期参考图片。
上文对于编码视频数据所述的方法、设备和计算机可读媒体可进一步包括当背景图片经确定为可用作参考图片时使用基于所述背景图片的帧间预测对所述至少一个随机存取图片的至少所述部分进行编码。
上文对于编码视频数据所述的方法、设备和计算机可读媒体可进一步包括将0的值指派于背景图片的图片输出旗标。
上文对于编码视频数据所述的方法、设备和计算机可读媒体可进一步包括:获得经更新背景图片;以经更新背景图片代替所述背景图片;以及使用基于经更新背景图片的帧间预测对随机存取图片的至少一部分进行编码。在一些方面中,背景图片在一时间周期中在作用中,且在所述时间周期的到期之后即刻获得经更新背景图片。
在一些方面中,所述图片群组进一步包括按解码次序跟随所述至少一个随机存取图片且按输出次序先于所述至少一个随机存取图片的至少一个图片,其中所述至少一个随机存取图片允许使用按解码次序先于所述至少一个随机存取图片的一或多个图片预测所述至少一个图片。
在一些方面中,所述图片群组进一步包括按解码次序跟随所述至少一个随机存取图片且按输出次序先于所述至少一个随机存取图片的至少一个图片,其中所述至少一个随机存取图片不允许使用除背景图片外按解码次序先于所述至少一个随机存取图片的任何图片预测所述至少一个图片。
在一些方面中,所述图片群组包含含有所述至少一个随机存取图片的至少一部分的至少一个网络抽象层单元,其中所述至少一个网络抽象层单元的标头包括经指派于使用基于一或多个背景图片的帧间预测经编码的随机存取图片的网络抽象层单元的随机存取图片类型指示。
在一些方面中,所述图片群组包含含有背景图片的至少一部分的至少一个网络抽象层单元,其中所述至少一个网络抽象层单元的标头包括背景图片类型指示。
在一些方面中,背景图片包含使用统计模型产生的合成背景图片。
在一些方面中,背景图片包含半合成背景图片,其中所述半合成背景的背景像素是从当前图片的背景像素值确定,且其中所述半合成背景的前景像素是从统计模型的期望确定。
在一些方面中,背景图片包含非合成背景图片,且其中在当前图片与合成背景图片之间的像素值的相似性在阈值内时所述非合成背景图片经设定为当前图片。
在一些方面中,背景图片包含非合成背景图片,且其中在当前图片与合成背景图片之间的像素值的相似性在阈值之外时,所述非合成背景图片是选自在时间上在当前图片之前发生的一或多个图片。
根据另一实例,提供对视频数据进行解码的方法,其包含获得包括多个图片的经编码视频位流。所述多个图片包括多个预测性随机存取图片。预测性随机存取图片是使用基于至少一个背景图片的帧间预测至少部分地经编码。所述方法进一步包括针对视频位流的时间实例确定所述多个预测性随机存取图片中具有在时间上与所述时间实例最接近的时戳的预测性随机存取图片。所述方法进一步包括确定与预测性随机存取图片相关联的背景图片,以及使用基于背景图片的帧间预测对预测性随机存取图片的至少一部分进行解码。
在另一实例中,提供一种设备,其包含经配置以存储视频数据的存储器以及处理器。所述处理器经配置以且可以获得包括多个图片的经编码视频位流。所述多个图片包括多个预测性随机存取图片。预测性随机存取图片是使用基于至少一个背景图片的帧间预测至少部分地经编码。所述处理器进一步经配置以且可以针对视频位流的时间实例确定所述多个预测性随机存取图片中具有在时间上与所述时间实例最接近的时戳的预测性随机存取图片。所述处理器进一步经配置以且可以确定与预测性随机存取图片相关联的背景图片。所述处理器进一步经配置以且可以使用基于背景图片的帧间预测对预测性随机存取图片的至少一部分进行解码。
在另一实例中,提供一种计算机可读媒体,其上存储有指令,所述指令在由处理器执行时执行包含以下各项的方法:获得包括多个图片的经编码视频位流,其中所述多个图片包括多个预测性随机存取图片,且其中预测性随机存取图片是使用基于至少一个背景图片的帧间预测至少部分地经编码;针对视频位流的时间实例确定所述多个预测性随机存取图片中具有在时间上与所述时间实例最接近的时戳的预测性随机存取图片;确定与预测性随机存取图片相关联的背景图片;以及使用基于背景图片的帧间预测对预测性随机存取图片的至少一部分进行解码。
在另一实例中,提供一种设备,其包含用于获得包括多个图片的经编码视频位流的装置。所述多个图片包括多个预测性随机存取图片。预测性随机存取图片是使用基于至少一个背景图片的帧间预测至少部分地经编码。所述设备进一步包括用于针对视频位流的时间实例确定所述多个预测性随机存取图片中具有在时间上与所述时间实例最接近的时戳的预测性随机存取图片的装置。所述设备进一步包括用于确定与预测性随机存取图片相关联的背景图片的装置,以及用于使用基于背景图片的帧间预测对预测性随机存取图片的至少一部分进行解码的装置。
在一些方面中,与预测性随机存取图片相关联的背景图片按解码次序先于所述预测性随机存取图片,且具有在时间上与所述预测性随机存取图片的时戳最接近的时戳。
在一些方面中,上文对于解码视频数据所述的方法、设备和计算机可读媒体可进一步包括接收指示预测性随机存取图片具有预测性随机存取类型的消息。
在一些方面中,上文对于解码视频数据所述的方法、设备和计算机可读媒体可进一步包括接收指示背景图片具有背景图片类型的消息。
在一些方面中,所述多个图片进一步包括按解码次序跟随所述预测性随机存取图片且按输出次序先于所述预测性随机存取图片的至少一个图片,其中所述至少一个图片包含指示所述至少一个图片与预测性随机存取图片相关联的消息。
在一些方面中,所述至少一个图片包含预测性随机存取可解码前导图片。
在一些方面中,所述至少一个图片包含预测性随机存取跳过前导图片。
在一些方面中,使用基于背景图片的帧间预测对所述预测性随机存取图片的至少所述部分进行解码包括使用背景图片作为参考图片预测所述预测性随机存取图片的至少所述部分。
在一些方面中,背景图片经编码到视频位流中。在一些方面中,背景图片经编码为长期参考图片。在一些方面中,背景图片经编码为短期参考图片。
在一些方面中,所述多个图片包含含有预测性随机存取图片的至少一部分的至少一个网络抽象层单元,其中所述至少一个网络抽象层单元的标头包括经指派于使用基于一或多个背景图片的帧间预测经编码的随机存取图片的网络抽象层单元的预测性随机存取图片类型指示。
在一些方面中,所述多个图片包含含有背景图片的至少一部分的至少一个网络抽象层单元,其中所述至少一个网络抽象层单元的标头包括背景图片类型指示。
本发明内容并不意图识别所要求的标的物的关键特征或基本特征,也并非意图单独用于确定所要求的标的物的范围。标的物应参考此专利的整个说明书的适当部分、任何或所有图式以及每一权利要求来理解。
在参考以下说明书、权利要求书以及附图之后,前述内容连同其它特征和实施例将变得更显而易见。
附图说明
下文参考以下图式详细描述本发明的说明性实施例:
图1是根据一些实施例说明编码装置和解码装置的实例的框图。
图2是根据一些实施例的经编码视频位流的图片的实例。
图3是根据一些实施例的经编码视频位流的图片的另一实例。
图4是根据一些实施例的ISO基础媒体文件格式中的文件的实例。
图5是说明根据一些实施例使用来自视频分析的智能的译码系统的实例的框图。
图6是根据一些实施例的包含背景图片和预测性随机存取图片的经编码视频位流的图片的实例。
图7是根据一些实施例的在模拟测试中使用的场景的快照的实例。
图8是根据一些实施例的在模拟测试中使用的场景的快照的实例。
图9是根据一些实施例的在模拟测试中使用的场景的快照的实例。
图10是根据一些实施例的在模拟测试中使用的场景的快照的实例。
图11是说明根据一些实施例的对视频数据进行编码的过程的实施例的流程图。
图12是说明根据一些实施例的对视频数据进行解码的过程的实施例的流程图。
图13是说明根据一些实施例的实例视频编码装置的框图。
图14是说明根据一些实施例的实例视频解码装置的框图。
具体实施方式
下文提供了本发明的某些方面和实施例。如对于所属领域的技术人员来说将显而易见的是,这些方面和实施例中的一些可以独立地应用并且它们中的一些可以组合应用。在以下描述中,出于说明的目的,阐述特定细节以便提供对本发明的实施例的透彻理解。然而,将显而易见的是,可在无这些特定细节的情况下实践各种实施例。图式和描述并不意图为限制性的。
以下描述仅提供示范性实施例,且并不意图限制本发明的范围、适用性或配置。实际上,示范性实施例的以下描述将为所属领域的技术人员提供用于实施示范性实施例的启发性描述。应理解,在不脱离如在所附权利要求书中所阐述的本发明的精神和范围的情况下,可对元件的功能和布置进行各种改变。
在以下描述中给出特定细节以提供对实施例的透彻理解。然而,本领域的技术人员应理解,可以在没有这些具体细节的情况下实践所述实施例。举例来说,电路、系统、网络、工艺和其它组件可以框图形式展示为组件以免以不必要的细节混淆实施例。在其它情况下,可以在没有不必要的细节的情况下示出熟知的电路、过程、算法、结构以及技术以便避免混淆实施例。
此外,应注意,个别实施例可描述为经描绘为流程图、作业图、数据流图、结构图或框图的过程。尽管流程图可以将操作描述为顺序过程,但是许多操作可以并行或同时执行。另外,操作的顺序可重新安排。过程在过程的操作完成时终止,但是可以具有不包含在图中的额外步骤。过程可对应于方法、功能、程序、子例程、子程序等。当过程对应于函数时,过程的终止可对应于函数返回到调用函数或主函数。
术语“计算机可读媒体”包含但不限于便携式或非便携式存储装置、光学存储装置以及能够存储、包含或运载指令和/或数据的各种其它媒体。计算机可读媒体可能包含非暂时性媒体,在非暂时性媒体中可以存储数据,并且非暂时性媒体并不包含无线地或在有线连接上传播的载波和/或暂时性电子信号。非暂时性媒体的实例可包含(但不限于)磁盘或磁带、光学存储媒体,例如光盘(CD)或数字通用光盘(DVD)、快闪存储器、存储器或存储器装置。计算机可读媒体可具有存储在其上的可表示过程、函数、子程序、程序、例程、子例程、模块、软件包、类别的代码和/或机器可执行指令,或指令、数据结构或程序语句的任何组合。一个代码段可通过传递及/或接收信息、数据、自变量、参数或存储器内容耦合到另一代码段或硬件电路。信息、自变量、参数、数据等可经由包含存储器共享、消息传递、令牌传递、网络传输或类似者的任何合适的装置传递、转发或传输。
此外,实施例可以由硬件、软件、固件、中间件、微码、硬件描述语言或其任何组合来实施。当以软件、固件、中间件或微码实施时,用以执行必要任务的程序代码或代码段(例如,计算机程序产品)可存储在计算机可读或机器可读媒体中。处理器可以执行必要任务。
随着越来越多的装置和系统为消费者提供消费数字视频数据的能力,对于高效视频译码技术的需要变得越来越重要。需要视频译码以减少处理存在于数字视频数据中的大量数据所必需的存储和传输需要。各种视频译码技术可用以在维持高视频质量的同时将视频数据压缩成使用较低位速率的形式。
本文中描述使用视频编码器、解码器和其它译码处理装置进行视频译码的若干系统和方法。举例来说,描述译码的一或多个系统和方法,其利用由视频分析提供的智能来实现所记录视频的带宽的高效管理。视频分析可用以为译码系统提供智能,包含产生可用作用于对新类型的随机存取图片进行译码的参考图片的背景图片,所述新类型的随机存取图片在下文称为预测性随机存取图片。预测性随机存取图片可预测性地取决于背景图片。举例来说,通过使用一或多个背景图片作为参考图片执行帧间预测可将一或多个预测性随机存取图片编码到视频位流中。接收视频位流的解码器可通过使用背景图片中的一或多个执行帧间预测而对预测性随机存取图片中的一或多个进行解码。在一些情况下,可替代地使用帧内预测对预测性随机存取图片进行译码,其中帧内预测和帧间预测(基于背景图片)均可用于对预测性随机存取图片进行译码。还描述用于基于背景图片和预测性随机存取图片而执行随机存取的系统和方法,包含如何在位流层级和输送/应用层级执行此随机存取的技术。
图1是说明包含编码装置104和解码装置112的系统100的实例的框图。编码装置104可为源装置的一部分,且解码装置112可为接收装置的一部分。源装置和/或接收装置可能包含电子装置,例如,移动或静止电话手持机(例如,智能电话、蜂窝式电话或类似物)、桌上型计算机、膝上型计算机或笔记本计算机、平板计算机、机顶盒、电视、相机、显示装置、数字媒体播放器、视频游戏控制台、视频流式传输装置或任何其它合适的电子装置。在一些实例中,源装置和接收装置可以包含一或多个无线收发器以用于无线通信。本文所描述的译码技术适用于各种多媒体应用中的视频译码,包含串流视频传输(例如,经由因特网)、电视广播或传输、用于数据存储媒体上的存储的数字视频的编码、存储于数据存储媒体上的数字视频的解码,或其它应用。在一些实例中,系统100可以支持单向或双向视频传输,以支持例如视频会议、视频流式传输、视频重放、视频广播游戏和/或视频电话的应用。
编码装置104(或编码器)可用以使用视频译码标准或协议对视频数据进行编码以产生经编码视频位流。视频译码标准包含ITU-T H.261、ISO/IEC MPEG-1视觉、ITU-T H.262或ISO/IEC MPEG-2视觉、ITU-T H.263、ISO/IEC MPEG-4视觉、ITU-T H.264(也被称为ISO/IEC MPEG-4AVC),包含其可缩放视频译码(SVC)和多视图视频译码(MVC)扩展。更为新近的视频译码标准、高效视频译码(HEVC)已经由ITU-T视频译码专家组(VCEG)和ISO/IEC动画专家组(MPEG)的视频译码联合协作小组(JCT-VC)完成。HEVC的各种扩展涉及多层视频译码并且也是由JCT-VC研发出来的,所述扩展包含HEVC的多视图扩展(被称作MV-HEVC)以及HEVC的可缩放扩展(被称作SHVC),或任何其它合适的译码协议。
本文中描述的许多实施例使用HEVC标准或其扩展来描述实例。然而,本文所描述的技术和系统也可以适用于其它译码标准,例如AVC、MPEG、其扩展,或已经可用或尚未可用或待开发的其它合适的译码标准。相应地,虽然本文中描述的技术和系统可以参考特定视频译码标准描述,但是所属领域的一般技术人员将理解描述不应解释为仅适用于特定标准。
视频源102可将视频数据提供到编码装置104。视频源102可为源装置的一部分,或可为除源装置以外的装置的一部分。视频源102可包含视频捕获装置(例如,摄像机、相机电话、视频电话或类似者)、含有所存储的视频的视频存档、提供视频数据的视频服务器或内容提供商、从视频服务器或内容提供商接收视频的视频馈送接口、用于产生计算机图形视频数据的计算机图形系统、此类来源的组合,或任何其它合适的视频源。视频源102的一个实例可包含因特网协议相机(IP相机)。IP相机是可用于监控、家庭安全性或其它合适应用的一类数字摄像机。不同于模拟闭路电视(CCTV)相机,IP相机可经由计算机网络和因特网发送且接收数据。
来自视频源102的视频数据可以包含一或多个输入图片或帧。图片或帧是视频的一部分的静态图像。编码装置104的编码器引擎106(或编码器)对视频数据进行编码以产生经编码视频位流。在一些实例中,经编码视频位流(或“视频位流”或“位流”)是一系列一或多个经译码视频序列。经译码视频序列(CVS)包含一系列存取单元(AU),从具有基础层中的随机存取点图片且具有某些性质的AU开始,直到具有基础层中的随机存取点图片且具有某些性质的下一AU且不包含所述下一AU。举例来说,开始CVS的随机存取点图片的某些性质可以包含等于1的RASL旗标(例如,NoRaslOutputFlag)。否则,随机存取点图片(具有等于0的RASL旗标)不开始CVS。存取单元(AU)包含一或多个经译码图片以及对应于共享同一输出时间的经译码图片的控制信息。图片的经译码切片在位流层级中囊封于数据单元中,称为网络抽象层(NAL)单元。举例来说,HEVC视频位流可以包含一或多个包含NAL单元的CVS。NAL单元中的每一者具有NAL单元标头。在一个实例中,标头对于H.264/AVC是一个字节(多层扩展除外)且对于HEVC是两个字节。NAL单元标头中的语法元素采取指定位并且因此对所有种类的系统和输送层可见,例如输送流、实时输送(RTP)协议、文件格式等等。
在HEVC标准中存在两类NAL单元,包含视频译码层(VCL)NAL单元和非VCL NAL单元。VCL NAL单元包含经译码图片数据的一个切片或切片片段(下文描述),且非VCLNAL单元包含与一或多个经译码图片有关的控制信息。HEVC AU包含含有经译码图片数据的VCL NAL单元以及对应于经译码图片数据的非VCL NAL单元(如果存在)。
NAL单元可含有形成视频数据的经译码表示(例如,经编码视频位流、位流的CVS或类似物)的位序列,例如视频中的图片的经译码表示。编码器引擎106通过将每一图片分割成多个切片来产生图片的经译码表示。切片不依赖于其它切片,以使得所述切片中的信息得到译码而无需依赖于来自相同图片内的其它切片的数据。切片包含一或多个切片片段,包含独立的切片片段,并且如果存在的话,包含取决于先前切片片段的一或多个依赖性切片片段。切片随后被分割成明度样本和色度样本的译码树块(CTB)。明度样本的CTB和色度样本的一或多个CTB连同样本的语法一起被称作译码树单元(CTU)。CTU是用于HEVC编码的基本处理单元。CTU可以被分裂成不同大小的多个译码单元(CU)。CU包含被称作译码块(CB)的明度和色度样本阵列。
明度和色度CB可进一步分裂成预测块(PB)。PB是将相同运动参数用于帧间预测的明度或色度分量的样本的块。明度PB和一或多个色度PB连同相关联的语法形成预测单元(PU)。在位流中针对每个PU用信号表示运动参数集合,并且所述运动参数集合用于明度PB和一或多个色度PB的帧间预测。CB也可以被分割成一或多个变换块(TB)。TB表示色彩分量的样本的正方形块,对所述色彩分量的相同二维变换应用于对预测残余信号进行译码。变换单元(TU)表示明度和色度样本的TB以及对应的语法元素。
CU的大小对应于译码节点的大小,并且形状可为正方形。举例来说,CU的大小可以是8x8个样本、16x16个样本、32x32个样本、64x64个样本,或高达对应的CTU的大小的任何其它适当大小。短语“NxN”在本文中用以在垂直和水平尺寸方面指视频块的像素尺寸(例如,8像素x8像素)。块中的像素可按行和列布置。在一些实施例中,块可在水平方向上不具有与在垂直方向上相同数目的像素。举例来说,与CU相关联的语法数据可描述将CU分割成一或多个PU。分割模式可在CU经帧内预测模式编码或是经帧间预测模式编码之间有所不同。PU可被分割成非正方形形状。举例来说,与CU相关联的语法数据还可描述例如CU根据CTU分割成一或多个TU。TU可为正方形或非正方形形状。
根据HEVC标准,使用变换单元(TU)执行变换。TU可以针对不同CU发生改变。TU可以基于给定CU内的PU的大小而设定大小。TU可与PU大小相同或小于PU。在一些实例中,对应于CU的残余样本可使用被称为“残余四叉树”(RQT)的四叉树结构细分成较小单元。RQT的叶节点可以对应于TU。可以对与TU相关联的像素差值进行变换以产生变换系数。变换系数可随后通过编码器引擎106进行量化。
一旦视频数据的图片被分割成CU,则编码器引擎106使用预测模式预测每个PU。随后从原始视频数据中减去预测以获得残余(下文描述)。对于每个CU,可以在位流内部使用语法数据用信号表示预测模式。预测模式可以包含帧内预测(或图片内预测)或帧间预测(或图片间预测)。使用帧内预测,每个PU是从相同图片中的相邻图像数据中预测的,方法是使用例如DC预测以寻找PU的平均值、使用平面预测以配合PU的规划表面、使用方向预测以从相邻数据中进行推断,或者使用任何其它合适类型的预测。使用帧间预测,每个PU是使用运动补偿预测从一或多个参考图片中的图像数据预测的(在当前图片按输出次序之前或之后)。举例来说,可以在CU层级作出是使用图片间还是图片内预测对图片区域进行译码的决策。在一些实例中,图片的一或多个切片被指派切片类型。切片类型包含I切片、P切片和B切片。I切片(帧内、可独立解码)是图片的仅通过帧内预测经译码的切片,并且因此可独立解码,因为I切片仅需要帧内的数据来预测切片的任何块。P切片(单向预测帧)是图片的可以通过帧内预测和单向帧间预测译码的切片。P切片内的每一块是通过帧内预测或帧间预测译码的。当帧间预测适用时,仅通过一个参考图片来预测块,并且因此参考样本仅来自一个帧的一个参考区。B切片(双向预测性帧)是图片的可以通过帧内预测和帧间预测译码的切片。B切片的块可以从两个参考图片双向预测,其中每一图片贡献一个参考区且所述两个参考区的样本集合经加权(例如,以相等权重)以产生双向经预测块的预测信号。如上文所解释,一个图片的切片独立地经译码。在一些情况下,图片可经译码为仅一个切片。
PU可以包含与预测过程相关的数据。举例来说,当PU使用帧内预测编码时,PU可包含描述PU的帧内预测模式的数据。作为另一实例,当PU使用帧间预测编码时,PU可以包含界定PU的运动向量的数据。定义PU的运动向量的数据可描述(例如)运动向量的水平分量、运动向量的垂直分量、运动向量的分辨率(例如,四分之一像素精度或八分之一像素精度)、运动向量所指向的参考图片,及/或运动向量的参考图片列表(例如,列表0、列表1或列表C)。
编码装置104接着可执行变换和量化。举例来说,在预测之后,编码器引擎106可以计算对应于PU的残余值。残余值可包括像素差值。与预测执行之后可能剩余的任何残余数据是使用块变换进行变换的,该块变换可以基于离散余弦变换、离散正弦变换、整数变换、小波变换或其它合适的变换功能。在一些情况下,一或多个块变换(例如,大小32x32、16x16、8x8、4x4或类似者)可应用于每一CU中的残余数据。在一些实施例中,TU可用于由编码器引擎106实施的变换和量化过程。给定的具有一或多个PU的CU还可包含一或多个TU。如下文中进一步描述,可使用块变换将残余值变换成变换系数,且接着可使用TU对其进行量化和扫描以产生用于熵译码的串行化变换系数。
在一些实施例中,在使用CU的PU的帧内预测性或帧间预测性译码后,编码器引擎106可以计算CU的TU的残余数据。PU可以包括空间域(或像素域)中的像素数据。TU可包括在块变换的应用之后的变换域中的系数。如前文所述,残余数据可以对应于在未经编码图片的像素与对应于PU的预测值之间的像素差值。编码器引擎106可形成包含CU的残余数据的TU,并且接着可变换TU以产生CU的变换系数。
编码器引擎106可以执行变换系数的量化。量化通过对变换系数进行量化以减小用于表示系数的数据的量来提供进一步压缩。举例来说,量化可以减小与系数中的一些或全部相关联的位深度。在一个实例中,可在量化期间将具有n位值的系数向下舍入到m位值,其中n大于m。
一旦执行量化,经译码视频位流便包含经量化变换系数、预测信息(例如,预测模式、运动向量或类似物)、分割信息,以及任何其它合适的数据,例如其它语法数据。经译码视频位流的不同元素随后可以由编码器引擎106进行熵编码。在一些实例中,编码器引擎106可以利用预定义扫描次序扫描经量化变换系数以产生可经熵编码的串行化向量。在一些实例中,编码器引擎106可以执行自适应扫描。在扫描经量化变换系数以形成向量(例如,一维向量)之后,编码器引擎106可以对向量进行熵编码。举例来说,编码器引擎106可以使用上下文适应性可变长度译码、上下文自适应二进制算术译码、基于语法上下文自适应二进制算术译码的、概率区间分割熵译码或另一合适的熵编码技术。
编码装置104的输出110可以将构成经编码视频位流数据的NAL单元经由通信链路120发送到接收装置的解码装置112。解码装置112的输入114可以接收NAL单元。通信链路120可以包含由无线网络、有线网络或有线和无线网络的组合提供的信道。无线网络可以包含任何无线接口或无线接口的组合并且可以包含任何合适的无线网络(例如,因特网或其它广域网、基于数据包的网络、WiFiTM、射频(RF)、UWB、WiFi-Direct、蜂窝式、长期演进(LTE)、WiMaxTM或类似物)。有线网络可以包含任何有线接口(例如,纤维、以太网、电力线以太网、同轴电缆上的以太网、数字信号线(DSL)或类似物)。有线和/或无线网络可以使用各种设备实施,例如,基站、路由器、存取点、桥接、网关、开关或类似物。经编码视频位流数据可以根据例如无线通信协议等通信标准来调制,且发射到接收装置。
在一些实例中,编码装置104可以在存储装置108中存储经编码视频位流数据。输出110可以从编码器引擎106或从存储装置108检索经编码视频位流数据。存储装置108可以包含多种分布式或本地存取的数据存储媒体中的任一种。举例来说,存储装置108可以包含硬盘驱动器、存储盘、快闪存储器易失性或非易失性存储器或用于存储经编码的视频数据的任何其它合适的数字存储媒体。
解码装置112的输入114接收经编码视频位流数据,且可将视频位流数据提供到解码器引擎116或存储装置118以用于由解码器引擎116稍后使用。解码器引擎116可通过熵解码(例如,使用熵解码器)和提取构成经编码视频数据的一或多个经译码视频序列的元素对经编码视频位流数据进行解码。解码器引擎116可随后重新按比例缩放并且对经编码视频位流数据执行逆变换。随后将残余数据传递到解码器引擎116的预测级。解码器引擎116随后预测像素块(例如,PU)。在一些实例中,将预测添加到逆变换的输出(残余数据)。
解码装置112可以将经解码视频输出到视频目的地装置122,所述目的地装置可以包含显示器或其它输出装置以用于向内容的消费者显示经解码视频数据。在一些方面,视频目的地装置122可以是包含解码装置112的接收装置的一部分。在一些方面,视频目的地装置122可为不同于接收装置的单独装置的一部分。
补充增强信息(SEI)消息可包含在视频位流中。举例来说,SEI消息可用以运载对于由解码装置112解码位流并不重要的信息(例如,元数据)。此信息有用于改善经解码输出的显示或处理(例如,此信息可由解码器侧实体使用以改善内容的可观看性)。
在一些实施例中,视频编码装置104和/或视频解码装置112可以相应地与音频编码装置和音频解码装置集成。视频编码装置104和/或视频解码装置112还可以包含实施上文所述的译码技术所必需的其它硬件或软件,例如,一或多个微处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)、离散逻辑、软件、硬件、固件或其任何组合。视频编码装置104和视频解码装置112可以集成为相应的装置中的组合编码器/解码器(编解码器)的一部分。下文参考图13描述编码装置104的具体细节的实例。下文参考图14描述解码装置112的具体细节的实例。
对HEVC标准的扩展包含称为MV-HEVC的多视图视频译码扩展以及称为SHVC的可缩放视频译码扩展。MV-HEVC和SHVC扩展共享分层译码的概念,分层译码具有包含于经编码视频位流中的不同层。经译码视频序列中的每一层通过唯一层识别符(ID)寻址。层ID可以存在于NAL单元的标头中以标识NAL单元相关联的层。在MV-HEVC中,不同层可表示所述视频位流中的同一场景的不同视图。在SHVC中,提供表示不同空间分辨率(或图象分辨率)或不同重建保真度的视频位流的不同可缩放层。可缩放层可以包含基础层(具有层ID=0)和一或多个增强层(具有ID=1、2……n)。基础层可以符合HEVC的第一版本的简档,并且表示在位流中的最低可用层。与基础层相比,增强层具有增加的空间分辨率、时间分辨率或帧速率和/或重构保真度(或质量)。增强层是阶层式组织的并且可(或可不)依赖于较低层。在一些实例中,不同层可以使用单个标准编解码器译码(例如,全部层使用HEVC、SHVC或其它译码标准进行编码)。在一些实例中,可使用多标准编解码器对不同层进行译码。举例来说,基础层可以使用AVC进行译码,而一或多个增强层可以使用HEVC标准的SHVC和/或MV-HEVC扩展进行译码。
一般来说,层包含VCL NAL单元集合和对应的非VCL NAL单元集合。NAL单元被指派特定层ID值。在层可依赖于较低层的意义上,层可为阶层式的。层集合是指在位流内表示的自含式的层集合,意指层集合内的层可能在解码过程中依赖于层集合中的其它层,但并不依赖于任何其它层来进行解码。因此,层集合中的层可形成可表示视频内容的独立位流。可通过子位流提取过程的操作从另一位流获得层集合中的层的集合。层集合可对应于在解码器希望根据某些参数进行操作时将被解码的层集。
如先前描述,HEVC位流包含NAL单元的群组,包含VCL NAL单元和非VCL NAL单元。除其它信息之外,非VCL NAL单元还可含有具有与经编码视频位流有关的高层级信息的参数集。举例来说,参数集可包含视频参数集(VPS)、序列参数集(SPS)和图片参数集(PPS)。参数集的目标的实例包含位速率效率、错误弹性以及提供系统层接口。每一切片参考单个激活的PPS、SPS和VPS以存取解码装置112可以用于解码切片的信息。可译码用于每一参数集的标识符(ID),包含VPS ID、SPS ID和PPS ID。SPS包含SPS ID和VPS ID。PPS包含PPS ID和SPS ID。每一切片标头包含PPS ID。使用ID,可标识针对给定切片的活动的参数集。
PPS包含适用于给定图片中的全部切片的信息。因为这一点,图片中的全部切片引用相同PPS。不同图片中的切片也可以引用相同PPS。SPS包含适用于相同经译码视频序列或位流中的所有图片的信息。经译码视频序列是一系列存取单元,这些存取单元开始于随机存取点图片(例如,瞬时解码刷新(IDR)图片或断链存取(BLA)图片,或其它适当的随机存取点图片)并且包含多达所有存取单元,但不包含下一随机存取点图片(或位流的端部)。SPS中的信息并不通常在经译码视频序列内在图片之间发生改变。经译码视频序列中的所有图片使用相同SPS。VPS包含适用于经译码视频序列或位流中的所有层的信息。VPS包含具有适用于整个经译码视频序列的语法元素的语法结构。在一些实施例中,VPS、SPS或PPS可以与经编码位流一起带内发射。在一些实施例中,VPS、SPS或PPS与含有经译码视频数据的NAL单元相比可以在单独传输中带外发射。
VCL NAL单元包含形成经译码视频位流的经译码图片数据。在HEVC标准中定义各种类型VCL NAL单元,如下方表A中所说明。
表A
在单层位流中,如第一HEVC标准中定义,包含于AU中的VCL NAL单元具有相同NAL单元类型值,所述NAL单元类型值界定AU的类型以及AU内的经译码图片的类型。举例来说,特定AU的VCL NAL单元可以包含瞬时解码刷新(IDR)NAL单元(值19),从而使AU为IDR AU且使AU的经译码图片为IDR图片。给定类型的VCL NAL单元与包含于VCL NAL单元中的图片或其部分(例如,VCL NAL单元中的图片的切片或切片片段)相关。HEVC标准中定义三类图片,包含前导图片、拖尾图片以及帧内随机存取(IRAP)图片(也被称作“随机存取图片”)。在多层位流中,AU内的图片的VCL NAL单元具有相同NAL单元类型值和相同类型的经译码图片。举例来说,含有类型IDR的VCL NAL单元的图片称为AU中的IDR图片。在另一实例中,当AU含有作为在基础层(层ID等于0)的IRAP图片的图片时,AU是IRAP AU。
图2是包含IRAP图片I1以及与IRAP图片I1相关联的前导和拖尾图片的经编码视频位流的图片的实例。所述图片在箭头202的方向上按输出次序线性地显示,且数字1-8(I1、B2、B3、B4、P5、B6、B7、B8)指示图片的解码次序。IRAP图片提供位流中解码可开始于的点。举例来说,解码可开始于IRAP图片,以使得按输出次序跟随IRAP图片的图片(包含性)可输出,即使按解码次序先于所述IRAP图片的所有图片从位流丢弃(例如,由于位流拼接或类似情况)也是如此。因为有可能在IRAP图片处开始解码,所以IRAP图片不依赖于位流中的任何其它图片。举例来说,IRAP图片属于时间子层0且不使用任何其它图片的内容作为参考数据而经译码(例如,使用帧内预测译码)。位流的第一图片是IRAP图片,且其它IRAP图片也可以存在于位流中。在多层位流中,具有大于0的层ID(除基础层外的层)的IRAP图片可以使用层间预测。举例来说,IRAP图片可以基于属于同一存取单元且具有较低层ID的图片而使用层间预测。如下所述,描述可使用帧间预测以背景图片作为参考图片而经译码的新预测性随机存取图片。
图片B2、B3和B4包含IRAP图片I1的前导图片。前导图片是按解码次序跟随IRAP图片但按输出次序先于IRAP图片的图片。如图2中说明,前导图片B2、B3和B4按解码次序在IRAP图片I1之后,且按输出次序出现在IRAP图片I1之前。在一些实施例中,前导图片使用上方表A中示出的前导图片NAL单元类型6-9中的一种。
图片P5、B6、B7和B8包含IRAP图片I1的拖尾图片。拖尾图片是按解码次序且按输出次序跟随IRAP图片的图片。如图2中说明,拖尾图片P5、B6、B7和B8按解码次序并且还按输出次序跟随IRAP图片I1。拖尾图片使用上方表A中示出的拖尾图片NAL单元类型0-5中的一种。
前导图片和拖尾图片与按解码次序最接近的IRAP图片(在图2中的图片I1)相关联。在一些实施例中,IRAP图片以及其相关联拖尾和前导图片的解码次序是基于前导和拖尾图片的某些条件而界定。举例来说,拖尾图片依赖于相关联IRAP图片和同一IRAP图片的其它拖尾图片。与IRAP图片相关联的拖尾图片并不依赖于任何前导图片,并且还并不依赖于先前IRAP图片的任何拖尾图片。与IRAP图片相关联的前导图片先于与同一IRAP图片相关联的拖尾图片(按解码次序)。基于这些条件以及此处未列出的相似其它条件,IRAP图片I1及其相关联拖尾和前导图片的解码次序是:IRAP图片I1,接着是拖尾图片B2、B3、B4,接着是前导图片P5、B6、B7、B8。
各种类型的拖尾图片、前导图片和IRAP图片是可用的。举例来说,拖尾图片包含时间子层存取(TSA)图片、逐步时间子层存取(STSA)图片和普通拖尾图片(TRAIL)。TSA图片指示切换可在该处发生直到任何较高子层的时间子层切换点。STSA图片指示切换可在该处发生到具有与STSA图片相同的时间层识别符的子层的时间子层切换点。TSA和STSA图片属于具有大于0的时间识别符的时间子层。TRAIL图片可属于任何时间子层,且不指示时间子层切换点。在多层位流中,属于具有大于0的层ID的层的STSA图片也可属于具有等于0的时间子层的时间子层。
前导图片类型包含随机存取可解码前导(RADL)图片和随机存取跳过前导(RASL)图片。RADL图片是当在RADL图片所关联的IRAP图片处执行随机存取时可解码的前导图片。在一些实施例中,RADL图片为了预测目的而仅参考相关联IRAP图片以及还与IRAP图片相关联的其它RADL图片。RASL图片是当从相关联IRAP图片执行随机存取时可能不可解码的前导图片。当RASL图片用于参考的图片按解码次序先于IRAP图片时所述RASL图片是不可解码的。RASL图片不可解码是因为在IRAP图片处执行随机存取的解码器将不对按解码次序先于IRAP图片的图片进行解码,且因此也将不对所述RASL图片进行解码。RASL图片可参考其它类型的图片(例如,IRAP图片、其它RASL图片、RADL图片或类似图片)。在一些实例中,仅RASL图片可依赖于其它RASL图片,在此情况下依赖于RASL图片的每个图片是RASL图片。
随机存取是用于视频编解码器的重要特征。举例来说,随机存取用于视频流式传输、视频广播、多方视频电话以及许多其它应用,以调入到视频序列。基于随机存取点(例如,IRAP图片),可例如在将到达所关注的特定帧而待解码的图片数目方面使视频编辑或分析更容易。不同类型的随机存取图片用于对视频数据进行译码且允许随机存取,包含瞬时解码刷新(IDR)图片、清洁随机存取(CRA)图片和断链存取(BLA)图片。在H.264/AVC中,随机存取图片经译码为IDR图片。IDR图片是在解码器处完全刷新或重新初始化解码过程且开始新CVS的帧内图片(I图片)。举例来说,IDR图片不仅经译码为I图片,而且在解码次序上打破时间预测。IDR图片和按解码次序跟随IDR图片的任何图片无法依赖于按解码次序出现在IDR图片之前的任何图片。因此,按解码次序跟随IDR图片的图片无法使用在IDR图片之前解码的图片作为参考。在一些情况下,不允许RASL图片与IDR图片相关联。
图3是包含IDR图片的经编码视频位流的图片的实例。所述位流包含具有四个时间层级的阶层式B图片译码以及为8的图片群组(GOP)大小。图片在箭头302的方向上按输出次序线性地显示。如图3所示,第一经帧内译码的图片(I0)是IDR图片。应注意,由于预测结构,经译码视频序列中的图片的显示次序和解码次序可能不相同。属于某一预测结构的图片可被称为图片群组(GOP)。
在HEVC中,除IDR图片之外还定义更多类型的随机存取图片。举例来说,为了改善译码效率,HEVC中的CRA图片允许按解码次序跟随CRA图片但按输出次序先于CRA图片的图片使用在CRA图片之前经解码的图片作为参考,同时仍允许与IDR图片相似的清洁随机存取功能性。如图3中所示出,如果按显示次序16的图片作为I图片经译码,那么其实际是CRA图片。通过保证按解码和输出次序(也被称作“显示次序”)均跟随CRA图片的图片在随机存取于所述CRA图片处执行的情况下是可解码的而确保清洁随机存取。在一些方面中,CRA图片是I图片。CRA图片不刷新解码器且不开始新CVS,从而允许CRA图片的前导图片依赖于按解码次序在CRA图片之前出现的图片。在一些实例中,CRA图片可以具有相关联RADL图片和RASL图片。随机存取可以在CRA图片处通过对以下各项进行解码而完成:CRA图片,与CRA图片相关联的不取决于按解码次序在所述CRA图片之前出现的任何图片的前导图片,以及按解码和输出次序跟随CRA的所有相关联图片。在一些情况下,CRA图片可以不具有相关联前导图片。在多层情况中,属于具有大于0的层ID的层的IDR或CRA图片可以是P图片或B图片,但这些图片仅可使用来自与所述IDR或CRA图片属于同一存取单元且具有小于含有所述IDR或CRA图片的层的层ID的其它图片的层间预测。在一些情况下,在HEVC中,相符位流可根本不含有IDR图片。
IRAP图片提供将位流拼接在一起的能力。举例来说,编码器、位流编辑器(或“编辑器”)、拼接器或其它网络装置可以使用IRAP图片将位流拼接在一起。位流拼接允许从一个经压缩视频位流到另一经压缩视频位流的无缝切换。举例来说,拼接通过以下方式发生:用第二经压缩位流的第二IRAP AU和后续AU替换第一经压缩位流的第一IRAP AU和所有后续AU。CRA图片可用于拼接经压缩视频位流(除随机存取之外,如先前描述)。举例来说,第一和第二IRAP AU可包含CRA图片。在一些实施例中,IDR图片可用于拼接经压缩视频位流。在一些情况下,第一AU应含有IRAP图片是不必要的。在多层位流中,当第二AU含有属于基础层的IRAP图片时拼接可发生。
在一些情况下,在拼接发生之后,按解码次序跟随CRA图片的RASL图片在如下情况下是不可解码的:所述RASL图片参考在拼接之后不再处于位流中的一或多个图片。在一些实例中,编码器、编辑器、拼接器或其它装置可以在拼接期间丢弃RASL图片。在其它实例中,断链拼接选项可用以指示:图片次序计数时间线以及从在RASL图片可以依赖于的CRA图片之前(按解码次序)的图片的预测当拼接完成时被打断。
称为断链存取(BLA)图片的第三类型的IRAP图片在以下方面类似于CRA:按解码次序跟随BLA图片但按输出次序在BLA图片之前的图片的状态。BLA图片可用以用信号表示位流拼接已完成。举例来说,BLA图片可用以向解码器告知何时拼接操作已发生,使得解码器可确定是否应当对相关联RASL图片进行解码。在拼接期间,用于拼接的新位流中的CRA图片被视为BLA图片。当执行断链拼接时,可以保持RASL图片,且遇见此BLA图片的解码器可以丢弃与所述BLA图片相关联的RASL图片。在解码器遇到CRA图片的情况下,解码器将对与CRA图片相关联的RASL图片进行解码。当解码器遇见BLA图片或CRA图片时,解码器将分别对与BLA和CRA图片相关联的所有RADL图片进行解码。BLA图片在解码器处刷新或重新初始化解码过程且开始新CVS。在一些实施例中,即使当拼接尚未发生时也可以使用BLA图片。
经解码图片可存储于缓冲器(例如,经解码图片缓冲器(DPB))中且用于较晚经解码图片(按解码次序较晚的图片)的预测。用于较晚经解码图片的预测的图片可被称为参考图片。由于缓冲区大小通常是有限的,因此需要对那些图片的管理。图片次序计数(POC)是唯一地识别图片的值。每个图片具有指派于其的POC值。POC值具有多个用途,包含唯一地识别图片,指示图片相对于同一经译码视频序列(CVS)中的其它图片的输出位置,以及在VCL解码过程内执行运动向量按比例缩放。可以使用用信号表示POC的一个或多个方式。举例来说,用于特定经译码图片的由PicOrderCntVal表示的图片次序计数(POC)的值表示所述图片在图片输出过程中相对于同一CVS中的其它图片的相对次序。图片的POC值的至少一部分可在切片标头中用信号表示。举例来说,POC值可包括最低有效位(LSB)和最高有效位(MSB),且POC值可通过使MSB在其右边串接LSB而获得。在一些实例中,将用于LSB的位数目可在4与16之间(例如,如在参数集中用信号表示),但在其它实例中可包含任何合适数目。在一些实例中,LSB可在切片标头中用信号表示。在此类实例中,由于仅向解码器用信号表示LSB,因此MSB可由解码器基于在本文中被称作POC锚图片的先前图片而导出,所述图片可使用任何合适的已知技术来选择。在一个说明性实例中,POC锚图片可选择为时间层0的不是RASL图片、RADL图片或子层非参考图片的最接近先前图片。解码器可通过比较当前图片的POC与POC锚图片的POC值而导出POC MSB值。
在H.264/AVC中,参考图片标记概括如下。用于帧间预测的参考图片的最大数目,称为M(num_ref_frames),是在作用序列参数集(SPS)中指示。当参考图片经解码时,其被标记为“用于参考”。如果参考图片的解码造成多于M个图片标记为“用于参考”,那么至少一个图片必须标记为“不用于参考”。DPB移除过程随后还将从DPB移除标记为“不用于参考”的图片,前提是不需要它们用于输出。
当图片经解码时,其为非参考图片或参考图片。参考图片可为长期参考图片或短期参考图片,且当参考图片标记为“不用于参考”时,其变成非参考图片。在AVC中,存在改变参考图片的状态的参考图片标记操作。举例来说,存在用于参考图片标记的两个类型的操作模式:滑动窗口和自适应存储器管理控制操作(MMCO)。用于参考图片标记的操作模式是基于图片而选择。滑动窗口操作作为具有固定数目的短期参考图片的先进先出队列而工作。举例来说,具有最早解码时间的短期参考图片以隐式方式首先被移除(标记为“不用于参考”的图片)。自适应存储器控制显式地移除短期或长期图片。自适应存储器控制还实现切换短期和长期图片的状态。
在H.265/HEVC中,引入用于参考图片管理的新方法,称为RPS或缓冲器描述。RPS概念与H.264/AVC的MMCO和滑动窗口操作模式相比的基本差异在于对于每一切片,必须提供由当前图片或任何后续图片使用的参考图片的完整集合。因此,用信号表示在DPB中必须保持以供当前或未来图片使用的所有图片的完整集合。这不同于其中仅用信号表示对DPB的相对改变的H.264/AVC方案。通过RPS概念,不需要来自按解码次序较早的图片的信息来维持DPB中的参考图片的正确状态。RPS含有多个RPS子集。子集RefPicSetStCurrBefore包含在解码次序和输出次序两者上在当前图片之前且可以用于当前图片的帧间预测的所有短期参考图片。子集RefPicSetStCurrAfter包含按解码次序在当前图片之前、按输出次序在当前图片之后且可以用于当前图片的帧间预测的所有短期参考图片。子集RefPicSetStFoll包含可以用于按解码次序跟随当前图片的图片中的一或多个的帧间预测且不用于当前图片的帧间预测的所有短期参考图片。子集RefPicSetLtCurr包含可以用于当前图片的帧间预测的所有长期参考图片。子集RefPicSetLtFoll包含可以用于按解码次序跟随当前图片的图片中的一或多个的帧间预测所述不用于当前图片的帧间预测的所有长期参考图片。
编码装置104、解码装置112或这两者还可包含图像编解码器(未图示)。联合图片专家组(JPEG)编解码器是图像编解码器的一个实例。在一些实例中,可以使用运动JPEG(MJPEG)。MJPEG是视频压缩格式,其中数字视频序列的每一视频帧或交错字段单独地经压缩为JPEG图像。MJPEG格式可用于IP摄像机系统中,其中视频序列的每一图片以JPEG独立地经译码。JPEG使用基于离散余弦变换(DCT)的有损形式的压缩。此数学运算将视频源的每一帧或字段从空间(2D)域转换到频域(也被称作“变换域”)。松散地基于人心理视觉系统的感知模型丢弃高频信息,例如强度的尖锐转变,以及色调。在变换域中,减少信息的过程称为量化。举例来说,量化是用于将大数字尺度(具有每一数字的不同发生)最佳地减少为较小数字尺度的方法,且变换域是图像的方便表示,因为比其它系数更少地贡献于总体图片的高频系数典型地是具有高可压缩性的小值。随后将经量化系数定序且无损地封装到输出位流中。JPEG的软件实施方案可准许对压缩比(以及其它任选的参数)的用户控制,从而允许用户针对较小文件大小权衡图片质量。
JPEG 2000(JP2)是图像压缩标准和译码系统,且是由联合活动图像专家组委员会在2000年创建,目的是用新设计的基于小波的方法取代其原始基于离散余弦变换的JPEG标准(1992年创建)。
在实时应用中,视频内容的发射可基于RTP/UDP/IP图。UDP提供简单的有时不可靠的数据报输送服务(与TCP相比)。TCP提供面向字节的保证输送服务,其是基于用于错误控制的重传和超时机制。由于TCP的不可预测延迟特性,因此其不适合于实时通信。如果未接收到TCP包,那么其将被简单地重传。虽然RTP被设计用于实时发射,但例如现场流式传输等越来越实时的视频应用是使用基于HTTP的视频发射系统,是基于TCP。在RTP中,每一包的时戳是在标头中指示。在HEVC中,RTP有效负载格式PACI(有效负载内容信息)已经界定为在包标头中的可容易存取的位置包含控制信息,不管额外开销如何。在基于HTTP的视频发射系统(例如,HTTP上的动态自适应流(DASH)或其它视频发射系统)中,使用基于ISO基础媒体格式的文件容器(例如,例如mp4或其它格式)。
ISO基础媒体文件格式用作许多编解码器囊封格式(例如,AVC文件格式或任何其它合适的编解码器囊封格式)以及许多多媒体容器格式(例如,MPEG-4文件格式、3GPP文件格式(3GP)、DVB文件格式或任何其它合适的多媒体容器格式)的基础。ISO基础媒体文件格式经设计以含有用于便于媒体的交换、管理、编辑和呈现的灵活的可扩展格式的呈现的定时媒体信息。ISO基础媒体文件格式(ISO/IEC 14496-12:2004)是在MPEG-第4部分-12中指定的,这个部分定义了用于基于时间的媒体文件的通用结构。其用作系列中的其它文件格式的基础,例如高级视频译码(AVC)文件格式(ISO/IEC 14496-15)和HEVC文件格式。从ISOBMFF导出的其它文件格式包含MPEG-4文件格式(ISO/IEC14496-15)、3GPP文件格式(3GPP TS 26.244)和AVC文件格式(ISO/IEC 14496-15)。
ISO基础媒体文件格式含有用于媒体数据的定时序列(例如音频-视觉呈现)的时序、结构和媒体信息。除连续媒体(例如,音频和视频)之外,静态媒体(例如,图像)和元数据也可存储于符合ISO基础媒体文件格式的文件中。根据ISO基础媒体文件格式结构化的文件可以用于许多目的,包含本地媒体文件重放、远程文件的渐进下载、用于HTTP上的动态自适应流式传输(DASH)的片段、用于将流式传输的内容及其包化指令的容器、所接收实时媒体流的记录或其它用户。
图4图示遵循ISO基础媒体文件格式的文件结构400。ISO基础文件结构是面向对象的。文件可以分解成基本对象,并且根据对象类型来暗示对象的结构。举例来说,符合ISO基础媒体文件格式的文件形成为一系列对象,称为“盒”。所有数据包含于盒中且文件内不存在其它数据。此数据包含特定的文件格式所需的任何初始签名。“盒”是通过唯一类型识别符和长度界定的面向对象的构建块。
在一些实例中,媒体呈现包含于一个文件中,且媒体呈现是自含式的。电影容器(电影盒)含有媒体的元数据,且视频和音频帧包含于媒体数据容器中且可以在其它文件中。在一些实例中,媒体呈现(运动序列)可以包含于若干文件中。所有时序和成帧(位置和大小)信息通常在ISO基础媒体文件中,且辅助文件可以呈ISO基础媒体文件格式或另一格式。文件具有逻辑结构、时间结构和物理结构,且这些结构不需要耦合。文件的逻辑结构是电影的又含有时间并行轨道的集合的逻辑结构。文件的时间结构是轨道含有在时间上的样本序列,且那些序列通过任选的编辑列表映射到总体电影的时间线中。文件的物理结构分离对于逻辑、时间和结构分解所需要的数据与媒体数据样本本身。此结构信息集中于电影盒中,且可能在时间上通过电影片段盒而延伸。电影盒将样本的逻辑和定时关系归档,并且还含有指向样本所位于之处的指针。指针可以指向同一文件或另一文件,通过URL进行参考。
每一媒体流包含于专用于所述媒体类型(音频、视频或其它媒体类型)的轨道中,且进一步通过样本条目而参数化。样本条目含有确切媒体类型(例如,对流进行解码所需要的解码器的类型)的‘名称’以及所需要的所述解码器的任何参数化。所述名称也采取四字符代码的形式(例如,moov、trak或其它名称)。存在不仅用于MPEG-4媒体而且用于供使用此文件格式系列的其它组织使用的媒体类型的经界定样本条目格式。对元数据的支持采取两个形式。第一,定时元数据可以存储于适当轨道中,按需要与所述元数据描述的媒体数据进行同步。第二,存在对附接到电影或个别轨道的非定时元数据的一般支持。结构支持是一般的,且如媒体数据中那样允许元数据资源在文件中的别处或在另一文件中的存储。
如前文所述,盒是ISO基础媒体文件格式中的基本语法结构,且包含四字符经译码盒类型、盒的字节计数以及有效负载。ISO基础媒体文件格式文件包含盒的序列,且盒可含有其它盒。电影盒(“moov”)含有用于文件中存在的连续媒体流的元数据,其中每一媒体流在文件中表示为轨道。举例来说,媒体流可包含于专用于媒体流的媒体类型的轨道中。轨道的元数据封闭在轨道盒(“trak”)中,而轨道的媒体内容或者封闭在媒体数据盒(“mdat”)中或者直接地封闭在单独的文件中。轨道的媒体内容包含一系列样本,例如音频或视频存取单元。
ISO基础媒体文件格式指定例如以下类型的轨道:媒体轨道,其含有基本媒体流;提示轨道,其包含媒体发射指令(例如,如何从用于给定协议的媒体轨道形成包流)或表示所接收包流;以及定时元数据轨道,其包括时间同步的元数据。
用于每一轨道的元数据包含样本描述条目的列表。每一样本描述条目提供轨道中使用的译码或囊封格式以及处理所述格式所需要的初始化数据。每一样本与轨道的样本描述条目中的一个相关联。
ISO基础媒体文件格式实现以各种机制指定样本特定的元数据。已经标准化在样本表盒(“stbl”)内的特定盒以响应于通用需要。举例来说,同步样本盒(“stss”)用以列出轨道的随机存取样本。样本分组机制实现根据四字符分组类型将样本映射到共享相同特性的样本的群组中,所述特性被规定为文件中的样本群组描述条目。ISO基础媒体文件格式中已经指定若干分组类型。
ISO基础媒体文件格式规范指定供与DASH一起使用的六个类型的流存取点(SAP)。前两个SAP类型(类型1和2)对应于H.264/AVC和HEVC中的瞬时解码刷新(IDR)图片。第三SAP类型(类型3)对应于开放GOP(图片群组)随机存取点,因此HEVC中的断链存取(BLA)或清洁随机存取(CRA)图片。第四SAP类型(类型4)对应于逐渐解码刷新(GDR)随机存取点。
如先前描述,捕获装置(例如,视频源102)可包含因特网协议相机(IP相机)。IP相机是可用于监控、家庭安全性或其它合适应用的一类数字摄像机。IP相机可用以经由计算机网络和因特网发送和接收数据。IP相机系统可用于双向通信。举例来说,可使用一或多个网络电缆或使用无线网络发射数据(例如,音频、视频、元数据或类似物),从而允许用户与他们看到的事物交流(例如,帮助顾客使用支付泵的加油站售货员)。也可经由单个网络或多个网络发射用于摇摄、倾斜、变焦(PTZ)相机的命令。此外,IP相机系统提供灵活性和无线能力。举例来说,IP相机实现到网络的容易连接、可调整的相机位置以及在因特网上对服务的远程可接入。IP相机系统还提供分布式智能。举例来说,关于IP相机,视频分析可置于相机自身中。加密和验证也容易与IP相机一起提供。举例来说,IP相机提供通过用于基于IP的应用的已经界定的加密和验证方法的安全数据发射。劳动成本效率关于IP相机是增加的。举例来说,视频分析可产生针对某些事件的警报,这减少监视系统中的所有相机(基于警报)的劳动成本。
视频分析,也被称作视频内容分析(VCA),是用以描述由相机(例如,IP相机或其它合适的捕获装置)所获取的视频序列的计算机化处理和分析的通用术语。视频分析提供了范围从所关注事件的立即检测到用于在长时间周期中提取事件的目的的预记录视频分析的多种任务。各种探索研究和现实体验表明了在监测系统中,例如人类操作者通常无法保持警觉和注意多于20分钟,即使是监视来自一个相机的图片。当存在两个或更多个相机要监视时或者在时间超出某一时间周期(例如,20分钟)时,操作者的监视视频且有效地响应于事件的能力显著降低。引入视频分析以自动分析来自相机的视频序列且发送针对所关注事件的警报。因此,人类操作者可在被动模式中监视一或多个场景。此外,视频分析可分析巨大量的所记录视频且可提取含有所关注事件的特定视频片段。
视频分析提供各种其它特征。举例来说,视频分析可通过检测移动对象且通过跟踪移动对象而作为智能视频运动检测器而操作。视频分析可显示有效对象周围的限界框。视频分析也可充当侵入检测器、视频计数器(例如,通过对人、对象、交通工具或类似物计数)、相机篡改检测器、对象离开检测器、对象/资产移除检测器、资产保护器、徘徊检测器和/或滑动和下落检测器。视频分析可进一步用以执行各种类型的辨识功能,例如面部检测和辨识、车牌辨识、对象辨识(例如,包、标识、身体标记或类似物)。视频分析可经训练以辨识某些对象。视频分析可执行的另一功能包含提供顾客度量(例如,顾客计数、性别、年龄、花费的时间量和其它合适的度量)的人口统计数据。视频分析也可执行视频搜索(例如,提取给定区的基本活动)和视频概述(例如,关键移动的提取)。视频分析可执行事件检测,包含火、烟、战斗、人群形成或视频分析经编程以检测的任何其它合适事件的检测。检测器通常触发所关注事件的检测且将警报发送到中央控制室以向用户警示所关注的事件。
视频分析也可从视频执行背景提取(也被称作“背景减除”)。背景提取可用以在视频序列中从全局背景将移动对象分段。
本文中描述利用由视频分析提供的智能的一或多个译码的系统和方法。举例来说,视频分析可用以为译码系统提供智能,包含从捕获的视频图片产生背景图片。举例来说,由IP相机(或其它合适的捕获装置)捕获的图像序列可以共享共同背景,且视频分析可执行背景提取以提取所述图像中的一或多个的背景区。IP相机可能需要大量存储装置和高传输带宽用于捕获到的视频,无论是否使用事件驱动的记录。期望更高效的机制来实现所记录视频的存储和带宽的高效管理。
实施例包含以允许实现捕获到的场景的更高效编码的方式协同地组合视频分析与视频记录的系统和方法。本文解决视频系统(例如,视频监控系统)的各种方面。在任何给定实施例中,各种实施例和方面可以组合或单独地使用,如所属领域的技术人员将了解。
图5图示包含基于视频分析的视频编码装置510的系统500,所述视频编码装置利用视频分析智能用于对视频进行译码。系统500包含视频分析引擎504、编码装置510和存储装置512。包含所捕获图片的所捕获视频502由视频分析引擎504接收且处理。举例来说,背景提取引擎506可从所捕获视频图片产生一或多个背景图片508。
存在用于视频中的背景提取的各种方法。背景提取引擎506可使用任何合适的背景提取技术产生背景图片508。由背景提取引擎506使用的背景提取方法的一个实例包含基于不被视为属于任何移动区的先前帧中的相对静态像素将场景的背景建模为统计模型。举例来说,背景提取引擎506可使用高斯分布模型用于每一像素位置,具有平均值和方差的参数以对视频序列中的每一像素位置进行建模。在特定像素位置处的先前像素的所有值用以计算所述像素位置的目标高斯模型的平均值和方差。当在新视频帧中的给定位置的像素经处理时,其值将通过此像素位置的当前高斯分布来评估。通过比较指定高斯模型的像素值和平均值之间的差而完成将像素分类为前景像素或背景像素。举例来说,如果像素值和高斯平均值的距离小于方差的3倍,那么将所述像素分类为背景像素。否则,将所述像素分类为前景像素。同时,将通过考虑当前像素值而更新高斯模型。
背景提取引擎506也可使用高斯的混合(GMM)执行背景提取。GMM将每一像素建模为高斯的混合且使用在线学习算法来更新模型。以平均值、标准偏差(或如果像素具有多个通道则为协方差矩阵)和权重表示每一高斯模型。权重表示高斯在过去历史中发生的概率。
GMM模型的等式在等式(1)中示出,其中存在K个高斯模型。每一高斯模型具有平均值μ和方差∑的分布,且具有权重ω。此处,i是高斯模型的索引且t是时间实例。如所述等式所示,GMM的参数在一个帧(时间t处)经处理之后随时间改变。
上文所提及的背景提取技术是基于相机静止安装的假设,且如果任何时候相机移动或相机的定向改变,那么将需要计算新背景模型。还存在可基于移动背景处置前景减除的背景提取方法,包含例如跟踪关键点、光流、突出性和其它基于运动估计的方法等技术。
一旦使用统计模型(例如,高斯模型)或GMM产生背景模型,便存在产生背景图片的若干方式。在一个视频分析解决方案中,可以合成背景图片。在一个实例中,合成背景图片是从背景模型产生,且时间t处的合成背景图片的像素值将是通过在时间t针对给定像素位置建置且更新的高斯模型的平均值,无论当前像素属于背景像素还是前景像素。应注意,同一概念适用于其它建模方法(例如,高斯混合模型),其中合成背景图片的像素值将是模型(例如,高斯混合模型)的期望。
在一些实施例中,可以使用与纯粹基于模型的期望产生合成背景图片(例如,高斯分布模型或GMM)不同的技术产生背景图片,无论像素位置是视为背景还是前景像素位置。举例来说,从视频分析引擎504产生的背景图片可以背景图片更接近在时间t处的当前图片的方式不同地产生。在一个实例中,背景图片可产生为半合成背景图片。举例来说,在时间t,不同地产生背景像素和前景像素的值。对于背景像素,并非使用模型的期望,使用时间t处的像素的实际值。然而,对于前景像素,所述值仍产生为模型的期望(例如,高斯分布模型或GMM),与针对合成背景图片产生类似地完成。
在另一实例中,界定图片与合成背景图片之间的相似性。在一些实例中,图片与合成背景图片之间的相似性可由图片中的背景像素的数目界定。当时间t处的当前图片与合成背景图片之间的相似性在阈值内时,背景图片被设定成当前图片(与合成背景图片相反)。所述阈值可包含相似像素的某一数目或相似像素的某一百分比。如果时间t处的当前图片与合成图片的差大于阈值,那么可以考虑在时间t之前的其它图片,且可将所述其它图片中的一个选择为背景图片。在一些实例中,当检查时间t之前的其它图片时,可以将具有最大数目的背景像素(与检查的其它图片相比)的图片选择为背景图片。使用此技术选择的背景图片可称为非合成背景图片。
取决于从视频分析引擎504的判断或甚至取决于速率失真,合成背景图片、半合成背景图片和非合成背景图片中的任一者可经译码为当前作用中背景图片。举例来说,视频分析引擎504可将指示将使用哪一类型的背景图片(合成、半合成背景图片或非合成背景图片)的命令发送到编码装置510。
由视频分析引擎504提供的信息可由编码装置510使用以益于视频编码过程。举例来说,由视频分析引擎504提取的信息可馈送到编码装置510以调整编码装置510的参数。因此,在系统500是视频监控系统的部分的情况下,交叉模块优化可在视频监控系统的边缘装置处实现,其中两个相关模块是视频分析引擎504和视频编码装置510。在一些实例中,由背景提取引擎506产生的背景图片508可馈送到视频编码装置510。背景图片508可包含合成背景图片、半合成背景图片和/或非合成背景图片。
视频编码装置510可类似于相对于图1描述的编码装置104且执行与其相同的功能。在一些实施例中,虽然视频分析引擎504在图1中示出为在视频编码之前产生所述一或多个背景图片508,但在视频编码装置510可开始编码过程之前视频编码装置510不必等待视频分析结束所有过程(包含背景提取)。举例来说,不需要实现由视频分析提供的一些高复杂性特征来开始编码过程。在一些实例中,视频分析引擎504可在一旦包括视频分析引擎504的装置(例如,相机)经设置为工作时便开始建模背景图片。举例来说,可在视频开始经编码之前且在一些实例中在视频开始流式传输之前开始建模和产生背景图片。在一些实例中,即使在视频已开始由视频编码装置510编码之后建模背景图片的此过程也可结束。在此类实例中,每当确定为准备好时,可将背景图片从视频分析引擎504馈送到视频编码装置510。通过来自视频分析引擎504的信息,经译码视频位流可存储于存储装置512中或发射到解码装置、网络录像机(NVR)和/或任何其它合适的装置。
本文描述新类型的随机存取图片,且称为预测性随机存取(PRA)图片。PRA图片可预测性地取决于背景图片。在一些实例中,编码装置510可使用背景图片508中的至少一者作为用于对PRA图片进行译码的参考图片。举例来说,编码装置510可使用背景图片作为参考图片执行PRA图片的帧间预测。在一个实例中,可将PRA图片与背景图片进行比较,且可使用帧间预测技术对PRA图片与背景图片之间的残余或差进行编码。在一些实例中,可使用仅基于背景图片的帧间预测对PRA图片进行译码。在一些实例中,帧内预测和帧间预测(基于背景图片)均可用于编码装置510以对PRA图片进行译码。通过将PRA图片编码到视频位流中,可基于帧间预测性PRA图片执行随机存取,而不是像当前视频译码标准(例如,HEVC、AVC、其扩展和其它视频译码标准)下的情况那样仅从经帧内预测(或经帧内译码)切片或图片开始执行随机存取。此PRA图片不同于可为P图片或B图片的IDR或CRA图片,因为这些IDR或CRA图片必须属于具有大于0的层ID的层,且仅可使用从与所述IDR或CRA图片属于同一存取单元且具有小于含有所述IDR或CRA图片的层的层ID的其它图片的层间预测。PRA图片的不同在于其可使用从背景图片的层间预测,所述背景图片可以不属于与PRA图片相同的存取单元。
背景图片508可作为参考图片存储于缓冲器(例如,经解码图片缓冲器(DPB))中,且可用于PRA图片且在一些实例中用于其它较晚经解码图片(按解码次序较晚的图片)的预测。在一些实例中,存储装置512可为DPB。编码装置510可通过使用背景图片508中的一或多个作为参考图片执行一或多个PRA图片的帧间预测而将一或多个PRA图片编码到视频位流中。如下文更详细解释,接收视频位流的解码装置可使用基于也提供到解码装置的一或多个背景图片508的帧间预测对PRA图片中的一或多个进行解码。举例来说,当接收经编码视频位流时和/或当执行随机存取时,解码装置可首先对背景图片进行解码且可随后使用经解码背景图片执行PRA图片的帧间预测。
图6图示具有PRA图片的经解码视频序列600。视频序列600中的图片在箭头602的方向上按输出次序线性地示出,且各种时戳与随机存取图片相关联示出,其中最小单位是秒。在时间0:00的图片是IDR随机存取图片。在时间2:15,插入背景图片。由于至少直到时间5:02的作用中背景图片的存在,在时间上在背景图片之后的随机存取图片可被实施为P或B图片(且不必实施为I图片),使用帧间预测从在时间2:15插入的作用中背景图片唯一地预测。这些随机存取图片是PRA图片,且在时间2:16、2:17、5:01和5:02发生。
如先前描述,仅通过使用背景图片作为参考的帧间预测或通过帧内预测对PRA图片进行译码。在一些实例中,通过背景提取引擎506的背景提取过程产生的背景图片被视为仅在一定时间周期内作用,且可被新背景图片代替。举例来说,背景图片可在每个设定时间周期(例如,在30秒之后、在1分钟之后、在2分钟之后、在5分钟之后或在任何其它合适的时间周期之后)被新的或经更新背景图片代替。在一些实例中,可在每个设定时间周期自动产生新背景图片。在一些实例中,当视频序列的背景已改变一定量(例如,基于像素值)时可产生新背景图片。在一些实施例中,存储装置512中可维持给定数目的作用中背景图片。在一个实例中,高达四个背景图片可维持于队列中,所述队列可以先进先出(FIFO)方式管理。所属领域的技术人员应了解,可维持任何其它合适数目的背景图片。
PRA图片是仅从作用中背景图片帧间预测的图片。在一些实施例中,按输出次序(或“显示次序”)跟随PRA图片的图片无法参考按解码次序在PRA图片之前的任何图片,作用中背景图片除外。在一些实施例中,存在两个类型的PRA图片。第一PRA图片类型称为预测性CRA(PCRA)图片。PCRA图片允许PRA图片的前导图片(按解码次序跟随PRA但按输出次序在PRA之前的图片)进一步通过其它图片预测(例如,使用在PCRA图片之前经解码的图片作为参考),因此不提供对预测结构的约束。第二PRA图片类型称为预测性IDR(PIDR)图片。PIDR图片不允许PRA图片的前导图片从在PIDR图片之前的任何图片预测,作用中背景图片除外。举例来说,PIDR图片和按解码次序跟随PIDR图片的任何图片无法依赖于按解码次序出现在PIDR图片之前的任何图片,作用中背景图片除外。在一些例子中,在不需要区别这两个类型的PRA图片的情况下,可使PRA图片不对前导图片强加约束。在此类情况下,PRA图片将为PCRA图片。
背景图片通常通过视频分析(例如,视频分析引擎504)产生。然而,在一些例子中,由捕获装置所捕获的图片可用作背景图片。在一些实施例中,在当捕获装置(例如,相机)可接通和断开且需要发射所捕获视频时的应用中,一旦捕获装置接通,便可以使用作为将由捕获装置发射的第一图片而产生的默认背景图片来设定背景图片。一旦视频分析结束背景提取过程且提供新更新的背景图片(例如,使用高斯分布模型、高斯的混合(GMM)或其它合适的背景建模和提取技术产生的合成背景图片、半合成背景图片或非合成背景图片),便随后更新背景图片(例如,将另一背景图片设定为作用中)。
在一些实施例中,编码装置510可比较由背景提取引擎506产生的背景图片与DPB中可用的最接近随机存取图片(例如,在H.264/AVC的情况下为IDR或在H.265/HEVC的情况下为IDR/CRA)。基于所述比较,编码装置510可确定最接近随机存取图片是否对于编码当前PRA图片更高效,其可以是在编码器侧处的任何用户界定的测量。举例来说,在速率失真测量角度方面,编码装置510可选择提供较好译码效率的图片(背景图片或最接近随机存取图片)。编码装置510可使用任何合适且已知的方法确定效率。在一个实例中,对于图片的每一块,可计算速率和失真,且可相加在一起(例如,使用λ函数)。在另一实例中,编码装置510可执行图片层级决策。举例来说,编码装置510可执行两遍次编码,其中在第一遍次中背景图片用以对当前图片(例如,PRA图片)进行编码以查看译码在节省当前图片的带宽(例如,经译码图片大小或其它因数)方面的良好程度。在第二遍次中,可使用最接近随机存取图片,且可确定译码的质量且与使用背景图片的质量进行比较。所属领域的技术人员应了解可使用确定译码效率的其它方法。如果最接近随机存取图片对于编码当前PRA图片更高效,那么编码装置510可决定使用所述随机存取图片代替编码装置510处的背景图片。随后可使用所述随机存取图片而不是所述背景图片(例如,作为起始点)。在此类实施例中,作用中背景图片可另外发射以与经译码随机存取图片相同。
在一些实施例中,编码装置510可比较由视频分析引擎504产生的背景图片与当前作用中背景图片。基于所述比较,编码装置510可确定当前作用中背景图片是否对于编码当前PRA图片更高效(例如,使用上文对于确定效率所述的相同技术)。如果当前作用中背景图片对于编码当前PRA图片更高效,那么将作用中背景图片保持不变。如果当前作用中背景图片对于编码当前PRA图片并不更高效,那么将作用中背景图片改变为由视频分析引擎504产生的背景图片。
背景图片可遵从当前视频译码标准(例如,H.264/AVC、HEVC、其扩展或其它译码标准)经译码。举例来说,背景图片可标记为长期参考图片。另外,如下文更详细解释,背景图片的索引可在含有所述背景图片的补充增强信息(SEI)消息中发射。举例来说,可存在经编码到视频位流中或与位流分开地提供的多个背景图片。包含索引值的索引表或其它数据结构可用以将背景图片映射到经解码位流的某些播出时间和/或映射到经编码于视频位流中的某些PRA图片。在一个实例中,随机存取可在视频中在时间3:30执行,其对应于给定PRA图片。可参考索引表以便识别与时间3:30最接近的背景图片,其最接近于给定PRA图片。最接近背景图片随后可用以对给定PRA图片执行帧间预测。下文提供其它实例细节。
预测性随机存取(PRA)图片也可遵从当前标准(例如,H.264/AVC、HEVC、其扩展或其它译码标准)经译码。举例来说,可当对PRA图片进行解码以执行随机存取时完成经解码图片缓冲器管理。缓冲器管理可确保当到了对PRA图片进行解码的时间时仅背景图片保持于DPB中。下文提供其它实例细节。
在一些实施例中,可引入新NAL单元类型以在NAL单元标头中提供背景图片和PRA图片的指示。在新标准中或在当前标准(例如,HEVC标准或其它标准)的新简档中,通过在NAL单元标头中做出背景图片和PRA图片的此指示将较好地支持背景图片和PRA图片。本文引入新NAL单元类型以提供此指示。举例来说,新NAL单元类型可经指派用于背景图片,且可命名为nalUnitTypeBg。新NAL单元类型也可经指派用于PRA图片,且可命名为nalUnitTypePra。所属领域的技术人员应了解,可为用于背景图片和PRA图片的新NAL单元类型指派其它名称。
如上文所描述,背景图片的索引可与视频位流一起提供(例如,在SEI消息中)。在一些实施例中,NAL单元标头的一部分(例如,标头的固定位槽)可用以分配背景图片的索引idx,且可称为语法元素nuh_bg_pic_idx。举例来说,标头的位可重新命名为语法元素。索引可包含参考不同背景图片且将每一背景图片连接到一或多个PRA图片的某些位值。举例来说,如果PRA图片利用具有等于用于帧间预测的idx的nuh_bg_pic_idx的背景图片(在编码期间),那么PRA图片的NAL单元标头中的nuh_bg_pic_idx也设定成idx(因此具有同一索引值)。在一个说明性实例中,第一背景图片可具有索引值1,且第二背景图片可具有索引值2。使用第一背景图片的一或多个PRA图片也可在相应NAL单元标头中具有索引值1,且使用第二背景图片的一或多个PRA图片可在相应NAL单元标头中具有索引值2。
由于NAL单元标头的设计,检查NAL单元类型(或NAL单元标头的任何部分)是轻型过程。因此,通过在背景图片和PRA图片的NAL单元标头中包含NAL单元类型(背景图片类型或PRA图片类型)以及索引,解码装置或视频播放器(或其它视频处理装置)可容易地将PRA图片连接到可用作用于PRA图片的帧间预测的参考的对应背景图片。举例来说,解码装置可检查背景图片或PRA图片的NAL单元标头的某些位以确定图片类型(背景或PRA)和背景或PRA图片的索引值。在一个说明性实例中,对于具有等于nalUnitTypePra(指示当前图片是PRA图片)的NAL单元类型的PRA图片,如果决定从所述PRA图片开始进行随机存取,那么在所述PRA图片的NAL单元标头中找到作用中背景图片的相关联索引。使用此索引的值,可按逆解码次序(由于PRA图片的发生)检查其它NAL单元以识别具有等于nalUnitTypeBg(或nalUnitTypePra)的NAL单元类型和同一索引值的作用中背景图片。
典型的HEVC编码器可能需要某些修改以产生PRA图片和支持预测性随机存取。举例来说,一旦编码装置510从视频分析引擎504接收背景图片,所述背景图片便经编码为帧内图片。编码装置510可随后将背景图片标记为长期参考图片。在替代实施例中,可将背景图片标记为短期参考图片。此外,当存在插入随机存取图片的需要且背景图片可用时,可产生PRA图片(而不是另一类型的随机存取图片,例如IDR、CRA或BLA图片)。当产生PRA图片时,用于PRA图片的参考图片列表中的每一个可仅含有背景图片。
在一些实施例中,编码装置510可为PRA图片指派与背景图片不同的图片次序计数(POC)最低有效位(LSB)。类似地和任选地,跟随PRA图片的其它图片也可具有与背景图片不同的POC LSB,直到当前图片的最高有效位(MSB)与初始值相比已增加一或二(或其它合适的数字)为止。此POC指派方案是合意的,使得在PRA图片和跟随PRA图片的任何图片经解码之后在DPB中可唯一地识别背景图片。
在一些例子中,背景图片对于输出可能是不合意的。在此类情况下,背景图片的切片的pic_output_flag语法元素可设定成等于0。通过包含用于pic_output_flag语法元素的0值,解码器或播放器将不输出背景图片。
基于以上描述,已介绍基于背景图片的编码方案,其中描述预测性地取决于背景图片的新预测性随机存取(PRA)图片。在解码器系统层级上,必须作出改变以实现新种类的随机存取。举例来说,使用随机存取的现有方法,由于正使用帧内图片执行随机存取,因此解码器以单个图片开始解码。然而,使用上述基于背景图片的编码方案,除了PRA图片之外还使用背景图片,因此解码器必须存取至少两个图片(PRA图片和背景图片)以执行随机存取。
当介绍基于背景图片的编码方案和使用PRA图片的随机存取时从解码器和播放器角度来看出现各种问题。举例来说,从应用角度并不清楚如何基于PRA图片执行随机存取,例如文件格式可如何辨识背景图片和PRA图片以及播放器可如何利用背景和PRA图片用于随机存取。在一些例子中,当处理原始位流时,不清楚哪些图片是背景图片且哪些图片是可用于随机存取的PRA图片,因为不可以兼容于当前HEVC(版本1)标准的方式对那些图片指派新NAL单元类型。此外,如果具有背景图片和PRA图片的位流囊封于文件格式容器中,那么文件格式译码器并不清楚知道所述图片中的哪些是背景图片和PRA图片。虽然应用程序可能与编码器和文件格式译码器两者交互以收集此信息,但这对于一些实施方案可能不是最佳的。此外,从文件格式且因此播放器角度并不清楚如何基于背景和PRA图片调用随机存取行为。
可存在的另一问题在于,当PRA图片用于随机存取时,按解码次序跟随PRA但按显示次序在PRA之前的图片可能未正确地经解码。这些图片可称为PRA前导图片。即使当如HEVC中界定以类似于RADL图片的方式基于相关联PRA执行随机存取时,PRA前导图片中的一些也可为可解码的。此外,当如HEVC中界定以类似于RASL图片的方式基于相关联PRA执行随机存取时,PRA前导图片中的一些可能不可解码。不存在向解码器或播放器指示这些前导图片的方式。
描述了用于基于背景图片和预测性随机存取图片而执行随机存取的系统和方法,包含如何在位流层级和输送/应用层级执行此随机存取的技术。提供了如何基于背景图片和PRA图片实现随机存取行为的各种实例。
在一些实施例中,可需要仅一个背景图片来对经译码视频序列的任何图片进行解码。此机制提供了基于背景图片和PRA图片执行快速且容易的随机存取。举例来说,从PRA图片开始且包含按显示次序跟随所述PRA图片的所有图片的任何图片集合(例如,子位流)可仅依赖于一个背景图片而为可播放的。在此类实施例中,背景图片仅有效直到下一背景图片(例如,经更新背景图片)存在于位流或子位流中为止。当下一背景图片存在于位流或子位流中时可丢弃(例如,从DPB)当前背景图片。在一些替代实施例中,可使用多于一个背景图片来预测PRA图片和跟随背景图片的图片。举例来说,PRA图片可为P图片或B图片。
在一些实施例中,解码装置可执行用于随机存取的某一过程。举例来说,基于所需时间实例,识别具有与所需时间最接近的时戳的PRA图片。一旦PRA图片经识别,便识别与所述PRA图片相关联的背景图片。举例来说,按解码次序在PRA图片之前且具有与PRA图片的时戳最接近的时戳的背景图片被识别为相关联背景图片。通过经识别PRA图片和相关联背景图片,以及按输出次序(或“显示次序”)跟随PRA图片的图片,从背景图片开始的子位流、PRA图片以及按输出次序跟随PRA图片的图片可经解码且用于连续重放。此过程允许执行成功的随机存取。在一个替代方案中,子位流可含有经识别背景图片、PRA图片和按解码次序跟随PRA图片的图片。因此,视频解码器可取得视频剪辑(例如,子位流),其含有作用中背景(经译码)图片、PRA图片和按解码次序跟随PRA图片直到某一时间的经译码图片。只要作用中背景图片和PRA图片正确地放入位流中,传统装置(例如,正常H.264/AVC或HEVC解码器)就可对视频剪辑进行解码且正确地输出PRA图片和按输出次序跟随PRA(包含性)的任何图片。
媒体播放器可执行相似过程。举例来说,在接收到对给定时间实例的随机存取的请求之后,播放器可即刻识别具有最接近时戳的PRA图片。识别在PRA图片之前且具有最接近于PRA图片的时戳的时戳的背景图片。重放可随后以背景图片开始,紧接着是PRA图片和跟随PRA图片的其它图片。在跟随PRA图片的那些图片当中,如果图片具有等于1的is_leading值(ISO基础媒体格式文件中)以及小于PRA的组成时间(CT),那么对于解码可以跳过所述图片。当大部分随机存取点是PRA图片时或当位流含有PRA和其它类型的随机存取图片(例如,CRA图片)时,通过与CRA图片同等地处理PRA图片且当随机存取点是PRA图片时另外识别相关联背景图片,可执行解码器和播放器过程。
如果当前存取单元(例如,同一时间实例的所有NAL单元)的图片和(按解码次序)跟随当前存取单元的存取单元的图片可用,那么常规随机存取图片(例如,IDR、CRA或BLA图片)可触发立即解码。然而,不同于常规随机存取图片,在系统层级,如果随机存取允许视频重放从PRA图片开始则必须谨慎。举例来说,译码系统不仅必须提供PRA图片以及按解码和输出次序跟随PRA图片的图片,而且必须提供与PRA相关联的作用中背景图片以用于执行帧间预测。
在一些实施例中,可使用实时输送协议(RTP)。在RTP情形中,为了客户端装置从具有PRA图片的视频开始实时会话,下一PRA图片有待识别。参数集、与PRA图片相关联的背景图片以及PRA图片自身可一起发射以便开始会话。在一些实施例中,如果RTP用于系统中,那么一些数据(用户界定或标准)可存在于有效负载中以在当前RTP封装或包含有PRA图片的情况下指定背景图片的时戳。此信息可存在于运载RTP包的有效负载内容信息(PACI)中。举例来说,运载RTP包的PACI可含有RTP有效负载标头、有效负载标头延伸结构(PHES)和PACI有效负载。
在一些实施例中,可使用ISO基础媒体格式或ISO扩展或衍生物中的任一者。各种技术可用于基于ISO的文件格式以提供PRA图片、跟随PRA图片的图片,并且还有与PRA相关联的作用中背景图片。所述技术可个别地或组合地执行。在一个实例中,可用信号表示PRA图片与相关联作用中背景图片之间的参考,使得解码器或播放器装置可确定使用哪一个或哪些背景图片用于解码且重放PRA图片以及按解码和输出次序跟随PRA图片的图片。在另一实例中,随机存取图片的指示可改变为除了例如IDR或CRA类型等其它类型之外还包含PRA类型。在另一实例中,所有背景图片可放在ISO基础媒体格式文件的一个轨道内,且PRA图片(且在一些情况下其它类型的图片)可放在不同轨道中。可用信号表示从PRA图片轨道到背景图片轨道的轨道参考。在另一实例中,定时媒体信息可与PRA图片和背景图片两者相关联,以使得每一PRA图片知道其背景图片将用作用于帧间预测的参考。此外,可将唯一索引指派于背景图片中的每一个。指派于背景图片的索引值可例如连同背景图片样本一起用信号表示(如上文所描述)。PRA图片可通过与PRA图片相关联的索引识别与PRA图片相关联的作用中背景图片。举例来说,索引可与PRA图片样本一起用信号表示。
在一些实施例中,SEI消息可与背景图片相关联,且可指示背景图片具有背景图片类型。举例来说,SEI消息可在先于或跟随含有背景图片的至少一部分的NAL单元的NAL单元(例如,非VCL NAL单元)中发射。具有SEI消息的NAL单元和含有背景图片的至少所述部分的NAL单元可以是同一存取单元的部分。另一SEI消息(具有相同或不同类型)可与PRA图片相关联,指示所述PRA图片具有PRA图片类型。举例来说,SEI消息可在先于或跟随含有PRA图片的至少一部分的NAL单元的NAL单元(例如,非VCL NAL单元)中发射。具有SEI消息的NAL单元和含有PRA图片的至少所述部分的NAL单元可以是同一存取单元的部分。在一些实施例中,用于当前背景图片的SEI消息可持续用于所有后续PRA图片直到新背景图片变成作用中且代替当前背景图片为止。
在一些实施例中,基于来自SEI消息的信息或来自编码装置的信息,背景图片和PRA图片可在文件格式中用信号表示。因此,PRA图片可始终假设为与一个且仅一个唯一背景图片相关联。所述关联可通过检查时戳而完成。举例来说,解码器或播放器可检查PRA图片的时戳,且可随后找到先于具有最接近于PRA图片时戳的时戳的PRA图片的背景图片,如先前所描述。在替代实施例中,通过用信号表示具有不同于其它类型随机存取的新随机存取点类型(例如,背景图片类型和PRA图片类型)的图片,PRA图片和背景图片可经识别且彼此相关联。所述类型可在SEI消息中、在NAL单元标头中或使用任何其它合适的技术用信号表示。
在一些实施例中,SEI消息可用以指示与PRA图片相关联的前导图片(按解码次序跟随PRA图片且按输出次序先于预测性随机存取图片的图片)。举例来说,SEI消息可包含预测性随机存取可解码(PRADL)图片的指示和预测性随机存取跳过(PRASL)图片的指示。在HEVC扩展或新标准中,可对那些图片指派新NAL单元类型以向解码器和/或播放器指示前导图片的类型。使用SEI消息和/或NAL单元类型,解码器可在即使当基于相关联PRA执行随机存取时也可解码的PRA前导图片(PRADL图片)与当基于相关联PRA执行随机存取时不可解码的PRA前导图片(PRASL图片)之间进行区分。
通过使用以上技术以实现使用背景图片作为参考来进行随机存取图片的帧间预测的使用,用于发射到客户端装置所需要的信息量最小,因为图片的背景部分保持相当静态,而图片的前景中仅少量像素数据实际在帧之间改变。在一些实例中,仅包含移动对象的图片的部分(例如,前景像素)经编码。图片的静态背景部分不必针对每一图片经编码,因为对于视频序列中的许多图片,背景可为相对静态的。在此类实例中,含有静态背景部分的作用中背景参考图片可用于帧间预测多个经编码帧,直到使新背景图片变为作用中为止。通过使随机存取图片能够经编码为经帧间预测图片,与仅允许使用帧内预测对随机存取图片进行译码相比节省了大量带宽,包含多达50%。
现在以上述各种方面的进一步阐释提供各种实例。与对当前HEVC标准的改变的参考一起提供所述实例,其中对标准的改变是以斜体和带下划线的文字提供。
可形成HEVC扩展或新标准,其包含对PRA图片的支持。可完成小优化以帮助支持基于PRA图片的随机存取,例如参考图片标记、参考图片列表构造和符合性点指示。另外,可对HEVC标准做出或添加其它改变。
使用PRA图片提供随机存取的重要方面是PRA和背景图片的信令(例如,在NAL单元标头或其它指示中)。在一个实例中,将当前HEVC标准取为所提议的NAL单元标头设计的基础,且设计改变示出为具有斜体和带下划线的文字的添加以及 的删除:
NAL单元标头语法
NAL单元标头语义
指定作用中背景图片的索引。当nal_unit_type等于 nalUnitTypeBg(当前图片是背景图片)时,其为当前图片的索引。当nal_unit_type等于 nalUnitTypePra(当前图片是PRA图片)时,其为此图片可从其帧间预测的作用中背景图片 的索引。
当当前图片是背景图片或PRA图片时,nuh_layer_id的值推断为等于0。
当对当前PRA图片进行解码时,其nuh_bg_pic_idx的值将用以识别对PRA图片进行 解码所需要的作用中背景图片。
在一些实例中,引入新SEI消息设计(如上文所描述)。将当前HEVC标准取为用于背景和PRA图片的所提议SEI消息设计的基础。设计改变示出为具有斜体和带下划线的文字的添加以及的删除:
替代地,SEI消息可以是任何值而不是48。替代地,SEI消息可以是用户界定的。
用于背景和PRA图片的SEI消息设计的当前HEVC标准的进一步改变(以斜体且带下 划线的文字示出的添加和以示出的删除)如下:
基于背景图片的随机存取点SEI消息语法
基于背景图片的随机存取点SEI消息语义
基于背景图片的随机存取点SEI消息帮助解码器确定相关联图片是背景图片还是 预测性随机存取图片。
此消息将仅在相关联图片是背景图片或预测性随机存取图片的情况下存在。当此 消息不存在时,当前图片可不是背景图片或预测性随机存取图片。
等于0的 指示当前图片是背景图片,等于1的bg_ra_ picture_type_flag指示当前图片是预测性随机存取图片。
背景图片自身为IRAP图片是位流要求。
替代地,背景图片和PRA图片可与不同SEI消息(例如,分别为背景图片SEI和PRA图片SEI)相关联。
替代地,背景图片可始终设定成最接近IRAP图片,因此仅PRA图片需要与SEI消息相关联(例如,PRA图片SEI消息)。
替代地,此SEI消息可以延伸以进一步支持PRADL或PRASL图片的信令,如上文所描述,且如下文所示(以斜体且带下划线的文字示出的添加和以示出的删除)作为对当前HEVC标准的添加:
等于0的 指示当前图片是背景图片,等于1的pra_picture_ type_idc指示当前图片是预测性随机存取图片。
等于2的pra_picture_type_idc指示当前图片是PRASL图片。
等于3的pra_picture_type_idc指示当前图片是PRADL图片。
如果图片不是背景、PRA、PRADL或PRASL图片,那么SEI消息将不与图片相关联。
替代地,此SEI消息可以延伸以对PRA图片的每个群组指示BG图片的索引,如下文所示(以斜体且带下划线的文字示出的添加和以示出的删除)作为对当前HEVC标准的添加。
指示在当前图片不是背景图片时当前背景图片或当前图片的相关联背景 图片的索引。
替代地,另外,也可以指示PRA图片的索引,如下文所示(以斜体且带下划线的文字示出的添加和以示出的删除)作为对当前HEVC标准的添加:
指示当前PRA图片或当前前导图片(PRADL或PRASL)的相关联PRA图片 的索引,PRA图片与具有等于bg_idx的索引的背景图片相关联。
当对PRA图片进行解码且其含有不存在于位流中的参考图片集(RPS)中的图片时,如HEVC标准的子条款8.3.3(“用于产生不可用参考图片的解码过程”)中界定的用于产生不可用参考图片的解码过程可用以产生不可用参考图片。
当在对应PRA图片执行随机存取时PRASL图片不可经解码。在一个替代方案中,PRADL图片可能不存在且与PRA图片相关联的所有前导图片是PRASL图片。在一些实例中,PRASL图片可在系统层级处经过滤且因此不馈送到解码器。
在另一实例中,可修改当前HEVC标准以引入新NAL单元类型,如上文所描述。举例来说,在HEVC扩展(例如,基于HEVC版本1)中,PRA图片、PRADL图片和PRASL图片可被分配新NAL单元类型(一个用于PRA,两个用于PRADL或PRASL图片以用于参考和非参考情况)。在一些情况下,PRA图片将遵循与CRA图片相似的解码行为,且将与CRA图片处理RADL和RASL图片类似地处理相关联PRADL图片和PRASL图片。在这些情况下,PRADL图片将遵循与RADL图片相似或相同的解码行为,且PRASL图片将遵循与PRASL图片相似或相同的解码行为。
在一些实例中,引入PRA图片和背景图片的新文件格式指示(如上文所描述)。将当前HEVC标准取为所提议的文件格式指示的基础。基于最新HEVC规范(w15479),提出以下改变(以斜体且带下划线的文字示出的添加和以示出的删除)用于播放器更好地利用PRA图片:
3.2 缩写术语
BGP 背景图片
PPS 图片参数集
PRA 预测性随机存取
8.4.3 同步样本
如果样本中的VCL NAL单元指示包含于样本中的经译码图片是瞬时解码刷新(IDR)图片、清洁随机存取(CRA)图片、或断链存取(BLA)图片或PRA图片,那么HEVC样本视为同步样本。
当样本条目名称是‘hev1’时,以下内容适用:
●如果样本是随机存取点,那么解码该样本所需的所有参数集将包含于样本条目或样本本身中。
●否则(样本不是随机存取点),解码样本所需的所有参数集将包含于样本条目或从先前随机存取点到样本本身(包含性)的样本中的任一者中。
对于各种类型的随机存取点的信令,推荐以下准则:
●同步样本表(和电影片段中的相等旗标)必须在HEVC轨道中使用,除非所有样本都是同步样本。应注意,轨道片段随机存取盒涉及电影片段中的用信号表示的同步样本的存在。
●仅对于基于逐渐解码刷新(GDR)的随机存取点,即含有非帧内经译码切片的那些随机存取点推荐使用‘roll’样本群组。
●‘rap’或‘同步’样本群组的使用是任选的,取决于关于与随机存取点相关联的前导样本的信息或随机存取点的图片类型(例如,IDR、CRA、BLA或与基于背景图片的随 机存取点SEI相关联)的需要。
●仅关于由CRABLA图片和PRA图片组成的随机存取点推荐使用替代启动序列(ISO/IEC 14496-12章节10.3)样本群组的使用。
8.4.8用于HEVC的子样本的定义
对于HEVC流中的子样本信息盒(ISO/IEC 14496-12的8.7.7)的使用,子样本是基于如下指定的子样本信息盒的旗标字段的值而定义。此盒的存在是任选的;然而,如果存在于含有HEVC数据的轨道中,那么所述盒中的‘codec_specific_parameters’字段将具有此处定义的语义。
旗标如下指定此盒中给定的子样本信息的类型:
0:基于NAL单元的子样本。子样本含有一或多个邻接NAL单元。
1:基于解码单元的子样本。子样本含有确切一个解码单元。
2:基于瓦片的子样本。子样本含有一个瓦片和含有所述瓦片的VCL NAL单元的相关联非VCL NAL单元(如果存在),或含有一或多个非VCL NAL单元。
3:基于CTU行的子样本。子样本含有在切片内的一个CTU行以及含有所述CTU行的VCL NAL单元的相关联非VCL NAL单元(如果存在)或者含有一或多个非VCLNAL单元。当entropy_coding_sync_enabled_flag等于0时将不使用此类型的子样本信息。
4:基于切片的子样本。子样本含有一个切片(其中每一切片可含有一或多个切片片段,其中的每一个是NAL单元)和相关联非VCL NAL单元(如果存在)或含有一或多个非VCLNAL单元。
旗标的其它值是保留的。
subsample_priority字段将设定成根据ISO/IEC 14496-12中此字段的规范的值。
仅当在此子样本丢弃的情况下此样本仍可经解码(例如,子样本由SEI NAL单元组成)时可丢弃字段才将设定成1。
当NAL单元的第一字节包含在子样本中时,先前长度字段也必须包含在同一子样本中。
等于0的SubLayerRefNalUnitFlag指示子样本中的所有NAL单元是如ISO/IEC23008-2中指定的子层非参考图片的VCL NAL单元。值1指示子样本中的所有NAL单元是如ISO/IEC 23008-2中指定的子层参考图片的VCL NAL单元。
等于0的RapNalUnitFlag指示子样本中的NAL单元均不具有等于如ISO/IEC23008-2中指定的IDR_W_RADL、IDR_N_LP、CRA_NUT、BLA_W_LP、BLA_W_RADL、BLA_N_LP、RSV_IRAP_VCL22或RSV_IRAP_VCL23的nal_unit_type,而无基于背景图片的随机存取点SEI。值1指示子样本中的所有NAL单元具有等于如ISO/IEC 23008-2中指定的IDR_W_RADL、IDR_N_LP、CRA_NUT、BLA_W_LP、BLA_W_RADL、BLA_N_LP、RSV_IRAP_VCL22或RSV_IRAP_VCL23的nal_unit_type,或具有作为基于背景图片的随机存取点SEI的相关联SEI消息
10.6 HEVC和LHEVC瓦片轨道
10.6.1引言
存在其中在不同轨道中存储可独立解码的HEVC(相应地LHEVC)瓦片可用于对视频内容的快速空间和时间存取的情况。对于这些情况,可使用HEVCTileSampleEntry(相应地LHEVCTileSampleEntry)样本描述格式创建轨道。
HEVC(相应地LHEHC)瓦片轨道是其中存在对运载瓦片所属于的相关联HEVC层的NALU的HEVC(相应地LHEVC)轨道的‘tbas’参考的视频轨道。HEVC瓦片轨道的样本描述类型将为‘hvt1’。LHEVC瓦片轨道的样本描述类型将为‘lht1’。
瓦片轨道中的样本或样本描述盒将都不含有VPS、SPS或PPS NAL单元,这些NAL单元将在含有相关联层的轨道的样本中或样本描述盒中,如由‘tbas’轨道参考识别。如由‘tbas’轨道参考指示的HEVC/LHEVC瓦片轨道和含有相关联层的轨道均可使用如附录B中界定的提取器来指示如何重构原始位流;在一些应用域中可限制这些轨道中的提取器的存在。
存储于瓦片轨道中的HEVC或LHEVC样本是用于一或多个瓦片的切片的完整集合,如ISO/IEC 23008-2中定义。通常如果轨道由单个HEVC瓦片组成,那么仅用以对此瓦片进行译码的切片将在样本中找到。瓦片轨道通常包含一个TileRegionGroupEntry(单瓦片轨道),或者一个TileSetGroupEntry和形成此瓦片集合的一或多个相依性TileRegionGroupEntry(多瓦片轨道)。
如果样本中的VCL NAL单元指示包含于样本中的经译码切片是瞬时解码刷新(IDR)切片、清洁随机存取(CRA)切片、或断链存取(BLA)切片或作为基于背景图片的随机存 取点SEI的切片相关联SEI消息,那么存储于瓦片轨道中的HEVC样本视为同步样本。
替代地,当PRA图片与PRA图片SEI消息相关联时,通过用“PRA图片SEI”代替“基于背景图片的随机存取点SEI”,所有上述改变仍可以适用。
在一些实例中,将新文件格式改变引入到ISO基础媒体文件格式中以使用PRA图片和背景图片实施随机存取(如上文所描述)。将ISO基础媒体文件格式标准(ISO/IEC14496-12)取为所提议的文件格式改变的基础。提议以下改变(以斜体且带下划线的文字示出的添加和以示出的删除):
8.6.4.2.语法
8.6.4.3.语义
is_leading采取以下四个值中的一个:
0:此样本的前导性质是未知的;
1:此样本是在所述参考I图片或PRA图片之前具有相依性(且因此不可解码)的前导样本;
2:此样本不是前导样本;
3:此样本是在所参考I图片之前不具有相依性(且因此可解码)的前导样本;
sample_depends_on采取以下四个值中的一个:
0:此样本的相依性是未知的;
1:此样本确实依赖于其它样本(不是I图片);
2:此样本不依赖于其它样本(I图片);
3:保留
sample_is_depended_on采取以下四个值中的一个:
0:其它样本对此样本的相依性是未知的;
1:其它样本可依赖于此样本(非可弃置的);
2:无其它样本依赖于此样本(可弃置的);
3:保留
sample_has_redundancy采取以下四个值中的一个:
0:此样本中是否存在冗余译码是未知的;
1:此样本中存在冗余译码;
2:此样本中不存在冗余译码;
3:保留
现将基于使用基于HM(HEVC的参考软件)完成的PRA的一个实例的初步实施方案来描述仿真结果。在关于若干实例捕获IPC序列的共同测试条件下执行测试。此处在HM中将PRA的频率设定成与随机存取图片(IDR或CRA)的频率相同。图7-图10中示出所述序列中的四个的快照。快照700经标记为Monitor_ay。快照800经标记为Ay_street_level。快照900经标记为Pacific。快照1000经标记为Sorrento_view。
db速率节省(遵循JCTVC下面列出序列的共同测试条件):
序列 Bd速率节省
monitor_ay -35.4%
ay_street_level -27.3%
Pacific -20.6%
sorrento_view -30.7%
平均 -28.5%
如视频译码中的惯例,基于四个QP点计算BD速率。负值指示假定PSNR相同,所提议的方法可提供与锚定方法(其为HM参考软件编码器)相比的位速率节省(在此情况下平均28.5%)。
图11说明编码视频数据的过程1100的实施例。在一些方面中,过程1100可由计算装置或设备执行,例如图1、图5或图13中示出的编码装置104或编码装置510。举例来说,计算装置或设备可以包含编码器或处理器、微处理器、微型计算机或经配置以执行过程1100的步骤的编码器的其它组件。在一些实例中,计算装置或设备可包含经配置以捕获视频数据的相机。举例来说,计算装置可包含包括视频编解码器的相机装置(例如,IP相机或其它类型的相机装置)。在一些实例中,捕获视频数据的相机或其它捕获装置与计算装置分离,在此情况下计算装置接收所捕获的视频数据。计算装置可进一步包含经配置以传送视频数据的网络接口。网络接口可经配置以传送基于因特网协议(IP)的数据。
过程1100被说明为逻辑流程图,其操作表示可以在硬件、计算机指令或其组合中实施的一系列操作。在计算机指令的情形下,操作表示存储在一或多个计算机可读存储媒体上的计算机可执行指令,这些计算机可执行指令在由一或多个处理器执行时实施所叙述的操作。一般而言,计算机可执行指令包含例程、程序、对象、组件、数据结构以及执行特定功能或实施特定数据类型的类似物。描述操作的顺序并不意图解释为限制,且任何数目的所描述操作可以按任何顺序组合和/或平行以实施所述过程。
另外,过程1100可以在配置有可执行指令的一或多个计算机系统的控制下执行并且可以实施为在一或多个处理器上通过硬件或其组合共同地执行的译码(例如,可执行指令、一或多个计算机程序或一或多个应用程序)。如上文所指出,代码可存储在计算机可读或机器可读存储媒体上,例如,呈包括可通过一个或多个处理器执行的多个指令的计算机程序的形式。计算机可读或机器可读存储媒体可为非暂时性的。
在1102,对视频数据进行编码的过程1100包括获得背景图片。基于由图像传感器捕获的多个图片产生背景图片。产生背景图片以包含在所捕获图片中的每一个中识别的背景部分。在一个说明性实例中,视频分析引擎504(例如,背景提取引擎506)可使用本文中所描述的技术中的任一种产生背景图片。在一些实例中,背景图片包含使用统计模型(例如,高斯模型或GMM)产生的合成背景图片。在一些实例中,背景图片包含半合成背景图片。半合成背景的背景像素是从当前图片的背景像素值确定,半合成背景的前景像素是从统计模型的期望确定,如先前描述。在一些实例中,背景图片包含非合成背景图片。当当前图片与合成背景图片之间的像素值的相似性在阈值内时将非合成背景图片设定为当前图片,如先前描述。在当背景图片包含非合成背景图片时的一些实例中,当当前图片与合成背景图片之间的像素值的相似性在阈值之外时,非合成背景图片是选自在时间上在当前图片之前发生的一或多个图片,如先前描述。
在1104,过程1100包括将由图像传感器捕获的图片群组编码到视频位流中。所述图片群组包括至少一个随机存取图片,且对所述图片群组进行编码包括使用基于背景图片的帧间预测对所述至少一个随机存取图片的至少一部分进行编码。在一些实例中,使用基于背景图片的帧间预测对所述至少一个随机存取图片的至少所述部分进行编码包括使用背景图片作为参考图片预测所述至少一个随机存取图片的至少所述部分。在一些实例中,过程1100包含将背景图片编码到视频位流中。在一些情况下,过程1100包含将背景图片编码为长期参考图片。在一些情况下,过程1100包含将背景图片编码为短期参考图片。
在一些实例中,过程1100包含当背景图片经确定为可用作参考图片时使用基于背景图片的帧间预测对所述至少一个随机存取图片的至少所述部分进行编码。举例来说,当需要将随机存取图片插入到视频位流中且背景图片可用时,可产生预测性随机存取图片而不是另一类型的随机存取图片,例如IDR、CRA或BLA图片。
在一些实例中,过程1100包含将0的值指派于背景图片的图片输出旗标。举例来说,背景图片在一些情况下对于输出可能不是合意的。在此类情况下,背景图片的切片的pic_output_flag语法元素可设定成等于0。
在一些实例中,过程1100包含获得经更新背景图片且用经更新背景图片替换背景图片。举例来说,经更新背景图片可表示为作用中背景图片。过程1100进一步包含使用基于经更新背景图片的帧间预测对随机存取图片的至少一部分进行编码。在一些方面中,背景图片在一时间周期中在作用中,且在所述时间周期的到期之后即刻获得经更新背景图片。举例来说,背景图片可视为仅在某一时间周期中在作用中,且可被新的或经更新背景图片代替。在一个说明性实例中,背景图片可在每个设定时间周期(例如,在1分钟之后、在2分钟之后、在5分钟之后或在任何其它合适的时间周期之后)被新的或经更新背景图片代替。
在一些实例中,所述图片群组进一步包括按解码次序跟随所述至少一个随机存取图片且按输出次序先于所述至少一个随机存取图片的至少一个图片,且所述至少一个随机存取图片允许使用按解码次序先于所述至少一个随机存取图片的一或多个图片预测所述至少一个图片。在此类实例中,所述至少一个随机存取图片可称为预测性CRA图片。
在一些实例中,所述图片群组进一步包括按解码次序跟随所述至少一个随机存取图片且按输出次序先于所述至少一个随机存取图片的至少一个图片,且所述至少一个随机存取图片不允许使用除背景图片外按解码次序先于所述至少一个随机存取图片的任何图片预测所述至少一个图片。在此类实例中,所述至少一个随机存取图片可称为预测性IDR图片。
在一些实例中,所述图片群组包含含有所述至少一个随机存取图片的至少一部分的至少一个网络抽象层单元,且所述至少一个网络抽象层单元的标头包括经指派于使用基于一或多个背景图片的帧间预测经编码的随机存取图片的网络抽象层单元的随机存取图片类型指示。举例来说,NAL单元类型可经指派用于PRA图片,且可被命名为nalUnitTypePra。
在一些实例中,所述图片群组包含含有背景图片的至少一部分的至少一个网络抽象层单元,且所述至少一个网络抽象层单元的标头包括背景图片类型指示。举例来说,NAL单元类型可经指派用于背景图片,且可被命名为nalUnitTypeBg。
图12说明解码视频数据的过程1200的实施例。在一些方面中,过程1200可由计算装置或设备执行,例如图1或图14中示出的解码装置112或用于播放视频的播放器装置。举例来说,所述计算装置或设备可包含解码器、播放器或处理器、微处理器、微型计算机,或解码器或播放器的经配置以实行过程1200的步骤的其它组件。
过程1200被说明为逻辑流程图,其操作表示可以在硬件、计算机指令或其组合中实施的一系列操作。在计算机指令的情形下,操作表示存储在一或多个计算机可读存储媒体上的计算机可执行指令,这些计算机可执行指令在由一或多个处理器执行时实施所叙述的操作。一般而言,计算机可执行指令包含例程、程序、对象、组件、数据结构以及执行特定功能或实施特定数据类型的类似物。描述操作的顺序并不意图解释为限制,且任何数目的所描述操作可以按任何顺序组合和/或平行以实施所述过程。
另外,过程1200可以在配置有可执行指令的一或多个计算机系统的控制下执行并且可以实施为在一或多个处理器上通过硬件或其组合共同地执行的译码(例如,可执行指令、一或多个计算机程序或一或多个应用程序)。如上文所指出,代码可存储在计算机可读或机器可读存储媒体上,例如,呈包括可通过一个或多个处理器执行的多个指令的计算机程序的形式。计算机可读或机器可读存储媒体可为非暂时性的。
在1202,对视频数据进行解码的过程1200包括获得包括多个图片的经编码视频位流。所述多个图片包括多个预测性随机存取图片。预测性随机存取图片是使用基于至少一个背景图片的帧间预测至少部分地经编码。在一个说明性实例中,视频分析引擎504(例如,背景提取引擎506)可使用本文中所描述的技术中的任一种产生背景图片。在一些实例中,背景图片包含使用统计模型(例如,高斯模型或GMM)产生的合成背景图片。在一些实例中,背景图片包含半合成背景图片。半合成背景的背景像素是从当前图片的背景像素值确定,半合成背景的前景像素是从统计模型的期望确定,如先前描述。在一些实例中,背景图片包含非合成背景图片。当当前图片与合成背景图片之间的像素值的相似性在阈值内时将非合成背景图片设定为当前图片,如先前描述。在当背景图片包含非合成背景图片时的一些实例中,当当前图片与合成背景图片之间的像素值的相似性在阈值之外时,非合成背景图片是选自在时间上在当前图片之前发生的一或多个图片,如先前描述。
在1204,过程1200包括针对视频位流的时间实例确定所述多个预测性随机存取图片中具有在时间上与所述时间实例最接近的时戳的预测性随机存取图片。在1206,过程1200包括确定与预测性随机存取图片相关联的背景图片。在一些实例中,与预测性随机存取图片相关联的背景图片按解码次序先于所述预测性随机存取图片,且具有在时间上与预测性随机存取图片的时戳最接近的时戳。
在1208,过程1200包括使用基于背景图片的帧间预测对所述预测性随机存取图片的至少一部分进行解码。
在一些实例中,过程1200包含接收指示预测性随机存取图片具有预测性随机存取类型的消息。在一些实例中,过程1200包含接收指示背景图片具有背景图片类型的消息。所述消息可包含一或多个SEI消息。举例来说,背景图片和PRA图片可与同一SEI消息相关联。在另一实例中,背景图片和PRA图片可与不同SEI消息(例如,分别为背景图片SEI和PRA图片SEI)相关联。
在一些实例中,所述多个图片进一步包括按解码次序跟随所述预测性随机存取图片且按输出次序先于所述预测性随机存取图片的至少一个图片,且所述至少一个图片包含指示所述至少一个图片与所述预测性随机存取图片相关联的消息。所述消息可包含SEI消息。在一些方面中,所述至少一个图片包含预测性随机存取可解码前导图片。在一些方面中,所述至少一个图片包含预测性随机存取跳过前导图片。
在一些实例中,使用基于背景图片的帧间预测对所述预测性随机存取图片的至少所述部分进行解码包括使用背景图片作为参考图片预测所述预测性随机存取图片的至少所述部分。
在一些实例中,背景图片经编码到视频位流中。在一些方面中,背景图片经编码为长期参考图片。在一些方面中,背景图片经编码为短期参考图片。
在一些实例中,所述多个图片包含含有所述预测性随机存取图片的至少一部分的至少一个网络抽象层单元,且所述至少一个网络抽象层单元的标头包括经指派于使用基于一或多个背景图片的帧间预测经编码的随机存取图片的网络抽象层单元的预测性随机存取图片类型指示。举例来说,NAL单元类型可经指派用于PRA图片,且可被命名为nalUnitTypePra。
在一些实例中,其中所述多个图片包含含有背景图片的至少一部分的至少一个网络抽象层单元,其中所述至少一个网络抽象层单元的标头包括背景图片类型指示。举例来说,NAL单元类型可经指派用于背景图片,且可被命名为nalUnitTypeBg。
本文中所论述的译码技术可以在实例视频编码和解码系统(例如,系统100)中实施。系统包含提供待在稍后时间由目的地装置解码的经编码视频数据的源装置。具体而言,源装置经由计算机可读媒体将视频数据提供到目的地装置。源装置和目的地装置可包括各种各样裝置中的任一者,包含桌上型计算机、笔记本型(即,膝上型)计算机、平板计算机、机顶盒、电话手持机(例如所谓的“智能”电话)、所谓的“智能”平板机、电视机、相机、显示装置、数字媒体播放器、视频游戏控制台、视频流式传输装置或类似者。在一些情况下,源装置和目的地装置可经装备以用于无线通信。
目的地装置可经由计算机可读媒体接收待解码的经编码视频数据。计算机可读媒体可包括能够将经编码视频数据从源装置移动到目的地装置的任何类型的媒体或装置。在一个实例中,计算机可读媒体可包括使源装置能够实时将经编码视频数据直接发射到目的地装置的通信媒体。经编码视频数据可根据通信标准(例如无线通信协议)加以调制,且发射到目的地装置。通信媒体可包括任何无线或有线通信媒体,例如射频(RF)频谱或一或多个物理发射线路。通信媒体可形成基于包的网络(例如局域网、广域网或全球网络,例如因特网)的部分。通信媒体可包含可用于促进从源装置到目的地装置的通信的路由器、交换器、基站或任何其它设备。
在一些实例中,经编码数据可从输出接口输出到存储装置。类似地,经编码数据可通过输入接口从存储装置存取。存储装置可包含各种分布式或本地存取的数据存储媒体中的任一者,例如硬盘驱动器、蓝光光盘、DVD、CD-ROM、快闪存储器、易失性或非易失性存储器、或用于存储经编码视频数据的任何其它适合的数字存储媒体。在另一实例中,存储装置可以对应于文件服务器或可存储由源装置产生的经编码视频的另一中间存储装置。目的地装置可经由流式传输或下载从存储装置存取所存储的视频数据。文件服务器可为能够存储经编码视频数据和将所述经编码视频数据发射到目的地装置的任何类型的服务器。实例文件服务器包含网络服务器(例如,用于网站)、FTP服务器、网络附接存储(NAS)装置或本地磁盘驱动器。目的地装置可经由任何标准数据连接(包含因特网连接)来存取经编码的视频数据。此可包含无线信道(例如,Wi-Fi连接)、有线连接(例如,DSL、电缆调制解调器等),或适合于存取存储在文件服务器上的经编码视频数据的两者的组合。经编码视频数据从存储装置的传输可为流式传输、下载传输或其组合。
本发明的技术未必限于无线应用或设置。所述技术可应用于支持多种多媒体应用中的任一者的视频译码,例如空中电视广播、有线电视传输、卫星电视传输、因特网流视频传输(例如,HTTP动态自适应流式传输(DASH))、被编码到数据存储媒体上的数字视频,存储在数据存储媒体上的数字视频的解码,或其它应用。在一些实例中,系统可经配置以支持单向或双向视频传输,从而支持例如视频流式传输、视频回放、视频广播和/或视频电话等应用。
在一个实例中,源装置包含视频源、视频编码器和输出接口。目的地装置可包含输入接口、视频解码器和显示装置。源装置的视频编码器可经配置以应用本文所揭示的技术。在其它实例中,源装置和目的地装置可包含其它组件或布置。举例来说,源装置可从外部视频源(例如,外部相机)接收视频数据。同样,目的地装置可与外部显示装置介接,而非包含集成显示装置。
以上实例系统仅是一个实例。用于并行处理视频数据的技术可由任何数字视频编码及/或解码装置来执行。尽管本发明的技术通常由视频编码装置执行,但是所述技术也可通过视频编码器/解码器(通常被称作“编解码器”)执行。此外,本发明的技术还可由视频预处理器执行。源装置和目的地装置仅为源装置在其中产生经译码视频数据以供发射到目的地装置的此类译码装置的实例。在一些实例中,源装置和目的地装置可以大体上对称的方式操作以使得所述装置中的每一者包含视频编码和解码组件。因此,实例系统可支持视频装置之间的单向或双向视频发射,例如,用于视频串流、视频重放、视频广播或视频电话。
视频源可包含视频捕获装置,例如摄像机、含有先前所捕获视频的视频存档及/或用于从视频内容提供者接收视频的视频馈入接口。作为再一替代方案,视频源可产生基于计算机图形的数据作为源视频,或实况视频、存档视频与计算机产生的视频的组合。在一些情况下,如果视频源为视频相机,那么源装置和目的地装置可形成所谓的相机电话或视频电话。然而,如上文所提及,本发明中所描述的技术一般可适用于视频译码,且可应用于无线和/或有线应用。在每一情况下,可由视频编码器编码所捕获、预先捕获或计算机产生的视频。经编码视频信息可接着由输出接口输出到计算机可读媒体上。
如所提到,计算机可读媒体可包含瞬时媒体,例如无线广播或有线网络发射,或存储媒体(即,非暂时性存储媒体),例如硬盘、快闪驱动器、压缩光盘、数字视频光盘、蓝光光盘或其它计算机可读媒体。在一些实例中,网络服务器(未图示)可例如经由网络发射从源装置接收经编码视频数据且将经编码视频数据提供到目的地装置。类似地,媒体生产设施(例如,光盘冲压设施)的计算装置可从源装置接收经编码的视频数据且生产含有经编码的视频数据的光盘。因此,在各种实例中,计算机可读媒体可理解为包含各种形式的一或多个计算机可读媒体。
目的地装置的输入接口从计算机可读媒体接收信息。计算机可读媒体的信息可包含由视频编码器界定的语法信息,其也由视频解码器使用,所述语法信息包含描述块和其它经译码单元(例如,图片群组(GOP))的特性和/或处理的语法元素。显示装置向用户显示经解码视频数据,且可包括多种显示装置中的任一种,例如阴极射线管(CRT)、液晶显示器(LCD)、等离子显示器、有机发光二极管(OLED)显示器或另一类型的显示装置。已描述本发明的各种实施例。
在图13和图14中分别展示编码装置104和解码装置112的具体细节。图13是说明可实施本发明中描述的技术中的一或多个的实例编码装置104的框图。举例来说,编码装置104可以产生本文中描述的语法结构(例如,VPS、SPS、PPS的语法结构,或其它语法元素)。编码装置104可以在视频切片内执行视频块的帧内预测和帧间预测译码。如先前描述,帧内译码至少部分依赖于空间预测来减少或去除给定视频帧或图片内的空间冗余。帧间译码至少部分依赖于时间预测来减少或去除视频序列的邻近或周围帧内的时间冗余。帧内模式(I模式)可指若干基于空间压缩模式中的任一者。例如单向预测(P模式)或双向预测(B模式)的帧间模式可指代若干基于时间的压缩模式中的任一者。
编码装置104包含分割单元35、预测处理单元41、滤波器单元63、图片存储器64、求和器50、变换处理单元52、量化单元54以及熵编码单元56。预测处理单元41包含运动估计单元42、运动补偿单元44及帧内预测处理单元46。对于视频块重构,编码装置104还包含逆量化单元58、逆变换处理单元60和求和器62。滤波器单元63既定表示一或多个环路滤波器,例如解块滤波器、自适应环路滤波器(ALF)及样本自适应偏移(SAO)滤波器。尽管在图13中将滤波器单元63展示为环路内滤波器,但在其它配置中,可将滤波器单元63实施为环路后滤波器。后处理装置57可对由编码装置104产生的经编码视频数据执行额外处理。本发明的技术在一些情况下可由编码装置104实施。然而在其它情况下,本发明的技术中的一或多者可由后处理装置57实施。
如图13中所示,编码装置104接收视频数据,且分割单元35将所述数据分割成视频块。所述分割还可包含分隔成切片、切片片段、瓦片或其它较大单元,以及例如根据LCU和CU的四叉树结构的视频块分割。编码装置104大体上说明编码视频切片内的待编码的视频块的组件。可将切片划分成多个视频块(且可能划分成被称作瓦片的视频块的集合)。预测处理单元41可以基于误差结果(例如,译码速率和失真水平,或类似物)选择多个可能的译码模式中的一个,例如多个帧内预测译码模式中的一个或多个帧间预测译码模式中的一个,以用于当前视频块。预测处理单元41可将所得经帧内或帧间译码块提供到求和器50以产生残余块数据,并提供到求和器62以重构经编码的块以用作参考图片。
预测处理单元41内的帧内预测处理单元46可相对于与待译码的当前块在相同帧或切片中的一或多个相邻块执行当前视频块的帧内预测译码,以提供空间压缩。预测处理单元41内的运动估计单元42及运动补偿单元44相对于一或多个参考图片中的一或多个预测块执行当前视频块的帧间预测译码以提供时间压缩。
运动估计单元42可经配置以根据用于视频序列的预定模式来确定用于视频切片的帧间预测模式。预定模式可将序列中的视频切片指定为P切片、B切片或GPB切片。运动估计单元42及运动补偿单元44可高度集成,但出于概念的目的分别加以说明。由运动估计单元42执行的运动估计是产生运动向量的过程,所述过程估计视频块的运动。运动向量例如可指示当前视频帧或图片内的视频块的预测单元(PU)相对于参考图片内的预测性块的位移。
预测块是被发现在像素差方面与待译码的视频块的PU密切匹配的块,像素差可通过绝对差总和(SAD)、平方差总和(SSD)或其它差度量来确定。在一些实例中,编码装置104可以计算存储于图片存储器64中的参考图片的子整数像素位置的值。举例来说,编码装置104可以内插参考图片的四分之一像素位置、八分之一像素位置或其它分数像素位置的值。因此,运动估计单元42可相对于全像素位置及分数像素位置执行运动搜索并且输出具有分数像素精度的运动向量。
运动估计单元42通过比较PU的位置与参考图片的预测块的位置来计算用于经帧间译码切片中的视频块的PU的运动向量。参考图片可以选自第一参考图片列表(列表0)或第二参考图片列表(列表1),其中的每一个识别存储在图片存储器64中的一或多个参考图片。运动估计单元42向熵编码单元56和运动补偿单元44发送计算出的运动向量。
通过运动补偿单元44执行的运动补偿可以涉及基于通过运动估计(可能执行对子像素精确度的内插)确定的运动向量获取或产生预测性块。在接收到当前视频块的PU的运动向量后,运动补偿单元44可即刻在参考图片列表中定位所述运动向量指向的预测性块。编码装置104通过从正经译码的当前视频块的像素值减去预测性块的像素值从而形成像素差值来形成残余视频块。像素差形成用于所述块的残余数据,并且可包含明度和色度差分量两者。求和器50表示执行此减法运算的一或多个组件。运动补偿单元44还可产生与视频块和视频切片相关联的供解码装置112在对视频切片的视频块进行解码时使用的语法元素。
作为如上文所描述由运动估计单元42和运动补偿单元44执行的帧间预测的替代方案,帧内预测处理单元46可以对当前块进行帧内预测。特定来说,帧内预测处理单元46可确定用以对当前块进行编码的帧内预测模式。在一些实例中,帧内预测处理单元46例如在单独的编码遍次期间可使用各种帧内预测模式对当前块进行编码,且帧内预测单元处理46(或在一些实例中模式选择单元40)可从测试模式选择适当帧内预测模式来使用。举例来说,帧内预测处理单元46可使用速率-失真分析计算各种经测试帧内预测模式的速率-失真值,并在所述经测试模式当中选择具有最佳速率-失真特性的帧内预测模式。速率失真分析一般确定经编码块与经编码以产生所述经编码块的原始的未经编码块之间的失真(或误差)的量,以及用于产生经编码块的位速率(即,位数目)。帧内预测处理单元46可以从用于各种经编码块的失真及速率计算比率,以确定哪种帧内预测模式对于所述块来说展现最佳速率失真值。
在任何情况下,在选择用于块的帧内预测模式后,帧内预测处理单元46可将指示用于块的所选帧内预测模式的信息提供到熵编码单元56。熵编码单元56可对指示所选帧内预测模式的信息进行编码。编码装置104可以在所传输的位流中包含用于各种块的编码文本的配置数据定义以及最可能帧内预测模式的指示、帧内预测模式索引表和经修改帧内预测模式索引表以供每种文本使用。位流配置数据可包含多个帧内预测模式索引表和多个经修改帧内预测模式索引表(也被称作码字映射表)。
在预测处理单元41经由帧间预测或帧内预测产生当前视频块的预测性块之后,编码装置104通过从当前视频块减去预测性块来形成残余视频块。残余块中的残余视频数据可包含于一或多个TU中,并可应用到变换处理单元52。变换处理单元52使用变换(例如,离散余弦变换(DCT)或在概念上类似的转换)来将残余视频数据变换成残余变换系数。变换处理单元52可将残余视频数据从像素值域转换到变换域,例如频域。
变换处理单元52可将所得变换系数发送到量化单元54。量化单元54可量化所述变换系数以进一步减小位速率。量化过程可降低与系数中的一些或全部相关联的位深度。可以通过调节量化参数来修改量化程度。在一些实例中,量化单元54可接着对包含经量化变换系数的矩阵执行扫描。替代地,熵编码单元56可执行扫描。
在量化之后,熵编码单元56对经量化的变换系数进行熵编码。举例来说,熵编码单元56可以执行上下文自适应可变长度译码(CAVLC)、上下文自适应二进制算术译码(CABAC)、基于语法的上下文自适应二进制算术译码(SBAC)、概率区间分割熵(PIPE)译码或另一熵编码技术。在由熵编码单元56进行熵编码之后,经编码位流可发射到解码装置112,或经存档以供稍后发射或由解码装置112检索。熵编码单元56还可对正进行译码的当前视频切片的运动向量和其它语法元素进行熵编码。
逆量化单元58和逆变换处理单元60分别应用逆量化和逆变换以在像素域中重构残余块,以供稍后用作参考图片的参考块。运动补偿单元44可通过将残余块添加到在参考图片列表内的参考图片中的一者的预测性块来计算参考块。运动补偿单元44还可将一或多个内插滤波器应用于经重构的残余块以计算子整数像素值用于运动估计。求和器62将经重构的残余块添加到由运动补偿单元44产生的经运动补偿的预测块,以产生参考块以用于存储于图片存储器64中。参考块可由运动估计单元42及运动补偿单元44用作参考块以对后续视频帧或图片中的块进行帧间预测。
以此方式,图13的编码装置104表示经配置以产生用于经编码视频位流的语法的视频编码器的实例。举例来说,编码装置104可以产生VPS、SPS和PPS参数集,如上文所述。编码装置104可执行本文所描述的技术中的任一者,包含上文关于图6和图7描述的过程。已相对于编码装置104总体上描述了本发明的技术,但是如上文所提及,本发明的技术中的一些也可以通过后处理装置57实施。
图14是说明实例解码装置112的框图。解码装置112包含熵解码单元80、预测处理单元81、逆量化单元86、逆变换处理单元88、求和器90、滤波器单元91和图片存储器92。预测处理单元81包含运动补偿单元82和帧内预测处理单元84。在一些实例中,解码装置112可执行总体上与关于图13的编码装置104描述的编码遍次互逆的解码遍次。
在解码过程期间,解码装置112接收表示经编码视频切片的视频块和由编码装置104发送的相关联语法元素的经编码视频位流。在一些实施例中,解码装置112可以从编码装置104接收经编码视频位流。在一些实施例中,解码装置112可以从网络实体79接收经编码视频位流,所述网络实体例如服务器、媒体感知网络元件(MANE)、视频编辑器/拼接器或经配置以实施上文所述的技术中的一或多个的其它此类装置。网络实体79可包含或可不包含编码装置104。本发明中描述的技术中的一些可以在网络实体79将经编码视频位流传输到解码装置112之前通过网络实体79实施。在一些视频解码系统中,网络实体79和解码装置112可为单独的装置的部分,而在其它情况下,关于网络实体79描述的功能性可由包括解码装置112的同一装置执行。
解码装置112的熵解码单元80对位流进行熵解码以产生经量化的系数、运动向量和其它语法元素。熵解码单元80将运动向量及其它语法元素转发到预测处理单元81。解码装置112可在视频切片层级和/或视频块层级接收语法元素。熵解码单元80可以处理和解析在例如VPS、SPS和PPS中的一或多个参数集中的固定长度语法元素和可变长度语法元素这两者。
当视频切片经译码为经帧内译码(I)切片时,预测处理单元81的帧内预测处理单元84可基于用信号发出的帧内预测模式及来自当前帧或图片的先前经解码块的数据产生用于当前视频切片的视频块的预测数据。当视频帧经译码为经帧间译码(即,B、P或GPB)切片时,预测处理单元81的运动补偿单元82基于从熵解码单元80接收的运动向量和其它语法元素产生当前视频切片的视频块的预测性块。所述预测性块可从参考图片列表内的参考图片中的一个产生。解码装置112可基于存储在图片存储器92中的参考图片使用默认构造技术构造参考帧列表,即列表0和列表1。
运动补偿单元82通过剖析运动向量和其它语法元素确定用于当前视频切片的视频块的预测信息,并且使用所述预测信息产生用于经解码当前视频块的预测性块。举例来说,运动补偿单元82可使用参数集中的一或多个语法元素以确定用以对视频切片的视频块进行译码的预测模式(例如,帧内或帧间预测)、帧间预测切片类型(例如,B切片、P切片或GPB切片)、用于切片的一或多个参考图片列表的构造信息、用于切片的每一经帧间编码视频块的运动向量、用于切片的每一经帧间译码视频块的帧间预测状态,以及用以对当前视频切片中的视频块进行解码的其它信息。
运动补偿单元82还可基于内插滤波器执行内插。运动补偿单元82可使用如由编码装置104在编码视频块期间所使用的内插滤波器来计算参考块的子整数像素的内插值。在此情况下,运动补偿单元82可从所接收的语法元素确定编码装置104所使用的内插滤波器,且可使用所述内插滤波器来产生预测性块。
逆量化单元86对在位流中提供且通过熵解码单元80解码的经量化变换系数进行逆量化,或解量化。逆量化过程可以包含将通过编码装置104计算出的量化参数用于视频切片中的每一视频块以确定量化的程度,并且同样确定应该应用的逆量化的程度。逆变换处理单元88将逆变换(例如,逆DCT或其它合适的逆变换)、逆整数变换或概念上相似的逆变换过程应用到所述变换系数以便产生像素域中的残余块。
在运动补偿单元82基于运动向量和其它语法元素产生用于当前视频块的预测性块之后,解码装置112通过将来自逆变换处理单元88的残余块与由运动补偿单元82产生的对应预测性块求和来形成经解码视频块。求和器90表示执行此求和操作的一或多个组件。必要时,还可使用环路滤波器(在译码环路中或在译码环路之后)来使像素过渡平滑或者以其它方式改进视频质量。滤波器单元91既定表示一或多个环路滤波器,例如去块滤波器、自适应环路滤波器(ALF)和样本自适应偏移(SAO)滤波器。尽管在图14中将滤波器单元91展示为环路内滤波器,但在其它配置中,可将滤波器单元91实施为环路后滤波器。随后将给定帧或图片中的经解码视频块存储于图片存储器92中,所述图片存储器存储用于随后运动补偿的参考图片。图片存储器92还存储经解码视频以供稍后在显示装置(例如,图1中所示的视频目的地装置122)上呈现。
在以上描述中,参考具体实施例描述应用的方面,但是所属领域的技术人员将认识到本发明不限于此。因此,虽然已经在本文中详细地描述了应用的说明性实施例,但是应理解本发明概念可以其它方式不同地实施和采用,并且除了现有技术所限制的之外,所附权利要求书意图解释为包含此类变化。上文描述的本发明的各种特征和方面可以单独或共同地使用。另外,实施例可以在本文中描述的那些之外的任何数目的环境和应用中使用而不脱离本说明书的广泛的精神和范围。应将本说明书和图式相应地视为说明性的而非限制性的。出于说明的目的,方法是以特定次序描述的。应了解,在替代实施例中,方法可以与所描述的次序不同的次序执行。
在组件被描述为“经配置以”执行特定操作的情况下,可例如通过设计电子电路或其它硬件以执行所述操作、通过编程可编程电子电路(例如,微处理器或其它适合电子电路)以执行所述操作或其任何组合来实现此类配置。
结合本文中所揭示的实施例描述的各种说明性逻辑块、模块、电路和算法步骤可实施为电子硬件、计算机软件、固件或其组合。为清晰地说明硬件与软件的这种可互换性,上文已大体就其功能性来描述了各种说明性组件、块、模块、电路和步骤。此类功能性是实施为硬件还是软件取决于具体应用和施加于整个系统的设计约束。所属领域的技术人员可针对每一特定应用以不同方式来实施所描述的功能性,但这样的实施决策不应被解释为会引起脱离本发明的范围。
本文中描述的技术也可以在电子硬件、计算机软件、固件或其任何组合中实施。此类技术可实施于多种装置中的任一个中,例如通用计算机、无线通信装置手持机或集成电路装置,其具有包含在无线通信装置手持机及其它装置中的应用的多种用途。被描述为模块或组件的任何特征可一起实施于集成逻辑装置中或分开来实施为离散但可互操作的逻辑装置。如果在软件中实施,那么所述技术可至少部分地由包括程序代码的计算机可读数据存储媒体来实现,所述程序代码包括在被执行时执行上文所描述的方法中的一或多个的指令。计算机可读数据存储媒体可形成计算机程序产品的一部分,所述计算机程序产品可包含封装材料。计算机可读媒体可包括存储器或数据存储媒体,例如,随机存取存储器(RAM)(例如,同步动态随机存取存储器(SDRAM))、只读存储器(ROM)、非易失性随机存取存储器(NVRAM)、电可擦除可编程只读存储器(EEPROM)、快闪存储器、磁性或光学数据存储媒体等等。另外或替代地,所述技术可至少部分地由计算机可读通信媒体来实现,所述计算机可读通信媒体携载或传达以指令或数据结构的形式携的载或传达程序代码且可由计算机存取、读取和/或执行(例如,传播的信号或波)。
程序代码可由处理器执行,所述处理器可包含一或多个处理器,例如,一或多个数字信号处理器(DSP)、通用微处理器、专用集成电路(ASIC)、现场可编程逻辑阵列(FPGA)或其它等效集成或离散逻辑电路。此处理器可经配置以执行本发明中描述的技术中的任一者。通用处理器可为微处理器,但在替代方案中,处理器可为任何常规的处理器、控制器、微控制器或状态机。处理器也可实施为计算装置的组合,例如DSP和微处理器的组合、多个微处理器、与DSP核心结合的一或多个微处理器,或任何其它此类配置。因此,如本文中所使用的术语“处理器”可指前述结构中的任一个、上述结构的任何组合,或适合于实施本文中所描述的技术的任何其它结构或设备。此外,在一些方面中,可将本文中所描述的功能性提供于经配置以用于编码和解码的专用软件模块或硬件模块内或并入组合式视频编码器-解码器(编解码器)中。

Claims (30)

1.一种对视频数据进行解码的方法,所述方法包括:
获得包括多个图片的经编码视频位流,其中所述多个图片包括多个预测性随机存取图片,且其中预测性随机存取图片是使用基于至少一个背景图片的帧间预测至少部分地经编码;
针对所述视频位流的时间实例确定所述多个预测性随机存取图片中具有在时间上与所述时间实例最接近的时戳的预测性随机存取图片;
确定与所述预测性随机存取图片相关联的背景图片;以及
使用基于所述背景图片的帧间预测对所述预测性随机存取图片的至少一部分进行解码。
2.根据权利要求1所述的方法,其中与所述预测性随机存取图片相关联的所述背景图片按解码次序先于所述预测性随机存取图片,且具有在时间上与所述预测性随机存取图片的所述时戳最接近的时戳。
3.根据权利要求1所述的方法,其进一步包括接收指示所述预测性随机存取图片具有预测性随机存取类型的消息。
4.根据权利要求1所述的方法,其进一步包括接收指示所述背景图片具有背景图片类型的消息。
5.根据权利要求1所述的方法,其中所述多个图片进一步包括按解码次序跟随所述预测性随机存取图片且按输出次序先于所述预测性随机存取图片的至少一个图片,其中所述至少一个图片包含指示所述至少一个图片与所述预测性随机存取图片相关联的消息。
6.根据权利要求1所述的方法,其中所述至少一个图片包含预测性随机存取可解码前导图片。
7.根据权利要求1所述的方法,其中所述至少一个图片包含预测性随机存取跳过前导图片。
8.根据权利要求1所述的方法,其中使用基于所述背景图片的帧间预测对所述预测性随机存取图片的至少所述部分进行解码包括使用所述背景图片作为参考图片预测所述预测性随机存取图片的至少所述部分。
9.根据权利要求8所述的方法,其中所述背景图片经编码到所述视频位流中。
10.根据权利要求9所述的方法,其中所述背景图片经编码为长期参考图片。
11.根据权利要求9所述的方法,其中所述背景图片经编码为短期参考图片。
12.根据权利要求1所述的方法,其中所述多个图片包含含有所述预测性随机存取图片的至少一部分的至少一个网络抽象层单元,其中所述至少一个网络抽象层单元的标头包括经指派于使用基于一或多个背景图片的帧间预测经编码的随机存取图片的网络抽象层单元的预测性随机存取图片类型指示。
13.根据权利要求1所述的方法,其中所述多个图片包含含有所述背景图片的至少一部分的至少一个网络抽象层单元,其中所述至少一个网络抽象层单元的标头包括背景图片类型指示。
14.一种设备,其包括:
存储器,其经配置以存储视频数据;以及
处理器,其经配置以:
获得包括多个图片的经编码视频位流,其中所述多个图片包括多个预测性随机存取图片,且其中预测性随机存取图片是使用基于至少一个背景图片的帧间预测至少部分地经编码;
针对所述视频位流的时间实例确定所述多个预测性随机存取图片中具有在时间上与所述时间实例最接近的时戳的预测性随机存取图片;
确定与所述预测性随机存取图片相关联的背景图片;以及
使用基于所述背景图片的帧间预测对所述预测性随机存取图片的至少一部分进行解码。
15.根据权利要求14所述的设备,其中与所述预测性随机存取图片相关联的所述背景图片按解码次序先于所述预测性随机存取图片,且具有在时间上与所述预测性随机存取图片的所述时戳最接近的时戳。
16.根据权利要求14所述的设备,其中所述处理器进一步经配置以接收指示所述预测性随机存取图片具有预测性随机存取类型的消息。
17.根据权利要求14所述的设备,其中所述处理器进一步经配置以接收指示所述背景图片具有背景图片类型的消息。
18.根据权利要求14所述的设备,其中所述多个图片进一步包括按解码次序跟随所述预测性随机存取图片且按输出次序先于所述预测性随机存取图片的至少一个图片,其中所述至少一个图片包含指示所述至少一个图片与所述预测性随机存取图片相关联的消息。
19.根据权利要求14所述的设备,其中所述至少一个图片包含预测性随机存取可解码前导图片。
20.根据权利要求14所述的设备,其中所述至少一个图片包含预测性随机存取跳过前导图片。
21.根据权利要求14所述的设备,其中使用基于所述背景图片的帧间预测对所述预测性随机存取图片的至少所述部分进行解码包括使用所述背景图片作为参考图片预测所述预测性随机存取图片的至少所述部分。
22.根据权利要求21所述的设备,其中所述背景图片经编码到所述视频位流中。
23.根据权利要求22所述的设备,其中所述背景图片经编码为长期参考图片。
24.根据权利要求22所述的设备,其中所述背景图片经编码为短期参考图片。
25.根据权利要求14所述的设备,其中所述多个图片包含含有所述预测性随机存取图片的至少一部分的至少一个网络抽象层单元,其中所述至少一个网络抽象层单元的标头包括经指派于使用基于一或多个背景图片的帧间预测经编码的随机存取图片的网络抽象层单元的预测性随机存取图片类型指示。
26.根据权利要求14所述的设备,其中所述多个图片包含含有所述背景图片的至少一部分的至少一个网络抽象层单元,其中所述至少一个网络抽象层单元的标头包括背景图片类型指示。
27.一种计算机可读媒体,其上存储有指令,所述指令在由处理器执行时执行包含以下各项的方法:
获得包括多个图片的经编码视频位流,其中所述多个图片包括多个预测性随机存取图片,且其中预测性随机存取图片是使用基于至少一个背景图片的帧间预测至少部分地经编码;
针对所述视频位流的时间实例确定所述多个预测性随机存取图片中具有在时间上与所述时间实例最接近的时戳的预测性随机存取图片;
确定与所述预测性随机存取图片相关联的背景图片;以及
使用基于所述背景图片的帧间预测对所述预测性随机存取图片的至少一部分进行解码。
28.根据权利要求27所述的计算机可读媒体,其中与所述预测性随机存取图片相关联的所述背景图片按解码次序先于所述预测性随机存取图片,且具有在时间上与所述预测性随机存取图片的所述时戳最接近的时戳。
29.根据权利要求27所述的计算机可读媒体,其进一步包括接收指示所述预测性随机存取图片具有预测性随机存取类型的消息。
30.根据权利要求27所述的计算机可读媒体,其进一步包括接收指示所述背景图片具有背景图片类型的消息。
CN201680057394.1A 2015-10-07 2016-10-04 使用背景图片执行预测性随机存取的方法和系统 Pending CN108141583A (zh)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201562238647P 2015-10-07 2015-10-07
US62/238,647 2015-10-07
US15/131,574 US10063861B2 (en) 2015-10-07 2016-04-18 Methods and systems of performing predictive random access using a background picture
US15/131,574 2016-04-18
PCT/US2016/055364 WO2017062377A1 (en) 2015-10-07 2016-10-04 Methods and systems of performing predictive random access using a background picture

Publications (1)

Publication Number Publication Date
CN108141583A true CN108141583A (zh) 2018-06-08

Family

ID=57145056

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201680057394.1A Pending CN108141583A (zh) 2015-10-07 2016-10-04 使用背景图片执行预测性随机存取的方法和系统

Country Status (4)

Country Link
US (1) US10063861B2 (zh)
EP (1) EP3360325A1 (zh)
CN (1) CN108141583A (zh)
WO (1) WO2017062377A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022148269A1 (en) * 2021-01-06 2022-07-14 Beijing Bytedance Network Technology Co., Ltd. Cross random access point signaling enhancements

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11985318B2 (en) * 2015-12-24 2024-05-14 OP Solultions, LLC Encoding video with extended long term reference picture retention
US11595652B2 (en) 2019-01-28 2023-02-28 Op Solutions, Llc Explicit signaling of extended long term reference picture retention
US9946638B1 (en) * 2016-03-30 2018-04-17 Open Text Corporation System and method for end to end performance response time measurement based on graphic recognition
GB2550604A (en) * 2016-05-24 2017-11-29 Canon Kk Method, device, and computer program for encapsulating and parsing timed media data
US10218986B2 (en) * 2016-09-26 2019-02-26 Google Llc Frame accurate splicing
US10839226B2 (en) * 2016-11-10 2020-11-17 International Business Machines Corporation Neural network training
US10621446B2 (en) * 2016-12-22 2020-04-14 Texas Instruments Incorporated Handling perspective magnification in optical flow processing
CN108243339B (zh) * 2016-12-27 2021-02-26 浙江大学 图像编解码方法及装置
CN109089119B (zh) * 2017-06-13 2021-08-13 浙江大学 一种运动矢量预测的方法及设备
KR102410035B1 (ko) * 2017-07-06 2022-06-20 삼성디스플레이 주식회사 영상 신호 처리 장치 및 그것을 포함하는 표시 장치
KR102495753B1 (ko) * 2017-10-10 2023-02-03 삼성전자주식회사 카메라를 이용하여 획득한 원시 이미지를 외부 전자 장치를 이용하여 처리하는 방법 및 전자 장치
CN109525939B (zh) * 2018-10-11 2021-03-19 广州市九安智能技术股份有限公司 一种nvr和ipc自动配对方法和无线视频监控自动组网系统
EP3918801A4 (en) * 2019-01-28 2022-06-15 OP Solutions, LLC ONLINE AND OFFLINE CHOICE OF EXTENDED LONG-TERM REFERENCE IMAGE STORAGE
WO2020180424A1 (en) 2019-03-04 2020-09-10 Iocurrents, Inc. Data compression and communication using machine learning
US20220277491A1 (en) * 2019-05-31 2022-09-01 Electronics And Telecommunications Research Institute Method and device for machine learning-based image compression using global context

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090180702A1 (en) * 2005-07-06 2009-07-16 Philippe Bordes Method and Device for Coding a Video Content Comprising a Sequence Of Pictures and a Logo
JP2011142391A (ja) * 2010-01-05 2011-07-21 Ricoh Co Ltd 画像処理装置、画像形成装置、画像処理方法及びプログラム
CN103167283A (zh) * 2011-12-19 2013-06-19 华为技术有限公司 一种视频编码方法及设备
CN104272745A (zh) * 2012-04-20 2015-01-07 高通股份有限公司 具有对流调适及拼接的增强支持的视频译码
WO2015057124A1 (en) * 2013-10-14 2015-04-23 Telefonaktiebolaget L M Ericsson (Publ) Picture order count alignment in scalble video
US20150156501A1 (en) * 2013-12-02 2015-06-04 Nokia Corporation Video encoding and decoding
CN104703027A (zh) * 2015-03-17 2015-06-10 华为技术有限公司 视频帧的解码方法和装置
CN104883572A (zh) * 2015-05-21 2015-09-02 浙江宇视科技有限公司 一种基于h.264或h.265的前背景分离编码设备和方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5230074A (en) 1991-01-25 1993-07-20 International Business Machines Corporation Battery operated computer power management system
US8842723B2 (en) 2011-01-03 2014-09-23 Apple Inc. Video coding system using implied reference frames
US9516379B2 (en) * 2011-03-08 2016-12-06 Qualcomm Incorporated Buffer management in video codecs
US10205961B2 (en) * 2012-04-23 2019-02-12 Qualcomm Incorporated View dependency in multi-view coding and 3D coding
EP3104614A4 (en) 2014-02-03 2017-09-13 Mitsubishi Electric Corporation Image encoding device, image decoding device, encoded stream conversion device, image encoding method, and image decoding method
US20170105004A1 (en) 2015-10-07 2017-04-13 Qualcomm Incorporated Methods and systems of coding a predictive random access picture using a background picture

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090180702A1 (en) * 2005-07-06 2009-07-16 Philippe Bordes Method and Device for Coding a Video Content Comprising a Sequence Of Pictures and a Logo
JP2011142391A (ja) * 2010-01-05 2011-07-21 Ricoh Co Ltd 画像処理装置、画像形成装置、画像処理方法及びプログラム
CN103167283A (zh) * 2011-12-19 2013-06-19 华为技术有限公司 一种视频编码方法及设备
CN104272745A (zh) * 2012-04-20 2015-01-07 高通股份有限公司 具有对流调适及拼接的增强支持的视频译码
WO2015057124A1 (en) * 2013-10-14 2015-04-23 Telefonaktiebolaget L M Ericsson (Publ) Picture order count alignment in scalble video
US20150156501A1 (en) * 2013-12-02 2015-06-04 Nokia Corporation Video encoding and decoding
CN104703027A (zh) * 2015-03-17 2015-06-10 华为技术有限公司 视频帧的解码方法和装置
CN104883572A (zh) * 2015-05-21 2015-09-02 浙江宇视科技有限公司 一种基于h.264或h.265的前背景分离编码设备和方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022148269A1 (en) * 2021-01-06 2022-07-14 Beijing Bytedance Network Technology Co., Ltd. Cross random access point signaling enhancements

Also Published As

Publication number Publication date
US10063861B2 (en) 2018-08-28
US20170105005A1 (en) 2017-04-13
EP3360325A1 (en) 2018-08-15
WO2017062377A1 (en) 2017-04-13

Similar Documents

Publication Publication Date Title
CN108141584A (zh) 使用背景图片对预测性随机存取图片进行译码的方法和系统
CN108141583A (zh) 使用背景图片执行预测性随机存取的方法和系统
JP6695907B2 (ja) 階層化hevcファイルフォーマットでのトラックおよびオペレーティングポイントシグナリングの設計
JP6690010B2 (ja) Hevcおよびl−hevcファイルフォーマットにおけるタイルグループ化に対する改善
CN105637884B (zh) 多层视频文件格式设计的方法及装置
CN106134200B (zh) Hevc经解码图片哈希sei消息用于多层编解码器的使用
CN104685888B (zh) 补充增强信息消息译码
CN104205840B (zh) 译码视频及存储视频内容的方法
CN105052156B (zh) Irap存取单元与位流切换及拼接
KR101951615B1 (ko) 멀티-계층 비트스트림들 파일 포맷에서의 동작 지점 샘플 그룹의 정렬
CN104272745B (zh) 具有对流调适及拼接的增强支持的视频译码
CN106537921B (zh) 用于在参数集中选择性地用信号表示不同数目的视频信号信息语法结构的系统和方法
CN103430542B (zh) 用于随机存取后译码依附图片的视频译码技术
US10375399B2 (en) Methods and systems of generating a background picture for video coding
KR102105804B1 (ko) 비디오를 위한 개선된 제약 스킴 설계
JP6637613B2 (ja) L−hevcファイルフォーマットにおけるビットストリーム終了nalユニットの処理、ならびにhevcおよびl−hevcタイルトラックの改善
CN108605168A (zh) 在媒体文件中虚拟现实视频的存储
CN109792567A (zh) 用于发送遗失或损坏视频数据信号的系统及方法
CN107211168A (zh) 在分层视频文件格式中的样本条目及操作点发信设计
CN106664427A (zh) 用于选择性地执行位流符合性检查的系统和方法
CN108028934A (zh) 改进的视频流切换和随机存取的方法和系统
CN110431522A (zh) 全向视觉媒体中的感兴趣区的高级信号发送
CN104641652A (zh) 用于视频译码的帧封装立体三维(3d)视频数据的指示
CN108141586A (zh) 经更新的视频区域的信令
TW202031052A (zh) 用於照明補償模式之刪剪

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20180608