CN112655210A - 使用多区段重采样的快速目标区域编码 - Google Patents

使用多区段重采样的快速目标区域编码 Download PDF

Info

Publication number
CN112655210A
CN112655210A CN201980048813.9A CN201980048813A CN112655210A CN 112655210 A CN112655210 A CN 112655210A CN 201980048813 A CN201980048813 A CN 201980048813A CN 112655210 A CN112655210 A CN 112655210A
Authority
CN
China
Prior art keywords
roi
image
parameters
segment
digital image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201980048813.9A
Other languages
English (en)
Inventor
R.克里什南
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Interactive Entertainment Inc
Original Assignee
Sony Interactive Entertainment Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Interactive Entertainment Inc filed Critical Sony Interactive Entertainment Inc
Publication of CN112655210A publication Critical patent/CN112655210A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/132Sampling, masking or truncation of coding units, e.g. adaptive resampling, frame skipping, frame interpolation or high-frequency transform coefficient masking
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/162User input
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/167Position within a video image, e.g. region of interest [ROI]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/172Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a picture, frame or field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/189Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the adaptation method, adaptation tool or adaptation type used for the adaptive coding
    • H04N19/196Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the adaptation method, adaptation tool or adaptation type used for the adaptive coding being specially adapted for the computation of encoding parameters, e.g. by averaging previously computed encoding parameters
    • H04N19/198Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the adaptation method, adaptation tool or adaptation type used for the adaptive coding being specially adapted for the computation of encoding parameters, e.g. by averaging previously computed encoding parameters including smoothing of a sequence of encoding parameters, e.g. by averaging, by choice of the maximum, minimum or median value
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/59Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving spatial sub-sampling or interpolation, e.g. alteration of picture size or resolution

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Computing Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

在一种用于视频编码的方法中,确定数字图像内的目标区域(ROI)的一个或多个参数。所述参数与所述ROI的大小、位置和形状有关。对输入图像执行多区段下采样,以生成具有比所述数字图像少的像素的下采样图像。所述下采样对所述ROI使用的样本密度不同于对所述数字图像的在所述ROI外部的一部分使用的样本密度。对所述下采样图像进行编码,以生成编码图像数据,并且将所述编码图像数据与所述一个或多个参数组合,以生成组合的数据,然后可传输或存储所述组合的数据。还公开了一种用于视频解码的方法,所述方法包括对编码视频进行解码,并且对所述解码视频执行多区段上采样。

Description

使用多区段重采样的快速目标区域编码
发明领域
本公开的各方面涉及数字图像编码和解码。特别地,本公开涉及目标区域编码。
背景技术
在视频处理中,目标区域(ROI)编码典型地指代相对于视频帧的其余部分提升视频帧的选定部分的视觉质量的过程。ROI编码可用于减少带宽,并且确保在网络拥塞期间维持场景的重要部分的视觉保真度。
ROI编码的传统方式涉及在编码过程期间操纵量化参数(QP),使得较低的QP被用于ROI内部的区域,并且较高的QP被用于其余区域。这造成了ROI外部的区域的比特份额的减少,这进而又降低了背景的图片质量。尽管此方法有助于降低比特率,但是由于它并未减少要处理的像素的数量,因此所述方法不会加快编码过程。
一些将非均匀重采样应用于图像的现有方法对整个图像利用变换函数,这可能会带来不适合于流行的图像和视频压缩标准的非矩形图像。为了对非矩形像素排列进行编码,将矩形边界框与填充像素一起使用,并且然后使用传统手段压缩填充的矩形图像。这也是次优的,因为编码器可能需要处理将不被显示的填充像素。
其他方法可能会利用两个单独的比特流,一个用于ROI,并且另一个用于背景。背景可缩减到较低分辨率以减少编码时间。最终图像是通过在背景上混合ROI来生成。该方法的缺点是需要两个编码器实例来生成两个比特流。在显示侧,需要两个解码器实例并需要附加的同步,这增加了复杂性。
正是在这种背景下提出本公开的各方面。
附图说明
图1示出了根据本公开的各方面的用于进行多区段下采样来进行编码的方法的流程图。
图2示出了根据本公开的各方面的用于在解码之后进行多区段上采样的方法的流程图。
图3A示出了根据本公开的各方面的用于进行ROI参数确定来进行多区段下采样的示意图。
图3B示出了根据本公开的各方面的用于进行ROI参数确定来进行多区段上采样的示意图。
图4A示出了根据本公开的各方面的用于多区段下采样的具有ROI和线性地隔开的采样点的数字图像的示意图。
图4B示出了根据本公开的各方面的用于多区段上采样的具有ROI和线性地隔开的采样点的下采样图像的示意图。
图5A示出了根据本公开的各方面的用于多区段下采样的具有ROI和非线性地隔开的采样点的数字图像的示意图。
图5B示出了根据本公开的各方面的用于多区段上采样的具有ROI和非线性地隔开的采样处的下采样图像的示意图。
图6示出了根据本公开的各方面的用于用多区段下采样对数字图像进行编码的方法的框图。
图7示出了根据本公开的各方面的用于对具有ROI的下采样图像进行解码并进行多区段上采样的方法的框图。
图8A至图8B是示出在本公开的各方面的背景内的视线跟踪的示意图。
图9是示出根据本公开的各方面的系统的框图。
具体实施方式
引言
提出了一种执行ROI编码的新的方法,该方法使用重采样以降低输入图像的分辨率,而不会损失ROI中的细节。降低的分辨率加快了产生压缩的比特流的编码过程。在对压缩的比特流进行解码之后执行另一个重采样过程,以将图像还原回到原始分辨率。所提出的方法实现了ROI编码,同时减少了执行编码所需的时间。
与现有ROI编码技术中的一些相比,所提出的解决方案具有若干优点。所提出的解决方案降低了输入图像的分辨率而不会损失ROI中的细节,从而带来更快的编码。可使用现有的主流压缩标准来执行使用所提出的解决方案的ROI编码。可避免调整QP来控制ROI和背景的图片质量。可使用单个编码器实例来实现使用所提出的解决方案的ROI编码。重采样图像可为矩形的,这消除了对填充像素的需求。所提出的解决方案允许改变视频帧之间的ROI大小和位置。可在图形处理器单元(GPU)上高效地实现在编码和解码阶段中的重采样。所提出的解决方案还允许控制在ROI与背景之间的图片质量差异。所提出的解决方案可避免在ROI与背景之间的尖锐边界。此外,所提出的解决方案可扩展到非矩形ROI,并且还扩展到同一图像中的多个ROI。
方法
如上所述,用于ROI编码的当前技术降低了比特率,但是并未减少要处理的像素的数量。减少图像中的像素的数量(也被称为下采样)通常会造成肉眼可见的质量损失。质量损失的大小取决于下采样的程度。该质量损失无法通过将下采样图像上采样回到原始大小来恢复。本公开的各方面利用重采样的这一特性来降低ROI外部的图片质量。类似地,为了保留ROI中的细节,重采样的量应为最少。所提出的方法在图像的不同区段中选择性地利用重采样来复制ROI编码的特性。在图像的不同区段中利用不同程度的重采样的这种选择性重采样方法被称为多区段重采样。
根据本公开的各方面,图1中描述了所公开的方法中的编码程序,并且描述如下。确定与ROI的大小、位置和形状有关的ROI参数101。作为举例而非限制,在矩形ROI的情况下,这些参数可包括从矩形图像的每个边缘到ROI边界的偏移。对输入图像执行多区段下采样102,以将所述输入图像转换为较小的图像。换句话说,将图像转换为具有比原始图像少的像素的图像。用标头或元数据中包括的ROI参数对所得的下采样图像进行编码103。在本发明的可选实施方案中,未编码的ROI参数可与编码的下采样图像包括在一起,作为举例而非限制,ROI参数可被单独地传输或可被包括在编码的下采样图像的未编码的包封器中。传输或存储所得的编码数据104。
图3A示出了在原始图像310和ROI 311两者为矩形的特定情况下的编码程序的实例。参数l0、t0、r0和b0分别表示相对于原始图像310的左边界307、上边界308、右边界306和下边界309的ROI 311像素偏移。原始图像的宽度301和高度302表示为w0和h0,而ROI的宽度305和高度304表示为x0和y0
x0=w0-l0-r0
y0=h0-t0-b0
基于诸如压缩图像的所需的比特率和ROI外部所需的质量损失的程度的因素而选择下采样图像340的尺寸(w1和h1)。总下采样率如下确定:
Figure BDA0002909274860000051
Figure BDA0002909274860000052
理想地,w1 313和h1 314应分别远远大于x0和y0,以便避免ROI 311中的下采样。在一些实现方式中,可将w1和h1与x0和y0的阈值进行比较,以确定在ROI中是否需要重采样。对于此类情况,可避免ROI中的重采样,并且ROI中的下采样率如下给出:
Figure BDA0002909274860000053
Figure BDA0002909274860000054
如果ROI 311中的下采样不可避免,则应如下选择下采样率,以便使ROI具有比背景好的质量:
Rx<Rw
Ry<Rh
在该阶段,已确定w1 313、h1 314、x1 304和y1 305的值。下一个步骤是参数l1 318和r1 319的计算。这些值使用以下观察结果来计算:
l1+r1=w1-x1
Figure BDA0002909274860000061
使用类似的方法,还确定t1 317和b1 320的值。一旦知道了下采样图像中的所有参数,就会出现用于确定下采样方法312的多个选项,以及采样点。下采样方法312可基于双线性插值、样条插值、三次插值等。
从视频流的一个帧到下一个帧,ROI 311的大小可显著地增大。这可能是由于检测到的眼睛移动突然增加,或由于因图片中的元素的移动而造成的目标区域的大小的预测性增大所致。在一些实施方案中,可将ROI参数与阈值进行比较,并且如果参数超过阈值,则系统可中止以宽度w1 313和高度h1 314的当前分辨率对多区段下采样视频流进行编码321,而是对具有处于更高分辨率的帧或数字图像的新的多区段下采样视频流进行编码。在一些实施方案中,可将ROI参数与阈值进行比较,并且系统可终止对具有更高分辨率帧或数字图像的多区段下采样视频流进行编码,并且开始对具有宽度w1 313和高度h1 314的原始或较低值的新的流进行编码。可基于(但不限于)实际屏幕大小、质量损失或某种其他度量而凭经验确定阈值。在可选实施方案中,系统可修改ROI参数,使得下采样率增大。作为举例而非限制,可减小x1和y1,并且由此增大比率Rx和Ry。同样地,修改x1和y1也修改了l1、r1、t1和b1。在一些可选实施方案中,系统可增大x1和y1,以将比率Rx和Ry复原为它们的原始或较低值,并且因此将多区段下采样视频流或数字图像复原为它们的原始或较低分辨率。
如果在ROI相交平面外部的采样点沿着X轴等距地放置,并且沿着Y轴等距地放置,则背景中的细节在每个区段内均匀地减少。图4A中示出了当使用线性间距时在下采样阶段312中的采样点。网格线的交点指示原始图像的像素位置403,并且圆点指示采样点404、405、402。在一些实现方式中,如果ROI是“负目标区域”,即图像的将被故意地模糊或遮蔽的一部分,则可将较低的样本密度用于ROI。
在实例中使用的ROI 401是正方形。在该实例中,在ROI 401中不执行重采样,并且因此采样点406恰好位于原始图像的像素位置上。其他采样位置不位于原始像素位置上,而是可能位于像素404之间或一般比原始像素更稀疏地分散402。在一些实施方案中,样本密度可在X或Y方向上改变,以对ROI进行补偿。如可见于图4A中,样本405及其邻居在X轴上与原始像素对准,但是在Y轴上更稀疏地散布。在下采样312之后的所得的图像340具有数量比原始图像少的像素,并且该下采样图像340被编码321,以根据所需的比特率来生成比特流。
在显示之前,需要对比特流进行解码和处理。图2中示出了所提出的方法中的解码和后处理程序。如201处所指示,解码器可接收编码数据。接收可能是从广域网连接(WAN)或本地数据连接,诸如通电通用串行总线连接(USB)进行。对所接收的数据连同ROI参数进行解码202。在一些实施方案中,ROI参数可与编码图像数据分开地接收,或者可处在编码图像数据的包封器中。使用ROI参数对解码图像执行多区段上采样203,以将所述图像再转换为其原始大小。最终,在显示器上显示原始大小的解码图像204。
图3B示出了解码程序。必须对最初编码的图片进行解码322,以产生下采样图片340。然后,必须对下采样图片340进行上采样323,以产生呈原始大小的图片350。上采样过程323在概念上与下采样过程312相反。在下采样312期间,与ROI相比,用于背景的采样密度更低。在上采样323期间,用于背景的采样密度比用于ROI的采样密度高。
图4B示出了当使用线性间距时在上采样阶段中的采样点。可利用用于缩减的相同的采样方法(诸如双线性插值)来进行放大。可选地,可使用不同的采样方法来进行缩减和放大。如可看出,取决于ROI参数和下采样期间执行的操作,不对ROI 410内的区域进行上采样或进行最低程度上采样。换句话说,一般来讲,ROI 410中的上采样点411位于原始像素位置,其中交叉网格线表示原始像素位置。另外,由于下采样操作期间的采样在图像的角落中更为稀疏;因此在上采样操作期间,在诸如409的角落中的采样将更为集中,以进行补偿。应理解,在上采样阶段期间的采样位置可至少取决于ROI的位置和所执行的上采样的类型。
所提出的解决方案可应用来改进图像用户通常倾向于关注的区域(诸如包含人或文本的区域)中的细节。作为举例而非限制,可使用图案辨识算法来自动地确定ROI,或者所述ROI可基于识别正被查看的区域的视线跟踪设备,这将在后面部分中进行讨论。对于后者,细节损失逐渐增大可能是有利的,其中与更靠近注视点的那些区域相比,更远离注视点的图片细节减少得程度更高。这种效果可通过修改所提出的方法以基于在ROI外部沿着每个轴非线性地隔开的点而执行下采样和上采样来实现。
图5A和图5B中分别示出了当使用非线性间距时在下采样和上采样阶段中的采样点。
对于非线性地隔开的下采样,定义了某一函数来识别沿着每个轴的采样点。该函数在所使用的域中应具有反函数,使得可使用该反函数来确定上采样期间的采样点。在图5A和图5B中示出的实例中,利用二次函数来进行下采样,并且利用其反函数(即平方根函数)来进行上采样。使用二次函数来进行下采样的效果是,靠近ROI的样本(诸如503)更紧密地联系到原始像素位置,而更远离ROI的样本(诸如504)不太紧密地与原始像素位置对准,并且采样密度随着偏向远离ROI501的边缘点(诸如505)而逐渐变得稀疏。ROI内的采样点(诸如502)相对于它们的像素位置发生最低程度改变。类似地,在上采样期间,反函数成立,在远边缘510处的样本更密集,并且对于ROI 501附近的采样点509,采样密度下降。对于使用非线性地隔开的采样点的ROI编码,需要计算附加的ROI参数并将其传递给解码器,使得可使用正确的函数来重建最终图像。
如果ROI本身可表示为某一函数,则所提出的方法可扩展到非矩形ROI,诸如圆形。在这种情况下,对于每个像素行或列,参数l0、t0、r0和b0可能会变化。但是,推导重采样率和重采样点的过程对于包括ROI的每个像素行和列来说保持相同。该方法还可应用于多个ROI,其中在ROI参数中添加标识符ROI_Id以指定参数对应于哪个ROI。
编码
如图6所示的编码过程最初从上文描述的下采样操作开始。系统使用预测算法、视线跟踪设备或其他此类方法或装置来解析ROI参数612。ROI参数612与数字图片613集一起使用,以执行多区段下采样操作614。ROI参数被保留和编码608或以其他方式与编码图片611包括在一起。应理解,数字图片集中的每个帧或图片可具有其自身的ROI参数,并且ROI参数可在帧之间或图片之间变化。同样地,在一些实施方案中,该数字图片集可为但不限于静止图像。
在下采样操作之后,通过正常手段对下采样数字图片601进行编码。作为举例而非限制,可根据一般化方法600来对数字图片进行编码。编码器接收多个数字图像601并对每个图像进行编码。对数字图片601的编码可逐部段地进行。针对每个部段的编码过程可任选地涉及填充602、图像压缩604和像素重建606。为了有助于帧内编码图片和帧间编码图片两者的共用的过程流,如602处所指示,可用临时像素值对当前处理图片601内的所有未解码像素进行填充,以产生填充图片。填充可例如像上文在美国专利号8,711,933中所描述的那样进行,该专利以引用的方式并入本文。可将填充图片添加到存储在缓冲区中的参考图片列表603。在602处填充图片有助于在图像压缩604和像素重建606期间的后续处理中将当前处理图片用作参考图片。这种填充更详细地描述于共同受让的美国专利号8,218,641中,该专利以引用的方式并入本文。
如本文所使用,图像压缩指代将数据压缩应用于数字图像。图像压缩604的目的是减少给定图像601的图像数据的冗余,以便能够以高效的压缩数据形式存储或传输该图像的数据。图像压缩604可能为有损或无损的。对于诸如技术制图、图标或漫画的人造图像,无损压缩有时是优选的。这是因为有损压缩方法尤其是在以低比特率使用时会引入压缩伪影。对于诸如医学影像或出于归档目的而进行的图像扫描的高价值内容,无损压缩方法可能也是优选的。有损方法尤其适合于自然图像(诸如照片)的应用,其中为了实现比特率的显著降低,轻微(有时察觉不到)的保真度损失是可接受的。
用于无损图像压缩的方法的实例包括但不限于游程编码(在PCX中用作默认方法并且在BMP、TGA、TIFF中用作可能的方法中的一种)、熵编码、自适应字典算法(诸如用于GIF和TIFF中的LZW以及用于PNG、MNG和TIFF中的紧缩)。用于有损压缩的方法的实例包括将图片604的色彩空间减小为在图像中最常见的色彩、色度二次抽样、变换编码和分形压缩。
在色彩空间减小中,可在压缩图像的标头中的调色板中指定选定色彩。每个像素仅引用在调色板中的色彩的索引值。该方法可与混色组合以避免色调分离。色度二次抽样利用了以下事实:眼睛对亮度的感知比对色彩的感知更敏锐,这通过舍弃图像中的色度信息的一半或更多来进行。变换编码可能是最常用的图像压缩方法。变换编码通常应用傅立叶相关变换,诸如离散余弦变换(DCT)或子波变换,之后进行量化和熵编码。分形压缩依赖于以下事实:在某些图像中,图像的各部分类似于同一个图像的其他部分。分形算法将这些部分,或更精确地说几何形状,转换为被称为“分形码”的数学数据,该数学数据被用于重新创建编码图像。
图像压缩604可包括目标区域编码,其中图像601的某些部分以高于其他部分的质量进行编码。这可与可扩展性组合,这涉及首先对图像的某些部分进行编码,并且之后对其他部分进行编码。压缩数据可包含关于图像的信息(有时被称为元信息或元数据),该信息可用于对图像进行分类、搜索或浏览。这种信息可包括色彩和纹理统计信息、小的预览图像以及作者/版权信息。
作为举例而非限制,在604处的图像压缩期间,编码器可搜索压缩像素块的最佳方式。编码器可在参考图片列表603中的包括当前填充图片的所有参考图片中搜索良好匹配。如果当前图片(或子部段)被编码为帧内图片(或子部段),则在参考列表中仅填充图片可用。在604处的图像压缩产生运动矢量MV和变换系数607,该运动矢量和变换系数随后在606处的像素重建期间连同参考图片(包括填充图片)中的一者或多者一起使用。
图像压缩604一般包括用于最佳帧间预测匹配的运动搜索MS、用于最佳帧内预测匹配的帧内搜索IS、用于决定当前宏块是帧间编码还是帧内编码的帧间/帧内比较C、从用最佳匹配预测像素编码的部段中减去S原始输入像素以计算无损残余像素605。然后,残余像素进行变换和量化XQ以产生变换系数607。变换通常是基于傅里叶变换,诸如离散余弦变换(DCT)。
变换输出系数集,每个系数是标准基础模式的加权值。在组合后,加权的基础模式重新创建残余样本块。变换的输出,即变换系数块,被量化,即每个系数除以整数值。量化根据量化参数(QP)来降低变换系数的精确度。通常,结果是大部分或所有系数都为零,伴有一些非零系数的块。将QP设定为高的值意味着将更多系数设定为零,从而带来高度压缩,而代价是解码图像质量不良。对于低QP值,在量化之后会保留更多非零系数,从而带来更好的解码图像质量,但是压缩程度较低。相反地,对于高QP值,在量化之后保留更少非零系数,从而带来较高程度图像压缩,但是图像质量较低。
帧间/帧内比较C(也被称为模式决策)使用与QP有关的被称为拉格朗日乘数λ的参数。基本上,使用从QP的值确定的λ的值来计算成本函数J。基于针对帧间模式编码的所计算的成本函数J是高于还是低于针对帧内模式编码的所计算的成本而确定编码模式。作为举例,H.264/AVC编解码器支持成本函数JH,该成本函数应通过计算用于对部段的开销(例如,运动矢量、类型)进行编码的实际比特消耗R以及重建失真D(例如作为在原始部段与重建部段之间的绝对差和SAD来测量)来最小化。在这种情况下,成本函数JH根据以下来计算
JH=D+λ·R。
在可选实现方式中,可不同地计算失真D。存在许多表示失真的方法,例如,平方差和(SSD)、绝对变换差和(SATD)、平均绝对差(MAD)等。本领域的技术人员将认识到,对于不同的失真量度,必须相应地修改或重新调整成本函数。
在一些情况下,不正确的编码模式决策可能会触发不必要IDR或I帧插入。考虑在在线视频游戏期间流式传输视频的实例。编码器尝试满足由游戏应用程序生成的视频流的目标比特率。目标比特率与每帧的比特数有关。如果游戏暂停,则视频实质上是静止帧流。对于静止帧,QP是低的,以便满足在速率失真优化过程中帧的目标比特。当QP是低的时,模式决策为静止帧中的大多数部段(例如,宏块)选择帧内编码。如果帧中的帧内编码部段的数量高于阈值,则编解码器触发场景改变检测,并且下一个帧将被编码为具有极低QP的帧内帧,这要求大量比特来进行编码。这是由于以下事实所致:在这种情况下,极低QP值(例如,QP=1、2)暗示着几乎无损的编码。作为举例而非限制,用于触发场景改变检测的阈值可为帧中的约60%至80%帧内MB。即使基本上是在重复同一帧,一系列静止帧也会导致一系列场景改变检测。帧内帧序列可能会导致在带宽受限的通信信道中比特率使用的大且频繁的高峰。
通常,λ与QP之间的关系由编解码器固定下来,并且对于所有图片是相同的。根据本公开的各方面,可取决于图片中每部段的比特数在图片之间调整λ与QP之间的关系。
根据本公开的各方面,可基于每部段的比特数来调适λ与QP之间的关系,使得可以减少不必要IDR或I帧插入的可能性的方式来配置编码模式决策。
根据本公开的各方面,可在编码期间,例如在视频流的编码的开始或流中的每个视频帧的开始时,以使得部段编码模式决策更可能带来“帧间”编码决策而不是“帧内”编码模式的方式选择性地调整λ与QP之间的关系。
在一些实现方式中,如果在帧中存在不同大小的部段,则甚至有可能改变每个部段的λ与QP关系,例如,就像在H.265中可能的那样。这例如在双步编码用例中可能是有益的,因为第一步将提供有关图片部段的内容的更多见解,使得可做出更好的编码模式决策。
作为举例而非限制,对λ与QP之间的关系的调整可取决于部段中的比特数(NBS),所述NBS一般取决于目标比特率(例如,每秒比特数)、帧速率(例如,以每秒帧数计)和某一帧中的部段数。可通过将目标比特率BR除以帧速率FR与每帧的部段数(NSF)的乘积来计算部段中的比特数NBS。作为举例而非限制,这可表达为:
NBS=BR/(FR·NSF)
更一般地,每部段的比特数(NBS)可更广泛地表达为NBS=(BPF)/(NSF),其中BPF是每帧的目标比特数。
该扩展的表达允许NBS的值可能在帧之间有所不同的可能性,这取决于例如由基础速率控制方案分配的目标比特。在每个帧的固定目标比特数的情况下,BPF变为BR/FR。
每帧的部段数(例如,MB)取决于分辨率。可通过分辨率、帧速率和比特率的组合来触发对表的改变。例如,针对具有960×540分辨率、30fps的帧速率和8至10Mbps或更高的目标速率的帧,会触发表改变。对于给定的比特率和帧速率,如果分辨率增大,则不太可能触发表改变。对于给定的比特率和分辨率,如果帧速率增大,则不太可能触发表改变。对于给定的帧速率和分辨率,如果比特率减小,则不太可能触发表改变。
λ与QP之间的关系通常是非线性的。一般来讲,当QP是高的时,λ是高的,并且当QP是低的时,λ是低的。λ与QP之间的关系的实例在美国专利9,386,317中进行描述,该专利的全部内容以引用的方式并入本文。
可取决于目标比特率来调整QP值。由于QP控制编码中的比特使用,因此许多编码程序利用了调整QP的速率控制器,以便实现期望的比特率。编码器接收未压缩的源数据(例如,输入视频)并产生压缩输出。视频编码方法通常使用在视频部段进行编码时影响比特使用并因此影响比特率的QP值。一般来讲,较低QP会带来较高比特率。速率控制器基于可由外部应用程序指定的所需的比特率而确定QP值。编码器使用由速率控制器确定的QP值并确定实际的所得的比特使用和比特率。速率控制器可使用实际比特率来调整反馈环路中的QP值。
比特率与QP值之间的关系部分地取决于图像存在的复杂性。比特率与QP关系可根据一组曲线来表达,其中不同曲线对应不同复杂性程度。由速率控制器实现的算法的核心是定量模型,其描述了在QP、实际比特率和复杂性的某种度量之间的关系。相关的比特率和复杂性一般仅与源像素与预测像素之间的差异(通常被称为残差)相关联,因为量化参数QP只能影响变换的残差中携带的信息的细节。
复杂性一般指代图片或该图片的部分内的空间变化量。在局部级别(例如,块或宏块级别)上,可通过相关部段内的像素值的变化来测量空间变化。然而,对于视频序列,复杂性还可能与一系列图像的场景的时间变化有关。例如,视频序列由跨视场缓慢地平移的具有显著空间变化的一个对象组成,可能不要求非常多的比特,因为时间预测可使用单个参考图片和一系列运动矢量来容易地捕获运动。尽管难以定义也容易计算的包容性视频复杂度度量,但是预测误差的平均均差(MAD)(在源像素值与预测像素值之间的差异)通常用于此目的。
应注意,量化参数QP可从多个因素确定,所述因素包括但不限于源图片的图片类型、源图片的复杂性、估计的目标比特数和基础速率失真模型。例如,可使用当前编码图片的部段的变化(例如,部段(例如,MB)变化)逐部段地确定QP。可选地,可使用用于对先前帧中的协同定位的部段(例如,MB)进行编码的实际比特计数来确定当前编码部段的QP。此类QP水平计算的实例例如在共同受让的美国专利申请公布号2011/0051806、现为转让于Hung-Ju Lee的美国专利号8,879,623中进行描述,该专利以引用的方式并入本文。
运动搜索和预测取决于要编码的图片的类型。再次参考图6,如果将对帧内图片进行编码,则关闭运动搜索MS和帧间/帧内比较C。然而,在本发明的实施方案中,由于填充图片可用作参考,因此不关闭这些功能。因此,图像压缩604对于帧内编码图片和帧间编码图片而言是相同的。
就像作为对帧间编码图片的像素重建的部分通常所做的那样,运动搜索MS可通过搜索图片601的最佳匹配块或宏块来生成运动矢量MV以进行运动补偿。如果当前图片601是帧内编码图片,则相比之下,现有的编解码器通常不允许跨图片的预测。相反,通常会对帧内图片(例如,I帧)关闭所有运动补偿,并且通过生成变换系数并执行像素预测来对图片进行编码。然而,在一些实现方式中,帧内图片可用于通过将当前图片中的部段匹配于同一图片内的另一个偏移部段来进行帧间预测。两个部段之间的偏移可被编码为运动矢量MV’,该运动矢量可用于在606处的像素重建。作为举例,编码器可能会试图将帧内图片中的块或宏块与同一图片中的某个其他偏移部段匹配,然后将这两者之间的偏移编码为运动矢量。然后,可使用编解码器对“帧间”图片进行的普遍运动矢量补偿来对“帧内”图片进行运动矢量补偿。某些现有的编解码器具有可将两个块或宏块之间的偏移转换为运动矢量的功能,可在该功能之后进行606处的像素重建。然而,对于帧内图片的编码,这些功能常规上是关闭的。在本发明的实施方案中,可指示编解码器不对帧内图片的编码关闭此类“帧间”图片功能。
如本文所使用,像素重建指代用于在将参考图像变换为当前处理图像的方面描述图片的技术。一般来讲,像素重建606在实现编码过程600的编码器内充当局部解码器。具体地,像素重建606包括帧间预测IP1和(任选地)帧内预测IP2,以使用来自图像压缩604的运动矢量MV或MV’和来自参考列表中的图片的参考像素来获取预测像素PP。使用来自图像压缩604的变换系数607进行逆量化和逆变换IQX产生有损残余像素605L,该有损残余像素添加到预测像素PP以生成解码像素609。解码像素609插入到参考图片中,并且可供用于当前处理图片601的后续部段的图像压缩604和像素重建606中。在已插入解码像素之后,参考图片中的未解码像素可进行填充602。
在一些编码器实现方式中,如果当前图片被帧内编码,则由于没有可用于像素重建的其他图片,关闭像素重建606的帧间预测部分。可选地,可对任何图片601执行像素重建,而不管特定图片是帧间编码还是帧内编码。在一些实现方式中,编码器实现方式可修改以将填充图片添加到参考图片列表603,并且即使要对当前处理图像进行帧内编码,也不关闭像素重建606的帧间预测部分。因此,在像素重建606期间,用于帧间编码部段和帧内编码部段两者的过程流是相同的。唯一的主要区别是对要用于编码的参考图片的选择。应注意,在一些实现方式中,不需要对所有图片执行运动补偿,并且不需要将填充图片添加到参考图片列表。
作为举例而非限制,在一种类型的被称为块像素重建(BMC)的像素重建中,可将每个图像划分为像素块(例如,16×16像素的宏块)。从参考帧中的相等大小的块预测每个块。除了转移到预测块的位置,不以任何方式对块进行变换。这种转移由运动矢量MV表示。为了利用在相邻的块矢量之间的冗余(例如,对于被多个块覆盖的单个移动对象),常见的是,仅对比特流中的当前运动矢量与先前运动矢量之间的差异进行编码。该差分过程的结果是数学上等同于能够平移的全局像素重建。进一步顺着编码流水线进行下去,方法600可任选地使用熵编码608来利用运动矢量围绕零矢量的所得的统计分布以减小输出大小。在一些实施方案中,ROI参数612与数字图片611包括在一起作为网络抽象层(NAL)中的网络包封器的部分。在其他实施方案中,ROI参数612可在熵编码608期间包括在数字图片中。
可能使块转移非整数数量个像素,这被称为子像素精确度。中间像素是通过对相邻像素进行插值来生成。通常,使用一半像素或四分之一像素精确度。由于插值要求额外处理,因此子像素精确度的计算开销要高得多,并且在编码器侧,要评估的潜在源块的数量要多得多。
块像素重建将当前编码图像划分为不重叠的块,并且计算像素重建矢量,该像素重建矢量指示那些块来自参考图像中的什么地方。参考块通常在源帧中重叠。一些视频压缩算法从参考图像列表603中的若干不同参考图像的碎片中拼接出当前图像。
图像压缩604和像素重建606以及(可选地)熵编码608的结果是数据611集,为了方便起见,其被称为编码图片。运动矢量MV(和/或帧内预测模式运动矢量MV')和变换系数607可包括在编码图片611中。一旦已对数字图片或其他形式的流式数据进行编码,就可传输编码数据,将所述编码数据解码,并且然后使用ROI参数对所述编码数据进行上采样。
解码
图7示出了用于用ROI参数对下采样流式数据701进行解码的方法700中的可能的过程流的实例,该方法可结合本公开的各方面使用。该特定实例示出了用于例如使用AVC(H.264)标准来进行视频解码的过程流。编码的流式数据701最初可存储在缓冲区中。在编码的流式数据701(例如,视频数据比特流)已通过网络(例如,互联网)传送的情况下,数据701最初可经历在702处指示的被称为网络抽象层(NAL)解码的过程。网络抽象层(NAL)是流式数据标准,诸如H.264/AVC和HEVC视频编码标准的一部分。NAL的主要目标是为“对话”(例如,视频电话)和“非对话”(存储、广播或流式传输)应用程序提供流式数据的“网络友好的”表示。NAL解码可从数据701移除被添加来协助传输数据的信息。这种信息(被称为“网络包封器”)可将数据201识别为视频数据,或者指示比特流的开头或结尾、用于数据对准的比特和/或关于视频数据自身的元数据。
另外,作为举例,网络包封器可包括关于数据701的信息,包括例如分辨率、图片显示格式、用于显示数据的调色板变换矩阵、关于每个图片中的比特数的信息、切片或宏块,以及用于较低级别解码中的信息,例如指示切片的开头或结尾的数据。该信息可用于确定在单个部段中传递到每个任务组的宏块的数量。由于其复杂性,NAL解码通常是在图片和切片级别上完成。用于NAL解码的最小NAL缓冲区通常是切片大小的。图7中示出的实例就宏块和AVC(H.264)标准进行描述。然而,这些不限制本公开的各方面的特征。例如,在最新的H.265(HEVC)标准中,没有宏块概念。相反,引入了更灵活的编码单元(CU)、预测单元(PU)、变换单元(TU)概念。本公开的各方面可结合此类编码标准来操作。作为举例而非限制,网络包封器可包括ROI参数727。可选地,ROI参数可单独地接收或可能未被编码。
在一些实施方案中,在702处的NAL解码之后,图7中示出的剩余解码可在本文中被称为视频编码层(VCL)解码704、运动矢量(MV)重建710和图片重建714的三个不同的线程组或任务组中实现。图片重建任务组714可包括像素预测和重建716以及后处理720。在本发明的一些实施方案中,这些任务组可基于数据依赖性而选择,使得每个任务组可完成其对图片(例如,帧或字段)或部段中的所有宏块的处理,之后宏块被发送到下一个任务组以进行后续处理。
某些编码标准可使用涉及将像素信息从空间域变换为频域的数据压缩形式。其中一个这样的变换被称为离散余弦变换(DCT)。用于这种压缩数据的解码过程涉及从频域返回到空间域的逆变换。在使用DCT压缩数据的情况下,逆过程被称为逆离散余弦变换(IDCT)。变换数据有时被量化以减少用于表示离散变换数据中的数字的比特数。例如,数字1、2、3可全部映射到2,并且数字4、5、6可全部映射到5。为了对数据进行解压缩,在执行从频域到空间域的逆变换之前使用被称为逆量化(IQ)的过程。对于同一切片内的宏块,VCL IQ/IDCT解码过程704的数据依赖性通常是处于宏块级别。因此,由VCL解码过程704产生的结果可以宏块级别缓存。
VCL解码704通常包括被称为熵解码706的用于对VCL语法进行解码的过程。许多编解码器(诸如AVC(H.264))使用被称为熵编码的编码层。熵编码是将码分配给信号以便使码长与该信号的概率匹配的编码方案。通常,熵编码器用于通过用由与概率的负对数成比例的码表示的符号替换由等长码表示的符号来压缩数据。AVC(H.264)支持两种熵编码方案,即上下文自适应可变长度编码(CAVLC)和上下文自适应二进制算术编码(CABAC)。由于CABAC倾向于提供比CAVLC多约10%的压缩,因此在生成AVC(H.264)比特流时,CABAC受许多视频编码器的青睐。对AVC(H.264)编码的数据流的熵层进行解码可能是计算密集的,并且可能会对使用通用微处理器对AVC(H.264)编码的比特流进行解码的装置提出挑战。为此,许多系统使用硬件解码器加速器。
除了熵解码706之外,VCL解码过程704还可涉及如708处所指示的逆量化(IQ)和/或逆离散余弦变换(IDCT)。这些过程可对来自宏块的标头709和数据进行解码。解码标头709可用于协助对相邻宏块的VCL解码。在ROI参数被编码的实施方案中,解码标头可包含ROI参数。
VCL解码704可以宏块级别数据依赖性频率实现。具体地,同一切片内的不同宏块可并行地进行VCL解码,并且结果可发送到运动矢量重建任务组710以进行进一步处理。
随后,图片或部段中的所有宏块都可进行运动矢量重建710。MV重建过程710可涉及使用来自给定宏块的标头711和/或协同定位的宏块标头713来进行运动矢量重建712。运动矢量描述了图片内的表观运动。此类运动矢量允许基于对在先图片的像素的了解以及那些像素在图片之间的相对运动而重建图片(或其部分)。一旦已恢复运动矢量,就可在716处使用基于来自VCL解码过程704的残余像素和来自MV重建过程710的运动矢量的过程来重建像素。MV的数据依赖性频率(以及并行化级别)取决于MV重建过程710是否涉及来自其他图片的协同定位的宏块。对于不涉及来自其他图片的协同定位的MB标头的MV重建,MV重建过程710可在切片级别或图片级别上并行地实现。对于涉及协同定位的MB标头的MV重建,数据依赖性频率是处于图片级别并且MV重建过程710可在切片级别上并行地实现。
运动矢量重建710的结果被发送到图片重建任务组714,这可在图片频率级别上并行化。在图片重建任务组714内,图片或部段中的所有宏块可结合解块720来进行像素预测和重建716。像素预测和重建任务716和解块任务720可并行化来提高解码的效率。这些任务可基于数据依赖性在宏块级别上在图片重建任务组714内并行化。例如,可对一个宏块执行像素预测和重建716,并且接着执行解块720。可使用来自由解块720获得的解码图片的参考像素来对后续宏块进行像素预测和重建716。像素预测和重建718产生解码部段719(例如,解码块或宏块),该解码部段包括可用作后续宏块的像素预测和重建过程718的输入的邻居像素。像素预测和重建716的数据依赖性允许在宏块级别上对同一切片中的宏块进行某种程度的并行处理。
后处理任务组720可包括解块滤波器722,该解块滤波器被应用于解码部段719中的块,以通过使在使用块编码技术时可能会形成于块之间的尖锐边缘平滑来提高视觉质量和预测性能。解块滤波器722可用于改善所得的解块部段724的外观。
解码部段719或解块部段724可提供相邻像素以用于对相邻宏块进行解块。另外,包括来自当前解码图片的部段的解码部段719可为后续宏块的像素预测和重建718提供参考像素。正是在该阶段期间,来自当前图片内的像素都可任选地如上所述用于该同一当前图片内的像素预测,而与图片(或其子部段)是帧间编码还是帧内编码无关。解块720可在宏块级别上对同一图片中的宏块并行化。
在后处理720之前产生的解码部段719以及后处理部段724可存储在同一缓冲区中,例如取决于所涉及的特定编解码器的解码图片缓冲区725。应注意,解块是在H.264中的后处理滤波器。因为H.264将预解块宏块用作相邻宏块帧内预测的参考,并且将后解块宏块用于未来图片宏块帧间预测。由于预解块像素和后解块像素两者都用于预测,因此解码器或编码器必需缓存预解块宏块和后解块宏块两者。对于大多数低成本消费者应用,预解块图片和后解块图片共享同一缓冲区以减少存储器使用。对于在日期上早于H.264的标准,诸如MPEG2或MPEG4,除了MPEG4 part 10(应注意:H.264也被称为MPEG4 part 10)之外,仅将预后处理宏块(例如,预解块宏块)用作其他宏块预测的参考。在此类编解码器中,预滤波的图片可能不与后滤波的图片共享同一缓冲区。在处理之后,使用ROI参数727来对图片重采样726。可产生具有高质量ROI的上采样图片728并将其存储在输出图片缓冲区中以供显示。
因此,对于H.264,在像素解码之后,解码部段719保存在解码图片缓冲区725中。之后,后处理部段724在上采样726之前替换解码图片缓冲区725中的解码部段719。对于非H.264情况,解码器仅将解码部段719保存在解码图片缓冲区725中。上采样726在显示时间完成,并且上采样输出728可不与解码图片缓冲区725共享同一缓冲区。关于编码器/解码器程序的信息可参见公布申请2018/0007362,该申请的内容以引用的方式并入。
ROI检测
存在用于眼睛跟踪(也被称为视线跟踪)的许多技术。用于视线跟踪和选择性渲染压缩的技术在公布申请2017/0285736中进行描述,该申请的内容以引用的方式并入本文。这些技术中的一些从用户的眼睛的瞳孔的取向确定用户的注视方向。一些已知的眼睛视线跟踪技术涉及通过从一个或多个光源发射光来照亮眼睛,以及用传感器检测发射光离开角膜的反射。通常,这通过使用在红外范围内的不可见光源并用红外敏感相机捕获被照射眼睛的图像数据(例如,图像或视频)来完成。然后,使用图像处理算法来分析图像数据,以确定眼睛注视方向。
一般来讲,眼睛跟踪图像分析利用光如何反射离开眼睛所独具的特性来从图像确定眼睛注视方向。例如,可分析图像,以基于图像数据中的角膜反射而识别眼睛位置,并且还可分析图像,以基于瞳孔在图像中的相对位置而确定注视方向。
用于基于瞳孔位置而确定眼睛注视方向的两种常见的视线跟踪技术被称为亮瞳孔跟踪和暗瞳孔跟踪。亮瞳孔跟踪涉及用与相机的光轴基本上成直线的光源照亮眼睛,从而致使发射光反射离开视网膜并通过瞳孔反射回到相机。瞳孔在图像中呈现为在瞳孔位置处的可识别的亮点,类似于在常规的闪光灯摄影期间出现在图像中的红眼效应。在该视线跟踪方法中,如果在瞳孔与虹膜之间的对比度不够,则来自瞳孔本身的亮反射会帮助系统定位瞳孔。
暗瞳孔跟踪涉及用与相机的光轴基本上不成直线的光源照亮,从而致使引导通过瞳孔的光反射离开相机的光轴,从而在图像中在瞳孔的位置处产生可识别的暗点。在可选的暗瞳孔跟踪系统中,红外光源和对准眼睛的相机可观察角膜反射。这种基于相机的系统跟踪瞳孔的位置和角膜反射,由于反射深度不同,它们会提供视差,提供额外的精度。
图8A示出了可在本公开的背景中使用的暗瞳孔视线跟踪系统800的实例。视线跟踪系统跟踪用户的眼睛E相对于在上面呈现可见图像的显示屏801的取向。尽管图8A的示例系统中使用了显示屏,但是某些可选实施方案可利用能够将图像直接地投影到用户的眼睛中的图像投影系统。在这些实施方案中,将相对于投影到用户的眼睛中的图像来跟踪用户的眼睛E。在图8A的实例中,眼睛E通过可变虹膜I收集来自屏幕801的光;并且晶状体L将图像投影在视网膜R上。虹膜中的开口被称为瞳孔。响应于来自大脑的神经脉冲,肌肉控制眼睛E的旋转。响应于其他神经脉冲,上眼睑肌肉ULM和下眼睑肌肉LLM分别控制上眼睑UL和下眼睑LL。
视网膜R上的光敏细胞生成电脉冲,该电脉冲经由视神经ON发送到用户的大脑(未示出)。大脑的视皮层解释该脉冲。并非视网膜R的所有部分都对光同等地敏感。具体地,光敏细胞集中在称为中央凹的区域中。
示出的图像跟踪系统包括一个或多个红外光源802,例如将不可见光(例如,红外光)引向眼睛E的发光二极管(LED)。不可见光的部分从眼睛的角膜C反射,并且部分从虹膜反射。反射的不可见光通过波长选择镜806被引向合适的传感器804(例如,红外相机)。镜透射来自屏幕801的可见光,但是反射从眼睛反射的不可见光。
传感器804优选地是图像传感器,例如能够产生眼睛E的图像的数字相机,可对该图像进行分析以从瞳孔的相对位置确定注视方向GD。该图像可用本地处理器820或经由将获得的视线跟踪数据传输到远程计算装置860来产生。本地处理器820可根据熟知的架构(例如像,单核、双核、四核、多核、处理器-协处理器、单元处理器等)来配置。图像跟踪数据可经由有线连接(未示出)在传感器804与远程计算装置860之间传输,或者在眼睛跟踪装置810中包括的无线收发器825与远程计算装置860中包括的第二无线收发器826之间无线地传输。无线收发器可被配置为实现局域网(LAN)或个人局域网(PAN),经由用于PAN的合适的网络协议(例如,蓝牙)实现。
视线跟踪系统800还可包括被配置为例如分别放置在眼睛E上方和下方的上传感器808和下传感器809。传感器808和809可为独立部件,或者可选地可为佩戴在用户的头部上的部件810的部分,该部件可包括但不限于下文描述的传感器804、本地处理器820或惯性传感器815的任何组合。在图1A中示出的示例系统中,传感器808和809能够从眼睛E周围的那些区域收集关于神经系统的电脉冲和/或肌肉系统的运动和/或振动的数据。例如,该数据可包括如由上传感器808和下传感器809所监测的眼睛E周围的肌肉和/或神经的电生理和/或振动信息。由传感器808和809收集的电生理信息可包括例如脑电图(EEG)、肌电图(EMG)或因眼睛E周围的一个或多个区域中的神经功能而收集的诱发电位信息。由于检测到眼睛E周围的肌肉的肌肉振动或抽搐,传感器808和809也可能能够收集例如肌力图或表面肌电图信息。传感器808还可能能够收集与运动病反应有关的信息,包括例如心率数据、心电图(ECG)或皮肤电反应数据。如上所述,可将由传感器808和809收集的数据与图像跟踪数据一起传递到本地处理器820和/或远程计算装置860。
视线跟踪系统800还可能能够跟踪用户的头部。头部跟踪可由惯性传感器815执行,该惯性传感器能够响应于用户的头部的位置、运动、取向或取向变化而产生信号。该数据可发送到本地处理器820和/或传输到远程计算装置860。惯性传感器815可为独立部件,或者可选地可为佩戴在用户的头部上的部件810的部分,该部件可包括但不限于上文描述的传感器804、本地处理器820或传感器808和809的任何组合。在可选实施方案中,可在部件810上经由对光源的跟踪来执行头部跟踪。视线跟踪系统800还可包括一个或多个存储器单元877(例如,随机存取存储器(RAM)、动态随机存取存储器(DRAM)、只读存储器(ROM)等。
本地处理器820可被配置为从网络连接825接收编码数据。本地处理器820可操作地耦合到一个或多个存储器单元877并被配置为执行存储在存储器单元877上的一个或多个程序。此类程序的执行可致使系统对来自远程计算装置860的视频流进行解码并生成具有高保真度ROI的视频以供在显示器801上显示。作为举例而非限制,该程序可包括:混合器/转换空间配置程序879、上采样器/下采样器程序876和解码器程序880。
远程计算装置860可被配置为与眼睛跟踪装置810和显示屏801协同地操作,以便根据本公开的各方面执行眼睛视线跟踪并确定照明条件。计算装置860可包括一个或多个处理器单元870,该一个或多个处理器单元可根据熟知的架构(例如像,单核、双核、四核、多核、处理器-协处理器、单元处理器等)来配置。计算装置860还可包括一个或多个存储器单元872(例如,随机存取存储器(RAM)、动态随机存取存储器(DRAM)、只读存储器(ROM)等)。
处理器单元870可执行一个或多个程序,该一个或多个程序的部分可存储在存储器872中,并且处理器870例如通过经由数据总线878访问存储器而可操作地耦合到存储器872。该程序可被配置为执行眼睛视线跟踪并确定系统800的照明条件。作为举例而非限制,程序可包括视线跟踪程序873,该视线跟踪程序的执行可致使系统800例如像上文所讨论的那样跟踪用户的视线;色彩空间转换程序(CSC)874,该CSC将视频帧流转换为可由显示装置呈现的形式;编码器程序875和视频流上采样器/下采样器程序876,所述程序的执行用视频帧的下采样部段和选定的原始分辨率部段对视频帧流进行编码,以发送到显示器,在显示器处,对编码视频帧进行解码,并且对下采样部段进行上采样,之后进行显示。
作为举例而非限制,视线跟踪程序873可包括处理器可执行指令,该处理器可执行指令致使系统800在从光源802发射光时相应地从用图像传感器804收集的眼睛跟踪数据以及从上传感器808和下传感器809收集的眼睛移动数据确定系统800的一个或多个视线跟踪参数。视线跟踪程序873还可包括指令,该指令分析用图像传感器804收集的图像,以便检测照明条件变化的存在。
如可见于图8B中,可分析示出用户的头部H的图像881,以根据瞳孔的相对位置来确定注视方向GD。例如,图像分析可确定图像中瞳孔P相对于眼睛E的中心的2维偏移。通过对基于眼球的已知的大小和形状的三维矢量的直接几何计算,可将瞳孔相对于中心的位置转换为相对于屏幕801的注视方向。所确定的注视方向GD能够显示在眼睛E相对于屏幕801移动时所述眼睛的旋转和加速度。
如还可见于图1B中,图像还可包括分别来自角膜C和晶状体L的不可见光的反射887和反射888。由于角膜和晶状体处于不同的深度,因此反射之间的视差和折射率可用来在确定注视方向GD时提供额外的精度。这种类型的眼睛跟踪系统的实例是双重Purkinje跟踪器,其中角膜反射是第一Purkinje图像,并且晶状体反射是第四Purkinje图像。如果用户佩戴了用户的眼镜893,则还可能存在来自这些眼镜的反射190。
当前HMD面板以90或120赫兹(Hz)的恒定速率刷新,这取决于制造商。高刷新率会增加面板的功耗以及传输介质发送帧更新的带宽要求。关于具有中央凹视图和缩放编码的视线跟踪装置的信息可参见共同待决的申请15/840,893,该申请的内容以引用的方式并入。
实现方式
图9示出了示例系统900以进一步示出本公开的各方面。系统900可包括耦合到眼睛跟踪显示系统901的计算装置960。眼睛跟踪显示装置901包括本地处理器903、本地存储器917、所熟知的支持电路905、网络接口916、眼睛跟踪装置902和显示装置904,以便根据本公开的各方面来执行眼睛视线跟踪和/或对眼睛跟踪执行校准。显示装置904可为阴极射线管(CRT)、平板屏幕、触摸屏或显示文本、数字、图形符号或其他视觉对象的其他装置的形式。本地处理器903可根据所熟知的架构(例如像,单核、双核、四核、多核、处理器-协处理器、单元处理器等)来配置。眼睛跟踪显示系统901还可包括一个或多个存储器单元917(例如,随机存取存储器(RAM)、动态随机存取存储器(DRAM)、只读存储器(ROM)等)。
本地处理器单元903可执行一个或多个程序,该一个或多个程序的部分可存储在存储器917中,并且处理器903可例如通过经由数据总线918访问存储器而可操作地耦合到存储器917。该程序可被配置成为眼睛跟踪显示系统901创建具有高保真度ROI的视频。作为举例而非限制,该程序可包括CSC 913、视频上采样器/下采样器程序914和解码器程序915。作为举例而非限制,CSC 913可包括处理器可执行指令,该处理器可执行指令可致使系统901格式化从上采样器/下采样器程序914接收的上采样视频流,从而根据上文描述的方法创建具有高保真度ROI的视频以供显示在显示装置904上。采样器914可包含指令,该指令在被执行时致使本地处理器对从解码器915接收的视频流进行上采样或对视频流中的视频帧的部段进行上采样。解码器程序915可包含指令,该指令在由本地处理器执行时致使系统从网络接口916接收编码视频流数据并将其解码。解码器程序可选地可被实现为通过例如主总线918通信地耦合到本地处理器的离散逻辑单元(未示出)。根据本公开的各方面,眼睛跟踪显示装置901可为嵌入式系统、移动电话、个人计算机、平板计算机、便携式游戏装置、工作站、游戏控制台、头戴式显示装置等。此外,计算装置960也可为嵌入式系统、移动电话、个人计算机、平板计算机、便携式游戏装置、工作站、游戏控制台等。
眼睛跟踪显示装置901可耦合到计算装置960,并且可包括类似于图8A至图8B的光源910的动态光源910。作为举例而非限制,光源910可为呈一个或多个红外LED形式的不可见光源,该不可见光源可被配置为照亮用户的眼睛,以便用传感器912收集眼睛跟踪数据。眼睛跟踪装置的传感器912可为检测器,该检测器对从光源910发射的光敏感。例如,传感器912可为对光源敏感的相机,诸如红外相机,并且相机912可相对于眼睛跟踪装置和光源定位,使得所述相机可捕获被光源910照亮的区域的图像。
计算装置960可被配置为与眼睛跟踪显示系统901协同地操作,以便根据本公开的各方面执行眼睛视线跟踪并确定照明条件。计算装置960可包括一个或多个处理器单元970,该一个或多个处理器单元可根据熟知的架构(例如像,单核、双核、四核、多核、处理器-协处理器、单元处理器等)来配置。计算装置960还可包括一个或多个存储器单元972(例如,随机存取存储器(RAM)、动态随机存取存储器(DRAM)、只读存储器(ROM)等)。
处理器单元970可执行一个或多个程序,该一个或多个程序的部分可存储在存储器972中,并且处理器970可例如通过经由数据总线976访问存储器而操作地耦合到存储器972。该程序可被配置为执行眼睛视线跟踪并确定系统900的照明条件。作为举例而非限制,该程序可包括视线跟踪程序973,该视线跟踪程序的执行可致使系统900跟踪用户的视线。作为举例而非限制,视线跟踪程序973可包括处理器可执行指令,该处理器可执行指令致使系统900在从动态光源910发射光时从用相机912收集的眼睛跟踪数据确定系统900的一个或多个视线跟踪参数。例如,如上文相对于图8B所描述,视线跟踪程序973还可包括指令,该指令分析用相机912收集的图像。视线跟踪程序可选地可被实现为通过例如主总线918通信地耦合到本地处理器的离散逻辑单元(未示出)。
在一些实现方式中,视线跟踪程序973可分析视线跟踪信息以预测用户的视觉感知例如在眨眼期间被遮蔽或例如在扫视期间不起作用的时段。预测此类时段的起始点可用于减少不必要的渲染计算、功耗和网络带宽使用。此类技术的实例在2016年3月31日提交的共同受让的美国专利申请号15/086,953中进行描述,该申请的全部内容以引用的方式并入本文。
计算装置960和眼睛跟踪显示装置901还可包括所熟知的支持电路978、905,诸如输入/输出(I/O)电路979、906,电源(P/S)980、909,时钟(CLK)981、908和高速缓存982、907,它们可分别例如经由总线976、918与系统的其他部件通信。计算装置960可包括网络接口990,以有助于与眼睛跟踪显示装置901上的类似地配置的网络接口916进行通信。处理器单元970、903和网络接口990、916可被配置为实现局域网(LAN)或个人局域网(PAN),经由用于PAN的合适的网络协议(例如,蓝牙)实现。计算装置960可任选地包括大容量存储装置984(诸如,磁盘驱动器、CD-ROM驱动器、磁带驱动器、快闪存储器等),并且大容量存储装置984可存储程序和/或数据。计算装置960还可包括有助于系统900与用户之间的交互的用户接口988。用户接口988可包括键盘、鼠标、光笔、游戏控制垫、触摸界面或其他装置。在可选实施方案中,用户接口988还可包括显示屏,并且计算装置960可使编码器/解码器(编解码器)975对来自网络的数据分组999中的编码视频流进行解码,上采样器/下采样器程序974可如上所述获取下采样视频流,对具有高保真度ROI的视频流进行上采样,CSC程序976可获取上采样视频屏幕并对其进行配置以在耦合到用户接口988的显示屏上显示。例如,CSC可在编码之前将输入图像从一种色彩格式转换为另一种色彩格式(例如,从RGB转换为YUV,反之亦然)。在该实施方案中,可能不存在头部跟踪器,并且可通过上文描述的预测方法确定ROI位置。在其他实施方案中,可能存在头部跟踪器,但是显示屏可能不耦合到跟踪装置。在其他实施方案中,编码器可通过网络接口916传输编码视频流数据和ROI参数,该编码视频流数据和ROI参数将由解码器程序915接收和处理。
系统器900还可包括控制器(未示出),该控制器与眼睛跟踪显示装置901介接,以便与由处理器单元970执行的程序交互。系统900还可执行一个或多个通用计算机应用程序(未示出),诸如视频游戏或视频流,该一个或多个通用计算机应用程序可结合如由跟踪装置902感测并由跟踪程序993、CSC 976、将视频帧数据转换为可由显示装置呈现的形式的上采样器/下采样器974和视频流编码器975处理的眼睛视线跟踪的各方面。
计算装置960可包括网络接口990,该网络接口被配置为使得能够使用Wi-Fi、以太网端口或其他通信方法。网络接口990可结合合适的硬件、软件、固件或它们的某种组合,以有助于经由电信网络通信。网络接口990可被配置为通过局域网和广域网(诸如互联网)实现有线或无线通信。网络接口990还可包括有助于与眼睛跟踪装置902和显示装置979进行无线通信的前述无线收发器。计算装置360可通过网络经由一个或多个数据分组999发送和接收数据和/或对文件的请求。
尽管以上是本发明的优选实施方案的完整描述,但是使用各种替代、修改和等效物是可能的。因此,本发明的范围不应参考以上描述确定,而是应替代地参考所附权利要求及其等效物的全部范围来确定。本文描述的任何特征(不论是否是优选的)都可与本文描述的任何其他特征(不论是否是优选的)组合。在所附权利要求中,除非另外明确地陈述,否则不定冠词“一个/种(A/An)”指代接在冠词后面的物品中的一者或多者的数量。所附权利要求不应被解释为包括手段附加功能限制,除非这种限制在给定权利要求中使用短语“用于……的手段”来明确地陈述。

Claims (22)

1.一种用于视频编码的方法,所述方法包括:
a)确定数字图像内的目标区域(ROI)的一个或多个参数,其中所述一个或多个参数与所述ROI的大小、位置和形状有关;
b)对输入图像执行多区段下采样,以生成具有比所述数字图像少的像素的下采样图像,其中对所述数字图像执行的所述多区段下采样对所述ROI使用的样本密度不同于对所述数字图像的在所述目标区域外部的一部分使用的样本密度;
c)对所述下采样图像进行编码,以生成编码图像数据;
d)将所述编码图像数据与所述一个或多个参数组合,以产生组合的数据;以及
e)传输或存储所述组合的数据。
2.如权利要求1所述的方法,其中对所述数字图像执行的所述多区段下采样对所述ROI使用的样本密度高于对所述数字图像的在所述目标区域外部的一部分使用的样本密度。
3.如权利要求2所述的方法,其中所述ROI的所述样本密度是所述数字图像的样本密度。
4.如权利要求1所述的方法,其中所述一个或多个参数包括从矩形图像的每个边缘到ROI边界的偏移。
5.如权利要求1所述的方法,其中所述ROI是矩形的。
6.如权利要求1所述的方法,其中所述ROI是基本上圆形的。
7.如权利要求1所述的方法,其中所述ROI的所述一个或多个参数包括所述ROI相对于所述数字图像的边缘的偏移。
8.如权利要求1所述的方法,其中所述ROI的所述一个或多个参数包括所述ROI相对于所述数字图像的左边缘、右边缘、上边缘和下边缘的偏移。
9.如权利要求1所述的方法,其中对所述数字图像执行的所述多区段下采样对所述ROI使用的样本密度低于对所述数字图像的在所述目标区域外部的一部分使用的样本密度。
10.如权利要求1所述的方法,其中在所述ROI外部非线性地执行多区段下采样。
11.如权利要求10所述的方法,其中使用二次函数来执行所述多区段下采样,其中所述采样密度根据距所述ROI的距离而逐渐变得更稀疏。
12.如权利要求1所述的方法,其中在所述ROI外部线性地执行多区段下采样。
13.如权利要求1所述的方法,其中从视线跟踪数据确定ROI的所述一个或多个参数。
14.如权利要求1所述的方法,其中从目标区域预测算法确定所述ROI的所述一个或多个参数。
15.如权利要求1所述的方法,其中存在多于一个ROI。
16.如权利要求15所述的方法,其中所述ROI的所述一个或多个参数包括所述参数中的标识符,以指定所述参数涉及哪个ROI。
17.如权利要求1所述的方法,其中a)还包括:将所述ROI的所述一个或多个参数与阈值进行比较;以及如果所述ROI的所述一个或多个参数不满足所述阈值,则调整所述一个或多个参数以增大或减小下采样率。
18.如权利要求1所述的方法,其中a)还包括将所述ROI的所述一个或多个参数与阈值进行比较,并且当所述ROI的所述一个或多个参数不满足所述阈值时,b)包括以当前输出分辨率终止所述多区段下采样操作,并且c)包括对所述多区段下采样的数字图像的更高或更低分辨率版本进行编码。
19.一种用于视频解码的方法,所述方法包括:
a)对编码图像数据进行解码,以生成数字图像的解码图像数据;
b)使用与目标区域(ROI)的位置、大小和形状有关的一个或多个参数来对所述解码图像数据执行多区段上采样,以将所述数字图像转换为具有比所述数字图像多的像素的上采样图像,转换为所述上采样图像,其中对所述数字图像执行的所述多区段上采样对所述ROI使用的样本密度不同于对所述数字图像的在所述目标区域外部的一部分使用的样本密度;以及
c)显示或存储所述上采样图像。
20.如权利要求19所述的方法,其中对所述数字图像执行的所述多区段上采样对所述ROI使用的样本密度低于对所述数字图像的在所述目标区域外部的一部分使用的样本密度。
21.如权利要求19所述的方法,其中在所述ROI外部非线性地执行所述多区段上采样。
22.如权利要求21所述的方法,其中使用平方根函数来执行所述多区段上采样,其中所述其中所述采样密度根据距所述ROI的距离而逐渐变得更密集。
CN201980048813.9A 2018-06-08 2019-06-07 使用多区段重采样的快速目标区域编码 Pending CN112655210A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US16/004,271 2018-06-08
US16/004,271 US10848768B2 (en) 2018-06-08 2018-06-08 Fast region of interest coding using multi-segment resampling
PCT/US2019/036094 WO2019237027A1 (en) 2018-06-08 2019-06-07 Fast region of interest coding using multi-segment resampling

Publications (1)

Publication Number Publication Date
CN112655210A true CN112655210A (zh) 2021-04-13

Family

ID=68764396

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201980048813.9A Pending CN112655210A (zh) 2018-06-08 2019-06-07 使用多区段重采样的快速目标区域编码

Country Status (5)

Country Link
US (1) US10848768B2 (zh)
EP (1) EP3804307B1 (zh)
JP (1) JP6980137B2 (zh)
CN (1) CN112655210A (zh)
WO (1) WO2019237027A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024077798A1 (en) * 2022-10-11 2024-04-18 Guangdong Oppo Mobile Telecommunications Corp., Ltd. Image data coding methods and systems

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10962780B2 (en) * 2015-10-26 2021-03-30 Microsoft Technology Licensing, Llc Remote rendering for virtual images
US11259046B2 (en) 2017-02-15 2022-02-22 Apple Inc. Processing of equirectangular object data to compensate for distortion by spherical projections
US11093752B2 (en) 2017-06-02 2021-08-17 Apple Inc. Object tracking in multi-view video
US11153482B2 (en) * 2018-04-27 2021-10-19 Cubic Corporation Optimizing the content of a digital omnidirectional image
GB201817780D0 (en) * 2018-10-31 2018-12-19 V Nova Int Ltd Methods,apparatuses, computer programs and computer-readable media for processing configuration data
EP3672248B1 (en) * 2018-12-21 2021-01-27 Axis AB A method and system for adding image content that contains one or more graphical objects to an image frame using an encoder
US10839735B2 (en) * 2018-12-31 2020-11-17 Microsoft Technology Licensing, Llc Techniques for determining effective color space of a display
US11106929B2 (en) * 2019-08-29 2021-08-31 Sony Interactive Entertainment Inc. Foveated optimization of TV streaming and rendering content assisted by personal devices
US11164339B2 (en) 2019-11-12 2021-11-02 Sony Interactive Entertainment Inc. Fast region of interest coding using multi-segment temporal resampling
CN111260625B (zh) * 2020-01-15 2021-06-18 征图新视(江苏)科技股份有限公司 胶印大张图像检测区域的自动提取方法
CN113518249B (zh) * 2020-04-10 2023-03-10 华为技术有限公司 一种远端图像处理方法及装置
CN114115619B (zh) * 2020-08-31 2024-07-05 华为技术有限公司 一种应用程序界面显示的方法及电子设备
CN113329228B (zh) * 2021-05-27 2024-04-26 杭州网易智企科技有限公司 视频编码方法、解码方法、装置、电子设备及存储介质
WO2024077797A1 (en) * 2022-10-11 2024-04-18 Guangdong Oppo Mobile Telecommunications Corp., Ltd. Method and system for retargeting image

Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6385248B1 (en) * 1998-05-12 2002-05-07 Hitachi America Ltd. Methods and apparatus for processing luminance and chrominance image data
US20020131507A1 (en) * 2001-03-14 2002-09-19 Anita Orhand Blockwise coding process, of MPEG type, in which a resolution is assigned to each block
US20050024487A1 (en) * 2003-07-31 2005-02-03 William Chen Video codec system with real-time complexity adaptation and region-of-interest coding
CN101282479A (zh) * 2008-05-06 2008-10-08 武汉大学 基于感兴趣区域的空域分辨率可调整编解码方法
US20080310501A1 (en) * 2004-04-23 2008-12-18 Brightside Technologies Inc. Apparatus and methods for encoding, decoding and representing high dynamic range images
US20100110298A1 (en) * 2007-03-05 2010-05-06 Snell Limited Video transmission considering a region of interest in the image data
CN101742324A (zh) * 2008-11-14 2010-06-16 北京中星微电子有限公司 视频编解码方法、视频编解码系统及编解码器
CN101980534A (zh) * 2009-12-15 2011-02-23 铜陵市维新投资咨询有限公司 基于区域分辨率可调整方法
US20110235706A1 (en) * 2010-03-25 2011-09-29 Texas Instruments Incorporated Region of interest (roi) video encoding
CN103583027A (zh) * 2011-06-07 2014-02-12 高通股份有限公司 利用多个组合分集的多描述编码
US20140044189A1 (en) * 2008-01-08 2014-02-13 Broadcom Corportion Hybrid memory compression scheme for decoder bandwidth reduction
CN104267879A (zh) * 2014-10-24 2015-01-07 福建星网视易信息系统有限公司 一种界面交互的方法及装置
US9094681B1 (en) * 2012-02-28 2015-07-28 Google Inc. Adaptive segmentation
CN106791854A (zh) * 2016-11-22 2017-05-31 北京疯景科技有限公司 图像编码、解码方法及装置
CN107454412A (zh) * 2017-08-23 2017-12-08 绵阳美菱软件技术有限公司 一种视频图像的处理方法、装置及系统

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6252989B1 (en) 1997-01-07 2001-06-26 Board Of The Regents, The University Of Texas System Foveated image coding system and method for image bandwidth reduction
US6623428B2 (en) 2001-10-11 2003-09-23 Eastman Kodak Company Digital image sequence display system and method
US20030189579A1 (en) 2002-04-05 2003-10-09 Pope David R. Adaptive enlarging and/or sharpening of a digital image
GB2404105A (en) 2003-07-03 2005-01-19 Braddahead Ltd Compressing digital images
JPWO2010137104A1 (ja) 2009-05-25 2012-11-12 パイオニア株式会社 映像処理装置、映像処理方法、及び映像処理プログラム
KR20110065986A (ko) 2009-12-10 2011-06-16 삼성전자주식회사 연관된 마스크들을 이용하여 디더링된 비디오 디스플레이 방법 및 이를 적용한 비디오 디스플레이 장치
AU2013321333B2 (en) 2012-09-28 2017-07-27 Sony Corporation Image processing device and method
GB2509954B (en) * 2013-01-18 2016-03-23 Canon Kk Method of displaying a region of interest in a video stream
GB2511730A (en) * 2013-01-28 2014-09-17 Microsoft Corp Spatially adaptive video coding
US9324161B2 (en) * 2013-03-13 2016-04-26 Disney Enterprises, Inc. Content-aware image compression method
US9519972B2 (en) * 2013-03-13 2016-12-13 Kip Peli P1 Lp Systems and methods for synthesizing images from image data captured by an array camera using restricted depth of field depth maps in which depth estimation precision varies
CN105580370A (zh) * 2013-10-08 2016-05-11 夏普株式会社 图像解码装置、图像编码装置以及编码数据变换装置
US9773192B2 (en) * 2015-06-07 2017-09-26 Apple Inc. Fast template-based tracking
US9936208B1 (en) * 2015-06-23 2018-04-03 Amazon Technologies, Inc. Adaptive power and quality control for video encoders on mobile devices
GB2548358A (en) 2016-03-15 2017-09-20 Nokia Technologies Oy A method, an apparatus and a computer program product for coding a 360-degree panoramic images and video
EP3334164B1 (en) * 2016-12-09 2019-08-21 Nokia Technologies Oy A method and an apparatus and a computer program product for video encoding and decoding
US10573076B2 (en) * 2016-12-14 2020-02-25 Mediatek Inc. Method and apparatus for generating and encoding projection-based frame with 360-degree content represented by rectangular projection faces packed in viewport-based cube projection layout
US20180183998A1 (en) * 2016-12-22 2018-06-28 Qualcomm Incorporated Power reduction and performance improvement through selective sensor image downscaling
US10909725B2 (en) * 2017-09-18 2021-02-02 Apple Inc. Point cloud compression

Patent Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6385248B1 (en) * 1998-05-12 2002-05-07 Hitachi America Ltd. Methods and apparatus for processing luminance and chrominance image data
US20020131507A1 (en) * 2001-03-14 2002-09-19 Anita Orhand Blockwise coding process, of MPEG type, in which a resolution is assigned to each block
US20050024487A1 (en) * 2003-07-31 2005-02-03 William Chen Video codec system with real-time complexity adaptation and region-of-interest coding
US20080310501A1 (en) * 2004-04-23 2008-12-18 Brightside Technologies Inc. Apparatus and methods for encoding, decoding and representing high dynamic range images
US20100110298A1 (en) * 2007-03-05 2010-05-06 Snell Limited Video transmission considering a region of interest in the image data
US20140044189A1 (en) * 2008-01-08 2014-02-13 Broadcom Corportion Hybrid memory compression scheme for decoder bandwidth reduction
CN101282479A (zh) * 2008-05-06 2008-10-08 武汉大学 基于感兴趣区域的空域分辨率可调整编解码方法
CN101742324A (zh) * 2008-11-14 2010-06-16 北京中星微电子有限公司 视频编解码方法、视频编解码系统及编解码器
CN101980534A (zh) * 2009-12-15 2011-02-23 铜陵市维新投资咨询有限公司 基于区域分辨率可调整方法
US20110235706A1 (en) * 2010-03-25 2011-09-29 Texas Instruments Incorporated Region of interest (roi) video encoding
CN103583027A (zh) * 2011-06-07 2014-02-12 高通股份有限公司 利用多个组合分集的多描述编码
US9094681B1 (en) * 2012-02-28 2015-07-28 Google Inc. Adaptive segmentation
CN104267879A (zh) * 2014-10-24 2015-01-07 福建星网视易信息系统有限公司 一种界面交互的方法及装置
CN106791854A (zh) * 2016-11-22 2017-05-31 北京疯景科技有限公司 图像编码、解码方法及装置
CN107454412A (zh) * 2017-08-23 2017-12-08 绵阳美菱软件技术有限公司 一种视频图像的处理方法、装置及系统

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024077798A1 (en) * 2022-10-11 2024-04-18 Guangdong Oppo Mobile Telecommunications Corp., Ltd. Image data coding methods and systems

Also Published As

Publication number Publication date
EP3804307A4 (en) 2022-02-09
EP3804307B1 (en) 2023-10-18
US20190379893A1 (en) 2019-12-12
EP3804307A1 (en) 2021-04-14
JP2021521744A (ja) 2021-08-26
US10848768B2 (en) 2020-11-24
JP6980137B2 (ja) 2021-12-15
WO2019237027A1 (en) 2019-12-12

Similar Documents

Publication Publication Date Title
EP3804307B1 (en) Fast region of interest coding using multi-segment resampling
US11164339B2 (en) Fast region of interest coding using multi-segment temporal resampling
JP7244584B2 (ja) 視線追跡を用いたvrのためのフォービエイテッドビデオリンク
US20220094981A1 (en) Image Compression For Digital Reality
US12058341B1 (en) Frequency component selection for image compression
US11330262B2 (en) Local image enhancing method and apparatus
KR20200044665A (ko) 부호화 방법 및 그 장치, 복호화 방법 및 그 장치
AU2018280337B2 (en) Digital content stream compression
JP7362903B2 (ja) 画像データ転送装置、画像表示システム、および画像データ転送方法
CN116848843A (zh) 可切换的密集运动向量场插值
US20230395041A1 (en) Content Display Process
US20240121406A1 (en) Content Compression for Network Transmission

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination