CN110830802B - 基于机器学习的视频压缩 - Google Patents

基于机器学习的视频压缩 Download PDF

Info

Publication number
CN110830802B
CN110830802B CN201910735508.9A CN201910735508A CN110830802B CN 110830802 B CN110830802 B CN 110830802B CN 201910735508 A CN201910735508 A CN 201910735508A CN 110830802 B CN110830802 B CN 110830802B
Authority
CN
China
Prior art keywords
frame
computer processors
physical computer
target frame
frames
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910735508.9A
Other languages
English (en)
Other versions
CN110830802A (zh
Inventor
C·施罗尔斯
S·肖布
E·多格特
J·麦克菲伦
S·拉布罗齐
A·德杰洛瓦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Disney Enterprises Inc
Original Assignee
Disney Enterprises Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Disney Enterprises Inc filed Critical Disney Enterprises Inc
Publication of CN110830802A publication Critical patent/CN110830802A/zh
Application granted granted Critical
Publication of CN110830802B publication Critical patent/CN110830802B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/587Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal sub-sampling or interpolation, e.g. decimation or subsequent interpolation of pictures in a video sequence
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
    • H04N19/51Motion estimation or motion compensation
    • H04N19/537Motion estimation other than block-based
    • H04N19/54Motion estimation other than block-based using feature points or meshes
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/136Incoming video signal characteristics or properties
    • H04N19/137Motion inside a coding unit, e.g. average field, frame or block difference
    • H04N19/139Analysis of motion vectors, e.g. their magnitude, direction, variance or reliability
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/146Data rate or code amount at the encoder output
    • H04N19/149Data rate or code amount at the encoder output by estimating the code amount by means of a model, e.g. mathematical model or statistical model
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/172Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a picture, frame or field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/42Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by implementation details or hardware specially adapted for video compression or decompression, e.g. dedicated software implementation
    • H04N19/436Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by implementation details or hardware specially adapted for video compression or decompression, e.g. dedicated software implementation using parallelised computational arrangements
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/48Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using compressed domain processing techniques other than decoding, e.g. modification of transform coefficients, variable length coding [VLC] data or run-length data
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
    • H04N19/51Motion estimation or motion compensation
    • H04N19/537Motion estimation other than block-based

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Computing Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Algebra (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

本申请公开了基于机器学习的视频压缩。公开了用于压缩目标视频的系统和方法。计算机实施的方法可以使用包括一个或更多个物理计算机处理器和非暂时性电子存储装置的计算机系统。该计算机实施的方法可以包括:获得目标视频、从目标视频提取一个或更多个帧以及基于一个或更多个帧之间的像素的位移生成估计的光流。一个或更多个帧可以包括关键帧和目标帧中的一个或更多个。

Description

基于机器学习的视频压缩
相关申请的交叉引用
本申请要求2018年8月10日提交的美国专利申请号62/717,470的优先权,其通过参考全部并入本文。
技术领域
本公开总体涉及视频压缩。
发明内容
本公开的实施例包括使用机器学习来压缩视频的系统和方法。根据本文描述的技术,公开了一种用于压缩目标视频的计算机实施的方法。计算机实施的方法可以在计算机系统中实施,该计算机系统可以包括一个或更多个物理计算机处理器和非暂时性电子存储装置。计算机实施的方法可以包括从非暂时性电子存储装置获得目标视频。计算机实施的方法可以包括利用一个或更多个物理计算机处理器从目标视频中提取一个或更多个帧。一个或更多个帧可以包括关键帧和目标帧中的一个或更多个。计算机实施的方法还可以包括利用一个或更多个物理计算机处理器,基于一个或更多个帧之间的像素的位移来生成估计的光流。
在实施例中,像素的位移可以在关键帧和/或目标帧之间。
在实施例中,计算机实施的方法可以进一步包括利用一个或更多个物理计算机处理器将估计的光流应用于已训练的光流模型以生成精细的光流。已训练的光流模型可以通过使用光流训练数据已经被训练。光流训练数据可以包括(i)光流数据,(ii)对应的残差,(iii)对应的扭曲的帧和/或(iv)对应的目标帧。
在实施例中,计算机实施的方法还可以包括利用一个或更多个物理计算机处理器,通过将估计的光流应用于关键帧,生成扭曲的目标帧。扭曲的目标帧可以包括在关键帧中不可见的缺失元素。计算机实施的方法还可以包括利用一个或更多个物理计算机处理器使用补充信息识别扭曲的目标帧中的缺失元素。该计算机实施的方法可以包括利用一个或更多个物理计算机处理器,通过将扭曲的目标帧应用于已训练的内插模型,从扭曲的目标帧合成缺失元素。已训练的内插模型可以使用内插训练数据已经被训练。内插训练数据可以包括(i)用户定义的值和/或(ii)多组帧。给定的一组帧可以包括先前训练帧、目标训练帧和/或后续训练帧。计算机实施的方法还可以包括利用一个或更多个物理计算机处理器生成合成的目标帧。
在实施例中,补充信息可包括掩码、目标帧、扭曲的目标帧中给定对象的给定估计光流的给定幅度和/或对应于缺失元素的深度中的一个或更多个。
在实施例中,识别缺失的元素可以包括利用一个或更多个物理计算机处理器,基于给定对象的给定估计光流的给定幅度,当幅度达到阈值时,将给定对象识别为前景对象。识别缺失元素还可以包括利用一个或更多个物理计算机处理器,使用一个或更多个帧之间的前景对象的位移,识别扭曲的目标帧的背景中的缺失元素。
在实施例中,识别缺失元素可以包括利用一个或更多个物理计算机处理器,基于一个或更多个帧之间的对象的深度的改变,使用估计的光流识别缺失的元素。识别缺失元素还可以包括利用一个或更多个物理计算机处理器生成要应用于缺失元素的元素。识别缺失的元素可以包括利用一个或更多个物理计算机处理器生成合成的目标帧。
在实施例中,已训练的光流模型和/或已训练的内插模型可以包括卷积神经网络。
在实施例中,计算机实施的方法还可以包括利用一个或更多个物理计算机处理器对合成的目标帧进行编码。计算机实施的方法可以包括利用一个或更多个物理计算机处理器,基于编码的合成目标帧来编码辅助信息。辅助信息可包括光流和/或掩码中的一个或更多个。
根据本公开的附加方面,系统可以包括非暂时性电子存储装置和一个或更多个物理计算机处理器。一个或更多个物理计算机处理器可以由机器可读指令配置以执行若干操作。一种操作可以是从非暂时性电子存储装置获得目标视频。另一个操作可以是利用一个或更多个物理计算机处理器从目标视频中提取一个或更多个帧。一个或更多个帧可以包括关键帧和/或目标帧中的一个或更多个。又一个操作可以是利用一个或更多个物理计算机处理器,基于一个或更多个帧之间的像素位移来生成估计的光流。
在实施例中,另一个操作可以是利用一个或更多个物理计算机处理器将估计的光流应用于已训练的光流模型以生成精细的光流。已训练的光流模型可以通过使用光流训练数据已经被训练。光流训练数据可以包括(i)光流数据,(ii)对应的残差,(iii)对应的扭曲的帧,和/或(iv)对应的目标帧。
在实施例中,另一个这种操作是利用一个或更多个物理计算机处理器,通过将估计的光流应用于关键帧,生成扭曲的目标帧。扭曲的目标帧可以包括在关键帧中不可见的缺失元素。又一个这种操作是利用一个或更多个物理计算机处理器使用补充信息识别扭曲的目标帧中的缺失元素。另一个操作是利用一个或更多个物理计算机处理器,通过将扭曲的目标帧应用于已训练的内插模型,从扭曲的目标帧合成缺失元素。已训练的内插模型可以使用内插训练数据已经被训练。内插训练数据可以包括(i)用户定义的值和(ii)多组帧。给定的一组帧可以包括先前训练帧、目标训练帧和/或后续训练帧。另一个操作是利用一个或更多个物理计算机处理器生成合成目标帧。
在实施例中,补充信息可以包括掩码、目标帧、扭曲的目标帧中给定对象的给定估计光流的给定幅度和/或对应于缺失元素的深度中的一个或更多个。
在实施例中,识别缺失元素可以包括利用一个或更多个物理计算机处理器,基于给定对象的给定估计光流的给定幅度,当幅度达到阈值时,将给定对象识别为前景对象。识别缺失元素还可以包括使用一个或更多个帧之间的前景对象的位移,利用一个或更多个物理计算机处理器识别扭曲的目标帧的背景中的缺失元素。
在实施例中,识别缺失的元素可以包括基于一个或更多个帧之间的对象的深度的改变,使用估计的光流,利用一个或更多个物理计算机处理器识别缺失元素。识别缺失元素还可以包括利用一个或更多个物理计算机处理器生成要应用于缺失元素的元素。识别缺失元素可以包括利用一个或更多个物理计算机处理器生成合成的目标帧。
在实施例中,已训练的光流模型和/或已训练的内插模型可以包括卷积神经网络。
在实施例中,操作可以包括利用一个或更多个物理计算机处理器对合成的目标帧进行编码。在实施例中,操作还可以包括利用一个或更多个物理计算机处理器基于编码的合成目标帧来编码辅助信息。辅助信息可包括光流和/或掩码中的一个或更多个。
在实施例中,关键帧可以包括先前帧和/或后续帧中的一个或更多个。
在实施例中,生成估计的光流可以包括利用一个或更多个物理计算机处理器使用先前帧和目标帧。
根据本公开的附加的方面,非暂时性计算机可读介质可以具有存储在其上的可执行指令,当由一个或更多个物理计算机处理器执行时,可执行指令使得一个或更多个物理计算机处理器执行若干操作。一种操作可以是从非暂时性电子存储装置获得目标视频。另一个操作可以是利用一个或更多个物理计算机处理器从目标视频中提取一个或更多个帧。一个或更多个帧可以包括关键帧和目标帧中的一个或更多个。又一个操作可以是基于一个或更多个帧之间的像素位移,利用一个或更多个物理计算机处理器生成估计的光流。
附图说明
在结合附图查看下面描述的各种公开实施例的详细描述时,将了解本公开的各方面。
图1A图解说明根据本文公开的实施例的用于将视频编码和压缩的示例方法。
图1B图解说明根据本文公开的实施例的用于将视频编码和压缩的示例方法。
图1C图解说明根据本文公开的实施例的用于将视频编码和压缩的示例方法。
图1D图解说明根据本文公开的实施例的用于将视频编码和压缩的示例方法。
图2图解说明根据本文公开的实施例的用于流预测的示例方法。
图3A图解说明根据本文公开的实施例的用于前向图像扭曲的示例方法。
图3B图解说明根据本文公开的实施例的用于处理遮挡的示例方法。
图4图解说明根据本文公开的实施例的用于视频压缩的帧合成的示例方法。
图5图解说明根据本文公开的实施例的用于视频压缩的示例方法。
图6图解说明根据本文公开的实施例的用于编码内插帧的示例方法。
图7图解说明根据本文公开的实施例的用于辅助信息的引导压缩的示例方法。
图8图解说明根据本文公开的实施例的示例卷积神经网络架构。
图9图解说明根据本文公开的实施例的用于光流的联合压缩和图像压缩的示例方法。
图10图解说明可用于实施本公开的各种实施例的特征的示例计算模块。
在以下说明书和示例中更详细地描述了附图,提供这些附图仅仅是为了说明的目,并且仅描绘本公开的典型或示例实施例。附图并非旨在穷举或将本公开限制于所公开的精确形式。还应该理解,本公开可以通过修改或变更来实践,并且本公开可以仅由权利要求及其等同物限制。
具体实施方式
本公开涉及用于基于机器学习的视频压缩的系统和方法。例如,神经自动编码器已经应用于单个图像压缩应用,但是使用机器学习(即,深度学习)的视频压缩仅关注帧内插及其对视频压缩的应用。
本文公开的实施例涉及帧合成方法,其包括利用多个扭曲方法的内插和外插、使用中间帧内插结果的压缩方案和/或采用图像和诸如光流的相关信息之间的相关性的压缩方案。
用于视频压缩的视频编解码器通常将视频分解为编码为单个图像的一组关键帧,以及使用内插的一组帧。相反,本公开应用深度学习(例如,神经网络)来编码、压缩和解码视频。例如,所公开的方法可以包括使用深度学习来内插帧并应用各种帧扭曲方法来校正图像遮挡和/或来自使用光流的其他伪像。该方法可以使用深度学习算法来预测内插结果。这里公开的实施例可以进一步将前向扭曲应用于内插以使流图(flow maps)和图像相关以用于改进的压缩。在一些实施例中,视频压缩方案可以通过对已经可用的视频帧(例如,当前帧和一个或更多个参考帧)进行编码来预测当前帧。这与视频帧内插和外插相当,不同之处在于预测图像在编码时可用。示例视频压缩方案可以包括运动估计、图像合成和数据编码,如本文将描述的。
图1A、图1B、图1C和图1D图解说明用于编码和压缩视频的示例方法。假设某个参考帧r1可用,使用运动可以通过以下方式有效地编码帧I(例如,与五帧和/或其他数量的帧相邻,在五帧和/或其他数量的帧内):使用运动场和参考帧计算2D位移图Fr1(例如,图1A);合成图像的估计(例如,图1B)以编码;编码和发送运动场——依据所选的编码/解码方案,帧r1可能在解码时可用(例如,图1C);以及将I编码考虑合成结果/>其用作补充输入(例如,图1D)。在一些示例中,明确编码到/>的残差。残差可以是I和/>之间的差。对于参考帧,图像和流编码/解码可以用单个网络完成,因为流和图像内容之间存在相关性。例如,单个网络可以接收一个或更多个输入(例如,光流、图像、视频、残差、补充信息等),并输出在解码器网络中使用的信息以产生可播放内容。
在一些实施例中,使用可用参考帧{ri|i∈1...n}(通常n=2),可以编码新帧或目标帧I。可以选择参考帧以与I的内容具有一些重叠。可以在参考帧和目标帧之间估计运动矢量图或光流。例如,运动矢量图可以对应于从ri到I的像素的2D位移。
帧合成可以使用估计的光流来前向扭曲(例如,从视频的先前帧到视频的后续帧)参考帧ri,并计算要编码的图像的预测。前向映射的图像可以由Wri→I表示,并且预测由表示。使用前向映射可以帮助识别不存在于参考帧中的I的图像区域,或者否则被遮挡,指示机器学习算法可以合成缺失像素的图像区域。在从几个参考帧进行预测的情况下,这也有助于选择要使用哪个参考帧。使用机器学习的网络(例如,卷积神经网络(CNN))可以选择具有最小对应的残差值的参考帧,或者可以选择多个帧以改善预测的图像等。应当了解,其他启发式方法可以用于选择参考帧。在实施例中,这些启发法可以基于残差。除此之外,使用前向位移图来工作允许使用可用的参考帧ri进行编码和解码。在一些示例中,机器学习算法是CNN。
在编码时可以使用两种类型的帧:(1)完全依赖于单个图像压缩的关键帧,以及(2)作为图像合成的结果的内插帧。编码内插帧更有效,因为它利用了中间合成结果用作参考帧的任何帧也必须编码从r1到I、Fr1→I的位移图。Fr1→I可以与ri相关。
光流
本文公开了用于估计光流的方法。在一些实施例中,对于每个参考帧ri,可以预测每个像素位置的2D位移以匹配来自I的像素。
地面实况位移图可用于估计光流。在这种情况下,可以在编码时计算在参考帧ri和要编码I的帧之间的光流。该光流估计可以被编码并作为视频数据的一部分传输。在该示例中,解码器仅解码数据以获得位移图。
图2图解说明可用于使用若干参考帧来估计光流的预测位移图。像素p1、p2和p可以分别对应于帧r1、r2和I。可以从可用的参考帧r1和r2预测光流向量Fr1→I(p1)。可能需要残差运动来校正预测,如图2中所说明的。在实施例中,Fr1→r2和Fr1→I(p1)可用于推断Fr1→I(p2)
在一些实施例中,参考帧r1和r2分别位于I之前和之后。假设线性运动,光流可以估计为:
是要被编码的残差的情况下,校正光流中的误差或者如果不遵守线性运动假设。该方案可以增加解码时间但减少要传输的数据量。
一些示例实施例包括预测多个位移图。当预测多个位移图时,位移图之间的相关性可以用于更好的流预测并且减小所需的残差信息的大小。这在图2中说明。可以使用与r1相关的不同位移图来预测相反方向Fr2→I的运动。例如,位移图可以被反转Fr1→r2和/或使用一个或更多个参考帧计算,将反转的位移图以一个值按比例缩放,例如0.5,并且添加残差应当了解,可以使用其他技术来预测相反方向的运动。
帧合成
帧预测的一些示例包括从单个图像估计预测。在单个参考帧r1可用的情况下,运动场Fr1→I可以用于前向扭曲参考帧并获得初始估计Wr1→I。得到的图像可能包含在r1中被遮挡或不可见的区域中的孔。使用机器学习(例如,卷积神经网络),缺失的部分可以被合成并用于计算I1的近似值:
一些示例实施例包括用于从多个图像预测残差运动的方法。视频压缩可以涉及使用较大的时间间隔从单个帧合成。然后可以使用这些图像来预测中间短程帧。在可选的补充输入可用时,所提出的合成算法可以采用可选的补充输入。本公开的实施例包括使用光流扭曲一个或更多个参考帧并提供扭曲结果作为输入用于合成。
图像扭曲
在一些实施例中,在使用机器学习(例如,卷积神经网络)来合成帧之前,可以使用估计的光流来扭曲参考图像。
图3A和图3B图解说明用于扭曲参考图像的方法。参考图3A,用于使参考图像扭曲的方法可以包括:(a)使用光流,利用对应于双线性内插的权重wp,将像素p从参考帧r1扭曲到中的新位置(像素p可以促成像素q的颜色);(b)解决来自直接双线性加权的伪像,可以应用地面实况位移或基于图像的滤波处理和/或其他处理,但是可能需要应用于被遮挡区域的附加的二进制掩码。在一些实施例中,可以应用基于流的滤波处理来解决遮挡和/或伪像而无需传输附加数据。
在一些实施例中,可以使用前向方法。例如,来自参考帧r1的像素p将在中围绕其末端位置贡献4个像素位置。在实施例中,对于像素位置q,得到的颜色是
Sq是来自r1的像素集合,其贡献于具有权重ωp的位置q。可以使用双线性权重,如图3A所说明的。对应于中的解除遮挡的区域将不从参考图像接收任何颜色,并且它们将被识别为合成网络必须绘制的区域。
如果在r1和I之间发生遮挡,则使用贡献集Sq中的所有像素将创建重影伪像(见图3B)。可以使用以下方法来减少这些重影伪像并创建集合Sq。在下文中,Aq可以表示来自r1的所有像素的集合,其中最终目的地在像素q附近。附近可包括在10像素、50像素、100像素等内。
在一些示例中,可以从图像估计遮挡中的填充。与帧内插相反,在视频编码期间,目的地像素的地面实况颜色可用并且可用于构建Sq。第一个元素是像素p*,定义如下:
由此,Sq被定义为像素集p∈Aq满足:
||I(q)-r1(p)||<||I(q)Or1(p*)||+∈(6)
在实施例集合中,不需要明确地构建Sq。相反,可以在扭曲中标记和忽略未使用的像素p。通过以大约5个像素的核尺寸连续地施加打开和关闭,可以使用形态学操作来平滑遮挡周围的所得掩码。应当了解的是,可以应用其他过程来平滑掩码。在解码时,可以使用相同的扭曲方法,但是掩码可以用光流传输。
在一些示例中,可以从位移估计遮挡的位置和颜色。先前的解决方案需要使用也被编码的补充掩码。在本方法中,光流的大小可用于解决遮挡。例如,大运动更可能对应于前景对象。在这种情况下,第一个元素是像素p*,定义如下:
Sq被定义为像素集p∈Aq满足:
其中∈可以表示用户定义的阈值(例如,基于背景运动的统计)。在实施例中,可以使用附加的滤波。
在一些示例中,可以从深度估计遮挡。可以利用机器学习过程(例如,卷积神经网络)来估计深度排序。例如,深度图网络可以从图像或一个或更多个单目图像序列估计深度图。用于深度图网络的训练数据可以包括图像序列、深度图、立体图像序列、单目序列和/或其他内容。在使用训练数据训练初始深度图网络之后,已训练的深度图网络可以接收内容并估计内容的深度图并基于深度图估计遮挡。利用深度测试识别被遮挡的像素,并且在扭曲期间简单地忽略这些像素。利用足够的计算能力,还可以使用多视图几何技术获得更精确的深度信息。
本文描述的扭曲技术是互补的,并且可以以不同的方式组合。例如,位移和深度可以是相关的。许多计算可以在两个模态之间共享,并且获得深度表示计算时间的相对较小的增量。可以从地面实况图像估计遮挡。确定是否应该使用扭曲掩码可以基于掩码与合成之后的图像残差之间的编码成本比较。在实施例中,这些可以基于给定应用程序是用户选择的。
合成网络
图4图解说明示例合成网络。参考图4,为了合成帧可以使用光流图FIr1→I来扭曲参考帧r1。得到的图像Wr1→I可以由帧合成网络处理以预测图像/>当多于一个参考帧r2可用时,可以计算前向映射图像Wr2→I并将其作为补充通道提供给合成网络。例如,网络架构可以是GridNet网络和/或其他网络类型。
仍然参考图4,网络可以将扭曲的参考帧的级联作为输入。训练数据可以是多个视频。扭曲的视频帧可以包括孔和/或其他遮挡。可以向网络提供更多输入,例如后向扭曲的参考帧和/或扭曲的特征图。
训练取决于应用案例。例如,对于来自两个参考帧r1和r2的内插,可以训练网络以最小化在由输入图像(r1,r2)和对应的地面实况内插帧I的三元组组成的数据集D上的目标函数L:
对于损失C,我们使用像素差的范数,这可能导致比/>尖锐的结果。
压缩
图5图解说明视频压缩方法。例如,可以定义一组关键帧。可以使用单个图像压缩来编码这些关键帧。对于中间帧,编码可以利用中间合成结果。用作内插的参考的任何帧也可以编码光流。
在一些实施例中,可以通过压缩网络来实施图像压缩。在下文中,C和D分别表示压缩和解码函数。
在一些实施例中,可以使用单个图像压缩方法来压缩未被内插的关键帧(见图5)。可以基于所选择的间隔空间或基于运动和场景内容的选择算法来选择关键帧。可以使用下面描述的架构和训练损失来实施关键帧压缩:
其中且/>总损耗考虑了重建损失R(I,I')和速率损失熵在一些实施例中,可以在美国专利申请16/254,475中更详细地描述示例视频压缩技术,该申请通过参考全部并入本文。
图6图解说明用于编码内插帧的方法。对预测帧进行编码可以利用在编码和解码时都可用的预测/>多个选项是可能的,以编码内插帧,例如,解码图像I或要被添加到预测的残差。
在一些示例中,对于预测帧,压缩过程可以包括使过程更有效的多个步骤,例如内插和图像编码。
在一个示例中,可以将残差信息显式地编码为内插结果或者让网络学习更好的方案。网络的训练数据可以是多个视频。训练可以包括,例如,使用扭曲的帧并生成扭曲的帧的多个预测。可以基于多个预测与原始帧之间的差异来生成残差。残差可用于训练网络来改善自身。在实施例中,网络可以包括变分自动编码器,其包括一个或更多个卷积、缩小操作、放大操作和/或其他过程。应当了解的是,可以使用其他组件来代替网络或者除了网络之外还使用其他组件。在两种情况下,可以使用如图6中所说明的网络。除了来自的编码器/解码器架构,我们还从中提取可以作为编码器的额外通道添加的特征。编码器和特征提取层可以遵循相同的架构,但是每个组件可以使用不同的权重。
图7图解说明执行由辅助信息引导的图像压缩的方法。例如,当前公开的压缩可以利用图像和辅助信息(例如,流和掩码)之间的相关性。图像(当可用时)可用于引导编码和解码。在一些示例中,视频压缩方法可以使用前向光流和前向扭曲以利用辅助信息和图像内容之间的相关性。例如,可以对图像分开进行编码和解码,并且可以通过光流和二进制掩码来引导编码和解码,如图7所说明的。
在一些实施例中,可以同时对图像和辅助信息进行编码。在这种情况下,图像颜色和辅助信息可以沿着通道级联,并且压缩网络可以预测相同数量的通道。
在一个实施例中,光流和图像压缩可以在一个前向通道中组合,如图8所说明的。在一些实施例中,也可以压缩图像残差。在压缩步骤中组合多个特征可以提供可以被端对端训练的方法。如图8所说明的,可以在帧I和两个参考帧r1和r2之间估计光流。可以对得到的流图和/>进行编码。在实施例中,流编码器可以将扭曲的帧/>和图像I作为补充输入。网络可以识别光流不精确(例如,高于某个阈值)以及在没有质量损失的情况下可以实现更好的压缩的区域。在实施例中,可以使用后向扭曲。再次参考图8,可以解码光流。帧合成网络可以用于计算/>图像的预测I。在实施例中,可以将残差信息编码到内插结果。在一些实施例中,可以训练网络以学习更好的方案,如本文所述。在实施例中,合成和压缩可以分组为单个步骤。
可以使用如图9中所说明的卷积神经网络来实施本公开的一些实施例。如图9所说明的,描绘了示例渐进伪像去除网络的架构。DConv 3x3x64指的是具有3x3核大小和64个输出通道的2D卷积。输入通道的数量来自前一层。输出集索引是如本文所述的不同失真质量等级的输出。从输入到所有输出都有跳过连接,中间有简单的卷积层。可以使用其他类型的卷积网络和/或深度学习/机器学习方法。
如本文所使用的,术语组件可以描述可以给定功能单元,该功能单元可以根据本文公开的技术的一个或更多个实施例执行。如本文所使用的,可以使用任何形式的硬件、软件或其组合来实现组件。例如,可以实现一个或更多个处理器、控制器、ASIC、PLA、PAL、CPLD、FPGA、逻辑组件、软件程序或其他机制以构成组件。在实施方式中,本文描述的各种组件可以实现为分立组件或者可以在一个或更多个组件之间部分共享或全部共享所描述的功能和特征。换句话说,在读完本说明书之后,对本领域普通技术人员来讲明显的是,本文中描述的各种特性和功能可以被实现在任何给定应用中,并且能够以各种组合和排列被实现在一个或多个单独的或共享的组件中。如本文所使用的,术语引擎可以描述被配置为执行一个或更多个特定任务的组件的集合。虽然功能的各种特性或元件可以作为独立的组件或引擎被单独描述或声明,但是本领域的普通技术人员可以会理解,这些特性或功能可以在一个或更多个通用软件和硬件元件中被共享,并且这种描述不要求或暗示利用单独的硬件或软件组件来实现这种特性或功能。
在全部或部分地使用软件实现本技术的引擎、一个或更多个组件的情况下,在一个实施例中,可以实现这些软件元件以利用计算或处理组件操作,计算或处理组件能够执行上文针对其所描述的功能。图10中示出一个这样的示例计算组件。根据这个示例的计算组件1000描述多个实施例。读完本说明书之后,如何使用其他计算组件或体系结构实现该技术对相关领域的普通技术人员来说是明显的。
现在参考图10,计算组件1000可以表示例如在台式计算机、膝上型计算机和笔记本计算机;手持计算设备(PDA、智能电话、蜂窝电话、掌上型电脑等);大型机、超级计算机、工作站或服务器;或者对于给定的应用或环境可能是期望的或适合的任何其他类型的专用或通用计算设备中发现的计算或处理能力。计算组件1000还可以表示嵌入在给定设备内或者以其他方式对于给定设备可用的计算能力。例如,计算组件可以在其他电子设备中被发现,其他电子设备例如是数码相机、导航系统、蜂窝电话、便携式计算设备、调制解调器、路由器、WAP、终端和可能包括某种形式处理能力的其他电子设备。
计算组件1000可以包括例如一个或更多个处理器、控制器、控制组件或其他处理设备,例如处理器1004。处理器1004可以使用通用或专用处理引擎来实现,例如,微处理器、控制器或其他控制逻辑。在所说明的示例中,处理器1004被连接到总线1002,但是可以使用任何通信介质来便于与计算组件1000的其他组件的交互或进行外部通信。
计算组件1000还可以包括一个或更多个存储器组件,这里简称为主存储器1008。例如,优选地,随机存取存储器(RAM)或其他动态存储器可以用于存储要由处理器1004执行的信息和指令。主存储器1008还可以被用来存储在要由处理器1004执行的指令的执行期间的临时变量或其他中间信息。计算组件1000可类似地包括耦合到总线1002的用于为处理器1004存储静态信息和指令的只读存储器(“ROM”)或其他静态存储设备。
计算组件1000可能也包括一种或更多各种形式的信息储存设备1010,这可能包括例如介质驱动器1012和存储单元接口1020。介质驱动器1012可能包括驱动器或用于支持固定的或可移除的存储介质1014的其他机构。例如,可能提供硬盘驱动器、软盘驱动器、磁带驱动器、光盘驱动器、光盘(CD)或数字视频盘(DVD)驱动器(R或RW)或其他可移除或固定的介质驱动器。因此,存储介质1014可包括例如硬盘、软盘、磁带、光盘、CD或DVD或其他写入到介质驱动器1012或由介质驱动器1012所读取或访问的固定或可移除的介质。正如这些示例所说明的,存储介质1014可能包括在其中存储计算机软件或数据的计算机可用的存储介质。
在替代实施例中,信息存储机构1010可能包括用于允许将计算机程序或其他指令或数据载入计算组件1000内的其他类似工具。这些工具可能包括例如固定或可移除的存储单元1022和接口1020。这些存储单元1022和接口920的示例可包括程序盒式存储器和盒式存储器接口、可移除存储器(例如,闪存或其他可移除存储器组件)以及存储器插槽、PCMCIA插槽和卡片以及其他固定的或可移除的存储单元1022及接口1020,其允许将软件和数据从存储单元1022传输至计算组件1000。
计算组件1000可能也包括通信接口1024。通信接口1024可能被用来在计算组件1000和外部设备之间传输软件和数据。通信接口1024的示例可能包括调制解调器和软调制解调器、网络接口(例如以太网、网络接口卡、无线介质(Wimedia)、IEEE 802.XX或其他接口)、通信端口(例如,USB端口、IR端口、RS232端口、蓝牙(Bluetooth@)接口或其他端口)、或其他通信接口。通过通信接口1024传输的软件和数据通常由信号携带,信号可能是能够由给定通信接口1024交换的电信号、电磁信号(包括光)或其他信号。这些信号可以经由通道1028被提供给通信接口1024。此通道1028可能携带信号并且可以使用有线或无线通信介质来实现。通道的一些示例可能包括电话线、蜂窝链路、RF链路、光链路、网络接口、局域网或广域网或其他有线或无线通信通道。
在本文档中,术语“计算机程序介质”和“计算机可用介质”一般被用来指例如,存储器1008、储存单元1020、介质1014和通道1028的介质。这些或其他各种形式的计算机程序介质或计算机可用介质可以将一个或更多个指令的一个或多个序列输送至处理设备用于执行时被涉及。包括在介质上的指令一般被称作“计算机程序编码”或“计算机程序产品”(可以以计算机程序的形式进行分组或进行其他分组)。当执行指令时,这些指令可能使计算组件1000能够执行本文讨论的所公开技术的特性或功能。
虽然上面已经描述了所公开的技术的各种实施例,但是应该理解的是,它们仅以示例的方式呈现,而不是限制。同样地,各种图可以描绘用于所公开的技术的示例架构或其他配置,其被完成以帮助理解可以包括在所公开的技术中的特征和功能。所公开的技术不限于所说明的示例架构或配置,而是可以使用各种替代架构和配置来实施期望的特征。实际上,如何实施替代的功能、逻辑或物理划分和配置以实施本文公开的技术的期望特征对于本领域技术人员来说将是明显的。此外,除了本文中描述的那些之外的多个不同的组成组件名称可以应用于各种分区。附加地,关于流程图、操作描述和方法权利要求,除非上下文另有指示,否则本文中呈现步骤的顺序不应强制实施各种实施例以按相同顺序执行所述功能。
尽管以上根据各种示例性实施例和实施方式描述了所公开的技术,但是应当理解的是,在一个或更多个单独的实施例中描述的各种特征、方面和功能不限于它们对描述它们的特定实施例的适用性,但是可以单独或以各种组合应用于所公开的技术一个或更多个其他实施例,无论是否描述了这种实施例以及这种特征是否被呈现为是描述的实施例的一部分。因此,本文公开的技术的广度和范围不应受限于任何上述示例性实施例。
在本文档中用到的术语和短语以及它们的变型,除非以其他方式明确说明,都应该被视为开放的而不是限制性的。如上述示例:术语“包括”应当理解为“包括,但不限于”或者类似的表达;术语“示例”被用于提供讨论中的术语的示例性实例,而不是其详尽的或限制性的列表;术语“一”或“一个”应当理解为“至少一个”、“一个或更多个”或类似的表达;形容词如“常规的”、“通常的”、“正常的”、“标准的”、“已知的”以及相近含义的术语不应当被解释为限制所描述的术语为一给定的时间段或限制为在一给定的时间可用该术语,而是应当理解为包括现在或在未来的任何时间可以获得或已知的常规的、通常的、正常的或标准的技术。同样,本文档涉及的技术对本领域普通技术人员来讲是明显的或已知的,这些技术包括对本领域技术人员现在或未来的任何时间来说都是明显的或已知的那些技术。
扩展词语或语句例如“一个或更多个”、“至少”、“但不限于”或在某些例子中的其他类似的语句的出现不应该意味在这些扩展语句不存在的实例中意图或需要更窄的情况。术语“组件”的使用并不意味着被描述或声明为组件的一部分的组件或功能都被配置在共同封装件(common package)中。实际上,组件的任何或所有各个方面(不管是控制逻辑还是其他组件)可以被合并在单个封装件中或者被单独维护,并且进一步分布到多个组或封装件或跨越多个位置。
附加地,本文阐述的各个实施例以示例性框图、流程图和其他图示被描述。在阅读本文档后,所说明的实施例和其各种替代物可以在不限于所说明的示例的情况下实现,这对本领域普通技术人员来说是明显的。例如,框图及其相应的描述不应当被解释为要求特定的体系结构或配置。

Claims (13)

1.一种用于压缩目标视频的计算机实施的方法,所述方法在包括一个或更多个物理计算机处理器和非暂时性电子存储装置的计算机系统中实施,其包括:
从所述非暂时性电子存储装置获取所述目标视频;
利用所述一个或更多个物理计算机处理器从所述目标视频中提取多个帧,其中所述多个帧包括关键帧和目标帧;以及
利用所述一个或更多个物理计算机处理器,基于所述关键帧和所述目标帧之间的像素的位移生成估计的光流;
利用所述一个或更多个物理计算机处理器,通过将所述估计的光流应用于所述关键帧来生成扭曲的目标帧,其中所述扭曲的目标帧包括在所述关键帧中不可见的缺失元素;
利用所述一个或更多个物理计算机处理器,使用补充信息识别所述扭曲的目标帧中的所述缺失元素;
利用所述一个或更多个物理计算机处理器,通过将所述扭曲的目标帧应用于已训练的内插模型,合成来自所述扭曲的目标帧的所述缺失元素,所述已训练的内插模型已经使用内插训练数据被训练,其中所述内插训练数据包括(i)用户定义的值和(ii)多组帧,并且其中给定的一组帧包括先前训练帧、目标训练帧和后续训练帧;以及
利用所述一个或更多个物理计算机处理器生成合成目标帧;
其中所述补充信息包括所述目标帧、所述扭曲的目标帧中给定对象的给定的估计光流的幅度和深度图中的一个或更多个。
2.根据权利要求1所述的计算机实施的方法,其中识别所述缺失元素包括:
基于所述给定对象的所述给定的估计光流的所述幅度,当所述幅度达到阈值时,利用所述一个或更多个物理计算机处理器识别所述给定对象作为前景对象;以及
使用所述多个帧之间的所述前景对象的位移,利用所述一个或更多个物理计算机处理器识别所述扭曲的目标帧的背景中的所述缺失元素。
3.根据权利要求1所述的计算机实施的方法,其中识别所述缺失元素包括:
基于所述多个帧之间的另一个对象的深度变化,使用所述给定的估计光流,利用所述一个或更多个物理计算机处理器识别所述缺失元素;
利用所述一个或更多个物理计算机处理器生成应用于所述缺失元素的元素;以及
利用所述一个或更多个物理计算机处理器生成所述合成目标帧。
4.根据权利要求1所述的计算机实施的方法,其中,所述已训练的内插模型包括卷积神经网络。
5.根据权利要求1所述的计算机实施的方法,还包括:
利用所述一个或更多个物理计算机处理器编码所述合成目标帧以生成编码的合成目标帧;以及
利用所述一个或更多个物理计算机处理器,基于所述编码的合成目标帧编码辅助信息,其中所述辅助信息包括所述估计的光流和掩码中的一个或更多个。
6.一种用于压缩目标视频的系统,其包括:
非暂时性电子存储装置;以及
一个或更多个物理计算机处理器,由机器可读指令配置为:
从所述非暂时性电子存储装置获取所述目标视频;
利用所述一个或更多个物理计算机处理器从所述目标视频中提取多个帧,其中所述多个帧包括关键帧和目标帧;
利用所述一个或更多个物理计算机处理器,基于所述关键帧和所述目标帧之间的像素位移生成估计的光流;
利用所述一个或更多个物理计算机处理器,通过将所述估计的光流应用于所述关键帧来生成扭曲的目标帧,其中所述扭曲的目标帧包括在所述关键帧中不可见的缺失元素;
利用所述一个或更多个物理计算机处理器,使用补充信息识别所述扭曲的目标帧中的所述缺失元素;
利用所述一个或更多个物理计算机处理器,通过将所述扭曲的目标帧应用于已训练的内插模型,合成来自所述扭曲的目标帧的所述缺失元素,所述已训练的内插模型已经使用内插训练数据被训练,其中所述内插训练数据包括(i)用户定义的值和(ii)多组帧,并且其中给定的一组帧包括先前训练帧、目标训练帧和后续训练帧;以及
利用所述一个或更多个物理计算机处理器生成合成目标帧;
其中所述补充信息包括所述目标帧、所述扭曲的目标帧中给定对象的给定的估计光流的幅度和深度图中的一个或更多个。
7.根据权利要求6所述的系统,其中,识别所述缺失元素包括:
基于所述给定对象的所述给定的估计光流的所述幅度,当所述幅度达到阈值时,利用所述一个或更多个物理计算机处理器识别所述给定对象作为前景对象;以及
使用所述多个帧之间的所述前景对象的位移,利用所述一个或更多个物理计算机处理器识别所述扭曲的目标帧的背景中的所述缺失元素。
8.根据权利要求6所述的系统,其中,识别所述缺失元素包括:
基于所述多个帧之间的另一个对象的深度变化,使用所述给定的估计光流,利用所述一个或更多个物理计算机处理器识别所述缺失元素;
利用所述一个或更多个物理计算机处理器生成应用于所述缺失元素的元素;以及
利用所述一个或更多个物理计算机处理器生成所述合成目标帧。
9.根据权利要求6所述的系统,其中,所述已训练的内插模型包括卷积神经网络。
10.根据权利要求6所述的系统,其中,所述一个或更多个物理计算机处理器由机器可读指令进一步配置为:
利用所述一个或更多个物理计算机处理器,编码所述合成目标帧以生成编码的合成目标帧;以及
利用所述一个或更多个物理计算机处理器,基于所述编码的合成目标帧,编码辅助信息,其中所述辅助信息包括所述估计的光流和掩码中的一个或更多个。
11.根据权利要求6所述的系统,其中,所述关键帧包括先前帧和后续帧中的一个或更多个。
12.根据权利要求11所述的系统,其中,生成所述估计的光流包括利用所述一个或更多个物理计算机处理器,使用所述先前帧和所述目标帧。
13.一种非暂时性计算机可读介质,具有存储在其上的可执行指令,当所述可执行指令由一个或更多个物理计算机处理器执行时,使得所述一个或更多个物理计算机处理器执行根据权利要求1-5中任一个所述的计算机实施的方法。
CN201910735508.9A 2018-08-10 2019-08-09 基于机器学习的视频压缩 Active CN110830802B (zh)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US201862717470P 2018-08-10 2018-08-10
US62/717,470 2018-08-10
US16/261,441 2019-01-29
US16/261,441 US20200053388A1 (en) 2018-08-10 2019-01-29 Machine learning based video compression

Publications (2)

Publication Number Publication Date
CN110830802A CN110830802A (zh) 2020-02-21
CN110830802B true CN110830802B (zh) 2023-08-22

Family

ID=69406751

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910735508.9A Active CN110830802B (zh) 2018-08-10 2019-08-09 基于机器学习的视频压缩

Country Status (3)

Country Link
US (2) US20200053388A1 (zh)
EP (1) EP3703374A1 (zh)
CN (1) CN110830802B (zh)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10958869B1 (en) * 2019-11-14 2021-03-23 Huawei Technologies Co., Ltd. System, device and method for video frame interpolation using a structured neural network
CN111369585B (zh) * 2020-02-28 2023-09-29 上海顺久电子科技有限公司 一种图像处理方法及设备
CN114257818B (zh) * 2020-09-22 2024-09-24 阿里巴巴达摩院(杭州)科技有限公司 视频的编、解码方法、装置、设备和存储介质
CN112702607B (zh) * 2020-12-25 2022-11-22 深圳大学 一种基于光流决策的智能视频压缩方法及装置
CN112866697B (zh) * 2020-12-31 2022-04-05 杭州海康威视数字技术股份有限公司 视频图像编解码方法、装置、电子设备及存储介质
EP4262207A4 (en) 2021-02-22 2024-03-27 Samsung Electronics Co., Ltd. IMAGE ENCODING AND DECODING DEVICE USING AI AND IMAGE ENCODING AND DECODING METHOD USING SAID DEVICE
WO2022177382A1 (ko) * 2021-02-22 2022-08-25 삼성전자 주식회사 Ai를 이용하는 영상의 부호화 및 복호화 장치 및 이에 의한 영상의 부호화 및 복호화 방법
EP4250729A4 (en) * 2021-02-22 2024-05-01 Samsung Electronics Co., Ltd. AI-BASED IMAGE ENCODING AND DECODING APPARATUS AND RELATED METHOD
US12034916B2 (en) * 2021-06-03 2024-07-09 Lemon Inc. Neural network-based video compression with spatial-temporal adaptation
US12003885B2 (en) * 2021-06-14 2024-06-04 Microsoft Technology Licensing, Llc Video frame interpolation via feature pyramid flows
EP4201064A1 (en) * 2021-07-06 2023-06-28 Google LLC Video compression using optical flow
WO2023004727A1 (zh) * 2021-07-30 2023-02-02 华为技术有限公司 视频处理方法、视频处理装置及电子装置
CN114245141B (zh) * 2021-11-30 2022-07-15 慧之安信息技术股份有限公司 一种基于深度学习的视频码流压缩方法和装置
CN117152658B (zh) * 2023-05-10 2024-10-01 瀚博半导体(上海)有限公司 用于视频处理的方法、装置、系统、设备和介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107113432A (zh) * 2014-12-11 2017-08-29 英特尔公司 用于并行视频编码的码率控制
CN107392881A (zh) * 2017-07-28 2017-11-24 深圳市唯特视科技有限公司 一种基于混合成像系统进行光场视频捕捉的方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107113432A (zh) * 2014-12-11 2017-08-29 英特尔公司 用于并行视频编码的码率控制
CN107392881A (zh) * 2017-07-28 2017-11-24 深圳市唯特视科技有限公司 一种基于混合成像系统进行光场视频捕捉的方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
"Video Compression through Image Interpolation";Chao-Yuan Wu,ET AL;《ARXIV.ORG》;20180418;正文第1页第16行-第17页第20行 *

Also Published As

Publication number Publication date
EP3703374A1 (en) 2020-09-02
CN110830802A (zh) 2020-02-21
US20230077379A1 (en) 2023-03-16
US20200053388A1 (en) 2020-02-13

Similar Documents

Publication Publication Date Title
CN110830802B (zh) 基于机器学习的视频压缩
JP5521202B2 (ja) 多視点画像符号化方法、多視点画像復号方法、多視点画像符号化装置、多視点画像復号装置、多視点画像符号化プログラムおよび多視点画像復号プログラム
JP4414379B2 (ja) 映像符号化方法、映像復号方法、映像符号化プログラム、映像復号プログラム及びそれらのプログラムを記録したコンピュータ読み取り可能な記録媒体
JP2020010331A (ja) 画質を向上させる方法
TWI834087B (zh) 用於從位元流重建圖像及用於將圖像編碼到位元流中的方法及裝置、電腦程式產品
CN106576170B (zh) 用于视频编码的自适应搜索窗口定位的方法和系统
KR20220162786A (ko) 비디오 코딩에서 심층 신경 네트워크 기반 인터프레임 예측을 위한 방법 및 장치
CN117441333A (zh) 用于输入图像数据处理神经网络的辅助信息的可配置位置
EP2355515A2 (en) Scalable video coding
US9237350B2 (en) Image processing system with random access capable integral image compression and method of operation thereof
KR20220097251A (ko) 예측을 이용하는 머신 비전 데이터 코딩 장치 및 방법
JP5706291B2 (ja) 映像符号化方法,映像復号方法,映像符号化装置,映像復号装置およびそれらのプログラム
US20230308621A1 (en) Multiview multiscale methods and apparatus for view synthesis
JP3708532B2 (ja) ステレオ動画像符号化方法および装置と、ステレオ動画像符号化処理用プログラムおよびそのプログラムの記録媒体
CN117321989A (zh) 基于神经网络的图像处理中的辅助信息的独立定位
KR20230072491A (ko) 신경망을 사용하여 픽처를 인코딩 또는 디코딩하는 방법 및 장치
WO2024193709A1 (en) Method, apparatus, and medium for visual data processing
CN114781601B (zh) 图像超分辨率方法及装置
US11546614B1 (en) Encoder and decoder for encoding and decoding images
KR101126294B1 (ko) 다시점 영상의 부호화 장치 및 방법
WO2024193710A1 (en) Method, apparatus, and medium for visual data processing
WO2024193708A1 (en) Method, apparatus, and medium for visual data processing
US20230050102A1 (en) Triangulation-Based Adaptive Subsampling of Dense Motion Vector Fields
Wen et al. SAW: Semantic-Aware WebRTC Transmission Using Diffusion-Based Scalable Video Coding
CN118803217A (zh) 图像数据处理方法、装置、设备、存储介质及程序产品

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40020880

Country of ref document: HK

GR01 Patent grant
GR01 Patent grant