CN107040783A - 视频编码系统的非拼接图片的视频编码、解码方法及装置 - Google Patents

视频编码系统的非拼接图片的视频编码、解码方法及装置 Download PDF

Info

Publication number
CN107040783A
CN107040783A CN201610937491.1A CN201610937491A CN107040783A CN 107040783 A CN107040783 A CN 107040783A CN 201610937491 A CN201610937491 A CN 201610937491A CN 107040783 A CN107040783 A CN 107040783A
Authority
CN
China
Prior art keywords
block
correction data
video
coding
current block
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN201610937491.1A
Other languages
English (en)
Inventor
张翠姗
黄昱豪
张智凯
刘子明
朱启诚
杨凯闵
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
MediaTek Inc
Original Assignee
MediaTek Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by MediaTek Inc filed Critical MediaTek Inc
Publication of CN107040783A publication Critical patent/CN107040783A/zh
Withdrawn legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/186Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being a colour or a chrominance component
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
    • H04N19/51Motion estimation or motion compensation
    • H04N19/56Motion estimation with initialisation of the vector search, e.g. estimating a good candidate to initiate a search
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/157Assigned coding mode, i.e. the coding mode being predefined or preselected to be further used for selection of another element or parameter
    • H04N19/159Prediction type, e.g. intra-frame, inter-frame or bidirectional frame prediction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/176Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a block, e.g. a macroblock
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/85Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using pre-processing or post-processing specially adapted for video compression

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Studio Devices (AREA)

Abstract

本发明提供一种视频编码系统的非拼接图片的视频编码、解码方法以及相关装置。编码方法中,每个非拼接的图片包含由全景视频俘获装置的两个相机俘获的至少两个图像,以及其中有两个相邻相机俘获的两个相邻图像包含至少一个重叠图像区域,方法包含接收包含当前非拼接的图片中的当前块的全景视频来源数据;接收来自全景视频来源数据与全景视频俘获装置关联的校正数据,其中校正数据包含照相机参数、特征检测结果或两者;以及当校正数据存在,通过利用编码方法的至少一个操作的校正数据应用编码方法到当前块。通过以上方案,可以实现360度视频的更好压缩。

Description

视频编码系统的非拼接图片的视频编码、解码方法及装置
【技术领域】
本发明涉及视频编码。特别地,本发明涉及一种视频编码系统的非拼接图片的视频编码、解码方法以及相关装置。
【背景技术】
360度视频,也称为拟真视频,是一种新兴技术,其可提供“身临其境”的感觉。拟真的感觉通过用覆盖全景视野(panoramic view)的环绕式场景(特别是360度视场)围绕用户来实现。“身临其境”可以进一步由立体照相机渲染来改进。因此,全景视频广泛用于虚拟现实(VR)应用。
拟真视频涉及使用多个相机俘获场景以覆盖全景视野,例如360度视场。拟真照相机通常使用一组相机,用于俘获360度视场。此组相机可包含最少一个照相机。然而,典型地两个或者更多相机用于拟真照相机。所有视频必须同时地获取且场景的单独的碎片(也称为单独的视角)被记录。此外,此组相机通常用于水平地俘获视图,而相机的其它布置也是可能的。
此组相机需要被校正以避免可能的不对准。校正是校正透镜失真以及描述世界坐标和照相机坐标之间的转换的方法。校正方法是必要的以允许视频的正确拼接(stitching)。每个视频记录需要被拼接以便创建一个360度视频。图片的拼接在本领域经由混合或接缝方法已经被很好地研究。
图1图示来自对应于给定时间的全景视频的图像的示例。全景视频使用四个相机俘获,其中每个照相机的主轴从相邻照相机的主轴转动90°。此组四个非拼接的图像110包含来自四个相机的四个图像(112、114、116和118)。每个照相机覆盖非常宽的视场(即,使用宽角度透镜)以便来自相邻相机的图片具有实质重叠的区域。对应于给定实例的全景视频的此组图片然后被拼接以形成预拼接的图片120。预拼接的图片120是拼接的图片,其在进入视频压缩系统前被拼接用于后续压缩。
对于全景视频,特别地,360度视频,多个视频可以使用多个相机俘获。大量带宽或存储器需要用于数据以渲染完全虚拟现实环境。随着不断增加的视频分辨率,要求的带宽或存储变得巨大。因此,期望开发有效的视频压缩技术用于360度视频。
【发明内容】
有鉴于此,本发明提供一种视频编码系统的非拼接图片的视频编码、解码方法以及相关装置。
本发明提供一种一种视频编码系统的非拼接图片的视频编码方法,其特征在于,每个非拼接的图片包含由全景视频俘获装置的两个相机俘获的至少两个图像,以及其中有两个相邻相机俘获的两个相邻图像包含至少一个重叠图像区域,方法包含接收包含当前非拼接的图片中的当前块的全景视频来源数据;接收来自全景视频来源数据与全景视频俘获装置关联的校正数据,其中校正数据包含照相机参数、特征检测结果或两者;以及当校正数据存在,通过利用编码处理的至少一个操作的校正数据应用编码处理到当前块。
本发明还提供一种视频编码系统的非拼接图片的视频编码装置,其特征在于,每个非拼接的图片包含由全景视频俘获装置的两个相机俘获的至少两个图像,以及其中有两个相邻相机俘获的两个相邻图像包含至少一个重叠图像区域,装置包含一个或多个电子电路或处理器用于接收包含当前非拼接的图片中的当前块的全景视频来源数据;接收来自全景视频来源数据与全景视频俘获装置关联的校正数据,其中校正数据包含照相机参数、特征检测结果或两者;以及当校正数据存在,通过利用编码处理的至少一个操作的校正数据应用所述编码处理到当前块。
本发明还提供一种视频编码系统的非拼接图片的视频解码方法,其特征在于,每个非拼接的图片包含由全景视频俘获装置的两个相机俘获的至少两个图像,以及其中有两个相邻相机俘获的两个相邻图像包含至少一个重叠图像区域,方法包含为当前非拼接的图片的当前块接收包含编码的当前块的压缩的数据;解析来自压缩的数据的校正数据,其中校正数据与全景视频俘获装置关联,以及校正数据包含照相机参数、特征检测结果或两者;以及当校正数据存在时,利用解码处理的至少一个操作的校正数据应用解码处理到当前块。
本发明还提供一种视频编码系统的非拼接图片的视频解码装置,其特征在于,每个非拼接的图片包含由全景视频俘获装置的两个相机俘获的至少两个图像,以及其中有两个相邻相机俘获的两个相邻图像包含至少一个重叠图像区域,装置包含一个或多个电子电路或处理器用于为当前非拼接的图片的当前块接收包含编码的当前块的压缩的数据;解析来自压缩的数据的校正数据,其中校正数据与全景视频俘获装置关联,以及校正数据包含照相机参数、特征检测结果或两者;以及当校正数据存在时,利用解码处理的至少一个操作的校正数据应用所述解码处理到当前块。
通过以上方案,可以实现360度视频的更好压缩。
【附图说明】
图1图示来自全景视频的非拼接的图片的示例,其中每个非拼接的图片包含由全景视频俘获装置的四个不同的相机俘获的四个图像。
图2图示由具有360度视场的全景照相机俘获的非拼接的图像中的冗余的示例。
图3A图示根据现有的高级视频编码标准,例如高效率视频编码(HEVC)的示范性视频编码器,其利用自适应帧间预测和帧内预测。
图3B图示根据现有的高级视频编码标准,例如高效率视频编码(HEVC)的示范性视频解码器,其利用自适应帧间预测和帧内预测。
图4A图示并入本发明实施例的视频编码器的示范性框图,其中重映射帧内块复制(RIBC)模式是独立于IBC模式的模式。
图4B图示并入本发明的实施例的另一视频编码器的示范性框图,其中使用联合的重映射IBC模式和IBC模式。
图5A图示冗余块向量(BV)的示例,其中实际BV可以通过减去冗余BV来编码。
图5B图示根据本发明的实施例重映射块向量的示例。
图6图示重映射IBC(RIBC)编码方法用于图4A中的编码器的示范性流程图,其使用单独的RIBC模式和IBC模式。
图7图示重映射IBC(RIBC)解码方法用于对应于图4A中编码器的解码器的示范性流程图,其使用单独的RIBC模式和IBC模式。
图8图示重映射IBC(RIBC)编码方法用于图4B中编码器的示范性流程图,其使用联合的RIBC和IBC模式。
图9图示重映射IBC(RIBC)解码方法用于对应于图4B中的编码器的解码器的示范性流程图,其使用联合的RIBC和IBC模式。
图10A图示现有的IBC的示例,其中搜索范围可以等于图片宽度。
图10B图示根据本发明实施例的重映射IBC的示例,其中搜索范围使用校正数据减少。
图11图示由全景视频俘获装置中两个不同相机俘获的两个图像之间的颜色/亮度差异的示例。
图12A图示并入本发明实施例的视频编码器的示范性框图,其中重映射IBC模式是独立于IBC模式的单独的模式,且RIBC方法还包含颜色缩放方法。
图12B图示并入本发明的实施例的另一视频编码器的示范性框图,其中使用联合的重映射IBC模式和IBC模式,且RIBC方法还包含颜色缩放方法。
图13图示来自具有重叠的视场的两个相邻相机的非拼接的图片的压缩的颜色缩放的示例。
图14图示重映射IBC(RIBC)编码方法用于图12A中的编码器的示范性流程图,其使用单独的RIBC模式和IBC模式,且RIBC方法还包含颜色缩放方法。
图15图示重映射IBC(RIBC)解码方法用于对应图12A中的编码器得解码器的示范性流程图,其使用单独的RIBC模式和IBC模式,且RIBC方法还包含颜色缩放方法。
图16图示重映射IBC(RIBC)编码方法用于图12B中的编码器的示范性流程图,其使用联合的RIBC和IBC模式,且RIBC方法还包含颜色缩放方法。
图17图示重映射IBC(RIBC)解码方法用于对应于图12B中的编码器的解码器的示范性流程图,其使用联合的RIBC和IBC模式,且RIBC方法还包含颜色缩放方法。
图18图示由具有不同的视角的两个不同相机俘获的两个图像之间的失真的示例。
图19图示根据本发明的实施例的基于投影预测方法的示例。
图20A图示根据本发明的实施例的包含基于投影的帧间预测的视频编码器的示范性框图,其中使用单独的基于投影的帧间预测模式和现有的帧间预测模式。
图20B图示根据本发明的实施例的包含基于投影的帧间预测的视频编码器的示范性框图,其中使用联合的基于投影的和现有的帧间预测模式。
图21图示基于投影的帧间预测方法用于图20A中的编码器的示范性流程图,其使用单独的基于投影的帧间预测模式和现有的帧间预测模式。
图22图示基于投影的帧间预测方法用于对应于图20A中的编码器的解码器的示范性流程图,其使用单独的基于投影的帧间预测模式和现有的帧间预测模式。
图23图示图20B中的编码器的示范性流程图,其使用联合的基于投影的和现有的帧间预测模式。
图24图示基于投影的帧间预测方法用于对应于图20B中的编码器的解码器的示范性流程图,其使用联合的基于投影的和现有的帧间预测模式。
图25A图示基于圆柱投影的360度图片的示例。
图25B图示基于立方体投影的360度图片的示例。
图26图示球面视频预处理流的示例。
图27图示根据本发明的一个实施例的360度视频的基于云处理的示例。
图28图示360度视频的帧的示例。
图29图示360度视频传送系统的示例。
图30图示根据本发明实施例的详细的全景后处理单元的示例,其中全景后处理包含拼接、混合以及方位方法。
图31图示混合方法的效果的示例。
图32图示在所希望的方位生成全景显示的方位方法的示例。
图33图示根据本发明的实施例的使用视频编码器中重映射IBC模式的非拼接的图片的视频编码的示范性流程图。
图34图示根据本发明的实施例的使用视频解码器中的重映射IBC模式的非拼接图片的视频解码的示范性流程图。
图35图示根据本发明的实施例的使用视频编码器中的基于投影的帧间预测模式的非拼接图片的视频编码的示范性流程图。
图36图示根据本发明的实施例的使用视频解码器中的基于投影的帧间预测模式的非拼接图片的视频编码的示范性流程图。
【具体实施方式】
以下描述包含实施本发明的最佳模式。此描述是为了说明本发明的一般原理,且不应该看作限制。本发明的范围最好由参考所附的权利要求确定。
如上所述,360度视频通常使用与单独视角关联的多个相机俘获。每个视频记录需要被拼接以便创建360度视频。拼接处理更是一种密集计算。因此,拼接处理通常以非实时方式执行,其中每个视频需要被发送或储存用于以后的拼接处理。备选地,拼接处理可以在高性能装置而不是在俘获360度视频的本地装置上执行。例如,拼接任务由云服务器或其它装置执行用于由移动全景俘获装置(例如,拟真照相机)俘获的视频。取决于用于俘获360度全景视频的相机的数目,被发送或储存的视频的数目可能很大且视频将要求非常高的带宽或非常大的存储空间。在拼接以前使用多个相机俘获的每个视频在本公开称为非拼接的视频。
用于全景视频的多个相机通常被安排为两个相邻相机具有重叠的视场。对于重叠的视场中的对象可出现在关联的视频中。因此,对应全景视频中存在某些程度的冗余且这样的冗余在本公开被称为帧间透镜冗余。图2图示由具有360度视场的全景照相机俘获的非拼接图像中的冗余的示例。全景照相机具有四个相机。对应于重叠区域的图片区域由虚线框指示(211-218)。图片区域212和213对应于一个重叠区域。图片区域214和215对应于另一重叠区域。图片区域216和217对应于又一重叠区域。图片区域218和211对应于又一重叠区域。本发明揭示方法以探索帧间透镜冗余以便改进全景视频的编码效率。
图3A图示根据现存的高级视频编码标准例如高效率视频编码(HEVC)的示范性视频编码器,其利用自适应帧间预测320和帧内预测。帧间预测320支持现有的帧间预测模式322,其利用运动估计(motion estimation,ME)和运动补偿(motion compensation,MC)以基于以前重建的图片或多个图片生成当前帧310的时间预测。以前重建的图片,也称为参考图片,储存于帧缓冲器380。帧内块复制(Intra Block Copy,IBC)324是新的帧间预测工具可用于HEVC扩展,其中IBC 324以如现有帧间预测的类似方式操作。然而,对于IBC模式,参考图片是当前图片。块向量(BV)而不是运动向量(MV),用于在当前图片的重建的区域中定位参考块。开关SW 345用于在帧间预测320和帧内预测330之间选择。选择的预测是使用加法器340从当前帧的对应信号减去以生成预测残值。预测残值是使用后接熵编码360的转换和量化(Trans./Quan.)350处理以生成视频比特流。因为重建的图片也在编码器侧要求以形成参考图片。因此,逆量化和逆转换(Inv.Trans./Inv.Quan.)352也用于生成重建的预测残值。重建的残值然后和由开关SW 345选择的预测相加以形成与当前帧关联的重建的视频数据。环内滤波370,例如,解块滤波器和样本自适应偏置(SAO)通常用于在重建的视频储存到帧缓冲器380之前减少由于压缩的编码伪迹。在全景视频的现有视频编码器中,每个视频不参考由其他相机俘获的其他视频而单独地被压缩。图3B所示的视频解码器,对应于图3A中的编码器,可以类似于由编码器使用的重建环形成。然而,熵解码器361将被需要替代熵编码器。此外,仅仅运动补偿323和IBC重建325被需要用于帧间预测321,因为运动向量和块向量可以从视频比特流派生。
本发明揭示编码和解码方法,其利用包含照相机参数、特征检测结果或两者的校正数据。根据本发明,校正数据由用于编码方法或解码方法的至少一个操作使用。在下文中,各种示例说明校正数据怎样用于帮助改进压缩效率或加速关于非拼接的图片压缩的要求的操作。特别地,一个示例被显示校正数据怎样用于帧内块复制(IBC)模式以改进与IBC块向量(BV)搜索关联的处理速度。在另一示例中,校正数据用于改正由具有不同视角的相机俘获的图片之间的失真以改进压缩效率。尽管下文的示例图示用来说明校正数据怎样用于视频编码器和解码器以压缩非拼接的图片,这些特定示例不应构成本发明的限制。
对于全景视频,相同实例俘获的图片在重叠区域包含某些相同的对象,但是在不同的视角。开发用于HEVC屏幕内容编码(Screen Content Coding,SCC)扩展的帧内块复制(IBC)编码工具解决相同的图片的差别区域的冗余,特别地,对应于屏幕内容的图片。尽管全景图片中的冗余类似于相同图片的不同区域中的冗余,IBC编码工具对于全景图片效果不好,因为重叠区域中的对象由不同的相机从不同视角俘获。因此,本发明揭示一种新的技术,称为重映射帧内块复制(Remapping Intra Block Copy,RIBC),以解决来自全景视频的非拼接的图片中的冗余。
图4A图示包含于本发明实施例中的视频编码器的示范性框图,其中帧间预测410还包含重映射帧内块复制(RIBC)420。换句话说,附加的编码工具RIBC 420可用于实施例。在图4A中,RIBC模式独立于IBC模式。当使用帧间预测时,编码器基于ME/MC 322、IBC 324和RIBC 420在现有帧间预测中选择。
图4B图示包含于本发明的实施例的另一视频编码器的示范性框图,其中帧间预测430包含联合RIBC/IBC处理440。在此情况下,当使用帧间预测时,编码器基于ME/MC 322和联合RIBC/IBC440在现有帧间预测中选择。当选择联合RIBC/IBC440时,编码器还在RIBC和IBC模式之间决定。对应于图4A中的编码器的解码器类似于图3B中的解码器。然而,支持附加的RIBC重建模式。
当使用IBC时,两个相邻图片的中心的对应块可以根据照相机模型确定。因此,对应于两个中心的块向量的范围已知。因此,两个中心的BV看作冗余。图5A图示冗余BV的示例。从非拼接的图片的图像520中的参考块522指向图像510中的当前块512的实际BV530可以通过减去冗余BV540来编码。当使用RIBC时,校正数据可用于重映射BV并减少搜索范围。图5B图示根据本发明的实施例的重映射BV的示例。在上半部,虚线框550指示重建的区域用于编码当前块512。如果BV搜索仅仅在水平方向执行,最大搜索范围可以相当大以找到最佳块向量(BV)530。然而,如果使用BV重映射,匹配的BV的搜索可减小到区域560以微调BV搜索。在此情况下,最大搜索范围可以显著减少。BV 565可以从搜索区域560的左上角到最佳匹配块的左上角测量。然而,其它坐标系统也可使用。
重映射帧内块复制(RIBC)方法利用校正数据,校正数据在照相机校正阶段生成。校正数据包含照相机参数、特征检测结果或其它相关数据。照相机参数包含本征参数、外来参数、照相机位置、FOV(视场)或其任何组合。特征检测结果包含特征位置和匹配关系。外来参数描述照相机位置以及世界坐标和照相机坐标之间的转换。在此情况下,左、右照相机位置之间的关系可以通过外来参数确定。此外,显示于这两个图像平面上的某些对象的位置还可用校正方法确定。因此,这两个图像平面之间的匹配关系已知,且其可用于重映射搜索范围和BV。用于重映射搜索范围和BV的外来参数在本领域已知。关于校正数据派生和特征检测的技术在以下文献已知(例如Hartley et al.,Multiple View Geometry inComputer Vision.Cambridge University Press.2003,pp.153–158.ISBN 0-521-54051-8,Z.Zhang,“A flexible new technique for camera calibration”,IEEE Transactionson Pattern Analysis and Machine Intelligence,Vol.22,No.11,pages 1330–1334,2000and Sturm et al.,"On plane-based camera calibration:a general algorithm,singularities,applications'",In Proceedings of the IEEE Conference onComputer Vision and Pattern Recognition(CVPR),pages 432–437,Fort Collins,CO,USA,June 1999)。细节在此处不重复。
在视频编码领域,块向量(BV)可以使用BV预测子来预测地编码。因此,BV预测残值而不是BV自身被标示。由于即将被编码的BV与合适选择的BVP之间的相关,BV预测残值对于压缩更有效率。然而,对于映射的图片的编码,由于预拼接的图片的图像之间的不同视角,BVP的直接使用可能执行的不好。例如,图2中区域211和区域218对应于重叠区域。因此,如果区域211在区域218之前编码,来自区域211的块向量可用作区域218中对应块的BVP。然而,由于不同的视角,区域211中的块的BV可以显著不同于区域218中对应块的BV。为了使用区域211中块的BV作为区域218中对应块的BVP,BVP必须在其用作BV预测子前合适地映射。映射后,映射的BVP将改进BV预测效率。
图6图示编码器(例如,图4A中的一个)的RIBC处理的示范性流程图,其使用RIBC模式和IBC模式。当选择RIBC模式时,一组像素被处理如步骤610所示。此组像素可对应于块、编码单元(CU)、编码树单元(CTU)、切片或图片。即将被压缩的输入全景视频数据可以以某些格式储存,其可能不适合预期的压缩。因此,某些处理,例如,颜色转换或数据解包可能需要。方法还解析来源数据(步骤620)以确定校正数据是否存在(步骤630)。如果校正数据存在(即,“是”路径),则搜索范围重新定义(步骤640),匹配的块在修改的搜索范围内搜索(步骤650),且块向量(BV)或BV预测子(BVP)根据校正数据映射(步骤660)。
使用RIBC模式的解码器的RIBC处理的示范性流程图显示于图7。当选择RIBC模式时,一组编码的像素被处理如步骤710所示。步骤710的处理可对应于解析一组编码的像素或甚至为一组像素另外重建残值。校正数据从视频比特流解析,如步骤720所示。从视频比特流派生的BV/BVP然后根据校正数据重映射(步骤730)。然后使用映射的BV/BVP重建块(步骤740)。
图8图示类似于图6中的另一编码器的示范性流程图。因为使用联合RIBC/IBC,当校正数据不存在时编码器使用IBC模式。因此,编码器搜索对应于IBC的匹配的块,如步骤810所示。
图9图示类似于图7的另一解码器的示范性流程图。然而,当校正数据不存在时,编码器使用IBC模式以重建块。因此,在步骤630执行附加的测试以确定校正数据是否存在。如果校正数据存在(即,“是”路径),则执行RIBC重建(即,使用映射的BV/BVP IBC重建)。否则,(即,“否”路径)执行IBC重建(即,使用常规BV/BVP IBC重建)。
以上提及的重映射技术还可应用于时间方向(即,时间帧间预测)中的运动估计/补偿。例如,运动搜索范围可以重定义或MV/MVP可以使用照相机参数映射。
图10A图示现有IBC的示例,其中原始图片宽度假设为2048像素。由虚线区域550指示的当前块512的搜索范围是2048×512。在此示例中,匹配的块522由具有值等于(1800,0)的块向量(BV)定位。图10B图示根据本发明的实施例的RIBC的示例。重映射技术根据本发明在此示例中通过使用校正数据减少搜索范围至(200×200)。在此示例中,匹配的块522由具有重映射值等于(60,130)的块向量(BV)定位。如上所述,BV重定义为从搜索区域的左上角到最佳匹配的块的左上角测量的向量。
在全景照相机系统中,在用于系统的多个相机之间存在一些颜色和/或亮度变化。对于重叠区域,由两个相邻相机俘获的图像可具有图像特性。例如,相同的重叠区域的不同的图像可具有不同的亮度或颜色。此变化可由不同的照相机图像信号处理(Image SignalProcessing,ISP)设置或照相机位置导致。在此情况下,IBC或RIBC可导致较大残值,其将降低压缩效率。图11图示重叠区域中亮度和颜色差异的示例,其中圈1110和1120指示重叠区域中两个对应区域。如图11所示,圈1120中的图像内容比圈1110中的图像内容更亮。色调也显示一些差异。
为了减轻相机之间亮度和/或颜色的差异,本发明也包含颜色缩放处理。图12A图示根据本发明的实施例的包含RIBC和颜色缩放的视频编码器的示范性框图。图12A中的编码器类似于图4A中的编码器系统,除了帧间预测1210使用颜色缩放和RIBC1212。颜色缩放可以在YUV颜色空间执行(即,YUV缩放)。颜色缩放处理可以与RIBC联合执行,其中对应块被颜色缩放且然后被搜索用于匹配的块。亮度和色度值可以标准化(normalize)以生成更好的预测。亮度和色度组分的标准化因子可以被标示。备选地,亮度组分的标准化因子以及亮度/色度缩放率可以被标示。尽管颜色缩放结合于图12A中的示范性编码器,颜色缩放还可用于没有RIBC的编码器。图12B图示根据本发明的实施例的包含RIBC和颜色缩放的视频解码器的示范性框图。图12B中的编码器类似于图4B中的编码器系统,除了帧间预测1220使用具有颜色缩放的联合RIBC/IBC1222。再次,尽管颜色缩放与图12B中的示范性编码器联合RIBC/IBC结合,颜色缩放还可用于没有RIBC的编码器。
图13图示来自具有重叠视场的两个相邻相机的非拼接的图片的压缩的颜色缩放的示例。在图13中,当前图像1310中当前块1312和图像1320中的块1322是重叠区域中两个对应块。两个对应区域1322和1312可以基于校正数据确定。颜色缩放可以应用于块1322以生成颜色缩放的块1330。颜色缩放的块1330然后用作目标块1312的预测子。基于RIBC的搜索方法可以应用以确定最佳匹配的块。在此情况下,块1330看作当前块1312的候选预测子且最佳预测子被选择作为目标块1312的预测子。简单起见,在不用重映射方法的情况下,IBC搜索方法还可用于确定最佳匹配的块,其可用于较小块大小。
根据式子(1),颜色缩放可以应用于一组视频数据,
I’=a×I+b, (1)
其中I是原始像素强度,I’是缩放的强度以及a和b是缩放参数、比例因子或缩放系数。式子(1)代表具有乘法因子(即,a)和偏置值(即,b)的线性模型。文献中有各种方法来派生缩放参数a和b。例如,缩放参数a和b可以使用例如最小二乘估计的技术从两个对应区域的像素数据派生。
图14图示包含单独IBC和RIBC模式的编码器的示范性流程图,RIBC模式还包含如图12A所示的颜色缩放。流程图基本与图6的相同,除了步骤650由步骤1410替代。在步骤1410中,像素值使用Y/UV缩放来缩放,以及RIBC搜索在缩放的搜索区域上执行以找到最佳匹配。在图14中,颜色缩放方法仅仅应用于RIBC路径。然而,在另一实施例中,颜色缩放处理也应用于IBC路径(即,来自步骤630的“否”路径)。
使用具有颜色缩放的RIBC模式的解码器的示范性流程图显示于图15。流程图基本与图7的相同,除了步骤740由步骤1510替代。在步骤1510中,预测子的像素值使用Y/UV缩放来缩放,且缩放的预测子用于重建块。
图16图示包含具有用于图12B中编码器的颜色缩放的联合RIBC/IBC模式的编码器的示范性流程图。流程图基本与图8相同,除了步骤650由步骤1410替代。在步骤1410中,像素值使用Y/UV缩放来缩放,且RIBC搜索在缩放的搜索区域上执行以找到最佳匹配。在此示例中,颜色缩放仅仅应用于RIBC处理。然而,颜色缩放方法还可应用于IBC处理。
图17图示包含具有用于图12B中编码器的颜色缩放的联合RIBC/IBC模式的解码器的示范性流程图。流程图基本与图9相同,除了RIBC(即,“是”路径)的步骤740由步骤1510替代。在步骤1510中,预测子的像素值使用Y/UV缩放来缩放,且缩放的预测子用于重建块。对于IBC解码处理,相同的重建方法(即,步骤740)如前所述被使用。然而,颜色缩放处理还可应用于IBC处理。
在图13示出的示例中,如果块1322的组分Y、U和V的平均值分别是180、30和50,且块1312的组分Y、U和V的平均值分别是50、30和50,派生的参数(a,b)对于Y、U和V组分分别对应于(0.25、5)、(1、0)以及(1、0)。换句话说,Y/UV缩放执行如下:
Y’=Y×0.25+5,
U’=U×1+0,
V’=V×1+0,
其中Y’、U’和V’分别是缩放的Y、U和V组分。
对于全景应用,通常使用宽视场(FOV)或鱼眼透镜。在这些情形中,内容可能显著地失真,其将降低时间帧间预测和IBC预测的预测效率。例如,在图18中,由两个虚线椭圆1810和1820指示的区域表示包含人物对象和结构的两个对应区域。然而,人物对象和结构相对于彼此失真。如果直接使用对应区域执行预测,则预测将导致大量的预测残值。为了克服失真问题,本发明也揭示基于投影的预测技术。
图19图示基于投影预测技术的概念。图像1910的右部和图像1920的左部对应于重叠区域。由于由宽FOV或鱼眼透镜导致的失真,图像1910中的特征1912可与图像1920中的对应特征1922看起来不同。根据基于投影的预测技术,两个对应块1914和1924分别在图像1910和1920中被识别。块1924使用照相机参数投影到投影的块1930,以及投影的块1930用于预测目标块1914。
图20A图示根据本发明的实施例的包含基于投影预测的视频编码器的示范性框图。图20A中的编码器系统类似于图4A中的系统,除了图4A中的帧间预测410由基于投影预测2010和常规帧间预测2020替代。开关SW 2030在三个模式中选择(即,两个帧间模式和一个帧内模式)。
图20B图示根据本发明的实施例的包含基于投影预测的另一视频编码器的示范性框图。图20B中的系统类似于图20A中的系统。然而,两个帧间模式(2010和2020)结合为联合的基于投影帧间预测和正常帧间预测2040。开关SW 2050在此联合帧间模式2040和帧内模式330之间进行选择。
基于投影的预测可用于空间域和时域。对于空间域,转化矩阵用于表示具有重叠的FOV的两个相机之间的位置关系。对于时域,转化矩阵用于表示全局运动(3D)。转化矩阵可以从校正数据或匹配结果获得,其中校正数据涉及本征和外来参数。转化矩阵计算在本领域中已知且细节在本文不重复。对于3D运动模型,运动可对应于滚动、投掷和摇摆。对于每个运动模型,对应转化矩阵可以被计算。转化矩阵可以在编码前或在编码阶段生成。匹配结果涉及特征检测或块匹配结果。通常,特征/块匹配派生在编码器侧执行。
图21图示图20A中的编码器的示范性流程图和对应于选择基于投影预测的情形的流程图。流程图类似于图6中步骤610至630。然而,当校正数据存在(即,来自步骤630的“是”路径),执行步骤2110和2120。在步骤2110中,使用校正数据将预测子候选投影到当前块的位置。最佳预测子在投影的预测子候选中找到,如步骤2120所示。
图22图示对应于图20A中的编码器的解码器的示范性流程图,且流程图对应于当选择基于投影的预测的情形。流程图类似于图7中步骤710和720。然而,在解析校正数据后,执行步骤2210。在步骤2210,投影预测子到当前块的位置。
图23图示图20B中编码器的示范性流程图,其中使用联合的基于投影的帧间预测和正常帧间预测模式。流程图类似于图8中的步骤610至630。然而,当校正数据存在时(即,来自步骤630的“是”路径),执行步骤2110和2120。当校正数据不存在时(即,来自步骤630的“否”路径),执行步骤2310。在步骤2310中,执行正常帧间预测。
图24图示对应于图20B中的编码器的解码器的示范性流程图。流程图类似于图9且包含步骤710、720、630和740。然而,如果校正数据存在(即,来自步骤630的“是”路径),执行步骤2210。
本发明也解决各种与360度视频关联的问题,例如视频格式、传送和表示。如上所述,360度视频可以用同时记录场景的360度FOV的球面照相机系统创建。360度视频的图像类型包含圆柱和立方体投影。圆柱投影是投影的类型,用于将球面的表面的部分映射到平面图像。根据圆柱投影,水平坐标是简单的经线,且垂直坐标是简单的纬线。没有转换或缩放应用于圆柱投影。图25A图示基于圆柱投影的360度图片的示例。另一方面,立方体投影是投影类型,用于将球面的表面映射到立方体的六面。图像类似立方体的面来安置。图25B图示基于立方体投影的360度图片的示例。为了合适地使用360度视频,其要求包含与360度视频关联的360度视频元数据。如今,一些社交网站,可用360度视频元数据区分上载的360度视频并支持圆柱投影浏览。
360度视频元数据典型地包含信息,例如,投影类型、拼接软件、俘获软件、姿势度、视野度、来源照片计数、裁剪宽度、裁剪高度、全宽度、全高度等。有两个类型的360度视频元数据需要表示球面视频的各种特性:全局和本地元数据。全局元数据通常以XML(可扩展标记语言)格式储存。这些是包含严格的每帧元数据和任意的本地元数据(例如,某些间隔采用的信息)的两个类型的本地元数据。
由于处理的复杂性以及待处理数据的数量,360度视频的处理总是非常耗时。因此,本发明的实施例以原始图像类型储存360度视频。因此,在视频记录前不进行图像信号处理,帧率可以显著增加。
为了具有更好的360度视频体验,视频分辨率已经持续地被挑战以争取更高,且图像处理持续地进化以获得更多视频保真度。处理流包含拼接、混合以及转动。一般用户难以处理那些任务。根据本发明的另一实施例,照相机和ISP参数与360度视频比特流一起储存。基于储存的参数,允许第三方离线处理图像以获得最佳质量视频。
图26图示球面视频预处理流的示例。原始图像使用拼接处理2610拼接。混合处理2620然后应用于拼接的图像。根据所希望的方位,混合的图片使用方位处理2630生成。因为360度视频的图像处理算法离线执行,不需要昂贵的且强大的硬件用于原始图像俘获装置,以实时记录和拼接视频。俘获的视频可以被上载到指定网站用于基于云的处理。处理的360度视频可以位于最终用户装置(例如,计算机、平板电脑和智能电话)。根据网络带宽,云环境可为视频提供不同的质量。
根据本发明,场景的360度视频使用360度视频俘获装置记录。360度视频以原始图像储存。而且,360度视频比特流包含照相机参数和图像信号处理(ISP)的参数。照相机和ISP参数可以储存于文件元数据或360度视频比特流的任何位置。图27图示根据本发明的一个实施例的360度视频的基于云处理的示例,其中由360度视频俘获照相机2710俘获的视频数据上载到云2720。云环境具有更多计算资源且可根据网络带宽为处理的视频提供不同的质量,取决于端接收装置(例如,移动电话2732、平板电脑2734和计算机2736)可用的网络带宽和具体特性(例如,显示分辨率)。
对于360度视频,视频中的每个帧包含由配置为覆盖360度视场(FOV)的多个相机俘获的多个图像。360度视频来源比特流包含一系列帧和照相机参数,例如,与相机相关的本征校正参数、外来校正参数、曝光值(EV)、视场(FOV)和方向。根据本发明的实施例,帧的序列以原始数据格式储存以便360度视频可以以高帧率被记录。方向可以表示为欧拉角度、极坐标或笛卡尔坐标系统。图28图示360度视频的帧的示例,其中2800帧包含四个图像2810、2820、2830和2840。
图29图示360度视频传送系统的示例。在传送侧,全景俘获子系统2910俘获360度视频序列。俘获的360度视频序列将经过以下处理:将来自不同相机的图像结合成帧的用于安排图像数据的处理2920、压缩图像数据的编码处理2930以及将压缩的图像数据打包为适合存储或传送的格式的视频文件打包处理2940。视频文件打包处理2940还可包含关于图像数据的其它信息。来自视频文件打包处理2940的360度视频文件可以通过有线媒体或无线信道发送。在此情况下,使用适合有线媒体或无线信道的信道编码和调制2950。备选地,360度视频文件还可储存于存储装置,例如,存储器卡2960。在接收侧,将执行逆动作。例如,信道解码和解调2955将用于从有线媒体或无线信道接收360度视频文件的数据。视频文件解打包处理2945将从文件提取压缩的图像数据和相关信息。解码处理2935用于解码压缩的图像数据,且解码的视频由图像重安排处理2925处理,其将重安排解码的图像。重安排的360度视频然后使用全景显示系统2915来显示。
全景显示系统2915包含全景后处理单元3010和全景显示子系统3020,如图30所示。全景后处理可包含拼接3012、混合3014以及方位方法3016。全景后处理还可包含白平衡以调整颜色。
关于图像拼接的技术已经在全景图像处理领域被很好地研究。然而,拼接技术仍然导致拼接的图像具有瑕疵或伪影,例如,可见的拼接线。因此,混合总是用于改进拼接的图片的视觉质量。根据本发明,360度视频元数据还可包含关于用户可选择的混合方法的信息,例如,GIST、金字塔以及混合。GIST拼接对应于GIST:梯度域图像拼接。所有这些混合方法在本领域已知,且细节在本公开不重复。360度视频元数据还可包含关于拼接位置的信息,其定义为由不同相机俘获的图像之间的拼接线。拼接位置的信息可以是坐标值或表示拼接线的曲线的多项式函数的式子系数。图31图示混合方法的效果的示例。图片3110表示混合前的拼接的图片以及拼接线3112是可见的。混合处理3120可以将与用户选择的混合方法和拼接位置关联的信息应用于图片3110。本发明的实施例在视频记录/传送侧包含所需要的混合信息。例如,每个帧的拼接位置以及混合方法可以提供到图29中的视频文件打包处理2940。在视频解码/接收侧,每个帧的拼接位置和混合方法可以使用图29中的视频文件解打包处理2945提取,以及每个帧的提取的拼接位置和混合方法提供到全景后处理3010中的混合处理3014。
根据本发明的另一实施例,360度视频元数据还可包含与俘获的帧关联的传感器值。传感器,例如,旋转传感器或G传感器,用于测量电话方向和/或方位。传感器值可以基于欧拉角度、极坐标或笛卡尔坐标系统。本发明的实施例包含在视频记录/传送侧的所需的位置/方位值。例如,位置/方位值可以提供至图29中的视频文件打包处理2940。在视频解码/接收侧,位置/方位值可以使用图29中的视频文件解打包处理2945提取,且提取的位置/方位值提供到全景后处理3010中的方位处理3016以生成具有所希望的方位的全景显示。生成具有所希望的方位的3D显示在本领域已知,且细节本公开不重复。图32图示在所希望的方位生成全景显示的方位方法的示例。图片3210对应于向下看在右边以及向上看在左边的拼接的图片。方位处理3220利用与360度视频数据关联的方位数据可定位全景显示到如图片3230所示的正确方位。
根据本发明的另一实施例,360度视频元数据可包含环境信息,例如每帧的亮度(Y)、色度(UV)、红色亮度、蓝色亮度、绿色亮度,或环境的颜色温度。环境信息来自RGB灯传感器。关于环境照明条件的信息对于调整俘获的图像有用,例如,白平衡或背景颜色调整,以校正任何可能的颜色瑕疵。当白平衡或背景颜色调整包含于全景后处理时,其可以在拼接/混合之前或之后执行。本发明的实施例包含关于视频记录/传送侧中的环境照明条件的信息。例如,位置/方位值可以提供到图29中的视频文件打包处理2940。在视频解码/接收侧,关于环境照明条件的信息可以使用图29中的视频文件解打包处理2945提取,且提取的关于环境照明条件的信息提供到全景后处理3010中的白平衡或背景颜色调整以生成具有所希望的方位的全景显示。
图33图示根据本发明的实施例的使用视频编码器中重映射IBC模式的非拼接的图片的视频编码的示范性流程图。在步骤3310中,编码器接收包含当前非拼接的图片中当前块的全景视频来源数据。在步骤3320中,编码器也从全景视频来源数据接收与全景视频俘获装置关联的校正数据。在步骤3330中,检测校正数据是否存在。如果校正数据存在(即,来自步骤3330的“是”路径),执行步骤3340至3380。否则(即,来自步骤3330的“否”路径),跳过步骤3340到3380。在步骤3340中,对应于当前非拼接的图片的以前编码的区域的第一搜索区域根据校正数据修改为第二搜索区域,且第二搜索区域小于第一搜索区域。在步骤3350,第二搜索区域中的候选块被搜索以为当前块选择最佳匹配的块。在步骤3360,根据校正数据将块向量(BV)重映射为映射的BV或将块向量预测子(BVP)重映射为映射的BVP,其中BV表示从当前块到最佳匹配的块的位移以及BVP表示当前BV的预测子。在步骤3370,当前块使用最佳匹配的块作为预测子编码为编码的当前块。在步骤3380,生成包含编码的当前块和当前块的映射的BV的压缩的数据。
图34图示根据本发明的实施例的使用视频解码器中的重映射IBC模式的非拼接图片的视频解码的示范性流程图。在步骤3410,解码器为当前非拼接的图片中的当前块接收包含编码的当前块的压缩的数据。在步骤3420中,解码器解析来自压缩的数据的校正数据,其中校正数据与全景视频俘获装置关联。在步骤3430中,检查校正数据是否存在。如果校正数据存在(即,来自步骤3430的“是”路径),则执行步骤3440到3470。否则(即,来自步骤3430的“否”路径),跳过步骤3440到3470。在步骤3440,当前块的映射的块向量(BV)或映射的块向量预测子(BVP)从压缩的数据派生,其中BVP表示当前BV的预测子。在步骤3450,映射的BV或映射的BVP根据校正数据重映射为BV或MVP。在步骤3460,当前非拼接的图片的以前解码的图片区域中的最佳匹配的块使用BV定位,其中BV表示从当前块到最佳匹配的块的位移。在步骤3470,使用最佳匹配的块作为预测子从编码的当前块重建当前块。
图35图示根据本发明的实施例的使用视频编码器中的基于投影的帧间预测模式的非拼接图片的视频编码的示范性流程图。在步骤3510中,编码器接收包含当前非拼接的图片中的当前块的全景视频来源数据。在步骤3520中,编码器也从全景视频来源数据接收与全景视频俘获装置关联的校正数据。在步骤3530中,检查校正数据是否存在。如果校正数据存在(即,来自步骤3530的“是”路径),执行步骤3540到3570。否则(即,来自步骤3530的“否”路径),跳过步骤3540到3570。在步骤3540中,搜索区域中的候选块根据投影模型使用校正数据投影为投影的候选块。在步骤3550,搜索区域中投影的候选块被搜索以为当前块选择最佳匹配的块。在步骤3560,使用最佳匹配的块作为预测子将当前块被编码为编码的当前块。在步骤3570,生成包含编码的当前块的压缩的数据。
图36图示根据本发明的实施例的使用视频解码器中的基于投影的帧间预测模式的非拼接图片的视频解码的示范性流程图。解码器为当前非拼接的图片中的当前块接收包含编码的当前块的压缩的数据,在步骤3610。解码器解析来自压缩的数据的校正数据,在步骤3620,其中校正数据与全景视频俘获装置关联。检查校正数据是否存在,在步骤3630。如果校正数据存在(即,来自步骤3630的“是”路径),执行步骤3640到3660。否则(即,来自步骤3630的“否”路径),跳过步骤3640到3660。在步骤3640,在搜索区域定位最佳匹配的块。最佳匹配的块可以基于与当前块关联的块向量来定位。如果使用重映射的IBC,映射的BV可用于定位最佳匹配的块。在步骤3650,使用校正数据将最佳匹配的块投影为投影的最佳匹配的块。在步骤3660,使用投影的最佳匹配的块作为预测子从编码的当前块重建当前块。
以上显示的流程图旨在说明使用包含备选转换的转换编码的图像/视频编码的示例。本领域的技术人员可以修改每个步骤、再安排步骤、拆分步骤或结合步骤以在不背离本发明的精神来实践本发明。
呈现以上描述以使本领域的普通技术人员按本文的特定应用和其要求所提供的来实践本发明。描述的实施例的各种修改对于本领域的技术人员而言是表观的,且本文定义的一般原理可以应用于其它实施例。因此,本发明不旨在限制为显示和描述的特定实施例,但需符合本文揭示的原理和新颖特征的最广范围。在以上详细描述中,说明各种具体细节以便提供本发明的全面理解。然而,本领域技术人员需理解本发明可以被实践。
本发明的实施例如上所述可以实施于各种硬件、软件代码或其组合。例如,本发明的实施例可以是集成到视频压缩芯片的电路或集成到视频压缩软件的程序代码以执行本文描述的方法。本发明的实施例还可以是在数字信号处理器(DSP)执行的程序代码以执行本文描述的方法。本发明还可涉及多个由计算机处理器、数字信号处理器、微处理器或现场可编程门阵列(FPGA)执行的功能。这些处理器可以配置为通过执行定义本发明实施的特定方法的机器可读软件代码或固件代码执行根据本发明的特定任务。软件代码或固件代码可以用不同的编程语言和不同的格式或样式来开发。软件代码还可为不同的目标平台编译。然而,用于编码以执行根据本发明的任务的软件代码的不同的编码格式、风格和语言以及其他装置将不背离本发明的精神和范围。
本发明可以在不背离其精神和实质特性的情况下以其他形式实施。描述的示例在各方面仅仅考虑为说明性的并非限制性的。本发明的范围因此由所附的权利要求而不是上文的描述指示。落入权利要求的等效的意义和范围的所有改变在其范围内。

Claims (27)

1.一种视频编码系统的非拼接图片的视频编码方法,其特征在于,每个非拼接的图片包含由全景视频俘获装置的两个相机俘获的至少两个图像,以及其中有两个相邻相机俘获的两个相邻图像包含至少一个重叠图像区域,所述方法包含:
接收包含当前非拼接的图片中的当前块的全景视频来源数据;
接收来自所述全景视频来源数据与所述全景视频俘获装置关联的校正数据,其中所述校正数据包含照相机参数、特征检测结果或两者;以及
当所述校正数据存在,通过利用编码处理的至少一个操作的所述校正数据应用所述编码方法到所述当前块。
2.如权利要求1所述的视频编码方法,其特征在于,所述编码方法包含使用重映射帧内块复制编码处理编码所述当前块,包含:
根据所述校正数据,将对应于所述当前非拼接图片的以前编码的区域的第一搜索区域修改为第二搜索区域,其中所述第二搜索区域小于所述第一搜索区域;
在所述第二搜索区域中搜索候选块以为所述当前块选择最佳匹配的块;
根据所述校正数据,将块向量映射为映射的块向量或将块向量预测子映射为映射的块向量预测子,其中所述块向量表示从所述当前块到所述最佳匹配的块的位移,以及所述块向量预测子表示当前块向量的预测子;
使用所述最佳匹配的块作为预测子将所述当前块编码为编码的当前块;以及
生成包含所述编码的当前块和所述当前块的所述映射的块向量的压缩的数据。
3.如权利要求2所述的视频编码方法,其特征在于,所述校正数据包含在照相机校正阶段生成的一个或多个照相机参数、一个或多个特征检测结果或两者,且其中所述一个或多个照相机参数选自包含主要点、照相机位置、视场、本征参数和外部参数的第一组,以及所述一个或多个特征检测结果选自包含特征位置和匹配关系的第二组。
4.如权利要求2所述的视频编码方法,其特征在于,所述校正数据从所述全景视频来源数据解析。
5.如权利要求2所述的视频编码方法,其特征在于,所述重映射帧内块复制编码处理还包含颜色缩放处理以处理候选块用于选择所述最佳匹配的块,且其中所述颜色缩放处理包含:
根据缩放公式将每个颜色组分的像素值缩放以生成缩放的像素值,其中所述缩放公式由一个或多个缩放参数说明。
6.如权利要求1所述的视频编码方法,其特征在于,所述编码处理包含:
接收包含所述当前非拼接的图片中的当前块的全景视频来源数据;
确定与所述全景视频俘获装置关联的校正数据;
当所述校正数据存在时,使用基于投影的帧间预测模式编码所述当前块,其中基于投影的帧间预测编码处理包含:
根据投影模型使用所述校正数据在搜索区域将候选块投影为投影的候选块;
在所述搜索区域搜索所述投影的候选块以为所述当前块选择最佳匹配的块;
使用所述最佳匹配的块为预测子将所述当前块编码为编码的当前块;以及
生成包含所述编码的当前块的压缩的数据。
7.如权利要求6所述的视频编码方法,其特征在于,所述校正数据包含在照相机校正阶段生成的一个或多个照相机参数、一个或多个特征检测结果或两者,且其中所述一个或多个照相机参数选自包含主要点、照相机位置、视场、本征参数和外部参数的第一组,以及所述一个或多个特征检测结果选自包含特征位置和匹配关系的第二组。
8.如权利要求6所述的视频编码方法,其特征在于,所述校正数据从所述全景视频来源数据解析。
9.如权利要求6所述的视频编码方法,其特征在于,所述搜索区域在所述当前非拼接的图片的以前编码的区域内。
10.如权利要求9所述的视频编码方法,其特征在于,在所述搜索区域中将所述候选块投影为投影的候选块应用转换矩阵到所述候选块,且其中所述转换矩阵表示所述全景视频俘获装置的两个相邻相机之间的位置关系。
11.如权利要求6所述的视频编码方法,其特征在于,所述搜索区域位于参考非拼接的图片内,所述参考非拼接的图片在所述当前非拼接的图片之前编码。
12.如权利要求11所述的视频编码方法,其特征在于,所述在所述搜索区域中将候选块投影为投影的候选块应用转换矩阵到所述候选块,且其中所述转换矩阵表示非拼接的图片的全局运动。
13.一种视频编码系统的非拼接图片的视频编码装置,其特征在于,每个非拼接的图片包含由全景视频俘获装置的两个相机俘获的至少两个图像,以及其中有两个相邻相机俘获的两个相邻图像包含至少一个重叠图像区域,所述装置包含一个或多个电子电路或处理器用于:
接收包含当前非拼接的图片中的当前块的全景视频来源数据;
接收来自所述全景视频来源数据与所述全景视频俘获装置关联的校正数据,其中所述校正数据包含照相机参数、特征检测结果或两者;以及
当所述校正数据存在,通过利用编码处理的至少一个操作的所述校正数据应用所述编码方法到所述当前块。
14.如权利要求13所述的视频编码装置,其特征在于,所述一个或多个电子电路或处理器还用于:
使用重映射帧内块复制编码处理编码所述当前块包含:
根据所述校正数据,将对应于所述当前非拼接图片的以前编码的区域的第一搜索区域修改为第二搜索区域,其中所述第二搜索区域小于所述第一搜索区域;
在所述第二搜索区域中搜索候选块以为所述当前块选择最佳匹配的块;
根据所述校正数据,将块向量映射为映射的块向量或将块向量预测子映射为映射的块向量预测子,其中所述块向量表示从所述当前块到所述最佳匹配的块的位移,以及所述块向量预测子表示当前块向量的预测子;
使用所最佳匹配的块作为预测子将所述当前块编码为编码的当前块;以及
生成包含所述编码的当前块和所述当前块的所述映射的块向量的压缩的数据。
15.如权利要求13所述的视频编码装置,其特征在于,所述一个或多个电子电路或处理器还用于:
使用基于投影的帧间预测模式编码所述当前块包含:
根据投影模型使用所述校正数据在搜索区域将候选块投影为投影的候选块;
在所述搜索区域搜索所述投影的候选块以为所述当前块选择最佳匹配的块;
使用所述最佳匹配的块为预测子将所述当前块编码为编码的当前块;以及
生成包含所述编码的当前块的压缩的数据。
16.一种视频编码系统的非拼接图片的视频解码方法,其特征在于,每个非拼接的图片包含由全景视频俘获装置的两个相机俘获的至少两个图像,以及其中有两个相邻相机俘获的两个相邻图像包含至少一个重叠图像区域,所述方法包含:
为当前非拼接的图片的当前块接收包含编码的当前块的压缩的数据;
解析来自所述压缩的数据的校正数据,其中所述校正数据与所述全景视频俘获装置关联,以及所述校正数据包含照相机参数、特征检测结果或两者;以及
当所述校正数据存在时,利用解码处理的至少一个操作的所述校正数据应用所述解码方法到所述当前块。
17.如权利要求16所述的视频解码方法,其特征在于,所述解码处理包含重映射帧内块复制解码处理包含:
从所述压缩的数据为所述当前块派生映射的块向量或映射的块向量预测子,其中所述块向量预测子表示当前块向量的预测子;
根据所述校正数据分别重映射所述映射的块向量为块向量或重映射所述映射的块向量预测子为块向量预测子;
使用所述块向量在所述当前非拼接的图片的以前解码的图片区域定位最佳匹配的块,其中所述块向量表示从所述当前块到所述最佳匹配的块的位移;以及
使用所述最佳匹配的块作为预测子从所述编码的当前块重建所述当前块。
18.如权利要求17所述的视频解码方法,其特征在于,所述校正数据包含在照相机校正阶段生成的一个或多个照相机参数、一个或多个特征检测结果或两者,且其中所述一个或多个照相机参数选自包含主要点、照相机位置、视场、本征参数和外部参数的第一组,以及所述一个或多个特征检测结果选自包含特征位置和匹配关系的第二组。
19.如权利要求17所述的视频解码方法,其特征在于,所述重映射帧内块复制解码处理还包含颜色缩放方法以处理所述最佳匹配的块,且其中所述颜色缩放方法包含:
根据缩放公式将每个颜色组分的像素值缩放以生成缩放的像素值,其中所述缩放公式由一个或多个缩放参数说明。
20.如权利要求16所述的视频解码方法,其特征在于,解码处理包含基于投影的帧间预测解码方法包含:
在搜索区域中定位最佳匹配的块;
使用所述校正数据将所述最佳匹配的块投影到投影的最佳匹配的块;以及
使用所述投影的最佳匹配的块作为预测子从所述编码的当前块重建所述当前块。
21.如权利要求20所述的视频解码方法,其特征在于,所述搜索区域在所述当前非拼接的图片的以前编码的区域内,以及块向量或块向量预测子用于定位所述最佳匹配的块。
22.如权利要求21所述的视频解码方法,其特征在于,使用转换矩阵将所述最佳匹配的块投影为投影的最佳匹配的块,所述转换矩阵表示所述全景视频俘获装置的两个相邻相机之间的位置关系。
23.如权利要求20所述的视频解码方法,其特征在于,所述搜索区域位于参考非拼接的图片内,所述参考非拼接的图片在所述当前非拼接的图片之前编码。
24.如权利要求23所述的视频解码方法,其特征在于,使用表示非拼接的图片的全局运动的转换矩阵将所述最佳匹配的块投影为投影的最佳匹配的块。
25.一种视频编码系统的非拼接图片的视频解码装置,其特征在于,每个非拼接的图片包含由全景视频俘获装置的两个相机俘获的至少两个图像,以及其中有两个相邻相机俘获的两个相邻图像包含至少一个重叠图像区域,所述装置包含一个或多个电子电路或处理器用于:
为当前非拼接的图片的当前块接收包含编码的当前块的压缩的数据;
解析来自所述压缩的数据的校正数据,其中所述校正数据与所述全景视频俘获装置关联,以及所述校正数据包含照相机参数、特征检测结果或两者;以及
当所述校正数据存在时,利用解码处理的至少一个操作的所述校正数据应用所述解码方法到所述当前块。
26.如权利要求25所述的视频解码装置,其特征在于,所述一个或多个电子电路或处理器还用于:
从所述压缩的数据为所述当前块派生映射的块向量或映射的块向量预测子,其中所述块向量预测子表示当前块向量的预测子;
根据所述校正数据分别重映射所述映射的块向量为块向量或重映射所述映射的块向量预测子为块向量预测子;
使用所述块向量在所述当前非拼接的图片的以前解码的图片区域定位最佳匹配的块,其中所述块向量表示从所述当前块到所述最佳匹配的块的位移;以及
使用所述最佳匹配的块作为预测子从所述编码的当前块重建所述当前块。
27.如权利要求25所述的视频解码装置,其特征在于,所述一个或多个电子电路或处理器还用于:
接收包含当前非拼接的图片中的当前块的压缩的数据;
解析来自所述压缩的数据的校正数据,其中所述校正数据与所述全景视频俘获装置关联;
当所述校正数据存在,使用基于投影的帧间预测模式解码所述,其中基于投影的帧间预测解码处理包含:
在搜索区域中定位最佳匹配的块;以及
使用所述校正数据将所述最佳匹配的块投影为投影的最佳匹配的块;以及
使用所述投影的最佳匹配的块作为预测子从所述编码的当前块重建所述当前块。
CN201610937491.1A 2015-10-22 2016-10-24 视频编码系统的非拼接图片的视频编码、解码方法及装置 Withdrawn CN107040783A (zh)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US201562244815P 2015-10-22 2015-10-22
US62/244,815 2015-10-22
US15/284,390 2016-10-03
US15/284,390 US20170118475A1 (en) 2015-10-22 2016-10-03 Method and Apparatus of Video Compression for Non-stitched Panoramic Contents

Publications (1)

Publication Number Publication Date
CN107040783A true CN107040783A (zh) 2017-08-11

Family

ID=58559414

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610937491.1A Withdrawn CN107040783A (zh) 2015-10-22 2016-10-24 视频编码系统的非拼接图片的视频编码、解码方法及装置

Country Status (2)

Country Link
US (1) US20170118475A1 (zh)
CN (1) CN107040783A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109963156A (zh) * 2017-12-14 2019-07-02 安讯士有限公司 使用编码器的高效混合
CN110944200A (zh) * 2019-12-10 2020-03-31 南京大学 一种评估沉浸式视频转码方案的方法
CN111095930A (zh) * 2017-09-18 2020-05-01 交互数字Vc控股公司 用于全向视频的编码的方法和设备
CN111567039A (zh) * 2018-02-27 2020-08-21 Lg电子株式会社 用于发送和接收包括相机镜头信息的360度视频的方法及其装置
CN111971954A (zh) * 2018-04-11 2020-11-20 Lg电子株式会社 使用与热点和roi相关的元数据发送360度视频的方法和装置
CN113228658A (zh) * 2018-12-14 2021-08-06 中兴通讯股份有限公司 沉浸式视频比特流处理
US20220156880A1 (en) * 2019-03-15 2022-05-19 STX Financing, LLC Systems and methods for compressing and decompressing a sequence of images

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20170079198A (ko) * 2015-12-30 2017-07-10 엘지전자 주식회사 이동 단말기 및 그의 동작 방법
KR102531386B1 (ko) * 2016-10-04 2023-05-12 주식회사 비원영상기술연구소 영상 데이터 부호화/복호화 방법 및 장치
JP6922215B2 (ja) * 2016-12-27 2021-08-18 富士通株式会社 動画像符号化装置
US20200112710A1 (en) * 2017-03-17 2020-04-09 Lg Electronics Inc. Method and device for transmitting and receiving 360-degree video on basis of quality
US10521468B2 (en) * 2017-06-13 2019-12-31 Adobe Inc. Animated seek preview for panoramic videos
WO2019009750A1 (en) 2017-07-05 2019-01-10 Huawei Technologies Co., Ltd APPARATUS AND METHOD FOR PANORAMIC VIDEO CODING
EP3649788A4 (en) * 2017-07-07 2020-12-30 Sharp Kabushiki Kaisha SIGNALING SYSTEMS AND METHODS OF A PROJECTED REGION FOR VIRTUAL REALITY APPLICATIONS
US10595045B2 (en) * 2017-07-27 2020-03-17 Advanced Micro Devices, Inc. Device and method for compressing panoramic video images
JP6545229B2 (ja) * 2017-08-23 2019-07-17 キヤノン株式会社 画像処理装置、撮像装置、画像処理装置の制御方法およびプログラム
CN109978761B (zh) * 2017-12-28 2023-06-27 杭州海康威视系统技术有限公司 一种生成全景图片的方法、装置及电子设备
US11069026B2 (en) * 2018-03-02 2021-07-20 Mediatek Inc. Method for processing projection-based frame that includes projection faces packed in cube-based projection layout with padding
EP3594899A1 (en) * 2018-07-10 2020-01-15 InterDigital CE Patent Holdings Tracking an object in a sequence of panoramic images
CN112997499A (zh) 2018-09-14 2021-06-18 皇家Kpn公司 基于经全局运动补偿的运动矢量预测值的视频编码
US10796402B2 (en) * 2018-10-19 2020-10-06 Tusimple, Inc. System and method for fisheye image processing

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101281640A (zh) * 2007-04-05 2008-10-08 奥多比公司 布置多个图像
US20090022422A1 (en) * 2007-07-18 2009-01-22 Samsung Electronics Co., Ltd. Method for constructing a composite image
CN101431617A (zh) * 2007-11-09 2009-05-13 三菱电机株式会社 用于合并视频以实时显示的方法和系统
CN101866482A (zh) * 2010-06-21 2010-10-20 清华大学 基于摄像设备自标定技术的全景图拼接方法和装置
CN103369192A (zh) * 2012-03-31 2013-10-23 深圳市振华微电子有限公司 多通道视频图像全硬件拼接方法及装置
CN103534726A (zh) * 2011-05-17 2014-01-22 苹果公司 用于全景摄影的位置传感器辅助的图像配准
CN103856727A (zh) * 2014-03-24 2014-06-11 北京工业大学 一种多路实时视频拼接处理系统
CN104599258A (zh) * 2014-12-23 2015-05-06 大连理工大学 一种基于各向异性特征描述符的图像拼接方法
CN104835118A (zh) * 2015-06-04 2015-08-12 浙江得图网络有限公司 通过两路鱼眼摄像头采集全景图像的方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10547825B2 (en) * 2014-09-22 2020-01-28 Samsung Electronics Company, Ltd. Transmission of three-dimensional video

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101281640A (zh) * 2007-04-05 2008-10-08 奥多比公司 布置多个图像
US20090022422A1 (en) * 2007-07-18 2009-01-22 Samsung Electronics Co., Ltd. Method for constructing a composite image
CN101431617A (zh) * 2007-11-09 2009-05-13 三菱电机株式会社 用于合并视频以实时显示的方法和系统
CN101866482A (zh) * 2010-06-21 2010-10-20 清华大学 基于摄像设备自标定技术的全景图拼接方法和装置
CN103534726A (zh) * 2011-05-17 2014-01-22 苹果公司 用于全景摄影的位置传感器辅助的图像配准
CN103369192A (zh) * 2012-03-31 2013-10-23 深圳市振华微电子有限公司 多通道视频图像全硬件拼接方法及装置
CN103856727A (zh) * 2014-03-24 2014-06-11 北京工业大学 一种多路实时视频拼接处理系统
CN104599258A (zh) * 2014-12-23 2015-05-06 大连理工大学 一种基于各向异性特征描述符的图像拼接方法
CN104835118A (zh) * 2015-06-04 2015-08-12 浙江得图网络有限公司 通过两路鱼眼摄像头采集全景图像的方法

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111095930A (zh) * 2017-09-18 2020-05-01 交互数字Vc控股公司 用于全向视频的编码的方法和设备
CN109963156A (zh) * 2017-12-14 2019-07-02 安讯士有限公司 使用编码器的高效混合
CN109963156B (zh) * 2017-12-14 2021-08-17 安讯士有限公司 用于控制图像编码的方法及控制器、电子设备
CN111567039A (zh) * 2018-02-27 2020-08-21 Lg电子株式会社 用于发送和接收包括相机镜头信息的360度视频的方法及其装置
US11297298B2 (en) 2018-02-27 2022-04-05 Lg Electronics Inc. Method for transmitting and receiving 360-degree video including camera lens information, and device therefor
CN111567039B (zh) * 2018-02-27 2022-06-03 Lg电子株式会社 用于发送和接收包括相机镜头信息的360度视频的方法及其装置
CN111971954A (zh) * 2018-04-11 2020-11-20 Lg电子株式会社 使用与热点和roi相关的元数据发送360度视频的方法和装置
CN113228658A (zh) * 2018-12-14 2021-08-06 中兴通讯股份有限公司 沉浸式视频比特流处理
CN113228658B (zh) * 2018-12-14 2023-10-17 中兴通讯股份有限公司 沉浸式视频比特流处理
US11948268B2 (en) 2018-12-14 2024-04-02 Zte Corporation Immersive video bitstream processing
US20220156880A1 (en) * 2019-03-15 2022-05-19 STX Financing, LLC Systems and methods for compressing and decompressing a sequence of images
CN110944200A (zh) * 2019-12-10 2020-03-31 南京大学 一种评估沉浸式视频转码方案的方法
CN110944200B (zh) * 2019-12-10 2022-03-15 南京大学 一种评估沉浸式视频转码方案的方法

Also Published As

Publication number Publication date
US20170118475A1 (en) 2017-04-27

Similar Documents

Publication Publication Date Title
CN107040783A (zh) 视频编码系统的非拼接图片的视频编码、解码方法及装置
CN114143550B (zh) 图像数据编码/解码方法和计算机可读记录介质
US10805629B2 (en) Video compression through motion warping using learning-based motion segmentation
CN108012155A (zh) 预拼接图像的视频编码方法、视频解码方法和相关的装置
TW201545545A (zh) 用於次世代視訊編碼之投射式內插預測產生之技術
CN110830803B (zh) 结合块匹配和串匹配的图像压缩方法
US20190005709A1 (en) Techniques for Correction of Visual Artifacts in Multi-View Images
US20190230368A1 (en) Encoding and decoding a video signal
Su et al. Learning compressible 360 video isomers
US11601661B2 (en) Deep loop filter by temporal deformable convolution
US10225573B1 (en) Video coding using parameterized motion models
CN111225214B (zh) 视频处理方法、装置及电子设备
CN114584776A (zh) 帧内预测模式的译码方法和装置
US11729424B2 (en) Visual quality assessment-based affine transformation
US20220182643A1 (en) No Reference Image Quality Assessment Based Decoder Side Inter Prediction
US20220159281A1 (en) No Reference Image Quality Assessment Based Decoder Side Intra Prediction
WO2023287417A1 (en) Warped motion compensation with explicitly signaled extended rotations
Chihoub et al. An imaging library for a digital still camera

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication
WW01 Invention patent application withdrawn after publication

Application publication date: 20170811