CN111066322B - 通过透视信息进行视频编码的帧内预测 - Google Patents

通过透视信息进行视频编码的帧内预测 Download PDF

Info

Publication number
CN111066322B
CN111066322B CN201780092200.6A CN201780092200A CN111066322B CN 111066322 B CN111066322 B CN 111066322B CN 201780092200 A CN201780092200 A CN 201780092200A CN 111066322 B CN111066322 B CN 111066322B
Authority
CN
China
Prior art keywords
prediction
video
intra
line
vanishing point
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201780092200.6A
Other languages
English (en)
Other versions
CN111066322A (zh
Inventor
谢尔盖·尤里维奇·伊科宁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Technologies Co Ltd
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Publication of CN111066322A publication Critical patent/CN111066322A/zh
Application granted granted Critical
Publication of CN111066322B publication Critical patent/CN111066322B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/103Selection of coding mode or of prediction mode
    • H04N19/11Selection of coding mode or of prediction mode among a plurality of spatial predictive coding modes
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/157Assigned coding mode, i.e. the coding mode being predefined or preselected to be further used for selection of another element or parameter
    • H04N19/159Prediction type, e.g. intra-frame, inter-frame or bidirectional frame prediction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N1/00Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
    • H04N1/32Circuits or arrangements for control or supervision between transmitter and receiver or between image input and image output device, e.g. between a still-image camera and its memory or between a still-image camera and a printer device
    • H04N1/333Mode signalling or mode changing; Handshaking therefor
    • H04N1/33307Mode signalling or mode changing; Handshaking therefor prior to start of transmission, input or output of the picture signal only
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N1/00Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
    • H04N1/41Bandwidth or redundancy reduction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/136Incoming video signal characteristics or properties
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/176Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a block, e.g. a macroblock
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/182Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being a pixel
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/60Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding
    • H04N19/61Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding in combination with predictive coding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/46Embedding additional information in the video signal during the compression process
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N2201/00Indexing scheme relating to scanning, transmission or reproduction of documents or the like, and to details thereof
    • H04N2201/32Circuits or arrangements for control or supervision between transmitter and receiver or between image input and image output device, e.g. between a still-image camera and its memory or between a still-image camera and a printer device
    • H04N2201/333Mode signalling or mode changing; Handshaking therefor
    • H04N2201/33307Mode signalling or mode changing; Handshaking therefor of a particular mode
    • H04N2201/33342Mode signalling or mode changing; Handshaking therefor of a particular mode of transmission mode
    • H04N2201/33357Compression mode

Abstract

一种视频解码方法(300)包括:接收(301)表示视频的帧的已编码比特流,其中每个帧包括像素块;针对待解码当前块从所述已编码比特流中获得消失点,并通过基于源自所述消失点的预测线执行帧内预测来计算(302A–302F)所述待解码当前块的像素值;以及基于所述计算出的像素值来提供(303)已解码视频。本发明还提供了一种视频编码方法、编码器和解码器。

Description

通过透视信息进行视频编码的帧内预测
技术领域
本申请涉及视频编码领域,尤其涉及一种视频编码器、视频解码器及相关方法和计算机程序。
背景技术
为了降低视频信号的比特率,国际标准化组织(International Organizationfor Standardization,简称ISO)和国际电信联盟(International TelecommunicationUnion,简称ITU)编码标准应用了具有与预测误差的变换编码相结合的帧间预测和帧内预测的混合视频编码预测误差称为残差。例如,可以使用帧内预测。帧内预测是指基于来自同一帧的已编码块的参考像素,对该帧中的当前块进行编码或解码。在帧内编码或解码中,分别对残差,即当前块的像素值和该块的预测出的像素值之间的差值,进行编码或解码。例如,通过将残差变换到频域(例如,使用离散余弦变换(discrete cosine transform,简称DCT)或离散正弦变换(discrete sine transform,简称DST)),量化并通过例如熵编码进行编码,可以对残差进行编码。
当前,视频编码中的帧内预测机制使用已编码区域的参考像素(在此也称为参考样本)的值来生成针对需要编码的块的预测信号,如图10中的图形1000和图11中的流程图步骤1101至1104所示。使用在比特流中发送的预测模式来生成预测信号。当前视频编码标准可以使用,例如,33种定向模式(用于表示包含边和线的块)以及DC模式和平面模式。相应地,可以沿着33个可能方向之一的直线执行定向帧内预测。
预测的有效性会影响需要编码和传输的残差量。相应地,提高预测质量能够减少残差信息量并减少已编码视频序列的总比特率。
发明内容
提供本发明内容是为了以简化的形式引入概念的选择,这些概念将在以下具体实现方式中进行进一步的描述。本发明内容的目的不在于识别权利要求书保护的主题的关键特征或必要特征,也不在于限制权利要求书保护的主题的范围。
在本申请中,术语“像素值”是指像素的强度值,即,所述像素的强度水平的指示。强度可以是所述像素的颜色分量的强度。或者,强度可以包括所述像素的若干颜色分量的强度。
本发明的目的在于提供改进的视频编码。上述及其它目的通过独立权利要求的特征来实现。进一步的实施形式在从属权利要求、具体说明和附图中显而易见。
第一方面,提供了一种视频编码器,所述视频编码器包括:输入单元,用于接收视频的帧,其中每个帧包括像素块;帧内预测单元,用于针对待编码当前块确定消失点并通过基于源自所述消失点的预测线执行帧内预测来生成残差;以及输出单元,用于基于所述残差提供已编码比特流。因此,提出了具体的帧内预测方案。假定参考像素集包括一个或多个参考像素(例如,在所述当前块的边缘上)和穿过一个或多个所述参考像素的线(预测线),则所述当前块内的像素子集可以定义为位于所述预测线上的像素集或大约位于所述预测线上的像素集(例如,精度为一个像素)。基于所述参考像素的值,例如,通过沿着所述预测线进行外推或插值,来预测所述子集的像素值(即,确定这些像素的预测值)。在帧内预测中使用消失点可以节省信令并提高预测准确性,从而可以对视频进行更高效的帧内预测。更高效的帧内预测可以减少需要编码和传输的残差信息量,从而减少关联比特流的总比特率。
在第一方面所述的视频编码器的第一种可能的实现方式中,所述视频包括非球形视频,并且所述预测线包括直线。
在第一方面所述的视频编码器的第二种可能的实现方式中,所述视频包括球形视频,并且所述预测线包括测地曲线。沿着测地曲线的帧内预测会特别高效,因为所述球形视频中的所述测地曲线可以对应于所述球形视频所表现的原始三维场景中的直线。
在第一方面或第一方面前述任意实现方式所述的视频编码器的第三种可能的实现方式中,所述帧内预测单元还用于针对所述待编码当前块的每个像素沿着所述预测线执行所述帧内预测。针对所述当前块的所有像素使用相同的预测线能够简化计算。
在第一方面或第一方面前述任意实现方式所述的视频编码器的第四种可能的实现方式中,所述帧内预测单元还用于通过最接近所述预测线的定向模式来执行所述帧内预测。使用最接近所述预测线的定向模式可以简化计算。
在第一方面或第一方面前述任意实现方式所述的视频编码器的第五种可能的实现方式中,所述帧内预测单元还用于,针对所述待编码当前块,沿着源自所述消失点的像素特定的预定预测线执行所述帧内预测。使用像素特定的预测线可以提高预测准确性。
在第一方面或第一方面前述任意实现方式所述的视频编码器的第六种可能的实现方式中,所述帧内预测单元还用于为汇聚于相同预定消失点的每条预测线分配相同的标识。针对源自相同消失点的每条预测线使用相同的标识符,可以节省信令并提高预测准确性,从而可以对视频进行更高效的帧内预测。
在第一方面或第一方面前述任意实现方式所述的视频编码器的第七种可能的实现方式中,所述帧内预测单元还用于使用第一指示来指示是否基于源自所述消失点的所述预测线来执行所述帧内预测。
在第一方面或第一方面前述任意实现方式所述的视频编码器的第八种可能的实现方式中,所述帧内预测单元还用于针对所述接收的视频的帧中的至少一个并基于至少两个消失点之一来执行所述帧内预测。在视频的一帧中使用两个或以上消失点可以进一步节省信令并提高预测准确性,从而可以对视频进行更高效的帧内预测。
在第一方面的第八种实现方式所述的视频编码器的第九种可能的实现方式中,所述帧内预测单元还用于使用第二指示来指示使用哪个特定的消失点来为给定的块定义一条(或多条)所述预测线。
第二方面,提供了一种视频解码器,所述视频解码器包括:输入单元,用于接收表示视频的帧的已编码比特流,其中每个帧包括像素块;帧内预测单元,用于针对待解码当前块从所述比特流中获得消失点,并通过基于源自所述消失点的预测线执行帧内预测来计算所述待解码当前块的像素值;以及输出单元,用于基于所述计算出的像素值来提供已解码视频。在所述帧内预测中使用消失点可以节省信令并提高预测准确性,从而可以对视频进行更高效的帧内预测。更高效的帧内预测可以减少需要接收和解码的残差信息量,从而减少关联比特流的总比特率。取决于实现细节和/或取决于所述比特流中的信息,所述解码器可以以不同的方式从所述比特流中获得消失点。例如,消失点可以在所述比特流中显式发送。或者,消失点可以从所述比特流的其他信息中隐式导出。例如,可以从先前重建的图片中计算消失点。或者消失点可以作为元信息传递。在一种实现形式中,从在所述比特流中编码的消失点信息中获得所述待解码当前块的所述消失点。例如,所述比特流可以包括消失点信息,所述消失点信息针对一个帧(或者共同针对一组一个或多个连续帧)指示包含一个或多个消失点的集。对于该帧的一个或多个块,所述消失点信息可以进一步指示来自各个帧的该消失点集中的一个消失点,从而为各个待解码块指示一个消失点。所述消失点信息可以以所述比特流中的专用比特的形式(即,显式地)或以允许从所述比特流中明确地为给定块确定消失点的任何其他合适方式来用信号发送。
在第二方面所述的视频解码器的第一种可能的实现方式中,所述视频包括非球形视频,并且所述预测线包括直线。
在第二方面所述的视频解码器的第二种可能的实现方式中,所述视频包括球形视频,并且所述预测线包括测地曲线。沿着测地曲线的帧内预测会特别高效,因为所述球形视频中的所述测地曲线可以对应于所述球形视频所表现的原始三维场景中的直线。在所述帧内预测中使用消失点可以节省信令并提高预测准确性,从而可以对球形视频进行更高效的帧内预测。更高效的帧内预测可以减少需要接收和解码的残差信息量,从而减少关联比特流的总比特率。
在第二方面或第二方面前述任意实现方式所述的视频解码器的第三种可能的实现方式中,所述帧内预测单元还用于针对所述待解码当前块的每个像素沿着所述预测线执行帧内预测。针对所述块的所有像素使用相同的预测线能够简化计算。
在第二方面或第二方面前述任意实现方式所述的视频解码器的第四种可能的实现方式中,所述帧内预测单元还用于通过最接近所述预测线的定向模式来执行所述帧内预测。使用最接近汇聚于所述消失点的单条预测线的定向模式可以简化计算。
在第二方面或第二方面前述任意实现方式所述的视频解码器的第五种可能的实现方式中,所述帧内预测单元还用于,针对所述待解码当前块,沿着源自所述消失点的像素特定的预测线执行所述帧内预测。使用像素特定的预测线可以提高预测准确性。
在第二方面或第二方面前述任意实现方式所述的视频解码器的第六种可能的实现方式中,所述帧内预测单元还用于使用第一指示来确定是否基于源自所述消失点的所述预测线来执行所述帧内预测。
在第二方面或第二方面前述任意实现方式所述的视频解码器的第七种可能的实现方式中,所述帧内预测单元还用于针对所述接收的已编码比特流所表示的所述视频的帧中的至少一个并基于至少两个消失点之一来执行所述帧内预测。
在第二方面的第七种实现方式所述的视频解码器的第八种可能的实现方式中,所述帧内预测单元还用于使用第二指示来确定使用哪个特定的消失点来为给定的块定义一条(或多条)所述预测线。
第三方面,提供了一种视频编码的方法,其中所述方法包括:接收视频的帧,其中每个帧包括像素块;针对待编码当前块,确定消失点并通过基于源自所述消失点的预测线执行帧内预测来生成残差;以及基于所述残差提供已编码比特流。在所述帧内预测中使用消失点可以节省信令并提高预测准确性,从而可以对视频进行更高效的帧内预测。更高效的帧内预测可以减少需要编码和传输的残差信息量,从而减少关联比特流的总比特率。
在第三方面所述的方法的第一种可能的实现方式中,所述视频包括非球形视频,并且所述预测线包括直线。
在第三方面所述的方法的第二种可能的实现方式中,所述视频包括球形视频,并且所述预测线包括测地曲线。
在第三方面或第三方面前述任意实现方式所述的方法的第三种可能的实现方式中,针对所述待编码当前块的每个像素沿着所述预测线执行所述帧内预测。
在第三方面或第三方面前述任意实现方式所述的方法的第四种可能的实现方式中,通过最接近所述预测线的定向模式来执行所述帧内预测。
在第三方面或第三方面前述任意实现方式所述的方法的第五种可能的实现方式中,针对所述待编码当前块,沿着源自所述预定消失点的像素特定的预定预测线执行所述帧内预测。使用像素特定的预测线可以提高预测准确性。
在第三方面或第三方面前述任意实现方式所述的方法的第六种可能的实现方式中,为源自相同预定消失点的每条预测线分配相同的标识。
在第三方面或第三方面前述任意实现方式所述的方法的第七种可能的实现方式中,使用第一指示来指示是否基于源自所述预定消失点的所述预测线来执行所述帧内预测。
在第三方面或第三方面前述任意实现方式所述的方法的第八种可能的实现方式中,针对所述接收的视频的帧中的至少一个并基于至少两个消失点之一来执行所述帧内预测。
在第三方面的第八种实现方式所述的方法的第九种可能的实现方式中,使用第二指示来指示使用哪个特定的消失点来为给定的块定义一条(或多条)所述预测线。
第四方面,提供了一种视频解码的方法,其中所述方法包括:接收表示视频的帧的已编码比特流,其中每个帧包括像素块;针对待解码当前块从所述比特流中获得消失点,并通过基于源自所述消失点的预测线执行帧内预测来计算所述待解码当前块的像素值;以及基于所述计算出的像素值来提供已解码视频。在所述帧内预测中使用消失点可以节省信令并提高预测准确性,从而可以对视频进行更高效的帧内预测。更高效的帧内预测可以减少需要编码和传输的残差信息量,从而减少关联比特流的总比特率。
在第四方面所述的方法的第一种可能的实现方式中,所述视频包括非球形视频,并且所述预测线包括直线。
在第四方面所述的方法的第二种可能的实现方式中,所述视频包括球形视频,并且所述预测线包括测地曲线。
在第四方面或第四方面前述任意实现方式所述的方法的第三种可能的实现方式中,针对所述待解码当前块的每个像素沿着所述预测线执行所述帧内预测。
在第四方面或第四方面前述任意实现方式所述的方法的第四种可能的实现方式中,通过最接近所述预测线的定向模式来执行所述帧内预测。
在第四方面或第四方面前述任意实现方式所述的方法的第五种可能的实现方式中,沿着源自所述消失点的像素特定的预测线执行所述帧内预测。
在第四方面或第四方面前述任意实现方式所述的方法的第六种可能的实现方式中,使用第一指示来确定是否基于源自所述消失点的所述预测线来执行所述帧内预测。
在第四方面或第四方面前述任意实现方式所述的方法的第七种可能的实现方式中,针对所述接收的已编码比特流所表示的所述视频的帧中的至少一个并基于至少两个消失点之一来执行所述帧内预测。
在第四方面的第七种实现方式所述的方法的第八种可能的实现方式中,使用第二指示来指示使用哪个特定的消失点来为给定的块定义一条(或多条)所述预测线。
第五方面,包括程序代码的计算机程序用于,当所述计算机程序在计算机上执行时,执行第三或第四方面所述的方法。
附图说明
通过以下详细描述和附图,将更好地理解上述各方面,其中:
图1A是示出了一个示例提供的视频编码器的框图;
图1B是示出了一个示例提供的视频解码器的框图;
图2A是示出了一个示例提供的方法的流程图;
图2B是示出了一个示例提供的方法的流程图;
图2C是示出了一个示例提供的方法的流程图;
图2D是示出了一个示例提供的方法的流程图;
图2E是示出了一个示例提供的方法的流程图;
图2F是示出了一个示例提供的方法的流程图;
图3A是示出了一个示例提供的方法的流程图;
图3B是示出了一个示例提供的方法的流程图;
图3C是示出了一个示例提供的方法的流程图;
图3D是示出了一个示例提供的方法的流程图;
图3E是示出了一个示例提供的方法的流程图;
图3F是示出了一个示例提供的方法的流程图;
图4A示出了使用最接近汇聚于消失点的预测线的定向模式的帧内预测的示例;
图4B示出了沿着源自消失点的像素特定的预测线的帧内预测的示例;
图5示出了直线投影到球面的示例;
图6示出了平行线投影到球面的示例;
图7示出了选择最接近测地曲线的定向模式的示例;
图8示出了针对球形视频使用通过透视信息进行的帧内预测的示例;
图9示出了消失点的示例;
图10示出了现有技术中的帧内预测的示例;
图11是示出了现有技术中的角度帧内预测的示例的流程图;
图12至图16示出了方法的附加示例;
图17和图18示出了解析帧内预测标志的示例;
图19图示了现有技术中MPM(最可能模式)生成的示例;
图20至图22示出了MPM生成示例。
在附图中,相同的附图标记用于指示相同的部分。
具体实现方式
下面结合附图提供的详细描述旨在作为实施例的描述,而非旨在代表可以构造或利用实施例的唯一形式。然而,可以通过不同的实施例来实现相同或等同的功能和结构。
在以下描述中,讨论了视频编码布置和方案,其中基于源自消失点的预测线执行至少一些帧内预测操作。
在透视图技术中,术语“消失点”是指在图像平面内空间中的平行线似乎汇聚的点。人造世界(或所谓的“曼哈顿世界”)包含许多平行线。例如,建筑物,墙壁,窗户,街道等包含平行线。根据透视规则,这些平行线汇聚于消失点。这些都在图9中用与图像930相关联的消失点910、920进行了说明。
一旦知道了消失点的位置,就可以从图像中的任意点绘制透视线。这意味着不必知道(或给解码器发送)那些线的角度参数。只需知道当前的线是否延伸到消失点即可。如果该线延伸到消失点,则无需发送该线的角度。
在解码过程中,通过获得图像中当前像素的位置并知道消失点的位置,可以推导经过这两个点的线的方程,并沿着这条线执行帧内预测。可以做出另一种假设,即在曼哈顿世界中,至少有一个平行线的主导方向和一个平行线交叉的消失点。
图1A是示出了一个示例提供的视频编码器100的框图。所述视频编码器100可以实现为独立设备,或者可以实现为其它设备的一部分,诸如数字摄像机(包括例如360度摄像机和摄像机装备)等。此外,所述视频编码器100可实现为硬件(包括但不限于:处理器和/或存储器等)、软件或硬件和软件的任意组合。
所述视频编码器100包括输入单元101,用于接收视频的帧。每个帧包括像素块。所述视频可以包括非球形视频;在这种情况下,所述预测线包括直线。
或者,所述视频可以包括球形视频;在这种情况下,所述预测线包括测地曲线。具有曲率的所述测地曲线可以对应于所述球形视频所表现的三维场景中的直线。
所述视频编码器100还包括帧内预测单元102,用于针对待编码当前块通过至少部分基于源自预定消失点的预定预测线执行帧内预测来生成所述待编码当前块的残差集。
使用的所述消失点可以由例如所述帧内预测单元102(或由任意其他合适的实体)在生成所述残差集之前确定。此外,可以由所述帧内预测单元102(或由任意其他合适的实体)基于所确定的消失点来确定所述预测线。
所述视频编码器100还包括输出单元103,用于基于对所述待编码块执行所述帧内预测而生成的残差集来提供已编码比特流。除了与残差相关的数据之外,所述比特流还可包括,例如,分区标志、预测参数、与所述确定的一个(或多个)消失点相关的信息、与所述确定的一条(或多条)预测线相关的信息等。
所述帧内预测单元102还可以用于针对所述待编码当前块沿着源自所述预定消失点的单条预定预测线执行所述帧内预测。
所述帧内预测单元102还可以用于针对所述待编码当前块通过最接近源自所述预定消失点的单条预定预测线的定向模式来执行所述帧内预测。
所述帧内预测单元102还可以用于针对所述待编码当前块沿着源自所述预定消失点的像素特定的预定预测线执行所述帧内预测。
所述帧内预测单元102还可以用于为源自相同预定消失点的每条预测线分配相同的标识。
所述帧内预测单元102还可以用于使用第一指示来指示是否基于源自所述预定消失点的所述预测线来执行所述帧内预测。
所述帧内预测单元102还可以用于针对所述接收的视频的帧中的至少一个并基于至少两个消失点之一来执行所述帧内预测。例如,在第一图像块中,所述帧内预测可以基于第一消失点,而在第二图像块中,所述帧内预测可以基于第二消失点。此外,所述帧内预测单元102可以用于使用第二指示来指示使用所述至少两个消失点中的哪个特定的消失点来定义给定块的预测线。
所述视频编码器100还可包括其他元素,诸如帧间预测单元104A、环路滤波单元104B、参考图片缓冲区104C、变换单元104D、量化单元104E、逆量化单元104F、逆变换单元104G和/或熵编码单元104H等。
图1B是示出了一个示例提供的视频解码器110的框图。所述视频解码器110可以实现为独立设备,或者可以实现为其它设备的一部分,诸如显示设备(包括例如适合于显示虚拟现实内容的头戴式显示器)等。此外,所述视频解码器110可实现为硬件(包括但不限于:处理器和/或存储器等)、软件或硬件和软件的任意组合。
所述视频解码器110包括输入单元111,用于接收表示视频的帧的已编码比特流。每个帧包括像素块。除了与残差相关的数据之外,所述比特流还可包括,例如,分区标志、预测参数、与确定的一个(或多个)消失点相关的信息、与确定的一条(或多条)预测线相关的信息等。
所述视频解码器110还包括帧内预测单元112,用于针对待解码当前块通过至少部分基于源自预定消失点的预定预测线执行帧内预测来生成所述待解码当前块的像素值集。与图1A的所述视频编码器100一样,所述视频可以包括非球形视频;在这种情况下,所述预测线包括直线。或者所述视频可以包括球形视频;在这种情况下,所述预测线包括测地曲线。
使用的所述消失点可以由例如所述帧内预测单元112
或由任意其他合适的实体确定然后由所述帧内预测单元)在生成所述残差集之前确定112可以由所述帧内预测单元,此外。(接收112或由任意其他合适的实体确定然后由所述帧内预测)基于所确定的消失点来确定所述预测线单元112。(接收
所述视频解码器110还包括输出单元113
用于基于通过对所述待解码块执行所述帧内预测所确定的所述像素值集来提供已解码视频,。
所述帧内预测单元112
还可以用于针对所述待解码当前块沿着源自所述预定消失点的单条预定预测线执行所述帧内。预测
所述帧内预测单元112还可以用于针对所述待解码当前块通过最接近源自所述预定消失点的单条预定预测线的定向模式来执行所述帧内预测。
所述帧内预测单元112还可以用于针对所述待解码当前块沿着源自所述预定消失点的像素特定的预定预测线执行所述帧内预测。
所述帧内预测单元112还可以用于使用第一指示来确定是否基于源自所述预定消失点的所述预测线来执行所述帧内预测。
所述帧内预测单元112还可以用于针对所述接收的已编码比特流所表示的所述视频的帧中的至少一个并基于至少两个消失点之一来执行所述帧内预测。此外,所述帧内预测单元112可以用于使用第二指示来确定使用哪个特定的消失点来定义给定块的一条(或多条)预测线。
所述视频解码器110还可包括其他元件,例如熵解码单元114A、逆量化单元114B、逆变换单元114C、帧间预测单元114D、参考图片缓冲区114E和/或环路滤波单元114F等。
在下面图2A至图2F的示例中,所述视频编码器可以包括图1A的所述视频编码器100。此外,在图3A至3F的示例中,所述视频解码器包括图1B的所述视频解码器110。所描述的设备和方法的部分特征为可选特征,提供了进一步的优势。
图2A是示出了一个示例提供的视频编码方法的流程图。在操作201,视频编码器的输入单元接收视频的帧。每个帧包括像素块。如上所述,所述视频可以包括非球形视频;在这种情况下,所述预测线包括直线。或者所述视频可以包括球形视频;在这种情况下,所述预测线包括测地曲线。
在操作202A,所述视频编码器的帧内预测单元针对待编码当前块通过至少部分基于源自预定消失点的预定预测线执行帧内预测来生成所述待编码当前块的残差集。
如上所述,使用的所述消失点可以由例如所述视频编码器的所述帧内预测单元(或由任意其他合适的实体)在生成所述残差集之前确定。此外,可以由所述视频编码器的所述帧内预测单元(或由任意其他合适的实体)基于所确定的消失点来确定所述预测线。
在操作203,所述视频编码器的输出单元基于对所述待编码块执行所述帧内预测而生成的残差集来提供已编码比特流。除了与残差相关的数据之外,所述比特流还可包括,例如,分区标志、预测参数、与确定的一个(或多个)消失点相关的信息、与确定的一条(或多条)预测线相关的信息等。
图2B是示出了一个示例提供的视频编码方法的流程图。在操作201,视频编码器的输入单元接收视频的帧。每个帧包括像素块。如上所述,所述视频可以包括非球形视频;在这种情况下,所述预测线包括直线。或者所述视频可以包括球形视频;在这种情况下,所述预测线包括测地曲线。
在操作202B,所述视频编码器的帧内预测单元针对待编码当前块通过至少部分沿着源自预定消失点的单条预定预测线执行帧内预测来生成所述待编码当前块的残差集。
如上所述,使用的所述消失点可以由例如所述视频编码器的所述帧内预测单元(或由任意其他合适的实体)在生成所述残差集之前确定。此外,可以由所述视频编码器的所述帧内预测单元(或由任意其他合适的实体)基于所确定的消失点来确定所述预测线。可以为源自相同预定消失点的每条预测线分配相同的标识。
在操作203,所述视频编码器的输出单元基于对所述待编码块执行所述帧内预测而生成的残差集来提供已编码比特流。除了与残差相关的数据之外,所述比特流还可包括,例如,分区标志、预测参数、与确定的一个(或多个)消失点相关的信息、与确定的一条(或多条)预测线相关的信息等。
图2C是示出了一个示例提供的视频编码方法的流程图。在操作201,视频编码器的输入单元接收视频的帧。每个帧包括像素块。如上所述,所述视频可以包括非球形视频;在这种情况下,所述预测线包括直线。或者所述视频可以包括球形视频;在这种情况下,所述预测线包括测地曲线。
在操作202C,所述视频编码器的帧内预测单元针对待编码当前块通过至少部分利用最接近源自预定消失点的单条预定预测线的定向模式执行帧内预测来生成所述待编码当前块的残差集。
如上所述,使用的所述消失点可以由例如所述视频编码器的所述帧内预测单元(或由任意其他合适的实体)在生成所述残差集之前确定。此外,可以由所述视频编码器的所述帧内预测单元(或由任意其他合适的实体)基于所确定的消失点来确定所述预测线。可以为源自相同预定消失点的每条预测线分配相同的标识。
在操作203,所述视频编码器的输出单元基于对所述待编码块执行所述帧内预测而生成的残差集来提供已编码比特流。除了与残差相关的数据之外,所述比特流还可包括,例如,分区标志、预测参数、与确定的一个(或多个)消失点相关的信息、与确定的一条(或多条)预测线相关的信息等。
图2D是示出了一个示例提供的视频编码方法的流程图。在操作201,视频编码器的输入单元接收视频的帧。每个帧包括像素块。如上所述,所述视频可以包括非球形视频;在这种情况下,所述预测线包括直线。或者所述视频可以包括球形视频;在这种情况下,所述预测线包括测地曲线。
在操作202D,所述视频编码器的帧内预测单元针对待编码当前块通过至少部分沿着源自预定消失点的像素特定的预定预测线执行帧内预测来生成所述待编码当前块的残差集。
如上所述,使用的所述消失点可以由例如所述视频编码器的所述帧内预测单元(或由任意其他合适的实体)在生成所述残差集之前确定。此外,可以由所述视频编码器的所述帧内预测单元(或由任意其他合适的实体)基于所确定的消失点来确定所述预测线。可以为源自相同预定消失点的每条预测线分配相同的标识。
在操作203,所述视频编码器的输出单元基于对所述待编码块执行所述帧内预测而生成的残差集来提供已编码比特流。除了与残差相关的数据之外,所述比特流还可包括,例如,分区标志、预测参数、与确定的一个(或多个)消失点相关的信息、与确定的一条(或多条)预测线相关的信息等。
图2E是示出了一个示例提供的视频编码方法的流程图。在操作201,视频编码器的输入单元接收视频的帧。每个帧包括像素块。如上所述,所述视频可以包括非球形视频;在这种情况下,所述预测线包括直线。或者所述视频可以包括球形视频;在这种情况下,所述预测线包括测地曲线。
在操作202E,所述视频编码器的帧内预测单元针对待编码当前块通过至少部分基于源自预定消失点的预定预测线执行帧内预测来生成所述待编码当前块的残差集,其中使用第一指示来向接收实体指示是否基于源自所述预定消失点的所述预测线执行所述帧内预测。
如上所述,使用的所述消失点可以由例如所述视频编码器的所述帧内预测单元(或由任意其他合适的实体)在生成所述残差集之前确定。此外,可以由所述视频编码器的所述帧内预测单元(或由任意其他合适的实体)基于所确定的消失点来确定所述预测线。可以为源自相同预定消失点的每条预测线分配相同的标识。
在操作203,所述视频编码器的输出单元基于对所述待编码块执行所述帧内预测而生成的残差集来提供已编码比特流。除了与残差相关的数据之外,所述比特流还可包括,例如,分区标志、预测参数、与确定的一个(或多个)消失点相关的信息、与确定的一条(或多条)预测线相关的信息等。
图2F是示出了一个示例提供的视频编码方法的流程图。在操作201,视频编码器的输入单元接收视频的帧。每个帧包括像素块。如上所述,所述视频可以包括非球形视频;在这种情况下,所述预测线包括直线。或者所述视频可以包括球形视频;在这种情况下,所述预测线包括测地曲线。
在操作202F,所述视频编码器的帧内预测单元针对待编码当前块通过至少部分基于源自预定消失点的预定预测线执行帧内预测来生成所述待编码当前块的残差集。这里,针对所述接收的视频的帧中的至少一个并基于至少两个消失点之一来执行所述帧内预测,并且使用第二指示来指示使用哪个特定的消失点来定义所述预测线。
如上所述,使用的所述消失点可以由例如所述视频编码器的所述帧内预测单元(或由任意其他合适的实体)在生成所述残差集之前确定。此外,可以由所述视频编码器的所述帧内预测单元(或由任意其他合适的实体)基于所确定的消失点来确定所述预测线。可以为源自相同预定消失点的每条预测线分配相同的标识。
在操作203,所述视频编码器的输出单元基于对所述待编码块执行所述帧内预测而生成的残差集来提供已编码比特流。除了与残差相关的数据之外,所述比特流还可包括,例如,分区标志、预测参数、与确定的一个(或多个)消失点相关的信息、与确定的一条(或多条)预测线相关的信息等。
图3A是示出了一个示例提供的视频解码方法的流程图。在操作301,视频解码器的输入单元接收表示视频的帧的已编码比特流。每个帧包括像素块。除了与残差相关的数据之外,所述比特流还可包括,例如,一项或多项以下内容:分区标志、预测参数、与一个或多个消失点相关的信息、与一条或多条预测线相关的信息等。
在操作302A,所述视频解码器的帧内预测单元针对待解码当前块通过至少部分基于源自消失点的预测线执行帧内预测来确定所述待解码当前块的像素值集。所述视频可以包括非球形视频;在这种情况下,所述预测线包括直线。或者所述视频可以包括球形视频;在这种情况下,所述预测线可包括测地曲线。
使用的所述消失点可以由例如所述视频解码器的所述帧内预测单元在进行帧内预测之前确定(或由任意其他合适的实体确定然后由所述视频解码器的所述帧内预测单元接收)。此外,可以由所述帧内预测单元112基于所确定的消失点来确定所述预测线(或由任意其他合适的实体确定然后由所述帧内预测单元112接收)。
在操作303,所述视频解码器的输出单元基于通过对所述待解码块执行所述帧内预测所确定的所述像素值集来提供已解码视频。
图3B是示出了一个示例提供的视频解码方法的流程图。在操作301,视频解码器的输入单元接收表示视频的帧的已编码比特流。每个帧包括像素块。除了与残差相关的数据之外,所述比特流还可包括,例如,一项或多项以下内容:分区标志、预测参数、与一个或多个消失点相关的信息、与一条或多条预测线相关的信息等。
在操作302B,所述视频解码器的帧内预测单元针对待解码当前块通过至少部分沿着源自消失点的单条预测线执行帧内预测来确定所述待解码当前块的像素值集。所述视频可以包括非球形视频;在这种情况下,所述预测线包括直线。或者所述视频可以包括球形视频;在这种情况下,所述预测线包括测地曲线。
使用的所述消失点可以由例如所述视频解码器的所述帧内预测单元在进行帧内预测之前确定(或由任意其他合适的实体确定然后由所述视频解码器的所述帧内预测单元接收)。此外,可以由所述帧内预测单元112基于所确定的消失点来确定所述预测线(或由任意其他合适的实体确定然后由所述帧内预测单元112接收)。
在操作303,所述视频解码器的输出单元基于通过对所述待解码块执行所述帧内预测所确定的所述像素值集来提供已解码视频。
图3C是示出了一个示例提供的视频解码方法的流程图。在操作301,视频解码器的输入单元接收表示视频的帧的已编码比特流。每个帧包括像素块。除了与残差相关的数据之外,所述比特流还可包括,例如,一项或多项以下内容:分区标志、预测参数、与一个或多个消失点相关的信息、与一条或多条预测线相关的信息等。
在操作302C,所述视频解码器的帧内预测单元针对待解码当前块通过至少部分利用最接近源自消失点的单条预测线的定向模式执行帧内预测来确定所述待解码当前块的像素值集。所述视频可以包括非球形视频;在这种情况下,所述预测线包括直线。或者所述视频可以包括球形视频;在这种情况下,所述预测线包括测地曲线。
使用的所述消失点可以由例如所述视频解码器的所述帧内预测单元在进行帧内预测之前确定(或由任意其他合适的实体确定然后由所述视频解码器的所述帧内预测单元接收)。此外,可以由所述帧内预测单元112基于所确定的消失点来确定所述预测线(或由任意其他合适的实体确定然后由所述帧内预测单元112接收)。
在操作303,所述视频解码器的输出单元基于通过对所述待解码块执行所述帧内预测所确定的所述像素值集来提供已解码视频。
图3D是示出了一个示例提供的视频解码方法的流程图。在操作301,视频解码器的输入单元接收表示视频的帧的已编码比特流。每个帧包括像素块。除了与残差相关的数据之外,所述比特流还可包括,例如,一项或多项以下内容:分区标志、预测参数、与一个或多个消失点相关的信息、与一条或多条预测线相关的信息等。
在操作302D,所述视频解码器的帧内预测单元针对待解码当前块通过至少部分沿着源自消失点的像素特定的预测线执行帧内预测来确定所述待解码当前块的像素值集。所述视频可以包括非球形视频;在这种情况下,所述预测线包括直线。或者所述视频可以包括球形视频;在这种情况下,所述预测线包括测地曲线。
使用的所述消失点可以由例如所述视频解码器的所述帧内预测单元在进行帧内预测之前确定(或由任意其他合适的实体确定然后由所述视频解码器的所述帧内预测单元接收)。此外,可以由所述帧内预测单元112基于所确定的消失点来确定所述预测线(或由任意其他合适的实体确定然后由所述帧内预测单元112接收)。
在操作303,所述视频解码器的输出单元基于通过对所述待解码块执行所述帧内预测所确定的所述像素值集来提供已解码视频。
图3E是示出了一个示例提供的视频解码方法的流程图。在操作301,视频解码器的输入单元接收表示视频的帧的已编码比特流。每个帧包括像素块。除了与残差相关的数据之外,所述比特流还可包括,例如,一项或多项以下内容:分区标志、预测参数、与一个或多个消失点相关的信息、与一条或多条预测线相关的信息等。
在操作302E,所述视频解码器的帧内预测单元针对待解码当前块通过至少部分基于源自消失点的预测线执行帧内预测来确定所述待解码当前块的像素值集,其中使用第一指示来确定是否基于源自所述消失点的所述预测线执行所述帧内预测。所述视频可以包括非球形视频;在这种情况下,所述预测线包括直线。或者所述视频可以包括球形视频;在这种情况下,所述预测线包括测地曲线。
使用的所述消失点可以由例如所述视频解码器的所述帧内预测单元在进行帧内预测之前确定(或由任意其他合适的实体确定然后由所述视频解码器的所述帧内预测单元接收)。此外,可以由所述帧内预测单元112基于所确定的消失点来确定所述预测线(或由任意其他合适的实体确定然后由所述帧内预测单元112接收)。
在操作303,所述视频解码器的输出单元基于通过对所述待解码块执行所述帧内预测所确定的所述像素值集来提供已解码视频。
图3F是示出了一个示例提供的视频解码方法的流程图。在操作301,视频解码器的输入单元接收表示视频的帧的已编码比特流。每个帧包括像素块。除了与残差相关的数据之外,所述比特流还可包括,例如,一项或多项以下内容:分区标志、预测参数、与一个或多个消失点相关的信息、与一条或多条预测线相关的信息等。
在操作302F,所述视频解码器的帧内预测单元针对待解码当前块通过至少部分基于源自消失点的预测线执行帧内预测来确定所述待解码当前块的像素值集。所述视频可以包括非球形视频;在这种情况下,所述预测线包括直线。或者所述视频可以包括球形视频;在这种情况下,所述预测线包括测地曲线。这里,针对所述接收的已编码比特流所表示的所述视频的帧中的至少一个并基于至少两个消失点之一来执行所述帧内预测,并且使用第二指示来确定使用哪个特定的消失点来定义所述预测线。
使用的所述消失点可以由例如所述视频解码器的所述帧内预测单元在进行帧内预测之前确定(或由任意其他合适的实体确定然后由所述视频解码器的所述帧内预测单元接收)。此外,可以由所述帧内预测单元112基于所确定的消失点来确定所述预测线(或由任意其他合适的实体确定然后由所述帧内预测单元112接收)。
例如,在图1B和图3A至3F的示例中,对于待预测的给定块,所述视频解码器可以从所述比特流中提取消失点的位置。对于所述块的每个像素,所述消失点隐式地定义了包含一个或多个参考像素的对应集合(即,参考像素集)。所述视频解码器可基于所述对应的参考像素集的像素值,例如,通过外推或插值,来确定所述块的每个像素的预测值。例如,在一种实现形式中,所述参考像素集由单个参考像素组成,并且所述参考像素的值被用作所述块的相应像素的预测值。
在操作303,所述视频解码器的输出单元基于通过对所述待解码块执行所述帧内预测所确定的所述像素值集来提供已解码视频。
下面将更详细地讨论图1A和1B、图2A至2F和图3A至3F在应用于非球形视频时的示例。
当前,帧内预测单元通常使用来自已编码区域的参考像素来生成针对需要编码的块的预测信号。除了可用于生成平滑预测的DC和平面模式之外,还可使用角度(或定向)预测模式,例如,以表示包含定向纹理、边缘和线条的块。这些角度预测模式在可能的方向之一上沿着直线生成预测信号。方向信令的成本可能会很高。例如,H.265视频编码标准当前具有33种定向模式以及DC和平面模式。具有如此大量的可能模式需要大量的比特来对预测模式进行编码。
为了减轻这种情况,图1A和1B、图2A至2F和图3A至3F的示例使用了,例如,通过任意合适的用于帧内预测的检测算法等获得的一个或多个消失点。消失点的位置可以例如作为元数据传递到解码器,或者可以在解码器端推导出。在解码器侧具有消失点,就可以用信号通知当前块的预测方向是否延伸到消失点。如果是这样,则无需发送线角度。
如图4A的示例400所示,可以获得待预测的当前块中的点420的位置(例如,块的中心或左上角)。可以确定从选定点420到消失点440的透视线,以用作预测线430。从可用的角度模式411至419中,选择最接近预测线430的角度模式。在图4A的示例400中,最接近的是角度模式413。例如,可以通过预测线430的角度和角度模式411至419之间的最小差值来确定距离。然后,最接近的角度模式413可以用于所述当前块的预测。该方法可以简化计算。图12中的流程图步骤1201至1204会做进一步说明。
或者,如图4B的示例450所示,针对待预测块470的每个像素,可以确定从每个当前点到消失点480的透视线,以用作预测线451至454。然后对于每个像素,沿着其关联的像素特定的预测线执行帧内预测。即,对于待预测的每个像素(当前像素),选择一个或多个参考像素,这些参考像素中的至少一个位于预测线上。在编码中,基于所述当前像素的值和所述一个或多个参考像素的值来确定所述当前像素的残差。在解码中,基于所述一个或多个参考像素的值和所述残差来确定所述当前像素的值。图13中的流程图步骤1301至1304会做进一步说明。
下面将更详细地讨论图1A和1B、图2A至2F和图3A至3F在应用于球形视频时的示例。
360°视频或球形视频是一种使用头戴式显示器(head-mounted display,简称HMD)等设备体验沉浸式视频的新方式。通过捕获整个世界的全景图,这项技术可以为消费者提供沉浸式“身临其境”的体验。通常使用多台摄像机的特殊装备或使用包含多个嵌入式摄像头的专用虚拟现实(virtual reality,简称VR)摄像机来录制360°视频。然后将生成的录像缝合在一起以形成单个视频。此过程可以由相机本身完成,也可以使用视频编辑软件来完成,该软件可以分析常见的视觉效果,将不同的相机馈入同步并链接在一起,以代表相机装备周围的整个视野。本质上,相机或相机系统将360°场景映射到球体上。
然后将缝合的图像(即球体表面上的图像)从球形表示映射(或展开)到基于投影(例如等矩长方投影)的二维(two-dimensional,简称2D)矩形表示,然后使用例如标准视频编码解码器,例如H.264/AVC(高级视频编码)和H.265/HEVC(高效视频编码)来进行编码。
在观看端,在解码之后将视频映射到虚拟球体,而观看者位于虚拟球体的中心。观看者可以在虚拟球体内部导航,以按需查看360°的世界视图,从而获得沉浸式体验。
如图5所示,测地曲线523是场景510的直线511在视球520上的投影。更具体地,测地曲线是大圆圈521的一部分(即,弧523)。大圆圈是由直线511和球体中心522定义的平面内的圆521。
从数学上可以知道,无数条线(或部分圆或弧线)可以穿过球体上的两个点。只有其中一个点位于大圆圈上。这意味着,一旦知道了一条线在视球上的两个点的位置,就可以确定通过这两个点的一条唯一的测地曲线。等距长方投影(或任意其他类型的球到2D投影)中的该测地曲线的曲率参数完全由这两个点定义,并且无需明确的信令即可推导出。
与非球形视频一样,可以使用任意合适的检测算法等为球形视频确定消失点。如上所述,直线投影到单位球体上成为测地曲线。测地曲线是大圆圈的一部分,大圆圈是球体与直线和球体中心所定义的平面的交集。如图6所示,两条平行线611A、611B被投影在两个大圆圈621A、621B上。这两个大圆圈621A、621B在两个点(即,前消失点623和后消失点624)上相交。测地曲线类似于球体620上的直线。通过球体620上的每两个点,只能绘制一条测地曲线。在球形视频的情况下,可以获得需要预测的图像帧上的当前像素位置(消失点位置之前已经确定),并且可以通过这两个点在球体620上确定测地曲线,然后可以沿着该曲线执行帧内预测,如图8的示例800进一步所示。
如图7的示例700所示,可以获得当前块中的点的位置(例如,块的中心或左上角)。可以从选定点到消失点确定测地曲线。例如,通过在测地曲线与当前块相交的点上确定一条线,并选择与所确定的线具有最小角度差的角度模式,可以选择最适合所述测地曲线的可用角度模式之一。然后,最接近的角度模式可以用于当前块的帧内预测。该方法可以简化计算。图14中的流程图步骤1401至1404会做进一步说明。
或者,可以获得当前块中的点的位置(例如,该块的中心或左上角)。可以从所选点到消失点确定测地曲线,并且可以获得所确定的测地曲线的参数。然后,针对待预测块的每个像素,可以使用获得的参数沿着测地曲线执行帧内预测。图15中的流程图步骤1501至1504会做进一步说明。
或者,针对待预测块的每个像素,可以确定从当前点到消失点的测地曲线。然后,可以沿着该确定的测地曲线执行帧内预测。图16中的流程图步骤1601至1604会做进一步说明。
如上所述,在图1A和1B、图2A至2F和图3A至3F的任意示例中,可以选择一个以上的消失点并将其用于预测。由于曼哈顿世界中有许多平行和正交的线(例如建筑物、窗户、房间等),因此可以选择第二消失点,例如,作为与主导方向成90°距离的点。在球形表示中,这可以通过,例如,将经度坐标偏移90°来完成。另一种方法是在潜在消失点处交叉的线的数量直方图中选择另一个最大值。
如果在图片或图片的一部分中选择了若干消失点,则可以为每个消失点分配自身的标识。对于每个块,可以选择可能的消失点之一并用该标识发信号通知。
如上所述,在图1A和1B、图2A至2F和图3A至3F的任意示例中,可以为源自一个预选消失点的所有预测线使用单个标识。要允许此种情况,可以实现以下几种信令变体:
(1)第一比特标志或指示可用于标记当前块的预测方向是否延伸到预选消失点之一。图17中的流程图步骤1701至1703会做进一步说明。在预选了两个消失点的情况下,第二比特标志或指示可以用于发信号通知使用哪个特定的消失点。甚至更多消失点也可以用类似的方式发信号通知。图18中的流程图步骤1801至1804会做进一步说明。
(2)可以将透视预测标识添加到可用帧内预测模式列表中,并且可以将传统模式用作信令机制。如果选择了所述透视预测标识,则发送附加标识以标识使用了哪个特定的消失点。
(3)添加了与几个消失点相对应的若干透视预测标识。然后使用传统的帧内预测模式信令机制。
“最可能模式”(most probable mode,简称MPM)列表可用于优化信令,例如,H.265/HEVC中的信令。这样做的原因在于要通过从已编码相邻块中预选模式来缩短可能模式的列表,如图19中的图形1900所示。这允许花费更少的比特来发送缩短的列表中的模式索引。
相应地,在图1A和1B、图2A至2F和图3A至3F的示例中,当应用于非球形视频和上述信令变型(1)时,可以确定最接近透视预测的定向模式,例如,如图4A的示例所示,并且之后可以将其用于MPM列表初始化,如图20中的图形2000进一步所示。
在图1A和1B、图2A至2F和图3A至3F的示例中,当应用于球形视频和上述信令变型(1)时,可以确定最接近沿测地曲线进行的透视预测的定向模式,例如,如图7的示例所示,并且之后可以将其用于MPM列表初始化,如图21中的图形2100进一步所示。此外,可以使用任何类型的曲线预测,如图22中的图形2200进一步所示。
本文描述的功能可以至少部分地由程序代码执行,例如,程序代码可以在非暂时性计算机可读存储介质(例如,磁、电、光或其任意组合;例如硬盘、闪存驱动器、EPROM、CD、DVD或蓝光光盘)上提供。根据一个实施例,所述视频编码器100和/或所述视频解码器110包括由程序代码配置的处理器,以执行所描述的操作和功能的实施例。可替代地或另外地,本文描述的功能可以至少部分由一个或多个硬件逻辑组件执行。例如但不限于,可以使用的说明性类型的硬件逻辑组件包括现场可编程门阵列(field programmable gate array,简称FPGA)、专用集成电路(application-specific integrated circuit,简称ASIC)、专用标准产品(application-specific standardproduct,简称ASSP)、片上系统(System-On-a-Chip,简称SOC)、复杂可编程逻辑器件(complex programmable logical device,简称CPLD)和图形处理单元(graphics processing unit,简称GPU)。
此处给出的任何范围或设备值都可以扩展或更改,而不失去所寻求的效果。除非明确禁止,否则任何实施例都可以与其它实施例组合。
虽然已经以特定于结构特征和/或动作的语言描述了主题,但是应该理解的是,权利要求书定义的主题不必局限于上面描述的具体特征或动作。而是,以上描述的特定特征和动作被公开为实现权利要求的示例,并且其它等效特征和动作意图落入权利要求的范围内。
可理解,上述益处和优点可以涉及一个实施例或者可以涉及若干实施例。实施例不限于解决任何或所有所述问题的实施例或者具有任何或所有所述益处和优点的实施例。还可理解,对“一个”项的引用可以指那些项中的一个或多个。
本文描述的方法的步骤可以以任何适当的顺序执行,或者在适当的情况下同时执行。此外,单独的框可从任意方法删除而不脱离本文所描述的主题的精神和范围。上述任何实施例的方面可以与所描述的任意其他实施例的方面结合以形成进一步的实施例而不失去所寻求的效果。
术语“包括”在本文中用来表示包括所标识的方法、框或元素,但是这样的框或元素不包括排他性列表,并且方法或装置可以包含附加的框或元素。
可理解的是,以上描述仅是通过示例的方式给出的,并且本领域技术人员可以做出各种修改。上面的说明书、示例和数据提供了示例性实施例的结构和使用的完整描述。尽管以上已经以某种程度的特殊性或参考一个或多个单独的实施例描述了各种实施例,但是本领域技术人员可以在不脱离本说明书的精神或范围的情况下对所公开的实施例进行众多更改。

Claims (17)

1.一种视频编码器(100),其特征在于,包括:
输入单元(101),用于接收视频的帧,其中每个帧包括像素块;
帧内预测单元(102),用于针对待编码当前块确定消失点(440;480)并通过基于源自所述消失点的预测线(430;451)执行帧内预测来生成残差,所述消失点是指在图像平面内空间中的平行线似乎汇聚的点,所述预测线为穿过一个或多个参考像素的线;以及
输出单元(103),用于基于所述残差提供已编码比特流;
所述视频包括非球形视频,并且所述预测线包括直线;或
所述视频包括球形视频,并且所述预测线包括测地曲线。
2.根据权利要求1所述的视频编码器(100),其特征在于,所述帧内预测单元(102)用于针对所述待编码当前块的每个像素沿着所述预测线执行所述帧内预测。
3.根据权利要求1至2中任一项所述的视频编码器(100),其特征在于,所述帧内预测单元(102)用于通过最接近所述预测线的定向模式(413)来执行所述帧内预测。
4.根据权利要求1所述的视频编码器(100),其特征在于,所述帧内预测单元(102)用于沿着源自所述消失点(480)的像素特定的预定预测线(451–454)执行所述帧内预测。
5.根据权利要求1所述的视频编码器(100),其特征在于,所述帧内预测单元(102)用于为源自相同消失点的每条预测线分配相同的标识。
6.根据权利要求1所述的视频编码器(100),其特征在于,所述帧内预测单元(102)用于使用第一指示来指示是否基于源自所述消失点的所述预测线来执行所述帧内预测。
7.根据权利要求1所述的视频编码器(100),其特征在于,所述帧内预测单元(102)用于针对所述接收的视频的帧中的至少一个并基于至少两个消失点之一来执行所述帧内预测。
8.根据权利要求7所述的视频编码器(100),其特征在于,所述帧内预测单元(102)用于使用第二指示来指示使用哪个特定的消失点来沿着所述预测线执行所述帧内预测。
9.一种视频解码器(110),其特征在于,包括:
输入单元(111),用于接收表示视频的帧的已编码比特流,其中每个帧包括像素块;
帧内预测单元(112),用于针对待解码当前块从所述已编码比特流中获得消失点(440;480),并通过基于源自所述消失点的预测线(430;451)执行帧内预测来计算所述待解码当前块的像素值,所述消失点是指在图像平面内空间中的平行线似乎汇聚的点,所述预测线为穿过一个或多个参考像素的线;以及
输出单元(113),用于基于所述计算出的像素值来提供已解码视频;
所述视频包括非球形视频,并且所述预测线包括直线;或
所述视频包括球形视频,并且所述预测线包括测地曲线。
10.根据权利要求9所述的视频解码器(110),其特征在于,所述帧内预测单元(112)用于针对所述待解码当前块的每个像素沿着所述预测线执行帧内预测。
11.根据权利要求9至10中任一项所述的视频解码器(110),其特征在于,所述帧内预测单元(112)用于通过最接近所述预测线的定向模式(413)来执行所述帧内预测。
12.根据权利要求9所述的视频解码器(110),其特征在于,所述帧内预测单元(112)用于沿着源自所述消失点(480)的像素特定的预测线(451–454)执行所述帧内预测。
13.根据权利要求9所述的视频解码器(110),其特征在于,所述帧内预测单元(112)用于使用第一指示来确定是否基于源自所述消失点的所述预测线来执行所述帧内预测。
14.根据权利要求9所述的视频解码器(110),其特征在于,所述帧内预测单元(112)用于针对所述接收的已编码比特流所表示的所述视频的帧中的至少一个并基于至少两个消失点之一来执行所述帧内预测。
15.根据权利要求14所述的视频解码器(110),其特征在于,所述帧内预测单元(112)用于使用第二指示来确定使用哪个特定的消失点来沿着所述预测线执行所述帧内预测。
16.一种视频编码方法(200),其特征在于,包括:
接收(201)视频的帧,其中每个帧包括像素块;
针对待编码当前块,确定消失点并通过基于源自所述消失点的预测线执行帧内预测来生成(202A–202F)残差,所述消失点是指在图像平面内空间中的平行线似乎汇聚的点,所述预测线为穿过一个或多个参考像素的线;以及
基于所述残差提供(203)已编码比特流;
所述视频包括非球形视频,并且所述预测线包括直线;或
所述视频包括球形视频,并且所述预测线包括测地曲线。
17.一种视频解码方法(300),其特征在于,包括:
接收(301)表示视频的帧的已编码比特流,其中每个帧包括像素块;
针对待解码当前块从所述已编码比特流中获得消失点,并通过基于源自所述消失点的预测线执行帧内预测来计算(302A–302F)所述待解码当前块的像素值,所述消失点是指在图像平面内空间中的平行线似乎汇聚的点,所述预测线为穿过一个或多个参考像素的线;以及
基于所述计算出的像素值来提供(303)已解码视频;
所述视频包括非球形视频,并且所述预测线包括直线;或
所述视频包括球形视频,并且所述预测线包括测地曲线。
CN201780092200.6A 2017-06-14 2017-06-14 通过透视信息进行视频编码的帧内预测 Active CN111066322B (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/RU2017/000413 WO2018231087A1 (en) 2017-06-14 2017-06-14 Intra-prediction for video coding using perspective information

Publications (2)

Publication Number Publication Date
CN111066322A CN111066322A (zh) 2020-04-24
CN111066322B true CN111066322B (zh) 2022-08-26

Family

ID=59829430

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201780092200.6A Active CN111066322B (zh) 2017-06-14 2017-06-14 通过透视信息进行视频编码的帧内预测

Country Status (4)

Country Link
US (1) US11240512B2 (zh)
EP (1) EP3639517B1 (zh)
CN (1) CN111066322B (zh)
WO (1) WO2018231087A1 (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021162724A1 (en) * 2020-02-13 2021-08-19 Google Llc Intra prediction for image and video compression
CN111818333B (zh) * 2020-06-16 2022-04-29 中国科学院深圳先进技术研究院 一种帧内预测方法、装置、终端及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012026122A1 (ja) * 2010-08-26 2012-03-01 パナソニック株式会社 撮像装置
CN103299610A (zh) * 2011-01-12 2013-09-11 华为技术有限公司 用于视频插入的方法和设备
CN104506872A (zh) * 2014-11-26 2015-04-08 深圳凯澳斯科技有限公司 一种平面视频转立体视频的方法及装置
CN106464900A (zh) * 2014-07-18 2017-02-22 松下电器(美国)知识产权公司 图像编码方法、图像解码方法、图像编码装置、图像解码装置及内容发布方法

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4107587B2 (ja) * 2003-12-17 2008-06-25 三菱電機株式会社 車線認識画像処理装置
EP1971154A4 (en) 2006-01-05 2010-10-27 Nippon Telegraph & Telephone VIDEO CODING METHOD AND DECODING METHOD, DEVICE THEREFOR, DEVICE THEREFOR AND STORAGE MEDIUM WITH THE PROGRAM
US9215470B2 (en) * 2010-07-09 2015-12-15 Qualcomm Incorporated Signaling selected directional transform for video coding
EP2536142A1 (en) * 2011-06-15 2012-12-19 NEC CASIO Mobile Communications, Ltd. Method and a system for encoding multi-view video content
WO2014171713A1 (ko) 2013-04-15 2014-10-23 인텔렉추얼 디스커버리 주식회사 인트라 예측을 이용한 비디오 부호화/복호화 방법 및 장치
US9918082B2 (en) 2014-10-20 2018-03-13 Google Llc Continuous prediction domain
US10104361B2 (en) 2014-11-14 2018-10-16 Samsung Electronics Co., Ltd. Coding of 360 degree videos using region adaptive smoothing

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012026122A1 (ja) * 2010-08-26 2012-03-01 パナソニック株式会社 撮像装置
CN103299610A (zh) * 2011-01-12 2013-09-11 华为技术有限公司 用于视频插入的方法和设备
CN106464900A (zh) * 2014-07-18 2017-02-22 松下电器(美国)知识产权公司 图像编码方法、图像解码方法、图像编码装置、图像解码装置及内容发布方法
CN104506872A (zh) * 2014-11-26 2015-04-08 深圳凯澳斯科技有限公司 一种平面视频转立体视频的方法及装置

Also Published As

Publication number Publication date
US20200107026A1 (en) 2020-04-02
EP3639517A1 (en) 2020-04-22
US11240512B2 (en) 2022-02-01
CN111066322A (zh) 2020-04-24
WO2018231087A1 (en) 2018-12-20
EP3639517B1 (en) 2021-02-24

Similar Documents

Publication Publication Date Title
US11115680B2 (en) Apparatuses and methods for encoding and decoding a panoramic video signal
US11800150B2 (en) Method for deriving a motion vector
JP2019534620A5 (zh)
US9992494B2 (en) Method of depth based block partitioning
JP6232076B2 (ja) 映像符号化方法、映像復号方法、映像符号化装置、映像復号装置、映像符号化プログラム及び映像復号プログラム
US9667969B2 (en) Method and apparatus for encoding a video stream having a transparency information channel
US20150365698A1 (en) Method and Apparatus for Prediction Value Derivation in Intra Coding
US20150264356A1 (en) Method of Simplified Depth Based Block Partitioning
CA2896132C (en) Method and apparatus of compatible depth dependent coding
WO2014166433A1 (zh) 深度图像的编解码方法和编解码装置
US11240512B2 (en) Intra-prediction for video coding using perspective information
WO2015083742A1 (ja) 映像符号化装置及び方法、映像復号装置及び方法、及び、それらのプログラム
US10341682B2 (en) Methods and devices for panoramic video coding and decoding based on multi-mode boundary fill
JP5759357B2 (ja) 映像符号化方法、映像復号方法、映像符号化装置、映像復号装置、映像符号化プログラム及び映像復号プログラム
Maceira et al. Region-based depth map coding using a 3D scene representation
US20230419519A1 (en) Depth estimation method in an immersive video context
US20160360200A1 (en) Video encoding method, video decoding method, video encoding apparatus, video decoding apparatus, video encoding program, and video decoding program
US20170019683A1 (en) Video encoding apparatus and method and video decoding apparatus and method
WO2016123774A1 (zh) 编解码方法和编解码器
KR20180117095A (ko) 비디오 글로벌 디스패리티 벡터에 대한 부호화 방법, 복호화 방법, 및 장치.
WO2013077638A1 (ko) 칼라영상을 이용해서 다시점 깊이영상을 부호화 / 복호화 하는 장치 및 방법
KR20160064844A (ko) 깊이맵 기반 블록 파티션 방법 및 장치

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant