CN109417642B - 用于高分辨率影像流的影像比特流生成方法和设备 - Google Patents

用于高分辨率影像流的影像比特流生成方法和设备 Download PDF

Info

Publication number
CN109417642B
CN109417642B CN201780040839.XA CN201780040839A CN109417642B CN 109417642 B CN109417642 B CN 109417642B CN 201780040839 A CN201780040839 A CN 201780040839A CN 109417642 B CN109417642 B CN 109417642B
Authority
CN
China
Prior art keywords
picture
region
encoded
importance
tile
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201780040839.XA
Other languages
English (en)
Other versions
CN109417642A (zh
Inventor
林晶娟
申在燮
柳圣杰
孙世勋
金炯德
李善英
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
SK Telecom Co Ltd
Pixtree Inc
Original Assignee
SK Telecom Co Ltd
Pixtree Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by SK Telecom Co Ltd, Pixtree Inc filed Critical SK Telecom Co Ltd
Priority claimed from PCT/KR2017/007028 external-priority patent/WO2018004317A1/ko
Publication of CN109417642A publication Critical patent/CN109417642A/zh
Application granted granted Critical
Publication of CN109417642B publication Critical patent/CN109417642B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/167Position within a video image, e.g. region of interest [ROI]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/111Transformation of image signals corresponding to virtual viewpoints, e.g. spatial image interpolation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/161Encoding, multiplexing or demultiplexing different image signal components
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/115Selection of the code volume for a coding unit prior to coding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/117Filters, e.g. for pre-processing or post-processing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/184Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being bits, e.g. of the compressed video stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/40Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using video transcoding, i.e. partial or full decoding of a coded input stream followed by re-encoding of the decoded output stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
    • H04N21/23418Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
    • H04N21/2343Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
    • H04N21/2343Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements
    • H04N21/234327Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements by decomposing into layers, e.g. base layer and one or more enhancement layers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
    • H04N21/2343Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements
    • H04N21/23439Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements for generating different versions
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/236Assembling of a multiplex stream, e.g. transport stream, by combining a video stream with other content or additional data, e.g. inserting a URL [Uniform Resource Locator] into a video stream, multiplexing software data into a video stream; Remultiplexing of multiplex streams; Insertion of stuffing bits into the multiplex stream, e.g. to obtain a constant bit-rate; Assembling of a packetised elementary stream
    • H04N21/2365Multiplexing of several video streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/238Interfacing the downstream path of the transmission network, e.g. adapting the transmission rate of a video stream to network bandwidth; Processing of multiplex streams
    • H04N21/2383Channel coding or modulation of digital bit-stream, e.g. QPSK modulation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/472End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content
    • H04N21/4728End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content for selecting a Region Of Interest [ROI], e.g. for requesting a higher resolution version of a selected region
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/60Network structure or processes for video distribution between server and client or between remote clients; Control signalling between clients, server and network components; Transmission of management data between server and client, e.g. sending from server to client commands for recording incoming content stream; Communication details between server and client 
    • H04N21/65Transmission of management data between client and server
    • H04N21/658Transmission by the client directed to the server
    • H04N21/6587Control parameters, e.g. trick play commands, viewpoint selection
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/81Monomedia components thereof
    • H04N21/816Monomedia components thereof involving special video data, e.g 3D video
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/222Studio circuitry; Studio devices; Studio equipment
    • H04N5/262Studio circuits, e.g. for mixing, switching-over, change of character of image, other special effects ; Cameras specially adapted for the electronic generation of special effects
    • H04N5/2624Studio circuits, e.g. for mixing, switching-over, change of character of image, other special effects ; Cameras specially adapted for the electronic generation of special effects for obtaining an image which is composed of whole input images, e.g. splitscreen

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Databases & Information Systems (AREA)
  • Human Computer Interaction (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

公开了一种生成用于高分辨率影像流的影像比特流的方法和设备。本申请实施方式的主要目的是提供用于通过根据区域对不同的影像质量的一幅影像进行编码来生成影像流的方法和设备,用以高效地发送大量高分辨率影像内容。

Description

用于高分辨率影像流的影像比特流生成方法和设备
技术领域
在一些实施方式中,本公开涉及一种用于通过针对每个影像区域以不同比特率压缩影像来生成影像比特流以便高效地流式传输大量高分辨率影像内容的方法和设备。
背景技术
本部分中的陈述仅提供与本公开有关的背景信息,而并不一定构成现有技术。
在传统影像内容流技术的自适应比特率流(ABS)中,编码器编码并发送影像内容,以对应于每个服务向内容递送网络(CDN)的流服务器请求的比特率。在以不同比特率对每个影像内容进行编码之后,流服务器准备具有不同质量的多个编码文件,以便将影像内容适当地分发给用户终端设备和网络环境。
流服务器以固定的时间间隔向用户终端设备流式传输所请求的根据可变的用户环境而变化的比特率的文件。例如,用户终端设备可以以一秒为单位从高分辨率(HD)类别中的以2Mbps编码的比特流、标准清晰度(SD)类别中的以1Mbps编码的比特流以及低清晰度(LD)类别中的以0.5Mbps编码的比特流当中接收并重建适合于用户环境的比特流。
需要高影像质量的像虚拟现实(VR)内容一样的内容占用了大量数据,并且最终需要许多硬件资源。当以不同质量编码相同内容时,借助于传统技术来流式传输这些大量内容会导致数据量进一步增加。这在流服务器中占用了非常高容量的存储空间。因此,高效地流式传输大量影像内容需要一种减少数据量的方法。
发明内容
技术问题
为了高效地传送大量高清影像内容,在一些实施方式中,本公开试图提供一种用于通过针对影像内容的每个影像区域对具有不同影像质量的影像内容进行编码来生成影像比特流的方法和设备。
技术方案
根据本公开的一些实施方式,一种用于高分辨率影像流的影像提取和合并设备包括编码数据接收单元和影像生成单元。所述编码数据接收单元被配置为接收针对输入影像的分别以不同比特率编码的多个编码比特流。所述影像生成单元被配置为基于所述输入影像的多个区域的重要性对所述多个区域进行分类,针对所述多个区域中的每一个区域,从以与所述区域的重要性对应的比特率编码的编码比特流中提取与所述区域对应的数据,合并所提取的分别与所述多个区域对应的所述数据,以生成混合影像流。
根据本公开的一些实施方式,一种用于高分辨率影像流的影像流设备包括多信道流接收单元、比特流选择单元和终端请求接收单元。所述多信道流接收单元被配置为接收包括编码比特流的多个混合影像流,所述编码比特流是根据输入影像的多个构成区域的重要性而针对所述多个构成区域中的每一个区域分别以不同比特率编码的。所述比特流选择单元被配置为获得所述输入影像的高重要性位置信息,从所述多个混合影像流当中选择与所述高重要性位置信息匹配的混合影像流,并发送所选择的所述混合影像流。所述终端请求接收单元被配置为从用户终端设备接收所述高重要性位置信息。
根据本公开的一些实施方式,一种生成用于高分辨率影像流的影像比特流的方法包括以下步骤:接收针对输入影像的分别以不同比特率编码的多个编码比特流;基于所述输入影像的多个区域中的每一个区域的重要性对所述多个区域进行分类;针对多个区域中的每一个区域,从所述多个编码比特流当中的以与所述区域的重要性对应的比特率编码的编码比特流中提取与所述区域对应的数据;以及合并所提取的分别与所述多个区域对应的编码数据,以生成混合影像流。
根据本公开的一些实施方式,一种生成用于高分辨率影像流的影像比特流的方法包括以下步骤:获得包括编码比特流的多个混合影像流,所述编码比特流是根据输入影像的多个构成区域的重要性而针对所述多个构成区域中的每一个区域分别以不同比特率编码的;获得所述输入影像的高重要性位置信息;以及从所述多个混合影像流当中选择与所述高重要性位置信息匹配的混合影像流,并且发送所选择的所述混合影像流。
有益效果
如上所述,在一些实施方式中,本公开提供了用于生成影像比特流的方法和设备,其通过针对每个影像区域对具有不同影像质量的每个影像进行编码来高效地传送大量高清晰度影像内容。
根据本公开的一些实施方式,利用在用户的观看区域(视场内)与用户的非观看区域(视野外)之间应用可区分的比特率并基于用户在用户终端设备(例如,VR)的视角发送诸如4K超高清晰度(4K UHD)和8K UHD的超高分辨率的影像内容,从而节省了要再现为背景的影像区域的数据量,这致使缓冲效果最小化。
根据本公开的一些实施方式,当发送诸如VR内容的高分辨率私有影像内容时,随着用户的观看区域(或视角)的变化而提供将与用户的视野对应的影像区域快速地从低质量影像切换到高质量影像。
根据本公开的一些实施方式,较少量的硬件资源用于渲染影像内容,这具有用于提供诸如VR内容的超高清晰度影像内容的硬件所需的性能级别较低(或规范不太严格)的效果。
附图说明
图1是根据本公开的一些实施方式的影像比特流生成系统的配置的示意图。
图2a是示出影像或图像中的图块(tile)经历可以参考同一图像中的其它图块的帧间预测的情况的示图。图2b是示出图块经历可以专门参考同一图块所属的特定区域内的同一图像上的其它图块的帧间预测的情况的示图。
图3是包括在一个图像中的图块集中的图块索引和显示区域的示图。
图4是根据本公开的一些实施方式的影像提取和合并设备的配置的示图。
图5是影像中的所有图块被独立地编码而不参考相邻图块以便基于关于重要性位置的信息或高重要性位置信息来提取和合并图块的情况(a)和情况(b)的示图。
图6是基于图5的(a)和(b)中的编码数据而根据本公开的一些实施方式构造的影像比特流的概念图(a)至(d)。
图7是基于图5的(a)和(b)中的编码数据而根据本公开的另一实施方式构造的影像比特流的概念图(a)至(d)。
图8是通过使用从输入影像源检测到的一个或更多个对象位置来设置重要性区域的情况(a)和情况(b)的示图,其中,所设置的重要性区域的数量取决于检测到的对象的数量。
图9是根据本公开的另一实施方式的输入影像源的编码数据的概念图(a)至(d)。
图10是基于图9中的从(a)至(d)的编码数据而根据本公开的一些实施方式构造的混合影像流的概念图(a)至(d)。
图11是基于图9中的从(a)至(d)的编码数据而根据本公开的另一实施方式构造的混合影像流的概念图(a)至(d)。
图12是根据本公开的又一实施方式构造的混合影像流的概念图(a)至(d)。
图13示出了分别生成由独立图块组成的高比特率编码数据和由非独立图块组成的高比特率编码数据以及通过使用这两个经过编码的比特流来提取和合并影像的示例处理。
图14示出了合并的混合影像流的示例图块结构,其中,从由非独立图块组成的编码数据2中提取第5号图块,并且从由独立图块组成的编码数据1中提取所有其它图块。
图15a是由独立图块组成的影像的示图。图15b是由非独立图块组成的影像的示图。
图16a是360°球体上的视角区域(或显示区域)的示图。图16b是360°球体上的坐标的示图。
图17a是球体上的显示区域的示图。图17b是等矩形影像中的与图17a对应的区域的示图。
图18是等矩形显示影像和包括在该影像中的图块的示图。
图19是根据一些实施方式的流递送设备140的框图。
图20是根据一些实施方式的用户终端设备150的框图。
图21是根据本公开的一些实施方式的生成混合影像流的方法的流程图。
图22是根据本公开的另一实施方式的生成混合影像流的方法的流程图。
具体实施方式
以下,将参照附图详细地描述本公开的一些实施方式。
贯穿本说明书,诸如“单元”、“模块”等的术语是指用于处理至少一种功能或操作的单元,其可以通过硬件、软件或者硬件和软件的组合来实现。
图1是根据本公开的一些实施方式的影像比特流生成系统的配置的示意图。
如图1所示,根据本公开的一些实施方式的影像比特流生成系统100包括影像拼接器(stitcher)110、编码器120、影像提取和合并设备130、流递送设备140和用户终端设备150。尽管图1例示了影像拼接器110、编码器120、影像提取和合并设备130以及流递送设备140作为单独的设备存在,但本公开不限于此,并且其可以被实现为包括所有相应功能或者一些功能中的多种功能集成为一种功能的形式的单个集成设备。
影像拼接器110接收从多个相机输出的多个影像,将多个影像彼此同步和拼接组成图像,并将拼接后的图像发送给编码器120。
编码器120以不同的比特率对已经从影像拼接器110拼接输入的一个影像源(即,图像)进行编码,并且生成具有不同的比特率的多个影像流。换句话说,编码器120可以以包括相对高比特率(高影像质量)到相对低比特率(低影像质量)的多比特率(多种影像质量)对拼接输入的图像进行编码。这里,多个影像流中的一个影像流是针对输入影像源的以包括相对高比特率到相对低比特率的多种比特率中的一种比特率编码的编码比特流。以下,由编码器120生成的影像流也被称为编码数据。
一旦从编码器120接收到从以不同比特率编码的一个影像中获得的不同编码比特流,影像提取和合并设备130就进行操作,以提取与所述一个影像中的不同区域对应的不同编码比特流,并且合并从不同区域提取的编码比特流,从而输出针对这种影像中的不同区域具有不同影像质量的混合影像流。另外,影像提取和合并设备130获得关于多个重要性区域的信息,并且根据多个重要性区域的位置生成并输出具有不同影像质量配置文件的多个混合影像流。
编码器120将一个输入影像源(即,影像或图像)划分为多个图块或切片,或者划分为多个图块和针对每个图块的多个切片,或者划分为多个切片和针对每个切片的多个图块,并且并行处理所划分的部分。例如,编码器120可以分别以相对高比特率(高影像质量)、一个或更多个中间比特率以及相对低比特率对影像源(影像或图像)进行编码,以生成多个编码比特流。这意味着,根据实施方式,三种不同比特率以及两种不同比特率可应用于对一个影像源进行编码。利用通过一个影像源进行编码而生成的多个编码比特流,所生成的多个编码比特流被形成为具有相同的图块结构。
这里,图块是指数据处理单元,作为最大编码单元的一组编码树块(CTB),并且它包含垂直方向上的n个块乘以水平方向上的m个块的编码树块(假设m和n彼此相等或不同)。切片是指包括由切片边界分开的至少一个或更多个最大编码单元的数据处理单元。图块和切片由作为影像压缩的基本单元的多个编码树块组成。
图2a是示出图像中的图块经历可以对参考图像中的除了并置图块以外的图块进行参考的帧间预测的情况的示图。图2b是示出图块经历了可以专门参考参考图像中的并置图块所属的特定区域内的其它图块的帧间预测的情况的示图。
在高效影像编码(HEVC)中,在帧间预测期间图块可以参考参考图像中的除其自身(即,并置图块)之外的其它图块。然而,为了合并和提取影像中的特定区域,可以由帧间预测参考图像120提供设置,以禁止在帧间预测期间参考除了并置图块之外的任何其它区域的图块。
在图2a的HEVC编码图像的图块结构中,虚线定义设置为允许相邻图块之间进行参考的容限区域,而在图2b中,实线指示设置为不允许相邻图块之间参考区域的边界,否则设置为容限区域。编码器120将称为补充增强信息(SEI)的附加信息与编码数据一起发送给影像提取和合并设备130,该SEI包含关于编码图像内的图块结构的信息。
另外,影像提取和合并设备130可以针对以与每个区域对应的每种比特率编码的每个混合影像流单元将关于SEI的附加信息进行修改并发送给流递送设备140。为此,影像提取和合并设备130可以生成或修改关于图像中的图块结构的SEI的附加信息,并将SEI的附加信息与混合影像流一起插入到比特流中。由影像提取和合并设备130生成的附加信息可以包括关于图像中的显示区域(即,重要性区域)中所包含的图块集的数量、位置和配置的信息中的至少一种,其中,配置信息可以包括重要性区域的形状。
这可以用句法表达,如表1所示。如[表1]所示,相关的重要性区域可以被呈现为以下句法:该句法包括图像中的重要性区域的图块集中所包括的位于最左上方位置处的图块的图块索引值(topleft_tile_idx)以及图块集中的位于最右下方位置处的图块的另一图块索引(bottomright_tile_idx)。
[表1]
topleft_tile_idx
bottomright_tile_idx
另外,当图像中存在多个重要性区域时,或者当重要性区域由多个图块集组成时,可以通过向句法信息添加图块集的数量(num_tile_set_minus1)、多个图块集的相应图块的标识(tile_set_id[i])、以及针对每个相应图块集的标识的位置信息(topleft_tile_idx[i],bottomright_tile_idx[i])来表达相关的多个图块集,并且表达多个图块集的句法如表2所示。
[表2]
Figure BDA0001927353820000071
图3是包括在一个图像中的显示区域和多个图块中的每一个图块的索引的示图。
例如,当使用表2的句法并且其中一个图像被设置为包括与如图3所示的位于这种位置处的和按照这种配置的重要性区域对应的一个图块集(图块5、6、9、10)时,作为表示图块集的数量的句法,num_tile_set_minus1句法具有值“0”,指示该图块集的标识符的tile_set_id句法也为“0”;topleft_tile_idx句法对应于“5”,其指示重要性区域中的最左上方位置处的图块的索引;并且bottomright_tile_idx句法对应于“10”,其指示重要性区域中的最右下方位置处的图块的索引。
更具体地,图块结构是包括多个编码树块的矩形结构,并且切片结构由根据编码树块的编码顺序进行分组的特定数量的编码树块组成。图块和切片二者都可以用于以各种形式分割输入影像,变为可以用于执行HEVC编码和解码的数据结构。每个图块结构处于CTB(编码树块)的矩阵形式。例如,一个图块可以以不受限制的其它形式当中的CTB的3×3矩阵形式或4×3矩阵形式构造,并且不言而喻,一个图块结构可以是各种大小的CTB矩阵。
当以从高影像质量到低影像质量的多种影像质量对一个输入源进行编码时,编码器120对编码数据的多种影像质量中的每一种影像质量进行设置,以设置相应图块的位置并将针对每个图块位置的图块大小设置为彼此相等。关于图块的大小和位置的信息(即,图块的结构相关信息)被记录在输入影像源的比特流报头信息中。图块的结构相关信息项可以包括在影像参数集(VPS)、序列参数集(SPS)、图像参数集(PPS)或其扩展数据中,或者它们可以包括在补充增强信息(SEI)中。一些实施方式包括VPS的影像使用信息数据(VPS_VUI)中的图块结构相关信息。
例如,当针对水平轴和垂直轴中的每一个将图像中的所有图块划分为相同大小时,编码器120可以在输入影像源的图块相关比特流报头信息中记录关于图像内的相对于水平轴和垂直轴划分的图块的数量的信息。当没有相对于水平轴和垂直轴中的每一个将图块划分为相同大小时,需要添加关于图像内的相对于水平轴和垂直轴划分的图块的数量的信息和图块大小(宽度和高度)。
可以使用表3的句法来执行这些示例。
[表3]
Figure BDA0001927353820000081
表3是示出关于图块结构的信息包括在输入影像源的比特流报头信息中的一些实施方式的句法列表的一部分。标志“tiles_enabled_flag”是指示是否使用图块的标志,并且其指示相关图像是否包括多个图块。例如,当“tiles_enabled_flag”以PPS级别被包括在内时,该标志可以指示参考相关PPS的每个图像是否包含多个图块。当“tiles_enabled_flag”的值为1时,参考相关PPS的每个图像可以包含多个图块。然而,当“tiles_enabled_flag”的值为0时,参考相关PPS的每个图像可以仅包含一个图块。
标志“num_tile_columns_minus1”用于指示关于一个图像中存在的图块的列数的信息,“num_tile_rows_minus1”是指示关于一个图像中存在的图块的行数的信息的信息。标志“num_tile_columns_minus1”和标志“num_tile_rows_minus1”分别指示划分图像的图块的行数和列数。例如,当“tiles_structure_aligned_flag”为1时,这些“num_tile_columns_minus1”和“num_tile_rows_minus1”可以分别指代直接参考层的“num_tile_columns_minus1”和“num_tile_rows_minus 1”,使得可以推断出参考标志值等于它们参考的标志值。
标志“uniform_spacing_flag”用于指示图块边界之间的间隔是否均匀,并且指示在整个图像上图块的水平大小和垂直大小是否是均匀的。当该值为1时,该标志指示图像中的各个图块的水平大小和垂直大小均匀分布。当其值为0时,该标志指示图块的水平大小和垂直大小不均匀,其中,可以分别直接通过“图块列的宽度信息(column_width_minus1[i])”和“图块行的高度信息(row_heignt_minus1[i])”来发信号通知图块的各个列的宽度和它们各自行的高度。
“column_width_minus1[i]”是图块的列宽信息,表示第i列图块的宽度,而“row_height_minus1[i]”是图块的行高信息,表示第i行图块的高度。这里,“column_width_minus1[i]”和“row_height_minus1[i]”的值可以以CTU为单位来表达。
例如,当“tiles_structure_aligned_flag”为1并且“uniform_spacing_flag”为0时,“column_width_minus1[i]”和“row_height_minus1[i]”可以分别从直接参考层的信息推断出来。也就是说,可以通过将直接参考层的“column_width_minus1[i]”的值缩放直接参考层在当前层之间的图像宽度比率来获得当前“column_width_minus1[i]”。类似地,可以通过将直接参考层的“row_height_minus1[i]”的值缩放直接参考层在当前层之间的图像高度比率来获得当前“row_height_minus1[i]”。
根据一些实施方式,编码器120通过使用图块结构或切片结构或者使用通过混合图块和切片而获得的结构来编码图像。仅为了便于解释,下面的描述例示了通过使用图块结构来编码图像。
当将一个输入影像源划分为多个图块以进行编码时,编码器120可以决定是对多个图块中的每一个图块进行独立编码,还是在允许图块在它们之间具有相关性的同时进行编码。
这里,独立编码意味着在预测编码和滤波(去块滤波器)时不同图块之间不存在相关性。换句话说,当图像中的图块被独立编码时,执行帧内预测不涉及参考同一图像中的另一相邻图块,并且执行帧间预测(其应该对参考图像进行参考)采用设置以仅参考与当前图块并置的图块,而不参考其它图块。在这种情况下,一旦图块被编码且然后被完全重建,则不会在图块边界处的其它图块之间执行滤波。
为了对各个图块进行独立编码,编码器120可以在相应图块的帧间预测期间不参考参考图像中的邻近的相邻图块。在这种情况下,在禁用图块边界区域的滤波功能之后进行编码。例如,可以利用要通过不参考除了自我参考(self-referencing)以外的其它图块(即,将相应图块设置为独立图块)来对所有图块中的每一个图块执行的帧间预测集来对高比特率编码数据和低比特率编码数据进行编码。
编码器120还可以使用输入影像以分别生成独立图块类型高比特率编码数据和非独立图块类型高比特率编码数据。
独立图块型高比特率编码数据是在对编码数据中的具有设置以不参考周围图块的所有图块(即,独立图块)进行帧间预测时进行编码而获得的。这里不参考周围图块的情况意指除了每个图块本身自我参考之外,不参考其它图块。
在允许对参考图像中的其它图块的像素数据和其它图块的编码信息中的至少一种进行参考的同时,在对包括在所编码和生成的所有相应图块(即,非独立图块)中的块进行帧间预测时进行编码以获得非独立图块类型高比特率编码数据。
可以在图块之间进行参考的一些以下描述意味着除了参考图像中的与当前图像中的图块并置的图块之外,还可以参考关于其它图块的信息。相反,在图块之间不能进行参考意味着除了参考图像中的与当前图像中的图块并置的图块之外,不能参考关于另一图块的信息。
或者,图块可以在与由相同影像质量表示的特定区域对应的图块集内彼此参考,并且可以对特定区域中的图块进行编码,同时禁止参考与特定区域的外部对应的图块集。另外,可以通过影像源报头信息(PPS)和切片报头信息来启用或禁用对图块边界区域进行滤波的功能。可以为每个图块和切片指定影像源报头中的指示滤波功能的有效或无效状态的信息。
为此,例如,可以在影像源的报头信息中使用“loop_filter_across_tiles_enabled_flag”和“pps_loop_filter_across_slices_enabled_flag”,并且可以在切片报头信息中使用诸如表4中所示的slice_loop_filter_across_slices_enabled_flag的句法,以作为指示切片之间的滤波功能的启用状态的信息。
[表4]
Figure BDA0001927353820000111
标志“love_filter_across_tiles_enabled_flag”用于指示是否在图块之间应用环路滤波,从而指示是否可以遍历相关图像中的图块边界来执行环内滤波。环内滤波器可应用于重建图像,并且它用于生成到影像重建设备的输出或要插入到解码图像缓冲器中的图像。
例如,当以PPS级别将“loop_filter_across_tiles_enabled_flag”包括在内时,它可以指示是否可以在引用该PPS的图像中的图块边界上执行环内滤波。当该标志值为1时,可以在引用该PPS的图像中的图块边界上执行环内滤波。然而,当标志值为0时,不在引用该PPS的图像中的图块边界上执行环内滤波。
标志“slice_loop_filter_across_slices_enabled_flag”用于指示是否可以在当前切片的左边界和上边界上执行环内滤波。如果标志值为1,则可以分别在当前切片的左边界和上边界上执行环内滤波。然而,当标志值为0时,不可以在当前切片的左边界和上边界上执行环内滤波。假设比特流中不存在的“slice_loop_filter_across_slices_enabled_flag”与“pps_loop_filter_across_slices_enabled_flag”相同。
编码器120可以分别以多个预定比特率(影像质量)对输入源进行编码,以生成与预定比特率一样多的流。此时,影像质量根据量化参数(Qp)的值来确定,该量化参数(Qp)是在量化过程中使用的参数。为了以高比特率进行编码,设置低Qp值(例如,Qp=12)。为了以低比特率进行编码,设置高Qp值(例如,Qp=25)。
可以为各种大小的包括影像源(图像)、切片、编码单元(CU)等的每个影像单元设置Qp值。换句话说,不同的Qp值可以用于对每个影像源进行编码,或者不同的Qp值可以用于对每个切片进行编码等。
例如,当在影像源的比特流报头中设置初始Qp值并使用所设置的影像源的比特流报头改变切片的Qp值时,可以以切片为单位来指定Qp值从初始Qp值改变的差值(作为切片Qp增量(delta)值)。另外,为了改变每个编码单元的Qp值,可以针对每个编码单元指定要从初始Qp值改变的Qp值的差值(cu Qp增量值)。例如,当在影像源比特流报头中将初始Qp值设置为26并且使用所设置的影像源比特流报头将切片的切片Qp增量值设置为+2时,切片的Qp值最终变为28。
为了使编码器120基于逐个切片设置Qp值并以多种比特率对输入影像源进行编码,编码器120可以设置图像结构,使得图块和切片相同,并且可以调整与图像中的每个图块对应的切片报头信息的切片Qp增量值,从而以多个比特率对输入影像源进行编码。
例如,当在影像源比特流报头中将初始Qp值设置为26时,为了以高比特率对影像源进行编码,将切片的切片Qp增量值设置为-10,这可以给出用于以高比特率对图块进行编码的最终Qp值为16。为了以低比特率对影像源进行编码,可以通过将切片的切片Qp增量值设置为+10并且最终Qp值变为36来实现。另外,这种通过生成高比特率编码数据或生成低比特率编码数据来调整编码数据的影像质量的这种方式也可以以编码单元为单位实现。
编码器120可以将影像源的初始Qp值记录到影像源报头信息中,将切片的切片Qp增量值记录到切片报头信息中,将编码单元的cu Qp增量值记录到编码单元报头信息中。
一些实施方式包括指示影像源报头信息中的处于图像级别的初始Qp值的句法(init_qp_minus26),包括切片报头信息中的指示“init_qp_minus26”与处于切片级别的初始Qp值之间的差值的句法(slice_qp_delta),并且包括编码单元报头信息中的指示Qp值与处于编码单元级别的预测Qp值之间的差值的句法(cu_qp_delta)的大小信息(cu_qp_delta_abs)和符号信息(cu_qp_delta_sign)。根据一些实施方式,添加到编码单元报头信息的Qp相关句法如表5所示。
[表5]
if(cu_qp_delta_enabled_flag&&!IsCuQpDeltaCoded){
cu_qp_delta_abs ae(v)
if(cu_qp_delta_abs)
cu_qp_delta_sign_flag ae(v)
}
可以将编码数据存储在单独的专用存储器(未示出)中,或者可以将其立即发送给影像提取和合并设备130。
根据本公开的一些实施方式的影像提取和合并设备130指的是包括个人计算机(PC)、膝上型计算机、平板计算机、个人数字助理(PDA)、游戏控制台、便携式多媒体播放器(PMP)、便携式游戏站(PSP)、无线通信终端、智能手机、TV、媒体播放器等的用户终端设备。根据一些实施方式的影像提取和合并设备130可以是诸如应用服务器和业务服务器的服务器终端设备。
根据本公开的一些实施方式的影像提取和合并设备130指的是各种设备,每种设备均包括:(i)用于执行各种类型的设备的通信或用于有线/无线通信网络的诸如通信调制解调器等的通信设备,(ii)用于存储用于编码或解码影像或者用于编码或解码的帧内预测或帧间预测的各种程序和数据的存储器,以及(iii)安装有用于执行程序以进行计算和控制等的微处理器的各种设备。根据至少一个实施方式,存储器包括计算机可读记录/存储介质,例如,随机存取存储器(RAM)、只读存储器(ROM)、闪存、光盘、磁盘、固态盘等。根据至少一个实施方式,微处理器被编程以执行本文描述的操作和/或功能中的一种或更多种。根据至少一个实施方式,微处理器全部或部分地由专门配置的硬件(一个或更多个专用集成电路(或ASIC))实现。
影像提取和合并设备130通过使用从存储器(未示出)或编码器120接收的多个编码比特流(例如,高比特率编码数据和低比特率编码数据)、以及从外部设备(例如,用户终端设备)获得的高重要性位置信息或预定的高重要性位置信息来生成并输出混合影像流。具体地,基于高重要性位置信息,从高比特率编码数据中提取与图像中的重要性位置对应的区域,从低比特率编码数据中提取除重要性位置以外的区域,以及合并以与各个提取区域对应的比特率编码的比特流,从而生成与一种高重要性位置信息对应的混合影像流。所生成的混合影像流可以被发送到流递送设备140,该流递送设备140可以被实现为影像流服务器。下面将参照其它附图来描述根据一些实施方式的混合影像流的具体描述。
流递送设备140执行流式传输一个混合影像流的可能方法是推式方法和拉式方法。
例如,在推式方法中,流递送设备140可以选择到用户的视角位置的对应的混合影像流,并将所选择的混合影像流发送给用户终端设备150。
拉式方法可以用HTTP上的动态自适应流式传输(DASH)来表示,其中,当发送混合影像流时,流递送设备140定义多媒体呈现描述(MPD)并将其发送给用户终端设备150,然后,用户终端设备150可以根据网络环境和终端设备的规格并基于接收的MPD执行自适应流式传输。
多媒体呈现描述信息是包括可提供内容、内容的比特率信息和可替代比特率信息、以及诸如该内容的URL地址的信息的清单文件,并且它使用配置文件信息,该配置文件信息根据用于依据终端、网络环境等提供适当QoS的分辨率和比特率而对一个内容做出不同的定义,以为每个相关配置文件定义影像的url。
用户终端设备150中的影像播放器可以根据终端规格和网络环境来选择和播放由表征(Representation)定义的配置文件之一。以这种方式使用的MPD的示例如下。
<?xml version="1.0"encoding="UTF-8"?>
<MPD xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
xmlns="urn:mpeg:DASH:schema:MPD:2011"
xsi:schemaLocation="urn:mpeg:DASH:schema:MPD:2011"
profiles="urn:mpeg:dash:profile:isoff-main:2011"
type="static"
mediaPresentationDuration="PT0H9M56.46S"
minBufferTime="PT15.0S">
<BaseURL>http://www.test.com/bunny_15s/</BaseURL>
<Period start="PT0S">
<AdaptationSet bitstreamSwitching="true">
<Representation id="0"codecs="avc1"mimeType="video/mp4"width="320"height="240"startWithSAP="1"bandwidth="45351">
<SegmentBase>
<Initialization sourceURL="bunny_15s_50kbit/bunny_50kbit_dash.mp4"/>
</SegmentBase>
<SegmentList duration="15">
<SegmentURL media="bunny_15s_50kbit/bunny_15s1.m4s"/>
<SegmentURL media="bunny_15s_50kbit/bunny_15s2.m4s"/>
<!-...->
<SegmentURL media="bunny_15s_50kbit/bunny_15s39.m/4s"/>
<SegmentURL media="bunny_15s_50kbit/bunny_15s40.m4s"/>
</SegmentList>
</Representation>
<Representation id="1"codecs="avc1"mimeType="video/mp 4"width="320"height="240"startWithSAP="1"bandwidth="88563">
<SegmentBase>
<Initialization sourceURL="bunny_15s_100kbit/bunny_100kbit_dash.mp4"/>
</SegmentBase>
<SegmentList duration="15">
<SegmentURL media="bunny_15s_100kbit/bunny_15s1.m4s"/>
<SegmentURL media="bunny_15s_100kbit/bunny_15s2.m4s"/>
<!-...->
<SegmentURL media="bunny_15s_100kbit/bunny_15s39.m4s"/>
<SegmentURL media="bunny_15s_100kbit/bunny_15s40.m4s"/>
</SegmentList>
</Representation>
<!-...->
</AdaptationSet>
</Period>
</MPD>
流递送设备140根据用户的视角位置确定重要性区域。当以拉式方法将具有高比特率区域和低比特率区域的混合影像流发送给用户终端单元150时,流递送设备140可以将视点值和表征的标识添加到由DASH标准支持的AdaptationSet(关于可传送文件的描述性信息)的视角元素,从而可以定义以下具有改变的对应位置的混合影像流:在观看者的观看位置改变时可切换该混合影像流以并置高比特率数据。
<AdaptationSet mimeType="video/mp4"codecs="avc1.640828">
<Viewpoint schemeIdUri="urn:mpeg:dash:mvv:2014"value="0"/>
<Role schemeIdUri="urn:mpeg:dash:v+d:2014"value="t"/>
<Representation bandwidth="128000"avgPSNR="34.1"avgSSIM="0.959">
<SegmentList duration="1">
<Initialization sourceURL="oblivion_128_t0_init.mp4"/>
<SegmentURL media="oblivion_128_t0_seg1.m4s"/>
</SegmentList>
</Representation>
</AdaptationSet>
为了提供拉式方法,流递送设备140可以根据用户的视角位置预先准备自适应地流式传输所需的多个混合影像流,并将混合影像流发送给用户终端设备150,然后,用户终端设备150基于视角信息将针对待观看区域的区域请求信息(即,指示重要性区域的信息)移交给流递送设备140,使得它可以接收已经以高比特率提取/合并所请求区域的混合影像流。这里,针对待观看区域的区域请求信息是用于接收以高比特率提取/合并所请求区域的流的信息,并且该信息可以是指包括用于指示图像中的图块位置的图块标识、观看/收听焦点的坐标值等的信息。
根据一些实施方式的影像提取和合并设备130可以在单独的服务器(例如,流递送设备140)或用户终端设备150中实现。
当在单独的服务器中实现时,影像提取和合并设备130可以位于流递送设备140的前面,其中,影像提取和合并设备130将针对每个观看位置(即,重要性位置)的已经经历提取和合并的多个混合影像流发送给流递送设备140,响应于用户终端设备150发送的观看位置,流递送设备140选择并发送符合用户请求的观看位置的混合影像流。
当在用户终端设备150中实现时,影像提取和合并设备130可以从编码器120接收所有的多个编码比特流,以从中提取和组合影像。
针对高分辨率影像的高效编码而要考虑的高重要性位置信息是用于反映人类视觉特性的信息。通常,观看高分辨率影像的用户关注影像中的有限范围内的特定区域而不是观看整个影像。因此,在处理具有大量数据的高分辨率影像时,最好不要以高比特率对整个影像进行编码,而是仅以高比特率对用户视角停留的区域进行编码,并以低比特率对剩余区域进行编码,从而降低用于流式传输高分辨率影像的数据吞吐量。
高重要性位置信息可以例如意指关于用户的视角位置的信息。考虑到用户的视角主要面向输入影像中的对象这一事实,关于对象位置的信息也可以是高重要性位置信息。
以下,参照图4,将具体描述根据本公开的一些实施方式的影像提取和合并设备130。
图4是根据本公开的一些实施方式的影像提取和合并设备的配置的示图。如图4所示,根据一些实施方式的影像提取和合并设备130包括编码数据接收单元410、输入流同步单元420、句法解析单元430、影像生成单元440和多通道流传输单元450。在图4中,相应组件单独呈现,但它们不限于此,并且可以由包括所有相应功能的处理器实现。
编码数据接收单元410接收以不同比特率编码输入影像源的多个编码比特流。例如,编码数据接收单元410可以接收分别以低影像质量(即,以低比特率(例如,5Mbps))编码的一个影像源的编码数据和以高影像质量(即,以高比特率(例如,25Mbps))编码的同一个影像源的编码数据。
图5示出了根据本公开的一些实施方式的输入影像源的编码数据的概念图(a)和(b)。
根据本公开的一些实施方式的编码数据可以由多个图块或切片组成。图5例示了在(a)和(b)处分别通过将一个输入源划分成16个图块并以5Mbps和25Mbps对它们进行编码而获得的编码数据。构成每个编码数据的多个矩形的形状意指每个图块。尽管多个图块的大小被示出为彼此相等,但它们不限于此,并且在一些情况下可以包括不同大小的相应图块,这同样适用于图6的(a)至图12的(d)的情况。
图5中的(a)和(b)示出了通过对影像中的所有图块进行独立编码而不参考相邻图块来基于高重要性位置信息自由地提取和合并图块的情况,其中,(a)处的第一种情况例示了低比特率编码数据,(b)处的第二种情况例示了高比特率编码数据。
不同于图5中的(a)和(b)情况,一些实施方式分别以三种或更多种比特率(例如,低影像质量、一种或更多种一般影像质量和高影像质量等)对一个输入影像源进行编码。然而,为了清楚起见,下面将描述以具有低影像质量和高影像质量的两种比特率(5Mbps和25Mbps)对输入影像源进行编码的示例情况。
为了开始从影像序列上的同一个时间位置提取和合并编码数据,输入流同步单元420找到每个编码比特流的第I帧,并且在各个编码比特流的帧输入序列之间进行同步,从而防止编码比特流之间的影像序列中的内容不相干。
句法解析单元430能够从编码流中解析图像中的图块结构和图块的数量、图块的大小、独立图块与非独立图块之间的标识等。解析信息提供对重要性区域的形状、大小等的明智决定,以提取具有多比特率的流并以各种形式合并它们。例如,可以根据图块的结构、数量和大小来确定要被提取为影像中的重要性区域的区域的形状和大小,其中要提取为重要性区域的区域的形状可以是矩形、菱形或可以由图块集构成的其它各种形式。另外,可以根据用户终端设备150从网络可用的传输比特率以及影像中的重要性位置来确定要提取的重要性区域的数量和相应重要性区域的大小。另外,对于在其顶部(天花板)和底部(地板)部分中观看的重要性较低的360°VR影像,它们的对应区域也可以被定义为非独立图块,而不是独立图块。
影像生成单元440适于将输入影像的多个区域按其重要性进行分类,以针对多个区域中的每个区域从多个编码比特流(更具体地,从具有与相关相应区域的重要性对应的不同比特率的这种编码比特流)中提取相关区域的数据,并且通过合并分别与多个区域对应提取的编码比特流来生成混合影像流。
影像生成单元440基于根据重要性确定的重要性区域的位置生成具有各种图块数据组合的混合影像流。
影像生成单元440从输入影像源中设置最高重要性区域,并且根据重要性程度将输入影像源分类为多个区域。这里,重要性区域意指要从以最高比特率编码的编码数据中提取的区域。可以根据上述高重要性位置信息来确定重要性程度,并且一个输入影像源中的区域越靠近用户的视角位置或者越靠近对象位置,其重要性程度可以被设置得越高。
另外,影像区域可以被划分为经常观看的位置(对应于重要性区域)和不经常观看的位置。具体地,影像生成单元440可以从用户终端设备150获得用户在输入影像源中的视角位置,以将距用户的视角位置的特定范围内所包括的一个或更多个区域设置为重要性区域,并且具有基于距用户的视角位置的距离进行分类的多个区域。
当基于用户的视角位置设置重要性区域时,影像生成单元440可以从用户终端设备150周期性地获得用户的视角位置并将该视角位置与先前获得的视角位置进行比较,以确认新获得的视角位置是否已从先前获得的视角位置移动,并且如果是,则可以重新设置反映该移动的重要性区域。
另外,影像生成单元440可以周期性地获得用户的视角位置,以根据用户终端设备150的解码器的性能而仅提取和发送与视角位置对应的高质量影像区域,而不将其与具有该影像质量的其它区域合并。
例如,在VR影像领域中,2D影像在投影之前被转换为3D球形版本。在以2160p的原始分辨率生成VR影像的情况下,考虑到关于解码2160p VR影像的无能终端,可以在发送高比特率编码流之前仅从高比特率编码流中提取设置为重要性区域的1080p区域。
在这种情况下,用户终端设备150可以根据原始影像的分辨率(2160p)执行VR渲染,同时仍然通过投影而仅重建所发送的部分区域(1080p)。为此,当用户终端设备150被递送有指示要重建的影像是整个区域还是部分区域的标志、与终端上播放器的整个区域对应的分辨率、以及与该部分区域对应的影像数据时,流递送设备140可以另外提供部分区域的分辨率信息。
另外,影像生成单元440可以从影像中获得一个或更多个对象位置,将包括在距所述一个或更多个对象位置的特定距离范围内的一个或更多个区域设置为重要性区域,并且基于距所述一个或更多个对象位置的距离来对图像内的多个区域进行分类。这里,对象位置可以通过如在根据本公开的一些实施方式的影像提取和合并设备130或用户终端设备150中实现的对象检测和跟踪/观看者的眼睛跟踪算法来获得,或者它们可以从检测到对象的外部设备(未示出)中获得。
当执行重要性区域的基于对象位置的设置时,可能考虑到包括在输入影像源中的多个对象,也可以设置多个重要性区域。
在设置输入影像源中的重要性区域时,根据输入影像源的特性,存在除了用户的视角位置和对象位置之外还要考虑的点。例如,当输入影像源是360°影像时,根据重要性区域位于影像的哪个部分,可能需要将不同区域进一步设置为重要性区域,或者可能需要减少预设重要性区域。
更具体地,360°影像具有以下特征:当在回放时,可以看到影像的两端彼此接触。换句话说,可以看到影像的上部相对端彼此接触,或者影像的下部相对端彼此接触。这是因为在组合多个相机捕获的影像的拼接处理中影像被扭曲或翘曲。
因此,当设置为重要性区域的区域包括输入影像源的一个上边缘区域时,影像生成单元440还可以将输入影像源的另一上边缘区域设置为重要性区域,并且当设置为重要性区域的区域包括输入影像源的一个下边缘区域时,它还可以将输入影像源的另一个下边缘区域设置为重要性区域。
上述拼接处理导致360°影像在影像的上部区域和下部区域而不是影像的中心部分中发生扭曲(翘曲),并且在影像的上部区域和下部区域中发生信息冗余。一般地,360°影像的上部区域和下部区域通常分别呈现天空和地面,这解释了经常出现于其中心区域而不是其上部区域和下部区域的影像具有更高重要性。
因此,当最高重要性区域包括输入影像源的顶部区域或底部区域(与顶部图块对应的区域或与底部图块对应的区域)时,影像生成单元440可以将对应的最上部区域或最下部区域排除在重要性区域之外,并且将具有最高重要性的剩余区域设置为重要性区域。
分别属于由影像生成单元440分类的多个区域的图块的数量可以根据图块的大小和重要性区域的位置而不同。换句话说,在设置为重要性区域并且从高质量影像提取的区域中,所包括的图块的数量是可变的。
影像生成单元440可以分别从多个编码数据中提取多个区域,更具体地,从各自均具有与多个区域中的每一个区域的重要性对应的比特率的不同的编码比特流中提取多个区域,合并所提取的区域,以生成与输入影像源对应的混合影像流,其中,由此生成的混合影像流对应于一个重要性配置文件。
影像生成单元440可以包括要划分为用于编码操作的多个数据处理单元(即,图块和切片)的输入影像源的比特流报头信息中的数据处理单元的大小和位置信息、初始Qp值以及关于是否在多个数据处理单元之间应用滤波的信息。另外,它可以包括数据处理单元的比特流报头信息中的与输入影像源的多个区域当中的包括数据处理单元的区域的重要性对应的Qp值。
根据至少一个实施方式的与输入影像源对应的编码数据的结构被配置为按照以下这种顺序包括输入影像源的比特流报头信息、图块的报头信息和编码数据信息,并且它被配置为按照光栅扫描序列之后的连续顺序包括影像源中所有图块的报头信息和关于编码影像源的信息。
这里,输入影像源的比特流报头可以包括关于图块的大小和位置的信息、初始Qp值和关于有效/无效滤波的信息。每个图块根据其对应的重要性级别进行编码,每个图块的报头包括与对应的重要性级别相应的信息(即,Qp增量值),并且编码数据包括根据对应的重要性级别编码的信息。当参考已经发送的报头信息时,可以省略输入影像源的比特流报头信息。
具体地,影像生成单元440可以从多个编码比特流当中的最高比特率编码数据中提取多个区域中的重要性区域,并且从低比特率编码数据中提取多个区域中的次要性区域。
考虑到重要性区域可以实时移动,影像生成单元440可以从多个编码比特流当中的最高比特率编码数据中提取到重要性区域的相邻区域。
图6是基于图5的(a)和(b)中的编码数据而根据本公开的一些实施方式构造的混合影像比特流的概念图(a)至(d)。
如图6的从(a)至(d)所示,影像生成单元440可以生成与输入影像源对应的混合影像流,以被构造为具有根据关于影像的重要性区域的信息合并和编码的低比特率(例如,5Mbps)区域和高比特率(例如,25Mbps)区域。
根据图6的从(a)至(d)所示的图块结构的整个影像的平均编码率可以分别被计算为10Mbps、12Mbps、12Mbps和16Mbps。与以25Mbps的比特率对影像中的所有图块进行编码的情况相比,这可以使比特率估计降低约50%。
图6的从(a)至(d)中的用粗线指示的矩形表示影像中的重要性位置。这里,重要性位置是高重要性区域的位置,如用户的视角位置和从输入影像源检测到的对象位置。这同样适用于从图7的(a)至图12的(d)。
当重要性位置的边界与图块的边界一致时,如图6的(a)所示,包括在重要性位置中的图块可以被设置为重要性区域。当重要性位置的边界与图块的边界部分地不一致时,如图6的从(b)至(c)所示,甚至部分地包括在重要性位置中的所有这些图块可以被设置为重要性区域。
可以从高比特率编码数据中提取构成重要性区域的图块,如图5的(b)所示,并且可以从低比特率编码数据中提取构成除重要性区域之外的区域的图块,如图5的(a)所示,使得分类提取的图块最终被合并为一个混合影像比特流。一些实施方式提供了用具有三种或更多种不同比特率的编码数据的图块构造的混合影像流。
图7是基于图5的(a)和(b)中的编码数据而根据本公开的另一实施方式构造的混合影像比特流的概念图(a)至(d)。
具体地,图7的从(a)至(d)示出了基于考虑到360°影像的上述特征而设置的重要性区域来生成的混合影像流的结构。根据图7的从(a)至(d)所示的图块结构的整个影像的平均编码率分别是14Mbps、12Mbps、12Mbps和9Mbps。如在图6(a)和(b)的情况下,与以25Mbps的比特率对所有图块进行编码的情况相比,图7的从(a)至(d)中的结构可以使比特率估计降低约50%。
图7(a)示出了当一个最下边缘区域也被设置为重要性区域时重要性区域包括影像的另一个最下边缘区域的情况。这是考虑到360°影像在拼接处理中易于扭曲(翘曲)。
图7的(b)和(c)示出了尽管驻留在影像的顶行和底行中的图块占据重要位置,但仍通过将它们从重要性区域中排除来解决由于360°影像的上部区域和下部区域中的拼接而导致的信息的可能冗余。
图7(d)示出了分别应用于图7的从(a)至(c)的应用的所有图块组成方法的情况,例示了与图7(a)相同的影像,其中,存在于最下面一行的图块被排除在重要性区域之外。
图8是基于图5的(a)和(b)中的编码数据而根据本公开的又一实施方式构造的混合影像比特流的概念图(a)和(b)。
具体地,图8是通过使用从输入影像检测到的一个或更多个对象位置来设置重要性区域的(a)情况和(b)情况的示图。如上所述,所设置的重要性区域的数量可能取决于检测到的对象的数量。
图9示出了根据本公开的又一实施方式的输入影像源的编码数据的概念图(a)至(d)。
如图9所示,存在可由编码器120生成的多个编码比特流,其包括由通过参考关于彼此相邻的图块或切片的信息而编码的比特流组成的第一编码数据组(例如,图9中的(c)和(d))和在不参考关于相邻图块或切片的信息的情况下编码的比特流组成的第二编码数据组(例如,图9中的(a)和(b))。
在图9中,图块之间的实线表示在两个相邻图块之间进行帧间预测时没有设置参考,这意味着它们之间不存在相关性。换句话说,一个图块的帧间预测并不参考另一个图块,这指示每个图块是独立的。图块之间的虚线表示在两个相邻图块之间进行帧间预测时它们之间存在相关性。换句话说,一个图块的帧间预测被设置为参考另一图块以进行编码,这指示每个图块是非独立的。
图13示出了分别生成由独立图块组成的高比特率编码数据和分别由非独立图块组成的高比特率编码数据以及通过使用这两个编码比特流提取和合并影像的示例处理。
如图13所示,编码器120将一个影像源分别编码成由独立图块组成的编码数据1和由非独立图块组成的编码数据2。
由独立图块组成的编码数据1意指设置为使得在编码数据1中没有图块参考其它图块的编码数据。由非独立图块组成的编码数据2意指允许编码数据2中的每个图块通过参考其它图块来编码的编码数据。这里,当非独立图块参考除其自身之外的其它图块时,所参考的其它图块参考来自编码为独立图块的编码流(编码数据1)的重建影像中的图块。在这种情况下,影像提取和合并设备130可以根据重要性区域提取编码数据1和编码数据2中的不同区域的编码数据,并且合并所提取的不同区域的这些编码比特流以生成混合影像流。
图14示出了合并后的混合影像流的示例图块结构,其中,从由非独立图块组成的编码数据2中提取第5号图块,并且从由独立图块组成的编码数据1中提取所有其它图块。
如图14所示,作为非独立图块的第5号图块在进行帧间预测时参考另一图块(即,独立图块)。如果第5号图块具有要在另一位置参考的非独立图块,则因为如图14中的影像提取和合并处理没有关于它所参考的非独立图块的信息,所以不能执行适当的预测处理。因此,当非独立图块参考除其自身之外的其它图块时,其所参考的图块被确保为是独立的、经过编码和解码的图块。
影像提取和合并设备130可以通过从编码比特流中提取与要包括在混合影像流中的特定位置处的图块区域对应的数据来生成混合影像流,所述编码比特流根据在帧间预测处理中被特定位置处的图块区域参考的图块的特性而不同。
例如,当混合影像流具有要包括的与特定流内位置处的图块区域对应的数据以及要从与确认为不是参考其自身而是参考一非独立图块的另一非独立图块对应的编码数据中提取数据的位置处的数据时,影像提取和合并设备130可以从事于从不与非独立图块对应而与独立图块对应的编码数据中提取位于对应的非独立图块的数据。总之,当影像提取和合并设备130不能提供非独立图块的配置以参考独立图块时,它将混合影像流中的所有图块布置为由独立图块组成。
图15a是由独立图块组成的影像的示图,以及图15b是由非独立图块组成的影像的示图。
图16a是360°球体上的视角区域(或显示区域)的示图,以及图16b是360°球体上的坐标的示图。
为了将360°球体上的视角区域映射到2D影像中的区域,可以将360°球体上的一个点映射到2D影像中的一个点(x,y)。映射关系是下面的同一个式1,并且当在360°球体上表达时由式1使用的参数与图16b中的相同。式1是将3D坐标转换为2D坐标的方法之一。如图16b所示,四个参数用于三维地表达一个点S1的坐标值。通过使用这四个参数的值,可以将同一个3D点转换为2D影像上的一个点处的坐标值。
式1
Figure BDA0001927353820000241
Figure BDA0001927353820000242
这里,
λ:投影位置的经度
Figure BDA0001927353820000243
投影位置的纬度
Figure BDA0001927353820000244
标准平行线(赤道的北部和南部)
λ0:影像的中央子午线
x:影像上投影位置的水平坐标
y:影像上投影位置的垂直坐标
图17a是球体上的显示区域的示图,以及图17b是等矩形影像中的与图17a对应的区域的示图。
由图17b中的影像上的粗实线限定的区域可以通过按照作为其二维变换的代表性方法的等矩形方法将从3D视角信息获得的显示区域中的所有坐标值变换为影像上的坐标值来获得。图17b示出了影像上与球体上的某一区域对应的示例特定区域。影像上的二维变换的特定区域的形状取决于3D影像的哪个部分示出影像上的与3D视角区域对应的特定区域。例如,当影像上的与3D视角对应的区域是与球体上的顶部或底部对应的区域时,图17b的2D影像上的对应区域的形状显示出很大的变化。
影像提取和合并设备130可以利用视角信息来选择影像上的特定区域,并且选择包括该特定区域的多个图块,以重建混合影像流。输入到影像提取和合并设备130的视角信息可以是3D坐标信息,或者可以是先前映射的2D坐标信息。
根据如图17a中的显示区域(3D视角区域,即,重要性区域),从如图15a和图15b中的编码比特流中提取与该重要性区域对应的图块的编码数据,以构建如图18中的一个混合影像流。
图18是等矩形影像上的重要性区域的影像以及整个影像中所包括的图块的示图。图18示出了整个影像中的多个图块当中的与重要性区域对应的九个图块。
一旦向其通知了显示区域和图块结构,影像提取和合并设备130就可以识别包括显示区域的图块的位置和结构。另外,影像提取和合并设备130可以布置与显示区域对应的九个图块(其在影像上的对应区域)当中的存在于显示区域的边界部分上的要由独立图块组成的图块以及被显示区域包围的但不位于边界部分上的要由非独立图块组成的中心图块。
出于解码整个影像的目的,影像提取和合并设备130可以混合如图18中的独立图块和非独立图块,从而构建包括混合的单个影像的所有组成图块的混合影像流。另选地,出于部分解码的目的,它可以构建正是包括与显示区域对应的九个图块的混合影像流,并且将混合影像流发送给流递送设备140。
在图13中,解码器1350对重建后的比特流进行解码。
因为在影像中彼此独立,所以图块可以是简单的且因此方便地配置,但代价是压缩性能恶化以及图块边界处差异可见。通过用非独立图块配置构成一个影像的一些图块,可以弥补这些缺陷。因此,影像提取和合并设备130可以生成图块结构的附加信息(SEI)并将其插入比特流中。
影像提取和合并设备130计算表1和表2的句法值以生成附加信息(SEI),然后将它们插入到与所设置的重要性区域对应的混合影像流中。
解码器1350可以从混合影像流中读取SEI信息以获得与影像内的显示区域有关的图块的位置和配置信息,然后对整个影像进行解码,并且它可以响应于所发送的仅包括显示区域的混合影像流以仅在显示区域上进行部分解码。
本公开中包括的所有场景可以通过允许发送端上的编码器指定默认初始显示位置来处理可能不可用于接收端的视角信息。编码器可以将初始显示位置信息添加到包括SEI的报头信息。初始显示位置信息是影像上的坐标值,其与表6中的句法相同。另外,初始显示位置信息可以具有与表1和表2中的用于包括在如图3中所示的编码数据中的图块集的句法相同的形式。
[表6]
u_pos
v_pos
当未输入用户的视角信息时,影像提取和合并设备130可以基于由编码器发送的附加信息(默认初始显示位置)来重建混合影像流。另外,当正常输入视角信息时,影像提取和合并设备130基于所输入的视角信息来重建混合影像流。
当通过使用所输入的视角信息来组成与显示区域对应的图块时,影像提取和合并设备130可以通过将与通常输入的视角坐标对应的图块及其相邻的图块设置为显示区域来用最小数量的图块进行相同的操作。另外,考虑到用户视角的移动,影像提取和合并设备130可以组成与输入的视角坐标对应的图块以及与其相邻图块区域之外的扩展区域对应的图块。此时,缩放因子可以用于扩展程度。例如,在缩放因子为1.5的情况下,可以将为现有显示区域的1.5倍的扩展区域设置为显示区域。另外,影像提取和合并设备130可以通过使用偏移来组成扩展区域。例如,当偏移被设置为100时,可以通过沿着水平轴以及垂直轴将现有显示区域扩展100来设置扩展区域。该偏移也可以是针对水平轴和垂直轴单独地指定的。
图10是基于图9的从(a)至(d)中的编码数据而根据本公开的一些实施方式构造的混合影像流的概念图(a)至(d)。
根据图10的从(a)至(d)所示的图块结构的整个影像的编码率可以分别被计算为10Mbps、11Mbps、11Mbps和12Mbps。可以看出,与以25Mbps的比特率对所有图块进行编码的情况相比,实现了比特率降低约50%。
如图10的从(a)至(d)所示,重要性区域与除了重要性区域以外的区域之间的边界的相邻区域可以是由影像生成单元440从属于第二编码数据组(例如,图9中的(a)和(b))的编码比特流中的具有与该相邻区域的重要性对应的比特率的编码数据中提取的。例如,存在于高比特率区域与低比特率区域之间的边界处的图块可以由独立图块组成。
重要性区域与除了重要性区域以外的区域之间的边界的非相邻区域可以是从属于第一编码数据组(例如,图9中的(c)和(d)影像)的编码比特流中的具有与该非相邻区域的重要性对应的比特率的编码数据中提取的。例如,存在于高比特率区域与低比特率区域之间的边界之外的图块可以由非独立图块组成。这具有改善压缩性能的效果。
图11是基于图9的从(a)至(d)中的编码数据而根据本公开的另一实施方式构造的混合影像流的概念图(a)至(d)。
具体地,图11的从(a)至(d)示出了基于考虑到360°影像的上述特征来设置的重要性区域而生成的混合影像流的结构。根据图11的从(a)至(d)所示的图块结构的整个影像的编码率分别为12Mbps、11Mbps、10Mbps和8Mbps。与以25Mbps的比特率对所有图块进行编码的情况相比,这表现出比特率降低约50%。
组成如图10的从(a)至(d)所示的以及如图11的从(a)至(d)中的图块可以改善压缩性能,然而以具有不同比特率的图块之间的边界处的可见差异为代价。
这样,根据本公开的又一实施方式的影像生成单元440基于影像中的预设重要性位置预先组成与高比特率区域对应的图块和与低比特率区域对应的图块,并对组成的图块进行编码以生成混合影像流。另外,影像生成单元440基于各种预设重要性位置组成与高比特率区域对应的图块和与低比特率区域对应的图块以生成混合影像流,这两个区域分别与高比特率和低比特率区域对应。多信道流传输单元450基于各种预设重要性位置将各种类型的混合影像流发送给流递送设备140。流递送设备140从用户终端设备150等获取关于实际重要性位置的信息,从各种类型的混合影像流当中选择与其匹配的混合影像流并将所选择的混合影像流发送给用户终端设备150。
具体地,根据至少一个实施方式的编码数据接收单元410从编码器120接收已经根据与输入影像对应的多个区域而单独地编码并且以根据多个对应区域的重要性而不同的不同比特率编码的多个编码比特流。
根据至少一个实施方式的流递送设备140从外部设备(未示出)接收输入影像源的高重要性位置信息,并且在多个混合影像流当中生成与相关的高重要性位置信息匹配的混合影像流。
在至少一个实施方式中,提取和合并设备130准备预设数量的重要性位置,以生成根据相应的预设重要性位置不同地组成的多个混合影像流。流递送设备140从所生成的多个混合影像流中选择与实际重要性位置(即,高重要性位置信息)匹配的混合影像流,并且将所选择的混合影像流发送给用户终端设备150。
高重要性位置信息可以包括输入影像源的用户的视角位置和从输入影像源检测到的一个或更多个对象位置中的至少一种。
可以鉴于构成输入影像源的图块或切片的大小、图块或切片的数量以及输入影像源的分辨率中的至少一种来设置预设数量的重要性位置。
图12是根据本公开的又一实施方式构造的混合影像流的概念图(a)至(d)。
当由相同大小的16个图块组成的输入影像图像被配置为具有成行布置的四个图块时,图12的从(a)至(d)所示的重要性位置是表示用户的视角位置的四个不同实例的预设重要性位置。如图12的从(a)至(d)所示,构成编码比特流的所有图块由非独立图块组成,以便解决图块之间的差异问题。
另一种方法是不使用图块,而是将输入源设置为编码单元,以针对图12的从(a)至(d)所示的每个重要性区域生成单独的编码比特流。换句话说,对于高重要性区域的每个位置,可以生成与预先指定数量一样多的不同的相应编码比特流。例如,如果与高重要性区域的位置对应的预先指定数量是16,则生成与预先指定的高重要性区域相应的16个编码比特流。
根据图12的从(a)至(d)所示的图块组合的混合影像流的编码率可以分别被计算为12Mbps、12Mbps、12Mbps和12Mbps。与以25Mbps的比特率对影像中的所有图块进行编码的情况相比,这可以使比特率估计降低约50%。
图19是根据一些实施方式的流递送设备140的框图。
根据至少一个实施方式的流递送设备140包括多信道流接收单元1910、比特流选择单元1920和终端请求接收单元1930。
多信道流接收单元1910接收根据基于图块的重要性而分别在各种配置文件中生成的多信道混合影像流。
比特流选择单元1920从用户终端设备150接收高重要性位置信息,选择与用户终端设备150的包括与高重要性位置信息对应的物理位置、网络QoS、用户终端设备150的无线电波强度等的条件对应的混合影像流,并将所选择的混合影像流发送给用户终端设备150。
终端请求接收单元1930接收用户终端设备150的诸如重要性位置、网络QoS和其无线电波强度的条件。
至少一个实施方式的终端请求接收单元1930从外部设备(未示出)接收输入影像源的高重要性位置信息,并且比特流选择单元1920基于预设重要性位置选择与从预定数量的编码比特流接收的高重要性位置信息匹配的编码数据(例如,图12的从(a)至(d))。
例如,当终端请求接收单元1930从外部设备(未示出)接收的输入影像源的高重要性位置信息与图12(a)中标记的重要性位置匹配时,比特流选择单元1920选择图12(a)中所示的混合影像流以作为与高重要性位置信息对应的混合影像流。
比特流选择单元1920可以接收从影像提取和合并设备130发送的各种版本的流,并以拉式或推式方法提供它们。
推式方法可以包括:确定用户终端设备150或主要对象所请求的区域周围的每个图块的影像质量或比特率,或者在固定主区域之后预先确定主区域周围的每个图块的比特率并发送作为结果的比特率。
拉式方法可以包括:首先向用户终端设备150发送诸如预设媒体呈现描述(MPD)的元信息,并且随后向流递送设备140发送用户终端设备150对与从元信息映射到期望观看位置的映射结果对应的url的请求。比特流选择单元1920响应于从用户终端设备150接收的影像url而在多个混合影像流当中选择相关的混合影像流,并将所选择的混合影像流发送给用户终端设备150。
图20是根据一些实施方式的用户终端设备150的框图。
根据至少一个实施方式的用户终端设备150包括区域设置请求单元2010、影像流接收单元2020和影像再现单元2030。在一些实施方式中,区域设置请求单元2010适于确定根据陀螺仪传感器等提供的位置信息来确定观看位置,并将位置信息发送给流递送设备140,或者将预先布置的流的标识发送给流递送设备140,从而请求相关的混合影像流。另选地,区域设置请求单元2010适于通过利用预设MPD信息确定视线坐标对应哪个流,并且发送相关的混合影像流的url,从而直接请求相关的混合影像流。例如,可以通过关于高比特率区域的包括区域的大小、起始位置(x,y)、图块的大小、图块的数量等的信息而从MPD信息中发现重要性区域的范围。另外,观看者的每个位置改变可以在与相关的重要性区域对应的url处发起对混合影像流的请求。
影像流接收单元2020从流递送设备140接收与已经发送给流递送设备140的区域设置请求对应的混合影像流。
影像再现单元2030对接收的混合影像流进行解码和再现。
以下,参照图21和图22,将描述根据本公开的一些实施方式的生成影像比特流的方法。
图21是根据本公开的一些实施方式的生成混合影像流的方法的流程图。
为了生成用于流式传输高分辨率影像的混合影像流,获得针对一个输入影像源的分别以不同比特率编码的多个编码比特流(步骤S2110)。例如,该步骤可以生成以低影像质量(即,低比特率(例如,5Mbps))编码的编码比特流以及以高影像质量(即,高比特率(例如,25Mbps))编码的编码比特流。步骤S2110对应于编码器120的操作,并且省略其详细描述。
步骤S2120根据输入影像源设置具有最高重要性级别的重要性区域,根据重要性程度将输入影像源分类为多个区域。这里,重要性区域意指从已经以最高比特率编码的编码数据中提取的区域。可以根据上述高重要性位置信息来确定重要性程度,并且可以看出,在一个输入源中,区域的位置越靠近用户的视角位置(或输入影像源中的对象位置),该区域的重要性越高。
更具体地,步骤S2120可以获得用户在输入影像源的视角位置候选,并且将包括在用户的视角位置候选的特定范围内的一个或更多个区域设置为重要性区域,并且基于它们距用户的视角位置候选的距离来对多个区域进行分类。
当基于用户的视角位置候选设置重要性区域时,可以周期性地获得用户的视角位置以检查先前获得的视角位置是否有移动,可以反映检测到的移动以重置重要性区域。
另外,步骤S2120可以获得从输入影像源检测到的一个或更多个对象位置,将包括在一个或更多个对象位置的特定范围内的一个或更多个区域设置为重要性区域,基于它们距所述一个或更多个对象位置的距离来对多个区域进行分类。这里,对象位置可以是通过对象检测算法获得的对象位置候选。
当基于对象位置设置重要性区域时,可能包括在输入影像源中的多个对象可能会导致设置多个重要性区域。
在设置重要性区域时,根据输入影像源的特性,除了用户的视角位置和对象位置之外,还要考虑一些要点。例如,当输入影像源是360°影像时,根据重要性区域所在的影像部分,可能需要添加另一个区域以作为重要性区域,或者可能需要减少预设重要性区域。
更具体地,360°影像具有以下特征:当在回放时,可以看到影像的两端彼此接触。换句话说,可以看到影像的上部相对端彼此接触,或者影像的下部相对端彼此接触。这是因为在组合由多个相机捕获的影像的拼接处理中影像被扭曲或翘曲。
因此,当设置为重要性区域的区域包括输入影像源的一个上边缘区域或一个下边缘区域时,步骤S2120还可以将输入影像源的另一个上边缘区域或另一个下边缘区域设置为重要性区域。上述拼接处理导致在影像的上部区域和下部区域而不是影像的中心部分导致360°影像发生扭曲(翘曲),并且在上部区域和下部区域中发生信息冗余。一般地,360°影像的上部区域和下部区域通常分别呈现天空和地面,这解释了影像的更高重要性经常呈现在其中心区域而不是其上部区域和下部区域。
因此,当最高重要性区域包括输入影像源的上部区域和下部区域中的至少一个时,步骤S2120可以将对应的上部区域和下部区域从最高重要性区域中排除以将剩余区域设置为重要性区域。
属于通过步骤S2120分类的多个区域的图块的数量可以根据图块的大小和重要性区域的位置而不同。
根据一些实施方式中的方法,步骤S2110和步骤S2120之后是从多个编码比特流当中提取多个区域中的每一个区域,更具体地,从各自均具有与多个区域中的每一个区域的重要性对应的比特率的编码比特流中提取多个区域中的每一个区域(S2130)。
具体地,步骤S2130可以从多个编码比特流当中的最高比特率编码数据中提取多个区域当中的重要性区域,并且从低比特率编码数据中提取多个区域当中的次要性区域。
考虑到重要性区域可以实时移动,步骤S2130可以从多个编码比特流当中的最高比特率编码数据中提取到重要性区域的相邻区域。
步骤S2140合并所提取的区域以生成与重要性区域对应的混合影像流。
步骤S2120至步骤S2140对应于根据本公开的一些实施方式的影像提取和合并设备130的操作,因此省略其详细描述。
图22是根据本公开的另一实施方式的生成混合影像流的方法的流程图。
至少一个实施方式的方法获得已经由构成输入影像的多个区域单独编码的并且已经分别以因多个构成区域的重要性而不同的不同比特率编码的编码比特流(S2210),并且从终端获得高重要性位置信息(S2220)。
利用通过步骤S2210和步骤S2220获得的编码比特流和高重要性位置信息,步骤S2230基于高重要性位置信息在多个编码比特流当中选择与高重要性位置信息匹配的混合影像流。
至少一个实施方式中的方法可以包括针对预设数量的重要性位置分别准备多个区域,避免需要单独设置重要性位置,并且从已经分别根据由相应的预设重要性位置不同地组成的输入影像源进行编码的编码比特流中选择与实际重要性位置(即,高重要性位置信息)匹配的混合影像流,并且将所选择的混合影像流发送给用户终端设备150。
高重要性位置信息可以包括用户在输入影像源的视角位置和从输入影像源检测到的一个或更多个对象位置中的至少一种。
可以鉴于构成输入影像源的图块或切片的大小、图块或切片的数量以及输入影像源的分辨率中的至少一种来设置预设数量的重要性位置。
步骤S2210对应于根据一些实施方式的编码数据接收单元410的操作,并且步骤S2220和步骤S2230对应于影像生成单元440的操作,因此省略其详细说明。
尽管图21和图22中的步骤S2110至步骤S2140以及步骤S2210至步骤S2230已经被描述为顺序地执行,但它们不必限于此。换句话说,在不脱离本公开的实施方式的要旨和本质的情况下,图21和图22中例示的步骤可以在实施时经历顺序改变,或者两个或更多个步骤可以并行执行,因此图21和图22中的步骤不限于所例示的时间顺序。如上所述,根据图21和图22中描述的一些实施方式的生成影像比特流的方法包可以被实现为程序并记录在计算机可读记录介质上。用于实现根据一些实施方式的生成影像比特流的方法的程序所在的计算机可读记录介质包括可存储能够由计算机系统读取的数据的任何类型的记录设备。
尽管已经出于说明性目的描述了本公开的示例性实施方式,但本领域技术人员将理解,在不脱离所要求保护的发明的构思和范围的情况下,可以进行各种修改、添加和替换。因此,为了简洁和清楚起见,已经描述了本公开的示例性实施方式。本实施方式的技术构思的范围不受图示的限制。因此,普通技术人员将理解,所要求保护的发明的范围不受上述明确描述的实施方式的限制,而是受权利要求及其等同物的限制。
工业适用性
本公开的至少一个实施方式可应用于用于流式传输高清晰度影像内容的影像编码领域,并且能够通过减少流式传输时要处理的数据量来高效地压缩影像,以提供诸如上述的有用效果。
[附图标记]
100:影像比特流生成系统
110:拼接器
120:编码器
130:影像提取和合并设备
140:流递送设备
150:用户终端设备
410:编码数据接收单元
420:输入流同步单元
430:句法解析单元
440:影像生成单元
450:多信道流传输单元
1910:多信道流接收单元
1920:比特流选择单元
1930:终端请求接收单元
2010:区域设置请求单元
2020:影像流接收单元
2030:影像再现单元
相关申请的交叉引用
本申请要求在韩国于2016年7月1日提交的专利申请No.10-2016-0083471和于2017年7月3日提交的专利申请No.10-2017-0084093的优先权,其全部内容通过引用并入本文。另外,该非临时申请依据基于韩国专利申请的相同理由在除美国之外的国家要求优先权,其全部内容通过引用并入本文。

Claims (15)

1.一种用于高分辨率影像流的影像提取和合并设备,所述设备包括:
编码数据接收单元,所述编码数据接收单元被配置为接收针对输入影像分别以不同比特率编码的多个编码比特流,其中,每个所述编码比特流包括针对整个所述输入影像的编码数据;以及
影像生成单元,所述影像生成单元被配置为:
基于所述输入影像的多个区域中的每一个区域的重要性对所述多个区域进行分类,
针对所述多个区域中的每一个区域,从所述多个编码比特流中选择以与所述区域的重要性对应的比特率编码的编码比特流,并且从所选择的编码比特流中提取与所述区域对应的编码数据,并且
合并所提取的分别与所述多个区域对应的所述数据,以生成混合影像流。
2.根据权利要求1所述的影像提取和合并设备,其中,所述影像生成单元被配置为生成指示重要区域在所述输入影像中的位置的信息。
3.根据权利要求2所述的影像提取和合并设备,其中,指示所述位置的所述信息包括用于分别对包括在构成所述重要区域的至少一个图块集内的每个图块集内的图块当中的左上图块和右下图块进行标识的索引。
4.根据权利要求3所述的影像提取和合并设备,其中,指示所述位置的所述信息还包括所述至少一个图块集的数量或者所述至少一个图块集内的每个图块集的标识的至少一个。
5.根据权利要求1所述的影像提取和合并设备,其中,当所述输入影像是从三维影像二维映射的影像并且根据所述重要性设置的重要区域包括所述输入影像的顶端区域或底端区域时,所述影像生成单元被配置为另外将所述输入影像的所述顶端区域的相对端区域或所述底端区域的相对端区域设置为所述重要区域。
6.根据权利要求1所述的影像提取和合并设备,其中,所述影像生成单元被配置为在所述输入影像是从三维影像二维映射的影像并且所述输入影像内的最高重要性区域包括所述输入影像的顶部区域或底部区域中的至少一个时,将所述顶部区域或所述底部区域中的至少一个从所述最高重要性区域中排除。
7.根据权利要求1所述的影像提取和合并设备,其中,所述影像生成单元被配置为针对每个所述编码比特流生成第一编码比特流和第二编码比特流,
其中,所述第一编码比特流是在帧间预测期间不允许相邻图块之间进行参考的情况下编码的数据,所述第二编码比特流是在所述帧间预测期间允许相邻图块之间进行参考的情况下编码的数据。
8.根据权利要求7所述的影像提取和合并设备,其中,所述影像生成单元被配置为:
从所述第一编码比特流中提取与在根据所述重要性确定的重要区域和除了所述重要性区域以外的区域之间的边界的相邻区域对应的图块的数据;并且
从所述第二编码比特流中提取与所述边界的非相邻区域对应的图块的数据。
9.根据权利要求1所述的影像提取和合并设备,其中,所述影像生成单元被配置为基于根据所述重要性确定的重要区域的位置来生成具有各种组合的图块数据的多个混合影像流。
10.根据权利要求1所述的影像提取和合并设备,其中,关于所述重要性的信息是从用户的视角或者从所述输入影像中的一个或更多个对象位置获得的。
11.根据权利要求10所述的影像提取和合并设备,其中,所述影像生成单元被配置为将扩展了预定的缩放因子或从与所述视角对应的区域偏移的显示区域设置为重要区域。
12.根据权利要求1所述的影像提取和合并设备,其中,所述影像生成单元被配置为生成所述混合影像流时,根据在为了所述混合影像流内的特定位置处的图块区域而提取的编码比特流中执行帧间预测的时候被参考的图块的特性,从不同的编码比特流提取与相关特定位置处的图块区域对应的数据。
13.根据权利要求1所述的影像提取和合并设备,其中,所述影像生成单元被配置为将关于是否在划分有所述输入影像的多个数据处理单元之间应用滤波的信息包括在所述编码数据内。
14.根据权利要求1所述的影像提取和合并设备,其中,所述影像生成单元被配置为将与包括在所述多个区域中的影像区域的重要性对应的量化参数的值包括在所述编码数据内。
15.一种生成用于高分辨率影像流的影像比特流的方法,所述方法包括以下步骤:
接收针对输入影像的分别以不同比特率编码的多个编码比特流,其中,每个所述编码比特流包括针对整个所述输入影像的编码数据;
基于所述输入影像的多个区域中的每一个区域的重要性对所述多个区域进行分类;
针对多个区域中的每一个区域,从所述多个编码比特流中选择以与所述区域的重要性对应的比特率编码的编码比特流,并且从所选择的编码比特流中提取与所述区域对应的编码数据;以及
合并所提取的分别与所述多个区域对应的编码数据,以生成混合影像流。
CN201780040839.XA 2016-07-01 2017-07-03 用于高分辨率影像流的影像比特流生成方法和设备 Active CN109417642B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
KR20160083471 2016-07-01
KR10-2016-0083471 2016-07-01
PCT/KR2017/007028 WO2018004317A1 (ko) 2016-07-01 2017-07-03 고해상도 영상 스트리밍을 위한 영상 비트스트림 생성방법 및 장치

Publications (2)

Publication Number Publication Date
CN109417642A CN109417642A (zh) 2019-03-01
CN109417642B true CN109417642B (zh) 2021-06-22

Family

ID=60998872

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201780040839.XA Active CN109417642B (zh) 2016-07-01 2017-07-03 用于高分辨率影像流的影像比特流生成方法和设备

Country Status (3)

Country Link
US (2) US10743000B2 (zh)
KR (1) KR101915037B1 (zh)
CN (1) CN109417642B (zh)

Families Citing this family (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018131813A1 (en) * 2017-01-10 2018-07-19 Samsung Electronics Co., Ltd. Method and apparatus for generating metadata for 3d images
KR101967819B1 (ko) * 2017-11-02 2019-04-10 주식회사 코난테크놀로지 타일 영상 기반 다중 재생을 위한 영상 처리장치 및 그 타일 영상 구성방법
KR102038669B1 (ko) 2018-01-11 2019-10-30 주식회사 엘지화학 리튬 전극을 포함하는 리튬 금속 이차전지의 제조방법
WO2019199025A1 (ko) 2018-04-09 2019-10-17 에스케이텔레콤 주식회사 영상을 부호화/복호화하는 방법 및 그 장치
KR102648468B1 (ko) * 2018-04-10 2024-03-18 에스케이텔레콤 주식회사 레벨 설정 방법 및 이를 이용한 영상 복호화 장치
US11509937B2 (en) 2018-04-09 2022-11-22 Sk Telecom Co., Ltd. Method and apparatus for encoding/decoding video
US11037271B2 (en) * 2018-08-07 2021-06-15 Qualcomm Incorporated Dynamic rendering for foveated rendering
KR102127846B1 (ko) * 2018-11-28 2020-06-29 주식회사 카이 영상을 처리하는 방법, 영상을 재생하는 방법 및 그 장치들
US11310516B2 (en) * 2018-12-21 2022-04-19 Hulu, LLC Adaptive bitrate algorithm with cross-user based viewport prediction for 360-degree video streaming
KR102619997B1 (ko) * 2019-01-02 2024-01-02 애플 인크. 영상 신호 부호화/복호화 방법 및 이를 위한 장치
EP3769522A4 (en) * 2019-01-16 2021-01-27 Telefonaktiebolaget LM Ericsson (publ) VIDEO ENCODING WITH EQUAL TILE DISTRIBUTION WITH REMAINING
WO2020189817A1 (ko) * 2019-03-19 2020-09-24 전자부품연구원 타일 기반 스트리밍을 위한 분할영상 분산 디코딩 방법 및 시스템
US11310560B2 (en) * 2019-05-17 2022-04-19 Samsung Electronics Co., Ltd. Bitstream merger and extractor
KR102276193B1 (ko) * 2019-06-04 2021-07-12 에스케이텔레콤 주식회사 멀티뷰 제공을 위한 스트리밍 플레이어 장치 및 그 방법
CN110636294B (zh) * 2019-09-27 2024-04-09 腾讯科技(深圳)有限公司 视频解码方法及装置,视频编码方法及装置
KR20220087512A (ko) * 2019-11-28 2022-06-24 엘지전자 주식회사 픽처의 분할 구조에 기반한 영상/비디오 코딩 방법 및 장치
CA3163333A1 (en) * 2019-11-28 2021-06-03 Lg Electronics Inc. Slice and tile configuration for image/video coding
KR20220084400A (ko) * 2019-11-28 2022-06-21 엘지전자 주식회사 영상/비디오 인코딩/디코딩 방법 및 장치
WO2021107622A1 (ko) * 2019-11-28 2021-06-03 엘지전자 주식회사 영상/비디오 코딩 방법 및 장치
CN111131879A (zh) * 2019-12-30 2020-05-08 歌尔股份有限公司 视频数据播放方法、装置及计算机可读存储介质
KR102391615B1 (ko) * 2020-03-16 2022-04-29 주식회사 카이 영상 처리 방법, 영상 재생 방법 및 그 장치들
KR102356037B1 (ko) * 2020-10-14 2022-02-07 성균관대학교산학협력단 다시점 360도 영상 스트리밍 방법 및 장치

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101547365A (zh) * 2009-05-08 2009-09-30 北京北纬通信科技股份有限公司 保证特定区域显示质量的视频编码的方法和装置
WO2014047943A1 (zh) * 2012-09-29 2014-04-03 华为技术有限公司 视频编码及解码方法、装置及系统
CN103929640A (zh) * 2013-01-15 2014-07-16 英特尔公司 用于管理视频流播的技术

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR2822330B1 (fr) 2001-03-14 2003-05-02 Thomson Multimedia Sa Procede de codage par blocs, de type mpeg, dans lequel on affecte une resolution a chaque bloc
KR20060007765A (ko) 2004-07-21 2006-01-26 삼성전자주식회사 영상 압축/복원 방법 및 장치
EP1782632A1 (en) 2004-08-13 2007-05-09 Industry Academic Cooperation Foundation Kyunghee University Method and apparatus to encode image, and method and apparatus to decode image data
KR100739686B1 (ko) 2004-08-13 2007-07-13 경희대학교 산학협력단 영상 코딩 방법, 코딩 장치, 영상 디코딩 방법 및 디코딩장치
KR20120059214A (ko) 2010-11-30 2012-06-08 고려대학교 산학협력단 적응적 관심 영역을 적용한 비디오 스트리밍을 제공하는 비디오 코덱 장치 및 그 방법
EP2806649A1 (en) * 2012-01-18 2014-11-26 Electronics and Telecommunications Research Institute Method and device for encoding and decoding image
US10091519B2 (en) * 2013-10-14 2018-10-02 Electronics And Telecommunications Research Institute Multilayer-based image encoding/decoding method and apparatus
WO2015056941A1 (ko) 2013-10-14 2015-04-23 한국전자통신연구원 다계층 기반의 영상 부호화/복호화 방법 및 장치
US9699437B2 (en) * 2014-03-03 2017-07-04 Nextvr Inc. Methods and apparatus for streaming content

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101547365A (zh) * 2009-05-08 2009-09-30 北京北纬通信科技股份有限公司 保证特定区域显示质量的视频编码的方法和装置
WO2014047943A1 (zh) * 2012-09-29 2014-04-03 华为技术有限公司 视频编码及解码方法、装置及系统
CN103929640A (zh) * 2013-01-15 2014-07-16 英特尔公司 用于管理视频流播的技术

Also Published As

Publication number Publication date
US10743000B2 (en) 2020-08-11
CN109417642A (zh) 2019-03-01
US10893278B2 (en) 2021-01-12
KR101915037B1 (ko) 2018-11-06
US20190335182A1 (en) 2019-10-31
KR20180004029A (ko) 2018-01-10
US20190238860A1 (en) 2019-08-01

Similar Documents

Publication Publication Date Title
CN109417642B (zh) 用于高分辨率影像流的影像比特流生成方法和设备
US11778171B2 (en) Apparatus, a method and a computer program for video coding and decoding
CN110035331B (zh) 一种媒体信息的处理方法及装置
US10863198B2 (en) Intra-prediction method and device in image coding system for 360-degree video
CN113170237B (zh) 视频编码与解码方法和设备
US11259049B2 (en) Area-based processing method and apparatus for 360-degree video
US11711530B2 (en) Tile shuffling for 360 degree video decoding
US20220400280A1 (en) Image coding method on basis of entry point-related information in video or image coding system
US11917194B2 (en) Image encoding/decoding method and apparatus based on wrap-around motion compensation, and recording medium storing bitstream
CN116325759A (zh) 用于处理媒体文件的方法及其设备
CN116134821A (zh) 用于在图像/视频编码系统中处理高级语法的方法和设备
WO2020175908A1 (ko) 시그널링된 정보에 기반한 픽처 파티셔닝 방법 및 장치
US20230028326A1 (en) Image coding method based on partial entry point-associated information in video or image coding system
US20220417498A1 (en) Method for coding image on basis of tmvp and apparatus therefor
KR100780844B1 (ko) 다시점 화상 복호화기, 다시점 화상 데이터 처리 시스템,다시점 화상 데이터 처리 방법 및 이를 수행하는프로그램을 기록한 기록매체
US11284083B2 (en) Method and apparatus for coding information about merge data
US20220272370A1 (en) Method and device for encoding/decoding image using sub-picture, and bit stream transmission method
US20230032673A1 (en) Image coding method based on entry point-related information in video or image coding system
CN116210225A (zh) 生成媒体文件的方法及设备
CN116210223A (zh) 媒体文件处理方法及其装置
WO2020175904A1 (ko) 시그널링된 정보에 기반한 픽처 파티셔닝 방법 및 장치
KR20220113501A (ko) 몰입형 미디어 프로세싱의 순위 정보
CN116724555A (zh) 媒体文件处理方法及其装置
WO2020175905A1 (ko) 시그널링된 정보에 기반한 픽처 파티셔닝 방법 및 장치
CN117296317A (zh) 媒体文件处理方法及其设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant