CN108965929A - 一种视频信息的呈现方法和装置 - Google Patents

一种视频信息的呈现方法和装置 Download PDF

Info

Publication number
CN108965929A
CN108965929A CN201710370619.5A CN201710370619A CN108965929A CN 108965929 A CN108965929 A CN 108965929A CN 201710370619 A CN201710370619 A CN 201710370619A CN 108965929 A CN108965929 A CN 108965929A
Authority
CN
China
Prior art keywords
image
region
information
video
quality
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710370619.5A
Other languages
English (en)
Other versions
CN108965929B (zh
Inventor
邸佩云
谢清鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Technologies Co Ltd
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Priority to CN201710370619.5A priority Critical patent/CN108965929B/zh
Priority to PCT/CN2018/084719 priority patent/WO2018214698A1/zh
Publication of CN108965929A publication Critical patent/CN108965929A/zh
Priority to US16/688,418 priority patent/US20200092600A1/en
Application granted granted Critical
Publication of CN108965929B publication Critical patent/CN108965929B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/482End-user interface for program selection
    • H04N21/4825End-user interface for program selection using a list of items to be played back in a given order, e.g. playlists
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/435Processing of additional data, e.g. decrypting of additional data, reconstructing software from modules extracted from the transport stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/60Network structure or processes for video distribution between server and client or between remote clients; Control signalling between clients, server and network components; Transmission of management data between server and client, e.g. sending from server to client commands for recording incoming content stream; Communication details between server and client 
    • H04N21/63Control signaling related to video distribution between client, server and network components; Network processes for video distribution between server and clients or between remote clients, e.g. transmitting basic layer and enhancement layers over different transmission paths, setting up a peer-to-peer communication via Internet between remote STB's; Communication protocols; Addressing
    • H04N21/643Communication protocols
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/239Interfacing the upstream path of the transmission network, e.g. prioritizing client content requests
    • H04N21/2393Interfacing the upstream path of the transmission network, e.g. prioritizing client content requests involving handling client requests
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/431Generation of visual interfaces for content selection or interaction; Content or additional data rendering
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/431Generation of visual interfaces for content selection or interaction; Content or additional data rendering
    • H04N21/4312Generation of visual interfaces for content selection or interaction; Content or additional data rendering involving specific graphical features, e.g. screen layout, special fonts or colors, blinking icons, highlights or animations
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/434Disassembling of a multiplex stream, e.g. demultiplexing audio and video streams, extraction of additional data from a video stream; Remultiplexing of multiplex streams; Extraction or processing of SI; Disassembling of packetised elementary stream
    • H04N21/4348Demultiplexing of additional data and video streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream, rendering scenes according to MPEG-4 scene graphs
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream, rendering scenes according to MPEG-4 scene graphs
    • H04N21/4402Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream, rendering scenes according to MPEG-4 scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display
    • H04N21/440245Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream, rendering scenes according to MPEG-4 scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display the reformatting operation being performed only on part of the stream, e.g. a region of the image or a time segment
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/81Monomedia components thereof
    • H04N21/816Monomedia components thereof involving special video data, e.g 3D video
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/83Generation or processing of protective or descriptive data associated with content; Content structuring
    • H04N21/845Structuring of content, e.g. decomposing content into time segments
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/83Generation or processing of protective or descriptive data associated with content; Content structuring
    • H04N21/845Structuring of content, e.g. decomposing content into time segments
    • H04N21/8456Structuring of content, e.g. decomposing content into time segments by decomposing the content in the time domain, e.g. in time segments
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • H04N23/698Control of cameras or camera modules for achieving an enlarged field of view, e.g. panoramic image capture

Abstract

本发明实施例提供了一种视频信息的呈现方法,其特征在于,包括:获取视频内容数据和辅助数据,所述视频内容数据用于重构视频图像,所述视频图像包括至少两个图像区域,所述辅助数据包括所述至少两个图像区域的质量信息;根据所述辅助信息,确定所述视频内容数据的呈现方式;根据所述视频内容数据的呈现方式,呈现所述视频图像。

Description

一种视频信息的呈现方法和装置
技术领域
本发明涉及流媒体处理领域,尤其涉及一种视频信息的呈现方法和装置
背景技术
随着虚拟现实(英文:virtual reality,VR)技术的日益发展完善,360度视角等VR视频的观看应用越来越多地呈现在用户面前。在VR视频观看过程中,用户随时可能变换视角(英文:field of view,FOV),每个视角对应一个空间对象(可以理解为VR视频中的一个区域)的视频数据,视角切换时呈现在用户视角内的VR视频图像也应当随着切换。
现有技术在VR视频呈现时会呈现能够覆盖人眼视角的空间对象的视频数据,用户观看的空间对象可以是多数用户都选择观看的感兴趣区域,也可以是视频制作者指定的区域,该区域会随着时间的变化而不断变化。由于视频数据中的图像数据对应大量图像,因此大量图像的大量的空间信息会造成数据量过大。
发明内容
本发明实施例提供了一种视频信息的呈现方法和装置,视频图像被分为具有不同质量等级的图像区域,对选定的区域呈现高质量的图像,对于其它区域呈现低质量的图像,节省了用户获取视频内容信息的数据量;同时,当用户视角中包含不同质量的图像区域时,提示用户选择适当的处理方式,提高了用户的视觉体验。
上述目标和其它目标将通过独立权利要求中的特征来达成。进一步的实现方式在从属权利要求、说明书和附图中体现。
第一方面,本发明实施例提供了一种视频信息的呈现方法,包括:获取视频内容数据和辅助数据,该视频内容数据用于重构视频图像,该视频图像包括至少两个图像区域,该辅助数据包括至少两个图像区域的质量信息;根据该辅助信息,确定该视频内容数据的呈现方式;根据该视频内容数据的呈现方式,呈现该视频图像。
根据第一方面,在第一方面的第一种可行的实施方式中,至少两个图像区域包括:第一图像区域和第二图像区域,该第一图像区域和该第二图像区域无重叠区域,该第一图像区域和第二图像区域的图像质量不同。
根据第一方面或第一方面的第一种可行的实施方式,在第一方面的第二种可行的实施方式中,该质量信息包括:该图像区域的质量等级,该质量等级用于区分至少两个图像区域的相对图像质量。
根据第一方面的第一种或第二种可行的实施方式,在第一方面的第三种可行的实施方式中,该辅助数据还包括:该第一图像区域在该视频图像中的位置信息和尺寸信息;对应的,根据该辅助信息,确定该视频内容数据的呈现方式,包括:对该位置信息和该尺寸信息确定的该第一图像区域的图像,确定以该第一图像区域的质量等级呈现。
根据第一方面的第三种可行的实施方式,在第一方面的第四种可行的实施方式中,该第二图像区域为该视频图像中该第一图像区域以外的图像区域,根据该辅助信息,确定该视频内容数据的呈现方式,还包括:对该第二图像区域,确定以该第二图像区域的质量等级呈现。
上述各种可行的实施方式的有益效果在于:对视频图像的不同图像区域采用不同质量等级的呈现方式,对于多数用户都选择观看的感兴趣区域,也可以是视频制作者指定的区域采用高质量的图像呈现,其它区域采用相对低质量的图像呈现,减少了视频图像的数据量。
根据第一方面第一至第四任一种可行的实施方式,在第一方面的第五种可行的实施方式中,该辅助数据还包括:用于表征该第一图像区域的区域边界处于平滑状态的第一标识;对应的,根据该辅助信息,确定该视频内容数据的呈现方式,包括:当该第一标识表示该第一图像区域的区域边界不平滑时,确定对该第一图像区域的区域边界进行平滑。
根据第一方面的第五种可行的实施方式,在第一方面的第六种可行的实施方式中,该辅助信息还包括:该平滑所采用的平滑方法的第二标识;对应的,根据该辅助信息,确定该视频内容数据的呈现方式,包括:当该第一标识表示对该第一图像区域的区域边界进行平滑时,确定对该第一图像区域的区域边界以该第二标识对应的平滑方法进行平滑。
根据第一方面的第六种可行的实施方式,在第一方面的第七种可行的实施方式中,该平滑方法包括:灰度变换、直方图均衡、低通滤波、高通滤波。
上述各种可行的实施方式的有益效果在于:当用户视角中包含不同质量的图像区域时,用户可以选择对图像边界进行平滑,提高了用户的视觉体验,也可以选择不平滑,降低图像处理的复杂度。特别的,当用户被提示图像区域边界处理平滑状态时,即使不进行图像处理,也可以获得较好的视觉体验,从而降低了用户侧处理并呈现设备的处理复杂度,减低了设备的功耗。
根据第一方面第三至第七任一种可行的实施方式,在第一方面的第八种可行的实施方式中,该辅助信息还包括:该第一图像区域在该视频图像中的位置信息和尺寸信息的描述方式;对应的,在该对该位置信息和该尺寸信息确定的该第一图像区域的图像,确定以该第一图像区域的质量等级呈现之前,还包括:根据该描述方式,从该辅助信息中,确定该位置信息和该尺寸信息。
在一些实施例中,该第一图像区域在该视频图像中的位置信息和尺寸信息的描述方式包括:该第一图像区域的位置信息和尺寸信息携带于第一图像区域所在的表示中,或者该第一图像区域所在的区域表示的ID携带于第一图像区域所在的表示中,第一图像区域的位置信息和尺寸信息携带于携带于该区域表示中,该第一图像区域所在的表示和该区域表示相互独立。
上述可行的实施方式的有益效果在于:提供对不同质量的图像区域的不同的表示方式,例如对于各图像帧中保持高质量的图像区域,采用静态的方式,统一设置区域的位置信息和区域大小,对于各图像帧中高质量的图像区域会随帧的变化而改变的情况,采用动态的方式,逐帧表述高质量图像区域的位置以及大小,提高了视频呈现的灵活性。
根据第一方面第一至第八任一种可行的实施方式,在第一方面的第九种可行的实施方式中,该第一图像区域包括:高质量图像区域,低质量图像区域,背景图像区域或者预设的图像区域。
上述可行的实施方式的有益效果在于:可以通过不同的方式制定高质量区域,满足了观看者的个体需求,提高了主观视频体验。
根据第一方面或第一方面第一至第九任一种可行的实施方式,在第一方面的第十种可行的实施方式中,该方法用于基于超文本传输协议的动态自适应数据流(英文:dynamic adaptive streaming over hypertext transfer protocol,DASH)系统中,该DASH系统的媒体表示(英文:representation)用于表示该视频内容数据,该DASH系统的媒体呈现描述携带该辅助数据,包括:该DASH系统的客户端获取该DASH系统的服务器端发送的该媒体表示和与该媒体表示对应的该媒体呈现描述;该客户端解析该媒体呈现描述,获得至少两个图像区域的质量信息;该客户端根据该质量信息,处理并呈现对应的该媒体表示所表征的视频图像。
上述可行的实施方式的有益效果在于:可以在DASH系统中,对视频图像的不同图像区域采用不同质量等级的呈现方式,对于多数用户都选择观看的感兴趣区域,也可以是视频制作者指定的区域采用高质量的图像呈现,其它区域采用相对低质量的图像呈现,减少了视频图像的数据量。
根据第一方面或第一方面第一至第九任一种可行的实施方式,在第一方面的第十一种可行的实施方式中,该方法用于视频轨迹(track)的传输系统中,该传输系统的裸码流携带该视频内容数据,该传输系统将该裸码流和该辅助信息封装为视频轨迹,包括:该传输系统的接收端获取该传输系统的生成端发送的该视频轨迹;该接收端解析该辅助信息,获得至少两个图像区域的质量信息;该接收端根据该质量信息,处理并呈现通过解码该视频轨迹中的该裸码流而获得的视频图像。
上述可行的实施方式的有益效果在于:可以在视频轨迹传输系统中,对视频图像的不同图像区域采用不同质量等级的呈现方式,对于多数用户都选择观看的感兴趣区域,也可以是视频制作者指定的区域采用高质量的图像呈现,其它区域采用相对低质量的图像呈现,减少了视频图像的数据量。
第二方面,本发明实施例提供了一种呈现视频信息的客户端,包括:获取模块,用于获取视频内容数据和辅助数据,该视频内容数据用于重构视频图像,该视频图像包括至少两个图像区域,该辅助数据包括至少两个图像区域的质量信息;确定模块,用于根据该辅助信息,确定该视频内容数据的呈现方式;呈现模块,用于根据该视频内容数据的呈现方式,呈现该视频图像。
根据第二方面,在第二方面的第一种可行的实施方式中,至少两个图像区域包括:第一图像区域和第二图像区域,该第一图像区域和该第二图像区域无重叠区域,该第一图像区域和第二图像区域的图像质量不同。
根据第二方面或第二方面的第一种可行的实施方式,在第一方面的第二种可行的实施方式中,该质量信息包括:该图像区域的质量等级,该质量等级用于区分至少两个图像区域的相对图像质量。
根据第二方面的第一种或第二种可行的实施方式,在第二方面的第三种可行的实施方式中,该辅助数据还包括:该第一图像区域在该视频图像中的位置信息和尺寸信息;对应的,该确定模块具体用于对该位置信息和该尺寸信息确定的该第一图像区域的图像,确定以该第一图像区域的质量等级呈现。
根据第二方面的第三种可行的实施方式,在第二方面的第四种可行的实施方式中,该第二图像区域为该视频图像中该第一图像区域以外的图像区域,该确定模块具体用于对该第二图像区域,确定以该第二图像区域的质量等级呈现。
根据第二方面第一至第四任一种可行的实施方式,在第二方面的第五种可行的实施方式中,该辅助数据还包括:用于表征该第一图像区域的区域边界处于平滑状态的第一标识;对应的,该确定模块具体用于当该第一标识表示该第一图像区域的区域边界不平滑时,确定对该第一图像区域的区域边界进行平滑。
根据第二方面的第五种可行的实施方式,在第二方面的第六种可行的实施方式中,该辅助信息还包括:该平滑所采用的平滑方法的第二标识;对应的,该确定模块具体用于当该第一标识表示对该第一图像区域的区域边界进行平滑时,确定对该第一图像区域的区域边界以该第二标识对应的平滑方法进行平滑。
根据第二方面的第六种可行的实施方式,在第二方面的第七种可行的实施方式中,该平滑方法包括:灰度变换、直方图均衡、低通滤波、高通滤波。
根据第二方面第三至第七任一种可行的实施方式,在第二方面的第八种可行的实施方式中,该辅助信息还包括:该第一图像区域在该视频图像中的位置信息和尺寸信息的描述方式;对应的,在该对该位置信息和该尺寸信息确定的该第一图像区域的图像,确定以该第一图像区域的质量等级呈现之前,该确定模块还用于根据该描述方式,从该辅助信息中,确定该位置信息和该尺寸信息。
在一些实施例中,该第一图像区域在该视频图像中的位置信息和尺寸信息的描述方式包括:该第一图像区域的位置信息和尺寸信息携带于第一图像区域所在的表示中,或者该第一图像区域所在的区域表示的ID携带于第一图像区域所在的表示中,第一图像区域的位置信息和尺寸信息携带于携带于该区域表示中,该第一图像区域所在的表示和该区域表示相互独立。
根据第二方面第一至第八任一种可行的实施方式,在第二方面的第九种可行的实施方式中,该第一图像区域包括:高质量图像区域,低质量图像区域,背景图像区域或者预设的图像区域。
第三方面,本发明实施例提供了一种呈现视频信息的服务器端,包括:发送模块,用于发送视频内容数据和辅助数据,该视频内容数据用于重构视频图像,该视频图像包括至少两个图像区域,该辅助数据包括至少两个图像区域的质量信息;确定模块,用于确定该辅助信息,该辅助信息用于确定该视频内容数据的呈现方式。
根据第三方面,在第三方面的第一种可行的实施方式中,至少两个图像区域包括:第一图像区域和第二图像区域,该第一图像区域和该第二图像区域无重叠区域,该第一图像区域和第二图像区域的图像质量不同。
根据第三方面或第三方面的第一种可行的实施方式,在第三方面的第二种可行的实施方式中,该质量信息包括:该图像区域的质量等级,该质量等级用于区分至少两个图像区域的相对图像质量。
根据第三方面的第一种或第二种可行的实施方式,在第三方面的第三种可行的实施方式中,该辅助数据还包括:该第一图像区域在该视频图像中的位置信息和尺寸信息;对应的,该确定模块具体用于对该位置信息和该尺寸信息确定的该第一图像区域的图像,确定以该第一图像区域的质量等级呈现。
根据第三方面的第三种可行的实施方式,在第三方面的第四种可行的实施方式中,该第二图像区域为该视频图像中该第一图像区域以外的图像区域,该确定模块具体用于对该第二图像区域,确定以该第二图像区域的质量等级呈现。
根据第三方面第一至第四任一种可行的实施方式,在第三方面的第五种可行的实施方式中,该辅助数据还包括:用于表征该第一图像区域的区域边界处于平滑状态的第一标识;对应的,该确定模块具体用于当该第一标识表示该第一图像区域的区域边界不平滑时,确定对该第一图像区域的区域边界进行平滑。
根据第三方面的第五种可行的实施方式,在第三方面的第六种可行的实施方式中,该辅助信息还包括:该平滑所采用的平滑方法的第二标识;对应的,该确定模块具体用于当该第一标识表示对该第一图像区域的区域边界进行平滑时,确定对该第一图像区域的区域边界以该第二标识对应的平滑方法进行平滑。
根据第三方面的第六种可行的实施方式,在第三方面的第七种可行的实施方式中,该平滑方法包括:灰度变换、直方图均衡、低通滤波、高通滤波。
根据第三方面第三至第七任一种可行的实施方式,在第三方面的第八种可行的实施方式中,该辅助信息还包括:该第一图像区域在该视频图像中的位置信息和尺寸信息的描述方式;对应的,在该对该位置信息和该尺寸信息确定的该第一图像区域的图像,确定以该第一图像区域的质量等级呈现之前,该确定模块还用于根据该描述方式,从该辅助信息中,确定该位置信息和该尺寸信息。
在一些实施例中,该第一图像区域在该视频图像中的位置信息和尺寸信息的描述方式包括:该第一图像区域的位置信息和尺寸信息携带于第一图像区域所在的表示中,或者该第一图像区域所在的区域表示的ID携带于第一图像区域所在的表示中,第一图像区域的位置信息和尺寸信息携带于携带于该区域表示中,该第一图像区域所在的表示和该区域表示相互独立。
根据第三方面第一至第八任一种可行的实施方式,在第三方面的第九种可行的实施方式中,该第一图像区域包括:高质量图像区域,低质量图像区域,背景图像区域或者预设的图像区域。
第四方面,提供一种呈现视频信息的处理装置,该装置包括处理器和存储器;该存储器用于存储代码;该处理器通过读取该存储器中存储的该代码,以用于执行第一方面提供的方法。
第五方面,提供一种计算机存储介质,用于储存用于第四方面的处理器执行的计算机软件指令,以用于执行第一方面提供的方法。
应理解,本发明实施例的第二至五方面以及各方面所属的各种可行的实施方式,与第一方面所属的各种可行的实施方式,技术方法一致,有益效果相似,不再赘述。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是系统层视频流媒体传输采用的DASH标准传输的MPD的结构示意图;
图2是系统层视频流媒体传输采用的DASH标准传输的框架实例示意图;
图3是本发明实施例提供的码流分段的切换的一示意图;
图4是码流数据中的分段存储方式的一示意图;
图5是码流数据中的分段存储方式的另一示意图;
图6是视角变化对应的视角示意图;
图7是空间对象的空间关系的另一示意图;
图8是目标空间对象在全景空间中的相对位置的示意图;
图9是本发明实施例的一种坐标系的示意图;
图10是本发明实施例的另一种坐标系的示意图;
图11是本发明实施例的另一种坐标系的示意图;
图12是本发明实施例的一种区域示意图;
图13是本发明实施例的一种视频信息的呈现方法的流程示意图;
图14是本发明实施例的一种DASH端到端系统的结构示意图;
图15是本发明实施例的一种视频轨迹的传输系统的结构示意图;
图16是本发明实施例的一种视频信息的呈现装置的逻辑结构示意图;
图17是本发明实施例的一种计算机设备的硬件结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。
2011年11月,MPEG组织批准了DASH标准,DASH标准是基于HTTP协议传输媒体流的技术规范(以下称DASH技术规范);DASH技术规范主要由两大部分组成:媒体呈现描述和媒体文件格式(英文:file format)。
媒体文件格式属于一种文件格式,在DASH中服务器会为同一个视频内容准备多种版本的码流,每个版本的码流在DASH标准中称为表示。表示是在传输格式中的一个或者多个码流的集合和封装,一个表示中包含一个或者多个分段。不同版本的码流的码率、分辨率等编码参数可以不同,每个码流分割成多个小的文件,每个小文件被称为分段(或称分段,英文:segment)。在客户端请求媒体分段数据的过程中可以在不同的媒体表示之间切换。segment可以按照标准ISO/IEC 14496-12中的格式封装(ISO BMFF(Base Media FileFormat)),也可以是按照ISO/IEC 13818-1中的格式封装(MPEG-2TS)。
在DASH标准中,媒体呈现描述被称为MPD,MPD可以是一个xml的文件,文件中的信息是采用分级方式描述,如图1所示,上一级的信息被下一级完全继承。在该文件中描述了一些媒体元数据,这些元数据可以使得客户端了解服务器中的媒体内容信息,并且可以使用这些信息构造请求segment的http-URL。
在DASH标准中,媒体呈现(英文:media presentation),是呈现媒体内容的结构化数据的集合;媒体呈现描述(英文:media presentation description),一个规范化描述媒体呈现的文件,用于提供流媒体服务;时期(英文:period),一组连续的时期组成整个媒体呈现,时期具有连续和不重叠的特性;在MPD中,表示是传输格式中一个或者多个码流的描述信息的集合和封装,一个表示中包含一个或者多个分段;自适应集(英文:AdaptationSet),表示同一媒体内容成分的多个可互替换的编码版本的集合,一个自适应集包含一个或者多个表示;子集(英文:subset),一组自适应集合的组合,当播放器播放其中所有自适应集合时,可以获得相应的媒体内容;分段信息,是媒体呈现描述中的HTTP统一资源定位符引用的媒体单元,分段信息描述视频内容数据的分段,视频内容数据的分段可以存储在一个文件中,也可以单独存储,在一种可能的方式中,MPD中会存储视频内容数据的分段。
本发明有关MPEG-DASH技术的相关技术概念可以参考ISO/IEC 23009-1Information technology--Dynamic adaptive streaming over HTTP(DASH)--Part 1:Media presentation description and segment formats,中的有关规定,也可以参考历史标准版本中的相关规定,如ISO/IEC 23009-1:2013或ISO/IEC 23009-1:2012等。
虚拟现实技术是一种可以创建和体验虚拟世界的计算机仿真系统,它利用计算机生成一种模拟环境,是一种多源信息融合的交互式的三维动态视景和实体行为的系统仿真,可以使用户沉浸到该环境中。VR主要包括模拟环境、感知、自然技能和传感设备等方面。模拟环境是由计算机生成的、实时动态的三维立体逼真图像。感知是指理想的VR应该具有一切人所具有的感知。除计算机图形技术所生成的视觉感知外,还有听觉、触觉、力觉、运动等感知,甚至还包括嗅觉和味觉等,也称为多感知。自然技能是指人的头部转动,眼睛、手势、或其他人体行为动作,由计算机来处理与参与者的动作相适应的数据,并对用户的输入作出实时响应,并分别反馈到用户的五官。传感设备是指三维交互设备。当VR视频(或者360度视频,或者全方位视频(英文:Omnidirectional video))在头戴设备和手持设备上呈现时,只有对应于用户头部的方位部分的视频图像呈现和相关联的音频呈现。
VR视频和通常的视频(英文:normal video)的差别在于通常的视频是整个视频内容都会被呈现给用户;VR视频是只有整个视频的一个子集被呈现给用户(英文:in VRtypically only a subset of the entire video region represented by the videopictures)。
现有标准中,对空间信息的描述原文是“The SRD scheme allows MediaPresentation authors to express spatial relationships between SpatialObjects.A Spatial Object is defined as a spatial part of a content component(e.g.a region of interest,or a tile)and represented by either an AdaptationSet or a Sub-Representation.”
空间信息是空间对象(即Spatial Objects)之间的空间关系(即spatialrelationships)。空间对象被定义为一个内容成分的一部分空间,比如现有的感兴趣区域(英文:region of interest,ROI)和tile;空间关系可以在Adaptation Set和Sub-Representation中描述。现有标准中,MPD中可以描述空间对象的空间信息。
在ISO/IEC 14496-12(2012)标准文档中,文件是由许多个盒(box)和完整盒(FullBox)构成的。每个Box由头部(Header)和数据(Data)组成。FullBox是Box的扩展。Header包含了整个Box的长度size和类型type。当size==0时,代表这是文件中最后一个Box;当size==1时,意味着Box长度需要更多bits来描述。Data是Box的实际数据,可以是纯数据也可以是更多的子Boxes。
在ISO/IEC 14496-12(2012)的标准文档中,使用“tref box”描述轨道(track)之间关系。比如:一个MP4文件中有三条视频(video)track,ID分别是2、3、4,以及三条audiotrack,ID分别是6、7、8。可以在track 2与track 6的tref box中指定一下,将2与6两条track绑定起来播放。
在目前的标准的规定中,例如ISO/IEC 23000-20,媒体内容的track和元数据的track之间的联系采用的联系类型(reference_type)是‘cdsc’,比如在视频的track中解析到关联的track,且关联的类型是‘cdsc’,说明关联的track是用来描述视频的track的元数据track。但是在实际应用中,描述媒体内容的元数据有很多种类,不同的种类能够提供给用户的使用方法不同。客户端需要将文件中包含的所有track都解析完之后,再根据媒体内容的track和元数据的track之间的联系采用的联系类型来确定和媒体内容相关联的track的属性,从而确定视频track都具有那些属性,不同的属性能够够给用户提供哪些体验。也就是说,如果要确定某视频track在呈现时客户端能够有哪些操作,需要依赖于文件中所有的track解析完成才能确定,增加了客户端实现流程中的复杂度。
当前以客户端为主导的系统层视频流媒体传输方案可采用DASH标准框架,如图2,图2是系统层视频流媒体传输采用的DASH标准传输的框架实例示意图。系统层视频流媒体传输方案的数据传输过程包括两个过程:服务器端(如HTTP服务器,媒体内容准备服务器,以下简称服务器)为视频内容生成视频内容数据,响应客户端请求的过程;和客户端(如HTTP流媒体客户端)向服务器请求并获取视频内容数据的过程。其中,上述视频内容数据包括MPD和媒体码流((例如要播放的视频码流))。服务器上的MPD中包括多个表示,每个表示描述多个分段。客户端的HTTP流媒体请求控制模块获取服务器发送的MPD,并对MPD进行分析,确定MPD中描述的视频码流的各个分段的信息,进而可确定要请求的分段,向服务器发送相应的分段的HTTP请求,并通过媒体播放器进行解码播放。
1)在上述服务器为视频内容生成视频内容数据的过程中,服务器为视频内容生成的视频内容数据包括对应同一视频内容的不同版本的视频码流,以及码流的MPD。例如,服务器为同一集电视剧的视频内容生成低分辨率低码率低帧率(如360p分辨率、300kbps码率、15fps帧率)的码流,中分辨率中码率高帧率(如720p分辨率、1200kbps码率、25fps帧率)的码流,高分辨率高码率高帧率(如1080p分辨率、3000kbps码率、25fps帧率)的码流等。
此外,服务器还可为该集电视剧的视频内容生成MPD。其中,如图1,图1是系统传输方案DASH标准的MPD的结构示意图。上述码流的MPD包含多个时期(Period),例如,图1的MPD)中的period start=100s部分可包含多个自适应集(英文:adaptation set),每个adaptation set可包含Representation1、Representation2,…等多个表示。每个表示描述码流的一个或者多个分段。
在本发明的一个实施例中,每个表示按照时序描述若干个分段的信息,例如初始化分段(英文:Initialization segment)、媒体分段(Media Segment)1、MediaSegment2,…,Media Segment20等。表示中可以包括播放起始时刻、播放持续时长、网络存储地址(例如以统一资源定位符(英文:Universal Resource Locator,URL)的形式表示的网络存储地址)等分段信息。
2)在客户端向服务器请求并获取视频内容数据的过程中,用户选择播放视频时,客户端根据用户点播的视频内容向服务器获取相应的MPD。客户端根据MPD中描述的码流分段的网络存储地址,向服务器发送下载网络存储地址对应的码流分段的请求,服务器根据接收到的请求向客户端发送码流分段。客户端获取得到服务器发送的码流分段之后,则可通过媒体播放器进行解码、播放等操作。
参见图3,是本发明实施例提供的码流分段的切换的一示意图。服务器可为同一个视频内容(比如一部电影)准备三个不同版本的码流数据,并在MPD中使用三个Representation对上述三个不同版本的码流数据进行描述。其中,上述三个Representation(以下简称rep)可假设为rep1、rep2和rep3等。其中,rep1是码率为4mbps(每秒兆比特)的高清视频,rep2是码率为2mbps的标清视频,rep3是码率为1mbps的普通视频。每个rep的segment包含一个时间段内的视频码流,同一个时间段内,不同的rep包含的segment相互对齐。即,每个rep按照时序描述每个时间段的segment,并且相同时段的segment长度相同,进而可实现不同rep上的segment的内容切换。如图,图中标记为阴影的分段是客户端请求播放的分段数据,其中,客户端请求的前3个分段是rep3的分段,客户端请求第4个分段时可请求rep2中的第4个分段,进而可在rep3的第3个segment播放结束之后切换到rep2的第4个分段上播放。Rep3的第3个segment的播放终止点(对应到时间上可为播放结束时刻)即为第4个segment的播放起始点(对应到时间上可为播放起始时刻),同时也是rep2或者rep1的第4个segment的播放起始点,实现不同rep上的segment的对齐。客户端请求rep2的第4个分段之后切换到rep1,请求rep1的第5个分段和第6个分段等。随后可切换至rep3上,请求rep3的第7个分段,再切换到rep1上,请求rep1的第8个分段。每个rep的segment可以首尾相接的存在一个文件中,也可以独立存储为一个个的小文件。segment可以按照标准ISO/IEC 14496-12中的格式封装(ISO BMFF),也可以是按照ISO/IEC 13818-1中的格式封装(MPEG-2TS)。具体可根据实际应用场景需求确定,在此不做限制。
在DASH媒体文件格式中提到,上述segment有两种存储方式:一种是每个segment分开独立存储,如图4,图4是码流数据中的分段存储方式的一示意图;另一种是同一个rep上的所有segment均存储在一个文件中,如图5,图5是码流数据中的分段存储方式的另一示意图。如图4,repA的segment中每个segment单独存储为一个文件,repB的segment中每个segment也单独存储为一个文件。对应的,图4所示的存储方式,服务器可在码流的MPD中可采用模板的形式或者列表的形式描述每个segment的URL等信息。如图5,rep1的segment中所有segment存储为一个文件,rep2的segment中所有segment存储为一个文件。对应的,图5所示的存储方法,服务器可在码流的MPD中采用一个索引分段(英文:index segment,也就是图5中的sidx)来描述每个segment的相关信息。索引分段描述了每个segment在其所存储的文件中的字节偏移,每个segment大小以及每个segment持续时间(duration,也称每个segment的时长)等信息。
当前随着360度视频等VR视频的观看应用的日益普及,越来越多的用户加入到大视角的VR视频观看的体验队伍中。这种新的视频观看应用给用户带来了新的视频观看模式和视觉体验的同时,也带来了新的技术挑战。由于360度(本发明实施例将以360度为例进行说明)等大视角的视频观看过程中,VR视频的空间区域(空间区域也可以叫做空间对象)为360度的全景空间(或称全方位空间,或称全景空间对象),超过了人眼正常的视觉范围,因此,用户在观看视频的过程中随时都会变换观看的角度(即视角,FOV)。用户观看的视角不同,看到的视频图像也将不同,故此视频呈现的内容需要随着用户的视角变化而变化。如图6,图6是视角变化对应的视角示意图。框1和框2分别为用户的两个不同的视角。用户在观看视频的过程中,可通过眼部或者头部转动,或者视频观看设备的画面切换等操作,将视频观看的视角由框1切换到框2。其中,用户的视角为框1时所观看的视频图像为该视角对应的一个或者多个空间对象在该时刻所呈现的视频图像。下一个时刻用户的视角切换为框2,此时用户观看到的视频图像也应该切换为框2对应的空间对象在该时刻所呈现视频图像。
在一些可行的实施方式中,对于360度大视角的视频图像的输出,服务器可将360度的视角范围内的全景空间(或者称为全景空间对象)进行划分以得到多个空间对象,每个空间对象对应用户的一个子视角,多个子视角的拼接形成一个完整的人眼观察视角。即人眼视角(下面简称视角)可对应一个或者多个划分得到的空间对象,视角对应的空间对象是人眼视角范围内的内容对象所对应的所有的空间对象。其中,人眼观察视角可以动态变化的,但是通常视角范围可为120度*120度,120度*120度的人眼视角范围内的内容对象对应的空间对象可包括一个或者多个划分得到的空间对象,例如上述图6中的框1对应的视角1,框2对应的视角2。进一步的,客户端可通过MPD获取服务器为每个空间对象准备的视频码流的空间信息,进而可根据视角的需求向服务器请求某一时间段某个或者多个空间对象对应的视频码流分段并按照视角需求输出对应的空间对象。客户端在同一个时间段内输出360度的视角范围内的所有空间对象对应的视频码流分段,则可在整个360度的全景空间内输出显示该时间段内的完整视频图像。
具体实现中,在360度的空间对象的划分中,服务器可首先将球面映射为平面,在平面上对空间对象进行划分。具体的,服务器可采用经纬度的映射方式将球面映射为经纬平面图。如图7,图7是本发明实施例提供的空间对象的示意图。服务器可将球面映射为经纬平面图,并将经纬平面图划分为A~I等多个空间对象。进一步的,服务器可也将球面映射为立方体,再将立方体的多个面进行展开得到平面图,或者将球面映射为其他多面体,在将多面体的多个面进行展开得到平面图等。服务器还可采用更多的映射方式将球面映射为平面,具体可根据实际应用场景需求确定,在此不做限制。下面将以经纬度的映射方式,结合图7进行说明。如图7,服务器可将球面的全景空间划分为A~I等多个空间对象之后,则可为每个空间对象准备一组DASH视频码流。其中,每个空间对象对应的一组DASH视频码流。客户端用户切换视频观看的视角时,客户端则可根据用户选择的新视角获取新空间对象对应的码流,进而可将新空间对象码流的视频内容呈现在新视角内。下面将结合图8至图9对本发明实施例提供的信息的处理方法及装置进行描述。
系统层视频流媒体传输方案采用DASH标准,通过客户端分析MPD、按需向服务器请求视频数据并接收服务器发送的数据的方式实现视频数据的传输。
在一些实施例中,视频的制作者(以下简称作者)制作视频时,可根据视频的故事情节需求为视频播放设计一条主要情节路线。视频播放过程中,用户只需要观看该主要情节路线对应的视频图像则可了解到该故事情节,其他视频图像可看可不看。由此可知,视频播放过程中,客户端可选择性的播放该故事情节对应的视频图像,其他的视频图像可以不呈现,可节省视频数据的传输资源和存储空间资源,提高视频数据的处理效率。作者设计故事的主要情节之后,可根据上述主要情节路线设定视频播放时每个播放时刻所要呈现给用户的视频图像,将每个播放时刻的视频图像按照时序串起来则可得到上述主要情节路线的故事情节。其中,上述每个播放时刻所要呈现给用户的视频图像为在每个播放时刻对应的空间对象上呈现的视频图像,即该空间对象在该时间段所要呈现的视频图像。具体实现中,上述每个播放时刻所要呈现的视频图像对应的视角可设为作者视角,呈现作者视角上的视频图像的空间对象可设为作者空间对象。作者视角对象对应的码流可设为作者视角码流。作者视角码流中包含多个视频帧的视频帧数据(多个视频帧的编码数据),每个视频帧呈现时可为一个图像,即作者视角码流中对应多个图像。在视频播放过程中,在每个播放时刻,作者视角上呈现的图像仅是整个视频所要呈现的全景图像(或称VR图像或者全方位图像)中的一部分。在不同的播放时刻,作者视频码流对应的图像所关联的空间对象的空间信息可以不同,也可以相同,即作者视角码流的视频数据所关联的空间对象的空间信息不同。
在一些可行的实施方式中,作者设计了每个播放时刻的作者视角之后,则可通过服务器对每个播放时刻的作者视角准备相应的码流。其中,作者视角对应的码流可设为作者视角码流。服务器可对作者视角码流进行编码并传输给客户端,客户端对作者视角码流进行解码之后,则可呈现作者视角码流对应的故事情节画面给用户。服务器无需传输作者视角以外其他视角(设为非作者视角,即静态视角码流)的码流给客户端,可节省视频数据的传输带宽等资源。
在一些可行的实施方式中,作者视角采用高质量的图像编码方式,比如高分辨率的图像编码,比如小量化参数的编码,非作者视角采用低质量的图像编码方式,比如低分辨率的图像编码,比如大量化参数的编码,也可以起到节省视频数据的传输带宽等资源的作用。
在一些可行的实施方式中,由于作者视角是作者根据视频故事情节设定的呈现预设空间对象的图像,不同的播放时刻上的作者空间对象可不同也可相同,由此可知作者视角是一个随着播放时刻不断变化的视角,作者空间对象是个不断变化位置的动态空间对象,即每个播放时刻对应的作者空间对象在全景空间中的位置不尽相同。上述图7所示的各个空间对象是按照预设规则划分的空间对象,是在全景空间中的相对位置固定的空间对象,任一播放时刻对应的作者空间对象不一定是图7所示的固定空间对象中的某一个,而且在全局空间中相对位置不断变化的空间对象。客户端从服务器获取的视频所呈现的内容是由各个作者视角串起来的,不包含非作者视角对应的空间对象,作者视角码流仅包含作者空间对象的内容,并且从服务器获取的MPD中不包含作者视角的作者空间对象的空间信息,则客户端只能解码并呈现作者视角的码流。若用户在观看视频的过程中,观看的视角切换到非作者视角上,客户端则无法呈现相应的视频内容给用户。
在一些实施例中,服务器生成媒体呈现描述时,可在媒体呈现描述中添加标识信息,用于标识视频的作者视角码流,即作者视角码流。具体实现中,上述标识信息可携带在媒体呈现描述中携带的作者视角码流所在码流集合的属性信息中,即上述标识信息可携带在媒体呈现描述中的自适应集的信息中,上述标识信息也可携带在媒体呈现描述中包含的表示的信息中。进一步的,上述标识信息还可携带在媒体呈现描述中的描述子的信息中。客户端可通过解析MPD得到MPD中增加的语法元素快速识别作者视角码流和非作者视角的码流。如果作者视角流相关的空间信息封装在独立的元数据文件中,那么客户端可以通过解析MPD,根据codec标识获取空间信息的元数据,从而解析出空间信息。
在一些实施例中,服务器还可在作者视角码流中添加一个或者多个作者空间对象的空间信息。其中,每个作者空间对象对应一个或者多个图像,即一个或者多个图像可关联同一个空间对象,也可每个图像关联一个空间对象。服务器可在作者视角码流中添加每个作者空间对象的空间信息,也就可以将空间信息作为样本,独立的封装在一个轨迹或者文件中。其中,一个作者空间对象的空间信息为该作者空间对象与其关联的内容成分的空间关系,即作者空间对象与全景空间的空间关系。即上述作者空间对象的空间信息所描述的空间具体可为全景空间中的部分空间,如上述图7中任意一个空间对象。具体实现中,针对于DASH码流,服务器可在文件格式中的作者视角码流的分段中包含的trun box或者tfhdbox中增加上述空间信息,用于描述作者视角码流的视频帧数据对应的每一帧图像所关联的空间对象的空间信息。
进一步的,由于每一帧图像所关联的空间对象的空间信息之间可能会有相同的信息,这就导致了多个作者空间对象的空间信息存在重复和冗余,从而影响数据传输的效率。
本发明实施例通过对DASH标准中提供的视频文件格式(英文:file format)进行修改,可以实现减少多个作者空间对象的空间信息存在重复和冗余。
本发明提供的对文件格式的修改,也可应用在ISOBMFF或者MPEG2-TS的文件格式中,具体可根据实际应用场景需求确定,在此不做限制。
本发明实施例提供了一种空间信息的获取方法,可以应用DASH领域,也可以应用于其他流媒体领域,例如基于RTP协议的流媒体传输。该方法的执行主体可以是客户端,具体可以为终端、用户设备或者计算机设备,也可以是网络设备,比如网关,代理服务器等。
获取目标空间对象的目标空间信息,不妨设目标空间对象为两个空间对象中的空间对象,该两个空间对象与目标视频数据中包括的两个图像的数据关联,该目标空间信息包括同属性空间信息,该同属性空间信息包括该两个空间对象各自的空间信息之间相同的信息,该两个空间对象中除该目标空间对象外的其他空间对象的空间信息包括该同属性空间信息。
其中,目标视频数据可以是目标视频码流,也可以是未经过编码的视频数据,在目标视频数据为目标视频码流时,两个图像的数据可以是两个图像的编码数据。进一步的,目标视频码流可以是作者视角码流,也可以是非作者视角码流。
其中,获取目标空间对象的目标空间信息可以是接收来自服务器的该目标空间信息。
其中,该两个图像可以与该两个空间对象一一对应,也可以一个空间对象对应两个图像。
其中,一个目标空间对象的空间信息为该目标空间对象与其关联的内容成分的空间关系,即目标空间对象与全景空间的空间关系。即上述目标空间对象的目标空间信息所描述的空间具体可为全景空间中的部分空间。该目标视频数据可以是上述作者视角码流,也可以是非作者视角码流。该目标空间对象可以是上述作者空间对象,也可以不是。
在一些实施例中,该目标空间信息还可以包括该目标空间对象的异属性空间信息,该其他空间对象的空间信息还包括该其他空间对象的异属性空间信息,该目标空间对象的异属性空间信息与该其他空间对象的异属性信息不同。
在目标空间信息一种可能的实现方式中,该目标空间信息可以包括该目标空间对象的中心点的位置信息或者该目标空间对象的左上点的位置信息,该目标空间信息还可以包括该目标空间对象的宽和该目标空间对象的高。
其中,在目标空间信息对应的坐标系为角度坐标系时,该目标空间信息可以采用偏航角来描述,在目标空间信息对应的坐标系为像素坐标系时,该目标空间信息可以采用经纬图的空间位置描述,或者采用其他几何立体图形来描述,在此不做限制。采用偏航角方式描述,如俯仰角θ(pitch)、偏航角ψ(yaw)、滚转角Φ(roll),用于表示角度范围的宽和用于表示角度范围的高。如图8,图8是目标空间对象的中心点在全景空间中的相对位置的示意图。在图8中,O点为360度VR全景视频球面图像对应的球心,可认为是观看VR全景图像时人眼的位置。A点为目标空间对象的中心点,C、F为目标空间对象中过A点的沿该目标空间对象横向坐标轴的边界点,E、D为目标空间对象中过A点的沿该目标空间对象纵向坐标轴的边界点,B为A点沿球面经线在赤道线的投影点,I为赤道线上水平方向的起始坐标点。各个元素的含义解释如下:
俯仰角:目标空间对象的图像的中心位置映射到全景球面(即全局空间)图像上的点的竖直方向的偏转角,如图8中的∠AOB;
偏航角:目标空间对象的图像的中心位置映射到全景球面图像上的点的水平方向的偏转角,如图8中的∠IOB;
滚转角:偏航角空间对象的图像的中心位置映射到全景球面图像上的点与球心连线方向的旋转角,如图8中的∠DOB;
用于表示角度范围的高(在角度坐标系中的目标空间对象的高):目标空间对象的图像在全景球面图像的视场高度,以视场纵向最大角度表示,如图8中∠DOE;用于表示角度范围的宽(在角度坐标系中的目标空间对象的宽):目标空间对象的图像在全景球面图像的视场宽度,以视场横向最大角度表示,如图8中∠COF。
在目标空间信息另一种可能的实现方式中,该目标空间信息可以包括该目标空间对象的左上点的位置信息,和该目标空间对象的右下点的位置信息。
在目标空间信息另一种可能的实现方式中,在目标空间对象不是矩形时,该目标空间信息可以包括该目标空间对象的形状类型、半径、周长中至少一种。
在一些实施例中,该目标空间信息可以包括该目标空间对象的空间旋转信息。
在一些实施例中,该目标空间信息可以封装在空间信息数据或者空间信息轨迹(track)中,该空间信息数据可以为该目标视频数据的码流、该目标视频数据的元数据或者独立于该目标视频数据的文件,该空间信息轨迹可以为独立于该目标视频数据的轨迹。
其中,该空间信息数据或者该空间信息轨迹中还可以包括用于指示该同属性空间信息的类型的空间信息类型标识,该空间信息类型标识用于指示该目标空间信息中属于该同属性空间信息的信息。
其中,在该空间信息类型标识指示目标空间信息中没有属于该同属性空间信息的信息时,该同属性空间信息可以包括该目标空间对象的宽的最小值、该目标空间对象的高的最小值、该目标空间对象的宽的最大值和该目标空间对象的高的最大值。
其中,该空间信息类型标识与该同属性空间信息可以封装在同一个box中。
具体实现中,在目标空间信息封装在独立于该目标视频数据的文件(空间信息文件)或者独立于该目标视频数据的轨迹(空间信息轨迹)中时,服务器可以在文件格式中的3dsc box中添加同属性空间信息,在文件格式中的mdat box中添加该目标空间对象的异属性空间信息。
添加空间信息的样例(样例一):
在该样例中,同属性空间信息可以是yaw、pitch、roll、reference_width和reference_height中的部分,而并非全部,例如没有roll。roll可以属于该目标空间对象的异属性空间信息,也可以不包括在目标空间信息内。3dsc box中还添加了空间信息类型标识regionType,该样例为角度坐标系下的样例。其中,在空间信息类型标识为0时,该空间信息类型标识用于指示该目标空间信息中属于该同属性空间信息的信息为该目标空间对象的中心点的位置信息或者该目标空间对象的左上点的位置信息,以及该目标空间对象的宽和该目标空间对象的高。在样例中,位置信息用俯仰角θ(pitch)、偏航角ψ(yaw)和滚转角Φ(roll)来表示,宽和高同样可以用角度来表示。换一种方式来理解就是,在空间信息类型标识为0时,该两个空间对象的位置和大小(例如但不限于宽高)都是相同的。
在空间信息类型标识为1时,该空间信息类型标识用于指示该目标空间信息中属于该同属性空间信息的信息为该目标空间对象的宽和该目标空间对象的高。换一种方式来理解就是,在空间信息类型标识为1时,该两个空间对象的大小(例如但不限于宽高)相同,位置不同。
在空间信息类型标识为2时,该空间信息类型标识用于指示该目标空间信息中没有属于该同属性空间信息的信息。换一种方式来理解就是,在空间信息类型标识为2时,该两个空间对象的大小和位置均不同。
相应的,在空间信息类型标识为0时,则可以指示不存在异属性空间信息。在空间信息类型标识为1时,空间信息类型标识还指示该目标空间对象的异属性空间信息为该目标空间对象的中心点的位置信息或者该目标空间对象的左上点的位置信息。在空间信息类型标识为2时,空间信息类型标识还指示该目标空间对象的异属性空间信息为该目标空间对象的中心点的位置信息或者该目标空间对象的左上点的位置信息,以及该目标空间对象的宽和该目标空间对象的高。
添加空间信息的样例(样例二):
该样例为像素坐标系下的样例,在空间信息类型标识为0时,该空间信息类型标识用于指示该目标空间信息中属于该同属性空间信息的信息为该目标空间对象的左上点的位置信息,以及该目标空间对象的宽和该目标空间对象的高。在样例中,位置信息用以像素为单位的横坐标和以像素为单位的纵坐标来表示,宽和高同样可以以像素为单位来表示。其中,横坐标和纵坐标可以是位置点在图7中的经纬平面图中的坐标,也可以是在全景空间(或者,全景空间对象)中的坐标。换一种方式来理解就是,在空间信息类型标识为0时,该两个空间对象的位置和大小都是相同的。需要说明的是,可以用该目标空间对象的中心点的位置信息替代该目标空间对象的左上点的位置信息。
在空间信息类型标识为1时,该空间信息类型标识用于指示该目标空间信息中属于该同属性空间信息的信息为该目标空间对象的宽和该目标空间对象的高。换一种方式来理解就是,在空间信息类型标识为1时,该两个空间对象的大小相同,位置不同。
在空间信息类型标识为2时,该空间信息类型标识用于指示该目标空间信息中没有属于该同属性空间信息的信息。换一种方式来理解就是,在空间信息类型标识为2时,该两个空间对象的大小和位置均不同。
相应的,在空间信息类型标识为0时,则可以指示不存在异属性空间信息。在空间信息类型标识为1时,空间信息类型标识还指示该目标空间对象的异属性空间信息为该目标空间对象的左上点的位置信息。在空间信息类型标识为2时,空间信息类型标识还指示该目标空间对象的异属性空间信息为该目标空间对象的左上点的位置信息,以及该目标空间对象的宽和该目标空间对象的高。需要说明的是,可以用该目标空间对象的中心点的位置信息替代该目标空间对象的左上点的位置信息。
添加空间信息的样例(样例三):
该样例为像素坐标系下的样例,在空间信息类型标识为0时,该空间信息类型标识用于指示该目标空间信息中属于该同属性空间信息的信息为该目标空间对象的左上点的位置信息,和该目标空间对象的右下点的位置信息。在该样例中,位置信息用以像素为单位的横坐标和以像素为单位的纵坐标来表示。其中,横坐标和纵坐标可以是位置点在图7中的经纬平面图中的坐标,也可以是在全景空间(或者,全景空间对象)中的坐标。换一种方式来理解就是,在空间信息类型标识为0时,该两个空间对象的位置和大小都是相同的。需要说明的是,可以用该目标空间对象的宽和高替代该目标空间对象的右下点的位置信息。
在空间信息类型标识为1时,该空间信息类型标识用于指示该目标空间信息中属于该同属性空间信息的信息为该目标空间对象的右下点的位置信息。换一种方式来理解就是,在空间信息类型标识为1时,该两个空间对象的大小相同,位置不同。需要说明的是,可以用该目标空间对象的宽和高替代该目标空间对象的右下点的位置信息。
在空间信息类型标识为2时,该空间信息类型标识用于指示该目标空间信息中没有属于该同属性空间信息的信息。换一种方式来理解就是,在空间信息类型标识为2时,该两个空间对象的大小和位置均不同。
相应的,在空间信息类型标识为0时,则可以指示不存在异属性空间信息。在空间信息类型标识为1时,空间信息类型标识还指示该目标空间对象的异属性空间信息为该目标空间对象的左上点的位置信息。在空间信息类型标识为2时,空间信息类型标识还指示该目标空间对象的异属性空间信息为该目标空间对象的左上点的位置信息,和该目标空间对象的右下点的位置信息。需要说明的是,可以用该目标空间对象的宽和高替代该目标空间对象的右下点的位置信息。
在一些实施例中,该空间信息数据或者该空间信息轨迹中还可以包括用于指示该目标空间信息对应的坐标系的坐标系标识,该坐标系为像素坐标系或者角度坐标系。
其中,该坐标系标识与该同属性空间信息可以封装在同一个box中。
具体实现中,在目标空间信息封装在独立于该目标视频数据的文件(空间信息文件)或者独立于该目标视频数据的轨迹(空间信息轨迹)中时,服务器可以在文件格式中的3dsc box中添加坐标系标识。
添加坐标系标识的样例(样例四):
在该样例中,在坐标系标识Coordinate_system为0时,坐标系为角度坐标系,在坐标系标识为1时,坐标系为像素坐标系。
在一些实施例中,该空间信息数据或者该空间信息轨迹还可以包括空间旋转信息标识,该空间旋转信息标识用于指示该目标空间信息是否包括该目标空间对象的空间旋转信息。
其中,空间旋转信息标识可以与该同属性空间信息封装在同一个box(例如,3dscbox)中,空间旋转信息标识也可以与该目标空间对象的异属性空间信息封装在同一个box(例如,mdat box)中。具体的,对于空间旋转信息标识与该目标空间对象的异属性空间信息封装在同一个box的情况,在该空间旋转信息标识指示该目标空间信息包括该目标空间对象的空间旋转信息时,则该目标空间对象的异属性空间信息包括空间旋转信息。
具体实现中,服务器可以将空间旋转信息标识与该目标空间对象的异属性空间信息封装在同一个box(例如,mdat box)中。进一步的,服务器可以将空间旋转信息标识与该目标空间对象的异属性空间信息封装在同一个box的同一个样本中。其中一个样本可以封装以一个空间对象对应的异属性信息。
添加空间旋转信息标识的样例(样例五):
在一些实施例中,该同属性空间信息和该目标空间对象的异属性空间信息也可以封装在视频的空间信息元数据中(track matedata),比如封装在同一个box中,例如,trunbox或者tfhd box或者是新的box中。
添加空间信息的样例(样例六):
其中一个空间对象的一个空间信息为一个样本,上述样本数量用于指示空间对象的数量,每个空间对象对应各自的一组异属性空间信息。作为本发明实施例提供的一种流媒体的信息的处理方法一种实现方式,步骤如下:
1、获得空间信息文件或者空间信息轨迹(空间信息可以称之为timed metadata)或者视频的空间信息元数据(或称为目标视频数据的元数据);
2、解析空间信息文件或者空间信息track;
3、解析到tag为3dsc的box(空间信息描述box),解析空间信息类型标识,该空间信息类型标识可以用于指示两个空间对象的空间对象类型,可选的空间对象类型可以包括但不限于:位置和大小不变的空间对象、位置变化和大小不变的空间对象、位置不变和大小变化的空间对象、以及位置和大小均变化的空间对象;
4、如果解析到的空间对象类型是位置和大小不变的空间对象,位置和大小不变的空间对象是指空间对象的空间位置和空间对象的空间的大小不变,那么在3dsc box中解析到的同属性空间信息可以作为目标空间信息,该空间对象类型表示所有的两个空间对象的空间信息都是相同的,取值都和解析到的同属性空间信息一致;如果是该类型的同属性空间信息,在后续的解析中,不需要解析该目标空间对象的异属性空间信息所在的box;
5、如果解析到的空间对象类型是位置变化和大小不变的空间对象,那么在该3dscbox中的同属性空间信息会携带空间对象的大小信息,比如空间对象的宽的高;那么在后续解析得到的该目标空间对象的异属性空间信息中所携带的信息就是每个空间对象的位置信息。
6、如果解析到的空间对象类型是位置和大小均变化的空间对象,那么在后续解析得到的该目标空间对象的异属性空间信息中所携带的信息就是每个空间对象的位置信息(例如,中心点的位置信息)和空间对象的大小信息,例如空间对象的宽的高;
7、解析到目标空间信息后,根据目标空间信息描述的空间对象(目标空间对象),在得到的VR视频中选择呈现的内容对象;或者请求目标空间信息描述的空间对象对应的视频数据进行解码呈现,或者根据该目标空间信息确定当前所观看的视频内容在在VR视频空间(或者称,全景空间)中的位置。
在一些实施例中,可以通过在MPD中的增加携带方式标识(carryType)来描述空间信息的携带方式:携带在空间信息文件或者空间信息轨迹或者目标视频数据的元数据中。
具体的MPD样例如下:
空间信息携带在目标视频数据的元数据中(样例七)
在该样例中,value="1,0",1是源的标识,0表示空间信息携带在目标视频数据的轨迹的元数据(或称为目标视频数据的元数据)中
空间信息携带在空间信息轨迹中(样例八)
在该样例中,value="1,1",1是源的标识,1表示空间信息携带在独立的空间信息轨迹中。
空间信息携带在独立的空间信息文件中(样例九)
在该样例中,value="1,2",1是源的标识,2表示空间信息携带在独立的空间信息文件中,空间信息文件所关联的目标视频表示(或称为目标视频码流)由associationId="zoomed"表示,空间信息文件和representation id为zoomed的目标视频表示关联;
客户端通过解析MPD可以获得空间信息的携带方式,从而根据携带方式获得空间信息。
在一些实施例中,该空间信息数据或者该空间信息轨迹中还可以包括用于指示该目标空间对象的宽高类型标识,该宽高类型标识可以用于指示用于描述所述目标空间对象的宽高的坐标系,或者,该宽高类型标识可以用于指示用于描述所述目标空间对象的边界的坐标系。该宽高类型标识可以是一个标识,也可以包括宽类型标识和高类型标识。
其中,该宽高类型标识与该同属性空间信息可以封装在同一个box(例如,3dscbox)中,该宽高类型标识也可以与该目标空间对象的异属性空间信息封装在同一个box(例如,mdat box)中。
具体实现中,服务器可以将宽高类型标识与该同属性空间信息封装在同一个box(例如,3dsc box)中。进一步的,在目标空间信息封装在独立于该目标视频数据的文件(空间信息文件)或者独立于该目标视频数据的轨迹(空间信息轨迹)中时,服务器可以在3dscbox中添加宽高类型标识。
添加宽高类型标识的样例(样例十):
在一些实施例中,该同属性空间信息和该目标空间对象的异属性空间信息也可以封装在视频的空间信息元数据中(track matedata),比如封装在同一个box中,例如,trunbox或者tfhd box或者tfhd box或者是新的box中。
添加空间信息的样例(样例十一):
在该样例中,在宽高类型标识为0时,用于描述目标空间对象的宽高的坐标系如图9所示,球面的阴影部分是目标空间对象,目标空间对象的四个角的顶点分别是B,E,G,I;在图9中,O为360度VR全景视频球面图像对应的球心,顶点BEGI分别为过球心的圆(该圆以球心O为圆心,并且该圆的半径为360度VR全景视频球面图像对应的球体的半径,该圆过z轴,该圆的数量为两个,一个经过点BAIO,一个经过点EFGO),和平行于坐标轴x轴和y轴的圆(该圆不以球心O为圆心,该圆的数量为两个,且两个圆互相平行,一个经过点BDE,一个经过点IHG)在球面上的交点,C为目标空间对象的中心点,DH边对应的角度表示为目标空间对象的高度,AF边对应的角度表示为目标空间对象的宽度,DH边和AF边过C点,其中BI边、EG边和DH边对应的角度相同;BE边、IG边和AF边对应的角度相同;BE边对应的角的顶点是J,J是上述圆中BDE所在圆和z轴的交点,相应的,IG边对应的角的顶点为上述圆中IHG所在的圆和z轴的交点,AF边对应的角的顶点为O点,BI边、EG边和DH边对应的角的顶点也为O点。
需要说明的是,以上只是一种示例,目标空间对象也可以是过x轴的两个圆和平行于y轴和z轴的且不过球心两个圆相交获得,目标空间对象也可以是过y轴的两个圆和平行于x轴和z轴的且不过球心两个圆相交获得。
在宽高类型标识为1时,用于描述目标空间对象的宽高的坐标系如图10所示,球面的阴影部分是目标空间对象,目标空间对象的四个角的顶点分别是B,E,G,I;在图10中,O为360度VR全景视频球面图像对应的球心,顶点BEGI分别为过z轴的圆(该圆以球心O为圆心,并且该圆的半径为360度VR全景视频球面图像对应的球体的半径,该圆的数量为两个,一个经过点BAI,一个经过点EFG),和过y轴的圆(该圆以球心O为圆心,并且该圆的半径为360度VR全景视频球面图像对应的球体的半径,该圆的数量为两个,一个经过点BDE,一个经过点IHG)在球面上的交点,C为目标空间对象的中心点,DH边对应的角度表示为目标空间对象的高度,AF边对应的角度表示为目标空间对象的宽度,DH边和AF边过C点,其中BI边、EG边和DH边对应的角度相同;BE边、IG边和AF边对应的角度相同;BE边对应的角的顶点为J点,J点为过BE两点并与x轴和y轴平行的圆与z轴的交点,IG边对应的角的顶点为过IG两点并与x轴和y轴平行的圆与z轴的交点,AF边对应的角的顶点为O点,BI边对应的角的顶点为L点,L点为过BI两点并与z轴和x轴平行的圆与y轴的交点,EG边对应的角的顶点为过EG两点并与z轴和x轴平行的圆与y轴的交点,DH边对应的角的顶点也为O点。
需要说明的是,以上只是一种示例,目标空间对象也可以是过x轴的两个圆和过z轴的两个圆相交获得,目标空间对象也可以是过x轴的两个圆和过y轴的两个圆相交获得。
在宽高类型标识为2时,用于描述目标空间对象的宽高的坐标系如图11所示,球面的阴影部分是目标空间对象,目标空间对象的四个角的顶点分别是B,E,G,I;在图11中,O为360度VR全景视频球面图像对应的球心,顶点BEGI分别为平行于坐标轴x轴和z轴的圆(该圆不以球心O为圆心,该圆的数量为两个,且两个圆互相平行,,该圆的数量为两个,一个经过点BAI,一个经过点EFG),和平行于坐标轴x轴和y轴的圆(该圆不以球心O为圆心,该圆的数量为两个,且两个圆互相平行,一个经过点BDE,一个经过点IHG)在球面上的交点,C为目标空间对象的中心点,DH边对应的角度表示为目标空间对象的高度,AF边对应的角度表示为目标空间对象的宽度,DH边和AF边过C点,其中BI边、EG边和DH边对应的角度相同;BE边、IG边和AF边对应的角度相同;BE边、IG边和AF边对应的角的顶点为O点,BI边、EG边和DH边对应的角的顶点也为O点。
需要说明的是,以上只是一种示例,目标空间对象也可以是平行于y轴和z轴的且不过球心两个圆和平行于y轴和x轴的且不过球心两个圆相交获得,目标空间对象也可以是平行于y轴和z轴的且不过球心两个圆和平行于z轴和x轴的且不过球心两个圆相交获得。
在图10中的J点和L点和图9中的J点获取方式相同,BE边对应的角的顶点是J点,BI边对应的角的顶点是L点;在图11中,BE边和BI边对应的顶点都是O点。
在一些实施例中,该同属性空间信息和该目标空间对象的异属性空间信息也可以包含目标空间对象的描述信息,比如该描述信息用于将目标空间对象描述为视角区域(举例来说,可以是视角码流对应的空间对象),或者感兴趣区域,或者该描述信息用于描述目标空间对象的质量信息。可以通过在上述实施例中的3dsc box或者trun box或者tfhd box或者是新的box的语法(syntax)添加该描述信息,或者在SphericalCoordinatesSample中添加该描述信息(content_type),以用于实现以下作用的一种或多种:将目标空间对象描述为视角区域,将目标空间对象描述为感兴趣区域,以及用于描述目标空间对象的质量信息。
在本发明实施例中的一种实现方式中,本实施例中的质量信息可以用qualitybox描述,该box可以是一个sample entry box,也可以是sample box,具体的语法和语义描述如下:
方式一:(样例十二)
其中,ROI周边可以是指图像的背景,quality_ranking_ROI表示ROI的质量等级,quality_ranking_back表示ROI周边的质量等级。
方式二:(样例十三)
quality_ranking_dif表示ROI的质量和ROI周边(后者背景)的质量等级差,或者quality_ranking_dif表示ROI的质量相对给定的值的差,可以在MPD中描述该给定值,也可以在其他位置描述该给定值,比如在box中增加defaultrank(默认质量)用于包括该给定值。quality_ranking_dif>0表示ROI质量高于周边质量,quality_ranking_dif<0表示低于周边质量;quality_ranking_dif=0表示ROI质量和周边质量相同。
方式三:(样例十四)
quality_type表示质量类型,quality_type的值为0可以表示ROI质量,quality_type的值为1可以表示背景质量,当然quality_type的值也可以用其他类似的方式表示。quality_ranking表示质量等级。
方式四:(样例十五)
比如:图12中,ROiregionstruct描述的是区域1801的区域信息(region),该区域信息可以是具体的区域信息,如现在已有标准中已经描述的,也可以是ROI的timedmetadata track的track ID;quality_ranking_ROI可以表示区域1801的质量等级;num_regions表示周边环形区域的个数,region_dif描述的是环形区域(指区域1802减去区域1801的差)的宽度,或者描述区域1802与区域1801高度差或者水平差,该差值可以是球面坐标系下的差,也可以是2D坐标系下的差;quality_ranking_dif表示环形区域的质量等级,或者与相邻环的质量等级差,相邻环的质量等级差可以比如是区域1802相对区域1801的质量等级差,也可以区域1802相对区域1803的质量等级差。区域1801、1802以及1803可以为矩形区域。或者区域1801,1802,1803可以是如图9,或者图10,或者图11中的阴影区域。
方式五:(样例十六)
此方式中可以不包含region的个数,只描述region的间隔region_dif和region之间的质量变化quality_ranking_dif。如果quality_ranking_dif的值为0可以表示region之间的质量不变。
如果quality_ranking_dif的值小于0可以表示region之间对应的图像质量变低,如果quality_ranking_dif的值大于0可以表示region之间对应的图像质量变高。或者,也可以如果quality_ranking_dif的值大于0可以表示region之间对应的图像质量变低,如果quality_ranking_dif的值小于0可以表示region之间对应的图像质量变高。
在一些可能的方式中,quality_ranking_dif的值可以具体表示质量变高或者变低的幅度。
应理解,可以将质量差和质量可以是质量等级,也可以是具体的质量,比如PSNR,MOS。
在本发明实施例中,ROiregionstruct描述的是区域1801的区域信息(region),该信息可以是具体的区域信息,如现在已有标准中描述的区域,也可以是ROI的timedmetadata track的track ID,这个信息也就可以放在方式一,方式二,方式三中,用来描述ROI的位置。
方式六
方式三中的quality_type也可以是,质量描述的ROI是在2D坐标系中的,或者质量描述的ROI是在球面坐标系下的,或者是扩边区域的ROI的。
方式七,在方式四和方式五中,region_dif可以替换成region_dif_h,region_dif_v。region_dif_h表示区域1802与区域1801宽度差,region_dif_v表示区域1802与区域1801高度差。
在上述方式一至七任一种方式中,qualitybox还可以包括其他信息,例如宽高类型标识。
图13为本发明实施例提供的一种视频信息的呈现方法的流程示意图。本发明实施例提供的视频信息的呈现方法,可以应用DASH领域,也可以应用于其他流媒体领域,例如基于RTP协议的流媒体传输。该方法的执行主体可以是客户端,具体可以为终端、用户设备或者计算机设备,也可以是网络设备,比如网关,代理服务器等。如图13所示,该方法可以包括如下步骤:
S1401,获取视频内容数据和辅助数据,所述视频内容数据用于重构视频图像,所述视频图像包括至少两个图像区域,所述辅助数据包括所述至少两个图像区域的质量信息。
所述至少两个图像区域包括:第一图像区域和第二图像区域,所述第一图像区域和所述第二图像区域无重叠区域,所述第一图像区域和第二图像区域的图像质量不同。所述质量信息包括:所述图像区域的质量等级,所述质量等级用于区分所述至少两个图像区域的相对图像质量。所述第一图像区域包括:高质量图像区域,低质量图像区域,背景图像区域或者预设的图像区域
在一些实施例中,应理解,获取的视频内容数据即待解码的视频码流,被用来解码生成视频图像,辅助数据中携带用来指示如何呈现解码生成的视频图像的信息。
在一些实施例中,视频图像中包括第一图像区域,而第一图像区域以外的区域被称为第二图像区域。第一图像区域可以仅指代一个图像区域,也可以指代多个具有相同性质的互不连通的图像区域。视频图像中除了互不重叠的第一图像区域和第二图像区域以外,还可以包括和第一图像区域、第二图像区域都不重叠的第三图像区域。
在一些实施例中,第一图像区域和第二图像区域的图像质量不相同。图像质量可以包括主观图像质量和客观图像质量。主观图像质量可以用观看者对图像的打分(比如,平均主观意见分,MOS分)来表示,客观图像质量可以图像信号的峰值信噪比(PSNR)来表示。
在一些实施例中,图像质量通过辅助数据携带的质量信息来表示。当视频图像包括至少两个图像区域时,质量信息用来指示同一视频图像中不同图像区域的图像质量。质量信息可以以质量等级的形式存在。质量等级可以是一个非负整数,也可以是其它形式的整数。不同的质量等级之间可以存在:视频图像质量越高,对应的质量等级越小的关系,或者,视频图像质量越低,对应的质量等级越大的关系。质量等级表征了不同图像区域间的相对图像质量。
在一些实施例中,质量信息还可以为第一图像区域和第二图像区域各自的绝对图像质量,比如将MOS分或者PSNR的数值线性或非线性映射到某一个数值域中,比如:MOS分为25,50,75,100时,分别对应质量信息为1,2,3,4,或者,PSNR的区间为[25,30),[30,35),[35,40),[40,60)(dB)时,分别对应质量信息为1,2,3,4。质量信息还可以为第一图像区域的绝对质量和第一、第二图像区域的质量差的组合,比如:质量信息包括第一质量指标和第二质量指标,第一质量指标为2,第二质量指标为-1时,表示第一图像区域的图像质量等级为2,第二图像区域的图像质量等级比第一图像区域低1个质量等级。
上述各种可行的实施方式的有益效果在于:对视频图像的不同图像区域采用不同质量等级的呈现方式,对于多数用户都选择观看的感兴趣区域,也可以是视频制作者指定的区域采用高质量的图像呈现,其它区域采用相对低质量的图像呈现,减少了视频图像的数据量。
在一些实施例中,第一图像区域可以为图像质量高于其他区域的图像区域,也可以为图像质量低于其他区域的图像区域,可以为前景图像区域,也可以为背景图像区域,可以为作者视角对应的图像区域,也可以为制定的图像区域、预设的图像区域、感兴趣图像区域等等,不做限定。
上述可行的实施方式的有益效果在于:可以通过不同的方式制定高质量区域,满足了观看者的个体需求,提高了主观视频体验。
S1402,根据所述辅助信息,确定所述视频内容数据的呈现方式。
在一种可行的实施方式中,所述辅助数据还包括所述第一图像区域在所述视频图像中的位置信息和尺寸信息。可以对所述位置信息和所述尺寸信息确定的所述第一图像区域的图像,确定以所述第一图像区域的质量等级呈现。
具体的,可以根据辅助数据中携带的位置信息和尺寸信息确定第一图像区域在整帧视频图像中的范围,确定对于该范围内的图像,使用辅助数据携带的第一图像区域对应的质量等级进行呈现。
其中,位置信息和尺寸信息,即为前文提到的空间信息,其表示方法以及获取方式参见前文,不再赘述。
在一种可行的实施方式中,所述辅助信息还包括所述第一图像区域在所述视频图像中的位置信息和尺寸信息的描述方式。在所述对所述位置信息和所述尺寸信息确定的所述第一图像区域的图像,确定以所述第一图像区域的质量等级呈现之前,还包括根据所述描述方式,从所述辅助信息中,确定所述位置信息和所述尺寸信息。描述方式可以为在辅助信息中携带第一图像区域的位置信息和尺寸信息的第一类描述方式,也可以为在辅助信息中携带第一图像区域所在区域表示的身份号码的第二类描述方式,通过该区域表示的身份号码可以索引到一个与第一图像所在的表示相独立的表示,该被索引到的表示携带了第一图像区域的位置信息和尺寸信息。在一些实施例中,第一图像区域可以是视频图像中的固定区域,即在一定的时间内在每帧图像中的位置和大小都不变,不妨称为静态区域,作为静态区域的第一图像区域可以采用第一类描述方式来描述;第一图像区域也可以是视频图像中的变化区域,即在一定的时间内在不同帧的图像中的位置或者大小会变化,不妨称为动态区域,作为动态区域的第一图像区域可以采用第二类描述方式来描述。
辅助信息中携带的第一图像区域在视频图像中的位置信息和尺寸信息的描述方式的信息表征了从辅助数据中获得该位置信息和尺寸信息的位置。
具体的,该描述方式的信息可以用0或1来表示,取0值表示第一类描述方式,即从辅助信息中的第一位置描述信息中获取第一图像区域在视频图像中的位置信息和尺寸信息,取1值表示第二类描述方式,即从辅助信息中的第二位置描述信息中获取第一图像区域在视频图像中所在区域表示的身份号码,从而进一步确定位置信息和尺寸信息,而位置信息和尺寸信息的确定又可以根据解析另一个独立的表示来完成。比如,当该描述方式的信息取0值时,从辅助数据中获取第一图像区域的左上位置点在视频图像中的水平坐标值、竖直坐标值、第一图像区域的宽和第一图像区域的高,其中水平坐标值和竖直坐标值所在坐标系的设定方式参考前述空间信息的获取,不再赘述;当该描述方式的信息取1值时,从辅助数据中获取第一图像区域在视频图像中所在区域表示的身份号码,该区域表示描述的区域即为第一图像区域。
上述可行的实施方式的有益效果在于:提供对不同质量的图像区域的不同的表示方式,例如对于各图像帧中保持高质量的图像区域,采用静态的方式,统一设置区域的位置信息和区域大小,对于各图像帧中高质量的图像区域会随帧的变化而改变的情况,采用动态的方式,逐帧表述高质量图像区域的位置以及大小,提高了视频呈现的灵活性。
在一种可行的实施方式中,所述第二图像区域为所述视频图像中所述第一图像区域以外的图像区域。可以对所述第二图像区域,确定以所述第二图像区域的质量等级呈现。
具体的,确定了第一图像区域的范围时,由于第一图像区域和第二图像区域呈补集的关系,第二图像区域的范围也同时确定,确定对于该范围内的图像,使用辅助数据携带的第二图像区域对应的质量等级进行呈现。
在一种可行的实施方式中,所述辅助数据还包括用于表征所述第一图像区域的区域边界处于平滑状态的第一标识。当所述第一标识表示所述第一图像区域的区域边界不平滑时,确定对所述第一图像区域的区域边界进行平滑。
当相邻接的不同图像区域的质量等级不同时,在图像区域相接的边界处,可能会呈现图像存在分界线的视觉感觉,或者说存在质量跳变。而当视觉上没有该感受的时候,称为图像区域的边界是平滑的。
辅助信息中可以携带用来表征第一图像区域的边界是否平滑的信息。
具体的,该信息可以用0或1来表示,取0值时表示第一图像区域的边界不平滑,意味着,如果需要提高视频图像的主观感受,需要在解码视频内容信息后需要进行其它图像处理操作,比如,灰度变换、直方图均衡、低通滤波、高通滤波等各种图像增强方法;取1值时表示第一图像区域的边界平滑,意味着不需要进行其它图像处理操作也可以获得较好的视频图像主观感受。
在一种可行的实施方式中,所述辅助信息还包括所述平滑所采用的平滑方法的第二标识;当所述第一标识表示对所述第一图像区域的区域边界进行平滑时,确定对所述第一图像区域的区域边界以所述第二标识对应的平滑方法进行平滑。
具体的,第二标识可以是一个非负整数,也可以是其它形式的整数。可以表示为具体的图像处理方法,比如:0代表进行高通滤波,1代表进行低通滤波,2代表进行灰度变换,从而直接指示平滑图像区域边界的图像处理方法。也可以表示为不平滑产生的原因,比如:1表示高质量区域和低质量区域是通过编码的方法产生的,2表示低质量区域是通过均匀或者不均匀的空间下采样产生的,3表示低质量趋于是通过前处理滤波产生的,4表示低质量区域是通过前处理空域滤波产生的,5表示低质量区域是通过前处理时域滤波产生的,6表示低质量区域是通过前处理空域和时域滤波产生的,从而为选择平滑图像边界的图像处理方法提供依据。
具体的图像处理方法,可以包括灰度变换、直方图均衡、低通滤波、高通滤波、像素点重采样等等,比如可以参考《图像增强算法的研究》,武汉科技大学,【网络出版年期】2008年04期,中对各种图像处理方法的描述,全文引入本发明实施例中,不再赘述。
上述各种可行的实施方式的有益效果在于:当用户视角中包含不同质量的图像区域时,用户可以选择对图像边界进行平滑,提高了用户的视觉体验,也可以选择不平滑,降低图像处理的复杂度。特别的,当用户被提示图像区域边界处理平滑状态时,即使不进行图像处理,也可以获得较好的视觉体验,从而降低了用户侧处理并呈现视频内容的设备的处理复杂度,减低了设备的功耗。
S1403,根据所述视频内容数据的呈现方式,呈现所述视频图像。
根据步骤S1402中通过辅助数据携带的各种信息确定的视频内容数据的呈现方式,呈现视频图像。
在一些实施例中,步骤S1403和步骤S1402可以结合在一起执行。
本发明实施例可以应用于DASH系统,所述DASH系统的MPD携带所述辅助数据,包括:所述DASH系统的客户端获取所述DASH系统的服务器端发送的所述媒体表示和与所述媒体表示对应的所述MPD;所述客户端解析所述MPD,获得所述至少两个图像区域的质量信息;所述客户端根据所述质量信息,处理并呈现对应的所述媒体表示所表征的视频图像。
图14为本发明实施例提供的DASH端到端系统的结构示意图。上述端到端系统包括四个模块:媒体内容准备模块1501,segment传输模块1502,MPD发送模块1503以及客户端1504。
其中,媒体内容准备模块1501产生供给客户端1504的视频内容,包括MPD;segment传输模块1502位于网站(web)服务器上,根据客户端1504对segment的请求,为客户端1504供给视频内容;MPD发送模块1503,用于向客户端1504发送MPD,该模块也可以位于网站服务器上;客户端1504接收MPD以及视频内容,通过解析MPD,获得不同图像区域的质量信息等辅助信息,根据质量信息对解码获得的视频内容进行后续的处理和呈现。
在第一种可行的实施方式中,MPD中携带的质量信息可以采用SupplementalProperty 中的属性@scheme描述:
以MPD的基本属性描述子(Essential Property)或者补充属性描述子(Supplemental Property)为例:
语法表:
具体的MPD样例:(样例十七)
上述MPD样例表明,在Representation id="9"的视频内容中,有一个空间区域描述scheme,其schemeIdUri="urn:mpeg:dash:rgqr:2017",该字段的value="0,1,180,45,1280,720,2",其语义为该Representation id="9"对应的视频图像中以(180,45)为左上位置点,区域范围为1280X720的图像区域,其质量等级为0,该视频图像中其它区域的质量等级为2,相邻区域的边界平滑。
当客户端获取该MPD后,会进行如下操作:
S1601、获取视频内容数据和辅助数据,所述视频内容数据用于重构视频图像,所述视频图像包括至少两个图像区域,所述辅助数据包括所述至少两个图像区域的质量信息。
具体的,客户端会解析MPD中的Essential Property或者Supplemental Property元素,根据元素的scheme,获知该scheme描述了表示的至少两个图像区域的质量信息。
对视频图像的不同图像区域采用不同质量等级的呈现方式,对于多数用户都选择观看的感兴趣区域,也可以是视频制作者指定的区域采用高质量的图像呈现,其它区域采用相对低质量的图像呈现,减少了视频图像的数据量。
S1602、根据所述辅助信息,确定所述视频内容数据的呈现方式。
具体的,通过解析schemeIdUri="urn:mpeg:dash:rgqr:2017"字段,获得quality_rank,smoothEdge,region_x,region_y,region_w,region_h,others_rank等各参数的值,从而确定目标区域的质量等级为0,相邻区域边界平滑,目标区域左上位置的水平坐标,目标区域左上位置的竖直坐标,目标区域的宽度,目标区域的高度以及该表示对应的视频图像中除目标区域以外的图像区域的质量等级为2。
S1603、根据所述视频内容数据的呈现方式,呈现所述视频图像。
具体的,客户端依据S1602步骤中确定的位置信息和尺寸信息、不同图像区域的质量等级以及相邻图像区域边界是否平滑,来确定视频数据的呈现方式。
在一些实施例中,客户端根据用户的观看视角,选择指定区域的质量等级指示质量高的表示。
在一些实施例中,如果用户视角变化,以致当前视角区域中呈现的内容是由部分高质量等级区域和部分低质量等级区域来共同组成的,如果smoothEdge=1,那么客户端可以直接呈现视频内容,如果smoothEdge=0,客户端需要对视频内容做视频质量平滑处理,平滑处理,比如维纳滤波,卡尔曼滤波等。
当用户视角中包含不同质量的图像区域时,用户可以选择对图像边界进行平滑,提高了用户的视觉体验,也可以选择不平滑,降低图像处理的复杂度。特别的,当用户被提示图像区域边界处理平滑状态时,即使不进行图像处理,也可以获得较好的视觉体验,从而降低了用户侧处理并呈现视频内容的设备的处理复杂度,减低了设备的功耗。。
在第二种可行的实施方式中,MPD中携带的信息还包括目标图像区域在所述视频图像中的位置信息和尺寸信息的描述方式的信息。
语法表:
具体的MPD样例:(样例十八)
上述MPD样例十八表明,在Representation id="9"的视频内容中,有一个空间区域描述scheme,其scheme IdUri="urn:mpeg:dash:rgqr:2017",该字段的value="0,0,1,180,45,1280,720,2",其语义为该Representation id="9"对应的视频图像中的目标图像区域以(180,45)为区域左上位置点,区域范围为1280X720,其质量等级为0,该视频图像中其它区域的质量等级为2,相邻区域的边界平滑。
具体的MPD样例:(样例十九)
上述MPD样例十九表明,在Representation id="9"的视频内容中,有一个空间区域描述scheme,其schemeIdUri="urn:mpeg:dash:rgqr:2017",该字段的value="1,0,1,region,2",其语义为该Representation id="9"对应的视频图像中的目标图像区域在该视频图像中所在的区域表示的ID为region,其质量等级为0,该视频图像中其它区域的质量等级为2,相邻区域的边界平滑。
在一些实施例中,进一步地,客户端可以通过解析MPD获得ID为region的区域表示所描述的码流的URL构造信息,通过该URL构造信息,可以构造该区域表示的URL,向服务器请求该区域表示的码流数据,获得码流数据后,从码流数据中解析获得目标图像区域的位置和尺寸信息。
在一些实施例中,regiontype=0表示视频图像中的固定区域,即在一定的时间内在每帧图像中的位置和大小都不变,也称为静态区域。regiontype=1表示视频图像中的变化区域,即在一定的时间内在不同帧的图像中的位置或者大小会变化,也称为动态区域
对应的,相比于第一种可行的实施方式,在步骤S1602中,具体的,通过解析schemeIdUri="urn:mpeg:dash:rgqr:2017"字段,首先获得regiontype的值,根据regiontype的值来决定目标区域的位置信息和尺寸信息来自于region_x,region_y,region_w,region_h(当regiontype表示静态图像),还是来自于region_representation_id(当regiontype表示动态图像),再根据解析该字段获得的其它参数,确定该图像区域的呈现方式,不再赘述。
应理解,目标区域的位置信息和尺寸信息有多种表示方式,参见前文所述的空间信息的获取,不再赘述。
应理解,以regiontype为例,表征了MPD中空间信息的获取方式,即解析哪一个字段来获得空间信息,与具体的用何种方式来表示目标区域的位置信息和尺寸信息无关。
提供对不同质量的图像区域的不同的表示方式,例如对于各图像帧中保持高质量的图像区域,采用静态的方式,统一设置区域的位置信息和区域大小,对于各图像帧中高质量的图像区域会随帧的变化而改变的情况,采用动态的方式,逐帧表述高质量图像区域的位置以及大小,提高了视频呈现的灵活性。
在一些实施例中,MPD中空间信息的获取方式还可以用其他形式表示,比如:
具体的MPD样例:(样例二十)
在上述MPD样例二十中,使用scheme I dUri="urn:mpeg:dash:rgqr_dynamic:2017"来表示目标区域的位置信息和尺寸信息在独立于当前表示的ID为region的区域表示中解析获得,在后续的语法中可以解析到该表示的身份号码(id)信息,适合动态区域场景,对应的,可以使用scheme I dUri="urn:mpeg:dash:rgqr:2017"来表示目标区域的位置信息和尺寸信息携带于当前表示中,适合静态区域场景。
在第三种可行的实施方式中,MPD中携带的信息还包括对于相邻区域边界的平滑方法的标识。
语法表:
具体的MPD样例:(样例二十一)
上述MPD样例表明,在Representation id="9"的视频内容中,有一个空间区域描述scheme,其schemeIdUri="urn:mpeg:dash:rgqr:2017",该字段的value="0,0,180,45,1280,720,2,1",其语义为该Representation id="9"对应的视频图像中以(180,45)为左上位置点,区域范围为1280X720的图像区域,其质量等级为0,该视频图像中其它区域的质量等级为2,相邻区域的边界不平滑,并且当相邻区域的边界不平滑时,使用标号为1的平滑方法对边界进行平滑。
对应的,相比于第一种可行的实施方式,在步骤S1602中,通过获取Smooth_method,进一步确定了平滑的方法,在步骤S1603中,确定视频数据的呈现方式,包括在呈现视频数据的时候,呈现经过使用该平滑方法平滑后的视频数据。
提示了具体的平滑方法,有利于客户端选择合适的方法进行平滑,提高了用户的主观视频体验。
应理解,该Smooth_method的取值所对应的可以是具体的平滑方法,如维纳滤波、卡尔曼滤波、上采样,也可以是提示如何选择平滑方法的信息,比如造成边界不平滑的原因,例如:高质量区域和低质量区域是通过编码的方法产生、低质量区域是通过均匀或者不均匀的空间下采样产生等。
应理解,该Smooth_method和smoothEdge可以相互关联,即仅当smoothEdge表征边界不平滑时,Smooth_method才存在,也可以互相独立存在,不做限定。
本发明实施例可以应用于视频轨迹的传输系统中,所述传输系统的裸码流携带所述视频内容数据,所述传输系统将所述裸码流和所述辅助信息封装为视频轨迹,包括:所述传输系统的接收端获取所述传输系统的生成端发送的所述视频轨迹;所述接收端解析所述辅助信息,获得所述至少两个图像区域的质量信息;所述接收端根据所述质量信息,处理并呈现通过解码所述视频轨迹中的所述裸码流而获得的视频图像。
图15为本发明实施例提供的视频轨迹的传输系统的结构示意图。上述系统包括视频轨迹的生成侧和视频轨迹的解析侧。在视频轨迹的生成侧,视频封装模块获得视频裸码流的数据和元数据(即辅助信息),将元数据和视频裸码流数据封装在视频轨迹中。视频裸码流数据是视频是按照视频压缩标准(比如H.264、H.265标准)编码的,视频码流封装模块获取的视频裸码流数据被划分为视频网络抽象层单元(NALU),元数据中包含目标区域的质量信息。在视频轨迹的解析侧,视频解封装模块获得视频轨迹的数据,解析获得视频的元数据和视频裸码流数据,并根据视频的元数据和视频裸码流数据,处理并呈现视频内容。
在第四种可行的实施方式中,采用ISO/IEC的BMFF格式,将不同区域的质量信息描述在轨迹的元数据中。
qualitybox中描述不同区域质量信息的样例(样例二十二):
aligned(8)class qualitybox{
unsigned int(16)top_left_x;//目标区域左上点横坐标
unsigned int(16)top_left_y;//目标区域左上点纵坐标
unsigned int(16)reference_width;//目标区域的宽
unsigned int(16)reference_height;//目标区域的高
unsigned int(8)smoothEdge;//相邻图像区域边界是否平滑
unsigned int(8)quality_rank;//目标区域的质量等级
unsigned int(8)other_rank;//目标区域以外区域的质量等级
......
}
或者(样例二十三)
aligned(8)class qualitybox{
unsigned int(16)num_regions;//区域个数
unsigned int(16)remaining_area_flag;//0表示需要描述位置和尺寸的区域,1表示剩余的未描述位置和尺寸的区域
for(i=0;i<num_regions;i++){
if(remaining_area_flag==0)
{
区域的位置和尺寸
}
unsigned int(8)smoothEdge;//相邻图像区域边界是否平滑
unsigned int(8)quality_rank;//质量等级,在remaining_area_flag=1的时候描述的是剩余的未描述位置和尺寸的区域质量等级,remaining_area_flag=0的时候描述的是位置和尺寸的区域质量等级
}
}
或者(样例二十四)
aligned(8)class qualitybox{
unsigned int(16)num_regions;//区域个数
unsigned int(16)remaining_area_flag;;//0表示需要描述位置和尺寸的区域,1表示剩余的未描述位置和尺寸的区域
for(i=0;i<num_regions;i++){
if(remaining_area_flag==0)
{
区域的位置和尺寸
}
unsigned int(8)quality_rank;//质量等级,在remaining_area_flag=1的时候描述的是剩余的未描述位置和尺寸的区域质量等级,remaining_area_flag=0的时候描述的是位置和尺寸的区域质量等级
}
unsigned int(8)smoothEdge;//相邻图像区域边界是否平滑
}
该实施方式与第一种可行的实施方式相对应,可以参考第一种可行的实施方式中客户端的执行方式,不再赘述。
在第五中可行的实施方法中,qualitybox中描述不同区域质量信息的样例(样例二十五):
aligned(8)class qualitybox{
unsigned int(8)regionType;//目标区域的位置信息和尺寸信息的获取方式
if(regionType==0){//静态图像
unsigned int(16)top_left_x;//目标区域左上点横坐标
unsigned int(16)top_left_y;//目标区域左上点纵坐标
unsigned int(16)reference_width;//目标区域的宽
unsigned int(16)reference_height;//目标区域的高
}
if(regionType==1){//动态图像
unsigned int(8)region_representation_id;//区域表示的身份号码
}
unsigned int(8)smoothEdge;//相邻图像区域边界是否平滑
unsigned int(8)quality_rank;//目标区域的质量等级
unsigned int(8)other_rank;//目标区域以外区域的质量等级
......
}
该实施方式与第二种可行的实施方式相对应,可以参考第二种可行的实施方式中客户端的执行方式,不再赘述。
在第六中可行的实施方法中,qualitybox中描述不同区域质量信息的样例(样例二十六):
aligned(8)class qualitybox{
unsigned int(16)top_left_x;//目标区域左上点横坐标
unsigned int(16)top_left_y;//目标区域左上点纵坐标
unsigned int(16)reference_width;//目标区域的宽
unsigned int(16)reference_height;//目标区域的高
unsigned int(8)smoothEdge;//相邻图像区域边界是否平滑
unsigned int(8)quality_rank;//目标区域的质量等级
unsigned int(8)other_rank;//目标区域以外区域的质量等级
unsigned int(8)smoothMethod;//平滑方法
......
}
或者(样例二十七)
aligned(8)class qualitybox{
unsigned int(16)num_regions;//区域个数
unsigned int(16)remaining_area_flag;//0表示需要描述位置和尺寸的区域,1表示剩余的未描述位置和尺寸的区域
for(i=0;i<num_regions;i++){
if(remaining_area_flag==0)
{
区域的位置和尺寸
}
unsigned int(8)quality_rank;//质量等级,在remaining_area_flag=1的时候描述的是剩余的未描述位置和尺寸的区域质量等级,remaining_area_flag=0的时候描述的是位置和尺寸的区域质量等级
}
unsigned int(8)smoothEdge;//相邻图像区域边界是否平滑
unsigned int(8)smoothMethod;//平滑方法
}
该实施方式与第三种可行的实施方式相对应,可以参考第三种可行的实施方式中客户端的执行方式,不再赘述。
应理解,DASH系统和视频轨迹的传输系统可以是互相独立的,也可以是相互兼容的,比如在DASH系统中需要传递MPD信息和视频内容信息,而视频内容信息为封装了视频裸码流数据和原数据的视频轨迹。
因此,上述各可行的实施方式可以独立执行,也可以相互结合。
例如,在第七种可行的实施方式中,客户端接收的MPD信息携带以下的辅助信息:
客户端解封装视频轨迹,获得的元数据携带以下的辅助信息:
aligned(8)class qualitybox{
……
unsigned int(8)smoothMethod;
……
}
因此,结合从MPD信息以及从视频轨迹封装的元数据中获得的辅助信息,客户端可以根据MPD信息获得目标区域的位置和尺寸信息,目标区域和目标区域以外区域的质量等级以及相邻的不同质量区域边界处是否平滑的信息,又根据元数据获得的平滑方法信息,从而确定处理并呈现视频内容数据的方法。
图16是发明实施例提供一种视频信息的呈现装置1100,信息的处理装置1100可以为客户端,具体可以为计算机设备。该装置1100包括获取模块1101、确定模块1102、呈现模块1103,其中,
获取模块,用于获取视频内容数据和辅助数据,所述视频内容数据用于重构视频图像,所述视频图像包括至少两个图像区域,所述辅助数据包括所述至少两个图像区域的质量信息;
确定模块,用于根据所述辅助信息,确定所述视频内容数据的呈现方式;
呈现模块,用于根据所述视频内容数据的呈现方式,呈现所述视频图像。
在一种可行的实施方式中,所述至少两个图像区域包括:第一图像区域和第二图像区域,所述第一图像区域和所述第二图像区域无重叠区域,所述第一图像区域和第二图像区域的图像质量不同。
在一种可行的实施方式中,所述质量信息包括:所述图像区域的质量等级,所述质量等级用于区分所述至少两个图像区域的相对图像质量。
在一种可行的实施方式中,所述辅助数据还包括:所述第一图像区域在所述视频图像中的位置信息和尺寸信息;对应的,所述确定模块,具体用于对所述位置信息和所述尺寸信息确定的所述第一图像区域的图像,确定以所述第一图像区域的质量等级呈现。
在一种可行的实施方式中,所述第二图像区域为所述视频图像中所述第一图像区域以外的图像区域,所述确定模块具体用于对所述第二图像区域,确定以所述第二图像区域的质量等级呈现。
在一种可行的实施方式中,所述辅助数据还包括:用于表征所述第一图像区域的区域边界处于平滑状态的第一标识;对应的,所述确定模块具体用于当所述第一标识表示所述第一图像区域的区域边界不平滑时,确定对所述第一图像区域的区域边界进行平滑。
在一种可行的实施方式中,所述辅助信息还包括:所述平滑所采用的平滑方法的第二标识;对应的,所述确定模块具体用于当所述第一标识表示对所述第一图像区域的区域边界进行平滑时,确定对所述第一图像区域的区域边界以所述第二标识对应的平滑方法进行平滑。
在一种可行的实施方式中,所述平滑方法包括:灰度变换、直方图均衡、低通滤波、高通滤波。
在一种可行的实施方式中,所述辅助信息还包括:所述第一图像区域在所述视频图像中的位置信息和尺寸信息的描述方式;对应的,在所述对所述位置信息和所述尺寸信息确定的所述第一图像区域的图像,确定以所述第一图像区域的质量等级呈现之前,所述确定模块还用于根据所述描述方式,从所述辅助信息中,确定所述位置信息和所述尺寸信息。
在一种可行的实施方式中,所述第一图像区域包括:高质量图像区域,低质量图像区域,背景图像区域或者预设的图像区域。
可以理解的是,获取模块1101、确定模块1102、呈现模块1103的功能可以通过软件编程的方式实现,也可以通过硬件编程实现,也可以通过电路实现,在此不做限定。
可以理解的是,本实施例的视频信息的呈现装置1100的各个模块的功能可以根据上述方法实施例中的方法具体实现,其具体实现过程可以参照上述方法实施例的相关描述,此处不再赘述。
图17是本发明实施例提供的计算机设备1300的硬件结构示意图。如图17所示,计算机设备1300可以作为流媒体的信息的处理装置1100的一种实现方式,也可以作为流媒体的信息的处理装置1200的一种实现方式,计算机设备1300包括处理器1302、存储器1304、输入/输出接口1306、通信接口1308和总线1310。其中,处理器1302、存储器1304、输入/输出接口1306和通信接口1308通过总线1310实现彼此之间的通信连接。
处理器1302可以采用通用的中央处理器(Central Processing Unit,CPU),微处理器,应用专用集成电路(Application Specific Integrated Circuit,ASIC),或者一个或多个集成电路,用于执行相关程序,以实现本发明实施例所提供的流媒体的信息的处理装置1100或者流媒体的信息的处理装置1200中包括的模块所需执行的功能,或者执行本发明方法实施例提供的图8或者图16对应的流媒体的信息的处理方法。处理器1302可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器1302中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器1302可以是通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器1304,处理器1302读取存储器1304中的信息,结合其硬件完成本发明实施例所提供的流媒体的信息的处理装置1100或者流媒体的信息的处理装置1200中包括的模块所需执行的功能,或者执行本发明方法实施例提供的图8或者图16对应的流媒体的信息的处理方法。
存储器1304可以是只读存储器(Read Only Memory,ROM),静态存储设备,动态存储设备或者随机存取存储器(Random Access Memory,RAM)。存储器1304可以存储操作系统以及其他应用程序。在通过软件或者固件来实现本发明实施例提供的视频信息的处理装置1100中包括的模块所需执行的功能,或者执行本发明方法实施例提供的图13对应的视频信息的呈现方法时,用于实现本发明实施例提供的技术方案的程序代码保存在存储器1304中,并由处理器1302来执行视频信息的处理装置1100中包括的模块所需执行的操作。
输入/输出接口1306用于接收输入的数据和信息,输出操作结果等数据。可以作为装置1100中的获取模块1101,或者装置1200中的获取模块1201或者发送模块。
通信接口1308使用例如但不限于收发器一类的收发装置,来实现计算机设备1300与其他设备或通信网络之间的通信。可以作为装置1100中的获取模块1101,或者装置1200中的获取模块1201或者发送模块。
总线1310可包括在计算机设备1300各个部件(例如处理器1302、存储器1304、输入/输出接口1306和通信接口1308)之间传送信息的通路。
应注意,尽管图17所示的计算机设备1300仅仅示出了处理器1302、存储器1304、输入/输出接口1306、通信接口1308以及总线1310,但是在具体实现过程中,本领域的技术人员应当明白,计算机设备1300还包含实现正常运行所必须的其他器件,例如在作为视频信息的处理装置1100实现方式时,视频信息的处理装置1100还可以包括显示器,用于显示要播放的视频数据。同时,根据具体需要,本领域的技术人员应当明白,计算机设备1300还可包含实现其他附加功能的硬件器件。此外,本领域的技术人员应当明白,计算机设备1300也可仅仅包含实现本发明实施例所必须的器件,而不必包含图17中所示的全部器件。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,上述的程序可存储于一种计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,上述的存储介质可为磁碟、光盘、只读存储记忆体(ROM:Read-Only Memory)或随机存储记忆体(RAM:RandomAccess Memory)等。
尽管在此结合各实施例对本发明进行了描述,然而,在实施所要保护的本发明的过程中,本领域技术人员通过查看所述附图、公开内容、以及所附权利要求书,可理解并实现所述公开实施例的其它变化。在权利要求中,“包括”(comprising)一词不排除其它组成部分或步骤,“一”或“一个”不排除多个的可能性。单个处理器或其它单元可以实现权利要求中列举的若干项功能。互相不同的从属权利要求中记载了某些措施,但这并不代表这些措施不能组合起来产生良好的效果。计算机程序可以存储/分布在合适的介质中,例如:光存储介质或固态介质,与其它硬件一起提供或作为硬件的一部分,也可以采用其它分布形式,如通过Internet或其它有线或无线电信系统。
本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (22)

1.一种视频信息的呈现方法,其特征在于,包括:
获取视频内容数据和辅助数据,所述视频内容数据用于重构视频图像,所述视频图像包括至少两个图像区域,所述辅助数据包括所述至少两个图像区域的质量信息;
根据所述辅助信息,确定所述视频内容数据的呈现方式;
根据所述视频内容数据的呈现方式,呈现所述视频图像。
2.根据权利要求1所述的方法,其特征在于,所述至少两个图像区域包括:第一图像区域和第二图像区域,所述第一图像区域和所述第二图像区域无重叠区域,所述第一图像区域和第二图像区域的图像质量不同。
3.根据权利要求1或2所述的方法,其特征在于,所述质量信息包括:所述图像区域的质量等级,所述质量等级用于区分所述至少两个图像区域的相对图像质量。
4.根据权利要求2或3所述的方法,其特征在于,所述辅助数据还包括:所述第一图像区域在所述视频图像中的位置信息和尺寸信息;
对应的,所述根据所述辅助信息,确定所述视频内容数据的呈现方式,包括:
对所述位置信息和所述尺寸信息确定的所述第一图像区域的图像,确定以所述第一图像区域的质量等级呈现。
5.根据权利要求4所述的方法,其特征在于,所述第二图像区域为所述视频图像中所述第一图像区域以外的图像区域,所述根据所述辅助信息,确定所述视频内容数据的呈现方式,还包括:
对所述第二图像区域,确定以所述第二图像区域的质量等级呈现。
6.根据权利要求2至5任一项所述的方法,其特征在于,所述辅助数据还包括:用于表征所述第一图像区域的区域边界处于平滑状态的第一标识;
对应的,所述根据所述辅助信息,确定所述视频内容数据的呈现方式,包括:
当所述第一标识表示所述第一图像区域的区域边界不平滑时,确定对所述第一图像区域的区域边界进行平滑。
7.根据权利要求6所述的方法,其特征在于,所述辅助信息还包括:所述平滑所采用的平滑方法的第二标识;
对应的,所述根据所述辅助信息,确定所述视频内容数据的呈现方式,包括:
当所述第一标识表示对所述第一图像区域的区域边界进行平滑时,确定对所述第一图像区域的区域边界以所述第二标识对应的平滑方法进行平滑。
8.根据权利要求7所述的方法,其特征在于,所述平滑方法包括:灰度变换、直方图均衡、低通滤波、高通滤波。
9.根据权利要求4至8任一项所述的方法,其特征在于,所述辅助信息还包括:所述第一图像区域在所述视频图像中的位置信息和尺寸信息的描述方式;
对应的,在所述对所述位置信息和所述尺寸信息确定的所述第一图像区域的图像,确定以所述第一图像区域的质量等级呈现之前,还包括:
根据所述描述方式,从所述辅助信息中,确定所述位置信息和所述尺寸信息。
10.根据权利要求2至9任一项所述的方法,其特征在于,所述第一图像区域包括:高质量图像区域,低质量图像区域,背景图像区域或者预设的图像区域。
11.根据权利要求1至10任一项所述的方法,其特征在于,所述方法用于基于超文本传输协议的动态自适应数据流(DASH)系统中,所述DASH系统的媒体表示(representation)用于表示所述视频内容数据,所述DASH系统的媒体呈现描述(MPD)携带所述辅助数据,包括:
所述DASH系统的客户端获取所述DASH系统的服务器端发送的所述媒体表示和与所述媒体表示对应的所述媒体呈现描述;
所述客户端解析所述媒体呈现描述,获得所述至少两个图像区域的质量信息;
所述客户端根据所述质量信息,处理并呈现对应的所述媒体表示所表征的视频图像。
12.根据权利要求1至10任一项所述的方法,其特征在于,所述方法用于视频轨迹(track)的传输系统中,所述传输系统的裸码流携带所述视频内容数据,所述传输系统将所述裸码流和所述辅助信息封装为视频轨迹,包括:
所述传输系统的接收端获取所述传输系统的生成端发送的所述视频轨迹;
所述接收端解析所述辅助信息,获得所述至少两个图像区域的质量信息;
所述接收端根据所述质量信息,处理并呈现通过解码所述视频轨迹中的所述裸码流而获得的视频图像。
13.一种呈现视频信息的客户端,其特征在于,包括:
获取模块,用于获取视频内容数据和辅助数据,所述视频内容数据用于重构视频图像,所述视频图像包括至少两个图像区域,所述辅助数据包括所述至少两个图像区域的质量信息;
确定模块,用于根据所述辅助信息,确定所述视频内容数据的呈现方式;
呈现模块,用于根据所述视频内容数据的呈现方式,呈现所述视频图像。
14.根据权利要求13所述的客户端,其特征在于,所述至少两个图像区域包括:第一图像区域和第二图像区域,所述第一图像区域和所述第二图像区域无重叠区域,所述第一图像区域和第二图像区域的图像质量不同。
15.根据权利要求13或14所述的客户端,其特征在于,所述质量信息包括:所述图像区域的质量等级,所述质量等级用于区分所述至少两个图像区域的相对图像质量。
16.根据权利要求14或15所述的客户端,其特征在于,所述辅助数据还包括:所述第一图像区域在所述视频图像中的位置信息和尺寸信息;
对应的,所述确定模块,具体用于对所述位置信息和所述尺寸信息确定的所述第一图像区域的图像,确定以所述第一图像区域的质量等级呈现。
17.根据权利要求16所述的客户端,其特征在于,所述第二图像区域为所述视频图像中所述第一图像区域以外的图像区域,所述确定模块具体用于对所述第二图像区域,确定以所述第二图像区域的质量等级呈现。
18.根据权利要求14至17任一项所述的客户端,其特征在于,所述辅助数据还包括:用于表征所述第一图像区域的区域边界处于平滑状态的第一标识;
对应的,所述确定模块具体用于当所述第一标识表示所述第一图像区域的区域边界不平滑时,确定对所述第一图像区域的区域边界进行平滑。
19.根据权利要求18所述的客户端,其特征在于,所述辅助信息还包括:所述平滑所采用的平滑方法的第二标识;
对应的,所述确定模块具体用于当所述第一标识表示对所述第一图像区域的区域边界进行平滑时,确定对所述第一图像区域的区域边界以所述第二标识对应的平滑方法进行平滑。
20.根据权利要求19所述的客户端,其特征在于,所述平滑方法包括:灰度变换、直方图均衡、低通滤波、高通滤波。
21.根据权利要求16至20任一项所述的客户端,其特征在于,所述辅助信息还包括:所述第一图像区域在所述视频图像中的位置信息和尺寸信息的描述方式;
对应的,在所述对所述位置信息和所述尺寸信息确定的所述第一图像区域的图像,确定以所述第一图像区域的质量等级呈现之前,所述确定模块还用于根据所述描述方式,从所述辅助信息中,确定所述位置信息和所述尺寸信息。
22.根据权利要求14至21任一项所述的客户端,其特征在于,所述第一图像区域包括:高质量图像区域,低质量图像区域,背景图像区域或者预设的图像区域。
CN201710370619.5A 2017-05-23 2017-05-23 一种视频信息的呈现方法、呈现视频信息的客户端和装置 Active CN108965929B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN201710370619.5A CN108965929B (zh) 2017-05-23 2017-05-23 一种视频信息的呈现方法、呈现视频信息的客户端和装置
PCT/CN2018/084719 WO2018214698A1 (zh) 2017-05-23 2018-04-27 一种视频信息的呈现方法和装置
US16/688,418 US20200092600A1 (en) 2017-05-23 2019-11-19 Method and apparatus for presenting video information

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710370619.5A CN108965929B (zh) 2017-05-23 2017-05-23 一种视频信息的呈现方法、呈现视频信息的客户端和装置

Publications (2)

Publication Number Publication Date
CN108965929A true CN108965929A (zh) 2018-12-07
CN108965929B CN108965929B (zh) 2021-10-15

Family

ID=64396195

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710370619.5A Active CN108965929B (zh) 2017-05-23 2017-05-23 一种视频信息的呈现方法、呈现视频信息的客户端和装置

Country Status (3)

Country Link
US (1) US20200092600A1 (zh)
CN (1) CN108965929B (zh)
WO (1) WO2018214698A1 (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110008904A (zh) * 2019-04-08 2019-07-12 万维科研有限公司 生成基于视频文件格式的形状识别列表的方法
CN113746797A (zh) * 2021-03-15 2021-12-03 上海交通大学 一种三维点云的传输方法、装置及介质

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019199025A1 (ko) * 2018-04-09 2019-10-17 에스케이텔레콤 주식회사 영상을 부호화/복호화하는 방법 및 그 장치
US11509937B2 (en) * 2018-04-09 2022-11-22 Sk Telecom Co., Ltd. Method and apparatus for encoding/decoding video
JP2021192471A (ja) * 2018-09-14 2021-12-16 ソニーグループ株式会社 表示制御装置および表示制御方法、並びにプログラム
US10939126B1 (en) * 2019-12-09 2021-03-02 Guangzhou Zhijing Technology Co., Ltd Method of adding encoded range-of-interest location, type and adjustable quantization parameters per macroblock to video stream
CN110992360B (zh) * 2019-12-24 2024-01-23 北京安兔兔科技有限公司 设备性能测试方法、装置及电子设备
GB2602642A (en) * 2021-01-06 2022-07-13 Canon Kk Method and apparatus for encapsulating uncompressed video data into a file
GB2617048A (en) * 2021-01-06 2023-09-27 Canon Kk Method and apparatus for encapsulating uncompressed images and uncompressed video data into a file
US11810335B2 (en) * 2021-02-16 2023-11-07 International Business Machines Corporation Metadata for embedded binary data in video containers

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120218256A1 (en) * 2009-09-08 2012-08-30 Murray Kevin A Recommended depth value for overlaying a graphics object on three-dimensional video
CN103945145A (zh) * 2013-01-17 2014-07-23 三星泰科威株式会社 处理图像的设备和方法
CN105100677A (zh) * 2014-05-21 2015-11-25 华为技术有限公司 用于视频会议呈现的方法、装置和系统
CN105898337A (zh) * 2015-11-18 2016-08-24 乐视网信息技术(北京)股份有限公司 全景视频的显示方法和装置
CN106162177A (zh) * 2016-07-08 2016-11-23 腾讯科技(深圳)有限公司 视频编码方法和装置
CN106412563A (zh) * 2016-09-30 2017-02-15 珠海市魅族科技有限公司 一种图像显示方法以及装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160248829A1 (en) * 2015-02-23 2016-08-25 Qualcomm Incorporated Availability Start Time Adjustment By Device For DASH Over Broadcast

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120218256A1 (en) * 2009-09-08 2012-08-30 Murray Kevin A Recommended depth value for overlaying a graphics object on three-dimensional video
CN103945145A (zh) * 2013-01-17 2014-07-23 三星泰科威株式会社 处理图像的设备和方法
CN105100677A (zh) * 2014-05-21 2015-11-25 华为技术有限公司 用于视频会议呈现的方法、装置和系统
CN105898337A (zh) * 2015-11-18 2016-08-24 乐视网信息技术(北京)股份有限公司 全景视频的显示方法和装置
CN106162177A (zh) * 2016-07-08 2016-11-23 腾讯科技(深圳)有限公司 视频编码方法和装置
CN106412563A (zh) * 2016-09-30 2017-02-15 珠海市魅族科技有限公司 一种图像显示方法以及装置

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110008904A (zh) * 2019-04-08 2019-07-12 万维科研有限公司 生成基于视频文件格式的形状识别列表的方法
WO2020207186A1 (zh) * 2019-04-08 2020-10-15 万维科研有限公司 生成基于视频文件格式的形状识别列表的方法
US11861876B2 (en) 2019-04-08 2024-01-02 Marvel Research Limited Method for generating video file format-based shape recognition list
CN113746797A (zh) * 2021-03-15 2021-12-03 上海交通大学 一种三维点云的传输方法、装置及介质

Also Published As

Publication number Publication date
US20200092600A1 (en) 2020-03-19
WO2018214698A1 (zh) 2018-11-29
CN108965929B (zh) 2021-10-15

Similar Documents

Publication Publication Date Title
CN108965929A (zh) 一种视频信息的呈现方法和装置
CN108271044A (zh) 一种信息的处理方法及装置
US10880535B2 (en) Method for transmitting 360 video, method for receiving 360 video, apparatus for transmitting 360 video, and apparatus for receiving 360 video
US11563793B2 (en) Video data processing method and apparatus
WO2018058773A1 (zh) 一种视频数据的处理方法及装置
CN109155873A (zh) 改进虚拟现实媒体内容的流传输的方法、装置和计算机程序
CN109644262A (zh) 发送全向视频的方法、接收全向视频的方法、发送全向视频的装置和接收全向视频的装置
US20190230388A1 (en) Method and apparatus for processing video data
US20210176446A1 (en) Method and device for transmitting and receiving metadata about plurality of viewpoints
CN108282449A (zh) 一种应用于虚拟现实技术的流媒体的传输方法和客户端
CN109644296A (zh) 一种视频流传输方法、相关设备及系统
CN109218755A (zh) 一种媒体数据的处理方法和装置
CN114697631B (zh) 沉浸媒体的处理方法、装置、设备及存储介质
CN109218274A (zh) 一种媒体信息的处理方法及装置
WO2018072488A1 (zh) 一种数据处理方法、相关设备及系统
WO2018120474A1 (zh) 一种信息的处理方法及装置
CN108271084A (zh) 一种信息的处理方法及装置
WO2023169003A1 (zh) 点云媒体的解码方法、点云媒体的编码方法及装置
WO2022037423A1 (zh) 点云媒体的数据处理方法、装置、设备及介质
CN108271068A (zh) 一种基于流媒体技术的视频数据的处理方法及装置
CN116781675A (zh) 一种点云媒体的数据处理方法、装置、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant