CN104365095B - 用于对视频流的选定空间部分进行编码的方法和装置 - Google Patents

用于对视频流的选定空间部分进行编码的方法和装置 Download PDF

Info

Publication number
CN104365095B
CN104365095B CN201380018231.9A CN201380018231A CN104365095B CN 104365095 B CN104365095 B CN 104365095B CN 201380018231 A CN201380018231 A CN 201380018231A CN 104365095 B CN104365095 B CN 104365095B
Authority
CN
China
Prior art keywords
space segment
coding
video stream
prompting
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201380018231.9A
Other languages
English (en)
Other versions
CN104365095A (zh
Inventor
阿尔法塞 P·龙当
J-F·麦克
N·韦尔齐普
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alcatel Lucent SAS
Original Assignee
Alcatel Lucent SAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alcatel Lucent SAS filed Critical Alcatel Lucent SAS
Publication of CN104365095A publication Critical patent/CN104365095A/zh
Application granted granted Critical
Publication of CN104365095B publication Critical patent/CN104365095B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
    • H04N19/51Motion estimation or motion compensation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/103Selection of coding mode or of prediction mode
    • H04N19/109Selection of coding mode or of prediction mode among a plurality of temporal predictive coding modes
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/136Incoming video signal characteristics or properties
    • H04N19/137Motion inside a coding unit, e.g. average field, frame or block difference
    • H04N19/139Analysis of motion vectors, e.g. their magnitude, direction, variance or reliability
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/187Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being a scalable video layer
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/30Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using hierarchical techniques, e.g. scalability
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/40Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using video transcoding, i.e. partial or full decoding of a coded input stream followed by re-encoding of the decoded output stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/46Embedding additional information in the video signal during the compression process

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

一种用于将原始视频流的选定空间部分编码为独立视频流的方法,该方法包括:获得关于所选定空间部分的图片元素信息;获得从所述原始视频流的补充空间部分得出的编码提示,该补充空间部分位于选定空间部分的外围;以及利用编码提示对选定空间部分进行编码。

Description

用于对视频流的选定空间部分进行编码的方法和装置
技术领域
本发明涉及视频流编码领域。
背景技术
就某些类型的视频内容而言,例如,电视直播运动赛事,音乐会,喜剧等,观众有时可能想要观看高质量的整体镜头,而有时候则想要放大动作的特定部分。已知的客户端平移/倾斜/缩放(PTZ)功能会导致放大图像部分的质量或分辨率损失。已知的服务器端平移/倾斜/缩放(PTZ)功能会在服务器侧产生大量的运算。
发明内容
本发明旨在提供一种客户端PTZ功能,使获得的图像保持高质量,同时使计算资源得到更加有效地使用。
根据本发明的一个方面,提供了一种用于将原始视频流的选定空间部分编码为独立视频流的方法,该方法包括:获得关于所选定空间部分的图片元素信息;获得从所述原始视频流的补充(complementary)空间部分得出(derive)的编码提示,该补充空间部分位于选定空间部分的外围;以及利用编码提示对选定空间部分进行编码。
本发明的方法的一个优点是,通过考虑与更大的图片相关的信息,特别是在区域中出现的原始视频流的特征,针对选定部分的编码过程更加高效,所述区域位于选定部分的外部,但是又足够接近选定部分从而对后续帧的编码产生影响。优选基于相关外围特征的运动,以及选定部分的“运动”,即由任何相对于原始视频流的平移,倾斜或缩放而导致的图像运动来选择相关外围特征。
本发明的方法的另一个优点是,不管在何处得出编码提示,在编码阶段都可以获得改善。这种设定允许提示得出过程的一部分,特别是原始视频的特征和运动提取与剩余的方法步骤分开。通过这种方式,能够使这些分开的步骤集中,在进行多个编码时提高效率。
在一个实施方式中,本发明的方法还包括:获得原始视频流;获得选择信息,该选择信息代表独立视频流的选定空间部分;以及根据选择信息从原始视频流提取与选定空间部分相关的图片元素信息。
该实施方式的一个优点是,原始视频流的信息被用于生成缩减的视频,在缩减的视频中最大程度上保持原始视频流的质量(例如,分辨率)。
在一个实施方式中,本发明的方法还包括:获得与原始视频流相关的运动和特征信息;识别运动和特征信息中与位于选定空间部分外围的区域相关的相关特征;以及从识别的相关特征得出编码提示。
该实施方式的一个优点是,原始视频流的信息被用于生成运动和特征信息,使最大量的信息能够被考虑以生成编码提示。优选地,运动适配器被配置为通过比较候选特征的运动矢量和代表选定空间部分的平移/倾斜/缩放运动的运动矢量来识别相关特征。因此,位于选定部分的外围区域中的特征在进入感兴趣区域时能够被检测到,在这种情况下可以预料到它们的出现,可以为可变编码参数选择新的值,由此对预料的特征的出现进行最优处理。
在本发明的方法的一个实施方式中,通过可扩展视频编解码器来执行编码。在特定实施方式中,提供原始视频流作为编码的基础(base)层。
在特定实施方式中,可扩展视频编解码器是H.264 SVC编解码器。
在本发明的方法的一个实施方式中,获得与选定空间部分相关的图片元素信息包括获得编码的视频流,并且编码包括对编码的视频流进行转码。
原始视频流和/或选定空间部分最初可以仅作为已编码流使用。在这种情况下,审慎(judicious)转码比对原始视频流进行解码和再编码要更加高效。
根据本发明的一个发明,提供了一种计算机程序,该计算机程序适于在运行时执行根据本发明的实施方式的方法。
根据本发明的一个方面,提供了一种包括指令的计算机可读存储介质,指令引起数据处理装置执行根据本发明的实施方式的方法的步骤。
根据本发明的一个方面,提供了一种用于将原始视频流的选定空间部分编码为独立视频流的装置,该装置包括:用于接收原始视频流的视频输入接口;用于接收选择信息的选择信息输入接口,选择信息代表选定空间部分;用于接收从原始视频流得出的运动和特征信息的运动和特征信息输入接口;可操作地耦合至视频输入接口和选择信息输入接口的全景重构器(reframer),该全景重构器被配置为根据选择信息从原始视频流提取与选定空间部分相关的图片元素信息;可操作地耦合至运动和特征信息输入接口及选择信息输入接口的运动适配器,该运动适配器被配置为识别运动和特征信息中与位于选定空间部分外围的区域相关的相关特征,并从识别的相关特征得出编码提示;以及可操作地耦合至全景重构器和运动适配器的受提示编码器,该受提示编码器被配置为利用编码提示对选定空间部分进行编码。
在本发明的装置的一个实施方式中,受提示编码器被配置为通过可扩展视频编解码器来对选定空间部分进行编码。
在特定实施方式中,受提示编码器被配置为提供原始视频流作为编码的基础层。
在特定实施方式中,可扩展视频编解码器是H.264 SVC编解码器。
在本发明的装置的一个实施方式中,视频输入接口被配置为获得视频流作为编码的视频流,其中受提示编码器被配置为对编码的视频流进行转码。
本发明还提供一种用于将原始视频流的选定空间部分编码为独立视频流的系统,该系统包括特征分析器以及多个如权利要求9至13中任意一项所述的装置,特征分析器被配置为提取与外围部分中的特征相关的信息,该特征分析器连接至装置的各个运动和特征信息接口。
根据本发明的实施方式的装置和系统的效果和优点基本上是相同的,加以必要修改,根据本发明的实施方式的相应方法的效果和优点基本上也是相同的。
附图说明
现在参考附图仅以示例的方式对根据本发明实施方式的装置和/或方法的一些实施方式进行描述,在这些附图中:
图1显示了根据本发明的实施方式的方法的流程图;
图2显示了根据本发明的实施方式的装置和系统的示意图;以及
图3显示了在本发明的实施方式中进行的运动矢量比较。
具体实施方式
本发明涉及由服务于多个用户的代理组成的系统,该代理能够以平移-倾斜-缩放(PTZ)交互的方式从高分辨率视频全景请求个性化感兴趣区域(RoI)。本发明还涉及在代理侧对来自相同视频全景源的这些个性化视频流的视频编码计算成本进行优化。这里使用的术语“全景”的意思是指高分辨率视频分辨率,通常高于4000像素宽,它可以包含圆柱形或球形的物理空间宽角度视野或表示作为视频。或者,全景可以由集成并融合在一起的不同视频源组成。
目前的方案进行用户请求的裁剪和PTZ操作以生成所需的原始数据中在时间t时的RoI帧,并使用H.264编解码器或类似于WebM这样的带运动补偿和/或帧内编码的编解码器对它进行编码。
不幸的是,使用这种技术的话,必须为所有用户计算运动补偿/估计和帧内预测模式,即使有些用户请求共同的或重叠的RoI。这导致系统扩展性较差,因为代理无法从对于所有的用户而言输入视频全景是相同的这一事实受益。对于为移动设备提供视频调适硬件加速转码的系统而言,同样如此。
在本说明书中将使用H.264建议中常见的视频编码术语。本领域人员可以理解,这样做仅仅视为了使内容清晰,对术语的这种选择不应将本发明的范围限制为应用该特定编码标准的系统。
在本发明的实施方式中,通过直接从全景计算相对运动和帧内预测方向,降低了RoI运动估计和帧内云侧的整体计算复杂度。由此提升了计算速度。系统的可扩展性是主要优势,因为增加新的客户端会导致计算复杂度轻微增加。
本发明的实施方式是基于发明人的以下认识,即,通过执行以下两个步骤可以实现该优势:
1)对全分辨率的整个全景中的每个全景像素进行运动分析(以及帧内预测方向估计)。
2)接下来,通过对可能的用户请求的RoI移动和分辨率变化进行补偿,可以从这些全景运动矢量计算出RoI相关的运动。实际上,这些补偿的运动矢量作为提示被发送到用于对该RoI进行编码的编码器。在需要的情况下,编码器能够改善该运动矢量。
图1提供了根据本发明的实施方式的方法的流程图。本领域技术人员应当理解,所描述的各种步骤不一定都由单个实体执行。此外,显示为平行进行的步骤可以依次进行,反之亦然,除非说明书中明确说明要求某个顺序。
根据所示实施方式,获得100原始视频流,一方面用于为选定区域提取相关图片元素信息130,另一方面用于提取运动和特征信息150。
为了对选定区域提取图片元素信息,必须选择感兴趣区域(RoI)110,通常是由观众通过视频客户端设备选择,或者,或另外地,通过人工命令或自动化脚本进行选择,并且该选择信息必须在提取侧获得120。选择动作可以限制为相对于原始视频流进行平移、缩放和倾斜,其中所选区域的纵横比优选限制为与观看设备相关的固定纵横比(例如,3x4或16x9)。图片元素信息包括选定区域中的视频图像的任意形式的表示。这可以是未压缩视频图像流,或编码的视频流。
本发明的方法的实施方式具有以下优点:以最高分辨率对运动进行计算,可能使用多分辨率方法,可以得到所有的数据(即,全景),由此获得最高精度。本发明的方法的实施方式还具有以下优点:针对不同用户的重叠的RoI或对齐的RoI不需要它们各自的编码器付出重复的运动估计努力,因为在全景上预先计算了运动数据。
从提取的运动和特征信息得出编码提示160。尽管是在考虑了所有可用信息的情况下从原始视频流得出运动和特征信息,但是编码提示得出过程只选择那些相关的特征以改善编码性能,下面将进行更加详细的描述。
编码器获得与选定部分相关的图片元素信息140以及通常从外围部分得出的编码提示170。基于这些输入,编码器对视频流的选定部分进行编码180。
编码提示是从原始视频流的非选定部分得出的信息,在与选定部分相关的信息之外被使用,以改善对后者的编码。为实现该目的,根据本发明的实施方式的方法跟踪来自客户端的导航和缩放命令(步骤120),然后响应于缩放命令对整体运动数据进行扩展,并响应于平移或倾斜命令来添加RoI(步骤160)。基于所获得的运动矢量集合来进行编码(步骤180),这些运动矢量被用作提示或实际运动矢量。如果在编码器中无法得到参考帧区域,则将预测的运动矢量和搜索窗口范围发送给编码器或阵内预测模式。
上述方法一般可由一种用于将原始视频流的选定空间部分编码为独立视频流的装置执行,该装置包括:用于获得与选定空间部分相关的图片元素信息140的单元;用于获得从原始视频流的补充空间部分得出的编码提示170的单元,其中补充空间部分位于选定空间部分的外围;以及用于利用编码提示对选定空间部分进行编码180的单元。
所述装置还可以包括:用于获得原始视频流100的单元;用于获得选择信息120的单元,选择信息代表独立视频流的选定空间部分;以及用于根据选择信息从原始视频流提取与选定空间部分相关的图片元素信息130的单元。
更具体地,所述装置还可以包括:用于获得与原始视频流相关的运动和特征信息150的单元;用于识别运动和特征信息中与位于选定空间外围的区域相关的相关特征的单元;以及用于从识别的相关特征得出编码提示160的单元。
用于编码180的单元可以与可扩展视频编解码器一起运行。更具体地,用于编码180的单元可以提供原始视频流作为编码的基础层。此外,更具体地,可扩展视频编解码器可以是H.264SVC编解码器。
用于获得与选定空间部分相关的图片元素信息140的单元可以适于获得编码的视频流,用于编码180的单元可以适于对编码的视频流进行转码。
图2显示了根据本发明的实施方式的装置和系统的示意图。装置200包括:用于接收原始视频流199的视频输入接口211;用于接收选择信息的选择信息输入接口232,选择信息代表选定空间部分;用于接收从原始视频流得出的运动和特征信息的运动和特征信息输入接口211;可操作地耦合至视频输入接口211和选择信息输入接口232的全景重构器211,该全景重构器211被配置为根据选择信息从原始视频流提取与选定空间部分相关的图片元素信息;可操作地耦合至运动和特征信息输入接口221及选择信息输入接口232的运动适配器220,该运动适配器220被配置为识别运动和特征信息中与位于选定空间部分外围的区域相关的相关特征,并从识别的相关特征得出编码提示;以及可操作地耦合至全景重构器210和运动适配器220的受提示编码器230,该受提示编码器230被配置为利用编码提示对选定空间部分进行编码。
所述装置200还具有用于通过网络250将编码的选定视频流发送至客户端300的输出接口231。所示网络250可以由一个或多个网络链路组成。其通常包括位于客户端上的接入链路。
本领域技术人员理解,术语“接口”指在协议栈的各层之间建立通信连接所需要的必要硬件和软件。优选使用标准协议。举例来说,接入接口可以包括用于诸如xDSL,xPON,WMAN或3G链路这样的链路的接口。举例来说,LAN接口可以包括用于IEEE802.3n以太网链路和IEEE802.11n无线LAN链路中的一个或多个的接口。举例来说,PAN接口可以包括USB接口或蓝牙接口。用于在多个网段上进行通信的高层协议优选是TCP/IP协议族中的协议。
客户端300包括用于对接收到的视频流进行解码的标准解码器310。客户端300还包括单元320,单元320允许终端用户选择感兴趣区域,并将最终选择结果反馈回装置200。
除了上述装置,本发明的系统还包括对原始视频流199进行处理的运动和特征分析器240。优选地,运动和特征分析器240是集中式的,或位于“云”中,并将它的输入提供给一个或多个本发明的装置200。但是,还可以将运动和特征分析器240以及单个装置200的功能包括在相同的设备或产品中。
为简洁起见,仅根据方法实施方式或装置/系统实施方式对某些特征和优点进行明确描述。本领域技术人员理解,这些特征和优点同样可以应用于其它类型的相应实施方式。
在示例性实施方式中,我们考虑系统由全景视频流分析器240构成,全景视频流分析器240连接至N个自适应RoI编码器200,每个自适应RoI编码器200服务于一个客户端300。如图2所示,每个自适应RoI编码器200包括运动适配模块220,全景视频重构模块210,以及提供信息给客户端300的受提示编码器230。
全景运动分析器240接收原始或编码的全景视频流199,并将运动信息提供给N个自适应RoI编码器200的运动适配模块220。如果全景分析器240在压缩域中执行它的任务,重构模块210应该允许必要的部分解码。如果编码器230是符合MPEG-7的转码器,则将提示信息作为MPEG-7转码提示提供给编码器230。
“借助MPEG-7转码提示降低复杂度并改善质量”(视频流处理,Peter M.Kuhn,Teruhiko Suzuki和Anthony Vetro,2001-01)中公开了这种转码器。
每个运动适配模块220从全景运动分析器240接收运动和特征信息,并从它的客户端300接收RoI位置变化请求。基于该信息,模块220向与它连接在一起的受提示编码器输出提示。全景重构模块210还读取RoI请求,对所请求的全景区域进行重新取样和裁剪,并以所要求的位置和分辨率将其准备好提供给受提示编码器230。如果需要将全景区域映射为2D(例如,针对球形视频的圆柱形映射),在接下来同样在全景重构模块210中完成这一操作。
每个受提示编码器230从它的运动适配模块220接收提示以及按所要求的分辨率和位置提供的原始裁剪视频。提示由有助于在不损失编码器230的压缩性能情况下降低其计算复杂度的信息组成。就H.264而言,提示可以由直接运动矢量,模式决定(运动分割),预测的运动矢量,帧内预测,跳过决定等组成,搜索窗口以及该搜索窗口的尺寸的中心位于预测的运动矢量上。这种例子可以在“使用特征对应关系估计真实运动”(可视通信和图像处理,Ralph A.Braspenning,Gerard de Haan,5308卷,第一辑,396-407页,2004)中找到。
使用这些由全景分析器240和运动适配模块220计算所得提示的优势是,能够以较高精度对整个全景只执行一次运动预测任务,不需要由所有的编码器200重复。
由于该任务集中化,降低了系统的整体计算复杂度。可以通过下面的简单计算来对此进行示例性展示。假设C是视频编码器的计算复杂度,Cm是运动估计复杂度,Cr是剩下的压缩运算复杂度,则C=Cr+Cm,其中Cm>Cr(一般而言,Cm>Cr)。全景分析(图1所示步骤150,图2所示分析器240的功能)的计算复杂度表示为Cp,其中Cp>C。根据本系统,对N个客户端进行服务产生的复杂度仅为Cp+NxCr,而非表示为函数(Cp+Cr)的典型线性。增加一个客户端仅会增加一个增量Cr,这比传统情况下的项Cm+Cr小得多。
全景运动和特征分析器240计算所得的运动信息需要通过运动适配模块220与客户端请求相适应。这需要检测可用的运动矢量是否指向可在受提示编码器230中用作参考帧的全景区域。该检测在图3中表示,全景原始视频帧运动和特征信息与对M帧的RoI请求的例子一起显示。在全景运动和特征分析模块240中对时间为t的每个全景帧IT(t)进行分析,以对每个像素生成特征信息和运动信息。举例来说,特征信息由边缘位置和方向信息,全景的分段以及SIFT描述符组成,而运动信息表示为用作参考帧的M个之前帧IT(t-1)…IT(t-M)中的每一个的运动矢量。
运动适配模块220接收RoI请求,并为受提示编码器230所使用前M个参考帧计算全景中的RoI位置变化。在图3中,RoI运动变化由标为r的矢量表示,当前RoI宏块表示为规则网格,之前的RoI帧位置表示为虚线的矩形区域(宽度为w(t),高度为h(t))。
运动适配模块接下来检查每个将由受提示编码器230编码的宏块,确定全景分析器240为每个像素所计算的运动矢量是否在受提示编码器的参考帧中可用。如果可用,则计算最佳模式决定,适配并聚合运动矢量以补偿全景中的RoI窗口位置变化,并将该信息作为提示发送给受提示编码器230。如果没有运动矢量可用于宏块,则来自分析器240的特征被用于提示搜索窗口当前宏块的特征是否和给定邻近区域的特征匹配,给定邻近区域通过全景运动和特征分析所实现的分段被提供,或通过同样由这些特征引导的帧内预测模式被提供(例如,以4x4或16x16模式,沿着宏块中被检测边缘的帧内预测方向)。
来自客户端300的RoI请求包括全景中的RoI分辨率和位置描述。该信息被运动适配模块220和全景重构模块210使用。该模块210选择全景的正确区域,并对其二次取样,或将其插补或重新映射为所要求的分辨率。这些运算的输出接下来被裁剪并发送给受提示编码器230。
可选地,在多个客户端300请求相同的RoI,但是具有不同分辨率能力的情况下,这些客户端300能够聚合为虚拟超集客户端。举例来说,如果RoI位移是由脚本(例如,对物体,或人,或全景空间中的位移的跟踪由虚拟监制人或真人监制人决定)引导的话,这是可能的。受提示编码器使用可扩展编码技术,例如H.264可扩展SVC。这能使视频流与客户端的需求相适应,同时还降低了编码的计算复杂度。优选地,提示还包括基于运动和特征分析的层内预测提示和层间预测提示。全景运动分析器240接下来输出多分辨率运动和特征信息以实现该目的。
可选地,本发明的方法还包括附加步骤:估计对整个全景应用运动分析是否比在不使用提示的情况下分别对每个RoI进行编码更有效率。再次使用上面限定的表示进行计算,以确定客户端的最小数量Np,对于这些客户端而言,全景运动分析(步骤150)成本由更高的可扩展性补偿。根据上面提供的分析,通过公式Npx(Cm+Cr)=Cp+Np*Cr得到Np。由此得到Np=Cp/Cm。因此,在优选实施方式中,本发明的方法在核实将要服务的客户端的数量至少等于Np=Cp/Cm之后使用上面所描述的受提示编码。
尽管方法和装置在上面描述为独立的实施方式,但是这仅仅是为了清楚起见,需要注意的是,仅根据方法实施方式描述的特征可以应用到本发明的装置中以获得相同的技术效果和优势,反之亦然。
图中所示的各种元件的功能-包括标记为“处理器”的任何功能块-可以通过专用硬件,以及能够执行与合适的软件相关的软件的硬件实现。当通过处理器提供时,功能可以由单个专用处理器,单个共享处理器,或多个单独的处理器提供,多个单独的处理器中的一些可以被共享。
此外,明确使用的术语“处理器”或“控制器”不应理解为独指能够执行软件的硬件,可以隐含地包括,但是不限于数字信号处理器(DSP)硬件,网络处理器,专用集成电路(ASIC),现场可编程门阵列(FPGA),用于存储软件的只读存储器(ROM),随机存取存储器(RAM)和非易失性存储器。还可以包括其它常规硬件和/或定制硬件。同样,图中所示的所有开关都是概念上的.它们的功能可以通过程序逻辑运算,通过专用逻辑,通过程序控制盒专用逻辑的交互,或者甚至可以通过人工实现,根据上下文可以更具体地理解实施者所选择的特定技术。
本领域技术人员会轻易认识到上面描述的各种方法的步骤可以通过程控计算机执行。在这里,一些实施方式还涵盖程序存储设备,例如数字式数据存储媒介,它们是机器可读的或计算机可读的,并编码有机器可执行或计算机可执行程序指令,其中所述指令执行上述方法的某些或所有步骤。
举例来说,程序存储装置可以是数字式存储器,磁性存储介质(例如,磁盘或磁带),硬盘,或光学可读数字式数据存储介质。实施方式还涵盖编程为执行上述方法的步骤的计算机。

Claims (17)

1.一种用于将原始视频流的选定空间部分编码为独立视频流的方法,所述方法包括:
-获得所述原始视频流;
-获得选择信息,该选择信息代表所述选定空间部分,该选定空间部分小于所述原始视频流的整个空间部分;
-根据所述选择信息从所述原始视频流提取与所述选定空间部分相关的图片元素信息;
-获得与所述原始视频流相关的运动和特征信息;
-识别所述运动和特征信息中与位于所述选定空间部分的外部且位于外围的区域相关的相关特征;
-从识别的所述相关特征得出编码提示;以及
-利用所述编码提示对所述选定空间部分进行编码。
2.如权利要求1所述的方法,其中,所述编码通过可扩展视频编解码器来执行。
3.如权利要求2所述的方法,其中,所述原始视频流被提供为用作所述编码的基础层。
4.如权利要求2或3所述的方法,其中,所述可扩展视频编解码器是H.264SVC编解码器。
5.如权利要求1所述的方法,其中,所述获得与所述选定空间部分相关的所述图片元素信息包括获得编码的视频流,并且其中,所述编码包括对所述编码的视频流进行转码。
6.一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序在由数据处理装置执行时适于执行根据权利要求1至5中任意一项所述的方法。
7.一种用于将原始视频流的选定空间部分编码为独立视频流的装置,所述装置包括:
-用于获得所述原始视频流的部件;
-用于获得选择信息的部件,该选择信息代表所述选定空间部分,该选定空间部分小于所述原始视频流的整个空间部分;
-用于根据所述选择信息从所述原始视频流提取与所述选定空间部分相关的图片元素信息的部件;
-用于获得与所述原始视频流相关的运动和特征信息的部件;
-用于识别所述运动和特征信息中与位于所述选定空间部分的外部且位于外围的区域相关的相关特征的部件;
-用于从识别的所述相关特征得出编码提示的部件;以及
-用于利用所述编码提示对所述选定空间部分进行编码的部件。
8.如权利要求7所述的装置,其中,所述编码通过可扩展视频编解码器来执行。
9.如权利要求8所述的装置,其中,所述原始视频流被提供为用作所述编码的基础层。
10.如权利要求8或9所述的装置,其中,所述可扩展视频编解码器是H.264SVC编解码器。
11.如权利要求7所述的装置,其中,所述获得与所述选定空间部分相关的所述图片元素信息包括获得编码的视频流,并且其中所述编码包括对所述编码的视频流进行转码。
12.一种用于将原始视频流的选定空间部分编码为独立视频流的装置,所述装置包括:
-视频输入接口,用于接收所述原始视频流;
-选择信息输入接口,用于接收选择信息,所述选择信息代表所述选定空间部分,该选定空间部分小于所述原始视频流的整个空间部分;
-运动和特征信息输入接口,用于接收从所述原始视频流得出的运动和特征信息;
-全景重构器,可操作地耦合至所述视频输入接口和所述选择信息输入接口,该全景重构器被配置为根据所述选择信息从所述原始视频流提取与所述选定空间部分相关的图片元素信息;
-运动适配器,可操作地耦合至所述运动和特征信息输入接口及所述选择信息输入接口,该运动适配器被配置为识别所述运动和特征信息中与位于所述选定空间部分外部且位于外围的区域相关的相关特征,并从识别的相关特征得出编码提示;以及
-受提示编码器,可操作地耦合至所述全景重构器和所述运动适配器,该受提示编码器被配置为利用所述编码提示对所述选定空间部分进行编码。
13.如权利要求12所述的装置,其中,所述受提示编码器被配置为通过可扩展视频编解码器来对所述选定空间部分进行编码。
14.如权利要求13所述的装置,其中,所述受提示编码器被配置为提供所述原始视频流用作所述编码的基础层。
15.如权利要求13或14所述的装置,其中,所述可扩展视频编解码器是H.264SVC编解码器。
16.如权利要求12所述的装置,其中,所述视频输入接口被配置为获得所述视频流作为编码的视频流,并且其中,所述受提示编码器被配置为对所述编码的视频流进行转码。
17.一种用于将原始视频流的选定空间部分编码为独立视频流的系统,所述系统包括特征分析器以及多个如权利要求12至16中任意一项所述的装置,所述特征分析器被配置为提取与所述外围部分中的特征相关的信息,所述特征分析器耦合至所述装置的各个运动和特征信息接口。
CN201380018231.9A 2012-03-30 2013-03-25 用于对视频流的选定空间部分进行编码的方法和装置 Expired - Fee Related CN104365095B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP20120305389 EP2645713A1 (en) 2012-03-30 2012-03-30 Method and apparatus for encoding a selected spatial portion of a video stream
EP12305389.4 2012-03-30
PCT/EP2013/056189 WO2013144049A1 (en) 2012-03-30 2013-03-25 Method and apparatus for encoding a selected spatial portion of a video stream

Publications (2)

Publication Number Publication Date
CN104365095A CN104365095A (zh) 2015-02-18
CN104365095B true CN104365095B (zh) 2018-04-27

Family

ID=47988985

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201380018231.9A Expired - Fee Related CN104365095B (zh) 2012-03-30 2013-03-25 用于对视频流的选定空间部分进行编码的方法和装置

Country Status (6)

Country Link
US (1) US20150117524A1 (zh)
EP (1) EP2645713A1 (zh)
JP (1) JP6121518B2 (zh)
KR (1) KR20150003776A (zh)
CN (1) CN104365095B (zh)
WO (1) WO2013144049A1 (zh)

Families Citing this family (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150296215A1 (en) * 2014-04-11 2015-10-15 Microsoft Corporation Frame encoding using hints
EP2961182A1 (en) * 2014-06-27 2015-12-30 Alcatel Lucent Method, system and device for navigating in ultra high resolution video content by a client device
EP2961183A1 (en) * 2014-06-27 2015-12-30 Alcatel Lucent Method, system and related selection device for navigating in ultra high resolution video content
US9769494B2 (en) * 2014-08-01 2017-09-19 Ati Technologies Ulc Adaptive search window positioning for video encoding
US9917877B2 (en) 2014-10-20 2018-03-13 Google Llc Streaming the visible parts of a spherical video
US9918082B2 (en) 2014-10-20 2018-03-13 Google Llc Continuous prediction domain
US9918094B2 (en) 2014-10-20 2018-03-13 Google Llc Compressing and representing multi-view video
CN112218074A (zh) * 2014-10-20 2021-01-12 谷歌有限责任公司 连续预测域
US10749923B2 (en) * 2015-06-08 2020-08-18 Apple Inc. Contextual video content adaptation based on target device
WO2017051072A1 (en) * 2015-09-23 2017-03-30 Nokia Technologies Oy A method, an apparatus and a computer program product for coding a 360-degree panoramic video
GB2547442B (en) * 2016-02-17 2022-01-12 V Nova Int Ltd Physical adapter, signal processing equipment, methods and computer programs
US10334224B2 (en) * 2016-02-19 2019-06-25 Alcacruz Inc. Systems and method for GPU based virtual reality video streaming server
EP3249928A1 (en) 2016-05-23 2017-11-29 Thomson Licensing Method, apparatus and stream of formatting an immersive video for legacy and immersive rendering devices
EP3301915A1 (en) 2016-09-30 2018-04-04 Thomson Licensing Method and apparatus for omnidirectional video coding with adaptive intra most probable modes
EP3306937A1 (en) 2016-10-05 2018-04-11 Thomson Licensing Method and apparatus for encoding and decoding a video
CN107945101B (zh) * 2016-10-13 2021-01-29 华为技术有限公司 图像处理方法和装置
KR20180073499A (ko) * 2016-12-22 2018-07-02 주식회사 케이티 비디오 신호 처리 방법 및 장치
CA3194408A1 (en) 2017-04-21 2018-10-25 Zenimax Media Inc. Player input motion compensation by anticipating motion vectors
DE112018002112T5 (de) * 2017-04-21 2020-01-16 Zenimax Media Inc. Systeme und verfahren zum rendern & vorkodierte lastschätz-basierte codierer-ansprech-bezogene anwendungen
CN108933920B (zh) * 2017-05-25 2023-02-17 中兴通讯股份有限公司 一种视频画面的输出、查看方法及装置
CN107396081B (zh) * 2017-06-19 2019-04-12 深圳市铂岩科技有限公司 针对全景视频的优化编码方法及装置
CN108307219B (zh) * 2017-11-07 2020-12-01 深圳市佳创视讯技术股份有限公司 一种高清电视全景视频智能展示方法
CN109121000A (zh) * 2018-08-27 2019-01-01 北京优酷科技有限公司 一种视频处理方法及客户端
CN109168032B (zh) * 2018-11-12 2021-08-27 广州酷狗计算机科技有限公司 视频数据的处理方法、终端、服务器及存储介质

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3300228B2 (ja) * 1996-05-02 2002-07-08 株式会社メガチップス 画像通信システム
US6249613B1 (en) * 1997-03-31 2001-06-19 Sharp Laboratories Of America, Inc. Mosaic generation and sprite-based coding with automatic foreground and background separation
US6982764B1 (en) * 2000-05-25 2006-01-03 Northrop Grumman Corporation Image enhancement
FI114679B (fi) * 2002-04-29 2004-11-30 Nokia Corp Satunnaisaloituspisteet videokoodauksessa
US20100002070A1 (en) * 2004-04-30 2010-01-07 Grandeye Ltd. Method and System of Simultaneously Displaying Multiple Views for Video Surveillance
JP4305904B2 (ja) * 2003-09-22 2009-07-29 Kddi株式会社 部分画像符号化装置
US8427538B2 (en) * 2004-04-30 2013-04-23 Oncam Grandeye Multiple view and multiple object processing in wide-angle video camera
US20080151049A1 (en) * 2006-12-14 2008-06-26 Mccubbrey David L Gaming surveillance system and method of extracting metadata from multiple synchronized cameras
JP5254997B2 (ja) * 2007-01-26 2013-08-07 テレフオンアクチーボラゲット エル エム エリクソン(パブル) 発見フレーム領域についての動き推定
US20090300692A1 (en) * 2008-06-02 2009-12-03 Mavlankar Aditya A Systems and methods for video streaming and display
US8594467B2 (en) * 2008-12-19 2013-11-26 Microsoft Corporation Interactive virtual display system for ubiquitous devices
US10440329B2 (en) * 2009-05-22 2019-10-08 Immersive Media Company Hybrid media viewing application including a region of interest within a wide field of view
IL199763B (en) * 2009-07-08 2018-07-31 Elbit Systems Ltd Automatic contractual system and method for observation
JP5089658B2 (ja) * 2009-07-16 2012-12-05 株式会社Gnzo 送信装置及び送信方法
US8345749B2 (en) * 2009-08-31 2013-01-01 IAD Gesellschaft für Informatik, Automatisierung und Datenverarbeitung mbH Method and system for transcoding regions of interests in video surveillance
JP5560009B2 (ja) * 2009-09-07 2014-07-23 株式会社日立国際電気 動画像符号化装置
TWI420906B (zh) * 2010-10-13 2013-12-21 Ind Tech Res Inst 興趣區域之追蹤系統與方法及電腦程式產品

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Region-of-interest prediction for interactively streaming regions of high resolution video;Aditya Mavlankar et al.;《Packet Video 2007,IEEE》;20071130;全文 *
Representation, coding and interactive rendering of high-resolution panoramic images and video using MPEG-4;S. Heymann et al.;《PROC. PANORAMIC PHOTOGRAMMETRY WORKSHOP (PPW)》;20050228;全文 *
Spatial-Random-Access-Enabled Video Coding for Interactive Virtual Pan/Tilt/Zoom Functionality;Aditya Mavlankar et al.;《IEEE Transactions on Circuits and Systems for Video Technology》;20110531;第21卷(第5期);正文第III部分A,图1、2 *

Also Published As

Publication number Publication date
JP2015515201A (ja) 2015-05-21
US20150117524A1 (en) 2015-04-30
JP6121518B2 (ja) 2017-04-26
KR20150003776A (ko) 2015-01-09
EP2645713A1 (en) 2013-10-02
CN104365095A (zh) 2015-02-18
WO2013144049A1 (en) 2013-10-03

Similar Documents

Publication Publication Date Title
CN104365095B (zh) 用于对视频流的选定空间部分进行编码的方法和装置
US11616960B2 (en) Machine learning video processing systems and methods
KR100772576B1 (ko) 비디오 정보를 부호화 및 복호화하기 위한 방법, 움직임보상 비디오 부호기 및 대응하는 복호기
US10178394B2 (en) Transcoding techniques for alternate displays
EP1936998A2 (en) Decoding method and coding method
Lim et al. VR IQA NET: Deep virtual reality image quality assessment using adversarial learning
JP4906864B2 (ja) スケーラブルビデオコーディング方法
US9438928B2 (en) Mechanism for video encoding based on estimates of statistically-popular motion vectors in frame
EP3343923B1 (en) Motion vector field coding method and decoding method, and coding and decoding apparatuses
JP2009510869A5 (zh)
Huang et al. Perceptual quality driven frame-rate selection (PQD-FRS) for high-frame-rate video
Wang et al. Learning-based rate control for video-based point cloud compression
Sanchez Lossless screen content coding in HEVC based on sample-wise median and edge prediction
US11729424B2 (en) Visual quality assessment-based affine transformation
Wang et al. An efficient motion estimation method for H. 264-based video transcoding with spatial resolution conversion
Kim et al. Exploiting pseudo-quadtree structure for accelerating HEVC spatial resolution downscaling transcoder
KR100287209B1 (ko) 동적움직임평가에 의한 저전송률 동영상부호화방법 및 장치
Sinha et al. Deep Video Compression using Compressed P-Frame Resampling
JPH0965342A (ja) 映像符号化装置及び映像復号化装置
KR102421719B1 (ko) 저복잡도 신경망을 이용한 영상의 ai 부호화 장치 및 방법, ai 복호화 장치 및 방법
US20230050102A1 (en) Triangulation-Based Adaptive Subsampling of Dense Motion Vector Fields
Adhuran et al. Efficient viewport prediction and tiling schemes for 360 degree video streaming
Storch et al. Exploring ERP Distortions to Reduce the Encoding Time of 360 Videos
Liu et al. An Improvement for View Synthesis Optimization Algorithm
EP3938998A1 (en) Debanding using a novel banding metric

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20180427

Termination date: 20200325

CF01 Termination of patent right due to non-payment of annual fee