CN108024094B - 用对象跟踪进行360度视频记录与回放 - Google Patents

用对象跟踪进行360度视频记录与回放 Download PDF

Info

Publication number
CN108024094B
CN108024094B CN201711009434.8A CN201711009434A CN108024094B CN 108024094 B CN108024094 B CN 108024094B CN 201711009434 A CN201711009434 A CN 201711009434A CN 108024094 B CN108024094 B CN 108024094B
Authority
CN
China
Prior art keywords
video
360degree
video stream
user
decoded
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201711009434.8A
Other languages
English (en)
Other versions
CN108024094A (zh
Inventor
周敏华
陈学敏
布赖恩·A·亨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Avago Technologies International Sales Pte Ltd
Original Assignee
Avago Technologies General IP Singapore Pte Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from US15/599,446 external-priority patent/US10848668B2/en
Application filed by Avago Technologies General IP Singapore Pte Ltd filed Critical Avago Technologies General IP Singapore Pte Ltd
Publication of CN108024094A publication Critical patent/CN108024094A/zh
Application granted granted Critical
Publication of CN108024094B publication Critical patent/CN108024094B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/18Closed-circuit television [CCTV] systems, i.e. systems in which the video signal is not broadcast
    • H04N7/181Closed-circuit television [CCTV] systems, i.e. systems in which the video signal is not broadcast for receiving images from a plurality of remote sources
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/18Closed-circuit television [CCTV] systems, i.e. systems in which the video signal is not broadcast
    • H04N7/183Closed-circuit television [CCTV] systems, i.e. systems in which the video signal is not broadcast for receiving images from a single remote source
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • H04N23/698Control of cameras or camera modules for achieving an enlarged field of view, e.g. panoramic image capture
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/76Television signal recording
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N9/00Details of colour television systems
    • H04N9/79Processing of colour television signals in connection with recording

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Processing Or Creating Images (AREA)

Abstract

本发明涉及用对象跟踪进行360度视频记录与回放。在360度视频捕获与回放的系统中,360度视频可被捕获、拼接、编码、解码、呈现及回放。在一或多个实施方案中,解码装置接收360度视频流作为输入,并解码所述360度视频流,且存储器装置存储所述360度视频流及与所述360度视频流相关联的观看历史数据。呈现装置可使用来自所述观看历史数据的视角呈现经解码流。在一或多个实施方案中,对象跟踪装置跟踪所述经解码360度视频流中的一或多个对象,并提供与所述对象相关联的一或多个跟踪角度。所述呈现装置可使用所述一或多个跟踪角度呈现所述经解码360度视频流,以针对一或多个经呈现帧保持所述360度视频流中的至少一个对象。

Description

用对象跟踪进行360度视频记录与回放
相关申请案的交叉参考
本申请案依据35U.S.C.§119主张来自以下美国临时专利申请案的优先权益:2016年5月19日申请的标题为“360度视频捕获与回放(360DEGREE VIDEO CAPTURE ANDPLAYBACK)”的序列号为62/339,040的美国临时专利申请案;2016年11月14日申请的标题为“360度视频的记录与回放(RECORDING AND PLAYBACK OF 360 DEGREE VIDEO)”的序列号为62/418,061号美国临时专利申请案;及2016年11月4日申请的标题为“360度视频的对象跟踪(OBJECT TRACKING FOR 360DEGREE VIDEO)”的序列号为62/418,069号美国临时专利申请案,所述美国专利申请案的揭示内容借此出于所有目的以全文引用方式并入。
技术领域
本发明涉及视频捕获与回放,且更特定来说,涉及用对象跟踪进行360度视频记录与回放。
背景技术
360度视频(也称为360度视频)、沉浸式视频及/或球形视频是记录真实世界全景的视频,其中同时记录每个方向上的视图,使用全向摄像机或相机集合拍摄。在回放期间,观看者能够控制视野(FOV)角度及观看方向(虚拟现实形式)。
发明内容
本发明提供一种装置,其包括:解码装置,其经配置以接收360度视频流作为输入,并解码所述360度视频流;存储器装置,其经配置以存储所述360度视频流及与所述360度视频流相关联的观看历史数据;及呈现装置,其经配置以使用来自所述观看历史数据的一或多个视角呈现所述经解码流。
本发明还提供一种计算机实施的方法,其包括:解码360度视频流;从所述经解码360度视频流提取多个预先确定的视角;使用所述经提取预先确定的视角呈现所述经解码360度视频流;及提供所述经呈现360度视频流以显示。
本发明还提供一种系统,其包括:解码装置,其经配置以接收360度视频流作为输入并解码所述360度视频流;对象跟踪装置,其经配置以跟踪所述经解码360度视频流中的一或多个对象,并提供与所述一或多个对象相关联的一或多个跟踪角度;及呈现装置,其经配置以使用来自所述对象跟踪装置的所述一或多个跟踪角度呈现所述经解码360度视频流,以保持一或多个经呈现帧的经呈现视图中的所述一或多个对象中的至少一者。
附图说明
在所附权利要求书中陈述本技术的某些特征。然而,出于解释目的,在附图中陈述本技术的一或多个实施方案。
图1说明根据一或多个实施方案的实例网络环境,360度视频捕获与回放可被实施于其中。
图2概念地说明等距柱状投影格式的实例。
图3概念地说明等距柱状投影与地球地图的实例。
图4概念地说明360度视频与等距柱状投影的实例。
图5概念地说明等距柱状投影布局中的360度图像的实例。
图6概念地说明六面立方体的实例定义。
图7概念地说明立方体投影格式的实例。
图8概念地说明立方体投影布局中的360度图像的实例。
图9概念地说明由视野角度确定的归一化投影平面尺寸的实例。
图10概念地说明观看方向角度的实例。
图11说明输出呈现照片与输入360度视频照片之间的坐标映射的示意图。
图12概念地说明使用等距柱状投影格式将归一化呈现坐标系中的点映射到归一化投影坐标系的实例。
图13概念地说明使用立方体投影格式将归一化呈现坐标系中的点映射到归一化投影坐标系的实例。
图14概念地说明经投影以进行360度视频呈现的输入360度视频照片的样本的二维布局1400的实例。
图15说明根据一或多个实施方案的实例网络环境,360度视频的记录与回放可被实施于其中。
图16概念地说明等距柱状及立方体投影的实例。
图17概念地说明360度视频呈现的实例。
图18说明对来自360度视频流的具体二维(2D)视图编码的实例的框图。
图19说明记录包含一组具体的视角的360度视频流的实例的框图。
图20说明具有经记录视角的360度视频流的回放的实例的框图。
图21说明从经压缩比特流提取视角的实例的框图。
图22说明根据一或多个实施方案的实例网络环境,360度视频的对象跟踪可被实施于其中。
图23概念地说明等距柱状投影中的球形失真的实例。
图24概念地说明立方体投影中的面的不连续性的实例。
图25说明具有对象跟踪的360度呈现系统的实例的框图。
图26概念地说明电子系统,可用所述电子系统实施本技术的一或多个实施方案。
所包含的提供对本技术的进一步理解且被并入于本说明中且构成本说明书的一部分随附附录说明本技术的方面,且与描述一起用于解释本技术的原理。
具体实施方式
希望下文陈述的详细描述作为本技术的各种配置的描述,且不希望仅表示本技术可被实践于其中的配置。附图并入于本文中且构成详细描述的一部分。出于提供对本技术的衬底理解的目的,详细描述包含具体细节。然而,所属领域的技术人员应清楚且明白,本技术不限于本文中陈述的具体细节,且可使用一或多个实施方案来实践。在一或多个例子中,以框图形式展示众所周知的结构及组件以便避免使本技术的概念模糊。
在360度视频捕获与回放的系统中,360度视频可被捕获、拼接、编码、解码、呈现及回放。在一或多个实施方案中,解码装置接收360度视频流作为输入,并解码所述360度视频流,且存储器装置存储所述360度视频流及与所述360度视频流相关联的观看历史数据。呈现装置可使用来自所述观看历史数据的视角呈现经解码流。在一或多个实施方案中,对象跟踪装置跟踪所述经解码360度视频流中的一或多个对象,并提供与所述对象相关联的一或多个跟踪角度。所述呈现装置可使用所述一或多个跟踪角度呈现所述经解码360度视频流,以针对一或多个经呈现帧保持所述360度视频流中的至少一个对象。
图1说明根据一或多个实施方案的实例网络环境100,360度视频捕获与回放可被实施于其中。然而,可能不使用所描绘的全部组件,且一或多个实施方案可包含图中未展示的额外组件。可在不背离如本文所陈述的权利要求书的精神或范围的情况下,作出组件的布置及类型中的变化。可提供额外组件、不同组件或更少组件。
实例网络环境100包含360度视频捕获装置102、360度视频拼接装置104、视频编码装置106、传输链路或存储媒体、视频解码装置108及360度视频呈现装置110。在一或多个实施方案中,装置102、104、106、108、110中的一或多者可被组合到相同物理装置中。举例来说,360度视频捕获装置102、306度视频拼接装置104及视频编码装置106可被组合到单个装置中,且视频解码装置108及360度视频呈现装置110可被组合到单个装置中。在一些方面中,网络环境100可包含存储装置114,其存储经编码360度视频(例如将360度视频存储于DVD、蓝光、云端或网关/机顶盒处的数字视频记录(DVR)等等上),且接着在显示器装置(例如,112)上回放。
网络环境100可进一步包含360度视频投影格式转换装置(未展示),其可在由视频编码装置106对视频编码之前及/或在由视频解码装置108解码视频之后执行360度视频投影格式转换。网络环境100还可包含360度视频投影格式转换装置(未展示),其被插入于视频解码装置108与360视频呈现装置110之间。在一或多个实施方案中,视频编码装置106可经由传输链路(例如通过网络)通信地耦合到视频解码装置108。
在本系统中,360度视频拼接装置104可利用额外坐标系,所述额外坐标系在将捕获到的360度视频投影到2D输入照片坐标系以进行存储或传输时在360度视频捕获侧上提供更多自由度。360度视频拼接装置104还可支持多种投影格式以进行360度视频存储、压缩、传输、解码、呈现等等。举例来说,视频拼接装置104可移除由相机装备捕获到的重叠区,并输出例如各自覆盖90°×90°视口的六个视图序列。360度视频投影格式转换装置(未展示)可将输入360度视频投影格式(例如,立方体投影格式)转换到输出360度视频投影格式(例如,等距柱状格式)。
视频编码装置106可最小化合成照片中的空间不连续性(即,面边界的数目)以进行更佳空间预测,从而优化视频压缩中的压缩效率。对于立方体投影,例如,优选布局应在合成的360度视频照片内具有最小化数目个面边界,例如,4个。视频编码装置106可实施无限制运动补偿(UMC)以优化压缩效率。
在本系统中,360度视频呈现装置110可从亮度预测图导出色度投影图。360度视频呈现装置110还可选定呈现照片尺寸以最大化显示器视频质量。360度视频呈现装置110还可共同选择水平FOV角度α及垂直FOV角度β以最小化呈现失真。360度视频呈现装置110还可控制FOV角度以实现受制于可用存储器带宽预算的实时360角度视频呈现。
在图1中,360度视频由相机装备捕获,且被拼接在一起成等距柱状格式。接着,视频可被压缩成任何合适的视频压缩格式(例如,MPEG/ITU-T AVC/H.264、HEVC/H.265、VP9等等)且经由传输链路(例如,电缆、卫星、地面、因特网流媒体等等)传输。在接收器侧上,视频经解码(例如,108)且被存储成等距柱状格式,接着,根据观看方向角度及视野(FOV)角度呈现(例如,110),且被显示(例如,112)。在本系统中,终端用户能够控制FOV角度及观看方向角度以便以合意的视角观看视频。
坐标系
存在适用于本技术的多个坐标系,其包含但不限于:
●(x,y,z)–3D 360度视频捕获(相机)坐标系
●(x’,y’,z’)–3D 360度视频观看坐标系
●(xp,yp)–2D归一化投影坐标系,其中xp∈[0.0:1.0]且yp∈[0.0:1.0]。
●(Xp,Yp)–2D输入照片坐标系,其中Xp∈[0:inputPicWidth-1],且Yp∈[0:inputPicHeight-1],其中inputPicWidth x inputPicHeight是颜色分量(例如,Y、U或V)的输入照片尺寸。
●(xc,yc)–2D归一化呈现坐标系,其中xc∈[0.0:1.0],且yc∈[0.0:1.0]。
●(Xc,Yc)–2D输出呈现照片坐标系,其中Xc∈[0:renderingPicWidth-1],且Yc∈[0:renderingPicHeight-1],其中picWidth x picHeight是颜色分量(例如,Y、U或V)的输出呈现照片尺寸。
●(xr,yr,zr)–3D 360度视频投影坐标系
图2概念地说明等距柱状投影格式200的实例。等距柱状投影格式200表示映射计算机图形中的球形的一种标准纹理方式。其还可称为等距圆柱形投影、地理投影、板材carré或菜单parallelogrammatique。如图2中展示,为将球形表面点p(x,y,z)(例如,202)投影到归一化投影坐标系(例如,204)中的样本p′(xp,yp),根据方程式1计算p(x,y,z)的经度ω及纬度
Figure BDA0001445159830000051
Figure BDA0001445159830000052
其中ω∈[-π:π],且
Figure BDA0001445159830000053
π是圆的圆周与其直径的比,通常近似为3.1415926。
可如方程式2中那样定义等距柱状投影格式200:
Figure BDA0001445159830000061
其中xp∈[0.0:1.0]且yp∈[0.0:1.0]。(xp,yp)是归一化投影坐标系中的坐标。
图3概念地说明等距柱状投影布局300与地球地图的实例。在等距柱状投影布局300中,照片仅沿着赤道具有1:1映射,且伸展到其它地方。在球形(例如,302)的北极及南极处发生最大映射失真,其中单个点可被映射到等距柱状投影照片(例如,304)上的样本线,从而使用等距柱状投影布局300导致合成的360度视频中的大量冗余数据。
图4概念地说明360度视频与等距柱状投影布局400的实例。为利用单层视频编码解码器用于其中的现存基础设施进行视频传送,由多个相机以不同角度捕获到的360度视频片段(例如,402)通常被拼接并合成为等距柱状投影布局中存储的单个视频序列。如图4中所展示,在等距柱状投影布局400中,360度视频的左、前及右视频片段被投影于照片的中间中,后视频片段被平均分割且放置于照片的前侧及右侧中;上及下视频片段分别被放置于照片(例如,404)顶部及底部上。所有视频片段被拉伸,其中上及下视频片段被拉伸最多。图5概念地说明等距柱状投影布局中的360度视频图像的实例。
立方体投影
图6概念地说明六面立方体600的实例定义。存储360度视图的另一常见投影格式是将视频片段投影到立方体面。如图6中所展示,立方体的六个面被命名为前、后、左、右、上及下。
图7概念地说明立方体投影格式700的实例。在图7中,立方体投影格式700包含将球形表面点p(x,y,z)映射到六个立方体面中的一者(例如,702),其中计算立方体面id及归一化立方体投影坐标系中的坐标(xp,yp)(例如,704)。
图8概念地说明立方体投影布局800中的360度视频图像的实例。在表1描述立方体投影的投影规则,其中提供用于将球形表面点p(x,y,z)映射到立方体面的伪码。
表1:用于立方体投影映射的伪码
if(z>0&&(-z≤y≤z)&&(-z≤x≤z))
Figure BDA0001445159830000071
else if(z<0&&(z≤y≤-z)&&(z≤x≤-z))
Figure BDA0001445159830000072
else if(x>0&&(-x≤y≤x)&&(-x≤z≤x))
Figure BDA0001445159830000073
else if(x<0&&(x≤y≤-x)&&(x≤z≤-x))
Figure BDA0001445159830000074
else if(y>0&&(-y≤x≤y)&&(-y≤z≤y))
Figure BDA0001445159830000075
else if(y<0&&(y≤x≤-y)&&(y≤z≤-y))
Figure BDA0001445159830000076
视野(FOV)及观看方向角度
为显示360度视频,需要投影并呈现每一360度视频照片的部分。视野(FOV)角度定义显示360度视频照片的多大部分,而观看方向角度定义展示360度视频照片中的哪一部分。
为显示360度视频,想象一下,视频被映射于单一球形表面上,坐在球形的中心点处的观看者能够观看矩形屏幕,且屏幕具有定位于球形表面上的其四个拐角。此处,(x’,y’,z’)称为360视图观看坐标系,且(xc,yc)被称为归一化呈现坐标系。
图9概念地说明由视野角度确定的归一化投影平面尺寸900的实例。如图9中所展示,在观看坐标系(x’,y’,z’)中,投影平面(即,矩形屏幕)的中心点定位于z’轴上,且平行于x’y’平面。因此,可由以下计算投影平面尺寸wxh及其到球形的中心的距离d:
Figure BDA0001445159830000077
其中
Figure BDA0001445159830000081
Figure BDA0001445159830000082
且α∈(0:π]是水平FOV角度,且β∈(0:π]是垂直FOV角度。
图10概念地说明观看方向角度1000的实例。观看方向由3D观看坐标系(x’,y’,z’)相对于3D捕获坐标系(x,y,z)的旋转角度定义。如图10中所展示,观看方向由沿着y轴的顺时针旋转角度θ(例如,1002,侧倾)、沿着x轴的逆时针旋转角度γ(例如,1004,纵倾)及沿着z轴的逆时针旋转角度∈(例如,1006,侧滚)指定。
(x,y,z)与(x’,y’,z’)坐标系之间的坐标映射被定义为:
Figure BDA0001445159830000083
即,
Figure BDA0001445159830000084
方程式4
图11说明输出呈现照片与输入照片之间的坐标映射1100的示意图。具有上文定义的FOV及观看方向角度,可建立输出呈现照片坐标系(Xc,Yc)(即,呈现照片以显示)与输入照片坐标系(Xp,Yp)(即,输入360度视频照片)之间的坐标映射。如图11中所展示,在呈现照片中给出样本点(Xc,Yc),输入照片中的对应样本点(Xp,Yp)的坐标可通过以下步骤导出:
●基于FOV角度(α,β)计算归一化投影平面尺寸及到球形中心的距离(即,方程式3);基于观看方向角度(∈,θ,γ)计算观看与捕获坐标系之间的坐标变换矩阵(即,方程式4)
●基于呈现照片尺寸及归一化投影平面尺寸将(Xc,Yc)归一化。
●将归一化呈现坐标系中的坐标(xc,yc)映射到3D观看坐标系(x′,y′,z′)。
●将坐标转换到3D捕获坐标系(x,y,z)
●导出归一化投影坐标系中的坐标(xp,yp)
●基于输入照片尺寸及投影布局格式将导出的坐标转换到输入照片中的整数位置。
图12概念地说明使用等距柱状投影格式1200将归一化呈现坐标系(例如,p(xc,yc))中的点映射到归一化投影坐标系(例如,p′(xp,yp))的实例。
在一或多个实施方案中,执行从等距柱状输入格式的投影。举例来说,如果输入照片呈等距柱状投影格式,那么以下步骤可适用于将呈现照片中的样本点(Xc,Yc)映射到输入照片中的样本点(Xp,Yp)。
●基于FOV角度计算归一化显示器投影平面尺寸:
Figure BDA0001445159830000091
其中
Figure BDA0001445159830000092
Figure BDA0001445159830000093
●将(Xc,Yc)映射到归一化呈现坐标系中:
Figure BDA0001445159830000094
●计算(x’,y’,z’)观看坐标系中的p(xc,yc)的坐标:
Figure BDA0001445159830000095
●基于观看方向角度将坐标(x’,y’,z’)转换到(x,y,z)捕获坐标系中:
Figure BDA0001445159830000096
●将p(x,y,z)投影到归一化投影坐标系p’(xp,yp)上:
Figure BDA0001445159830000097
●将p’(xp,yp)映射到输入照片(等距柱状)坐标系(Xp,Yp)上
Figure BDA0001445159830000098
其中:
●α、β是FOV角度,且∈、θ、γ是观看方向角度。
●renderingPicWidth x renderingPicHeight是呈现照片尺寸
●inputPicWidth x inputPicHeight是输入照片尺寸(呈等距柱状投影格式)
图13概念地说明使用立方体投影格式1300将归一化呈现坐标系(例如,p(xc,yc))中的点映射到归一化投影坐标系(例如,p′(xp,yp))的实例。
在一或多个实施方案中,执行从立方体投影输入格式的投影。举例来说,如果输入照片呈立方体投影格式,那么以下类似步骤适用于将呈现照片中的样本点(Xc,Yc)映射到输入照片中的样本点(Xp,Yp)。
●基于FOV角度计算归一化显示器投影平面尺寸:
Figure BDA0001445159830000101
其中
Figure BDA0001445159830000102
Figure BDA0001445159830000103
●将(Xc,Yc)映射到归一化呈现坐标系中:
Figure BDA0001445159830000104
●计算(x’,y’,z’)观看坐标系中的p(xc,yc)的坐标:
Figure BDA0001445159830000105
●基于观看方向角度将坐标(x’,y’,z’)转换到(x,y,z)捕获坐标系中:
Figure BDA0001445159830000106
●基于表1中定义的伪码将p(x,y,z)投影到归一化立方体坐标系p’(xp,yp)上。
●将p’(xp,yp)映射到输入立方体坐标系(Xp,Yp)上(假定所有立方体面都具有相同分辨率)
Figure BDA0001445159830000107
其中:
●α、β是FOV角度,且ε、θ、γ是观看方向角度。
●renderingPicWidth x renderingPicHeight是呈现照片尺寸
●inputPicWidth x inputPicHeight是输入照片尺寸(呈立方体投影格式)
●{(Xoffset[faceID],Yoffset[facID])|faceID=前、后、左、右、上及下}是输入立方体投影坐标系中的立方体面的坐标偏移。
Figure BDA0001445159830000111
对于图13中描绘的立方体投影布局,面ID以以下顺序对坐标偏移阵列存取:前、后、左、右、上,接着是下。
样本呈现以显示
在360度视频投影显示中,输入360度视频照片(例如,呈等距柱状格式或立方体投影格式)中的多个样本可投影到呈现照片中的相同整数位置(Xc,Yc)。为具有平滑呈现,不仅是整数像素位置,而且呈现照片中的其子像素位置也经投影以找出输入照片中的对应样本。
图14概念地说明经投影以进行360度视频呈现的输入360视频照片的样本的二维布局1400的实例。如图14中所展示,如果投影精度在水平方向上是
Figure BDA0001445159830000112
子像素且在垂直方向上是
Figure BDA0001445159830000113
子像素,那么在位置(Xc,Yc)处的呈现照片的样本值可由以下呈现:
Figure BDA0001445159830000114
其中:
●(Xp,Yp)=mapping_func(Xc,Yc)是从呈现照片到上文的段中定义的输入360视频照片(例如,w/等距柱状投影或立方体投影格式)的坐标映射函数。
●inputImg[Xp,Yp]是输入照片中的位置(Xp,Yp)处的样本值。
●renderingImg[Xc,Yc]是输出呈现照片中的位置(Xc,Yc)处的样本值。
代替实时计算输出呈现坐标系(Xc,Yc)与输入照片坐标系(Xp,Yp)之间的坐标映射,坐标映射还可被预先计算,且被存储为整个呈现照片的投影图。因为观看方向及FOV角度可能不会根据照片的不同而改变,所以预先计算的投影图可通过呈现多个照片来共享。
假设projectMap[n*Xc+j,m*Yc+i]是预先计算的投影图,其中Xc=0、1、…、renderingPicWidth-1,Yc=0、1、…、renderingPicHeight-1,j=0、1、…、n-1,且i=0、1、…、m-1。针对呈现照片中的子像素位置
Figure BDA0001445159830000121
投影图中的每一项存储输入照片坐标系的预先计算的坐标值(Xp,Yp)。呈现可被写为:
Figure BDA0001445159830000122
照片可具有多种颜色分量,例如YUV、YCbCr、RGB。上述呈现过程可独立适用于颜色分量。
记录与回放
数种服务(例如YouTube、Facebook等等…)最近已开始提供360°视频序列。这些服务允许用户在视频播放时在所有方向上环顾四周。用户可旋转场景以观看他们在给定时间所关注的任何事物。
存在用于360°视频的数种格式,但每一格式涉及将3D表面(球形、立方体、八面体、二十面体等等…)投影到2D平面上。接着,2D投影如同任何正常视频序列那样被编码/解码。在解码器处,取决于当时用户的视角呈现并显示那个360°视图的一部分。
最终结果是赋予用户看他们周围的每一地方的自由,这极大地增加了身临其境的感觉,从而使其感受到他们仿佛就在场景中。与空间音频效果(旋转音频环绕声以匹配视频)组合,效果可相当迷人。
图15说明根据一或多个实施方案的其中可实施360度视频的记录与回放的实例网络环境1500。然而,可能不使用所描绘的全部组件,且一或多个实施方案可包含图中未展示的额外组件。可在不背离如本文所陈述的权利要求书的精神或范围的情况下,作出组件的布置及类型中的变化。可提供额外组件、不同组件或更少组件。
实例网络环境1500包含360度视频捕获装置1502、360度视频拼接装置1504、视频编码装置1506、视频解码装置1508及360度视频呈现装置1510。在一或多个实施方案中,装置1502、1504、1506、1508、1510中的一或多者可被组合到相同物理装置中。举例来说,360度视频捕获装置1502、306度视频拼接装置1504及视频编码装置1506可被组合到单个装置中,且视频解码装置1508及360度视频呈现装置1510可被组合到单个装置中。在一些实施例中,视频解码装置1508可包含音频解码装置(未展示),或在其它实施例中,视频解码装置1508可通信地耦合到分离音频解码装置,以用于处理传入或所存储的360视频经压缩比特流。
在360视频回放侧上,网络环境1500可进一步包含多路分用器装置(未展示),其可多路分用传入的经压缩360度视频比特流,并将经多路分用的比特流分别提供到视频解码装置1508、音频解码装置及视角提取装置(未展示)。在一些方面中,多路分用器装置可经配置以解压360视频比特流。网络环境1500可进一步包含360视频布局格式转换装置(未展示),其可在由视频编码装置1506对视频编码之前及/或在由视频解码装置1508解码视频之后执行360视频布局格式转换。网络环境1500还可包含360视频回放装置(未展示),其回放经呈现360视频内容。在一或多个实施方案中,视频编码装置1506可经由传输链路,例如通过网络,通信地耦合到视频解码装置1508。
360视频回放装置可就在回放终止或切换到另一程序通道之前存储360视频呈现设置(例如,FOV角度、观看方向角度、呈现照片尺寸等等),使得可在恢复相同通道的回放时使用所存储的呈现设置。360视频回放装置可提供预览模式,其中视角可每隔N个帧自动改变以帮助观看者选择合意的观看方向。360视频捕获与回放装置可实时(例如,逐块地)计算投影图以保存存储器带宽。在此例子中,可能不能从芯片外存储器加载投影图。在本系统中,不同视图保真度信息可被分配到不同视图。
在本系统中,内容提供商可提供给定360度视频的“建议视图”。此建议视图可为360度视频中的每一帧的一组具体的视角以向用户提供推荐体验。在用户在任何给定时间点对控制视图本身并不是特别感兴趣的事件中,用户可观看(或回放)建议视图,并体验由内容提供商推荐的视图。
在本系统中,为有效地存储记录/回放用户在具体观看期间最初观看的具体视图中的经解压360视频比特流所需的数据,可将每一帧的视角数据(例如FOV角度及观看方向角度“侧倾”、“纵倾”及“侧滚”)保存于存储装置中。与最初已记录的完整360度视图数据组合,可重新创建先前保存的视图。
此视角数据可以任何数目个方式存储。举例来说,视角数据可经存储作为1)用视频序列保存的分离文件,1)其可被插入到视频流中作为照片用户数据(例如,AVC/HEVC辅助增强信息消息-SEI消息),及/或3)其可经携载作为视频序列内的分离数据流(例如,不同MPEG-2TS PID或MP4数据流)。存储每帧的FOV角度及三个(即,侧倾、纵倾、侧滚)观看方向角度是存储及处理开销中的相对较小的成本,以实现先前保存的任何视图中的360度视频内容的记录/回放的特征。
在本系统中,经记录的视角数据可被提供到视频呈现装置1510以记录360度视频流加一组具体的视角。可将视角数据作为经记录视角从存储装置提供到视频呈现装置1510以以指定的经记录视角重新构造360度视频流。
取决于存储视角的方式,可初始化对应视角提取过程。在经记录视角被存储于经压缩360视频比特流内的一或多个实施方案中,可使用视角提取过程。举例来说,视频解码装置1508及/或音频解码装置可从经压缩360视频比特流(例如,从HEVC比特流内的SEI消息)提取视角。在这方面,接着,由视频解码装置1508提取的视角可被提供到视频呈现装置1510。如果视角被存储于分离数据流(例如,MPEG-2TS PID)中,那么多路分用器装置可提取此信息,并将其发送到视频呈现装置1510作为建议视角。在一些实例中,多路分用器馈送到分离视角提取装置(未展示)以提取经记录视角。在这方面,本系统应具有在任何时间在先前记录的视图与手动选择的用户视图之间切换的能力。
在一或多个实施方案中,视频呈现装置1510可接收一组用户选择的视角作为输入。视频呈现装置1510可在所述组用户选择的视角与来自观看历史数据的预先确定的视角之间作出选择。视频呈现装置1510可在选择所述组用户选择的视角而非预先确定的视角时用来自所述组用户选择的视角的一或多个视角呈现经解码360度视频流的一或多个视频序列。在一些方面中,在用户无活动的预先确定的时间周期之后返回用来自预先确定的视角的一或多个经记录视角呈现一或多个视频序列。
在先前经记录视图与手动视图之间切换可包含提示用户提供到进入/退出此模式的用户选择(例如,触摸用户接口控制按钮)。在一或多个实施方案中,本系统可自动执行切换。举例来说,如果用户手动移动视图(用鼠标、远程控制件、手势、手柄等等…),那么视图经更新以遵循用户的要求。如果用户在设置的时间量内停止进行手动调整,那么视图可漂移回到预先确定的视图。
在一或多个实施方案中,在适当情况下可提供多个建议视图及/或可一次呈现一个以上建议视图。举例来说,对于足球游戏,一个视图可跟踪四分卫,且其它视图可跟踪外接手。使用上文的足球实例,用户可一次观看具有4个视图的分屏。替代地,不同视图可用于在NASCAR赛车事件期间跟踪具体汽车。用户可从这些建议视图之中作出选择以定制其体验,而无需一直完全控制视图。
如果整个场景的建议视图不可用或不适当,那么可给出建议(或推荐)以试着保证观看者不会错过重要动作。可在新场景开始时提供提示视图(或预览)。接着,视图可经移位以以提示角度看以便集中在视图的主要动作上。在一或多个实施方案中,如果用户希望能不那么直接(或独立),那么屏幕上图形箭头可用于指出用户可能面临错误的方式且错过有趣的事情。
两种常见类型的投影是等距柱状投影及立方体投影。这些类型的投影将视频从球形(等距柱状)及立方体(立方体)映射到平坦2D平面上。在图16中展示实例,其说明等距柱状投影(例如,1602)及立方体投影(例如,1604)的实例。
图17概念地说明360度视频呈现1700的实例。视频呈现装置1510可接收360度视频比特流作为输入并用相应方向角度在2D平面上呈现360度视频的多个区域。
此刻,在计算机或智能电话上观看来自流媒体服务(YOUTUBE、FACEBOOK、HULU等等)的多数360度视频内容。然而,期望在不久的将来可在标准电缆/卫星网络上播放360度视频。体育事件、旅游节目、极限运动、电影及许多其它类型的程序可在360°视频中展示以提高用户的兴趣及参与度。
在任何广播DVR(数字视频记录)类型环境中,广播节目经记录以稍后进行重放。特定来说,对于360度视频,多次观看一场景可为享受,以便体验不同方向上的场景或通过场景跟踪有趣的事情。
对于360度视频,“记录”的概念可以定义的方式:1)记录完整视图360度视频以稍后再次观看(并在下次选定不同视图)(下文为“定义(1)”);2)记录在具体观看期间由用户观看的具体视图(下文为“定义(2)”);及3)记录完整视图360度视频与由用户观看的具体视图两者(下文为“定义(3)”)。基于定义(3)的记录可提供基于定义(1)及(2)的记录的功能性。在一些实施方案中,记录可被定义为记录由用户观看的具体视图与在背景过程中由对象跟踪引擎跟踪的另一视图两者。
基于定义(1)的记录,音频/视频可被存储到存储装置(例如,易失性存储器、非易失性存储器)并以与任何正常程序一样的方式回放。在一些方面中,360视频格式可从一种投影格式转换成另一投影格式(例如,等距柱状到立方体),例如,如果显示器装置(例如,1512)偏好这些格式中的一者而非另一者。在此实例中,记录与回放可并非与任何常规音频/视频流不同。
基于定义(2)的记录可允许用户在他们首次观看视频内容时记录其体验,且接着,在后续观看中重新创建完全相同的体验。如果用户对他们前一次观看场景的其视角满意,且希望再次观看场景而无需额外努力或参与,那么这可为有用的。
图18说明对来自360度视频流的具体2D视图编码的实例的框图1800。记录前一视图的多数蛮力方法将是在由用户观看标准2D视频时对其重新编码。这将涉及捕获从360度视频呈现过程输出的2D图像,并将其传递穿过视频编码器。还需要对音频重新编码以实现左/右/中心/后音频的准确混合以匹配视频方向。在此过程之后,可在任何客户端上观看视频,而无需360度视频呈现过程。在图18中说明此过程。
在图18中,在视频解码装置1508处接收经压缩比特流(例如,360度视频流)作为输入,并将其解码成经解码流。视频呈现装置1510接收经解码视频流作为输入,并呈现接收到的流。视频呈现装置1510可接收包含由用户定义的一或多个视角的用户输入。经呈现流由音频及视频组件分别使用音频编码器1802及视频编码器1804重新编码。接着,其相应输出被馈送到多路复用器1806以被组合到经压缩2D比特流中并被存储于存储装置1808中。
然而,重新编码处理在硬件方面是昂贵的,且如果用户想要同时保持完整360度版本的灵活性,所生成的2D视图将消耗额外存储空间。代替地,本技术描述基于定义(1)、(2)及(3)实现记录与回放而无需显著存储空间或处理开销的方法。
返回参考图10,可将在记录任何给定时间的用户视图的概念表达为FOV角度,且三个不同观看方向由3D观看坐标系(x’,y’,z’)相对于3D捕获坐标系(x,y,z)的旋转角度定义。如图10中所展示,观看方向由沿着y轴的顺时针旋转角度θ(例如,1002,侧倾)、沿着x轴的逆时针旋转角度γ(例如,1004,纵倾)及沿着z轴的逆时针旋转角度ε(例如,1006,侧滚)指定。
在上文定义(2)及(3)的意义上,作为有效地存储记录/回放所需的数据的构件,可保存每一帧的FOV角度及“侧倾”、“纵倾”及“侧滚”角度。与已记录的定义(1)的数据(原始完整360度视图数据)组合,可重新创建任何先前保存的视图。
图19说明记录包含一组具体的视角的360度视频流的实例的框图1900。在图19中,在视频解码装置1508处接收经压缩比特流(例如,360度视频流)作为输入,并将其解码成经解码流。视频呈现装置1510接收经解码视频流作为输入并呈现经解码流以显示。视频呈现装置1510可接收用户输入作为包含由用户定义的一或多个视角的观看历史数据。在一些方面中,用户输入还包含一或多个用户选择的视野角度。经压缩比特流与接收到的用户输入两者被存储于存储装置1808中,使得回放序列可使用由用户设置的具体视角序列重新构造。在一些方面中,经压缩比特流可包含一或多个预先确定的视角。在这方面,视频呈现装置1510可在预先确定的视角与用户选择的视角之间作出选择以呈现经解码视频流。
图20说明具有经记录视角的360度视频流的回放的实例的框图2000。在一或多个实施方案中,每一帧的FOV角度及“侧倾”、“纵倾”及“侧滚”角度(“视角数据”)被存储于存储装置1808中。此视角数据可以任何数目个方式存储。举例来说,作为用经压缩比特流的视频序列保存的分离文件,可将视角数据插入到经压缩比特流中作为照片用户数据(例如,AVC/HEVC辅助增强信息消息(SEI消息)),或其可经携载作为视频序列内的分离数据流(例如,不同MPEG-2TS PID或MP4数据流)。
假定用户想要存储后续回放会话的完整360度版本,存储每帧的至少一个视角可能需要相对较小的开销量以实现此特征。
在图20中,由视频解码装置1508获得经压缩比特流(例如,360度视频流)作为来自存储装置1808的输入,且经解码成经解码流。视频呈现装置1510接收经解码视频流作为输入,并使用来自存储装置1808的经记录视角呈现经解码流以显示。在图20中,360度视频流可用由内容提供商设置的多个预先确定的视角编码。在另一实例中,经记录视角可为来自360度视频流的先前呈现会话的用户选择的视角。
图21说明从经压缩比特流提取视角的实例的框图2100。在视角被存储于经压缩比特流本身内的应用中,可使用视角提取过程。举例来说,视频解码器可从HEVC比特流内的SEI消息提取视角。
在图21中,由视频解码装置1508获得经压缩比特流(例如,360度视频流)作为来自存储装置1808的输入,且经解码成经解码流。视频解码装置1508可从经解码视频流提取包含预先确定的视野角度的预先确定的视角。在一些实例中,视频解码装置1508可从经解码视频流内的一或多个辅助增强信息消息提取预先确定的视角。视频呈现装置1510接收经解码视频流与经提取视角一起作为输入,并使用经提取视角呈现经解码流以显示。在此实例中,视频呈现装置1510通过相应通道从经提取预先确定的视角分离地接收经解码视频流。
此方法可允许用户再次享受先前体验,但因为完整360度视频还可用,所以如果用户想要从预先确定(或建议)的视角偏离并手动改变视角,那么用户可能在回放序列中的任何给定点无缝地进行操作。用户的手动输入可替代经记录值(或对应预先确定的视角)并以他们选定的任何方式驱动视图。
在一或多个实施方案中,当用户初始化对经呈现视图的控制但过了一会儿就烦了时;一旦检测到用户在预先确定的时间周期之后已停止了手动控制视角,系统就可漂移回到前一视角设置。在其它方面中,用户可选择控制按钮以恢复到回放模式,其中一旦用户已完成对视角的手动控制,就再次呈现经记录视图。
多数360度视图应用不允许用户调整“侧滚”角度。相机通常被固定在垂直定向中。然而,视图可向上/向下及向左/向右旋转,但不会向侧面转向。在这方面,本技术可适用于其中系统记录三个可能视角中的两者的使用情况。
应注意,并非所有“360视频”流都覆盖完整的360°x180°视野。一些序列仅可限制观看前方向(180°x180°)。一些可具有关于用户可向上或向下导航多高的限制。在这方面,本技术可适用于这些使用情况中的每一者。
在一或多个实施方案中,360度视频回放系统(例如,1500)具有在回放终止或切换到另一程序通道不久之前记忆360度视频呈现设置(即,FOV角度、观看方向角度、呈现照片尺寸等等)的能力,使得可在恢复相同通道的回放时使用记忆的呈现设置。
对象跟踪
虽然360度视频应用可为沉浸在场景中的丰富的体验,但对于较长程序,一直手动控制视图以跟踪所关注的主要目标的要求可能通常变得乏味。举例来说,在体育事件期间一次又一次地环视可能是有趣的,但过了一会儿,用户仅仅想要集中在球、具体选手、某一赛车等等的视图。出于此目的,对象跟踪可用于跟踪所关注的对象并保持集中在帧中的这些对象。
对象跟踪已经是多年的研究领域。例如视频监控、视频压缩、医学成像的应用,全都尝试着在其从帧到帧移动时跟踪对象。在本技术中,可使用识别360度视频格式边界的标准对象跟踪算法。
图22说明根据一或多个实施方案的实例网络环境2200,360度视频的对象跟踪可被实施于其中。然而,可能不使用所描绘的全部组件,且一或多个实施方案可包含图中未展示的额外组件。可在不背离如本文所陈述的权利要求书的精神或范围的情况下,作出组件的布置及类型中的变化。可提供额外组件、不同组件或更少组件。
实例网络环境2200包含360度视频捕获装置2202、360度视频拼接装置2204、视频编码装置2206、视频解码装置2208、对象跟踪装置2214及360度视频呈现装置2210。在一或多个实施方案中,装置2202、2204、2206、2208、2210、2214中的一或多者可被组合到相同物理装置中。举例来说,360度视频捕获装置2202、306度视频拼接装置2204及视频编码装置2206可被组合到单个装置中,且视频解码装置2208、对象跟踪装置2214及360度视频呈现装置2210可被组合到单个装置中。在一些实施例中,视频解码装置2208可包含音频解码装置(未展示),或在其它实施例中,视频解码装置2208可通信地耦合到分离音频解码装置以处理传入或存储的360视频经压缩比特流。
在360视频回放侧上,网络环境2200可进一步包含多路分用器装置(未展示),其可多路分用传入的360视频经压缩比特流,并将经多路分用的比特流分别提供到视频解码装置2208、音频解码装置及音频解码装置(未展示)。在一些方面中,多路分用器装置可经配置以解压360视频比特流。对象跟踪装置2214可耦合到视频解码装置2208及音频解码装置以跟踪经解码360视频比特流的3D空间中的对象。在这方面,跟踪角度可从对象跟踪装置提供到视频呈现装置2210以使用对象跟踪呈现360视频内容。网络环境2200可进一步包含360视频布局格式转换装置(未展示),其可在由视频编码装置2206对视频编码之前及/或在由视频解码装置2208解码视频之后执行360视频布局格式转换。网络环境2200还可包含360视频回放装置(未展示),其回放经呈现360视频内容。在一或多个实施方案中,视频编码装置2206可经由传输链路,例如通过网络,通信地耦合到视频解码装置2208。
在本系统中,对象跟踪可用于跟踪所关注的对象并保持集中于360度视频的帧中的这些对象。可将每一帧的FOV角度及“侧倾”、“纵倾”及“侧滚”角度(视角数据)保存于存储装置中。一些360度视图应用可能不允许用户调整“侧滚”角度。相机通常被固定在垂直定向中。角度可向上/向下及向左/向右旋转,但不会向侧面转向。因此,为了使视图集中在所关注的对象上,侧倾及纵倾可经设置以使视角与指向所关注的对象的中心的向量对准。
在跟踪视图与手动视图之间切换可包含提示用户提供到进入/退出此模式的用户选择(例如,按下按钮)。可跟踪检测到的最靠近当前视图的中心的对象。替代地,用输入装置(例如,鼠标、远程控制件或语音命令),系统可锁定在用户在场景中选择的任何事物上。
替代地,本系统可自动执行手动/跟踪开关。举例来说,如果用户手动移动视图(用鼠标、远程控制件、手势、手柄等等),那么视图经更新以遵循用户的要求。如果用户在设置的时间量内停止进行手动调整,那么视图可开始跟踪当时最靠近场景的中间的事物。
存在针对对象跟踪提出的数千种算法,其具有各种成功程度(例如,点跟踪、内核跟踪、边界跟踪)。例如颜色的这些跟踪特征中的每一者加边、光流动、纹理化等等。对象跟踪算法全都具有其自身强度及弱点,且其可在计算要求中可能有很大差异。
所揭示的系统不尝试建议一种对象跟踪算法更适当。其可极大地取决于被跟踪的对象的类型及对象跟踪装置2214(即,机顶盒)上可用的计算能力。
360度视频中的对象检测并非与2D视频中的对象检测彻底不同。通常关于2D投影数据(等距柱状、立方体投影等等)而非在3D空间中尝试对象跟踪来完成对象检测。
图23概念地说明等距柱状投影2300中的球形失真的实例。具有等距柱状投影2300,2D投影是单个连续空间。2D投影可允许实施传统跟踪算法。然而,特定来说,接近极点的球形扭曲可致使一些跟踪算法的问题。举例来说,对象可随着其接近极点而变成拉伸及失真,且线性运动可变得更加弯曲及变成圆形。
图24概念地说明立方体投影空间2400中的面的不连续性的实例。为在立方体投影空间2400中工作,跟踪算法可能需要意识到面边界,且理解如何将每一面连接到其邻近面。随着对象从一个面移动到下一面,跟踪算法可能需要理解其面边界并跟踪运动连续性。
一旦在2D投影空间中跟踪对象,此可经映射回到3D空间中的指针/向量。此可使用用于将2D投影映射到3D表面的相同反投影算法完成。
另外,环绕声音频可潜在地提供额外跟踪数据以帮助在对象跟踪中改进准确性。环绕声音频可提供已知的来自右/下/左/前/上/后方向的音频信号。具有方向信息的这些音频信号可为由麦克风阵列提供的相同类型的信息。此类阵列可用于隔离并检测3D空间中的声源。假定跟踪的对象是声源,通过空间/时间跟踪声源可在跟踪算法的准确性中提供改进。
参考图10,许多360度视频应用不允许用户调整“侧滚”角度。相机通常被固定在垂直定向中。其可向上/向下及向左/向右旋转,但不会向侧面转向等等。因此,为了使视图集中在所关注的对象上,侧倾及纵倾可经设置以使视角与指向所关注的对象的中心的向量对准。
图25说明使用对象跟踪的360度呈现系统的实例的框图2500。在图25中,在多路分用器2502处接收经压缩比特流(例如,360度视频流)作为输入,且将其多路分用成相应数据流(例如,视频流、音频流)。在此实例中,经多路分用的比特流可由分离通道上的相应解码器接收。举例来说,经压缩比特流的视频流部分可由视频解码器2208-1接收并解码,且音频流部分可由音频解码器2208-2接收并解码。对象跟踪装置2214可分别从解码器2208-1及2208-2接收视频与音频流两者,并跟踪经解码360度视频流中的一或多个对象。对象跟踪装置2214可将与一或多个对象相关联的一或多个跟踪角度提供到视频呈现装置2210。在一些方面中,对象跟踪装置2214可检测最靠近当前视图的中心的对象。在其它方面中,对象跟踪装置2214可基于用户经由输入装置(例如,鼠标)选择场景中的显示器上的对象锁定在对象上。
视频呈现装置2210接收经解码视频流及经解码视频流作为输入,并呈现经解码流以显示。视频呈现装置2210还从对象跟踪装置2214接收跟踪角度作为输入。视频呈现装置2210还接收包含由用户通过用户输入装置(例如,鼠标、远程控制件、等等…)定义的一或多个视角的用户输入。在一些方面中,用户输入还包含一或多个用户选择的视野角度。在这方面,视频呈现装置1510可在跟踪角度与用户选择的视角之间作出选择以呈现经解码视频流。对象跟踪装置2214可接受不同形式的用户输入以初始化场景中的对象的跟踪,包含但不限于用户眼睛移动数据、用户头部移动数据、语音识别数据及类似物。
在一或多个实施方案中,视频呈现装置2210可接收一组用户选择的视角作为输入。视频呈现装置2210可在所述组用户选择的视角与来自对象跟踪装置2214的跟踪角度之间作出选择。视频呈现装置2210可在选择了所述组用户选择的视角而非跟踪角度时用来自所述组用户选择的视角的一或多个视角呈现经解码360度视频流的一或多个视频序列。在一些方面中,在用户无活动的预先确定的时间周期之后返回用一或多个建议跟踪角度呈现一或多个视频序列。
在跟踪角度与用户选择的视角之间切换可由在经呈现流的显示模式之间切换的用户接口控制命令触发。在一或多个实施方案中,手动/跟踪开关可自动(例如,无需用户输入)完成。举例来说,如果用户手动移动视图(用鼠标、远程控制件、手势、手柄等等),那么视图经更新以遵循用户的要求。如果用户在设置的时间量内停止进行手动调整,那么视图可开始跟踪当时最靠近场景的中间的任何对象。
在显示器装置(例如,2212)上使用分屏,一次可跟踪一个以上建议视图。举例来说,用户可观看具有被同时显示的四(4)个不同视图的分屏,其中一个预先确定的视图跟踪第一对象(例如,足球队的四分卫),另一预先确定的视图跟踪第二对象(例如,足球队的外接手),而另一视图由用户经由用户选择的视角手动控制。
应注意,并非所有“360视频”流实际上都覆盖完整的360°x180°视野。一些序列可限制到前方向(180°x180°)的观看方向。一些可具有关于用户可向上或向下更改多高的观看方向的限制。在这方面,对象跟踪装置2214可适应由一些应用设置的观看方向限制。
图26概念地说明电子系统2600,本技术的一或多个实施方案可用电子系统2600实施。电子系统2600例如可为网络装置、媒体转换器、桌上型计算机、膝上型计算机、平板计算机、服务器、交换机、路由器、基站、接收器、电话或(一般来说)通过网络传输信号的任何电子装置。此电子系统2600包含各种类型的计算机可读媒体及各种其它类型的计算机可读媒体的接口。在一或多个实施方案中,电子系统2600可为或可包含装置102、104、106、108、110、360度视频布局格式转换装置及/或360度视频回放装置中的一或多者。电子系统2600包含总线2608、一或多个处理单元2612、系统存储器2604、只读存储器(ROM)2610、永久存储装置2602、输入装置接口2614、输出装置接口2606及网络接口2616或其子集及变体。
总线2608共同表示所有系统、外围设备及通信地连接电子系统2600的众多内部装置的芯片组总线。在一或多个实施方案中,总线2608通信地连接一或多个处理单元2612与ROM 2610、系统存储器2604及永久存储装置2602。从这些各种存储器单元,一或多个处理单元2612检索指令以执行及检索数据以处理以便执行本发明的处理。在不同实施方案中,一或多个处理单元2612可为单个处理器或多核处理器。
ROM 2610存储由电子系统中的一或多个处理单元2612及其它模块所需的统计数据及指令。另一方面,永久存储装置2602是读写存储器装置。永久存储装置2602是非易失性存储器单元,其存储指令及数据,即使是在电子系统2600断电时。本发明中的一或多个实施方案使用大容量存储装置(例如磁盘或光盘及其对应光盘驱动)作为永久存储装置2602。
其它实施方案使用可装卸存储装置(例如软盘、快闪驱动及其对应光盘驱动)作为永久存储装置2602。如同永久存储装置2602,系统存储器2604是读写存储器装置。然而,不同于永久存储装置2602,系统存储器2604是易失性读写存储器,例如随机存取存储器。系统存储器2604存储一或多个处理单元2612在运行时间所需的指令及数据中的任何者。在一或多个实施方案中,本发明的处理被存储于系统存储器2604、永久存储装置2602及/或ROM2610中。从这些各种存储器单元,一或多个处理单元2612检索指令以执行并检索数据以处理以便执行一或多个实施方案的处理。
总线2608还连接到输入装置接口2614及输出装置接口2606。输入装置接口2614使用户能够将信息及选择命令传达到电子系统。结合输入装置接口2614使用的输入装置包含例如字母数字小键盘及指向装置(还称为“光标控制装置”)。输出装置接口2606实现例如由电子系统2600生成的图像的显示。结合输出装置接口2606使用的输出装置包含例如指针及显示器装置,例如液晶显示器(LCD)、发光二极管(LED)显示器、有机发光二极管(OLED)显示器、柔性显示器、平板显示器、固态显示器、投影仪或用于输出信息的任何其它装置。一或多个实施方案可包含用作输入与输出装置两者的装置,例如触摸屏。在这些实施方案中,提供到用户的反馈可为任何形式的感觉反馈,例如视觉反馈、听觉反馈或触觉反馈;且来自用户的输入可以任何形式接收,包含听觉、速度或触觉输入。
最后,如图26中所展示,总线2608还通过一或多个网络接口2616将电子系统2600耦合到一或多个网络(未展示)。以此方式,计算机可为计算机(例如,局域网(“LAN”)、广域网(“WAN”)或内联网或网络中的网络(例如因特网))中的一或多个网络的部分。电子系统2600的任何或所有组件可连同本发明一起使用。
本发明的范围内的实施方案可使用对一或多个指令编码的有形计算机可读存储媒体(或一或多种类型的多个有形计算机可读存储媒体)部分或完全实现。易失性计算机可读存储媒体的性质还可为非暂时性的。
计算机可读存储媒体可为任何存储媒体,其可由通用或专用计算装置读取、写入或以其它方式存取,包含任何处理电子设备及/或能够执行指令的处理电路。举例来说,且无限制,计算机可读媒体可包含任何易失性半导体存储器,例如RAM、DRAM、SRAM、T-RAM、Z-RAM及TTRAM。计算机可读媒体还可包含任何非易失性半导体存储器,例如ROM、PROM、EPROM、EEPROM、NVRAM、快闪存储器、nvSRAM、FeRAM、FeTRAM、MRAM、PRAM、CBRAM、SONOS、RRAM、NRAM、赛道(racetrack)存储器、FJG及Millipede存储器。
此外,计算机可读存储媒体可包含任何半导体存储器,例如光盘存储装置、磁盘存储装置、磁带、其它磁性存储装置或能够存储一或多个指令的任何其它媒体。在一些实施方案中,易失性计算机可读存储媒体可直接耦合到计算装置,而在其它实施方案中,易失性计算机可读存储媒体可例如经由一或多个有线连接、一或多个无线连接或其任何组合间接耦合到计算装置。
指令可为可直接执行的或可用于开发可执行指令。举例来说,指令可被实现为可执行或非可执行机器代码或被实现为高级语言指令,所述高级语言可经编译以产生可执行或非可执行机器代码。此外,指令还可被实现为或可包含数据。计算机可执行指令还可以任何格式组织,包含例程、子例程、程序、数据结构、对象、模块、应用、小应用程序、函数等等。如所属领域的技术人员应认识到,包含但不限于指令的数目、结构、序列及组织的细节可显著改变而不会改变基础逻辑、函数、处理及输出。
虽然上文论述主要是指微处理器或执行软件的多核处理器,但一或多个实施方案由一或多个集成电路执行,例如专用集成电路(ASIC)或场可编程门阵列(FPGA)。在一或多个实施方案中,此类集成电路执行被存储于其电路上的指令。
所属领域的技术人员应了解,本文描述的各种说明性块、模块、元件、组件、方法及算法可被实施为电子硬件、计算机软件或两者的组合。为说明硬件与软件的此可互换性,上文大体上依据其功能性描述了各种说明性块、模块、元件、组件、方法及算法。此功能性是被实施为硬件还是被实施为软件取决于特定应用及强加于整体系统上的设计约束。技术人员可针对每一特定应用以不同方式实施所描述的功能性。各种组件及块可被不同地布置(例如,以不同顺序布置或以不同方式分割),全都不背离本技术的范围。
应理解,所揭示的过程中的块的任何具体顺序或层级是实例方法的说明。基于设计偏好,应理解,过程中的块的具体顺序或层级可被重新布置,或所说明的所有块被执行。可同时执行块中的任何者。在一或多个实施方案中,多任务及并行处理可为有利的。此外,不应将上文描述的实施例中的各种系统组件的分离理解为在所有实施例中都需要此分离,且应理解,所描述的程序组件及系统可大体上被一起集成于单个软件产品中或被封装到多个软件产品中。
如本说明书及本申请案的任何权利要求所使用,术语“基站”、“接收器”、“计算机”、“服务器”、“处理器”及“存储器”全都是指电子装置或其它技术装置。这些术语排除人或人群。出于说明书的目的,术语“显示(display)”或“显示(displaying)”意指在电子装置上显示。
如本文所使用,位于一系列物品之前的短语“中的至少一者”,与分离物品中的任何者的术语“及”或“或”整体修改列表,而非列表中的每一部件(例如,每一物品)。短语“…中的至少一者”无需选择所列的每一物品中的至少一者;实情是,短语允许包含物品中的任一者中的至少一者及/或物品的任何组合中的至少一者及/或物品中的每一者中的至少一者的意义。举实例,短语“A、B及C中的至少一者”或“A、B或C中的至少一者”各自指代:仅A、仅B或仅C;A、B及C的任何组合;及/或A、B及C中的每一者中的至少一者。
谓语“经配置以”、“可操作以”及“经编程以”不暗含对象的任何特定有形或无形修改,而实情是,希望可互换地使用。在一或多个实施方案中,经配置以监测并控制操作或组件的处理器还可意指经编程以监测并控制操作的处理器或可操作以监测并控制操作的处理器。同样地,经配置以执行代码的处理器可被构造为经编程以执行代码或可操作以执行代码的处理器。
例如一方面、所述方面、另一方面、一些方面、一或多个方面、一实施方案、所述实施方案、另一实施方案、一些实施方案、一或多个实施方案、一实施例、所述实施例、另一实施例、一些实施例、一或多个实施例、一配置、所述配置、另一配置、一些配置、一或多个配置、本技术、揭示内容、本发明、其其它变体及类似物的短语是为了方便,且不暗含涉及此(类)短语的揭示内容对本技术必要或此揭示内容适用于本技术的所有配置。涉及此(类)短语的揭示内容可适用于所有配置或一或多个配置。涉及此(类)短语的揭示内容可提供一或多个实例。例如一方面或一些方面的短语可指代一或多个方面且反之亦然,且这类似地适用于其它前述短语。
本文使用词“示范性”来意指“用作实例、例子或说明”。本文描述为“示范性”或描述为“实例”的任何实施例不一定都被构造为优选或比其它实施例有利。此外,在术语“包含”、“具有”或类似物用于描述或权利要求书中的程度上,此术语希望以类似于如“包括”在权利要求书中用作过渡词时那样的术语“包括”的方式被解译为具包含性。
所属领域的一般技术人员已知或稍后将已知的贯穿此揭示内容描述的各种方面的元件的所有结构及功能等效物通过引用方式被明确并入到本文中且希望由权利要求书涵盖。此外,本文揭示的每一事物都不希望致力于公共,无论在权利要求书中是否明确陈述此揭示内容。在提供35U.S.C.§112、第六段落下,未构造主张元件,除非元件使用短语“用于…的构件”明确陈述,或在方法权利要求的情况中,元件使用短语“用于…的步骤”来陈述。
提供先前描述使所属领域的技术人员能够实践本文描述的各种方面。所属领域的技术人员应容易地明白对这些方面的各种修改,且本文定义的一般原理可应用到其它方面。因此,权利要求书不希望限于本文展示的方面,但应符合与语言要求一致的完整范围,其中参考单数形式的元件不希望意指“一个且仅一个”,除非明确如此陈述,而是“一或多者”。除非另外明确陈述,术语“一些”是指一或多个。男性代词(例如,他)包含女性及中性(例如,她及它),且反之亦然。标题及子标题(如果存在)仅为了方便起见使用,且不限制本发明。

Claims (12)

1.一种计算机实施的方法,其包括:
解码360度视频流;
跟踪在所述解码360度视频流中检测的对象,并提供与所述经检测对象相关联的一或多个跟踪角度;
从所述经解码360度视频流提取多个预先确定的视角;
使用所述一或多个跟踪角度呈现所述经解码360度视频流;及
提供所述经呈现360度视频流以显示,
其中所述对象被检测为最靠近所述360度视频流的中心视角。
2.根据权利要求1所述的方法,所述方法进一步包括:
接收一组用户选择的视角作为输入;及
使用用户选择的视角的组来呈现所述经解码360度视频流的一或多个视频序列。
3.根据权利要求2所述的方法,其中在用户无活动的预先确定的时间周期之后,返回用来自所述多个预先确定的视角的一或多个视角呈现所述一或多个视频序列。
4.根据权利要求1所述的方法,其中响应于用户输入,通过所述对象跟踪装置检测所述对象。
5.根据权利要求4所述的方法,其中所述用户输入是进入跟踪模式的选择。
6.根据权利要求1所述的方法,其中在用户无活动的预先确定的周期之后,通过所述对象跟踪装置将所述经检测对象检测为最靠近所述经呈现360度视频流的当前视角的中心。
7.一种系统,其包括:
解码装置,其经配置以接收360度视频流作为输入并解码所述360度视频流;
对象跟踪装置,其经配置以将由所述对象跟踪装置检测的对象跟踪为最靠近所述经解码360度视频流中的当前视角的中心,并提供与所述经检测对象相关联的一或多个跟踪角度;及
呈现装置,其经配置以使用来自所述对象跟踪装置的所述一或多个跟踪角度呈现所述经解码360度视频流,以保持一或多个经呈现帧的经呈现视图中的所述经检测对象。
8.根据权利要求7所述的系统,其中所述呈现装置进一步经配置以:
接收一或多个用户选择的角度作为输入;
用所述一或多个用户选择的视角呈现所述经解码360度视频流。
9.根据权利要求7所述的系统,其中所述呈现装置进一步经配置以在用户无活动的预先确定的时间周期之后,返回用所述一或多个跟踪角度来呈现所述经解码360度视频流。
10.根据权利要求7所述的系统,其中响应于用户输入,通过所述对象跟踪装置来检测所述对象。
11.根据权利要求10所述的系统,其中所述用户输入是进入跟踪模式的选择。
12.根据权利要求7所述的系统,其中在用户无活动的预先确定的周期之后,通过所述对象跟踪装置将所述经检测对象检测为最靠近所述经呈现360度视频流的当前视角的中心。
CN201711009434.8A 2016-11-04 2017-10-25 用对象跟踪进行360度视频记录与回放 Active CN108024094B (zh)

Applications Claiming Priority (6)

Application Number Priority Date Filing Date Title
US201662418069P 2016-11-04 2016-11-04
US201662418061P 2016-11-04 2016-11-04
US62/418,069 2016-11-04
US62/418,061 2016-11-04
US15/599,446 2017-05-18
US15/599,446 US10848668B2 (en) 2016-05-19 2017-05-18 360 degree video recording and playback with object tracking

Publications (2)

Publication Number Publication Date
CN108024094A CN108024094A (zh) 2018-05-11
CN108024094B true CN108024094B (zh) 2021-01-15

Family

ID=62003119

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711009434.8A Active CN108024094B (zh) 2016-11-04 2017-10-25 用对象跟踪进行360度视频记录与回放

Country Status (2)

Country Link
CN (1) CN108024094B (zh)
DE (1) DE102017009149A1 (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11166079B2 (en) * 2017-12-22 2021-11-02 International Business Machines Corporation Viewport selection for hypervideo presentation
CN110662119A (zh) * 2018-06-29 2020-01-07 华为技术有限公司 一种视频拼接方法及装置
CN114915823B (zh) * 2021-02-08 2024-04-02 腾讯科技(北京)有限公司 视频播放控制方法、装置、存储介质和电子设备
US11831982B2 (en) 2022-03-25 2023-11-28 International Business Machines Corporation Multiple entity video capture coordination
CN114760483B (zh) * 2022-04-20 2023-12-19 东方明珠新媒体股份有限公司 一种多视角视频播放和切换的方法、系统及介质
CN115103114A (zh) * 2022-06-16 2022-09-23 京东方科技集团股份有限公司 全景视频的视角跟踪方法、装置、设备和介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005210315A (ja) * 2004-01-21 2005-08-04 Sony Corp 映像配信システム
CN101291428A (zh) * 2008-05-30 2008-10-22 上海天卫通信科技有限公司 自动视角配置的全景视频监控系统和方法
CN101300840A (zh) * 2005-11-04 2008-11-05 微软公司 多视角视频传递
CN103297668A (zh) * 2012-02-29 2013-09-11 深圳市振华微电子有限公司 全景视频图像摄录系统及方法
CN104363427A (zh) * 2014-11-28 2015-02-18 北京黎阳之光科技有限公司 一种全实景视频智能监控系统
WO2015174501A1 (ja) * 2014-05-16 2015-11-19 株式会社ユニモト 全周動画配信システム、全周動画配信方法、画像処理装置、通信端末装置およびそれらの制御方法と制御プログラム
CN105843541A (zh) * 2016-03-22 2016-08-10 乐视网信息技术(北京)股份有限公司 全景视频中的目标追踪显示方法和装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7428000B2 (en) * 2003-06-26 2008-09-23 Microsoft Corp. System and method for distributed meetings

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005210315A (ja) * 2004-01-21 2005-08-04 Sony Corp 映像配信システム
CN101300840A (zh) * 2005-11-04 2008-11-05 微软公司 多视角视频传递
CN101291428A (zh) * 2008-05-30 2008-10-22 上海天卫通信科技有限公司 自动视角配置的全景视频监控系统和方法
CN103297668A (zh) * 2012-02-29 2013-09-11 深圳市振华微电子有限公司 全景视频图像摄录系统及方法
WO2015174501A1 (ja) * 2014-05-16 2015-11-19 株式会社ユニモト 全周動画配信システム、全周動画配信方法、画像処理装置、通信端末装置およびそれらの制御方法と制御プログラム
CN104363427A (zh) * 2014-11-28 2015-02-18 北京黎阳之光科技有限公司 一种全实景视频智能监控系统
CN105843541A (zh) * 2016-03-22 2016-08-10 乐视网信息技术(北京)股份有限公司 全景视频中的目标追踪显示方法和装置

Also Published As

Publication number Publication date
DE102017009149A1 (de) 2018-05-09
CN108024094A (zh) 2018-05-11

Similar Documents

Publication Publication Date Title
US10848668B2 (en) 360 degree video recording and playback with object tracking
US11019257B2 (en) 360 degree video capture and playback
CN108024094B (zh) 用对象跟踪进行360度视频记录与回放
CN107959844B (zh) 360度视频捕获与回放
JP6410918B2 (ja) パノラマ映像コンテンツの再生に使用するシステム及び方法
US10417830B2 (en) Methods and systems for delivering independently-controllable interactive media content
US20180310010A1 (en) Method and apparatus for delivery of streamed panoramic images
US10659685B2 (en) Control of viewing angles for 360-degree video playback
US20140098185A1 (en) Interactive user selected video/audio views by real time stitching and selective delivery of multiple video/audio sources
KR20210000761A (ko) 콘텐츠를 제공 및 디스플레이하기 위한 장치 및 방법
KR20180029344A (ko) 가상 현실 시스템에서 컨텐트 전송 및 재생 방법 및 장치
US20150206350A1 (en) Augmented reality for video system
US9998664B1 (en) Methods and systems for non-concentric spherical projection for multi-resolution view
CN104010225A (zh) 显示全景视频的方法和系统
US20150036050A1 (en) Television control apparatus and associated method
Podborski et al. Virtual reality and DASH
US20180091852A1 (en) Systems and methods for performing distributed playback of 360-degree video in a plurality of viewing windows
US20230328329A1 (en) User-chosen, object guided region of interest (roi) enabled digital video
WO2019004073A1 (ja) 画像配置決定装置、表示制御装置、画像配置決定方法、表示制御方法及びプログラム
Podborski et al. 360-degree video streaming with MPEG-DASH
US20230300309A1 (en) Information processing device, information processing method, and information processing system
US11863902B2 (en) Techniques for enabling high fidelity magnification of video
US20230222754A1 (en) Interactive video playback techniques to enable high fidelity magnification

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
TA01 Transfer of patent application right

Effective date of registration: 20181029

Address after: Singapore Singapore

Applicant after: Annwa high tech Limited by Share Ltd

Address before: Singapore Singapore

Applicant before: Avago Technologies Fiber IP Singapore Pte. Ltd.

TA01 Transfer of patent application right
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant