CN109074404B - 用于提供内容导航的方法和装置 - Google Patents

用于提供内容导航的方法和装置 Download PDF

Info

Publication number
CN109074404B
CN109074404B CN201780029321.6A CN201780029321A CN109074404B CN 109074404 B CN109074404 B CN 109074404B CN 201780029321 A CN201780029321 A CN 201780029321A CN 109074404 B CN109074404 B CN 109074404B
Authority
CN
China
Prior art keywords
viewport
content segment
path
salient
significant
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201780029321.6A
Other languages
English (en)
Other versions
CN109074404A (zh
Inventor
贾斯廷·马蒂诺
乔纳森·J·柯里
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Samsung Electronics Co Ltd
Original Assignee
Samsung Electronics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Samsung Electronics Co Ltd filed Critical Samsung Electronics Co Ltd
Publication of CN109074404A publication Critical patent/CN109074404A/zh
Application granted granted Critical
Publication of CN109074404B publication Critical patent/CN109074404B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/111Transformation of image signals corresponding to virtual viewpoints, e.g. spatial image interpolation
    • H04N13/117Transformation of image signals corresponding to virtual viewpoints, e.g. spatial image interpolation the virtual viewpoint locations being selected by the viewers or determined by viewer tracking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • G06F3/012Head tracking input arrangements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0481Interaction techniques based on graphical user interfaces [GUI] based on specific properties of the displayed interaction object or a metaphor-based environment, e.g. interaction with desktop elements like windows or icons, or assisted by a cursor's changing behaviour or appearance
    • G06F3/04815Interaction with a metaphor-based environment or interaction object displayed as three-dimensional, e.g. changing the user viewpoint with respect to the environment or object
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T19/00Manipulating 3D models or images for computer graphics
    • G06T19/006Mixed reality
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/172Processing image signals image signals comprising non-image signal components, e.g. headers or format information
    • H04N13/178Metadata, e.g. disparity information
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/30Image reproducers
    • H04N13/332Displays for viewing with the aid of special glasses or head-mounted displays [HMD]
    • H04N13/344Displays for viewing with the aid of special glasses or head-mounted displays [HMD] with head-mounted left-right displays
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/30Image reproducers
    • H04N13/398Synchronisation thereof; Control thereof
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N2013/0074Stereoscopic image analysis
    • H04N2013/0092Image segmentation from stereoscopic image signals

Landscapes

  • Engineering & Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Software Systems (AREA)
  • Computer Hardware Design (AREA)
  • Computer Graphics (AREA)
  • Library & Information Science (AREA)
  • User Interface Of Digital Computer (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

一个实施例提供了一种方法,该方法包括:接收内容片段和内容片段的时刻数据。该方法还包括:基于时刻数据来确定用于该内容片段的视口的第一路径。该方法还包括在显示设备上显示视口。在内容片段的回放期间视口的移动基于第一路径。该方法还包括:针对内容片段中出现的时刻来生成增强,并且在回放的一部分期间在视口中呈现该增强。该增强包括用于将视口引导到该时刻的交互式提示。

Description

用于提供内容导航的方法和装置
技术领域
一个或多个实施例大体上涉及用于提供内容导航的方法和装置的领域,并且具体地,涉及生成交互式视口、提供内容导航并在视口中呈现增强。
背景技术
三百六十(360)度视频包括可以由360度摄像机或传统相机(如果传统相机自由旋转的话)捕捉的图像。观众(即,用户)可以利用虚拟现实(VR)设备(例如,VR护目镜或头戴式设备)来观看360度视频,该虚拟现实(VR)设备提供与观众头部的移动和定向同步移动的视口。视口允许观众观看在捕捉360度视频时在相机所处的位置处他/她将亲自看到的内容。
提出以上信息作为背景信息仅仅是为了辅助理解本公开。并未确定和断言上述任何内容是否可用作关于本公开的现有技术。
发明内容
[技术问题]
该技术领域中存在两个技术问题。一个问题是:因为在视口之外总是会发生很酷的事情,因此知道他们应当观看的时间和地点。另一个问题是:用户在被动观看360视频时得到的内容比主动观看时少。当通过除VR头戴式设备之外的其他媒体观看360度视频内容时,这尤其有害。
在没有头戴式设备的情况下观看360度视频很费力。许多网页浏览器都具有通过按键来移动视口的能力,智能电话允许通过滑动来移动视口,大多数电视没有为用户提供用于移动视口的接口。与VR头戴式设备相比,这些接口不太精确,并需要更多的调整工作。由于视口需要不断调整,因此它们会非常快地令人疲劳。
为了减轻此负担,已使用元数据来预先指定在任何给定时刻视口应当居中的位置。这被称为导演剪辑。然而,该修复导致其他结果。当观众决定手动改变视口时,视频播放器会在下次出现预先指定的视口时使视口弹回到位。
这种经历可能相当不舒服。更糟糕的是,观众想要观看的位置与元数据希望用户观看的位置之间经常存在冲突,导致对视口的控制造成令人不舒服的来回争夺。将对视口的控制交给导演失去了交互式360度视频的所有好处。
消费360度内容的主要问题是观众无法知道观看的位置。导演剪辑有一些帮助,因为它描述了贯穿视频的至少一条好路径。然而,观众可能与导演的品味不同,并且视频中可能同时出现其他令人关注的事情。
[问题的解决方案]
一个实施例提供了一种方法,包括接收内容片段和该内容片段的显著时刻数据。该方法还包括:基于显著时刻数据,确定用于该内容片段的视口的第一路径。该方法还包括在显示设备上显示视口。在内容片段的回放期间,视口的移动基于第一路径。该方法还包括:针对内容片段中出现的显著时刻来生成增强,并在回放的一部分期间在视口中呈现该增强。该增强包括用于将视口引导到显著时刻的交互式提示。
本公开描述了一种识别观众在360度视频中观看的关注位置的方法、以及一种帮助观众观看视频中的关注位置的方法。
参考以下描述、所附权利要求和附图,将更好地理解一个或多个实施例的这些及其他特征、方面和优点。
[发明的有益效果]
本公开的实施例提供了一种视口,其允许观众知道观众在视口中应当何时观看何处,并且允许观众与视口交互。
本公开的实施例提供了一种用于识别内容片段中的一个或多个关注点并且帮助观众观看所识别的关注点的方法和系统。
根据以下结合附图公开了本公开的示例性实施例的详细描述,本领域技术人员将更清楚本公开的其他方案、优点和突出特征。
在进行以下的具体实施方式之前,阐述贯穿本专利文档所使用的某些词语和短语的定义会是有利的:术语“包含”和“包括”及其派生词意味着在没有限制的情况下的包含;术语“或”是包含性的,意味着和/或;短语“与……相关联”和“与其相关联”以及其派生词可以意味着包括、被包括在……内、与……互连、包含、被包含在……内、连接到或与……连接、耦接到或与……耦接、可与……通信、与……协作、交织、并置、接近……、绑定到……或与……绑定、具有、具有……的属性等;以及术语“控制器”意味着控制至少一种操作的任何设备、系统或其一部分,这种设备可以实现为硬件、固件或软件、或它们中的至少两种的某种组合。应注意:与任何特定控制器相关联的功能可以是集中式或者分布式的,无论本地还是远程。贯穿本专利文档提供对于某些词语和短语的定义,本领域普通技术人员应该理解:在许多实例(如果不是大多数实例)中,这种定义适用于这样定义的词语和短语的现有以及将来使用。
附图说明
结合附图,根据以下描述,本公开的特定示例性实施例的上述和其他方面、特征以及优点将更清楚,在附图中:
图1示出了在一个或多个实施例中用于内容导航的示例框架;
图2详细示出了在一个或多个实施例中的示例显示设备;
图3详细示出了在一个或多个实施例中的示例内容处理器;
图4详细示出了在一个或多个实施例中的示例内容管理系统;
图5A示出了用于观看内容片段的示例传统视口;
图5B示出了在一个或多个实施例中具有示出指向内容片段中出现的一个或多个显著时刻的方向的增强的示例视口;
图5C示出了在一个或多个实施例中具有示出在内容片段中出现的一个或多个显著时刻的位置的增强的另一示例视口;
图6是示出了在一个或多个实施例中在内容片段中出现的不同类型的显著时刻的示例时空图;
图7示出了在一个或多个实施例中确定用于内容片段的视口的推荐路径的过程;
图8是示出了在一个或多个实施例中用于内容片段的视口的示例推荐路径的示例时空图;
图9是示出了在一个或多个实施例中用于内容片段的视口的另一示例推荐路径的示例时空图;
图10是示出了在一个或多个实施例中内容回放期间的观众干预的示例时空图;
图11是在一个或多个实施例中用于检测显著时刻的示例过程的流程图;
图12是在一个或多个实施例中用于提供交互式视口的示例过程的流程图;以及
图13是示出了包括用于实现所公开实施例的计算机系统在内的信息处理系统的示例性高级框图。
应注意:在整个附图中,相似的附图标记用于描述相同或相似的元素、特征和结构。
具体实施方式
提供以下参考附图的描述以帮助全面理解由权利要求及其等同物限定的本公开的各实施例。以下描述包括各种具体细节以帮助理解,但这些具体细节应被视为仅仅是示例性的。因此,本领域普通技术人员将认识到:在不脱离本公开的范围和精神的情况下,可以对本文所述的各种实施例进行各种改变和修改。另外,为了清楚和简洁起见,可以省略对已知功能和构造的描述。
以下描述和权利要求中使用的术语和词语不限于其书面含义,而是仅仅被发明人用来实现对本公开清楚一致的理解。因此,对于本领域技术人员来说应当清楚明白的是:提供本公开的各种实施例的以下描述以仅用于说明的目的,而不是用于限制由所附权利要求及其等同物限定的本公开的目的。
应当理解的是:除非上下文中另有清楚指示,否则单数形式“一”、“一个”和“所述”包括复数指示物。因此,例如,对“组件表面”的引用包括对这样的表面中的一个或多个表面的引用。
尽管诸如“第一”、“第二”等的序数用于描述各种组件,然而那些组件不受本文的限制。这种术语仅用于将一个组件与另一组件区分开来。例如,在不脱离本发明构思的教导的情况下,第一组件可以被称为第二组件,且类似地,第二组件也可以被称为第一组件。本文中所使用的术语“和/或”包括关联列出的一个或多个项目的任意和所有组合。
本文中所使用的术语仅仅是为了描述各种实施例,而不是意在进行限制。除非上下文另外清楚指示,否则本文中使用的单数形式也意在包括复数形式。将进一步理解,当在本说明书中使用时,术语“包括”和/或“具有”表示所述特征、数量、步骤、操作、组件、元素或其组合的存在,但是不排除一个或多个其他特征、数量、步骤、操作、组件、元素或其组合的存在或附加。
只要术语没有不同的定义,本文中所使用的术语(包括技术和科学术语)具有与本领域技术人员通常理解的术语相同的含义。应当理解:在通用字典中定义的术语具有与相关技术中的术语含义一致的含义。
根据本公开的各种实施例,电子设备可以包括通信功能。例如,电子设备可以是智能电话、平板个人计算机(PC)、移动电话、视频电话、电子书阅读器、台式PC、膝上型PC、上网本PC、个人数字助理(PDA)、便携式多媒体播放器(PMP)、mp3播放器、移动医疗设备、相机、可穿戴设备(例如,头戴式设备(HMD)、电子衣物、电子手环、电子项链、电子配饰、电子纹身或智能手表)等。
根据本公开的各种实施例,电子设备可以是具有通信功能的智能家用电器。例如,智能家用电器可以是电视、数字视频盘(DVD)播放器、音响、冰箱、空调、吸尘器、烤箱、微波炉、洗衣机、烘干机、空气净化器、机顶盒、TV盒(例如,Samsung HomeSyncTM、Apple TVTM或Google TVTM)、游戏机、电子词典、电子钥匙、便携式摄像机、电子相框等。
根据本公开的各种实施例,电子设备可以是医疗设备(例如,磁共振血管成像(MRA)设备、磁共振成像(MRI)设备、计算机断层扫描(CT)设备、成像设备或超声设备)、导航设备、全球定位系统(GPS)接收器、事件数据记录器(EDR)、飞行数据记录器(FDR)、汽车信息娱乐设备、航海电子设备(例如,航海导航设备、陀螺仪或罗盘)、航空电子设备、安保设备、工业或消费机器人等。
根据本公开的各种实施例,电子设备可以是包括通信功能的家具、建筑物/结构的一部分、电子公告板、电子签名接收设备、投影仪、各种测量设备(例如,水、电、气或电磁波测量设备)等。
根据本公开的各种实施例,电子设备可以是上述设备的任何组合。此外,本领域普通技术人员应清楚:根据本公开的各种实施例的电子设备不限于上述设备。
本公开的实施例中所提出的方法和装置可以应用于各种通信系统,诸如数字视频广播系统(例如移动广播服务和网际协议电视(IPTV)服务,移动广播服务如数字多媒体广播(DMB)服务、数字视频广播-手持(DVP-H)服务、高级电视系统委员会-移动/手持(ATSC-M/H)服务等)、运动图像专家组(MPEG)媒体传输(MMT)系统、演进分组系统(EPS)、长期演进(LTE)移动通信系统、LTE高级(LTE-A)移动通信系统、高速下行链路分组接入(HSDPA)移动通信系统、高速上行链路分组接入(HSUPA)移动通信系统、第3代合作伙伴计划2(3GPP2)中提出的高速分组数据(HRPD)移动通信系统、3GPP2中提出的宽带码分多址(WCDMA)移动通信系统、3GPP2中提出的码分多址(CDMA)移动通信系统、电气和电子工程师协会(IEEE)移动通信系统、移动网际协议(移动IP)系统等。
以下描述是为了说明一个或多个实施例的一般原理,并不意味着限制本文所描述和要求保护的发明构思。此外,本文所述的特定特征可以与其他所描述的特征以各种可能的组合和排列中的每一种来使用。除非本文另有明确定义,否则所有术语将给出其最广泛的可能解释,包括说明书中暗示的含义以及本领域技术人员理解和/或字典、论文等中定义的含义。
出于说明目的,本文所使用的术语“显著时刻”是指内容片段中的关注点。关注点在内容片段中具有特定点位置(即,位置),并且在内容片段的回放期间的特定时间段期间出现。一般观众可能会发现关注点有用或令人关注。术语“显著时刻”用“时刻”来缩写。类似地,术语“显著时刻数据”用“时刻数据”来缩写。
出于说明目的,本文所使用的术语“视口”是指显示屏上的框定区域,其用于在内容片段的回放期间观看和导航内容片段。本文所使用的术语“增强现实增强”是指在视口上叠加信息。
一个实施例提供了一种方法,包括:接收内容片段和该内容片段的显著时刻数据。该方法还包括:基于显著时刻数据,确定用于该内容片段的视口的第一路径。该方法还包括:在显示设备上显示视口。在内容片段的回放期间,视口的移动基于第一路径。该方法还包括:针对内容片段中出现的显著时刻来生成增强,并在回放的一部分期间在视口中呈现该增强。该增强包括用于将视口引导到显著时刻的交互式提示。
一个或多个实施例大体上涉及内容导航,并且具体地,涉及生成提供内容导航的交互式视口。一个实施例提供了一种方法,包括:接收用于在显示设备上回放的内容并且生成针对该内容的增强。该增强包括用于将视口引导到在内容中出现的显著时刻的交互式提示。该方法还包括:在回放的一部分期间在视口中呈现增强。
在没有虚拟现实(VR)设备(例如,VR护目镜或头戴式设备)的情况下观看内容(例如,三百六十(360)度视频)可能很费力。与VR设备提供的观众接口不同,由另一媒体提供的观众接口可能不太精确并且需要更多用户工作来手动调整视口。例如,web浏览器可以提供允许使用按键来移动经由web浏览器观看的视口的观众接口。作为另一示例,智能电话可以提供允许使用滑动来移动经由智能电话观看的视口的观众接口。作为又一示例,传统电视可能不提供允许移动经由电视观看的视口的观众接口。
经由web浏览器、智能电话、电视或除了VR设备之外的媒体观看视口的观众(即,用户)可能因观众必须不断地手动调整视口而快速疲劳和/或受挫。为了减轻这种负担,内容(例如,360度视频)的内容提供商可以提供包括元数据在内的导演剪辑,该元数据预先指定在给定时刻的内容的视口应当居中的内容中的路径。如果观众决定手动改变视口,则观众接口可能会使视口立即弹回到路径上的位置。这可能导致观众不舒服/不愉快的观看体验。
此外,由于观众可能具有不同的品味和/或关注,导演剪辑与观众在任何给定时间想要观看的位置之间可能出现冲突,导致对视口的控制造成令人不舒服的来回争夺。将对视口的控制交给导演使观众失去与内容交互的能力。无法与内容交互的观众在被动观看内容时获得的满足感低于他/她能够主动与内容交互时的满足感。此外,观众可能事先不知道内容何时何地可能包括观众的关注点。
一个实施例提供了一种视口,其允许观众知道在视口中观众应当何时观看何处,并且允许观众与视口交互。
一个实施例提供了一种用于识别内容片段中的一个或多个关注点并且帮助观众查看所识别的关注点的方法和系统。该系统自定义内容片段的视口选择。该系统允许视口基于观众交互(即,用户交互)来自适应地调整/改变其提供的视图。该系统消除了视口的颤动/抖动来回移动(例如,在呈现导演剪辑的视图与呈现观众在内容片段中所期望的路径的另一视图之间切换时)。该系统允许观众定位内容片段中的关注点以进行观看。当在内容片段中的不同关注点之间导航时,该系统减轻了观众接口遇到的困难。
图1示出了在一个或多个实施例中用于内容导航的示例框架100。框架100包括内容处理器200,内容处理器200包括一个或多个服务器设备210和一个或多个存储设备220。一个或多个存储设备220可以维护一个或多个数据库230。如本文稍后所详细描述的,一个或多个应用可以在一个或多个服务器设备210上执行/操作以方便内容导航。
一个或多个观众30可以访问一个或多个电子显示设备300。在一个实施例中,每个显示设备300被配置为与内容处理器200交换数据(例如,通过诸如WiFi或蜂窝数据连接之类的连接)。显示设备300的示例包括(但不限于)以下各项之一:电视(TV)、平板电脑、智能电话、监视器、计算机、膝上型计算机等。
在一个实施例中,一个或多个内容提供商50可以相对于内容处理器200远程定位。每个内容提供商50被配置为提供内容。在一个实施例中,每个内容提供商50被配置为通过连接(例如,无线连接、有线连接或这二者的组合)与内容处理器200交换数据。
图2详细示出了在一个或多个实施例中的示例显示设备300。显示设备300包括处理器320和存储单元330。显示设备300还包括显示屏310和一个或多个其他输入/输出(I/O)模块340(例如键盘、键区、触摸接口等)。存储设备可以是可包括各种类型的易失性或非易失性存储介质在内的存储器。例如,存储器可以包括只读存储器和随机存取存储器。
一个或多个应用可以在处理器320上执行/操作。在一个实施例中,应用包括内容播放器350和内容管理系统400。内容播放器350(例如,360度视频播放器)被配置为控制内容片段(例如,360度视频)在显示屏310上的回放。内容播放器350可被嵌入在网页中或作为独立的应用程序来操作。如本文稍后所详细描述的,内容管理系统400被配置为在显示屏310上回放内容片段期间方便观众对内容片段的视口的导航。处理器320可以是包括控制计算机系统(例如,显示设备300或服务器210)的所有操作的处理电路在内的控制器。
在一个实施例中,显示设备300包括一个或多个传感器(例如,相机、麦克风等)和/或与一个或多个传感器(例如,相机、麦克风等)耦接,用于捕捉上下文和/或环境数据。上下文和/或环境数据的示例可以包括(但不限于):内容回放期间捕捉观众30的面部反应(例如,微笑)的视觉反馈数据(例如,照片)、内容回放期间捕捉观众30的语音反应(例如,欢呼、嘘声等)的音频数据(例如,语音记录)等。在一个实施例中,可以对捕捉的面部反应进行分类(例如,使用深度学习)以确定观众30对内容片段的情绪反应。
图3详细示出了在一个或多个实施例中的示例内容处理器200。如上所述,存储设备220可以维护一个或多个数据库230(图1)。例如,存储设备220可以包括以下至少一项:(1)维护一个或多个内容片段的内容信息的数据库集合240,(2)维护一个或多个内容片段的内容消费体验数据的数据库集合250,以及(3)维护一个或多个内容片段的显著时刻数据的数据库集合260。
在一个实施例中,内容片段的内容信息包括该内容片段本身(例如,360度视频)和相应的元数据(例如,指定用于360度视频的视口的导演剪辑的元数据)。
在一个实施例中,内容片段的内容消费体验数据包括(但不限于)以下至少一项:(1)与内容片段的一个或多个视口的观众交互的历史,以及(2)基于对一个或多个观众30的调查的一般观众的一般偏好。
在一个实施例中,内容片段的显著时刻数据识别在该内容片段中出现的一个或多个显著时刻。
如上所述,一个或多个应用可以在一个或多个服务器设备210上执行/操作以方便内容导航。在一个实施例中,应用包括显著时刻检测器500,其被配置为识别内容片段中出现的一个或多个显著时刻。在一个实施例中,在内容片段可用于在显示设备300上观看之前,内容处理器200离线处理该内容片段以识别该内容片段中出现的一个或多个显著时刻。显示设备从内容处理器200接收指示所识别的一个或多个显著时刻的显著时刻数据。
显著时刻检测器500可以用神经网络或其他图像处理技术来实现。在一个实施例中,显著时刻检测器500包括以下组件中的至少一个:(1)运动检测器510(例如,光流检测器、H.264运动估计检测器等),被配置为检测具有一定程度的运动的一个或多个显著时刻的出现,(2)面部检测器520,被配置为检测一个或多个面部的出现,(3)对象检测器530,被配置为检测一个或多个对象的出现,并对检测到的每个对象进行分类(例如,猫、狗、人、汽车等),以及(4)面部情绪检测器540,被配置为检测面部情绪/表情的一个或多个变化的出现。
在一个实施例中,面部检测器520还被配置为针对在内容片段中检测到的面部执行以下至少一项:(1)识别面部,(2)基于嘴部运动或音频/视频融合来确定面部是否正在讲话,以及(3)将面部识别为属于特定组的成员。
在一个实施例中,显著时刻检测器500包括用于检测定向音频的组件。在一个实施例中,显著时刻检测器500包括用于检测和识别人类动作/活动的组件。在一个实施例中,显著时刻检测器500包括用于检测人与对象之间的交互的组件。在一个实施例中,显著时刻测器500包括用于从内容片段中提取关键镜头的组件(例如,从内容片段中提取可能最令人难忘的帧)。
在一个实施例中,显著时刻检测器500还被配置为:针对在内容片段中识别的至少一个显著时刻,确定显著时刻的相应类型以及指示显著时刻的强度的相应强度值(“强度分数”)。例如,相应类型可以包括面部反应、语音反应和/或观众交互。此外,相应类型可以包括情绪的类型。
在一个实施例中,内容消费体验数据可以包括:捕捉面部反应(例如,微笑、皱眉)的视觉反馈数据、捕捉语音反应(例如,笑声等)的音频反馈数据、和/或捕捉观众与内容片段的回放的交互的回放反馈数据(例如,观众30重放该内容片段的一部分的频率等)。面部反应、语音反应和/或观众交互可以表示特定类型的显著时刻。如本文稍后所详细描述的,可以基于在用户偏好和/或针对该特定类型的一般偏好中指定的乘数/权重来修改特定类型的显著时刻的强度分数。例如,“有趣”类型的显著时刻可以与包括笑声在内的语音反应相关联,而“严重”类型的显著时刻可以与包括皱眉在内的面部反应相关联。如果用户偏好和/或一般偏好指示对“有趣”类型的显著时刻比对“严肃”类型的显著时刻更感兴趣,则与“严肃”类型的显著时刻相比,“有趣”类型的显著时刻将具有更高的强度分数。
在一个实施例中,从内容片段中提取面部情绪/表情集合。可以对所提取的每个面部情绪/表情进行分类(例如,使用深度学习)以确定与面部情绪/表情相对应的情绪类型。每种情绪类型可以代表特定类型的显著时刻;可以基于在用户偏好和/或针对特定类型的显著时刻指定的一般偏好中指定的乘数/权重来修改这种情绪类型的强度分数。类似地,可以提取面部情绪/表情的变化。面部情绪/表情的变化也可以代表特定类型的显著时刻。
图4详细示出了在一个或多个实施例中的示例内容管理系统400。内容管理系统400包括以下至少一项:(1)显示管理器420,被配置为在显示设备300(图1)的显示屏310(图2)上放置和呈现内容片段的视口,(2)用户接口单元410,被配置为经由显示设备300的一个或多个I/O模块340(图2)来监测和检测观众与视口的交互,(3)显著时刻增强单元430,被配置为生成导向内容片段中出现的一个或多个显著时刻的一个或多个增强现实增强,(4)视口移动管理器440,被配置为控制视口在显示屏310上的移动,以及(5)导航规划器450,被配置为确定在视口中呈现内容片段中出现的哪些显著时刻,以及应当何时呈现这些显著时刻。
导航规划器450选择内容片段的一个或多个视口以显示在显示屏310上。如果需要的话,导航规划器450可以仅使用一个视口或允许一个或多个附加视口。
导航规划器450确定在任何给定时刻视口应当居中的位置。具体地,导航规划器450确定视口的推荐路径。在显示屏310上显示的视口的移动最初基于推荐路径。推荐路径指示在视口中呈现/聚焦内容片段中出现的哪些显著时刻,以及应当何时呈现/聚焦这些显著时刻。
在一个实施例中,导航规划器450基于状态空间搜索算法455来确定视口的推荐路径。可以使用任何类型的状态空间搜索算法455,例如Dijkstra及其变体、宽度优先、深度优先等。搜索算法455基于显著时刻的强度分数来决定转换到哪个显著时刻。搜索算法455选择具有最高总分数的推荐路径(即,针对路径中包括的所有显著时刻的强度分数的最高聚合)。
在另一实施例中,导航规划器450基于规则集合来确定视口的推荐路径。在又一实施例中,导航规划器450基于约束满足问题来确定视口的推荐路径。
不同的因素可以影响推荐路径的形成,例如观众30的用户偏好和/或一般观众的一般偏好。可以对用户偏好和/或一般偏好进行加权。用户偏好和/或一般偏好的示例包括(但不限于):在显著时刻之间转换时平移相机的最小/最大速度、显著时刻的期望密度、视口应当多早到达显著时刻、显著时刻过去之后相机应当停留在显著时刻的区域中多久(即,持续时间)、显著时刻应当保持在视口中心的程度、相对于直接跳到显著时刻是否更偏好将相机平移到显著时刻、在时间上向前移动时观看内容片段的偏好、闪回偏好(例如,闪回频率、闪回总数、以及闪回的最小/最大持续时间)。
在一个实施例中,可以基于在用户偏好和/或特定类型的一般偏好中指定的乘数/权重来修改/加权特定类型的显著时刻的强度分数。例如,如果青睐特定类型的显著时刻,则可以通过将强度分数乘以在用户偏好和/或特定类型的一般偏好中指定的乘数/权重来个性化/定制该特定类型的显著时刻的强度分数。
在一个实施例中,为了解决可供选择的不同显著时刻之间的冲突(如果有冲突的话),导航规划器450可以应用搜索算法455以通过基于用户偏好和/或一般偏好找到最大化路径的总分数的路径来解决冲突。
在一个实施例中,用户偏好和/或一般偏好可以体现为不能被违反的硬约束或者针对特定类型的显著时刻的强度分数的调节器(modifier)。
基于内容片段的显著时刻数据,显著时刻增强单元430生成至少一个增强现实增强。生成的每个增强与内容片段中出现的一个或多个显著时刻相对应。增强可以向观看视口的观众30通知由一个或多个相应显著时刻表示的一个或多个点位置或者一个或多个关注点。还可以使用增强向观众30呈现与一个或多个对应的显著时刻相关的概要信息。例如,如果增强与显著时刻集合相对应,则增强可以指示该集合剩余多少显著时刻供观众30观看或者观众30错过了该集合的多少显著时刻。在一个实施例中,针对每个显著时刻生成的每个增强包括交互式提示(例如,视觉线索(cue)、微缩地图等),该交互式提示指示由显著时刻表示的点位置或关注点的位置和/或指向其的方向。
当在视口中呈现增强时,观众30可以与增强交互。观众30可以使用显示设备300的一个或多个I/O模块340与增强交互(例如,使用显示设备300的触摸接口或另一个I/O模块340来选择或轻击增强)。响应于用户接口单元410检测到观众与增强的交互,导航规划器450指导视口移动管理器440更新视口以聚焦由增强指定的点位置或关注点。
可以通过以下方式来更新视口:生成新视口或移动视口,使得点位置或关注点位于观众30的视图中。
在一个实施例中,可以同时显示多个视口以提供分屏观看体验。在某些应用场景中同时显示多个视口可能是有益的,例如观看辩论(例如,每个视口是特定辩手的特写镜头)、观看多人游戏等。
视口移动管理器440确定如何移动视口以针对观众30呈现并维持内容片段中出现的显著时刻。具体地,视口移动管理器440响应于从导航规划器450和/或用户接口单元410接收指令/命令来更新视口。例如,视口移动管理器440可以通过将视图从内容片段中的当前点位置平移到另一点位置来更新视口。在不同点位置之间平移视图的速度可以是快速或慢速。作为另一示例,对于内容片段中出现的显著时刻,视口移动管理器440可以通过剪辑/直接跳转到由显著时刻表示的关注点来更新视口。作为又一示例,视口移动管理器440可以通过放大以缩小视图(即,聚焦在内容片段中的小的子空间/区域上)或缩小以扩展视图来更新视口。
在一个实施例中,响应于检测到用户与针对显著时刻的增强的交互,向显著时刻和内容片段中出现的与显著时刻具有相同类型的一个或多个其他显著时刻指派的权重被加强,从而增加了这种类型的显著时刻未来呈现/聚焦在视口中的可能性。
在一个实施例中,视口移动管理器440基于一个或多个因素来更新视口。这些因素包括(但不限于)以下至少一项:(1)观众30的用户偏好和/或一般观众的一般偏好,(2)内容片段中出现的显著时刻之间经过的时间量,(3)内容片段中出现的至少一个显著时刻的持续时间,(4)内容片段中出现的至少一个显著时刻的强度分数,(5)内容片段中出现的至少一个显著时刻的类型,(6)观众30与视口的一个或多个当前观众交互,(7)内容片段的内容消费体验数据,(8)来自导航规划器450和/或用户接口单元410的一个或多个指令/命令,(9)显示设备300的配置模式(例如,显示设备300是否在活动模式、睡眠模式等中操作),(10)观众30的观看历史(例如,观众30之前观看的内容片段以及检测到的与内容片段的观众交互),以及(11)观众30和/或显示设备300的上下文和/或环境数据。
在一个实施例中,导航规划器450青睐具有更大显著时刻密度的路径(即,内容片段中出现的显著时刻之间经过的时间量是重要因素)。可以通过修改(例如,通过乘数、相加或与不同的数学函数组合)这种路径中包括的显著时刻的强度分数来表达该偏好。
在一个实施例中,内容片段中出现的至少一个显著时刻的持续时间是重要因素。可以使用数学函数来修改显著时刻的强度分数,与在用户偏好和/或一般偏好中指定的偏好最小/最大持续时间相比较,该数学函数考虑显著时刻的实际持续时间。例如,该数学函数可以涉及将显著时刻的强度分数除以惩罚项,该惩罚项与偏好最小/最大持续时间与显著时刻的实际持续时间之间的差的大小相对应。惩罚项可以是线性加权、对数加权、平方、平方根等。可以使用其他类型的数学函数。
内容片段中可能出现的示例类型的显著时刻是场景中存在特定对象。例如,视图中的跑车可能是显著时刻。如果跑车清晰可见并且看起来速度很大,则该显著时刻的强度分数可以更大。强度分数可以乘以用户偏好和/或一般偏好中所包括的针对跑车的乘数,从而影响搜索算法455在确定推荐路径时选择转换到该显著时刻的可能性。当将强度分数与相同路径中包括的其他显著时刻的其他强度分数相加时,该显著时刻的强度分数对包括该显著时刻在内的路径的总分数做出了贡献。
内容管理系统400方便针对该内容片段的视口的定制/个性化。内容管理系统400允许基于观众与视口的交互来动态地调整视口的视图/聚焦。
在一个实施例中,内容管理系统400提供针对年龄较大的观众30(例如,老年人/公民)来定制的交互式视口。视口的移动被个性化以考虑观众30的年龄。例如,视口将其视图从当前点位置平移到另一个点位置的速度可能较慢,以最小化或减少观众30可能经历的任何晕动症。作为另一示例,视口可以呈现/聚焦于老年人通常关注的关注点(例如,显示美丽风景的场景而不是动作场景)。交互式视口可以用于老年人通常倾向于使用的内容,例如与旅行相关的内容。一些人可能在VR护目镜或头戴式设备方面存在问题,因为这种VR设备被认为太重或不方便,和/或可能导致迷失方向。已经发现,老年人和平衡或认知不好的人可以从交互式视口解决方案中受益,因为他们能够在不佩戴VR护目镜或头戴式设备的情况下享受丰富的内容,同时保持切换视口的能力。
图5A示出了用于观看内容片段的示例传统视口700。视口700提供未增强的体验,其中,视口700中不包括增强现实增强。例如,如果该内容片段包括360度视频,则视口700提供呈现导演剪辑的视图。
图5B示出了在一个或多个实施例中具有示出指向内容片段中出现的一个或多个显著时刻的方向的增强的示例视口710。视口710提供增强体验,其中,视口710包括一个或多个增强现实增强。具体地,如图5B所示,视口710呈现增强711,增强711包括与该内容片段中出现的一个或多个显著时刻相对应的视觉线索。在一个实施例中,视觉线索包括方向标记,其指示用于移动视口以导航到出现一个或多个显著时刻的点位置的建议方向。建议方向相对于视口710的当前视图。在另一实施例中,视觉线索包括放大镜,其指示视口710应放大以聚焦于一个或多个显著时刻的建议点位置。建议点位置相对于当前视图。
响应于用户接口单元410检测到观众与增强711的交互,导航规划器450向视口移动管理器440发送指令/命令以更新显示屏310上的视口。通过将视口的推荐路径调整为经更新的推荐路径来更新视口,经更新的推荐路径包括由增强指定的点位置或关注点。经更新的视口聚焦于由增强所指定的点位置或关注点。
图5C示出了在一个或多个实施例中具有示出在内容片段中出现的一个或多个显著时刻的位置的增强的另一示例视口720。视口720提供增强体验,其中,视口720中包括一个或多个增强现实增强。具体地,如图5C所示,视口720呈现增强721,增强721包括经缩放的微缩地图,该经缩放的微缩地图包含一个或多个指示符(例如,如点、图像等的图标)。每个指示符与内容片段中出现的显著时刻相对应。基于相应显著时刻相对于视口720的当前视图的点位置,将每个指示符定位在地图上。可以基于相应显著时刻的类型或强度分数之一对每个指示符进行颜色编码。
响应于用户接口单元410检测到观众与指示符(该指示符与增强721中包括的显著时刻相对应)的交互,导航规划器450向视口移动管理器440发送指令/命令以更新显示屏幕310上的视口。基于将视口的推荐路径调整为包括由相应显著时刻表示的点位置或关注点在内的经更新的推荐路径,对视口进行了更新。经更新的视口聚焦于由相应显著时刻表示的点位置或关注点。
图6是示出了在一个或多个实施例中在内容片段中出现的不同类型的显著时刻701的示例时空图950。图950的每个节点表示内容片段中出现的显著时刻。图950指示在内容片段回放期间每个显著时刻出现的位置(即,点位置/定位)和显著时刻何时出现(即,时间)。
如图6所示,该内容片段包括不同类型的显著时刻701,诸如类型A的一个或多个显著时刻701(例如,显著时刻A1、A2和A3)、类型B的一个或多个显著时刻701(例如,显著时刻B1、B2和B3)、类型C的一个或多个显著时刻701(例如,显著时刻C1、C2、C3和C4)以及类型D的一个或多个显著时刻(例如,显著时刻D1、D2、D3和D4)。
如图6所示,显著时刻701由不同形状和不同大小的节点表示。表示显著时刻701的节点的大小和形状指示显著时刻701在内容片段中出现的位置和时间(即,显著时刻701在内容片段中占据的时间/持续时间和空间)。
图7示出了在一个或多个实施例中确定用于内容片段的视口的推荐路径的过程。如图7所示,第一时空图830包括表示内容片段中识别出的多个显著时刻的多个节点,例如显著时刻S1、S2、S3、S4和S5
导航规划器450通过确定要在视口中呈现的内容片段中出现的哪些显著时刻来确定视口的推荐路径。在一个实施例中,导航规划器450基于状态空间搜索算法455来确定要呈现哪些显著时刻。图7中示出了第二时空图840。第二时空图840是将第一时空图830转换为具有边841的图结构的示例表示。每个边841表示状态空间搜索算法可能考虑在显著时刻之间进行的潜在/可能的转换。如图7所示,每个边841在时间上指向前方。可以使用各种方法将第二时空图840中的每个显著时刻连接到另一显著时刻。例如,显著时刻可以连接到在时间和/或空间上最接近它的另一显著时刻。
图7中示出了第三时空图850。第三时空图850示出了通过应用状态空间搜索算法而产生的推荐路径。如图7所示,推荐路径851包括显著时刻S1、S3、S4和S5。由于推荐路径851中不包括显著时刻S2,因此在视口中绕过显著时刻S2。基于推荐路径851来控制在内容片段的回放期间视口的移动。如果观众未与视口进行交互,则在内容片段的回放期间观众30的视图中,将按照首先S1,然后S3,再后S4,最后S5的顺序观看显著时刻。
图8是示出了在一个或多个实施例中用于内容片段的视口的示例推荐路径911的示例时空图910。如图8所示,如果观众未与视口进行交互,则视口的推荐路径911将使观众30在内容片段的回放期间以如下顺序观看显著时刻701:D1、B1、D2、B2、B3和D4。推荐路径911青睐类型B的显著时刻,因为它包括内容片段中出现的所有类型B的显著时刻(即,显著时刻B1、B2和B3)。
图9是示出了在一个或多个实施例中用于内容片段的视口的另一示例推荐路径921的示例时空图920。如图9所示,如果观众未与视口进行交互,则视口的推荐路径921将使观众30在内容片段的回放期间以如下顺序观看显著时刻701:A1、D2、A2、C2、C3、A3和D4。推荐路径921青睐类型A的显著时刻,因为它包括内容片段中出现的所有类型A的显著时刻(即,显著时刻A1、A2和A3)。
如图9所示,显著时刻C4在空间和时间上都出现在显著时刻A3附近。在一个实施例中,由于显著时刻C4接近显著时刻A3,当出现显著时刻A3时,视口同时在观众30的视图中呈现显著时刻A3和C4这二者。在另一实施例中,如果可以以比类型C显著时刻更青睐/偏好类型A显著时刻的方式来形成路径921,则可以以仅呈现显著时刻A3的方式来呈现视口。
如果显著时刻A3由多个相机捕捉,则确定用于呈现显著时刻A3的偏好相机位置。为了确定偏好相机位置,来自附加相机视图的显著时刻用其自身节点表示在时空图(例如,图7中的时空图830)中。然后将时空图转换成图结构,该图结构(例如,图7中的时空图840)具有表示显著时刻之间的潜在/可能转换的边。将搜索算法455应用于图结构,以产生包括从偏好相机位置捕捉的显著时刻A3在内的推荐路径。
图10是示出了在一个或多个实施例中内容回放期间的观众干预(即,用户干预)的示例时空图940。用于内容片段的视口的移动最初基于初始推荐路径921。如果检测到与视口的观众交互(例如,观众30与视口中呈现的增强进行交互),则基于该观众交互对视口的移动进行调整。
例如,如果观众交互包括请求观看类型B的显著时刻701,则视口的移动从初始推荐路径921转移到青睐类型B的显著时刻701的新推荐路径941(即,包括所有剩余的类型B的显著时刻,例如显著时刻B2和B3)。具体地,视口移动管理器440平移或直接跳转到类型B的剩余显著时刻。关于平移还是直接跳转到类型B的剩余显著时刻的决定可以基于用户偏好和/或一般偏好,例如(但不限于)平移相机的时间量、用户对直接跳转的容忍度、平移相机的最大速度等。此外,导航规划器450应用搜索算法455以形成青睐类型B的显著时刻701的新推荐路径941。新推荐路径941从内容片段中出现观众干预的时间点开始,直到内容片段的结尾结束为止。新推荐路径941可以与初始推荐路径的剩余部分重叠或不重叠。通过将初始推荐路径921调整为新推荐路径941来更新视口。经更新的视口聚焦于所有剩余的类型B的显著时刻701。
图11是在一个或多个实施例中用于检测显著时刻的示例过程800的流程图。在处理框801中,接收内容片段。在处理框802中,识别内容片段中出现的一个或多个显著时刻。在处理框803中,生成内容片段的显著时刻数据。显著时刻数据指示所识别的一个或多个显著时刻。
在一个实施例中,处理框801~803可以由显著时刻检测器500来执行。
图12是在一个或多个实施例中用于提供交互式视口的示例过程900的流程图。在处理框901中,接收内容片段和内容片段的显著时刻数据。在处理框902中,基于显著时刻数据,确定用于该内容片段的视口的推荐路径。在处理框903中,显示视口(例如,在显示屏上),其中,在内容片段的回放期间,视口的移动最初基于推荐路径。在处理框904中,在回放期间,在视口中呈现针对内容片段中出现但不被包括在推荐路径中的一个或多个显著时刻的一个或多个增强现实增强。在处理框905中,通过检测观众与显著时刻的增强现实增强的交互来接收用于观看内容片段中出现的显著时刻的观众请求。
在处理框906~907中,视口的推荐路径被调整为视口的经更新的推荐路径,其中,经更新的推荐路径包括显著时刻。具体地,在处理框906中,基于观众交互来确定视口的经更新的推荐路径。在处理框907中,更新所显示的视口以将显著时刻放在视图中,其中,在回放期间,经更新的视口的移动基于经更新的推荐路径。
在一个实施例中,处理框901~907可以由内容管理系统400来执行。
图13是示出了包括用于实现所公开实施例的计算机系统600在内的信息处理系统的高级框图。计算机系统600可被包含在显示设备300或服务器设备210中。计算机系统600包括一个或多个处理器601,并且还可以包括电子显示设备602(用于显示视频、图形、文本和其他数据)、主存储器603(例如,随机存取存储器(RAM))、存储设备604(例如,硬盘驱动器)、可移除存储设备605(例如,可移除存储驱动器、可移除存储器模块、磁带驱动器、光盘驱动器、其中存储有计算机软件和/或数据的计算机可读介质)、观众接口设备606(例如,键盘、触摸屏、键区、指示设备)和通信接口607(例如,调制解调器、网络接口(诸如以太网卡)、通信端口或PCMCTA插槽和卡)。通信接口607允许在计算机系统和外部设备之间传输软件和数据。系统600还包括通信基础架构608(例如,通信总线、交叉条或网络),上述设备/模块601到607连接到该通信基础架构608。
经由通信接口607传输的信息可以是信号(例如电子、电磁、光学或能够由通信接口607经由承载信号的通信链路接收的其他信号)的形式,并且可以使用电线或电缆、光纤、电话线、蜂窝电话链路、射频(RF)链路和/或其他通信信道来实现。本文中表示框图和/或流程图的计算机程序指令可以被加载到计算机、可编程数据处理装置或处理设备上,使得在计算机、可编程数据处理装置或处理设备上执行的一系列操作生成计算机实现的过程。在一个实施例中,用于过程800(图11)的处理指令和用于过程900(图12)的处理指令可以作为程序指令存储在存储器603、存储设备604和可移除存储设备605上以供处理器601执行。
参考方法、装置(系统)和计算机程序产品的流程图和/或框图来描述实施例。这种图示/图的每个框或其组合可以由计算机程序指令实现。当提供给处理器时,计算机程序指令产生机器,使得经由处理器执行的指令创建用于实现流程图和/或框图中指定的功能/操作的装置。流程图/框图中的每个框可以表示硬件和/或软件模块或逻辑。在备选实现中,框中注明的功能可能以附图中所示顺序之外的顺序出现、同时出现等。
术语“计算机程序介质”、“计算机可用介质”、“计算机可读介质”和“计算机程序产品”通常用于指诸如主存储器、辅存储器、可移除存储驱动器、硬盘驱动器上安装的硬盘、和信号。这些计算机程序产品是用于向计算机系统提供软件的装置。计算机可读介质允许计算机系统从计算机可读介质读取数据、指令、消息或消息分组以及其他计算机可读信息。计算机可读介质例如可以包括非易失性存储器,如软盘、ROM、闪存、盘驱动存储器、CD-ROM以及其他永久存储器。它在例如在计算机系统之间传输如数据和计算机指令之类的信息方面是有用的。计算机程序指令可以存储在计算机可读介质中,该计算机可读介质可以指导计算机、其他可编程数据处理装置或其他设备按照具体的方式作用,使得在计算机可读介质中存储的指令产生制品,该制品包括实现在流程图和/或框图的一个或多个框中指定的功能/动作的指令。
本领域技术人员应当认识到,实施例的各方面可以体现为系统、方法、或计算机程序产品。因此,实施例的各方面可以采取全硬件实施例、全软件实施例(包括固件、驻留软件、微代码等)或组合了软硬件方面的实施例的形式,它们在在本文中可以统称为“电路”、“模块”或“系统”。此外,实施例的各方面可以采用在一个或多个计算机可读介质中体现的计算机程序产品的形式,一个或多个计算机可读介质具有体现于其上的计算机可读程序代码。
可以使用一个或多个计算机可读介质的任意组合。计算机可读介质可以是计算机可读存储介质。计算机可读存储介质可以是例如(但不限于)电、磁、光、电磁、红外、或半导体系统、装置或设备、或者前述各项的任意合适组合。计算机可读存储介质的更具体的示例(非穷尽性列表)将包括以下各项:具有一个或多个电线的电连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或闪存)、光纤、便携式高密度盘只读存储器(CD-ROM)、光存储设备、磁存储设备、或前述各项的任意合适组合。在本文档的上下文中,计算机可读存储介质可以是任何有形介质,其可以包含或存储由指令执行系统、装置或设备使用或与指令执行系统、装置或设备相关的程序。
用于执行一个或多个实施例的方面的操作的计算机程序代码可以用一种或多种编程语言的任何组合来编写,包括面向对象的编程语言(例如Java、Smalltalk、C++等)以及传统的程序化编程语言(例如“C”编程语言或类似编程语言)。程序代码可以完全在用户的计算机上执行,部分在用户的计算机上执行,作为独立软件包来执行,部分在用户计算机上且部分在远程计算机上执行,或完全在远程计算机或服务器上执行。在后一种场景下,远程计算机可以通过任何类型的网络(包括局域网(LAN)或广域网(WAN))连接到用户的计算机,或者可以连接外部计算机(例如,通过使用互联网服务提供商的互联网)。
上面参考方法、装置(系统)和计算机程序产品的流程图和/或框图来描述一个或多个实施例的各方面。应当理解,流程图示例和/或框图中的每一个框、以及流程图示例和/或框图中的多个框的组合可以通过计算机程序指令来实现。这些计算机程序指令可以提供给专用计算机或用来生产机器的其他可编程数据处理装置,使得该指令(经由计算机的处理器或其他可编程数据处理装置执行)创建用来实现流程图和/或框图中指定的功能/动作的装置。
这些计算机程序指令也可以存储在可以指导计算机、其他可编程数据处理装置或其他设备以特定方式运行的计算机可读介质中,使得计算机可读介质中存储的指令产生包括实现流程图和/或框图一个或多个方框中指定的功能/动作的指令的制品。
计算机程序指令还可以被加载到计算机、其他可编程数据处理装置或其他设备上,以使得一系列操作步骤在计算机、其他可编程装置或其他设备上执行,以产生计算机实现的过程,使得在计算机或其他可编程装置上执行的指令实现流程图和/或框图的一个或多个框中指定的功能/动作。
附图中的各流程图和框图所示的是根据各实施例的各系统、方法和计算机程序产品的可能实现的架构、功能和操作。在这方面,流程图或框图中的每个框可以表示模块、段或指令的一部分,其包括用于实现指定的逻辑功能的一个或多个可执行指令。在一些备选实现中,框中记录的功能可能以附图中所示顺序之外的顺序出现。例如,连续示出的两个框实际上可能是基本同时执行的,或者所述框在某些时候会以相反的顺序执行,这取决于所涉及到的功能。还将注意到,框图和/或流程图的每个框、以及框图和/或流程图中框的组合可以由基于专用硬件的系统来实现,该系统执行指定的功能或动作,或执行专用硬件和计算机指令的组合。
除非明确地阐述,否则权利要求中对单数形式的元素的引用不意图表示“一个且仅一个”,而是“一个或多个”。与上述示例性实施例的元素等同的、本领域的普通技术人员已知或以后将知道的所有结构和功能等价物预期被所附权利要求所涵盖。除非使用短语“用于……的装置”或“用于……的步骤”来明确陈述元素,否则不应按照35U.S.C.112第六款的规定来解释本文权利要求中的元素。
本文中所使用的术语仅仅是为了描述具体实施例的目的,而不是意在限制本公开。如本文中使用的,单数形式“一”,“一个”和“所述”意在还包括复数形式,除非上下文明确地给出相反的指示。还将理解,术语“包括”和/或“包含”当在本说明书中使用时,规定了存在所声明的特征、整数、步骤、操作、要素和/或组件,但是并没有排除存在或添加一个或多个其他特征、整数、步骤、操作、要素、组件和/或其组合。
所附权利要求书中的所有手段或步骤加功能元素的对应结构、材料、动作和等同物旨在包括与具体要求保护的其它要求保护的元素相组合地执行该功能的任何结构、材料或动作。已经为了说明和描述的目的而呈现了实施例的描述,但并不旨在以所公开的形式穷举或受限于实施例。在不脱离本公开的范围和精神的情况下,许多修改和变化对于本领域普通技术人员是明确的。
尽管已经参考其某些版本描述了实施例;然而,其他版本是可能的。因此,所附权利要求的精神和范围不应受限于本文包含的偏好版本的描述。
可以理解,根据本公开的实施例的方法和装置可以通过硬件、软件和/或其组合来实现。软件可以存储在非易失性存储设备(例如,可擦除或可重写ROM)、存储器(例如,RAM、存储器芯片、存储器设备或存储器集成电路(IC))或者光学或磁性可记录的非暂时性机器可读(例如,计算机可读)、存储介质(例如,光盘(CD)、数字多功能盘(DVD)、磁盘、磁带等)。根据本公开的实施例的方法和装置可以由计算机或包括控制器和存储器在内的移动终端来实现,存储器可以是适合于存储程序的非暂时性机器可读(例如,计算机可读)存储介质的示例,所述程序包括用于实现本公开的各种实施例的指令。
本公开可以包括程序以及存储该程序的非暂时性机器可读(例如,计算机可读)存储介质,该程序包括用于实现由所附权利要求限定的装置和方法的代码。程序可以经由通过有线和/或无线连接发送(例如通信信号)的任何介质进行电子传输,并且本公开可以包括它们的等同物。
根据本公开的实施例的装置可以从程序提供设备接收程序,该程序提供设备经由有线或无线连接到该装置并存储该程序。程序提供设备可以包括用于存储指令的存储器,该指令指示执行已经安装的内容保护方法、内容保护方法所需的信息等,程序提供设备还包括用于与图形处理设备执行有线或无线通信的通信单元、以及控制器,控制器用于基于图形处理设备的请求向发送/接收设备发送相关程序或向发送/接收设备自动发送相关程序。
虽然参考本公开各实施例示出并描述了本公开,但是本领域技术人员将理解:在不脱离由所附权利要求及其等同物限定的本公开的精神和范围的前提下,可以进行形式和细节上的各种改变。

Claims (15)

1.一种用于提供内容导航的方法,包括:
接收内容片段和所述内容片段的显著数据;
基于所述显著数据来确定用于所述内容片段的视口的第一路径,其中所述视口的第一路径包括在所述内容片段的回放期间在不同时间处在所述内容片段中出现的不同显著事件;
在显示设备上显示所述视口,其中,在所述回放期间所述视口的移动基于所述视口的第一路径和所述显著数据;
在所述内容片段中检测未包括在所述视口的第一路径中的附加显著事件;以及
在所述回放期间在所述视口中提供针对所述附加显著事件的指示。
2.根据权利要求1所述的方法,其中,所述显著数据识别所述内容片段中的每个显著事件,并且针对所述内容片段中的每个显著事件,所述显著数据指示所述内容片段中的所述显著事件的相应点位置、在所述回放期间所述显著事件出现的相应时间、所述显著事件的相应类型以及所述显著事件的相应强度值。
3.根据权利要求1所述的方法,其中,所述视口的第一路径控制所述视口的移动,以在所述回放期间在所述不同时间处将所述不同显著事件放入所述视口的视图中。
4.根据权利要求3所述的方法,还包括:
基于以下至少一项来检测所述内容片段中的一个或多个显著事件:面部识别、面部情绪识别、对象识别、运动识别或者所述内容片段的元数据,
其中所述显著数据指示检测到的每个显著事件。
5.根据权利要求1所述的方法,还包括:
检测与所述指示的用户交互,其中所述指示包括交互式提示;以及
响应于检测到所述用户交互:
基于所述用户交互将所述视口的第一路径调整为所述视口的第二路径,其中,所述视口的第二路径包括所述附加显著事件;以及
在所述显示设备上提供用于所述内容片段的经更新的视口,其中,在所述回放期间经更新的视口的移动基于所述视口的第二路径和所述显著数据,并且所述视口的第二路径控制经更新的视口的移动,以将所述附加显著事件放入经更新的视口的视图中。
6.根据权利要求5所述的方法,还包括:
改变向所述附加显著事件以及所述内容片段中与所述附加显著事件具有相同类型的一个或多个其他显著事件指派的权重。
7.根据权利要求5所述的方法,其中,所述视口的第二路径包括与所述附加显著事件具有相同类型的一个或多个其他显著事件。
8.一种装置,包括:
至少一个处理器;以及
存储指令的非暂时性处理器可读存储设备,所述指令在由所述至少一个处理器执行时使所述至少一个处理器执行包括以下各项在内的操作:
接收内容片段和所述内容片段的显著数据;
基于所述显著数据来确定用于所述内容片段的视口的第一路径,其中所述视口的第一路径包括在所述内容片段的回放期间在不同时间处在所述内容片段中出现的不同显著事件;
在显示设备上显示所述视口,其中,在所述回放期间所述视口的移动基于所述视口的第一路径和所述显著数据;
在所述内容片段中检测未包括在所述视口的第一路径中的附加显著事件;以及
在所述回放期间在所述视口中提供针对所述附加显著事件的指示。
9.根据权利要求8所述的装置,其中,所述显著数据识别所述内容片段中的每个显著事件,并且针对所述内容片段中的每个显著事件,所述显著数据指示所述内容片段中的所述显著事件的相应点位置、在所述回放期间所述显著事件出现的相应时间、所述显著事件的相应类型以及所述显著事件的相应强度值。
10.根据权利要求8所述的装置,其中,所述视口的第一路径控制所述视口的移动,以在所述回放期间在所述不同时间处将所述不同显著事件放入所述视口的视图中。
11.根据权利要求10所述的装置,其中,所述操作还包括:
基于以下至少一项来检测所述内容片段中的一个或多个显著事件:面部识别、面部情绪识别、对象识别、运动识别或者所述内容片段的元数据,
其中所述显著数据指示检测到的每个显著事件。
12.根据权利要求8所述的装置,所述操作还包括:
检测与所述指示的用户交互,其中所述指示包括交互式提示;以及
响应于检测到所述用户交互:
基于所述用户交互将所述视口的第一路径调整为所述视口的第二路径,其中,所述视口的第二路径包括所述附加显著事件;以及
在所述显示设备上提供用于所述内容片段的经更新的视口,其中,在所述回放期间经更新的视口的移动基于所述视口的第二路径和所述显著数据,并且所述视口的第二路径控制经更新的视口的移动,以将所述附加显著事件放入经更新的视口的视图中。
13.根据权利要求12所述的装置,所述操作还包括:
改变向所述附加显著事件以及所述内容片段中与所述附加显著事件具有相同类型的一个或多个其他显著事件指派的权重。
14.根据权利要求12所述的装置,其中,所述视口的第二路径包括与所述附加显著事件具有相同类型的一个或多个其他显著事件。
15.一种包括指令在内的非暂时性计算机可读存储介质,用于执行包括以下各项在内的方法:
接收内容片段和所述内容片段的显著数据;
基于所述显著数据来确定用于所述内容片段的视口的第一路径,其中所述视口的第一路径包括在所述内容片段的回放期间在不同时间处在所述内容片段中出现的不同显著事件;
在显示设备上显示所述视口,其中,在所述回放期间所述视口的移动基于所述视口的第一路径和所述显著数据;
在所述内容片段中检测未包括在所述视口的第一路径中的附加显著事件;以及
在所述回放期间在所述视口中提供针对所述附加显著事件的指示。
CN201780029321.6A 2016-05-12 2017-05-12 用于提供内容导航的方法和装置 Active CN109074404B (zh)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201662335458P 2016-05-12 2016-05-12
US62/335,458 2016-05-12
US15/435,186 US10841557B2 (en) 2016-05-12 2017-02-16 Content navigation
US15/435,186 2017-02-16
PCT/KR2017/004955 WO2017196131A1 (en) 2016-05-12 2017-05-12 Method and apparatus for providing content navigation

Publications (2)

Publication Number Publication Date
CN109074404A CN109074404A (zh) 2018-12-21
CN109074404B true CN109074404B (zh) 2022-06-03

Family

ID=60267975

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201780029321.6A Active CN109074404B (zh) 2016-05-12 2017-05-12 用于提供内容导航的方法和装置

Country Status (4)

Country Link
US (1) US10841557B2 (zh)
EP (1) EP3443489B1 (zh)
CN (1) CN109074404B (zh)
WO (1) WO2017196131A1 (zh)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107888987B (zh) * 2016-09-29 2019-12-06 华为技术有限公司 一种全景视频播放方法及装置
US11636572B2 (en) * 2016-12-29 2023-04-25 Nokia Technologies Oy Method and apparatus for determining and varying the panning speed of an image based on saliency
EP3496099B1 (en) * 2017-12-08 2024-06-12 Nokia Technologies Oy Method and apparatus for defining a storyline based on path probabilities
US11451881B2 (en) * 2017-12-15 2022-09-20 Interdigital Madison Patent Holdings, Sas Method for using viewing paths in navigation of 360 degree videos
EP3741108A4 (en) * 2018-01-17 2021-10-13 Nokia Technologies Oy APPARATUS, PROCESS AND COMPUTER PROGRAM FOR OMNIDIRECTIONAL VIDEO
US10721510B2 (en) 2018-05-17 2020-07-21 At&T Intellectual Property I, L.P. Directing user focus in 360 video consumption
US10482653B1 (en) 2018-05-22 2019-11-19 At&T Intellectual Property I, L.P. System for active-focus prediction in 360 video
US10827225B2 (en) 2018-06-01 2020-11-03 AT&T Intellectual Propety I, L.P. Navigation for 360-degree video streaming
US10699154B2 (en) 2018-08-08 2020-06-30 At&T Intellectual Property I, L.P. Optimizing 360-degree video streaming with video content analysis
EP3712747A1 (en) * 2019-03-19 2020-09-23 Nokia Technologies Oy Indicator modes
JP2022541908A (ja) * 2019-07-22 2022-09-28 インターデジタル ヴイシー ホールディングス, インコーポレイテッド ボリュメトリックビデオコンテンツを配信するための方法および装置

Family Cites Families (33)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6999083B2 (en) * 2001-08-22 2006-02-14 Microsoft Corporation System and method to provide a spectator experience for networked gaming
US8739060B2 (en) 2003-09-29 2014-05-27 Eqapez Foundation, L.L.C. Method and system for displaying multiple aspect ratios of a viewport
GB2422739B (en) * 2005-01-31 2010-07-14 Hewlett Packard Development Co Image processing method and apparatus
US8224816B2 (en) * 2006-12-15 2012-07-17 O'malley Matthew System and method for segmenting information
WO2010052558A2 (en) 2008-11-05 2010-05-14 Easywalk Capital S.A. System and method for the precise integration of virtual objects to interactive panoramic walk-through applications
US9092437B2 (en) 2008-12-31 2015-07-28 Microsoft Technology Licensing, Llc Experience streams for rich interactive narratives
US9582506B2 (en) 2008-12-31 2017-02-28 Microsoft Technology Licensing, Llc Conversion of declarative statements into a rich interactive narrative
CN101923462A (zh) * 2009-06-10 2010-12-22 成都如临其境创意科技有限公司 一种基于FlashVR的三维微型场景网络发布引擎
US8447136B2 (en) 2010-01-12 2013-05-21 Microsoft Corporation Viewing media in the context of street-level images
US20120194420A1 (en) 2010-02-28 2012-08-02 Osterhout Group, Inc. Ar glasses with event triggered user action control of ar eyepiece facility
US8964298B2 (en) 2010-02-28 2015-02-24 Microsoft Corporation Video display modification based on sensor input for a see-through near-to-eye display
CN102044089A (zh) * 2010-09-20 2011-05-04 董福田 一种三维模型的自适应化简、渐进传输和快速绘制的方法
US8797315B1 (en) 2010-09-29 2014-08-05 Google Inc. Segmented editor for tours of a geographic information system, and applications thereof
EP2643820B1 (en) 2010-11-24 2018-01-24 Google LLC Rendering and navigating photographic panoramas with depth information in a geographic information system
US9288511B2 (en) 2011-02-18 2016-03-15 Futurewei Technologies, Inc. Methods and apparatus for media navigation
WO2012153290A1 (en) 2011-05-10 2012-11-15 Nds Limited Adaptive presentation of content
WO2013016707A1 (en) 2011-07-28 2013-01-31 Future Us, Inc. Interactive digital content applications
US20130222371A1 (en) 2011-08-26 2013-08-29 Reincloud Corporation Enhancing a sensory perception in a field of view of a real-time source within a display screen through augmented reality
KR20130056529A (ko) * 2011-11-22 2013-05-30 삼성전자주식회사 휴대용 단말기에서 증강현실 서비스를 제공하기 위한 장치 및 방법
US20130321461A1 (en) 2012-05-29 2013-12-05 Google Inc. Method and System for Navigation to Interior View Imagery from Street Level Imagery
US20170270570A1 (en) * 2012-11-30 2017-09-21 Google Inc. Generating offerings for a geographic location using referrer information
CN103077552B (zh) * 2012-12-27 2016-01-13 浙江大学 一种基于多视点视频的三维展示方法
KR20140092211A (ko) 2013-01-15 2014-07-23 삼성전자주식회사 미디어 컨텐츠 재생 중에 가상 카메라 기능을 수행하는 방법 및 장치
CN104252498B (zh) * 2013-06-28 2019-05-03 Sap欧洲公司 上下文感知推荐
CN103700127A (zh) * 2013-09-02 2014-04-02 西安工程大学 基于虚拟现实技术的古遗址虚拟场景快速生成方法
US9686581B2 (en) 2013-11-07 2017-06-20 Cisco Technology, Inc. Second-screen TV bridge
US9760768B2 (en) * 2014-03-04 2017-09-12 Gopro, Inc. Generation of video from spherical content using edit maps
WO2015168167A1 (en) 2014-04-28 2015-11-05 Invodo, Inc. System and method of three-dimensional virtual commerce environments
US9569498B2 (en) * 2014-06-27 2017-02-14 Google Inc. Using image features to extract viewports from images
US9659218B1 (en) * 2015-04-29 2017-05-23 Google Inc. Predicting video start times for maximizing user engagement
US10339629B2 (en) * 2015-10-09 2019-07-02 Samsung Electronics Co., Ltd. Method for providing indication in multi-dimensional media in electronic device
US20170316806A1 (en) * 2016-05-02 2017-11-02 Facebook, Inc. Systems and methods for presenting content
CN106293078A (zh) * 2016-08-02 2017-01-04 福建数博讯信息科技有限公司 基于摄像头的虚拟现实交互方法和装置

Also Published As

Publication number Publication date
EP3443489B1 (en) 2022-01-26
EP3443489A4 (en) 2019-04-10
US10841557B2 (en) 2020-11-17
US20170332064A1 (en) 2017-11-16
WO2017196131A1 (en) 2017-11-16
CN109074404A (zh) 2018-12-21
EP3443489A1 (en) 2019-02-20

Similar Documents

Publication Publication Date Title
CN109074404B (zh) 用于提供内容导航的方法和装置
AU2019216671B2 (en) Method and apparatus for playing video content from any location and any time
US10084961B2 (en) Automatic generation of video from spherical content using audio/visual analysis
US10971188B2 (en) Apparatus and method for editing content
US20200135238A1 (en) Automatic generation of video and directional audio from spherical content
JP6360619B2 (ja) 再生制御方法、再生制御装置、コンピュータプログラム及びコンピュータ読み取り可能な記憶媒体
US10545626B2 (en) Presenter/viewer role swapping during ZUI performance with video background
US20230412544A1 (en) Techniques for Optimizing the Display of Videos
US10115431B2 (en) Image processing device and image processing method
JP7279108B2 (ja) ビデオ処理方法及び装置、記憶媒体
WO2018095252A1 (zh) 视频录制方法及装置
JPWO2017169369A1 (ja) 情報処理装置、情報処理方法、プログラム
US9325776B2 (en) Mixed media communication
CN106954093A (zh) 全景视频处理方法、装置及系统
US10474743B2 (en) Method for presenting notifications when annotations are received from a remote device
CN108519821B (zh) 设备控制方法及装置
JP2017084161A (ja) 画像処理装置、表示装置及びその制御方法
WO2023031890A1 (en) Context based adaptable video cropping
CN114125534A (zh) 视频播放方法、装置、电子设备、存储介质及程序产品
CN114125540A (zh) 视频播放方法、装置、电子设备、存储介质及程序产品
CN113891156A (zh) 视频播放方法、装置、电子设备、存储介质及程序产品
CN113891157A (zh) 视频播放方法、装置、电子设备、存储介质及程序产品
CN114125541A (zh) 视频播放方法、装置、电子设备、存储介质及程序产品

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant