CN111527495B - 用于应用视频观看行为的方法和装置 - Google Patents

用于应用视频观看行为的方法和装置 Download PDF

Info

Publication number
CN111527495B
CN111527495B CN201880078768.7A CN201880078768A CN111527495B CN 111527495 B CN111527495 B CN 111527495B CN 201880078768 A CN201880078768 A CN 201880078768A CN 111527495 B CN111527495 B CN 111527495B
Authority
CN
China
Prior art keywords
frame
video
storyline
viewing
objects
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201880078768.7A
Other languages
English (en)
Other versions
CN111527495A (zh
Inventor
D·瓦奎洛
M·沙赫里亚尔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nokia Technologies Oy
Original Assignee
Nokia Technologies Oy
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nokia Technologies Oy filed Critical Nokia Technologies Oy
Publication of CN111527495A publication Critical patent/CN111527495A/zh
Application granted granted Critical
Publication of CN111527495B publication Critical patent/CN111527495B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • G11B27/11Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information not detectable on the record carrier
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/18Eye characteristics, e.g. of the iris
    • G06V40/19Sensors therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • G06F3/013Eye tracking input arrangements

Abstract

一种方法、装置和计算机可读存储介质提供关于视频的第一帧和第二帧之间的观看行为的改变的信息。在该方法中,标识包括在相应帧内的多个对象。该方法确定第一帧中的所述多个对象中的至少一个中的每个的第一观看次数。对于在第一帧之后的第二帧,该方法确定在第二帧中的多个对象中的至少一个中的每个的第二观看次数,并且标识观看第一帧内的一个对象的相应观看者改变为观看第二帧内的不同对象的实例的数量。该方法另外引起提供关于视频的第一帧和第二帧之间的观看行为的改变的信息。

Description

用于应用视频观看行为的方法和装置
技术领域
示例性实施例总体上涉及与视频相关的方法、装置和计算机可读存储介质,并且更具体地涉及用于应用视频观看行为的方法、装置和计算机可读存储介质。
背景技术
视频由多个连续的帧组成,这些帧可呈现例如一系列二维(2D)或三维(3D)图像。一些视频提供沉浸式内容,包括例如360度沉浸式多媒体图像。这样的沉浸式内容可用于包括例如虚拟现实系统的各种应用。由这样的360度图像提供的沉浸式多媒体内容通常限制观看者,以使观看者仅看到完整的360度视场的有限子集或部分。
观看者可平移通过场景,诸如通过在观看者利用头戴式显示器的实例中移动他们的头部或通过利用其他输入设备,诸如鼠标、键盘或触摸屏,滚动通过场景。即使观看者花费了平移通过场景所必需的努力,但因为360度视频具有非常大的视场,所以观看者可能会发现难以决定在视频的不同帧内在何处聚焦。因此,观看者可能不会(至少并非一致地)聚焦于视频的重要方面,诸如内容的创建者想让观看者沉迷的视频中的那些区域或视频中示出的对象。
发明内容
根据示例性实施例提供一种方法、装置和计算机程序产品,以便提供关于与视频的帧中包括的多个对象有关的视频的第一帧和第二帧之间的观看行为的改变的信息。基于关于视频的帧之间的观看行为的改变的信息,可在更知情的基础上进行一个或多个行动。例如,示例性实施例的方法、装置和计算机程序产品可至少部分地基于视频的帧之间的观看行为的改变来定义故事线。附加地或可替代地,示例性实施例的方法、装置和计算机程序产品可基于视频的帧之间的观看行为的改变来修改视频的一个或多个帧的图像质量。通过基于关于与视频的帧内包括的多个对象相关的视频的帧之间的观看行为的改变的信息来采取行动,可以有效地提高最终的用户体验。
在示例性实施例中,提供了一种方法,包括:对于包括第一帧和在第一帧之后的至少一个第二帧的视频的多个确定帧,标识包括在第一帧内的多个对象和包括在第二帧中的多个对象。该方法还确定包括在第一帧内的多个对象中的至少一个对象中的每个的多个观看者的第一观看次数。对于第二帧,该方法确定多个观看者对包括在第二帧内的多个对象中的至少一个对象中的每个的第二观看次数,并标识观看第一帧内的多个对象中的一个的相应观看者改变为观看第二帧内的多个对象中的不同的一个的多个实例。该方法另外包括提供关于与包括在视频中的多个对象相关的视频的第一帧和第二帧之间的观看行为的改变的信息。
示例性实施例的方法还包括至少部分地基于视频的第一帧和第二帧之间的观看行为的改变来定义故事线。在示例性实施例中,该方法可至少部分地基于从第一帧中的第一对象到第二帧中的第二对象的观看行为的改变来将故事线定义为聚焦于第一帧中的第一对象和第二帧中的第二对象。附加地或可替代地,示例性实施例的方法还包括至少部分地基于视频的第一帧和第二帧之间的观看行为的改变来修改至少第二帧的图像质量。在示例性实施例中,该方法可至少部分基于从第一帧中的第一对象到第二帧中的第二对象的观看行为的改变来修改第一对象和第二对象的图像质量。对于标识多个对象,示例性实施例的方法可在第二帧中标识比第一帧中更多的对象,例如在第一帧中的一个对象拆分成第二帧中的多个对象的实例中。可替代地,示例性实施例的方法可通过在第二帧中标识比在第一帧中更少的对象来标识多个对象,例如在第一帧中的多个对象合并成第二帧中的单个对象的实例中。
在另一示例性实施例中,提供了一种装置,包括:用于对包括第一帧和在第一帧之后的至少一个第二帧的视频的多个确定帧,标识包括在第一帧内的多个对象和包括在第二帧中的多个对象的部件。该装置还包括用于确定多个观看者对包括在第一帧内的多个对象中的至少一个中的每个的第一观看次数的部件。对于至少一个第二帧,该装置包括:用于确定多个观看者对包括在第二帧内的多个对象中的至少一个中的每个的第二观看次数的部件,以及用于标识观看第一帧内的多个对象中的一个的相应观看者改变为观看第二帧内的多个对象中的不同的一个的多个实例的部件。该装置另外包括用于提供关于与包括在视频中的多个对象相关的视频的第一帧和第二帧之间的观看行为的改变的信息的部件。
示例性实施例的装置还包括用于至少部分地基于视频的第一帧和第二帧之间的观看行为的改变来定义故事线的部件。在此示例性实施例中,可至少部分地基于从第一帧中的第一对象到第二帧中的第二对象的观看行为的改变来将故事线定义为聚焦于第一帧中的第一对象和第二帧中的第二对象。附加地或可替代地,示例性实施例的装置还包括至少部分基于视频的第一帧与第二帧之间的观看行为的改变来修改至少第二帧的图像质量的部件。在此示例性实施例中,可至少部分基于从第一帧中的第一对象到第二帧中的第二对象的观看行为的改变来修改第一对象和第二对象的图像质量。对于标识多个对象,可在第二帧中标识比在第一帧中更多的对象,例如在第一帧中的一个对象拆分成第二帧中的多个对象的实例中。可替代地,可在第二帧中标识比在第一帧中更少的对象,例如在第一帧中的多个对象合并成第二帧中的单个对象中的实例中。
在另一示例性实施例中,提供了一种装置,该装置包括,至少一个处理器和包括计算机程序代码的至少一个存储器,该至少一个存储器和计算机程序代码被配置为,与该处理器一起,使得该装置对包括第一帧和在第一帧之后的至少一个第二帧的视频的多个确定帧,标识包括在第一帧内的多个对象和包括在第二帧内的多个对象。该至少一个存储器和计算机程序代码还被配置为,与处理器一起,使得该装置确定多个观看者对包括在第一帧内的多个对象中的至少一个对象中的每个的第一观看次数。对于至少一个第二帧,该至少一个存储器和计算机程序代码进一步被配置为,与该处理器一起,使得该装置确定多个观看者对包括在第二帧内的多个对象中的至少一个对象中的每个的第二观看次数,并标识观看第一帧内的多个对象中的一个的相应观看者改变为观看第二帧内的多个对象中的不同的一个的多个实例。该至少一个存储器和计算机程序代码进一步被配置为,与处理器一起,使得装置提供关于与包括在视频中的多个对象相关的视频的第一帧和第二帧之间的观看行为的改变的信息。
该至少一个存储器和计算机程序代码进一步被配置为,与处理器一起,使示例性实施例的装置至少部分地基于视频的第一帧和第二帧之间的观看行为的改变来定义故事线。在此示例性实施例中,可至少部分地基于从第一帧中的第一对象到第二帧中的第二对象的观看行为的改变来将故事线定义为聚焦于第一帧中的第一对象和第二帧中的第二对象。附加地或可替代地,该至少一个存储器和计算机程序代码进一步被配置为,与处理器一起,使示例性实施例的装置至少部分地基于视频的第一帧与第二帧之间的观看行为的改变来修改至少第二帧的图像质量。在此示例性实施例中,可至少部分基于从第一帧中的第一对象到第二帧中的第二对象的观看行为的改变来修改第一对象和第二对象的图像质量。对于标识多个对象,可在第二帧中标识比在第一帧中更多的对象,例如在第一帧中的一个对象拆分成第二帧中的多个对象的实例中。可替代地,可在第二帧中标识比在第一帧中更少的对象,例如在第一帧中的多个对象合并成第二帧中的单个对象中的实例中。
在又一示例性实施例中,提供了一种计算机程序产品,其包括具有存储于其中的计算机可读程序代码的至少一个非暂时性计算机可读存储介质,该计算机可读程序代码被配置为在执行时对包括第一帧和在第一帧之后的至少一个第二帧的视频的多个确定帧,标识包括在第一帧内的多个对象和包括在第二帧中的多个对象。该计算机可读程序代码还被配置为确定多个观看者对包括在第一帧内的所述多个对象中的至少一对象中的每个的第一观看次数。对于所述至少一个第二帧,该计算机可读程序代码进一步被配置为确定多个观看者对包括在第二帧内的多个对象中的至少一个对象中的每个的第二观看次数,以及标识观看第一帧内的多个对象中的一个的相应观看者改变为观看第二帧内的多个对象中的不同的一个的多个实例。该计算机可读程序代码另外被配置为提供关于与包括在视频中的多个对象相关的视频的第一帧和第二帧之间的观看行为的改变的信息。
该示例性实施例的计算机可读程序代码还被配置为至少部分地基于视频的第一帧和第二帧之间的观看行为的改变来定义故事线。在此示例性实施例中,可至少部分地基于从第一帧中的第一对象到第二帧中的第二对象的观看行为的改变来将故事线定义为聚焦于第一帧中的第一对象和第二帧中的第二对象。附加地或可替代地,该示例性实施例的计算机可读程序代码还被配置为至少部分地基于视频的第一帧和第二帧之间的观看行为的改变来修改至少第二帧的图像质量。在此示例性实施例中,可至少部分基于从第一帧中的第一对象到第二帧中的第二对象的观看行为的改变来修改第一对象和第二对象的图像质量。对于标识多个对象,可在第二帧中标识比在第一帧中更多的对象,例如在第一帧中的一个对象拆分成第二帧中的多个对象的实例中。可替代地,可在第二帧中标识比在第一帧中更少的对象,例如在第一帧中的多个对象合并成第二帧中的单个对象中的实例中。
附图说明
因此,已经概括地描述了本公开的某些示例性实施例,在下文中将参考附图,附图不一定按比例绘制,并且其中:
图1作为示例示出,在时间t1、t2、t3、t4和t5处呈现的对于视频的帧的由实线方向箭头和虚线方向箭头所表示的两个不同的观看行为;
图2是为视频的示例性帧生成的热图的示例;
图3描绘了根据本公开的示例性实施例的视频的三个帧的热图和帧内的一些区域的示例性观众人数;
图4是根据本公开的示例性实施例的从视频的一个帧到后续帧的不同对象的观看次数的变化的图形表示;
图5是根据本公开的示例性实施例的从视频的一个帧到后续帧的不同对象的观看次数的变化的另一图形表示;
图6示出了根据本公开的示例性实施例创建的故事线,其中基于从在时间t1显示的帧到在时间t2显示的帧的观看行为的改变来创建故事线,第一对象在时间t1显示的帧中具有最多观看数,并且观看数的最大改变在时间t2显示的帧中转变到的第三对象;
图7示出了根据本公开的示例性实施例的图像,其中基于从在时间t1显示的帧到在时间t2显示的帧的观看行为的改变,相对于图像的剩余部分修改包括第一对象和第二对象的图像的该部分的图像质量。
图8图示了根据本公开的示例性实施例的为未来观看者重新定位视频的不同帧的方式,以便如图1中的虚线方向箭头所表示的那样使视频的先前观看者已聚焦在其上的对象居中;
图9示出了根据本公开的示例性实施例的由如图1中的虚线方向箭头所表示的先前观看者的观看行为和后续的在如图8中所示的视频的帧的重新定位所定义的故事线,该故事线包括对于该视频的每一帧的该视频的先前观看者已聚焦于其上的区域;
图10图示了根据本公开的示例性实施例的如由图1中的实线方向箭头所表示的先前观看者的观看行为所定义的另一故事线,该故事线包括对于视频的每一帧的该视频的先前观看者已经聚焦在其上的区域;
图11是可以根据本公开的示例性实施例具体配置的装置的框图;
图12是示出了根据本公开的示例性实施例的例如由图11的装置执行的操作的流程图;
图13是根据本公开的示例性实施例的故事线图的图形表示,该故事线图包括贯穿图3的帧的具有与图的相应边相关联的转移概率的多个路径;
图14是示出了根据本公开的另一示例性实施例的例如由图1的装置执行的操作的流程图;
图15示出了在时间t1、t2和t3获取的视频的三个帧;
图16示出了根据本公开的示例性实施例的从图15的视频的帧创建的故事线;
图17示出了根据本公开的示例性实施例的从图15的视频的帧创建的另一故事线;
图18示出了根据本公开的示例性实施例的基于从帧1到帧2的观看行为的改变相对于图像的剩余部分修改了包括猎人和鸭子的图像的部分的图像质量之后与图5的帧1和帧2相关联的图像;
图19示出了帧1中的单个对象拆分成帧2中的多个对象;以及
图20示出了帧1中的多个对象合并成帧2中的单个对象。
具体实施方式
现在将参考附图在下文中更全面地描述本发明的一些实施例,在附图中示出了本发明的一些但不是所有实施例。实际上,本发明的各种实施例可以许多不同的形式实施,并且不应被解释为局限于本文中所描述的实施例;相反,提供这些实施例是为了使得本公开满足可适用的法律要求。在全文中,相同的附图标记指代相同的元件。如在本文中所使用的,术语“数据”、“内容”、“信息”以及类似术语可以可互换地使用来指代根据本发明的实施例的能够被传输、接收和/或存储的数据。因此,任何此类术语的使用不应被视为限制本发明的实施例的精神和范围。
另外,如在本文中所使用的,术语“电路”是指(a)仅硬件的电路实现方式(例如,模拟电路和/或数字电路中的实现方式;(b)电路和计算机程序产品的组合,所述计算机程序产品包括存储在一个或多个计算机可读存储器上的软件和/或固件指令,所述软件和/或固件指令一起工作以使得装置执行本文描述的一个或多个功能;以及(c)电路,例如,一个或多个微处理器或一个或多个微处理器的一部分,需要用于操作的软件或固件,即使软件或固件在物理上不存在。“电路”的这个定义适用于该术语在本文中的所有使用,包括在任何权利要求中的使用。作为进一步的示例,如本文所使用的术语“电路”还包括以下实现方式,该实现方式包括一个或多个处理器和/或其部分以及附带的软件和/或固件。作为另一个示例,如本文中使用的术语“电路”还包括,例如,基带集成电路、或用于移动电话的应用处理器集成电路、或在服务器、蜂窝网络设备、其他网络设备、现场可编程门阵列和/或其他计算设备内的相似集成电路。
如在此所定义的,“计算机可读存储介质”是指物理存储介质(例如,易失性或非易失性存储器设备)可以与“计算机可读传输介质”区分开,后者是指电磁信号。
故事线引导观看者并向观看者提供关于视频内想要让观看者看到的不同区域和/或不同对象的信息(例如,这些区域或对象可以是故事线创建者认为有意义的)。故事线通常由内容的创建者或由视频的创建和/或编辑中涉及的其他人来定义,并且提供推荐给观看者的视频内随时间推移的空间区域的指示。由此,故事线可包括在第一时间的第一帧中的第一区域和/或第一对象、在第二时间的第二帧中的第二区域和/或第二对象等等。空间位置的序列通常包括随着时间推移被认为是较感兴趣或较有意义的视频的那些区域和/或对象。例如,内容的创建者可以定义故事线以鼓励观看者出于任何原因关注视频的那些特定区域和/或对象(例如,这些区域和/或对象使创建者认为最有意义的)。如本文中所使用的,视频中的区域和/或对象可被称为“一个区域”,并且可被称为“多个区域”。
在播放视频时,可随着时间推移向观看者提供观看者将感兴趣观看的不同空间区域的建议。可向观看者提供关于以不同方式定义故事线的空间区域的序列的建议。例如,视频可以自动地依次平移到每个空间区域以确保观看者观看到故事线中包括的视频的区域。或者,可在视频上显示箭头或其他方向以向观看者提供关于其注意力应被重定位的方向的指示,以便观看故事线中的视频的下一空间区域。
沉浸式多媒体内容的创建者通常通过手动过程来定义故事线。由此,故事线的定义需要内容的创建者的额外的精力和时间。此外,故事线可以内容的创建者关于视频的各帧中的最重要且应被观看的那些区域的主观信念为前提,而这些区域可能不总是与所有或甚至大多数观看者认为的最有意义的视频的不同帧的区域一致。进一步,一旦创建了故事线,则可能难以确定观看者实际上是否跟随着故事线,或者观看者是否观看了视频的不同区域。
因此,根据示例性实施例提供一种方法、装置和计算机程序产品,以便于例如以至少部分自动化的方式和/或以视频的观看者知情的方式进行贯穿视频的多个帧的故事线的定义。对此,视频包括多个顺序排列的帧。在一些实施例中,视频提供沉浸式多媒体内容,诸如多个连续的360度图像或全向图像。360度视频或全向视频通常可指提供这样的大视场的视频内容,通过典型的显示设备在单个时间点仅显示视频的一部分。例如,全向视频可以在头戴式显示器(HMD)上观看,该头戴式显示器能够显示例如约100度的视场(FOV)。可基于头戴式显示器的取向来选择要显示的虚拟现实视频内容的空间子集。在另一个示例中,假设一个平板观看环境,其中可以显示例如多达40度的视场。术语360度视频或全向视频的使用不一定意味着内容覆盖整个球形视场,而是可以例如覆盖360度的水平视场但小于180度的垂直视场。
视频可由虚拟现实系统、增强现实系统或其他类型的应用呈现。视频可以不同方式呈现。例如,视频可以呈现在显示屏上,例如在平板观看环境中,或者呈现在头戴式显示器的护目镜或其他显示表面上,例如由头盔、防护眼镜、眼镜等提供的并且具有例如在其上呈现视频的护目镜。视频可以被呈现为一系列二维图像或三维图像,这取决于例如视频的维度以及用于处理和呈现视频的视频呈现系统、图像处理系统等的能力。如果视频是三维的,则在一个示例性实施例中,三维内容可以用不同格式,例如等矩形格式、立体格式、全景格式等,中的任何一种以二维表示。
通过跟随贯穿视频的帧的故事线,观看者可被引导以以下方式观看视频,即观看例如内容的创建者或视频的创建和/或编辑中涉及的其他人认为最有意义的视频的那些部分。故事线被定义为包括随着时间推移的视频的不同顺序区域。换言之,故事线由视频的一系列不同区域定义,其中不同区域出现在整个视频中的不同时间点处并且位于整个视频中的相同空间位置或者通常位于不同空间位置处。在一个示例中,故事线可包括视频的第一帧的第一区域,该第一区域被认为是对故事线的观看者来说有意义的或重要的或感兴趣的。其后,在视频回放期间的不同连续时间点,故事线分别包括在视频的第二帧、第三帧、第四帧和第五帧内的第二区域、第三区域、第四区域和第五区域,其中视频的帧的各个区域在不同的后续时间点是有意的或重要的。由此,为了跟随故事线,观看者将最开始观看视频的第一帧的第一区域,然后在视频的回放期间将他们的视线分别顺序地转移至第二帧、第三帧、第四帧和第五帧的第二区域、第三区域、第四区域和第五区域。每个区域是视频的帧的一部分。尽管区域可具有不同大小和/或包含相应帧的不同百分比,但区域通常仅包括相应帧的一些部分,而不是全部。在一个实施例中,帧的区域可以具有一定大小,以便不超过并且在一些实例中小于一次可以在显示器上呈现的帧的部分。
为了指导根据示例性实施例的故事线的构造,可收集并分析一个或多个观看者的观看行为。对此,下面结合图1来描述第一观看者和第二观看者的观看行为。如图1并且具体地通过在时间t1顺序地呈现的视频的帧所示,在不同的相对位置处描绘了视频的帧的不同区域中的六个不同对象,即,区域A中的男人,区域B中的树,区域C中的自行车,区域D中的女人,区域E中的公园和区域F中的波浪状水。如由在时间t1的帧的弯曲性质示出的,此示例性实施例的视频是关于观看者延伸至少180度的图像并且在一些实例中为延伸360度的图像。尽管未示出,但视频可改为呈现一系列2D图像。同样如图1所示,在时间t2、t3、t4和t5描绘视频的后续帧。在该示例性实施例中,图1的帧是按顺序安排的,从在时间t1的帧开始并且以在时间t5的帧结束,从而使得t5>t4>t3>t2>t1。在图1所示的每对相邻帧之间可以经过相同或不同的时间长度,并且在一些实施例中,另外的帧(未示出)可以定位在任何一对帧之间(即,时间tn的帧和时间tn+1的帧),时间t1的帧之前,和/或在时间t5的帧之后。尽管区域和对象在帧与帧之间可保持静态,但图1中描绘的实施例示出了不同物体相对于彼此在帧与帧之间的相对运动。
虚线方向箭头表示在观看者或一组观看者,其可被称为第一观看者,感兴趣的相应区域中的一组对象。如虚线方向箭头示出的,例如第一观看者聚焦于在至少一些帧中相应区域中的不同对象上。对此,第一观看者在时间t1聚焦于帧中的区域A中的人,在时间t2聚焦于帧中的区域B中的树,在时间t3聚焦于帧中的区域E中公园,在时间t4聚焦于帧中的区域F中的波浪状水,并且在时间t5聚焦于帧中的组合区域AFD中的男人、波浪状水和女人的组合。实线方向箭头表示另一观看者或另一组观看者,其可称为第二观看者,感兴趣的相应区域中的另一组对象。通过另一示例并且如实线方向箭头所指示的,第二观看者,例如与第一观看者不同的观看者或第二次观看视频的同一观看者,在五个帧中的至少一些中将他们的注意力集中在区域D中的女人。对此,第二观看者在五个帧中的至少一些中聚焦于同一区域D中的女人,即使女人相对于其他对象移动了。
通过跟踪第一观看者和第二观看者的观看行为,可以创建第一故事线和第二故事线。对此,第一故事线可基于第一观看者的观看行为生成,而第二故事线可基于第二观看者的观看行为生成。对此,参考与具有视频中不同对象的区域相关联的字母标记,第一故事线在时间t1-t5分别聚焦于帧中的区域A-B-E-F-F中的对象,而第二故事线在五个帧中的每个中均聚焦于区域D中的对象,即女人。
一个或多个先前观看者的观看行为可以不同方式保留,包括例如作为热图。热图提供图像,例如视频的不同帧,的信息,所述信息指示图像的被观看的那些区域,且在一些实例中,指示观看相应区域的观看者的数量或百分比。因此,热图提供图像的那些被关注的区域与同一图像的未被关注或关注程度小得多的其他区域相比的视觉表示。可对视频的多个帧,例如,图1的五个不同帧,中的每个建构热图,以标识已观看的帧的一个或多个区域。尽管热图可被示出为与由相应帧呈现的图像集成在一起,但是一个实施例的热图与图像分离并且可覆盖在相应帧的图像上,以便提供关于环境的观看次数的信息。帧的区域可以不同方式确定,包括例如视觉分界,如图2中所示。可标识并存储观看相应帧内确定的每个相应区域的观看者的数量。在已经观看的帧的区域由视觉分界指示的实施例中,不同类型的交叉影线可与其相关联,从而指示相应区域的观看次数。在其他实施例中,不同颜色或不同灰度阴影可与帧的各个区域相关联以指示相应区域的观看次数。在一些实施例中,还可收集关于观看者的信息或特征,如观看者的性别、年龄和/或偏好,和/或观看者可自愿提供的其他信息,如他们的教育水平、经济状况等。热图可基于观看者信息或利用观看者信息生成。
作为示例,图3示出了被指定为帧1、帧2和帧3的视频的三个帧,任意三个帧。对每个帧,描绘相应帧的热图。在以下描述已经观看的相应帧的区域聚集之后,在图3中还描绘与每个帧相关的已经观看的区域的视觉表示,例如,圆形、椭圆形等,以及观看次数的指示。对此,帧1包括指定为观看数250的主体的单个区域。帧2包括指定为b、c、d、e和f的五个不同区域,这五个不同区域为观看数从10到100的范围的不同观看次数的主体。总的来说,帧2的区域为观看数240的主体,这样如由从帧1的总观看数250到帧2的总观看数240的改变所指示的,帧1的10个观看者未能继续观看帧2。此外,帧3包括指定为g和h的两个区域,这两个区域分别是观看数120和观看数100的主体,总观看数为220。由此,如由总观看数从相对于帧2的240减少到相对于帧3的220所表示的,观看帧2的另外二十个观看者未能观看帧3。由此,尽管一个或多个观看者的观看行为可以不同方式保留,但热图提供观看行为的视觉表示。
代替确定一个或多个观看者的观看行为或除了确定一个或多个观看者的观看行为之外,可确定观看者的观看行为从一个帧改变到连续帧的方式并随后以不同方式对此加以利用。对此,可收集关于视频的多个帧中的一个或多个帧中的多个对象的信息、聚焦于不同帧中的各个对象的观看者的数量以及从观看一个帧中的一个对象改变到观看连续帧中的不同对象的观看者的数量。这些信息可以不同方式提供,包括作为多个对象的标识以及关于从第一帧到第二帧的观看次数的净增加或减少的指示和/或第一帧和第二帧中的总观看次数的指示,从而可确定观看数的变化。作为示例,图4示出了在视频的多个帧的每个中出现的指定为第一对象、第二对象和第三对象的三个对象。对于图4的示例,提供以下信息,即指示例如第一帧中的第一对象的五个观看者切换为观看第二帧中的第二对象,而第一帧中的第二对象的十个观看者切换为观看第二帧中的第三对象的信息。虽然可以不同方式提供不同帧中的对象的观看者数量的改变,但图4通过与在不同对象之间延伸的箭头相关联的数量描绘了从第一图像到第二图像的观看次数的改变。另外,还提供第二图像中的不同对象的总观看次数,例如随着在不同对象之间延伸的箭头表示的观看次数而改变的第二帧中的第一对象的十次观看、第二对象的五次观看和第三对象的二十次观看。
通过图4中描绘的第一对象、第二对象和第三对象的观看数变化的表示所包含的信息的示例,在T1呈现的一个帧期间,第一对象的观看数为十五、第二对象的观看数为十并且第三对象的观看数为十。在此同一实例中,在时间T2呈现的帧中,第一对象的观看数为十、第二对象的观看数为五和第三对象的观看数为二十。此外,从所收集的关于多个先前观看者的观看行为的信息可确定在时间T1呈现的帧中的第一对象的五个观看者切换为观看在时间T2呈现的帧中的第二对象,如由与图4中的从第一对象延伸到第二对象的箭头相关联的+5所表示的。类似地,在时间T1呈现的帧中的第二对象的十个观看者切换为观看在时间T2呈现的帧中的第三对象,如由从第二对象到第三对象的具有数字标识+10的箭头所表示的。基于视频内的帧与帧之间的不同对象的观看数变化,可提供关于观看习惯和使用视频的内容的方式的额外信息,借此进一步促进包括例如视频内的产品放置的内容的生成。在一些实施例中,还可以收集关于观看者的信息或特征,例如观看者的性别、年龄和/或偏好,和/或观看者可自愿提供的其他信息,例如他们的教育水平、经济状况等。可以基于观看者信息或者利用观看者信息来生成对象观看的跟踪。
在图5中提供第一对象、第二对象和第三对象的观看数变化的表示所包含的信息的更具体示例。如帧1中所示,十个观看者聚焦于猎人,五个观看者聚焦于猪,并且十五个观看者聚焦于鸭子,而在指定为帧2的后续帧中,三个观看者聚焦于猎人,八个观看者聚焦于猪,并且十九个观看者聚焦于鸭。猎人、猪和鸭子中的每个的观看者数量可总结在表1中,如下:
表1
然后,猎人、猪和鸭子的观看数变化被总结在图5中帧1和2流入的帧中,该帧指示两个观看者从帧1中的猎人切换到帧2中的鸭子,五个观看者从帧1中的猎人切换到帧2中的鸭子,并且一个观看者从帧1中的鸭子切换到帧2中的猪。
可以基于观看行为的改变来采取各种不同的动作。例如,可至少部分基于视频的第一帧与第二帧之间的观看行为的改变来定义故事线,例如,如下文所描述的。例如,故事线可至少部分地基于从第一帧中的第一对象到第二帧中的第二对象的观看行为的改变而聚焦于第一帧中的第一对象和第二帧中的第二对象。如图6所示,例如,故事线在第一帧中聚焦于其上的第一对象可以是大多数观看者正在观看的对象,即,与第一帧中的第二对象和第三对象的每个的观看数10相比,第一帧中第一对象的观看数为15。在此示例中,故事线在第二帧中聚焦于其上的第二对象可为最大观看次数所迁移到第二帧中的对象,例如通过观看数10从第一帧中的第二对象转变到第二帧中的第三对象来证明的。如该示例所示出的,在一些实施例中,第二对象可不同于第一对象,而在其他实施例中,第二对象与第一对象相同。由此,故事线可根据此示例来定义,即从聚焦于第一帧中的第一对象,例如,通过将第一帧居中于第一对象上,转变成聚焦于第二帧中的第三对象,例如,通过将第二帧居中于第三对象上,如图6中所示。代替将相应的帧居中于感兴趣的对象上,可以重新定位帧以使得相应对象位于某个其他预定义的显著的位置处。可替换地,可由用户确定从第一帧到第二帧的转变,例如通过选择如图4中所示的示出第一帧中的第一对象与第二帧中的第二对象之间的观看数变化的方向箭头中的一者来确定。在此示例性实施例中,故事线可被定义为包括来自第一帧的第一对象,例如通过包括第一图像,该第一图像包括以第一对象为中心的第一帧的一部分,以及包括来自第二帧的第二对象,例如通过包括第二图像,该第二图像包括以第二对象为中心的第二帧的一部分。
另外或可替代地,可至少部分地基于视频的第一帧与第二帧之间的观看行为的改变来修改至少第二帧的图像质量。对此,可以至少部分基于从第一帧中的第一对象到第二帧中的第二对象的观看行为的改变来修改第一对象和第二对象的图像质量。对此,可由用户可确定从第一帧到最重要或者最感兴趣的第二帧的转变,例如通过选择如图4中所示的示出第一帧和第二帧中的对象之间的观看数变化的方向箭头中的一个。可替代地,提供的关于第一帧和第二帧之间的观看行为的最大改变,例如从第一帧中的第一对象到第二帧中的第二对象,的信息可定义将通过修改图像质量来突出显示的转变。
在此示例性实施例中,可修改第二帧的图像质量,例如通过增加表示经历从第一对象到第二对象的最大观看数迁移的第一对象和第二对象的像素的密度或数量和/或通过减小表示图像的其他部分(例如除了第一对象和第二对象之外的图像的部分)的像素的密度或数量。可选地,还可修改在第一对象与第二对象之间和/或其附近的图像的部分60的图像质量,如图7中所示。由此,可将经历观看行为的最大改变的图像的部分,例如从第一帧中的第一对象到第二帧中的第二对象的最大观看次数的转移的结果,以更高的质量显示,以进一步改善用户体验,这样用户将很可能会聚焦于第一对象和第二对象。通过将图像质量的修改限于图像的仅一部分,避免修改图像的其余部分的图像质量另外所需的图像处理资源的消耗,从而节省图像处理资源。因此,图像质量,例如像素分辨率,的差异被定义在图像的包括第一对象和第二对象的部分与帧的其余部分之间,其中例如通过相对于例如具有较低图像质量的帧的剩余部分提高包括该第一对象和该第二对象的部分的图像质量来进行修改。
一旦已经收集了关于先前观看者的观看行为的信息,示例性实施例的方法、装置和计算机程序产品被配置为定义故事线或者促进内容创建者、导演等对故事线的定义,进而将指导该同一视频的未来观看者。作为得到的故事线的示例并且参见图8,图1的视频的帧可被重新定位,例如通过相对于观看者移位和/或旋转,以便于未来观看者对已基于内容创建者、制作者等期望被聚焦于的部分和/或先前观看者的观看行为创建的故事线的后续观看。对此,在视频的后续呈现期间,可相对于观看者定位不同的帧,使得在故事线的生成期间先前观看者聚焦于其上的对象居中并且因此对视频的未来观看者而言更容易看到。如在本文中所使用的,“居中”的帧的对象或区域是指在未来观看者的视场内的位置的对象或区域或其任何部分,该位置包括在该视场内稍微居中或完全居中的位置。如图8中在t1呈现的帧中所示,视频已被重新定位使得区域A中的人对于未来的观看者居中,而在时间t2,视频被重新定位使得区域B中的树相对于未来的观看者居中。在例如时间t3、t4和t5的不同时间呈现的视频的帧也可如图8中所示重新定位,从而使得作为与故事线的生成相结合的先前观看者的聚焦主体的对象相对于未来的观看者居中。在一些实施例中,在时间t1–t5的任何帧之前和/或之后的一个或多个帧也可以被重新定位(未示出)以便为未来观看者提供顺畅的观看体验。因此,未来观看者可以更容易地观看为视频定义的故事线,以便增加观看到由视频捕获的重要的或感兴趣的事件的可能性。虽然在图8中描绘的示例实施例中重新定位视频,但可替代地或另外重新定位观看者或引导观看者重新定位其自身以促进基于先前观看者的观看行为而创建的故事线的后续观看。
当请求和/或观看一个故事线的视频时,该故事线可根据需要,例如,即时地生成。故事线也可在其被请求或观看之前被生成并存储。视频的一个或多个帧可从故事线省略,例如,不包括在故事线中。例如,可省略t1的帧之前的和/或t5的帧之后的一个或多个帧。t1和t5之间的一些帧也可以或可替代地被省略。由此,故事线可包括视频的任何数量或百分比的帧。
如图8所示,故事线的定义可导致视频的帧在该视频由未来观看者观看时被重新定位,使得作为不同帧中的聚焦主体的对象对未来观看者居中,从而使未来观看者在观看视频的更感兴趣的部分时不必经常将他们的头部从一侧移动到另一侧和/或上下移动。对此,如果作为不同帧中的聚焦主体的对象未如图8所示居中,未来观看者从在时间t2的帧的区域B中的树到在时间t4的帧的区域E中的公园的转变将需要未来的观看者将他们的头部转动一个显著的量,如由在图1中它们之间的距离证明的,由此需要显著更多的精力来跟随故事线,并且相应地降低了跟上故事线的可能性。然而,如上所述,作为不同帧中的聚焦主体的对象不必一定要在为未来观看者重放视频期间居中,而是如果需要的话可改为将对象不同地定位。
尽管图8描绘了根据已经基于一个或多个先前观看者的观看行为生成的单个故事线为未来观看者呈现视频,但可为同一视频生成多个故事线,例如基于不同的先前观看者的观看行为。作为示例,可以例如从为先前观看者保留的个人资料以及关于他们的观看行为的信息收集先前观看者的特征。可以收集不同特征,包括年龄、性别、兴趣、社会经济状况、教育水平等,或其任意组合。然后可累积具有类似特征的一个或多个先前观看者的观看行为,并且可定义相应的故事线。结果,可以基于具有不同特征的不同组的先前观看者的观看行为为同一视频生成不同的故事线,例如为较年轻观看者生成第一故事线和为较年长观看者生成第二故事线。此后,通过分析未来观看者的相应特征,例如由与未来观看者相关联的个人资料所提供的特征,可以根据基于具有与未来观看者相同或相似特征的一组先前观看者的观看行为而生成的故事线来显示该视频。另外或可替代地,未来的观看者可从多个候选故事线中选择想要的故事线。对此,可以呈现关于每个候选故事线的例如快照或其他信息的表示,并且未来观看者可以基于该表示来选择期望的故事线。
尽管图8描绘了视频在多个不同时间中的每个时间的相对旋转,但在不同时间中的每个时间呈现给未来观看者的并且在以故事线的生成期间作为相应帧中的聚焦主体的对象居中的实际图像,例如二维图像,在图9中描绘。如由在时间t1呈现的图像所示的,将在观看者的观看范围内的(如由图8中的发散虚线所表示的)并且以在创建故事线期间先前观看者聚焦在其上的对象居中的帧的部分呈现给未来观看者。类似地,在随后的时间t2、t3、t4和t5呈现的图像也对应于在观看者的观看范围内的且以在创建故事线期间先前观看者聚焦于其上的对象居中的视频的相应帧的的那些部分。作为为同一视频生成的不同故事线的另一示例,图10根据例如由内容创建者、制作者等基于他们期望聚焦于其上的视频的部分和/或基于图1中的第二观看者的观看行为创建的不同故事线来将图像呈现给未来观看者,其中第二观看者在不同帧中的每个中聚焦于区域D中的女人。由于不同的故事线聚焦于视频的至少一些帧中的不同对象上,因此不同的故事线可引起提供不同的提示,例如通过使帧以不同的对象居中或为未来观看者提供不同的指令,例如,方向箭头,以指引他们的视线。不管为视频构建的故事线如何,未来观看者可观看视频的任何帧的任何区域,无论被观看的区域是否是故事线的一部分,例如通过转动他们的头部并重定向他们的视线以观看期望的区域。
图8-10提供了基于如图1所示的先前观看者的观看行为来生成故事线的示例。然而,故事线可基于不同或额外类型的信息生成。例如,结合热图收集的与观看行为有关的信息,例如图2和图3中示出的,可用来定义故事线,例如包括基于与热图相关联的信息的先前观看者观看最多的视频的不同帧内的那些区域或对象的故事线。作为另一示例,如以上结合图4和图5所描述的,与从视频的一个帧到另一帧的观看行为的改变有关的信息可用于定义故事线,例如包括最多数量的先前观看者在从视频的一个帧行进到视频的后续帧时将他们的注意力转移到的那些区域或对象的故事线。
如上以上描述示出的,故事线的创建和关注可涉及三种不同类型的人。第一类型包括视频的初始观看者,他们的观看行为被监视并随后被利用以构建故事线。该第一类型通常被称为先前的观看者。第二类型包括实际创建故事线的人,例如基于从第一类型的观看者的观看行为收集的数据。虽然故事线可由各种不同的人创建,但是第二类型的人可包括定义故事线的内容创建者、制作者和/或编辑者。此后,第三类型的人观看视频并利用故事线。第三类型通常被称为未来观看者。因此,第三类型的人可以被引导至视频的更有趣的部分,至少是第一类型观看者最感兴趣的且吸引第一类型观看者的关注的并且然后在故事线的创建期间依赖的那些部分。
用于定义故事线的装置可由各种不同的计算设备实现。例如,该装置可由被配置为提供沉浸式多媒体内容以供观看者消费的虚拟现实系统或增强现实系统实现。不管应用如何,该装置可由视频呈现系统、图像处理系统等实现,例如可由头盔显示器携带或与头盔显示器相关联,或者可被配置为驱动视频在其上呈现的其他类型的显示设备。可替换地,该装置可由服务器或其他计算设备实现,其被配置为定义故事线并且执行本文中所描述的功能。在此实施例中,该装置可将所得到的故事线和与其相关联的其他信息提供到虚拟现实系统的图像处理系统或与视频的后续显示结合使用的另一应用程序。不管实现该装置的计算设备的类型如何,图11中描绘的示例性实施例的装置10包括处理器12、与处理器12相关联或与处理器12通信,并且包括相关联的存储器14,以及可选地显示设备16和/或观看方向跟踪系统18。
处理器12(和/或协处理器或辅助或与处理器相关联的任何其他电路)可以经由用于在装置10的组件之间传递信息的总线与存储器设备14通信。存储器设备可以是非暂时性的,并且可以包括例如一个或多个易失性和/或非易失性存储器。换言之,例如,存储器设备可以是电子存储设备(例如计算机可读存储介质),其包括被配置为存储可由机器(例如类似处理器的计算设备)检索的数据(例如比特)的门。存储器设备可以被配置为存储信息、数据、内容、应用、指令等,以使得装置能够执行根据本发明的示例性实施例的各种功能。例如,存储器设备可被配置为缓存输入数据以供处理器处理。另外或可替代地,存储器装置被配置为存储由处理器执行的指令。
在一些实施例中,装置10可由如上所述的不同计算设备实现。然而,在一些实施例中,该装置可以被实现为芯片或芯片组。换言之,该装置可包括一个或多个物理封装(例如,芯片),所述物理封装包括结构组件(例如,基板)上的材料、部件和/或电线。该结构组件可为包括在其上的部件电路提供物理强度、保持尺寸和/或限制电相互作用。因此,在一些情况下,该装置可被配置成在单个芯片上或作为单个“片上系统”实现本发明的实施例。因此,在一些情况下,芯片或芯片组可构成用于执行用于提供本文中所描述的功能性的一个或一个以上操作的部件。
处理器12可以许多不同方式实现。例如,处理器可实现为各种硬件处理部件中的一个或多个,例如协处理器、微处理器、控制器、数字信号处理器(DSP)、具有或不具有伴随的DSP的处理元件、或包括集成电路的各种其他电路,例如ASIC(专用集成电路)、FPGA(现场可编程门阵列)、微控制器单元(MCU)、硬件加速器、专用计算机芯片等。因此,在一些实施例中,处理器可包括被配置成独立执行的一个或多个处理核心。多核处理器可在单个物理封装内实现多处理。另外或可替代地,处理器可包括一个或多个处理器,其经由总线串联配置以实现指令的独立执行、流水线化和/或多线程化。
在示例性实施例中,处理器12可被配置为执行存储在存储器设备14中或者处理器可访问的指令。可替代地或另外,处理器可被配置为执行硬编码功能。因此,无论是由硬件或软件方法配置还是由其组合配置,处理器可表示在相应地配置时能够执行根据本公开的实施例的操作的实体(例如,物理地实现在电路中)。由此,例如,当处理器被实现为ASIC、FPGA等时,处理器可以是用于执行本文所描述的操作的具体配置的硬件。可替换地,作为另一实例,当处理器实现为指令的执行器时,指令可具体地配置处理器以在执行指令时执行本文中所描述的算法和/或操作。然而,在一些情况下,处理器可以是特定设备(例如,图像处理系统)的处理器,其被配置为通过用执行本文描述的算法和/或操作的指令进一步配置处理器来使用本发明的实施例。该处理器尤其可包括时钟、算术逻辑单元(ALU)和被配置成支持处理器的操作的逻辑门。
在一些实施例中,装置10可包括显示设备16或与显示设备16通信,显示装置16又可与处理器12通信,从而引起场景的视频内容的呈现。因此,显示设备可包括例如显示器、触摸屏或其他视觉输出机制。例如,显示设备可以是头盔显示器、平板显示器等。可替代地或另外,处理器可包括用户接口电路,其被配置为控制显示设备的至少一些功能,例如显示器等。处理器和/或包括处理器的用户接口电路可以被配置为通过存储在处理器可访问的存储器(例如,存储器设备14等)上的计算机程序指令(例如,软件和/或固件)控制显示设备的一个或多个功能。
示例性实施例的装置10还可以包括观看方向跟踪系统18或者与观看方向跟踪系统18通信,以便跟踪观看者的观看方向,并且进而跟踪作为观看者的注意对象的视频的视场内的关注点。观看方向跟踪系统可以不同方式配置,但是在一个实施例中,包括具有一个或多个传感器的视线跟踪系统,以接收或收集关于观看者的关注点的信息并且将该信息传达给处理器12,用来确定观看者想要观看的视场内的位置。传感器可以是用于捕捉观看者的第一眼睛、同一观看者的第二眼睛和/或观看者的视场中的一个或多个的相应图像的一个或多个图像传感器,例如,相机。与处理器协作的一个或多个传感器被配置为跟踪眼睛运动并且估计观看者的关注点。尽管视线跟踪系统可以各种不同的方式实现,但是视线跟踪系统的一个示例由于2015年10月21日提交的题目为“Method,Apparatus,and ComputerProgram Product for Tracking Eye Gaze and Eye Movement用于跟踪眼睛视线和眼睛运动的方法、装置和计算机程序产品”的美国专利申请14/918,962提供,其全部内容结合于本文中。可替换地,观看者的头部的定向可基于由一个或多个加速度计和/或陀螺仪提供的测量值来跟踪,且接着由处理器解译为对观看方向的估计。
现在将参见图12的流程图通过示例而非限制的方式描述根据示例性实施例的例如由图11的装置10执行以定义整个视频的故事线的操作。如图12的框20中所示,装置10包括用于对视频的多个帧中的每个标识已观看的相应帧的区域的部件,例如处理器12等。由此,该装置,例如处理器,对于视频的每个帧或至少多个帧,标识已观看的那些区域。已观看的区域通常是已呈现在显示器上的视频的那些部分和/或关于作为观看者在观看视频的帧时的聚焦主体的相应位置的视频的那些部分,例如预定义大小和形状的部分。可以不同方式标识已被观看的区域。在观看者佩戴头盔显示器观看视频的实施例中,观看者的头部的位置,例如与观看者的头部位置相关联的俯仰、横滚和偏航值,可由观看方向跟踪系统18确定。该装置,例如处理器,可被配置为使观看者的头部的位置与正呈现的视频的帧的相应区域相关,从而标识正观看的相应帧的区域。可替换地,可利用观看方向跟踪系统的相机或其他传感器跟踪观看者的眼睛的位置,并且该装置,例如处理器,可使观看者的眼睛的位置与正呈现的视频的帧的相应区域相关,从而标识正观看的相应帧的区域。在提供用户输入以标识将呈现在显示器上且将由观看者观看的帧的区域的又一示例性实施例中,该用户输入,例如可由鼠标、键盘、触摸屏等提供的,可通过该装置,例如处理器,来监测并使其与当前正观看的帧的相应区域相关,以标识正观看的帧的相应区域。
不管标识已观看的相应帧的区域的方式如何,装置10,例如处理器12,可构造多个帧中的每个的热图,其中一个示例在图2中示出。在示例性实施例中,该装置包括用于通过将相应帧的已观看的一个或多个区域聚集到单个区域来标识先前观看者已观看的相应帧的区域的部件,例如处理器等。该装置,例如处理器,可被配置为以各种不同方式将彼此相对靠近定位的多个区域聚集到单个区域。例如,该装置,例如处理器,可采用聚类算法,例如k均值聚类算法,以将两个或多个区域聚集到单个区域。在采用k均值聚类算法的实例中,k可被设置为相对小的数,例如5。通过将在相应帧内相对于彼此靠近定位的两个或多个区域聚集到单个区域,可以更及时且计算有效的方式进行对已观看的帧的区域的后续分析。
对于标识相应帧的区域,示例性实施例的装置10可另外地或可替代地包括用于消除已经历不超过预定观看次数的相应帧的一个或多个区域从而将其排除在与已观看的帧的区域相关的进一步考虑的范围之外的装置,例如处理器12等。由此,预定观看次数可以由例如观看者、系统设计者等建立以确定一个下阈值,使得不超过预定观看次数的相应帧的任何区域可被消除,不再作为相应帧的区域且在视频的后续分析和故事线的定义过程中不再考虑。通过消除已经历不超过预定观看次数的相应帧的一个或多个区域,示例性实施例的装置可以更及时且计算高效的方式来确定故事线。
视频通常包括相对大量的连续帧。通常,由相应帧表示的图像从一个帧到下一帧没有显著变化。类似地,观看者观看的帧的区域从一个帧到下一帧通常不会明显改变,至少在由帧表示的图像没有显著变化的实例中不会明显改变。为了进一步提高定义故事线的计算效率,示例性实施例的装置10可选地包括用于在两个或多个连续帧均包括已观看的并满足相似度阈值的区域的实例中由单个帧来表示两个或多个连续帧的器件,诸如处理器12等。参见图12的框22。可定义不同类型的相似度阈值。例如,相似度阈值可以被定义为使得两个或更多个连续帧的每个区域具有变化不超过预定义量,例如相对于两个或多个连续帧的其他帧中的对应区域的大小的预定义百分比,的大小和形状。由此,在两个以上连续帧具有相同数量的区且所述区位于相同位置中且具有类似大小和形状的实例中,该两个或多个连续帧可由具有已观看的一个或多个区域的单个帧表示。因此,在此实例中,该两个或多个连续帧由单个帧表示,从而进一步减少随后进行的与故事线的定义相关的处理。在两个或多个连续帧被结合为单个帧或由单个帧表示的实例中,该装置,例如处理器等,在存储器14中保留由单个帧表示的两个或多个帧的记录。
现在参见图12的框24,该示例性实施例的装置10包括用于对多个帧中的第一帧的一个或多个区域中的每个第一帧区域,分别确定转变概率的器件,诸如处理器12等。转变概率定义从第一帧的相应第一帧区域转变到多个帧的第二帧的多个区域中的相应第二帧区域的概率,例如百分比或值。第二帧在第一帧之后,且在一些实施例中,第二帧为紧接在第一帧之后的帧。对于第一帧的区域,可定义多个转变概率,其中每个转变概率定义从第一帧的同一相应区转变到第二帧的不同相应区域的概率。例如,见上文所描述的图3,其示出了在三个不同帧中的每个中的多个区中的每个的观看次数,从其中可确定观看者从一个帧到另一帧的改变。
对于转变概率的确定,可建构包括表示多个帧的区域中的一些的节点的故事线图。对此,每个节点表示相应帧的相应区域,在相应帧内位于相应区域的质心处,并且与相应区域相关的观看次数相关联。多个帧以时间顺序布置,并且多个边定义在相应区域之间。对此,从前一帧的每个区域到紧随其后的帧的每个区域定义故事线图的边。由此,对于帧1与帧2的区域之间的转变概率,图13描绘故事线图,其中定义了五个边,其中一个边从帧1的单个区域a延伸到帧2的五个区域中的每个。类似地,在帧2的五个区域与帧3的两个区域之间定义了故事线图的十个边。对此,如图13所示,从帧2的五个区域中的每个延伸出两个边,其中帧2的每个区域的一个边延伸到帧3的两个区域中的每个。
对于转变概率,示例性实施例的转变概率定义沿相应边从第一帧的相应区域转变到多个帧的第二帧的多个区域中的每个的概率。沿着相应边缘转变的转变概率可以不同方式定义。然而,在如图13中所示的一个实施例中,装置10,例如处理器12,被配置为将转变概率定义为正在观看第一帧的相应区域并随后观看下一帧的相应区域的观看者的数量与下一连续帧的总观看次数的比例。因此,转变概率表示在假定观看者正在观看第一帧的相应区域的情况下,观看者将观看下一帧的相应区域的概率。由于转变到下一区域的各区域的概率仅取决于第一帧的各区域,所以故事线图是满足马尔科夫性的随机过程,其允许使用动态编程来高效地求解最可能的故事线。对于表示图3的帧1、帧2和帧3以及那些帧内的相应区域的图13,例如,从帧1的区域a延伸到帧2的区域b的边缘的转变概率被定义为20/240,因为在帧2的所有不同区域的总观看数240中有帧2的区域b的观看数20。
图13中示出的且上文所描述的实施例能够在帧1和帧2的总观看次数相同或总观看次数从帧1到帧2减少的实例中定义转变概率。在总观看次数从帧1到帧2增加的实例中,以及在为了定义转变概率的目的而考虑的观看者中的每个开始以其第一帧观看视频的实例中,转变概率可以与分母相同的方式来定义,该分母被用于转变概率的确定,是从先前帧到当前帧的总转变数量。在此实例中,当观看次数在视频的呈现期间增加时,丢弃额外观看数且不用于转变概率的确定。
可替换地,在总观看次数从一个帧到下一帧增加,其中至少一些观看者是在视频已经重放之后开始观看视频的新观看者的实例中,基于关于如果新观看者实际上已经观看整个视频则将新观看者已观看的先前帧的区域的假设来定义转变概率。例如,在存在未观看先前帧的观看者对后续帧的新的观看数的实例中,为新观看者创建从先前帧的多个区域中的一个到新观看者实际观看的后续帧的区域的转变。参见图3,在帧3中的总观看次数增加到244(其中区域g的观看数为120且区域h的观看数为124)的实例中,有24个观看数是新的。在一示例性实施例中,将区域h的这24个新观看数的转变与帧2的不同区域到帧3的区域h的实际观看数的转变成比例地定义。所以,对于这24个新观看数,2个观看数从自b到h、2个观看数从c到h、9个观看数从d到h、10个观看数从e到h、以及1个观看数从f到h。可对包含新观看数的帧3中的每个区域重复此过程。一旦已为帧3的每个新观看数确定了所有转变,便可以与上文所描述的相同方式确定转变概率。在此实例中,从b到h的概率为7/22,且从b到g的概率为15/22。
如图12的框26中所示,装置10还包括用于基于转移概率来分别确定贯穿视频的帧的多个路径中的每个的路径概率的器件,例如处理器12等。对此,每个路径由来自多个帧,例如至少第一和第二帧的区域组成,并且在一个实施例中,由来自每个帧的区域组成。可以构建多个路径,其中每个路径包括来自视频的多个帧中的每个的一个且仅一个区域。所构建的每个路径均不同于其他路径,并且在一些实施例中,所构建的多个路径包括视频的多个帧之间的边的每个组合。
如所描述的,每个路径包括在视频的相应帧之间延伸的多个边。因此,为了确定相应路径的路径概率,示例性实施例的装置10包括用于确定与包括相应路径的多个边相关联的转变概率的乘积的器件,例如处理器12等。例如,在视频由确定为将被处理的100个帧组成并且贯穿视频的路径包括99个边(其中一个边在确定为将被处理的每对相邻帧之间延伸)的实例中,所得到的路径概率将是99个边中的每个的转变概率的乘积。因此,路径概率定义了观看者跟随相应路径的可能性,例如通过观看包括相应路径的多个帧的区域。作为更具体的示例,图13的故事线图基于图3的三个帧并且具有十个可能的路径,每个路径包括在帧1和2之间以及在帧2和3之间延伸的边的不同组合。这十个路径和他们基于包括相应路径的边的转变概率的相应路径概率如下:
a-b-g:20/240*15/20=1/16=0.0625
a-b-h:20/240*5/20=1/48=0.0208
a-c-g:20/240*10/20=1/24=0.0416
a-c-h:20/240*10/20=1/24=0.0416
a-d-g:90/240*70/80=21/64=0.3281
a-d-h:90/240*10/80=3/64=0.0468
a-e-g:100/240*25/90=25/216=0.1157
a-e-h:100/240*65/90=65/216=0.3009
a-f-g:10/240*0/10=0
a-f-h:10/240*10/10=1/24=0.0416
在此示例中,较大的路径概率值表示与具有较小值的路径概率相比,穿过视频的帧的路径更有可能被较大数量的观看者观看。如上所示,被指定为adg的路径具有最大的路径概率值,并且因此,最有可能被最大数量的观看者观看。
如图12的框28中所示,装置10还包括用于基于路径概率中的至少一个来定义故事线的器件,例如处理器12等。故事线可以各种方式来定义。例如,故事线可被定义为具有最大路径概率值的路径。可替换地,故事线可被定义为具有超过预定阈值的路径概率的路径,例如在最大路径概率值的预定百分比内,同时包括被例如内容的创建者认为是特别重要的一个或多个帧的区域,即使被认为重要的区域与相同帧的其他区域相比由较少的观看者观看。
对于定义故事线,故事线图可从帧F=(f1,……,fn)来定义,其中f1<……<fn定义了其中区域被标识的帧的序列。另外地,帧F的故事线图是有向图,其中,例如a,b,c……的每个节点是相应帧的区域的质心,并且边将表示帧fi的区域的质心的节点连接至表示帧fi+1的区域的质心的节点。因此,所定义的故事线是故事线图中的路径,其开始于表示帧f1的区域的质心的顶点并且结束于表示fn的区域的质心的顶点。
对于定义故事线,示例性实施例的装置10还包括用于使故事线受到一个或多个约束的器件,例如处理器12等。尽管故事线可受到不同约束,但是示例性实施例的装置,例如处理器,对故事线施加以下约束,该约束被定义为降低故事线包括相隔至少预定量的相邻帧的相应区域之间的转变的路径的可能性。预定量可以各种方式来定义,诸如预定距离、预定角度等。因此,该约束用于防止故事线被限定为包括从一个帧的区域到下一连续帧的不同区域的急剧转变,其中该转变将涉及观看者将他们的聚焦点改变相当大的量,例如从图像的一个边到图像的相对边或从图像的一个角到图像的相对角,因为这样的转变不太可能作为实际情况发生。
通过如上所述定义故事线,故事线可以自动化或至少部分自动化的方式来定义,从而提高了创建视频及其相应故事线的效率。此后,观看者可观看视频并由故事线引导到包括故事线的视频的各个帧的不同区域,例如通过自动地平移视频以显示包括在故事线中的帧的区域而不管观看方向如何,或者通过呈现箭头或其他方向指示符以将观看者引导到包括在故事线中的帧的区域。因此,可以改善与视频的使用相关的用户体验。
在构建故事线之后,示例性实施例的方法、装置10和计算机程序产品被配置成基于观看者在观看视频时跟上故事线的准确度来确定与视频的故事线相关联的分数。与故事线相关联的分数的确定可以结合故事线的定义并在故事线的定义之后执行,如以上描述的以及如在例如图12中示出的。可替代地,视频的故事线的分数可与故事线的定义分开地确定,例如在故事线先前被定义的实例中,根据图12中描绘的和以上描述的过程或根据不同的过程。
无论如何,示例性实施例的装置10包括用于基于实际观看的贯穿包括故事线的视频的帧的路径的区域的数量来确定与故事线相关联的分数的器件,例如处理器12等。作为示例,故事线可被定义为表示帧fi的相应区域ri的(ri,fi)对的序列,使得故事线S被定义为((r1,f1),(r2,f2),……,(rn,fn)),其中,就n个帧的相对时间位置而言,f1<f2<……<fn。之后,在视频的重放期间,观看者的观看时段可被定义为V=((s1,f1),(s2,f2),……(sn,fn),其中s1,……sn分别是在帧f1,……fn实际观看的单独区域。由此,所得的分数可定义为:分数=(∑i=1…n F(ri,si)/n,其中F(x,y)是一函数,其返回值1,如果包括在故事线中的帧的区域x实际上被正在观看区域y的观看者关注则返回值1,否则返回值0。由此,分数定义了观看者观看包括在故事线中的区域的帧的数量除以故事线的总的帧数量。由此,较大的分数表示观看者紧密地跟随故事线的观看时段,而较小的分数表示观看者更偏离故事线的观看时段。
尽管以上结合单个观看会话进行了描述,但是装置10,例如处理器12,可被配置为响应于多个观看者的多个观看时段和/或单个观看者的多个观看时段来确定与故事线相关联的分数。在本实施例中,为每个帧定义值,其中该值是观看者观看包括在故事线中的区域的相应帧的观看次数与相应帧的总观看次数的比例。然后,分数被定义为给每个帧定义的值的总和除以视频的总观看次数。通过考虑所得到的得分,可作出以下确定,即确定观看者通常跟随故事线还是没跟随故事线。在内容的创建者希望观看者跟随故事线,但是分数指示观看者实际上通常没跟随故事线的情况下,内容的创建者可调查该偏离的原因并且在一些实例中可修改视频以鼓励观看者更紧密地跟随故事线。
如上所述,热图提供关于观看帧的方式的信息。对此,例如图2所示的热图确定被查看的区域,并且在一些实施例中确定与每个区域相关联的观看次数。可为视频的多个帧,例如,视频的每个帧,生成热图。由于在多个视频中包括大量帧,所以大量信息以与观看视频的不同帧的方式有关的热图的形式来收集。然而,视频的帧数量和所收集的与观看帧的方式有关的信息量会引入与由多个热图所表示的观看习惯的评估有关的挑战。因此,举例实施例的装置10被配置为提高用户与热图交互的效率和有效性并获得关于使用视频的观看者的观看习惯的有用信息。本文中描述的关于促进与观看习惯相关的信息的交互的技术可结合以上描述的用于定义故事线的技术来执行。可替换地,用于促进与所收集的关于观看习惯的信息的交互的技术可与用于定义故事线的任何技术分开且独立地执行,并且实际上,可在不存在故事线的情况下执行。
在一个示例中,装置10包括用于接收确定用户感兴趣的视频的相应帧的一个或多个区域的用户输入的器件,例如处理器12、用户接口等。尽管在图11中未示出,但该装置可包括各种不同类型的用户界面或与各种不同类型的用户界面相关联,包括例如键盘、鼠标、操纵杆、触摸屏、触摸区域、软键、话筒或其他输入机制。响应于用户输入,该装置包括用于例如基于从相应帧的热图收集的信息呈现关于所选定区域的观看次数的信息的器件,例如处理器、显示设备16等。用户输入可以不同方式接收。例如,用户输入可定义某一形状和大小,例如,矩形、圆形、多边形或自由形式形状,的视频帧的区域,且该装置,例如,处理器,随后可确定由用户输入定义的形状所限定的区域的观看次数。可替换地,用户输入可选择在视频的帧中描绘的对象。对象的边界可例如由处理器基于分割技术来确定,随后确定对象的观看数且将与其相关的信息提供给用户。虽然可以利用不同分割技术确定视频的对象以及其在帧内的边界,但是分割技术的一个示例由C.Rother等人的“GrabCut:InteractiveForeground Extraction Using Iterated Graph Cuts(使用迭代图切割的交互式前景提取)”,ACM Trans.Graph.,第23卷,第309-314页(2004)提供。在其中用户确定对象使得该对象的边界定义关注区域的实例中,随后呈现的关于所选区域的观看数的信息提供关于对象的观看次数(或所选对象的观看数占帧的总观看数的百分比)的信息,并且,在逐帧地跟踪对象的实例中,该信息还告知观看者跟随对象的一致性。
在视频中逐帧地跟踪多个对象,例如由用户选择的对象,的另一示例性实施例中,装置10被配置为确定观看者从帧到帧继续观看相同对象或将其观看对象从一个对象改变为另一对象的方式。在此示例性实施例中并且如图14的框40中所示,该装置包括用于标识包括在相应帧内的多个对象中的每个对象的器件,例如处理器12等。对视频的多个帧中的每个帧进行多个对象的标识。所述装置,例如处理器,可以不同方式标识所述多个对象中的每个,包括例如通过跟踪最初基于用户输入而选择的多个对象。可以以不同方式进行对象的跟踪,如由A.Yilmaz等人的“Object Tracking:A Survey(对象跟踪:一项调查”,ACMComput.Surv.,第38卷,第4期(2006年12月);Z.Kalal等人的“Tracking-Learning-Detection(追踪学习检测)”,IEEE Transactions on Pattern Analysis and MachineIntelligence,第34卷,第7期,第1409-1422页(2012年7月);以及D.Held等人的“Learningto Track at 100FPS with Deep Regression Networks(通过深度回归网络学习以100FPS进行跟踪)”,European Conference on Computer Vision(ECCV)(2016)。在此示例性实施例中并且如图14的框42中所示,该装置包括用于确定多个观看者对包括在第一帧内的多个对象中的每个的第一观看次数的器件,例如处理器等。
此示例性实施例的装置10还包括用于确定对于第一帧之后的第二帧的多个观看者对包括在第二帧内的多个对象中的每个的第二观看次数的器件,例如处理器12等,以及用于标识观看第一帧内的多个对象中的一个的相应观看者改变为观看第二帧内的多个对象中的不同的一个的实例的数量,例如处理器等。参见图14的框44和46。由此,该装置,例如处理器,不仅确定出现在两个帧中的每个中的相同的多个对象中的每个的观看次数,而且标识从观看第一帧中的一个对象切换到观看第二帧中的不同对象的观看者。在该示例性实施例中,该装置还包括用于引起提供有关与在视频的第一帧和第二帧之间多个对象有关的观看行为的改变的信息的器件,例如处理器、显示设备16等。参见图14的框48。
如上文结合图4所描述的,此信息可以不同方式提供,包括作为多个对象的标识以及关于从第一帧到第二帧的观看次数的净增加或减少的指示和/或可从中标识出观看数的改变的第一帧和第二帧中的总观看数的指示。同样如上所述,可以基于观看行为的改变来采取各种不同的动作。例如,一个实施例的装置10包括用于至少部分地基于视频的第一帧和第二帧之间的观看行为的改变来定义故事线的器件,例如处理器12等。参见图14的框50。例如,该装置,例如处理器,可至少部分地基于从第一帧中的一个对象到第二帧中的另一对象的观看行为的改变来定义故事线以聚焦于第一帧中的一个对象和第二帧中的另一对象。参见例如图6。第一帧和第二帧中的对象可以是相同或不同的对象。故事线可以不同方式聚焦在相应的对象上,例如通过以以下方式呈现帧,即使得感兴趣的对象在显示器内居中和/或向未来观看者提供方向,即提供观看感兴趣的对象所看的方向。不管呈现视频和跟随故事线的方式如何,未来观看者仍然能够观看视频的任何区域,而不管被观看的区域是否包括在故事线中。
例如,在第一帧和第二帧中作为故事线的主体的对象可以各种不同的方式来标识。例如,包括在故事线中的相应帧的对象可为由最大数量的先前观看者观看的对象,例如第一帧中的第一对象和第二帧中的第三对象,如以上结合图4和图6所描述的。或者,包括在故事线中的相应帧的对象可以是相对于先前帧的最大数量的先前观看者转变到的对象,例如图4的实施例中十个新观看者转变到的第三对象。作为又一示例,用户,例如未来观看者,可例如通过选择图4的实施例的方向箭头中的一个来选择从一个对象到另一对象的转变,方向箭头标识从一个对象切换到另一对象的先前观看者的数量。在此示例中,故事线可随后将一个对象包括在第一帧中且将另一对象包括在第二帧中。
作为示例,现在参考图15,该图描绘了在时间t1,t2,t3捕捉的三个帧,t3>t2>t1。每个帧包括三个对象,即,猎人、猪和鸭子。在时间t1和t2捕捉的帧中的每个对象的观看者的数量以及从在时间t1捕捉的帧到在时间t2捕捉的帧的观看者从一个对象到另一对象的转变在以上进行了描述,并且在图5进行了总结。响应于选择从在时间t1捕捉的帧中的猎人到在时间t2捕捉的帧中的鸭子的转变,例如通过用户选择图5中的从猎人延伸到鸭子的方向箭头,构建图16中描绘的故事线。对此,作为在从时间t1捕捉的帧到时间t2捕捉的帧的过程中选择从猎人到鸭子的转变的结果,故事线在时间t1捕捉的帧中聚焦于猎人并且在时间t2捕捉的帧中聚焦于鸭子。该示例的故事线在后续帧中继续聚焦于鸭子上,例如在时间t3捕捉的帧中。
如上所述,可为同一视频构建多个故事线。在图15的示例中,对于某些未来观看者,例如儿童,而言,聚焦于由猎人射杀的鸭子可能是不大感兴趣的。因此,可如图17中所示的构建的第二故事线,其中聚焦于猎人和猪,而不是由猎人射杀的鸭子。除了图16和17中所示的故事线之外或代替图16和17中所示的故事线,可基于图15中所示的三个帧的视频来构建另外的故事线。如这个示例中所示的,通过用边界包围对象来突出作为根据故事线的每个帧中的聚焦主体的对象。然而,作为根据故事线的每个帧中的聚焦主体的对象可用其他方式来标识或强调,例如通过使每个帧的显示在感兴趣对象上的部分居中。
在一些实施例中,为了定义故事线中的对应图像的将聚焦的相应对象而研究其观看行为的帧包括多个关键帧,其中视频包括在至少一些关键帧之间的一个或多个中间帧。一旦已确定将用作故事线中的对应图像的聚焦点的帧的对象,装置10,例如处理器12,被配置为通过在在该故事线中的对应图像内居中的(或具有某个其他预定位置的)第一关键帧内的点与在该故事线中的对应图像内居中的(或具有某个其他预定位置的)下一个顺序关键帧内的点之间进行内插来重新定位这些中间帧中的每个中间帧以便根据该故事线进行呈现。由此,基于一些关键帧的观看行为构建的故事线可通过在关键帧之间包括多个中间帧来完成,其中中间帧的重新定位基于紧接在前的关键帧与紧接在后的关键帧的相对位置的内插。
另外或可替代地,装置10可包括用于至少部分基于视频的第一帧与第二帧之间的观看行为的改变来修改至少第二帧的图像质量的器件,例如处理器12等。另外参见图14的框50。如上文描述的且如图7中所示的,装置,例如处理器,可至少部分基于从第一帧中的第一对象到第二帧中的第二对象的观看行为的改变,例如,基于用户输入和/或关于帧之间的观看行为的改变的信息,来修改第一对象和第二对象的图像质量。
作为为以上描述的且在图5中示出的描绘猎人、猪和鸭子的视频的帧构建的更具体示例,图18示出了已修改帧的部分的图像质量之后的帧1和2。对此,从帧1中的猎人到帧2中的鸭子的转变被标识为最受欢迎,因为五个观看者从观看帧1中的猎人切换到观看帧2中的鸭子。因此,猎人和鸭子的图像质量可结合帧1和帧2的呈现被修改,以供未来观看者使用。如图18中的突出区域60所示,不仅改变了猎人和鸭子的图像质量,而且在这个示例性实施例中,还修改了在猎人和鸭子之间延伸并包围猎人和鸭子的图像的部分。
尽管前述示例总体上将各个帧描述为具有相同数量的对象,但是示例性实施例的装置10还包括用于以在第二帧中标识比在第一帧中更多的对象的方式来标识多个对象中的每个的器件,例如处理器12等。例如,第一帧中的一个对象可拆分成第二帧中的多个对象,从而增加第二帧中的对象的总数量。作为示例,图19示出了一个情景,其中帧1中的单个自行车由于前轮变得与自行车车架断开连接并且滚走而在帧2中拆分成两个物体,即前轮和自行车的其余部分。因此,此实施例的装置,例如处理器,被配置为标识帧1中单车的观看者数量并且单独标识帧2中的前轮和单车的其余部分的观看者数量。作为示例并且如以下在表2中概述的,在帧1中,22个观看者观看自行车,10个观看者观看人并且2个观看者观看的建筑物,而在帧2中,7个观看者观看前轮,10个观看者观看自行车的其余部分,15个观看者观看人并且2个观看者在观看建筑物。
表2
因此,,一旦前轮与在帧2中自行车的其余部分断开连接,帧1中的自行车的多个观看者开始观看帧2中的前轮或人。
相反,示例性实施例的装置10可包括用于通过在第二帧中标识比第一帧中更少的对象来标识多个对象中的每个的器件,例如处理器12等。例如,第一帧中的多个对象可合并成第二帧中的单个对象,从而减少第二帧中的对象的数量。作为示例,图20示出了一个场景,其中,在帧1中橄榄球在空中朝向接收者(白运动衫)和防御者(黑运动衫),并且然后橄榄球由帧2中的接收者抓住,从而使得橄榄球和接收者在帧2中合并成单个组合对象。因此,该实施例的装置,例如处理器,被配置为分别标识帧1中的橄榄球和接收者的观看者的数量并且标识帧2中的橄榄球和接收者的组合的观看者的数量。作为示例并且如下面在表3中概述的,在帧1中,20个观看者观看橄榄球,5个观看者观看接收者,1个观看者观看防御者,而在帧2中,25个观看者观看橄榄球和接收者的组合,1个观看者观看防御者。
表3
由此,一旦橄榄球被帧2中的接收者抓住,在帧1中分别观看橄榄球和接收者的所有观看者继续观看帧2中橄榄球和接收者的组合。
在该示例性实施例中,关于视频的第一帧和第二帧之间的观看行为的改变的信息可以定义第一帧和第二帧中的所有对象之间的观看行为的改变,包括例如第一帧中的单个对象和单个对象拆分成的第二帧中的多个对象之间或者第一帧中的多个对象和多个对象合并成的第二帧中的单个对象之间的观看行为的改变。
如上所述,图12和14图示了根据本发明的示例性实施例的装置10、方法和计算机程序产品的流程图。将理解,流程图的每个框和流程图中的框的组合可以通过各种手段来实施,诸如硬件、固件、处理器、电路和/或与包括一个或多个计算机程序指令的软件的执行相关联的其他设备。例如,上述过程中的一个或多个可以由计算机程序指令实现。对此,实现上述过程的计算机程序指令可以由实现本发明的实施例的装置的存储器设备14存储并且由该装置的处理器12执行。如将理解的是的,任何这样的计算机程序指令可被加载到计算机或其他可编程装置(例如,硬件)上以产生机器,使得得到的计算机或其他可编程装置实施在流程图框中指定的功能。这些计算机程序指令也可以存储在计算机可读存储器中,该计算机可读存储器可以指引计算机或其他可编程装置以特定方式运行,使得存储在计算机可读存储器中的指令产生制品,该制品的执行实施在流程图框中指定的功能。计算机程序指令还可以被加载到计算机或其他可编程装置上,以使得在计算机或其他可编程装置上执行一系列操作以产生计算机实施的过程,使得在计算机或其他可编程装置上执行的指令提供用于实施在流程图框中指定的功能的操作。
因此,在计算机程序指令,例如计算机可读程序代码部分,由至少一个非暂时性计算机可读存储介质存储的那些实例中定义计算机程序产品,其中计算机程序指令,例如计算机可读程序代码部分,被配置为在执行时执行例如结合图12和图14的流程图的上述功能。在其他实施例中,计算机程序指令,例如计算机可读程序代码部分,不需要由非暂时性计算机可读存储介质存储或以其他方式实现,而是可替代地由具有计算机程序指令,例如诸如计算机可读程序代码部分,的暂时性介质实现,该计算机程序指令在执行时仍然被配置为执行上述功能。
因而,流程图的框支持用于执行指定功能的器件的组合和用于执行指定功能的操作的组合。还将理解,流程图的一个或多个框以及流程图中的框的组合可以由执行指定功能的基于专用硬件的计算机系统或专用硬件和计算机指令的组合来实施。
在一些实施例中,可以修改或进一步放大以上操作中的某些操作。此外,在一些实施例中,可以包括另外的可选操作。可以以任何顺序和以任何组合执行对以上操作的修改、添加或放大。
受益于在前述描述的和相关附图中呈现的教导,本发明所属领域的技术人员将想到本文所阐述的本发明的许多修改和其他实施例。因此,应当理解,本发明不限于所公开的特定实施例,并且修改和其他实施例旨在包括在所附权利要求的范围内。此外,虽然前面的描述和相关联的附图在元件和/或功能的某些示例性组合的上下文中描述了示例性实施例,但是应当理解,在不背离所附权利要求的范围的情况下,元件和/或功能的不同组合可以由可替代得实施例提供。对此,例如,还设想了与以上明确描述的那些元件和/或功能不同的元件和/或功能的组合,如在一些所附权利要求中阐述的。虽然本文采用特定术语,但是它们仅以一般和描述性的意义使用,而不是为了限制的目的。

Claims (13)

1.一种用于处理视频的装置,包括用于以下操作的部件:
对于包括第一帧和在所述第一帧之后的至少一个第二帧的视频中所标识的多个帧,标识被包括在所述第一帧内的多个对象和被包括在所述第二帧中的多个对象;
确定多个观看者对被包括在所述第一帧内的所述多个对象中的至少一个对象中每个对象的第一观看次数;
对于所述至少一个第二帧,确定所述多个观看者对被包括在所述第二帧内的所述多个对象中的至少一个对象中每个对象的第二观看次数;
标识多个实例,在所述多个实例中,观看所述第一帧内的所述多个对象中的一个对象的相应观看者改变为观看所述第二帧内的所述多个对象中的不同的一个对象;
使信息被提供,所述信息涉及在所述视频的所述第一帧与所述第二帧之间关于被包括在所述第一帧和所述第二帧内的所述多个对象的观看行为的改变;以及
至少部分地基于在所述视频的所述第一帧与所述第二帧之间的观看行为的所述改变来定义故事线;其中所述故事线包括所述视频的一系列多个顺序区域。
2.根据权利要求1所述的装置,其中定义所述故事线包括:至少部分地基于从观看所述第一帧中的第一对象到观看所述第二帧中的第二对象的观看行为的所述改变,定义所述故事线以聚焦于所述第一帧中的所述第一对象和所述第二帧中的所述第二对象。
3.根据权利要求2所述的装置,进一步包括:至少部分地基于所述视频的所述第一帧与所述第二帧之间的观看行为的所述改变,来修改至少所述第二帧的图像质量。
4.根据权利要求3所述的装置,其中修改所述图像质量包括:至少部分地基于从观看所述第一帧中的所述第一对象到观看所述第二帧中的所述第二对象的观看行为的所述改变,来修改第一对象和第二对象的图像质量。
5.根据权利要求1所述的装置,其中标识所述多个对象包括:在所述第二帧中标识比在所述第一帧中更多的对象。
6.根据权利要求5所述的装置,其中所述第一帧中的一个对象拆分成所述第二帧中的多个对象。
7.根据权利要求1所述的装置,其中标识所述多个对象包括:在所述第二帧中标识比在所述第一帧中更少的对象。
8.根据权利要求7所述的装置,其中所述第一帧中的多个对象合并成所述第二帧中的单个对象。
9.根据权利要求1至8中任一项所述的装置,其中所述部件包括:
至少一个处理器;以及
包括计算机程序代码的至少一个存储器,所述至少一个存储器和计算机程序代码被配置为与所述至少一个处理器一起使所述装置运行。
10.一种处理视频的方法,包括:
对于包括第一帧和在所述第一帧之后的至少一个第二帧的视频中所标识的多个帧,标识被包括在所述第一帧内的多个对象和被包括在所述第二帧中的多个对象;
确定多个观看者对被包括在所述第一帧内的所述多个对象中的至少一个对象中每个对象的第一观看次数;
对于所述至少一个第二帧,确定所述多个观看者对被包括在所述第二帧内的所述多个对象中的至少一个对象中每个对象的第二观看次数;
标识多个实例,在所述多个实例中,观看所述第一帧内的所述多个对象中的一个对象的相应观看者改变为观看所述第二帧内的所述多个对象中的不同的一个对象;
使信息被提供,所述信息涉及所述视频的所述第一帧与所述第二帧之间的关于被包括在所述第一帧和所述第二帧内的所述多个对象的观看行为的改变;以及
至少部分地基于所述视频的所述第一帧与所述第二帧之间的观看行为的所述改变来定义故事线;其中所述故事线包括所述视频的一系列多个顺序区域。
11.根据权利要求10所述的方法,其中定义所述故事线包括:至少部分地基于从观看所述第一帧中的第一对象到观看所述第二帧中的第二对象的观看行为的所述改变,定义所述故事线以聚焦于所述第一帧中的所述第一对象和所述第二帧中的所述第二对象。
12.根据权利要求10至11中任一项所述的方法,进一步包括:至少部分地基于所述视频的所述第一帧与所述第二帧之间的观看行为的所述改变,来修改至少所述第二帧的图像质量。
13.一种计算机可读存储介质,其中存储有计算机可读程序代码,所述计算机可读程序代码被配置为在执行时运行权利要求10至12中任一项所述的方法。
CN201880078768.7A 2017-12-08 2018-12-07 用于应用视频观看行为的方法和装置 Active CN111527495B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP17206102.0 2017-12-08
EP17206102.0A EP3496100A1 (en) 2017-12-08 2017-12-08 Method and apparatus for applying video viewing behavior
PCT/FI2018/050885 WO2019110874A1 (en) 2017-12-08 2018-12-07 Method and apparatus for applying video viewing behavior

Publications (2)

Publication Number Publication Date
CN111527495A CN111527495A (zh) 2020-08-11
CN111527495B true CN111527495B (zh) 2023-08-11

Family

ID=60673264

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201880078768.7A Active CN111527495B (zh) 2017-12-08 2018-12-07 用于应用视频观看行为的方法和装置

Country Status (4)

Country Link
US (1) US11188757B2 (zh)
EP (1) EP3496100A1 (zh)
CN (1) CN111527495B (zh)
WO (1) WO2019110874A1 (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111163306B (zh) * 2018-11-08 2022-04-05 华为技术有限公司 一种vr视频处理的方法及相关装置
CN109905624B (zh) * 2019-03-01 2020-10-16 北京大学深圳研究生院 一种视频帧插值方法、装置及设备
CN114885201B (zh) * 2022-05-06 2024-04-02 林间 视频对比查看方法、装置、设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011042989A1 (ja) * 2009-10-09 2011-04-14 Kikuchi Kouichi 視認情景に対する視認者情感判定装置
CN102170577A (zh) * 2010-02-26 2011-08-31 索尼公司 用于处理视频图像的方法和系统
CN103999032A (zh) * 2011-12-12 2014-08-20 英特尔公司 显示元素中所包括的感兴趣的区域的兴趣度分数
EP3058873A1 (en) * 2013-10-17 2016-08-24 Natsume Research Institute, Co., Ltd. Device for measuring visual efficacy
CN106296235A (zh) * 2015-05-18 2017-01-04 株式会社理光 兴趣度评估方法和兴趣度评估装置

Family Cites Families (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8856030B2 (en) 2003-04-07 2014-10-07 Sevenecho, Llc Method, system and software for associating attributes within digital media presentations
US7881493B1 (en) 2003-04-11 2011-02-01 Eyetools, Inc. Methods and apparatuses for use of eye interpretation information
US7500916B2 (en) 2005-11-07 2009-03-10 Microsoft Corporation Game strategy analysis tool generating a two dimensional image overlaid with telemetry data
US7844915B2 (en) * 2007-01-07 2010-11-30 Apple Inc. Application programming interfaces for scrolling operations
CN102239505B (zh) 2008-10-03 2014-10-22 3M创新有限公司 用于优化场景的系统和方法
IL195848A0 (en) * 2008-12-10 2009-09-01 Artivision Technologies Ltd A method and device for processing video frames
US20120026340A1 (en) * 2009-01-15 2012-02-02 Honeywell International Inc. Systems and methods for presenting video data
US8566348B2 (en) 2010-05-24 2013-10-22 Intersect Ptp, Inc. Systems and methods for collaborative storytelling in a virtual space
US8660673B2 (en) 2011-03-23 2014-02-25 Electronic Entertainment Design And Research In-game contextual telemetry systems and methods
US8814696B2 (en) * 2011-04-13 2014-08-26 Zynga Inc. System and method for providing branded virtual objects in a virtual environment
JP5810296B2 (ja) * 2011-06-07 2015-11-11 パナソニックIpマネジメント株式会社 画像表示装置及び画像表示方法
US9098503B1 (en) 2011-10-06 2015-08-04 Pixar Subselection of portions of an image review sequence using spatial or other selectors
US9641763B2 (en) * 2012-08-29 2017-05-02 Conduent Business Services, Llc System and method for object tracking and timing across multiple camera views
US20140153900A1 (en) 2012-12-05 2014-06-05 Samsung Electronics Co., Ltd. Video processing apparatus and method
US9619529B2 (en) 2013-03-14 2017-04-11 Adobe Systems Incorporated Method and system of visualizing rendering data
US9886867B2 (en) 2013-09-05 2018-02-06 Analyttica Datalab Inc. Simulation based learning system and method for training and scoring one or more challenges taken by a user
US20150363949A1 (en) * 2014-06-12 2015-12-17 Informatica Corporation Stadium view visualization
GB2532243A (en) * 2014-11-13 2016-05-18 Nokia Technologies Oy An apparatus, method and computer program for using gaze tracking information
US9997199B2 (en) 2014-12-05 2018-06-12 Warner Bros. Entertainment Inc. Immersive virtual reality production and playback for storytelling content
WO2016115154A1 (en) 2015-01-14 2016-07-21 MindsightMedia, Inc. Data mining, influencing viewer selections, and user interfaces
WO2016114918A1 (en) 2015-01-15 2016-07-21 Pcms Holdings, Inc. Systems and methods for providing navigation directions based on emotions and activities
US20170024095A1 (en) * 2015-01-19 2017-01-26 Dane Glasgow Multi-media platform
US10042506B2 (en) 2015-03-19 2018-08-07 Disney Enterprises, Inc. Interactive story development system and method for creating a narrative of a storyline
US9778740B2 (en) 2015-04-10 2017-10-03 Finwe Oy Method and system for tracking an interest of a user within a panoramic visual content
US20160300392A1 (en) 2015-04-10 2016-10-13 VR Global, Inc. Systems, media, and methods for providing improved virtual reality tours and associated analytics
US20160371726A1 (en) * 2015-06-22 2016-12-22 Kabushiki Kaisha Toshiba Information processing apparatus, information processing method, and computer program product
US20170104927A1 (en) 2015-10-07 2017-04-13 Little Star Media, Inc. Systems, methods and software programs for 360 degree video distribution platforms
US10289908B2 (en) * 2015-10-21 2019-05-14 Nokia Technologies Oy Method, apparatus, and computer program product for tracking eye gaze and eye movement
KR20180086078A (ko) * 2017-01-20 2018-07-30 삼성전자주식회사 전자 장치 및 전자 장치의 화면 표시 방법
US20180373348A1 (en) * 2017-06-22 2018-12-27 Microsoft Technology Licensing, Llc Systems and methods of active brightness depth calculation for object tracking
TWI633501B (zh) * 2017-08-15 2018-08-21 晶睿通訊股份有限公司 物件計數裝置、物件計數系統及物件計數方法
US10650238B2 (en) * 2018-03-28 2020-05-12 Boohma Technologies Llc Opportunity to view an object in image processing

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011042989A1 (ja) * 2009-10-09 2011-04-14 Kikuchi Kouichi 視認情景に対する視認者情感判定装置
CN102170577A (zh) * 2010-02-26 2011-08-31 索尼公司 用于处理视频图像的方法和系统
CN103999032A (zh) * 2011-12-12 2014-08-20 英特尔公司 显示元素中所包括的感兴趣的区域的兴趣度分数
EP3058873A1 (en) * 2013-10-17 2016-08-24 Natsume Research Institute, Co., Ltd. Device for measuring visual efficacy
CN106296235A (zh) * 2015-05-18 2017-01-04 株式会社理光 兴趣度评估方法和兴趣度评估装置

Also Published As

Publication number Publication date
EP3496100A1 (en) 2019-06-12
CN111527495A (zh) 2020-08-11
US11188757B2 (en) 2021-11-30
US20200285857A1 (en) 2020-09-10
WO2019110874A1 (en) 2019-06-13

Similar Documents

Publication Publication Date Title
US11776199B2 (en) Virtual reality environment based manipulation of multi-layered multi-view interactive digital media representations
US20210344891A1 (en) System and method for generating combined embedded multi-view interactive digital media representations
US11019283B2 (en) Augmenting detected regions in image or video data
US10861159B2 (en) Method, system and computer program product for automatically altering a video stream
Lai et al. Semantic-driven generation of hyperlapse from 360 degree video
US10726560B2 (en) Real-time mobile device capture and generation of art-styled AR/VR content
JP7098604B2 (ja) 動的エンティティのマルチビューインタラクティブデジタルメディア表現における対象の自動タグ付け
Startsev et al. 360-aware saliency estimation with conventional image saliency predictors
US20170148223A1 (en) Real-time mobile device capture and generation of ar/vr content
Higuchi et al. Egoscanning: Quickly scanning first-person videos with egocentric elastic timelines
CN111527495B (zh) 用于应用视频观看行为的方法和装置
KR20160086868A (ko) 서라운드 뷰들에서의 레이어들 및 객체들의 분석 및 조작
WO2018052665A1 (en) Virtual reality environment based manipulation of multi-layered multi-view interactive digital media representations
CN113436136A (zh) 以对象为中心的扫描
KR20190138896A (ko) 화상 처리 장치, 화상 처리 방법 및 프로그램
CN108140401B (zh) 访问视频片段
US11195555B2 (en) Method and apparatus for defining a storyline based on path probabilities
Katti et al. Online estimation of evolving human visual interest
WO2019213392A1 (en) System and method for generating combined embedded multi-view interactive digital media representations
de Haan et al. Spatial navigation for context-aware video surveillance
US20190174157A1 (en) Dynamic content rendering in media
US11778155B2 (en) Image processing apparatus, image processing method, and storage medium
Wang Viewing support system for multi-view videos

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant