CN109791556A - 一种用于从移动视频自动创建拼贴的方法 - Google Patents

一种用于从移动视频自动创建拼贴的方法 Download PDF

Info

Publication number
CN109791556A
CN109791556A CN201780045540.3A CN201780045540A CN109791556A CN 109791556 A CN109791556 A CN 109791556A CN 201780045540 A CN201780045540 A CN 201780045540A CN 109791556 A CN109791556 A CN 109791556A
Authority
CN
China
Prior art keywords
frame
video
video sequence
computer
readable medium
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201780045540.3A
Other languages
English (en)
Other versions
CN109791556B (zh
Inventor
亚历山大·C·路易
劳拉·R·惠特比
约瑟夫·A·马尼科
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kodak Alaris Inc
Original Assignee
Kodak Alaris Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kodak Alaris Inc filed Critical Kodak Alaris Inc
Publication of CN109791556A publication Critical patent/CN109791556A/zh
Application granted granted Critical
Publication of CN109791556B publication Critical patent/CN109791556B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/74Browsing; Visualisation therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • G06T11/60Editing figures and text; Combining figures or text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0484Interaction techniques based on graphical user interfaces [GUI] for the control of specific functions or operations, e.g. selecting or manipulating an object, an image or a displayed text element, setting a parameter value or selecting a range
    • G06F3/04845Interaction techniques based on graphical user interfaces [GUI] for the control of specific functions or operations, e.g. selecting or manipulating an object, an image or a displayed text element, setting a parameter value or selecting a range for image manipulation, e.g. dragging, rotation, expansion or change of colour
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • General Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Library & Information Science (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Processing Or Creating Images (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

提供了一种用于从视频序列自动创建拼贴的方法和系统。该系统和方法从视频序列动态地提取关键帧,其用于创建显示上示出的拼贴。通过改变光标的位置,提取一组新的关键帧,并且拼贴的内容将对应地改变反映关键帧选择中的变化。该方法还包括用户界面元素,以允许用户改变拼贴上的视频帧的布局设计(例如,旋转、重叠、空白空间、图像缩放)。另外,该方法包括通过使用各种帧中自动地检测的语义概念作为索引点来浏览视频序列的不同方式。此外,该方法包括基于运动特性(例如,变焦/摇摄,对象的运动)、音频活动或面部表情来定义滑动属性用于浏览视频序列。

Description

一种用于从移动视频自动创建拼贴的方法
相关申请的交叉引用
本申请要求2016年7月28日提交的美国临时专利申请号62/367962的优先权,其通过引用其整体也并入本文。
背景技术
随着电子移动设备诸如智能手机和新型数字捕获设备的快速发展和更低得成本,由设备用户生成的视频正变得越来越流行,正如大容量的视频上传以及社交网络中的视频观看所显示的那样。这些大量视频也对用户有效地组织、管理和检索他们的视频构成挑战。此外,许多用户将他们的图像和视频文件直接存储在他们的移动设备上。因此,需要便于在移动设备上容易地访问和检索用户生成的内容,允许用户更好地利用图像和视频内容用于与朋友和家人共享,或者用于享受他们生活中的特殊事件和时刻。
通过更容易地访问其媒体内容,用户可以创建个性化的照片产品和数字输出。这些包括拼贴画、相册、贺卡、海报、多媒体幻灯片和精彩视频。这些还包括具有图像的其他产品,诸如马克杯和T恤,具有盖印在产品的各个表面上的个性化图像。应当注意,静止图像以及从视频序列中提取的帧可以用于创建这些个性化或数字产品。
用户生成的视频以及它们的非结构化内容的复杂性质对用户用于从捕获的视频序列检索、排序和共享有趣的内容构成巨大的挑战。当在移动设备诸如智能手机或平板电脑上访问和操纵视频时,这尤其具有挑战性。
允许用户基于从视频序列内选择指定的关键帧来交互地选择和动态地调整移动设备上的拼贴输出的系统和方法将是非常有用的。本发明满足了这种需要,并且它允许用户通过简单的用户动作容易地从在他的/她的移动设备或数字捕获设备上捕获的视频定位有趣的视频帧,创建和调整拼贴的布局。
发明内容
本发明涉及一种用于与在移动设备上的视频交互的系统和方法。特别是,它允许用户构建他们的视频摘要,用于打印或与朋友和家庭分享。通过利用先进的视频处理算法,自动地提取来自视频序列的关键帧,以用作视频序列的有趣和相关片段的索引点。该系统和方法包括以动态方式使用从视频序列提取的帧自动创建拼贴,即,当从视频序列提取或选择帧的不同组时,将对应地生成新的拼贴。当检测到新的视频捕获时,这可以是由设备发起的自动过程的一部分。同样,用户可以手动地添加或删除自动地提取的帧以生成拼贴。
附图说明
图1显示了从舞蹈表演会的用户/消费者视频生成的示例性拼贴。
图2是用于移动视频拼贴创建的方法和系统的图形说明。
图3是具有倾斜拼贴布局的自动提取的关键帧的图示。
图4示出了使用从由用户在移动或视频捕获设备上创建的视频提取的关键帧的非限制性布局示例。
图5示出了本发明的一方面,其允许用户容易地在表示视频序列的视频帧条上滑动,以通过利用使用本文描述的关键帧提取算法识别的关键帧作为索引点来快速定位感兴趣的帧/片段。
图6示出了来自示例性视频序列的运动矢量轨迹。
图7示出了来自相关联的视频序列的音频信号的示例图。
图8提供了显示由用户界面提供的一些滑动属性的表。
具体实施方式
本发明涉及一种用于从移动视频自动地创建拼贴的系统和方法。表示视频序列的一种方式是从其内容中提取有趣的关键帧。关键视频帧的选择在许多应用中是有用的。例如,通常期望提取并呈现视频数据的子集,其可以传达视频的准确且可识别的摘要或概要。关键帧提取算法用于从视频选择信息最丰富的帧的子集,其目的是使用有限数量的帧表示视频的最重要内容。关键帧提取在视频处理的几个广泛领域中找到应用,诸如视频摘要、创建DVD中的章节标题、视频索引以及从视频制作照片。摘要或概要还可以促进视频共享或帮助用户决定是否值得下载或查看完整视频。关键帧提取是活跃的研究领域,并且存在许多用于从视频提取关键帧的方法。
作为示例,如图1所示,从舞蹈表演会的消费者视频生成拼贴。在图1中,提取表示舞蹈序列的不同移动的不同关键帧(101-106)并用于组成概括舞蹈视频的动作的照片拼贴(100)。目前,没有容易的方法让用户完成此任务,而无需经过一系列繁琐的步骤来访问视频、整理整个视频序列、识别有趣的关键帧、编辑视频以拉出这些帧以及将这些帧放入拼贴或其他最终形式。
本发明可以由非暂时性计算机可读介质实现,具有存储在其上的由一个或多个处理器执行的指令。图2是用于移动视频拼贴创建的方法和系统的图形说明。具体地,该方法和系统包括:1)用于处理和分析视频和图像的算法;2)用户界面(GUI)功能,便于用户选择和交互;以及3)用于创建和产生各种类型的拼贴的应用。这些部件可以完全地在移动设备上实现,或者在客户端-服务器架构上实现,例如,其中一些部件可以在客户端设备上实现,而一些在服务器上(例如,商业云服务器)。
参考图2,到系统的输入可以是由移动设备诸如智能手机或平板电脑直接捕获的数字视频序列,或者可以是下载到设备的视频序列。例如,视频序列可以从社交媒体站点(例如, )、从网站、从存储在本地或远程存储器上的已保存视频序列或从包括在电子邮件附件中的视频下载。系统的操作(本文称为移动拼贴App)涉及以下内容:
1.用户发动移动拼贴App并从一组捕获或下载的视频序列选择视频序列。可替代地,系统自动地检测在移动捕获设备中捕获的新视频并发起移动拼贴App。
2.显示视频帧201的可视化,其中显示的第一侧(例如左手侧)对应于起始帧203并且显示的第二侧(例如右手大小(侧))对应于视频序列的结尾帧204。
3.通过使用一对可选择光标202,用户通过沿着视频序列的长度移动光标202来调整视频序列的片段的起点和终点。移动拼贴App检测光标的移动,并响应于移动选择视频的起始点和结尾点。默认情况下,起始点和结尾点分别位于所选择的视频序列的开头和结尾。
4.当根据光标的位置定位视频片段时,移动拼贴App将自动地从视频片段提取多个关键帧。这可以通过使用任何已知的提取方法来完成,诸如Loui和Rhoda的题为“Amethod for selecting frames from video based on incremental improvement.”的美国专利申请号14/475074中所描述的。这组关键帧表示视频片段的摘要。在另一实施方式中,可以基于诸如包含特定人员的面部的帧、包含相似颜色直方图(柱状图)的帧、包含特定对象的帧等其他标准来提取该组关键帧。可以使用各种索引标准从所选择的视频片段提取多个关键帧。另外或可替代地,可以使用各种滑动属性从所选择的视频片段提取多个关键帧。索引标准主要是在各个视频帧上检测到的语义概念,而滑动属性是与整个视频序列相关的更全局的特性,诸如跨视频帧的对象的运动或运动特性。索引标准的非限制性示例包括面部特征、自然场景、动物、天空元素、城市景观等。滑动属性的非限制性示例包括移动对象的速度、音频活动以及面部的出现或人的表情。
5.然后,移动拼贴App将使用提取的关键帧生成拼贴布局205,并在移动拼贴App的显示区域200中显示拼贴。
6.当用户改变光标的位置时,提取一组新的关键帧,并且拼贴的内容将对应地改变反映关键帧选择中的改变。所选择的关键帧的数量取决于视频片段的长度以及起始点和结尾点。关键帧提取算法将基于这些参数以及所选择的视频片段的运动特性来确定关键帧。注意,用于较长扩展片段的关键帧的数量可能不必增加。这取决于是否基于各种特征诸如运动特性、相关联的音频、帧的质量等来检测附加关键帧。
7.参考图3,用户可以使用其他图形用户界面特征来改变拼贴上的视频帧的布局形态面(方面)。例如,通过叠加在视频序列显示区域上的倾斜框301,用户可以旋转指示要应用于拼贴上的帧的倾斜偏好的框。旋转的量指示要应用于每个帧的倾斜幅度。倾斜取向(左或右)将由用户通过用户界面随机或手动应用于帧。得到的布局302在图3中所示。下面讨论附加接口特征。
8.用户选择用于打印303或与其他人共享304,诸如在社交媒体网络(例如,Facebook、Instagram、Google+)上发布的拼贴。
应当注意,除了旋转或倾斜框(frames)选项(如图3中所示)之外,可以在UI上实现其他布局效果和特征诸如重叠、空白空间、图像缩放。图4示出了使用从消费者视频提取的关键帧的非限制性布局示例。在图4(a)中,所提取的关键帧以图形顶部上的按发生时间(年代)顺序排列的序列401显示,其中关键帧中的一个被放大并在序列下方突出。在图4(b)中,关键帧被缩放以在拼贴上创建更多的空白空间,其中强调图像402放置在其他帧的顶部的中心。在图4(c)中,关键帧被缩放以占据几乎整个拼贴区域403,其中留下小的空白空间。最后,在图4(d)中,关键帧以不同的角度旋转并彼此重叠,以创建更加异想天开的拼贴种类404。应当注意,以上仅是几个示例,并且使用所公开的系统可以实现许多其他布局样式和主题。具体地,使用基于模板的方法可以实现这些各种布局样式,其中可以由用户从存储在设备上或通过云的模板库中选择预定义的布局模板。可替代地,可以使用算法来生成这些不同的布局样式。由Geigel和Loui在“Using genetic algorithms for album pagelayouts”,IEEE Multimedia-Special Issue on Multimedia Content Modeling andPersonalization,2003年10月-12月中描述了一种这样的算法。参考本文,在页面布局模块中使用遗传算法,其采用用户布局偏好(例如,旋转度、空白空间的量等)来自动生成各种布局。用户可以通过用户界面元素选择这些布局效果和偏好(304旋转帧、305访问其他效果),如图3中所示。
该系统和方法还便于在移动设备上容易地访问和检索用户的视频内容。由于视频的序列性质,在视频序列中定位正确的帧或片段对于消费者来说是非常繁琐的任务。为了克服这些挑战和障碍,该系统和方法包括响应于用户动作的编程,其允许用户容易地从视频查看和选择某些期望的帧。参考图5,这些特征之一允许用户容易地在表示视频序列的视频帧条501上滑动以快速定位感兴趣的帧/片段。这是通过利用先前描述的使用关键帧提取算法识别的关键帧作为索引点502来实现的。当用户跨视频帧条501滑动时,下一个自动地检测的索引点502将停在视频电影条区域501的中心(或其他可选择的点)。如果用户继续滑动,则显示将继续前进到下一个检测到的索引点502直到最后一个。可以从任一方向完成滑动,允许用户导航到视频片段中任何地方的关键帧。
本发明的系统和方法(以及移动拼贴App)还可以允许手动选择视频内容主题503以指导关键帧或索引点选择过程。(例如,用户可以对所需的索引标准或滑动属性做出选择,并且移动拼贴App将“接管”和自动地“滑动”视频并停止以向用户显示检索到的视频部分。然后,用户将选择该选择,并且然后将发生拼贴事件。)这将有助于用户快速地缩小他/她正在寻找的内容类型。示例索引标准包括“面部”、“动物”、“水”或“日落”,如图5中所示。当用户选择诸如“面部”之类的主题时,滑动动作将定位包含检测到的面部的下一个索引点(关键帧)。在面部或人员出现在多个帧中的情况下,最佳关键帧将表示包含相同面部或人员的连续帧。可以通过使用图像质量度量诸如清晰度、对比度、色调平衡和噪声水平来确定最佳关键帧。可替代地,可以使用面部质量度量,其中质量测量仅应用于检测到的面部区域。又一种替代方案是组合两种类型的质量测量,即基于图像和基于面部的度量。
此外,可以由移动拼贴App通过视频序列的语义内容分析自动地发现一组视频内容主题503。具体地,语义内容分析算法的输出是一组语义概念标签,其是从视频帧的图像像素和相关联的元数据(例如,捕获日期/时间、GPS位置)计算的,如果可用的话。这些语义概念标签包括中级概念标签(例如,天空、水、草)和高级概念标签(例如,人、动物、海滩、运动)两者。
可以执行用于中级语义分析的方法,通过使用无监督和监督学习的组合,用于图像区域分类。该方法包括以下步骤:a)从由图像像素组成的输入图像提取一个或多个特征;b)基于提取的特征执行无监督学习,以获得图像像素的聚类概率图;c)基于提取的特征执行监督学习,以获得图像像素的类概率图;以及d)组合来自无监督学习的聚类概率图和来自监督学习的类概率图,以生成修改的类概率图,以确定图像区域的语义类。语义类的示例包括天空、水、沙/土、皮肤和草/树。步骤a)中提取的特征可以包括颜色和文本特征。b)中的无监督学习步骤包括以下内容:1)确定输入图像中的聚类的数量,2)估计描述聚类的概率模型的参数;以及3)根据概率模型将每个图像像素分配给聚类中的一个。该方法的细节描述于2006年5月2日的美国专利US 7039239中。
可以使用称为短期视听原子(S-AVA)的表示来执行用于高级语义概念检测的方法。S-AVA被定义为与区域视觉特征和背景音频特征相关联的短期区域轨道。从短期区域轨道提取各种视觉特征,诸如颜色、纹理、边缘和运动。音频特征基于音频数据的匹配追踪(MP)表示。MP基函数对应于能量的集中突发,在时间和频率上定位并且跨越一系列时频权衡,允许我们用最有效地解释其结构的基函数来描述音频信号。最后,学习联合视听分类器(使用例如多实例学习)以对视频序列进行分类。语义类(概念标签)的示例是“人”、“动物”、“海滩”和“日落”。这种方法的细节由W.Jiang、C.Cotton、S.Chang、D.Ellis和A.Loui在Proc.ACM Multimedia 2009中的“Short-term audio-visual atoms for generic videoconcept classification”论文中描述。
本发明利用这些算法的输出来帮助将视频帧组织成不同的语义类。这些算法的输出是概念标签,诸如“水”、“日落”、“人”等。通过利用这些语义内容分析算法的输出标签,该系统和方法为每个视频序列提供定制的主题组。例如,如果在整个视频中没有检测到人员或面部,则“面部”主题将不会展现在用户界面上。
该系统可以利用从视频序列的运动特性导出的信息。(之前描述的“滑动属性”可以包括该信息。)例如,可以从分析视频序列的运动矢量或者从相机的元数据来检测变焦和摇摄(随动拍摄)信息。在一些实施方式中,使用双参数全局运动模型来执行全局运动分析,其提供作为时间的函数的平移偏移信息(水平和竖直平移)。在其他实施方式中,可以使用更复杂的全局运动模型来提供附加信息,诸如在三个正交轴线上的旋转信息和缩放(变焦)信息。使用局部运动模型来执行局部运动分析,其提供密集局部运动信息。在一些实施方式中,局部运动模型为每个像素提供作为时间的函数的平移运动值。局部运动模型还可以提供更粗略的运动估计,例如为每个8×8或16×16像素块提供平移运动值。在优选实施方式中,局部运动信息提供在视频帧的中心区域中发生的运动程度的指示。例如,这可以通过计数被识别为移动区域的一部分的视频帧的中心区域中的像素的数量来计算。分别由全局运动分析和局部运动分析确定的全局运动信息和局部运动信息是分类器的输入,其确定用于多个视频帧的视频帧分类。
每当相机在捕获该帧的同时放大或缩小时,分类器将视频帧分类为变焦视频帧。可以使用包括缩放参数以检测变焦的全局运动模型通过数字图像分析来检测变焦过程。通过识别发送到变焦马达驱动器的信号来调节变焦镜头,也可以在捕获时检测变焦过程。
每当在该视频帧期间发生的全局平移运动的幅度超过阈值时,分类器将视频帧分类为快速摇摄视频帧。
每当全局平移运动的幅度和变焦运动的幅度以及局部运动的幅度低于指定阈值时,分类器将视频帧分类为非活动视频帧。这种视频帧指示相对静止的捕获设备和具有相对小的对象运动的场景。
使用该特征,如果如上所述在视频序列中检测到诸如动作,在变焦或快速摇摄动作之后,用户可以双击视频片段以自动定位关键帧。在变焦或快速摇摄动作后,在下一个或另一片段上进行相同操作将定位不同的关键帧,依此类推。
用户界面还可以提供如图8中提供的表1的列1中列出的其他滑动属性。这些包括但不限于,移动视频对象的速度、音频活动、面部的外观和人的表情。这些附加属性可以用在类似的滑动动作中,以具有不同语义含义的更具体的方式搜索和浏览。例如,如果用户选择“运动矢量轨迹”属性,并且取决于在视频序列中的主要移动对象的速度选择的阈值,则滑动动作将自动地从视频片段确定合适的代表帧,其满足速度阈值。如图6所示,对于示例视频序列,主要移动对象的速度由运动矢量轨迹指示。具体地,y轴线的幅度对应于对象的速度。可以由系统基于典型视频序列的经验评估来设置默认运动阈值。可以由用户通过用户界面经由系统设置来改变阈值。因此,通常,运动阈值越高,在滑动期间将显示的(或用作为索引点的)帧的数量越少,反之亦然。
作为另一示例,如果用户选择“音频活动”属性,并设置音频音量的阈值,则滑动动作将自动地从视频片段确定合适的代表帧,其满足音量阈值。图7中显示了来自相关联的视频序列的音频信号的示例图。该信号可以由系统从视频序列提取。例如,MPEG视频将包含单独的视频和音频轨道,其可以使用任何MPEG解码软件诸如ffmpeg提取。在这种情况下,音频分段的音量由y轴线的幅度指示。可以由系统基于与视频序列相关联的典型音频信号的经验评估来设置默认音频阈值。可以由用户通过用户界面经由系统设置来改变阈值。因此,通常,音频阈值越高,在滑动期间将显示的(或用作为索引点的)帧的数量越少,反之亦然。
表1总结了这些附加滑动属性和对应的用户界面控制特征(第2列)。选择具有对应于“面部的外观”或“表情”的滑动动作的操作还涉及将视频帧与阈值进行比较。例如,对应的阈值可以是视频帧上检测到的面部的数量,以及预定义的表情选择之一(诸如快乐、惊讶、生气)。面部和表情属性将取决于使用面部检测算法来检测和分析面部区域。通过计数检测到的面部的边界框的数量来确定检测到的面部的数量,其是面部检测算法的典型输出格式。对于面部表情分析,可以使用许多面部特征,诸如口腔张开度、口腔延长度和眼睛张开度的测量。附加全局特征诸如伽柏(Gabor)过滤器也可用于表情分类。该方法的细节由T.Wang、M.Bartleet和J.Movellan在IEEE Computer Vision and Pattern RecognitionWorkshops,2010年6月的论文“Facial expression recognition using Gabor motionenergy filters,”中描述。App将分析视频序列以检测面部并根据表情类对每个面部进行分类。然后,用户可以经由用户界面选择特定表情(诸如“快乐”或“激动”,如果存在)。这些属性和控制特征(阈值)提供了比现有手动方法更有效和高效地搜索和浏览关键或有趣视频帧的附加方式。
另外,滑动属性可以包括面部聚类的能力,即,将相似面部分组在一起。这将允许用户选择特定面部作为搜索属性。这将涉及附加分析以提取面部特征用于聚类,以及用户界面元素用于确认和校正面部聚类。这些属性的语义性质允许用户以更有意义的方式定位相关的视频关键帧或片段。

Claims (28)

1.一种非暂时性计算机可读介质,其上存储有计算机可执行指令,由一个或多个处理器实行以执行用于从在用户设备上显示的窗口内的视频序列动态地创建拼贴的方法,所述方法包括:
显示捕获或下载的视频序列的集合;
从所捕获或下载的视频序列组中选择视频序列,所选择的视频序列包括具有起始帧和结尾帧的多个视频帧;
显示所述多个视频帧的可视化,其中显示的第一侧对应于开始帧,并且显示的第二侧对应于所选择的视频序列的结尾帧;
响应于光标沿着所述视频序列的长度的移动,调整所选择的视频序列的开始帧和结尾帧;
从所选择的视频片段中提取多个关键帧;
使用所提取的关键帧生成拼贴布局形态面;
在所述用户设备上显示所述拼贴;以及可选地
打印或在社交媒体网络上共享所述拼贴。
2.根据权利要求1所述的计算机可读介质,还包括:基于索引标准从所选择的视频片段提取多个关键帧。
3.根据权利要求2所述的计算机可读介质,其中,所述索引标准包括面部特征、自然场景、动物、天空元素或城市景观中的至少一个。
4.根据权利要求1所述的计算机可读介质,还包括:基于滑动属性从所选择的视频片段提取多个关键帧。
5.根据权利要求1所述的计算机可读介质,其中,所述滑动属性包括移动视频对象的速度、音频活动、面部的外观或人员的表情中的至少一个。
6.根据权利要求5所述的计算机可读介质,其中,基于指定速度阈值、音量阈值或预定义表情选择的滑动属性来选择所述多个关键帧。
7.根据权利要求4所述的计算机可读介质,其中,基于所述视频的运动特性来定位关键帧。
8.根据权利要求7所述的计算机可读介质,其中,所述运动特性包括定位包含变焦或快速摇摄动作的关键帧。
9.根据权利要求2所述的计算机可读介质,其中,所述索引标准包括包含特定人员的面部的帧。
10.根据权利要求2所述的计算机可读介质,其中,所述索引标准包括包含相似颜色直方图的帧。
11.根据权利要求2所述的计算机可读介质,其中,所述索引标准还包括包含特定对象的帧。
12.根据权利要求2所述的计算机可读介质,其中,从通过所述索引标准选择的连续帧向所述用户显示最佳关键帧。
13.根据权利要求1所述的计算机可读介质,其中,响应于用户选择的选项,修改所述拼贴上的视频帧的布局形态面。
14.根据权利要求1所述的计算机可读介质,其中,在所述视频帧中修改旋转、重叠、空白空间和图像缩放特征中的一个或多个。
15.一种用于从在用户设备上显示的窗口内的视频序列动态地创建拼贴的方法,所述方法包括:
在用户设备的显示窗口上显示捕获或下载的视频序列的集合;
从所捕获或下载的视频序列组中选择视频序列,所选择的视频序列包括具有起始帧和结尾帧的多个视频帧;
显示所述多个视频帧的可视化,其中显示的第一侧对应于开始帧,并且显示的第二侧对应于所选择的视频序列的结尾帧;
响应于光标沿着所述视频序列的长度的移动,调整所选择的视频序列的开始帧和结尾帧;
从所选择的视频片段中提取多个关键帧;
使用所提取的关键帧生成拼贴布局形态面;
在所述用户设备上显示所述拼贴;以及可选地
打印或在社交媒体网络上共享所述拼贴。
16.根据权利要求15所述的方法,还包括:基于索引标准从所选择的视频片段提取多个关键帧。
17.根据权利要求16所述的方法,其中,所述索引标准包括面部特征、自然场景、动物、天空元素或城市景观中的至少一个。
18.根据权利要求15所述的方法,还包括:基于滑动属性从所选择的视频片段提取多个关键帧。
19.根据权利要求18所述的方法,其中,所述滑动属性包括移动视频对象的速度、音频活动、面部的外观和人员的表情中的至少一个。
20.根据权利要求19所述的方法,其中,基于指定速度阈值、音量阈值或预定义表情选择的滑动属性来选择所述多个关键帧。
21.根据权利要求19所述的方法,其中,基于所述视频的运动特性来定位关键帧。
22.根据权利要求21所述的方法,其中,所述视频的运动特性包括定位包含变焦或实际摇摄动作的关键帧。
23.根据权利要求16所述的方法,其中,所述索引标准包括包含特定人员的面部的帧。
24.根据权利要求16所述的方法,其中,所述索引标准包括包含相似颜色直方图的帧。
25.根据权利要求16所述的方法,其中,所述索引标准还包括包含特定对象的帧。
26.根据权利要求16所述的方法,其中,从通过所述索引标准选择的连续帧向所述用户显示最佳关键帧。
27.根据权利要求15所述的方法,其中,响应于所选择的选项,修改在所述拼贴上的所述视频帧的布局形态面。
28.根据权利要求15所述的方法,其中,在所述视频帧中修改重叠、空白空间和图像缩放特征中的一个或多个。
CN201780045540.3A 2016-07-28 2017-07-27 一种用于从移动视频自动创建拼贴的方法 Active CN109791556B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201662367962P 2016-07-28 2016-07-28
US62/367,962 2016-07-28
PCT/US2017/044121 WO2018022853A1 (en) 2016-07-28 2017-07-27 A method for dynamic creation of collages from mobile video

Publications (2)

Publication Number Publication Date
CN109791556A true CN109791556A (zh) 2019-05-21
CN109791556B CN109791556B (zh) 2024-04-09

Family

ID=59558502

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201780045540.3A Active CN109791556B (zh) 2016-07-28 2017-07-27 一种用于从移动视频自动创建拼贴的方法

Country Status (4)

Country Link
US (1) US11880918B2 (zh)
EP (2) EP3491546A1 (zh)
CN (1) CN109791556B (zh)
WO (1) WO2018022853A1 (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7325308B2 (ja) * 2019-11-19 2023-08-14 ルネサスエレクトロニクス株式会社 画像処理装置及び画像処理方法
US11455731B2 (en) * 2020-09-10 2022-09-27 Adobe Inc. Video segmentation based on detected video features using a graphical model

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050228849A1 (en) * 2004-03-24 2005-10-13 Tong Zhang Intelligent key-frame extraction from a video
CN101048799A (zh) * 2004-10-25 2007-10-03 惠普开发有限公司 通过实时视频动作分析理解视频内容
CN101283581A (zh) * 2005-10-14 2008-10-08 微软公司 照片和视频拼贴效果
US20090003712A1 (en) * 2007-06-28 2009-01-01 Microsoft Corporation Video Collage Presentation
CN101689394A (zh) * 2007-02-01 2010-03-31 耶路撒冷希伯来大学伊森姆研究发展有限公司 用于视频索引和视频概要的方法和系统
AU2008264196A1 (en) * 2008-12-24 2010-07-08 Canon Kabushiki Kaisha Interactive video surveillance review and reporting system
CN102326181A (zh) * 2009-01-28 2012-01-18 惠普发展公司,有限责任合伙企业 动态图像拼贴
CN102939630A (zh) * 2010-05-25 2013-02-20 伊斯曼柯达公司 用于确定关键视频帧的方法
CN102938158A (zh) * 2011-10-18 2013-02-20 微软公司 通过直接操纵来构建动画时间线
CN103299631A (zh) * 2011-01-14 2013-09-11 思科技术公司 处理视频数据拼贴的视频编码器/解码器、方法和计算机程序产品
EP2758954A1 (en) * 2011-11-17 2014-07-30 Samsung Electronics Co., Ltd. Method and apparatus for dynamically visualizing a collection of images in the form of a collage
US20140282001A1 (en) * 2013-03-15 2014-09-18 Disney Enterprises, Inc. Gesture based video clipping control
US20150363409A1 (en) * 2014-06-11 2015-12-17 Kodak Alaris Inc. Method for creating view-based representations from multimedia collections

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7039239B2 (en) 2002-02-07 2006-05-02 Eastman Kodak Company Method for image region classification using unsupervised and supervised learning
US20130132462A1 (en) * 2011-06-03 2013-05-23 James A. Moorer Dynamically Generating and Serving Video Adapted for Client Playback in Advanced Display Modes
US9373054B2 (en) 2014-09-02 2016-06-21 Kodak Alaris Inc. Method for selecting frames from video sequences based on incremental improvement
US10074015B1 (en) * 2015-04-13 2018-09-11 Google Llc Methods, systems, and media for generating a summarized video with video thumbnails

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050228849A1 (en) * 2004-03-24 2005-10-13 Tong Zhang Intelligent key-frame extraction from a video
CN101048799A (zh) * 2004-10-25 2007-10-03 惠普开发有限公司 通过实时视频动作分析理解视频内容
CN101283581A (zh) * 2005-10-14 2008-10-08 微软公司 照片和视频拼贴效果
CN101689394A (zh) * 2007-02-01 2010-03-31 耶路撒冷希伯来大学伊森姆研究发展有限公司 用于视频索引和视频概要的方法和系统
US20090003712A1 (en) * 2007-06-28 2009-01-01 Microsoft Corporation Video Collage Presentation
AU2008264196A1 (en) * 2008-12-24 2010-07-08 Canon Kabushiki Kaisha Interactive video surveillance review and reporting system
CN102326181A (zh) * 2009-01-28 2012-01-18 惠普发展公司,有限责任合伙企业 动态图像拼贴
CN102939630A (zh) * 2010-05-25 2013-02-20 伊斯曼柯达公司 用于确定关键视频帧的方法
CN103299631A (zh) * 2011-01-14 2013-09-11 思科技术公司 处理视频数据拼贴的视频编码器/解码器、方法和计算机程序产品
CN102938158A (zh) * 2011-10-18 2013-02-20 微软公司 通过直接操纵来构建动画时间线
EP2758954A1 (en) * 2011-11-17 2014-07-30 Samsung Electronics Co., Ltd. Method and apparatus for dynamically visualizing a collection of images in the form of a collage
US20140282001A1 (en) * 2013-03-15 2014-09-18 Disney Enterprises, Inc. Gesture based video clipping control
US20150363409A1 (en) * 2014-06-11 2015-12-17 Kodak Alaris Inc. Method for creating view-based representations from multimedia collections

Also Published As

Publication number Publication date
CN109791556B (zh) 2024-04-09
EP3491546A1 (en) 2019-06-05
US11880918B2 (en) 2024-01-23
US20220222876A1 (en) 2022-07-14
WO2018022853A1 (en) 2018-02-01
EP4283492A1 (en) 2023-11-29

Similar Documents

Publication Publication Date Title
US9219830B1 (en) Methods and systems for page and spread arrangement in photo-based projects
US8990672B1 (en) Flexible design architecture for designing media-based projects in a network-based platform
US10359927B2 (en) Methods and systems for photo, page, and spread arrangement on space-constrained user devices
US9329762B1 (en) Methods and systems for reversing editing operations in media-rich projects
US8958662B1 (en) Methods and systems for automating insertion of content into media-based projects
US20200184251A1 (en) System and method for creating navigable views
US7636450B1 (en) Displaying detected objects to indicate grouping
US7813557B1 (en) Tagging detected objects
US8923551B1 (en) Systems and methods for automatically creating a photo-based project based on photo analysis and image metadata
US8548249B2 (en) Information processing apparatus, information processing method, and program
JP6074395B2 (ja) コンテンツ管理システム、管理コンテンツ生成方法、管理コンテンツ再生方法、プログラムおよび記録媒体
US8274523B2 (en) Processing digital templates for image display
US8422794B2 (en) System for matching artistic attributes of secondary image and template to a primary image
US20140328570A1 (en) Identifying, describing, and sharing salient events in images and videos
US8259995B1 (en) Designating a tag icon
US8212834B2 (en) Artistic digital template for image display
US8289340B2 (en) Method of making an artistic digital template for image display
Borgo et al. State of the art report on video‐based graphics and video visualization
US8237819B2 (en) Image capture method with artistic template design
US8849853B2 (en) Method for matching artistic attributes of a template and secondary images to a primary image
US7694885B1 (en) Indicating a tag with visual data
US7813526B1 (en) Normalizing detected objects
US8935322B1 (en) Methods and systems for improved uploading of media files for use in media-rich projects
US8345057B2 (en) Context coordination for an artistic digital template for image display
WO2011014233A1 (en) Image capture device with artistic template design

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant