CN109791556B - 一种用于从移动视频自动创建拼贴的方法 - Google Patents
一种用于从移动视频自动创建拼贴的方法 Download PDFInfo
- Publication number
- CN109791556B CN109791556B CN201780045540.3A CN201780045540A CN109791556B CN 109791556 B CN109791556 B CN 109791556B CN 201780045540 A CN201780045540 A CN 201780045540A CN 109791556 B CN109791556 B CN 109791556B
- Authority
- CN
- China
- Prior art keywords
- video
- frames
- frame
- collage
- computer
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 45
- 230000000694 effects Effects 0.000 claims abstract description 8
- 230000009471 action Effects 0.000 claims description 13
- 230000001815 facial effect Effects 0.000 claims description 8
- 241001465754 Metazoa Species 0.000 claims description 6
- 238000012800 visualization Methods 0.000 claims description 5
- 238000004091 panning Methods 0.000 claims description 3
- 230000004044 response Effects 0.000 claims description 3
- 230000008859 change Effects 0.000 abstract description 6
- 230000008921 facial expression Effects 0.000 abstract description 3
- 239000000284 extract Substances 0.000 abstract description 2
- 238000004458 analytical method Methods 0.000 description 9
- 238000000605 extraction Methods 0.000 description 7
- 102100028065 Fibulin-5 Human genes 0.000 description 4
- 101710170766 Fibulin-5 Proteins 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 230000005236 sound signal Effects 0.000 description 4
- 239000013598 vector Substances 0.000 description 4
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 4
- 238000001514 detection method Methods 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 244000025254 Cannabis sativa Species 0.000 description 2
- 238000013459 approach Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 230000002068 genetic effect Effects 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- 238000013442 quality metrics Methods 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 240000000047 Gossypium barbadense Species 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000011496 digital image analysis Methods 0.000 description 1
- 238000010195 expression analysis Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000001151 other effect Effects 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 239000004576 sand Substances 0.000 description 1
- 239000002689 soil Substances 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 230000014616 translation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T11/00—2D [Two Dimensional] image generation
- G06T11/60—Editing figures and text; Combining figures or text
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/74—Browsing; Visualisation therefor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/78—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/783—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/048—Interaction techniques based on graphical user interfaces [GUI]
- G06F3/0484—Interaction techniques based on graphical user interfaces [GUI] for the control of specific functions or operations, e.g. selecting or manipulating an object, an image or a displayed text element, setting a parameter value or selecting a range
- G06F3/04845—Interaction techniques based on graphical user interfaces [GUI] for the control of specific functions or operations, e.g. selecting or manipulating an object, an image or a displayed text element, setting a parameter value or selecting a range for image manipulation, e.g. dragging, rotation, expansion or change of colour
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- General Engineering & Computer Science (AREA)
- Human Computer Interaction (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Library & Information Science (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- User Interface Of Digital Computer (AREA)
- Processing Or Creating Images (AREA)
Abstract
提供了一种用于从视频序列自动创建拼贴的方法和系统。该系统和方法从视频序列动态地提取关键帧,其用于创建显示上示出的拼贴。通过改变光标的位置,提取一组新的关键帧,并且拼贴的内容将对应地改变反映关键帧选择中的变化。该方法还包括用户界面元素,以允许用户改变拼贴上的视频帧的布局设计(例如,旋转、重叠、空白空间、图像缩放)。另外,该方法包括通过使用各种帧中自动地检测的语义概念作为索引点来浏览视频序列的不同方式。此外,该方法包括基于运动特性(例如,变焦/摇摄,对象的运动)、音频活动或面部表情来定义滑动属性用于浏览视频序列。
Description
相关申请的交叉引用
本申请要求2016年7月28日提交的美国临时专利申请号62/367962的优先权,其通过引用其整体也并入本文。
背景技术
随着电子移动设备诸如智能手机和新型数字捕获设备的快速发展和更低得成本,由设备用户生成的视频正变得越来越流行,正如大容量的视频上传以及社交网络中的视频观看所显示的那样。这些大量视频也对用户有效地组织、管理和检索他们的视频构成挑战。此外,许多用户将他们的图像和视频文件直接存储在他们的移动设备上。因此,需要便于在移动设备上容易地访问和检索用户生成的内容,允许用户更好地利用图像和视频内容用于与朋友和家人共享,或者用于享受他们生活中的特殊事件和时刻。
通过更容易地访问其媒体内容,用户可以创建个性化的照片产品和数字输出。这些包括拼贴画、相册、贺卡、海报、多媒体幻灯片和精彩视频。这些还包括具有图像的其他产品,诸如马克杯和T恤,具有盖印在产品的各个表面上的个性化图像。应当注意,静止图像以及从视频序列中提取的帧可以用于创建这些个性化或数字产品。
用户生成的视频以及它们的非结构化内容的复杂性质对用户用于从捕获的视频序列检索、排序和共享有趣的内容构成巨大的挑战。当在移动设备诸如智能手机或平板电脑上访问和操纵视频时,这尤其具有挑战性。
允许用户基于从视频序列内选择指定的关键帧来交互地选择和动态地调整移动设备上的拼贴输出的系统和方法将是非常有用的。本发明满足了这种需要,并且它允许用户通过简单的用户动作容易地从在他的/她的移动设备或数字捕获设备上捕获的视频定位有趣的视频帧,创建和调整拼贴的布局。
发明内容
本发明涉及一种用于与在移动设备上的视频交互的系统和方法。特别是,它允许用户构建他们的视频摘要,用于打印或与朋友和家庭分享。通过利用先进的视频处理算法,自动地提取来自视频序列的关键帧,以用作视频序列的有趣和相关片段的索引点。该系统和方法包括以动态方式使用从视频序列提取的帧自动创建拼贴,即,当从视频序列提取或选择帧的不同组时,将对应地生成新的拼贴。当检测到新的视频捕获时,这可以是由设备发起的自动过程的一部分。同样,用户可以手动地添加或删除自动地提取的帧以生成拼贴。
附图说明
图1显示了从舞蹈表演会的用户/消费者视频生成的示例性拼贴。
图2是用于移动视频拼贴创建的方法和系统的图形说明。
图3是具有倾斜拼贴布局的自动提取的关键帧的图示。
图4示出了使用从由用户在移动或视频捕获设备上创建的视频提取的关键帧的非限制性布局示例。
图5示出了本发明的一方面,其允许用户容易地在表示视频序列的视频帧条上滑动,以通过利用使用本文描述的关键帧提取算法识别的关键帧作为索引点来快速定位感兴趣的帧/片段。
图6示出了来自示例性视频序列的运动矢量轨迹。
图7示出了来自相关联的视频序列的音频信号的示例图。
图8提供了显示由用户界面提供的一些滑动属性的表。
具体实施方式
本发明涉及一种用于从移动视频自动地创建拼贴的系统和方法。表示视频序列的一种方式是从其内容中提取有趣的关键帧。关键视频帧的选择在许多应用中是有用的。例如,通常期望提取并呈现视频数据的子集,其可以传达视频的准确且可识别的摘要或概要。关键帧提取算法用于从视频选择信息最丰富的帧的子集,其目的是使用有限数量的帧表示视频的最重要内容。关键帧提取在视频处理的几个广泛领域中找到应用,诸如视频摘要、创建DVD中的章节标题、视频索引以及从视频制作照片。摘要或概要还可以促进视频共享或帮助用户决定是否值得下载或查看完整视频。关键帧提取是活跃的研究领域,并且存在许多用于从视频提取关键帧的方法。
作为示例,如图1所示,从舞蹈表演会的消费者视频生成拼贴。在图1中,提取表示舞蹈序列的不同移动的不同关键帧(101-106)并用于组成概括舞蹈视频的动作的照片拼贴(100)。目前,没有容易的方法让用户完成此任务,而无需经过一系列繁琐的步骤来访问视频、整理整个视频序列、识别有趣的关键帧、编辑视频以拉出这些帧以及将这些帧放入拼贴或其他最终形式。
本发明可以由非暂时性计算机可读介质实现,具有存储在其上的由一个或多个处理器执行的指令。图2是用于移动视频拼贴创建的方法和系统的图形说明。具体地,该方法和系统包括:1)用于处理和分析视频和图像的算法;2)用户界面(GUI)功能,便于用户选择和交互;以及3)用于创建和产生各种类型的拼贴的应用。这些部件可以完全地在移动设备上实现,或者在客户端-服务器架构上实现,例如,其中一些部件可以在客户端设备上实现,而一些在服务器上(例如,商业云服务器)。
参考图2,到系统的输入可以是由移动设备诸如智能手机或平板电脑直接捕获的数字视频序列,或者可以是下载到设备的视频序列。例如,视频序列可以从社交媒体站点(例如, )、从网站、从存储在本地或远程存储器上的已保存视频序列或从包括在电子邮件附件中的视频下载。系统的操作(本文称为移动拼贴App)涉及以下内容:
1.用户发动移动拼贴App并从一组捕获或下载的视频序列选择视频序列。可替代地,系统自动地检测在移动捕获设备中捕获的新视频并发起移动拼贴App。
2.显示视频帧201的可视化,其中显示的第一侧(例如左手侧)对应于起始帧203并且显示的第二侧(例如右手大小(侧))对应于视频序列的结尾帧204。
3.通过使用一对可选择光标202,用户通过沿着视频序列的长度移动光标202来调整视频序列的片段的起点和终点。移动拼贴App检测光标的移动,并响应于移动选择视频的起始点和结尾点。默认情况下,起始点和结尾点分别位于所选择的视频序列的开头和结尾。
4.当根据光标的位置定位视频片段时,移动拼贴App将自动地从视频片段提取多个关键帧。这可以通过使用任何已知的提取方法来完成,诸如Loui和Rhoda的题为“Amethod for selecting frames from video based on incremental improvement.”的美国专利申请号14/475074中所描述的。这组关键帧表示视频片段的摘要。在另一实施方式中,可以基于诸如包含特定人员的面部的帧、包含相似颜色直方图(柱状图)的帧、包含特定对象的帧等其他标准来提取该组关键帧。可以使用各种索引标准从所选择的视频片段提取多个关键帧。另外或可替代地,可以使用各种滑动属性从所选择的视频片段提取多个关键帧。索引标准主要是在各个视频帧上检测到的语义概念,而滑动属性是与整个视频序列相关的更全局的特性,诸如跨视频帧的对象的运动或运动特性。索引标准的非限制性示例包括面部特征、自然场景、动物、天空元素、城市景观等。滑动属性的非限制性示例包括移动对象的速度、音频活动以及面部的出现或人的表情。
5.然后,移动拼贴App将使用提取的关键帧生成拼贴布局205,并在移动拼贴App的显示区域200中显示拼贴。
6.当用户改变光标的位置时,提取一组新的关键帧,并且拼贴的内容将对应地改变反映关键帧选择中的改变。所选择的关键帧的数量取决于视频片段的长度以及起始点和结尾点。关键帧提取算法将基于这些参数以及所选择的视频片段的运动特性来确定关键帧。注意,用于较长扩展片段的关键帧的数量可能不必增加。这取决于是否基于各种特征诸如运动特性、相关联的音频、帧的质量等来检测附加关键帧。
7.参考图3,用户可以使用其他图形用户界面特征来改变拼贴上的视频帧的布局形态面(方面)。例如,通过叠加在视频序列显示区域上的倾斜框301,用户可以旋转指示要应用于拼贴上的帧的倾斜偏好的框。旋转的量指示要应用于每个帧的倾斜幅度。倾斜取向(左或右)将由用户通过用户界面随机或手动应用于帧。得到的布局302在图3中所示。下面讨论附加接口特征。
8.用户选择用于打印303或与其他人共享304,诸如在社交媒体网络(例如,Facebook、Instagram、Google+)上发布的拼贴。
应当注意,除了旋转或倾斜框(frames)选项(如图3中所示)之外,可以在UI上实现其他布局效果和特征诸如重叠、空白空间、图像缩放。图4示出了使用从消费者视频提取的关键帧的非限制性布局示例。在图4(a)中,所提取的关键帧以图形顶部上的按发生时间(年代)顺序排列的序列401显示,其中关键帧中的一个被放大并在序列下方突出。在图4(b)中,关键帧被缩放以在拼贴上创建更多的空白空间,其中强调图像402放置在其他帧的顶部的中心。在图4(c)中,关键帧被缩放以占据几乎整个拼贴区域403,其中留下小的空白空间。最后,在图4(d)中,关键帧以不同的角度旋转并彼此重叠,以创建更加异想天开的拼贴种类404。应当注意,以上仅是几个示例,并且使用所公开的系统可以实现许多其他布局样式和主题。具体地,使用基于模板的方法可以实现这些各种布局样式,其中可以由用户从存储在设备上或通过云的模板库中选择预定义的布局模板。可替代地,可以使用算法来生成这些不同的布局样式。由Geigel和Loui在“Using genetic algorithms for album pagelayouts”,IEEE Multimedia-Special Issue on Multimedia Content Modeling andPersonalization,2003年10月-12月中描述了一种这样的算法。参考本文,在页面布局模块中使用遗传算法,其采用用户布局偏好(例如,旋转度、空白空间的量等)来自动生成各种布局。用户可以通过用户界面元素选择这些布局效果和偏好(304旋转帧、305访问其他效果),如图3中所示。
该系统和方法还便于在移动设备上容易地访问和检索用户的视频内容。由于视频的序列性质,在视频序列中定位正确的帧或片段对于消费者来说是非常繁琐的任务。为了克服这些挑战和障碍,该系统和方法包括响应于用户动作的编程,其允许用户容易地从视频查看和选择某些期望的帧。参考图5,这些特征之一允许用户容易地在表示视频序列的视频帧条501上滑动以快速定位感兴趣的帧/片段。这是通过利用先前描述的使用关键帧提取算法识别的关键帧作为索引点502来实现的。当用户跨视频帧条501滑动时,下一个自动地检测的索引点502将停在视频电影条区域501的中心(或其他可选择的点)。如果用户继续滑动,则显示将继续前进到下一个检测到的索引点502直到最后一个。可以从任一方向完成滑动,允许用户导航到视频片段中任何地方的关键帧。
本发明的系统和方法(以及移动拼贴App)还可以允许手动选择视频内容主题503以指导关键帧或索引点选择过程。(例如,用户可以对所需的索引标准或滑动属性做出选择,并且移动拼贴App将“接管”和自动地“滑动”视频并停止以向用户显示检索到的视频部分。然后,用户将选择该选择,并且然后将发生拼贴事件。)这将有助于用户快速地缩小他/她正在寻找的内容类型。示例索引标准包括“面部”、“动物”、“水”或“日落”,如图5中所示。当用户选择诸如“面部”之类的主题时,滑动动作将定位包含检测到的面部的下一个索引点(关键帧)。在面部或人员出现在多个帧中的情况下,最佳关键帧将表示包含相同面部或人员的连续帧。可以通过使用图像质量度量诸如清晰度、对比度、色调平衡和噪声水平来确定最佳关键帧。可替代地,可以使用面部质量度量,其中质量测量仅应用于检测到的面部区域。又一种替代方案是组合两种类型的质量测量,即基于图像和基于面部的度量。
此外,可以由移动拼贴App通过视频序列的语义内容分析自动地发现一组视频内容主题503。具体地,语义内容分析算法的输出是一组语义概念标签,其是从视频帧的图像像素和相关联的元数据(例如,捕获日期/时间、GPS位置)计算的,如果可用的话。这些语义概念标签包括中级概念标签(例如,天空、水、草)和高级概念标签(例如,人、动物、海滩、运动)两者。
可以执行用于中级语义分析的方法,通过使用无监督和监督学习的组合,用于图像区域分类。该方法包括以下步骤:a)从由图像像素组成的输入图像提取一个或多个特征;b)基于提取的特征执行无监督学习,以获得图像像素的聚类概率图;c)基于提取的特征执行监督学习,以获得图像像素的类概率图;以及d)组合来自无监督学习的聚类概率图和来自监督学习的类概率图,以生成修改的类概率图,以确定图像区域的语义类。语义类的示例包括天空、水、沙/土、皮肤和草/树。步骤a)中提取的特征可以包括颜色和文本特征。b)中的无监督学习步骤包括以下内容:1)确定输入图像中的聚类的数量,2)估计描述聚类的概率模型的参数;以及3)根据概率模型将每个图像像素分配给聚类中的一个。该方法的细节描述于2006年5月2日的美国专利US 7039239中。
可以使用称为短期视听原子(S-AVA)的表示来执行用于高级语义概念检测的方法。S-AVA被定义为与区域视觉特征和背景音频特征相关联的短期区域轨道。从短期区域轨道提取各种视觉特征,诸如颜色、纹理、边缘和运动。音频特征基于音频数据的匹配追踪(MP)表示。MP基函数对应于能量的集中突发,在时间和频率上定位并且跨越一系列时频权衡,允许我们用最有效地解释其结构的基函数来描述音频信号。最后,学习联合视听分类器(使用例如多实例学习)以对视频序列进行分类。语义类(概念标签)的示例是“人”、“动物”、“海滩”和“日落”。这种方法的细节由W.Jiang、C.Cotton、S.Chang、D.Ellis和A.Loui在Proc.ACM Multimedia 2009中的“Short-term audio-visual atoms for generic videoconcept classification”论文中描述。
本发明利用这些算法的输出来帮助将视频帧组织成不同的语义类。这些算法的输出是概念标签,诸如“水”、“日落”、“人”等。通过利用这些语义内容分析算法的输出标签,该系统和方法为每个视频序列提供定制的主题组。例如,如果在整个视频中没有检测到人员或面部,则“面部”主题将不会展现在用户界面上。
该系统可以利用从视频序列的运动特性导出的信息。(之前描述的“滑动属性”可以包括该信息。)例如,可以从分析视频序列的运动矢量或者从相机的元数据来检测变焦和摇摄(随动拍摄)信息。在一些实施方式中,使用双参数全局运动模型来执行全局运动分析,其提供作为时间的函数的平移偏移信息(水平和竖直平移)。在其他实施方式中,可以使用更复杂的全局运动模型来提供附加信息,诸如在三个正交轴线上的旋转信息和缩放(变焦)信息。使用局部运动模型来执行局部运动分析,其提供密集局部运动信息。在一些实施方式中,局部运动模型为每个像素提供作为时间的函数的平移运动值。局部运动模型还可以提供更粗略的运动估计,例如为每个8×8或16×16像素块提供平移运动值。在优选实施方式中,局部运动信息提供在视频帧的中心区域中发生的运动程度的指示。例如,这可以通过计数被识别为移动区域的一部分的视频帧的中心区域中的像素的数量来计算。分别由全局运动分析和局部运动分析确定的全局运动信息和局部运动信息是分类器的输入,其确定用于多个视频帧的视频帧分类。
每当相机在捕获该帧的同时放大或缩小时,分类器将视频帧分类为变焦视频帧。可以使用包括缩放参数以检测变焦的全局运动模型通过数字图像分析来检测变焦过程。通过识别发送到变焦马达驱动器的信号来调节变焦镜头,也可以在捕获时检测变焦过程。
每当在该视频帧期间发生的全局平移运动的幅度超过阈值时,分类器将视频帧分类为快速摇摄视频帧。
每当全局平移运动的幅度和变焦运动的幅度以及局部运动的幅度低于指定阈值时,分类器将视频帧分类为非活动视频帧。这种视频帧指示相对静止的捕获设备和具有相对小的对象运动的场景。
使用该特征,如果如上所述在视频序列中检测到诸如动作,在变焦或快速摇摄动作之后,用户可以双击视频片段以自动定位关键帧。在变焦或快速摇摄动作后,在下一个或另一片段上进行相同操作将定位不同的关键帧,依此类推。
用户界面还可以提供如图8中提供的表1的列1中列出的其他滑动属性。这些包括但不限于,移动视频对象的速度、音频活动、面部的外观和人的表情。这些附加属性可以用在类似的滑动动作中,以具有不同语义含义的更具体的方式搜索和浏览。例如,如果用户选择“运动矢量轨迹”属性,并且取决于在视频序列中的主要移动对象的速度选择的阈值,则滑动动作将自动地从视频片段确定合适的代表帧,其满足速度阈值。如图6所示,对于示例视频序列,主要移动对象的速度由运动矢量轨迹指示。具体地,y轴线的幅度对应于对象的速度。可以由系统基于典型视频序列的经验评估来设置默认运动阈值。可以由用户通过用户界面经由系统设置来改变阈值。因此,通常,运动阈值越高,在滑动期间将显示的(或用作为索引点的)帧的数量越少,反之亦然。
作为另一示例,如果用户选择“音频活动”属性,并设置音频音量的阈值,则滑动动作将自动地从视频片段确定合适的代表帧,其满足音量阈值。图7中显示了来自相关联的视频序列的音频信号的示例图。该信号可以由系统从视频序列提取。例如,MPEG视频将包含单独的视频和音频轨道,其可以使用任何MPEG解码软件诸如ffmpeg提取。在这种情况下,音频分段的音量由y轴线的幅度指示。可以由系统基于与视频序列相关联的典型音频信号的经验评估来设置默认音频阈值。可以由用户通过用户界面经由系统设置来改变阈值。因此,通常,音频阈值越高,在滑动期间将显示的(或用作为索引点的)帧的数量越少,反之亦然。
表1总结了这些附加滑动属性和对应的用户界面控制特征(第2列)。选择具有对应于“面部的外观”或“表情”的滑动动作的操作还涉及将视频帧与阈值进行比较。例如,对应的阈值可以是视频帧上检测到的面部的数量,以及预定义的表情选择之一(诸如快乐、惊讶、生气)。面部和表情属性将取决于使用面部检测算法来检测和分析面部区域。通过计数检测到的面部的边界框的数量来确定检测到的面部的数量,其是面部检测算法的典型输出格式。对于面部表情分析,可以使用许多面部特征,诸如口腔张开度、口腔延长度和眼睛张开度的测量。附加全局特征诸如伽柏(Gabor)过滤器也可用于表情分类。该方法的细节由T.Wang、M.Bartleet和J.Movellan在IEEE Computer Vision and Pattern RecognitionWorkshops,2010年6月的论文“Facial expression recognition using Gabor motionenergy filters,”中描述。App将分析视频序列以检测面部并根据表情类对每个面部进行分类。然后,用户可以经由用户界面选择特定表情(诸如“快乐”或“激动”,如果存在)。这些属性和控制特征(阈值)提供了比现有手动方法更有效和高效地搜索和浏览关键或有趣视频帧的附加方式。
另外,滑动属性可以包括面部聚类的能力,即,将相似面部分组在一起。这将允许用户选择特定面部作为搜索属性。这将涉及附加分析以提取面部特征用于聚类,以及用户界面元素用于确认和校正面部聚类。这些属性的语义性质允许用户以更有意义的方式定位相关的视频关键帧或片段。
Claims (24)
1.一种非暂时性计算机可读介质,其上存储有计算机可执行指令,由一个或多个处理器实行以执行用于从在用户设备上显示的窗口内的视频序列动态地创建拼贴的方法,所述方法包括:
在用户设备显示器上显示捕获或下载的视频序列的集合;
从所捕获或下载的视频序列组中选择视频序列,所选择的视频序列包括具有开始帧和结尾帧的多个视频帧;
在所述用户设备显示器上显示所述多个视频帧的可视化,包括显示所述开始帧和所述结尾帧;
经由在所述用户设备显示器上显示的至少一个能选择的光标的移动,接收对所述多个视频帧的可视化的选择,所述选择调整所述开始帧以获得经调整的开始帧或者调整所述结尾帧以获得经调整的结尾帧或者调整所述开始帧以获得经调整的开始帧且调整所述结尾帧以获得经调整的结尾帧;
从来自所述经调整的开始帧和所述经调整的结尾帧内的所选择的视频片段中提取多个关键帧,其中,从所选择的视频片段提取多个关键帧是基于滑动属性的,所述滑动属性包括移动视频对象的速度、音频活动、面部的外观或人员的表情中的至少一个;
使用所提取的关键帧生成拼贴布局形态面;以及
在所述用户设备显示器上显示所述拼贴。
2.根据权利要求1所述的计算机可读介质,还包括:基于索引标准从所选择的视频片段提取多个关键帧。
3.根据权利要求2所述的计算机可读介质,其中,所述索引标准包括面部特征、自然场景、动物、天空元素或城市景观中的至少一个。
4.根据权利要求1所述的计算机可读介质,其中,基于指定速度阈值、音量阈值或预定义表情选择的滑动属性来选择所述多个关键帧。
5.根据权利要求1所述的计算机可读介质,其中,基于所述视频的运动特性来定位关键帧。
6.根据权利要求5所述的计算机可读介质,其中,所述运动特性包括定位包含变焦或快速摇摄动作的关键帧。
7.根据权利要求2所述的计算机可读介质,其中,所述索引标准包括包含特定人员的面部的帧。
8.根据权利要求2所述的计算机可读介质,其中,所述索引标准包括包含相似颜色直方图的帧。
9.根据权利要求2所述的计算机可读介质,其中,所述索引标准还包括包含特定对象的帧。
10.根据权利要求2所述的计算机可读介质,其中,从通过所述索引标准选择的连续帧向所述用户显示最佳关键帧。
11.根据权利要求1所述的计算机可读介质,其中,响应于用户选择的选项,修改所述拼贴上的视频帧的布局形态面。
12.根据权利要求1所述的计算机可读介质,其中,在所述视频帧中修改旋转、重叠、空白空间和图像缩放特征中的一个或多个。
13.一种用于从在用户设备上显示的窗口内的视频序列动态地创建拼贴的方法,所述方法包括:
在用户设备的显示窗口上显示捕获或下载的视频序列的集合;
从所捕获或下载的视频序列组中选择视频序列,所选择的视频序列包括具有开始帧和结尾帧的多个视频帧;
在所述用户设备的显示窗口上显示所述多个视频帧的可视化,包括显示所述开始帧和所述结尾帧;
经由在所述用户设备显示器上显示的至少一个能选择的光标的移动,接收对所述多个视频帧的可视化的选择,所述选择调整所述开始帧以获得经调整的开始帧或者调整所述结尾帧以获得经调整的结尾帧或者调整所述开始帧以获得经调整的开始帧且调整所述结尾帧以获得经调整的结尾帧;
从来自所述经调整的开始帧和所述经调整的结尾帧内的所选择的视频片段中提取多个关键帧,其中,从所选择的视频片段提取多个关键帧是基于滑动属性的,所述滑动属性包括移动视频对象的速度、音频活动、面部的外观或人员的表情中的至少一个;
使用所提取的关键帧生成拼贴布局形态面;以及
在所述用户设备上显示所述拼贴。
14.根据权利要求13所述的方法,还包括:基于索引标准从所选择的视频片段提取多个关键帧。
15.根据权利要求14所述的方法,其中,所述索引标准包括面部特征、自然场景、动物、天空元素或城市景观中的至少一个。
16.根据权利要求13所述的方法,其中,基于指定速度阈值、音量阈值或预定义表情选择的滑动属性来选择所述多个关键帧。
17.根据权利要求13所述的方法,其中,基于所述视频的运动特性来定位关键帧。
18.根据权利要求17所述的方法,其中,所述视频的运动特性包括定位包含变焦或实际摇摄动作的关键帧。
19.根据权利要求14所述的方法,其中,所述索引标准包括包含特定人员的面部的帧。
20.根据权利要求14所述的方法,其中,所述索引标准包括包含相似颜色直方图的帧。
21.根据权利要求14所述的方法,其中,所述索引标准还包括包含特定对象的帧。
22.根据权利要求14所述的方法,其中,从通过所述索引标准选择的连续帧向所述用户显示最佳关键帧。
23.根据权利要求13所述的方法,其中,响应于所选择的选项,修改在所述拼贴上的所述视频帧的布局形态面。
24.根据权利要求13所述的方法,其中,在所述视频帧中修改重叠、空白空间和图像缩放特征中的一个或多个。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201662367962P | 2016-07-28 | 2016-07-28 | |
US62/367,962 | 2016-07-28 | ||
PCT/US2017/044121 WO2018022853A1 (en) | 2016-07-28 | 2017-07-27 | A method for dynamic creation of collages from mobile video |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109791556A CN109791556A (zh) | 2019-05-21 |
CN109791556B true CN109791556B (zh) | 2024-04-09 |
Family
ID=59558502
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201780045540.3A Active CN109791556B (zh) | 2016-07-28 | 2017-07-27 | 一种用于从移动视频自动创建拼贴的方法 |
Country Status (4)
Country | Link |
---|---|
US (1) | US11880918B2 (zh) |
EP (2) | EP4283492A1 (zh) |
CN (1) | CN109791556B (zh) |
WO (1) | WO2018022853A1 (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7325308B2 (ja) * | 2019-11-19 | 2023-08-14 | ルネサスエレクトロニクス株式会社 | 画像処理装置及び画像処理方法 |
US11455731B2 (en) * | 2020-09-10 | 2022-09-27 | Adobe Inc. | Video segmentation based on detected video features using a graphical model |
US11450112B2 (en) | 2020-09-10 | 2022-09-20 | Adobe Inc. | Segmentation and hierarchical clustering of video |
US11995894B2 (en) | 2020-09-10 | 2024-05-28 | Adobe Inc. | Interacting with hierarchical clusters of video segments using a metadata panel |
US12033669B2 (en) | 2020-09-10 | 2024-07-09 | Adobe Inc. | Snap point video segmentation identifying selection snap points for a video |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101048799A (zh) * | 2004-10-25 | 2007-10-03 | 惠普开发有限公司 | 通过实时视频动作分析理解视频内容 |
CN101283581A (zh) * | 2005-10-14 | 2008-10-08 | 微软公司 | 照片和视频拼贴效果 |
CN101689394A (zh) * | 2007-02-01 | 2010-03-31 | 耶路撒冷希伯来大学伊森姆研究发展有限公司 | 用于视频索引和视频概要的方法和系统 |
AU2008264196A1 (en) * | 2008-12-24 | 2010-07-08 | Canon Kabushiki Kaisha | Interactive video surveillance review and reporting system |
CN102326181A (zh) * | 2009-01-28 | 2012-01-18 | 惠普发展公司,有限责任合伙企业 | 动态图像拼贴 |
CN102939630A (zh) * | 2010-05-25 | 2013-02-20 | 伊斯曼柯达公司 | 用于确定关键视频帧的方法 |
CN102938158A (zh) * | 2011-10-18 | 2013-02-20 | 微软公司 | 通过直接操纵来构建动画时间线 |
CN103299631A (zh) * | 2011-01-14 | 2013-09-11 | 思科技术公司 | 处理视频数据拼贴的视频编码器/解码器、方法和计算机程序产品 |
EP2758954A1 (en) * | 2011-11-17 | 2014-07-30 | Samsung Electronics Co., Ltd. | Method and apparatus for dynamically visualizing a collection of images in the form of a collage |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7039239B2 (en) | 2002-02-07 | 2006-05-02 | Eastman Kodak Company | Method for image region classification using unsupervised and supervised learning |
US20050228849A1 (en) * | 2004-03-24 | 2005-10-13 | Tong Zhang | Intelligent key-frame extraction from a video |
US20090003712A1 (en) * | 2007-06-28 | 2009-01-01 | Microsoft Corporation | Video Collage Presentation |
US20130132462A1 (en) * | 2011-06-03 | 2013-05-23 | James A. Moorer | Dynamically Generating and Serving Video Adapted for Client Playback in Advanced Display Modes |
US10133472B2 (en) * | 2013-03-15 | 2018-11-20 | Disney Enterprises, Inc. | Gesture based video clipping control |
US11170037B2 (en) * | 2014-06-11 | 2021-11-09 | Kodak Alaris Inc. | Method for creating view-based representations from multimedia collections |
US9373054B2 (en) | 2014-09-02 | 2016-06-21 | Kodak Alaris Inc. | Method for selecting frames from video sequences based on incremental improvement |
US10074015B1 (en) * | 2015-04-13 | 2018-09-11 | Google Llc | Methods, systems, and media for generating a summarized video with video thumbnails |
-
2017
- 2017-07-27 EP EP23180868.4A patent/EP4283492A1/en active Pending
- 2017-07-27 US US17/598,079 patent/US11880918B2/en active Active
- 2017-07-27 WO PCT/US2017/044121 patent/WO2018022853A1/en unknown
- 2017-07-27 CN CN201780045540.3A patent/CN109791556B/zh active Active
- 2017-07-27 EP EP17749301.2A patent/EP3491546A1/en not_active Ceased
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101048799A (zh) * | 2004-10-25 | 2007-10-03 | 惠普开发有限公司 | 通过实时视频动作分析理解视频内容 |
CN101283581A (zh) * | 2005-10-14 | 2008-10-08 | 微软公司 | 照片和视频拼贴效果 |
CN101689394A (zh) * | 2007-02-01 | 2010-03-31 | 耶路撒冷希伯来大学伊森姆研究发展有限公司 | 用于视频索引和视频概要的方法和系统 |
AU2008264196A1 (en) * | 2008-12-24 | 2010-07-08 | Canon Kabushiki Kaisha | Interactive video surveillance review and reporting system |
CN102326181A (zh) * | 2009-01-28 | 2012-01-18 | 惠普发展公司,有限责任合伙企业 | 动态图像拼贴 |
CN102939630A (zh) * | 2010-05-25 | 2013-02-20 | 伊斯曼柯达公司 | 用于确定关键视频帧的方法 |
CN103299631A (zh) * | 2011-01-14 | 2013-09-11 | 思科技术公司 | 处理视频数据拼贴的视频编码器/解码器、方法和计算机程序产品 |
CN102938158A (zh) * | 2011-10-18 | 2013-02-20 | 微软公司 | 通过直接操纵来构建动画时间线 |
EP2758954A1 (en) * | 2011-11-17 | 2014-07-30 | Samsung Electronics Co., Ltd. | Method and apparatus for dynamically visualizing a collection of images in the form of a collage |
Also Published As
Publication number | Publication date |
---|---|
EP3491546A1 (en) | 2019-06-05 |
WO2018022853A1 (en) | 2018-02-01 |
US20220222876A1 (en) | 2022-07-14 |
EP4283492A1 (en) | 2023-11-29 |
US11880918B2 (en) | 2024-01-23 |
CN109791556A (zh) | 2019-05-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109791556B (zh) | 一种用于从移动视频自动创建拼贴的方法 | |
US11132578B2 (en) | System and method for creating navigable views | |
JP6074395B2 (ja) | コンテンツ管理システム、管理コンテンツ生成方法、管理コンテンツ再生方法、プログラムおよび記録媒体 | |
JP5857133B2 (ja) | 顔検出を使用した画像の再構成 | |
US8548249B2 (en) | Information processing apparatus, information processing method, and program | |
US10679063B2 (en) | Recognizing salient video events through learning-based multimodal analysis of visual features and audio-based analytics | |
US7636450B1 (en) | Displaying detected objects to indicate grouping | |
US7813557B1 (en) | Tagging detected objects | |
US8938100B2 (en) | Image recomposition from face detection and facial features | |
Borgo et al. | State of the art report on video‐based graphics and video visualization | |
CN107430780B (zh) | 用于基于视频内容特性的输出创建的方法 | |
US8259995B1 (en) | Designating a tag icon | |
US20130343727A1 (en) | System and method for semi-automatic video editing | |
US7813526B1 (en) | Normalizing detected objects | |
Chen et al. | Tiling slideshow | |
US7694885B1 (en) | Indicating a tag with visual data | |
KR20160087222A (ko) | 디지털 컨텐츠의 시각적 내용 분석을 통해 포토 스토리를 생성하는 방법 및 장치 | |
JP5917635B2 (ja) | コンテンツ管理システム、管理コンテンツ生成方法、管理コンテンツ再生方法、プログラムおよび記録媒体 | |
US9569100B2 (en) | Method and system for scribble based editing | |
US20130108170A1 (en) | Image Recomposition From Face Detection And Facial Features | |
WO2013136637A1 (ja) | コンテンツ表示処理装置、コンテンツ表示処理方法、プログラム、及び集積回路 | |
US20130108165A1 (en) | Image Recomposition From Face Detection And Facial Features | |
CN103403765A (zh) | 内容加工装置及其集成电路、方法和程序 | |
US20110304644A1 (en) | Electronic apparatus and image display method | |
Cavalcanti et al. | A survey on automatic techniques for enhancement and analysis of digital photography |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |