CN107430780B

CN107430780B - 用于基于视频内容特性的输出创建的方法

Info

Publication number: CN107430780B
Application number: CN201680010977.9A
Authority: CN
Inventors: 亚历山大·C·路易; 布莱恩·米特尔施泰特
Original assignee: Kodak Alaris Inc
Current assignee: Kodak Alaris Inc
Priority date: 2015-02-23
Filing date: 2016-02-09
Publication date: 2021-02-09
Anticipated expiration: 2036-02-09
Also published as: WO2016137739A3; WO2016137739A2; US10089532B2; US20160247024A1; CN107430780A; EP3262613A2

Abstract

本申请案涉及用于自动地确定视频序列中的帧的若干特性且基于所述帧特性自动地推荐或准备图像输出产品的新型方法。在一些实施例中，计算特定图像帧的运动特性，且自动地使用所述运动特性来准备或推荐适合于所述帧的所述运动特性的图像输出产品。在其它实施例中，评估面部、音频及总体图像质量并且使用其来自动地推荐或准备图像输出产品。在又其它实施例中，针对各种用户指定特性分析视频序列中的图像帧，接着使用所述特性来自动地推荐或准备图像输出产品。

Description

用于基于视频内容特性的输出创建的方法

技术领域

本发明涉及视频处理领域，且更具体来说，涉及用于基于关键帧识别来创建输出照片及视频产品的改进方法。

背景技术

关键视频帧的选择在许多应用中是有用的。例如，通常希望提取及呈现视频数据的某个子集，其可传达视频的精确且可识别的摘要或梗概。关键帧提取算法用于从视频中选择信息量最大的帧的子集，目标是以有限数量的帧表示视频的最重要的内容。关键帧提取应用于视频处理的若干广泛领域，例如视频摘要、在DVD中创建章节标题、视频索引及从视频进行打印。摘要或梗概也可促进视频共享或帮助用户决定完整视频是否值得下载或观看。关键帧提取是一个活跃的研究领域，且存在用于从视频中提取关键帧的许多方法。

用于通过提取关键视频帧来创建视频摘要的算法在所属领域中是已知的。例如，授予亚伦T.蒂伐(Aaron T.Deever)的第8,599,313号美国专利(其全部内容以引用方式并入本文)主要基于帧间运动检测来确定关键视频帧。授予J.罗(J.Luo)等人的题为“针对关键帧分析相机捕获视频(analyzing camera captured video for key frames)”的第8,031,775号美国专利(其全部内容以引用并入本文)教示了使用相机的运动传感器(例如，加速度计或镜头电机传感器)来估计全局运动，包含场景或相机的平移或场景的缩放。使用置信分数从视频片段中提取关键帧候选者。授予J.罗等人的题为“从视频剪辑中提取关键帧候选者”的第7,889,794号美国专利(其全部内容以引用方式并入本文)通过对指示场景或相机的平移的视频剪辑执行全局运动估计来分析视频剪辑以确定关键帧。作为额外实例，授予I.维尔福(I.Wilf)等人的题为“从视频序列中选择关键帧的方法”的第7,184,100号美国专利(其全部内容也以引用方式并入本文)教示了通过使用区域及运动分析将视频序列中的每一帧与相邻帧进行比较来从视频序列中选择关键帧。然而，这些参考文献中均未教示使用经提取关键帧以基于关键帧的某些特性产生经打印输出产品。

授予X.林(X.Lin)等人的第2006/0257048号美国专利公开案(其全部内容以引用方式并入本文)教示了一种用于使用视频流的帧自动地产生打印页面的方法。本申请案教示了使用关键帧提取算法以从视频序列中提取关键帧。接着，描述用以使用用户输入将经提取关键帧自动地放置到页面上的页面布局工作流程。然而，本申请案未能教示如何推断及创建不同的输出产品类型(例如视频动作打印、全景打印及电子幻灯片)。

因而，具有多种方法来使用例如运动特性的信息及关于用于捕获特定关键帧的变焦量的信息来选择最适合于特定关键帧的特性的输出产品类型将是有用的。

发明内容

本申请案涉及用于基于消费者视频序列(例如经录制视频的部分)中的特定帧的内容特性来自动地推荐及准备输出产品的新型方法。根据本发明，在推荐及准备输出产品时可考虑的内容特性包含视频序列的运动及变焦特性以及例如序列中面部的存在、位置及场景类型的语义内容属性。也可考虑其它特性。

运动检测及估计可使用许多已知技术来实现，所述技术包含基于块的方法、光流方法及利用基于积分的运动估计的方法。缩放信息可从相机元数据获得或推导。语义内容属性可使用例如面部检测及识别算法、事件检测及分类算法及场景识别算法以及其它方法的图像理解技术来检测。在关键帧检测方法中获得的额外信息也可用于根据本发明的实施例推荐及准备输出产品。

使用视频、图像及音频特性以对帧进行分类并推荐图像输出产品辅助用户从其保存的视频序列中获取值，所述视频序列可能难以编辑及操纵成可用的简洁呈现。

附图说明

图1是说明本发明的一个实施例的流程图。

图2A表示用相对较低的帧率相机捕获的图像。

图2B表示用相对较高的帧率相机捕获的图2A中所示的相同图像。

图3是说明本发明的另一实施例的流程图。

具体实施方式

本申请案揭示了用于从消费者视频序列中创建输出产品的方法。根据本发明的输出产品可包含静止图像打印及数字图像、高分辨率打印或数字图像，及全景打印或数字图像。输出产品还可包含基于此类打印及图像的相册或拼贴画。如所属领域的技术人员将明白，本申请案中揭示的发明方法适用于结合许多类型的关键帧选择算法使用。例如，本申请案中揭示的方法可结合所属领域中已知的关键帧选择算法使用，所述关键帧选择算法包含但不限于基于运动的算法，例如在授予亚伦T.蒂伐的第8,599,313号美国专利(以引用方式全部并入本文)中揭示的算法。替代地，所揭示的方法与基于例如锐度指标及经检测的人脸度量的质量的其它质量量度的算法兼容。此方法的实例在题为“用于基于增量改进从视频序列中选择帧的方法”的第14/475,074号美国专利申请案中揭示。本发明的方法还可利用通常可用的其它帧信息，例如关于特定帧的变焦级别及帧的运动特性的信息。

在下面的描述中，将从通常实施为软件程序的方面来描述本发明的一些实施例。所属领域的技术人员将认识到，此软件的等效物也可以硬件构造，且硬件实施方案可赋予可在例如实时系统中的更广泛应用中使用本发明的优点。因为图像操纵算法及系统是众所周知的，所以本说明书将特别涉及形成根据本发明的方法或更直接地与所述方法协作的算法及系统。此类算法及系统的其它方面以及本文未具体展示或描述的用于产生及以其它方式处理与其相关的图像信号的硬件及软件可从所属领域中已知的此类系统、算法、组件及元件中选择。鉴于根据如本发明中描述的本发明的系统，本文中未具体展示、表明或描述的可有用于实施本发明的软件是常规的且在此类领域的一般技术内。

本发明包含本文中所述的实施例的组合。对“特定实施例”等的引用是指存在于本发明的至少一个实施例中的特征。对“实施例”或“特定实施例”等的单独引用不一定指代相同的实施例或多个实施例；然而，此类实施例不是相互排斥的，除非如此指示或对于所属领域的技术人员来说是显而易见的。在引用“方法”或“多种方法”等时使用单数或复数不是限制性的。应当注意，除非上下文另有明确指示或要求，否则在本发明中以非排他性含义使用单词“或”。

将参考图1中所示的步骤描述本发明方法的一个实施例的步骤。最初，在步骤101中，从媒体资产的集合中选择视频序列。所述序列可由用户通过用户接口手动选择或可自动选择。在手动选择的情况下，用户接口还可向用户提供通过指示视频帧在视频序列内的的起点及终点来选择视频序列的部分的能力。所述选择可基于多种因素。例如，在其中针对潜在输出产品分析集合中的每一视频序列的情况下，可基于录制视频序列的顺序进行视频选择。在其它实施例中，选择可能更复杂。例如，可基于特定序列中存在的关键帧的数量进行选择。还可基于序列中的特定帧的运动或变焦特性来进行选择。此外，可基于视频序列中的事件的类型(例如，生日、婚礼、假期)、活动(例如，打网球、潜水、骑马)或面部的身份进行选择。

在步骤102中，自动分析视频序列以计算视频帧的运动特性。如所属领域的技术人员将理解，运动检测及估计可通过许多已知技术来实现，所述技术包含基于块的方法、光流方法及利用基于积分的运动估计的方法。

在步骤103中，根据在步骤102中检测到的运动特性的类型对视频帧进行分类。例如，视频帧可根据运动特性是否指示帧中的高、低或中等的运动量进行分类。当然，额外运动分级可用于进一步区分各种帧中的运动特性。应当提及，可在帧的子区域上进行运动特性的计算。例如，每一帧可被划分为5×5个块(或其它非矩形子区域)，且针对每一块计算运动信息。最终输出可通过组合(例如，通过取平均值、中位数或其它统计量度)个别区域结果来计算。

在步骤104中，针对每一组经分类视频帧计算视频帧的质量量度。可以个别帧为基础应用此质量量度。也可计算每一组视频帧的总体质量值。若干质量量度及总体值对于所属领域的技术人员是已知的，用于计算所述量度及值的各种方法也是已知的。这些量度包含锐度、噪音、色阶、对比度或其组合。所述组视频帧的总体质量值可基于个别帧量度的总和来确定。替代地，可使用例如ITU-R BT.500-11推荐：“用于电视图片质量的主观评估方法(Methodology for the subjective assessment of the quality of televisionpictures)”中规定的五级缩放以对所述组视频帧的总体质量进行评分。在此情况下，质量等级可为以下一者：1坏、2差、3中等、4好或5优。在步骤105中，一起存储经分类视频帧及其相应分类。

在步骤106中，分析经存储视频帧以确定运动类别是否为高。例如，跨视频帧的快速移动对象将导致高运动。如果特定视频帧的运动类别为高，那么在步骤106a中使用所述视频帧来准备视频动作打印或视频戏剧打印。替代地，所述方法可首先向用户推荐从帧中准备视频动作打印或视频戏剧打印。用户可在准备打印最终图像准备之前预览经推荐图像。在一些实施例中，所述方法可推荐及准备包含多个视频动作打印或视频戏剧打印的拼贴画或相册。打印可包含来自多个不同视频序列的选择，或限于单个视频序列。

在步骤107中，分析经存储视频帧以确定运动类别是否为低。如果特定视频帧的运动类别为低，那么在步骤107a中使用所述视频帧来准备高分辨率打印或图像。所属领域的技术人员将理解，具有低运动特性的帧由于图像中较少的模糊而更适合于较高分辨率的图像。替代地，所述方法可首先向用户推荐从帧中准备视频高分辨率打印或图像。用户可在准备打印最终图像准备之前预览经推荐图像。在一些实施例中，所述方法可推荐及准备包含多个高分辨率打印或图像的拼贴画或相册。打印可包含来自多个不同视频序列的选择，或限于单个视频序列。

在步骤108中，使用未被特征化为高运动或低运动的帧来创建或推荐全景打印或图像。当根据三层系统来将帧特征化时，用于创建全景打印或图像的帧是被分类为具有中等速运动特性的帧。当使用额外层时，步骤108可为没有分类为最高或最低运动类别的所有步骤的全方位步骤。虽然在图1中依次展示了步骤106到108，但是所述步骤也可以任何其它顺序执行。例如，可首先选择中等速运动特性帧，接着选择低运动特性帧，最后选择高运动特性帧。

参考图1描述的方法还可考虑录制视频序列的帧率，以进一步调整经推荐输出产品。众所周知，不同的视频录制方法以不同的帧率捕获视频。例如，一些现代智能电话能够以每秒240帧(fps)或以上的帧率捕获视频。专用相机有时能够以更高的fps捕获视频。其它电话及相机只能以较低的速率(例如60fps或120fps)捕获视频。在推荐输出产品时，本发明的实施例可考虑此帧率差异。具体地，使用具有以高帧率捕获视频的能力的相机捕获的具有相对高的运动特性的帧可适用于高分辨率图像输出产品。相比之下，如果用于高分辨率图像输出产品，那么以具有较低fps的相机捕获的具有相同相对较高运动特性的帧可能不会太模糊。

这参考图2a及2b来进行解释。图2a是以10fps捕获的图像。图2b是当以60fps捕获时将会出现的相同图像。如可见，图2b中的图像的锐度远大于图2a中的图像。这并非每一帧的运动特性的结果，所述特性在此实例中是相同的。相反，图像质量的差异是捕获所述两个图像的不同帧率的结果。参考图1中揭示的方法，即使帧的运动特性指示图片中的高运动，具有高帧率的相机也能够产生高分辨率图像输出产品。因而，当以高帧率捕获视频时，可调整用于确定哪些视频帧被分类为具有高运动类别的算法。类似地，如果以低帧率捕获视频，那么可调整算法，使得仅具有相对较低运动特性的帧被分类为低运动类别。

图3是说明本发明的另一实施例的框图。在步骤301中，从媒体资产的集合中选择视频序列。所述序列可由用户手动选择或可自动选择。选择可基于多种因素。例如，在其中针对潜在输出产品分析集合中的每一视频序列的情况下，可基于录制视频序列的顺序进行视频选择。在其它实施例中，选择可能更复杂。例如，可基于选择中的帧的总体质量或用户认为合意的其它特征来进行选择。

在步骤302中，分析视频序列以检测包含人脸的帧。这可通过任何公开或市售的面部检测软件(例如OpenCV及Omron)来实现。在步骤303中，通过帧中的面部的数量及身份将包含人脸的帧进一步分类。如所属领域的技术人员将明白，存在许多已知的方法来自动识别视频序列中的面部特征，且进一步识别哪些面部含有足够的相似性以被分类为同一个人。

在步骤304中，通过一个或多个面部质量量度将在步骤303中分类的帧(即，含有至少一个人脸的所有帧)进一步分类。存在若干方法来确定及总结帧中的面部的总体图像质量。例如，题为“根据面部属性的自动图像评估”的论文(由R.普特查(R.Ptucha)、D.克洛斯特曼(D.Kloosterman)、B.米特斯塔德(B.Mittelstaedt)及A.路易(A.Loui)于2014年2月在加利福尼亚州旧金山发表于《图像科学与技术/国际光学工程学会电子成像2014会刊(Proc.IS&T/SPIE Electronic Imaging 2014)》)描述了一种计算含有面部的图像的质量分数(facelVI)的方法。可使用此方法或其它已知方法来计算在步骤304中执行的面部质量量度。

在步骤305中，重检经分类的帧以确定含有一个以上人脸的图像的那些帧。对于满足此准则的帧的组打印或图像，准备或替代地推荐准备任何所述帧。

最后，在步骤306中，重检经分类帧以确定同一个人脸是否出现在一个以上的帧中。如果任何特定的面部出现在多个帧中，那么可准备或推荐含有所述面部的图片的自定义拼贴画。

虽然已经关于图1及3描述了两个特定实例，但是本发明的方法可应用于各种其它帧特性以推荐或准备用户期望的输出产品。例如，使用已知的语义准则及图像识别软件，本发明的方法可用于分析及推荐含有可能为用户所期望的任何图像或特征特性的图像帧的输出图像产品。例如，代替或除了基于运动类别或面部的存在来将视频序列的帧特征化，可分析图像帧以确定帧何时含有进行特定运动(例如，踢足球)的人的图像。类似地，可基于含有足球运动的帧中的人数来分析帧，且可推荐包含含有多个人及足球的那些所述帧的输出产品。可进一步选择帧使得在时间间隔中没有任何两帧太接近。换句话说，可选择帧使得在一个选定帧与下一个选定帧之间经过最小时间间隔。另外，通过将面部识别软件与上述实施例组合，可分析帧以推荐含有踢足球或参与含有通常公共可辨别元素的任何其它运动或活动的特定人的输出产品。

在其它实施例中，可基于在捕获视频序列的特定帧时使用的变焦因子来自动分析视频序列。例如，可基于用于捕获帧的变焦级别来分析视频序列中的帧并将其分类。接着，可将此变焦因子分类与其它分类(例如图1及/或图3的方法)组合以推荐独特的输出产品。作为一个实例，变焦因子分类可结合上面参考图3描述的面部分类使用以推荐图像输出产品。帧中的面部图像的尺寸也可作为经推荐图像输出产品的考虑因素。因此，例如，当确定特定帧被放大、具有经检测面部且经检测面部具有较大尺寸时，可推荐或自动准备肖像图像输出产品。类似地，当确定特定帧被缩小且若干周围帧含有相同的图像特征时，可推荐或自动准备景观图像输出产品。

也可制定经推荐图像输出产品的尺寸的推荐或边界。例如，由题为“使用面部及非面部特性的改进的成像工作流程”的第14/475,415号美国专利申请案所揭示的方法可用于确定总体图像质量指数，其也考虑到图像中面部的存在。基于所述总体图像质量指数，可推荐大或小的图像尺寸使得经推荐尺寸将不会导致模糊或低分辨率打印图像。在计算总体图像质量时，还可包含运动模糊及其它因素(例如面部质量)。适用于与本发明的实施例一起使用的另一种计算图像质量的方法是由论文“多维图像值评估及自动收录及检索的评级(Multidimensional image value assessment and rating for automated albumingand retrieval)”(由A.路易(A.Lloi)、M.伍德(M.Wood)、A.斯卡拉斯(A.Scalise)及J.波克鲁德(J.Birkelund)于2008年10月12日到15日在加利福尼亚州圣地亚哥发表于《电气与电子工程师协会图像处理内部会议会刊(Proc.IEEE Intern.Conf.on Image Processing(ICIP))》)教示。

本发明的实施例也可区分单个帧中的不同区域。例如，含有具有高运动分类的图形的帧中的背景区域的颜色可与所述图形不同。在其它实施例中，背景可能被模糊或锐化以产生更理想或一致的总体图像。其它效果或动画也可应用于背景。

视频序列还可包含音频信息，且还可分析音频特性并将其分类以自动准备或推荐输出产品。在此类实施例中，经推荐输出产品优选地是与视频序列期间检测到的音乐耦合的电子幻灯片。也可使用其它音乐来对幻灯片进行评分。例如，原始背景音乐或音频可被不同的背景音乐或音频替代，所述背景音乐或音频更适合于视频的主题。此外，一段新的音频或音乐可叠加在现有的音频信号上以产生新的音频效果。如果捕获视频的相机包含例如加速度计或磁力计的传感器，那么来自所述传感器中的信息也可用于按照本文中所述的本发明的实施例对帧进行分类且推荐图像输出产品。

已经具体参考本发明的某些优选实施例对本发明进行了详细描述，但是应当理解，在本发明的精神及范围内可进行变化及修改。

Claims

1.一种从视频序列中选择一组视频帧的方法，其包括：

从存储在存储器中的媒体资产的集合中存取视频序列，其中所述视频序列包括视频帧；

使用数据处理器来自动地分析所述视频序列以计算所述视频帧的内容的运动特性；

根据经计算的所述视频帧的内容的运动特性对所述视频帧进行分类，其中对所述视频帧进行分类包括将每个视频帧分类为一组可检测运动类别中的一个，并且其中所述一组可检测运动类别包括高运动类别、中等运动类别和低运动类别；

将针对所述一组可检测运动类别中的相应可检测运动类别的经分类视频帧存储在存储器中；

从经分类的视频帧中选择帧，包括通过将经计算的运动特性与记录所述视频帧的帧速率进行比较来确定运动模糊的量，从而产生所选择的帧；

向用户推荐从所选择的帧准备的多种图像类型的图像；

根据经推荐的图像类型进一步向所述用户推荐经推荐图像的尺寸；以及

在准备最终图像以用于进一步处理之前，由所述用户预览经推荐图像。

2.根据权利要求1所述的方法，其中如果所述运动类别是高运动，那么所述视频帧将用于创建视频动作图像或视频戏剧图像。

3.根据权利要求1所述的方法，其中如果所述运动类别是低运动或不活动的，那么所述视频帧将用于创建高分辨率图像。

4.根据权利要求1所述的方法，其中如果所述运动类别是中等运动，那么所述视频帧将用于创建全景图像。

5.根据权利要求1所述的方法，其中进一步处理所述经推荐图像包括打印所述经推荐图像。

6.根据权利要求1所述的方法，其中所述一组可检测运动类别进一步包括不活动运动类别。