CN106537390B

CN106537390B - 标识教育视频的呈现样式

Info

Publication number: CN106537390B
Application number: CN201580041008.5A
Authority: CN
Inventors: A·坎南; S·J·巴克
Original assignee: Microsoft Technology Licensing LLC
Current assignee: Microsoft Technology Licensing LLC
Priority date: 2014-07-23
Filing date: 2015-07-20
Publication date: 2019-08-16
Anticipated expiration: 2035-07-20
Also published as: US20160026872A1; WO2016014373A1; US20170220867A1; EP3172681A1; US9652675B2; CN106537390A; US10248865B2

Abstract

标识视频的呈现样式。计算表示视频的特征的集合。预学习的视频呈现样式分类器然后用于对特征集中的特征中的每个特征进行加权，并且基于特征的加权来确定在视频中主要被采用的呈现样式。

Description

标识教育视频的呈现样式

背景技术

存在万维网上当前可用的大量视频并且该数字正在迅速地增长。例如，据估计，在YouTube^TM(Google公司的商标)网站上每个月观看超过六十亿小时的视频，并且每分钟有100小时的视频被上载到YouTube网站。万维网上的视频包括横跨宽广的范围的话题和类别的几乎无限的各种内容。例如，万维网上的视频可以被分类为各种宽广的类别，诸如幽默视频、新闻视频、关于特定人或地点的视频、关于社会的视频以及教育视频，仅举几个例子。如在教育领域中所理解到的，教育视频的使用可以增加内容保留和概念理解，特别地当视频与传统学习材料(诸如课本等)配对时。在线(例如，基于web的)教育是教育市场的新且迅速演变的部分。

发明内容

提供该概述以引入以在详细描述中下文进一步描述的简化形式的概念的选择。该概述不旨在标识所要求保护的主题的关键特征或基本特征，其也不旨在用作辅助确定所要求保护的主题的范围。

在此所描述的呈现样式标识技术实现通常包含标识视频的呈现样式。在一个示例性实现中，接收视频，并且计算表示视频的特征集。预学习的视频呈现样式分类器然后用于对特征集中的特征的每个特征进行加权并且确定在视频中主要被采用的呈现样式，其中该呈现样式确定基于对特征集中的特征的加权。

附图说明

在此所描述的呈现样式标识技术实现的特定特征、方面和优点将关于以下描述、所附的权利要求和附图变得更好理解，在附图中：

图1是图示能够在教育视频中被采用的不同的呈现样式的示例性集合和这些呈现样式的分类的表。

图2是图示在如关于课本所取回的视频的数据集和具有针对在此所描述的呈现样式标识技术实现而策划的转录本的视频的另一数据集内所采用的不同的呈现样式的分布的条形图。

图3图示了渲染的幻灯片视频的示例性帧的灰度版本。

图4是图示了针对图3中所示的视频帧的像素强度的直方图的条形图。

图5是图示针对图3中所示的视频帧的小梯度幅度的直方图的条形图。

图6是图示针对图3中所示的视频帧的大梯度幅度的直方图的条形图。

图7图示了自然视频的示例性帧的灰度版本。

图8是图示了针对图7中所示的视频帧的像素强度的直方图的条形图。

图9是图示针对图7中所示的视频帧的小梯度幅度的直方图的条形图。

图10是图示针对图7中所示的视频帧的大梯度幅度的直方图的条形图。

图11是图示跨越示例性渲染的动画视频的帧的运动幅度的线图。

图12是图示跨越示例性渲染的幻灯片视频的帧的运动幅度的线图。

图13是图示跨越示例性渲染的手绘幻灯片视频的帧的移动像素的一部分的线图。

图14是图示跨越在纸上手写的示例性视频的帧的移动像素的一部分的线图。

图15是图示用于学习可以视频呈现样式分类器的过程的简化形式的示例性实现的流程图，视频呈现样式分类器用于确定在给定教育视频中主要被采用的呈现样式。

图16是图示用于学习视频呈现样式分类器的伪代码的简化形式的示例性实现的代码列表。

图17是图示用于标识视频的呈现样式的过程的简化形式的示例性实现的流程图。

图18是图示用于允许用户搜索视频的过程的简化形式的示例性实现的流程图。

图19是图示用于实现在此所描述的呈现样式标识技术实现的架构框架的简化形式的示例性实现的示图。

图20是图示在其上可以实现如在此所描述的呈现样式标识技术的各种实现和元素的通用计算机系统的简化示例的示图。

具体实施方式

在呈现样式标识技术实现的以下描述中，对形成其一部分并且在其中以图示的方式示出在其中可以实践呈现样式标识技术的特定实现的附图进行参考。应理解到，在不脱离呈现样式标识类型实现的范围的情况下，可以利用其他实现并且可以做出结构改变。

还应注意，出于清楚的原因，将采取特定术语描述在此所描述的呈现样式标识技术实现并且其针对这些实现不旨在限于这样所选择的特定术语。而且，应理解到，每个特定术语包括以实现类似目的的宽范地类似的方式操作的所有其技术等同物。在本文中对“一个实现”或“另一实现”或“示例性实现”或“备选实现”的引用意味着结合实现所描述的特定特征、特征结构或特定性质可以被包括在呈现样式标识技术的至少一个实现中。说明书中的各个地方的短语“在一个实现中”、“在另一实现中”、“在示例性实现中”、“在备选实现中”的出现不必全部指代相同实现，也不必是对其他实现互相排斥的分离实现或备选实现。然而此外，表示呈现样式标识技术的一个或多个实现的过程流的顺序未固有地指示任何特定顺序，也不隐含对呈现样式标识技术的任何限制。

1.0 Web上的教育视频

术语“教育视频”在本文中用于指代具有以将概念教导给观看视频的用户的方式来呈现至少一个概念的内容的任何类型的视频。教育视频中的(一个多个)概念通常与给定话题或主题区相关联。给定教育视频通常包括一个或多个不同的呈现样式，其示例将在下文中更详细地描述。

如此前所描述的，存在万维网(在本文中有时简单地被称为web)上当前可用的大量的视频并且这些视频包括教育视频。在web上可用的教育视频的数目正迅速地增长。例如，YouTube教育网站(也被称为YouTube EDU)当前单独包括来自超过800个不同的通道(诸如Khan Academy^SM(Khan Academy公司的服务标记))的超过700,000个高质量教育视频。web上的教育视频跨越宽范的范围的话题和等级水平。例如，YouTube教育网站上的教育视频覆盖初等教育水平(例如，等级1-5)、中等教育水平(例如，等级6-12)、大学水平和毕生学习水平处的主题区的宽范的范围。此外，大型开放式网络课程(MOOC)是在流行方面迅速地增加的在线教育中的最新进展。MOOC提供来自各种在线教育提供商(诸如Coursera^TM(Coursera公司的商标)、EdX^SM(edX公司的服务标记)和Udacity^SM(Udacity公司的服务标记)等)的教育视频。MOOC教育视频还跨越宽范的范围的话题和等级水平。

在web和其快速增长上可用的大量的教育视频已经导致web上的大量的教育视频内容冗余。例如，对YouTube网站上执行的简单分析显示存在在具有关于“质量守恒定律”的话题的几乎相同内容的该网站上可用的超过30个不同的视频。该内容冗余引入在web上可用的教育视频的审美的变化。这样的审美变化的示例包括但不限于视频的质量的变化、出现在视频中的呈现者的性质的变化(例如，与迟钝/无趣相反，其是“活泼的”)和在视频中所采用的呈现样式的变化，例如，给定视频是否包括在白板前面关于“质量守恒定律”演讲的呈现者，或者视频是否包括描述该定律的渲染的幻灯片，或视频是否包括该定律的证明的记录，或视频是否包括该定律的渲染的动画。

2.0标识教育视频的呈现样式

支持所描述的呈现样式标识技术实现通常适于学习视频呈现样式分类器，并且标识给定视频的呈现样式。虽然在本文中假定该视频是教育视频，但是应注意到，呈现样式标识技术实现还可以被标识任何其他类别的视频的呈现样式。

如从以下的更详细描述中将理解到，支持所描述的呈现样式标识技术实现利用存在于web上的前述教育视频内容冗余，并且允许给定用户搜索并且检索匹配(例如，习惯于)用户的偏好的相关教育视频。换句话说，呈现样式标识技术实现能够解释视频搜索活动期间的用户偏好，同时维持相关性。将理解到，存在对教育视频的上下文中的用户偏好的许多方面，其尤其包括视频的质量、出现在视频中的呈现者的性质和在视频中所采用的呈现样式。呈现样式标识技术实现允许查找特定话题上的教育视频的用户在web中搜索匹配用户可以关于这些方面具有的任何偏好的该主题的相关视频。呈现样式标识技术实现还具有新并且迅速地演变在线教育市场中和视频搜索引擎和视频门户市场中的若干不同的应用。呈现样式标识技术实现还可以使用在各种推荐系统应用中。例如，在其中用户将使用电子阅读器设备阅读特定电子书的情况下，呈现样式标识技术实现可以用于向用户自动地推荐不仅与其阅读的书相关而且基于用户先前已经选择观看的视频的呈现样式的视频。换句话说，推荐系统可以通过使用呈现样式标识技术实现学习用户观看的每个视频的呈现样式，来学习用户的呈现样式偏好。电子阅读器设备可以然后与推荐系统通信以确定用户的呈现样式偏好。

2.1在教育视频中所采用的不同呈现样式

将理解到，web上的教育视频可以采用各种不同的呈现方式。该章节描述可以在这样的视频中采用的不同的呈现样式的示例性分类法。

在此所描述的呈现样式标识技术的示例性实现中，大量(例如，几千个)教育视频由一组个体(在下文中被称为裁定者)手动地检查，以便标识在视频的每个视频中主要采用的特定呈现样式(换句话说，裁定者标识采用在视频的每个视频中的“主要的”呈现样式)。该检查标识在图1中图示的11个不同的呈现样式，其中这11个不同的呈现样式中的每个呈现样式对应于不同的语义地有意义的教育视频组。如在图1中例示的，在呈现样式标识技术的示例性实现中，11个不同的呈现样式被分类为两个种类(即，渲染的视频和现实世界视频)。术语“渲染的视频”在本文中用于指代由计算设备(在本文中还被称为计算机)直接生成的视频。术语“现实世界视频”在本文中用于指代使用任何类型的视频照相机捕获的视频。

再参考图1，在此所描述的呈现样式标识技术的示例性实现中，可以在教育视频中采用的渲染的视频种类的呈现样式包括五个不同的呈现样式(即，渲染的幻灯片放映、包括呈现者(例如演讲者)的视频的渲染的幻灯片、渲染的动画、渲染的照片和渲染的手绘的幻灯片)。采用渲染的幻灯片放映呈现样式的教育视频是渲染的视频，其包括使用在计算设备上运行的常规呈现图形程序(例如，除了其他呈现图形程序之外，(微软公司的注册商标))而被生成的幻灯片序列。采用包括呈现者呈现样式的视频的渲染的幻灯片放映的教育视频是渲染的视频，其包括刚刚描述的计算机生成的幻灯片序列，其中幻灯片的呈现者的现实视频已经重叠在其规定区域中的幻灯片的顶部。采用渲染的动画呈现样式的教育视频是渲染的视频，其包括任何类型的计算机生成的动画。采用渲染的照片呈现样式的教育视频是包括照片序列的渲染的视频，其中照片中的一张或多张照片可以包括一个或多个增强，诸如重叠文本或常规Ken Burns效应(其是常常使用在视频生产领域中的平移和缩放效果)。采用渲染的手绘的幻灯片呈现样式的教育视频是渲染的视频，其包括使用在计算设备上运行的常规绘图程序(例如，除了其他绘图程序之外，Adobe Illustrator^TM(Adobe System公司的商标))而不是使用笔和纸等手绘的幻灯片序列。

再参考图1，在此所描述的呈现样式标识技术的示例性实现中，可以在教育视频中采用的现实世界的视频种类的呈现样式包括六个不同的呈现样式，即，自然视频、访谈的视频、在纸上手写的视频、投影幻灯片的视频、白板的视频和黑板的视频。采用自然视频呈现样式的教育视频是现实世界的视频，其包括特定现实世界的现象、场景、示范或者实验等的视频记录。采用访谈呈现样式的教育视频是现实世界的视频，其包括谈论特定主题或解释特定概念的人员的视频记录。采用在纸上手写的视频呈现样式的教育视频是现实世界的视频，其包括利用笔在一张纸等上写的人的视频记录。采用投影的幻灯片放映呈现样式的视频的教育视频是现实世界的视频，其包括光学地投影到屏幕或墙等上的幻灯片序列的视频记录，其中投影的幻灯片使用在计算设备上运行的常规呈现图形程序被生成或者使用在计算设备上运行的常规绘图程序被手绘。采用白板呈现样式的视频的教育视频是现实世界的视频，其包括在白板的前面演讲并且在其上写的人员的视频记录。采用黑板呈现样式的视频的教育视频是现实世界的视频，其包括在黑板的前面演讲并且在其上写的人员的视频记录。

2.2教育视频的呈现样式标记的数据集的处理

在此所描述的呈现样式标识技术的示例性实现中，从特别地被标记为“教育”类别的YouTube网站上的视频采集教育视频的两个不同的数据集。这些数据集中的一个数据集是被检索为与课本相关的视频的数据集，并且这些数据集中的另一个数据集是具有转录本的视频的数据集。针对这两个数据集中的教育视频的每个教育视频，手动地生成指定前述11个不同的呈现样式之一的真相(ground-truth)标记。给定数据集中的给定教育视频的真相标记由手动地检查视频的裁定者生成，以便标识11个不同的呈现样式中的哪一个呈现样式在视频中主要被采用，并且然后生成指定这一个呈现样式的视频真相标记。将理解到，给定教育视频可以采用超过一个呈现样式。以示例而非限制的方式，教育视频可以是包括使用常规呈现图形程序生成的幻灯片序列，其中这些幻灯片中的许多幻灯片包括计算机生成的动画或照片。教育视频还可以包括采用不同的呈现样式的时间段(例如，视频可以以谈论特定主题或解释特定概念的人的记录开始，并且然后切换到实验的记录)。在这样的情况下，手动地检查前述两个数据集中的视频的裁定者被指示生成指定在视频的每个视频中主要采用的呈现样式的真相标记。

图2图示了采用在如关于课本所检索的视频的数据集和具有转录本的视频的数据集内的不同的呈现样式的分布。如在图2中所示，这两个数据集具有归因于其以不同的方式被采集的事实的不同的呈现样式分布。

如关于课本所检索的视频的数据集包括通过考虑给定课本并且使用用于检索与课本有关的视频的常规方法(诸如COMITY(多平台普适系统中的协调应用适配)方法等)从YouTube网站检索与课本的每个章节有关的589个教育视频。当教育视频的内容对应于单个主题时，如关于课本所检索的视频的数据集采集呈现样式的可变性。

具有转录本的视频的数据集包括通过考虑YouTube网站上的、特别地被标记为“教育”的全部视频并且检索利用转录本可用的这些视频中的视频而被采集的1278个教育视频。将理解到，针对给定视频的转录本的存在用作用于确保视频包括真实教育内容(例如，确保视频真正是教育视频)的代理。具有转录本的视频的数据集采集存在于教育视频中的不同呈现样式的总体分布。在两个阶段中生成具有转录本的视频的数据集中的视频的真相标记。在第一阶段中，手动地检查该数据集中的视频的裁定者被要求确定视频的每个视频是否主要是渲染的视频或现实世界的视频。在第二阶段中，对于被确定为在渲染的视频种类中的视频的每个视频而言，裁定者被要求确定该种类中的前述五个不同的呈现样式中的哪一个呈现样式在视频中主要被采用；类似地，对于被确定为在现实世界的视频种类中的视频的每个视频而言，裁定者被要求确定该种类中的前述六个不同的呈现样式中的哪一个呈现样式在视频中主要被采用。

2.3教育视频表示

该章节描述了用于表示在此所描述的呈现样式标识技术实现中的教育视频的每个教育视频的特征的示例性分散性集合。特征的该集合可以被分类为三个种类(即，图像特征、脸部特征和运动特征)。图像特征在此被定义为针对视频的每个帧独立地计算的给定教育视频的特征。脸部特征在本文中被定义为基于视频中的一个或多个脸部的检测的给定教育视频的特征。运动特征在本文中被定义为基于视频如何逐帧改变的给定教育视频的特征。在本文所描述的呈现样式标识技术的示例性实现中，21个不同的特征的集合用于表示给定教育视频。如在下文中将更详细地描述，这21个特征由六个图像特征、六个脸部特征和九个运动特征组成。

2.3.1图像特征

在给定教育视频中主要采用的呈现样式常常从视频的单个帧来说是明显的。例如，渲染的幻灯片视频的给定帧和自然视频的给定帧将通常在视觉上彼此非常不同。在图示渲染的幻灯片视频的示例性帧的灰度版本的图3和图示自然视频的示例性帧的灰度版本的图7中举例说明了该事实。图4图示了针对图3中所示的视频帧的像素强度的直方图。图5图示了针对图3中所示的视频帧的小梯度幅度的直方图。图6图示了针对图3中所示的视频帧的大梯度幅度的直方图。图8图示了针对图7中所示的视频帧的像素强度的直方图。图9图示了针对图7中所示的视频帧的小梯度幅度的直方图。图10图示了针对图7中所示的视频帧的大梯度幅度的直方图。

在此所描述的呈现样式标识技术实现所使用的前述六个图像特征包括由feat_low-contrast表示的低对比度特征、由feat_{high-contrast}表示的高对比度特征、由feat_0-grad表示的零梯度特征、由feat_low-grad表示的低梯度特征、由feat_high-grad表示的高梯度特征、以及由feat_noise表示的噪声特征。这些图像特征基于以下事实：在此所描述的11个不同的呈现样式通常具有非常不同的像素统计和非常不同的边缘统计，并且因此通常具有非常不同的像素强度和梯度幅度直方图。通过比较图4和图8中所示的像素强度直方图，通过比较图5和图9中所示的小梯度幅度直方图，以及通过比较图6和图10中所示的大梯度幅度直方图来举例说明这些事实。现在将更详细地描述用于计算针对给定教育视频的刚刚描述的六个图像特征的方法的示例性实现。应当注意到，各种其他方法也可以被用于计算这些特征。

每当教育视频是彩色时，视频的多个帧f中的每个帧f首先从彩色转换为灰度。然后通过将帧f中的像素强度装仓到64个不同的像素强度仓中，来计算视频的多个帧f中的每个帧f的像素强度直方图，其中的每个仓包括四个不同的可能的连续的灰度级(即，bin₀[0,3]、bin₁[4,7]、bin₆₃[252,255])。通过将图3中所示的视频帧的像素强度装仓到如刚刚所描述的64个不同的像素强度仓中，来计算图4中所示的像素强度直方图。通过装仓图7中所示的视频帧的像素强度，来类似地计算图8中所示的像素强度直方图。图3中所示的视频帧具有对应于如在图4中举例说明的该帧的白色背景的主要像素强度仓，然而图7中所示的视频帧具有跨越如在图8中举例说明的像素强度的相当一致的分布。

在已经计算教育视频的帧f的每个帧f的像素强度直方图之后，针对视频的帧f的每个帧f执行以下动作。针对帧f的64个不同的像素强度仓从最大到最小由其值进行排序，以便提供帧f的背景中的灰度级的不变性。给定低对比度(f)表示被要求填充帧f中的像素的规定的低对比度阈值T_low-contrast部分的经排序的像素强度仓的数目，然后使用以下等式计算低对比度(f)：

其中l表示规定的像素强度仓数目(例如，bin_l)并且IBinS_i(f)表示帧f的第i个排序的像素强度仓的值(例如，权重)。

在已经针对教育视频的多个帧f中的每个帧f计算低对比度(f)之后，低对比度特征feat_low-contrast通过利用跨越视频的所有帧的低Low-Contrast(f)被如下计算：

其中#frames表示视频中的帧的总数目。feat_low-contrast因此根据低对比度阈值T_low-contrast测量针对视频的像素强度统计。

类似地，给定High-Contrast(f)表示被要求填充教育视频的给定帧f中的像素的规定的高对比度阈值T_{high-contrast}部分的经排序的像素强度仓的数目，High-Contrast(f)然后使用以下等式针对视频的帧f的每个帧f而被计算：

在已经针对视频的帧f的每个帧f计算High-Contrast(f)之后，高对比度特征feat_{high-contrast}通过利用跨视频的所有帧的High-Contrast(f)被如下计算：

feat_{high-contrast}因此根据高对比度阈值T_{high-contrast}测量针对视频的像素强度统计。

图5和图6的组合图示了图3中所示的视频帧的梯度幅度的直方图。该直方图被分成小梯度幅度部件(图5)和大梯度幅度部件(图6)，以便允许这两个部件以不同的尺度被显示。更特别地，图5示出了对应于图3中所示的视频帧中的相当弱的边缘的直方图的一部分，并且图6示出了对应于该视频帧中的较强的边缘的直方图的另一部分。类似地，图9和图10的组合图示了图7中所示的视频帧的梯度幅度的直方图。该直方图被分成小梯度幅度部件(图9)和大梯度幅度部件(图10)，以便允许这两个部件以不同的尺度被显示在。更特别地，图9示出了对应于图7中所示的视频帧中的相当弱的边缘的直方图的一部分，并且图10示出了对应于该视频帧中的较强的边缘的直方图的另一部分。如在图5中例示的，图3的视频帧具有归因于该帧中的固定背景的bin₀中的大量的零梯度。如在图5和图6中举例说明的，图3的视频帧具有相对很少弱但非零梯度和归因于该帧中的文本和线的相对很多非常强的梯度。

给定GBin_i(f)表示针对教育视频的给定帧f的第i个梯度幅度仓，零梯度特征feat_0-grad被定义为针对视频的所有帧的零梯度幅度仓GBin₀的值(例如，权重)的平均值。feat_0-grad因此测量存在于视频中的零梯度的数量。低梯度特征feat_low-grad被定义为针对视频的所有帧的前几个非零梯度幅度仓(例如，GBin₁,……,GBin_n，其中n是大于零的规定的小数目)的值的平均值。feat_low-grad因此测量存在于视频中的弱但非零梯度(例如，最弱的边缘)的数量。高梯度特征feat_high-grad被定义为针对视频的所有帧的最高的编号的梯度幅度仓的值的平均值(例如，GBin₆₃,……,GBin_63-m，其中m也是大于零的规定的小数目)，feat_high-grad因此测量存在于视频中的强梯度(例如，最强的边缘)的数量。

噪声特征feat_noise测量存在于教育视频中的像素强度噪声量。在在此所描述的呈现样式标识技术的示例性实现中，通过以下方式计算feat_noise。对于视频的帧的每个帧而言，线性模型适于帧的规定的3像素×3像素区域中的像素强度，并且然后根据该线性模型来测量实际的像素强度的误差的标准偏差。然后，跨视频的所有帧对视频的帧的每个帧的该所测量的标准偏差进行求平均。

2.3.2脸部特征

由在此所描述的呈现样式标识技术实现的前述六个脸部特征包括由feat_face表示的脸部检测特征、由feat_moving-face1表示的第一移动脸部特征、由feat_moving-face2表示的第二移动脸部特征、测量视频中的其中没有脸部由feat_face*检测到的帧的最长的序列的长度的脸部未呈现特征、以及视频中的测量其中仅一个脸部由检测到的帧的最长序列的长度的脸部呈现特征。六个脸部特征还包括由feat_face-size所表示的脸部大小特征，其跨视频中的其中仅一个脸部被检测的帧而测量该所检测的脸部的平均大小。这些脸部特征基于以下事实：在此所描述的11个不同的呈现样式中的一些呈现样式显著地特征化呈现者的脸部，然而这些呈现样式的其他不这样。现在将更详细地描述用于计算针对给定教育视频的刚刚描述的六个脸部特征的方法的示例性实现。应当注意到，各种其他方法也可以被用于计算这些特征。

脸部检测特征feat_face使用以下等式被计算：

其中

feat_face因此测量视频中的其中仅一个脸部被检测的帧的百分比。将理解到，可以使用各种方法计算Face(f)。在此所描述的呈现样式标识技术的示例性实现中，使用简单特征方法的增强级联的常规快速对象检测的常规多实例修剪一般化来计算Face(f)。

在一些情况中，脸部检测特征feat_face可以检测教育视频中的不是呈现者的脸部的脸部。例如，考虑到其中渲染的幻灯片放映视频包括一个或多个幻灯片的情况，这些幻灯片包括不是呈现者的脸部的脸部。为了解决这样的情况，第一移动脸部特征feat_moving-face1和第二移动脸部特征feat_moving-face2以不同的方式测量每个所检测的脸部是否正移动。更特别地，对于视频中的其中仅一个脸部被检测到的每个帧f而言(例如，对于Face(f)＝1的每个帧f而言)，feat_moving-face1和feat_moving-face2被计算如下。通过计算跨该帧f与紧接地先前帧之间的所检测的脸部中的像素的每个像素的像素差来计算feat_moving-face1，然后跨所检测的脸部中的像素的每个像素对该差进行求平均，并且然后确定该平均值是否大于规定阈值。通过利用规定形状(例如，矩形等)对所检测的脸部加边来计算feat_moving-face2，并且然后将该帧f中的该形状的位置与紧接地先前帧中的该形状的位置比较，以便确定该形状是否正移动(而不是该形状内的像素)。

在其他情况中，存在于教育视频中的脸部可以未由视频的帧中的一些帧中的脸部检测特征feat_face检测。例如，考虑其中呈现者的脸部的大小在包括呈现者的视频的渲染的幻灯片视频中相当小的情况，呈现者的视频的质量是不佳的，并且呈现者的姿势或者呈现者的照明的变化在呈现者的视频期间发生。脸部未呈现特征feat_face*和脸部呈现特征旨在解决这样的情况。使用以下等式来计算feat_face*：

其中l表示第一规定帧数并且k表示大于或等于l的第二规定帧数。将理解到，只要每隔视频的数帧检测到脸部，feat_face*将具有接近于1.0的值，使得针对间歇地未能检测视频中的脸部将未惩罚许多feat_face。还将理解到，提供脸部检测多么稳定的感觉。

脸部大小特征feat_face-size被计算为跨教育视频中的、在其中对由所检测的脸部占据的帧区域的部分检测仅一个脸部的多个帧的每个帧的平均值的平方根。

2.3.3运动特征

由在此所描述的呈现样式标识技术实现所使用的前述九个运动特征可以被分类为三个种类(即，运动频率特征、运动量特征和运动类型特征)。在呈现样式标识技术的示例性实现中，运动频率特征测量运动(例如，移动)在给定教育视频中发生的频繁程度。运动量特征测量多少运动在视频中发生。运动类型特征指定在视频中发生的运动的类型。

2.3.3.1运动频率特征

将理解到，给定教育视频中的运动的频率跨在此所描述的11个不同的呈现样式而相当大地变化。换句话说，在一些类型的教育视频中，在其中的内容移动(例如，存在跨视频的连续帧的运动)大百分比的时间，然而在其他类型的教育视频中，在其中的内容在一段时间仅移动一次(例如，小百分比的时间)。例如，渲染的动画视频中的动画通常移动大量的时间，然而在渲染的幻灯片视频中，通常存在仅当存在从当前幻灯片到下一幻灯片的过渡时的移动/运动。在图11和图12中相应地图示了这些事实。更特别地，图11图示了跨越示例性渲染的动画视频的帧(换句话说，运动的时间频率)的运动幅度，并且图12图示了跨越示例性渲染的幻灯片放映视频的帧的运动幅度。

运动频率特征包括由feat_motf1表示的第一运动频率特征、由feat_motf2表示的第二运动频率特征、测量视频中的其中存在由feat_motf*表示的运动的帧的最长序列的长度的运动呈现特征(例如，其中在视频的连续帧之间检测到的运动的帧的最长序列)、以及测量视频中的其中不存在由表示的运动的帧的最长序列的长度的运动未呈现特征(例如，其中在视频的连续帧之间未检测到运动的帧的最长序列)。现在将更详细地描述用于计算针对示例性教育视频的这些特征的每个特征的方法的示例性实现。应当注意到，各种其他方法也可以被用于计算这些特征。

每当教育视频有颜色时，视频的多个帧f中的每个帧f首先从彩色转换为灰度。视频的多个帧f中的每个帧f中的运动MMag(f)的幅度然后使用以下等式被计算：

其中#pixels表示视频的每个帧中的像素的数目，并且I_x，y(f)表示帧f的灰度像素(x,y)的强度。

在已经计算视频的多个帧f中的每个帧f中的运动MMag(f)的幅度之后，使用以下等式计算第一运动频率特征feat_motf1：

其中

并且T_motf1是规定的运动频率阈值。feat_motf1因此测量视频中的其中运动的幅度大于或等于T_motf1的帧的百分比。类似地，使用以下等式计算第二运动频率特征feat_motf2：

其中

并且T_motf2是大于T_motf1的另一规定的运动频率阈值。feat_motf2因此测量视频中的其中运动的幅度大于或等于T_motf2的帧的百分比。

2.3.3.2运动量特征

如此前所描述的，运动量特征测量多少运动在给定教育视频中发生。在此所描述的呈现样式标识技术的示例性实现中，通过测量视频中的、其强度从视频的一个帧到下一个帧发生改变的像素的数目，来确定视频中的运动量。其强度从一个视频帧到下一个帧发生改变的像素有时在本文中被称为移动像素。将理解到，给定教育视频中的运动量跨本文所描述的11个不同的呈现样式而相当大地变化。换句话说，在一些类型的教育视频中，在其中存在非常小的运动量，然而在其他类型的教育视频中，在其中存在大的运动量。例如，在渲染的手绘的幻灯片视频中，视频中的仅非常小数目的像素的强度将从一个视频帧到下一个帧改变(例如，仅当前被编辑的像素)，然而在纸上手写的视频中，视频中的大得多的数目的像素将从一个视频帧到下一个帧改变，这是因为正执行手写的人员的手在视频中是可见的并且正移动。在图13和图14中相应地图示了这些事实。更特别地，图13图示了跨示例性渲染的手绘的幻灯片视频的帧的运动量，并且图14图示了跨在纸上手写的示例性视频的帧的运动量。

运动量特征包括由feat_mota1所表示的第一运动量特征和由feat_mota2所表示的第二运动量特征。现在将更详细地描述用于计算针对给定教育视频的这些两个特征的特征方法的示例性实现。应注意到，各种其他方法也可以用于计算这些特征。

每当教育视频有颜色时，视频的多个帧f中的每个帧f首先从彩色转换为灰度。给定Mov1(f，x，y)表示视频的给定帧f的灰度像素(x,y)根据由T_motpix1所表示的规定的运动像素阈值是否移动，使用以下等式针对视频的多个帧f中的每个帧f计算Mov1(f，x，y)：

给定FracMov1(f)根据规定的运动像素阈值T_motpix1表示视频的给定帧f中的移动像素的部分，使用以下等式针对视频的多个帧f中的每个帧f计算FracMov1(f)：

类似地，给定Mov2(f,x,y)表示根据由T_motpix2所表示的另一规定的运动像素阈值视频的给定帧f的灰度像素(x,y)是否正移动，其中T_motpix2大于T_motpix1，使用以下等式针对视频的多个帧f中的每个帧f计算Mov2(f,x,y)：

给定FracMov2(f)根据规定的运动像素阈值T_motpix2表示视频的给定帧f中的移动像素的部分，使用以下等式针对视频的帧f的每个帧f计算FracMov2(f)：

为了使运动特征的运动种类的数量对非常大量的运动(除了其他时间之外，其可以在给定视频中的过渡期间发生)鲁棒，使用以下等式计算第一运动数量特征feat_mota1：

feat_mota1＝Percentile_f(FracMov1(f)，T_mota)，

其中T_mota是规定的运动数量阈值，并且Percentile_f对跨教育视频的所有帧的FracMovl(f)的值进行排序并且然后在T_mota百分比处选择FracMovl(f)的值。类似地，使用以下等式计算第二运动数量特征feat_mota2：

feat_mota2＝Percentile_f(FracMov2(f)，T_mota)，

其中Percentile_f对跨视频的所有帧的FracMov2(f)的值进行排序并且然后在T_mota百分比处选择FracMov2(f)的值。

2.3.3.3运动类型特征

将理解到，给定教育视频中的运动的类型还跨本文所描述的11个不同的呈现样式而相当大地变化。换句话说，在一些呈现样式中，运动是大部分刚性的，同时在其他呈现样式中，存在许多非刚性运动。例如，在给定Ken Burns效应期间，在渲染的照片视频中，运动可以是单个“刚性”平移和缩放，然而在自然视频中，运动将可能具有许多不同的非刚性分量。

运动类型特征包括由feat_mott1所表示的第一运动类型特征、由feat_mott2所表示的第二运动类型特征、以及由feat_mott3所表示的第三运动类型特征。现在将更详细地描述用于计算针对示例性教育视频的这三个特征的特征方法的示例性实现。应注意到，各种其他方法也可以用于计算这些特征。

给定NRFlow(f)表示教育视频的给定帧f与视频的紧接地后续帧(f+1)之间的非刚性运动的幅度，针对视频的多个帧f中的每个帧f被如下估计NRFlow(f)。首先计算跨全部帧f的光流的幅度(在本文中OFlow(f))。如在图像处理的领域中将理解到，光流是由观察者(例如，视频照相机等)与场景之间的相对运动引起的视觉场景中的对象、表面和边缘的明显运动的分布。在此所描述的呈现样式标识技术的示例性实现中，使用确定光流的常规Horn-Schunck方法来执行该光流幅度计算。然后根据OFlow(f)估计跨全部帧f的刚性平移和缩放参数运动。在此所描述的呈现样式标识技术的示例性实现中，使用常规基于层次模型的运动估计方法来执行该刚性平移和缩放参数运动估计。然后通过从跨全部帧f的OFlow(f)减去所估计的刚性平移和缩放参数运动来计算NRFlow(f)，并且然后计算该减法的结果的幅度。

在针对教育视频的帧f的每个帧f已经计算NRFlow(f)之后，使用以下等式计算第一运动类型特征feat_mott1：

feat_mott1＝Percentile_f(NRFlow(f)，T_mott1)，

其中T_mott1是规定的运动类型阈值，并且Percentile_f对跨视频的所有帧的NRFlow(f)的值进行排序并且然后在T_mott1百分比处选择NRFlow(f)的值。将理解到，feat_mott1的该计算使运动特征的运动种类的类型对过渡期间的极限运动鲁棒。第二运动类型特征feat_mott2可以使用以下等式被简单地计算：

feat_mott2＝Percentile_f(NRFlow(f)/OFlow(f)，T_mott2)，

其中T_mott2是另一规定的运动类型阈值，NRFlow(f)/OFlow(f)表示非刚性的OFlow(f)的部分，并且Percentile_f对跨视频的所有帧的NRFlOw(f)/OFlow(f)的值进行排序并且然后在T_mott2百分比处选择NRFlow(f)/OFlow(f)的值。第三运动类型特征feat_mott3可以使用以下等式简单地计算：

feat_mott3＝Percentile_f(OFRes(f)，T_mott3)，

其中T_mott3是又一规定的运动类型阈值，OFRes(f)表示通常指示视频的帧f与紧接地后续帧(f+1)之间的改变的程度的光流残余归因于视频中的场景元素的运动，并且Percentile_f对跨视频的所有帧的OFRes(f)的值进行排序并且然后在T_mott3百分比处选择ORFes(f)的值。因此，将理解到，feat_mott3测量视频中的帧到帧改变是归因于视频中的场景元素的运动(通常导致小光流残余)还是归因于视频中的场景元素的出现和后续消失(例如，如在幻灯片中发生，通常导致大的光流残余)。还将理解到，包括场景元素的大量运动而且包括大量的噪声的视频还将生成高光流残余。因此，除了前述噪声feat_noise之外，feat_mott3还提供视频中的噪声的另一估计。

2.4视频呈现样式分类器

图15图示了用于学习可以用于确定(例如，推断)在任何教育视频中主要采用的呈现样式的视频呈现样式分类器H的过程的简化形式的示例性实现、图16图示了用于学习分类器H的伪代码的简化形式的对应的示例性实现。在此所描述的呈现样式标识技术的示例性实现中，图15中举例说明的视频呈现样式分类器学习过程和图16中举例说明的伪代码利用可以在教育视频中采用的前述11个不同的呈现样式，并且还利用可以用于表示教育视频的前述图像特征、脸部特征和运动特征。

如在图15和图16中所举例说明的，用于学习视频呈现样式分类器H的过程以接收包括多个教育视频的训练数据集L开始，其中的每个教育视频利用指定在视频中主要被采用的呈现样式的呈现样式标识符被标记，其中该指定呈现样式是可以在教育视频中采用的可能呈现样式C的集合中的呈现样式之一(动作1500)。还针对其计算表示L中的视频的每个视频的特征的集合。换句话说，L＝{x¹,y¹,...,xⁿ,yⁿ},其中n表示L中的视频的总数，x^j表示用于表示视频j的21个不同的特征的前述集合，y^j表示在视频j中主要采用的呈现样式，并且y^j∈C。因此，针对训练数据集L中的视频的每个视频，计算21个不同的特征。训练数据集L中的视频的每个视频还被标记有在视频中主要被采用的呈现样式。在此所描述的呈现样式标识技术的示例性实现中，可能的呈现样式C的集合包括本文所描述的11个不同的呈现样式(例如，C＝{c₁,...,c₁₁})。一般而言并且如在下文中更详细描述的，训练数据集L和常规堆叠一般化方案的规定实例的组合用于学习分类器H。由在此所描述的呈现样式标识技术实现所使用的堆叠一般化方案实例是有利的，这是因为其以增加所得分类器H的鲁棒性和一般化的方式提供用于组合各种特征集和分类器的富框架。

再次参考图15和图16，在已经接收到训练数据集L(动作1500)之后，L用于独立地学习针对可能的呈现样式C的集合中的呈现样式的每个可能的未排序对的不同的分类器H_c1c2(动作1502)。然后使用概率融合来组合这些不同的分类器H_c1c2，该组合产生视频呈现样式分类器H(动作1504)。换句话说，通过以原则性概率方式融合所有不同的分类器H_c1c2来生成分类器H。将理解到，C中的呈现样式的一些呈现样式已经共享与C中的呈现样式的其他呈现样式相当大地重叠的特性。例如，包括呈现者视频呈现样式和访谈视频呈现样式的这两个渲染的幻灯片具有视频中的呈现者。在此所描述的呈现样式标识技术的示例性实现中，针对可能呈现样式的集合中的呈现样式的每个可能未排序对独立地学习的不同的分类器是三路分类器。用于生成分类器H的三路分类器的使用是有利的，这是因为三路分类器最大地可区别。换句话说，三路分类器系统地集中在C中的呈现样式对之间的判别式表面的区域上，同时将剩余的类型(例如，不是给定未排序对的一部分的那些)视为噪声。应当注意到，呈现样式标识技术的备选实现也是可能的，其中针对呈现样式的每个可能的未排序对独立地学习的不同的分类器可以是另一类型的分类器(诸如二元(即，两路)分类器)等。

在其中可能的呈现样式C的集合包括前述11个不同的呈现样式的本文所描述的呈现样式标识技术的示例性实现中，将理解到，图15的动作1502将导致学习总共K＝11×10/2个不同的分类器H_c1c2。如在图16中例示的，在其中这K个不同的分类器H_c1c2是三路分类器的呈现样式标识技术的刚刚所描述的实现中，在可能呈现样式C的集合中的呈现样式的给定未排序对与包括C中的、除了给定未排序对的那些之外的所有不同的呈现样式的附加背景类别⊥之间学习K个不同的三路分类器H_c1c2中的每个三路分类器H_c1c2。将理解到，附加背景类别⊥捕获在给定教育视频中主要采用的真实的呈现样式与给定未排序对中的呈现样式不同的概率。训练数据集L被分为标记的教育视频的两个非重叠子集(即，训练子集B和训练子集S)，其被使用如下。训练子集B被用于训练K个不同的三路分类器H_c1c2中的每个三路分类器H_c1c2。一旦已经训练了所有K个不同的三路分类器H_c1c2，使用由3×K个特征组成的z来表示每个训练样本(x,y)∈S，即来自K个不同的三路分类器H_c1c2的预测概率。z的元素连同其对应的标记然后用于创建用于训练视频呈现样式分类器H的新训练数据集L_s'。

在此所描述的呈现样式标识技术的示例性实现中，使用常规决策森林方法来训练K个不同的分类器H_c1c2和视频呈现样式分类器H中的每一个。如机器学习领域中所理解的，决策森林是D决策树的集成，其中使用特征值组合的随机子集来独立地训练集成中的决策树中的每个决策树在预测(GETPREDICTIONPROBABILITIES)期间，来自决策树的每个决策树的输出被组合以做出针对森林的总体预测。本文所描述的呈现样式标识技术实现采用用于预测的加性模型，使得：

决策树中的每个决策树对21个不同的特征的前述集合中的特征的随机选择的规定百分比(例如，25百分比)进行训练并且对这些特征的所有值进行搜索。为了解决训练数据集L中的偏斜性，使用具有替换的重复采样来平衡L，其中交互信息被用作分割准则。森林的每个森林的训练由三个不同的参数(即，森林中的树的数目、最大树深度和当分割节点时的最大失衡)。

在此所描述的呈现样式标识技术的测试实现中，刚刚所描述的已学习的视频呈现样式分类器用于确定在以下数据集中的多个教育视频的每个教育视频中主要采用的呈现样式：如关于课本所检索的视频的前述数据集、和具有转录本的视频的数据集。在将分类器的呈现样式确定与针对这两个数据集中的视频的每个视频的真相标记相比较时，分类器证明能够以高准确度来确定在这些视频的每个视频中主要采用的呈现样式。

2.5呈现样式标识

图17图示了用于标识视频的呈现样式的过程的简化形式的示例性实现。如在图17中例示的，过程以接收视频开始(动作1700)。然后，计算表示视频的特征的集合(动作1702)。预学习的视频呈现样式分器然后用于对特征集中的多个特征的每个特征进行加权并且确定在视频中主要被采用的呈现样式，其中该呈现样式确定基于对特征的加权(动作1704)。

图18图示了用于允许用户搜索视频的过程的简化形式中的示例性实现。如在图18中例示的，过程以隐式地学习用户的呈现样式偏好开始(动作1800)，其中该隐式学习被实现如下。对于用户观看的每个视频而言(动作1802)，计算表示视频的特征的集合(动作1804)，并且预学习的视频呈现样式分类器，然后用于对特征集中的特征的每个特征进行加权并且确定在视频中主要被采用的呈现样式，其中该呈现样式确定基于对特征的加权(动作1806)。由用户提交的视频查询然后被接收(动作1808)，并且提交给搜索引擎(动作1810)。然后从搜索引擎接收针对视频查询的搜索结果(动作1812)，其中搜索结果包括搜索引擎所找到的、与视频查询匹配的任何视频。然后，每当视频查询未明确地指定用户感兴趣的一个或多个特定呈现样式时(动作1814，否)，用户的已学习的呈现样式偏好用于改进搜索结果(动作1816)，并且改进的搜索结果被提供给用户(动作1818)。用户的学习的呈现样式偏好还可以可选地用于将其他视频建议给其可能感兴趣的用户(动作1820)。

用户的已学习的呈现样式偏好可以用于以诸如以下的各种方式改进搜索结果。在此所描述的呈现样式标识技术的一个实现中，用户的已学习的呈现样式偏好可以用于过滤搜素结果，使得改进的搜索结果被限于匹配这些偏好的视频。在呈现样式标识技术的另一实现中，用户的已学习的呈现样式偏好可以用于对搜索结果进行排序，使得与这些偏好匹配的视频出现在改进的搜索结果的顶部处。

再参考图18，每当视频查询明确地指定用户感兴趣的一个或多个特定呈现样式时(动作1814，是)，这些所指定的呈现样式被用于改进搜索结果(动作1822)。指定的呈现样式可以用于以诸如以下的各种方式改进搜索结果。在此所描述的呈现样式标识技术的一个实现中，所指定的呈现样式可以用于过滤搜索结果，使得改进的搜索结果被限于与指定的呈现样式匹配的视频。在呈现样式标识技术的另一实现中，所指定的呈现样式可以用于对搜索结果进行排序，使得与所指定的呈现样式匹配的视频出现在改进的搜索结果的顶部处。

图19图示了用于实现在此所描述的呈现样式标识技术实现的架构框架的简化形式的示例性实现。如在图19中例示的，架构框架1900包括视频呈现样式分类器学习模块1904、特征计算模块1910、视频呈现样式确定模块1914、视频搜索接口模块1922(其包括偏好学习部件1926)、以及搜索引擎模块1924。特征计算模块1910和视频呈现样式确定1914被用在用于标识针对视频的呈现样式的前述过程中。更特别地，特征计算模块1910接收视频1908并且计算表示视频的特征的集合1912。视频呈现样式确定模块1914使用预学习的视频呈现样式分类器1906对特征集1912中的特征的每个特征进行加权并且确定在视频1916中主要采用的呈现样式。

再次参考图19，视频呈现样式分类器学习模块1904被用在用于学习视频呈现样式分类器的前述过程的实现中。更特别地，视频呈现样式分类器学习模块1904接收训练数据集1902并且使用其产生视频呈现样式分类器1906。

再次参考图19，特征计算模块1910、视频呈现样式确定模块1914、视频搜索接口模块1922和搜索引擎模块1924被用在用于允许用户搜索视频的前述过程的实现中。更特别地，对于用户1918观看的每个视频1908，特征计算模块1910计算表示视频的特征集1912，并且视频呈现样式确定模块1914使用预学习的视频呈现样式分类器1906对特征集中的多个特征中的每个特征进行加权并且确定在视频1916中主要采用的呈现样式。视频搜索接口模块1922的偏好学习部件1926然后使用主要采用在视频1916中的所确定的呈现样式来隐式地学习用户1918的呈现样式偏好。视频搜索接口1922接收由用户1918提交的视频查询1920，并且将视频查询提交给搜索引擎1924。视频搜索接口1922然后从搜索引擎1924接收搜索结果1928。每当视频查询1920未明确地指定用户1918感兴趣的一个或多个特定呈现样式时，视频搜索接口1922使用用户的隐式地学习的呈现样式偏好来改进搜索结果1928，并且然后将改进的搜索结果1930提供给用户。

3.0附加的实现

虽然已经通过对其实现的特定引用来描述呈现样式标识技术，但是应理解到，在不脱离呈现样式标识技术的真实精神和范围的情况下，可以做出其变型和修改。例如，在其中给定教育视频包括音频轨道的情况下，可以通过使用音频轨道结合在此所描述的呈现样式标识技术实现来确定在视频中主要被采用的呈现样式。在其中附加信息关于给定教育视频(除了其他类型的附加信息之外，诸如视频的转录本或视频的创建者或其组合)可用的情况下，可以通过使用该附加信息结合在此所描述的呈现样式标识技术实现来确定在视频中主要被采用的呈现样式。在其中用户正观看给定网站上的特定视频或正使用给定阅读应用阅读特定电子书的情况下，本文所描述的呈现样式标识技术实现能够用于将视频建议给适合于用户的偏好的用户并且因此可以对用户感兴趣。

还应注意到，前述实现的任何或全部可以以期望的任何组合使用来形成附加的混合实现。虽然已经以特定于结构特征和/或方法动作的语言描述呈现样式标识技术实现，但是应当理解到，所附的权利要求中限定的主题不必限于此前所描述的特定特征或动作。相反，上文所描述的特定特征和动作被公开作为实现权利要求的示例形式。

4.0示例性操作环境

在此所描述的呈现样式标识技术实现在许多类型的通用或专用计算系统环境或配置内是可操作的。图20图示了在其上可以实现如在此所描述的呈现样式标识技术的各种实现和元素的通用计算机系统的简化示例。应当注意，由图20中所示的简化计算设备10中的折线或虚线表示的任何框表示简化计算设备的备选实现。如下文所描述的，可以组合贯穿该文档描述的其他备选实现使用任何或全部这些备选实现。简化计算设备10通常地在具有至少一些最小计算能力的设备中被找到，诸如个人计算机(PC)、服务器计算机、手持式计算设备、膝上型计算机或移动计算机、通信设备诸如手机和个人数字助理(PDA)、多处理器系统、基于微处理器的系统、机顶盒、可编程消费电子产品、网络PC、小型计算机、大型计算机和音频或视频媒体播放器。

为了允许设备实现在此所描述的呈现样式标识技术实现，设备应当具有足够的计算能力和系统存储器以实现基本计算操作。具体而言，图20中所示的简化计算设备10的计算能力通常由(一个或多个)处理单元12图示，并且还可以包括(一个或多个)图形处理单元(GPU)14，其中的一者或二者与系统存储器16通信。注意，简化计算设备10的(一个或多个)处理单元12可以是专用微处理器(诸如数字信号处理器(DSP)、超长指令字(VLIW)处理器、现场可编程门阵列(FPGA)或其他微控制器)或可以是具有一个或多个处理核心的常规中央处理单元(CPU)。

另外，图20中所示的简化计算设备10还可以包括诸如通信接口18的其他组件。简化计算设备10还可以包括一个或多个常规计算机输入设备20，例如，指点设备、键盘、音频(例如，声音)输入设备、视频输入设备、触觉输入设备、手势识别设备、用于接收有线或无线数据传输的设备，等等。简化计算设备10还可以包括其他任选的组件，诸如一个或多个常规计算机输出设备22，例如，(一个或多个)显示设备24、音频输出设备、视频输出设备、用于发射有线或无线数据传输的设备，等等。注意，针对通用计算机的典型的通信接口18、输入设备20、输出设备22和存储设备26对本领域的技术人员而言是众所周知的，并且将不在此详细描述。

图20中所示的简化计算设备10还可以包括各种计算机可读介质。计算机可读介质可以是可以由计算机10经由存储设备26访问的任何可用介质，并且可以包括对于针对信息(诸如计算机可读指令或计算机可执行指令、数据结构、程序模块或其他数据)的存储可移除28和/或不可移除30的易失性介质和非易失性介质。计算机可读介质包括计算机存储介质和通信介质。计算机存储介质是指有形计算机可读介质或机器可读介质或存储设备，诸如数字多用光盘(DVD)、压缩光盘(CD)、软盘、磁带驱动器、硬盘驱动器、光学驱动器、固态存储器设备、随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、闪速存储器或其他存储器技术、磁带盒、磁带、磁盘存储装置或其他磁性存储设备。

还可以通过使用任何各种前述通信介质(与计算机存储介质相反)来完成信息(诸如计算机可读指令或计算机可执行指令、数据结构、程序模块等)的保留，以编码一个或多个经调制的数据信号或载波或其他传输机制或通信协议，并且可以包括任何有线或无线信息递送机制。注意，术语“经调制的数据信号”或“载波”通常指代具有其特性集中的一个或多个特征或以关于将信息编码在信号中的这样的方式改变的信号。例如，通信介质可以包括有线介质(诸如承载一个或多个经调制的数据信号的有线网络或直接有线连接)和无线介质(诸如声音、射频(RF)、红外、激光和用于发送和/或接收一个或多个经调制的数据信号或载波的其他无线介质)。

可以从计算机可读介质或机器可读介质或存储设备和以计算机可执行指令或其他数据结构的形式的通信介质的任何期望的组合存储、接收、发送或读取实现在此所描述的各种呈现样式标识技术实现中的一些或全部或其部分的软件、程序和/或计算机程序产品。

最后，还可以在由计算设备执行的计算机可执行指令(诸如程序模块)的一般上下文中描述在此所描述的呈现样式标识技术实现。通常，程序模块包括例程、程序、对象、组件、数据结构等，其执行特定任务或实现特定抽象数据类型。呈现样式标识技术实现还可以被实践在其中通过一个或多个远程处理设备执行任务的分布式计算环境中，或者被实践在通过一个或多个通信网络链接的一个或多个设备云内。在分布式计算环境中，程序模块可以位于包括介质存储设备的本地计算机存储介质和远程计算机存储介质二者中。此外，前述指令可以部分或全部被实现为硬件逻辑电路，其可以包括或可以不包括处理器。

Claims

1.一种用于标识视频的呈现样式的计算机实现的方法，包括以下动作：

使用经由计算机网络彼此通信的一个或多个计算设备来执行以下过程动作：

接收所述视频；

计算图像特征的集合，所述图像特征针对所述视频的每一帧而被独立计算，所述图像特征包括以下各项中的一项或多项：

低对比度特征，其根据规定的低对比度阈值测量针对所述视频的像素强度统计，或

高对比度特征，其根据规定的高对比度阈值测量针对所述视频的像素强度统计，或

零梯度特征，其测量在所述视频中存在的零梯度的量，或

低梯度特征，其测量在所述视频中存在的弱但非零梯度的量，或

高梯度特征，其测量在所述视频中存在的强梯度的量，或

噪声特征，其测量在所述视频中存在的像素强度噪声的量；以及

使用预学习的视频呈现样式分类器来对所述集合中的所述图像特征中的每个图像特征进行加权并且确定在所述视频中主要被采用的呈现样式，所述呈现样式的确定基于对所述特征的所述加权。

2.根据权利要求1所述的方法，其中所确定的所述呈现样式包括可能的呈现样式的集合中的所述呈现样式中的一个呈现样式，所述可能的呈现样式的集合包括：

渲染的视频种类的呈现样式；以及

现实世界视频种类的呈现样式。

3.根据权利要求2所述的方法，其中所述视频包括教育视频，并且所述渲染的视频种类的呈现样式包括以下各项中的一项或多项：

渲染的幻灯片放映呈现样式；或

包括呈现者的视频的渲染的幻灯片放映的呈现样式；或

渲染的动画呈现样式；或

渲染的照片呈现样式；或

渲染的手绘的幻灯片呈现样式。

4.根据权利要求2所述的方法，其中所述视频包括教育视频，并且所述现实世界视频种类的呈现样式包括以下各项中的一项或多项：

自然视频呈现样式；或

访谈的视频呈现样式；或

在纸上手写的视频呈现样式；或

投影的幻灯片的视频呈现样式；或

白板的视频呈现样式；或

黑板的视频呈现样式。

5.一种用于标识视频的呈现样式的计算机实现的方法，包括以下动作：

接收所述视频；

计算表示所述视频的脸部特征的集合，其中所述脸部特征基于对所述视频中的一个或多个脸部的检测，所述脸部特征包括以下各项中的一项或多项：

脸部检测特征，其测量所述视频中的、仅一个脸部被检测到的帧的百分比，或

一个或多个移动脸部特征，其各自针对所述视频中的、仅一个脸部被检测到的每帧来测量检测到的所述脸部是否正移动，或

脸部未呈现特征，其测量所述视频中的、没有脸部被检测到的帧的最长序列的长度，或

脸部呈现特征，其测量所述视频中的、仅一个脸部被检测到的帧的最长序列的长度，或

脸部大小特征，其跨越所述视频中的、仅一个脸部被检测到的所述帧来测量检测到的所述脸部的平均大小；以及

使用预学习的视频呈现样式分类器来对所述集合中的所述脸部特征中的每个脸部特征进行加权并且确定在所述视频中主要被采用的呈现样式，所述呈现样式的确定基于对所述特征的所述加权。

6.根据权利要求5所述的方法，其中所确定的所述呈现样式包括可能的呈现样式的集合中的所述呈现样式中的一个呈现样式，所述可能的呈现样式的集合包括：

渲染的视频种类的呈现样式；以及

现实世界视频种类的呈现样式。

7.根据权利要求6所述的方法，其中所述视频包括教育视频，并且所述渲染的视频种类的呈现样式包括以下各项中的一项或多项：

渲染的幻灯片放映呈现样式；或

包括呈现者的视频的渲染的幻灯片放映的呈现样式；或

渲染的动画呈现样式；或

渲染的照片呈现样式；或

渲染的手绘的幻灯片呈现样式。

8.根据权利要求6所述的方法，其中所述视频包括教育视频，并且所述现实世界视频种类的呈现样式包括以下各项中的一项或多项：

自然视频呈现样式；或

访谈的视频呈现样式；或

在纸上手写的视频呈现样式；或

投影的幻灯片的视频呈现样式；或

白板的视频呈现样式；或

黑板的视频呈现样式。

9.一种用于标识视频的呈现样式的计算机实现的方法，包括以下动作：

接收所述视频；

计算表示所述视频的运动特征的集合，其中所述运动特征基于所述视频如何逐帧改变，所述运动特征包括以下各项中的一项或多项：

运动频率特征，其测量运动在所述视频中发生的频繁程度，或

运动量特征，其测量多少运动在所述视频中发生，或

运动类型特征，其指定在所述视频中发生的运动的所述类型；以及

使用预学习的视频呈现样式分类器来对所述集合中的所述运动特征中的每个运动特征进行加权并且确定在所述视频中主要被采用的呈现样式，所述呈现样式的确定基于对所述特征的所述加权。

10.根据权利要求9所述的方法，其中所述运动频率特征包括以下各项中的一项或多项：

运动频率特征，其测量所述视频中的、运动的幅度大于或等于规定的运动频率阈值的帧的百分比；或

另一运动频率特征，其测量所述视频中的、运动的幅度大于或等于另一规定的运动频率阈值的帧的百分比；或

运动呈现特征，其测量所述视频中的、存在运动的帧的最长序列的长度；或

运动未呈现特征，其测量所述视频中的、不存在运动的帧的最长序列的长度。

11.根据权利要求9所述的方法，其中所述运动量特征包括以下各项中的一项或多项：

运动量特征，其测量所述视频中的、其强度根据规定的运动像素阈值而在所述视频的连续帧之间改变的像素的数目；或

另一运动量特征，其测量所述视频中的、其强度根据另一规定的运动像素阈值在所述视频的连续帧之间改变的像素的数目。

12.根据权利要求9所述的方法，其中所述运动类型特征包括以下各项中的一项或多项：

由等式feat_mott1＝Percentile_f(NRFlow(f)，T_mott1)给定的运动类型特征feat_mott1，NRFlow(f)表示所述视频的给定帧f与所述视频的紧接后续帧f+1之间的非刚性运动的幅度，T_mott1表示规定的运动类型阈值，并且Percentile_f对跨越所述视频的所有帧的NRFlow(f)的值进行排序并且然后在T_mott1百分比处选择NRFlow(f)的所述值；或

由等式feat_mott2＝Percentile_f(NRFlow(f)/OFlow(f)，T_mott2)给定的另一运动类型特征feat_mott2，OFlow(f)表示跨越帧f的光流的幅度，T_mott2表示另一规定的运动类型阈值，NRFlow(f)/OFlow(f)表示OFlow(f)的非刚性的部分，并且Percentile_f对跨越所述视频的所有帧的NRFlow(f)/OFlow(f)的值进行排序并且然后在T_mott2百分比处选择NRFlow(f)/OFlow(f)的所述值；或

由等式feat_mott3＝Percentile_f(OFRes(f)，T_mott3)给定的又一运动类型特征feat_mott3，OFRes(f)表示指示帧f与帧f+1之间的变化归因于所述视频中的场景元素的所述运动的程度的光流残余，T_mott3表示又一规定的运动类型阈值，并且Percentile_f对跨越所述视频的所有帧的OFRes(f)的值进行排序并且然后在T_mott3百分比处选择OFRes(f)的所述值。

13.根据权利要求9所述的方法，其中所确定的所述呈现样式包括可能的呈现样式的集合中的所述呈现样式中的一个呈现样式，所述可能的呈现样式的集合包括：

渲染的视频种类的呈现样式；以及

现实世界视频种类的呈现样式。

14.根据权利要求13所述的方法，其中所述视频包括教育视频，并且所述渲染的视频种类的呈现样式包括以下各项中的一项或多项：

渲染的幻灯片放映呈现样式；或

包括呈现者的视频的渲染的幻灯片放映的呈现样式；或

渲染的动画呈现样式；或

渲染的照片呈现样式；或

渲染的手绘的幻灯片呈现样式。

15.根据权利要求13所述的方法，其中所述视频包括教育视频，并且所述现实世界视频种类的呈现样式包括以下各项中的一项或多项：

自然视频呈现样式；或

访谈的视频呈现样式；或

在纸上手写的视频呈现样式；或

投影的幻灯片的视频呈现样式；或

白板的视频呈现样式；或

黑板的视频呈现样式。