CN106028134A

CN106028134A - 针对移动计算设备检测体育视频精彩部分

Info

Publication number: CN106028134A
Application number: CN201610201374.9A
Authority: CN
Inventors: 韩铮; 戴晓伟; 黄贤俊; 杨帆
Original assignee: Zepp Labs Inc
Current assignee: Beijing Shunyuan Kaihua Technology Co Ltd
Priority date: 2015-03-31
Filing date: 2016-03-31
Publication date: 2016-10-12
Also published as: WO2016160304A1; US10572735B2; US20160292510A1

Abstract

提供了用于在移动计算设备处实时检测体育视频中的视频精彩部分的解决方案。移动计算设备的精彩部分检测模块使用经训练的特征模型从体育视频的每个视频帧提取视觉特征并且使用经训练的检测模型基于视频帧的所提取的视觉特征来检测视频帧中的精彩部分。特征模型和检测模型在大规模的视频上利用卷积神经网络来训练以生成种类水平和成对的帧特征向量。基于该检测，精彩部分检测模块生成针对体育视频的每个视频帧的精彩部分分数并将精彩部分分数呈现给计算设备的用户。基于由移动计算设备收集的实时精彩部分检测数据来动态地更新特征模型和检测模型。

Description

针对移动计算设备检测体育视频精彩部分

技术领域

本发明总体上涉及数字内容处理，具体地涉及针对移动计算设备实时检测体育视频中的视频精彩部分。

背景技术

智能手持设备(诸如智能电话和平板计算机)已经日益普遍。增长的网络访问(针对有线和无线网络)的可用性和带宽使得更多计算平台用于数字内容消费和共享，诸如由体育爱好者使用他们的智能电话录制体育视频并且与其他人共享体育视频中的视频精彩部分(highlight)。体育视频的视频精彩部分是体育视频的一部分并且表示体育视频中捕获的语义上重要的事件，例如，捕获足球比赛视频片段中进球或射门的短视频剪辑(clip)。

针对移动计算设备的视频精彩部分检测的某些传统解决方案依靠用户手动选择。考虑到体育视频的复杂时空性质，从长视频剪辑中高效定位并选择视频精彩部分是耗时的并且在技术上具有挑战的。例如，足球比赛的90分钟长视频剪辑可以包含捕获三个进球事件的三个精彩部分，其中每个精彩部分可能仅持续10-20秒。

备选地，某些现有解决方案允许用户将由他们的智能电话捕获到的体育视频上传到云计算环境中的计算机服务器以进行视频精彩部分检测。然而，一般不期望针对服务器端视频精彩部分检测的解决方案将实时瞬间检测结果提供给用户，这降低关于视频精彩部分检测的用户体验。

发明内容

本发明的各实施例提供了一种用于针对移动计算设备(例如智能电话)实时检测体育视频的视频精彩部分的解决方案。体育视频的视频精彩部分是体育视频的一部分并且表示在体育视频中捕获的语义上重要的事件。移动计算设备的精彩部分检测模块使用经训练的特征模型从体育视频的每个所缓冲的视频帧中提取视觉特征并且通过应用经训练的检测模型基于视频帧的所提取的视觉特征来检测所缓冲的视频帧中的精彩部分。基于该检测，精彩部分检测模块生成针对体育视频的每个视频帧的精彩部分分数并将精彩部分分数呈现给移动计算设备的用户以供交互。

特征模型在大规模的视频上利用卷积神经网络来训练以生成与体育视频的每个类别相关联的种类水平视觉特征。检测模型基于种类水平视觉特征来生成成对的帧特征向量。基于由移动计算设备收集的实时精彩部分检测数据来动态地更新特征模型。基于由移动计算设备收集的实时精彩部分检测数据和与由移动计算设备收集的体育视频的所呈现的精彩部分分数的用户交互来动态地更新检测模型。

在本说明书中的特征和优点并非是包括一切的，并且特别是鉴于附图、说明书和权利要求，许多附加的特征和优点对于本领域技术人员将是明显的。此外，应当注意，在说明书中使用的语言已经主要为了可读性和教导的目的而被选择，并且可能未被选择为描绘或限制所公开的主题。

附图说明

图1是根据一个实施例的用于检测体育视频中的视频精彩部分的计算环境的框图。

图2是图示了根据一个实施例的用于作为客户端设备和/或计算机服务器以提供针对移动计算设备的实时视频精彩部分检测服务的计算机示例的框图。

图3是根据一个实施例的视频精彩部分训练模块的框图。

图4是根据一个实施例的精彩部分检测模块的框图。

图5是根据一个实施例的使用图3中示出的训练模块和图4中示出的精彩部分检测模块检测由移动电话接收到的体育视频中的精彩部分的示例。

图6是图示了根据一个实施例的用于针对移动计算设备实时检测体育视频中的视频精彩部分的过程的示例性流程图。

图7A是用于视频精彩部分检测的由移动电话接收到的体育视频的示例性视频帧。

图7B是呈现与图7A中示出的体育视频的视频帧相关联的视频精彩部分分数的示例性图形用户接口。

图7C是根据一个实施例的示出由移动电话接收到的体育视频、其相关联的视频精彩部分分数和用于与所呈现的视频精彩部分分数交互的用户控制接口的示例性用户接口。

附图仅为了说明的目的描绘本发明的各种实施例。本领域技术人员从以下讨论中将容易认识到，在不背离本文所描述的本发明的原理的情况下，本文所图示的结构和方法的备选实施例可以被采用。

具体实施方式

系统概述

图1是根据一个实施例的用于检测体育视频中视频精彩部分的计算环境100的框图。图1中所示的实施例包括多个客户端设备110(例如，110A和110B)和视频精彩部分模型训练服务130，彼此通过网络120连接。计算环境100的实施例可以具有连接到网络120的许多客户端设备110和视频精彩部分模型训练服务130。同样，在不同实施例中，由图1的各实体执行的功能可以不同。

客户端设备110是用户用于执行如下功能的电子设备，诸如录制体育视频、消费数字内容、执行软件应用、浏览由web服务器在网络120上主控的网站、下载文件等。例如，客户端设备110可以是智能电话、或平板、笔记本、或者台式计算机。客户端设备110包括其上用户可以观看视频和其他内容的显示器设备和/或与所述显示器设备对接。另外，客户端设备110提供了用户接口(UI)，诸如物理和/或屏幕上按钮，通过该用户接口用户可以与客户端设备110交互以执行如下功能，诸如观看、选择和消费诸如体育视频的视频精彩部分的数字内容。在一个实施例中，客户端设备110具有用于使用由视频精彩部分模型训练服务130训练的视频精彩部分模型来实时检测由客户端设备110接收到的体育视频中的视频精彩部分的精彩部分检测模块112(例如，针对客户端设备110A为112A，并且针对客户端设备110B为112B)。下面参考图4的描述进一步描述精彩部分检测模块112。

图1的实施例中所示的视频精彩部分模型训练服务130包括视频数据库132、模型数据库134、训练模块136和精彩部分模型更新模块138。视频精彩部分模型训练服务130的其他实施例可以具有附加和/或不同模块。视频数据库132存储例如美国足球、英式足球、桌面网球/乒乓球、网球和篮球的各种类型的大规模的(large corpus of)体育视频。模型数据库134存储由训练模块136训练的特征模型和视频精彩部分检测模型和由特征模型和视频精彩部分检测模型生成的特征向量。

训练模块136利用诸如卷积神经网络(convolutional neuralnetwork,CNN)的深度学习能力的训练特征模型以将存储在视频数据库132中的体育视频分类成不同类别(class)。体育视频的每个类别与描述该列表的特性的多个特征向量相关联。训练模块136从存储在视频数据库132中的视频中选择体育视频的子集并使用从特征模型训练中学习的特征训练视频精彩部分检测模型。训练模块136将经训练的特征模型、与所分类的体育视频相关联的特征向量、视频精彩部分检测模型和成对的帧特征向量提供到客户端设备10的精彩部分检测模块112以实时检测由客户端设备110接收到的体育视频中的视频精彩部分。下面参考图3的描述进一步描述训练模块136。

精彩部分模型更新模块138基于由客户端设备110接收到的体育视频的实时视频精彩部分检测来动态地更新特征向量、特征模型和视频精彩部分检测模型。在一个实施例中，精彩部分模型更新模块138基于由客户端设备110接收到的体育视频的特征向量动态地更新特征向量和特征模型。响应于用户与由客户端设备110的精彩部分检测模块112检测到的视频精彩部分交互，精彩部分模型更新模块138基于与体育视频的视频精彩部分的用户交互来动态地更新精彩部分检测模型。参考图4的精彩部分检测模块112的描述进一步描述精彩部分模型更新模块138。

网络120使得能够在客户端设备和视频精彩部分模型训练服务130之中通信。在一个实施例中，网络120包括互联网和使用标准通信技术和/或协议，例如云计算。在另一实施例中，实体能够使用定制和/或专用数据通信技术。

计算机系统体系结构

图1中示出的实体使用一个或多个计算机来实施。图2是根据一个实施例的用于作为视频精彩部分模型训练服务130和/或客户端设备110的计算机200的高级框图。图示的是耦合到芯片组204的至少一个处理器202。还耦合到芯片组204的是存储器206、存储设备208、键盘210、图形适配器212、指向设备214和网络适配器216。显示器218耦合到图形适配器212。在一个实施例中，芯片组204的功能由存储器控制器集线器220和I/O控制器集线器222提供。在另一实施例中，存储器206直接耦合到处理器202，而非芯片组204。

存储设备208是任何非瞬态计算机可读存储介质，例如硬盘驱动器、紧凑盘只读存储器(CD-ROM)、DVD或固态存储器设备。存储器206保存由处理器202使用的指令和数据。指向设备214可以是鼠标、轨迹球或其他类型的指向设备，并且结合键盘210使用以将数据输入到计算机系统200中。图形适配器212在显示器218上显示图像和其他信息。网络适配器216将计算机系统200耦合到网络120。

如本领域中已知的，计算机200可以具有与图2中示出的那些不同的部件和/或其他部件。另外，计算机200可以缺少某些图示的部件。例如，用作视频精彩部分训练服务130的计算机可以由一起链接成一个或多个分布式系统的多个刀片服务器形成并且缺少诸如键盘和显示器的部件。此外，存储设备208可以在计算机200的本地和/或远程(例如被实现在存储区域网络(SAN)内)。

如本领域中已知的，计算机200适于运行用于提供本文描述的功能的计算机程序模块。如本文使用的，术语“模块”是指用于提供指定功能的计算机程序逻辑。因此，模块可以以硬件、固件和/或软件来实现。在一个实施例中，程序模块被存储在存储设备208上、被加载到存储器206中并且由处理器202执行。

视频精彩部分模型训练

图3是根据一个实施例的视频精彩部分训练模块136的框图。图3中示出的训练模块136具有特征训练模块310和模型训练模块320。训练模块136的其他实施例可以具有不同的和/或额外的模块。

特征训练模块310将存储在视频数据库132中的体育视频分类成不同类别并且生成与体育视频的每个类别相关联的特征向量。在一个实施例中，特征训练模块310利用诸如卷积神经网络(CNN)的深度学习能力训练特征模型以将体育视频分类。基于CNN的特征模型具有灵活分层结构以控制训练的深度和宽度并且能够预测图像的属性，例如具有可接受准确度的统计数据的平稳性和像素依赖的局部性。

在一个实施例中，特征训练模块310使用从大型数据集中选择的体育视频的高分辨率图像训练CNN特征模型，大型数据集例如数以万计的种类(category)的大规模的带标记的高分辨率图像，例如数以万计的种类的几百万高分辨率图像。大型数据集的高分辨率图像从互联网收集并且使用众多资源工具被标记以人类标签。特征训练模块310的其他实施例可以使用来自其他资源的数据集训练CNN特征模型。

在一个实施例中，CNN特征模型具有分层配置，其包括许多学习层，多个卷积层，最大汇总层，局部归一化层和完全连接层。卷积层利用k个可学习核(kernal)的集合对图像进行卷积并生成k个特征映射(feature map)。最大汇总层在目标像素周围的相邻图像像素上执行非线性降采样(down-sampling)以使特征映射对在相邻像素之间的小的平移鲁棒。局部归一化层将在图像的局部邻域周围的特征映射归一化。局部归一化增强特征映射对亮度和对比度的差异的鲁棒性。完全连接层根据从卷积层、最大汇总层和局部归一化层生成的特征映射来计算非线性变换。

CNN特征模型的每层学习图像的视觉特征，其中视觉特征表示在各粒度水平的图像。例如，由第一卷积层学习的特征表示图形的最一般特征，其可以由多个图像共享；由最后一层学习的特征描述特定于(specific to)图像的视觉特性。本领域普通技术人员已知的快速图像特征提取的任何方案可以由特征训练模块310使用。在一个实施例中，特征训练模块310在实现用于视觉特征提取的深度学习框架的计算机服务器上训练CNN特征模型。

基于所述训练，特征训练模块310将存储在视频数据库132中的体育视频分类成不同类别。例如，存储在视频数据库132中的体育视频由特征训练模块310分类成各类别，例如自行车、美国足球、英式足球、桌面网球/乒乓球、网球和篮球。在一个实施例中，特征训练模块310计算在体育视频的表示与另一体育视频的表示之间的距离，例如欧式(Euclidean)距离。响应于在两个体育视频的表示之间的欧式距离小于阈值，特征训练模块310确定两个体育视频属于同一类别。例如，特征训练模块310基于体育视频的视频帧的外观来生成体育视频的表示。体育视频的视频帧的外观通过对体育视频的所有视频帧的视觉特征的平均汇总，例如与体育视频的视频帧相关联的特征向量的均值来测得。

基于所述训练，特征训练模块310生成与每个类别的体育视频相关联的基于帧的特征向量。由特征训练模块310生成的基于帧的特征向量的示例包括通过将Gabor滤波器、尺度不变特征变换(SIFT)或方向梯度直方图(HoG)描述子应用到体育视频提取的特征。每个类别的体育视频与描述该类别的特性的多个特征向量相关联，该类别的特性例如运动活动模式、剪切密度模式和与该类别的体育视频相关联的关键视觉对象的跟踪。以高尔夫比赛为例，相关联的特征向量描述球员弯腰击打高尔夫球的检测和高尔夫球的运动轨迹。特征训练模块310将与每个类别的体育视频相关联的经训练的CNN特征模型和所提取的特征存储在模型数据库134中。

模型训练模块320基于由特征训练模块310的特征模型提取的基于帧的特征来训练视频精彩部分检测模型。注意，与一种类别的体育视频相关联的基于帧的特征向量表述该类别的体育视频的种类水平(category level)图像相似度，其主要对应于该类别的体育视频的语义相似度。然而，为了以可接受的检测准确度和效率检测体育视频中的视频精彩部分，期望细粒度的相似度测量，因为同一类别的体育视频内的相当大的视觉变化性仍然存在。

在一个实施例中，模型训练模块320从由特征模型分类的体育视频中选择体育视频的子集作为用于训练视频精彩部分建成模型的训练数据。所选择的体育视频被用作基准真值以学习一个或多个测量结果以用于由视频精彩部分建成模型检测体育视频中的视频精彩部分。例如，模型训练模块320基于与所选择的体育视频相关联的图像标注数据来选择体育视频的子集并且基于对所选择的体育视频的分析来学习所选择的体育视频的视频帧的细粒度视觉相似度。所选择的体育视频例如由人类评估者或由自动化过程进一步评估以确定每个所选择的体育视频是否包括视频精彩部分。

基于在所选择的体育视频上的训练，模型训练模块320生成与从体育视频中选择的每对视频帧相关联的成对的帧特征向量。例如，一对视频帧都与自行车运动相关，因此，视频帧在语义上是相似的。该对中的一帧具有描述参与山地自行车的运动员的突然跳跃的视觉特征，并且另一帧具有描述沿着高速公路的平滑骑行的视觉特征。描述突然跳跃的视觉特征指示其相关联的视频帧具有视觉精彩部分；该对的对应视频帧没有视觉精彩部分。模型训练模块320将经训练的视频精彩部分建成模型和成对的帧特征存储在模型数据库134中。

响应于来自移动计算设备的请求，训练模块136将经训练的特征模型、与所分类的体育视频相关联的特征向量、经训练的视频精彩部分建成模型和成对的帧特征向量提供到客户端设备110的精彩部分检测模块112以用于实时检测由客户端设备110接收到的体育视频中的视频精彩部分。

实时视频精彩部分检测

图4是根据一个实施例的用于实时检测体育视频中的视频精彩部分的客户端设备的精彩部分检测模块112的框图。图4中示出的精彩部分检测模块112具有接口模块410、特征提取模块420、精彩部分检测模块430、呈现模块440、更新模块450和帧缓冲器402。精彩部分检测模块112的其他实施例可以包括额外的和/或其他实体，例如将接口模块410和呈现模块440的功能进行组合的通用接口模块。同样，由图4的各个实体执行的功能可以在不同实施例中不同。

在一个实施例中，当在客户端设备上执行视频精彩部分检测应用后由客户端设备的计算机处理器激活精彩部分检测模块112。在激活后，接口模块410从视频精彩部分模型训练服务130请求特征模型、基于帧的特征向量、检测模型和成对的(pair-wise)帧特征。响应于接收到所请求的模型和帧特征，接口模块410将接收到的模型和帧特征上传到客户端设备，例如将接收到的模型和帧特征存储在帧缓冲器402中。

接口模块410还接收由客户端设备接收到的输入视频，例如由用户的移动电话记录的或从视频流传输服务流传输的山地自动车活动，并将接收到的输入视频存储在帧缓冲器402中。图7A示出由用户的移动电话捕获的山地自行车视频的视频帧的示例。接口模块410将接收到的输入视频的片段(例如输入视频中的5秒)存储在帧缓冲器402中。接口模块420与特征提取模块420通信以处理存储在帧缓冲器402中的片段的视频帧。为了支持在接收到的输入视频中的连续的实时视频精彩部分检测，接口模块410继续将输入视频的接下来的片段缓冲。在一个实施例中，接口模块420将输入视频的一部分(例如输入视频中的1秒)(其被包含在输入视频的两个时间上连续的片段中)缓冲，以提供对在时间上连续的片段之间的随机视频流传输错误和同步的弹性。

特征提取模块420从输入视频的各帧提取视觉特征。在一个实施例中，特征提取模块420使用由训练模块136训练的特征模型以提取输入视频的视觉特征。针对输入视频的每个所缓冲的视频帧，特征提取模块420基于与输入视频相关联的元数据(例如分辨率和帧率)来配置经训练的特征模型。所配置的特征模型具有深度卷积神经网络的一个或多个卷积层以及最大汇总层和局部归一化层。经训练的特征模型在深度卷积神经网络的每个卷积层处生成基于帧的特征映射。来自卷积层的各特征例如通过内衬嵌入(liner embedding)来归一化和组合以生成针对体育视频的帧的特征向量。与体育视频的视频帧相关联的特征向量指示视频帧的种类水平语义特性，例如指示输入视频具有特定于特定类别的体育视频(例如自行车)的视觉特征。特征提取模型420将基于帧的特征向量存储在帧缓冲器402中并将特征向量提供到精彩部分检测模块430以确定由特征向量相关联的帧是否具有视频精彩部分。

体育视频的视频精彩部分是体育视频的一部分并且表示在体育视频中捕获的语义上重要的事件，例如短视频剪辑捕获在英式足球比赛视频剪辑中的进球或进球次数。为了检测输入视频的视频帧中的视频精彩部分，精彩部分检测模块430将由训练模块136训练的精彩部分检测模型应用到与视频帧相关联的特征向量。在一个实施例中，精彩部分检测模块430将特征向量与成对的帧特征向量进行比较以确定在与视频帧相关联的特征向量与表示视频精彩部分的成对的帧特征向量的特征向量之间的相似度。例如，精彩部分检测模块430计算在与视频帧相关联的特征向量与表示视频精彩部分的特征向量之间的欧式距离。基于所述比较，精彩部分检测模块430计算针对视频帧的精彩部分分数。针对视频帧的精彩部分分数表示在卷积神经网络的完全连接层的最后一层处的神经元的响应，其被用于由训练模块136训练特征模型和精彩部分检测模型。

精彩部分检测模块430对输入视频的每个视频帧重复相似的检测过程并生成针对输入视频的每个视频帧的精彩部分分数。视频帧的较大的精彩部分分数指示视频帧比具有较小精彩部分分数的另一视频帧具有视频精彩部分的更高可能性。精彩部分检测模块430的其他实施例可以并入其他视频精彩部分检测方案，例如基于音频的视频精彩部分检测，例如在美国专利申请No.14/629,852中描述的示例。例如，精彩部分检测模块430可以通过将根据使用经训练的特征模型和检测模型的精彩部分检测生成的精彩部分分数和根据基于音频的精彩部分检测生成的精彩部分分数求平均来计算针对输入视频的视频帧的精彩部分分数。

呈现模块440接收针对输入视频的每个视频帧的精彩部分分数并在图形用户接口(interface)中将输入视频的精彩部分分数呈现给客户端设备的用户。图7A示出由移动电话捕获的山地自行车体育视频的视频帧。图7B是呈现与图7A中示出的山地自行车体育视频的视频帧相关联的视频精彩部分分数的示例性图形用户接口。图7C是根据一个实施例的示出由移动电话接收到的山地自行车体育视频的视频帧750、其相关联的视频精彩部分分数760和用于使用户与所呈现的视频精彩部分分数交互的交互工具770的示例性用户接口740。

在图7B中示出的示例中，图形用户接口的水平轴示出输入视频的视频帧的帧标识720；垂直轴示出输入视频的视频帧的对应精彩部分分数710。图7B中示出的示例进一步示出针对输入视频的6个所识别(即，第30个、第60个、第90个、第120个、第150个、第180个帧)的视频帧的精彩部分分数的图形，其中第60个帧具有最高精彩部分分数730，并且在第30个帧与第60个帧之间的视频片段很可能表示输入视频的视频精彩部分。在第30个帧与第60个帧之间的视频片段作为由精彩部分检测模块430预测的视频精彩部分被呈现给客户端设备的用户。

客户端设备的用户可以与在图形用户接口中呈现的输入视频的精彩部分分数交互，并且更新模块450检测与输入视频的所呈现的精彩部分分数的用户交互。例如，客户端设备的用户可以基于用户正在实时地在客户端设备上观看的内容来将指向由精彩部分检测模块430预测的视频精彩部分的指针拖曳到接口上的不同位置。由更新模块450检测基于输入视频的用户实时观看对视频精彩部分的位置的调节。更新模块450从帧缓冲器402中检索与经调节的视频精彩部分相关联的帧特征向量并将检索到的帧特征向量提供到视频精彩部分模型训练服务130。训练服务130的精彩部分模型更新模块138基于与从更新模块450中检索到的与经调节的视频精彩部分相关联的帧特征向量来动态地更新由训练模块136训练的检测模型。

图5是根据一个实施例的使用图3中示出的训练模块136和图4中示出的精彩部分检测模块112检测由移动电话接收到的体育视频中的视频精彩部分的示例。在图5中示出的示例中，视频精彩部分检测包括两个阶段：由训练模块136在云计算环境510中的训练和由精彩部分检测模块112对由移动电话接收到的体育视频的实时精彩部分检测530。训练阶段510具有两个子阶段：基于大规模的视频训练数据502的特征模型训练和基于大规模的视频训练数据的子集504的精彩部分检测模型训练。示例中的特征模型是CNN特征模型，其具有灵活分层结构和深度学习能力。例如，训练模块136在实现深度学习框架的计算机服务器上训练CNN特征模型。当在移动电话上执行视频精彩部分检测程序后，经训练的特征模型和基于帧的特征向量506被提供给用户的移动电话，例如被上传到移动电话520。

基于大规模的视频训练数据的子集504的精彩部分检测模型训练使用来自特征模型训练的基于帧的特征向量并生成针对具有语义上相似的视觉特征的每对视频帧的成对的帧特征向量。针对一对视频帧的成对的帧特征向量包括表示第一视频帧中的视频精彩部分的特征向量和表示第二视频帧中的非视频精彩部分的特征向量。当在移动电话上执行视频精彩部分检测程序后，经训练的精彩部分检测模型和成对的帧特征向量508被提供到用户的移动电话，例如被上传到移动电话520。

在实时视频精彩部分检测阶段中，移动电话的精彩部分检测模块112的接口捕获体育视频或从视频流传输服务接收体育视频。精彩部分检测模块112将视频片段的视频帧缓冲并使用经训练的特征模型和特征向量来提取针对体育视频的每个所缓冲的视频帧的基于帧的特征向量。体育视频的每个视频帧的所提取的特征向量进一步由从训练模块136接收到的精彩部分检测模型分析。基于与体育视频的视频帧相关联的特征向量的分析，例如视频帧的特征向量与来自训练模块136的成对的帧特征向量的比较，精彩部分检测模块112计算针对视频帧的精彩部分分数并将该精彩部分分数提供到接口以用于呈现给用户。

接口模块在例如图7B中示出的接口的图形用户接口中呈现针对体育视频的所有视频帧的精彩部分分数。移动设备的用户可以与精彩部分分数的呈现交互，例如基于他对体育视频的实时观看对视频精彩部分的位置的微小调节。精彩部分检测模块112将实时精彩部分检测数据(未示出在图5中)提供到训练模块136，训练模块136基于实时精彩部分检测数据来动态地更新特征模型和精彩部分检测模型。

为了针对移动计算设备高效地检测体育视频中的视频精彩部分，经训练的特征模型、精彩部分检测模型和其相关联的特征向量需要在由模型和特征向量消耗的移动计算设备的存储器空间方面得到控制。以图5中示出的实施例为例，与由训练模块136训练的特征模型相关联的基于帧的特征向量524与由特征模型522、检测模型526和成对的特征528使用的存储器(例如，5MB)相比较使用最大存储器(例如，45～200MB)。由特征模型522和检测模型526使用的存储器非常小，其可以在视频精彩部分检测性能的评估中忽略不计。

注意，由基于帧的特征向量524使用的存储器的大小可以影响实时的视频精彩部分检测模块112的视频精彩部分检测性能，例如精彩部分检测的处理延迟和准确性。例如以217MB的大小的基于帧的特征向量524得到55.2％的精彩部分检测准确性和2.13秒处理延迟；以153MB的大小的基于帧的特征向量524得到51.3％的精彩部分检测准确性和1.87秒处理延迟；并且以45MB的大小的基于帧的特征向量524得到49.8％的精彩部分检测准确性和1.36秒处理延迟。在一个实施例中，训练模块136将基于帧的特征向量524的大小保持为45MB以平衡在检测准确性与处理延迟之间的权衡。

图6是图示了根据一个实施例的用于针对移动计算设备实时检测体育视频中的视频精彩部分的过程的示例性流程图。首先，移动计算设备的精彩部分检测模块112接收610例如由移动计算设备捕获的用于视频精彩部分检测的体育视频。精彩部分检测模块112将体育视频的片段的视频帧缓冲620在帧缓冲中。针对每个所缓冲的视频帧，精彩部分检测模块112使用经训练的特征模型提取630基于帧的特征并且生成描述视频帧的视觉特性的一个或多个特征向量。精彩部分检测模块112使用经训练的检测模型基于所提取的特征向量来检测640视频精彩部分。基于所述检测，精彩部分检测模块112生成针对视频帧的视频精彩部分分数，其中视频精彩部分分数表示对视频帧是否具有视频精彩部分的预测。较高的视频精彩部分分数指示视频帧比具有较低视频精彩部分分数的视频帧具有视频精彩部分的更高可能性。精彩部分检测模块112针对体育视频的每个所缓冲的视频帧重复视频精彩部分检测。

精彩部分检测模块112将体育视频的视频帧的视频精彩部分分数呈现给移动计算设备的用户。在一个实施例中，精彩部分检测模块112以用户友好的方式(例如图形用户接口)呈现660视频帧的视频精彩部分分数，使得移动计算设备的用户可以与视频精彩部分分数交互，例如调节由精彩部分检测模块112预测的视频精彩部分的位置。

精彩部分检测模块112检测670与视频精彩部分分数的呈现的用户交互。响应于检测到与呈现的用户动作，精彩部分检测模块112将实时精彩部分检测数据和用户与所预测的视频精彩部分的交互提供680到视频精彩部分训练服务130以更新检测模型；否则，精彩部分检测模块112将实时精彩部分检测数据(例如，体育视频的视频帧的基于帧的特征向量)提供690到视频精彩部分训练服务130以更新特征模型。

综述

为了说明的目的，已经呈现了本发明的实施例的前述描述，其不旨在于是穷尽的或者将本发明限制于所公开的精确形式。相关领域的技术人员能够理解，鉴于以上公开许多修改和变化是可能的。

该描述的一些部分根据对信息操作的算法和符号表示来描述本发明的实施例。这些算法描述和表示由数据处理领域的技术人员普遍用来向该领域其他技术人员有效地传达其工作的实质。当这些操作被功能性地、计算性地或者逻辑性地描述时，被理解为由计算机程序或者等效的电路、微代码等实现。此外，也已经证明在不失一般性的情况下有时将这些操作的布置称为模块是方便的。描述的操作及其相关联的模块可以被体现在软件、固件、硬件或它们的组合中。

在此描述的任何步骤、操作或过程可以利用一个或多个硬件或软件模块单独或联合其他设备来被执行或被实现。在一个实施例中，软件模块利用包括含有计算机程序代码的计算机可读介质的计算机程序产品而被实现，该计算机程序代码可以由计算机处理器执行，以用于执行描述的任意或全部的步骤、操作或过程。

本发明的实施例还可以与用于执行在此的操作的设备有关。该设备可以为了要求的目的而具体地构造，和/或其可以包括由存储在计算机中的计算机程序选择性地激活或重新配置的通用计算设备。这样的计算机程序可以被存储在非瞬态有形计算机可读存储介质、或者适合于存储电子指令的任意类型的介质中，其可以被耦合至计算机系统总线。此外，在本说明书中提及的任何计算系统可以包括单个处理器或者可以是采用用于增加的计算能力的多处理器设计的架构。

本发明的实施例还可以涉及由在此描述的计算过程生产的产品。这样的产品可以包括从计算过程产生的信息，其中该信息被存储在非瞬态有形计算机可读存储介质上并且可以包括本文描述的计算机程序产品的任何实施例或者其他数据组合。

最后，在本说明书中使用的语言已经主要为了可读性和教导的目的而选择，并且其可能未被选择为描绘或限制所公开的主题。因此，其意图为本发明的范围不由该详细的描述来限定，而由针对基于在此的应用的任何权利要求来限定。因此，本发明的实施例的公开内容旨在于是说明性的而非对本发明的范围的限制，本发明的范围在所附的权利要求中被阐述。

Claims

1.一种用于在移动计算设备处检测体育视频中的精彩部分的计算机实现的方法，包括：

在所述移动计算设备处接收具有多个视频帧的体育视频；

将所述体育视频的片段缓冲，所述片段包括所述体育视频的多个视频帧；

针对所述体育视频的每个所缓冲的视频帧：

提取所述视频帧的多个视觉特征；

基于所述视频帧的所提取的视觉特征来检测所述视频帧中的精彩部分；以及

基于所述检测来生成针对所述视频帧的视频精彩部分分数。

2.根据权利要求1所述的方法，其中提取所述视频帧的多个视觉特征包括：

将经训练的特征模型应用到所述视频帧；以及

基于所述经训练的特征模型到所述视频帧的所述应用来生成多个特征向量，所生成的特征向量表示所述体育视频的所述视频帧的种类水平视觉特性。

3.根据权利要求2所述的方法，其中所述特征模型在大规模的视频上利用卷积神经网络来训练，并且其中所述经训练的特征模型被配置为将所述大规模的视频分类成多个类别，并且所述体育视频的每个类别与描述所述类别的种类水平视觉特性的多个特征向量相关联。

4.根据权利要求1所述的方法，其中检测所述视频帧中的精彩部分包括：

将经训练的检测模型应用到所述视频帧的所提取的视觉特征；以及

将所述视频帧的所提取的视觉特征和与所述经训练的检测模型相关联的成对的帧特征向量进行比较。

5.根据权利要求4所述的方法，其中所述成对的帧特征向量包括描述具有精彩部分的第一视频帧的视觉特性的特征向量和描述没有精彩部分的第二视频帧的视觉特性的特征向量，其中所述第一视频帧和所述第二视频帧在语义上与所缓冲的视频帧相似。

6.根据权利要求4所述的方法，其中将所述视频帧的所提取的视觉特征与所述成对的帧特征向量进行比较包括：

生成在所述体育视频的所述视频帧的所提取的视觉特征与具有精彩部分的所述第一视频帧的所述特征向量之间的距离；以及

基于所生成的距离来生成针对所述体育视频的所述视频帧的所述精彩部分分数。

7.根据权利要求1所述的方法，其中所述视频帧的所述精彩部分分数表示对所述视频帧具有精彩部分的预测。

8.根据权利要求1所述的方法，还包括：

在图形用户接口中呈现所述体育视频的所述多个视频帧的所述精彩部分分数；以及

监测与所述体育视频的所述多个视频帧的所呈现的精彩部分分数的用户交互。

9.根据权利要求8所述的方法，还包括：

响应于检测到与所述体育视频的视频帧的精彩部分分数的用户交互，将所述体育视频的精彩部分检测数据和用户交互信息提供到计算机服务器以更新经训练的检测模型。

10.根据权利要求1所述的方法，还包括：

将所述体育视频的精彩部分检测数据提供到计算机服务器以更新经训练的特征模型。

11.一种非瞬态计算机可读存储介质，存储有用于在移动计算设备处检测体育视频中的精彩部分的可执行计算机程序指令，所述指令在由计算机处理器执行时使得所述计算机处理器：

在所述移动计算设备处接收具有多个视频帧的体育视频；

针对所述体育视频的每个所缓冲的视频帧：

提取所述视频帧的多个视觉特征；

基于所述检测来生成针对所述视频帧的视频精彩部分分数。

12.根据权利要求11所述的计算机可读存储介质，其中用于提取所述视频帧的多个视觉特征的指令包括在由所述计算机处理器执行时使得所述计算机处理器进行如下操作的指令：

将经训练的特征模型应用到所述视频帧；以及

13.根据权利要求12所述的计算机可读存储介质，其中所述特征模型在大规模的视频上利用卷积神经网络来训练，并且其中所述经训练的特征模型被配置为将所述大规模的视频分类成多个类别，并且所述体育视频的每个类别与描述所述类别的所述种类水平视觉特性的多个特征向量相关联。

14.根据权利要求11所述的计算机可读存储介质，其中用于检测所述视频帧中的精彩部分的指令包括在由所述计算机处理器执行时使得所述计算机处理器进行如下操作的指令：

15.根据权利要求14所述的计算机可读存储介质，其中所述成对的帧特征向量包括描述具有精彩部分的第一视频帧的视觉特性的特征向量和描述没有精彩部分的第二视频帧的视觉特性的特征向量，其中所述第一视频帧和所述第二视频帧在语义上与所缓冲的视频帧相似。

16.根据权利要求14所述的计算机可读存储介质，其中用于将所述视频帧的所提取的视觉特征与所述成对的帧特征向量进行比较的指令包括在由所述计算机处理器执行时使得所述计算机处理器进行如下操作的指令：

17.根据权利要求11所述的计算机可读存储介质，其中所述视频帧的所述精彩部分分数表示对所述视频帧具有精彩部分的预测。

18.根据权利要求11所述的计算机可读存储介质，进一步包括在由计算机处理器执行时使得所述计算机处理器进行如下操作的计算机程序指令：

19.根据权利要求18所述的计算机可读存储介质，进一步包括在由计算机处理器执行时使得所述计算机处理器进行如下操作的计算机程序指令：

20.根据权利要求11所述的计算机可读存储介质，进一步包括在由计算机处理器执行时使得所述计算机处理器进行如下操作的计算机程序指令：