CN106028134A - 针对移动计算设备检测体育视频精彩部分 - Google Patents

针对移动计算设备检测体育视频精彩部分 Download PDF

Info

Publication number
CN106028134A
CN106028134A CN201610201374.9A CN201610201374A CN106028134A CN 106028134 A CN106028134 A CN 106028134A CN 201610201374 A CN201610201374 A CN 201610201374A CN 106028134 A CN106028134 A CN 106028134A
Authority
CN
China
Prior art keywords
video
frame
highlights
sports
characteristic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610201374.9A
Other languages
English (en)
Inventor
韩铮
戴晓伟
黄贤俊
杨帆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Shunyuan Kaihua Technology Co Ltd
Original Assignee
Zepp Labs Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zepp Labs Inc filed Critical Zepp Labs Inc
Publication of CN106028134A publication Critical patent/CN106028134A/zh
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream, rendering scenes according to MPEG-4 scene graphs
    • H04N21/44008Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream, rendering scenes according to MPEG-4 scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics in the video stream
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/02Editing, e.g. varying the order of information signals recorded on, or reproduced from, record carriers
    • G11B27/031Electronic editing of digitised analogue information signals, e.g. audio or video signals
    • G11B27/034Electronic editing of digitised analogue information signals, e.g. audio or video signals on discs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • G06V20/42Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items of sport video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • G06V20/47Detecting features for summarising video content
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/02Editing, e.g. varying the order of information signals recorded on, or reproduced from, record carriers
    • G11B27/031Electronic editing of digitised analogue information signals, e.g. audio or video signals
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/02Editing, e.g. varying the order of information signals recorded on, or reproduced from, record carriers
    • G11B27/031Electronic editing of digitised analogue information signals, e.g. audio or video signals
    • G11B27/036Insert-editing
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/02Editing, e.g. varying the order of information signals recorded on, or reproduced from, record carriers
    • G11B27/06Cutting and rejoining; Notching, or perforating record carriers otherwise than by recording styli
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • G11B27/19Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier
    • G11B27/28Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier by using information signals recorded by the same method as the main recording
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/41Structure of client; Structure of client peripherals
    • H04N21/4104Peripherals receiving signals from specially adapted client devices
    • H04N21/4126The peripheral being portable, e.g. PDAs or mobile phones

Abstract

提供了用于在移动计算设备处实时检测体育视频中的视频精彩部分的解决方案。移动计算设备的精彩部分检测模块使用经训练的特征模型从体育视频的每个视频帧提取视觉特征并且使用经训练的检测模型基于视频帧的所提取的视觉特征来检测视频帧中的精彩部分。特征模型和检测模型在大规模的视频上利用卷积神经网络来训练以生成种类水平和成对的帧特征向量。基于该检测,精彩部分检测模块生成针对体育视频的每个视频帧的精彩部分分数并将精彩部分分数呈现给计算设备的用户。基于由移动计算设备收集的实时精彩部分检测数据来动态地更新特征模型和检测模型。

Description

针对移动计算设备检测体育视频精彩部分
技术领域
本发明总体上涉及数字内容处理,具体地涉及针对移动计算设备实时检测体育视频中的视频精彩部分。
背景技术
智能手持设备(诸如智能电话和平板计算机)已经日益普遍。增长的网络访问(针对有线和无线网络)的可用性和带宽使得更多计算平台用于数字内容消费和共享,诸如由体育爱好者使用他们的智能电话录制体育视频并且与其他人共享体育视频中的视频精彩部分(highlight)。体育视频的视频精彩部分是体育视频的一部分并且表示体育视频中捕获的语义上重要的事件,例如,捕获足球比赛视频片段中进球或射门的短视频剪辑(clip)。
针对移动计算设备的视频精彩部分检测的某些传统解决方案依靠用户手动选择。考虑到体育视频的复杂时空性质,从长视频剪辑中高效定位并选择视频精彩部分是耗时的并且在技术上具有挑战的。例如,足球比赛的90分钟长视频剪辑可以包含捕获三个进球事件的三个精彩部分,其中每个精彩部分可能仅持续10-20秒。
备选地,某些现有解决方案允许用户将由他们的智能电话捕获到的体育视频上传到云计算环境中的计算机服务器以进行视频精彩部分检测。然而,一般不期望针对服务器端视频精彩部分检测的解决方案将实时瞬间检测结果提供给用户,这降低关于视频精彩部分检测的用户体验。
发明内容
本发明的各实施例提供了一种用于针对移动计算设备(例如智能电话)实时检测体育视频的视频精彩部分的解决方案。体育视频的视频精彩部分是体育视频的一部分并且表示在体育视频中捕获的语义上重要的事件。移动计算设备的精彩部分检测模块使用经训练的特征模型从体育视频的每个所缓冲的视频帧中提取视觉特征并且通过应用经训练的检测模型基于视频帧的所提取的视觉特征来检测所缓冲的视频帧中的精彩部分。基于该检测,精彩部分检测模块生成针对体育视频的每个视频帧的精彩部分分数并将精彩部分分数呈现给移动计算设备的用户以供交互。
特征模型在大规模的视频上利用卷积神经网络来训练以生成与体育视频的每个类别相关联的种类水平视觉特征。检测模型基于种类水平视觉特征来生成成对的帧特征向量。基于由移动计算设备收集的实时精彩部分检测数据来动态地更新特征模型。基于由移动计算设备收集的实时精彩部分检测数据和与由移动计算设备收集的体育视频的所呈现的精彩部分分数的用户交互来动态地更新检测模型。
在本说明书中的特征和优点并非是包括一切的,并且特别是鉴于附图、说明书和权利要求,许多附加的特征和优点对于本领域技术人员将是明显的。此外,应当注意,在说明书中使用的语言已经主要为了可读性和教导的目的而被选择,并且可能未被选择为描绘或限制所公开的主题。
附图说明
图1是根据一个实施例的用于检测体育视频中的视频精彩部分的计算环境的框图。
图2是图示了根据一个实施例的用于作为客户端设备和/或计算机服务器以提供针对移动计算设备的实时视频精彩部分检测服务的计算机示例的框图。
图3是根据一个实施例的视频精彩部分训练模块的框图。
图4是根据一个实施例的精彩部分检测模块的框图。
图5是根据一个实施例的使用图3中示出的训练模块和图4中示出的精彩部分检测模块检测由移动电话接收到的体育视频中的精彩部分的示例。
图6是图示了根据一个实施例的用于针对移动计算设备实时检测体育视频中的视频精彩部分的过程的示例性流程图。
图7A是用于视频精彩部分检测的由移动电话接收到的体育视频的示例性视频帧。
图7B是呈现与图7A中示出的体育视频的视频帧相关联的视频精彩部分分数的示例性图形用户接口。
图7C是根据一个实施例的示出由移动电话接收到的体育视频、其相关联的视频精彩部分分数和用于与所呈现的视频精彩部分分数交互的用户控制接口的示例性用户接口。
附图仅为了说明的目的描绘本发明的各种实施例。本领域技术人员从以下讨论中将容易认识到,在不背离本文所描述的本发明的原理的情况下,本文所图示的结构和方法的备选实施例可以被采用。
具体实施方式
系统概述
图1是根据一个实施例的用于检测体育视频中视频精彩部分的计算环境100的框图。图1中所示的实施例包括多个客户端设备110(例如,110A和110B)和视频精彩部分模型训练服务130,彼此通过网络120连接。计算环境100的实施例可以具有连接到网络120的许多客户端设备110和视频精彩部分模型训练服务130。同样,在不同实施例中,由图1的各实体执行的功能可以不同。
客户端设备110是用户用于执行如下功能的电子设备,诸如录制体育视频、消费数字内容、执行软件应用、浏览由web服务器在网络120上主控的网站、下载文件等。例如,客户端设备110可以是智能电话、或平板、笔记本、或者台式计算机。客户端设备110包括其上用户可以观看视频和其他内容的显示器设备和/或与所述显示器设备对接。另外,客户端设备110提供了用户接口(UI),诸如物理和/或屏幕上按钮,通过该用户接口用户可以与客户端设备110交互以执行如下功能,诸如观看、选择和消费诸如体育视频的视频精彩部分的数字内容。在一个实施例中,客户端设备110具有用于使用由视频精彩部分模型训练服务130训练的视频精彩部分模型来实时检测由客户端设备110接收到的体育视频中的视频精彩部分的精彩部分检测模块112(例如,针对客户端设备110A为112A,并且针对客户端设备110B为112B)。下面参考图4的描述进一步描述精彩部分检测模块112。
图1的实施例中所示的视频精彩部分模型训练服务130包括视频数据库132、模型数据库134、训练模块136和精彩部分模型更新模块138。视频精彩部分模型训练服务130的其他实施例可以具有附加和/或不同模块。视频数据库132存储例如美国足球、英式足球、桌面网球/乒乓球、网球和篮球的各种类型的大规模的(large corpus of)体育视频。模型数据库134存储由训练模块136训练的特征模型和视频精彩部分检测模型和由特征模型和视频精彩部分检测模型生成的特征向量。
训练模块136利用诸如卷积神经网络(convolutional neuralnetwork,CNN)的深度学习能力的训练特征模型以将存储在视频数据库132中的体育视频分类成不同类别(class)。体育视频的每个类别与描述该列表的特性的多个特征向量相关联。训练模块136从存储在视频数据库132中的视频中选择体育视频的子集并使用从特征模型训练中学习的特征训练视频精彩部分检测模型。训练模块136将经训练的特征模型、与所分类的体育视频相关联的特征向量、视频精彩部分检测模型和成对的帧特征向量提供到客户端设备10的精彩部分检测模块112以实时检测由客户端设备110接收到的体育视频中的视频精彩部分。下面参考图3的描述进一步描述训练模块136。
精彩部分模型更新模块138基于由客户端设备110接收到的体育视频的实时视频精彩部分检测来动态地更新特征向量、特征模型和视频精彩部分检测模型。在一个实施例中,精彩部分模型更新模块138基于由客户端设备110接收到的体育视频的特征向量动态地更新特征向量和特征模型。响应于用户与由客户端设备110的精彩部分检测模块112检测到的视频精彩部分交互,精彩部分模型更新模块138基于与体育视频的视频精彩部分的用户交互来动态地更新精彩部分检测模型。参考图4的精彩部分检测模块112的描述进一步描述精彩部分模型更新模块138。
网络120使得能够在客户端设备和视频精彩部分模型训练服务130之中通信。在一个实施例中,网络120包括互联网和使用标准通信技术和/或协议,例如云计算。在另一实施例中,实体能够使用定制和/或专用数据通信技术。
计算机系统体系结构
图1中示出的实体使用一个或多个计算机来实施。图2是根据一个实施例的用于作为视频精彩部分模型训练服务130和/或客户端设备110的计算机200的高级框图。图示的是耦合到芯片组204的至少一个处理器202。还耦合到芯片组204的是存储器206、存储设备208、键盘210、图形适配器212、指向设备214和网络适配器216。显示器218耦合到图形适配器212。在一个实施例中,芯片组204的功能由存储器控制器集线器220和I/O控制器集线器222提供。在另一实施例中,存储器206直接耦合到处理器202,而非芯片组204。
存储设备208是任何非瞬态计算机可读存储介质,例如硬盘驱动器、紧凑盘只读存储器(CD-ROM)、DVD或固态存储器设备。存储器206保存由处理器202使用的指令和数据。指向设备214可以是鼠标、轨迹球或其他类型的指向设备,并且结合键盘210使用以将数据输入到计算机系统200中。图形适配器212在显示器218上显示图像和其他信息。网络适配器216将计算机系统200耦合到网络120。
如本领域中已知的,计算机200可以具有与图2中示出的那些不同的部件和/或其他部件。另外,计算机200可以缺少某些图示的部件。例如,用作视频精彩部分训练服务130的计算机可以由一起链接成一个或多个分布式系统的多个刀片服务器形成并且缺少诸如键盘和显示器的部件。此外,存储设备208可以在计算机200的本地和/或远程(例如被实现在存储区域网络(SAN)内)。
如本领域中已知的,计算机200适于运行用于提供本文描述的功能的计算机程序模块。如本文使用的,术语“模块”是指用于提供指定功能的计算机程序逻辑。因此,模块可以以硬件、固件和/或软件来实现。在一个实施例中,程序模块被存储在存储设备208上、被加载到存储器206中并且由处理器202执行。
视频精彩部分模型训练
图3是根据一个实施例的视频精彩部分训练模块136的框图。图3中示出的训练模块136具有特征训练模块310和模型训练模块320。训练模块136的其他实施例可以具有不同的和/或额外的模块。
特征训练模块310将存储在视频数据库132中的体育视频分类成不同类别并且生成与体育视频的每个类别相关联的特征向量。在一个实施例中,特征训练模块310利用诸如卷积神经网络(CNN)的深度学习能力训练特征模型以将体育视频分类。基于CNN的特征模型具有灵活分层结构以控制训练的深度和宽度并且能够预测图像的属性,例如具有可接受准确度的统计数据的平稳性和像素依赖的局部性。
在一个实施例中,特征训练模块310使用从大型数据集中选择的体育视频的高分辨率图像训练CNN特征模型,大型数据集例如数以万计的种类(category)的大规模的带标记的高分辨率图像,例如数以万计的种类的几百万高分辨率图像。大型数据集的高分辨率图像从互联网收集并且使用众多资源工具被标记以人类标签。特征训练模块310的其他实施例可以使用来自其他资源的数据集训练CNN特征模型。
在一个实施例中,CNN特征模型具有分层配置,其包括许多学习层,多个卷积层,最大汇总层,局部归一化层和完全连接层。卷积层利用k个可学习核(kernal)的集合对图像进行卷积并生成k个特征映射(feature map)。最大汇总层在目标像素周围的相邻图像像素上执行非线性降采样(down-sampling)以使特征映射对在相邻像素之间的小的平移鲁棒。局部归一化层将在图像的局部邻域周围的特征映射归一化。局部归一化增强特征映射对亮度和对比度的差异的鲁棒性。完全连接层根据从卷积层、最大汇总层和局部归一化层生成的特征映射来计算非线性变换。
CNN特征模型的每层学习图像的视觉特征,其中视觉特征表示在各粒度水平的图像。例如,由第一卷积层学习的特征表示图形的最一般特征,其可以由多个图像共享;由最后一层学习的特征描述特定于(specific to)图像的视觉特性。本领域普通技术人员已知的快速图像特征提取的任何方案可以由特征训练模块310使用。在一个实施例中,特征训练模块310在实现用于视觉特征提取的深度学习框架的计算机服务器上训练CNN特征模型。
基于所述训练,特征训练模块310将存储在视频数据库132中的体育视频分类成不同类别。例如,存储在视频数据库132中的体育视频由特征训练模块310分类成各类别,例如自行车、美国足球、英式足球、桌面网球/乒乓球、网球和篮球。在一个实施例中,特征训练模块310计算在体育视频的表示与另一体育视频的表示之间的距离,例如欧式(Euclidean)距离。响应于在两个体育视频的表示之间的欧式距离小于阈值,特征训练模块310确定两个体育视频属于同一类别。例如,特征训练模块310基于体育视频的视频帧的外观来生成体育视频的表示。体育视频的视频帧的外观通过对体育视频的所有视频帧的视觉特征的平均汇总,例如与体育视频的视频帧相关联的特征向量的均值来测得。
基于所述训练,特征训练模块310生成与每个类别的体育视频相关联的基于帧的特征向量。由特征训练模块310生成的基于帧的特征向量的示例包括通过将Gabor滤波器、尺度不变特征变换(SIFT)或方向梯度直方图(HoG)描述子应用到体育视频提取的特征。每个类别的体育视频与描述该类别的特性的多个特征向量相关联,该类别的特性例如运动活动模式、剪切密度模式和与该类别的体育视频相关联的关键视觉对象的跟踪。以高尔夫比赛为例,相关联的特征向量描述球员弯腰击打高尔夫球的检测和高尔夫球的运动轨迹。特征训练模块310将与每个类别的体育视频相关联的经训练的CNN特征模型和所提取的特征存储在模型数据库134中。
模型训练模块320基于由特征训练模块310的特征模型提取的基于帧的特征来训练视频精彩部分检测模型。注意,与一种类别的体育视频相关联的基于帧的特征向量表述该类别的体育视频的种类水平(category level)图像相似度,其主要对应于该类别的体育视频的语义相似度。然而,为了以可接受的检测准确度和效率检测体育视频中的视频精彩部分,期望细粒度的相似度测量,因为同一类别的体育视频内的相当大的视觉变化性仍然存在。
在一个实施例中,模型训练模块320从由特征模型分类的体育视频中选择体育视频的子集作为用于训练视频精彩部分建成模型的训练数据。所选择的体育视频被用作基准真值以学习一个或多个测量结果以用于由视频精彩部分建成模型检测体育视频中的视频精彩部分。例如,模型训练模块320基于与所选择的体育视频相关联的图像标注数据来选择体育视频的子集并且基于对所选择的体育视频的分析来学习所选择的体育视频的视频帧的细粒度视觉相似度。所选择的体育视频例如由人类评估者或由自动化过程进一步评估以确定每个所选择的体育视频是否包括视频精彩部分。
基于在所选择的体育视频上的训练,模型训练模块320生成与从体育视频中选择的每对视频帧相关联的成对的帧特征向量。例如,一对视频帧都与自行车运动相关,因此,视频帧在语义上是相似的。该对中的一帧具有描述参与山地自行车的运动员的突然跳跃的视觉特征,并且另一帧具有描述沿着高速公路的平滑骑行的视觉特征。描述突然跳跃的视觉特征指示其相关联的视频帧具有视觉精彩部分;该对的对应视频帧没有视觉精彩部分。模型训练模块320将经训练的视频精彩部分建成模型和成对的帧特征存储在模型数据库134中。
响应于来自移动计算设备的请求,训练模块136将经训练的特征模型、与所分类的体育视频相关联的特征向量、经训练的视频精彩部分建成模型和成对的帧特征向量提供到客户端设备110的精彩部分检测模块112以用于实时检测由客户端设备110接收到的体育视频中的视频精彩部分。
实时视频精彩部分检测
图4是根据一个实施例的用于实时检测体育视频中的视频精彩部分的客户端设备的精彩部分检测模块112的框图。图4中示出的精彩部分检测模块112具有接口模块410、特征提取模块420、精彩部分检测模块430、呈现模块440、更新模块450和帧缓冲器402。精彩部分检测模块112的其他实施例可以包括额外的和/或其他实体,例如将接口模块410和呈现模块440的功能进行组合的通用接口模块。同样,由图4的各个实体执行的功能可以在不同实施例中不同。
在一个实施例中,当在客户端设备上执行视频精彩部分检测应用后由客户端设备的计算机处理器激活精彩部分检测模块112。在激活后,接口模块410从视频精彩部分模型训练服务130请求特征模型、基于帧的特征向量、检测模型和成对的(pair-wise)帧特征。响应于接收到所请求的模型和帧特征,接口模块410将接收到的模型和帧特征上传到客户端设备,例如将接收到的模型和帧特征存储在帧缓冲器402中。
接口模块410还接收由客户端设备接收到的输入视频,例如由用户的移动电话记录的或从视频流传输服务流传输的山地自动车活动,并将接收到的输入视频存储在帧缓冲器402中。图7A示出由用户的移动电话捕获的山地自行车视频的视频帧的示例。接口模块410将接收到的输入视频的片段(例如输入视频中的5秒)存储在帧缓冲器402中。接口模块420与特征提取模块420通信以处理存储在帧缓冲器402中的片段的视频帧。为了支持在接收到的输入视频中的连续的实时视频精彩部分检测,接口模块410继续将输入视频的接下来的片段缓冲。在一个实施例中,接口模块420将输入视频的一部分(例如输入视频中的1秒)(其被包含在输入视频的两个时间上连续的片段中)缓冲,以提供对在时间上连续的片段之间的随机视频流传输错误和同步的弹性。
特征提取模块420从输入视频的各帧提取视觉特征。在一个实施例中,特征提取模块420使用由训练模块136训练的特征模型以提取输入视频的视觉特征。针对输入视频的每个所缓冲的视频帧,特征提取模块420基于与输入视频相关联的元数据(例如分辨率和帧率)来配置经训练的特征模型。所配置的特征模型具有深度卷积神经网络的一个或多个卷积层以及最大汇总层和局部归一化层。经训练的特征模型在深度卷积神经网络的每个卷积层处生成基于帧的特征映射。来自卷积层的各特征例如通过内衬嵌入(liner embedding)来归一化和组合以生成针对体育视频的帧的特征向量。与体育视频的视频帧相关联的特征向量指示视频帧的种类水平语义特性,例如指示输入视频具有特定于特定类别的体育视频(例如自行车)的视觉特征。特征提取模型420将基于帧的特征向量存储在帧缓冲器402中并将特征向量提供到精彩部分检测模块430以确定由特征向量相关联的帧是否具有视频精彩部分。
体育视频的视频精彩部分是体育视频的一部分并且表示在体育视频中捕获的语义上重要的事件,例如短视频剪辑捕获在英式足球比赛视频剪辑中的进球或进球次数。为了检测输入视频的视频帧中的视频精彩部分,精彩部分检测模块430将由训练模块136训练的精彩部分检测模型应用到与视频帧相关联的特征向量。在一个实施例中,精彩部分检测模块430将特征向量与成对的帧特征向量进行比较以确定在与视频帧相关联的特征向量与表示视频精彩部分的成对的帧特征向量的特征向量之间的相似度。例如,精彩部分检测模块430计算在与视频帧相关联的特征向量与表示视频精彩部分的特征向量之间的欧式距离。基于所述比较,精彩部分检测模块430计算针对视频帧的精彩部分分数。针对视频帧的精彩部分分数表示在卷积神经网络的完全连接层的最后一层处的神经元的响应,其被用于由训练模块136训练特征模型和精彩部分检测模型。
精彩部分检测模块430对输入视频的每个视频帧重复相似的检测过程并生成针对输入视频的每个视频帧的精彩部分分数。视频帧的较大的精彩部分分数指示视频帧比具有较小精彩部分分数的另一视频帧具有视频精彩部分的更高可能性。精彩部分检测模块430的其他实施例可以并入其他视频精彩部分检测方案,例如基于音频的视频精彩部分检测,例如在美国专利申请No.14/629,852中描述的示例。例如,精彩部分检测模块430可以通过将根据使用经训练的特征模型和检测模型的精彩部分检测生成的精彩部分分数和根据基于音频的精彩部分检测生成的精彩部分分数求平均来计算针对输入视频的视频帧的精彩部分分数。
呈现模块440接收针对输入视频的每个视频帧的精彩部分分数并在图形用户接口(interface)中将输入视频的精彩部分分数呈现给客户端设备的用户。图7A示出由移动电话捕获的山地自行车体育视频的视频帧。图7B是呈现与图7A中示出的山地自行车体育视频的视频帧相关联的视频精彩部分分数的示例性图形用户接口。图7C是根据一个实施例的示出由移动电话接收到的山地自行车体育视频的视频帧750、其相关联的视频精彩部分分数760和用于使用户与所呈现的视频精彩部分分数交互的交互工具770的示例性用户接口740。
在图7B中示出的示例中,图形用户接口的水平轴示出输入视频的视频帧的帧标识720;垂直轴示出输入视频的视频帧的对应精彩部分分数710。图7B中示出的示例进一步示出针对输入视频的6个所识别(即,第30个、第60个、第90个、第120个、第150个、第180个帧)的视频帧的精彩部分分数的图形,其中第60个帧具有最高精彩部分分数730,并且在第30个帧与第60个帧之间的视频片段很可能表示输入视频的视频精彩部分。在第30个帧与第60个帧之间的视频片段作为由精彩部分检测模块430预测的视频精彩部分被呈现给客户端设备的用户。
客户端设备的用户可以与在图形用户接口中呈现的输入视频的精彩部分分数交互,并且更新模块450检测与输入视频的所呈现的精彩部分分数的用户交互。例如,客户端设备的用户可以基于用户正在实时地在客户端设备上观看的内容来将指向由精彩部分检测模块430预测的视频精彩部分的指针拖曳到接口上的不同位置。由更新模块450检测基于输入视频的用户实时观看对视频精彩部分的位置的调节。更新模块450从帧缓冲器402中检索与经调节的视频精彩部分相关联的帧特征向量并将检索到的帧特征向量提供到视频精彩部分模型训练服务130。训练服务130的精彩部分模型更新模块138基于与从更新模块450中检索到的与经调节的视频精彩部分相关联的帧特征向量来动态地更新由训练模块136训练的检测模型。
图5是根据一个实施例的使用图3中示出的训练模块136和图4中示出的精彩部分检测模块112检测由移动电话接收到的体育视频中的视频精彩部分的示例。在图5中示出的示例中,视频精彩部分检测包括两个阶段:由训练模块136在云计算环境510中的训练和由精彩部分检测模块112对由移动电话接收到的体育视频的实时精彩部分检测530。训练阶段510具有两个子阶段:基于大规模的视频训练数据502的特征模型训练和基于大规模的视频训练数据的子集504的精彩部分检测模型训练。示例中的特征模型是CNN特征模型,其具有灵活分层结构和深度学习能力。例如,训练模块136在实现深度学习框架的计算机服务器上训练CNN特征模型。当在移动电话上执行视频精彩部分检测程序后,经训练的特征模型和基于帧的特征向量506被提供给用户的移动电话,例如被上传到移动电话520。
基于大规模的视频训练数据的子集504的精彩部分检测模型训练使用来自特征模型训练的基于帧的特征向量并生成针对具有语义上相似的视觉特征的每对视频帧的成对的帧特征向量。针对一对视频帧的成对的帧特征向量包括表示第一视频帧中的视频精彩部分的特征向量和表示第二视频帧中的非视频精彩部分的特征向量。当在移动电话上执行视频精彩部分检测程序后,经训练的精彩部分检测模型和成对的帧特征向量508被提供到用户的移动电话,例如被上传到移动电话520。
在实时视频精彩部分检测阶段中,移动电话的精彩部分检测模块112的接口捕获体育视频或从视频流传输服务接收体育视频。精彩部分检测模块112将视频片段的视频帧缓冲并使用经训练的特征模型和特征向量来提取针对体育视频的每个所缓冲的视频帧的基于帧的特征向量。体育视频的每个视频帧的所提取的特征向量进一步由从训练模块136接收到的精彩部分检测模型分析。基于与体育视频的视频帧相关联的特征向量的分析,例如视频帧的特征向量与来自训练模块136的成对的帧特征向量的比较,精彩部分检测模块112计算针对视频帧的精彩部分分数并将该精彩部分分数提供到接口以用于呈现给用户。
接口模块在例如图7B中示出的接口的图形用户接口中呈现针对体育视频的所有视频帧的精彩部分分数。移动设备的用户可以与精彩部分分数的呈现交互,例如基于他对体育视频的实时观看对视频精彩部分的位置的微小调节。精彩部分检测模块112将实时精彩部分检测数据(未示出在图5中)提供到训练模块136,训练模块136基于实时精彩部分检测数据来动态地更新特征模型和精彩部分检测模型。
为了针对移动计算设备高效地检测体育视频中的视频精彩部分,经训练的特征模型、精彩部分检测模型和其相关联的特征向量需要在由模型和特征向量消耗的移动计算设备的存储器空间方面得到控制。以图5中示出的实施例为例,与由训练模块136训练的特征模型相关联的基于帧的特征向量524与由特征模型522、检测模型526和成对的特征528使用的存储器(例如,5MB)相比较使用最大存储器(例如,45~200MB)。由特征模型522和检测模型526使用的存储器非常小,其可以在视频精彩部分检测性能的评估中忽略不计。
注意,由基于帧的特征向量524使用的存储器的大小可以影响实时的视频精彩部分检测模块112的视频精彩部分检测性能,例如精彩部分检测的处理延迟和准确性。例如以217MB的大小的基于帧的特征向量524得到55.2%的精彩部分检测准确性和2.13秒处理延迟;以153MB的大小的基于帧的特征向量524得到51.3%的精彩部分检测准确性和1.87秒处理延迟;并且以45MB的大小的基于帧的特征向量524得到49.8%的精彩部分检测准确性和1.36秒处理延迟。在一个实施例中,训练模块136将基于帧的特征向量524的大小保持为45MB以平衡在检测准确性与处理延迟之间的权衡。
图6是图示了根据一个实施例的用于针对移动计算设备实时检测体育视频中的视频精彩部分的过程的示例性流程图。首先,移动计算设备的精彩部分检测模块112接收610例如由移动计算设备捕获的用于视频精彩部分检测的体育视频。精彩部分检测模块112将体育视频的片段的视频帧缓冲620在帧缓冲中。针对每个所缓冲的视频帧,精彩部分检测模块112使用经训练的特征模型提取630基于帧的特征并且生成描述视频帧的视觉特性的一个或多个特征向量。精彩部分检测模块112使用经训练的检测模型基于所提取的特征向量来检测640视频精彩部分。基于所述检测,精彩部分检测模块112生成针对视频帧的视频精彩部分分数,其中视频精彩部分分数表示对视频帧是否具有视频精彩部分的预测。较高的视频精彩部分分数指示视频帧比具有较低视频精彩部分分数的视频帧具有视频精彩部分的更高可能性。精彩部分检测模块112针对体育视频的每个所缓冲的视频帧重复视频精彩部分检测。
精彩部分检测模块112将体育视频的视频帧的视频精彩部分分数呈现给移动计算设备的用户。在一个实施例中,精彩部分检测模块112以用户友好的方式(例如图形用户接口)呈现660视频帧的视频精彩部分分数,使得移动计算设备的用户可以与视频精彩部分分数交互,例如调节由精彩部分检测模块112预测的视频精彩部分的位置。
精彩部分检测模块112检测670与视频精彩部分分数的呈现的用户交互。响应于检测到与呈现的用户动作,精彩部分检测模块112将实时精彩部分检测数据和用户与所预测的视频精彩部分的交互提供680到视频精彩部分训练服务130以更新检测模型;否则,精彩部分检测模块112将实时精彩部分检测数据(例如,体育视频的视频帧的基于帧的特征向量)提供690到视频精彩部分训练服务130以更新特征模型。
综述
为了说明的目的,已经呈现了本发明的实施例的前述描述,其不旨在于是穷尽的或者将本发明限制于所公开的精确形式。相关领域的技术人员能够理解,鉴于以上公开许多修改和变化是可能的。
该描述的一些部分根据对信息操作的算法和符号表示来描述本发明的实施例。这些算法描述和表示由数据处理领域的技术人员普遍用来向该领域其他技术人员有效地传达其工作的实质。当这些操作被功能性地、计算性地或者逻辑性地描述时,被理解为由计算机程序或者等效的电路、微代码等实现。此外,也已经证明在不失一般性的情况下有时将这些操作的布置称为模块是方便的。描述的操作及其相关联的模块可以被体现在软件、固件、硬件或它们的组合中。
在此描述的任何步骤、操作或过程可以利用一个或多个硬件或软件模块单独或联合其他设备来被执行或被实现。在一个实施例中,软件模块利用包括含有计算机程序代码的计算机可读介质的计算机程序产品而被实现,该计算机程序代码可以由计算机处理器执行,以用于执行描述的任意或全部的步骤、操作或过程。
本发明的实施例还可以与用于执行在此的操作的设备有关。该设备可以为了要求的目的而具体地构造,和/或其可以包括由存储在计算机中的计算机程序选择性地激活或重新配置的通用计算设备。这样的计算机程序可以被存储在非瞬态有形计算机可读存储介质、或者适合于存储电子指令的任意类型的介质中,其可以被耦合至计算机系统总线。此外,在本说明书中提及的任何计算系统可以包括单个处理器或者可以是采用用于增加的计算能力的多处理器设计的架构。
本发明的实施例还可以涉及由在此描述的计算过程生产的产品。这样的产品可以包括从计算过程产生的信息,其中该信息被存储在非瞬态有形计算机可读存储介质上并且可以包括本文描述的计算机程序产品的任何实施例或者其他数据组合。
最后,在本说明书中使用的语言已经主要为了可读性和教导的目的而选择,并且其可能未被选择为描绘或限制所公开的主题。因此,其意图为本发明的范围不由该详细的描述来限定,而由针对基于在此的应用的任何权利要求来限定。因此,本发明的实施例的公开内容旨在于是说明性的而非对本发明的范围的限制,本发明的范围在所附的权利要求中被阐述。

Claims (20)

1.一种用于在移动计算设备处检测体育视频中的精彩部分的计算机实现的方法,包括:
在所述移动计算设备处接收具有多个视频帧的体育视频;
将所述体育视频的片段缓冲,所述片段包括所述体育视频的多个视频帧;
针对所述体育视频的每个所缓冲的视频帧:
提取所述视频帧的多个视觉特征;
基于所述视频帧的所提取的视觉特征来检测所述视频帧中的精彩部分;以及
基于所述检测来生成针对所述视频帧的视频精彩部分分数。
2.根据权利要求1所述的方法,其中提取所述视频帧的多个视觉特征包括:
将经训练的特征模型应用到所述视频帧;以及
基于所述经训练的特征模型到所述视频帧的所述应用来生成多个特征向量,所生成的特征向量表示所述体育视频的所述视频帧的种类水平视觉特性。
3.根据权利要求2所述的方法,其中所述特征模型在大规模的视频上利用卷积神经网络来训练,并且其中所述经训练的特征模型被配置为将所述大规模的视频分类成多个类别,并且所述体育视频的每个类别与描述所述类别的种类水平视觉特性的多个特征向量相关联。
4.根据权利要求1所述的方法,其中检测所述视频帧中的精彩部分包括:
将经训练的检测模型应用到所述视频帧的所提取的视觉特征;以及
将所述视频帧的所提取的视觉特征和与所述经训练的检测模型相关联的成对的帧特征向量进行比较。
5.根据权利要求4所述的方法,其中所述成对的帧特征向量包括描述具有精彩部分的第一视频帧的视觉特性的特征向量和描述没有精彩部分的第二视频帧的视觉特性的特征向量,其中所述第一视频帧和所述第二视频帧在语义上与所缓冲的视频帧相似。
6.根据权利要求4所述的方法,其中将所述视频帧的所提取的视觉特征与所述成对的帧特征向量进行比较包括:
生成在所述体育视频的所述视频帧的所提取的视觉特征与具有精彩部分的所述第一视频帧的所述特征向量之间的距离;以及
基于所生成的距离来生成针对所述体育视频的所述视频帧的所述精彩部分分数。
7.根据权利要求1所述的方法,其中所述视频帧的所述精彩部分分数表示对所述视频帧具有精彩部分的预测。
8.根据权利要求1所述的方法,还包括:
在图形用户接口中呈现所述体育视频的所述多个视频帧的所述精彩部分分数;以及
监测与所述体育视频的所述多个视频帧的所呈现的精彩部分分数的用户交互。
9.根据权利要求8所述的方法,还包括:
响应于检测到与所述体育视频的视频帧的精彩部分分数的用户交互,将所述体育视频的精彩部分检测数据和用户交互信息提供到计算机服务器以更新经训练的检测模型。
10.根据权利要求1所述的方法,还包括:
将所述体育视频的精彩部分检测数据提供到计算机服务器以更新经训练的特征模型。
11.一种非瞬态计算机可读存储介质,存储有用于在移动计算设备处检测体育视频中的精彩部分的可执行计算机程序指令,所述指令在由计算机处理器执行时使得所述计算机处理器:
在所述移动计算设备处接收具有多个视频帧的体育视频;
将所述体育视频的片段缓冲,所述片段包括所述体育视频的多个视频帧;
针对所述体育视频的每个所缓冲的视频帧:
提取所述视频帧的多个视觉特征;
基于所述视频帧的所提取的视觉特征来检测所述视频帧中的精彩部分;以及
基于所述检测来生成针对所述视频帧的视频精彩部分分数。
12.根据权利要求11所述的计算机可读存储介质,其中用于提取所述视频帧的多个视觉特征的指令包括在由所述计算机处理器执行时使得所述计算机处理器进行如下操作的指令:
将经训练的特征模型应用到所述视频帧;以及
基于所述经训练的特征模型到所述视频帧的所述应用来生成多个特征向量,所生成的特征向量表示所述体育视频的所述视频帧的种类水平视觉特性。
13.根据权利要求12所述的计算机可读存储介质,其中所述特征模型在大规模的视频上利用卷积神经网络来训练,并且其中所述经训练的特征模型被配置为将所述大规模的视频分类成多个类别,并且所述体育视频的每个类别与描述所述类别的所述种类水平视觉特性的多个特征向量相关联。
14.根据权利要求11所述的计算机可读存储介质,其中用于检测所述视频帧中的精彩部分的指令包括在由所述计算机处理器执行时使得所述计算机处理器进行如下操作的指令:
将经训练的检测模型应用到所述视频帧的所提取的视觉特征;以及
将所述视频帧的所提取的视觉特征和与所述经训练的检测模型相关联的成对的帧特征向量进行比较。
15.根据权利要求14所述的计算机可读存储介质,其中所述成对的帧特征向量包括描述具有精彩部分的第一视频帧的视觉特性的特征向量和描述没有精彩部分的第二视频帧的视觉特性的特征向量,其中所述第一视频帧和所述第二视频帧在语义上与所缓冲的视频帧相似。
16.根据权利要求14所述的计算机可读存储介质,其中用于将所述视频帧的所提取的视觉特征与所述成对的帧特征向量进行比较的指令包括在由所述计算机处理器执行时使得所述计算机处理器进行如下操作的指令:
生成在所述体育视频的所述视频帧的所提取的视觉特征与具有精彩部分的所述第一视频帧的所述特征向量之间的距离;以及
基于所生成的距离来生成针对所述体育视频的所述视频帧的所述精彩部分分数。
17.根据权利要求11所述的计算机可读存储介质,其中所述视频帧的所述精彩部分分数表示对所述视频帧具有精彩部分的预测。
18.根据权利要求11所述的计算机可读存储介质,进一步包括在由计算机处理器执行时使得所述计算机处理器进行如下操作的计算机程序指令:
在图形用户接口中呈现所述体育视频的所述多个视频帧的所述精彩部分分数;以及
监测与所述体育视频的所述多个视频帧的所呈现的精彩部分分数的用户交互。
19.根据权利要求18所述的计算机可读存储介质,进一步包括在由计算机处理器执行时使得所述计算机处理器进行如下操作的计算机程序指令:
响应于检测到与所述体育视频的视频帧的精彩部分分数的用户交互,将所述体育视频的精彩部分检测数据和用户交互信息提供到计算机服务器以更新经训练的检测模型。
20.根据权利要求11所述的计算机可读存储介质,进一步包括在由计算机处理器执行时使得所述计算机处理器进行如下操作的计算机程序指令:
将所述体育视频的精彩部分检测数据提供到计算机服务器以更新经训练的特征模型。
CN201610201374.9A 2015-03-31 2016-03-31 针对移动计算设备检测体育视频精彩部分 Pending CN106028134A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US14/675,464 US10572735B2 (en) 2015-03-31 2015-03-31 Detect sports video highlights for mobile computing devices
US14/675,464 2015-03-31

Publications (1)

Publication Number Publication Date
CN106028134A true CN106028134A (zh) 2016-10-12

Family

ID=57005112

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610201374.9A Pending CN106028134A (zh) 2015-03-31 2016-03-31 针对移动计算设备检测体育视频精彩部分

Country Status (3)

Country Link
US (1) US10572735B2 (zh)
CN (1) CN106028134A (zh)
WO (1) WO2016160304A1 (zh)

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107864334A (zh) * 2017-11-09 2018-03-30 睿魔智能科技(东莞)有限公司 一种使用深度学习的智能镜头拍摄方法及系统
CN108073902A (zh) * 2017-12-19 2018-05-25 深圳先进技术研究院 基于深度学习的视频总结方法、装置及终端设备
CN108288475A (zh) * 2018-02-12 2018-07-17 成都睿码科技有限责任公司 一种基于深度学习的体育视频集锦剪辑方法
WO2018157873A1 (en) * 2017-03-03 2018-09-07 Huawei Technologies Co., Ltd. Fine-grained object recognition in robotic systems
CN108665769A (zh) * 2018-05-11 2018-10-16 深圳市鹰硕技术有限公司 基于卷积神经网络的网络教学方法以及装置
CN108900896A (zh) * 2018-05-29 2018-11-27 深圳天珑无线科技有限公司 视频剪辑方法及装置
WO2019000293A1 (en) * 2017-06-29 2019-01-03 Intel Corporation TECHNIQUES FOR VIDEO DENSE DESCRIPTIONS
CN109685144A (zh) * 2018-12-26 2019-04-26 上海众源网络有限公司 一种对视频模型做评估的方法、装置及电子设备
CN110267119A (zh) * 2019-06-28 2019-09-20 北京奇艺世纪科技有限公司 视频精彩度的评价方法及相关设备
CN110324728A (zh) * 2019-06-28 2019-10-11 浙江传媒学院 基于深度强化学习的体育赛事全场回顾短视频生成方法
CN110347872A (zh) * 2019-07-04 2019-10-18 腾讯科技(深圳)有限公司 视频封面图像提取方法及装置、存储介质及电子设备
CN110505521A (zh) * 2019-08-28 2019-11-26 咪咕动漫有限公司 一种直播比赛互动方法、电子设备、存储介质及系统
CN111836118A (zh) * 2019-04-19 2020-10-27 百度在线网络技术(北京)有限公司 视频处理方法、装置、服务器及存储介质
CN115119044A (zh) * 2021-03-18 2022-09-27 阿里巴巴新加坡控股有限公司 视频处理方法、设备、系统及计算机存储介质

Families Citing this family (44)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11042274B2 (en) * 2013-12-04 2021-06-22 Autodesk, Inc. Extracting demonstrations from in-situ video content
US10025986B1 (en) * 2015-04-27 2018-07-17 Agile Sports Technologies, Inc. Method and apparatus for automatically detecting and replaying notable moments of a performance
US10289912B1 (en) 2015-04-29 2019-05-14 Google Llc Classifying videos using neural networks
US9971791B2 (en) * 2015-09-16 2018-05-15 Adobe Systems Incorporated Method and apparatus for clustering product media files
US20170109584A1 (en) * 2015-10-20 2017-04-20 Microsoft Technology Licensing, Llc Video Highlight Detection with Pairwise Deep Ranking
US9959468B2 (en) 2015-11-06 2018-05-01 The Boeing Company Systems and methods for object tracking and classification
US10229324B2 (en) * 2015-12-24 2019-03-12 Intel Corporation Video summarization using semantic information
US20170188120A1 (en) * 2015-12-29 2017-06-29 Le Holdings (Beijing) Co., Ltd. Method and electronic device for producing video highlights
US10390082B2 (en) * 2016-04-01 2019-08-20 Oath Inc. Computerized system and method for automatically detecting and rendering highlights from streaming videos
EP3473016B1 (en) * 2016-06-20 2024-01-24 Pixellot Ltd. Method and system for automatically producing video highlights
US20180089170A1 (en) * 2016-09-29 2018-03-29 Linkedln Corporation Skills detector system
US20180276540A1 (en) * 2017-03-22 2018-09-27 NextEv USA, Inc. Modeling of the latent embedding of music using deep neural network
US11069069B2 (en) * 2017-04-10 2021-07-20 Hrl Laboratories, Llc System for predicting movements of an object of interest with an autoencoder
CN108229280B (zh) * 2017-04-20 2020-11-13 北京市商汤科技开发有限公司 时域动作检测方法和系统、电子设备、计算机存储介质
FR3067496B1 (fr) * 2017-06-12 2021-04-30 Inst Mines Telecom Procede d'apprentissage de descripteurs pour la detection et la localisation d'objets dans une video
US10445586B2 (en) 2017-12-12 2019-10-15 Microsoft Technology Licensing, Llc Deep learning on image frames to generate a summary
CN108154103A (zh) * 2017-12-21 2018-06-12 百度在线网络技术(北京)有限公司 检测推广信息显著性的方法、装置、设备和计算机存储介质
CN108289248B (zh) * 2018-01-18 2020-05-15 福州瑞芯微电子股份有限公司 一种基于内容预测的深度学习视频解码方法和装置
US10818033B2 (en) * 2018-01-18 2020-10-27 Oath Inc. Computer vision on broadcast video
US10679069B2 (en) * 2018-03-27 2020-06-09 International Business Machines Corporation Automatic video summary generation
CN110324659B (zh) * 2018-03-29 2020-08-28 北京字节跳动网络技术有限公司 一种视频特征提取方法及装置
CN108764313B (zh) * 2018-05-17 2022-03-04 西安电子科技大学 基于深度学习的超市商品识别方法
US11638854B2 (en) * 2018-06-01 2023-05-02 NEX Team, Inc. Methods and systems for generating sports analytics with a mobile device
JP2019215728A (ja) * 2018-06-13 2019-12-19 キヤノン株式会社 情報処理装置、情報処理方法及びプログラム
CN108985244B (zh) * 2018-07-24 2021-10-15 海信集团有限公司 一种电视节目类型识别方法及装置
US11109103B2 (en) 2019-11-27 2021-08-31 Rovi Guides, Inc. Systems and methods for deep recommendations using signature analysis
US11297388B2 (en) * 2019-11-27 2022-04-05 Rovi Guides, Inc. Systems and methods for deep recommendations using signature analysis
US11798282B1 (en) 2019-12-18 2023-10-24 Snap Inc. Video highlights with user trimming
US11610607B1 (en) 2019-12-23 2023-03-21 Snap Inc. Video highlights with user viewing, posting, sending and exporting
US11538499B1 (en) * 2019-12-30 2022-12-27 Snap Inc. Video highlights with auto trimming
CN111291617B (zh) * 2020-01-13 2023-11-17 西北农林科技大学 基于机器学习的羽毛球赛事视频精彩片段提取方法
CN111753633B (zh) * 2020-03-30 2023-08-29 杭州海康威视数字技术股份有限公司 目标检测方法及装置
CN111680189B (zh) * 2020-04-10 2023-07-25 北京百度网讯科技有限公司 影视剧内容检索方法和装置
US20210352347A1 (en) * 2020-05-08 2021-11-11 Synaptics Incorporated Adaptive video streaming systems and methods
US11244204B2 (en) * 2020-05-20 2022-02-08 Adobe Inc. Determining video cuts in video clips
US20210385558A1 (en) 2020-06-09 2021-12-09 Jess D. Walker Video processing system and related methods
CN112069952A (zh) * 2020-08-25 2020-12-11 北京小米松果电子有限公司 视频片段提取方法、视频片段提取装置及存储介质
CN114697741B (zh) * 2020-12-30 2023-06-30 腾讯科技(深圳)有限公司 多媒体信息的播放控制方法及相关设备
US11785068B2 (en) 2020-12-31 2023-10-10 Synaptics Incorporated Artificial intelligence image frame processing systems and methods
WO2021077141A2 (en) * 2021-02-05 2021-04-22 Innopeak Technology, Inc. Highlight moment detection for slow-motion videos
CN113255461B (zh) * 2021-04-29 2023-08-11 嘉兴学院 基于双模深度网络的视频事件检测与语义标注方法及装置
CN113762123B (zh) * 2021-08-31 2022-11-18 同济大学 一种驾驶员使用手机检测方法及计算机可读介质
US20230148112A1 (en) * 2021-10-28 2023-05-11 Stats Llc Sports Neural Network Codec
CN114173177B (zh) * 2021-12-03 2024-03-19 北京百度网讯科技有限公司 一种视频处理方法、装置、设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101377852A (zh) * 2007-08-29 2009-03-04 讯连科技股份有限公司 用来判断运动视频中精彩片段的装置
CN101420579A (zh) * 2007-10-22 2009-04-29 皇家飞利浦电子股份有限公司 检测精彩片断的方法、装置和系统
CN102414680A (zh) * 2009-03-20 2012-04-11 伊斯曼柯达公司 利用跨域知识的语义事件检测
US8923607B1 (en) * 2010-12-08 2014-12-30 Google Inc. Learning sports highlights using event detection
CN105009599A (zh) * 2012-12-31 2015-10-28 谷歌公司 精彩时刻的自动标识

Family Cites Families (52)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5610590A (en) 1995-05-18 1997-03-11 The United States Of America As Represented By The Secretary Of The Army Motion sensor
US5615132A (en) 1994-01-21 1997-03-25 Crossbow Technology, Inc. Method and apparatus for determining position and orientation of a moveable object using accelerometers
CN1126076C (zh) * 1998-05-27 2003-10-29 Ntt移动通信网株式会社 语音译码器和语音译码方法
US6224493B1 (en) 1999-05-12 2001-05-01 Callaway Golf Company Instrumented golf club system and method of use
US7013477B2 (en) 2000-05-25 2006-03-14 Fujitsu Limited Broadcast receiver, broadcast control method, and computer readable recording medium
US8409024B2 (en) 2001-09-12 2013-04-02 Pillar Vision, Inc. Trajectory detection and feedback system for golf
US7590333B2 (en) 2001-10-15 2009-09-15 Ipg Electronics 503 Limited Image extraction from video content
US7120873B2 (en) 2002-01-28 2006-10-10 Sharp Laboratories Of America, Inc. Summarization of sumo video content
US20040111432A1 (en) * 2002-12-10 2004-06-10 International Business Machines Corporation Apparatus and methods for semantic representation and retrieval of multimedia content
EP1587588A2 (en) 2002-12-19 2005-10-26 Fortescue Corporation Method and apparatus for determining orientation and position of a moveable object
US20060166738A1 (en) 2003-09-08 2006-07-27 Smartswing, Inc. Method and system for golf swing analysis and training for putters
US20050125223A1 (en) * 2003-12-05 2005-06-09 Ajay Divakaran Audio-visual highlights detection using coupled hidden markov models
CN1627813A (zh) 2003-12-09 2005-06-15 皇家飞利浦电子股份有限公司 一种生成精彩片段的方法和装置
US20060025229A1 (en) 2003-12-19 2006-02-02 Satayan Mahajan Motion tracking and analysis apparatus and method and system implementations thereof
WO2005076594A1 (en) * 2004-02-06 2005-08-18 Agency For Science, Technology And Research Automatic video event detection and indexing
US7736242B2 (en) 2004-03-23 2010-06-15 Nike, Inc. System for determining performance characteristics of a golf swing
US7302451B2 (en) * 2004-05-07 2007-11-27 Mitsubishi Electric Research Laboratories, Inc. Feature identification of events in multimedia
US8556267B2 (en) 2004-06-07 2013-10-15 Acushnet Company Launch monitor
US7426301B2 (en) * 2004-06-28 2008-09-16 Mitsubishi Electric Research Laboratories, Inc. Usual event detection in a video using object and frame features
WO2007073347A1 (en) * 2005-12-19 2007-06-28 Agency For Science, Technology And Research Annotation of video footage and personalised video generation
US7978081B2 (en) 2006-01-09 2011-07-12 Applied Technology Holdings, Inc. Apparatus, systems, and methods for communicating biometric and biomechanical information
US7720851B2 (en) * 2006-05-16 2010-05-18 Eastman Kodak Company Active context-based concept fusion
KR100785076B1 (ko) * 2006-06-15 2007-12-12 삼성전자주식회사 스포츠 동영상에서의 실시간 이벤트 검출 방법 및 그 장치
US8337335B2 (en) 2006-10-07 2012-12-25 Dugan Brian M Systems and methods for measuring and/or analyzing swing information
CN101529890B (zh) * 2006-10-24 2011-11-30 索尼株式会社 图像摄取设备和再现控制设备
US8109816B1 (en) 2007-05-31 2012-02-07 Yale University Method and apparatus for measurement and analysis of a golf swing
US8360904B2 (en) 2007-08-17 2013-01-29 Adidas International Marketing Bv Sports electronic training system with sport ball, and applications thereof
EP2257346B1 (de) 2008-03-22 2014-06-04 Richard Jaekel Vorrichtung und verfahren zur kontrolle der treffgenauigkeit und der schwungbewegung bei einem golfschläger
US8358856B2 (en) * 2008-06-02 2013-01-22 Eastman Kodak Company Semantic event detection for digital content records
US8589114B2 (en) 2008-08-19 2013-11-19 Angelo Gregory Papadourakis Motion capture and analysis
US20100105479A1 (en) 2008-10-23 2010-04-29 Microsoft Corporation Determining orientation in an external reference frame
US8622795B2 (en) 2008-12-04 2014-01-07 Home Box Office, Inc. System and method for gathering and analyzing objective motion data
KR101628237B1 (ko) 2009-01-21 2016-06-22 삼성전자주식회사 하이라이트 영상 구성 방법 및 장치
JP5182708B2 (ja) 2009-06-17 2013-04-17 ダンロップスポーツ株式会社 ゴルフスイングの分析方法
US20100323794A1 (en) 2009-06-18 2010-12-23 Yui-Zhang Su Sensor based human motion detection gaming with false positive detection
US8913783B2 (en) * 2009-10-29 2014-12-16 Sri International 3-D model based method for detecting and classifying vehicles in aerial imagery
US8452763B1 (en) * 2009-11-19 2013-05-28 Google Inc. Extracting and scoring class-instance pairs
US8903521B2 (en) 2010-08-26 2014-12-02 Blast Motion Inc. Motion capture element
US8905855B2 (en) 2010-08-26 2014-12-09 Blast Motion Inc. System and method for utilizing motion capture data
US8941723B2 (en) 2010-08-26 2015-01-27 Blast Motion Inc. Portable wireless mobile device motion capture and analysis system and method
US8944928B2 (en) 2010-08-26 2015-02-03 Blast Motion Inc. Virtual reality system for viewing current and previously stored or calculated motion data
US9039527B2 (en) 2010-08-26 2015-05-26 Blast Motion Inc. Broadcasting method for broadcasting images with augmented motion data
US8593286B2 (en) 2010-12-01 2013-11-26 At&T Intellectual Property I, L.P. System and method for wireless monitoring of sports activities
US9087297B1 (en) * 2010-12-17 2015-07-21 Google Inc. Accurate video concept recognition via classifier combination
US10440402B2 (en) * 2011-01-26 2019-10-08 Afterlive.tv Inc Method and system for generating highlights from scored data streams
US9186547B2 (en) 2011-04-28 2015-11-17 Nike, Inc. Golf clubs and golf club heads
CA2839943C (en) * 2011-07-06 2020-06-02 Fred Bergman Healthcare Pty Ltd Improvements relating to event detection algorithms
US20130251340A1 (en) * 2012-03-21 2013-09-26 Wei Jiang Video concept classification using temporally-correlated grouplets
US9244924B2 (en) * 2012-04-23 2016-01-26 Sri International Classification, search, and retrieval of complex video events
US9122932B2 (en) * 2012-04-30 2015-09-01 Xerox Corporation Method and system for automatically detecting multi-object anomalies utilizing joint sparse reconstruction model
US9456174B2 (en) * 2014-01-20 2016-09-27 H4 Engineering, Inc. Neural network for video editing
US9779307B2 (en) * 2014-07-07 2017-10-03 Google Inc. Method and system for non-causal zone search in video monitoring

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101377852A (zh) * 2007-08-29 2009-03-04 讯连科技股份有限公司 用来判断运动视频中精彩片段的装置
CN101420579A (zh) * 2007-10-22 2009-04-29 皇家飞利浦电子股份有限公司 检测精彩片断的方法、装置和系统
CN102414680A (zh) * 2009-03-20 2012-04-11 伊斯曼柯达公司 利用跨域知识的语义事件检测
US8923607B1 (en) * 2010-12-08 2014-12-30 Google Inc. Learning sports highlights using event detection
CN105009599A (zh) * 2012-12-31 2015-10-28 谷歌公司 精彩时刻的自动标识

Cited By (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018157873A1 (en) * 2017-03-03 2018-09-07 Huawei Technologies Co., Ltd. Fine-grained object recognition in robotic systems
CN109643448A (zh) * 2017-03-03 2019-04-16 华为技术有限公司 机器人系统中的细粒度物体识别
US10322510B2 (en) 2017-03-03 2019-06-18 Futurewei Technologies, Inc. Fine-grained object recognition in robotic systems
WO2019000293A1 (en) * 2017-06-29 2019-01-03 Intel Corporation TECHNIQUES FOR VIDEO DENSE DESCRIPTIONS
US11263489B2 (en) 2017-06-29 2022-03-01 Intel Corporation Techniques for dense video descriptions
CN107864334A (zh) * 2017-11-09 2018-03-30 睿魔智能科技(东莞)有限公司 一种使用深度学习的智能镜头拍摄方法及系统
CN108073902A (zh) * 2017-12-19 2018-05-25 深圳先进技术研究院 基于深度学习的视频总结方法、装置及终端设备
CN108288475A (zh) * 2018-02-12 2018-07-17 成都睿码科技有限责任公司 一种基于深度学习的体育视频集锦剪辑方法
CN108665769A (zh) * 2018-05-11 2018-10-16 深圳市鹰硕技术有限公司 基于卷积神经网络的网络教学方法以及装置
CN108900896A (zh) * 2018-05-29 2018-11-27 深圳天珑无线科技有限公司 视频剪辑方法及装置
CN109685144B (zh) * 2018-12-26 2021-02-12 上海众源网络有限公司 一种对视频模型做评估的方法、装置及电子设备
CN109685144A (zh) * 2018-12-26 2019-04-26 上海众源网络有限公司 一种对视频模型做评估的方法、装置及电子设备
CN111836118A (zh) * 2019-04-19 2020-10-27 百度在线网络技术(北京)有限公司 视频处理方法、装置、服务器及存储介质
CN110324728A (zh) * 2019-06-28 2019-10-11 浙江传媒学院 基于深度强化学习的体育赛事全场回顾短视频生成方法
CN110267119A (zh) * 2019-06-28 2019-09-20 北京奇艺世纪科技有限公司 视频精彩度的评价方法及相关设备
CN110324728B (zh) * 2019-06-28 2021-11-23 浙江传媒学院 基于深度强化学习的体育赛事全场回顾短视频生成方法
CN110347872A (zh) * 2019-07-04 2019-10-18 腾讯科技(深圳)有限公司 视频封面图像提取方法及装置、存储介质及电子设备
CN110347872B (zh) * 2019-07-04 2023-10-24 腾讯科技(深圳)有限公司 视频封面图像提取方法及装置、存储介质及电子设备
CN110505521A (zh) * 2019-08-28 2019-11-26 咪咕动漫有限公司 一种直播比赛互动方法、电子设备、存储介质及系统
CN110505521B (zh) * 2019-08-28 2021-11-23 咪咕动漫有限公司 一种直播比赛互动方法、电子设备、存储介质及系统
CN115119044A (zh) * 2021-03-18 2022-09-27 阿里巴巴新加坡控股有限公司 视频处理方法、设备、系统及计算机存储介质
CN115119044B (zh) * 2021-03-18 2024-01-05 阿里巴巴新加坡控股有限公司 视频处理方法、设备、系统及计算机存储介质

Also Published As

Publication number Publication date
WO2016160304A1 (en) 2016-10-06
US10572735B2 (en) 2020-02-25
US20160292510A1 (en) 2016-10-06

Similar Documents

Publication Publication Date Title
CN106028134A (zh) 针对移动计算设备检测体育视频精彩部分
US11556743B2 (en) Learning highlights using event detection
CN110472531B (zh) 视频处理方法、装置、电子设备及存储介质
US10140575B2 (en) Sports formation retrieval
WO2021203863A1 (zh) 基于人工智能的物体检测方法、装置、设备及存储介质
CN103988232B (zh) 使用运动流形来改进图像匹配
CN106164959B (zh) 行为事件测量系统和相关方法
Merler et al. Automatic curation of sports highlights using multimodal excitement features
CN109376603A (zh) 一种视频识别方法、装置、计算机设备及存储介质
US10963700B2 (en) Character recognition
CN113574866A (zh) 校准捕捉广播视频的移动相机的系统及方法
CN113395578B (zh) 一种提取视频主题文本的方法、装置、设备及存储介质
Jiang et al. Online robust action recognition based on a hierarchical model
CN110619284B (zh) 一种视频场景划分方法、装置、设备及介质
CN113766330A (zh) 基于视频生成推荐信息的方法和装置
CN111209897A (zh) 视频处理的方法、装置和存储介质
CN111382605B (zh) 视频内容审核方法、装置、存储介质和计算机设备
CN112101329A (zh) 一种基于视频的文本识别方法、模型训练的方法及装置
Meng et al. A video information driven football recommendation system
CN111582342A (zh) 一种图像识别方法、装置、设备以及可读存储介质
CN113033458A (zh) 动作识别方法和装置
Tabish et al. Activity recognition framework in sports videos
CN103227810B (zh) 一种在网络监控中识别远程桌面语义的方法、装置和系统
Yi et al. Human action recognition with salient trajectories and multiple kernel learning
CN116324668A (zh) 从非职业跟踪数据预测nba天赋和质量

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20180824

Address after: No. 206-2, 2 floor, 23 building, No. 8, northeast Wang West Road, Haidian District, Beijing.

Applicant after: BEIJING SHUNYUAN KAIHUA TECHNOLOGY CO., LTD.

Address before: California

Applicant before: ZEPP LABS, INC.

TA01 Transfer of patent application right
RJ01 Rejection of invention patent application after publication

Application publication date: 20161012

RJ01 Rejection of invention patent application after publication