CN107454437B

CN107454437B - 一种视频标注方法及其装置、服务器

Info

Publication number: CN107454437B
Application number: CN201610379275.XA
Authority: CN
Inventors: 宁晓然; 宋易霖; 薛远翊; 李晨鸽
Original assignee: Shenzhen Miaosi Chuangxiang Education Technology Co Ltd
Current assignee: JIANGSU ENERTECH ENERGY SERVICE Co.,Ltd.
Priority date: 2016-06-01
Filing date: 2016-06-01
Publication date: 2020-04-14
Anticipated expiration: 2036-06-01
Also published as: CN107454437A

Abstract

本发明涉及多媒体领域，尤其涉及一种视频标注方法及其装置、服务器。其中，该方法包括以下步骤：获取不同视频场景之间的视频变换标识；根据所述视频变换标识，对各个视频片段进行场景聚类；标注属于同一视频场景的视频片段。该方法解决了现有技术不能针对特定类型视频场景中的视频片段自动标注的技术问题，一方面，该方法使用户能够进一步了解视频中的具体情节、内容以及角色，另一方面，还提升了用户体验感。

Description

一种视频标注方法及其装置、服务器

技术领域

本发明涉及多媒体领域，尤其涉及一种视频标注方法及其装置、服务器。

背景技术

体育运动以其自身特殊的魅力吸引着男女老少的参与。随着通信技术的发展，每天或者每周都有大量的体育运动赛事进行直播或者转播。在转播过程中，有些用户喜欢观看特定球员在赛场上的特写，有些用户喜欢观看教练席在赛场上的特写。有时在观看赛事时，利用比赛休息时间或者闲余时间播放球场全景的作法，也会让用户感到赏心悦目。

发明人在实现本发明的过程中，发现现有技术至少存在以下问题：现有技术缺乏对特定赛事场景自动进行解释性的说明。

值得说明的是，本发明在背景技术提到体育领域，并不意味着对本发明的使用范围受限于体育领域构成不当的限定。

发明内容

为了克服上述技术问题，本发明目的旨在提供一种视频标注方法及其装置、服务器，其解决了现有技术不能针对特定类型视频场景中的视频片段自动标注的技术问题。

为解决上述技术问题，本发明实施例提供以下技术方案：

在第一方面，本发明实施例提供一种视频标注方法，其包括以下步骤：

获取不同视频场景之间的视频变换标识；

根据所述视频变换标识，对各个视频片段进行场景聚类；

标注属于同一视频场景的视频片段。

可选地，所述视频变换标识为视频变换时间点，则：所述获取不同视频场景之间的视频变换时间点，具体包括：

分割每一帧的视频；

判断当前的视频帧和处于缓存区的视频帧是否属于同一场景的视频片段；

如果属于不同场景的视频片段，则当前的视频帧置换处于缓存区的视频帧，并且存储不同视频场景变换的时间点；或者，

如果属于同一场景的视频片段，则维持处于缓存区的视频帧的当前状态。

可选地，所述判断当前的视频帧和处于缓存区的视频帧是否属于同一场景的视频片段，具体包括：

分别提取当前的视频帧的第一亮度直方图和处于缓存区的视频帧的第二亮度直方图；

根据所述第一亮度直方图和所述第二亮度直方图的相关性，判断所述相关性的阈值是否大于第一预设阈值；

如果所述相关性的阈值大于第一预设阈值，则当前的视频帧和处于缓存区的视频帧属于同一场景的视频片段；或者，

如果所述相关性的阈值小于第一预设阈值，则当前的视频帧和处于缓存区的视频帧属于不同场景的视频片段。

分别提取当前的视频帧的第一离散余弦变换分量和处于缓存区的视频帧的第二离散余弦变换分量；

根据所述第一离散余弦变换分量和所述第二离散余弦变换分量之间的关系，判断当前的视频帧和处于缓存区的视频帧是否属于同一场景的视频片段；

如果所述第二离散余弦变换分量是低频分量，并且所述第一离散余弦变换分量是高频分量，则当前的视频帧和处于缓存区的视频帧属于不同场景的视频片段；或者，

如果所述第二离散余弦变换分量是低频分量，并且所述第一离散余弦变换分量是低频分量，则当前的视频帧和处于缓存区的视频帧属于同一场景的视频片段；或者，

如果所述第二离散余弦变换分量是高频分量，并且所述第一离散余弦变换分量是低频分量，则当前的视频帧和处于缓存区的视频帧属于不同场景的视频片段；或者，

如果所述第二离散余弦变换分量是高频分量，并且所述第一离散余弦变换分量是高频分量，则当前的视频帧和处于缓存区的视频帧属于同一场景的视频片段。

分别提取当前的视频帧的第一运动矢量分布和处于缓存区的视频帧的第二运动矢量分布；

比较所述第一运动矢量分布和所述第二运动矢量分布；

根据比较结果，判断当前的视频帧和处于缓存区的视频帧是否属于同一场景的视频片段；

如果所述第一运动矢量分布和所述第二运动矢量分布不一样，则当前的视频帧和处于缓存区的视频帧属于不同场景的视频片段；或者，

如果所述第一运动矢量分布和所述第二运动矢量分布相同，则当前的视频帧和处于缓存区的视频帧属于同一场景的视频片段。

计算当前的视频帧和处于缓存区的视频帧之间的像素差值；

根据所述像素差值，判断当前的视频帧和处于缓存区的视频帧是否属于同一场景的视频片段；

如果所述像素差值大于第二预设阈值，则当前的视频帧和处于缓存区的视频帧属于不同场景的视频片段；或者，

如果所述像素差值小于第二预设阈值，则当前的视频帧和处于缓存区的视频帧属于同一场景的视频片段。

可选地，所述视频变换标识为视频变换时间点，则：所述根据所述视频变换时间点，对各个视频片段进行场景聚类，具体包括：

根据所述视频变换时间点，将输入的视频分割成若干个视频片段；

对所述若干个视频片段进行时域对正处理；

对所述若干个视频片段组成一个四维张量；其中，每个维度分别表示视频片段的高度、宽度、长度以及视频片段的编号；

对所述四维张量进行高阶奇异值分解处理，得到各个视频片段的特征矢量；

根据所述特征矢量，对所述各个视频片段进行稀疏子空间聚类处理，得到场景聚类后的同一视频场景。

可选地，所述同一视频场景包括球员特写场景，则：所述标注属于所述球员特写场景的视频片段，具体包括：

当球员面部特征能够被提取时，使用基于哈尔特征的级联检测器来进行人脸检测，检测出球员的面部；

根据检测出球员的面部，使用基于深度学习架构的卷积网络来匹配所述球员的姓名；

在所述球员特写场景的视频片段标注所述球员的基本信息；

或者，

当球员面部特征无法被提取时，使用光学字符识别系统检测球员的球衣编号；

根据检测出球员的球衣编号，使用基于深度学习架构的卷积网络来匹配所述球员的姓名；

在所述球员特写场景的视频片段标注所述球员的基本信息。

可选地，所述同一视频场景包括球场全景或球员追踪场景，则：所述标注属于所述球场全景或所述球员追踪场景的视频片段，具体包括：

使用梯度追踪器追踪所述球员；

存储所述球员的运动轨迹；

标注所述球员的运动轨迹。

可选地，所述标注属于所述同一视频场景的视频片段，还包括：

基于局部二值模式的特征提取器检测统计框内的信息；

提取所述统计框内的信息；

使用光学字符识别系统识别所述统计框内的信息；

在播放视频片段的显示屏幕的快进提示条上标注所述统计框内的信息。

可选地，所述标注属于所述同一视频场景的视频片段之后，还包括：

根据一个已知的视频片段，在播放视频中匹配出与所述已知的视频片段相似的视频片段。

在第二方面，本发明实施例提供一种视频标注装置，其包括：

获取模块，用于获取不同视频场景之间的视频变换标识；

场景聚类模块，用于根据所述视频变换标识，对各个视频片段进行场景聚类；

标注模块，用于标注属于所述同一视频场景的视频片段。

可选地，所述获取模块包括：

第一分割单元，用于分割每一帧的视频；其中，所述视频变换标识为视频变换时间点；

判断单元，用于判断当前的视频帧和处于缓存区的视频帧是否属于同一场景的视频片段；

可选地，所述判断单元包括：

第一提取子单元，用于分别提取当前的视频帧的第一亮度直方图和处于缓存区的视频帧的第二亮度直方图；

第一判断子单元，用于根据所述第一亮度直方图和所述第二亮度直方图的相关性，判断所述相关性的阈值是否大于第一预设阈值；

可选地，所述判断单元包括：

第二提取子单元，用于分别提取当前的视频帧的第一离散余弦变换分量和处于缓存区的视频帧的第二离散余弦变换分量；

第二判断子单元，用于根据所述第一离散余弦变换分量和所述第二离散余弦变换分量之间的关系，判断当前的视频帧和处于缓存区的视频帧是否属于同一场景的视频片段；

可选地，所述判断单元包括：

第三提取子单元，用于分别提取当前的视频帧的第一运动矢量分布和处于缓存区的视频帧的第二运动矢量分布；

比较子单元，用于比较所述第一运动矢量分布和所述第二运动矢量分布；

第三判断子单元，用于根据比较结果，判断当前的视频帧和处于缓存区的视频帧是否属于同一场景的视频片段；

可选地，所述判断单元包括：

计算子单元，用于计算当前的视频帧和处于缓存区的视频帧之间的像素差值；

第四判断子单元，用于根据所述像素差值，判断当前的视频帧和处于缓存区的视频帧是否属于同一场景的视频片段；

可选地，所述场景聚类模块包括：

第二分割单元，用于根据所述视频变换时间点，将输入的视频分割成若干个视频片段；其中，所述视频变换标识为视频变换时间点；

时域对正单元，用于对所述若干个视频片段进行时域对正处理；

组成单元，用于对所述若干个视频片段组成一个四维张量；其中，每个维度分别表示视频片段的高度、宽度、长度以及视频片段的编号；

高阶奇异值分解单元，用于对所述四维张量进行高阶奇异值分解处理，得到各个视频片段的特征矢量；

稀疏子空间聚类单元，用于根据所述特征矢量，对所述各个视频片段进行稀疏子空间聚类处理，得到场景聚类后的同一视频场景。

可选地，所述同一视频场景包括球员特写场景，则：所述标注模块包括：

第一检测单元，用于当球员面部特征能够被提取时，使用基于哈尔特征的级联检测器来进行人脸检测，检测出球员的面部；

第一匹配单元，用于根据检测出球员的面部，使用基于深度学习架构的卷积网络来匹配所述球员的姓名；

第一标注单元，用于在所述球员特写场景的视频片段标注所述球员的基本信息；

或者，

第二检测单元，用于当球员面部特征无法被提取时，使用光学字符识别系统检测球员的球衣编号；

第二匹配单元，用于根据检测出球员的球衣编号，使用基于深度学习架构的卷积网络来匹配所述球员的姓名；

第二标注单元，用于在所述球员特写场景的视频片段标注所述球员的基本信息。

可选地，所述同一视频场景包括球场全景或球员追踪场景，则：所述标注模块包括：

追踪单元，用于使用梯度追踪器追踪所述球员；

存储单元，用于存储所述球员的运动轨迹；

第三标注单元，用于标注所述球员的运动轨迹。

可选地，所述标注模块包括：

第三检测单元，用于基于局部二值模式的特征提取器检测统计框内的信息；

第四提取单元，用于提取所述统计框内的信息；

识别单元，用于使用光学字符识别系统识别所述统计框内的信息；

第四标注单元，用于在播放视频片段的显示屏幕的快进提示条上标注所述统计框内的信息。

可选地，所述装置还包括第三匹配单元，用于根据一个已知的视频片段，在播放视频中匹配出与所述已知的视频片段相似的视频片段。

在第三方面，本发明实施例提供一种服务器，其包括：

通讯单元，用于和智能终端通讯；

处理器，获取不同视频场景之间的视频变换标识，根据所述视频变换标识，对各个视频片段进行场景聚类，标注属于所述同一视频场景的视频片段。

在本发明实施例中，通过获取不同视频场景之间的视频变换标识，根据所述视频变换标识，对各个视频片段进行场景聚类，标注属于所述同一视频场景的视频片段，解决了现有技术不能针对特定类型视频场景中的视频片段自动标注的技术问题，一方面，该方法使用户能够进一步了解视频中的具体情节、内容以及角色，另一方面，还提升了用户体验感。

附图说明

图1是本发明实施例提供的一种视频标注方法的实现场景示意图；

图2是本发明实施例提供的一种视频标注方法的流程示意图；

图3是本发明实施例提供的获取不同视频场景之间的视频变换时间点的流程示意图；

图3a为本发明实施例提供分割后得到的第一视频场景的第一视频片段；

图3b为本发明实施例提供分割后得到的第二视频场景的第二视频片段；

图3c为本发明实施例提供分割后得到的第三视频场景的第三视频片段；

图4a为本发明实施例提供的判断当前的视频帧和处于缓存区的视频帧是否属于同一场景的视频片段的第一种方式的流程示意图；

图4b为本发明实施例提供的判断当前的视频帧和处于缓存区的视频帧是否属于同一场景的视频片段的第二种方式的流程示意图；

图4c为本发明实施例提供的判断当前的视频帧和处于缓存区的视频帧是否属于同一场景的视频片段的第三种方式的流程示意图；

图4d为本发明实施例提供的判断当前的视频帧和处于缓存区的视频帧是否属于同一场景的视频片段的第四种方式的流程示意图

图5为本发明实施例提供的根据所述视频变换时间点，对各个视频片段进行场景聚类的流程示意图；

图5a为本发明实施例提供的球场全景示意图；

图5b为本发明实施例提供的球员特写示意图；

图6a是本发明实施例提供的同一视频场景为球员特写场景时，标注属于所述球员特写场景的视频片段的流程示意图；

图6b是本发明实施例提供的同一视频场景为球员特写场景时，另一中标注属于所述球员特写场景的视频片段的流程示意图；

图6c是本发明实施例提供的同一视频场景为球场全景或球员追踪场景时，标注属于所述球场全景或所述球员追踪场景的视频片段的流程示意图；

图6d是本发明实施例提供的标注比赛统计分数的流程示意图；

图7为本发明实施例提供的一种视频标注装置的结构示意图；

图7a为本发明实施例提供的获取模块的结构示意图；

图7b为本发明实施例提供的判断单元的结构示意图；

图7c为本发明实施例提供的场景聚类模块的结构示意图；

图7d为本发明实施例提供的标注模块的结构示意图；

图8是本发明实施例提供的一种服务器的结构示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

本实施例的视频标注方法可以应用多个领域。比如，该方法可以应用于体育领域的比赛赛事播放视频中。该领域的普通技术人员对该方法稍微修改或者等效替换某个步骤，还可以将该方法应用于娱乐领域的综艺节目播放视频中。或者根据实施主体的不同，该方法还可以应用于纪录片播放视频中。不过在本实施例中，本实施例以该方法运用于体育领域来介绍该方法的具体实施方式。进一步的，本实施例提供的方法围绕体育领域中的球类赛事进行介绍，其中，此处的球类赛事包括棒球、足球、篮球、乒乓球、排球以及其它球类赛事。

请参考图1，图1是本发明实施例提供的一种视频标注方法的实现场景示意图。如图1所示，该实现场景包括服务器11和智能终端12。服务器11将处理后的视频流通过网络传输给智能终端12，并且在智能终端12播放标注的各个视频片段或者视频。此处，智能终端12可以是PDA、台式电脑、平板电脑、MP4、智能手机，电纸书等便携式移动电子设备。此处服务器可以是本地服务器，也可以是云端服务器。服务器11的数量可以是单个，也可以是多个，运营商或者其它使用主体根据实际需要来自行设定。此处，各个服务器之间可以通过无线网络，也可以通过有线网络而进行通讯。在智能终端12和服务器11之间，服务器11通过有线网络或者无线网络和智能终端12通讯。用户在智能终端12点播视频，可以观看已经标注好并且聚类好的各个视频片段，其中标注的信息是与视频片段里面的内容有关联的。比如说，该视频片段是篮球球员A的防守场景，在智能终端侧，用户可以看到球员A所有已经标注好的防守场景，并且标注的信息是关于该球员A在本赛季的进攻、盖帽以及防守的指数，当然，此处还可以是其它关于球员A的一些赛事信息。采用标注某一类场景的视频片段的方法，有助于提高用户观看视频的兴致，从而提升用户的体验感。

请参考图2，图2是本发明实施例提供的一种视频标注方法的流程示意图。如图2所示，该方法包括以下步骤：

S21、获取不同视频场景之间的视频变换标识；

在本步骤S21中，此处的视频场景包括球场全景、球员特写、观众席扫播、教练席特写以及其它场景。更进一步的，在上述各个视频场景中，还可以分为其它子视频场景，比如说，球员特写包括球员防守场景、球员进攻场景、球员击球场景等等。本技术领域的技术人员应当认为：在此未述及的视频场景，如果与本实施例提供的各个视频场景的构思相似或者等同，应当落入本发明保护的范围之内。

在本步骤S21中，服务器可以访问资源服务器来获取播放视频资源，也可以通过资源服务器主动传输播放视频资源方式来获取，也可以通过用户自行添加视频资源方式来实现获取视频资源播放的目的。获取播放视频资源后，服务器对该播放视频资源进行分割，根据预设的算法模型，来获取不同视频场景。

在本步骤S21中，视频变换标识是用于判断视频场景切换的标识。比如说，在篮球中，该视频变换标识是某个球员投篮场景和盖帽场景之间的视频场景切换标识。视频变换标识具有多种多样的表现形式，在本实施例中，视频变换标识是不同视频场景之间的视频变换时间点。

请参考图3，图3是本发明实施例提供的获取不同视频场景之间的视频变换时间点的流程示意图。如图3所示，该流程包括：

S31、分割每一帧的视频；

在本步骤S31中，分割每一帧视频作用于每一个输入视频流。请一并参考图3a至图3c，图3a为本发明实施例提供分割后得到的第一视频场景的第一视频片段，图3b为本发明实施例提供分割后得到的第二视频场景的第二视频片段，图3c为本发明实施例提供分割后得到的第三视频场景的第三视频片段。进一步的，从图3a至图3c得知，分割后的每一帧视频所处的视频场景是不一样的。图3a所示的视频场景为双方击球和投球的比赛场景，图3b所示的视频场景为一方的球员的比赛场景，图3c所示的视频场景为观众席场景。

本实施例对输入的视频流进行解析，根据预设的算法模型，分割每一帧视频。

S32、判断当前的视频帧和处于缓存区的视频帧是否属于同一场景的视频片段。

在本步骤S32中，当前的视频帧为待解析并且与前一帧视频进行区分的视频帧，缓存区为系统开辟一存储区用于存储与后一帧视频进行判断的视频帧。此处的每一帧视频都经过了分割而来。

在本实施例中，如果属于不同场景的视频片段，则当前的视频帧置换处于缓存区的视频帧，并且存储不同视频场景变换的时间点；或者，如果属于同一场景的视频片段，则维持处于缓存区的视频帧的当前状态。

请结合图3a和图3b，假设当前的视频帧是图3a，处于缓存区的视频帧是图3b，由于图3a和图3b属于不同视频场景的视频帧，则图3a的视频帧将在缓存区置换图3b的视频帧。如果图3a是图3b视频帧中的该球员在不同时间段的比赛姿势，则维持处于缓存区的视频帧的当前状态。

在本步骤S32中，判断当前的视频帧和处于缓存区的视频帧是否属于同一场景的视频片段的方式是多种多样。其中，本实施例提供了四种用于判断当前的视频帧和处于缓存区的视频帧是否属于同一场景的视频片段的方式。本领域技术人员应当明白：根据各个视频帧来判断各个视频片段是否属于同一视频场景的方式多种多样，可以在本实施例下述四种方式的基础上自由组合或者稍微修改或者等效替换，都可以实现本发明所提供四种判断同一场景的视频片段的目的。因此，任何人借用本发明构思所做的修改都应当落入本发明的保护范围内。

请参考图4a，图4a为本发明实施例提供的判断当前的视频帧和处于缓存区的视频帧是否属于同一场景的视频片段的第一种方式的流程示意图。如图4a所示，该流程包括：

S4a1、分别提取当前的视频帧的第一亮度直方图和处于缓存区的视频帧的第二亮度直方图；

在本步骤S4a1中，采用直方图图像处理算法来提取每一帧视频的亮度直方图。

S4a2、根据所述第一亮度直方图和所述第二亮度直方图的相关性，判断所述相关性的阈值是否大于第一预设阈值。

在本步骤S4a2中，在此定义阈值范围(-1至1)之间，-1代表当前的视频帧和处于缓存区的视频帧是完全属于不同场景的视频片段，1代表当前的视频帧和处于缓存区的视频帧是完全属于同一场景的视频片段。处于-1至1之间以相似的概念来划分当前的视频帧和处于缓存区的视频帧是否属于同一场景的视频片段。此处，第一预设阈值是0.7。如果所述相关性的阈值大于第一预设阈值0.7并且小于1时，则当前的视频帧和处于缓存区的视频帧属于同一场景的视频片段；如果所述相关性的阈值小于第一预设阈值0.7并且大于-1时，则当前的视频帧和处于缓存区的视频帧属于不同场景的视频片段。

请参考图4b，图4b为本发明实施例提供的判断当前的视频帧和处于缓存区的视频帧是否属于同一场景的视频片段的第二种方式的流程示意图。如图4b所示，该流程包括：

S4b1、分别提取当前的视频帧的第一离散余弦变换分量和处于缓存区的视频帧的第二离散余弦变换分量；

在本步骤S4b1中，采用离散余弦变换图像处理算法(DCT)来提取每一帧视频的离散余弦变换分量。

S4b2、根据所述第一离散余弦变换分量和所述第二离散余弦变换分量之间的关系，判断当前的视频帧和处于缓存区的视频帧是否属于同一场景的视频片段。

在本步骤S4b2中，根据第一离散余弦变换分量和所述第二离散余弦变换分量之间的能量分布来决定当前的视频帧和处于缓存区的视频帧是否属于同一场景的视频片段。具体的，如果所述第二离散余弦变换分量是低频分量，并且所述第一离散余弦变换分量是高频分量，则当前的视频帧和处于缓存区的视频帧属于不同场景的视频片段；或者，如果所述第二离散余弦变换分量是低频分量，并且所述第一离散余弦变换分量是低频分量，则当前的视频帧和处于缓存区的视频帧属于同一场景的视频片段；或者，如果所述第二离散余弦变换分量是高频分量，并且所述第一离散余弦变换分量是低频分量，则当前的视频帧和处于缓存区的视频帧属于不同场景的视频片段；或者，如果所述第二离散余弦变换分量是高频分量，并且所述第一离散余弦变换分量是高频分量，则当前的视频帧和处于缓存区的视频帧属于同一场景的视频片段。

请参考图4c，图4c为本发明实施例提供的判断当前的视频帧和处于缓存区的视频帧是否属于同一场景的视频片段的第三种方式的流程示意图。如图4c所示，该流程包括：

S4c1、分别提取当前的视频帧的第一运动矢量分布和处于缓存区的视频帧的第二运动矢量分布；

在本步骤S4c1中，采用运动矢量图像处理算法提取当前的视频帧的第一运动矢量分布和处于缓存区的视频帧的第二运动矢量分布。运动矢量分布是通过对视频帧的图像块进行最小方差匹配得到的。

S4c2、比较所述第一运动矢量分布和所述第二运动矢量分布；

S4c3、根据比较结果，判断当前的视频帧和处于缓存区的视频帧是否属于同一场景的视频片段。

请结合步骤S4c2和S4c3，通过比较第一运动矢量分布的最小方差和第二运动矢量分布的最小方差，根据预设最小方差阈值，来判断判断当前的视频帧和处于缓存区的视频帧是否属于同一场景的视频片段。此处，假设预设最小方差阈值是0.5。如果所述第一运动矢量分布的最小方差相比较于所述第二运动矢量分布的最小方差偏离0.5时，则所述第一运动矢量分布和所述第二运动矢量分布不一样，进一步，当前的视频帧和处于缓存区的视频帧属于不同场景的视频片段；如果等于0.5时，则所述第一运动矢量分布和所述第二运动矢量分布相同，进一步，当前的视频帧和处于缓存区的视频帧属于同一场景的视频片段。

请参考图4d，图4d为本发明实施例提供的判断当前的视频帧和处于缓存区的视频帧是否属于同一场景的视频片段的第四种方式的流程示意图。如图4d所示，该流程包括：

S4d1、计算当前的视频帧和处于缓存区的视频帧之间的像素差值；

在本步骤S4d1中，采用帧差量算法来计算当前的视频帧和处于缓存区的视频帧之间的像素差值。

S4d2、根据所述像素差值，判断当前的视频帧和处于缓存区的视频帧是否属于同一场景的视频片段。

在本步骤S4d2中，第二预设阈值是0.5。如果所述像素差值大于第二预设阈值0.5，则当前的视频帧和处于缓存区的视频帧属于不同场景的视频片段；如果所述像素差值小于第二预设阈值0.5，则当前的视频帧和处于缓存区的视频帧属于同一场景的视频片段。

在本实施例上，以上四种方式在判断当前的视频帧和处于缓存区的视频帧是否属于同一场景的视频片段的过程中，可以并行执行，也可以组合执行。进一步的，仅当且第三种方式和第四种方式不能够明确判断出当前的视频帧和处于缓存区的视频帧是否属于同一场景的视频片段时，第一种方式和第二种方式才启动执行。其中，第一种方式和第二种方式比较适合检测淡入淡出等特效型的视频场景变换。

S22、根据所述视频变换标识，对各个视频片段进行场景聚类；

在本步骤S22中，此处的视频变换标识是不同视频场景之间的视频变换时间点。此处，服务器从内存中调用已存储的视频变换时间点，并且根据该视频变换时间点对各个视频片段进行场景聚类。此处的场景聚类是对各个视频片段按照场景类型进行归类。此处的归类是建立起属于同一视频场景中各个视频片段的关联特征。

请参考图5，图5为本发明实施例提供的根据所述视频变换时间点，对各个视频片段进行场景聚类的流程示意图。如图5所示，该流程包括：

S51、根据所述视频变换时间点，将输入的视频分割成若干个视频片段；

S52、对所述若干个视频片段进行时域对正处理；

在本步骤S52中，服务器对每个分割好的视频片段进行时域对正，将帧数长短不一的视频片段调整成同样帧数。具体的，根据帧数的长短，服务器通过随机数自由选定在视频片段中的某个位置，进行插值或者删除非必要帧。

S53、对所述若干个视频片段组成一个四维张量；

在本步骤S53中，每个维度分别表示视频片段的高度、宽度、长度以及视频片段的编号。

S54、对所述四维张量进行高阶奇异值分解处理，得到各个视频片段的特征矢量；

在本步骤S54中，采用Tucker分解(Tucker Decomposition)对所述四维张量进行处理，以得到每个视频片段的精简特征矢量。在处理过程中，这个四维张量每个维度的秩(rank)都被设置成能恢复原有90％信息的水平。Tucker分解的变换基被记录下来以便处理后续的所有视频片段。

S55、根据所述特征矢量，对所述各个视频片段进行稀疏子空间聚类处理，得到场景聚类后的同一视频场景。

在本步骤S55中，采用稀疏子空间聚类(Sparse Subspace Clustering)图像处理算法处理经过Tucker分解后的精简特征矢量，以得到每个视频片段的对应视频场景。稀疏子空间聚类将同一视频场景中的其它视频片段的特征矢量和某个特定视频片段的特征矢量进行关联，并且用线性表示，其中，表示的参数用于生成谱聚类的邻域矩阵。

请一并参考图5a和图5b，图5a为本发明实施例提供的球场全景示意图，图5b为本发明实施例提供的球员特写示意图。在图5a中，每一张视频图像都对应于球场全景视频场景，显然，该球场全景包括多张不同视角的球场视频图像。在图5b，每一张视频图像都对应于球员特写视频场景，显然，该球员特写包括多张不同视角的球员视频图像。

S23、标注属于同一视频场景的视频片段。

在本步骤S23中，同一视频场景包括球员特写场景、观众席扫播、教练席特写以及其它场景。更进一步的，在上述各个视频场景中，还可以分为其它子视频场景，比如说，球员特写包括球员防守场景、球员进攻场景、球员击球场景等等。服务器针对属于同一视频场景的视频片段进行标注，标注的信息是根据不同的视频片段内容来决定的。

请参考图3b。在图3b的右侧，服务器针对该视频场景下的视频片段进行了标注，如椭圆框3b1所圈住的标注信息，该标注信息包括当前视频场景中一垒球员和二垒球员的姓名。在图3b的左侧，如椭圆框3b2所圈住的标注信息，该标注信息包括当前比赛数据统计。

请参考图3a。在图3a的右侧，服务器针对该视频场景下的视频片段进行了标注，如椭圆框3a1所圈住的标注信息，该标注信息包括当前投手的姓名、该投手的赛季数据、当前击球手的姓名以及该击球手的赛季数据。在图3a的左侧，如椭圆框3a2所圈住的标注信息，该标注信息包括当前比赛数据统计。

因此，通过标注属于同一视频场景的视频片段，其解决了现有技术不能针对特定类型视频场景中的视频片段自动标注的技术问题，一方面，该方法使用户能够进一步了解视频中的具体情节、内容以及角色，另一方面，还提升了用户体验感。

请参考图6a，图6a是本发明实施例提供的同一视频场景为球员特写场景时，标注属于所述球员特写场景的视频片段的流程示意图。如图6a所示，该流程包括：

S6a1、当球员面部特征能够被提取时，使用基于哈尔特征的级联检测器来进行人脸检测，检测出球员的面部；

S6a2、根据检测出球员的面部，使用基于深度学习架构的卷积网络来匹配所述球员的姓名；

S6a3、在所述球员特写场景的视频片段标注所述球员的基本信息。

采用该方法，其能够精确将标注信息匹配到对应的球员。

请参考图6b，图6b是本发明实施例提供的同一视频场景为球员特写场景时，另一中标注属于所述球员特写场景的视频片段的流程示意图。如图6b所示，该流程包括：

S6b1、当球员面部特征无法被提取时，使用光学字符识别系统检测球员的球衣编号；

S6b2、根据检测出球员的球衣编号，使用基于深度学习架构的卷积网络来匹配所述球员的姓名；

S6b3、在所述球员特写场景的视频片段标注所述球员的基本信息。

采用该方法，即时在球员面部特征无法被提取时而进行对应标注，其还可以另外通过识别该球员其它附属特征进行辅助识别，从而提高了本系统的可靠性。

请参考图6c，图6c是本发明实施例提供的同一视频场景为球场全景或球员追踪场景时，标注属于所述球场全景或所述球员追踪场景的视频片段的流程示意图。如图6c所示，该流程包括：

S6c1、使用梯度追踪器追踪所述球员；

S6c2、存储所述球员的运动轨迹；

S6c3、标注所述球员的运动轨迹。

对应球场全景或球员追踪场景，服务器使用基于哈儿特征的球员检测器检测球员。对于每个检测出的球员，服务器将使用梯度追踪器(KLT追踪器)追踪球员。每个球员的运动轨迹将被记录并输出。这些轨迹将可以用于提供给球类运动的专业人员做战术设计和分析。

请参考图6d，图6d是本发明实施例提供的标注比赛统计分数的流程示意图。如图6d所示，该流程包括：

S6d1、基于局部二值模式的特征提取器检测统计框内的信息；

在本步骤S6d1中，采用局部二值模式(localbinarypattern)的特征提取器检测统计框内的信息。

S6d2、提取所述统计框内的信息；

S6d3、使用光学字符识别系统识别所述统计框内的信息；

S6d4、在播放视频片段的显示屏幕的快进提示条上标注所述统计框内的信息。

此处，在有统计框的转播视频，该方法还可以在提取该统计框内的信息，经过光学字符识别系统(OCR系统)识别，并且将该信息提供给球类运动的快进提示条，并且给予显示。采用该方法，极大增进用户在观看视频的同时对比赛内容的背景以及当前赛事情况的了解，从而提升用户体验感。

本实施例提供的方法还包括步骤：根据一个已知的视频片段，在播放视频中匹配出与所述已知的视频片段相似的视频片段。比如，用户在智能终端上存储某位著名球员的精彩十佳球剪辑视频，服务器通过分割、识别以及场景聚类处理该十佳球剪辑视频，得到一个已知视频场景的视频片段。如果此时用户正在观看该球员相关的比赛项目，服务器会自动根据该已知视频场景的视频片段，在该比赛项目中匹配出该球员的相关视频片段。因此，采用该方法，能够极大增强用户在观看视频时的兴致。

在本实施例中，所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

请参考图7，图7为本发明实施例提供的一种视频标注装置的结构示意图。如图7所示，该装置包括：

获取模块71，用于获取不同视频场景之间的视频变换标识；

场景聚类模块72，用于根据所述视频变换标识，对各个视频片段进行场景聚类；

标注模块73，用于标注属于同一视频场景的视频片段。

请参考图7a，图7a为本发明实施例提供的获取模块的结构示意图。如图7a所示，所述获取模块71包括：

第一分割单元711，用于分割每一帧的视频；其中，所述视频变换标识为视频变换时间点；

判断单元712，用于判断当前的视频帧和处于缓存区的视频帧是否属于同一场景的视频片段；

请参考图7b，图7b为本发明实施例提供的判断单元的结构示意图。如图7b所示，所述判断单元712包括：

第一提取子单元7121，用于分别提取当前的视频帧的第一亮度直方图和处于缓存区的视频帧的第二亮度直方图；

第一判断子单元7122，用于根据所述第一亮度直方图和所述第二亮度直方图的相关性，判断所述相关性的阈值是否大于第一预设阈值；

如图7b所示，所述判断单元712包括：

第二提取子单元7123，用于分别提取当前的视频帧的第一离散余弦变换分量和处于缓存区的视频帧的第二离散余弦变换分量；

第二判断子单元7124，用于根据所述第一离散余弦变换分量和所述第二离散余弦变换分量之间的关系，判断当前的视频帧和处于缓存区的视频帧是否属于同一场景的视频片段；

如果所述第二离散余弦变换分量是高频分量，并且所述第一离散余弦变换分量是低频分量，则当前的视频帧和处于缓存区的视频帧属于不同场景的视频片段；或者，如果所述第二离散余弦变换分量是高频分量，并且所述第一离散余弦变换分量是高频分量，则当前的视频帧和处于缓存区的视频帧属于同一场景的视频片段。

如图7b所示，所述判断单元712包括：

第三提取子单元7125，用于分别提取当前的视频帧的第一运动矢量分布和处于缓存区的视频帧的第二运动矢量分布；

比较子单元7126，用于比较所述第一运动矢量分布和所述第二运动矢量分布；

第三判断子单元7127，用于根据比较结果，判断当前的视频帧和处于缓存区的视频帧是否属于同一场景的视频片段；

如果所述第一运动矢量分布和所述第二运动矢量分布不一样，则当前的视频帧和处于缓存区的视频帧属于不同场景的视频片段；或者，如果所述第一运动矢量分布和所述第二运动矢量分布相同，则当前的视频帧和处于缓存区的视频帧属于同一场景的视频片段。

如图7b所示，所述判断单元712包括：

计算子单元7128，用于计算当前的视频帧和处于缓存区的视频帧之间的像素差值；

第四判断子单元7129，用于根据所述像素差值，判断当前的视频帧和处于缓存区的视频帧是否属于同一场景的视频片段；

如果所述像素差值大于第二预设阈值，则当前的视频帧和处于缓存区的视频帧属于不同场景的视频片段；或者，如果所述像素差值小于第二预设阈值，则当前的视频帧和处于缓存区的视频帧属于同一场景的视频片段。

请参考图7c，图7c为本发明实施例提供的场景聚类模块的结构示意图。如图7c所示，所述场景聚类模块72包括：

第二分割单元721，用于根据所述视频变换时间点，将输入的视频分割成若干个视频片段；其中，所述视频变换标识为视频变换时间点；

时域对正单元722，用于对所述若干个视频片段进行时域对正处理；

组成单元723，用于对所述若干个视频片段组成一个四维张量；其中，每个维度分别表示视频片段的高度、宽度、长度以及视频片段的编号；

高阶奇异值分解单元724，用于对所述四维张量进行高阶奇异值分解处理，得到各个视频片段的特征矢量；

稀疏子空间聚类单元725，用于根据所述特征矢量，对所述各个视频片段进行稀疏子空间聚类处理，得到场景聚类后的同一视频场景。

请参考图7d，图7d为本发明实施例提供的标注模块的结构示意图。如图7d所示，所述标注模块73包括：

第一检测单元731，用于当球员面部特征能够被提取时，使用基于哈尔特征的级联检测器来进行人脸检测，检测出球员的面部；

第一匹配单元732，用于根据检测出球员的面部，使用基于深度学习架构的卷积网络来匹配所述球员的姓名；

第一标注单元733，用于在所述球员特写场景的视频片段标注所述球员的基本信息；

或者，第二检测单元734，用于当球员面部特征无法被提取时，使用光学字符识别系统检测球员的球衣编号；

第二匹配单元735，用于根据检测出球员的球衣编号，使用基于深度学习架构的卷积网络来匹配所述球员的姓名；

第二标注单元736，用于在所述球员特写场景的视频片段标注所述球员的基本信息。

如图7d所示，所述同一视频场景包括球场全景或球员追踪场景，则：所述标注模块73包括：

追踪单元737，用于使用梯度追踪器追踪所述球员；

存储单元738，用于存储所述球员的运动轨迹；

第三标注单元739，用于标注所述球员的运动轨迹。

如图7d所示，所述标注模块73包括：

第三检测单元740，用于基于局部二值模式的特征提取器检测统计框内的信息；

第四提取单元741，用于提取所述统计框内的信息；

识别单元742，用于使用光学字符识别系统识别所述统计框内的信息；

第四标注单元743，用于在播放视频片段的显示屏幕的快进提示条上标注所述统计框内的信息。

如图7d所示，所述装置还包括第三匹配单元745，用于根据一个已知的视频片段，在播放视频中匹配出与所述已知的视频片段相似的视频片段。

请参考图8，图8是本发明实施例提供的一种服务器的结构示意图。如图8所示，该服务器包括：

通讯单元81，用于和智能终端通讯；

处理器82，获取不同视频场景之间的视频变换标识，根据所述视频变换标识，对各个视频片段进行场景聚类，标注属于同一视频场景的视频片段。

处理器82为服务器的控制中心，利用各种接口和线路连接整个电子设备的各个部分，通过运行或执行存储在存储单元内的软件程序和/或模块，以及调用存储在存储羊元内的数据，以执行电子设备的各种功能和/或处理数据。所述处理器可以由集成电路组成，也可以由连接多颗相同功能或不同功能的封表集成芯片而组成。即处理器可以是GPU、数字信号处理器、及通信单元中的控制芯片的组合。

专业人员应该还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。所述的计算机软件可存储于计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体或随机存储记忆体等。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种视频标注方法，其特征在于，包括以下步骤：

获取不同视频场景之间的视频变换标识；

根据所述视频变换标识，对各个视频片段进行场景聚类；

所述视频变换标识为视频变换时间点，则：所述根据所述视频变换时间点，对各个视频片段进行场景聚类，具体包括：

对所述若干个视频片段进行时域对正处理；

对所述若干个视频片段组成一个四维张量；其中，四个维度分别表示视频片段的高度、宽度、长度以及视频片段的编号；

根据所述特征矢量，对所述各个视频片段进行稀疏子空间聚类处理，得到场景聚类后的同一视频场景；

标注属于同一视频场景的视频片段。

2.根据权利要求1所述的方法，其特征在于，所述视频变换标识为视频变换时间点，则：所述获取不同视频场景之间的视频变换时间点，具体包括：

分割每一帧的视频；

3.根据权利要求2所述的方法，其特征在于，所述判断当前的视频帧和处于缓存区的视频帧是否属于同一场景的视频片段，具体包括：

4.根据权利要求2所述的方法，其特征在于，所述判断当前的视频帧和处于缓存区的视频帧是否属于同一场景的视频片段，具体包括：

5.根据权利要求2所述的方法，其特征在于，所述判断当前的视频帧和处于缓存区的视频帧是否属于同一场景的视频片段，具体包括：

比较所述第一运动矢量分布和所述第二运动矢量分布；

6.根据权利要求2所述的方法，其特征在于，所述判断当前的视频帧和处于缓存区的视频帧是否属于同一场景的视频片段，具体包括：

计算当前的视频帧和处于缓存区的视频帧之间的像素差值；

7.根据权利要求1所述的方法，其特征在于，所述同一视频场景包括球员特写场景，则：所述标注属于所述球员特写场景的视频片段，具体包括：

在所述球员特写场景的视频片段标注所述球员的基本信息；

或者，

在所述球员特写场景的视频片段标注所述球员的基本信息。

8.根据权利要求1所述的方法，其特征在于，所述同一视频场景包括球场全景或球员追踪场景，则：所述标注属于所述球场全景或所述球员追踪场景的视频片段，具体包括：

使用梯度追踪器追踪所述球员；

存储所述球员的运动轨迹；

标注所述球员的运动轨迹。

9.根据权利要求1所述的方法，其特征在于，所述标注属于所述同一视频场景的视频片段，还包括：

基于局部二值模式的特征提取器检测统计框内的信息；

提取所述统计框内的信息；

使用光学字符识别系统识别所述统计框内的信息；

10.根据权利要求1所述的方法，其特征在于，所述标注属于所述同一视频场景的视频片段之后，还包括：

11.一种视频标注装置，其特征在于，包括：

获取模块，用于获取不同视频场景之间的视频变换标识；

所述场景聚类模块包括：

组成单元，用于对所述若干个视频片段组成一个四维张量；其中，四个维度分别表示视频片段的高度、宽度、长度以及视频片段的编号；

稀疏子空间聚类单元，用于根据所述特征矢量，对所述各个视频片段进行稀疏子空间聚类处理，得到场景聚类后的同一视频场景；

标注模块，用于标注属于同一视频场景的视频片段。

12.根据权利要求11所述的装置，其特征在于，所述获取模块包括：

13.根据权利要求12所述的装置，其特征在于，所述判断单元包括：

14.根据权利要求12所述的装置，其特征在于，所述判断单元包括：

15.根据权利要求12所述的装置，其特征在于，所述判断单元包括：

16.根据权利要求12所述的装置，其特征在于，所述判断单元包括：

17.根据权利要求11所述的装置，其特征在于，所述同一视频场景包括球员特写场景，则：所述标注模块包括：

或者，

18.根据权利要求11所述的装置，其特征在于，所述同一视频场景包括球场全景或球员追踪场景，则：所述标注模块包括：

追踪单元，用于使用梯度追踪器追踪所述球员；

存储单元，用于存储所述球员的运动轨迹；

第三标注单元，用于标注所述球员的运动轨迹。

19.根据权利要求11所述的装置，其特征在于，所述标注模块包括：

第四提取单元，用于提取所述统计框内的信息；

20.根据权利要求11所述的装置，其特征在于，所述装置还包括第三匹配单元，用于根据一个已知的视频片段，在播放视频中匹配出与所述已知的视频片段相似的视频片段。

21.一种服务器，其特征在于，包括：

通讯单元，用于和智能终端通讯；

处理器，获取不同视频场景之间的视频变换标识，根据所述视频变换标识，对各个视频片段进行场景聚类，所述视频变换标识为视频变换时间点，则：所述根据所述视频变换时间点，对各个视频片段进行场景聚类，具体包括：

对所述若干个视频片段进行时域对正处理；

标注属于同一视频场景的视频片段。