CN107330392A

CN107330392A - 视频场景标注装置与方法

Info

Publication number: CN107330392A
Application number: CN201710494911.8A
Authority: CN
Inventors: 马兆远; 郝欣童; 龙诺明
Original assignee: Sima Great (beijing) Intelligent Systems Ltd
Current assignee: Sima Great (beijing) Intelligent Systems Ltd
Priority date: 2017-06-26
Filing date: 2017-06-26
Publication date: 2017-11-07

Abstract

本发明提供了一种视频场景标注装置与方法，涉及影视传媒领域。该视频场景标注装置与方法，可以利用计算机对单一场景的视频片段进行采样从而获得多个单帧图像；再利用卷积神经网络算法提取每个单帧图像的图像特征向量；依据循环神经网络算法、预存储的多个携带有视频标签的视频片段以及每个单帧图像的图像特征向量对所述视频片段标注标签，从而无需人工介入，即可自动完成视频场景进行标注，节省了时间成本与人力成本，并且用户操作体验感高。

Description

视频场景标注装置与方法

技术领域

本发明涉及影视传媒领域，具体而言，涉及一种视频场景标注装置与方法。

背景技术

随着社会科技的进步，互联网多媒体开始迅速发展，影视传媒等资料从过去的以胶片作为储存和传播的主体，最近十几年内迅速转变成数字媒体形式。在自媒体的迅速发展后，视频媒体数据更是以指数级的速度增长。鉴于数据量增长速度太快，为了能够充分利用到现有数据以及正在不断产生的数据，必须对这些数据进行归类标记。有了初步的分类，人们就能够在此基础上的进行资源的开发，结合当前大数据的技术进步，令这些视频媒体数据产生更多价值，而对视频媒体的结构化分析储存，就是数据智能化的前提。

在早期，对媒体视频进行标注是由用户上传时手动输入。例如，用户在某网站上传个人视频媒体资料时，该网站会要求用户填写上传视频的相应信息——视频名称、上传作者、视频标签、封面图等等，从而对整个视频的场景标签进行标记。这种对场景视频进行标注的方式十分繁琐，耗时长、人力成本高，并且操作体验感差。

发明内容

有鉴于此，本发明实施例的目的在于提供一种视频场景标注装置与方法。

第一方面，本发明实施例提供了一种视频场景标注装置，所述视频场景标注装置包括：

采样单元，用于对单一场景的视频片段进行采样从而获得多个单帧图像；

特征提取单元，用于利用卷积神经网络算法提取每个单帧图像的图像特征向量；

视频片段标注单元，用于依据循环神经网络算法、每个单帧图像的图像特征向量对所述视频片段标注标签。

第二方面，本发明实施例还提供了一种视频场景标注方法，所述视频场景标注方法包括：

对单一场景的视频片段进行采样从而获得多个单帧图像；

利用卷积神经网络算法提取每个单帧图像的图像特征向量；

依据循环神经网络算法、每个单帧图像的图像特征向量对所述视频片段标注标签。

与现有技术相比，本发明提供的视频场景标注装置与方法，可以利用计算机对单一场景的视频片段进行采样从而获得多个单帧图像；再利用卷积神经网络算法提取每个单帧图像的图像特征向量；依据循环神经网络算法、每个单帧图像的图像特征向量对所述视频片段标注标签，从而无需人工介入，即可自动完成视频场景进行标注，节省了时间成本与人力成本，并且用户操作体验感高。

为使本发明的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1为本发明实施例提供的服务器的结构框图；

图2为本发明实施例提供的视频场景标注装置功能单元示意图；

图3为本发明实施例提供的视频场景标注方法的流程图。

图标：100-服务器；200-视频场景标注装置；101-存储器；102-存储控制器；103-处理器；104-外设接口；201-视频分割单元；202-判断单元；203-采样单元；204-格式转换单元；205-特征提取单元；206-视频片段标注单元；207-结果输出单元。

具体实施方式

下面将结合本发明实施例中附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，是本发明实施例提供的视频场景标注装置200的功能模块示意图。安装有该视频场景标注装置200的服务器100包括存储器101、存储控制器102、处理器103、外设接口104。于本发明实施例中，该服务器100可以是，但不限于，网络服务器、数据库服务器，云端服务器等等。

所述存储器101、存储控制器102、处理器103、外设接口104各元件相互之间直接或间接地电性连接，以实现数据的传输或交互。例如，这些元件相互之间可通过一条或多条通讯总线或信号线实现电性连接。所述视频场景标注装置200包括至少一个可以软件或固件(firmware)的形式存储于所述存储器101中或固化在所述服务器100设备的操作系统(operating system，OS)中的软件功能模块。所述处理器103用于执行存储器101中存储的可执行模块，例如所述视频场景标注装置200包括的软件功能模块或计算机程序。

其中，存储器101可以是，但不限于，随机存取存储器(Random Access Memory，RAM)，只读存储器(Read Only Memory，ROM)，可编程只读存储器(Programmable Read-OnlyMemory，PROM)，可擦除只读存储器(Erasable Programmable Read-Only Memory，EPROM)，电可擦除只读存储器(Electric Erasable Programmable Read-Only Memory，EEPROM)等。其中，存储器101用于存储程序，所述处理器103在接收到执行指令后，执行所述程序，前述本发明实施例任一实施例揭示的流过程定义的服务器所执行的方法可以应用于处理器103中，或者由处理器103实现。

处理器103可能是一种集成电路芯片，具有信号的处理能力。上述的处理器103可以是通用处理器，包括中央处理器(Central Processing Unit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器103也可以是任何常规的处理器等。

所述外设接口104将各种输入/输入装置耦合至处理器103以及存储器101。在一些实施例中，外设接口104，处理器103以及存储控制器102可以在单个芯片中实现。在其他一些实例中，他们可以分别由独立的芯片实现。

以理解，图1所示的结构仅为示意，服务器200还可包括比图1中所示更多或者更少的组件，或者具有与图1所示不同的配置。图1中所示的各组件可以采用硬件、软件或其组合实现。

请参阅图2，本发明实施例提供了一种视频场景标注装置200，运行于本地服务器或云服务器。该视频场景标注装置200包括视频分割单元201、判断单元202、采样单元203、格式转换单元204、特征提取单元205、视频片段标注单元206以及结果输出单元207。

视频分割单元201用于将包含多个场景的视频分割成多个包含单一场景的视频片段，且每个单一场景的视频片段包含有播放时间点。

视频拍摄的场景在时间和空间上都具有连续性，经剪辑后的视频场景通常为多个场景，而未经剪辑的视频通常为单一场景。视频分割单元201依据视频包含的基础图像特征如颜色、纹理等，能够将视频内容生产者剪辑过的视频，重新分割成单个未经剪辑的片段，且每个视频片段为包含单一场景的视频片段。

判断单元202用于判断所述单一场景的视频片段的播放时长是否大于预设定的时间。

视频分割单元201还用于若所述单一场景的视频片段的播放时长大于预设定的时间时，则将所述单一场景的视频片段进行等播放时长分割。

本实施例中，预设定的时间为30s，当然地，预设定的时间也可以为20s、23s、25s等，只要低于30s均可。考虑到有些单一视频场景持续时间可能较长，统一计算代价太大，若单一场景的视频片段持续时间超过30s，将视频分割单元201对单一场景的视频片段自动分割为播放时长相等的两段。如果切分后的视频片段仍然超过30s，则继续切分，直至所有视频片段持续播放时长都不超过30s为止。

采样单元203用于对单一场景的视频片段进行采样从而获得多个单帧图像。

在由于中分割后的视频片段最长持续30s，如果按照视频帧率为25时，即每个视频片段最多750帧画面，并且考虑到视频连续变化，将从视频片段中等间距提取64帧图像作为整个视频片段的表示。通过对视频片段的采样达到了处于单个单一场景的视频片段时间短，效率高的效果，无需逐帧对视频图像进行处理，并且最后输出的结果准确度高。

格式转换单元204用于将采样得到的每个单帧图像进行格式转换，以使格式转换后的每个单帧图像的分辨率为360P或540P或720P。

将单帧图像转换为360P或540P或720P的图像后更容易被后续的特征提取单元205以及视频片段标准单元处理，其中，单帧图像的分辨率越低，计算速度越快，单帧图像的分辨率越高，精度越高。

特征提取单元205用于利用卷积神经网络算法提取每个单帧图像的图像特征向量。

具体地，卷积神经网络(Convolutional Neural Network，CNN)是一种前馈神经网络，它的人工神经元可以响应一部分覆盖范围内的周围单元，对于大型图像处理有出色表现。在本系统中，使用的卷积神经网络是在VGG结构的基础上改进而来。基本结构可以区分为卷基层和全连接层，其中卷基层又包括卷积、池化、非线性激活等结构，能够将图像中抽象出高层特征。其中，卷积结构由不同的卷积核构成，卷积核能够捕捉图像相邻像素的空间相关性；池化结构能够降低图像尺寸，使得后面的卷积结构能够获得更大的感受野，构成图像的高层特征；非线性激活结构选取Relu作为激活函数，通过该激活函数，能够有效稀疏活动神经元数量，同时易于网络模型的训练。在卷积结构后，通过全连接层，能够将低层网络的输出进行降维，这种降维在充分训练的情况下能够保证不会损失过多精度。

本实施例中，卷积神经网络算法依据输入的64个单帧图像，经过多层卷积池化激活步骤，计算得到每个单帧图像的图像特征向量。

视频片段标注单元206用于依据循环神经网络算法、每个单帧图像的图像特征向量对所述视频片段标注标签。

多层反馈RNN(Recurrent neural Network)神经网络，即循环神经网络是一种节点定向连接成环的人工神经网络，这种网络的内部状态可以展示动态时序行为。本实施例中，循环神经网络通过带有动量的自适应随机梯度下降法，将视频片段执行前向计算，得到预备输出结果后计算与预存储的携带有视频标签的视频片段之间的偏差，再结合梯度方向反向传播更新网络参数，经过不断迭代，直到网络收敛稳定，从而对整个单一场景的视频片段进行标注。

结果输出单元207用于将多个被标注标签的单一场景的视频片段按照播放时间点的先后顺序整合并输出。

请参阅图3，本发明实施例还提供了一种视频场景标注方法，需要说明的是，本实施例所提供的视频场景标注方法，其基本原理及产生的技术效果和上述实施例相同，为简要描述，本发明实施例部分未提及之处，可参考上述的实施例中相应内容。所述视频场景标注方法包括：

步骤S301：将包含多个场景的视频分割成多个包含单一场景的视频片段，且每个单一场景的视频片段包含有播放时间点。

可以理解地，通过视频分割单元201可以执行步骤S301。

步骤S302：判断所述单一场景的视频片段的播放时长是否大于预设定的时间，如果是，则执行步骤303。

可以理解地，通过判断单元202可以执行步骤S302。

步骤S303：将所述单一场景的视频片段进行等播放时长分割。

可以理解地，通过视频分割单元201可以执行步骤S303。

步骤S304：将分割后的单一场景的视频片段进行采样从而获得多个单帧图像。

可以理解地，通过采样单元203可以执行步骤S304。

步骤S305：将采样得到的每个单帧图像进行格式转换，以使格式转换后的每个单帧图像的分辨率为360P或540P或720P。

可以理解地，通过格式转换单元204可以执行步骤S305。

步骤S306：利用卷积神经网络算法提取每个单帧图像的图像特征向量。

可以理解地，通过特征提取单元205可以执行步骤S306。

步骤S307：依据循环神经网络算法、每个单帧图像的图像特征向量对所述视频片段标注标签。

可以理解地，通过视频片段标注单元206可以执行步骤S307。

步骤S308：将多个被标注标签的单一场景的视频片段按照播放时间点的先后顺序整合并输出。

可以理解地，通过结果输出单元207可以执行步骤S308。

综上所述，本发明提供的视频场景标注装置与方法，可以利用计算机对单一场景的视频片段进行采样从而获得多个单帧图像；通过对视频片段的采样达到了处于单个单一场景的视频片段时间短，效率高的效果，无需逐帧对视频图像进行处理，并且最后输出的结果准确度高。再利用卷积神经网络算法提取每个单帧图像的图像特征向量；依据循环神经网络算法、预存储的多个携带有视频标签的视频片段以及每个单帧图像的图像特征向量对所述视频片段标注标签，从而无需人工介入，即可自动完成视频场景进行标注，节省了时间成本与人力成本，并且用户操作体验感高。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，附图中的流程图和框图显示了根据本发明的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现方式中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

另外，在本发明各个实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。

所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应所述以权利要求的保护范围为准。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

Claims

1.一种视频场景标注装置，其特征在于，所述视频场景标注装置包括：

2.根据权利要求1所述的视频场景标注装置，其特征在于，所述视频场景标注装置还包括：

视频分割单元，用于将包含多个场景的视频分割成多个包含单一场景的视频片段，且每个单一场景的视频片段包含有播放时间点。

3.根据权利要求2所述的视频场景标注装置，其特征在于，所述视频场景标注装置还包括：

结果输出单元，用于将多个被标注标签的单一场景的视频片段按照播放时间点的先后顺序整合并输出。

4.根据权利要求1所述的视频场景标注装置，其特征在于，所述视频场景标注装置还包括：

判断单元，用于判断所述单一场景的视频片段的播放时长是否大于预设定的时间；

视频分割单元，用于若所述单一场景的视频片段的播放时长大于预设定的时间时，则将所述单一场景的视频片段进行等播放时长分割。

5.根据权利要求1所述的视频场景标注装置，其特征在于，所述视频场景标注装置还包括：

格式转换单元，用于将采样得到的每个单帧图像进行格式转换，以使格式转换后的每个单帧图像的分辨率为360P或540P或720P。

6.一种视频场景标注方法，其特征在于，所述视频场景标注方法包括：

对单一场景的视频片段进行采样从而获得多个单帧图像；

利用卷积神经网络算法提取每个单帧图像的图像特征向量；

7.根据权利要求6所述的视频场景标注方法，其特征在于，在所述对单一场景的视频片段进行采样从而获得多个单帧图像的步骤之前，所述视频场景标注方法还包括：

将包含多个场景的视频分割成多个包含单一场景的视频片段，且每个单一场景的视频片段包含有播放时间点。

8.根据权利要求7所述的视频场景标注方法，其特征在于，在所述依据循环神经网络算法、每个单帧图像的图像特征向量对所述视频片段标注标签的步骤之后，所述视频场景标注方法还包括：

将多个被标注标签的单一场景的视频片段按照播放时间点的先后顺序整合并输出。

9.根据权利要求7所述的视频场景标注方法，其特征在于，在所述对单一场景的视频片段进行采样从而获得多个单帧图像的步骤之前，所述视频场景标注方法还包括：

判断所述单一场景的视频片段的播放时长是否大于预设定的时间；

若所述单一场景的视频片段的播放时长大于预设定的时间时，则将所述单一场景的视频片段进行等播放时长分割。

10.根据权利要求6所述的视频场景标注方法，其特征在于，在所述利用卷积神经网络算法提取每个单帧图像的图像特征向量的步骤之前，所述视频场景标注方法还包括：

将采样得到的每个单帧图像进行格式转换，以使格式转换后的每个单帧图像的分辨率为360P或540P或720P。