CN105426883B

CN105426883B - 视频分类快速识别的方法及装置

Info

Publication number: CN105426883B
Application number: CN201510992678.7A
Authority: CN
Inventors: 乔宇; 张博文
Original assignee: Shenzhen Institute of Advanced Technology of CAS
Current assignee: Shenzhen Institute of Advanced Technology of CAS
Priority date: 2015-12-25
Filing date: 2015-12-25
Publication date: 2019-03-01
Anticipated expiration: 2035-12-25
Also published as: CN105426883A

Abstract

本发明适用于计算机视觉技术领域，提供了一种视频分类快速识别的方法及装置。该方法包括：获取待测试视频，从待测试视频的视频码流中提取出运动向量和原始RGB图像；将运动向量转换为运动向量图像；将原始RGB图像输入至预定的基于RGB图像的卷积神经网络中，以获得基于RGB的分类类别置信度；将运动向量图像输入至预定的基于运动向量的增强卷积神经网络中，以获得基于运动向量的分类类别置信度；将基于RGB的分类类别置信度和基于运动向量的分类类别置信度进行融合，获得待测试视频的分类类别置信度；将待测试视频的分类类别置信度中分值最高的一项所对应的类别作为待测试视频中内容对应的类别。本发明可有效提高视频分类识别的效率。

Description

视频分类快速识别的方法及装置

技术领域

本发明属于计算机视觉技术领域，尤其涉及视频分类快速识别的方法及装置。

背景技术

视频中内容的识别技术在视频监控、检索、人机交互等领域被广泛应用。近年来，基于稠密轨迹的特征提取方法以及基于双神经网络(即图像深度网络和光流深度网络)方法展现出了较好的动作识别能力。然而，虽然所述基于稠密轨迹的特征提取方法以及基于双神经网络方法可以有效的提高动作识别的准确率，但是由于基于稠密轨迹的特征提取方法以及基于双神经网络方法都需要计算光流(Optical flow)信息，而光流信息的计算非常耗时，从而导致现有基于稠密轨迹的特征提取方法以及基于双神经网络方法在进行视频中内容识别时耗时较长。

发明内容

鉴于此，本发明实施例提供一种视频分类快速识别的方法及装置，以解决现有技术在进行视频中内容识别时耗时较长的问题。

第一方面，本发明实施例提供了一种视频分类快速识别的方法，所述方法包括：

获取待测试视频，从所述待测试视频的视频码流中提取出运动向量和原始RGB图像；

将所述运动向量转换为运动向量图像；

将所述原始RGB图像输入至预定的基于RGB图像的卷积神经网络中，以获得所述待测试视频的基于RGB的分类类别置信度；

将所述运动向量图像输入至预定的基于运动向量的增强卷积神经网络中，以获得所述测试视频的基于运动向量的分类类别置信度；

将所述基于RGB的分类类别置信度和所述基于运动向量的分类类别置信度进行融合，获得所述待测试视频的分类类别置信度；

将所述待测试视频的分类类别置信度中分值最高的一项所对应的类别作为所述待测试视频中内容所对应的类别。

第二方面，一种视频分类快速识别的装置，所述装置包括：

测试提取单元，用于获取待测试视频，从所述待测试视频的视频码流中提取出运动向量和原始RGB图像；

转换单元，用于将所述运动向量转换为运动向量图像；

第一处理单元，用于将所述原始RGB图像输入至预定的基于RGB图像的卷积神经网络中，以获得所述待测试视频的基于RGB的分类类别置信度；

第二处理单元，用于将所述运动向量图像输入至预定的基于运动向量的增强卷积神经网络中，以获得所述测试视频的基于运动向量的分类类别置信度；

融合单元，用于将所述基于RGB的分类类别置信度和所述基于运动向量的分类类别置信度进行融合，获得所述待测试视频的分类类别置信度；

识别单元，用于将所述待测试视频的分类类别置信度中分值最高的一项所对应的类别作为所述待测试视频中内容所对应的类别。

本发明实施例与现有技术相比存在的有益效果是：本发明实施例在测试阶段不需要计算光流信息，而是直接使用从视频码流中解码得到的运动向量信息，由于不需要通过相邻两帧计算光流信息，从而解决了现有技术在进行视频中内容识别时耗时较长的问题，满足了对视频的实时处理需求。而且，与光流信息一样，所述运动向量信息也可以表征相邻两帧之间的运动信息，并能与原始RGB图像信息互补，从而提升视频中内容识别的能力，具有较强的易用性和实用性。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的视频分类快速识别的方法的实现流程示意图；

图2是本发明实施例提供的运动向量与光流的示意图；

图3是本发明实施例提供的视频分类快速识别的装置的组成结构示意图。

具体实施方式

以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、技术之类的具体细节，以便透切理解本发明实施例。然而，本领域的技术人员应当清楚，在没有这些具体细节的其它实施例中也可以实现本发明。在其它情况中，省略对众所周知的系统、装置、电路以及方法的详细说明，以免不必要的细节妨碍本发明的描述。

为了说明本发明所述的技术方案，下面通过具体实施例来进行说明。

请参阅图1，图1示出了本发明实施例提供的视频分类快速识别的方法的实现流程，该方法可适用于各类终端设备，如个人计算机、平板电脑、手机等。该方法过程详述如下：

步骤S101，获取待测试视频，从所述待测试视频的视频码流中提取出运动向量和原始RGB图像。

在本实施例中，所述运动向量表示相邻两帧图像中，局部图像块的平移量。由于视频压缩标准如H.264、MPEG等利用运动向量实现对视频数据的压缩，因此运动向量可以快速从视频中提取。例如，使用视频解码器对所述待测试视频进行解码，从解码后的视频码流中获得具有运动信息的运动向量以及原始RGB图像。

在步骤S102中，将所述运动向量转换为运动向量图像。

在本实施例中，由于所述运动向量是基于视频编码中宏块的模式进行编码，运动向量表示的是宏块的运动信息，而宏块的大小为8×8或16×16。因此，在将所述运动向量转换为运动向量图像时，本发明采用填充的方式，将所述运动向量赋值给大小为8×8或16×16的宏块。另外，由于在视频编码中存在自编码帧(I-frame)，I-frame不包含任何运动向量信息。所以针对I-frame，本发明I-frame将前一帧的运动向量直接赋值到该I-frame中，而视频编码中存在的另外两种编码帧：P-frame和B-frame都具有运动信息，所以无需进一步处理。

在步骤S103中，将所述原始RGB图像输入至预定的基于RGB图像的卷积神经网络中，以获得所述待测试视频的基于RGB的分类类别置信度；

在步骤S104中，将所述运动向量图像输入至预定的基于运动向量的增强卷积神经网络中，以获得所述测试视频的基于运动向量的分类类别置信度。

在本实施例中，所述预定的基于RGB图像的卷积神经网络以及基于运动向量的增强卷积神经网络是在训练阶段获得，具体的是：

从训练集中抽取出训练视频，并从所述训练视频的视频码流中提取出运动向量图和原始RGB图像；

将所述运动向量转换为运动向量图像；

基于视频的类别标定信息和所述训练视频的视频码流中提取出的原始RGB图像训练获得基于RGB图像的卷积神经网络，并基于视频的类别标定信息、该运动向量图像和已经训练完成的基于光流的卷积神经网络训练获得基于运动向量的增强卷积神经网络。

较佳的，由于训练基于运动向量的增强卷积神经网络需要运动向量图像以及已经训练完成的基于光流的卷积神经网络的参数，因此下面具体说明如何从运动向量图像中训练得到基于运动向量的增强卷积神经网络：

设定已经训练完成的基于光流的卷积神经网络为T，其参数为N为T的层数，设定待训练的基于运动向量的增强卷积神经网络为S，其参数为N为S的层数，T与S的结构相同，与的结构相同；

通过所述已经训练完成的基于光流的卷积神经网络T的参数初始化待训练的基于运动向量的增强卷积神经网络S的参数，即k＝1，...，N；其中，分别为S和T关于第k层的参数；

设定所述训练视频中内容所对应的类别为Q，S的第N层输出为第N-1层输出为其中soft max表示soft max函数，soft max函数设定为：x表示soft max函数的输入向量，m表示x的维度，i表示输入或输出向量的某一维(例如第1维、第2维等)的指标，∑_i表示将输入向量x的每一维计算之后进行相加，并设定Q与的损失函数其中1[x]为示性函数，当Q＝i时，1[Q＝i]＝1，其余情况均等于0，表示S的第N层输出的第i维；

设定T的第N-1层输出为损失函数其中m为P_s{i}和P_T{i}的维度，P_s和P_T分别为：其中Temp为温度参数，用来调节输出分布，P_s{i}表示P_s的第i项，P_T{i}表示P_T的第i项；

通过最小化损失函数L获得基于运动向量的增强卷积神经网络，其中L＝L_GT+wL_TSL，w为预先设定的L_GT和L_TSL的权重，例如w＝Temp²。

在步骤S105中，将所述基于RGB的分类类别置信度(RGBScore)和所述基于运动向量的分类类别置信度(MV Score)进行融合，获得所述待测试视频的分类类别置信度。

其中，所述融合可以是将基于RGB的分类类别置信度与基于运动向量的分类类别置信度求均值。

在步骤S106中，将所述待测试视频的分类类别置信度中分值最高的一项所对应的类别作为所述待测试视频中内容所对应的类别。

需要说明的是，现有无论是基于特征向量及特征描述的算法，或是基于深度学习的算法都需要提前计算光流。但光流的计算是十分耗时的，在特征向量及特征描述这类算法中，光流的计算可以占到50％，而在深度学习的算法中，即使有GPU进行加速计算，计算光流的时间仍然开销很大。每秒只能处理16.7帧，无法达到实时视频处理的要求。基于此，本发明使用运动向量代替光流计算，由于运动向量在视频编码阶段被直接编码在视频码流中，所以只需从码流中解码即可，其每秒可以处理735帧，从而解决了现有视频中内容识别的速度瓶颈，满足了对视频的实时处理需求。另外，由于所述运动向量具有较光流更为粗糙的结构以及不准确的运动信息，例如包含比光流更多的噪声信息，如图2所示(图2是运动向量与光流的示意图，左侧图为原始图像，中间图为X分量的运动向量和光流的可视化图像，右侧图为Y分量的运动向量和光流的可视化图像。其中Motion Vector代表运动向量，OpticalFlow代表光流。从图2中可以看出运动向量比光流更为粗糙，并且包含更多噪声点)，因此如果直接使用运动向量代替光流会导致识别的准确率降低。因此，本发明还提出了一种基于运动向量的增强卷积神经网络的算法，该算法能够在测试阶段通过运动向量获得一个能够实时处理的网络，并且在数据集的测试过程中，此网络能够在不影响运行速度的情况下获得与光流网络识别准确率相近的效果。

本发明经过大量实验，在多个测试数据集上使用本发明所述方法均获得较好的视频中内容识别效果以及较高的识别速度，如表1、表2所示：

表1

表2

图3为本发明实施例提供的视频分类快速识别的装置的组成结构示意图。为了便于说明，仅示出了与本发明实施例相关的部分。

所述视频分类快速识别的装置可应用于各种终端设备，例如口袋计算机(PocketPersonal Computer，PPC)、掌上电脑、计算机、笔记本电脑、个人数字助理(PersonalDigital Assistant，PDA)等，可以是运行于这些终端内的软件单元、硬件单元或者软硬件相结合的单元，也可以作为独立的挂件集成到这些终端中或者运行于这些终端的应用系统中。

所述视频分类快速识别的装置包括：

测试提取单元31，用于获取待测试视频，从所述待测试视频的视频码流中提取出运动向量和原始RGB图像；

转换单元32，用于将所述运动向量转换为运动向量图像；

第一处理单元33，用于将所述原始RGB图像输入至预定的基于RGB图像的卷积神经网络中，以获得所述待测试视频的基于RGB的分类类别置信度；

第二处理单元34，用于将所述运动向量图像输入至预定的基于运动向量的增强卷积神经网络中，以获得所述测试视频的基于运动向量的分类类别置信度；

融合单元35，用于将所述基于RGB的分类类别置信度和所述基于运动向量的分类类别置信度进行融合，获得所述待测试视频的分类类别置信度；

识别单元36，用于将所述待测试视频的分类类别置信度中分值最高的一项所对应的类别作为所述待测试视频中内容所对应的类别。

进一步的，所述装置还包括：

训练提取单元37，用于从训练集中抽取出训练视频，并从所述训练视频的视频码流中提取出运动向量图和原始RGB图像；

所述转换单元32，用于将所述训练视频的视频码流中提取出的运动向量转换为运动向量图像；

第三处理单元38，用于基于所述训练视频的视频码流中提取出的原始RGB图像和视频的类别标定信息训练获得基于RGB图像的卷积神经网络，并基于该运动向量图像、视频的类别标定信息和已经训练完成的基于光流的卷积神经网络训练获得基于运动向量的增强卷积神经网络。

进一步的，所述第三处理单元38包括：

第一设定模块381，用于设定已经训练完成的基于光流的卷积神经网络为T，其参数为N为T的层数，设定待训练的基于运动向量的增强卷积神经网络为S，其参数为N为S的层数，T与S的结构相同，与的结构相同；

初始化模块382，用于通过所述已经训练完成的基于光流的卷积神经网络T的参数初始化待训练的基于运动向量的增强卷积神经网络S的参数，即k＝1，...，N；其中，分别为S和T关于第k层的参数；

第二设定模块383，用于设定所述训练视频中内容所对应的类别为Q，S的第N层输出为第N-1层输出为其中soft max表示soft max函数，soft max函数设定为：x表示soft max函数的输入向量，m表示x的维度，i表示输入或输出向量的某一维的指标，∑_i表示将输入向量x的每一维计算之后进行相加，并设定Q与的损失函数其中1[x]为示性函数，当Q＝i时，1[Q＝i]＝1，否则为0；表示S的第N层输出的第i维；

第三设定模块384，用于设定T的第N-1层输出为损失函数其中m为P_s{i}和P_T{i}的维度，P_s和P_T分别为：其中Temp为温度参数，P_s{i}表示P_s的第i项，P_T{i}表示P_T的第i项；

获得模块385，用于通过最小化损失函数L获得基于运动向量的增强卷积神经网络，其中L＝L_GT+wL_TSL，w为预先设定的L_GT和L_TSL的权重。

进一步的，所述转换单元32具体用于：

采用填充的方式，将所述运动向量赋值给大小为8×8或16×16的宏块，并将所述宏块中不包含运动向量信息的自编码帧的前一帧的运动向量赋值给所述自编码帧，以得到所述运动向量图像。

综上所述，本发明实施例与现有技术相比存在的有益效果是：1)使用运动向量代替光流计算，解决了现有技术需要计算光流信息导致的耗时较长的问题，满足了对视频的实时处理需求；2)考虑了光流网络与运动向量网络的互补性，提出了增强运动向量的卷积神经网络，从而提升了基于运动向量的卷积神经网络的效果；3)将增强运动向量的卷积神经网络与基于RGB图像的卷积神经网络相结合，获得了较好的识别效果以及较高的识别速度。另外，本发明实施例在实现上述过程中，不需要增加额外的硬件，可有效降低成本，具有较强的易用性和实用性。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中，上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。另外，各功能单元的具体名称也只是为了便于相互区分，并不用于限制本申请的保护范围。上述装置中各单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

在本发明所提供的实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口，装置或单元的间接耦合或通讯连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本发明实施例各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明实施例各实施例技术方案的精神和范围。

Claims

1.一种视频分类快速识别的方法，其特征在于，所述方法包括：

将所述运动向量转换为运动向量图像；

将所述运动向量图像输入至预定的基于运动向量的增强卷积神经网络中，以获得所述待测试视频的基于运动向量的分类类别置信度；

2.如权利要求1所述的视频分类快速识别的方法，其特征在于，在获取待测试视频之前，还包括：

从训练集中抽取出训练视频，并从所述训练视频的视频码流中提取出运动向量和原始RGB图像；

将所述运动向量转换为运动向量图像；

基于所述训练视频的视频码流中提取出的原始RGB图像和视频的类别标定信息训练获得基于RGB图像的卷积神经网络，并基于该运动向量图像、视频的类别标定信息和已经训练完成的基于光流的卷积神经网络训练获得基于运动向量的增强卷积神经网络。

3.如权利要求2所述的视频分类快速识别的方法，其特征在于，所述基于该运动向量图像、视频的类别标定信息和已经训练完成的基于光流的卷积神经网络训练获得基于运动向量的增强卷积神经网络包括：

通过所述已经训练完成的基于光流的卷积神经网络T的参数初始化待训练的基于运动向量的增强卷积神经网络S的参数，即其中，分别为S和T中第k层的参数；

设定所述训练视频中内容所对应的类别为Q，S的第N层输出为第N-1层输出为其中softmax表示softmax函数，softmax函数设定为：x表示softmax函数的输入向量，m表示x的维度，i表示输入或输出向量的某一维的指标，∑_i表示将输入向量x的每一维计算之后进行相加，并设定Q与的损失函数其中1[x]为示性函数，当Q＝i时，1[Q＝i]＝1，否则为0；表示S的第N层输出的第i维；

设定T的第N-1层输出为损失函数其中m为P_s{i}和P_T{i}的维度，P_s和P_T分别为：其中Temp为温度参数，P_s{i}表示P_s的第i项，P_T{i}表示P_T的第i项；

通过最小化损失函数L获得基于运动向量的增强卷积神经网络，其中L＝L_GT+wL_TSL，w为预先设定的L_GT和L_TSL的权重。

4.如权利要求1所述的视频分类快速识别的方法，其特征在于，所述将所述运动向量转换为运动向量图像包括：

5.一种视频分类快速识别的装置，其特征在于，所述装置包括：

转换单元，用于将所述运动向量转换为运动向量图像；

第二处理单元，用于将所述运动向量图像输入至预定的基于运动向量的增强卷积神经网络中，以获得所述待测试视频的基于运动向量的分类类别置信度；

6.如权利要求5所述的视频分类快速识别的装置，其特征在于，所述装置还包括：

训练提取单元，用于从训练集中抽取出训练视频，并从所述训练视频的视频码流中提取出运动向量和原始RGB图像；

所述转换单元，用于将所述训练视频的视频码流中提取出的运动向量转换为运动向量图像；

第三处理单元，用于基于所述训练视频的视频码流中提取出的原始RGB图像和视频的类别标定信息训练获得基于RGB图像的卷积神经网络，并基于该运动向量图像、视频的类别标定信息和已经训练完成的基于光流的卷积神经网络训练获得基于运动向量的增强卷积神经网络。

7.如权利要求6所述的视频分类快速识别的装置，其特征在于，所述第三处理单元包括：

第一设定模块，用于设定已经训练完成的基于光流的卷积神经网络为T，其参数为N为T的层数，设定待训练的基于运动向量的增强卷积神经网络为S，其参数为N为S的层数，T与S的结构相同，与的结构相同；

初始化模块，用于通过所述已经训练完成的基于光流的卷积神经网络T的参数初始化待训练的基于运动向量的增强卷积神经网络S的参数，即其中，分别为S和T关于第k层的参数；

第二设定模块，用于设定所述训练视频中内容所对应的类别为Q，S的第N层输出为第N-1层输出为其中softmax表示softmax函数，softmax函数设定为：x表示softmax函数的输入向量，m表示x的维度，i表示输入或输出向量的某一维的指标，Σ_i表示将输入向量x的每一维计算之后进行相加，并设定Q与的损失函数其中1[x]为示性函数，当Q＝i时，1[Q＝i]＝1，否则为0；表示S的第N层输出的第i维；

第三设定模块，用于设定T的第N-1层输出为损失函数其中m为P_s{i}和P_T{i}的维度，P_s和P_T分别为：其中Temp为温度参数，P_s{i}表示P_s的第i项，P_T{i}表示P_T的第i项；

获得模块，用于通过最小化损失函数L获得基于运动向量的增强卷积神经网络，其中L＝L_GT+wL_TSL，w为预先设定的L_GT和L_TSL的权重。

8.如权利要求5所述的视频分类快速识别的装置，其特征在于，所述转换单元具体用于：