CN111259919B

CN111259919B - 一种视频分类方法、装置及设备、存储介质

Info

Publication number: CN111259919B
Application number: CN201811457704.6A
Authority: CN
Inventors: 许昀璐; 程战战; 钮毅
Original assignee: Hangzhou Hikvision Digital Technology Co Ltd
Current assignee: Hangzhou Hikvision Digital Technology Co Ltd
Priority date: 2018-11-30
Filing date: 2018-11-30
Publication date: 2024-01-23
Anticipated expiration: 2038-11-30
Also published as: CN111259919A

Abstract

本发明提供一种视频分类方法、装置及设备、存储介质，视频分类方法，包括：将待分类处理的视频帧序列输入至已训练的神经网络中，以由所述神经网络对所述视频帧序列中每N个视频帧在目标域上进行特征关联得到对应的第一关联特征向量，对所有第一关联特征向量在时间域上进行特征关联得到第二关联特征向量，并对所述第二关联特征向量进行分类得到并输出分类结果；依据所述神经网络输出的分类结果确定所述视频帧序列的类别；其中，所述N为小于所述视频帧序列长度的正整数，所述目标域至少包括空间域。改善对视频在时间域和空间域上的信息表达，有利于提高视频分类准确度。

Description

一种视频分类方法、装置及设备、存储介质

技术领域

本发明涉及视频处理技术领域，尤其涉及的是一种视频分类方法、装置及设备、存储介质。

背景技术

在一些涉及视频处理的领域中，如安防监控、视频检索、人机交互等领域，需对视频中的场景进行分析，以识别出视频中的事件或行为，如骑车、跳高、击剑、事故、啼哭等，并对发生不同事件或行为的视频进行分类。神经网络的发展对目标识别的准确率带来了很大的提高，于是有了越来越多的应用。

现有的视频分类方法中，利用若干卷积网络从输入的视频中提取特征，再将这些卷积网络通过全连接层连接，以利用全连接层依据各个卷积网络提取的特征对视频进行分类。

上述方式中，通过卷积网络提取的特征缺少时间和空间上的关联，特征并不能完善地表达视频在时间域和空间域上的信息，导致视频分类不准确的问题。

发明内容

有鉴于此，本发明提供一种视频分类方法、装置及设备、存储介质，改善对视频在时间域和空间域上的信息表达，有利于提高视频分类准确度。

本发明第一方面提供一种视频分类方法，包括：

将待分类处理的视频帧序列输入至已训练的神经网络中，以由所述神经网络对所述视频帧序列中每N个视频帧在目标域上进行特征关联得到对应的第一关联特征向量，对所有第一关联特征向量在时间域上进行特征关联得到第二关联特征向量，并对所述第二关联特征向量进行分类得到并输出分类结果；

依据所述神经网络输出的分类结果确定所述视频帧序列的类别；

其中，所述N为小于所述视频帧序列长度的正整数，所述目标域至少包括空间域。

根据本发明的一个实施例，所述神经网络包括至少一个第一关联层；

所述由神经网络对所述视频帧序列中每N个视频帧在目标域上进行特征关联得到对应的第一关联特征向量，包括：

由各个所述第一关联层的卷积子层对输入的每N个视频帧执行特征提取处理得到表征目标特征的二维特征向量，并将所述二维特征向量输出至与卷积子层对应的融合子层；

由各个所述第一关联层的非局部均值滤波子层对输入的每N个视频帧执行空间域上的非局部均值滤波处理得到空间域关联数据，并将所述空间域关联数据输出至与非局部均值滤波子层对应的融合子层；

由各个所述第一关联层的融合子层对输入的所述二维特征向量和空间域关联数据对应执行融合处理，得到并输出对应的第一关联特征向量；

其中，所述卷积子层包括二维CNN层；所述N等于1。

根据本发明的一个实施例，由各个所述第一关联层的非局部均值滤波子层对输入的每N个视频帧执行空间域上的非局部均值滤波处理得到空间域关联数据，包括：

由非局部均值滤波子层遍历输入的视频帧中需滤波的目标像素；

由所述非局部均值滤波子层针对每个遍历到的目标像素，将该输入的视频帧中以该目标像素为中心的指定大小的区域确定为当前块，逐像素遍历该输入的视频帧并确定以每次遍历到的像素为中心像素且与所述当前块相同大小的参考块，计算所述当前块与每个参考块的相似度得到与参考块对应的相似度权重，将相似度权重加权至对应参考块的中心像素的像素值并对加权后的所有参考块的中心像素的像素值求和，将求和所得值确定为该目标像素滤波后的像素值；

由非局部均值滤波子层将各个目标像素的滤波后的像素值确定为该输入的视频帧对应的空间域关联数据。

根据本发明的一个实施例，所述神经网络包括至少一个第一关联层；所述目标域还包括时间域；

由所述神经网络对所述视频帧序列中每N个视频帧在目标域上进行特征关联得到对应的第一关联特征向量，包括：

由各个第一关联层的所述卷积子层对输入的每N个视频帧执行特征提取处理得到表征目标特征的三维特征向量，并将所述三维特征向量输出至与卷积子层对应的融合子层；

由各个第一关联层的非局部均值滤波子层对输入的每N个视频帧执行时空域上的非局部均值滤波处理得到所述N个视频帧的时空域关联数据，并将所述时空域关联数据输出至与非局部均值滤波子层对应的融合子层；

由各个所述第一关联层的融合子层对输入的所述三维特征向量和时空域关联数据执行融合处理，得到并输出对应的第一关联特征向量；

其中，所述卷积子层包括三维CNN层；所述N大于1且小于等于所述视频帧序列长度的一半。

根据本发明的一个实施例，由各个第一关联层的非局部均值滤波子层对输入的每N个视频帧执行时空域上的非局部均值滤波处理得到所述N个视频帧的时空域关联数据，包括：

由非局部均值滤波子层遍历输入的N个视频帧所构成的时空三维数据体中需滤波的目标像素；

由非局部均值滤波子层针对每个遍历到的目标像素，在该时空三维数据体中以该目标像素为中心的指定大小的时空三维区域确定为当前块，逐像素遍历该时空三维数据体并确定以每次遍历到的像素为中心像素且与所述当前块相同大小的参考块，计算所述当前块与每个参考块的相似度得到与参考块对应的相似度权重，将相似度权重加权至对应参考块的中心像素的像素值并对加权后的所有参考块的中心像素的像素值求和，将求和所得值确定为该目标像素滤波后的像素值；

由非局部均值滤波子层将各个目标像素的滤波后的像素值确定为该输入的N个视频帧对应的时空域关联数据。

根据本发明的一个实施例，所述神经网络包括M个第一关联层；

其中，所述待分类处理的视频帧序列被分成M段输入至所述神经网络的各个所述第一关联层中；所述M大于1。

根据本发明的一个实施例，由所述神经网络对所述视频帧序列中每N个视频帧在目标域上进行特征关联得到对应的第一关联特征向量，对所有第一关联特征向量在时间域上进行特征关联得到第二关联特征向量，并对所述第二关联特征向量进行分类得到并输出分类结果，包括：

由所述神经网络的至少一个第一关联层对输入的所述视频帧序列中每N个视频帧执行特征提取处理得到表征目标特征的特征向量，并对所述特征向量在目标域上执行特征关联处理得到与每N个视频帧对应的第一关联特征向量，将与每N个视频帧对应的第一关联特征向量输出至所述神经网络的第二关联层；

由所述神经网络的第二关联层对所有第一关联层输出的所述第一关联特征向量在时间域上执行特征关联处理得到第二关联特征向量，将所述第二关联特征向量输出至所述神经网络的全连接层；

由所述神经网络的全连接层对所述第二关联层输出的第二关联特征向量执行分类处理，得到并输出分类结果。

根据本发明的一个实施例，所述第二关联层包括循环神经网络RNN层。

本发明第二方面提供一种视频分类装置，包括：

分类处理模块，用于将待分类处理的视频帧序列输入至已训练的神经网络中，以由所述神经网络对所述视频帧序列中每N个视频帧在目标域上进行特征关联得到对应的第一关联特征向量，对所有第一关联特征向量在时间域上进行特征关联得到第二关联特征向量，并对所述第二关联特征向量进行分类得到并输出分类结果；

分类确定模块，用于依据所述神经网络输出的分类结果确定所述视频帧序列的类别；

所述分类处理模块中，用于对所述视频帧序列中每N个视频帧在目标域上进行特征关联得到对应的第一关联特征向量的第一关联处理单元包括：

第一特征提取子单元，用于由各个所述第一关联层的卷积子层对输入的每N个视频帧执行特征提取处理得到表征目标特征的二维特征向量，并将所述二维特征向量输出至与卷积子层对应的融合子层；

第一目标域关联子单元，用于由各个所述第一关联层的非局部均值滤波子层对输入的每N个视频帧执行空间域上的非局部均值滤波处理得到空间域关联数据，并将所述空间域关联数据输出至与非局部均值滤波子层对应的融合子层；

第一融合处理子单元，用于由各个所述第一关联层的融合子层对输入的所述二维特征向量和空间域关联数据对应执行融合处理，得到并输出对应的第一关联特征向量；

其中，所述卷积子层包括二维CNN层；所述N等于1。

根据本发明的一个实施例，第一目标域关联子单元执行由各个所述第一关联层的非局部均值滤波子层对输入的每N个视频帧执行空间域上的非局部均值滤波处理得到空间域关联数据时具体用于：

第二特征提取子单元，由各个第一关联层的所述卷积子层对输入的每N个视频帧执行特征提取处理得到表征目标特征的三维特征向量，并将所述三维特征向量输出至与卷积子层对应的融合子层；

第二目标域关联子单元，用于由各个第一关联层的非局部均值滤波子层对输入的每N个视频帧执行时空域上的非局部均值滤波处理得到所述N个视频帧的时空域关联数据，并将所述时空域关联数据输出至与非局部均值滤波子层对应的融合子层；

第二融合处理子单元，用于由各个所述第一关联层的融合子层对输入的所述三维特征向量和时空域关联数据执行融合处理，得到并输出对应的第一关联特征向量；

根据本发明的一个实施例，第二目标域关联子单元执行由各个第一关联层的非局部均值滤波子层对输入的每N个视频帧执行时空域上的非局部均值滤波处理得到所述N个视频帧的时空域关联数据时具体用于：

根据本发明的一个实施例，所述分类处理模块包括：

第一关联处理单元，用于由所述神经网络的至少一个第一关联层对输入的所述视频帧序列中每N个视频帧执行特征提取处理得到表征目标特征的特征向量，并对所述特征向量在目标域上执行特征关联处理得到与每N个视频帧对应的第一关联特征向量，将与每N个视频帧对应的第一关联特征向量输出至所述神经网络的第二关联层；

第二关联处理单元，用于由所述神经网络的第二关联层对所有第一关联层输出的所述第一关联特征向量在时间域上执行特征关联处理得到第二关联特征向量，将所述第二关联特征向量输出至所述神经网络的全连接层；

分类处理单元，用于由所述神经网络的全连接层对所述第二关联层输出的第二关联特征向量执行分类处理，得到并输出分类结果。

本发明第三方面提供一种电子设备，包括处理器及存储器；所述存储器存储有可被处理器调用的程序；其中，所述处理器执行所述程序时，实现前述实施例中所述的视频分类方法。

本发明第四方面提供一种机器可读存储介质，其特征在于，其上存储有程序，该程序被处理器执行时，实现如前述实施例中所述的视频分类方法。

本发明实施例具有以下有益效果：

本发明实施例中，利用神经网络首先对视频帧序列分批地在空间域上进行特征关联得到对应的第一关联特征向量，得到的第一关联特征向量可以表达每批视频帧的空间关联信息，再对所得的所有第一关联特征向量在时间域上进行特征关联得到第二关联特征向量，即捕获了视频帧序列的时间关联信息，该第二关联特征向量可以更好地综合表达视频的时间关联信息和空间关联信息，改善了对视频在时间域和空间域上的信息表达，因而神经网络对第二关联特征向量进行分类时可以更精确地确定相应的类别，有利于提高视频分类准确度。

附图说明

图1是本发明一示例性实施例示出的视频分类方法的流程示意图；

图2是本发明一示例性实施例示出的视频分类装置的结构框图；

图3是本发明一示例性实施例示出的神经网络的架构图；

图4是本发明另一示例性实施例示出的神经网络的架构图；

图5是本发明又一示例性实施例示出的神经网络的架构图；

图6是本发明一示例性实施例示出的三维卷积处理的示意图；

图7是本发明一示例性实施例示出的电子设备的结构框图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。

在本发明使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本发明。在本发明和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本发明可能采用术语第一、第二、第三等来描述各种器件，但这些信息不应限于这些术语。这些术语仅用来将同一类型的器件彼此区分开。例如，在不脱离本发明范围的情况下，第一器件也可以被称为第二器件，类似地，第二器件也可以被称为第一器件。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

为了使得本发明的描述更清楚简洁，下面对本发明中的一些技术术语进行解释：

卷积神经网络(Convolutional Neural Network，CNN)：是一种前馈的人工神经网络，其神经元可以响应有限覆盖范围内周围单元，并通过权值共享和特征汇聚，有效提取图像的特征信息。

循环神经网络(Recurrent Neural Network，RNN)：是一种拥有循环结构的人工神经网络，通过隐层特征在序列方向的传递，可以使当前序列点的特征计算得到上下文信息的支援。

三维卷积(3D Convolution)：在普通二维卷积核的基础上增加一维用于在时间尺度上对特征卷积，用以提高对视频特征的表征能力。

端到端：由输入端的数据直接得到输出端的结果。

下面对本发明实施例的视频分类方法进行更具体的描述，但不应以此为限。在一个实施例中，参看图1，一种视频分类方法可以包括以下步骤：

S100：将待分类处理的视频帧序列输入至已训练的神经网络中，以由所述神经网络对所述视频帧序列中每N个视频帧在目标域上进行特征关联得到对应的第一关联特征向量，对所有第一关联特征向量在时间域上进行特征关联得到第二关联特征向量，并对所述第二关联特征向量进行分类得到并输出分类结果；

S200：依据所述神经网络输出的分类结果确定所述视频帧序列的类别；

本发明实施例的视频分类方法的执行主体可以为电子设备，进一步地可以为电子设备的处理器，其中，所述处理器可以为一个或多个，所述处理器可以为通用处理器或者专用处理器。电子设备可以是具备图像处理能力的设备，包括成像设备、图像后处理设备等，具体不限。

视频帧序列可以是采集的完整视频、或截取的视频中的一段。视频帧序列可由电子设备采集，当然也可以是电子设备从成像设备上获取到的视频帧序列。视频帧序列长度指视频帧序列中视频帧的个数，具体数量不限。视频帧序列呈现的动态画面的种类也不限，例如可以是骑车、标枪、跳绳、击剑等动态画面，视频帧序列呈现的背景也无需限制在单一固定统一的场景。

视频帧序列中包含多个连续采集的视频帧，因而在时间域上存在一定的联系，例如，视频中的运动物体在帧间的行为具有连贯性；每个视频帧上相邻的像素之间也存在一定的空间联系，例如，每个视频帧中相邻像素的像素值相同的或较为接近的可能性较大。

然而，相关视频分类技术中，通过卷积网络所提取的特征缺少时间和空间上的关联，特征并不能完善地表达视频在时间域和空间域上的信息，导致分类不够准确。而本发明实施例中，通过捕获视频帧序列在时间域、空间域上的联系来优化特征的表达，使得分类所利用的特征更能准确地表达视频在时间域和空间域上的信息，从而有利于视频分类的准确性。

在步骤S100中，将待分类处理的视频帧序列输入至已训练的神经网络中，以由所述神经网络对所述视频帧序列中每N个视频帧在目标域上进行特征关联得到第一关联特征向量，对所有第一关联特征向量在时间域上进行特征关联得到第二关联特征向量，并对所述第二关联特征向量进行分类得到并输出分类结果。

为了便于描述，将视频帧序列长度记为L＝K*N，K为视频帧序列的分批数，每批包括连续采集的N个视频帧，K为小于等于视频帧序列长度的正整数，即视频帧序列长度可以被N整除。相应的，视频帧序列被分成了K批视频帧，由所述神经网络对每批的N个视频帧在目标域上进行特征关联。

由所述神经网络对所述视频帧序列中每N个视频帧在目标域上进行特征关联后，得到K个第一关联特征向量，即每N个视频帧经特征关联处理后对应得到一个第一关联特征向量。

例如，在视频帧序列长度为100帧时，N可以为10，即将该视频帧序列分成10批(K＝10)在目标域上进行特征关联处理，得到对应的10个第一关联特征向量。

目标域至少包括空间域。当然，目标域可以包括时间域和空间域，即目标域可以为时空域，时空域即时间域与空间域的联合。在视频处理中，时间域即视频帧序列的时间维度，视频帧之间存在一定的时序关系；空间域即视频帧的图像空间(二维)，视频帧的像素之间存在一定的空间关系。

若目标域为空间域，则神经网络对视频帧在空间域上进行特征关联所得的第一关联特征向量，可以更好地表达视频帧的空间关联信息(可通过神经网络后续对所有第一关联特征向量在时间域上进行特征关联来改善特征对视频帧的时间信息的表达)。

若目标域为时空域，则神经网络对视频帧在时空域上进行特征关联所得的第一关联特征向量，可以更好地表达每N个视频帧的时间关联信息、及空间关联信息。从时间域上来说，相当于视频帧序列被分批进行了短时关联，第一关联特征向量可以体现N个视频帧的短时关联信息和空间关联信息(神经网络后续对所有第一关联特征向量在时间域上进行特征关联，得到视频整体的长时关联信息，进一步完善对视频帧的时间信息的表达)。

神经网络中得到所有的第一关联特征向量之后，再对所有第一关联特征向量在时间域上进行特征关联。由于是对所有第一关联特征向量在时间域上进行特征关联得到的第二关联特征向量，因而，一方面，第二关联特征向量继承了第一关联特征向量的空间关联信息或者时空关联信息，另一方面，第二关联特征向量进一步体现视频帧序列中帧间的长时间关联信息，能更好地表达视频帧序列在时间域上的信息。

换言之，第二关联特征向量改善了对视频在时间域和空间域上的信息表达，因而神经网络对第二关联特征向量进行分类得到的分类结果可以更精确。

神经网络输出分类结果后，步骤S200中，依据所述神经网络输出的分类结果确定所述视频帧序列的类别。

神经网络输出的分类结果指示视频帧序列的类别。神经网络可以直接输出视频帧序列的最终类别。或者，神经网络输出的分类结果可以是所有候选类别及对应的分类置信度，可以根据分类置信度的高低确定视频帧序列的最终类别，例如，将最高分类置信度对应的候选类别确定为视频帧序列的最终类别。

此外，本发明实施例中，利用一个端到端的神经网络实现视频帧序列的分类处理，在神经网络被训练完成后，只需将待分类处理的视频帧序列输入到神经网络中，便可得到相应的分类结果，分类处理的过程更简单。

在一个实施例中，上述方法流程可由视频分类装置100执行，如图2所示，视频分类装置100主要包含2个单元：分类处理模块101，及分类确定模块102。分类处理模块101用于执行上述步骤S100，分类确定模块102用于执行上述步骤S200。

其中，神经网络可以集成在分类处理模块101中作为其中的一部分，也可以设置在分类处理模块101外部，可由分类处理模块101来调度。可以理解，神经网络可以集成在视频分类装置100中，也可以在使用时从视频分类装置100的外部获取得到。

在一个实施例中，参看图3，神经网络200可以包括用于执行特征提取处理并对提取的特征在目标域上执行关联处理的第一关联层201，用于在时间域上执行特征关联处理的第二关联层202，以及用于执行分类处理的全连接层203。当然，神经网络的层结构及层数具体不限。

步骤S100中，分类处理模块101可以通过执行步骤S101-S103来实现上述步骤S100，结合图3中的神经网络架构来说，步骤S100具体可以包括以下步骤：

S101：由所述神经网络200的至少一个第一关联层201对输入的所述视频帧序列中每N个视频帧执行特征提取处理得到表征目标特征的特征向量，并对所述特征向量在目标域上执行特征关联处理得到与每N个视频帧对应的第一关联特征向量，将与每N个视频帧对应的第一关联特征向量输出至所述神经网络200的第二关联层202；

S102：由所述神经网络200的第二关联层202对所有第一关联层201输出的所述第一关联特征向量在时间域上执行特征关联处理得到第二关联特征向量，将所述第二关联特征向量输出至所述神经网络的全连接层203；

S103：由所述神经网络200的全连接层203对所述第二关联层输出的第二关联特征向量执行分类处理，得到并输出分类结果。

图3中仅示出了神经网络200的一个第一关联层201，但不作为限制。可以理解，该神经网络中可以包括一个第一关联层201，也可以包括两个以上的第一关联层201，具体数量不限，所有第一关联层201的功能是相同的。

在一个实施例中，参看图4，所述神经网络200包括一个第一关联层201、及第二关联层202、全连接层203。该第一关联层201包括用于执行特征提取处理的卷积子层2011、用于在目标域上执行特征关联处理的非局部均值滤波子层2012、及用于执行融合处理的融合子层2013。

或者，参看图5，所述神经网络200包括M个第一关联层(201a，201b……)、及第二关联层202、全连接层203；所述M大于1。第一个第一关联层201a包括卷积子层2011a、非局部均值滤波子层2012a、及融合子层2013a；第二个第一关联层201b包括卷积子层2011b、非局部均值滤波子层2012b、及融合子层2013b；后续以此类推。其中，待分类处理的视频帧序列被分成M段输入至神经网络的各个第一关联层中。

在一个实施例中，分类处理模块101可以通过执行步骤S1011-S1013来实现上述步骤S101，步骤S101具体包括以下：

S1011：由各个所述第一关联层的卷积子层对输入的每N个视频帧执行特征提取处理得到表征目标特征的二维特征向量，并将所述二维特征向量输出至与卷积子层对应的融合子层；

S1012：由各个所述第一关联层的非局部均值滤波子层对输入的每N个视频帧执行空间域上的非局部均值滤波处理得到空间域关联数据，并将所述空间域关联数据输出至与非局部均值滤波子层对应的融合子层；

S1013：由各个所述第一关联层的融合子层对输入的所述二维特征向量和空间域关联数据对应执行融合处理，得到并输出对应的第一关联特征向量；

其中，所述卷积子层包括二维CNN层；所述N等于1。

二维CNN层的具体架构不限，只要能够实现从一个视频帧中提取目标特征得到二维特征向量即可。

结合图4中的神经网络200来说，由于神经网络200中仅具有一个第一关联层201，因而将整个视频帧序列输入到该第一关联层201中，具体是分别输入到第一关联层201的卷积子层2011和非局部均值滤波子层2012中。

由该第一关联层201的卷积子层2011对输入的每个视频帧执行特征提取处理得到表征目标特征的二维特征向量，并将所述二维特征向量输出至融合子层2012；由该第一关联层201的非局部均值滤波子层2012对输入的每个视频帧执行空间域上的非局部均值滤波处理得到空间域关联数据，并将所述空间域关联数据输出至融合子层2013；由该第一关联层201的融合子层2013对输入的所述二维特征向量和空间域关联数据对应执行融合处理，得到并输出对应的第一关联特征向量至第二关联层202中。

第一关联层201中，针对每个视频帧均会得到对应的一对二维特征向量和空间域关联数据，融合子层2013对每对二维特征向量和空间域关联数据执行融合处理得到对应的第一关联特征向量。

结合图5中的神经网络200来说，由于神经网络200中具有M个第一关联层，因而将视频帧序列分成M段，每段输入至一个对应的第一关联层，具体是输入到一个第一关联层的卷积子层和非局部均值滤波子层中。通过多个第一关联层实现对视频帧序列的分段处理，可以提升神经网络的处理效率。

结合前述实施例中的视频帧序列长度公式来说，L＝K*N，将K＝M*a代入该视频帧序列公式，则视频帧序列长度L＝M*a*N，一个视频帧序列分为M个视频段(可分别输入至10个第一关联层中进行处理)，每个视频段分成a组，每组N个视频帧。例如，若视频帧序列中包括1000(L＝1000)个视频帧，则可以分成10(M＝10)个视频段，每个视频段中包括100个视频帧(当N＝10时，a＝10；当N＝1时，a＝100)。

第一个视频段输入至第一个第一关联层201a，第二个视频段输入至第二个第一关联层201b，以此类推。N＝1时，每个第一关联层每次对输入的100个视频帧中的每个视频帧在空间域上进行特征关联得到对应的100个第一关联特征向量。

本实施例中，目标域为空间域。无论是图4中的神经网络架构，还是图5中的神经网络架构，由各个所述第一关联层的非局部均值滤波子层对输入的每N个视频帧执行空间域上的非局部均值滤波处理得到空间域关联数据，可以包括以下步骤：

当前块和参考块的相似度例如可以为当前块和参考块间的欧式距离、汉明距离、余弦相似度等，具体可参看相关算法，在此不再赘述。

可以理解，非局部均值滤波子层输出的空间域关联数据的尺寸与卷积子层输出的二维特征向量的尺寸是匹配的，以便进行后续融合处理。

具体非局部均值滤波的计算公式如下：

其中，f(x_i，x_j)是当前块x_i与每个参考块x_j的相似度权重函数，可以使用高斯函数，例如y_i为位置i上的像素滤波后的像素值；i为当前块的中心像素位置的索引；j为参考块的中心像素位置索引；g(x_j)为位置j对应的参考块的中心像素值；C(x)为归一化函数，具体不限。

融合子层执行的融合处理例如可以是对二维特征向量和空间域关联数据进行对应位置数据的加权求和、叠加、求均值等处理，具体不限。

在另一个实施例中，分类处理模块101可以通过执行步骤S1014-S1016来实现上述步骤S101，步骤S101具体包括以下：

S1014：由各个第一关联层的所述卷积子层对输入的每N个视频帧执行特征提取处理得到表征目标特征的三维特征向量，并将所述三维特征向量输出至与卷积子层对应的融合子层；

S1015：由各个第一关联层的非局部均值滤波子层对输入的每N个视频帧执行时空域上的非局部均值滤波处理得到所述N个视频帧的时空域关联数据，并将所述时空域关联数据输出至与非局部均值滤波子层对应的融合子层；

S1016：由各个所述第一关联层的融合子层对输入的所述三维特征向量和时空域关联数据执行融合处理，得到并输出对应的第一关联特征向量；

本实施例的神经网络也可以采用图4或图5中的神经网络架构，不同的是：第一，本实施例中的卷积子层执行的是三维卷积，即对输入的每N个视频帧执行特征提取处理输出表征目标特征的三维特征向量；第二，本实施例中的非局部均值滤波子层执行的是时空域上的特征关联处理，即对输入的每N个视频帧执行时空域上的非局部均值滤波处理，输出所述N个视频帧的时空域关联数据。其余内容可以参看前述实施例中的内容，在此不再赘述。

三维CNN层例如可以包括：VGGNet-11、VGGNet-16、ResNet-18或ResNet-50等，具体不限。

图6是三维CNN层执行三维卷积的示意图，增加了一个时间维度数据，即N个视频帧可以视为一个时空三维数据体(包括长度维度、宽度维度(即像素坐标)、及时间维度)，其中，H是视频帧的宽度，W是视频帧的长度，N是进行卷积的视频帧序列的长度(即N个视频帧)，k*k*d是三维卷积核的尺寸(各个维度与N个视频帧的维度对应)，经过三维卷积核与时空三维数据体的卷积之后，结果output作为三维CNN层输出的三维特征向量。

在本实施例中，目标域为时空域，非局部均值滤波子层对输入的视频帧中每N个视频帧执行时空域上的非局部均值滤波处理中，增加了一个时间维度数据。N个视频帧可以视为一个时空三维数据体(时间域上一个维度，空间域上两个维度)，每个像素的数据可以表示为(h，w，t)，其中(h，w)为像素相应视频帧上的像素坐标，t表示视频帧在视频帧序列中的时间维度数据。

由各个第一关联层的非局部均值滤波子层对输入的每N个视频帧执行时空域上的非局部均值滤波处理得到所述N个视频帧的时空域关联数据，包括：

非局部均值滤波的计算公式可以基于前述公式(1)实现，其中，位置索引还需要考虑时间维度坐标值，即从二维位置索引格式(h，w)变为增加时间维度的三维位置索引格式(h，w，t)，其他相关内容可参看公式(1)相关描述，在此便不再赘述。

第一关联层、第二关联层虽然都在整个端到端的网络中一同训练，但两个层功能和结构上相对独立，均可拓展和移植。第二关联层中的非局部均值滤波子层可以与二维CNN层、或三维CNN层等特征提取网络层并联，非局部均值滤波子层不会影响特征提取网络层的结构或参数，这对大规模的数据训练非常友好和方便。

在一个实施例中，第二关联层可包括循环神经网络RNN层，可以实现视频帧序列在时间域上的上下文联系，即可实现对所有第一关联特征向量在时间域上进行特征关联得到第二关联特征向量，加强特征在时间域上隐藏的上下文联系。RNN层例如可以为LSTM层，通过LSTM层的隐状态来编码输入的第一关联特征向量，得到具有长时间关联的第二关联特征向量。

在一个实施例中，全连接层例如可以是一个softmax分类器，具体不限，可实现对第二关联特征向量进行分类得到相应的分类结果即可。

神经网络是预先训练好的。对于神经网络的训练方式例如可以是，将视频帧序列样本对应的分类结果标注在神经网络的输出端，将视频帧序列样本输入至神经网络的输入端，输出端会得到一个预测结果，与标注的分类结果相比较会得到一个误差，这个误差会在神经网络中反向传播，神经网络的网络参数都根据这个误差做调整，直到神经网络的输出达到预期的效果。神经网络通过端到端的学习得到相应的网络参数，训练过程更简单。

本发明还提供一种视频分类装置，参看图2，在一个实施例中，该视频分类装置100可以包括：

分类处理模块101，用于将待分类处理的视频帧序列输入至已训练的神经网络中，以由所述神经网络对所述视频帧序列中每N个视频帧在目标域上进行特征关联得到对应的第一关联特征向量，对所有第一关联特征向量在时间域上进行特征关联得到第二关联特征向量，并对所述第二关联特征向量进行分类得到并输出分类结果；

分类确定模块102，用于依据所述神经网络输出的分类结果确定所述视频帧序列的类别；

在一个实施例中，所述神经网络包括至少一个第一关联层；

其中，所述卷积子层包括二维CNN层；所述N等于1。

在一个实施例中，第一目标域关联子单元执行由各个所述第一关联层的非局部均值滤波子层对输入的每N个视频帧执行空间域上的非局部均值滤波处理得到空间域关联数据时具体用于：

在一个实施例中，所述神经网络包括至少一个第一关联层；所述目标域还包括时间域；

在一个实施例中，第二目标域关联子单元执行由各个第一关联层的非局部均值滤波子层对输入的每N个视频帧执行时空域上的非局部均值滤波处理得到所述N个视频帧的时空域关联数据时具体用于：

在一个实施例中，所述神经网络包括M个第一关联层；

在一个实施例中，所述分类处理模块包括：

在一个实施例中，所述第二关联层包括循环神经网络RNN层。

上述装置中各个层的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程，在此不再赘述。

对于装置实施例而言，由于其基本对应于方法实施例，所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的层可以是或者也可以不是物理上分开的，作为层显示的部件可以是或者也可以不是物理层。

本发明还提供一种电子设备，包括处理器及存储器；所述存储器存储有可被处理器调用的程序；其中，所述处理器执行所述程序时，实现如前述实施例中所述的视频分类方法。

本发明视频分类装置的实施例可以应用在电子设备上。以软件实现为例，作为一个逻辑意义上的装置，是通过其所在电子设备的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言，如图7所示，图7是本发明根据一示例性实施例示出的视频分类装置10所在电子设备的一种硬件结构图，除了图7所示的处理器510、内存530、接口520、以及非易失性存储器540之外，实施例中装置10所在的电子设备通常根据该电子设备的实际功能，还可以包括其他硬件，对此不再赘述。

本发明还提供一种机器可读存储介质，其上存储有程序，该程序被处理器执行时，使得图像设备实现如前述实施例中任意一项所述的视频分类方法。

本发明可采用在一个或多个其中包含有程序代码的存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。机器可读存储介质包括永久性和非永久性、可移动和非可移动媒体，可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。机器可读存储介质的例子包括但不限于：相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。

Claims

1.一种视频分类方法，其特征在于，包括：

其中，所述N为小于所述视频帧序列长度的正整数，所述目标域至少包括空间域或时空域，所述时空域为时间域与空间域的联合。

2.如权利要求1所述的视频分类方法，其特征在于，所述神经网络包括至少一个第一关联层；

所述由所述神经网络对所述视频帧序列中每N个视频帧在目标域上进行特征关联得到对应的第一关联特征向量，包括：

其中，所述卷积子层包括二维CNN层；所述N等于1。

3.如权利要求2所述的视频分类方法，其特征在于，由各个所述第一关联层的非局部均值滤波子层对输入的每N个视频帧执行空间域上的非局部均值滤波处理得到空间域关联数据，包括：

4.如权利要求1所述的视频分类方法，其特征在于，所述神经网络包括至少一个第一关联层；所述目标域为时空域；

由各个第一关联层的卷积子层对输入的每N个视频帧执行特征提取处理得到表征目标特征的三维特征向量，并将所述三维特征向量输出至与卷积子层对应的融合子层；

5.如权利要求4所述的视频分类方法，其特征在于，由各个第一关联层的非局部均值滤波子层对输入的每N个视频帧执行时空域上的非局部均值滤波处理得到所述N个视频帧的时空域关联数据，包括：

6.如权利要求2-5中任一项所述的视频分类方法，其特征在于，所述神经网络包括M个第一关联层；

7.如权利要求1-5中任一项所述的视频分类方法，其特征在于，由所述神经网络对所述视频帧序列中每N个视频帧在目标域上进行特征关联得到对应的第一关联特征向量，对所有第一关联特征向量在时间域上进行特征关联得到第二关联特征向量，并对所述第二关联特征向量进行分类得到并输出分类结果，包括：

8.如权利要求7所述的视频分类方法，其特征在于，所述第二关联层包括循环神经网络RNN层。

9.一种视频分类装置，其特征在于，包括：

10.如权利要求9所述的视频分类装置，其特征在于，所述神经网络包括至少一个第一关联层；

其中，所述卷积子层包括二维CNN层；所述N等于1。

11.如权利要求10所述的视频分类装置，其特征在于，第一目标域关联子单元执行由各个所述第一关联层的非局部均值滤波子层对输入的每N个视频帧执行空间域上的非局部均值滤波处理得到空间域关联数据时具体用于：

12.如权利要求9所述的视频分类装置，其特征在于，所述神经网络包括至少一个第一关联层；所述目标域为时空域；

第二特征提取子单元，由各个第一关联层的卷积子层对输入的每N个视频帧执行特征提取处理得到表征目标特征的三维特征向量，并将所述三维特征向量输出至与卷积子层对应的融合子层；

13.如权利要求12所述的视频分类装置，其特征在于，第二目标域关联子单元执行由各个第一关联层的非局部均值滤波子层对输入的每N个视频帧执行时空域上的非局部均值滤波处理得到所述N个视频帧的时空域关联数据时具体用于：

14.如权利要求10-13中任一项所述的视频分类装置，其特征在于，所述神经网络包括M个第一关联层；

15.如权利要求9-13中任一项所述的视频分类装置，其特征在于，所述分类处理模块包括：

16.如权利要求15所述的视频分类装置，其特征在于，所述第二关联层包括循环神经网络RNN层。

17.一种电子设备，其特征在于，包括处理器及存储器；所述存储器存储有可被处理器调用的程序；其中，所述处理器执行所述程序时，实现如权利要求1-8中任意一项所述的视频分类方法。

18.一种机器可读存储介质，其特征在于，其上存储有程序，该程序被处理器执行时，实现如权利要求1-8中任意一项所述的视频分类方法。