CN109255392B

CN109255392B - 基于非局部神经网络的视频分类方法、装置及设备

Info

Publication number: CN109255392B
Application number: CN201811161801.0A
Authority: CN
Inventors: 岳凯宇; 孙明; 周峰
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2018-09-30
Filing date: 2018-09-30
Publication date: 2020-11-24
Anticipated expiration: 2038-09-30
Also published as: CN109255392A

Abstract

本发明提出了一种基于非局部神经网络的视频分类方法、装置及设备，其中，方法包括：获取待分类视频，并从待分类视频中提取N帧图像帧，其中，N为正整数；分别提取N帧图像帧中的图像特征，并将N帧图像帧中的图像特征输入到非局部神经网络中进行处理，以生成N帧图像帧的关联性特征和N帧图像的图像识别结果；根据N帧图像帧的关联性特征和图像识别结果确定待分类视频的类别。由此，通过非局部神经网络获取N帧图像帧的关联性特征和图像识别结果，进而根据关联性特征和图像识别结果确定视频的类别，能够有效的捕捉视频中多帧之间的关系，提高了视频分类的准确性，并且降低参数规模的冗余，提高了处理效率。

Description

基于非局部神经网络的视频分类方法、装置及设备

技术领域

本发明涉及视频处理技术领域，尤其涉及一种基于非局部神经网络的视频分类方法、装置及设备。

背景技术

随着深度学习的发展，越来越多的深度学习方法被应用到视频分类中，并且取得了很大的进展。由于一个视频会包含多帧，帧与帧之间有着很强的关系，如何捕捉多帧之间的关系是视频分类里一个研究热点。

相关技术中，通常采用递归型卷积神经网络捕捉多帧之间的关系，进而实现视频分类。然而，由于递归型卷积神经网络结构包含大量的参数，导致参数规模冗余，在进行视频分类时效率非常低下。并且，传统的神经网络捕捉多帧之间关系的准确性还有进一步提升的空间。

发明内容

本发明旨在至少在一定程度上解决相关技术中的技术问题之一。

为此，本发明的第一个目的在于提出一种基于非局部神经网络的视频分类方法，通过非局部神经网络获取N帧图像帧的关联性特征和图像识别结果，进而根据关联性特征和图像识别结果确定视频的类别，能够有效的捕捉视频中多帧之间的关系，提高了视频分类的准确性，并且降低了参数规模的冗余，提高了处理效率。

本发明的第二个目的在于提出一种基于非局部神经网络的视频分类装置。

本发明的第三个目的在于提出一种计算机设备。

本发明的第四个目的在于提出一种非临时性计算机可读存储介质。

为达上述目的，本发明第一方面实施例提出了一种基于非局部神经网络的视频分类方法，包括：

获取待分类视频，并从所述待分类视频中提取N帧图像帧，其中，N为正整数；

分别提取所述N帧图像帧中的图像特征，并将所述N帧图像帧中的图像特征输入到非局部神经网络中进行处理，以生成所述N帧图像帧的关联性特征和所述N帧图像的图像识别结果；以及

根据所述N帧图像帧的关联性特征和所述图像识别结果确定所述待分类视频的类别。

本发明实施例的基于非局部神经网络的视频分类方法，通过非局部神经网络获取N帧图像帧的关联性特征和图像识别结果，进而根据关联性特征和图像识别结果确定视频的类别，由于非局部神经网络通过非局部的特征获取N帧图像帧之间的关联性，能够有效的捕捉视频中多帧之间的关系，提高了视频分类的准确性。并且，只需要较少的参数就能实现视频分类，降低参数规模的冗余，提高了处理效率。

为达上述目的，本发明第二方面实施例提出了一种基于非局部神经网络的视频分类装置，包括：

获取模块，用于获取待分类视频，并从所述待分类视频中提取N帧图像帧，其中，N为正整数；

处理模块，用于分别提取所述N帧图像帧中的图像特征，并将所述N帧图像帧中的图像特征输入到非局部神经网络中进行处理，以生成所述N帧图像帧的关联性特征和所述N帧图像的图像识别结果；以及

分类模块，用于根据所述N帧图像帧的关联性特征和所述图像识别结果确定所述待分类视频的类别。

本发明实施例的基于非局部神经网络的视频分类装置，通过非局部神经网络获取N帧图像帧的关联性特征和图像识别结果，进而根据关联性特征和图像识别结果确定视频的类别，由于非局部神经网络通过非局部的特征获取N帧图像帧之间的关联性，能够有效的捕捉视频中多帧之间的关系，提高了视频分类的准确性。并且，只需要较少的参数就能实现视频分类，降低参数规模的冗余，提高了处理效率。

为达上述目的，本发明第三方面实施例提出了一种计算机设备，包括处理器和存储器；其中，所述处理器通过读取所述存储器中存储的可执行程序代码来运行与所述可执行程序代码对应的程序，以用于实现如第一方面实施例所述的基于非局部神经网络的视频分类方法。

为达上述目的，本发明第四方面实施例提出了一种非临时性计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如第一方面实施例所述的基于非局部神经网络的视频分类方法。

本发明附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

图1为本发明实施例所提供的一种基于非局部神经网络的视频分类方法的流程示意图；

图2为本发明实施例所提供的另一种基于非局部神经网络的视频分类方法的流程示意图；

图3为本发明实施例所提供的一种多帧图像帧中的相关点的示意图；

图4为本发明实施例所提供的另一种多帧图像帧中的相关点的示意图；

图5为本发明实施例所提供的另一种基于非局部神经网络的视频分类方法的流程示意图；

图6为本发明实施例所提供的一种非局部神经网络结构示意图；

图7为本发明实施例所提供的一种生成紧凑型表达的流程示意图；

图8为本发明实施例所提供的一种基于非局部神经网络的视频分类装置的结构示意图；

图9示出了适于用来实现本发明实施例的示例性计算机设备的框图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

下面参考附图描述本发明实施例的基于非局部神经网络的视频分类方法、装置及设备。

图1为本发明实施例所提供的一种基于非局部神经网络的视频分类方法的流程示意图，如图1所示，该方法包括：

步骤101，获取待分类视频，并从待分类视频中提取N帧图像帧，其中，N为正整数。

本实施例中，在进行视频分类时，需要先获取待分类视频，进而提取待分类视频的所有图像帧，并选取其中N帧图像帧。例如，可以从待分类视频的所有图像帧中随机选取N帧图像帧。再例如，可以从所有图像帧中每隔一帧选取一帧图像帧。

其中，N可以根据实际需要自行设置，例如，N为32。

步骤102，分别提取N帧图像帧中的图像特征，并将N帧图像帧中的图像特征输入到非局部神经网络中进行处理，以生成N帧图像帧的关联性特征和N帧图像的图像识别结果。

作为一种示例，可以提取N帧图像帧的图像特征，并根据图像特征生成图像特征矩阵，将图像特征矩阵输入到非局部神经网络中进行处理。

其中，图像特征包括但不限于亮度特征、纹理特征、颜色特征等。

在本发明的一个实施例中，可以根据图像特征矩阵生成相应的特征空间，通过相关算法获取特征空间中任意两个特征点之间的相似度，进而根据特征点之间的相似度确定N帧图像帧中任意两个像素区域之间的相似度，从而获取N帧图像帧中的相关点，进而根据相关点确定N帧图像帧之间的关联性。

其中，获取特征空间中特征点之间的相似度的实现形式包括但不限于点乘法、欧式距离等。

在本发明的一个实施例中，通过将图像特征矩阵输入到非局部神经网络中进行处理，可以输出相应的图像识别结果。

作为一种示例，图像识别结果可以为矩阵的形式，可以通过下述公式输出图像识别结果：

g(X)＝W_gX

z＝Y+X

其中，X为输入的特征矩阵，z为输出的图像识别结果，

W_θ，W_g为非局部神经网络的卷积层权重。其中，卷积层权重可以根据大量实验数据获得。

作为一种可能的实现方式，可以预先设置特征与图像内容的对应关系，并将矩阵z与预设的特征进行匹配，根据匹配结果确定N帧图像帧的内容。

步骤103，根据N帧图像帧的关联性特征和图像识别结果确定待分类视频的类别。

在本发明的一个实施例中，由于已经获取了N帧图像帧的关联性特征，因此，可以从N帧图像帧中选取关联性较高的图像帧，进而根据图像识别结果获取这些图像帧的内容，并将这些图像帧的内容作为待分类视频的内容，从而对待分类视频进行分类。

作为一种示例，从待分类视频中提取了32帧图像帧，并获取了32帧图像帧中有20帧为关联帧，进而根据图像识别结果获取该20帧图像帧的内容为弹吉他，则确定该视频内容为弹吉他，视频类别为乐器演奏。

作为另一种示例，还可以根据N帧图像帧的关联性特征和图像识别结果，通过相关视频数据集进行视频分类。

本发明实施例的基于非局部神经网络的视频分类方法，通过非局部神经网络获取N帧图像帧的关联性特征和图像识别结果，进而根据关联性特征和图像识别结果确定视频的类别，由于非局部神经网络通过非局部的特征获取N帧图像帧之间的关联性，能够有效的捕捉视频中多帧之间的关系，提高了视频分类的准确性。并且，非局部神经网络只需要较少的参数就能实现视频分类，降低参数规模的冗余，提高了处理效率。

基于上述实施例，下面针对确定N帧图像帧的关联性特征进行说明。

图2为本发明实施例所提供的另一种基于非局部神经网络的视频分类方法的流程示意图，如图2所示，该方法包括：

步骤201，提取N帧图像帧的图像特征，以生成图像特征矩阵。

步骤202，将图像特征矩阵向量化，其中，向量化后的图像特征矩阵作为非局部神经网络的输入。

作为一种示例，图像特征矩阵为X，X∈[C,T,H,W]，其中，C为特征空间的通道数，T为时序维度(比如帧数)，H和W分别为图像帧的长和宽。进而，对图像特征矩阵X进行向量化操作，并将向量化后的图像特征矩阵作为非局部神经网络的输入。

步骤203，根据输入的向量化后的图像特征矩阵生成相应的特征空间。

作为一种示例，图像特征矩阵为X，X∈[C,T,H,W]，对图像特征矩阵进行向量化，进而可以根据向量化后的图像特征矩阵X生成维度为[1,CTHW]的特征空间。

步骤204，计算特征空间中第一特征点和第二特征点的第一相似度，其中，第一特征点和第二特征点为特征空间中的任意特征点。

作为一种示例，可以应用预设公式对第一特征点和第二特征点的特征值进行计算，获取所述第一相似度，其中，所述公式如下：

其中，F为第一相似度；

W_θ均代表卷积层权重；X_i，X_j分别为第一特征点的特征值和第二特征点的特征值。

步骤205，根据第一相似度确定N帧图像帧中第一像素区域和第二像素区域的第二相似度，其中，第一像素区域和第二像素区域分别与第一特征点和第二特征点对应。

本实施例中，由于已经获取了特征空间中任意两特征点之间的第一相似度，因此，可以根据第一相似度确定N帧图像帧中第一像素区域和第二像素区域的第二相似度，例如，可以将第一相似度作为N帧图像帧中相应的两个像素区域之间的相似度。也就是说，通过计算特征空间中特征点之间的相似度，可以获取N帧图像帧中两个位置之间的相关性，从而捕捉到N帧图像中相关的点。其中，像素区域可以为多个像素点组成的区域。

可以理解，相关技术中在获取特征空间中两个特征点之间的相似度时，针对通道维度C只是做了相加处理的操作，没有考虑到不同通道维度上的两个特征点之间的关系。本实施例中，通过向量化的特征矩阵获取维度为[1,CTHW]的特征空间，可以进一步获取不同通道中的特征点之间的相似度，例如，可以获取在通道Ci中任意一个特征点以及通道Cj中任意一个特征点之间的相似度。

举例而言，如图3所示，对于维度为[C,THW]的特征空间，在踢足球的图像帧中，对于图像中人腿部上的一点，可以捕捉到人体上的其他相关点。如图4所示，对于向量化后获取的维度为[1,CTHW]的特征空间，在踢足球的图像帧中，对于图像中人腿部上的一点，除人体上的相关点外，还可以捕捉到足球上的点作为该点的相关点。

步骤206，根据第二相似度确定N帧图像帧的关联性特征。

作为一种示例，可以将第二相似度与预设阈值进行比较，当第二相似度大于预设阈值时，确定相应的第一像素区域和第二像素区域为N帧图像帧中相关的点。进而，可以根据两帧图像中相关的点以及相应的第二相似度，通过相关算法获取图像帧之间的相关性。

本发明实施例的基于非局部神经网络的视频分类方法，通过将图像特征矩阵向量化，在获取特征空间中任意两个特征点之间的相似度时，能够获取不同通道维度上的特征点之间的关系，从而提高了捕捉图像帧中相关点的准确性，进一步提高了视频分类的准确性。此外，还可以用于图像分类中捕捉图像中的相关点，从而提高图像分类的准确性。

基于上述实施例，进一步地，还可以生成神经网络的紧凑型表达，以减小计算复杂度。

图5为本发明实施例所提供的另一种基于非局部神经网络的视频分类方法的流程示意图，如图5所示，在生成特征空间之后，该方法包括：

步骤301，通过非局部神经网络的卷积层对特征空间进行变换，以获取第一特征空间、第二特征空间以及第三特征空间。

本实施例中，神经网络结构可以由下述公式实现：

其中，vec(X)∈[1,CTHW]表示将矩阵X向量化，

W_θ，W_g为非局部神经网络的卷积层权重。

作为一种示例，参照图6，可以通过3个1x1x1的卷积层对特征空间进行变换，以生成第一特征空间、第二特征空间和第三特征空间。

在本发明的一个实施例中，还可以对卷积层输出的特征空间进行分组操作，从而使本发明实施例的非局部神经网络在训练过程中更容易优化，以收敛到局部最优解。

步骤302，根据第一特征空间、第二特征空间和第三特征空间分别生成第一向量、第二向量和第三向量。

步骤303，对第一向量、第二向量和第三向量中的任意两个进行Hadamard矩阵操作，生成第四向量。

在本发明的一个实施例中，参照图7，可以根据3个特征空间分别生成第一向量、第二向量和第三向量，其中，第一向量、第二向量和第三向量均为CountSketching向量，由此，通过对特征空间的压缩生成了神经网络中特征空间的紧凑型表达，有效地减小了计算复杂度与显存开销。进而，对第一向量、第二向量和第三向量中的任意两个进行Hadamard矩阵操作，生成第四向量。

作为一种示例，m＝Wθvec(X),

q＝Wg vec(X)，因此可以得到步骤301中公式变形：

使用二阶张量相乘的形式可以表达为：

其中，

1＝[1,1,...,1]∈R^d。

步骤304，通过傅里叶变换对第四向量和第五向量进行卷积运算，生成第六向量，其中，第五向量为第一向量、第二向量和第三向量中的另一个向量。

其中，第五向量为第一向量、第二向量和第三向量中的另一个向量。比如，若对第一向量和第二向量进行Hadamard矩阵操作生成第四向量，则将第三向量作为第五向量。

步骤305，对第六向量进行反傅里叶变换以生成图像识别结果。

本实施例中，参照图7，可以通过快速傅里叶变换FFT对第四向量和第五向量进行卷积运算，生成第六向量，并通过反傅里叶变换IFFT对第六向量进行运算，进一步根据运算结果生成图像识别结果。本实施例中，图像识别结果的实现形式可以为特征矩阵。

作为一种示例，可以通过相关算法Ψ()实现：

y′＝FFT^-1(FFT(Ψ(m,h1,s1))*FFT(Ψ(n,h2,s2))):[d²]→[D]

其中，Ψ()算法如下：

输入：x∈R^d

输出：Ψ(x,h,s)∈R^D

步骤一：生成双向独立散列函数h:[d]→[D]，s:[d]→[D]，其中，h从{1,2，…，d}中均匀抽取，s从{-1,1}中均匀抽取。

步骤二：Ψ(x,h,s)＝{c₁,c₂,…,c_D}∈R^D，其中，

c_j＝Σ_i:h(i)＝js(i)x_i

步骤三：

y′＝FFT^-1(FFT(Ψ(m,h1,s1))*FFT(Ψ(n,h2,s2))):[d²]→[D]

其中，*为复数乘法。

由此，通过FFT与IFFT的方式实现了对高维度的特征空间降低维度。

在本发明的一个实施例中，还可以对反傅里叶变换后的特征空间进行归一化，从而获取图像识别结果。例如，如图6，z：1x1x1表示通过卷积层对特征空间进行变换，BN表示对特征空间进行归一化，ReLU表示神经网络的激活函数，进而通过公式Z＝W_zY+X获取图像识别结果，其中，W_z为卷积层权重。

步骤306，根据N帧图像帧的关联性特征和图像识别结果确定待分类视频的类别。

在本发明的一个实施例中，可以根据关联性特征从N帧图像帧中选取M帧图像帧，其中，M为小于或等于N的正整数。进而，根据图像识别结果获取M帧图像帧的内容，进一步根据M帧图像帧的内容确定待分类视频的类别。

其中，从N帧图像帧中选取M帧图像帧的实现方式有多种。

作为一种示例，从N帧中随机选1帧，然后根据已知的关联性特征获取该帧与其他帧的相关性/相似度，并与预设阈值比较，进而将大于预设阈值的图像帧作为相关帧。进一步，将该帧与其相关帧作为M帧图像帧。

作为另一种示例，进一步地，还可以针对每一帧选取M帧，将其中M值最大的图像帧及其相关图像帧作为M帧图像帧，以代表该视频内容。

本发明实施例的基于非局部神经网络的视频分类方法，通过将特征空间转换为CountSketching向量，生成了神经网络中特征空间的紧凑型表达，有效地减小了计算复杂度与显存开销。并且，使用FFT与IFFT的方式对高维的特征空间进行降低维度，减小了计算复杂度，提高了处理效率。

为了实现上述实施例，本发明还提出一种基于非局部神经网络的视频分类装置。

图8为本发明实施例所提供的一种基于非局部神经网络的视频分类装置的结构示意图，如图8所示，该装置包括：获取模块100，处理模块200，分类模块300。

其中，获取模块100，用于获取待分类视频，并从待分类视频中提取N帧图像帧，其中，N为正整数。

处理模块200，用于分别提取N帧图像帧中的图像特征，并将N帧图像帧中的图像特征输入到非局部神经网络中进行处理，以生成N帧图像帧的关联性特征和N帧图像的图像识别结果。

分类模块300，用于根据N帧图像帧的关联性特征和图像识别结果确定待分类视频的类别。

进一步地，处理模块200具体用于：提取N帧图像帧的图像特征，以生成图像特征矩阵；将图像特征矩阵向量化，其中，向量化后的图像特征矩阵作为非局部神经网络的输入。

进一步地，处理模块200具体用于：根据输入的向量化后的图像特征矩阵生成相应的特征空间；计算特征空间中第一特征点和第二特征点的第一相似度，其中，第一特征点和第二特征点为特征空间中的任意特征点；根据第一相似度确定N帧图像帧中第一像素区域和第二像素区域的第二相似度，其中，第一像素区域和第二像素区域分别与第一特征点和第二特征点对应；根据第二相似度确定N帧图像帧的关联性特征。

进一步地，处理模块200具体用于：通过非局部神经网络的卷积层对特征空间进行变换，以获取第一特征空间、第二特征空间以及第三特征空间；根据第一特征空间、第二特征空间和第三特征空间分别生成第一向量、第二向量和第三向量；对第一向量、第二向量和第三向量中的任意两个进行Hadamard矩阵操作，生成第四向量；根据第四向量生成图像识别结果。

进一步地，处理模块200还用于：通过傅里叶变换对第四向量和第五向量进行卷积运算，生成第六向量，其中，第五向量为第一向量、第二向量和第三向量中的另一个向量；对第六向量进行反傅里叶变换以生成图像识别结果。

进一步地，分类模块300具体用于：根据关联性特征从N帧图像帧中选取M帧图像帧，其中，M为小于或等于N的正整数；根据图像识别结果获取M帧图像帧的内容；根据M帧图像帧的内容确定待分类视频的类别。

需要说明的是，前述实施例对基于非局部神经网络的视频分类方法的解释说明，同样适用于本实施例的基于非局部神经网络的视频分类装置，此处不再赘述。

本发明实施例的基于非局部神经网络的视频分类装置，通过非局部神经网络获取N帧图像帧的关联性特征和图像识别结果，进而根据关联性特征和图像识别结果确定视频的类别，由于非局部神经网络通过非局部的特征获取N帧图像帧之间的关联性，能够有效的捕捉视频中多帧之间的关系，提高了视频分类的准确性。并且，非局部神经网络只需要较少的参数就能实现视频分类，降低参数规模的冗余，提高了处理效率。

为了实现上述实施例，本发明还提出一种计算机设备，包括处理器和存储器；其中，处理器通过读取存储器中存储的可执行程序代码来运行与可执行程序代码对应的程序，以用于实现如前述任一实施例所述的基于非局部神经网络的视频分类方法。

为了实现上述实施例，本发明还提出一种计算机程序产品，当计算机程序产品中的指令被处理器执行时实现如前述任一实施例所述的基于非局部神经网络的视频分类方法。

为了实现上述实施例，本发明还提出一种非临时性计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如前述任一实施例所述的基于非局部神经网络的视频分类方法。

图9示出了适于用来实现本发明实施例的示例性计算机设备的框图。图9显示的计算机设备12仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图9所示，计算机设备12以通用计算设备的形式表现。计算机设备12的组件可以包括但不限于：一个或者多个处理器或者处理单元16，系统存储器28，连接不同系统组件(包括系统存储器28和处理单元16)的总线18。

总线18表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器，外围总线，图形加速端口，处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说，这些体系结构包括但不限于工业标准体系结构(Industry StandardArchitecture；以下简称：ISA)总线，微通道体系结构(Micro Channel Architecture；以下简称：MAC)总线，增强型ISA总线、视频电子标准协会(Video Electronics StandardsAssociation；以下简称：VESA)局域总线以及外围组件互连(Peripheral ComponentInterconnection；以下简称：PCI)总线。

计算机设备12典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算机设备12访问的可用介质，包括易失性和非易失性介质，可移动的和不可移动的介质。

存储器28可以包括易失性存储器形式的计算机系统可读介质，例如随机存取存储器(Random Access Memory；以下简称：RAM)30和/或高速缓存存储器32。计算机设备12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例，存储系统34可以用于读写不可移动的、非易失性磁介质(图9未显示，通常称为“硬盘驱动器”)。尽管图9中未示出，可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器，以及对可移动非易失性光盘(例如：光盘只读存储器(Compact Disc Read OnlyMemory；以下简称：CD-ROM)、数字多功能只读光盘(Digital Video Disc Read OnlyMemory；以下简称：DVD-ROM)或者其它光介质)读写的光盘驱动器。在这些情况下，每个驱动器可以通过一个或者多个数据介质接口与总线18相连。存储器28可以包括至少一个程序产品，该程序产品具有一组(例如至少一个)程序模块，这些程序模块被配置以执行本申请各实施例的功能。

具有一组(至少一个)程序模块42的程序/实用工具40，可以存储在例如存储器28中，这样的程序模块42包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本申请所描述的实施例中的功能和/或方法。

计算机设备12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等)通信，还可与一个或者多个使得用户能与该计算机系统/服务器12交互的设备通信，和/或与使得该计算机系统/服务器12能与一个或多个其它计算设备进行通信的任何设备(例如网卡，调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口22进行。并且，计算机设备12还可以通过网络适配器20与一个或者多个网络(例如局域网(Local AreaNetwork；以下简称：LAN)，广域网(Wide Area Network；以下简称：WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器20通过总线18与计算机设备12的其它模块通信。应当明白，尽管图中未示出，可以结合计算机设备12使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

处理单元16通过运行存储在系统存储器28中的程序，从而执行各种功能应用以及数据处理，例如实现前述实施例中提及的方法。

在本发明的描述中，需要理解的是，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种基于非局部神经网络的视频分类方法，其特征在于，包括：

分别提取所述N帧图像帧中的图像特征，并将所述N帧图像帧中的图像特征输入到非局部神经网络中进行处理，以生成所述N帧图像帧的关联性特征和所述N帧图像的图像识别结果，其中，根据所述N帧图像帧的图像特征生成图像特征矩阵，根据图像特征矩阵生成相应的特征空间，获取所述特征空间中任意两个特征点之间的相似度，根据所述特征点之间的相似度确定N帧图像帧中任意两个像素区域之间的相似度，根据所述像素区域之间的相似度确定所述N帧图像帧的关联性特征；以及

2.如权利要求1所述的基于非局部神经网络的视频分类方法，其特征在于，所述提取所述N帧图像帧的图像特征，包括：

提取所述N帧图像帧的图像特征，以生成图像特征矩阵；

将所述图像特征矩阵向量化，其中，向量化后的图像特征矩阵作为所述非局部神经网络的输入。

3.如权利要求2所述的基于非局部神经网络的视频分类方法，其特征在于，所述将所述N帧图像帧中的图像特征输入到非局部神经网络中进行处理以生成所述N帧图像帧的关联性特征，包括：

根据输入的向量化后的图像特征矩阵生成相应的特征空间；

计算所述特征空间中第一特征点和第二特征点的第一相似度，其中，所述第一特征点和所述第二特征点为所述特征空间中的任意特征点；

根据所述第一相似度确定所述N帧图像帧中第一像素区域和第二像素区域的第二相似度，其中，所述第一像素区域和所述第二像素区域分别与所述第一特征点和所述第二特征点对应；以及

根据所述第二相似度确定所述N帧图像帧的关联性特征。

4.如权利要求3所述的基于非局部神经网络的视频分类方法，其特征在于，将所述N帧图像帧中的图像特征输入到非局部神经网络中进行处理，以生成所述N帧图像的图像识别结果，包括：

通过所述非局部神经网络的卷积层对所述特征空间进行变换，以获取第一特征空间、第二特征空间以及第三特征空间；

根据所述第一特征空间、所述第二特征空间和所述第三特征空间分别生成第一向量、第二向量和第三向量；

对所述第一向量、所述第二向量和所述第三向量中的任意两个进行Hadamard矩阵操作，生成第四向量；

根据所述第四向量生成所述图像识别结果。

5.如权利要求4所述的基于非局部神经网络的视频分类方法，其特征在于，所述根据所述第四向量生成所述图像识别结果，包括：

通过傅里叶变换对所述第四向量和第五向量进行卷积运算，生成第六向量，其中，所述第五向量为所述第一向量、所述第二向量和所述第三向量中的另一个向量；

对所述第六向量进行反傅里叶变换以生成所述图像识别结果。

6.如权利要求4所述的基于非局部神经网络的视频分类方法，其特征在于，所述根据所述N帧图像帧的关联性特征和所述图像识别结果确定所述待分类视频的类别，包括：

根据所述关联性特征从所述N帧图像帧中选取M帧图像帧，其中，M为小于或等于N的正整数；

根据所述图像识别结果获取所述M帧图像帧的内容；

根据所述M帧图像帧的内容确定所述待分类视频的类别。

7.一种基于非局部神经网络的视频分类装置，其特征在于，包括：

处理模块，用于分别提取所述N帧图像帧中的图像特征，并将所述N帧图像帧中的图像特征输入到非局部神经网络中进行处理，以生成所述N帧图像帧的关联性特征和所述N帧图像的图像识别结果，其中，根据所述N帧图像帧的图像特征生成图像特征矩阵，根据图像特征矩阵生成相应的特征空间，获取所述特征空间中任意两个特征点之间的相似度，根据所述特征点之间的相似度确定N帧图像帧中任意两个像素区域之间的相似度，根据所述像素区域之间的相似度确定所述N帧图像帧的关联性特征；以及

8.如权利要求7所述的基于非局部神经网络的视频分类装置，其特征在于，所述处理模块具体用于：

提取所述N帧图像帧的图像特征，以生成图像特征矩阵；

9.如权利要求8所述的基于非局部神经网络的视频分类装置，其特征在于，所述处理模块具体用于：

根据输入的向量化后的图像特征矩阵生成相应的特征空间；

根据所述第二相似度确定所述N帧图像帧的关联性特征。

10.如权利要求9所述的基于非局部神经网络的视频分类装置，其特征在于，所述处理模块具体用于：

根据所述第四向量生成所述图像识别结果。

11.如权利要求10所述的基于非局部神经网络的视频分类装置，其特征在于，所述处理模块还用于：

12.如权利要求10所述的基于非局部神经网络的视频分类装置，其特征在于，所述分类模块具体用于：

根据所述图像识别结果获取所述M帧图像帧的内容；

根据所述M帧图像帧的内容确定所述待分类视频的类别。

13.一种计算机设备，其特征在于，包括处理器和存储器；

其中，所述处理器通过读取所述存储器中存储的可执行程序代码来运行与所述可执行程序代码对应的程序，以用于实现如权利要求1-6中任一项所述的基于非局部神经网络的视频分类方法。

14.一种非临时性计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-6中任一项所述的基于非局部神经网络的视频分类方法。