CN115512271A

CN115512271A - 视频的识别方法、装置、存储介质及电子装置

Info

Publication number: CN115512271A
Application number: CN202211222466.7A
Authority: CN
Inventors: 孙璆琛; 陈波扬; 李合青; 陈小彪; 黄萌; 刘峻豪; 罗正宇
Original assignee: Zhejiang Dahua Technology Co Ltd
Current assignee: Zhejiang Dahua Technology Co Ltd
Priority date: 2022-10-08
Filing date: 2022-10-08
Publication date: 2022-12-23

Abstract

本发明实施例提供了一种视频的识别方法、装置、存储介质及电子装置，其中，该方法包括：确定目标视频中包括的当前关键帧图像到目标帧图像的光流场，其中，目标帧图像为目标视频中包括的在当前关键帧图像之后的图像；基于光流场确定当前关键帧图像到目标帧图像的目标光流值；在目标光流值小于或等于预定阈值的情况下，基于当前关键帧图像的第一特征图以及光流场确定目标帧图像的第二特征图；识别第一特征图，确定第一特征图中包括的识别对象，以及识别第二特征图，确定第二特征图中包括的识别对象。通过本发明，解决了相关技术中存在的识别视频速度慢、效率低的问题，达到提高视频识别速度以及效率的效果。

Description

视频的识别方法、装置、存储介质及电子装置

技术领域

本发明实施例涉及视频目标检测领域，具体而言，涉及一种视频的识别方法、装置、存储介质及电子装置。

背景技术

视频目标检测是用于识别视频帧图像中的目标物体位置并预测其类别的技术。近几年，虽然基于图像的目标检测任务得到了很大的进步，但是现实生活中面临了更多的视频信息。视频中的物体可能会存在运动模糊、遮挡、截断等情况，并且视频本身数据量比较大，视频中相邻帧包含的图像内容很相似，造成大量的信息冗余，所以如果直接将图像目标检测器应用于视频中的视频帧，会存在检测速度慢和检测效率低的问题。

由此可知，相关技术中存在识别视频速度慢、效率低的问题。

针对相关技术中存在的上述问题，目前尚未提出有效的解决方案。

发明内容

本发明实施例提供了一种视频的识别方法、装置、存储介质及电子装置，以至少解决相关技术中存在的识别视频速度慢、效率低的问题。

根据本发明的一个实施例，提供了一种视频的识别方法，包括：确定目标视频中包括的当前关键帧图像到目标帧图像的光流场，其中，所述目标帧图像为所述目标视频中包括的在所述当前关键帧图像之后的图像；基于所述光流场确定所述当前关键帧图像到所述目标帧图像的目标光流值；在所述目标光流值小于或等于预定阈值的情况下，基于所述当前关键帧图像的第一特征图以及所述光流场确定所述目标帧图像的第二特征图；识别所述第一特征图，确定所述第一特征图中包括的识别对象，以及识别所述第二特征图，确定所述第二特征图中包括的识别对象。

根据本发明的另一个实施例，提供了一种视频的识别装置，包括：第一确定模块，用于确定目标视频中包括的当前关键帧图像到目标帧图像的光流场，其中，所述目标帧图像为所述目标视频中包括的在所述当前关键帧图像之后的图像；第二确定模块，用于基于所述光流场确定所述当前关键帧图像到所述目标帧图像的目标光流值；第三确定模块，用于在所述目标光流值小于或等于预定阈值的情况下，基于所述当前关键帧图像的第一特征图以及所述光流场确定所述目标帧图像的第二特征图；识别模块，用于识别所述第一特征图，确定所述第一特征图中包括的识别对象，以及识别所述第二特征图，确定所述第二特征图中包括的识别对象。

根据本发明的又一个实施例，还提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。

根据本发明的又一个实施例，还提供了一种电子装置，包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行上述任一项方法实施例中的步骤。

通过本发明，确定目标视频中包括的当前关键帧图像到目标帧图像的光流场，其中，目标帧图像是目标视频中包括的在当前帧图像之后的图像，根据光流场确定当前关键帧图像到目标帧图像到的目标光流值，在目标光流值小于或等于预定阈值的情况下，根据当前关键帧图像的第一特征图以及光流场确定目标帧图像的第二特征图，识别第一特征图，确定第一特征图中包括的识别对象，以及识别第二特征图，确定第二特征图中包括的识别对象。由于在确定目标光流值小于或等于预定阈值的情况下，可以根据当前关键帧的第一特征图以及光流场确定目标帧图像的第二特征图，并对第二特征图进行识别，即根据第一特征图以及光流场预测第二特征图，由于光流信息的预测速度比特征提取的速度要快很多，所以利用光流场将当前关键帧图像的特征图传播到目标帧图像中，在保证检测准确率的前提下，可以极大地提高视频识别的速度。因此，可以解决相关技术中存在的识别视频速度慢、效率低的问题，达到提高视频识别速度以及效率的效果。

附图说明

图1是本发明实施例的一种视频的识别方法的移动终端的硬件结构框图；

图2是根据本发明实施例的视频的识别方法的流程图；

图3是根据本发明具体实施例的视频的识别方法流程图；

图4是根据本发明具体实施例的多尺度显著特征融合检测网络结构示意图；

图5是根据本发明实施例的视频的识别装置的结构框图。

具体实施方式

下文中将参考附图并结合实施例来详细说明本发明的实施例。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。

本申请实施例中所提供的方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。以运行在移动终端上为例，图1是本发明实施例的一种视频的识别方法的移动终端的硬件结构框图。如图1所示，移动终端可以包括一个或多个(图1中仅示出一个)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)和用于存储数据的存储器104，其中，上述移动终端还可以包括用于通信功能的传输设备106以及输入输出设备108。本领域普通技术人员可以理解，图1所示的结构仅为示意，其并不对上述移动终端的结构造成限定。例如，移动终端还可包括比图1中所示更多或者更少的组件，或者具有与图1所示不同的配置。

存储器104可用于存储计算机程序，例如，应用软件的软件程序以及模块，如本发明实施例中的视频的识别方法对应的计算机程序，处理器102通过运行存储在存储器104内的计算机程序，从而执行各种功能应用以及数据处理，即实现上述的方法。存储器104可包括高速随机存储器，还可包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器104可进一步包括相对于处理器102远程设置的存储器，这些远程存储器可以通过网络连接至移动终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

传输装置106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括移动终端的通信供应商提供的无线网络。在一个实例中，传输装置106包括一个网络适配器(Network Interface Controller，简称为NIC)，其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，传输装置106可以为射频(Radio Frequency，简称为RF)模块，其用于通过无线方式与互联网进行通讯。

在本实施例中提供了一种视频的识别方法，图2是根据本发明实施例的视频的识别方法的流程图，如图2所示，该流程包括如下步骤：

步骤S202，确定目标视频中包括的当前关键帧图像到目标帧图像的光流场，其中，所述目标帧图像为所述目标视频中包括的在所述当前关键帧图像之后的图像；

步骤S204，基于所述光流场确定所述当前关键帧图像到所述目标帧图像的目标光流值；

步骤S206，在所述目标光流值小于或等于预定阈值的情况下，基于所述当前关键帧图像的第一特征图以及所述光流场确定所述目标帧图像的第二特征图；

步骤S208，识别所述第一特征图，确定所述第一特征图中包括的识别对象，以及识别所述第二特征图，确定所述第二特征图中包括的识别对象。

在上述实施例中，初始时，可以将目标视频中的第一帧图像确定为当前关键帧图像，目标帧图像可以是当前关键帧的下一帧图像，可以根据目标光流值确定目标帧图像是否为关键帧图像，当目标帧图像是关键帧图像的情况下，将当前关键帧图像更新为目标帧图像，在目标帧图像为非关键帧图像的情况下，将目标帧图像更新为目标帧图像的下一帧图像。即目标帧图像时目标视频中包括的当前关键帧图像之后的图像，依次确定目标视频中包括的图像帧是否为关键帧，若是，则更新当前关键帧，若不是，则进行下一帧视频的判断。

在上述实施例中，可以将当前关键帧图像以及目标帧图像输入至光流模型中，通过光流模型确定当前关键帧图像到目标帧图像的光流场。其中，光流模型可以是通过训练数据进行训练后得到的模型。在训练光流模型时，采用本案例准备的数据集中训练集的子集，对于训练集中的所有视频片段，可以选择每个视频片段的第一帧图像、中间帧图像以及最后一帧图像组成训练集，最终训练集中包含11586张视频帧图像。用此训练集完成光流网络的训练，用于后期预测视频关键帧与非视频关键帧之间的光流场。

在上述实施例中，在目标光流值小于或等于预定阈值的情况下，可以认为目标帧图像为非关键帧图像，因此，可以利用当前关键帧图像的第一特征图以及光流场预测目标帧图像的第二特征图。即对于非关键帧，将其和当前关键帧同时送入光流模型，进行光流场的计算，然后再根据光流场以及当前关键帧的特征图预测出当前非关键帧的特征图，由于光流信息的预测速度比特征提取的速度要快很多，所以利用光流场将视频关键帧的特征图传播到非视频关键帧，在保证检测准确率的前提下，可以极大地提高视频目标检测的速度。

其中，上述步骤的执行主体可以为处理器等，但不限于此。

在一个示例性实施例中，在基于所述当前关键帧图像的第一特征图以及所述光流场确定所述目标帧图像的第二特征图之前，所述方法还包括：利用第一卷积层中包括的多个不同尺度的卷积层分别提取所述当前关键帧图像的特征，得到多个第三特征图；将多个所述第三特征图依次输入至concat层、shuffle层以及多个卷积层，得到第四特征图；确定所述第四特征图的通道注意力向量；基于所述第四特征图以及所述通道注意力向量确定所述第一特征图。在本实施例中，在确定当前关键帧的第一特征图时，可以通过检测模型进行确定。检测模型可以是通过对ResNet101网络后得到的模型。可以将ResNet101网络第一层7×7尺度卷积替换为并列的多个尺度卷积层(如4个，该取值仅是一种示例性说明，还可以是3个卷积层、5个卷积层等，本发明对此不作限制)、concat层和Shuffle层，其中4个卷积层尺度分别为3×3、5×5、7×7、9×9，卷积核个数均为16，为了保证4个尺度的卷积层输出大小一致，可以对4个尺度卷积层的输入进行边缘扩充，大小分别为1、2、3、4，步长为1。concat层用于级联不同尺度卷积输出的特征图，Shuffle层用于充分打乱和融合多尺度信息，分组参数为8。

在上述实施例中，多个卷积层可以为3个卷积层，如可以在Shuffle层之后，是maxpooling层以及ResNet101中的conv2_x、conv3_x和conv4_x网络模块，得到conv4_x网络模块输出的第四特征图。并确定第四特征图的通道注意力向量。其中，可以将第四特征图输入至通道注意力模块ECA-Block中，得到表征通道特征重要程度的一维向量。

在上述实施例中，将多个所述第三特征图依次输入至concat层、shuffle层以及多个卷积层，得到第四特征图包括：将多个第三特征图输入至concat层，得到concat层的输出结果，将concat层的输出结果输入至shuffle层中，得到shuffle层的输出结果，再将shuffle层的输出结果输入至卷积层，得到卷积层的输出结果，并将卷积层的输出结果输入给下一个卷积层，将最后一层卷积层的输出结果确定为第四特征图。

在一个示例性实施例中，基于所述第四特征图以及所述通道注意力向量确定所述第一特征图包括：确定所述通道注意力向量中包括的每个目标通道的向量值；确定所述第四特征图中包括的每个所述目标通道的特征值与所述目标通道对应的向量值的乘积；将所述乘积构成的特征图确定为所述第一特征图。在本实施例中，可以将一维向量，即通道注意力向量与第四特征图的各通道的特征值对应相乘，得到加入通道注意力后的特征图，即第一特征图。

在上述实施例中，由于ResNet101网络输入的空间分辨率为160×160，因此一3通道的RGB图像送入特征提取网络中，经过多尺度卷积特征融合后，Shuffle层的输出尺寸为80×80×64，80×80×64的特征图经过max pooling、conv2_x、conv3_x、conv4_x层操作，得到8倍下采样后的特征图，因此conv4_x模块的输出特征图尺寸为10×10×1024，10×10×1024的特征图送入通道注意力模块，得到表征通道注意程度的一维向量1×1×1024，将一维向量与conv_4x模块的输出各通道对应相乘，得到加入通道注意力后的特征图，至此完成视频帧的特征提取，得到第一特征图f_k。

在上述实施例中，构造构建的多尺度显著特征融合网络，利用多尺度卷积核提取输入视频关键帧的特征，并利用Shuffle算子对多尺度特征进行充分的打乱和融合，然后将多尺度特征送入网络进行特征提取，将提取后的特征送入通道注意力模块，得到融合通道重要程度的特征图，在后续的操作中，对重要的通道可以投入更多的关注，而对于不重要的通道，则可以较少关注甚至忽略，通过提取输入图像中的多尺度显著特征，使得检测器对目标物体投入更多的关注，改善了由于网络网络层数过多使有用信息缺失，导致检测效果较差的问题。

在一个示例性实施例中，基于所述光流场确定当前关键帧图像到目标帧图像的目标光流值包括：确定所述目标帧图像的清晰度；在所述清晰度大于预设清晰度的情况下，基于所述光流场确定当前关键帧图像到目标帧图像的目标光流值。在本实施例中，可以对目标帧图像的清晰度进行计算，如果清晰度小于提前设定的预设清晰度，则认为目标帧图像不够清晰，不可以作为关键帧，否则认为目标帧图像足够清晰。目标帧图像足够清晰时，可以将目标帧图像与当前关键帧图像同时送入光流网络模型中，计算当前帧到当前关键帧的光流场M，并根据光流场确定目标光流值。

在上述实施例中，根据视频帧的清晰度以及目标运行幅度提取关键帧，只有视频帧足够清晰且目标发生剧烈运动时，此视频帧才可以作为关键帧，通过自适应视频帧提取策略提取质量高的关键帧，在一定程度上提升了目标物体的检测精度。

在一个示例性实施例中，基于所述光流场确定当前关键帧图像到目标帧图像的目标光流值包括：确定所述光流场中包括的每个像素点对应的光流值；将所述光流值的和确定为所述目标光流值。在本实施例中，光流场的通道数可以为2，空间分辨率与输入图像一致，其中空间中每个位置处预测的光流信息都分为x方向和y方向两个维度，将光流场中所有像素位置的x方向和y方向的光流值进行相加，得到目标光流值。

在一个示例性实施例中，在基于所述光流场确定当前关键帧图像到目标帧图像的目标光流值之后，所述方法还包括：在所述目标光流值大于所述预定阈值的情况下，将所述目标帧图像确定为所述当前关键帧图像。在本实施例中，如果光流值大于提前设定的预定阈值，则认目标帧图像中目标发生剧烈运行，更新当前关键帧图像为目标帧图像，否则认为目标帧图像中目标运动幅度小，不可以作为关键帧。

在一个示例性实施例中，基于所述当前关键帧图像的第一特征图以及所述光流场确定所述目标帧图像的第二特征图包括：确定所述光流场的目标空间分辨率；将所述第一特征图的空间分辨率调整为所述目标空间分辨率，得到第五特征图；基于所述第五特征图以及所述光流场确定所述第二特征图。在本实施例中，可以使用双线性差值算法调整第一特征图f_k的空间分辨率，保证和光流场的空间分辨率一致，由于光流场M是目标图像帧像素位置到当前关键帧相应位置的运行矢量，所以可以根据光流场以及当前关键帧特征图预测出目标帧图像的第二特征图。

下面结合具体实施方式对视频的识别方法进行说明：

图3是根据本发明具体实施例的视频的识别方法流程图，如图3所示，该流程包括：

步骤S302，准备数据集。

数据集可以采用ILSVRC 2017中的ILSVRC 2017VID，ILSVRC 2017VID数据集共包括30个类别，这些类别是目标检测任务200个基本类别的子集，且都是精心选择的，考虑到不同因素，如运动类型，视频背景干扰，平均目标数目等，ILSVRC 2017VID数据集由训练集、验证集个测试集组成，其中训练集是3862个视频片段，验证集是555个视频片段，测试集937个视频片段，所有的视频段包括56-458帧图像。

步骤S304，构造多尺度显著特征融合检测网络。

多尺度显著特征融合检测网络包括特征提取分支和目标检测分支，其中，多尺度显著特征融合检测网络结构示意图可参见附图4。

所述步骤S304中特征提取分支网络的构造步骤如下：

步骤S304-2，改进ResNet101网络，首先将网络第一层7×7尺度卷积替换为并列的4个尺度卷积层、concat层和Shuffle层，其中4个卷积层尺度分别为3×3、5×5、7×7、9×9，卷积核个数均为16，为了保证4个尺度的卷积层输出大小一致，对4个尺度卷积层的输入进行边缘扩充，大小分别为1、2、3、4，步长为1。concat层用于级联不同尺度卷积输出的特征图，Shuffle层用于充分打乱和融合多尺度信息，分组参数为8。

步骤S304-4，Shuffle层之后，是max pooling层以及ResNet101中的conv2_x、conv3_x和conv4_x网络模块，接着将conv4_x模块的输出特征图送入通道注意力模块ECA-Block中，得到表征通道特征重要程度的一维向量，然后将一维向量与conv4_x模块的输出特征图各通道对应相乘，得到加入通道注意力后的特征图，至此，特征提取网络构造完毕，可以完成一视频帧的特征提取。

进一步地，所述步骤S304中目标检测分支网络的构造步骤如下：

组合RPN、ROI Pooling以及ResNet的conv5_x网络模块，生成多尺度显著特征融合检测网络的目标检测分支，用于视频帧中目标的检测。

步骤S306，训练模型，得到训练后的检测模型和光流模型。

检测模型的训练，采用本案例准备的数据集中训练集，模型的训练过程将视频关键帧的选取步长L固定为10，采用梯度下降优化器进行参数的更新与优化，共迭代2代，每代进行12万次参数的迭代，初始学习率设置为0.00025，随着迭代次数的增加，学习率会逐渐减小，由于在训练的初期，模型离最优点距离较远，所以要用较大的学习率来进行参数的更新与优化，而在模型训练的后期，距离最优点距离较近，所以要用较小的步长进行参数的更新，否则可能会出现模型偏离最优点产生震荡的情况，采用这种学习率的设置方法有利于减小训练时的误差，提高模型的收敛速度。

光流模型的训练，采用本案例准备的数据集中训练集的子集，对于训练集中的所有视频片段，选择每个视频片段的第一帧图像、中间帧图像以及最后一帧图像组成训练集，最终训练集中包含11586张视频帧图像。用此训练集完成光流网络的训练，用于后期预测视频关键帧与非视频关键帧之间的光流场。

步骤S308，加载训练好的光流模型和检测模型，将视频第一帧作为关键帧送入多尺度显著特征融合检测网络的特征提取分支。

步骤S310，对当前视频关键帧进行特征提取操作，得到当前关键帧的特征图f_k。

由于ResNet101网络输入的空间分辨率为160×160，因此一3通道的RGB图像送入特征提取网络中，经过多尺度卷积特征融合后，Shuffle层的输出尺寸为80×80×64，80×80×64的特征图经过max pooling、conv2_x、conv3_x、conv4_x层操作，得到8倍下采样后的特征图，因此conv4_x模块的输出特征图尺寸为10×10×1024，10×10×1024的特征图送入通道注意力模块，得到表征通道注意程度的一维向量1×1×1024，将一维向量与conv_4x模块的输出各通道对应相乘，得到加入通道注意力后的特征图，至此完成视频帧的特征提取，得到特征图f_k。

步骤S312，将下一帧作为当前帧，判断是否为关键帧。

首先对当前帧的清晰度进行计算，如果清晰度小于提前设定的清晰度阈值，则认为当前帧不够清晰，不可以作为关键帧，跳转到步骤S314，否则视频帧足够清晰，接着将当前帧与当前关键帧同时送入光流网络中，计算当前帧到当前关键帧的光流场M，光流场的通道数为2，空间分辨率与输入图像一致，其中空间中每个位置处预测的光流信息都分为方向和方向两个维度，将光流场中所有像素位置的方向和方向的光流值进行相加，得到光流值，如果光流值大于提前设定的阈值，则认当前帧中目标发生剧烈运行，更新当前帧为当前视频帧，跳转到步骤S310，否则认为当前帧中目标运动幅度小，不可以作为关键帧，跳转到S314。

步骤S314，将当前帧与当前关键帧送入光流网络，计算当前帧到当前关键帧的光流场M。

若步骤S312已经进行光流场的计算，则无需重复计算，否则进行光流场的计算。首先将两张输入图像在通道维度上进行连接，则网络的输入可以看做是一个通道数为6的图像数据，网络的输出通道数为2，空间分辨率与输入一致。

步骤S316，根据光流场M以及当前关键帧特征图f_k，预测得到当前帧特征图f_c。

首先使用双线性差值算法调整特征图f_k的空间分辨率，保证和光流场的空间分辨率一致，由于光流场M是当前帧像素位置到当前关键帧相应位置的运行矢量，所以可以根据光流场以及当前关键帧特征图预测出当前帧的特征图。

步骤S318，特征图送入目标检测分支进行目标检测识别。

将关键帧特征图f_k以及非关键帧特征图f_c送入检测分支，进行目标类别分类以及框的回归，得到最终的检测结果。

在前述实施例中，对视频数据本身数据量大且冗余量大的特点，利用自适应视频关键帧策略区别关键帧和非关键帧，对关键帧，将其送入特征提取网络进行特征提取操作，而对于非关键帧，将其和当前关键帧同时送入光流网络，进行光流场的计算，然后再根据光流场以及当前关键帧的特征图预测出当前非关键帧的特征图，由于光流信息的预测速度比特征提取的速度要快很多，所以利用光流场将视频关键帧的特征图传播到非视频关键帧，在保证检测准确率的前提下，可以极大地提高视频目标检测的速度。通过多尺度卷积核，提取输入图像的不同感受野下的多尺度特征，并将多尺度特征进行融合，在一定程度上可以提高目标检测的精度。在特征提取网络中加入通道注意力模块，计算得到融合通道重要程度的特征度，在后续的处理过程中，可以根据通道特征的重要程度，对重要的特征进行加强，对不重要的特征进行抑制甚至忽略，在一定程度上提高了视频中目标物体的检测精确率。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

在本实施例中还提供了一种视频的识别装置，该装置用于实现上述实施例及优选实施方式，已经进行过说明的不再赘述。如以下所使用的，术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现，但是硬件，或者软件和硬件的组合的实现也是可能并被构想的。

图5是根据本发明实施例的视频的识别装置的结构框图，如图5所示，该装置包括：

第一确定模块52，用于确定目标视频中包括的当前关键帧图像到目标帧图像的光流场，其中，所述目标帧图像为所述目标视频中包括的在所述当前关键帧图像之后的图像；

第二确定模块54，用于基于所述光流场确定所述当前关键帧图像到所述目标帧图像的目标光流值；

第三确定模块56，用于在所述目标光流值小于或等于预定阈值的情况下，基于所述当前关键帧图像的第一特征图以及所述光流场确定所述目标帧图像的第二特征图；

识别模块58，用于识别所述第一特征图，确定所述第一特征图中包括的识别对象，以及识别所述第二特征图，确定所述第二特征图中包括的识别对象。

在一个示例性实施例中，所述装置可以用于在基于所述当前关键帧图像的第一特征图以及所述光流场确定所述目标帧图像的第二特征图之前，利用第一卷积层中包括的多个不同尺度的卷积层分别提取所述当前关键帧图像的特征，得到多个第三特征图；将多个所述第三特征图依次输入至concat层、shuffle层以及多个卷积层，得到第四特征图；确定所述第四特征图的通道注意力向量；基于所述第四特征图以及所述通道注意力向量确定所述第一特征图。

在一个示例性实施例中，所述装置可以通过如下方式实现基于所述第四特征图以及所述通道注意力向量确定所述第一特征图：确定所述通道注意力向量中包括的每个目标通道的向量值；确定所述第四特征图中包括的每个所述目标通道的特征值与所述目标通道对应的向量值的乘积；将所述乘积构成的特征图确定为所述第一特征图。

在一个示例性实施例中，第二确定模块54可以通过如下方式实现基于所述光流场确定当前关键帧图像到目标帧图像的目标光流值：确定所述目标帧图像的清晰度；在所述清晰度大于预设清晰度的情况下，基于所述光流场确定当前关键帧图像到目标帧图像的目标光流值。

在一个示例性实施例中，第二确定模块54可以通过如下方式实现基于所述光流场确定当前关键帧图像到目标帧图像的目标光流值：确定所述光流场中包括的每个像素点对应的光流值；将所述光流值的和确定为所述目标光流值。

在一个示例性实施例中，所述装置可以用于在基于所述光流场确定当前关键帧图像到目标帧图像的目标光流值之后，在所述目标光流值大于所述预定阈值的情况下，将所述目标帧图像确定为所述当前关键帧图像。

在一个示例性实施例中，第三确定模块56可以通过如下方式实现基于所述当前关键帧图像的第一特征图以及所述光流场确定所述目标帧图像的第二特征图：确定所述光流场的目标空间分辨率；将所述第一特征图的空间分辨率调整为所述目标空间分辨率，得到第五特征图；基于所述第五特征图以及所述光流场确定所述第二特征图。

需要说明的是，上述各个模块是可以通过软件或硬件来实现的，对于后者，可以通过以下方式实现，但不限于此：上述模块均位于同一处理器中；或者，上述各个模块以任意组合的形式分别位于不同的处理器中。

本发明的实施例还提供了一种计算机可读存储介质，该计算机可读存储介质中存储有计算机程序，其中，该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。

在一个示例性实施例中，上述计算机可读存储介质可以包括但不限于：U盘、只读存储器(Read-Only Memory，简称为ROM)、随机存取存储器(Random Access Memory，简称为RAM)、移动硬盘、磁碟或者光盘等各种可以存储计算机程序的介质。

本发明的实施例还提供了一种电子装置，包括存储器和处理器，该存储器中存储有计算机程序，该处理器被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。

在一个示例性实施例中，上述电子装置还可以包括传输设备以及输入输出设备，其中，该传输设备和上述处理器连接，该输入输出设备和上述处理器连接。

本实施例中的具体示例可以参考上述实施例及示例性实施方式中所描述的示例，本实施例在此不再赘述。

显然，本领域的技术人员应该明白，上述的本发明的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，并且在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明不限制于任何特定的硬件和软件结合。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种视频的识别方法，其特征在于，包括：

确定目标视频中包括的当前关键帧图像到目标帧图像的光流场，其中，所述目标帧图像为所述目标视频中包括的在所述当前关键帧图像之后的图像；

基于所述光流场确定所述当前关键帧图像到所述目标帧图像的目标光流值；

在所述目标光流值小于或等于预定阈值的情况下，基于所述当前关键帧图像的第一特征图以及所述光流场确定所述目标帧图像的第二特征图；

识别所述第一特征图，确定所述第一特征图中包括的识别对象，以及识别所述第二特征图，确定所述第二特征图中包括的识别对象。

2.根据权利要求1所述的方法，其特征在于，在基于所述当前关键帧图像的第一特征图以及所述光流场确定所述目标帧图像的第二特征图之前，所述方法还包括：

利用第一卷积层中包括的多个不同尺度的卷积层分别提取所述当前关键帧图像的特征，得到多个第三特征图；

将多个所述第三特征图依次输入至concat层、shuffle层以及多个卷积层，得到第四特征图；

确定所述第四特征图的通道注意力向量；

基于所述第四特征图以及所述通道注意力向量确定所述第一特征图。

3.根据权利要求2所述的方法，其特征在于，基于所述第四特征图以及所述通道注意力向量确定所述第一特征图包括：

确定所述通道注意力向量中包括的每个目标通道的向量值；

确定所述第四特征图中包括的每个所述目标通道的特征值与所述目标通道对应的向量值的乘积；

将所述乘积构成的特征图确定为所述第一特征图。

4.根据权利要求1所述的方法，其特征在于，基于所述光流场确定当前关键帧图像到目标帧图像的目标光流值包括：

确定所述目标帧图像的清晰度；

在所述清晰度大于预设清晰度的情况下，基于所述光流场确定当前关键帧图像到目标帧图像的目标光流值。

5.根据权利要求4所述的方法，其特征在于，基于所述光流场确定当前关键帧图像到目标帧图像的目标光流值包括：

确定所述光流场中包括的每个像素点对应的光流值；

将所述光流值的和确定为所述目标光流值。

6.根据权利要求1所述的方法，其特征在于，在基于所述光流场确定当前关键帧图像到目标帧图像的目标光流值之后，所述方法还包括：

在所述目标光流值大于所述预定阈值的情况下，将所述目标帧图像确定为所述当前关键帧图像。

7.根据权利要求1所述的方法，其特征在于，基于所述当前关键帧图像的第一特征图以及所述光流场确定所述目标帧图像的第二特征图包括：

确定所述光流场的目标空间分辨率；

将所述第一特征图的空间分辨率调整为所述目标空间分辨率，得到第五特征图；

基于所述第五特征图以及所述光流场确定所述第二特征图。

8.一种视频的识别装置，其特征在于，包括：

第一确定模块，用于确定目标视频中包括的当前关键帧图像到目标帧图像的光流场，其中，所述目标帧图像为所述目标视频中包括的在所述当前关键帧图像之后的图像；

第二确定模块，用于基于所述光流场确定所述当前关键帧图像到所述目标帧图像的目标光流值；

第三确定模块，用于在所述目标光流值小于或等于预定阈值的情况下，基于所述当前关键帧图像的第一特征图以及所述光流场确定所述目标帧图像的第二特征图；

识别模块，用于识别所述第一特征图，确定所述第一特征图中包括的识别对象，以及识别所述第二特征图，确定所述第二特征图中包括的识别对象。

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行所述权利要求1至7任一项中所述的方法。

10.一种电子装置，包括存储器和处理器，其特征在于，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行所述权利要求1至7任一项中所述的方法。