CN108229336A

CN108229336A - 视频识别及训练方法和装置、电子设备、程序和介质

Info

Publication number: CN108229336A
Application number: CN201711329718.5A
Authority: CN
Inventors: 何唐从睿; 秦红伟
Original assignee: Beijing Sensetime Technology Development Co Ltd
Current assignee: Beijing Sensetime Technology Development Co Ltd
Priority date: 2017-12-13
Filing date: 2017-12-13
Publication date: 2018-06-29
Anticipated expiration: 2037-12-13
Also published as: SG11201909887RA; US20190266409A1; WO2019114405A1; CN110546645B; CN110546645A; JP6837158B2; JP2020512647A; KR102365521B1; US10909380B2; KR20190126366A; CN108229336B

Abstract

本公开实施例公开了一种视频识别及训练方法和装置、电子设备、程序和介质，其中，视频识别方法包括：提取视频中第一关键帧的特征；将所述第一关键帧的特征与所述视频中第二关键帧的融合特征进行融合，获得所述第一关键帧的融合特征；其中，所述第二关键帧在所述视频中检测时序位于所述第一关键帧之前；根据所述第一关键帧的融合特征对所述第一关键帧进行检测，获得所述第一关键帧的物体检测结果。本公开实施例通过迭代式的多帧特征融合方式增强了视频中这些关键帧的共享特征所包含的信息，提高了帧识别的准确率和视频识别效率。

Description

视频识别及训练方法和装置、电子设备、程序和介质

技术领域

本公开涉及计算机视觉技术，尤其是一种视频识别及训练方法和装置、电子设备、程序和介质。

背景技术

视频识别指，基于深度学习方法实现的图像内容理解，包括但不限于像素级语义分割、物体检测、关键点检测等。在智能驾驶、安防监控等领域有着重要应用。

发明内容

本公开实施例提供一种视频识别技术方案。

根据本公开实施例的一个方面，提供的一种视频识别方法，包括：

提取视频中第一关键帧的特征；

将所述第一关键帧的特征与所述视频中第二关键帧的融合特征进行融合，获得所述第一关键帧的融合特征；其中，所述第二关键帧在所述视频中检测时序位于所述第一关键帧之前；

根据所述第一关键帧的融合特征对所述第一关键帧进行检测，获得所述第一关键帧的物体检测结果。

可选地，在本公开上述各视频识别方法实施例中，所述第二关键帧包括所述第一关键帧在所述视频中相邻的前一关键帧。

可选地，在本公开上述各视频识别方法实施例中，所述第二关键帧的融合特征由所述第二关键帧的特征和所述视频中检测时序位于所述第二关键帧之前的第三关键帧的融合特征进行融合处理获得。

可选地，在本公开上述各视频识别方法实施例中，将所述第一关键帧的特征与所述视频中第二关键帧的融合特征进行融合之前，还包括：

获取所述第一关键帧与所述第二关键帧之间的光流场；

根据所述第一关键帧与所述第二关键帧之间的光流场，将所述第二关键帧的融合特征与所述第一关键帧对齐；

将所述第一关键帧的特征与所述视频中第二关键帧的融合特征进行融合，包括：将对齐后的所述第二关键帧的融合特征与所述第一关键帧的特征进行融合。

可选地，在本公开上述各视频识别方法实施例中，将所述第一关键帧的特征与所述视频中第二关键帧的融合特征进行融合，包括：

确定所述第一关键帧的特征与所述视频中第二关键帧的融合特征的权重系数；

根据所述第一关键帧的特征与所述视频中第二关键帧的融合特征的权重系数，将所述第一关键帧的特征与所述视频中第二关键帧的融合特征进行融合。

可选地，在本公开上述各视频识别方法实施例中，所述提取视频中第一关键帧的特征之后，还包括：

确定所述第一关键帧是否所述视频中的第一个关键帧；

响应于所述第一关键帧是所述视频中的第一个关键帧，根据所述第一个关键帧的特征，获得所述第一个关键帧的类别检测结果；

否则，响应于所述第一关键帧不是所述视频中的第一个关键帧，执行所述将所述第一关键帧的特征与所述视频中第二关键帧的融合特征进行融合的操作。

可选地，在本公开上述各视频识别方法实施例中，还包括：

从所述视频中选取第一关键帧。

可选地，在本公开上述各视频识别方法实施例中，从所述视频中选取所述第一关键帧，包括：

从所述视频中随机选取一个帧作为所述第一关键帧；或者

从所述视频中每隔若干帧选取一个帧作为所述第一关键帧；或者

将所述视频拆分为多个短视频序列，并分别从每个短视频序列中选取一个帧作为所述每个短视频序列的关键帧，所述多个短视频序列的关键帧包括所述第一关键帧；或者

从所述视频中选取一个短视频序列，并从选取的短视频序列中选取一个帧作为所述第一关键帧。

可选地，在本公开上述各视频识别方法实施例中，从短视频序列中选取一个帧作为所述第一关键帧，包括：

从短视频序列中随机选取一个帧作为所述第一关键帧；或者

选取所述短视频序列中的一个中间帧作为所述第一关键帧；其中，所述中间帧包括该中间帧所在所述短视频序列中除首帧与末帧外的帧。

可选地，在本公开上述各视频识别方法实施例中，所述中间帧包括：该中间帧所在所述短视频序列中位置居中或临近居中位置的帧。

可选地，在本公开上述各视频识别方法实施例中，还包括：

获取第一非关键帧与所述第一关键帧之间的光流场；

根据所述第一非关键帧与所述第一关键帧之间的光流场、以及所述第一关键帧的融合特征，获取所述第一非关键帧的特征；

根据所述第一非关键帧的特征对所述第一非关键帧进行检测，获得所述第一非关键帧的物体检测结果。

可选地，在本公开上述各视频识别方法实施例中，所述第一关键帧与所述第一非关键帧之间的距离小于预设阈值；或者

所述第一关键帧为所述视频中的关键帧中与所述第一非关键帧距离最近的关键帧；或者

所述第一非关键帧与所述第一关键帧属于同一个短视频序列。

可选地，在本公开上述各视频识别方法实施例中，获取所述第一非关键帧与所述第一关键帧之间的光流场之后，还包括：

根据所述第一非关键帧与所述第一关键帧之间的光流场，将所述第一关键帧的融合特征与所述第一非关键帧对齐；

根据所述第一非关键帧与所述第一关键帧之间的光流场、以及所述第一关键帧的融合特征，获取所述第一非关键帧的特征，包括：

根据所述第一非关键帧与所述第一关键帧之间的光流场、以及对齐后的所述第一关键帧的融合特征，获取所述第一非关键帧的特征。

可选地，在本公开上述各视频识别方法实施例中，所述视频中的帧标注有标注信息；

所述方法还包括：

基于所述视频中至少一个帧的物体检测结果与标注信息之间的差异，对实现所述视频识别方法的视频识别网络进行训练。

可选地，在本公开上述各视频识别方法实施例中，所述标注信息包括：至少一个物体的物体框与类别信息；

所述类别检测结果包括物体检测框与物体检测框对应的物体类别；

基于所述视频中至少一个帧的物体检测结果与标注信息之间的差异，对实现所述视频识别方法的视频识别网络进行训练，包括：基于所述视频中至少一个帧的物体检测结果中物体检测框与标注信息中对应物体框的位置之间差异和/或物体检测框对应的物体类别与标注信息中对应的类别信息之间的差异，调整所述视频识别网络中的网络参数值。

根据本公开实施例的另一个方面，提供的一种视频识别网络的训练方法，包括：

利用视频识别网络提取视频中当前关键帧的特征和前一关键帧的特征；

利用所述视频识别网络，将所述当前关键帧的特征与所述前一关键帧的特征进行融合，获得当前关键帧的融合特征；以及获取所述视频中的当前目标帧与所述当前关键帧之间的光流场；其中，所述当前目标帧为所述当前关键帧所在片段中除所述当前关键帧以外的其他帧；

利用所述视频识别网络，根据所述当前目标帧与所述当前关键帧之间的光流场、以及所述当前关键帧的融合特征，获取所述当前目标帧的特征；

利用所述视频识别网络，根据所述当前目标帧的特征对所述当前目标帧进行检测，获得所述当前目标帧的物体检测结果；

基于所述当前目标帧的物体检测结果与所述当前目标帧的标注信息之间的差异，对所述视频识别网络进行训练。

可选地，在本公开上述各训练方法实施例中，将所述当前关键帧的特征与所述前一关键帧的特征进行融合，包括：

获取所述当前关键帧与所述前一关键帧之间的光流场；

根据所述当前关键帧与所述前一关键帧之间的光流场，将所述前一关键帧的特征与所述当前关键帧对齐；

将对齐后的所述前一关键帧的特征与所述当前关键帧的特征进行融合。

可选地，在本公开上述各训练方法实施例中，将所述前一关键帧的特征与所述当前关键帧的特征进行融合，包括：

确定所述前一关键帧的特征与所述当前关键帧的特征的权重系数；

根据所述前一关键帧的特征与所述当前关键帧的特征的权重系数，将所述前一关键帧的特征与所述当前关键帧的特征进行融合。

可选地，在本公开上述各训练方法实施例中，所述提取视频中当前关键帧的特征和前一关键帧的特征之前，还包括：

从所述视频中选取所述当前关键帧、所述前一关键帧和所述当前目标帧。

可选地，在本公开上述各训练方法实施例中，从所述视频中选取所述当前关键帧、所述前一关键帧和所述当前目标帧，包括：

从所述视频中选取一帧作为所述当前目标帧；

以所述当前目标帧为起点，在所述视频中向前第一距离采样一帧作为所述前一关键帧，向后第二距离采样一帧作为所述当前关键帧。

可选地，在本公开上述各训练方法实施例中，所述第二距离小于所述第一距离。

可选地，在本公开上述各训练方法实施例中，所述标注信息包括：至少一个物体的物体框与类别信息；

所述当前目标帧的类别检测结果包括所述当前目标帧中的物体检测框与物体检测框对应的物体类别；

基于所述当前目标帧的物体检测结果与所述当前目标帧的标注信息之间的差异，对所述视频识别网络进行训练，包括：基于所述当前目标帧的物体检测结果中物体检测框与标注信息中对应物体框的位置之间差异和/或物体检测框对应的物体类别与标注信息中对应的类别信息之间的差异，调整所述视频识别网络中的网络参数值。

可选地，在本公开上述各训练方法实施例中，由每组所述当前关键帧、所述前一关键帧和所述当前目标帧组成训练样本，由至少一个训练样本组成训练样本集，依次从所述训练样本集中选取训练样本，对所述视频识别网络进行迭代训练，直至满足预设训练完成条件。

根据本公开实施例的又一个方面，提供的一种视频识别装置，包括：

特征提取网络，用于提取视频中第一关键帧的特征；

融合网络，用于将所述第一关键帧的特征与所述视频中第二关键帧的融合特征进行融合，获得所述第一关键帧的融合特征；其中，所述第二关键帧在所述视频中的检测时序位于所述第一关键帧之前；

检测网络，用于根据所述第一关键帧的融合特征对所述第一关键帧进行检测，获得所述第一关键帧的物体检测结果。

可选地，在本公开上述各视频识别装置实施例中，所述第二关键帧包括所述第一关键帧在所述视频中相邻的前一关键帧。

可选地，在本公开上述各视频识别装置实施例中，所述第二关键帧的融合特征由所述第二关键帧的特征和所述视频中检测时序位于所述第二关键帧之前的第三关键帧的融合特征进行融合处理获得。

可选地，在本公开上述各视频识别装置实施例中，还包括：

光流传播模块，用于获取所述第一关键帧与所述第二关键帧之间的光流场；以及根据所述第一关键帧与所述第二关键帧之间的光流场，将所述第二关键帧的融合特征与所述第一关键帧对齐；

所述融合网络具体用于：将对齐后的所述第二关键帧的融合特征与所述第一关键帧的特征进行融合，获得所述第一关键帧的融合特征。

可选地，在本公开上述各视频识别装置实施例中，所述融合网络将所述第一关键帧的特征与所述视频中第二关键帧的融合特征进行融合时，具体用于：确定所述第一关键帧的特征与所述视频中第二关键帧的融合特征的权重系数；以及根据所述第一关键帧的特征与所述视频中第二关键帧的融合特征的权重系数，将所述第一关键帧的特征与所述视频中第二关键帧的融合特征进行融合。

可选地，在本公开上述各视频识别装置实施例中，还包括：

确定模块，用于确定所述第一关键帧是否所述视频中的第一个关键帧；

所述检测网络，还用于根据所述确定模块的确定结果，响应于所述第一关键帧是所述视频中的第一个关键帧，根据所述第一个关键帧的特征对所述第一关键帧进行检测，获得所述第一个关键帧的物体检测结果；

所述融合网络具体用于：根据所述确定模块的确定结果，响应于所述第一关键帧不是所述视频中的第一个关键帧，将所述第一关键帧的特征与所述视频中第二关键帧的融合特征进行融合。

可选地，在本公开上述各视频识别装置实施例中，还包括：

选取模块，用于从所述视频中选取第一关键帧。

可选地，在本公开上述各视频识别装置实施例中，所述选取模块具体用于：

从所述视频中随机选取一个帧作为所述第一关键帧；或者

可选地，在本公开上述各视频识别装置实施例中，所述选取模块从短视频序列中选取一个帧作为所述第一关键帧，具体用于：

从短视频序列中随机选取一个帧作为所述第一关键帧；或者

可选地，在本公开上述各视频识别装置实施例中，所述中间帧包括：该中间帧所在所述短视频序列中位置居中或临近居中位置的帧。

可选地，在本公开上述各视频识别装置实施例中，所述光流传播模块，还用于获取第一非关键帧与所述第一关键帧之间的光流场；以及根据所述第一非关键帧与所述第一关键帧之间的光流场、以及所述第一关键帧的融合特征，获取所述第一非关键帧的特征；

所述检测网络，还用于根据所述第一非关键帧的特征对所述第一非关键帧进行检测，获得所述第一非关键帧的物体检测结果。

可选地，在本公开上述各视频识别装置实施例中，所述第一关键帧与所述第一非关键帧之间的距离小于预设阈值；或者

可选地，在本公开上述各视频识别装置实施例中，所述光流传播模块，具体用于：获取所述第一非关键帧与所述第一关键帧之间的光流场，根据所述第一非关键帧与所述第一关键帧之间的光流场，将所述第一关键帧的融合特征与所述第一非关键帧对齐；根据所述第一非关键帧与所述第一关键帧之间的光流场、以及对齐后的所述第一关键帧的融合特征，获取所述第一非关键帧的特征。

可选地，在本公开上述各视频识别装置实施例中，所述视频识别装置包括视频识别网络；所述视频中的帧标注有标注信息；

所述装置还包括：

训练模块，用于基于所述视频中至少一个帧的物体检测结果与标注信息之间的差异，对所述视频识别网络进行训练。

可选地，在本公开上述各视频识别装置实施例中，所述标注信息包括：至少一个物体的物体框与类别信息；

所述训练模块具体用于：基于所述视频中至少一个帧的物体检测结果中物体检测框与标注信息中对应物体框的位置之间差异和/或物体检测框对应的物体类别与标注信息中对应的类别信息之间的差异，调整所述视频识别网络中的网络参数值。

根据本公开实施例的再一个方面，提供的一种视频识别网络的训练装置，包括：

视频识别网络，用于提取视频中当前关键帧的特征和前一关键帧的特征；将所述当前关键帧的特征与所述前一关键帧的特征进行融合，获得当前关键帧的融合特征；以及获取所述视频中的当前目标帧与所述当前关键帧之间的光流场；其中，所述当前目标帧为所述当前关键帧所在片段中除所述当前关键帧以外的其他帧；根据所述当前目标帧与所述当前关键帧之间的光流场、以及所述当前关键帧的融合特征，获取所述当前目标帧的特征；以及根据所述当前目标帧的特征对所述当前目标帧进行检测，获得所述当前目标帧的物体检测结果；

训练模块，用于基于所述当前目标帧的物体检测结果与所述当前目标帧的标注信息之间的差异，对所述视频识别网络进行训练。

可选地，在本公开上述各训练装置实施例中，所述视频识别网络包括：

特征提取网络，用于提取视频中当前关键帧的特征和前一关键帧的特征；

光流传播模块，用于获取所述当前关键帧与所述前一关键帧之间的光流场，根据所述当前关键帧与所述前一关键帧之间的光流场，将所述前一关键帧的特征与所述当前关键帧对齐；以及获取所述当前目标帧与所述当前关键帧之间的光流场，根据所述当前目标帧与所述当前关键帧之间的光流场、以及所述当前关键帧的融合特征，获取所述当前目标帧的特征；

融合网络，用于将对齐后的所述前一关键帧的特征与所述当前关键帧的特征进行融合，获得当前关键帧的融合特征；

检测网络，用于根据所述当前目标帧的特征对所述当前目标帧进行检测，获得所述当前目标帧的物体检测结果。

可选地，在本公开上述各训练装置实施例中，所述融合网络将所述前一关键帧的特征与所述当前关键帧的特征进行融合时，具体用于：确定所述前一关键帧的特征与所述当前关键帧的特征的权重系数；以及根据所述前一关键帧的特征与所述当前关键帧的特征的权重系数，将所述前一关键帧的特征与所述当前关键帧的特征进行融合。

可选地，在本公开上述各训练装置实施例中，还包括：

选取模块，用于从所述视频中选取所述当前关键帧、所述前一关键帧和所述当前目标帧。

可选地，在本公开上述各训练装置实施例中，所述选取模块具体用于：从所述视频中选取一帧作为所述当前目标帧；以及以所述当前目标帧为起点，在所述视频中向前第一距离采样一帧作为所述前一关键帧，向后第二距离采样一帧作为所述当前关键帧。

可选地，在本公开上述各训练装置实施例中，所述第二距离小于所述第一距离。

可选地，在本公开上述各训练装置实施例中，所述标注信息包括：至少一个物体的物体框与类别信息；

所述训练模块具体用于：基于所述当前目标帧的物体检测结果中物体检测框与标注信息中对应物体框的位置之间差异和/或物体检测框对应的物体类别与标注信息中对应的类别信息之间的差异，调整所述视频识别网络中的网络参数值。

可选地，在本公开上述各训练装置实施例中，由每组所述当前关键帧、所述前一关键帧和所述当前目标帧组成训练样本，由至少一个训练样本组成训练样本集；

所述训练模块具体用于：依次从所述训练样本集中选取训练样本，对所述视频识别网络进行迭代训练，直至满足预设训练完成条件。

根据本公开实施例的再一个方面，提供的一种电子设备，包括：

存储器和处理器，其中，所述存储器用于存储计算机可读指令，所述处理器对所述计算机可读指令的执行使得所述处理器本公开上述任一实施例所述方法。

根据本公开实施例的再一个方面，提供的一种计算机存储介质，用于存储计算机可读指令，所述计算机可读指令在设备中运行时，所述设备中的处理器执行本公开上述任一实施例所述方法。

根据本公开实施例的再一个方面，提供的一种计算机程序，包括计算机可读指令，当所述计算机可读指令在设备中运行时，所述设备中的处理器执行本公开上述任一实施例所述方法。

根据本公开实施例的再一个方面，提供的一种计算机程序产品，用于存储计算机可读指令，所述指令被执行时使得计算机执行上述任一可能的实现方式中所述的处理图像的方法。

在一个可选实施方式中，所述计算机程序产品具体为计算机存储介质，在另一个可选实施方式中，所述计算机程序产品具体为软件产品，例如SDK等。

基于本公开上述实施例提供的视频识别方法和装置、电子设备、程序和介质，将第一关键帧的特征与视频中第二关键帧的融合特征进行融合，获得第一关键帧的融合特征，根据第一关键帧的融合特征对第一关键帧进行检测，获得第一关键帧的物体检测结果，有利于提高视频识别效率。

下面通过附图和实施例，对本公开的技术方案做进一步的详细描述。

附图说明

构成说明书的一部分的附图描述了本公开的实施例，并且连同描述一起用于解释本公开的原理。

参照附图，根据下面的详细描述，可以更加清楚地理解本公开，其中：

图1为本公开实施例的视频识别方法的一个示例的流程图。

图2为本公开实施例的视频识别方法的另一示例的流程图。

图3为图2所示实施例一个例子的对应过程示意图。

图4为本公开实施例的视频识别网络的训练方法一个示例的流程图。

图5为图4所示实施例一个例子的对应过程示意图。

图6为本公开实施例的视频识别装置一个示例的结构示意图。

图7为本公开实施例的视频识别装置另一个示例的结构示意图。

图8为本公开实施例的视频识别网络的训练装置一个示例的流程图。

图9为本公开实施例的视频识别网络的训练装置另一个示例的流程图。

图10为本公开实施例的电子设备一个应用示例的流程图。

具体实施方式

现在将参照附图来详细描述本公开的各种示例性实施例。应注意到：除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本公开的范围。

同时，应当明白，为了便于描述，附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。

以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本公开及其应用或使用的任何限制。

对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为说明书的一部分。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。

本公开实施例可以应用于终端设备、计算机系统、服务器等电子设备，其可与众多其它通用或专用计算系统环境或配置一起操作。适于与终端设备、计算机系统、服务器等电子设备一起使用的众所周知的终端设备、计算系统、环境和/或配置的例子包括但不限于：个人计算机系统、服务器计算机系统、瘦客户机、厚客户机、手持或膝上设备、基于微处理器的系统、机顶盒、可编程消费电子产品、网络个人电脑、小型计算机系统﹑大型计算机系统和包括上述任何系统的分布式云计算技术环境，等等。

终端设备、计算机系统、服务器等电子设备可以在由计算机系统执行的计算机系统可执行指令(诸如程序模块)的一般语境下描述。通常，程序模块可以包括例程、程序、目标程序、组件、逻辑、数据结构等等，它们执行特定的任务或者实现特定的抽象数据类型。计算机系统/服务器可以在分布式云计算环境中实施，分布式云计算环境中，任务是由通过通信网络链接的远程处理设备执行的。在分布式云计算环境中，程序模块可以位于包括存储设备的本地或远程计算系统存储介质上。

在实现本公开的过程中，公开人通过研究发现，在现有的视频识别方法，是将针对单张图像的识别网络扩展到视频识别任务上，该方法可能存在以下问题：

不同于单张图像的识别任务，视频识别任务中运动模糊、失焦的帧会导致识别网络失效，从而降低其识别性能，限制了识别网络的实用性；另外，对单张图像识别准确率高的识别网络往往运行速度慢，可能会达到5帧/秒左右，无法满足实时视频识别任务的需求。

图1为本公开实施例提供的视频识别方法的一个示例的流程图。可选地，该视频识别方法可以利用视频识别网络实现，但本公开实施例不限于此。如图1所示，该示例的视频识别方法包括：

102，提取视频中第一关键帧的特征。

其中，可选地，该第一关键帧可以是视频中的任一关键帧，例如，该第一关键帧可以是视频的多个关键帧中当前要处理的关键帧。或者，该第一关键帧可以包括多个帧，本公开实施例对此不做限定。

104，将第一关键帧的特征与视频中第二关键帧的融合特征进行融合，获得上述第一关键帧的融合特征。

其中，第二关键帧在上述视频中检测时序位于第一关键帧之前。在一个或多个可选实施例中，该第二关键帧例如可以是上述视频中第一关键帧相邻的前一关键帧。也就是说，该第二关键帧可以是视频的多个关键帧中位于第一关键帧之前且与第一关键帧相邻的关键帧。或者，该第二关键帧也可以是位于该第一关键帧的其他关键帧，本公开实施例对此不做限定。

该第二关键帧的融合特征可以是通过对该第二关键帧的特征和一个或多个其他帧的特征进行融合得到的。其中，这里的其他帧可以是不同于该第二关键帧的帧，可选地，该其他帧可以是位于该第二关键帧之前的帧。在一个可选例子中，该其他帧可以包括位于该第二关键帧之前的一个或多个关键帧。在本公开各实施例的一个可选实施方式中，第二关键帧的融合特征由该第二关键帧的特征和上述视频中检测时序位于该第二关键帧之前的第三关键帧的融合特征进行融合处理获得。其中，可选地，第三关键帧可以是第二关键帧的前一关键帧，这样，可以先将第二关键帧的特征和其前一关键帧(第三关键帧)的融合特征进行融合，得到第二关键帧的融合特征，然后将第二关键帧的融合特征和其后一关键帧(第一关键帧)的特征进行融合，得到第一关键帧的融合特征，以此类推，每次加入视频中最新一个未融合的关键帧的特征进行融合，通过特征融合-传播-融合-传播交替进行的方式，而不是将第一关键帧的特征与位于第一关键帧之前的所有关键帧的特征一次性融合，降低了特征融合的计算开销。

在本公开的一个或多个可选实施例中，该第二关键帧的融合特征是视频的多个关键帧中位于该第二关键帧之前的至少一个关键帧的特征融合得到的特征，但本公开实施例不限于此。

106，根据上述第一关键帧的融合特征对该第一关键帧进行检测，获得第一关键帧的物体检测结果。

其中，第一关键帧的物体检测结果例如可以包括第一关键帧的类别，或者第一关键帧中的物体检测框及其对应的物体类别。

基于本公开上述实施例提供的视频识别方法，将第一关键帧的特征与视频中第二关键帧的融合特征进行融合，获得所述第一关键帧的融合特征，根据该第一关键帧的融合特征对该第一关键帧进行检测，获得该第一关键帧的物体检测结果，能够提高视频识别效率。

本公开实施例在对视频进行识别时，可以将每一个关键帧作为当前关键帧(即上述第一关键帧)，都可以将该当前关键帧的特征与视频中历史关键帧(即位于该当前关键帧之前的关键帧)的融合特征进行融合，获得当前关键帧的融合特征，基于获得的当前关键帧的融合特征对该当前关键帧进行识别，通过一种迭代式的多帧特征融合方式增强了视频中这些关键帧的共享特征所包含的信息，提高了帧识别的准确率，提高了视频识别性能。

在本公开实施例的视频识别方法的另一个示例中，在将第一关键帧的特征与视频中第二关键帧的融合特征进行融合之前，还可以获取第一关键帧与第二关键帧之间的光流场，其中，该光流场可以包括第一关键帧与第二关键帧中逐像素点的位移向量。此外，还可以根据第一关键帧与第二关键帧之间的光流场，将第二关键帧的融合特征与第一关键帧对齐，例如，可以根据光流场中的位移向量来扭曲第二关键帧的融合特征使之与第一关键帧对齐。此时，在104中，可以将对齐后的第二关键帧的融合特征与第一关键帧的特征进行融合，得到第一关键帧的融合特征。

在本公开实施例的视频识别方法的一个可选实施方式中，将第一关键帧的特征与第二关键帧的融合特征进行融合，可以包括：确定第一关键帧的特征与第二关键帧的融合特征的权重系数；根据第一关键帧的特征与第二关键帧的融合特征的权重系数，将第一关键帧的特征与第二关键帧的融合特征进行融合。其中，第一关键帧的特征的权重系数与第二关键帧的融合特征的权重系数，分别用于表示第一关键帧的特征与第二关键帧的融合特征的在进行特征融合时所占的比例。在至少一个可选实施例中，可以根据第一关键帧的特征与第二关键帧的融合特征的权重系数，将第一关键帧的特征及其权重系数的乘积与第二关键帧的融合特征与其权重系数的乘积进行融合，但本公开实施例也可以采用其他方式进行特征的融合，本公开实施例对特征融合的具体实现不作限定。

例如，在上述可选实施方式中，可以通过如下公式获取第一关键帧的融合特征：

其中，f_fuse表示第一关键帧的融合特征，表示第一关键帧的特征，w表示第一关键帧的特征的权重系数，表示第二关键帧的融合特征，(1-w)表示第二关键帧的融合特征的权重系数，w的取值大于0且小于1。

在本公开实施例的视频识别方法的又一个示例中，如果某个关键帧是视频的首个关键帧，则可以不执行特征融合的步骤，直接根据其特征进行物体检测。相应地，该视频识别方法还包括：

确定第一关键帧是否视频中的首个关键帧(以下称为1^st关键帧)；

响应于第一关键帧是视频中的1^st关键帧，根据1^st关键帧的特征对1^st关键帧进行检测，获得1^st关键帧的物体检测结果。

此外，可以将1^st关键帧的特征传播至下一关键帧(以下称为2^nd关键帧)与其进行特征融合。也就是说，视频中的2^nd关键帧的融合特征可以是通过对1^st关键帧的特征和2^nd关键帧的特征进行融合处理得到的，此时，1^st关键帧的特征也可以看做是1^st关键帧的融合特征，但本公开实施例不限于此。

可选地，响应于第一关键帧不是视频中的1^st关键帧，可以执行上述各实施例中将第一关键帧的特征与第二关键帧的融合特征进行融合的操作。

另外，在本公开实施例的视频识别方法的一个或多个可选例子中，还可以从视频中选取第一关键帧。

在本公开各视频识别方法实施例的一个可选实施方式中，从视频中选取第一关键帧。本公开实施例中可以以多种方式选择关键帧。在一个可选例子中，可以从视频中随机选取一个帧作为第一关键帧。在另一个可选例子中，可以从视频中每隔若干帧选取一个帧作为关键帧，例如，从视频中每隔9帧选取一帧作为关键帧。这样，视频的多个关键帧之间的间隔可以是固定的。在另一个可选例子中，可以将视频拆分为多个短视频序列(或片段)，并分别从每个短视频序列(或片段)中选取一个帧作为该短视频序列(或片段)的关键帧，上述多个短视频序列(或片段)的关键帧包括第一关键帧。例如，可以将视频拆分为包括数帧到数十帧的多个短视频序列或片段，其中，该多个短视频序列或片段可以具有相同的长度，即该多个短视频序列或片段包括的帧数相同，例如10帧，或者该多个短视频序列或片段的长度可以不等，然后，可以从每个短视频序列或片段中选取关键帧，本公开实施例对此不做限定。这样，可以先确定多个短视频序列或片段及其对应的关键帧，然后对每个关键帧进行物体检测。

在另一个示例中，可以从视频中选取一个短视频序列，并从选取的短视频序列中选取一个帧作为关键帧。这样，可以在每次需要进行物体检测时选取短视频序列或片段及其关键帧，其中，可选地，可以选取预设长度的短视频序列，也可以随机选取一个长度的短视频序列，本公开实施例对此不作限定。

在在本公开实施例中，可以通过多种方式从短视频序列或片段中选取关键帧。在一个可选例子中，可以从短视频序列中随机选取一个帧作为关键帧。或者，可以选取短视频序列中的一个中间帧作为关键帧，其中，这里的中间帧可以指短视频序列中除首帧(第一帧)与末帧(最后一帧)以外的帧，例如，对于一个包括10帧(表示为：第0～9帧)的短视频序列，中间帧可以是第1～8帧中的一帧。该中间帧可以满足某一预设条件，例如该中间帧的帧号为预设数值等等。在一个可选示例中，中间帧可以是短视频序列中位置居中或临近居中位置的帧。例如，对于一个包括10帧(表示为：第0～9帧)的短视频序列，该中间帧可以是第4帧或第5帧，也可以第3帧或第6帧，等等；对于一个包括11帧(表示为：第0～10帧)的短视频序列，该中间帧可以是第5帧，也可以是与其相邻的第4帧或第6帧。可选地，在本公开实施例中，也可以选取短视频序列中的首帧或末帧作为该短视频序列中的关键帧。

可选地，也可以采用其他方式选取关键帧，本公开实施例对关键帧的选取方式不做限定。

为复用视频中的共享特征，本公开实施例在识别过程中将视频拆分为短视频序列，在每个短视频序列中只提取一帧(关键帧)的特征，然后用基于光流场的特征传播方式，将该关键帧的特征传播到该短视频序列中的其他帧(非关键帧)上。相对于选取短视频序列中的首帧或末帧作为关键帧而言，选取中间帧作为关键帧，降低了平均特征传播距离，从而最小化了短视频序列中帧之间特征传播引入的误差，减小了短视频序列中总的特征传播时间，并提升了检测结果的准确率。

在本公开实施例的视频识别方法的再一个示例中，还可以根据关键帧的特征，对非关键帧进行物体检测。为了便于理解，下面以第一非关键帧的物体检测为例进行说明，其中，可选地，该第一非关键帧可以为视频中任意一个不是关键帧的帧或者为视频中满足某种条件的非关键帧。

在一个可选例子中，可以获取第一非关键帧与第一关键帧之间的光流场，并根据第一非关键帧与第一关键帧之间的光流场、以及第一关键帧的融合特征，获取第一非关键帧的特征，并根据第一非关键帧的特征对该第一非关键帧进行检测，获得第一非关键帧的物体检测结果。

示例性地，第一关键帧与第一非关键帧之间的距离可以小于预设阈值，此时针对某个非关键帧，可以利用与其距离小于或等于预设阈值的关键帧，对该非关键帧进行物体检测，可选地，如果满足上述距离条件的关键帧的个数为至少两个(即多个)，则可以从满足条件的至少两个关键帧中随机选择或者以某种预设条件选择一个关键帧。或者，第一关键帧可以为视频的多个关键帧中与第一非关键帧距离最近的关键帧，此时，针对视频中的某个非关键帧，可以利用距离其最近的关键帧，对该非关键帧进行物体检测。或者，第一非关键帧与第一关键帧属于同一个短视频序列或片段，此时，短视频序列或片段中的所有非关键帧可以均利用同一个关键帧(即该短视频序列或片段中的关键帧)的融合特征进行物体检测，但本公开实施例不限于此。

在一个可选例子中，在获取第一非关键帧与第一关键帧之间的光流场之后，可以根据第一非关键帧与第一关键帧之间的光流场，将第一关键帧的融合特征与第一非关键帧对齐。此时，可以根据第一非关键帧与第一关键帧之间的光流场、以及对齐后的第一关键帧的融合特征，获取第一非关键帧的特征。可选地，还可以通过其他方式获取第一非关键帧的特征，本公开实施例不限于此。

基于该至少一个实施例，可以实现对短视频序列中感兴趣的非关键帧的检测，无需对短视频序列中的所有帧均进行检测，例如对于一个10帧的短视频序列，除了对其中的第5帧作为关键帧进行检测外，还可以选取第2、8帧进行检测。

基于该至少一个实施例，也可以实现对短视频序列中的逐帧检测，从而实现对视频的逐帧检测。

在上述实施例中，对于一个短视频序列，其中仅有一帧(即：关键帧)会被提取特征，其余帧的特征通过光流传播得到特征，复用了关键帧特征，避免了非关键帧的特征提取，由此避免了冗余计算，提高了帧识别速度。

图2为本公开实施例的视频识别方法另一个示例的流程图。如图2所示，该视频识别方法包括：

202，将视频拆分为多个短视频序列(或片段)。

该多个短视频序列可以包括相同的帧数、或不同的帧数、或者部分短视频序列包括相同的帧数而另一部分短视频序列包括不同的帧数。

204，依次从多个短视频序列中选取一个短视频序列作为当前短视频序列。

206，从当前短视频序列中选取一个中间帧作为当前短视频序列的关键帧，即：第一关键帧，并提取第一关键帧的特征。

208，确定第一关键帧是否视频中的首个关键帧(即1^st关键帧)。

可选地，可以确定当前短视频序列是否为多个短视频序列中第一个进行检测的短视频序列。

若第一关键帧是视频中的1^st关键帧，执行操作210～212。否则，若第一关键帧不是视频中的1^st关键帧，执行操作214。

210，将1^st关键帧的特征作为该1^st关键帧的融合特征。

可选地，可以将1^st关键帧的特征缓存为1^st关键帧的融合特征。

212，根据1^st关键帧的特征对1^st关键帧进行检测，获得该1^st关键帧的物体检测结果。

214，根据第一关键帧与第二关键帧之间的光流场，将该第二关键帧的融合特征与第一关键帧对齐。

第二关键帧在视频中的检测时序位于第一关键帧之前。可选地，该第二关键帧可以前一个检测的关键帧。

第二关键帧的融合特征由该第二关键帧的特征和上述视频中检测时序位于该第二关键帧之前的第三关键帧的融合特征进行融合处理获得。

216，将对齐后的第二关键帧的融合特征与第一关键帧的特征进行融合，获得第一关键帧的融合特征。

218，根据第一关键帧的融合特征对该第一关键帧进行检测，获得第一关键帧的物体检测结果。

本公开各实施例中，帧的物体检测结果可以是该帧的类别，或者该帧中的至少一个物体检测框及其对应的物体类别。其中，第一关键帧的物体检测结果例如可以是第一关键帧的类别，或者第一关键帧中的至少一个物体检测框及其对应的物体类别，本公开实施例对此不做限定。

220，从当前短视频序列中选取一个其他帧作为第一非关键帧，并获取该第一非关键帧与第一关键帧之间的光流场。

其中，作为一个可选实施方式，从当前短视频序列中选取一个其他帧作为第一非关键帧，可以从第一关键帧沿时序反方向依次选取一个其他帧作为第一非关键帧，也可以沿时序正方向依次选取一个其他帧作为第一非关键帧，或者从第一关键帧沿时序正方向、时序反方向依次交替选取一个其他帧作为第一非关键帧，从第一关键帧沿时序反方向、时序正方向依次交替选取一个其他帧作为第一非关键帧，直至当前短视频序列中的所有帧均被选取完毕。另外，作为另一个可选实施方式，可以无需对当前短视频序列中的每一帧均进行识别，此时，也可以参考类似方式，从当前短视频序列中选取一个或多个其他帧作为第一非关键帧，但本公开实施例不限于此。

222，根据第一非关键帧与第一关键帧之间的光流场，将该第一非关键帧与第一关键帧的融合特征对齐。

224，根据第一非关键帧与第一关键帧之间的光流场、以及对齐后的第一关键帧的融合特征，获取第一非关键帧的特征。

226，根据第一非关键帧的特征对该第一非关键帧进行检测，获得第一非关键帧的物体检测结果。

其中，第一非关键帧的物体检测结果例如可以是第一非关键帧的类别，或者第非一关键帧中的至少一个物体检测框及其对应的物体类别。

在一个或多个可选例子中，可以针对当前短视频序列中需要识别的非关键帧依次执行操作220～226，直至当前短视频序列中需要识别的非关键帧均识别完毕，然后，针对下一个短视频序列执行上述流程，直至所有短视频序列均被识别完毕。

本实施例通过一种迭代式的多帧特征融合方式增强了视频中这些关键帧的共享特征所包含的信息，提高了帧识别的准确率，提高了视频识别性能；并且，每次只需加入最新一个未融合帧的特征进行融合，而不是将所有第二关键帧的特征与第一关键帧的特征进行融合，降低了特征融合的计算开销，提高了视频识别效率。其次，选取中间帧作为关键帧的关键帧位置选取方式，降低了平均特征传播距离，从而最小化了短视频序列中帧之间特征传播引入的误差，减小了短视频序列中总的特征传播时间，并提升了检测结果的准确率。另外，充分利用了视频中各帧之间信息的冗余性与互补性，仅提取关键帧的特征而不是对每帧均进行特征提取，通过光流传播方式复用帧之间的特征，通过稀疏的特征提取避免了冗余计算，相对于逐帧提取特征的方式提高了视频识别的速度和效率。

如图3所示，为图2所示实施例一个例子的对应过程示意图。应理解，图2和图3的例子仅仅是为了帮助理解本公开的技术方案，而不应理解成对本公开的限定。

本公开上述各实施例的视频识别方法可以通过一个训练好的视频识别网络实现，视频识别网络可以通过一个神经网络实现，其中的神经网络例如可以是深度神经网络。在通过视频识别网络实现上述各实施例的视频识别方法之前，可以对视频识别网络进行训练。

在一个或多个可选实施例中，上述视频识别方法还可以实现对视频识别网络的训练。具体地，可以将上述视频中的帧(包括关键帧和/或非关键帧)作为样本帧，其中，样本帧可以标注有标注信息。此时，该视频识别方法还可以包括：基于视频中至少一个帧的物体检测结果与标注信息之间的差异，对视频识别网络进行训练。例如，可以采用随机梯度下降法训练视频识别网络，直至满足预设训练完成条件。其中的预设训练完成条件，例如可以包括：至少一个帧的物体检测结果与标注信息之间的差异满足一定条件，和/或对视频识别网络的训练达到预设次数。

在一个可选实施方式中，上述标注信息可以包括：帧中的至少一个物体的物体框和/或类别信息。相应地，物体检测结果可以包括物体检测框和/或物体检测框对应的物体类别。在一个或多个可选例子中，在训练视频识别网络时，可以基于视频中至少一个帧的物体检测结果中物体检测框与标注信息中对应物体框的位置之间差异、和/或各物体检测框对应的物体类别与标注信息中对应的类别信息之间的差异，调整视频识别网络中的网络参数值。

下面将结合图4，详细描述本公开实施例提供的视频识别网络的训练方法。

图4为本公开实施例的视频识别网络的训练方法一个示例的流程图。如图4所示，该视频识别网络的训练方法包括：

402，利用视频识别网络，提取视频中当前关键帧的特征和前一关键帧的特征。

404，利用视频识别网络，将当前关键帧的特征与前一关键帧的特征进行融合，获得当前关键帧的融合特征，以及获取视频中的当前目标帧与当前关键帧之间的光流场。

其中，当前目标帧可以为当前关键帧所在片段(称为：当前片段)中除关键帧以外的帧。

406，利用视频识别网络，根据当前目标帧与当前关键帧之间的光流场、以及当前关键帧的融合特征，获取当前目标帧的特征。

408，利用视频识别网络，根据当前目标帧的特征对当前目标帧进行检测，获得当前目标帧的物体检测结果。

410，基于当前目标帧的物体检测结果与当前目标帧的标注信息之间的差异，对视频识别网络进行训练。

基于本公开上述实施例提供的视频识别网络的训练方法，将视频中当前关键帧的特征和前一关键帧的特征进行融合，获得当前关键帧的融合特征，再将该当前关键帧的融合特征传播到当前目标帧进行检测，获得当前目标帧的物体检测结果，基于当前目标帧的物体检测结果与标注信息之间的差异，对视频识别网络进行训练，基于本公开实施例视频识别网络的训练方法训练获得的视频识别网络，在对视频进行识别时，针对每一个关键帧都将其与视频中的前一关键帧的特征进行融合再传播到当前目标帧进行检测，通过一种迭代式的多帧特征融合方式增强了视频中这些关键帧的共享特征所包含的信息，提高了帧识别的准确率，提高了视频识别性能；并且，每次只需加入最新一个未融合关键帧的特征进行融合，而不是将所有第二关键帧的特征与第一关键帧的特征进行融合，降低了特征融合的计算开销，提高了视频识别效率。

在一个可选例子中，上述训练方法可以是一个迭代执行的过程，也就是说可以将视频中的每个帧作为当前目标帧执行上述流程，直至满足预设的训练完成条件，从而完成对视频识别网络的训练完成。

在本公开各训练方法实施例的一个可选实施方式中，将当前关键帧的特征与前一关键帧的特征进行融合，可以包括：

获取当前关键帧与前一关键帧之间的光流场；

根据当前关键帧与前一关键帧之间的光流场，将前一关键帧的特征与当前关键帧对齐；

将对齐后的前一关键帧的特征与当前关键帧的特征进行融合。

在本公开各训练方法实施例的一个可选实施方式中，将前一关键帧的特征与当前关键帧的特征进行融合，可以包括：

确定前一关键帧的特征与当前关键帧的特征的权重系数；

根据前一关键帧的特征与当前关键帧的特征的权重系数，将前一关键帧的特征与当前关键帧的特征进行融合。

在本公开上述各训练方法实施例之前，还可以包括：从视频中选取当前关键帧、前一关键帧和当前目标帧。

在其中一个可选实施方式中，从视频中选取当前关键帧、前一关键帧和当前目标帧，可以包括：

从视频中选取一帧作为当前目标帧；

以该当前目标帧为起点，在视频中向前第一距离采样一帧作为前一关键帧，向后第二距离采样一帧作为当前关键帧。

在其中一个可选示例中，上述第二距离可以小于第一距离。这样，该当前目标帧与当前关键帧的距离可以小于该当前目标帧与前一关键帧的距离。

例如，在一个应用示例中，可以先从视频中随机选取一帧作为当前目标帧，并对该当前目标帧标注上述标注信息。此外，可以在该视频中由当前目标帧向前一段随机距离(即：第一距离)采样一帧作为前一个短视频序列的关键帧(即；前一关键帧)，例如，假设短视频序列长度为10帧，则该前一关键帧可以位于由当前目标帧向前5帧到15帧之间；并且，可以在该视频中由当前目标帧向后一段稍小的随机距离(即：第二距离)采样一帧作为当前片段的关键帧(即；当前关键帧)，例如，假设短视频序列长度为10帧，则该当前关键帧可以位于由当前目标帧向后-5帧到5帧之间。可选地，本公开实施例还可以通过其他方式获取某个帧的前一关键帧和当前关键帧，本公开实施例对此不做限定。

另外，在本公开上述各训练方法实施例中，上述视频中帧的标注信息包括：至少一个物体的物体框和/或类别信息；当前目标帧的物体检测结果包括当前目标帧中的至少一个物体检测框和/或物体检测框对应的物体类别。相应地，该实施例中，基于当前目标帧的物体检测结果与当前目标帧的标注信息之间的差异，对视频识别网络进行训练，包括：基于当前目标帧的物体检测结果中物体检测框与标注信息中对应的物体框的位置之间差异和/或各物体检测框对应的物体类别与标注信息中对应的类别信息之间的差异，调整视频识别网络中的网络参数值。

在本公开上述各训练方法实施例中，可以由每组选取好的当前关键帧、前一关键帧和当前目标帧组成训练样本，由至少一个训练样本组成训练样本集，依次从训练样本集中选取训练样本，执行上述训练方法流程，对视频识别网络进行迭代训练，直至满足预设训练完成条件，例如，当前目标帧的物体检测结果与当前目标帧的标注类别信息之间的差异小于预设差异，和/或对视频识别网络的训练达到预设次数。

如图5所示，为图4所示实施例的一个对应过程示意图。应理解，图4和图图5的例子仅仅是为了帮助理解本公开的技术方案，而不应理解成对本公开的限定。

还应理解，本文对实施例的描述着重强调各个实施例的不同之处，其相同或相似之处可以相互参考。

本公开实施例提供的任一种视频识别方法或者视频识别网络的训练方法可以由任意适当的具有数据处理能力的设备执行，包括但不限于：终端设备和服务器等。或者，本公开实施例提供的任一种视频识别方法或者视频识别网络的训练方法可以由处理器执行，如处理器通过调用存储器存储的相应指令来执行本公开实施例提及的任一种视频识别方法或者视频识别网络的训练方法。下文不再赘述。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

图6为本公开视频识别装置一个实施例的结构示意图。该实施例的视频识别装置可用于实现本公开上述各视频识别方法实施例。如图6所示，该实施例的视频识别装置包括：特征提取网络，融合网络和检测网络。其中：

特征提取网络，用于提取视频中第一关键帧的特征。其中，该第一关键帧可以是视频中的任一关键帧，可以看作视频的多个关键帧中当前要处理的关键帧。

融合网络，用于将第一关键帧的特征与上述视频中第二关键帧的融合特征进行融合，获得第一关键帧的融合特征；其中，第二关键帧在视频中的检测时序位于第一关键帧之前，该第二关键帧例如可以是上述视频中第一关键帧相邻的前一关键帧。在本公开各实施例的一个实施方式中，第二关键帧的融合特征由该第二关键帧的特征和上述视频中检测时序位于该第二关键帧之前的第三关键帧的融合特征进行融合处理获得。

检测网络，用于根据上述第一关键帧的融合特征对第一关键帧进行检测，获得第一关键帧的物体检测结果。其中，第一关键帧的物体检测结果例如可以包括第一关键帧的类别，或者第一关键帧中的物体检测框及其对应的物体类别。

基于本公开上述实施例提供的视频识别装置，将第一关键帧的特征与视频中第二关键帧的融合特征进行融合，获得第一关键帧的融合特征，根据第一关键帧的融合特征对第一关键帧进行检测，获得非关键帧的物体检测结果。本公开实施例在对视频进行识别时，针对每一个关键帧都将其与视频中的第二关键帧的融合特征进行融合，基于获得的第一关键帧的融合特征再进行识别，通过一种迭代式的多帧特征融合方式增强了视频中这些关键帧的共享特征所包含的信息，提高了帧识别的准确率，提高了视频识别性能；并且，每次只需加入最新一个未融合关键帧的特征进行融合，而不是将所有第二关键帧的特征与第一关键帧的特征进行融合，降低了特征融合的计算开销，提高了视频识别效率。

图7为本公开视频识别装置另一个实施例的结构示意图。如图7所示，与图6所示的实施例相比，该实施例的视频识别装置还包括：光流传播模块，用于获取第一关键帧与第二关键帧之间的光流场；以及根据第一关键帧与第二关键帧之间的光流场，将第二关键帧的融合特征与第一关键帧对齐。相应地，该实施例中，融合网络具体用于：将对齐后的第二关键帧的融合特征与第一关键帧的融合特征进行融合，获得第一关键帧的融合特征。

在本公开各实施例的其中一个实施方式中，融合网络将第一关键帧的特征与视频中第二关键帧的融合特征进行融合时，具体用于：确定第一关键帧的特征与视频中第二关键帧的融合特征的权重系数；以及根据第一关键帧的特征与视频中第二关键帧的融合特征的权重系数，将第一关键帧的特征与视频中第二关键帧的融合特征进行融合。

另外，再参见图7，在本公开视频识别装置的又一个实施例中，还可以包括：确定模块，用于确定第一关键帧是否视频中的第一个关键帧。相应地，该实施例中，检测网络还用于根据确定模块的确定结果，响应于第一关键帧是视频中的第一个关键帧，根据第一个关键帧的特征对第一关键帧进行检测，获得第一个关键帧的物体检测结果。融合网络具体用于：根据确定模块的确定结果，响应于第一关键帧不是视频中的第一个关键帧，将第一关键帧的特征与视频中第二关键帧的融合特征进行融合。

另外，再参见图7，在本公开视频识别装置的再一个实施例中，还可以包括：选取模块，用于从视频中选取第一关键帧。

在其中一个实施方式中，选取模块具体用于：从视频中随机选取一个帧作为第一关键帧；或者，从视频中每隔若干帧选取一个帧作为第一关键帧；或者，将视频拆分为多个短视频序列，并分别从每个短视频序列中选取一个帧作为每个短视频序列的关键帧，多个短视频序列的关键帧包括第一关键帧。

在其中一个可选示例中，选取模块从短视频序列中选取一个帧作为第一关键帧，具体用于：从短视频序列中随机选取一个帧作为第一关键帧；或者，选取短视频序列中的一个中间帧作为第一关键帧；其中，中间帧包括该中间帧所在短视频序列中除首帧与末帧外的帧。

其中的中间帧例如可以包括：该中间帧所在短视频序列中位置居中或临近居中位置的帧。

另外，在上述各视频识别装置实施例中，光流传播模块还可以用于获取第一非关键帧与第一关键帧之间的光流场；以及根据第一非关键帧与第一关键帧之间的光流场、以及第一关键帧的融合特征，获取第一非关键帧的特征。相应地，该实施例中，检测网络还可用于根据第一非关键帧的特征对第一非关键帧进行检测，获得第一非关键帧的物体检测结果。

其中，第一关键帧与第一非关键帧之间的距离小于预设阈值；或者，第一关键帧为视频中的关键帧中与第一非关键帧距离最近的关键帧；或者，第一非关键帧与第一关键帧属于同一个短视频序列。

在其中一个实施方式中，光流传播模块具体用于：根据第一非关键帧与第一关键帧之间的光流场，将第一关键帧的融合特征与第一非关键帧对齐；根据第一非关键帧与第一关键帧之间的光流场、以及对齐后的第一关键帧的融合特征，获取第一非关键帧的特征。

本公开上述各实施例的视频识别装置可以通过一个视频识别网络实现；上述视频中的帧标注有标注信息。相应地，在视频识别装置的进一步实施例中，还可以包括：训练模块，用于基于视频中至少一个帧的物体检测结果与标注信息之间的差异，对视频识别网络进行训练。

在其中一个实施方式中，上述标注信息可以包括：至少一个物体的物体框与类别信息；类别检测结果包括物体检测框与物体检测框对应的物体类别。相应地，该实施例中，训练模块具体用于：基于视频中至少一个帧的物体检测结果中物体检测框与标注信息中对应物体框的位置之间差异和/或物体检测框对应的物体类别与标注信息中对应的类别信息之间的差异，调整视频识别网络中的网络参数值。

图8为本公开视频识别网络的训练装置一个实施例的结构示意图。该实施例的训练装置可用于实现本公开上述图4所示各视频识别网络的训练方法实施例。如图8所示，该实施例的训练装置包括：视频识别网络和训练模块。其中：

视频识别网络，用于提取视频中当前关键帧的特征和前一关键帧的特征；将当前关键帧的特征与前一关键帧的特征进行融合，获得当前关键帧的融合特征；以及获取视频中的当前目标帧与当前关键帧之间的光流场；其中，当前目标帧为当前关键帧所在片段中除当前关键帧以外的其他帧；根据当前目标帧与当前关键帧之间的光流场、以及当前关键帧的融合特征，获取当前目标帧的特征；以及根据当前目标帧的特征对当前目标帧进行检测，获得当前目标帧的物体检测结果。

训练模块，用于基于当前目标帧的物体检测结果与当前目标帧的标注信息之间的差异，对上述视频识别网络进行训练。

基于本公开上述实施例视频识别网络的训练装置，将视频中当前关键帧的特征和前一关键帧的特征进行融合，获得当前关键帧的融合特征，再将该当前关键帧的融合特征传播到当前目标帧进行检测，获得当前目标帧的物体检测结果，基于当前目标帧的物体检测结果与标注信息之间的差异，对视频识别网络进行训练，基于本公开实施例视频识别网络的训练装置训练获得的视频识别网络，在对视频进行识别时，针对每一个关键帧都将其与视频中的前一关键帧的特征进行融合再传播到当前目标帧进行检测，通过一种迭代式的多帧特征融合方式增强了视频中这些关键帧的共享特征所包含的信息，提高了帧识别的准确率，提高了视频识别性能；并且，每次只需加入最新一个未融合关键帧的特征进行融合，而不是将所有第二关键帧的特征与第一关键帧的特征进行融合，降低了特征融合的计算开销，提高了视频识别效率。

图9为本公开视频识别网络的训练装置另一个实施例的结构示意图。如图9所示，该实施例中，视频识别网络包括：特征提取网络，光流传播模块，融合网络和检测网络。其中：

特征提取网络，用于提取视频中当前关键帧的特征和前一关键帧的特征。

光流传播模块，用于获取当前关键帧与前一关键帧之间的光流场，根据当前关键帧与前一关键帧之间的光流场，将前一关键帧的特征与当前关键帧对齐；以及获取当前目标帧与当前关键帧之间的光流场，根据当前目标帧与当前关键帧之间的光流场、以及当前关键帧的融合特征，获取当前目标帧的特征。

融合网络，用于将对齐后的前一关键帧的特征与当前关键帧的特征进行融合，获得当前关键帧的融合特征。

检测网络，用于根据当前目标帧的特征对当前目标帧进行检测，获得当前目标帧的物体检测结果。

在其中一个实施方式中，融合网络将前一关键帧的特征与当前关键帧的特征进行融合时，具体用于：确定前一关键帧的特征与当前关键帧的特征的权重系数；以及根据前一关键帧的特征与当前关键帧的特征的权重系数，将前一关键帧的特征与当前关键帧的特征进行融合。

另外，再参见图9，在视频识别网络的训练装置的又一个实施例中，还可以包括：选取模块，用于从视频中选取当前关键帧、前一关键帧和当前目标帧。

在其中一个实施方式中，选取模块具体用于：从视频中选取一帧作为当前目标帧；以及以当前目标帧为起点，在视频中向前第一距离采样一帧作为前一关键帧，向后第二距离采样一帧作为当前关键帧。

示例性地，第二距离可以小于第一距离。

在上述各训练装置实施例中，标注信息可以包括：至少一个物体的物体框与类别信息；当前目标帧的类别检测结果包括当前目标帧中的物体检测框与物体检测框对应的物体类别。相应地，训练模块具体用于：基于当前目标帧的物体检测结果中物体检测框与标注信息中对应物体框的位置之间差异和/或物体检测框对应的物体类别与标注信息中对应的类别信息之间的差异，调整视频识别网络中的网络参数值。

在上述各训练装置实施例中，由每组当前关键帧、前一关键帧和当前目标帧组成训练样本，由至少一个训练样本组成训练样本集。训练模块具体用于：依次从训练样本集中选取训练样本，对视频识别网络进行迭代训练，直至满足预设训练完成条件。

另外，本公开实施例还提供了一种电子设备，包括本公开上述任一实施例的视频识别装置或者视频识别网络的训练装置。

另外，本公开实施例还提供了另一种电子设备，包括：

存储器，用于存储可执行指令；以及

处理器，用于与存储器通信以执行可执行指令从而完成本公开上述任一实施例的视频识别方法或者视频识别网络的训练方法的操作。

图10为本公开电子设备一个应用实施例的结构示意图。下面参考图10，其示出了适于用来实现本申请实施例的终端设备或服务器的电子设备的结构示意图。如图10所示，该电子设备包括一个或多个处理器、通信部等，所述一个或多个处理器例如：一个或多个中央处理单元(CPU)，和/或一个或多个图像处理器(GPU)等，处理器可以根据存储在只读存储器(ROM)中的可执行指令或者从存储部分加载到随机访问存储器(RAM)中的可执行指令而执行各种适当的动作和处理。通信部可包括但不限于网卡，所述网卡可包括但不限于IB(Infiniband)网卡，处理器可与只读存储器和/或随机访问存储器中通信以执行可执行指令，通过总线与通信部相连、并经通信部与其他目标设备通信，从而完成本申请实施例提供的任一方法对应的操作，例如，提取视频中第一关键帧的特征；将所述第一关键帧的特征与所述视频中第二关键帧的融合特征进行融合，获得所述第一关键帧的融合特征；其中，所述第二关键帧在所述视频中检测时序位于所述第一关键帧之前；根据所述第一关键帧的融合特征对所述第一关键帧进行检测，获得所述第一关键帧的物体检测结果。再如，利用视频识别网络提取视频中当前关键帧的特征和前一关键帧的特征；利用所述视频识别网络，将所述当前关键帧的特征与所述前一关键帧的特征进行融合，获得当前关键帧的融合特征；以及获取所述视频中的当前目标帧与所述当前关键帧之间的光流场；其中，所述当前目标帧为所述当前关键帧所在片段中除所述当前关键帧以外的其他帧；利用所述视频识别网络，根据所述当前目标帧与所述当前关键帧之间的光流场、以及所述当前关键帧的融合特征，获取所述当前目标帧的特征；利用所述视频识别网络，根据所述当前目标帧的特征对所述当前目标帧进行检测，获得所述当前目标帧的物体检测结果；基于所述当前目标帧的物体检测结果与所述当前目标帧的标注信息之间的差异，对所述视频识别网络进行训练。

此外，在RAM中，还可存储有装置操作所需的各种程序和数据。CPU、ROM以及RAM通过总线彼此相连。在有RAM的情况下，ROM为可选模块。RAM存储可执行指令，或在运行时向ROM中写入可执行指令，可执行指令使处理器执行本公开上述任一方法对应的操作。输入/输出(I/O)接口也连接至总线。通信部可以集成设置，也可以设置为具有多个子模块(例如多个IB网卡)，并在总线链接上。

以下部件连接至I/O接口：包括键盘、鼠标等的输入部分；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分；包括硬盘等的存储部分；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分。通信部分经由诸如因特网的网络执行通信处理。驱动器也根据需要连接至I/O接口。可拆卸介质，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器上，以便于从其上读出的计算机程序根据需要被安装入存储部分。

需要说明的，如图10所示的架构仅为一种可选实现方式，在具体实践过程中，可根据实际需要对上述图10的部件数量和类型进行选择、删减、增加或替换；在不同功能部件设置上，也可采用分离设置或集成设置等实现方式，例如GPU和CPU可分离设置或者可将GPU集成在CPU上，通信部可分离设置，也可集成设置在CPU或GPU上，等等。这些可替换的实施方式均落入本公开公开的保护范围。

另外，本公开实施例还提供了一种计算机存储介质，用于存储计算机可读取的指令，该指令被执行时实现本公开上述任一实施例的视频识别方法或者视频识别网络的训练方法的操作。

另外，本公开实施例还提供了一种计算机程序，包括计算机可读取的指令，当计算机可读取的指令在设备中运行时，设备中的处理器执行用于实现本公开上述任一实施例的视频识别方法或者视频识别网络的训练方法的操作中的步骤的可执行指令。

在一个可选实施方式中，所述计算机程序具体为软件产品，例如软件开发包(Software Development Kit，SDK)，等等。

在一个或多个可选实施方式中，本公开实施例还提供了一种计算机程序程序产品，用于存储计算机可读指令，所述指令被执行时使得计算机执行上述任一可能的实现方式中所述的本公开上述任一实施例的视频识别方法或者视频识别网络的训练方法的操作。

该计算机程序产品可以具体通过硬件、软件或其结合的方式实现。在一个可选例子中，所述计算机程序产品具体体现为计算机存储介质，在另一个可选例子中，所述计算机程序产品具体体现为软件产品，例如SDK等等。

在一个或多个可选实施方式中，本公开实施例还提供了一种视频识别方法及其对应的装置和电子设备、计算机存储介质、计算机程序以及计算机程序产品，其中，该方法包括：提取视频中第一关键帧的特征；将所述第一关键帧的特征与所述视频中第二关键帧的融合特征进行融合，获得所述第一关键帧的融合特征；其中，所述第二关键帧在所述视频中检测时序位于所述第一关键帧之前；根据所述第一关键帧的融合特征对所述第一关键帧进行检测，获得所述第一关键帧的物体检测结果。

在一个或多个可选实施方式中，本公开实施例还提供了一种视频识别训练的训练方法及其对应的装置和电子设备、计算机存储介质、计算机程序以及计算机程序产品，其中，该方法包括：利用视频识别网络提取视频中当前关键帧的特征和前一关键帧的特征；利用所述视频识别网络，将所述当前关键帧的特征与所述前一关键帧的特征进行融合，获得当前关键帧的融合特征；以及获取所述视频中的当前目标帧与所述当前关键帧之间的光流场；其中，所述当前目标帧为所述当前关键帧所在片段中除所述当前关键帧以外的其他帧；利用所述视频识别网络，根据所述当前目标帧与所述当前关键帧之间的光流场、以及所述当前关键帧的融合特征，获取所述当前目标帧的特征；利用所述视频识别网络，根据所述当前目标帧的特征对所述当前目标帧进行检测，获得所述当前目标帧的物体检测结果；基于所述当前目标帧的物体检测结果与所述当前目标帧的标注信息之间的差异，对所述视频识别网络进行训练。

特别地，根据本公开实施例的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开实施例的实施例包括一种计算机程序产品，其包括有形地包含在机器可读介质上的计算机程序，计算机程序包含用于执行流程图所示的方法的程序代码，程序代码可包括对应执行本公开实施例提供的方法步骤对应的指令。

在一个或多个可选实施方式中，本发明实施例还提供了一种视频识别方法及其对应的装置和电子设备、计算机存储介质、计算机程序以及计算机程序产品，其中，该方法包括：第一装置向第二装置发送视频识别指示，该指示使得第二装置执行上述任一可能的实施例中的视频识别方法；第一装置接收第二装置发送的物体检测结果。

在一些实施例中，该视频识别指示可以具体为调用指令，第一装置可以通过调用的方式指示第二装置执行视频识别，相应地，响应于接收到调用指令，第二装置可以执行上述视频识别方法中的任意实施例中的步骤和/或流程。

应理解，本公开实施例中的“第一”、“第二”等术语仅仅是为了区分，而不应理解成对本公开实施例的限定。

本公开实施例可应用于任意的视频识别场景，例如，在智能无人机航拍野生动物时，需要尽可能快速准确地识别画面中的动物，以实现实时分析。但由于气流等影响，画面可能会出现晃动、模糊；同时野生动物自身也可能在快速奔跑，这些因素会导致低质量的画面，会使传统识别网络实效。应用本公开实施例的视频识别方法，可以将视频中的其他帧的融合特征传播到当前帧，从而提升低质量的画面的识别准确率。

本说明书中各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似的部分相互参见即可。对于系统实施例而言，由于其与方法实施例基本对应，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

可能以许多方式来实现本公开的方法和装置。例如，可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本公开的方法和装置。用于所述方法的步骤的上述顺序仅是为了进行说明，本公开的方法的步骤不限于以上具体描述的顺序，除非以其它方式特别说明。此外，在一些实施例中，还可将本公开实施为记录在记录介质中的程序，这些程序包括用于实现根据本公开的方法的机器可读指令。因而，本公开还覆盖存储用于执行根据本公开的方法的程序的记录介质。

本公开的描述是为了示例和描述起见而给出的，而并不是无遗漏的或者将本公开限于所公开的形式。很多修改和变化对于本领域的普通技术人员而言是显然的。选择和描述实施例是为了更好说明本公开的原理和实际应用，并且使本领域的普通技术人员能够理解本公开从而设计适于特定用途的带有各种修改的各种实施例。

Claims

1.一种视频识别方法，其特征在于，包括：

提取视频中第一关键帧的特征；

将所述第一关键帧的特征与所述视频中第二关键帧的融合特征进行融合，获得所述第一关键帧的融合特征；其中，所述第二关键帧在所述视频中的检测时序位于所述第一关键帧之前；

2.根据权利要求1所述的方法，其特征在于，所述第二关键帧包括所述第一关键帧在所述视频中相邻的前一关键帧。

3.根据权利要求1或2所述的方法，其特征在于，所述第二关键帧的融合特征由所述第二关键帧的特征和所述视频中检测时序位于所述第二关键帧之前的第三关键帧的融合特征进行融合处理获得。

4.根据权利要求1-3任一所述的方法，其特征在于，将所述第一关键帧的特征与所述视频中第二关键帧的融合特征进行融合之前，还包括：

获取所述第一关键帧与所述第二关键帧之间的光流场；

5.一种视频识别网络的训练方法，其特征在于，包括：

6.一种视频识别装置，其特征在于，包括：

特征提取网络，用于提取视频中第一关键帧的特征；

7.一种视频识别网络的训练装置，其特征在于，包括：

8.一种电子设备，其特征在于，包括：

存储器和处理器，其中，所述存储器用于存储计算机可读指令，所述处理器对所述计算机可读指令的执行使得所述处理器权利要求1-5任一所述方法。

9.一种计算机存储介质，用于存储计算机可读指令，其特征在于，所述计算机可读指令在设备中运行时，所述设备中的处理器执行权利要求1-5任一所述方法。

10.一种计算机程序，包括计算机可读指令，其特征在于，当所述计算机可读指令在设备中运行时，所述设备中的处理器执行权利要求1-5任一所述方法。