CN112183588A

CN112183588A - 视频处理方法及装置、电子设备及存储介质

Info

Publication number: CN112183588A
Application number: CN202010955752.9A
Authority: CN
Inventors: 苏海昇
Original assignee: Shanghai Sensetime Intelligent Technology Co Ltd
Current assignee: Shanghai Sensetime Intelligent Technology Co Ltd
Priority date: 2020-09-11
Filing date: 2020-09-11
Publication date: 2021-01-05

Abstract

本申请公开了一种视频处理方法及装置、电子设备及存储介质。该方法包括：获取待处理视频流；对所述待处理视频流进行n级特征提取处理，得到第一中间特征序列；对所述第一中间特征序列进行m级上采样处理，得到第一动作的第一时序边界概率序列；所述第一时序边界概率序列包含所述待处理视频流中的图像为所述第一动作的起始帧的概率，以及所述待处理视频流中的图像为所述第一动作的结束帧的概率。

Description

视频处理方法及装置、电子设备及存储介质

技术领域

本申请涉及计算机视觉技术领域，尤其涉及一种视频处理方法及装置、电子设备及存储介质。

背景技术

随着各种视频数量的爆炸性增长，如何从海量视频中选取包含目标动作的时序动作提名具有非常重要的意义。

应用时序提名检测技术对视频进行处理，可得到视频的时序边界概率序列，其中，时序边界概率序列包含视频中每一帧图像为时序动作提名的起始帧的概率，以及每一帧图像为时序动作提名的结束帧的概率。进而可依据时序边界概率序列从海量视频中，找出包含目标动作的时序动作提名。但通过目前的时序提名检测技术得到的时序边界概率序列的准确度低。

发明内容

本申请提供一种视频处理方法及装置、电子设备及存储介质。

第一方面，提供了一种视频处理方法，所述方法包括：

获取待处理视频流；

对所述待处理视频流进行n级特征提取处理，得到第一中间特征序列；

对所述第一中间特征序列进行m级上采样处理，得到第一动作的第一时序边界概率序列；所述第一时序边界概率序列包含所述待处理视频流中的图像为所述第一动作的起始帧的概率，以及所述待处理视频流中的图像为所述第一动作的结束帧的概率；

所述m级上采样处理中第i+1级上采样处理的输入数据为，所述m级上采样处理中第i级上采样处理的输出数据和所述n级特征提取处理中第j级特征提取处理的输入数据之间的融合数据；所述第i级上采样处理的输出数据和所述第j级特征提取处理的输入数据之间的分辨率相同；所述i为小于所述m的正整数，所述j为不大于所述n的正整数。

结合本申请任一实施方式，在所述对所述待处理视频流进行n级特征提取处理，得到第一中间特征序列之前，所述方法还包括：

对所述待处理视频流进行特征提取处理，得到第一特征序列；所述第一特征序列对应的所述待处理视频流的语义信息和待处理视频流中背景的光流特征信息；所述背景包括所述待处理视频流中除所述第一动作之外的内容；

所述对所述待处理视频流进行n级特征提取处理，得到第一中间特征序列，包括：

对所述第一特征序列进行所述n级特征提取处理，得到所述第一中间特征序列。

结合本申请任一实施方式，所述方法还包括：

对所述第一特征序列进行时序翻转处理，得到播放顺序与所述第一特征序列相反的第二特征序列；

对所述第二特征序列进行p级特征提取处理，得到第二中间特征序列；

对所述第二中间特征序列进行q级上采样处理，得到所述第一动作的第二时序边界概率序列；所述第二时序边界概率序列包含待处理视频流中的图像为所述第一动作的起始帧的概率，以及所述待处理视频流中的图像为所述第一动作的结束帧的概率；

所述q级上采样处理中第r+1级上采样处理的输入数据为，所述q级上采样处理中第r级上采样处理的输出数据和所述p级特征提取处理中第s级特征提取处理的输入数据之间的融合数据；所述第r级上采样处理的输出数据和所述第s级特征提取处理的输入数据之间的分辨率相同；所述r为小于所述q的正整数，所述s为不大于所述p的正整数；

依据所述第一时序边界概率序列和所述第二时序边界概率序列，得到所述至少一个第一时序动作提名。

结合本申请任一实施方式，所述第j级特征提取处理的输入数据包括所述待处理视频流的浅层特征信息；所述第s级特征提取处理包括所述第一特征序列的浅层特征信息。

结合本申请任一实施方式，所述依据所述第一动作的时序边界概率序列和所述第二时序边界概率序列，得到所述第一动作的至少一个第一时序动作提名，包括：

融合所述第一时序边界概率序列和所述第二时序边界概率序列，得到所述第一动作的第三时序边界概率序列；

依据所述第三时序边界概率序列，得到所述至少一个第一时序动作提名。

结合本申请任一实施方式，所述至少一个第一时序动作提名包括第二时序动作提名，所述方法还包括：

从所述第一特征序列中提取出所述第二时序动作提名的特征序列，作为第三特征序列；所述第三特征序列包括：第一通道特征序列和第二通道特征序列；

确定所述第一通道特征序列和所述第二通道特征序列之间的相似度，得到第一相似度；

依据所述第一相似度和所述第三特征序列，得到所述第二时序动作提名的置信度。

结合本申请任一实施方式，所述确定所述第一通道特征数据和所述第二通道特征数据之间的相似度，得到第一相似度，包括：

确定所述第一通道特征序列和所述第二通道特征序列的矩阵乘积，得到第四特征序列，作为所述第一相似度。

结合本申请任一实施方式，所述至少一个第一时序动作提名还包括不同于所述第二时序动作提名的第三时序动作提名；

在所述依据所述第一相似度和所述第三特征序列，得到所述第二时序动作提名的置信度之前，所述方法还包括：

确定所述第二时序动作提名和所述第三时序动作提名之间的相似度，得到第二相似度；

所述依据所述第一相似度和所述第三特征序列，得到所述第二时序动作提名的置信度，包括：

依据所述第一相似度、所述第二相似度和所述第三特征序列，得到所述第二时序动作提名的置信度。

结合本申请任一实施方式，所述从所述第一特征序列中提取出所述第二时序动作提名的特征序列，作为第三特征序列，包括：

从所述第一特征序列中提取出所述第三特征序列和所述第三时序动作提名的特征序列，得到第五特征序列；

所述确定所述第一时序动作提名和所述第二时序动作提名之间的相似度，得到第二相似度，包括：

确定所述第五特征序列和第六特征序列的矩阵乘积，得到第七特征序列，作为所述第二相似度；所述第六特征序列为所述第五特征序列的转置。

结合本申请任一实施方式，所述依据所述第一相似度、所述第二相似度和所述第三特征序列，得到所述第二时序动作提名的置信度，包括：

对第一融合后的特征序列进行第一特征提取处理，得到所述第二时序动作提名的第一置信度；所述第一融合后的特征序列通过融合所述第三特征序列和所述第四特征序列得到；

对第二融合后的特征序列进行第二特征提取处理，得到所述第二时序动作提名的第二置信度；所述第二融合后的特征序列通过融合所述第三特征序列和所述第七特征序列得到；

确定所述第一置信度和所述第二置信度的均值，作为所述第二时序动作提名的置信度。

结合本申请任一实施方式，所述第一特征提取处理通过u级卷积处理实现，所述第二特征提取处理通过v级卷积处理实现；所述u和所述v均为大于1的整数；

在所述确定所述第一置信度和所述第二置信度的均值，作为所述第一时序动作提名的置信度之前，所述方法还包括：

融合第一特征图和第二特征图，得到第三特征图；所述第一特征图为所述u级卷积处理中第c级卷积处理的输出数据，所述第二特征图为所述v级卷积处理中第d级卷积处理的输出数据；所述第一特征图的尺寸与所述第二特征图的尺寸相同；所述c为小于所述u的正整数，所述d为小于所述v的正整数；

对所述第三特征图进行第三特征提取处理，得到所述第二时序动作提名的第三置信度；

所述确定所述第一置信度和所述第二置信度的均值，作为所述第一时序动作提名的置信度，包括：

确定所述第一置信度、所述第二置信度和所述第三置信度的均值，作为所述第一时序动作提名的置信度。

对第一融合后的特征序列进行特征提取处理，得到第一参考特征序列；所述第一融合后的特征序列通过融合所述第三特征序列和所述第四特征序列得到；

对第二融合后的特征序列进行特征提取处理，得到第二参考特征序列；所述第二融合后的特征序列通过融合所述第三特征序列和所述第七特征序列得到；

对所述第一参考特征序列和所述第二参考特征序列进行融合处理，得到第三参考特征序列；

对所述第三参考特征序列进行特征提取处理，得到所述第二时序动作提名的置信度。

结合本申请任一实施方式，所述方法还包括：

按质量分数从大到小的顺序对所述至少一个第一时序动作提名排序，得到所述第一动作的时序动作提名顺序；所述质量分数依据所述第一时序动作提名的时序边界概率序列和所述第一时序动作提名的置信度得到；

依据所述第一动作的时序动作提名顺序，显示所述至少一个第一时序动作提名。

结合本申请任一实施方式，所述视频处理方法应用于时序动作提名网络，所述时序动作提名网络的训练过程包括：

获取第一训练视频流和待训练神经网络；所述待训练神经网络包括第一特征提取模块和第一上采样模块；

使用所述第一特征提取模块对所述第一训练视频流进行a级特征提取处理，得到第三中间特征序列；

使用所述第一上采样模块对所述第三中间特征序列进行b级上采样处理，得到所述第一动作的第四时序边界概率序列；所述第四时序边界概率序列包含所述第一训练视频流中的图像为所述第一动作的起始帧的概率，以及所述第一训练视频流中的图像为所述第一动作的结束帧的概率；

所述b级特征提取处理中第k+1级上采样处理的输入数据为，所述b级上采样处理中第k级上采样处理的输出数据和所述a级特征提取处理中第f级特征提取处理的输入数据之间的融合数据；所述第k级上采样处理的输出数据和所述第f级特征提取处理的输入数据之间的分辨率相同；所述k为小于所述b的正整数，所述f为不大于所述a的正整数；

依据所述第四时序边界概率序列和所述第一训练视频流的标签之间的差异，得到所述待训练神经网络的损失；所述第一训练视频流的标签包括所述第一训练视频流中所述第一动作的时序动作提名；

基于所述待训练神经网络的损失更新所述待训练网络的参数，得到所述时序动作提名网络。

结合本申请任一实施方式，所述待训练神经网络还包括基础特征提取模块；

在所述使用所述第一特征提取模块对所述第一训练视频流进行a级特征提取处理，得到第三中间特征序列之前，所述训练过程还包括：

使用所述基础特征提取模块对所述第一训练视频流进行特征提取处理，得到第八特征序列；所述第八特征序列对应的所述第一训练视频流的语义信息和第一训练视频流中背景的光流特征信息；所述背景包括所述第一训练视频流中除所述第一动作之外的内容；

所述使用所述第一特征提取模块对所述第一训练视频流进行a级特征提取处理，得到第三中间特征序列，包括：

使用所述第一特征提取模块对所述七特征序列进行a级特征提取处理，得到所述第三中间特征序列。

结合本申请任一实施方式，所述待训练神经网络还包括第二特征提取模块和第二上采样模块；

在所述依据所述第四时序边界概率序列和所述第一训练视频流的标签之间的差异，得到所述待训练神经网络的损失之前，所述训练过程还包括：

对所述第八特征序列进行时序翻转处理，得到播放顺序与所述第八特征序列相反的第九特征序列；

使用所述第二特征提取模块对所述第九特征序列进行x级特征提取处理，得到第四中间特征序列；

使用所述第二上采样模块对所述第二中间特征序列进行y级上采样处理，得到所述第一动作的第五时序边界概率序列；所述第五时序边界概率序列包含第一训练视频流中的图像为所述第一动作的起始帧的概率，以及所述第一训练视频流中的图像为所述第一动作的结束帧的概率；所述第一训练视频流的播放顺序与所述第一训练视频流的播放顺序相反；

所述x级上采样处理中第w+1级上采样处理的输入数据为，所述x级上采样处理中第w级上采样处理的输出数据和所述y级特征提取处理中第e级特征提取处理的输入数据之间的融合数据；所述第w级上采样处理的输出数据和所述第e级特征提取处理的输入数据之间的分辨率相同；所述e为小于所述y的正整数，所述w为不大于所述x的正整数；

所述待训练神经网融合所述第四时序边界概率序列和所述第五时序边界概率序列，得到所述第一动作的第六时序边界概率序列；

所述依据所述第四时序边界概率序列和所述第一训练视频流的标签之间的差异，得到所述待训练神经网络的损失，包括：

依据所述第六时序边界概率序列和所述第一训练视频流的标签之间的差异，得到所述待训练神经网络的损失。

结合本申请任一实施方式，所述待训练神经网络还包括提名关系模块；

在所述依据所述第六时序边界概率序列和所述第一训练视频流的标签之间的差异，得到所述待训练神经网络的损失之前，所述训练过程还包括：

所述待训练神经网络从所述第八特征序列中提取出第四时序动作提名的特征序列，作为第十特征序列；所述第四时序动作提名为依据所述第六时序边界概率序列得到的所述第一动作的时序动作提名；所述第十特征序列包括：第三通道特征序列和第四通道特征序列；

使用所述提名关系模块确定所述第三通道特征序列和第四通道特征序列之间的相似度，得到第三相似度；

所述提名关系模块依据所述第三相似度和所述第十特征序列，得到所述第四时序动作提名的置信度；

所述依据所述第六时序边界概率序列和所述第一训练视频流的标签之间的差异，得到所述待训练神经网络的损失，包括：

依据所述第六时序边界概率序列和所述第一训练视频流的标签之间的差异，得到第一损失；

依据所述第四时序动作提名的置信度和所述第一训练视频流的标签之间的差异，得到第二损失；

将所述第一损失和第二损失的和作为所述待训练神经网络的损失。

结合本申请任一实施方式，所述使用所述提名关系模块确定所述第三通道特征序列和第四通道特征序列之间的相似度，得到第三相似度，包括：

使用所述提名关系模块确定所述第三通道特征序列和第四通道特征序列的矩阵乘积，得到第十一特征序列，作为所述第三相似度。

结合本申请任一实施方式，在所述提名关系模块依据所述第三相似度和所述第十特征序列，得到所述第四时序动作提名的置信度之前，所述训练过程还包括：

所述提名关系模块确定所述第四时序动作提名和第五时序动作提名之间的相似度，得到第四相似度；所述第五时序动作提名为依据所述第六时序边界概率序列得到的所述第一动作的时序动作提名，且所述第五时序动作提名与所述第四时序动作提名不同；

所述提名关系模块依据所述第三相似度和所述第十特征序列，得到所述第四时序动作提名的置信度，包括：

依据所述第三相似度、所述第四相似度和所述第十特征序列，得到所述第四时序动作提名的置信度。

结合本申请任一实施方式，所述待训练神经网络从所述第八特征序列中提取出所述第四时序动作提名的特征序列，作为第十特征序列，包括：

所述待训练神经网络从所述第八特征序列中提取出所述第十特征序列和所述第五时序动作提名的特征序列，得到第十二特征序列；

所述提名关系模块确定所述第四时序动作提名和第五时序动作提名之间的相似度，得到第四相似度，包括：

所述提名关系模块确定所述第十二特征序列和第十三特征序列的矩阵乘积，得到第十四特征序列，作为所述第四相似度；所述第十三特征序列为所述第十二特征序列的转置。

结合本申请任一实施方式，所述依据所述第三相似度、所述第四相似度和所述第十特征序列，得到所述第四时序动作提名的置信度，包括：

对第三融合后的特征序列进行第四特征提取处理，得到所述第四时序动作提名的第四置信度；所述第三融合后的特征序列所述第十特征序列和所述第十一特征序列得到；

对第四融合后的特征序列进行第五特征提取处理，得到所述第四时序动作提名的第五置信度；所述第四融合后的特征序列所述第十特征序列和所述第十四特征序列得到；

确定所述第四置信度和所述第五置信度的均值，作为所述第四时序动作提名的置信度。

结合本申请任一实施方式，所述第四特征提取处理通过g级卷积处理实现，所述第五特征提取处理通过h级卷积处理实现；所述g和所述h均为大于1的整数；

在所述确定所述第四置信度和所述第五置信度的均值，作为所述第四时序动作提名的置信度之前，所述训练过程还包括：

融合第四特征图和第五特征图，得到第六特征图；所述第四特征图为所述g级卷积处理中第z级卷积处理的输出数据，所述第五特征图为所述h级卷积处理中第t级卷积处理的输出数据；所述第四特征图的尺寸与所述第五特征图的尺寸相同；所述z为小于所述g的正整数，所述t为小于所述h的正整数；

对所述第六特征图进行第六特征提取处理，得到所述第四时序动作提名的第六置信度；

所述确定所述第四置信度和所述第五置信度的均值，作为所述第一时序动作提名的置信度，包括：

确定所述第四置信度、所述第五置信度和所述第六置信度的均值，作为所述第一时序动作提名的置信度。

结合本申请任一实施方式，所述获取第一训练视频流，包括：

获取第一正样本视频流集和第一负样本视频流集；所述第一正样本视频流集中的视频流均包含所述第一动作的时序动作提名；所述第一负样本视频流集中的视频流均包不含所述第一动作的时序动作提名；

所述第一正样本视频流集包含第一尺度视频流集和第二尺度视频流集；所述第一尺度视频流集中视频流的尺度处于第一尺度区间，所述第二尺度视频流集中视频流的尺度处于第二尺度区间，且所述第一尺度区间与所述第二尺度区间无交集；其中，正样本视频流的尺度为参考分辨率与所述正样本视频流的分辨率的比值；所述正样本视频流为所述第一正样本视频流集中的视频流；所述参考分辨率为所述第一动作的时序动作提名的分辨率；

在所述第一尺度视频流集所包含的视频流的数量小于所述第二视频流集所包含的视频流的数量的情况下，以第一采样率从所述第一尺度视频流集中采样得到第一训练视频流子集、以第二采样率从所述第一尺度视频流集中采样得到第二训练视频流子集；所述第一采样率大于所述第二采样率；

从所述第一训练视频流子集和/或所述第二训练视频流子集和/或所述第一负样本视频流集中选取一个视频流，作为所述第一训练视频流。

结合本申请任一实施方式，所述获取第一正样本视频流集和第一负样本视频流集，包括：

获取训练视频流集；所述训练视频流集包含第二正样本视频流集和第二负样本视频流集；所述第二正样本视频流集中的视频流均包含所述第一动作的时序动作提名；所述第二负样本中的视频流均包不含所述第一动作的时序动作提名；

在所述第二正样本视频流集所包含的视频流的数量大于所述第二负样本视频流集所包含的视频流的数量的情况下，以第三采样率从所述第二正样本视频流集中采样得到所述第二正样本视频流集、以第四采样率从所述第二负样本视频流集中采样得到所述第二负样本视频流集；所述第三采样率小于所述第四采样率；

在所述第二正样本视频流集所包含的视频流的数量小于所述第二负样本视频流集所包含的视频流的数量的情况下，以第五采样率从所述第二正样本视频流集中采样得到所述第二正样本视频流集、以第六采样率从所述第二负样本视频流集中采样得到所述第二负样本视频流集；所述第五采样率大于所述第六采样率。

第二方面，提供了一种视频处理装置，所述装置包括：

获取单元，用于获取待处理视频流；

特征提取处理单元，用于对所述待处理视频流进行n级特征提取处理，得到第一中间特征序列；

上采样处理单元，用于对所述第一中间特征序列进行m级上采样处理，得到第一动作的第一时序边界概率序列；所述第一时序边界概率序列包含所述待处理视频流中的图像为所述第一动作的起始帧的概率，以及所述待处理视频流中的图像为所述第一动作的结束帧的概率；

结合本申请任一实施方式，所述特征提取处理单元，还用于在所述对所述待处理视频流进行n级特征提取处理，得到第一中间特征序列之前，对所述待处理视频流进行特征提取处理，得到第一特征序列；所述第一特征序列对应的所述待处理视频流的语义信息和待处理视频流中背景的光流特征信息；所述背景包括所述待处理视频流中除所述第一动作之外的内容；

所述特征提取处理单元，还用于对所述第一特征序列进行所述n级特征提取处理，得到所述第一中间特征序列。

结合本申请任一实施方式，所述视频处理装置还包括：翻转单元和第一处理单元；

所述翻转单元，用于对所述第一特征序列进行时序翻转处理，得到播放顺序与所述第一特征序列相反的第二特征序列；

所述特征提取处理单元，用于对所述第二特征序列进行p级特征提取处理，得到第二中间特征序列；

所述上采样处理单元，用于对所述第二中间特征序列进行q级上采样处理，得到所述第一动作的第二时序边界概率序列；所述第二时序边界概率序列包含待处理视频流中的图像为所述第一动作的起始帧的概率，以及所述待处理视频流中的图像为所述第一动作的结束帧的概率；

所述第一处理单元，用于依据所述第一时序边界概率序列和所述第二时序边界概率序列，得到所述至少一个第一时序动作提名。

结合本申请任一实施方式，所述第一处理单元，用于：

结合本申请任一实施方式，所述至少一个第一时序动作提名包括第二时序动作提名，所述视频处理装置还包括第二处理单元；

所述第二处理单元，用于：

结合本申请任一实施方式，所述第二处理单元，用于：

所述第二处理单元，用于在所述依据所述第一相似度和所述第三特征序列，得到所述第二时序动作提名的置信度之前，确定所述第二时序动作提名和所述第三时序动作提名之间的相似度，得到第二相似度；

所述第一处理单元，用于依据所述第一相似度、所述第二相似度和所述第三特征序列，得到所述第二时序动作提名的置信度。

结合本申请任一实施方式，所述第二处理单元，用于：

结合本申请任一实施方式，所述第一处理单元，用于：

所述视频处理装置还包括第三处理单元；所述第三处理单元，用于在所述确定所述第一置信度和所述第二置信度的均值，作为所述第一时序动作提名的置信度之前，融合第一特征图和第二特征图，得到第三特征图；所述第一特征图为所述u级卷积处理中第c级卷积处理的输出数据，所述第二特征图为所述v级卷积处理中第d级卷积处理的输出数据；所述第一特征图的尺寸与所述第二特征图的尺寸相同；所述c为小于所述u的正整数，所述d为小于所述v的正整数；

所述特征提取处理单元，用于对所述第三特征图进行第三特征提取处理，得到所述第二时序动作提名的第三置信度；

所述第三处理单元，用于确定所述第一置信度、所述第二置信度和所述第三置信度的均值，作为所述第一时序动作提名的置信度。

结合本申请任一实施方式，所述第一处理单元，用于：

结合本申请任一实施方式，所述装置还包括：

排序单元，用于按质量分数从大到小的顺序对所述至少一个第一时序动作提名排序，得到所述第一动作的时序动作提名顺序；所述质量分数依据所述第一时序动作提名的时序边界概率序列和所述第一时序动作提名的置信度得到；

显示单元，用于依据所述第一动作的时序动作提名顺序，显示所述至少一个第一时序动作提名。

结合本申请任一实施方式，所述视频处理装置所执行的视频处理方法应用于时序动作提名网络；所述视频处理装置还包括训练单元；所述训练单元用于执行所述时序动作提名网络的训练过程；

所述时序动作提名网络的训练过程包括：

第三方面，提供了一种电子设备，包括：处理器和存储器，所述存储器用于存储计算机程序代码，所述计算机程序代码包括计算机指令，在所述处理器执行所述计算机指令的情况下，所述电子设备执行如上述第一方面及其任意一种可能实现的方式的方法。

第四方面，提供了一种电子设备，包括：处理器、发送装置、输入装置、输出装置和存储器，所述存储器用于存储计算机程序代码，所述计算机程序代码包括计算机指令，在所述处理器执行所述计算机指令的情况下，所述电子设备执行如上述第一方面及其任意一种可能实现的方式的方法。

第五方面，提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机程序，所述计算机程序包括程序指令，在所述程序指令被处理器执行的情况下，使所述处理器执行如上述第一方面及其任意一种可能实现的方式的方法。

第六方面，提供了一种计算机程序产品，所述计算机程序产品包括计算机程序或指令，在所述计算机程序或指令在计算机上运行的情况下，使得所述计算机执行上述第一方面及其任一种可能的实现方式的方法。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，而非限制本申请。

附图说明

为了更清楚地说明本申请实施例或背景技术中的技术方案，下面将对本申请实施例或背景技术中所需要使用的附图进行说明。

此处的附图被并入说明书中并构成本说明书的一部分，这些附图示出了符合本申请的实施例，并与说明书一起用于说明本申请的技术方案。

图1为本申请实施例提供的一种视频处理方法的流程示意图；

图2为本申请实施例提供的一种时序动作提名网络的结构示意图；

图3为本申请实施例提供的一种时序动作提名网络的训练方法的流程示意图；

图4为本申请实施例提供的一种特征提取模块和上采样模块的结构示意图；

图5为本申请实施例提供的一种提名关系模块的结构示意图；

图6为本申请实施例提供的一种视频处理装置的结构示意图；

图7为本申请实施例提供的一种视频处理装置的硬件结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别不同对象，而不是用于描述特定顺序。此外，术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其他步骤或单元。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

应当理解，在本申请中，“至少一个(项)”是指一个或者多个，“多个”是指两个或两个以上，“至少两个(项)”是指两个或三个及三个以上，“和/或”，用于描述关联对象的关联关系，表示可以存在三种关系，例如，“A和/或B”可以表示：只存在A，只存在B以及同时存在A和B三种情况，其中A，B可以是单数或者复数。字符“/”可表示前后关联对象是一种“或”的关系，是指这些项中的任意组合，包括单项(个)或复数项(个)的任意组合。例如，a，b或c中的至少一项(个)，可以表示：a，b，c，“a和b”，“a和c”，“b和c”，或“a和b和c”，其中a，b，c可以是单个，也可以是多个。字符“/”还可表示数学运算中的除号，例如，a/b＝a除以b；6/3＝2。“以下至少一项(个)”或其类似表达。

应用时序提名检测技术对视频进行处理，可得到视频的时序边界概率序列，其中，时序边界概率序列包含视频中每一帧图像为时序动作提名的起始帧的概率，以及每一帧图像为时序动作提名的结束帧的概率。进而可依据时序边界概率序列从海量视频中，找出包含目标动作的时序动作提名。但通过目前的时序提名检测技术得到的时序边界概率序列的准确度低。本申请实施例提供了一种视频处理方法，以提高时序边界概率序列的准确度。

本申请实施例中，时序动作提名指包含目标动作的视频。例如，目标动作为踢球，则时序动作提名为包含踢球这个动作的视频。

本申请实施例中，起始帧指时序动作提名中最先播放的一帧图像；结束帧指时序动作提名中最后播放的一帧图像。其中，目标视频流中的所有图像均包含目标图像。

本申请方法实施例的执行主体为视频处理装置。可选的，视频处理装置可以是以下中的一种：手机、计算机、服务器、平板电脑。下面结合本申请实施例中的附图对本申请实施例进行描述。

请参阅图1，图1是本申请实施例提供的一种视频处理方法的流程示意图。

101、获取待处理视频流。

本申请实施例中，待处理视频流包含至少两帧图像。待处理视频流可以是视频处理装置通过摄像组件实时采集到的视频流；第一视频流也可以是视频处理装置获取到的非实时采集到的视频流。

在一种可能实现的方式中，视频处理装置从互联网下载获得待处理视频流。

在另一种可能实现的方式中，视频处理装置将用户通过输入组件输入的视频流，作为待处理视频流。上述输入组件包括：键盘、鼠标、触控屏、触控板和音频输入器等。

在又一种可能实现的方式中，视频处理装置通过摄像组件采集得到待处理视频流。上述摄像组件包括摄像头。

在又一种可能实现的方式中，视频处理装置与第一数据终端之间具有通信连接。视频处理装置通过该通信连接接收第一数据终端发送的视频流，作为待处理视频流。

102、对上述待处理视频流进行n级特征提取处理，得到第一中间特征序列。

本申请实施例中，n级特征提取处理通过n层特征提取层实现，其中，n为正整数。其中，每一层特征提取层进行一级特征提取处理，且n层特征提取层依次串联，即第1层特征提取层的输出数据为第2层特征提取层的输入数据，第2层特征提取层的输出数据为第3层特征提取层的输入数据，…，第n-1层特征提取层的输出数据为第n层特征提取层的输入数据，第n层特征提取层的输出数据为中间特征序列。其中，n为正整数。示例性的，n为3。每一层特征提取层包括以下至少一种处理：卷积处理、池化处理。

在一种可能实现的方式中，特征提取层包括至少一层卷积层，每一层卷积层均用于执行时序卷积处理，且在卷积层的数量超过1的情况下，所有卷积层以串联的形式连接、每层卷积层提取出的语义信息均不一样。

以第一层特征提取层为例。视频处理装置通过第一层特征提取层中的至少一层卷积层对待处理视频流进行逐层卷积处理，逐步将待处理视频流中的语义信息提取出来，并丢弃掉一些浅层特征信息(如像素点之间的几何关系信息、像素点的位置信息、边缘信息)，因此，越到后面提取出的特征数据的分辨率越小，同时特征数据中的语义信息越浓缩。通过至少一层卷积层对待处理视频流进行逐层卷积处理，可在得到待处理视频流中的语义信息的同时，将待处理视频流的分辨率缩小，得到第一层特征提取层的输出数据。这样，在后续的处理过程中，视频处理装置通过对特征提取层输出的特征数据进行处理，可减小视频处理装置的数据处理量，提高视频处理装置的处理速度。

应理解，本申请实施例中，对视频流所执行的卷积处理均为时序卷积处理。而时序卷积处理可通过时序卷积核实现。具体的，时序卷积核的尺寸为h*w*t，即该时序卷积核的高为h、宽为w、时序维度的跨度为t。

本申请实施例中，视频流的分辨率指视频流的时长。例如，视频流a的时长为30秒，视频流b的时长为20秒。此时，视频流a的分辨率比视频流b的分辨率低。

视频处理装置通过对待处理视频流进行n级特征提取处理，提取出待处理视频流的语义信息，得到第一中间特征序列。

103、对上述第一中间特征序列进行m级上采样处理，得到第一动作的第一时序边界概率序列。

本申请实施例中，第一动作可以是任意动作。例如，第一动作为唱歌；第一动作为跳舞；第一动作为打架；第一动作为摔倒；第一动作是踢球。

本申请实施例中，第一时序边界概率序列包含待处理视频流中的图像为第一动作的起始帧的概率，以及待处理视频流中的图像为第一动作的结束帧的概率。

例如，待处理视频流包括：第一帧图像、第二帧图像和第三帧图像，其中，播放待处理视频流的先后顺序依次为：第一帧图像、第二帧图像、第三帧图像。第一时序边界概率序列包括：第一帧图像为第一动作的起始帧的概率、第二帧图像为第一动作的起始帧的概率、第三帧图像为第一动作的起始帧的概率、第一帧图像为第一动作的结束帧的概率、第二帧图像为第一动作的结束帧的概率、第三帧图像为第一动作的结束帧的概率。

本申请实施例中，视频处理装置通过对第一中间特征序列进行上采样处理，可提升第一中间特征序列的分辨率。视频流处理装置通过对第一中间特征序列进行m级上采样处理，可得到将第一中间特征序列的分辨率提升至与待处理视频流的分辨率相同，进而可确定待处理视频流中每一帧图像为第一动作的边界的概率，其中，m为正整数。

m级上采样处理通过m层上采样层实现。其中，每一层上采样层进行一级上采样处理，且m层上采样层依次串联，即第1层上采样层的输出数据为第2层上采样层的输入数据，第2层上采样层的输出数据为第3层上采样层的输入数据，…，第m-1层上采样层的输出数据为第m层上采样层的输入数据，第m层上采样层的输出数据为中间特征序列。其中，m为正整数。示例性的，m为3。每一层上采样层包括以下至少一种处理：双线性插值处理、邻近点插值处理、反卷积处理。

在一种可能实现的方式中，上采样层包括至少一层反卷积层，每一层反卷积层均用于放大输入数据的分辨率，且在反卷积层的数量超过1的情况下，所有反卷积层以串联的形式连接。

以第一层上采样层为例。视频处理装置通过第一层上采样层中的至少一层反卷积层对第一中间特征序列进行逐层卷积处理，逐步将第一中间特征序列的分辨率放大，因此，越到后面得到的特征数据的分辨率越大。通过至少一层反卷积层对第一中间特征序列进行逐层反卷积处理，可得到分辨率与待处理视频流的分辨率相同的第一时序边界概率序列。

由于在视频处理装置对待处理视频流进行特征提取处理的过程中，会丢弃浅层特征信息，视频处理装置在对第一中间特征序列进行上采样处理的过程中，将特征提取层的输出数据与上采样层输出的相同分辨率的数据进行融合，以丰富第一时序边界概率序列中的信息，进而提升第一时序边界概率序列的准确度。

例如，在第一动作在图像中的尺寸较小的情况下，浅层特征信息对识别图像中是否存在第一动作的准确度有较大的提升，视频处理装置通过将特征提取层的输出数据与上采样层输出的相同分辨率的数据进行融合，可提升第一动作的时序边界概率序列的准确度。

在一种可能实现的方式中，m级上采样处理中第i+1级上采样处理的输入数据为，m级上采样处理中第i级上采样处理的输出数据和n级特征提取处理中第j级特征提取处理的输入数据之间的融合数据。其中，第i级上采样处理的输出数据和第j级特征提取处理的输入数据之间的分辨率相同，i为小于m的正整数，j为不大于n的正整数。

例如，n＝m＝2，i＝1，j＝2。此时，视频处理装置将第2级特征提取处理的输入数据(即第1级特征提取处理的输出数据)的分辨率与第1级上采样处理的输出数据的分辨率相同。视频处理装置将这两个数据进行融合处理，可得到第2级上采样处理的输入数据。

本申请实施例中，视频处理装置通过在对第一中间特征序列进行上采样的过程中，将上采样得到的特征序列与特征提取得到的特征序列融合，以丰富特征序列中的浅层特征信息，从而提升边界概率序列的准确度。

作为一种可选的实施方式，视频处理装置在执行步骤102之前，还执行以下步骤：

1、对上述待处理视频流进行特征提取处理，得到第一特征序列。

本申请实施例中，第一特征序列对应的待处理视频流的语义信息和待处理视频流中背景的光流信息，其中，背景包括待处理视频流中除第一动作之外的内容。

例如，待处理视频流包括图像a和图像b。第一特征序列对应的以下信息：图像a的语义信息和图像b的语义信息、图像a中背景的光流特征信息、图像b中背景的光流特征信息。

视频处理装置通过对待处理视频流进行特征提取处理，可得到第一特征序列，其中，特征提取处理可通过以下至少一种处理的组合实现：卷积处理、池化处理。

应理解，第一特征序列包括待处理视频流中每一帧图像的语义信息，以及每一帧图像中背景的光流信息。且第一特征序列的播放顺序与待处理视频流的播放顺序相同。

例如，待处理视频流的播放顺序为图像a、图像b、图像c。第一特征序列包括特征图像A、特征图像B、特征图像C，其中，特征图像A对应的图像a的语义信息以及图像a中背景的光流特征信息，特征图像B对应的图像b的语义信息以及图像b中背景的光流特征信息，特征图像C对应的图像c的语义信息以及图像c中背景的光流特征信息。此时，第一特征序列的播放顺序为特征图像A、特征图像B、特征图像C。

在得到第一特征序列之后，视频处理装置在执行步骤102的过程中执行以下步骤：

2、对上述第一特征序列进行上述n级特征提取处理，得到上述第一中间特征序列。

视频处理装置通过对第一特征序列进行n级特征提取处理得到第一中间特征序列，不仅对应的待处理视频流的语义信息，还对应的待处理视频流中背景的光流特征信息。这样，后续再对第一中间特征序列进行m级上采样处理，不仅可利用待处理视频流的语义信息，还可利用待处理视频流中背景的光流特征信息，得到第一时序边界概率序列。

由于视频处理装置通过光流特征信息，可确定背景的运动状态的变化，进而可依据背景的运动状态的变化确定第一动作的运动状态的变化，从而可确定待处理视频流中图像的起始概率和结束概率。

因此，视频处理装置通过对第一特征序列进行处理得到第一时序边界概率序列，可提高第一时序边界概率序列的准确度。

作为一种可选的实施方式，视频处理装置还执行以下步骤：

3、对上述第一特征序列进行时序翻转处理，得到播放顺序与上述第一特征序列相反的第二特征序列。

4、对上述第二特征序列进行p级特征提取处理，得到第二中间特征序列。

本步骤中的特征提取处理可参见步骤102中的特征提取处理，此处将不再赘述。可选的p＝n。

5、对上述第二中间特征序列进行q级上采样处理，得到上述第一动作的第二时序边界概率序列。

本申请实施例中，第二时序边界概率序列包含待处理视频流中的图像为第一动作的起始帧的概率，以及第二待处理视频流中的图像为第一动作的结束帧的概率。

例如，待处理视频流包括：第一帧图像、第二帧图像和第三帧图像，其中，播放待处理视频流的先后顺序依次为：第一帧图像、第二帧图像、第三帧图像。第二时序边界概率序列包括：第一帧图像为第一动作的起始帧的概率、第二帧图像为第一动作的起始帧的概率、第三帧图像为第一动作的起始帧的概率、第一帧图像为第一动作的结束帧的概率、第二帧图像为第一动作的结束帧的概率、第三帧图像为第一动作的结束帧的概率。

本步骤中的上采样处理可参见步骤103中的上采样处理此处将不再赘述。可选的q＝m。同步骤102一样，为丰富提升第二时序边界概率序列中的信息，视频处理装置在对第二中间特征序列进行上采样处理的过程中，将特征提取层的输出数据与上采样层输出的相同分辨率的数据进行融合。

在一种可能实现的方式中，q级上采样处理中第r+1级上采样处理的输入数据为，q级上采样处理中第r级上采样处理的输出数据和p级特征提取处理中第s级特征提取处理的输入数据之间的融合数据。其中，第r级上采样处理的输出数据和第s级特征提取处理的输入数据之间的分辨率相同，r为小于q的正整数，s为不大于p的正整数。

例如，p＝q＝2，r＝1，s＝2。此时，视频处理装置将第2级特征提取处理的输入数据(即第1级特征提取处理的输出数据)的分辨率与第1级上采样处理的输出数据的分辨率相同。视频处理装置将这两个数据进行融合处理，可得到第2级上采样处理的输入数据。

6、依据上述第一时序边界概率序列和上述第二时序边界概率序列，得到上述至少一个第一时序动作提名。

在得到第一时序边界概率序列和第二时序边界概率序列后，视频处理装置可确定待处理视频流中第一动作的至少一个时序动作提名。

为表述方便，将图像为第一动作的起始帧的概率称为起始概率，将图像为第一动作的结束帧的概率称为结束概率。

在一种可能实现的方式中，视频处理装置将起始帧概率超过第一起始概率阈值的图像作为第一动作的时序动作提名的起始帧，并将结束帧概率超过第一结束概率阈值的图像作为第一动作的时序动作提名的结束帧。视频处理装置将起始帧与结束帧之间图像作为第一动作的时序动作提名。

例如，待处理视频流包括第一帧图像、第二帧图像、第三帧图像，其中，播放待处理视频流的先后顺序依次为：第一帧图像、第二帧图像、第三帧图像。第一时序边界概率序列包括：第一帧图像的起始概率为0.83、第一帧图像的结束概率为0.2、第二帧图像的起始概率为0.5、第二帧图像的结束概率为0.9、第三帧图像的起始概率为0.3、第三帧图像的结束概率为0.6。假设第一起始概率阈值为0.8，第一结束概率阈值为0.8。由于第一帧图像的起始概率大于第一起始概率阈值，第二帧图像的结束概率超过第一结束概率阈值，由第一帧图像和第二帧图像组成，且播放先后顺序为第一帧图像、第二帧图像的视频流为第一动作的时序动作提名。

这样，视频处理装置可依据第一时序边界概率序列得到至少一个第一时序动作提名，并可依据第二时序边界概率序列得到至少一个第一时序动作提名。

在另一种可能实现的方式中，视频处理装置将起始帧概率最大的图像作为第一动作的时序动作提名的起始帧，并将结束帧概率最大的图像作为第一动作的时序动作提名的结束帧。视频处理装置将起始帧与结束帧之间图像作为第一动作的时序动作提名。

例如，待处理视频流包括第一帧图像、第二帧图像、第三帧图像，其中，播放待处理视频流的先后顺序依次为：第一帧图像、第二帧图像、第三帧图像。第一时序边界概率序列包括：第一帧图像的起始概率为0.3、第一帧图像的结束概率为0.2、第二帧图像的起始概率为0.7、第二帧图像的结束概率为0.4、第三帧图像的起始概率为0.4、第三帧图像的结束概率为0.6。由于起始概率最大的图像为第二帧图像、结束概率最大的图像为第三帧图像，由第二帧图像和第三帧图像组成，且播放先后顺序为第二帧图像、第三帧图像的视频流为一个第一时序动作提名。

在又一种可能实现的方式中，视频处理装置融合第一时序边界概率序列和第二时序边界概率序列，得到第一动作的第三时序边界概率序列。进而可依据第三时序边界概率序列，得到至少一个第一时序动作提名。

可选的，融合第一时序边界概率序列和第二时序边界概率序列可以是，计算第一时序边界概率序列和第二时序边界概率序列的均值。例如，待处理视频流包括第一帧图像和第二帧图像。第一时序边界概率序列包括：第一帧图像的起始概率为0.8、第一帧图像的结束概率为0.5、第二帧图像的起始概率为0.3、第二帧图像的结束概率为0.9。第二时序边界概率序列包括：第一帧图像的起始概率为0.7、第一帧图像的结束概率为0.4、第二帧图像的起始概率为0.4、第二帧图像的结束概率为0.9。

视频处理装置计算第一时序边界概率序列和第二时序边界概率序列的均值得到：第一帧图像的起始概率为(0.8+0.7)/2＝0.75、第一帧图像的结束概率为(0.5+0.4)/2＝0.45、第二帧图像的起始概率为(0.3+0.4)/2＝0.35、第二帧图像的结束概率为(0.9+0.9)/2＝0.9。

可选的，假设图像在第一时序边界概率序列中的起始概率为H_s、结束概率为H_e，图像在第二时序边界概率序列中的起始概率为h_s、结束概率为h_e，图像在融合第三边界概率序列中的起始概率为L_s、结束概率为L_e。则H_s、H_e、h_s、h_e、L_s、L_e满足下式：

例如，待处理视频流包括第一帧图像和第二帧图像。第一时序边界概率序列包括：第一帧图像的起始概率为0.8、第一帧图像的结束概率为0.5、第二帧图像的起始概率为0.3、第二帧图像的结束概率为0.9。第二时序边界概率序列包括：第一帧图像的起始概率为0.7、第一帧图像的结束概率为0.4、第二帧图像的起始概率为0.4、第二帧图像的结束概率为0.9。

视频处理装置融合第一时序边界概率序列和第二时序边界概率序列得到：第一帧图像的起始概率为

第一帧图像的结束概率为

第二帧图像的起始概率为

第二帧图像的结束概率为

视频处理装置通过将第一时序边界概率序列和第二时序边界概率序列融合得到第三时序边界概率序列，可提高图像的边界概率(包括起始概率和结束概率)的准确度，进而可提高至少一个第一时序动作提名的准确度。

在另一种可能实现的方式中，视频处理装置将图像在第一时序边界概率序列中的边界概率与图像在第二时序边界概率序列中的边界概率中的最大值，作为图像的边界概率，得到第一中间时序边界概率序列。进而可依据第一中间时序边界概率序列，得到至少一个第一时序动作提名。

由于第一帧图像在第一时序边界概率序列中的起始概率大于第一帧图像在第二时序边界概率序列中的起始概率，在第一中间边界概率序列中，第一帧图像的起始概率为0.8。由于第一帧图像在第一时序边界概率序列中的结束概率大于第一帧图像在第二时序边界概率序列中的结束概率，在第一中间边界概率序列中，第一帧图像的结束概率为0.5。由于第二帧图像在第一时序边界概率序列中的起始概率小于第二帧图像在第二时序边界概率序列中的起始概率，在第一中间边界概率序列中，第二帧图像的起始概率为0.4。由于第二帧图像在第一时序边界概率序列中的结束概率等于第二帧图像在第二时序边界概率序列中的结束概率，在第一中间边界概率序列中，第二帧图像的结束概率为0.9。

视频处理装置依据第一时序边界概率序列和第二时序边界概率序列得到第三时序边界概率序列，可提高图像的边界概率(包括起始概率和结束概率)的准确度，进而可提高至少一个第一时序动作提名的准确度。

作为一种可选的实施方式，至少一个第一时序动作提名包括第二时序动作提名。视频处理装置在执行上述步骤的基础上，还执行以下步骤：

7、从上述第一特征序列中提取出上述第二时序动作提名的特征序列，作为第三特征序列。

本申请实施例中，第三特征序列为第二时序动作提名的特征序列。在得到第二时序动作提名后，视频处理装置可从第一特征序列中提取出第三特征序列。

例如，待处理视频流的播放顺序为：图像a、图像b、图像c、图像d。第一特征序列包括：特征图像A、特征图像B、特征图像C、特征图像D，其中，特征图像A对应的图像a的语义信息以及图像a中背景的光流特征信息，特征图像B对应的图像b的语义信息以及图像b中背景的光流特征信息，特征图像C对应的图像c的语义信息以及图像c中背景的光流特征信息，特征图像D对应的图像d的语义信息以及图像d中背景的光流特征信息。

假设第二时序动作提名包括：图像a、图像b、图像c。视频处理装置从第一特征序列中提取出特征图像A、特征图像B、特征图像C，作为第三特征序列。

本步骤中，第三特征序列包括至少两个通道特征序列，这至少两个通道特征序列包括：第一通道特征序列和第二通道特征序列，其中，第一通道特征序列所对应的信息与第二通道特征序列所对应的信息不同。

例如，第一通道特征序列所对应的信息包括颜色信息，第二通道特征序列信息包括边缘信息。又例如，第一通道特征序列所对应的信息包括动作类别信息，第二通道特征序列信息包括动作的位置信息。

8、确定上述第一通道特征序列和上述第二通道特征序列之间的相似度，得到第一相似度。

由于第一动作具有至少一个维度的信息，可通过至少一个维度的信息识别第一动作。例如，假设第一动作为踢球。此时，若某人脚的周围有足球存在，表征这个人正在执行踢球的动作的概率较高；若某人身着足球服，也表征这个人正在执行踢球的动作的概率较高；若某人身处足球场内，也表征这个人正在执行踢球的动作的概率较高；若某人有抬腿动作，也表征这个人正在执行踢球的动作的概率较高。

如上所述，不同通道特征序列所对应的信息不同，即不同通道所对应的信息属于不同维度的信息。而依据任意一个维度的信息，均可得到第一待处理视频中的图像是否包含第一动作的概率。那么若某一张图像包含第一动作，则任意一个通道的特征序列均对应的与第一动作相关的信息。

因此，视频处理装置通过确定第一通道特征序列和第二通道特征序列之间相似度，充分利用不同通道特征序列所对应的信息之间的相关性，以用于后续确定第二时序动作提名包含第一动作的置信度。

在一种可能实现的方式中，视频处理装置确定第一通道特征序列和第二通道特征序列的矩阵乘积，得到第四特征序列，作为第一相似度。

9、依据上述第一相似度和上述第三特征序列，得到上述第二时序动作提名的置信度。

本申请实施例中，第二时序动作提名的置信度与第二时序动作提名的完整度呈正相关。若待处理视频流中包含第一动作的图像的数量为α，第二时序动作提名中图像的数量为β，第二时序提名动作中包含第一动作的图像的数量为γ，第二时序动作提名的完整度为：

例如，假设待处理视频流包括图像a、图像b、图像c、图像d、图像e，待处理视频流的播放顺序为：图像a、图像b、图像c、图像d、图像e。其中，图像a、图像b、图像d、图像e均包含第一动作。若视频处理装置通过对待处理视频流进行处理，得到第一动作的一个第一时序动作提名，记为第一时序动作提名A，其中，第一时序动作提名A包括图像b和图像c。此时，α＝4，β＝2，γ＝1，即第一时序动作提名A的完整度为：

在一种可能实现的方式中，视频处理装置将第一相似度(即第四特征序列)与第三特征序列进行融合处理，可丰富第三特征序列所对应的信息，得到第二时序动作提名的置信度。例如，视频处理装置通过将第四特征序列与第三特征序列相加，可得到第二时序动作提名的置信度。

在另一种可能实现的方式中，视频处理装置依据第一相似度得到第二时序动作提名的置信度，记为第一中间置信度。视频处理装置依据第三特征序列得到第二时序动作提名的置信度，记为第二中间置信度。视频处理装置将第一中间置信度与第二中间置信度中的最大值作为第二时序动作的置信度。

应理解，本申请实施例描述了视频处理装置确定第一通道特征序列和第二通道特征序列之间的相似度得到第一相似度，并依据第一相似度和第三特征序列得到第二时序动作的置信度的过程。而在实际应用中，若第三特征序列包含至少三个通道，视频处理装置可分别确定任意两个通道特征序列之间的相似度得到第一相似度集。视频处理装置进而可依据第一相似度集中的相似度和第三特征序列，得到第二时序动作的置信度。

由于第一相似度中对应的第三特征序列中不同通道之间的相关性，视频处理装置依据第一相似度和第三特征序列得到第二时序动作提名的置信度，可提高第二时序动作提名的置信度的准确度。

作为一种可选的实施方式，至少一个第一时序动作提名还包括第三时序动作提名，视频处理装置在执行步骤9之前，还执行以下步骤：

10、确定上述第二时序动作提名和上述第三时序动作提名之间的相似度，得到第二相似度。

本申请实施例中，第二时序动作提名和第三时序动作提名不同。在一种可能实现的方式中，视频处理装置确定第二时序动作提名和第三时序动作提名的矩阵乘积，得到第七特征序列，作为第二相似度。

在得到第二相似度后，视频处理装置在执行步骤9的过程中执行以下步骤：

91、依据上述第一相似度、上述第二相似度和上述第三特征序列，得到上述第二时序动作提名的置信度。

在一种可能实现的方式中，视频处理装置将第一相似度(即第四特征序列)与第三特征序列进行融合处理，可丰富第三特征序列所对应的信息，得到第五中间置信度(例如，将第四特征序列和第七特征序列的和作为第五中间置信度)。视频处理装置将第二相似度(即第七特征序列)与第三特征序列进行融合处理，可丰富第三特征序列所对应的信息，得到第六中间置信度(例如，将第四特征序列和第七特征序列的和作为第六中间置信度)。

视频处理装置通过确定第五中间置信度和第六中间置信度的均值，得到第二时序动作提名的置信度。

作为一种可选的实施方式，在至少一个第一时序动作提名包括第二时序动作提名和第三时序动作提名的情况下，视频处理装置在执行步骤7的过程中执行以下步骤：

11、从上述第一特征序列中提取出上述第三特征序列和上述第三时序动作提名的特征序列，得到第五特征序列。

在得到第五特征序列后，视频处理装置通过执行以下步骤得到第二相似度：

12、确定上述第五特征序列和第六特征序列的矩阵乘积，得到第七特征序列，其中，第六特征序列为第五特征序列的转置。

在得到第二相似度之后，视频处理装置在执行步骤9的过程中执行以下步骤：13、依据上述第一相似度和上述第二相似度，得到上述第二时序动作提名的置信度。

在一种可能实现的方式中，视频处理装置将第一相似度(即第四特征序列)和第三特征序列进行融合处理，得到第二时序动作提名的置信度，记为第三中间置信度。视频处理装置将第一相似度(即第七特征序列)和第三特征序列进行融合处理，得到第二时序动作提名的置信度，记为第四中间置信度。例如，视频处理装置通过将第四特征序列和第三特征序列相加，得到第三中间置信度。视频处理装置通过将第七特征序列和第三特征序列相加，得到第四中间置信度。视频处理装置通过确定第三中间置信度和第四中间置信度的均值，得到第二时序动作提名的置信度。

在另一种可能实现的方式中，视频处理装置将第一相似度(即第四特征序列)、第二相似度(即第七特征序列)和第三特征序列进行融合处理，可丰富第三特征序列所对应的信息，得到第二时序动作提名的置信度。例如，视频处理装置通过将第四特征序列、第七特征序列和第三特征序列相加，可得到第二时序动作提名的置信度。

由于不同时序动作提名之间存在相关性，视频处理装置通过确定第二时序动作提名和第三时序动作提名之间的相似度，得到对应的第二时序动作提名和第三时序动作提名之间的相关性信息的第二相似度。视频处理装置进而依据第一相似度、第二相似度和第三特征序列，确定第二时序动作提名的置信度，可提升第二时序动作提名的置信度的准确度。

作为一种可选的实施方式，视频处理装置在执行步骤13的过程中执行以下步骤：

14、对第一融合后的特征序列进行第一特征提取处理，得到上述第二时序动作提名的第一置信度。

本申请实施例中，第一融合后的特征序列通过融合第三特征序列和第四特征序列得到。可选的，视频处理装置通过将第三特征序列和第四特征序列相加，得到第一融合后的特征序列。

本申请实施例中，第一特征提取处理包括以下至少一种处理：卷积处理、池化处理。可选的，本步骤中的卷积处理可通过二维(即高和宽)卷积核实现。

视频处理装置通过对第一融合后的特征序列进行第一特征提取处理，得到第二时序动作提名的置信度，即为第一置信度。

15、对第二融合后的特征序列进行第二特征提取处理，得到上述第二时序动作提名的第二置信度。

本申请实施例中，第二融合后的特征序列通过融合第三特征序列和第七特征序列得到。可选的，视频处理装置通过将第三特征序列和第七特征序列相加，得到第二融合后的特征序列。

本申请实施例中，第二特征提取处理包括以下至少一种处理：卷积处理、池化处理。可选的，本步骤中的卷积处理可通过二维(即高和宽)卷积核实现。

视频处理装置通过对第二融合后的特征序列进行第二特征提取处理，得到第二时序动作提名的置信度，即为第二置信度。

16、确定上述第一置信度和上述第二置信度的均值，作为上述第二时序动作提名的置信度。

作为一种可选的实施方式，第一特征提取处理通过u级卷积处理实现，第二特征提取处理通过v级卷积处理实现，其中，u和v均为大于1的整数。u级卷积处理和v级卷积处理均以串联的形式存在，即上一级卷积处理的输出数据为下一级卷积处理的输入数据。

视频处理装置在执行步骤16之前，还执行以下步骤：

17、融合第一特征图和第二特征图，得到第三特征图。

本申请实施例中，第一特征图为u级卷积处理中第c级卷积处理的输出数据，第二特征图为v级卷积处理中第d级卷积处理的输出数据，且第一特征图的尺寸与第二特征图的尺寸相同，其中，c为小于u的正整数，d为小于v的正整数。

应理解，视频处理装置通过对第四特征序列进行卷积处理，可减少第四特征序列的维度，得到第一特征图。具体的，视频处理装置通过对第四特征序列进行卷积处理，去除第四特征序列中的时序维度，得到第一特征图。同理，视频处理装置通过对第七特征序列进行卷积处理，去除第七特征序列中的时序维度，得到第二特征图。即第一特征图和第二特征图均为二维图像。因此，本申请实施例中，第一特征图的尺寸为：第一特征图的高*第一特征图的宽，第二特征图的尺寸均为：第二特征图的高*第二特征图的宽。

在一种可能实现的方式中，视频处理装置通过将第一特征图和第二特征图相加，得到第三特征图。

18、对上述第三特征图进行第三特征提取处理，得到上述第二时序动作提名的第三置信度。

本申请实施例中，第三特征提取处理包括以下至少一种处理：卷积处理、池化处理。可选的，本步骤中的卷积处理可通过二维(即高和宽)卷积核实现。

视频处理装置通过对第三特征图进行第三特征提取处理，得到第二时序动作提名的置信度，即为第三置信度。

在得到第三置信度后，视频处理装置在执行步骤16的过程中执行以下步骤：19、确定上述第一置信度、上述第二置信度和上述第三置信度的均值，作为上述第一时序动作提名的置信度。

由于第三特征图既对应的第二时序提名动作中不同通道之间的相关性信息，又对应的第二时序提名动作与第三时序动作提名之间的相关性信息，而第三置信度基于第三特征图得到，视频处理装置通过执行步骤19，可提高第二时序动作提名的置信度的准确度。

20、对第一融合后的特征序列进行特征提取处理，得到第一参考特征序列。

本步骤中的特征提取处理包括以下至少一种处理：卷积处理、池化处理。可选的，本步骤中的卷积处理可通过二维(即高和宽)卷积核实现。

在本步骤中，视频处理装置通过对第一融合后的特征序列进行特征提取处理，得到第一参考特征序列。

21、对第二融合后的特征序列进行特征提取处理，得到第二参考特征序列。

在本步骤中，视频处理装置通过对第二融合后的特征序列进行第二特征提取处理，得到第二参考特征序列。

22、对上述第一参考特征序列和上述第二参考特征序列进行融合处理，得到第三参考特征序列。

可选的，本步骤中的融合处理可以是，第一参考特征序列和第二参考特征序列相加。

23、对上述第三参考特征序列进行特征提取处理，得到上述第二时序动作提名的置信度。

本步骤的特征提取处理包括以下至少一种处理：卷积处理、池化处理。可选的，本步骤中的卷积处理可通过二维(即高和宽)卷积核实现。

视频处理装置通过对第三参考特征序列进行特征提取处理，得到第二时序动作提名的置信度。

视频处理装置通过执行步骤20～步骤23，视频处理装置可利用第一融合后的特征序列所包含的信息和第二融合后的特征序列所包含的信息，得到第二时序动作提名的置信度，从而提高第二时序动作提名的置信度的准确度。

本申请实施例还提供了一种时序动作提名网络，可用于实现前文所公开的技术方案。请参阅图2，图2为本申请实施例提供的一种时序动作提名网络的结构示意图。如图2所示，时序动作提名网络包括：基础特征提取模块、边界概率序列生成模块、提名关系模块。

经基础特征提取模块对待处理视频流进行处理，可得到第一特征序列。经边界概率序列生成模块对待处理视频流进行处理，可得到第一动作的第一时序边界概率序列；或经边界概率序列生成模块对第一特征序列进行处理，可得到第一动作的第一时序边界概率序列。经提名关系模块对第一特征序列进行处理，可得到第一时序动作提名的置信度。

在使用时序动作提名网络对待处理视频流进行处理之前，需对时序动作提名网络进行训练。因此，本申请实施例还提供了一种时序动作提名网络的训练方法。

该训练方法的执行主体可以是视频处理装置，也可以不是视频处理装置，即时序动作提名神经网络的训练方法的执行主体与使用时序动作提名网络对待处理视频流进行处理的执行主体可以相同，也可以不同，本申请实施例对本实施例的执行主体不做限定。为表述方便，下文将该训练方法的执行主体称为训练装置，可选的，训练装置可以是以下任意一种：手机、计算机、平板电脑、服务器、处理器。

请参阅图3，图3为本申请实施例提供一种时序动作提名网络的训练方法的流程示意图。

301、获取第一训练视频流和待训练神经网络。

本申请实施例中，第一训练视频流包含至少两帧图像。第一训练视频流可以是训练装置通过摄像组件实时采集到的视频流；第一视频流也可以是训练装置获取到的非实时采集到的视频流。

在一种可能实现的方式中，训练装置从互联网下载获得第一训练视频流。

在另一种可能实现的方式中，训练装置将用户通过输入组件输入的视频流，作为第一训练视频流。上述输入组件包括：键盘、鼠标、触控屏、触控板和音频输入器等。

在又一种可能实现的方式中，训练装置通过摄像组件采集得到第一训练视频流。上述摄像组件包括摄像头。

在又一种可能实现的方式中，训练装置与第二数据终端之间具有通信连接。训练装置通过该通信连接接收第二数据终端发送的视频流，作为第一训练视频流。

本申请实施例中，待训练神经网络为包括第一特征提取模块和第一上采样模块的神经网络。第一特征提取模块包括以下至少一种网络层：卷积层、池化层、归一化层、激活层。第一上采样模块包括以下至少一种网络层：反卷积层、上采样层、归一化层、激活层。

在一种获取待训练神经网络的实现方式中，训练装置接收用户通过输入组件输入的神经网络，作为待训练神经网络。上述输入组件包括：键盘、鼠标、触控屏、触控板和音频输入器等。

在另一种可能实现的方式中，训练装置与第三数据终端之间具有通信连接。训练装置通过该通信连接接收第三数据终端发送的神经网络，作为待训练神经网络。

302、使用上述第一特征提取模块对上述第一训练视频流进行a级特征提取处理，得到第三中间特征序列。

本步骤中的a级特征提取处理的实现过程可参见步骤102中的n级特征提取处理的实现过程，本步骤将不再赘述。可选的，a＝n。

训练装置通过对第一训练视频流进行a级特征提取处理，提取出第一训练视频流的语义信息，得到第三中间特征序列。

303、使用上述第一上采样模块对上述第三中间特征序列进行b级上采样处理，得到上述第一动作的第四时序边界概率序列。

本申请实施例中，第四时序边界概率序列包含第一训练视频流中的图像为第一动作的起始帧的概率，以及第一训练视频流中的图像为第一动作的结束帧的概率。

本步骤中的b级上采样处理的实现过程可参见步骤103中的m级上采样处理的实现过程，本步骤将不再赘述。可选的，b＝m。

本申请实施例中，b级上采样处理中第k+1级上采样处理的输入数据为，上述b级上采样处理中第k级上采样处理的输出数据和上述a级特征提取处理中第f级特征提取处理的输入数据之间的融合数据；上述第k级上采样处理的输出数据和上述第f级特征提取处理的输入数据之间的分辨率相同；上述k为小于上述b的正整数，上述f为不大于上述a的正整数。

作为一种可选的实施方式，第一特征提取模块和第一上采样模块的结构示意图如图4所示。

304、依据上述第四时序边界概率序列和上述第一训练视频流的标签之间的差异，得到上述待训练神经网络的损失。

本申请实施例中，第一训练视频流的标签包括第一训练视频流中第一动作的时序动作提名。例如，第一训练视频流包括第一帧图像、第二帧图像、第三帧图像、第四帧图像，且第一训练视频流的播放顺序为第一帧图像、第二帧图像、第三帧图像、第四帧图像。若第一帧图像和第四帧图像均不包含第一动作，第二帧图像和第三帧图像均包含第一动作。则第一训练视频流的标签包括：第二帧图像至第三帧图像为第一动作的时序动作提名。

训练装置依据第四时序边界概率序列中的起始概率序列和第一训练视频流的标签之间的差异，可得到第一中间损失。依据第四时序边界概率序列中的结束概率序列和第一训练视频流的标签之间的差异，可得到第二中间损失。在得到第一中间损失和第二中间损失后，训练装置可通过确定第一中间损失和第二中间损失的和，得到待训练神经网络的损失。

305、基于上述待训练神经网络的损失更新上述待训练网络的参数，得到上述时序动作提名网络。

作为一种可选的实施方式，训练装置在执行步骤302之前，还执行以下步骤：

24、使用上述基础特征提取模块对上述第一训练视频流进行特征提取处理，得到七特征序列。

本申请实施例中，第八特征序列对应的第一训练视频流的语义信息和第一训练视频流中背景的光流信息，其中，背景包括第一训练视频流中除第一动作之外的内容。

本申请实施例中，基础特征提取模块可以是双流卷积网络，该双流卷积网络用于提取语义信息和光流信息。

在得到七特征序列后，训练装置在执行步骤302的过程中执行以下步骤：

25、使用上述第一特征提取模块对上述七特征序列进行a级特征提取处理，得到上述第三中间特征序列。

作为一种可选的实施方式，在执行步骤24之后、执行步骤304之前，训练装置还执行以下步骤：

26、对上述第八特征序列进行时序翻转处理，得到播放顺序与上述第八特征序列相反的第九特征序列。

27、使用上述第二特征提取模块对上述第九特征序列进行x级特征提取处理，得到第四中间特征序列。

本步骤中的特征提取处理可参见步骤302中的特征提取处理，此处将不再赘述。可选的x＝a。

28、使用上述第二上采样模块对上述第二中间特征序列进行y级上采样处理，得到上述第一动作的第五时序边界概率序列。

本步骤中，第五时序边界概率序列包含第一训练视频流中的图像为第一动作的起始帧的概率，以及第一训练视频流中的图像为第一动作的结束帧的概率。

本步骤中的上采样处理可参见步骤303中的上采样处理，此处将不再赘述。可选的y＝b。

在一种可能实现的方式中，x级上采样处理中第w+1级上采样处理的输入数据为，x级上采样处理中第w级上采样处理的输出数据和y级特征提取处理中第e级特征提取处理的输入数据之间的融合数据。第w级上采样处理的输出数据和第e级特征提取处理的输入数据之间的分辨率相同，其中，e为小于y的正整数，w为不大于x的正整数。

可选的，第二特征提取模块与第一特征提取模块的结构相同，且第二特征提取模块的参数与第一特征提取模块的参数相同。第二上采样模块与第一上采样模块的结构相同，且第二上采样模块的参数与第一上采样模块的参数相同。

29、上述待训练神经网融合上述第四时序边界概率序列和上述第五时序边界概率序列，得到上述第一动作的第六时序边界概率序列。

本步骤的实现方式可参见步骤6中，视频处理装置融合第一时序边界概率序列和第二时序边界概率序列的实现方式，此处将不再赘述。

在得到第五时序边界概率序列后，训练装置在执行步骤304的过程中执行以下步骤：

30、依据上述第六时序边界概率序列和上述第一训练视频流的标签之间的差异，得到上述待训练网络的损失。

训练装置依据第六时序边界概率序列中的起始概率序列和第一训练视频流的标签之间的差异，可得到第三中间损失。依据第六时序边界概率序列中的结束概率序列和第一训练视频流的标签之间的差异，可得到第四中间损失。在得到第三中间损失和第四中间损失后，训练装置可通过确定第三中间损失和第四中间损失的和，得到待训练神经网络的损失。

作为一种可选的实施方式，待训练神经网络还包括提名关系模块。训练装置在执行步骤30之前，还执行以下步骤：

31、上述待训练神经网络从上述第八特征序列中提取出第四时序动作提名的特征序列，作为第十特征序列。

本申请实施例中，第四时序动作提名为依据第六时序边界概率序列得到的第一动作的时序动作提名。第十特征序列包括：第三通道特征序列和第四通道特征序列，其中，第三通道特征序列所对应的信息与第四通道特征序列所对应的信息不同。

32、使用上述提名关系模块确定上述第三通道特征序列和第四通道特征序列之间的相似度，得到第三相似度。

本步骤的实现方式可参见步骤8中得到第一相似度的实现方式，此处将不再赘述。

在一种可能实现的方式中，训练装置使用提名关系模块确定第三通道特征序列和第四通道特征序列的矩阵乘积，得到第十一特征序列，作为第三相似度。

33、上述提名关系模块依据上述第三相似度和上述第十特征序列，得到上述第四时序动作提名的置信度。

本步骤的实现方式可参见步骤9的实现方式，此处将不再赘述。在得到第四时序动作提名的置信度之后，训练装置在执行步骤30的过程中执行以下步骤：

34、依据上述第六时序边界概率序列和上述第一训练视频流的标签之间的差异，得到第一损失。

本步骤的实现方式可参见步骤30的实现方式。应理解，在本步骤中，训练装置依据第六时序边界概率序列和上述第一训练视频流的标签之间的差异得到的不是待训练神经网络的损失，而是第一损失。

35、依据上述第四时序动作提名的置信度和上述第一训练视频流的标签之间的差异，得到第二损失。

可选的，训练装置将第四时序动作提名的置信度代入回归损失函数(smooth L1)，可得到第二损失。

36、将上述第一损失和第二损失的和作为上述待训练神经网络的损失。

作为一种可选的实施方式，训练装置在执行步骤33之前，还执行以下步骤：

37、上述提名关系模块确定上述第四时序动作提名和第五时序动作提名之间的相似度，得到第四相似度。

本申请实施例中，第五时序动作提名为依据第六时序边界概率序列得到的第一动作的时序动作提名，且第五时序动作提名与上述第四时序动作提名不同。本步骤的实现方式可参见步骤10的实现方式，此处将不再赘述。

在得到第四相似度之后，训练装置在执行步骤33的过程中执行以下步骤：

38、依据上述第三相似度、上述第四相似度和上述第十特征序列，得到上述第四时序动作提名的置信度。

本步骤的实现方式可参见步骤91，此处将不再赘述。

作为一种可选的实施方式，训练装置在执行步骤31的过程中执行以下步骤：

39、上述待训练神经网络从上述第八特征序列中提取出上述第十特征序列和上述第五时序动作提名的特征序列，得到第十二特征序列。

在得到第十二特征序列后，训练装置在执行步骤37的过程中执行以下步骤：

40、上述提名关系模块确定上述第十二特征序列和第十三特征序列的矩阵乘积，得到第十四特征序列，作为上述第四相似度，其中，上述第十三特征序列为上述第十二特征序列的转置。

作为一种可选的实施方式，训练装置在执行步骤38的过程中执行以下步骤：

41、对第三融合后的特征序列进行第四特征提取处理，得到上述第四时序动作提名的第四置信度。

本申请实施例中，第三融合后的特征序列通过融合第十特征序列和第十一特征序列得到。可选的，视频处理装置通过将第十特征序列和第十一特征序列相加，得到第三融合后的特征序列。

本步骤的实现方式可参见步骤14的实现方式，其中，第三融合后的特征序列与第一融合后的特征序列对应，第四特征提取处理与第一特征提取处理对应，第四时序动作提名的第四置信度与第二时序动作提名的第一置信度对应。

42、对第四融合后的特征序列进行第五特征提取处理，得到上述第四时序动作提名的第五置信度。

本申请实施例中，第四融合后的特征序列通过融合第十特征序列和第十四特征序列得到。可选的，视频处理装置通过将第十特征序列和第十四特征序列相加，得到第四融合后的特征序列。

本步骤的实现方式可参见步骤15的实现方式，其中，第四融合后的特征序列与第二融合后的特征序列对应，第五特征提取处理与第二特征提取处理对应，第四时序动作提名的第五置信度与第二时序动作提名的第二置信度对应。

43、确定上述第四置信度和上述第五置信度的均值，作为上述第四时序动作提名的置信度。

本步骤的实现方式可参见步骤16的实现方式，此处将不再赘述。

作为一种可选的实施方式，第四特征提取处理通过g级卷积处理实现，第五特征提取处理通过h级卷积处理实现，其中，g和h均为大于1的整数。g级卷积处理和h级卷积处理均以串联的形式存在，即上一级卷积处理的输出数据为下一级卷积处理的输入数据。

训练装置在执行步骤43之前，还执行以下步骤：

44、融合第四特征图和第五特征图，得到第六特征图。

本申请实施例中，第四特征图为g级卷积处理中第z级卷积处理的输出数据，第五特征图为上述h级卷积处理中第t级卷积处理的输出数据，第四特征图的尺寸与第五特征图的尺寸相同，其中，z为小于g的正整数，t为小于h的正整数。

本步骤的实现方式可参见步骤17的实现方式，其中，第四特征图与第一特征图对应，第五特征图与第二特征图对应，第六特征图与第三特征图对应。

45、对上述第六特征图进行第六特征提取处理，得到上述第四时序动作提名的第六置信度。

本步骤的实现方式可参见步骤18的实现方式，其中，第三特征图与第六特征图对应，第四特征提取处理与第六特征提取处理对应，第二时序动作提名的第三置信度与第四时序动作提名的第六置信度对应。

在得到第六置信度后，训练装置在执行步骤43的过程中执行以下步骤：

46、确定上述第四置信度、上述第五置信度和上述第六置信度的均值，作为上述第一时序动作提名的置信度。

作为一种可选的实施方式，本申请实施例中的提名关系模块的结构示意图如图5所示。如图5所示，提名关系模块包括：特征序列生成子模块、提名间相关性子模块、通道间相关性子模块和置信度生成子模块。特征序列生成子模块用于执行步骤24。通道间相关性子模块用于执行步骤28和步骤37。提名间相关性子模块用于执行步骤37、步骤38和步骤42。置信度生成子模块用于执行步骤33、步骤37、步骤43、步骤44、步骤45、步骤47。

作为一种可选的实施方式，训练装置通过执行以下步骤获取第一训练视频流：

47、获取第一正样本视频流集和第一负样本视频流集。

本申请实施例中，第一正样本视频流集中的视频流均包含第一动作的时序动作提名，第一负样本视频流集中的视频流均包不含第一动作的时序动作提名。

本申请时实施例中，第一正样本视频流集包含第一尺度视频流集和第二尺度视频流集。其中，第一尺度视频流集中视频流的尺度处于第一尺度区间，第二尺度视频流集中视频流的尺度处于第二尺度区间，且第一尺度区间与第二尺度区间无交集。

将第一正样本视频流集中的视频流称为正样本视频流。本申请实施例中，正样本视频流的尺度为参考分辨率与上述正样本视频流的分辨率的比值，正样本视频流为第一正样本视频流集中的视频流。

例如，第一正样本视频流集包括正样本视频流A。正样本视频流A包括图像a、图像b、图像c，其中，图像a和图像b均包含第一动作，图像c不包含第一动作。此时，正样本视频流A的参考分辨率为2帧图像的播放时长，正样本视频流A的分辨率为3帧图像的播放时长。若任意一张图像的播放时长均相等，则正样本视频流A的尺度为：2/3。

48、在上述第一尺度视频流集所包含的视频流的数量小于上述第二视频流集所包含的视频流的数量的情况下，以第一采样率从上述第一尺度视频流集中采样得到第一训练视频流子集、以第二采样率从上述第一尺度视频流集中采样得到第二训练视频流子集，其中，第一采样率大于第二采样率。

49、从上述第一训练视频流子集和/或上述第二训练视频流子集和/或上述第一负样本视频流集中选取一个视频流，作为上述第一训练视频流。

即在本申请实施例中，待训练神经网络的训练数据包括第一训练视频流子集、第二训练视频流子集和上述第一负样本视频流集。

训练装置通过执行步骤47～49，可平衡待训练神经网络的训练数据中不同尺度的正样本视频流的数量，进而提升待训练神经网络的训练效果。

作为一种可选的实施方式，训练装置在执行步骤47的过程中执行以下步骤：

50、获取训练视频流集。

本申请实施例中，训练视频流集包含第二正样本视频流集和第二负样本视频流集，其中，第二正样本视频流集中的视频流均包含第一动作的时序动作提名，第二负样本中的视频流均包不含第一动作的时序动作提名。

51、在上述第二正样本视频流集所包含的视频流的数量大于上述第二负样本视频流集所包含的视频流的数量的情况下，以第三采样率从上述第二正样本视频流集中采样得到上述第二正样本视频流集、以第四采样率从上述第二负样本视频流集中采样得到上述第二负样本视频流集，其中，上述第三采样率小于上述第四采样率。

52、在上述第二正样本视频流集所包含的视频流的数量小于上述第二负样本视频流集所包含的视频流的数量的情况下，以第五采样率从上述第二正样本视频流集中采样得到上述第二正样本视频流集、以第六采样率从上述第二负样本视频流集中采样得到上述第二负样本视频流集，其中，上述第五采样率大于上述第六采样率。

训练装置通过执行步骤50～52，可平衡待训练神经网络的训练数据中正样本视频流的数量和负样本视频流的数量，进而提升待训练神经网络的训练效果。

作为一种可选的实施方式，训练装置在执行步骤36的过程中，执行以下步骤：

53、确定上述第一损失和第二损失的和，得到第三损失。

54、确定上述待训练神经网络的正则化函数值，得到第四损失。

本申请实施例中，正则化函数值可以是以下中的一个：L₁正则化函数值、L₂正则化函数值。可选的，正则化函数值为L₂正则化函数值。

55、将上述第三损失和上述第四损失的和，作为上述待训练神经网络的损失。

训练装置通过在第一损失和第二损失的基础上增加第三损失，得到待训练神经网络的损失，再依据待训练神网络的损失更新待训练神经网络的参数得到时序动作提名网络，可减小时序动作提名网络出现过拟合的概率。

基于本申请实施例提供的技术方案和/或本申请实施例提供的时序动作提名网络，本申请实施例还提供了几种可能的应用场景。

场景1：在人流量较大的情况下，若手扶电梯处有人摔倒，将带来很大的安全隐患。因此，智慧园区的管理人员希望通过监控软件实现对手扶电梯处是否有行人摔倒的监测，以减少安全事故的发生。此时第一动作为摔倒，而视频处理装置通过运行监控软件，执行前文所述的方法或运行前文所述的时序提名网络，可从智慧园区的监控视频流中提取出包含摔倒的视频流。可选的，上述视频处理装置可以是服务器。

场景2：随着网络视频的增多，如何从海量视频中找出用户想要看的视频具有非常重要的意义。

视频处理装置在接收到用户输入的感兴趣视频信息的情况下，可通过执行前文所述的方法或运行前文所述的时序提名网络，从海量网络视频中找出用户感兴趣的视频，并将这些视频推荐给用户。

例如，张三是一个篮球迷，希望通过手机观看篮球视频，因此像手机输入指令，以将篮球视频作为感兴趣视频。此时第一动作为打篮球、视频处理装置为手机。手机通过执行前文所述的方法或运行前文所述的时序动作提名网络，可从海量网络视频中找出与篮球相关的视频，并将这些与篮球相关的视频推荐给张三。

可选的，在得到的第一动作的时序提名动作的数量较多的情况下，视频处理装置可依据前文所述的方法，分别得到每个第一时序动作提名的边界概率序列以及每个第一时序动作提名的置信度。视频处理装置进而可依据第一时序动作提名的时序边界概率序列和该第一时序动作提名的置信度，得到该第一时序动作提名的质量分数。视频处理装置按质量分数从大到小的顺序对至少一个第一时序动作提名排序，得到第一动作的时序动作提名顺序，并依据第一动作的时序动作提名顺序，显示至少一个第一时序动作提名。

例如，第一时序动作提名A的起始帧为图像a、结束帧为图像b，其中，图像a的起始概率为p₁，图像b的结束概率为p₂。假设第一时序动作提名A的置信度为p₃。视频处理装置通过确定p₁、p₂和p₃的乘积，得到第一时序动作提名A的质量分数。

视频处理装置依据第一动作的时序动作提名顺序，显示至少一个第一时序动作提名，可提高为用户推荐时序动作提名的准确度。

例如，在场景2中，视频处理装置首先确定所有与篮球相关的视频的质量分数，然后向张三推荐质量分数最高的10个视频。

本领域技术人员可以理解，在具体实施方式的上述方法中，各步骤的撰写顺序并不意味着严格的执行顺序而对实施过程构成任何限定，各步骤的具体执行顺序应当以其功能和可能的内在逻辑确定。

上述详细阐述了本申请实施例的方法，下面提供了本申请实施例的装置。

请参阅图6，图6为本申请实施例提供的一种视频处理装置的结构示意图，该视频处理装置包括：获取单元11、特征提取处理单元12、上采样处理单元13，其中：

获取单元11，用于获取待处理视频流；

特征提取处理单元12，用于对所述待处理视频流进行n级特征提取处理，得到第一中间特征序列；

上采样处理单元13，用于对所述第一中间特征序列进行m级上采样处理，得到第一动作的第一时序边界概率序列；所述第一时序边界概率序列包含所述待处理视频流中的图像为所述第一动作的起始帧的概率，以及所述待处理视频流中的图像为所述第一动作的结束帧的概率；

结合本申请任一实施方式，所述特征提取处理单元12，还用于在所述对所述待处理视频流进行n级特征提取处理，得到第一中间特征序列之前，对所述待处理视频流进行特征提取处理，得到第一特征序列；所述第一特征序列对应的所述待处理视频流的语义信息和待处理视频流中背景的光流特征信息；所述背景包括所述待处理视频流中除所述第一动作之外的内容；

所述特征提取处理单元12，还用于对所述第一特征序列进行所述n级特征提取处理，得到所述第一中间特征序列。

结合本申请任一实施方式，所述视频处理装置1还包括：翻转单元14和第一处理单元15；

所述翻转单元14，用于对所述第一特征序列进行时序翻转处理，得到播放顺序与所述第一特征序列相反的第二特征序列；

所述特征提取处理单元12，用于对所述第二特征序列进行p级特征提取处理，得到第二中间特征序列；

所述上采样处理单元13，用于对所述第二中间特征序列进行q级上采样处理，得到所述第一动作的第二时序边界概率序列；所述第二时序边界概率序列包含待处理视频流中的图像为所述第一动作的起始帧的概率，以及所述待处理视频流中的图像为所述第一动作的结束帧的概率；

所述第一处理单元15，用于依据所述第一时序边界概率序列和所述第二时序边界概率序列，得到所述至少一个第一时序动作提名。

结合本申请任一实施方式，所述第一处理单元15，用于：

结合本申请任一实施方式，所述至少一个第一时序动作提名包括第二时序动作提名，所述视频处理装置还包括第二处理单元16；

所述第二处理单元16，用于：

结合本申请任一实施方式，所述第二处理单元16，用于：

所述第二处理单元16，用于在所述依据所述第一相似度和所述第三特征序列，得到所述第二时序动作提名的置信度之前，确定所述第二时序动作提名和所述第三时序动作提名之间的相似度，得到第二相似度；

所述第一处理单元15，用于依据所述第一相似度、所述第二相似度和所述第三特征序列，得到所述第二时序动作提名的置信度。

结合本申请任一实施方式，所述第二处理单元16，用于：

结合本申请任一实施方式，所述第一处理单元15，用于：

所述视频处理装置还包括第三处理单元17；所述第三处理单元17，用于在所述确定所述第一置信度和所述第二置信度的均值，作为所述第一时序动作提名的置信度之前，融合第一特征图和第二特征图，得到第三特征图；所述第一特征图为所述u级卷积处理中第c级卷积处理的输出数据，所述第二特征图为所述v级卷积处理中第d级卷积处理的输出数据；所述第一特征图的尺寸与所述第二特征图的尺寸相同；所述c为小于所述u的正整数，所述d为小于所述v的正整数；

所述特征提取处理单元12，用于对所述第三特征图进行第三特征提取处理，得到所述第二时序动作提名的第三置信度；

结合本申请任一实施方式，所述第一处理单元15，用于：

结合本申请任一实施方式，所述装置1还包括：

排序单元18，用于按质量分数从大到小的顺序对所述至少一个第一时序动作提名排序，得到所述第一动作的时序动作提名顺序；所述质量分数依据所述第一时序动作提名的时序边界概率序列和所述第一时序动作提名的置信度得到；

显示单元19，用于依据所述第一动作的时序动作提名顺序，显示所述至少一个第一时序动作提名。

结合本申请任一实施方式，所述视频处理装置所执行的视频处理方法应用于时序动作提名网络；所述视频处理装置还包括训练单元20；所述训练单元用于执行所述时序动作提名网络的训练过程；

所述时序动作提名网络的训练过程包括：

本实施例中，视频处理装置通过在对第一中间特征序列进行上采样的过程中，将上采样得到的特征序列与特征提取得到的特征序列融合，以丰富特征序列中的浅层特征信息，从而提升边界概率序列的准确度。

在一些实施例中，本申请实施例提供的装置具有的功能或包含的模块可以用于执行上文方法实施例描述的方法，其具体实现可以参照上文方法实施例的描述，为了简洁，这里不再赘述。

图7为本申请实施例提供的一种视频处理装置的硬件结构示意图。该视频处理装置2包括处理器21，存储器22，输入装置23，输出装置24。该处理器21、存储器22、输入装置23和输出装置24通过连接器相耦合，该连接器包括各类接口、传输线或总线等等，本申请实施例对此不作限定。应当理解，本申请的各个实施例中，耦合是指通过特定方式的相互联系，包括直接相连或者通过其他设备间接相连，例如可以通过各类接口、传输线、总线等相连。

处理器21可以是一个或多个图形处理器(graphics processing unit，GPU)，在处理器21是一个GPU的情况下，该GPU可以是单核GPU，也可以是多核GPU。可选的，处理器21可以是多个GPU构成的处理器组，多个处理器之间通过一个或多个总线彼此耦合。可选的，该处理器还可以为其他类型的处理器等等，本申请实施例不作限定。

存储器22可用于存储计算机程序指令，以及用于执行本申请方案的程序代码在内的各类计算机程序代码。可选地，存储器包括但不限于是随机存储记忆体(random accessmemory，RAM)、只读存储器(read-only memory，ROM)、可擦除可编程只读存储器(erasableprogrammable read only memory，EPROM)、或便携式只读存储器(compact disc read-only memory，CD-ROM)，该存储器用于相关指令及数据。

输入装置23用于输入数据和/或信号，以及输出装置24用于输出数据和/或信号。输入装置23和输出装置24可以是独立的器件，也可以是一个整体的器件。

可理解，本申请实施例中，存储器22不仅可用于存储相关指令，还可用于存储相关数据，如该存储器22可用于存储通过输入装置23获取的待处理视频流，又或者该存储器22还可用于存储通过处理器21得到的第一时序边界概率序列等等，本申请实施例对于该存储器中具体所存储的数据不作限定。

可以理解的是，图7仅仅示出了一种视频处理装置的简化设计。在实际应用中，视频处理装置还可以分别包含必要的其他元件，包含但不限于任意数量的输入/输出装置、处理器、存储器等，而所有可以实现本申请实施例的视频处理装置都在本申请的保护范围之内。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。所属领域的技术人员还可以清楚地了解到，本申请各个实施例描述各有侧重，为描述的方便和简洁，相同或类似的部分在不同实施例中可能没有赘述，因此，在某一实施例未描述或未详细描述的部分可以参见其他实施例的记载。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者通过所述计算机可读存储介质进行传输。所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(digital subscriberline，DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，数字通用光盘(digital versatiledisc，DVD))、或者半导体介质(例如固态硬盘(solid state disk，SSD))等。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，该流程可以由计算机程序来指令相关的硬件完成，该程序可存储于计算机可读取存储介质中，该程序在执行时，可包括如上述各方法实施例的流程。而前述的存储介质包括：只读存储器(read-only memory，ROM)或随机存储存储器(random access memory，RAM)、磁碟或者光盘等各种可存储程序代码的介质。

Claims

1.一种视频处理方法，其特征在于，所述方法包括：

获取待处理视频流；

2.根据权利要求1所述的方法，其特征在于，在所述对所述待处理视频流进行n级特征提取处理，得到第一中间特征序列之前，所述方法还包括：

3.根据权利要求2所述的方法，其特征在于，所述方法还包括：

4.根据权利要求3所述的方法，其特征在于，所述第j级特征提取处理的输入数据包括所述待处理视频流的浅层特征信息；所述第s级特征提取处理包括所述第一特征序列的浅层特征信息。

5.根据权利要求3或4所述的方法，其特征在于，所述依据所述第一动作的时序边界概率序列和所述第二时序边界概率序列，得到所述第一动作的至少一个第一时序动作提名，包括：

6.根据权利要求3至5中任意一项所述的方法，其特征在于，所述至少一个第一时序动作提名包括第二时序动作提名，所述方法还包括：

7.根据权利要求6所述的方法，其特征在于，所述确定所述第一通道特征数据和所述第二通道特征数据之间的相似度，得到第一相似度，包括：

8.根据权利要求6或7所述的方法，其特征在于，所述至少一个第一时序动作提名还包括不同于所述第二时序动作提名的第三时序动作提名；

9.根据权利要求8所述的方法，其特征在于，所述从所述第一特征序列中提取出所述第二时序动作提名的特征序列，作为第三特征序列，包括：

10.根据权利要求9项所述的方法，其特征在于，所述依据所述第一相似度、所述第二相似度和所述第三特征序列，得到所述第二时序动作提名的置信度，包括：

11.根据权利要求10所述的方法，其特征在于，所述第一特征提取处理通过u级卷积处理实现，所述第二特征提取处理通过v级卷积处理实现；所述u和所述v均为大于1的整数；

12.根据权利要求9所述的方法，其特征在于，所述依据所述第一相似度、所述第二相似度和所述第三特征序列，得到所述第二时序动作提名的置信度，包括：

13.根据权利要求8至12中任意一项所述的方法，其特征在于，所述方法还包括：

14.根据权利要求1至13中任意一项所述的方法，其特征在于，所述视频处理方法应用于时序动作提名网络，所述时序动作提名网络的训练过程包括：

15.根据权利要求14所述的方法，其特征在于，所述待训练神经网络还包括基础特征提取模块；

16.根据权利要求15所述的方法，其特征在于，所述待训练神经网络还包括第二特征提取模块和第二上采样模块；

17.根据权利要求16所述的方法，其特征在于，所述待训练神经网络还包括提名关系模块；

18.根据权利要求14至17中任意一项所述的方法，其特征在于，所述获取第一训练视频流，包括：

19.根据权利要求18所述的方法，其特征在于，所述获取第一正样本视频流集和第一负样本视频流集，包括：

20.一种视频处理装置，其特征在于，所述装置包括：

获取单元，用于获取待处理视频流；

21.一种电子设备，其特征在于，包括：处理器和存储器，所述存储器用于存储计算机程序代码，所述计算机程序代码包括计算机指令，在所述处理器执行所述计算机指令的情况下，所述电子设备执行如权利要求1至19中任意一项所述的方法。

22.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机程序，所述计算机程序包括程序指令，在所述程序指令被处理器执行的情况下，使所述处理器执行权利要求1至19中任意一项所述的方法。