CN109359592B

CN109359592B - 视频帧的处理方法、装置、电子设备及存储介质

Info

Publication number: CN109359592B
Application number: CN201811204526.6A
Authority: CN
Inventors: 张志伟; 吴丽军
Original assignee: Beijing Dajia Internet Information Technology Co Ltd
Current assignee: Beijing Dajia Internet Information Technology Co Ltd
Priority date: 2018-10-16
Filing date: 2018-10-16
Publication date: 2019-12-06
Anticipated expiration: 2038-10-16
Also published as: CN109359592A

Abstract

本申请提供了一种视频帧的处理方法、装置、电子设备及存储介质，包括：获取视频样本的多个关键帧图像；分别提取每个关键帧图像的图像特征，得到多个第一图像特征；将多个第一图像特征导入注意力机制模型，输出基于图像通道的注意力的多个第二图像特征；将多个第二图像特征进行特征融合，得到融合特征。本申请基于注意力机制，捕捉视频样本中多个关键帧图像之间基于图像通道的关联性，并通过特征融合操作得到融合特征，使得融合特征包括了关键帧之间的关联性，提高了特征的精度，另外，特征融合操作没有对关键帧帧数的限定，因此可以实现对不同时长视频的处理，降低了对不定时长的视频进行特征提取的操作繁琐程度。

Description

视频帧的处理方法、装置、电子设备及存储介质

技术领域

本申请实施例涉及计算机技术领域，尤其涉及一种视频帧的处理方法、装置、电子设备及存储介质。

背景技术

近来，随着深度学习技术在多媒体样本分类处理等相关领域的广泛应用，使得移动终端的应用开发出来很多的多媒体视频样本分类功能，优化了应用的信息展示、推荐等功能，提高了用户体验度。

相关技术中，在现实的场景中，第一种方式是对于视频的分类，具体通过提取视频的一帧关键帧作为视频封面，并基于对该视频封面的图像特征提取，得到分类特征，该分类特征可用于对视频进行标签分类的操作，第二种方式是对于视频，提取其多帧关键帧，并采用后融合技术进行处理，得到对应的分类特征进行分类，例如，假设每隔一秒提取一帧，对于第一视频时长的视频提取出的第一帧数的关键帧，通过对应第一帧数的模型提取分类特征；对于第二固定视频时长的视频提取出的第二帧数的关键帧，通过对应第二帧数的模型提取分类特征。

但是，目前方案中，第一种方式中，单帧关键帧大多数情况向不能代表整个视频的内容，会造成信息缺失，导致对视频的分类精度下降。而第二种方式中，采用后融合技术提取视频多帧的特征，对于不同时长视频的处理较为繁琐，无法满足对不定时长的视频进行特征提取的高效率需求。

发明内容

本申请实施例提供一种视频帧的处理方法、装置、电子设备及存储介质，以解决相关技术中单帧关键帧会造成信息缺失，导致对视频的分类精度下降，且提取多帧关键帧时无法满足对不定时长的视频进行特征提取的高效率需求的问题。

第一方面，本申请实施例提供了一种视频帧的处理方法，该方法包括：

获取视频样本的多个关键帧图像；

分别提取所述每个关键帧图像的图像特征，得到多个第一图像特征；

将所述多个第一图像特征导入注意力机制模型，输出基于图像通道的注意力的多个第二图像特征；

将所述多个第二图像特征进行特征融合，得到融合特征。

可选的，所述将所述多个第一图像特征导入注意力机制模型，输出基于随机注意力的多个第二图像特征，包括：

对每个第一图像特征进行平均池化处理，得到每个第一图像特征对应的图像特征向量；

对每个图像特征向量进行空间映射处理，得到基于所述图像通道的多个注意力权重因子；

将每个注意力权重因子归一化处理，得到每个注意力权重因子对应的注意力权重；

将每个注意力权重与其对应的第一图像特征进行加权求和计算，得到基于所述图像通道的注意力的多个第二图像特征。

可选的，所述将所述多个第二图像特征进行特征融合，得到融合特征，包括：

将所述多个第二图像特征进行向量加和计算，得到所述融合特征。

可选的，所述方法还包括：

将所述融合特征导入标签分类模型，输出所述视频样本对应的分类标签。

可选的，所述分别提取所述每个关键帧图像的图像特征，得到多个第一图像特征，包括：

将所述多个关键帧图像导入卷积神经网络模型，输出所述多个关键帧图像对应的第一图像特征。

可选的，所述获取视频样本的多个关键帧图像，包括：

获取所述视频样本的播放时长；

根据所述播放时长，每隔预设时间从所述视频样本中提取一帧关键帧图像，得到所述视频样本的多个关键帧图像。

第二方面，本申请实施例提供了一种视频帧的处理装置，该装置包括：

获取模块，用于获取视频样本的多个关键帧图像；

第一提取模块，用于分别提取所述每个关键帧图像的图像特征，得到多个第一图像特征；

第二提取模块，用于将所述多个第一图像特征导入注意力机制模型，输出基于图像通道的注意力的多个第二图像特征；

特征融合模块，用于将所述多个第二图像特征进行特征融合，得到融合特征。

可选的，所述第二提取模块包括：

平均处理子模块，用于对每个第一图像特征进行平均池化处理，得到每个第一图像特征对应的图像特征向量；

映射处理子模块，用于对每个图像特征向量进行空间映射处理，得到基于所述图像通道的多个注意力权重因子；

归一处理子模块，用于将每个注意力权重因子归一化处理，得到每个注意力权重因子对应的注意力权重；

计算子模块，用于将每个注意力权重与其对应的第一图像特征进行加权求和计算，得到基于所述图像通道的注意力的多个第二图像特征。

可选的，所述特征融合模块，包括：

特征融合子模块，用于将所述多个第二图像特征进行向量加和计算，得到所述融合特征。

可选的，还包括：

标签分类模块，用于将所述融合特征导入标签分类模型，输出所述视频样本对应的分类标签。

可选的，所述第一提取模块，包括：

提取子模块，用于将所述多个关键帧图像导入卷积神经网络模型，输出所述多个关键帧图像对应的第一图像特征。

可选的，所述获取模块，包括：

第二获取子模块，用于获取所述视频样本的播放时长；

抽帧子模块，用于根据所述播放时长，每隔预设时间从所述视频样本中提取一帧关键帧图像，得到所述视频样本的多个关键帧图像。

第三方面，本申请实施例还提供了一种电子设备，包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如本申请提供的视频帧的处理方法的步骤。

第四方面，本申请实施例还提供了一种存储介质，当所述存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行如本申请提供的视频帧的处理方法的步骤。

第五方面，本申请实施例还提供了一种应用程序，所述应用程序由电子设备的处理器执行时，实现如本申请提供的视频帧的处理方法的步骤。

在本申请实施例中，可以获取视频样本的多个关键帧图像；分别提取每个关键帧图像的图像特征，得到多个第一图像特征；将多个第一图像特征导入注意力机制模型，输出基于图像通道的注意力的多个第二图像特征；将多个第二图像特征进行特征融合，得到融合特征。本申请基于注意力机制，捕捉视频样本中多个关键帧图像之间基于图像通道的关联性，并通过特征融合操作得到融合特征，使得融合特征包括了关键帧之间的关联性，提高了特征的精度，另外，本申请通过提取视频样本的多帧进行特征融合操作，降低了单帧提取处理造成的信息缺失，并且特征融合操作没有对关键帧帧数的限定，因此可以实现对不同时长视频的处理，降低了对不定时长的视频进行特征提取的操作繁琐程度。

上述说明仅是本申请技术方案的概述，为了能够更清楚了解本申请的技术手段，而可依照说明书的内容予以实施，并且为了让本申请的上述和其它目的、特征和优点能够更明显易懂，以下特举本申请的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本申请的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1是本申请实施例提供的一种视频帧的处理方法的步骤流程图；

图2是本申请实施例提供的另一种视频帧的处理方法的步骤流程图；

图3是本申请实施例提供的一种视频帧的处理装置的框图；

图4是本申请实施例提供的另一种视频帧的处理装置的框图；

图5是本申请另一个实施例的电子设备的逻辑框图；

图6是本申请另一个实施例的电子设备的逻辑框图。

具体实施方式

下面将参照附图更详细地描述本申请的示例性实施例。虽然附图中显示了本申请的示例性实施例，然而应当理解，可以以各种形式实现本申请而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本申请，并且能够将本申请的范围完整的传达给本领域的技术人员。

图1是本申请实施例提供的一种视频帧的处理方法的步骤流程图，如图1所示，该方法可以包括：

步骤101，获取视频样本的多个关键帧图像。

多媒体样本是指用户由本地上传至移动终端应用服务器的包含了多媒体信息的样本，移动终端的应用可以对多媒体样本进行处理，将其中的多媒体信息进行展示、发布等处理。

具体的，视频样本是由多个视频帧排列组成的流媒体信息，视频的关键帧图像指的是在一段视频帧序列中，通过一定的算法或规则，抽取出来指定数目的视频帧图像，例如，在电影中，关键帧图像可以作为剧照或电影封面，具体的，在本申请的实现方式中，可以提取视频信息中的多个关键帧图像，具体的提取方法可以有多种，例如，根据视频的时长k，从视频播放起点开始，每隔n秒提取一张关键帧图像，最终获取k/n张关键帧图像。

在本申请实施例中，通过提取视频样本的多帧关键帧，捕捉不同帧之间的信息，可以解决现有技术中仅提取单帧而造成视频关键信息不完整，导致对视频的分类精度下降的问题。

步骤102、分别提取所述每个关键帧图像的图像特征，得到多个第一图像特征。

在实际应用中，移动终端的社交、购物等应用都具有多媒体样本分类的功能，多媒体样本分类在信息展示、内容推荐等领域的作用越来越大，多媒体样本的分类操作基于多媒体样本的特征进行，具体的，多媒体样本的特征是多媒体样本的抽象结果，通常以特征向量的形式表达，用来进行描述多媒体样本，在一种实现方式中，可以通过标签分类模型对多媒体样本的特征进行进一步的处理，使得为该特征匹配到对应的分类标签，进一步的将多媒体样本划分到该分类标签对应的分类中，完成多媒体样本的分类。

特征是某一类对象区别于其他类对象的相应特点或特性，或是这些特点和特性的集合，特征是通过测量或处理能够抽取的数据，特征提取的主要目的是降维，且其主要思想是将原始图像样本投影到一个低维特征空间，得到最能反应图像样本本质或进行图像样本区分的低维图像样本特征。

对于关键帧图像而言，每一幅关键帧图像都具有能够区别于其他类图像的自身特征，有些是可以直观地感受到的自然特征，如亮度、边缘、纹理和色彩等；有些则是需要通过变换或处理才能得到的，如矩、直方图以及主成份等，在本申请实施例中，第一图像特征可以通过特征向量表达式进行表达，如，f＝{x1，x2…xn}，常见的第一图像特征提取方法包括：(1)几何法特征提取，几何法是建立在图像纹理基元理论基础上的一种纹理特征分析方法。(2)模型法特征提取，模型法以图像的构造模型为基础，采用模型的参数作为纹理特征，例如卷积神经网络模型。(3)信号处理法特征提取，纹理特征的提取与匹配主要有：灰度共生矩阵、自回归纹理模型、小波变换等。

步骤103、将所述多个第一图像特征导入注意力机制模型，输出基于图像通道的注意力的多个第二图像特征。

在本申请实施例中，注意力(Attention)机制的本质来自于人类视觉注意力机制，视觉注意力机制是人类视觉所特有的大脑信号处理机制，人类视觉通过快速扫描全局图像，获得需要重点关注的目标区域，也就是一般所说的注意力焦点，而后对这一区域投入更多注意力资源，以获取更多所需要关注目标的细节信息，而抑制其他无用信息。

另外，图像通道用于图像分解成一个或多个颜色成分，图像通道包括：单通道：一个像素点只需一个数值表示，只能表示灰度，0为黑色；三通道：RGB模式，把图像分为红(R)绿(G)蓝(B)三个通道，可以表示彩色，全0表示黑色；四通道：在RGB基础上加上alpha通道，表示透明度，alpha＝0表示全透明。在本申请实施例中，可以基于三通道的RGB模式进行说明，也就是说，一幅完整的图像，是由红色绿色蓝色三个通道组成的，他们共同作用产生了完整的图像，绝大多数可视光谱都可表示为红(R)、绿(G)、蓝(B)三色光在不同比例和强度上的混合，具体的，RGB颜色值可以由红(R)、绿(G)、蓝(B)分别对应的不同数值组合而成，例如：R255、G0、B255可以表示红色像素点的RGB颜色值。

在本申请实施例中，RGB颜色查询对照表可以通过以“#”开头的6位十六进制数值表示一种颜色，6位数字分为3组，每组两位，依次表示红(R)、绿(G)、蓝(B)三种颜色的强度，RGB颜色查询对照表中可以涵盖各式各样的颜色的6位十六进制数值。

在该步骤中，通过将第一图像特征中像素点的颜色值与颜色查询对照表进行匹配，即可确定各个像素点所属的颜色，同时，可以将颜色查询对照表提供的所有颜色按照色谱的颜色分部分为多个分类，例如，在一种实现方式中，可以分为三个分类：冷色区分类、中色区分类和暖色区分类，分类的界限可以通过颜色的6位十六进制数值进行区分，且分类的界限可以由用户自定义。

因此，注意力机制模型是基于模拟人类注意力机制而建立的一种网络模型，基于注意力机制，捕捉第一图像特征基于图像通道的注意力的关联性，该关联性可以为注意力权重，通过将注意力权重分配到对应的特征上，即得到了应用了注意力机制的特征，由于该特征包括了视频样本的多帧之间的关联性，因此，后续在利用该特征进行如视频分类、推荐等场景的应用时，使得分类结果或推荐结果更加准确，提高了视频分类的精度。

具体的，在本申请实施例中，注意力机制模型可以通过大量关键帧图像训练样本基于图像通道的分类训练得到，不同的图像通道分类可以对应预设不同的权重，使得训练后的注意力机制模型对输入的第一图像特征添加了图像通道基于图像通道注意力的权重属性，得到第二图像特征，第二图像特征相对于第一图像特征，具有更高特征的精度。

将第一图像特征导入注意力机制模型，可以通过将第一图像特征平均池化，得到多个特征向量，并将每个特征向量相对于自身进行空间映射，得到基于图像通道的注意力权重因子的分布，最后将注意力权重与第一图像特征进行加权求和，即得到了基于图像通道注意力的第二图像特征。

在具体的应用场景中，假设用户通过客户端向应用服务器上传了一张海边旅游的视频，该视频分别包括对大海的拍摄片段和对沙滩的拍摄片段，且大海的拍摄片段的时长要大于沙滩的拍摄片段的时长，对该视频提取多个关键帧，多个关键帧经过初步的特征提取后，可以得到多个第一图像特征，分别表述视频中“大海”、“沙滩”等特征，其中包括“大海”特征的第一图像特征更多、包括“沙滩”特征的第一图像特征相对较少，基于图像通道的冷色调、暖色调、中色调分类，“大海”特征处于冷色调分类、“沙滩”特征处于暖色调分类，且根据实际需求，将冷色调的权重设置为大于暖色调的权重，本申请通过将第一图像特征导入注意力机制模型，根据图像通道的注意力，可以输出基于第二图像特征，此时，第二图像特征中，包括的“大海”特征配置了更多的权重，包括的“沙滩”特征配置了相对较少的权重。

进一步的，根据第二图像特征，可以进一步进行将多个第二图像特征进行特征融合，得到融合特征的步骤，假设在进行对该海边旅游视频的分类时，若仅为融合特征分配一个分类标签，则可以为该视频打上“大海”的标签，若可以分配多个分类标签，则可以为该视频打上“大海”“沙滩”的标签，且“大海”标签可以排列在“沙滩”标签之前，以体现其重要度。

因此，本申请实施例引入注意力机制模型，通过基于图像通道的注意力关联，对海边旅游视频中的各个关键帧的第一图像特征，引入按照图像通道的分类得到的权重，使得最终的第二图像特征包括具有权重程度的多个特征，提升了特征本身的精准度，有利于后续的分类操作的进行。

步骤104、将所述多个第二图像特征进行特征融合，得到融合特征。

特征融合是指将多个特征整合到一起，去冗余，得到的融合特征可以作为一个整体，将利于之后对其的分析处理。

具体的，特征融合的操作具体可以通过特征融合算法实现，由于第二图像特征可以为相同规格的矩阵向量表达式，因此可以将各个第二图像特征按照对应的位置进行加和计算，得到融合特征，例如，有两个第二图像特征，则可以将第一个特征的第一行第一列与第二个特征的第一行第一列进行加和，将第一个特征的第一行第二列与第二个特征的第一行第二列进行加和，直至将所有相同的位置完成加和计算，得到最终的融合特征。

进一步的，对于注意力机制模型输出的多个第二图像特征，分别包括了基于图像通道的注意力，即包含了权重，因此，通过特征融合操作将各个第二图像特征进行融合，其目的是将各个第二图像特征分别包括的权重通过融合特征进行集中表达，一个融合特征相对于多个分散的第二图像特征，具有更高的特征精度，且更加便于进行后续处理。

综上所述，本申请实施例提供的一种视频帧的处理方法，可以获取视频样本的多个关键帧图像；分别提取每个关键帧图像的图像特征，得到多个第一图像特征；将多个第一图像特征导入注意力机制模型，输出基于图像通道的注意力的多个第二图像特征；将多个第二图像特征进行特征融合，得到融合特征。本申请基于注意力机制，捕捉视频样本中多个关键帧图像之间基于图像通道的关联性，并通过特征融合操作得到融合特征，使得融合特征包括了关键帧之间的关联性，提高了特征的精度，另外，本申请通过提取视频样本的多帧进行特征融合操作，降低了单帧提取处理造成的信息缺失，并且特征融合操作没有对关键帧帧数的限定，因此可以实现对不同时长视频的处理，降低了对不定时长的视频进行特征提取的操作繁琐程度。

图2是本申请实施例提供的另一种视频帧的处理方法的步骤流程图，如图2所示，该方法可以包括：

步骤201、获取视频样本的多个关键帧图像。

本步骤的实现方式与上述步骤101的实现过程类似，本申请实施例在此不再详述。

具体的，在本申请的一种实现方式中，步骤201可以通过下述步骤来实现：

步骤2011、获取所述视频样本的播放时长。

在该步骤中，视频样本通常具有一定的播放时长t，可以通过解析该视频样本获取对应的播放时长。

步骤2012、根据所述播放时长，每隔预设时间从所述视频样本中提取一帧关键帧图像，得到所述视频样本的多个关键帧图像。

具体的，视频样本是由多个视频帧组成的一段可视化序列，其中，视频序列流中包括了多张视频帧画面，可以按照每隔预设时间n，从视频序列流中提取一帧关键帧图像，得到视频的t/n个关键帧图像序列流，从而得到视频的t/n个关键帧图像，需要说明的是，关键帧图像的提取方法不仅限于本申请实施例所提供的，可以根据实际需求进行提取方法的选择，本申请对此不作限定。

步骤202、分别提取所述每个关键帧图像的图像特征，得到多个第一图像特征。

本步骤的实现方式与上述步骤102的实现过程类似，本申请实施例在此不再详述。

具体的，在本申请的一种实现方式中，步骤202可以通过下述步骤来实现：

步骤2021，将所述多个关键帧图像导入卷积神经网络模型，输出所述多个关键帧图像对应的第一图像特征。

在本申请实施例中，卷积神经网络(Convolutional Neural Network，CNN)是一种深度前馈人工神经网络，卷积神经网络包括卷积层和池化层，一般地，卷积神经网络的基本结构包括两层，其一为特征提取层，每个神经元的输入与前一层的局部接受域相连，并提取该局部的特征。一旦该局部特征被提取后，它与其它特征间的位置关系也随之确定下来；其二是特征映射层，网络的每个计算层由多个特征映射组成，每个特征映射是一个平面，平面上所有神经元的权值相等。特征映射结构采用影响函数核小的sigmoid函数作为卷积网络的激活函数，使得特征映射具有位移不变性。此外，由于一个映射面上的神经元共享权值，因而减少了网络自由参数的个数，卷积神经网络中的每一个卷积层都紧跟着一个用来求局部平均与二次提取的计算层，这种特有的两次特征提取结构减小了特征分辨率。

因此，对于一副关键帧图像中的某个像素p来说，一般离像素p越近的像素对其影响也就越大；另外，根据自然图像的统计特性，某个区域的权值也可以用于另一个区域。这里的权值共享说白了就是卷积核共享，利用卷积神经网络模型，对于一个卷积核将其与给定的关键帧图像做卷积就可以提取一副关键帧图像的特征，不同的卷积核可以提取不同的图像特征，最终获取图像信息对应的第一图像特征，其中，卷积核(也称作滤波器，英文：convolution kernel)是可以用来提取特征的，图像和卷积核卷积，就可以得到特征值。

步骤203、将所述多个第一图像特征导入注意力机制模型，输出基于图像通道的注意力的多个第二图像特征。

本步骤的实现方式与上述步骤103的实现过程类似，本申请实施例在此不再详述。

可选的，在一种实现方式中，步骤203还可以包括：

步骤2031，对每个第一图像特征进行平均池化处理，得到每个第一图像特征对应的图像特征向量。

在注意力机制模型中，通常可以使用平均池化那样的聚合函数来表征第一图像特征。平均池化即对局部接受域中的所有值求均值，以减小邻域大小受限造成的估计值方差增大的误差，对于图像信息来说，其效果是更多的保留图像的背景信息，因此，将第一图像特征平均池化，可以得到对应的降低了误差的第一图像特征向量。

具体的，第一图像特征平均池化后，可以得到多个第一图像特征向量。第一图像特征向量基于注意力机制，对输入中的不同向量赋予不同的权重，将输入最终表示为多个第一图像特征向量的加权和。

步骤2032，对每个图像特征向量进行空间映射处理，得到基于所述图像通道的多个注意力权重因子。

在本申请实施例中，基于图像通道的注意力可以理解为第一图像特征对应图像通道的注意力权重因子，注意力机制函数的本质可以被描述为一个查询(query)到一系列(键key-值value)对的映射，在计算基于图像通道的注意力的第二图像特征时主要分为三步，第一步是将query(第一图像特征向量)和key(第一图像特征)进行相似度计算得到权重因子，常用的相似度函数有点积，拼接，感知机等；然后第二步一般是使用一个softmax函数对这些权重因子进行归一化，得到归一化权重；最后将归一化权重和相应的键值value(第一图像特征)进行加权求和得到最后的第二图像特征。

步骤2033，将每个注意力权重因子归一化处理，得到每个注意力权重因子对应的注意力权重。

在该步骤中，将注意力权重因子归一化处理，可以利用Sigmoid函数进行，Sigmoid函数由于其单增以及反函数单增等性质，常被用作神经网络的阈值函数，其作用是将变量映射到0,1之间。

步骤2034，将每个注意力权重与其对应的第一图像特征进行加权求和计算，得到基于所述图像通道的注意力的多个第二图像特征。

在该步骤中，将归一化处理后的权重和相应的键值value(第一图像特征)进行加权求和得到最后的第二图像特征，此时第二图像特征结合了各个关键帧基于图像通道分类的关联性，使得在后续预测或分类操作时可以获得更精确的结构。

步骤204、将所述多个第二图像特征进行向量加和计算，得到所述融合特征。

假设第一图像特征feature_map_(i,j,m,n)通过注意力机制模型，得到基于图像通道的注意力的第二图像特征attn_feature_map_(i,j,m,n)，其中，i表示视频样本序号，j表示关键帧序号，m表示图像特征中的向量行位置，n表示图像特征中的向量列位置，例如，attn_feature_map_(1,3,3,2)表示视频样本1第3关键帧图像对应的第二图像特征中，向量的第3行第2列的数值。

则，将多个第二图像特征进行向量加和计算得到融合特征，具体可以通过下述公式进行计算：

其中，K为视频i的总帧数。

步骤205、将所述融合特征导入标签分类模型，输出所述视频样本对应的分类标签。

在本申请实施例中，标签分类模型中可以预存有特征与标签的对应关系，并通过预设函数进行实现输入特征与对应标签的映射，从而达到为输入特征匹配对应的标签，在该步骤中，融合特征中结合了各个关键帧基于图像通道分类的关联性，因此，融合特征即为视频样本的多帧基于图像通道分类注意力的融合，融合特征可以精确的表达视频样本的多帧信息，将其输入标签分类模型，可以输出融合特征对应的分类标签，使得视频样本被分到对应分类中。

例如，假设用户通过客户端向应用服务器上传了一张海边旅游的视频，该视频分别包括对大海的拍摄片段和对沙滩的拍摄片段，且大海的拍摄片段的时长要大于沙滩的拍摄片段的时长，因此，根据用户上传的视频样本输出的第二图像特征中，包括的“大海”特征配置了更多的权重，包括的“沙滩”特征配置了相对较少的权重。若仅为视频样本分配一个分类标签，则可以为该视频打上“大海”的标签。

综上所述，本申请实施例提供的另一种视频帧的处理方法，可以获取视频样本的多个关键帧图像；分别提取每个关键帧图像的图像特征，得到多个第一图像特征；将多个第一图像特征导入注意力机制模型，输出基于图像通道的注意力的多个第二图像特征；将多个第二图像特征进行特征融合，得到融合特征。本申请基于注意力机制，捕捉视频样本中多个关键帧图像之间基于图像通道的关联性，并通过特征融合操作得到融合特征，使得融合特征包括了关键帧之间的关联性，提高了特征的精度，另外，本申请通过提取视频样本的多帧进行特征融合操作，降低了单帧提取处理造成的信息缺失，并且特征融合操作没有对关键帧帧数的限定，因此可以实现对不同时长视频的处理，降低了对不定时长的视频进行特征提取的操作繁琐程度。

图3是本申请实施例提供的一种视频帧的处理装置的框图，如图3所示，包括：

获取模块301，用于获取视频样本的多个关键帧图像；

第一提取模块302，用于分别提取所述每个关键帧图像的图像特征，得到多个第一图像特征；

第二提取模块303，用于将所述多个第一图像特征导入注意力机制模型，输出基于图像通道的注意力的多个第二图像特征；

特征融合模块304，用于将所述多个第二图像特征进行特征融合，得到融合特征。

综上所述，本申请实施例提供的一种视频帧的处理装置，获取视频样本的多个关键帧图像；分别提取每个关键帧图像的图像特征，得到多个第一图像特征；将多个第一图像特征导入注意力机制模型，输出基于图像通道的注意力的多个第二图像特征；将多个第二图像特征进行特征融合，得到融合特征。本申请基于注意力机制，捕捉视频样本中多个关键帧图像之间基于图像通道的关联性，并通过特征融合操作得到融合特征，使得融合特征包括了关键帧之间的关联性，提高了特征的精度，另外，特征融合操作没有对关键帧帧数的限定，因此可以实现对不同时长视频的处理，降低了对不定时长的视频进行特征提取的操作繁琐程度。

图4是本申请实施例提供的另一种视频帧的处理装置的框图，如图4所示，包括：

获取模块401，用于获取视频样本的多个关键帧图像；

可选的，获取模块401，包括：

第二获取子模块，用于获取所述视频样本的播放时长；

第一提取模块402，用于分别提取所述每个关键帧图像的图像特征，得到多个第一图像特征；

可选的，第一提取模块402，包括：

第二提取模块403，用于将所述多个第一图像特征导入注意力机制模型，输出基于图像通道的注意力的多个第二图像特征；

可选的，第二提取模块403包括：

特征融合模块404，用于将所述多个第二图像特征进行特征融合，得到融合特征。

可选的，特征融合模块404，包括：

标签分类模块405，用于将所述融合特征导入标签分类模型，输出所述视频样本对应的分类标签。

图5是根据一示例性实施例示出的一种电子设备600的框图。例如，电子设备600可以是移动电话，计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理等移动终端。

参照图5，电子设备600可以包括以下一个或多个组件：处理组件602，存储器604，电力组件606，多媒体组件608，音频组件610，输入/输出(I/O)的接口612，传感器组件614，以及通信组件616。

处理组件602通常控制电子设备600的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理组件602可以包括一个或多个处理器620来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件602可以包括一个或多个模块，便于处理组件602和其他组件之间的交互。例如，处理组件602可以包括多媒体模块，以方便多媒体组件608和处理组件602之间的交互。

存储器604被配置为存储各种类型的数据以支持在电子设备600的操作。这些数据的示例包括用于在电子设备600上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器604可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

电源组件606为电子设备600的各种组件提供电力。电源组件606可以包括电源管理系统，一个或多个电源，及其他与为电子设备600生成、管理和分配电力相关联的组件。

多媒体组件608包括在所述电子设备600和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件608包括一个前置摄像头和/或后置摄像头。当电子设备600处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。

音频组件610被配置为输出和/或输入音频信号。例如，音频组件610包括一个麦克风(MIC)，当电子设备600处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器604或经由通信组件616发送。在一些实施例中，音频组件610还包括一个扬声器，用于输出音频信号。

I/O接口612为处理组件602和外围接口模块之间提供接口，上述外围接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件614包括一个或多个传感器，用于为电子设备600提供各个方面的状态评估。例如，传感器组件614可以检测到电子设备600的打开/关闭状态，组件的相对定位，例如所述组件为电子设备600的显示器和小键盘，传感器组件614还可以检测电子设备600或电子设备600一个组件的位置改变，用户与电子设备600接触的存在或不存在，电子设备600方位或加速/减速和电子设备600的温度变化。传感器组件614可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件614还可以包括光传感器，如CMOS或CCD图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件614还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件616被配置为便于电子设备600和其他设备之间有线或无线方式的通信。电子设备600可以接入基于通信标准的无线网络，如WiFi，运营商网络(如2G、3G、4G或5G)，或它们的组合。在一个示例性实施例中，通信组件616经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，所述通信组件616还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

在示例性实施例中，电子设备600可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于获取视频样本的多个关键帧图像；分别提取每个关键帧图像的图像特征，得到多个第一图像特征；将多个第一图像特征导入注意力机制模型，输出基于图像通道的注意力的多个第二图像特征；将多个第二图像特征进行特征融合，得到融合特征。

在示例性实施例中，还提供了一种包括指令的非临时性存储介质，例如包括指令的存储器604，上述指令可由电子设备600的处理器620执行以完成上述方法。例如，所述非临时性存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

图6是根据一示例性实施例示出的一种电子设备700的框图。例如，电子设备700可以被提供为一服务器。参照图6，电子设备700包括处理组件722，其进一步包括一个或多个处理器，以及由存储器732所代表的存储器资源，用于存储可由处理组件722的执行的指令，例如应用程序。存储器732中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外，处理组件722被配置为执行指令，以执行获取视频样本的多个关键帧图像；分别提取每个关键帧图像的图像特征，得到多个第一图像特征；将多个第一图像特征导入注意力机制模型，输出基于图像通道的注意力的多个第二图像特征；将多个第二图像特征进行特征融合，得到融合特征。

电子设备700还可以包括一个电源组件726被配置为执行电子设备700的电源管理，一个有线或无线网络接口750被配置为将电子设备700连接到网络，和一个输入输出(I/O)接口758。电子设备700可以操作基于存储在存储器732的操作系统，例如WindowsServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeBSDTM或类似。

本申请实施例还提供一种应用程序，所述应用程序由电子设备的处理器执行时，实现如本申请提供的获取视频样本的多个关键帧图像；分别提取每个关键帧图像的图像特征，得到多个第一图像特征；将多个第一图像特征导入注意力机制模型，输出基于图像通道的注意力的多个第二图像特征；将多个第二图像特征进行特征融合，得到融合特征的步骤。

本领域技术人员在考虑说明书及实践这里公开的申请后，将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本申请的真正范围和精神由下面的权利要求指出。

应当理解的是，本申请并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。

Claims

1.一种视频帧的处理方法，其特征在于，所述方法包括：

获取视频样本的多个关键帧图像；

将所述多个第二图像特征进行特征融合，得到融合特征；

所述将所述多个第一图像特征导入注意力机制模型，输出基于图像通道的注意力的多个第二图像特征，包括：

将每个注意力权重与其对应的第一图像特征进行加权求和计算，得到基于所述图像通道的注意力的多个第二图像特征；

所述方法还包括：

2.根据权利要求1所述的方法，其特征在于，所述将所述多个第二图像特征进行特征融合，得到融合特征，包括：

3.根据权利要求1所述的方法，其特征在于，所述分别提取所述每个关键帧图像的图像特征，得到多个第一图像特征，包括：

4.根据权利要求1所述的方法，其特征在于，所述获取视频样本的多个关键帧图像，包括：

获取所述视频样本的播放时长；

5.一种视频帧的处理装置，其特征在于，所述装置包括：

获取模块，用于获取视频样本的多个关键帧图像；

特征融合模块，用于将所述多个第二图像特征进行特征融合，得到融合特征；

所述第二提取模块包括：

计算子模块，用于将每个注意力权重与其对应的第一图像特征进行加权求和计算，得到基于所述图像通道的注意力的多个第二图像特征；

还包括：

6.根据权利要求5所述的装置，其特征在于，所述特征融合模块，包括：

7.根据权利要求5所述的装置，其特征在于，所述第一提取模块，包括：

8.根据权利要求5所述的装置，其特征在于，所述获取模块，包括：

第二获取子模块，用于获取所述视频样本的播放时长；

9.一种电子设备，其特征在于，包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如权利要求1至4中任一项所述的视频帧的处理方法的步骤。

10.一种存储介质，其特征在于，所述存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至4中任一项所述的视频帧的处理方法的步骤。