CN111428771A

CN111428771A - 视频场景分类方法、装置和计算机可读存储介质

Info

Publication number: CN111428771A
Application number: CN202010194310.7A
Authority: CN
Inventors: 柴子峰; 郑茂
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-11-08
Filing date: 2019-11-08
Publication date: 2020-07-17
Anticipated expiration: 2039-11-08
Also published as: CN110807437B; CN111428771B; CN110807437A

Abstract

本申请涉及一种视频场景分类方法、装置、计算机可读存储介质和计算机设备，所述方法包括：获取视频，并提取视频中多个视频帧对应的图像帧特征；基于每个图像帧特征分别映射得到相应的帧特征初始权重；通过权重处理模型中的第一映射层结构和第二映射层结构对帧特征初始权重依次进行权重映射，得到每个图像帧特征分别对应的自适应帧特征权重；将图像帧特征按照对应的自适应帧特征权重进行特征融合，得到用于表征视频的视频粒度特征；通过视频特征处理模型和分类器对视频粒度特征进行场景分类，得到视频的场景分类结果。本申请提供的方案能够提高视频场景分类的分类准确性。

Description

视频场景分类方法、装置和计算机可读存储介质

本申请是于2019年11月05日提交中国专利局，申请号为2019110873100，发明名称为“视频粒度特征确定方法、装置和计算机可读存储介质”的分案申请，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及计算机技术领域，特别是涉及一种视频场景分类方法、装置、计算机可读存储介质和计算机设备。

背景技术

随着计算机技术的发展，人民精神生活得到了极大的丰富，信息消费需求扩大，媒体、新闻行业飞速发展，促成了近年来自媒体产业的繁荣。在拼流量、拼内容的大环境下，为捕获大众眼球，媒体内容呈现爆炸式增长趋势，图文新闻、视频发文量迅猛扩增。其中，对于视频进行场景分类，如划分为户外场景“山”、“河流”，户内场景“客厅”、“水族馆”等，按照视频的场景类别进行管理处理，便于提供针对性的服务。

目前，针对视频的分类处理中采用的特征融合技术，基于各视频帧之间的时序关系，融合各视频帧的特征得到视频特征以进行分类，如场景分类，然而视频的分类并非全部都是严格的时序任务，对于非时序任务的视频分类，基于各视频帧之间的时序关系融合得到的视频特征无法有效体现视频的分类特征，导致视频分类的准确性不高。

发明内容

基于此，有必要针对融合得到的视频特征无法有效体现视频的分类特征导致视频分类准确性低的技术问题，提供一种视频场景分类方法、装置、计算机可读存储介质和计算机设备。

一种视频场景分类方法，包括：

获取视频，并提取视频中多个视频帧对应的图像帧特征；

基于每个所述图像帧特征分别映射得到相应的帧特征初始权重；

通过权重处理模型中的第一映射层结构和第二映射层结构对所述帧特征初始权重依次进行权重映射，得到每个所述图像帧特征分别对应的自适应帧特征权重；所述权重处理模型，是对带分类标签的样本视频对应的样本帧特征初始权重进行权重映射训练得到的；

将所述图像帧特征按照对应的自适应帧特征权重进行特征融合，得到用于表征所述视频的视频粒度特征；

通过视频特征处理模型和分类器对视频粒度特征进行场景分类，得到视频的场景分类结果；其中，视频特征处理模型，是对带分类标签的样本视频对应的样本视频粒度特征进行视频特征映射训练得到的；分类器，是对带分类标签的样本视频对应的样本分类特征进行场景分类训练得到的。

一种视频场景分类装置，所述装置包括：

帧特征提取模块，用于获取视频，并提取所述视频中多个视频帧对应的图像帧特征；

初始权重确定模块，用于基于每个所述图像帧特征分别映射得到相应的帧特征初始权重；

自适应权重确定模块，用于通过权重处理模型中的第一映射层结构和第二映射层结构对所述帧特征初始权重依次进行权重映射，得到每个所述图像帧特征分别对应的自适应帧特征权重；所述权重处理模型，是对带分类标签的样本视频对应的样本帧特征初始权重进行权重映射训练得到的；

粒度特征获得模块，用于将所述图像帧特征按照对应的自适应帧特征权重进行特征融合，得到用于表征所述视频的视频粒度特征；

视频特征处理模型模块，用于通过视频特征处理模型和分类器对视频粒度特征进行场景分类，得到视频的场景分类结果；其中，视频特征处理模型，是对带分类标签的样本视频对应的样本视频粒度特征进行视频特征映射训练得到的；分类器，是对带分类标签的样本视频对应的样本分类特征进行场景分类训练得到的。

一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行如上所述视频场景分类方法的步骤。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行如上所述视频场景分类方法的步骤。

上述视频场景分类方法、装置、计算机可读存储介质和计算机设备，对从视频的多个视频帧中对应提取的图像帧特征分别映射，得到相应的帧特征初始权重，通过对带分类标签的样本视频对应的样本帧特征初始权重进行权重映射训练得到的权重处理模型中的第一映射层结构和第二映射层结构对帧特征初始权重依次进行权重映射，得到每个图像帧特征分别对应的自适应帧特征权重，并融合各图像帧特征对应的自适应帧特征权重，得到表征视频的视频粒度特征，再通过视频特征处理模型和分类器对视频粒度特征进行场景分类，得到场景分类结果。自适应帧特征权重通过权重处理模型中的第一映射层结构和第二映射层结构依次进行权重映射得到，可以有效突出视频中与分类特征相关的视频帧，抑制与分类特征无关的视频帧，使得融合得到的视频粒度特征可以有效体现出视频的分类特征，从而可以提高通过视频特征处理模型和分类器对该视频粒度特征进行场景分类时的准确度。

附图说明

图1为一个实施例中视频粒度特征确定方法的应用环境图；

图2为一个实施例中视频粒度特征确定方法的流程示意图；

图3为一个实施例中特征提取模型的模型结构示意图；

图4为一个实施例中确定自适应帧特征权重的流程示意图；

图5为一个实施例中第二权重映射处理的示意图；

图6为一个实施例中第一权重映射处理的示意图；

图7为一个实施例中视频粒度特征确定方法的处理流程示意图；

图8为一个实施例中视频粒度特征确定方法的流程示意图；

图9为一个实施例中视频粒度特征确定装置的结构框图；

图10为一个实施例中计算机设备的结构框图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

图1为一个实施例中视频粒度特征确定方法的应用环境图。(例子：参照图1，该视频粒度特征确定方法应用于视频场景分类系统。该视频场景分类系统包括终端110和服务器120。终端110和服务器120通过网络连接。终端110具体可以是台式终端或移动终端，移动终端具体可以手机、平板电脑、笔记本电脑等中的至少一种。服务器120可以用独立的服务器或者是多个服务器组成的服务器集群来实现。)

如图2所示，在一个实施例中，提供了一种视频粒度特征确定方法。本实施例主要以该方法应用于上述图1中的服务器120来举例说明。参照图2，该视频粒度特征确定方法具体包括如下步骤：

S202，获取视频，并提取视频中多个视频帧对应的图像帧特征。

其中，视频是各种动态影像的储存格式，视频本身包含的信息量是巨大且冗余的，为了播放连贯，视频帧率一般为24FPS(Frame per Second)或以上，即1秒钟包含24张图像帧，根据视觉暂留原理，人眼无法辨别单幅的静态画面，看上去是平滑连续的视觉效果。视频帧即为需要进行视频粒度特征确定的视频中的图像帧，可以从视频中抽取得到。图像帧特征用于表征视频帧，其反映了视频帧的高层表示，基于该高层表示可以利用计算机技术，如计算机视觉(Computer Vision，VC)进行图像分析，识别出目标对象。

本实施例中，从待确定视频粒度特征的视频中获取多于一个视频帧，并获取从该视频帧中对应提取的图像帧特征，图像帧特征表征了对应的视频帧。

S204，基于每个图像帧特征分别映射得到相应的帧特征初始权重。

其中，权重用于表征对应视频帧的图像帧特征在确定视频粒度特征时的相关程度，权重越高，则图像帧特征对视频粒度特征的影响越大。帧特征初始权重为各图像帧特征的初始权重，由对应的图像帧特征映射得到。在具体实现时，可以通过平均池化，即根据图像帧特征中每一维度的值求平均，将平均值作为图像帧特征对应的帧特征初始权重。

S206，通过权重处理模型对帧特征初始权重进行权重映射，得到每个图像帧特征分别对应的自适应帧特征权重；权重处理模型，是对带分类标签的样本视频对应的样本帧特征初始权重进行权重映射训练得到的。

其中，权重处理模型可以为神经网络模型，基于神经网络的各种算法训练得到，神经网络是从信息处理角度对人脑神经元网络进行抽象，建立的某种简单模型，按不同的连接方式组成不同的网络。本实施例中，权重处理模型基于对带分类标签的样本视频对应的样本帧特征初始权重进行权重映射训练得到，训练目的在于自动学习各样本帧之间的权重配比。其中，样本视频为模型训练时的训练数据，样本视频携带分类标签，分类标签用于标识样本视频已确定的所属类别，样本帧特征初始权重为样本视频中样本帧的初始权重，通过对带分类标签的样本视频对应的样本帧特征初始权重进行权重映射训练，在满足训练完成条件时，得到训练完成的权重处理模型。权重处理模型可以根据输入的帧特征初始权重进行权重映射，输出帧特征初始权重对应的自适应帧特征权重。自适应帧特征权重由权重处理模型进行权重映射得到，而权重处理模型从样本视频中学习了帧特征初始权重和自适应帧特征权重之间的权重映射关系，可以根据输入的帧特征初始权重映射输出能够对应的自适应帧特征权重，自适应帧特征权重可以有效表征在确定视频粒度特征时对应图像帧特征的相关程度。

S208，将图像帧特征按照对应的自适应帧特征权重进行特征融合，得到用于表征视频的视频粒度特征。

其中，特征融合将视频帧的图像帧特征融合成视频的视频粒度特征，视频粒度特征可以表征视频，利用该视频粒度特征可以进行视频分类，如视频场景分类，确定视频所属的场景类别。具体地，将图像帧特征按照对应的自适应帧特征权重进行特征融合，如可以将各图像帧特征按照对应的自适应帧特征权重进行加权求和，实现特征融合，得到表征视频的视频粒度特征。自适应帧特征权重与图像帧特征对应，反映了图像帧特征在确定视频粒度特征时的相关程度，在视频粒度特征应用于场景分类时，自适应帧特征权重可以体现对应图像帧特征在视频场景分类处理时的重要程度。各图像帧特征对应不同自适应帧特征权重，可以有效突出与场景分类相关的视频帧，同时抑制与场景分类不相关的视频帧，从而确保自适应帧特征权重可以有效体现视频的分类特征，提高了利用该视频粒度特征进行分类时的准确度。

上述视频粒度特征确定方法，对从视频的多个视频帧中对应提取的图像帧特征分别映射，得到相应的帧特征初始权重，通过对带分类标签的样本视频对应的样本帧特征初始权重进行权重映射训练得到的权重处理模型对帧特征初始权重进行权重映射，得到每个图像帧特征分别对应的自适应帧特征权重，并融合各图像帧特征对应的自适应帧特征权重，得到表征视频的视频粒度特征。自适应帧特征权重通过权重处理模型进行权重映射得到，可以有效突出视频中与分类特征相关的视频帧，抑制与分类特征无关的视频帧，使得融合得到的视频粒度特征可以有效体现出视频的分类特征，从而可以提高利用该视频粒度特征进行分类时的准确度。

在一个实施例中，获取视频，并提取视频中多个视频帧对应的图像帧特征包括：获取待确定视频粒度特征的视频；按照预设采样间隔对视频进行采样，得到多个视频帧；从多个视频帧中提取各视频帧对应的图像帧特征。

视频帧率一般为24FPS或以上，如不经抽帧采样，24帧全部参与分类，对算力的要求极高，如对于一个2分钟的短视频，时长120秒，整个视频包含120*24＝2880帧视频图像，如不采样，2880帧视频图像需全部参与帧特征提取环节，极大消耗算力资源。而且，由于视频连续变化，帧之间存在信息冗余，时间间隔越近的视频帧，包含的信息越类似，因此无必要全部保留。从视频中进行采样抽帧，如均等抽帧、抽关键帧等，可以在保留完整视频信息的前提下，有效降低需要进行处理的帧视频图像数据量，提高处理效率。本实施例中，按照预设采样间隔从待确定视频粒度特征的视频中采样抽取多个视频帧，并提取各视频帧的图像帧特征。

具体地，获取待确定视频粒度特征的视频，待确定视频粒度特征的视频可以由终端110向服务器120发送，也可以由服务器120根据视频的路径信息确定并获取。确定待确定视频粒度特征的视频后，按照预设采样间隔对视频进行采样，如每3秒采样1帧，得到多于一个的视频帧。其中，采样间隔可以根据实际需求进行灵活设置，例如对于时长较长的视频，采样间隔可以较大，以在保留视频信息的前提下降低采样的帧数；而对于时长较短的视频，其采样间隔可以较小，以获取足够数目的视频帧进行视频粒度特征确定处理。

从多个视频帧中提取各视频帧对应的图像帧特征，具体可以通过帧特征提取从各视频帧中提取得到对应的图像帧特征。任何一个任务倘若需要在计算机中实现，第一步是信号的数字化表示，体现在帧特征提取中即图像帧的高层表示，得到各视频帧对应的图像帧特征。帧特征提取是原始图像信号到高层特征表征的映射，图像高层表示即机器学习领域中特征的概念。在计算机视觉处理中，通常不使用原始信号，对于视频帧而言，视频帧维度较高，小如100*100分辨率的图片，原始数据规模已达100*100*3(通道)＝30000，1000*1000分辨率的大图原始数据更是包含300万像素值，直接使用原始像素计算分类，算力资源耗费巨大，通常难以满足；且基于图片的统计结果显示，在同一张图片中，位置相近的区域通常包含相似的像素值，且相似区域中并非所有像素点都影响分类结果，即原始数据中存在部分对分类无帮助的重复信息，这些重复信息占用了额外的算力资源；此外，人眼辨识物体和场景时，视网膜上的感光细胞并非全部处于激活状态，换言之人类在识别物体、场景时通常仅关注物体和场景的显著性区域，照射进人眼的光信号仅有部分参与最终决策。基于此特点，需要找出视频帧中具有决策作用的信息，抑制对决策无用甚至产生干扰的信息，即提取各视频帧对应的图像帧特征。

计算机视觉处理中，图像特征提取历经时代演化，形成传统和深度学习方法两种。传统方法以SIFT(Scale-Invariant Feature Transform，尺度不变特征变换)、HOG(Histogram of Oriented Gradient，方向梯度直方图)等基于梯度的局部特征算子为代表，传统特征由人工设计，使用图像浅层特征，在简单的图像分类任务上可以取得不错的成效。但随着图像标注数据极大丰富，图像数量、多样性随之扩充，传统特征泛化特性弱，无法适应大规模样本的分类需求。深度学习方法包括CNN网络(Convolutional NeuralNetworks，卷积神经网络)，CNN网络除分类准确以外，另外一个重要的启发在于图像特征提取，在大规模图像数据集上预训练的CNN模型，使用卷积层提取的特征具有良好的分类特性和泛化能力。使用深度模型提取图片特征的过程中，为减少获取成本，常采用迁移学习(Transfer Learning)的方法。所谓迁移学习就是将一个数据集上学习到的特征迁移到另一个数据集合。例如，假设在集合B做分类任务，但由于集合B数据规模较小、多样性差、噪声多等原因，直接训练深度模型易导致模型泛化效果欠佳。已知另外数据集A，数据规模大、多样性丰富，可使用集合A训练一个通用模型，使用通用模型提取集合B样本的图像特征，以此来提升特征的表达能力和泛化特性。

本实施例中，在从视频帧中提取各视频帧对应的图像帧特征时，可以根据实际需求进行选取，如SIFT、HOG等基于梯度的局部特征算子进行帧特征提取，也可以根据深度学习方法进行帧特征提取，如选择使用ImageNet、Places365数据集预训练的Inception-ResNet-v2模型用作视频帧的特征提取器。Inception-ResNet-v2是一种卷积神经网络，其模型结构如图3所示，图3中上部分为Inception-ResNet-v2的完整网络扩展，而下部分为Inception-ResNet-v2的压缩视图，网络更加直观。

在一个实施例中，基于每个图像帧特征分别映射得到相应的帧特征初始权重包括：对每个图像帧特征分别进行池化处理，得到每个图像帧特征分别对应的帧特征池化值；将帧特征池化值作为图像帧特征对应的帧特征初始权重。

本实施例中，将每个图像帧特征对应池化处理的帧特征池化值作为图像帧特征对应的帧特征初始权重。具体地，根据图像帧特征分别映射得到相应的帧特征初始权重时，对每个图像帧特征分别进行池化处理，如可以进行全局平均池化(global average pooling)处理，即将每个图像帧特征对应各维度的值求取均值，得到每个图像帧特征对应的帧特征池化值，帧特征池化值由图像帧特征各维度的特征值求取平均得到，为标量，再将每个图像帧特征对应的帧特征池化值作为图像帧特征对应的帧特征初始权重。池化处理作用于每一图像帧特征的各维度的特征值上，对特征值求取平均得到1个标量，而图像帧特征由预训练图片分类器提取获得，场景帧相比无关帧通常激活程度高，体现在数值上即帧特征值普遍高于无关帧，即使平均之后依然存在区分度，所以将各维度的特征值取平均得到的标量作为图像帧特征对应的帧特征初始权重仍然可以使各图像帧特征的帧特征初始权重存在区分度。

例如，在从某待确定视频粒度特征的视频中采样抽取40帧视频帧，并对应提取到40帧的包括2080维度帧特征向量的图像帧特征后。传统的帧特征融合技术，将40帧2080维帧特征按位平均，得到1个2080维视频粒度特征向量，此向量每一维度的值等于40个帧特征对应位置数值的均值，数学描述为：设视频粒度特征V(v₁,v₂,…,v₂₀₈₀)^T，40帧视频帧对应图像帧特征的特征向量分别为F₁(f_1,1,f_1,2,…,f_1,2080)^T、F₂(f_2,1,f_2,2,…,f_2,2080)^T、…、F₄₀(f_40,1,f_40,2,…,f_40,2080)^T，则得到

其中i∈[1,2080]。而本实施例中，40个2080维图像帧特征首先经过全局平均池化操作，得到40个标量，即得到40个帧特征池化值，作为图像帧特征对应的帧特征初始权重。全局平均池化作用在每一视频帧对应图像帧特征的2080维度的特征向量上，对所有各维度的特征值求平均得到1个标量，即满足

其中k∈[1,40]，w_k作为第k帧视频帧对应图像帧特征的帧特征初始权重。

在一个实施例中，如图4所示，确定自适应帧特征权重的处理，即通过权重处理模型对帧特征初始权重进行权重映射，得到每个图像帧特征分别对应的自适应帧特征权重包括：

S402，根据各帧特征初始权重生成初始权重向量。

本实施例中，依次通过权重处理模型中的第一映射层结构和第二映射层结构对根据各帧特征初始权重生成初始权重向量进行权重映射处理，得到每个图像帧特征分别对应的自适应帧特征权重。具体地，各帧特征初始权重为标量，而权重处理模型处理输入的为向量，根据各帧特征初始权重生成满足权重处理模型处理输入要求的初始权重向量。具体实现时，可以按照权重处理模型的输入向量帧顺序，将各帧特征初始权重进行组合得到对应的初始权重向量。

S404，通过权重处理模型中的第一映射层结构对初始权重向量进行第一权重映射，得到第一映射权重向量。

其中，第一映射层结构为权重处理模型中进行第一权重映射处理的层结构，如可以为神经网络中的全连接层(Fully Connected layers，FC)，全连接层的每一个结点都与上一层的所有结点相连，用来把前边提取到的特征综合起来。由于其全相连的特性，一般全连接层的参数也是最多的，全连接层可以整合模型中具有区分性的局部信息，其本质就是由一个特征空间线性变换到另一个特征空间。第一映射层结构的参数根据对带分类标签的样本视频对应的样本帧特征初始权重进行权重映射训练得到的权重处理模型确定。

S406，通过权重处理模型中的第二映射层结构对第一映射权重向量进行第二权重映射，得到第二映射权重向量；第二映射层结构的输出节点数与图像帧特征的数目相同。

得到第一映射权重向量后，通过权重处理模型中的第二映射层结构对第一映射权重向量进行第二权重映射，得到第二映射权重向量，其中，第二映射层结构的输出节点数与图像帧特征的数目相同。第二映射层结构的输出节点数对应于第二映射层结构输出的第二映射权重向量的维度数，第二映射权重向量的维度数与图像帧特征的数目相同，从而可以确保第二映射权重向量与各图像帧特征一一对应。第二映射层结构为权重处理模型中进行第二权重映射处理的层结构，如可以为神经网络中的全连接层。第二映射层结构的参数根据对带分类标签的样本视频对应的样本帧特征初始权重进行权重映射训练得到的权重处理模型确定。如图5所示，为一个实施例中，第二映射层结构进行第二权重映射处理的示意图。第一映射权重向量输入第二映射层结构，由第二映射层结构进行第二权重映射处理。

S408，根据第二映射权重向量确定每个图像帧特征分别对应的自适应帧特征权重。

得到维度数与图像帧特征的数目相同的第二映射权重向量后，根据第二映射权重向量确定每个图像帧特征分别对应的自适应帧特征权重。具体可以按照权重处理模型的输入向量帧顺序，从第二映射权重向量中确定每个图像帧特征分别对应的自适应帧特征权重，自适应帧特征权重为标量。此外，还可以将第二映射权重向量进行归一化处理，以确保各自适应帧特征权重的取值可以在[0,1]的区间内。

本实施例中，第二映射层结构输出的第二映射权重向量经过一系列空间映射和非线性变换学习获得，具有较强表征能力，从而确保根据第二映射权重向量确定每个图像帧特征分别对应的自适应帧特征权重也具有强表征能力，能够准确反映出各图像帧特征在确定视频粒度特征时对应图像帧特征的重要程度，即相关程度。

在一个实施例中，根据各帧特征初始权重生成初始权重向量包括：确定权重处理模型的输入向量帧顺序和各帧特征初始权重对应视频帧的帧序列标识；按照输入向量帧顺序和帧序列标识对各帧特征初始权重进行向量化处理，得到各帧特征初始权重生成初始权重向量。

本实施例中，按照权重处理模型的输入向量帧顺序对各帧特征初始权重进行向量化处理，得到满足权重处理模型处理输入要求的初始权重向量。具体地，在生成初始权重向量时，确定权重处理模型的输入向量帧顺序和各帧特征初始权重对应视频帧的帧序列标识。其中，输入向量帧顺序为权重处理模型对输入向量的帧顺序要求，其与权重处理模型训练时训练数据的输入向量中帧顺序一致，如可以为按照采样时间依次从先到后的顺序，如对于40帧的视频帧，输入向量帧顺序可以为依次从1至40。帧序列标识为帧特征初始权重对应视频帧的标识信息，用于标识各视频帧的采样顺序，帧序列标识可以在从视频中采样抽取到对应视频帧后按序添加。

得到输入向量帧顺序和帧序列标识后，按照输入向量帧顺序和帧序列标识对各帧特征初始权重进行向量化处理，如可以按照输入向量帧顺序，将各帧序列标识对应的帧特征初始权重按序进行组合，得到各帧特征初始权重生成初始权重向量。初始权重向量中，各帧特征初始权重对应视频帧的帧序列标识与输入向量帧顺序相同。

在一个实施例中，第一映射层结构的输出节点数小于图像帧特征的数目。

第一映射层结构的输出节点数对应于第一映射层结构输出的第一映射权重向量的维度数，第一映射层结构的输出节点数小于图像帧特征的数目，即小于初始权重向量的维度数，使得第一映射权重向量的维度数进一步降低，减少了维度计算量，提高了第二映射层结构的处理效率。在具体应用时，第一映射层结构的输出节点数根据实际需求进行设置，可以对第一映射权重向量的维度数进行一定程度降低，但确保第一映射权重向量的维度数不至于过低，而影响第二映射层结构的权重映射处理的准确度。如图6所示，为一个实施例中第一映射层结构进行第一权重映射处理的示意图。初始权重向量输入第一映射层结构，由第一映射层结构进行第一权重映射处理。

在一个实施例中，在得到第一映射权重向量之后，还包括：通过激活函数对第一映射权重向量进行非线性变换，得到变换后的第一映射权重向量；将变换后的第一映射权重向量作为第一映射权重向量。

本实施例中，通过激活函数对第一映射权重向量进行非线性变换，以抑制负向干扰。具体地，在得到第一映射层结构输出的第一映射权重向量之后，通过激活函数对第一映射权重向量进行非线性变换，得到变换后的第一映射权重向量，并将变换后的第一映射权重向量作为第一映射权重向量。激活函数可以引入非线性变换，如可以通过ReLU(TheRectified Linear Unit)激活函数引入非线性变换，从而进行选择性激活，起到抑制负向干扰的目的。同时ReLU为分段函数，自变量x小于0时为常数，导数为0；自变量x大于0时导数为1，因此在反向传播优化过程中计算极快。

在一个实施例中，根据第二映射权重向量确定每个图像帧特征分别对应的自适应帧特征权重包括：对第二映射权重向量进行归一化处理，得到自适应帧特征权重向量；根据权重处理模型的输入向量帧顺序和各帧特征初始权重对应视频帧的帧序列标识，从自适应帧特征权重向量中确定每个图像帧特征分别对应的自适应帧特征权重。

本实施例中，对第二映射权重向量进行归一化处理，并从归一化处理后的第二映射权重向量中确定每个图像帧特征分别对应的自适应帧特征权重。具体地，确定每个图像帧特征分别对应的自适应帧特征权重时，对第二映射权重向量进行归一化处理，如可以通过sigmoid函数进行归一化处理，将第二映射权重向量的所有值归一化至[0,1]，得到自适应帧特征权重向量。再根据权重处理模型的输入向量帧顺序和各帧特征初始权重对应视频帧的帧序列标识，从自适应帧特征权重向量中确定每个图像帧特征分别对应的自适应帧特征权重。自适应帧特征权重向量中各标量值可以作为各图像帧特征的自适应帧特征权重，且自适应帧特征权重向量中各标量值的顺序与权重处理模型的输入向量帧顺序相同。按照输入向量帧顺序和各帧特征初始权重对应视频帧的帧序列标识，可以从输入向量帧顺序和各帧特征初始权重对应视频帧的帧序列标识依次得到各图像帧特征分别对应的自适应帧特征权重。

在一个实施例中，将图像帧特征按照对应的自适应帧特征权重进行特征融合，得到用于表征视频的视频粒度特征包括：将各图像帧特征与对应的自适应帧特征权重的乘积作为图像帧特征对应的加权帧特征；根据各图像帧特征对应加权帧特征的和得到用于表征视频的视频粒度特征。

本实施例中，将各图像帧特征按照对应的自适应帧特征权重进行加权求和，实现特征融合，得到表征视频的视频粒度特征。具体地，得到每个图像帧特征分别对应的自适应帧特征权重后，将各图像帧特征与对应的自适应帧特征权重的乘积作为图像帧特征对应的加权帧特征，即将各图像帧特征与对应的自适应帧特征权重求积，得到图像帧特征对应的加权帧特征；再根据各图像帧特征对应加权帧特征的和得到用于表征视频的视频粒度特征，即对各图像帧特征对应的加权帧特征进行求和，得到用于表征视频的视频粒度特征。利用该视频粒度特征可以对视频进行分类处理，如进行场景分类。

在一个实施例中，还包括：查询视频特征处理模型，视频特征处理模型，是对带分类标签的样本视频对应的样本视频粒度特征进行视频特征映射训练得到的；通过视频特征处理模型对视频粒度特征进行视频特征映射，得到视频的分类特征；通过分类器对分类特征进行场景分类，得到视频的场景分类结果；分类器，是对带分类标签的样本视频对应的样本分类特征进行场景分类训练得到的。

本实施例中，利用得到的表征视频的视频粒度特征进行场景分类。具体地，得到视频的视频粒度特征后，查询视频特征处理模型，该视频特征处理模型通过对带分类标签的样本视频对应的样本视频粒度特征进行视频特征映射训练得到。在具体应用中，视频特征处理模型可以包括神经网络的全连接层。通过视频特征处理模型对视频粒度特征进行视频特征映射，可以将视频粒度特征进行进一步特征映射，得到视频的分类特征。通过分类器对分类特征进行场景分类，如通过softmax分类器对分类特征场景分析和归一化处理，得到视频的场景分类结果，其中，分类器通过对带分类标签的样本视频对应的样本分类特征进行场景分类训练得到。

如图7所示，为一个实施例中，视频粒度特征确定方法的处理流程示意图。本实施例应用于视频场景分类，视频场景分类属于计算机视觉领域视频分类任务，常用方法有两种：1.使用抽帧技术，将整段视频切分为细粒度图片帧，每帧提取图像特征(Frame-Level)，使用特征融合技术将图像帧特征进行合并，形成视频粒度特征(Video-Level)，最后使用视频粒度特征对视频进行分类；2.同样先对视频抽帧形成帧序列，将帧序列按时间排序，使用3D卷积直接作用在视频空间和时间维度，对整个视频进行分类。

其中，3D卷积方案在工业落地时存在明显缺陷。首先，3D卷积模型(如C3D)参数量巨大，优化过程中容易陷入局部最优，通常需要更多训练数据以满足充分训练的需求。其次，由于参数规模大，训练数据多，3D卷积模型实际训练过程中收敛速度极慢，算力要求高，对业务落地不友好。最后，3D卷积模型不能充分利用图像分类和2D卷积的成果，在图像分类任务上，已有成熟模型和方案接近甚至超越人类(例如ILSVRC挑战赛，ImageNet LargeScale Visual Recognition Challenge)，3D卷积模型通常需要从头训练，不能充分利用已有图片分类预训练结果，也即未能将图片特征迁移到视频(Transfer Learning)，造成资源浪费。

而帧特征融合方案相比3D卷积，由于特征提取作用在图像帧上，使用预训练2D卷积模型作为特征提取器，发挥了图像分类任务的价值。采用2D卷积+特征融合的方式，相比3D卷积极大减少了参数规模，训练过程对数据和算力的要求随之下降。因此，在落地方面帧特征融合方案应用更为广泛。帧特征融合的作用是将视频帧特征融合为视频特征，有两个目的。其一，由于视频时长不固定，提取得到的帧特征长度不统一，不利于后续分类，帧特征融合将变长帧特征归一到定长视频特征，保证分类任务可行性；其二，在深度模型(DNN，Deep Neural Networks)中，分类通常使用全连接层将特征映射到类别空间，再使用归一化技术筛选置信度最高的类别，全连接层做矩阵乘法，参数量受特征维度影响敏感，帧特征融合的另一个目的是特征降维，例如，1个视频抽取30帧，每帧特征维度2080，共40个场景类别，直接使用帧特征做分类，则全连接参数为30*2080*40，使用帧特征融合将30帧的特征归一化为1个2080维特征向量，全连接参数降低为2080*40，减少为原来1/30，减少等量计算量，提升优化速度。

常见的帧特征融合方案有两种，一种直接对各帧特征按位取均值，30个2080维特征平均之后得到1个2080维向量，将此均值向量作为视频特征，此方法适用于短时长或分类特征分散均匀的视频，平均操作使帧之间共性特征得到加强，个性特征得以抵消，达到突出共性特征的目的；另一种使用时序模型(如LSTM，Long Short-Term Memory)，将视频帧按时间顺序输入到模型中，考虑帧之间时序关系，此方法适用于强调时序特征的视频分类任务，如动作识别。

然而，视频场景分类背景与取均值、时序模型方案不匹配。首先，在视频场景分类任务中，场景帧通常在数量上不占主体，视频中多数视频帧可能与场景无关，因此平均操作易使场景特征湮没在无关特征中，导致融合得到的视频特征不能完整覆盖场景特征信息，从而导致分类错误；其次，视频场景分类非时序任务，强调关注视频中出现的场景特征，顺序对分类结果影响不显著，因此不适用时序模型。

本实施例中，自适应帧特征权重通过权重处理模型进行权重映射得到，可以有效突出视频中与分类特征相关的视频帧，抑制与分类特征无关的视频帧，使得融合得到的视频粒度特征可以有效体现出视频的分类特征，从而可以提高利用该视频粒度特征进行分类时的准确度。

具体地，待确定视频粒度特征的视频经过采样抽帧，抽取40帧视频帧，每帧经过Inception-ResNet-v2提取特征，得到2080维度帧特征向量。40个2080维图像帧特征首先经过全局平均池化(图中的global average pooling)操作，得到40个标量，向量化之后可表示为1个40维向量W_init(w₁，w₂，...，w₄₀)^T，作为帧融合权重的初始值，即初始权重向量。全局平均池化作用在每一帧的特征向量上，对所有特征值求平均得到1个标量，即满足

其中k∈[1，40]，w_k作为第k帧初始权重。W_init向量较为单纯，由线性操作得到，未引入额外信息，且w_k未归一化，取值不确保在[0，1]之间，因此不适合直接作为权重，需要进一步处理。

40维初始权重向量W_init首先经过权重处理模型中的第一映射层结构，从40维特征空间映射到40/C维，此处的映射通过全连接实现，即第一映射层结构为全连接层，全连接层参数通过权重处理模型学习确定。其中，C是超参数，预先设定，目的是进一步降低维度减少计算量，在实际任务中C通常取2、4等小值，使第一映射层结构的输出节点个数不至于过少。由于本实施例中只选取40帧，即使第一映射层结构中C取值1，即第一映射层结构包函40个输出节点，帧权重到第一映射层结构的映射矩阵也仅包含1600(40*40)个参数，算力要求不高。方便起见，此处设定C等于2，第一映射层结构输出的第一映射权重向量维度为40/2＝20，第一映射层结构表示为H₁(h_1，1，h_1，2，...，h_1，20)^T，其中h_1，m中的下标“1”表示第1个映射层结构，即第一映射层结构。全连接参数A矩阵形式为

矩阵维度20*40，通过训练数据优化学习得到。初始权重向量W_init(w₁，w₂，...，w₄₀)^T到第一映射权重向量H₁(h_1，1，h_1，2，...，h_1，20)^T的映射可表示为，H₁＝A·W_init。

第一映射层结构输出的中间向量，即第一映射权重向量H₁(h_1，1，h_1，2，...，h_1，20)^T经过ReLU激活函数，引入非线性变换，ReLU函数表达式为ReLU(x)＝max(0，x)，即负数不激活，x为负数则函数值为0，为正数则函数值为输入本身。ReLU函数的目的是选择性激活，起到抑制负向干扰的目的。同时ReLU为分段函数，x小于0时为常数，导数为0；x大于0时导数为1，因此在反向传播优化过程中计算极快。第一映射层结构的输出H₁(h_1，1，h_1，2，...，h_1，20)^T经过ReLU激活后得到中间向量R(r₁，r₂，...，r₂₀)^T，其中r_m＝ReLU(h_1，m)，m∈[1，20]，h_1，m为第一映射层结构输出向量H₁(h_1，1，h_1，2，...，h_1，20)^T的第m个分量。

为使得到的自适应帧特征权重的维度与帧特征数量一致，保证帧特征融合时特征与权重一一对应，ReLU激活之后设置第二映射层结构。第二映射层结构的输出节点个数与帧数一致，本实施例为40，第二映射权重向量表示为H₂(h_2，1，h_2，2，...，h_2，40)^T。ReLU到第二映射层结构的映射也通过全连接层实现，即第二映射层结构通过全连接层实现，全连接层参数通过训练样本学习得到。

H₂(h_2，1，h_2，2，...，h_2，40)^T经过一系列空间映射和非线性变换学习获得，具有较强表征能力。为了使H₂进一步表示特征权重，需对其每一维度数值做归一化处理，最终得到自适应帧特征权重。得到的自适应帧特征权重记为W_adapt(w₁，w’₂，...，w’_k...，w’₄₀)^T，其中，w’_k＝sigmoid(h_2，k)，k∈[1，40]，即W_adapt权重向量每一维度数值由H₂对应位置数值经过sigmoid函数得到，sigmoid函数表达式为sigmoid(x)＝1/(1+e^-x)，其作用是将输入归一化到[0，1]，即w′_k∈[0，1]，作为权重使用。之所以称为“自适应”，是因为获取w′k所使用的网络参数，即涉及的权重处理模型中的所有参数，随训练样本自动学习得到。

第k帧特征为F_k(f_k，1，f_k，2，...，f_k，2080)^T，k∈[1，40]，自适应帧特征权重W_adapt(w’₁，w′₂，...，w′_k，...，w′₄₀)^T，k∈[1，40]。基于自适应帧特征融合的视频粒度(Video-Level)特征表示为V_adapt(v’₁，v’₂，...，v’₂₀₈₀)^T，其中，

即V_adapt每维数值v′_i由40个帧特征对应位置i的特征值加权求和得到，加权求和使用的权重来自W_adapt，随模型自动学习得到。

得到自适应帧特征权重后，基于该视频粒度特征通过视频特征处理模型进行分类。视频特征处理模型用作特征空间映射，与第一映射层结构、第二映射层结构作用一致，分类器使用softmax，将视频特征处理模型的输出映射到分类空间，并做归一化处理，得到视频的场景分类结果。

本实施例中，使用训练得到的权重处理模型，可以学习到不同帧对最终分类结果的重要程度，起到突出重要帧、抑制无关帧的作用，从而相比直接对帧特征取平均或使用时序模型的融合方案，根据自适应帧特征权重进行融合更符合视频场景分类逻辑，在实际应用中也取得更加显著的分类效果，提升视频场景分类准确率。

在一个实施例中，如图8所示，提供了一种视频粒度特征确定方法，包括：

S802，获取待确定视频粒度特征的视频；

S804，按照预设采样间隔对视频进行采样，得到多个视频帧；

S806，从多个视频帧中提取各视频帧对应的图像帧特征。

本实施例中，按照预设采样间隔从待确定视频粒度特征的视频中采样抽取多个视频帧，并提取各视频帧的图像帧特征。

S808，对每个图像帧特征分别进行池化处理，得到每个图像帧特征分别对应的帧特征池化值；

S810，将帧特征池化值作为图像帧特征对应的帧特征初始权重；

S812，确定权重处理模型的输入向量帧顺序和各帧特征初始权重对应视频帧的帧序列标识；

S814，按照输入向量帧顺序和帧序列标识对各帧特征初始权重进行向量化处理，得到各帧特征初始权重生成初始权重向量；

S816，通过权重处理模型中的第一映射层结构对初始权重向量进行第一权重映射，得到第一映射权重向量；

S818，通过激活函数对第一映射权重向量进行非线性变换，得到变换后的第一映射权重向量；

S820，将变换后的第一映射权重向量作为第一映射权重向量；

S822，通过权重处理模型中的第二映射层结构对第一映射权重向量进行第二权重映射，得到第二映射权重向量；

S824，对第二映射权重向量进行归一化处理，得到自适应帧特征权重向量；

S826，从自适应帧特征权重向量中确定每个图像帧特征分别对应的自适应帧特征权重；

S828，将各图像帧特征与对应的自适应帧特征权重的乘积作为图像帧特征对应的加权帧特征；

S830，根据各图像帧特征对应加权帧特征的和得到用于表征视频的视频粒度特征。

其中，权重处理模型通过对带分类标签的样本视频对应的样本帧特征初始权重进行权重映射训练得到。

S832，查询视频特征处理模型；

S834，通过视频特征处理模型对视频粒度特征进行视频特征映射，得到视频的分类特征；

S836，通过分类器对分类特征进行场景分类，得到视频的场景分类结果。

本实施例中，利用得到的表征视频的视频粒度特征进行场景分类。自适应帧特征权重通过权重处理模型进行权重映射得到，可以有效突出视频中与分类特征相关的视频帧，抑制与分类特征无关的视频帧，使得融合得到的视频粒度特征可以有效体现出视频的分类特征，从而可以提高利用该视频粒度特征进行分类时的准确度。

图8为一个实施例中视频粒度特征确定方法的流程示意图。应该理解的是，虽然图8的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图8中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

如图9所示，在一个实施例中，提供了一种视频粒度特征确定装置900，包括：

帧特征提取模块902，用于获取视频，并提取视频中多个视频帧对应的图像帧特征；

初始权重确定模块904，用于基于每个图像帧特征分别映射得到相应的帧特征初始权重；

自适应权重确定模块906，用于通过权重处理模型对帧特征初始权重进行权重映射，得到每个图像帧特征分别对应的自适应帧特征权重；权重处理模型，是对带分类标签的样本视频对应的样本帧特征初始权重进行权重映射训练得到的；

粒度特征获得模块908，用于将图像帧特征按照对应的自适应帧特征权重进行特征融合，得到用于表征视频的视频粒度特征。

在一个实施例中，帧特征提取模块902包括视频获取模块、视频采样模块和帧特征提取模块；其中：视频获取模块，用于获取待确定视频粒度特征的视频；视频采样模块，用于按照预设采样间隔对视频进行采样，得到多个视频帧；帧特征提取模块，用于从多个视频帧中提取各视频帧对应的图像帧特征。

在一个实施例中，初始权重确定模块904包括池化处理模块和池化结果模块，其中：池化处理模块，用于对每个图像帧特征分别进行池化处理，得到每个图像帧特征分别对应的帧特征池化值；池化结果模块，用于将帧特征池化值作为图像帧特征对应的帧特征初始权重。

在一个实施例中，自适应权重确定模块906包括：初始权重向量模块、第一权重映射模块、第二权重映射模块和映射权重向量处理模块；其中：初始权重向量模块，用于根据各帧特征初始权重生成初始权重向量；第一权重映射模块，用于通过权重处理模型中的第一映射层结构对初始权重向量进行第一权重映射，得到第一映射权重向量；第二权重映射模块，用于通过权重处理模型中的第二映射层结构对第一映射权重向量进行第二权重映射，得到第二映射权重向量；第二映射层结构的输出节点数与图像帧特征的数目相同；映射权重向量处理模块，用于根据第二映射权重向量确定每个图像帧特征分别对应的自适应帧特征权重。

在一个实施例中，初始权重向量模块包括顺序确定模块和向量化处理模块，其中：顺序确定模块，用于确定权重处理模型的输入向量帧顺序和各帧特征初始权重对应视频帧的帧序列标识；向量化处理模块，用于按照输入向量帧顺序和帧序列标识对各帧特征初始权重进行向量化处理，得到各帧特征初始权重生成初始权重向量。

在一个实施例中，还包括激活函数模块和第一映射向量更新模块，其中：激活函数模块，用于通过激活函数对第一映射权重向量进行非线性变换，得到变换后的第一映射权重向量；第一映射向量更新模块，用于将变换后的第一映射权重向量作为第一映射权重向量。

在一个实施例中，映射权重向量处理模块包括归一化处理模块和权重提取模块，其中：归一化处理模块，用于对第二映射权重向量进行归一化处理，得到自适应帧特征权重向量；权重提取模块，用于根据权重处理模型的输入向量帧顺序和各帧特征初始权重对应视频帧的帧序列标识，从自适应帧特征权重向量中确定每个图像帧特征分别对应的自适应帧特征权重。

在一个实施例中，粒度特征获得模块908包括加权处理模块和特征融合模块，其中：加权处理模块，用于将各图像帧特征与对应的自适应帧特征权重的乘积作为图像帧特征对应的加权帧特征；特征融合模块，用于根据各图像帧特征对应加权帧特征的和得到用于表征视频的视频粒度特征。

在一个实施例中，还包括视频特征处理模型模块、视频特征映射模块和视频场景分类模块；其中：视频特征处理模型模块，用于查询视频特征处理模型，视频特征处理模型，是对带分类标签的样本视频对应的样本视频粒度特征进行视频特征映射训练得到的；视频特征映射模块，用于通过视频特征处理模型对视频粒度特征进行视频特征映射，得到视频的分类特征；视频场景分类模块，用于通过分类器对分类特征进行场景分类，得到视频的场景分类结果；分类器，是对带分类标签的样本视频对应的样本分类特征进行场景分类训练得到的。

图10示出了一个实施例中计算机设备的内部结构图。该计算机设备具体可以是图1中的服务器120。如图10所示，该计算机设备包括该计算机设备包括通过系统总线连接的处理器、存储器、网络接口。其中，存储器包括非易失性存储介质和内存储器。该计算机设备的非易失性存储介质存储有操作系统，还可存储有计算机程序，该计算机程序被处理器执行时，可使得处理器实现视频粒度特征确定方法。该内存储器中也可储存有计算机程序，该计算机程序被处理器执行时，可使得处理器执行视频粒度特征确定方法。

本领域技术人员可以理解，图10中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，本申请提供的视频粒度特征确定装置可以实现为一种计算机程序的形式，计算机程序可在如图10所示的计算机设备上运行。计算机设备的存储器中可存储组成该视频粒度特征确定装置的各个程序模块，比如，图9所示的帧特征提取模块902、初始权重确定模块904、自适应权重确定模块906和粒度特征获得模块908。各个程序模块构成的计算机程序使得处理器执行本说明书中描述的本申请各个实施例的视频粒度特征确定方法中的步骤。

例如，图10所示的计算机设备可以通过如图9所示的视频粒度特征确定装置中的帧特征提取模块902执行获取从视频的多于一个的视频帧中对应提取的图像帧特征。计算机设备可通过初始权重确定模块904执行基于每个图像帧特征分别映射得到相应的帧特征初始权重。计算机设备可通过自适应权重确定模块906执行通过权重处理模型对帧特征初始权重进行权重映射，得到每个图像帧特征分别对应的自适应帧特征权重；权重处理模型，是对带分类标签的样本视频对应的样本帧特征初始权重进行权重映射训练得到的。计算机设备可通过粒度特征获得模块908执行将图像帧特征按照对应的自适应帧特征权重进行特征融合，得到用于表征视频的视频粒度特征。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，存储器存储有计算机程序，计算机程序被处理器执行时，使得处理器执行上述视频粒度特征确定方法的步骤。此处视频粒度特征确定方法的步骤可以是上述各个实施例的视频粒度特征确定方法中的步骤。

在一个实施例中，提供了一种计算机可读存储介质，存储有计算机程序，计算机程序被处理器执行时，使得处理器执行上述视频粒度特征确定方法的步骤。此处视频粒度特征确定方法的步骤可以是上述各个实施例的视频粒度特征确定方法中的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一非易失性计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种视频场景分类方法，其特征在于，包括：

获取视频，并提取所述视频中多个视频帧对应的图像帧特征；

通过视频特征处理模型和分类器对所述视频粒度特征进行场景分类，得到所述视频的场景分类结果；其中，所述视频特征处理模型，是对带分类标签的样本视频对应的样本视频粒度特征进行视频特征映射训练得到的；所述分类器，是对带分类标签的样本视频对应的样本分类特征进行场景分类训练得到的。

2.根据权利要求1所述的方法，其特征在于，所述获取视频，并提取所述视频中多个视频帧对应取的图像帧特征包括：

获取待确定视频粒度特征的视频；

按照预设采样间隔对所述视频进行采样，得到多个视频帧；

从多个所述视频帧中提取各所述视频帧对应的图像帧特征。

3.根据权利要求1所述的方法，其特征在于，所述基于每个所述图像帧特征分别映射得到相应的帧特征初始权重包括：

对每个所述图像帧特征分别进行池化处理，得到每个所述图像帧特征分别对应的帧特征池化值；

将所述帧特征池化值作为所述图像帧特征对应的帧特征初始权重。

4.根据权利要求1所述的方法，其特征在于，所述通过权重处理模型中的第一映射层结构和第二映射层结构对所述帧特征初始权重依次进行权重映射，得到每个所述图像帧特征分别对应的自适应帧特征权重包括：

根据各所述帧特征初始权重生成初始权重向量；

通过权重处理模型中的第一映射层结构对所述初始权重向量进行第一权重映射，得到第一映射权重向量；

通过所述权重处理模型中的第二映射层结构对所述第一映射权重向量进行第二权重映射，得到第二映射权重向量；所述第二映射层结构的输出节点数与所述图像帧特征的数目相同；

根据所述第二映射权重向量确定每个所述图像帧特征分别对应的自适应帧特征权重。

5.根据权利要求4所述的方法，其特征在于，所述根据各所述帧特征初始权重生成初始权重向量包括：

确定所述权重处理模型的输入向量帧顺序和各所述帧特征初始权重对应视频帧的帧序列标识；

按照所述输入向量帧顺序和所述帧序列标识对各所述帧特征初始权重进行向量化处理，得到初始权重向量。

6.根据权利要求4所述的方法，其特征在于，所述第一映射层结构的输出节点数小于所述图像帧特征的数目。

7.根据权利要求4所述的方法，其特征在于，在得到第一映射权重向量之后，还包括：

通过激活函数对所述第一映射权重向量进行非线性变换，得到变换后的第一映射权重向量；

将变换后的第一映射权重向量作为所述第一映射权重向量。

8.根据权利要求4所述的方法，其特征在于，所述根据所述第二映射权重向量确定每个所述图像帧特征分别对应的自适应帧特征权重包括：

对所述第二映射权重向量进行归一化处理，得到自适应帧特征权重向量；

根据所述权重处理模型的输入向量帧顺序和各所述帧特征初始权重对应视频帧的帧序列标识，从所述自适应帧特征权重向量中确定每个所述图像帧特征分别对应的自适应帧特征权重。

9.根据权利要求1至8中任一项所述的方法，其特征在于，所述将所述图像帧特征按照对应的自适应帧特征权重进行特征融合，得到用于表征所述视频的视频粒度特征包括：

将各所述图像帧特征与对应的自适应帧特征权重的乘积作为所述图像帧特征对应的加权帧特征；

根据各所述图像帧特征对应加权帧特征的和得到用于表征所述视频的视频粒度特征。

10.根据权利要求1所述的方法，其特征在于，所述通过视频特征处理模型和分类器对所述视频粒度特征进行场景分类，得到所述视频的场景分类结果包括：

查询视频特征处理模型；

通过所述视频特征处理模型对所述视频粒度特征进行视频特征映射，得到所述视频的分类特征；

通过分类器对所述分类特征进行场景分类，得到所述视频的场景分类结果。

11.一种视频场景分类装置，其特征在于，所述装置包括：

视频特征处理模型模块，用于通过视频特征处理模型和分类器对所述视频粒度特征进行场景分类，得到所述视频的场景分类结果；其中，所述视频特征处理模型，是对带分类标签的样本视频对应的样本视频粒度特征进行视频特征映射训练得到的；所述分类器，是对带分类标签的样本视频对应的样本分类特征进行场景分类训练得到的。

12.根据权利要求11所述的装置，其特征在于，所述自适应权重确定模块包括：

初始权重向量模块，用于根据各所述帧特征初始权重生成初始权重向量；

第一权重映射模块，用于通过权重处理模型中的第一映射层结构对所述初始权重向量进行第一权重映射，得到第一映射权重向量；

第二权重映射模块，用于通过所述权重处理模型中的第二映射层结构对所述第一映射权重向量进行第二权重映射，得到第二映射权重向量；所述第二映射层结构的输出节点数与所述图像帧特征的数目相同；

映射权重向量处理模块，用于根据所述第二映射权重向量确定每个所述图像帧特征分别对应的自适应帧特征权重。

13.根据权利要求11所述的装置，其特征在于，还包括视频特征映射模块和视频场景分类模块，

所述视频特征处理模型模块，还用于查询视频特征处理模型；

所述视频特征映射模块，用于通过所述视频特征处理模型对所述视频粒度特征进行视频特征映射，得到所述视频的分类特征；

所述视频场景分类模块，用于通过分类器对所述分类特征进行场景分类，得到所述视频的场景分类结果。

14.一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行如权利要求1至10中任一项所述方法的步骤。

15.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行如权利要求1至10中任一项所述方法的步骤。