CN110147711A

CN110147711A - 视频场景识别方法、装置、存储介质和电子装置

Info

Publication number: CN110147711A
Application number: CN201910146975.8A
Authority: CN
Inventors: 易阳; 涂娟辉; 李峰; 高孟平
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-02-27
Filing date: 2019-02-27
Publication date: 2019-08-20
Anticipated expiration: 2039-02-27
Also published as: CN110147711B

Abstract

本发明公开了一种视频场景识别方法、装置、存储介质和电子装置。其中，该方法包括：获取将要进行场景识别的目标视频；对目标视频的视频序列进行抽帧采样，得到子视频序列，并对目标视频的音频序列进行抽帧采样，得到子音频序列；从子视频序列中提取出目标视频特征，并从子音频序列中提取出目标音频特征；通过第一目标模型对目标视频特征进行处理，得到第一分类结果，并通过第二目标模型对目标音频特征进行处理，得到第二分类结果；基于第一分类结果和第二分类结果确定目标视频的目标场景。本发明解决了相关技术中对视频场景进行识别的准确率低的技术问题。

Description

视频场景识别方法、装置、存储介质和电子装置

技术领域

本发明涉及计算机领域，具体而言，涉及一种视频场景识别方法、装置、存储介质和电子装置。

背景技术

目前，场景识别主要是基于图像的场景识别，可以通过场景识别的应用程序自动识别出图像中的数十种常见的场景，比如，识别出天空、草地、人物等场景。

在相关技术中，在对视频进行识别时，只基于单一模态来进行场景识别，比如，通过视频特征这单一模态来进行场景识别。另外，对于画面特征比较分散、帧间运动变化比较大的场景很容易造成误判，比如，对电视视频、美食视频等识别的准确率低。

针对上述的对视频场景进行识别的准确率低的问题，目前尚未提出有效的解决方案。

发明内容

本发明实施例提供了一种视频场景识别方法、装置、存储介质和电子装置，以至少解决相关技术中对视频场景进行识别的准确率低的技术问题。

根据本发明实施例的一个方面，提供了一种视频场景识别方法。该方法包括：获取将要进行场景识别的目标视频；对目标视频的视频序列进行抽帧采样，得到子视频序列，并对目标视频的音频序列进行抽帧采样，得到子音频序列；从子视频序列中提取出目标视频特征，并从子音频序列中提取出目标音频特征；通过第一目标模型对目标视频特征进行处理，得到第一分类结果，并通过第二目标模型对目标音频特征进行处理，得到第二分类结果，其中，第一目标模型为通过视频特征样本和与视频特征样本对应的类别，进行训练得到的用于确定视频特征的分类结果的模型，第二目标模型为通过音频特征样本和与音频特征样本对应的类别，进行训练得到的用于确定音频特征的分类结果的模型；基于第一分类结果和第二分类结果确定目标视频的目标场景。

根据本发明实施例的另一方面，还提供了一种视频场景识别装置。该装置包括：获取单元，用于获取将要进行场景识别的目标视频；抽帧单元，用于对目标视频的视频序列进行抽帧采样，得到子视频序列，并对目标视频的音频序列进行抽帧采样，得到子音频序列；提取单元，用于从子视频序列中提取出目标视频特征，并从子音频序列中提取出目标音频特征；处理单元，用于通过第一目标模型对目标视频特征进行处理，得到第一分类结果，并通过第二目标模型对目标音频特征进行处理，得到第二分类结果，其中，第一目标模型为通过视频特征样本和与视频特征样本对应的类别，进行训练得到的用于确定视频特征的分类结果的模型，第二目标模型为通过音频特征样本和与音频特征样本对应的类别，进行训练得到的用于确定音频特征的分类结果的模型；确定单元，用于基于第一分类结果和第二分类结果确定目标视频的目标场景。

根据本发明实施例的另一方面，还提供了一种存储介质。该存储介质中存储有计算机程序，其中，计算机程序被设置为运行时执行本发明实施例的视频场景识别方法。

根据本发明实施例的另一方面，还提供了一种电子装置。该电子装置包括存储器和处理器，其特征在于，存储器中存储有计算机程序，处理器被设置为通过计算机程序执行本发明实施例的视频场景识别方法。

在本发明实施例中，获取将要进行场景识别的目标视频；对目标视频的视频序列进行抽帧采样，得到子视频序列，并对目标视频的音频序列进行抽帧采样，得到子音频序列；从子视频序列中提取出目标视频特征，并从子音频序列中提取出目标音频特征；通过第一目标模型对目标视频特征进行处理，得到第一分类结果，并通过第二目标模型对目标音频特征进行处理，得到第二分类结果，其中，第一目标模型为通过视频特征样本和与视频特征样本对应的类别，进行训练得到的用于确定视频特征的分类结果的模型，第二目标模型为通过音频特征样本和与音频特征样本对应的类别，进行训练得到的用于确定音频特征的分类结果的模型；基于第一分类结果和第二分类结果确定目标视频的目标场景。也就是说，从视频信息与音频信息融合的角度出发，将从目标视频的视频序列中提取出的视频特征的分类结果和从音频序列中提取出的音频特征的分类结果，这两种单模态信息进行融合，实现双模态特征融合的场景识别的目的，避免了基于视频特征单一模态来进行场景识别，从而实现了提高对视频场景进行识别的准确率的技术效果，进而解决了相关技术中对视频场景进行识别的准确率低的技术问题。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是根据本发明实施例的一种视频场景识别方法的硬件环境的示意图；

图2是根据本发明实施例的一种视频场景识别方法的流程图；

图3A是根据本发明实施例的一种基于音视频特征融合的视频场景识别方法的示意图；

图3B是根据本发明实施例的另一种基于音视频特征融合的视频场景识别方法的示意图；

图4A是根据本发明实施例的一种场景识别的示意图；

图4B是根据本发明实施例的另一种场景识别的示意图；

图5是根据本发明实施例的一种视频场景识别装置的示意图；以及

图6是根据本发明实施例的一种电子装置的结构框图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

根据本发明实施例的一个方面，提供了一种视频场景识别方法的实施例。

根据本发明实施例的一个方面，提供了一种视频场景识别方法。可选地，作为一种可选的实施方式，上述视频场景识别方法可以但不限于应用于如图1所示的环境中。其中，图1是根据本发明实施例的一种视频场景识别的硬件环境的示意图。如图1所示，用户102可以与用户设备104之间可以进行数据交互，用户设备104中可以但不限于包括存储器106和处理器108。

在该实施例中，用户设备104可以输入将要进行场景识别的目标视频，可以通过处理器108执行步骤S102，通过网络110将上述目标视频的数据发送给服务器112。服务器112中包含有数据库114和处理器116。

服务器112在获取到上述目标视频的数据之后，处理器116对目标视频的视频序列进行抽帧采样，得到子视频序列，并对目标视频的音频序列进行抽帧采样，得到子音频序列；从子视频序列中提取出目标视频特征，并从子音频序列中提取出目标音频特征；通过第一目标模型对目标视频特征进行处理，得到第一分类结果，并通过第二目标模型对目标音频特征进行处理，得到第二分类结果，基于第一分类结果和第二分类结果确定目标视频的目标场景，可以将目标视频的目标场景的结果存储至数据库114中，进而执行步骤S104，通过网络110将将目标视频的目标场景的结果返回给用户设备104。

上述第一目标模型为通过视频特征样本和与视频特征样本对应的类别，进行训练得到的用于确定视频特征的分类结果的模型，第二目标模型为通过音频特征样本和与音频特征样本对应的类别，进行训练得到的用于确定音频特征的分类结果的模型。

下面对本发明实施例的视频场景识别方法进行详细介绍。

图2是根据本发明实施例的一种视频场景识别方法的流程图。如图2所示，该方法可以包括以下步骤：

步骤S202，获取将要进行场景识别的目标视频。

在本申请步骤S202提供的技术方案中，目标视频为需要进行场景识别的原始视频，可以为一段时间的视频，比如，为播放时长为15分钟的视频。获取将要进行场景识别的目标视频，可以获取将要进行场景识别的目标视频的视频数据、视频文件等。

该实施例的目标视频的场景识别不等同于物体识别，目标视频的场景中所包含的物体对于目标视频的场景的类别具有很大的影响，但目标视频的场景的识别不仅仅取决于物体，而且还由各个语义区域及其层级结构和空间布局进行确定的，需要识别出目标视频所属的场景，比如，属于天空、草地、人物、卡通、游戏、运动、新闻、表演、教育、食物等场景。

步骤S204，对目标视频的视频序列进行抽帧采样，得到子视频序列，并对目标视频的音频序列进行抽帧采样，得到子音频序列。

在本申请步骤S204提供的技术方案中，在获取将要进行场景识别的目标视频之后，对目标视频的视频序列进行抽帧采样，得到子视频序列，并对目标视频的音频序列进行抽帧采样，得到子音频序列。

在该实施例中，目标视频可以包括视频序列和音频序列。其中，视频序列可以为有时空联系的按照一定顺序进行排列的多个视频图像，该多个视频图像可以为多个视频帧图像，也即，视频序列可以为视频帧序列，音频序列可以为按照一定顺序排列的音频帧，也可以为对目标视频的音频信号进行编码所形成的序列。其中，一定顺序可以为时间顺序。

可选地，在步骤S202，获取将要进行场景识别的目标视频之后，该方法还包括：对目标视频进行音视频分离处理，得到视频序列和音频序列。

可选地，该实施例对目标视频进行音视频分离处理，可以用FFMPEG对其进行对目标视频进行音视频分离，其中，FFMPEG为用于将目标视频记录、转换数字音频、视频，并能将其转化为流的开源计算机程序，可以将分离得到的音频保存为wav格式。

可选地，对目标视频的视频序列进行抽帧采样，得到子视频序列包括：对目标视频的视频序列进行等间隔的抽帧采样，得到子视频序列；对目标视频的音频序列进行抽帧采样，得到子音频序列包括：对目标视频的音频序列进行等间隔的抽帧采样，得到子音频序列。

该实施例在得到目标视频的视频序列之后，对视频序列进行等间隔抽帧采样，比如，对视频序列进行等间隔抽帧采样得到300帧视频帧，将这300帧视频帧确定为视频序列的子视频序列，该子视频序列可以为视频序列抽帧图片。

该实施例在得到目标视频的音频序列之后，对音频序列进行等间隔抽帧采样，可以对音频序列每间隔960ms进行抽帧采样，得到子音频序列，该子音频序列也即音频序列抽帧结果。

需要说明的是，该实施例对目标视频的视频序列进行抽帧采样和对音频序列进行抽帧采样，不限于时序是否相同，音频序列可以较视频序列在进行抽帧采样时稀疏些。

可选地，该实施例通过对视频序列进行等间隔抽帧采样，得到子视频序列，对音频序列进行等间隔抽帧采样，可以达到减少对目标场景进行识别的算法的运算量，以及去掉相邻且重复的没有必要进行计算的视频序列或音频序列。

步骤S206，从子视频序列中提取出目标视频特征，并从子音频序列中提取出目标音频特征。

在本申请步骤S206提供的技术方案中，在对目标视频的视频序列进行抽帧采样，得到子视频序列，并对目标视频的音频序列进行抽帧采样，得到子音频序列之后，从子视频序列中提取出目标视频特征，并从子音频序列中提取出目标音频特征。该目标视频特征和目标音频特征也即目标视频的双模态特征。

该实施例在对目标视频的视频序列进行抽帧采样，得到子视频序列之后，可以通过训练好的视频卷积神经网络(CNN)对子视频序列进行处理，从而从子视频序列中提取出目标视频特征，该训练好的视频卷积神经网络也即针对于视频特征的CNN特征提取网络，该目标视频特征(CNN视频特征)可以为帧级图片特征，可以为对每一抽取的子视频序列进行特征提取所得到的特征向量。

可选地，该实施例对子视频序列进行预处理，比如，进行子视频序列的图片缩放、归一化处理等预处理，得到预处理结果，进而将预处理结果输入到通过ImageNet数据集进行预训练后的网络中机进行处理，将该网络的输出结果作为该实施例的目标视频特征。

可选地，该实施例选用inception-v3网络作为上述视频卷积神经网络，该inception-v3网络对目标视频进行特征提取的精度和速度平衡相对较好，可以用于获得目标视频的更多、更丰富的空间特征。该实施例可以将最后一层全连接层前网络的输出结果作为提取的目标视频特征，也即，全连接层相当于分类层，将分类层的前一层的输出结果作为目标视频特征。

该实施例在对目标视频的音频序列进行抽帧采样，得到子音频序列之后，可以通过训练好的音频卷积神经网络(CNN)对子音频序列进行处理，从而从子音频序列中提取出目标音频特征(CNN音频特征)，该训练好的音频卷积神经网络也即针对于音频特征的CNN特征提取网络，该目标音频特征可以为对每一抽取的子音频序列进行特征提取所得到的特征向量。

可选地，该实施例选用VGG卷积神经网络模型作为上述音频卷积神经网络，可以将最后一层全连接层前网络的输出结果作为提取的目标音频特征，也即，全连接层相当于分类层，将分类层的前一层的输出结果作为目标视频特征，从而实现对抽取的子音频序列进行特征提取，得到目标音频特征的目的。

可选地，在该实施例中，为了保证所有样本序列的时间维度具有一致性，可以采用插值的方式对每一段音频特征的时间维度进行归一化处理，从而得到目标音频特征。

步骤S208，通过第一目标模型对目标视频特征进行处理，得到第一分类结果，并通过第二目标模型对目标音频特征进行处理，得到第二分类结果。

在本申请步骤S208提供的技术方案中，在从子视频序列中提取出目标视频特征，并从子音频序列中提取出目标音频特征之后，通过第一目标模型对目标视频特征进行处理，得到第一分类结果，并通过第二目标模型对目标音频特征进行处理，得到第二分类结果，其中，第一目标模型为通过视频特征样本和与视频特征样本对应的类别，进行训练得到的用于确定视频特征的分类结果的模型，第二目标模型为通过音频特征样本和与音频特征样本对应的类别，进行训练得到的用于确定音频特征的分类结果的模型。

在该实施例中，在从子视频序列中提取出目标视频特征，并从子音频序列中提取出目标音频特征之后，可以通过场景识别网络对目标视频特征和目标音频特征进行分类。

该实施例的场景识别网络可以包括第一目标模型，该第一目标模型为通过预先采集的视频特征样本和预先确定的与该视频特征样本对应的类别，进行训练得到的用于确定视频特征的分类结果的模型，该分类结果可以为视频特征所属类别的概率。通过该第一目标模型对目标视频特征进行处理，得到第一分类结果，该第一分类结果可以用于表示目标视频特征所属的多个类别的结果。可选地，该实施例的第一目标模型可以对目标视频帧进一步学习来获取携带有视频时序信息的视频特征向量，进行对其处理得到视频特征向量的分类结果，将该视频特征向量的分类结果确定为第一分类结果。其中，视频时序信息指视频帧建模的时序关系，也即，通过加强视频帧之间的联系，从而得到更准确的视频表示。

该实施例的场景识别网络还可以包括第二目标模型，该第二目标模型为通过预先采集的音频特征样本和预先确定的与该音频特征样本对应的类别，进行训练得到的用于确定音频特征的分类结果的模型，该分类结果可以为音频特征所属类别的概率。通过该第二目标模型对目标音频特征进行处理，得到第二分类结果，该第二分类结果可以用于表示目标音频特征所属的多个类别的结果。

步骤S210，基于第一分类结果和第二分类结果确定目标视频的目标场景。

在本申请步骤S210提供的技术方案中，在通过第一目标模型对目标视频特征进行处理，得到第一分类结果，并通过第二目标模型对目标音频特征进行处理，得到第二分类结果之后，基于第一分类结果和第二分类结果确定目标视频的目标场景。

在该实施例中，在得到目标视频帧的第一分类结果和目标音频帧的第二分类结果之后，对第一分类结果和第二分类结果进行决策层的融合，可以对目标视频特征所属的各个类别的概率和目标音频特征所属的各个类别的概率进行求和取平均，可以根据求和取平均后的结果确定目标视频的目标场景的类别，从而进一步提升对目标场景分类的准确率。

通过上述步骤S202至步骤S210，采用获取将要进行场景识别的目标视频；对目标视频的视频序列进行抽帧采样，得到子视频序列，并对目标视频的音频序列进行抽帧采样，得到子音频序列；从子视频序列中提取出目标视频特征，并从子音频序列中提取出目标音频特征；通过第一目标模型对目标视频特征进行处理，得到第一分类结果，并通过第二目标模型对目标音频特征进行处理，得到第二分类结果，其中，第一目标模型为通过视频特征样本和与视频特征样本对应的类别，进行训练得到的用于确定视频特征的分类结果的模型，第二目标模型为通过音频特征样本和与音频特征样本对应的类别，进行训练得到的用于确定音频特征的分类结果的模型；基于第一分类结果和第二分类结果确定目标视频的目标场景。也就是说，从视频信息与音频信息融合的角度出发，将从目标视频的视频序列中提取出的视频特征的分类结果和从音频序列中提取出的音频特征的分类结果，这两种单模态信息进行融合，实现双模态特征融合的场景识别的目的，避免了基于视频特征单一模态来进行场景识别，从而实现了提高对视频场景进行识别的准确率的技术效果，进而解决了相关技术中对视频场景进行识别的准确率低的技术问题。

作为一种可选的实施方式，步骤S208中，通过第一目标模型对目标视频特征进行处理，得到第一分类结果包括：通过第一目标模型对目标视频特征进行处理，得到目标视频帧对应的多个第一类别的第一结果；步骤S208中，通过第二目标模型对目标音频特征进行处理，得到第二分类结果包括：通过第二目标模型对目标音频特征进行处理，得到目标音频特征对应的多个第二类别的第二结果。

在该实施例中，针对目标视频帧可以有多个第一类别，比如，有游戏类别、运动类别、新闻类别、风景类别、表演类别、教育类别和食物类别，第一分类结果可以为与目标视频帧对应的多个第一类别的第一结果，其中，可以包括目标视频帧是否属于多个第一类别和/或分别属于多个第一类别的概率。针对目标音频帧也可以有多个第二类别，比如，有卡通类别、游戏类别、运动类别、新闻类别、风景类别、表演类别和教育类别，第二分类结果可以为与目标音频帧对应的多个第二类别的第二结果，其中，可以包括目标音频帧是否属于多个第二类别和/或分别属于多个第二类别的概率。

作为一种可选的实施方式，通过第一目标模型对目标视频特征进行处理，得到目标视频帧对应的多个第一类别的第一结果包括：通过第一目标模型对目标视频特征进行处理，得到目标视频帧分别属于多个第一类别的第一概率，得到多个第一概率；通过第二目标模型对目标音频特征进行处理，得到目标音频特征对应的多个第二类别的第二结果包括：通过第二目标模型对目标音频特征进行处理，得到目标音频特征分别属于多个第二类别的第二概率，得到多个第二概率。

在该实施例中，在第一目标模型的分类网络中的全连接层采用的激活函数可以为线性整流函数(ReLU)，目标视频特征经由第一目标模型处理，得到与目标视频帧对应的多个第一类别的第一结果，该多个第一类别的第一结果可以包括目标视频帧分别属于多个第一类别的第一概率P(C_v|X，W)，其中，C_v用于表示目标视频帧的类别，X用于表示第一目标模型的分类网络的输入，该输入可以为携带有时序信息的视频特征向量，W用于表示第一目标模型的分类网络的参数。比如，多个第一类别包括X类别、Y类别和Z类别，目标视频帧属于X类别的第一概率为P1，属于Y类别的第一概率为P2，属于Z类别的第一概率为P3。

可选地，在该实施例中，在第二目标模型的分类网络中的全连接层采用的激活函数可以为线性整流函数，目标音频特征经由第二目标模型处理，得到与目标音频帧对应的多个第二类别的第二结果，该多个第二类别的第二结果可以包括目标音频帧分别属于多个第二类别的第二概率P(C_a|X，W)，其中，C_a用于表示目标音频帧的类别，X用于表示第二目标模型的分类网络的输入，该输入可以为携带有时序信息的音频特征向量，W用于表示第二目标模型的分类网络的参数。比如，多个第二类别包括X类别、Y类别和Z′类别，目标音频帧属于X类别的第二概率为P1′，属于Y类别的第二概率为P2′，属于Z′类别的第二概率为P3′。

作为一种可选的实施方式，步骤S210，基于第一分类结果和第二分类结果确定目标视频的目标场景包括：在多个第一概率和多个第二概率中，根据相同类别的第一概率和第二概率确定相同类别的目标概率，得到至少一个目标概率，其中，多个第一类别和多个第二类别包括相同类别；将至少一个目标概率中大于目标阈值的概率或者最大的概率所对应的相同类别，确定为目标类别；将目标类别的场景确定为目标场景。

在该实施例中，在通过第一目标模型对目标视频特征进行处理，得到目标视频帧分别属于多个第一类别的第一概率，以及通过第二目标模型对目标音频特征进行处理，得到目标音频特征分别属于多个第二类别的第二概率之后，在多个第一概率和多个第二概率中，根据相同类别的第一概率和第二概率确定相同类别的目标概率，该目标概率可以为一个，也可以为多个，比如，多个第一类别包括X类别、Y类别和Z类别，目标视频帧属于X类别的第一概率为P1，属于Y类别的第一概率为P2，属于Z类别的第一概率为P3；多个第二类别包括X类别、Y类别和Z′类别，目标音频帧属于X类别的第二概率为P1′，属于Y类别的第二概率为P2′，属于Z′类别的第二概率为P3′，其中，目标视频帧和音频视频帧的相同类别为X类别和Y类别，可以根据X类别的第一概率和第二概率确定X类别的目标概率P，根据Y类别的第一概率和第二概率确定Y类别的目标概率Q。

在根据相同类别的第一概率和第二概率确定相同类别的目标概率，得到至少一个目标概率之后，可以将至少一个目标概率中最大的概率所对应的相同类别，确定为目标类别，在这种情况下，目标类别为一个，比如，与X类别对应的目标概率P大于Y类别对应的目标概率Q，则直接将X类别确定为目标类别；该实施例还可以从至少一个目标概率中选取大于目标阈值的概率，大于目标阈值的概率所对应的类别确定为目标类别，在这种情况下，目标类别可以为一个，也可以为多个，比如，上述与X类别对应的目标概率P大于目标阈值，则将X类别确定为目标类别，如果与X类别对应的目标概率P和与Y类别对应的目标概率Q均大于目标阈值，可以将X类别和Y类别均确定为目标类别。

在将至少一个目标概率中大于目标阈值的概率或者最大的概率所对应的相同类别，确定为目标类别之后，可以将目标类别的场景确定为目标场景，比如，将上述X类别的场景确定为目标视频的目标场景。

作为一种可选的实施方式，根据相同类别的第一概率和第二概率确定相同类别的目标概率包括：将相同类别的第一概率和第二概率二者之间的平均概率，确定为目标概率。

在该实施例中，在实现根据相同类别的第一概率和第二概率确定相同类别的目标概率时，可以将相同类别的第一概率和第二概率二者之间的平均概率，确定为目标概率，也即，对相同类别的第一概率和第二概率进行求和取平均的方式来确定目标概率的大小。

举例而言，对目标视频特征的分类结果为目标视频帧属于X类别的第一概率为P1，属于Y类别的第一概率为P2，属于Z类别的第一概率为P3，对目标音频特征的分类结果为目标音频帧属于X类别的第二概率为P1′，属于Y类别的第二概率为P2′，属于Z′类别的第二概率为P3，则将相同类别的概率的平均值确定为目标概率，也即，将X类别的第一概率P1和第二概率P1′的平均值确定为目标概率P，将Y类别的第一概率为P2和第二概率P2′的平均值确定为目标概率Q，其中，与X类别的目标概率P大于目标阈值，可以将目标视频的场景确定为X类别的场景。

下面对该实施例的场景识别网络模型(第一目标模型和第二目标模型)的建立以及使用进行介绍。

作为一种可选的实施方式，步骤S208，通过第一目标模型对目标视频特征进行处理，得到第一分类结果包括：通过第一目标模型中的第一时序模型对目标视频特征进行处理，得到携带有第一时序信息的视频特征向量，其中，第一时序模型为通过视频特征样本和与视频特征样本对应的时序信息对第一子时序模型进行训练，所得到的用于获得携带有时序信息的视频特征向量的模型；通过第一目标模型中的第一分类模型对视频特征向量进行处理，得到第一分类结果，其中，第一分类模型为通过与视频特征样本对应的视频特征向量样本和与视频特征向量样本对应的类别对第一子分类模型进行训练，所得到的用于识别视频特征向量的类别的模型。

在该实施例中，第一目标模型包括第一时序模型和第一分类模型，该第一时序模型为通过视频特征样本和与视频特征样本对应的时序信息对第一子时序模型进行训练，所得到的用于获得携带有时序信息的视频特征向量的模型，该第一子时序模型可以为初始建立的长短期记忆网络(Long Short-Term Memory，简称为LSTM)，该LSTM为时间递归神经网络，可以用于处理和预测时间序列中间隔和延迟相对较长的重要事件。视频特征样本可以为预先采集的包括大量视频特征的样本，为第一子时序模型的输入，与视频特征样本对应的时序信息可以为预先确定的大量视频特征的时序信息，该视频特征的时序信息可以为视频特征对应的时间先后顺序，为第一子时序模型的输出。通过视频特征样本和与视频特征样本对应的时序信息对第一子时序模型进行训练，可以得到第一目标参数，该第一目标参数也即模型优化的参数，进而通过第一目标参数确定最终的第一时序模型。

可选地，该实施例可以按照分布一致性算法、去噪等算法对视频特征样本和与视频特征样本对应的时序信息进行预处理，再从预处理后的数据中进行特征提取、特征变换、特征归一、特征组合等得到用于训练第一子时序模型的特征，进一步通过优化算法、假设函数、损失函数、决策边界、收敛速度、迭代策略等对特征进行进一步处理，通过处理后的特征对第一子时序模型进行训练，得到第一时序模型。

可选地，该实施例在得到第一时序模型之后，还可以对第一时序模型进行交叉验证、评估目标、过拟合、欠拟合等评价，从而得到用于获得携带有时序信息的视频特征向量的模型。

在训练好第一时序模型之后，通过第一目标模型中的第一时序模型对目标视频特征进行处理，得到携带有第一时序信息的视频特征向量，从而避免了对视频的场景识别缺乏对视频序列时序信息的建模，进而避免了由于只是帧级的分类，而导致对一些画面特征分散帧间运动变化大的场景很容易造成误判。

该实施例的第一分类模型为通过与视频特征样本对应的视频特征向量样本和与视频特征向量样本对应的类别对第一子分类模型进行训练，所得到的用于识别视频特征向量的类别的模型，其中，第一子分类模型可以为初始建立的神经网络模型，与视频特征样本对应的视频特征向量样本可以包括预先采集到的大量的视频特征向量，与视频特征向量样本对应的类别可以为预先确定的大量的视频特征向量所属的类别，通过与视频特征样本对应的视频特征向量样本和与视频特征向量样本对应的类别对第一子分类模型进行训练，可以得到第二目标参数，该第二目标参数也即模型优化的参数，进而通过第二目标参数确定最终的第一分类模型。

可选地，该实施例可以按照分布一致性算法、去噪等算法对视频特征样本和与视频特征样本对应的时序信息进行预处理，再从预处理后的数据中进行特征提取、特征变换、特征归一、特征组合等得到用于训练第一子分类模型的特征，进一步通过优化算法、假设函数、损失函数、决策边界、收敛速度、迭代策略等对特征进行进一步处理，通过处理后的特征对第一子分类模型进行训练，得到第一分类模型。

可选地，该实施例在得到第一分类模型之后，还可以对第一分类模型进行交叉验证、评估目标、过拟合、欠拟合等评价，从而得到用于识别视频特征向量的类别的模型。

该实施例的第一分类模型可以包括全连接层(Fully-connected layer)，可以通过全连接层对携带有第一时序信息的视频特征向量进行分类，得到第一分类结果。

作为一种可选的实施方式，在通过第一目标模型中的第一时序模型对目标视频特征进行处理，得到携带有第一时序信息的视频特征向量之前，该方法还包括：通过视频特征样本和与视频特征样本对应的时序信息对第一子时序模型按照正则化规则进行训练，得到第一时序模型，其中，正则化规则用于使第一时序模型未过拟合。

在该实施例中，为了缓解第一时序模型在训练过程中由于数据集的量级不够而造成的过拟合，可以对第一时序模型的训练过程进行正则化。可选地，该实施例通过视频特征样本和与视频特征样本对应的时序信息对第一子时序模型按照正则化规则进行训练，得到第一时序模型，在第一子时序模型为LSTM时，该正则化规则可以为zoneout，该正则化zoneout是一种特殊的针对LSTM内部结构的正则化方法，从而提高第一时序模型(LSTM-zoneout)的泛化能力，也即，提高第一时序模型对不同的目标视频特征进行处理的适应能力。

可选地，该实施例的LSTM依靠门机制来解决序列的长期依赖问题，可以表示为如下：

i_t，f_t，o_t＝σ(W_xx_t+W_hh_t-1+b)

g_t＝tanh(W_xgx_t+W_hgh_t-1+b_g)

c_t＝f_t*c_t-1+i_t*g_t

h_t＝o_t*tanh(c_t)

其中，f_t用于表示LSTM里的遗忘门；o_t用于表示LSTM里的输出门；c_t用于表示t时刻的细胞状态；c_t-1用于表示t-1时刻的细胞状态；x_t用于表示t时刻的输入；g_t用于表示对输入x和前一时刻的隐含层状态经过矩阵相乘及经双曲正切(tanh)作用后的值，这个也是LSTM里的基本操作；h_t-1用于表示t-1时刻隐含层的状态；h_t用于表示t时刻隐含层的状态；所有W用于表示参数矩阵，所有b用于表示偏置项，σ用于表示sigmoid函数。

zoneout相比于LSTM的不同之处在于，对于上一时刻的隐藏状态h_t和细胞状态c_t的信息并不是完全丢弃，而是随机地保留一部分值，这样梯度信息和状态信息在前馈随机深度网络进行汇总更容易通过时间信息进行传播，类似于正则化dropout，正则化zoneout可以采用随机噪音来训练ensemble模型，从而增加模型的泛化能力。该正则化zoneout的隐藏状态和细胞状态可表示为如下：

其中，和是针对细胞状态和隐藏状态分别设置的区域屏蔽值(zoneoutmaskvalue)，是由伯努利分布产生的二值化分布(是一个向量)，称为mask(掩码向量)，右上标c表示的是细胞状态，的右上标h表示的是隐藏状态。

在该实施例中，针对于第一分类模型的训练，可以进行正则化处理，也可以不进行正则化处理。

在对第一分类模型的训练进行正则化处理时，作为一种可选的实施方式，通过与视频特征样本对应的视频特征向量样本和与视频特征向量样本对应的类别，对第一子分类模型按照正则化规则进行训练，得到第一分类模型，其中，正则化规则用于使第二目标模型未过拟合。

在该实施例中，为了缓解第一分类模型在训练过程中的过拟合，可以对第一分类模型的训练过程进行正则化。可选地，该实施例通过与视频特征样本对应的视频特征向量样本和与视频特征向量样本对应的类别，对第一子分类模型按照正则化规则进行训练，得到第一分类模型，从而提高第一分类模型的泛化能力，也即，提高第一分类模型对不同的视频特征向量进行处理的适应能力。

作为一种可选的实施方式，步骤S208，通过第二目标模型对目标音频特征进行处理，得到第二分类结果包括：通过第二目标模型中的第二时序模型对目标音频特征进行处理，得到携带有第二时序信息的音频特征向量，其中，第二时序模型为通过对音频特征样本和与音频特征样本对应的时序信息对第二子时序模型进行训练，所得到的用于获得携带有时序信息的音频特征向量的模型；通过第二目标模型中的第二分类模型对音频特征向量进行处理，得到第二分类结果，其中，第二分类模型为通过与音频特征样本对应的音频特征向量样本和与音频特征向量样本对应的类别对第二子分类模型进行训练，所得到的用于识别音频特征向量的类别的模型。

在该实施例中，第二目标模型包括第二时序模型和第二分类模型，该第二时序模型为通过对音频特征样本和与音频特征样本对应的时序信息对第二子时序模型进行训练，所得到的用于获得携带有时序信息的音频特征向量的模型，该第二子时序模型可以为初始建立的长短期记忆网络LSTM。音频特征样本可以为预先采集的包括大量音频特征的样本，为第二子时序模型的输入，与音频特征样本对应的时序信息可以为预先确定的大量音频特征的时序信息，该音频特征的时序信息可以为音频特征对应的时间先后顺序，为第二子时序模型的输出。通过音频特征样本和与音频特征样本对应的时序信息对第二子时序模型进行训练，可以得到第三目标参数，该第三目标参数也即模型优化的参数，进而通过第三目标参数确定最终的第二时序模型。

可选地，该实施例可以按照分布一致性算法、去噪等算法对音频特征样本和与音频特征样本对应的时序信息进行预处理，再从预处理后的数据中进行特征提取、特征变换、特征归一、特征组合等得到用于训练第二子时序模型的特征，进一步通过优化算法、假设函数、损失函数、决策边界、收敛速度、迭代策略等对特征进行进一步处理，通过处理后的特征对第二子时序模型进行训练，得到第二时序模型。

可选地，该实施例在得到第二时序模型之后，还可以对第二时序模型进行交叉验证、评估目标、过拟合、欠拟合等评价，从而得到用于获得携带有时序信息的音频特征向量的模型。

在训练好第二时序模型之后，通过第二目标模型中的第二时序模型对目标音频特征进行处理，得到携带有第二时序信息的音频特征向量，从而避免了对视频的场景识别缺乏对音频序列时序信息的建模，进而避免了由于只是帧级的分类，而导致对一些画面特征分散帧间运动变化大的场景很容易造成误判。

该实施例的第二分类模型为通过与音频特征样本对应的音频特征向量样本和与音频特征向量样本对应的类别对第二子分类模型进行训练，所得到的用于识别音频特征向量的类别的模型，其中，第二子分类模型可以为初始建立的神经网络模型，与音频特征样本对应的音频特征向量样本可以包括预先采集到的大量的音频特征向量，与音频特征向量样本对应的类别可以为预先确定的大量的音频特征向量所属的类别，通过与音频特征样本对应的音频特征向量样本和与音频特征向量样本对应的类别对第二子分类模型进行训练，可以得到第四目标参数，该第四目标参数也即模型优化的参数，进而通过第四目标参数确定最终的第二分类模型。

可选地，该实施例可以按照分布一致性算法、去噪等算法对音频特征样本和与音频特征样本对应的时序信息进行预处理，再从预处理后的数据中进行特征提取、特征变换、特征归一、特征组合等得到用于训练第二子分类模型的特征，进一步通过优化算法、假设函数、损失函数、决策边界、收敛速度、迭代策略等对特征进行进一步处理，通过处理后的特征对第二子分类模型进行训练，得到第二分类模型。

可选地，该实施例在得到第二分类模型之后，还可以对第二分类模型进行交叉验证、评估目标、过拟合、欠拟合等评价，从而得到用于识别音频特征向量的类别的模型。

该实施例的第二分类模型可以包括全连接层，可以通过全连接层对携带有第二时序信息的音频特征向量进行分类，得到第二分类结果。

作为一种可选的实施方式，在通过第二目标模型中的第二时序模型对目标音频特征进行处理，得到携带有第二时序信息的音频特征向量之前，该方法还包括：通过音频特征样本和与音频特征样本对应的时序信息对第二子时序模型按照正则化规则进行训练，得到第二时序模型，其中，正则化规则用于使第二时序模型未过拟合。

在该实施例中，为了缓解第二时序模型在训练过程中由于数据集的量级不够而造成的过拟合，可以对第二时序模型的训练过程进行正则化。可选地，该实施例通过音频特征样本和与音频特征样本对应的时序信息对第二子时序模型按照正则化规则进行训练，得到第二时序模型，在第二子时序模型为LSTM时，该正则化规则可以为zoneout，从而提高第二时序模型(LSTM-zoneout)的泛化能力，也即，提高第二时序模型对不同的目标音频特征进行处理的适应能力。

在该实施例中，针对于第二分类模型的训练，可以进行正则化处理，也可以不进行正则化处理。

第二分类模型的训练进行正则化处理时，通过与音频特征样本对应的音频特征向量样本和与音频特征向量样本对应的类别对第二子分类模型按照正则化规则进行训练，得到第二分类模型，其中，正则化规则用于使第二分类模型未过拟合。

在该实施例中，为了缓解第二分类模型在训练过程中的过拟合，可以对第二分类模型的训练过程进行正则化。可选地，该实施例通过与音频特征样本对应的音频特征向量样本和与音频特征向量样本对应的类别，对第二子分类模型按照正则化规则进行训练，得到第二分类模型，从而提高第二分类模型的泛化能力，也即，提高第二分类模型对不同的音频特征向量进行处理的适应能力。

作为一种可选的实施方式，其特征在于，在步骤S210，基于第一分类结果和第二分类结果确定目标视频的目标场景之后，该方法还包括以下至少之一：对目标视频进行与目标场景对应的编码操作或者解码操作，其中，目标场景用于确定编码操作或者解码操作的参数；从多个目标视频的目标场景中确定出第一场景，从多个目标视频中确定出与第一场景对应的第一视频，并对第一视频的视频内容进行处理；从多个目标视频的目标场景中确定出第二场景，从多个目标视频中确定出与第二场景对应的第二视频，并推送第二视频。

在该实施例中，对目标视频的场景的识别可以理解原始视频的内容，利用解析出的内容可以有针对性的辅助或者改进其它处理任务。

在该实施例中，视频场景识别具有较大的实用价值。对于视频编解码，对目标视频进行与目标场景对应的编码操作或者解码操作，其中，目标场景用于确定编码操作或者解码操作的参数，也即，可以利用识别到的目标视频的场景进行特定的编解码的参数设置，从而达到更优化的码率分配，比如，用户对不同场景的质量要求不同，对动画类别场景的要求可能没有对运动类别场景的要求高，视频编码通过综合考虑码率、纹理和运动复杂程度等因素，利用识别到的场景进行特定参数的选择和编解码。

该实施例可以应用于编解码平台，将对目标视频进行场景识别的结果作为重要的视频信息提供给编解码及后期处理，从而辅助提高编码效率以及利于后期处理。

对于内容审核，从多个待进行内容审核的目标视频的目标场景中确定出第一场景，针对第一场景，从多个目标视频中确定出与第一场景对应的第一视频，并对第一视频的视频内容进行处理，比如，对于风景类别和表演类别等场景，出现不合规的内容的可能性比较小，而对于教育类别场景，出现不合规内容的审核就要着重考虑，第一场景可以为教育类别场景，从多个目标视频中确定出与第一场景对应的第一视频，就可以缩小审核的数据规模，从而节省了内容审核所需要的资源。

对于视频推荐，从多个待进行视频推荐的目标视频的目标场景中确定出第二场景，针对第二场景，从多个目标视频中确定出与第二场景对应的第二视频，并推送第二视频，也即，利用对目标视频的场景的识别可以定向准确地智能推荐视频。

该实施例在对视频进行卷积神经网络CNN特征提取的基础上，采用LSTM和分类模型来搭建场景识别网络，在提取的高级语义特征上进一步对序列的时序信息进行建模，并且为了缓解由于数据集的量级不够而造成的过拟合问题，为LSTM加入了一种正则化方法(zoneout)，其中，高级语义特征为经过特征提取网络之后所得到的特征，对应于网络后端的特征，可以指视频特征，也可以指音频特征。

该实施例针对单一模态视频特征的场景识别的准确率低的问题，从视频信息与音频信息融合的角度出发，将从目标视频的视频序列中提取出的视频特征的分类结果和从音频序列中提取出的音频特征的分类结果，这两种单模态信息进行融合，实现双模态特征融合的场景识别的目的，避免了基于视频特征单一模态来进行场景识别，从而实现了提高对视频场景进行识别的准确率的技术效果，并且还对模型的训练过程加入了正则化处理，从而缓解了模型网络泛化能力差的问题。

下面结合优选的实施例对本发明的技术方案进行说明。

该实施例从信息融合的角度出发，在决策层将视频特征和音频特征两种单模态信息进行融合，实现双模态特征融合的场景识别。在对视频进行卷积神经网络CNN特征提取的基础上，采用LSTM和分类模型来搭建场景识别网络，在提取的高级语义特征上进一步对序列的时序信息进行建模，并且为了缓解由于数据集的量级不够而造成的过拟合问题，为LSTM加入了一种正则化方法(zoneout)，其中，高级语义特征为经过特征提取网络之后所得到的特征，对应于网络后端的特征，可以指视频特征，也可以指音频特征。

下面对该实施例的音视频特征融合的视频场景识别方法进行详细介绍。

图3A是根据本发明实施例的一种基于音视频特征融合的视频场景识别方法的示意图。如图3A所示，主要包括原始输入数据10、视频序列抽帧20、音频序列抽帧30、针对视频特征的CNN特征提取网络40、针对音频特征的CNN特征提取网络50、长短期记忆网络-正则化(LSTM-zoneout)分类网络601和长短期记忆网络-正则化分类网络60、音视频特征决策层融合70组成。

原始输入数据10，为需要进行场景识别的原始视频。

视频序列抽帧20，用于对原始输入视频10进行视频的抽帧处理，得到视频序列抽帧图片。该实施例可以对输入的原始输入数据10中的视频序列进行等间隔抽帧，从而减少数据运算量。

音频序列抽帧30，用于对原始输入视频10进行音视频分离，且进行音频的抽帧处理，得到音频序列抽帧结果。可选地，该实施例对输入的原始输入数据10采用FFMPEG进行音视频分离，可以将音频保存为wav格式。

针对视频特征的CNN特征提取网络40，用于从视频序列抽帧20得到的视频序列抽帧图片中提取出视频特征，比如，提取出帧级图片特征，该帧级图片特征可以为待输入到CNN的视频特征向量，也即，CNN视频特征。

可选地，该实施例的针对视频特征的CNN特征提取网络40有多种实现形式，比如，Resnet，InceptionNet等。为了获得更多、更丰富的空间特征，在对视频序列进行抽帧的基础之上，可以选用inception-v3网络作为针对视频特征的CNN特征提取网络40，对视频序列抽帧图片进行特征提取，该实施例可以选取最后一层全连接层前网络的输出作为提取的CNN视频特征。可选地，该实施例可以将抽帧得到的视频序列抽帧图片经过诸如图片的缩放、归一化处理等固定的预处理之后，输入到ImageNet数据集预训练后的网络中，将网络的输出作为提取出的CNN视频特征。其中，inception-v3网络对视频表示比较有效，精度和速度平衡相对较好。

针对音频特征的CNN特征提取网络50，用于从音频序列抽帧30得到的音频序列抽帧结果中提取出音频特征，比如，提取出帧级音频特征，该帧级音频特征可以为待输入到CNN的音频特征向量。

该实施例在对音频序列进行抽帧的基础上，可以选用VGG网络作为针对音频特征的CNN特征提取网络50，对音频序列抽帧结果进行特征提取。可选地，该实施例选取最后一层全连接层前网络的输出作为提取的CNN音频特征。并且，为了保证所有样本序列时间维度的一致性，可以采用插值的方式对每一段音频特征的时间维度进行归一化处理。

LSTM-zoneout分类网络601和LSTM-zoneout分类网络602，用于表示视频的场景识别网络，LSTM-zoneout分类网络601可以针对视频特征的CNN特征提取网络40中所提取的特征向量进一步学习来获取原始视频的视频时序信息，进而根据携带有视频时序信息的视频特征向量获取基于视频特征向量的分类结果，LSTM-zoneout分类网络602可以针对音频特征的CNN特征提取网络50中所提取的特征向量进一步学习来获取原始视频的音频时序信息，进而根据携带有音频时序信息的音频特征向量获取基于音频特征向量的分类结果，其中，视频时序信息指视频帧建模的时序关系，也即，通过加强视频帧之间的联系，所得到的更准确的视频表示，音频时序信息指音频帧建模的时序关系，也即，通过加强音频帧之间的联系，所得到的更准确的视频表示，分类结果可以为视频特征或音频特征所属的类别的概率或者分类概率。

针对分类网络的搭建，此处选用在LSTM上添加正则化方法zoneout(LSTM-zoneoutLayer)来有效地缓解过拟合现象，从而提高模型的泛化能力，通过全连接层(Fully-connected layer)输出视频特征的分类结果和音频特征的分类结果。LSTM单元主要是依靠门机制来解决序列的长期依赖问题，可表示为如下：

i_t，f_t，o_t＝σ(W_xx_t+W_hh_t-1+b)

g_t＝tanh(W_xgx_t+W_hgh_t-1+b_g)

c_t＝f_t*c_t-1+i_t*g_t

h_t＝o_t*tanh(c_t)

其中，f_t用于表示LSTM里的遗忘门；o_t用于表示LSTM里的输出门；c_t用于表示t时刻的细胞状态；c_t-1用于表示t-1时刻的细胞状态；x_t用于表示t时刻的输入；g_t用于表示对输入x和前一时刻的隐含层状态经过矩阵相乘及经双曲正切(tanh)作用后的值，这个也是LSTM里的基本操作；h_t-1用于表示t-1时刻隐含层的状态；h_t用于表示t时刻隐含层的状态；所有的W用于表示参数矩阵，所有的b用于表示偏置项，σ用于表示sigmoid函数。

zoneout相比于LSTM的不同之处在于对于上一时刻的隐藏状态h_t和细胞状态c_t的信息并不是完全丢弃，而是随机地保留一部分值，这样梯度信息和状态信息在前馈随机深度网络进行汇总更容易通过时间信息进行传播，类似于正则化dropout，正则化zoneout可以采用随机噪音来训练ensemble模型，从而增加模型的泛化能力。该正则化zoneout的隐藏状态和细胞状态可表示为如下：

其中和是针对细胞状态和隐藏状态分别设置的区域屏蔽值(zone out maskvalue)，是由伯努利分布产生的二值化分布(是一个向量)，称为mask(掩码向量)，右上标c表示的是细胞状态，的右上标h表示的是隐藏状态。

音视频特征决策层融合70，用于表示对视频特征的分类结果和音频特征的分类结果进行决策层的融合，以进一步提升视频场景识别的准确率。

针对决策层融合，在分类网络中的全连接层采用的激活函数可以为ReLU，携带由视频时序信息的视频特征和携带有音频时序信息的音频特征分别经过分类网络获得对各类别的概率值，分别为P(C_v|X，W)，P(C_a|X，W)，其中，C_v、C_a用于表示类别，X用于表示输入，W用于表示参数。双模态特征进行决策层融合最终获得最后的各类别的概率值P(C|X，W)可以表示为：

P(C|X，W)＝(P(C_v|X，W)+P(C_a|X，W))/2，其中，C用于表示类别，X用于表示输入，W用于表示参数。

可选地，最终原始视频的场景的判别类别可以为argmax(P(C|X，W))，也即，类别C对应的概率P最大，将最大概率P对应的类别C作为原始视频的场景的类别。

图3B是根据本发明实施例的另一种基于音视频特征融合的视频场景识别方法的示意图。如图3B所示，主要包括原始输入数据10′、视频序列抽帧(Extract frame)20′、音频序列抽帧(Audio video separation Ectract frame)30′、针对视频特征的CNN特征提取网络40′、针对音频特征的CNN特征提取网络50′、长短期记忆网络-正则化分类网络60′(LSTM-zoneout layer模型、全连接层Fully-connected layer)和音视频特征决策层融合70′组成。

原始输入数据10′，为需要进行场景识别的原始视频。

视频序列抽帧20′，用于对原始输入视频10′进行视频的抽帧处理，得到视频序列抽帧图片。该实施例可以对输入的原始输入数据10中的视频序列进行等间隔抽帧，比如，等间隔抽帧采样得到300帧，得到视频序列抽帧结果，从而减少数据运算量。

音频序列抽帧30′，用于对原始输入视频10′进行音视频分离，且进行音频的抽帧处理，得到音频序列抽帧结果。可选地，该实施例对输入的原始输入数据10′采用FFMPEG进行音视频分离，可以将音频保存为wav格式，对音频序列每间隔960ms进行抽帧，得到音频序列抽帧结果。

针对视频特征的CNN特征提取网络40′，用于从视频序列抽帧20′得到的视频序列抽帧图片中提取出视频特征。

可选地，该实施例的针对视频特征的CNN特征提取网络40′有多种实现形式，比如，Resnet，InceptionNet等。

针对音频特征的CNN特征提取网络50′，用于从音频序列抽帧30′得到的音频序列抽帧结果中提取出音频特征。

该实施例在对音频序列进行抽帧的基础上，可以选用VGG网络作为针对音频特征的CNN特征提取网络50′，对音频序列抽帧结果进行特征提取。可选地，该实施例选取最后一层全连接层前网络的输出作为提取的CNN音频特征。并且，为了保证所有样本序列时间维度的一致性，可以采用插值的方式对每一段音频特征的时间维度进行归一化处理。

长短期记忆网络-正则化分类60′(LSTM-zoneout layer模型、全连接层Fully-connected layer)，针对视频特征的CNN特征提取网络40′中所提取的特征向量进一步学习来获取原始视频的视频时序信息，进而根据携带有视频时序信息的视频特征向量获取基于视频特征向量的分类结果，还可以针对音频特征的CNN特征提取网络50′中所提取的特征向量进一步学习来获取原始视频的音频时序信息，进而根据携带有音频时序信息的音频特征向量获取基于音频特征向量的分类结果。

针对分类网络的搭建，此处选用时序模型LSTM上添加正则化方法zoneout(LSTM-zoneout Layer)来有效地缓解过拟合现象，从而提高模型的泛化能力，通过全连接层(Fully-connected layer)输出视频特征的分类结果和音频特征的分类结果。通过LSTM依靠门机制来解决序列的长期依赖问题如对图3A所进行的描述，此处不再赘述。

音视频特征决策层融合70′，用于表示对视频特征的分类结果和音频特征的分类结果进行决策层的融合，以进一步提升视频场景识别的准确率。

本发明实施例的应用环境可以但不限于参照上述实施例中的应用环境，本实施例中对此不再赘述。本发明实施例提供了用于实施上述视频场景识别方法的一种可选的具体应用。

该实施例的视频场景识别主要用于理解视频数据中的内容，利用解析出的内容有针对性的辅助或者改进其它处理任务。视频场景识别具有较大的实用价值，可以具有以下应用场景：

可选地，对于视频编解码，可以利用识别到的场景进行特定的编解码的参数设置，比如，用户对不同场景的质量要求不同，对动画类别场景的要求可能没有对运动类别场景的要求高，视频编码通过综合考虑码率、纹理和运动复杂程度等因素，利用识别到的场景进行特定参数的选择和编码从而达到更优化的码率分配。可选地，该实施例针对编解码平台，将对视频的场景进行识别得到的结果作为重要的视频信息提供给编解码及后期处理，也即，辅助提升编码效率以及进行后期处理。

可选地，对于内容审核，利用识别到的场景缩小审核的数据规模，节省审核所需的资源，比如，对于风景类别和表演类别等场景，出现不合规的内容的可能性比较小，而对于教育类别的场景，不合规内容的审核就要着重考虑，可以重点针对教育类别的场景的视频内容进行审核；

可选地，对于视频推荐，该实施例可以利用场景识别结果可以定向准确地智能推荐视频。

图4A是根据本发明实施例的一种场景识别的示意图。如图4A所示，通过对目标视频的视频序列进行抽帧采样，得到子视频序列，比如，该子视频序列包括多张天空图片，对目标视频的音频序列进行抽帧采样，得到子音频序列，比如，该子音频序列包括对天空进行介绍的音频帧，从子视频序列中提取出目标视频特征，并从子音频序列中提取出目标音频特征，通过第一目标模型对目标视频特征进行处理，得到天空类别，并通过第二目标模型对目标音频特征进行处理，得到天空类别，最后确定该目标场景为天空场景。

图4B是根据本发明实施例的另一种场景识别的示意图。如图4B所示，通过对目标视频的视频序列进行抽帧采样，得到子视频序列，比如，该子视频序列包括多张山峰图片，对目标视频的音频序列进行抽帧采样，得到子音频序列，比如，该子音频序列包括对山峰进行介绍的音频帧，从子视频序列中提取出目标视频特征，并从子音频序列中提取出目标音频特征；通过第一目标模型对目标视频特征进行处理，得到山峰类别，并通过第二目标模型对目标音频特征进行处理，得到山峰类别，最后确定目标视频的目标场景为山峰场景。

作为一种可选的示例，对网页进行抓包解析，获取视频下载网址，进行视频的下载，组建一个包括卡通类别(cartoon)、游戏类别(game)、运动类别(sports)、新闻类别(news)、风景类别(scene)、表演类别(performance)、教育类别(education)和食物类别(food)的场景类别，共74840段视频。通过该实施例的对原始视频的场景进行识别的方法，在测试集上的准确率如表1所示：

表1场景测试准确率

视频特征	音频特征	决策层融合准确率
			75.00％	62.86％	80.00％

由表1可知，通过视频特征的类别进行识别的准确率达75.00％，对音频特征的类别进行识别的准确率达62.86％，将视频特征与音频特征进行双模态融合准确率达80.00％，因而，该实施例的将从原始视频的视频序列中提取出的视频特征的分类结果和从原始视频的音频序列中提取出的音频特征的分类结果，这两种单模态信息进行融合，实现双模态特征融合的场景识别，可以有效地提高对原始视频的的场景进行识别的准确率。

针对大规模视频场景识别是一个非常困难和具备挑战性的问题，只采取单一模态的视频特征会存在准确率上的问题，该实施例针对单一模态视频特征的场景识别的准确率低的问题，从信息融合的角度出发，在决策层将视频特征和音频特征这两种单模态信息进行融合，从而实现双模态特征融合的场景识别方法。

该实施例从视频信息与音频信息融合的角度出发，将从视频的视频序列中提取出的视频特征的分类结果和从音频序列中提取出的音频特征的分类结果，这两种单模态信息进行融合，实现双模态特征融合的场景识别的目的，避免了基于视频特征单一模态来进行场景识别。针对分类模型的搭建，在对原始视频提取CNN特征的基础之上，采用更复杂架构的深层次的序列模型来学习帧与帧之间的时间序列信息，其中，序列模型，也即指时序模型，可以为通过LSTM建模的模型。该实施例还提出一种CNN+LSTM-zoneout的场景识别模型，其中，zoneout是为了缓解序列模型的网络泛化能力差所加入的一种正则化方法，从而实现了提高对视频场景进行识别的准确率的效果。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

根据本发明实施例的另一方面，还提供了一种用于实施上述视频场景识别方法的视频场景识别装置。图5是根据本发明实施例的一种视频场景识别装置的示意图。如图5所示，该视频场景识别装置500可以包括：获取单元10、抽帧单元20、提取单元30、处理单元40和确定单元50。

获取单元10，用于获取将要进行场景识别的目标视频。

抽帧单元20，用于对目标视频的视频序列进行抽帧采样，得到子视频序列，并对目标视频的音频序列进行抽帧采样，得到子音频序列。

提取单元30，用于从子视频序列中提取出目标视频特征，并从子音频序列中提取出目标音频特征。

处理单元40，用于通过第一目标模型对目标视频特征进行处理，得到第一分类结果，并通过第二目标模型对目标音频特征进行处理，得到第二分类结果，其中，第一目标模型为通过视频特征样本和与视频特征样本对应的类别，进行训练得到的用于确定视频特征的分类结果的模型，第二目标模型为通过音频特征样本和与音频特征样本对应的类别，进行训练得到的用于确定音频特征的分类结果的模型。

确定单元50，用于基于第一分类结果和第二分类结果确定目标视频的目标场景。

需要说明的是，该实施例中的获取单元10可以用于执行本申请实施例中的步骤S202，该实施例中的抽帧单元20可以用于执行本申请实施例中的步骤S204，该实施例中的提取单元30可以用于执行本申请实施例中的步骤S206，该实施例中的处理单元40可以用于执行本申请实施例中的步骤S208，该实施例中的确定单元50可以用于执行本申请实施例中的步骤S210。

该实施例从视频信息与音频信息融合的角度出发，将从目标视频的视频序列中提取出的视频特征的分类结果和从音频序列中提取出的音频特征的分类结果，这两种单模态信息进行融合，实现双模态特征融合的场景识别的目的，避免了基于视频特征单一模态来进行场景识别，从而实现了提高对视频场景进行识别的准确率的技术效果，进而解决了相关技术中对视频场景进行识别的准确率低的技术问题。

此处需要说明的是，上述单元与对应的步骤所实现的示例和应用场景相同，但不限于上述实施例所公开的内容。需要说明的是，上述单元作为装置的一部分可以运行在如图1所示的硬件环境中，可以通过软件实现，也可以通过硬件实现。其中，硬件环境包括网络环境。

根据本发明实施例的又一方面，还提供了一种用于实施上述视频场景识别方法的电子装置。

图6是根据本发明实施例的一种电子装置的结构框图。如图6所示，该电子装置包括存储器602和处理器604，该存储器中存储有计算机程序，该处理器被设置为通过计算机程序执行上述任一项方法实施例中的步骤。

可选地，在本实施例中，上述电子装置可以位于计算机网络的多个网络设备中的至少一个网络设备。

可选地，在本实施例中，上述处理器604可以被设置为通过计算机程序执行以下步骤：

S1，获取将要进行场景识别的目标视频；

S2，对目标视频的视频序列进行抽帧采样，得到子视频序列，并对目标视频的音频序列进行抽帧采样，得到子音频序列；

S3，从子视频序列中提取出目标视频特征，并从子音频序列中提取出目标音频特征；

S4，通过第一目标模型对目标视频特征进行处理，得到第一分类结果，并通过第二目标模型对目标音频特征进行处理，得到第二分类结果，其中，第一目标模型为通过视频特征样本和与视频特征样本对应的类别，进行训练得到的用于确定视频特征的分类结果的模型，第二目标模型为通过音频特征样本和与音频特征样本对应的类别，进行训练得到的用于确定音频特征的分类结果的模型；

S5，基于第一分类结果和第二分类结果确定目标视频的目标场景。

可选地，本领域普通技术人员可以理解，图6所示的结构仅为示意，电子装置也可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌上电脑以及移动互联网设备(Mobile Internet Devices，MID)、PAD等终端设备。图6其并不对上述电子装置的结构造成限定。例如，电子装置还可包括比图6中所示更多或者更少的组件(如网络接口等)，或者具有与图6所示不同的配置。

其中，存储器602可用于存储软件程序以及模块，如本发明实施例中的人脸特征的处理方法和装置对应的程序指令/模块，处理器604通过运行存储在存储器602内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的视频场景识别方法。存储器602可包括高速随机存储器，还可以包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器602可进一步包括相对于处理器604远程设置的存储器，这些远程存储器可以通过网络连接至终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。其中，存储器602具体可以但不限于用于存储提取的视频特征和音频特征等信息。作为一种示例，如图6所示，上述存储器602中可以但不限于包括上述视频场景识别装置500中的获取单元10、抽帧单元20、提取单元30、处理单元40和确定单元50。此外，还可以包括但不限于上述视频场景识别装置中的其他模块单元，本示例中不再赘述。

上述的传输装置606用于经由一个网络接收或者发送数据。上述的网络具体实例可包括有线网络及无线网络。在一个实例中，传输装置606包括一个网络适配器(NetworkInterface Controller，NIC)，其可通过网线与其他网络设备与路由器相连从而可与互联网或局域网进行通讯。在一个实例中，传输装置606为射频(Radio Frequency，RF)模块，其用于通过无线方式与互联网进行通讯。

此外，上述电子装置还包括：显示器608，用于显示上述目标代码在第一目标函数中的执行状态；连接总线610，用于连接上述电子装置中的各个模块部件。

根据本发明的实施例的又一方面，还提供了一种存储介质，该存储介质中存储有计算机程序，其中，该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。

可选地，在本实施例中，上述存储介质可以被设置为存储用于执行以下步骤的计算机程序：

S1，获取将要进行场景识别的目标视频；

S1，通过第一目标模型对目标视频特征进行处理，得到目标视频帧对应的多个第一类别的第一结果；

S2，通过第二目标模型对目标音频特征进行处理，得到目标音频特征对应的多个第二类别的第二结果。

S1，通过第一目标模型对目标视频特征进行处理，得到目标视频帧分别属于多个第一类别的第一概率，得到多个第一概率；

S2，通过第二目标模型对目标音频特征进行处理，得到目标音频特征分别属于多个第二类别的第二概率，得到多个第二概率。

S1，在多个第一概率和多个第二概率中，根据相同类别的第一概率和第二概率确定相同类别的目标概率，得到至少一个目标概率，其中，多个第一类别和多个第二类别包括相同类别；

S2，将至少一个目标概率中大于目标阈值的概率或者最大的概率所对应的相同类别，确定为目标类别；

S3，将目标类别的场景确定为目标场景。

将相同类别的第一概率和第二概率二者之间的平均概率，确定为目标概率。

S1，通过第一目标模型中的第一时序模型对目标视频特征进行处理，得到携带有第一时序信息的视频特征向量，其中，第一时序模型为通过视频特征样本和与视频特征样本对应的时序信息对第一子时序模型进行训练，所得到的用于获得携带有时序信息的视频特征向量的模型；

S2，通过第一目标模型中的第一分类模型对视频特征向量进行处理，得到第一分类结果，其中，第一分类模型为通过与视频特征样本对应的视频特征向量样本和与视频特征向量样本对应的类别对第一子分类模型进行训练，所得到的用于识别视频特征向量的类别的模型。

在通过第一目标模型中的第一时序模型对目标视频特征进行处理，得到携带有第一时序信息的视频特征向量之前，通过视频特征样本和与视频特征样本对应的时序信息对第一子时序模型按照正则化规则进行训练，得到第一时序模型，其中，正则化规则用于使第一时序模型未过拟合。

在通过第一目标模型中的第一分类模型对视频特征向量进行处理，得到第一分类结果之前，通过与视频特征样本对应的视频特征向量样本和与视频特征向量样本对应的类别，对第一子分类模型按照正则化规则进行训练，得到第一分类模型，其中，正则化规则用于使第二目标模型未过拟合。

通过第二目标模型中的第二时序模型对目标音频特征进行处理，得到携带有第二时序信息的音频特征向量，其中，第二时序模型为通过对音频特征样本和与音频特征样本对应的时序信息对第二子时序模型进行训练，所得到的用于获得携带有时序信息的音频特征向量的模型；通过第二目标模型中的第二分类模型对音频特征向量进行处理，得到第二分类结果，其中，第二分类模型为通过与音频特征样本对应的音频特征向量样本和与音频特征向量样本对应的类别对第二子分类模型进行训练，所得到的用于识别音频特征向量的类别的模型。

在通过第二目标模型中的第二时序模型对目标音频特征进行处理，得到携带有第二时序信息的音频特征向量之前，通过音频特征样本和与音频特征样本对应的时序信息对第二子时序模型按照正则化规则进行训练，得到第二时序模型，其中，正则化规则用于使第二时序模型未过拟合。

在通过第二目标模型中的第二分类模型对音频特征向量进行处理，得到第二分类结果之前，通过与音频特征样本对应的音频特征向量样本和与音频特征向量样本对应的类别对第二子分类模型按照正则化规则进行训练，得到第二分类模型，其中，正则化规则用于使第二分类模型未过拟合。

对目标视频的视频序列进行等间隔的抽帧采样，得到子视频序列；

对目标视频的音频序列进行等间隔的抽帧采样，得到子音频序列。

在获取将要进行场景识别的目标视频之后，对目标视频进行音视频分离处理，得到视频序列和音频序列。

可选地，在本实施例中，上述存储介质可以被设置为存储用于执行以下步骤至少之一的计算机程序：

对目标视频进行与目标场景对应的编码操作或者解码操作，其中，目标场景用于确定编码操作或者解码操作的参数；

从多个目标视频的目标场景中确定出第一场景，从多个目标视频中确定出与第一场景对应的第一视频，并对第一视频的视频内容进行处理；

从多个目标视频的目标场景中确定出第二场景，从多个目标视频中确定出与第二场景对应的第二视频，并推送第二视频。

可选地，本实施例中的具体示例可以参考上述实施例中所描述的示例，本实施例在此不再赘述。

可选地，在本实施例中，上述存储介质可以包括但不限于：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

上述实施例中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在上述计算机可读取的存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在存储介质中，包括若干指令用以使得一台或多台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。

在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的客户端，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种视频场景识别方法，其特征在于，包括：

获取将要进行场景识别的目标视频；

对所述目标视频的视频序列进行抽帧采样，得到子视频序列，并对所述目标视频的音频序列进行抽帧采样，得到子音频序列；

从所述子视频序列中提取出目标视频特征，并从所述子音频序列中提取出目标音频特征；

通过第一目标模型对所述目标视频特征进行处理，得到第一分类结果，并通过第二目标模型对所述目标音频特征进行处理，得到第二分类结果，其中，所述第一目标模型为通过视频特征样本和与所述视频特征样本对应的类别，进行训练得到的用于确定视频特征的分类结果的模型，所述第二目标模型为通过音频特征样本和与所述音频特征样本对应的类别，进行训练得到的用于确定音频特征的分类结果的模型；

基于所述第一分类结果和所述第二分类结果确定所述目标视频的目标场景。

2.根据权利要求1所述的方法，其特征在于，

通过第一目标模型对所述目标视频特征进行处理，得到第一分类结果包括：通过所述第一目标模型对所述目标视频特征进行处理，得到所述目标视频帧对应的多个第一类别的第一结果；

通过第二目标模型对所述目标音频特征进行处理，得到第二分类结果包括：通过第二目标模型对所述目标音频特征进行处理，得到所述目标音频特征对应的多个第二类别的第二结果。

3.根据权利要求2所述的方法，其特征在于，

通过所述第一目标模型对所述目标视频特征进行处理，得到所述目标视频帧对应的多个第一类别的第一结果包括：通过所述第一目标模型对所述目标视频特征进行处理，得到所述目标视频帧分别属于所述多个第一类别的第一概率，得到多个第一概率；

通过第二目标模型对所述目标音频特征进行处理，得到所述目标音频特征对应的多个第二类别的第二结果包括：通过所述第二目标模型对所述目标音频特征进行处理，得到所述目标音频特征分别属于所述多个第二类别的第二概率，得到多个第二概率。

4.根据权利要求3所述的方法，其特征在于，基于所述第一分类结果和所述第二分类结果确定所述目标视频的目标场景包括：

在所述多个第一概率和所述多个第二概率中，根据相同类别的所述第一概率和所述第二概率确定所述相同类别的目标概率，得到至少一个目标概率，其中，所述多个第一类别和所述多个第二类别包括所述相同类别；

将所述至少一个目标概率中大于目标阈值的概率或者最大的概率所对应的所述相同类别，确定为目标类别；

将所述目标类别的场景确定为所述目标场景。

5.根据权利要求4所述的方法，其特征在于，根据相同类别的所述第一概率和所述第二概率确定所述相同类别的目标概率包括：

将所述相同类别的所述第一概率和所述第二概率二者之间的平均概率，确定为所述目标概率。

6.根据权利要求1所述的方法，其特征在于，通过第一目标模型对所述目标视频特征进行处理，得到第一分类结果包括：

通过所述第一目标模型中的第一时序模型对所述目标视频特征进行处理，得到携带有第一时序信息的视频特征向量，其中，所述第一时序模型为通过所述视频特征样本和与所述视频特征样本对应的时序信息对第一子时序模型进行训练，所得到的用于获得携带有时序信息的视频特征向量的模型；

通过所述第一目标模型中的第一分类模型对所述视频特征向量进行处理，得到所述第一分类结果，其中，所述第一分类模型为通过与所述视频特征样本对应的视频特征向量样本和与所述视频特征向量样本对应的类别对第一子分类模型进行训练，所得到的用于识别所述视频特征向量的类别的模型。

7.根据权利要求6所述的方法，其特征在于，在通过所述第一目标模型中的第一时序模型对所述目标视频特征进行处理，得到携带有第一时序信息的视频特征向量之前，所述方法还包括：

通过所述视频特征样本和与所述视频特征样本对应的时序信息对所述第一子时序模型按照正则化规则进行训练，得到所述第一时序模型，其中，所述正则化规则用于使所述第一时序模型未过拟合。

8.根据权利要求1所述的方法，其特征在于，通过第二目标模型对所述目标音频特征进行处理，得到第二分类结果包括：

通过所述第二目标模型中的第二时序模型对所述目标音频特征进行处理，得到携带有第二时序信息的音频特征向量，其中，所述第二时序模型为通过对所述音频特征样本和与所述音频特征样本对应的时序信息对第二子时序模型进行训练，所得到的用于获得携带有时序信息的音频特征向量的模型；

通过所述第二目标模型中的第二分类模型对所述音频特征向量进行处理，得到所述第二分类结果，其中，所述第二分类模型为通过与所述音频特征样本对应的音频特征向量样本和与所述音频特征向量样本对应的类别对第二子分类模型进行训练，所得到的用于识别所述音频特征向量的类别的模型。

9.根据权利要求8所述的方法，其特征在于，在通过所述第二目标模型中的第二时序模型对所述目标音频特征进行处理，得到携带有第二时序信息的音频特征向量之前，所述方法还包括：

通过所述音频特征样本和与所述音频特征样本对应的时序信息对所述第二子时序模型按照正则化规则进行训练，得到所述第二时序模型，其中，所述正则化规则用于使所述第二时序模型未过拟合。

10.根据权利要求1至9中任意一项所述的方法，其特征在于，

对所述目标视频的视频序列进行抽帧采样，得到子视频序列包括：对所述目标视频的视频序列进行等间隔的抽帧采样，得到所述子视频序列；

对所述目标视频的音频序列进行抽帧采样，得到子音频序列包括：对所述目标视频的音频序列进行等间隔的抽帧采样，得到所述子音频序列。

11.根据权利要求1至9中任意一项所述的方法，其特征在于，在获取将要进行场景识别的目标视频之后，所述方法还包括：

对所述目标视频进行音视频分离处理，得到所述视频序列和所述音频序列。

12.根据权利要求1至9中任意一项所述的方法，其特征在于，在基于所述第一分类结果和所述第二分类结果确定所述目标视频的目标场景之后，所述方法还包括以下至少之一：

对所述目标视频进行与所述目标场景对应的编码操作或者解码操作，其中，所述目标场景用于确定所述编码操作或者所述解码操作的参数；

从多个所述目标视频的所述目标场景中确定出第一场景，从多个所述目标视频中确定出与所述第一场景对应的第一视频，并对所述第一视频的视频内容进行处理；

从多个所述目标视频的所述目标场景中确定出第二场景，从多个所述目标视频中确定出与所述第二场景对应的第二视频，并推送所述第二视频。

13.一种视频场景识别装置，其特征在于，包括：

获取单元，用于获取将要进行场景识别的目标视频；

抽帧单元，用于对所述目标视频的视频序列进行抽帧采样，得到子视频序列，并对所述目标视频的音频序列进行抽帧采样，得到子音频序列；

提取单元，用于从所述子视频序列中提取出目标视频特征，并从所述子音频序列中提取出目标音频特征；

处理单元，用于通过第一目标模型对所述目标视频特征进行处理，得到第一分类结果，并通过第二目标模型对所述目标音频特征进行处理，得到第二分类结果，其中，所述第一目标模型为通过视频特征样本和与所述视频特征样本对应的类别，进行训练得到的用于确定视频特征的分类结果的模型，所述第二目标模型为通过音频特征样本和与所述音频特征样本对应的类别，进行训练得到的用于确定音频特征的分类结果的模型；

确定单元，用于基于所述第一分类结果和所述第二分类结果确定所述目标视频的目标场景。

14.一种存储介质，其特征在于，所述存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行所述权利要求1至12任一项中所述的方法。

15.一种电子装置，包括存储器和处理器，其特征在于，所述存储器中存储有计算机程序，所述处理器被设置为通过所述计算机程序执行所述权利要求1至12任一项中所述的方法。