CN113569687A

CN113569687A - 基于双流网络的场景分类方法、系统、设备及介质

Info

Publication number: CN113569687A
Application number: CN202110821917.8A
Authority: CN
Inventors: 朱彦浩; 胡郡郡; 唐大闰
Original assignee: Shanghai Minglue Artificial Intelligence Group Co Ltd
Current assignee: Shanghai Minglue Artificial Intelligence Group Co Ltd
Priority date: 2021-07-20
Filing date: 2021-07-20
Publication date: 2021-10-29
Anticipated expiration: 2041-07-20
Also published as: CN113569687B

Abstract

本发明公开了一种结合显著区域检测的场景分类方法、系统、设备及介质，场景分类方法包括：短视频图像处理步骤：对短视频图像进行抽帧提取获得多个视频帧，根据多个视频帧获得具有对应多个所述视频帧的多个第一图片信息的图像数据集；图片信息处理步骤：对所述图像数据集的每一所述第一图片信息进行遮挡处理获得对应的第二图片信息；分类识别步骤：通过双流网络对第一图片信息及第二图片信息进行分类识别获得对应每一所述第一图片信息的图像场景概率；图像概率处理步骤：根据每一第一图片信息的图像场景概率计算获得短视频图像的每一场景类别的场景概率，通过本发明能够提高短视频图像的识别准确率及分类性能。

Description

基于双流网络的场景分类方法、系统、设备及介质

技术领域

本发明涉及视频处理技术领域，特别涉及一种基于双流网络的场景分类方法、系统、设备及介质。

背景技术

随着科学技术的飞速发展，通讯技术得到了飞速的发展，目前的通讯技术已经发展到了第五代通信---5G。5G技术的飞速发展带来了互联网信息传播的新途径---短视频。短视频已经成为了目前社会生活下传播信息最丰富，最快捷，最受欢迎的途径。在这种丰富的月活人数下，各种短视频平台的数据量急剧上升，如何能够更好的使用丰富的短视频，并提取出有用的信息，进行数据分析也成为了一个新的技术课题。

与正常的场景分类不同，短视频场景分类主要面临两个问题需要进行解决：

一是与图像不同，一副图像中只会描述一种场景。如图1中，这幅图像就只是描述了室内的场景。而对于短视频而言，由于其是一个较长时间的故事，因此场景会发生切换。如图2所示，其场景由室外切换到室内，因此对于一个短视频内的场景要尽可能的将所有的场景都识别到。

二是与普通的场景识别不同，短视频场景下，周围环境信息的内容较为稀少，大部分均是人物占据主要区域，因此如何在少量信息下进行准确的场景识别也是一个非常大的挑战。如图3所示，人物占据主要区域，户外场景只在图像的右上和左上区域。

基于以上问题现有技术大都采取以下方案：

1、基于视频级的3D卷积场景分类方法

目前，最为广泛C3D是Facebook的一个工作，它主要是把2D Convolution扩展到3D。其原理如下图，我们知道2D的卷积操作是将卷积核在输入图像或特征图(feature map)上进行滑窗，得到下一层的特征图。例如，图(a)是在一个单通道的图像上做卷积，图(b)是在一个多通道的图像上做卷积(这里的多通道图像可以指同一张图片的3个颜色通道，也指多张堆叠在一起的帧，即一小段视频)，最终的输出都是一张二维的特征图，也就是说，多通道的信息被完全压缩了。而在3D卷积中，为了保留时序的信息，对卷积核进行了调整，增加了一维时域深度。如图(c)所示，3D卷积的输出仍是一个三维的特征图。因此通过3D卷积，C3D可以直接处理视频，同时利用表观特征和时序特征。但这种方法的缺点是：基于视频的方法，只能给出这个视频的主题场景，一般会忽略掉短视频中出现时长较为短暂的其他场景，导致其结果不满足要求。

2、基于图像级的抽帧采样场景分类方法

本技术方法是对于整个短视频先进行帧的提取操作，在提取帧的基础上使用基于图像的场景分类方法进行分类操作。直接利用现有成熟的网络架构如ResNet就可以实现图像涉及场所的识别。在对于所有的图像进行识别后，对于最终的识别结果进行聚合，这样出现频次较高的场景会有相对较高的结果，出现频次较低的场景会有相对而言较低的结果，但是会包含所有出现过的场景。但这种方法的缺点是：但由于图像级的条件下，图像中的主体被人物所遮挡因此识别的准确率可能不高。

因此亟需开发一种克服上述缺陷的基于双流网络的场景分类方法、系统、设备及介质。

发明内容

针对上述问题，本申请实施例提供了一种基于双流网络的场景分类方法、系统、设备及介质，以至少解决提高识别的准确率及分类性能的问题。

本发明提供一种基于双流网络的场景分类方法，其中，用于对短视频图像中的场景进行分类，所述场景分类方法包括：

短视频图像处理步骤：对短视频图像进行抽帧提取获得多个视频帧，根据多个所述视频帧获得具有对应多个所述视频帧的多个第一图片信息的图像数据集；

图片信息处理步骤：对所述图像数据集的每一所述第一图片信息进行遮挡处理获得对应的第二图片信息；

分类识别步骤：通过双流网络对所述第一图片信息及所述第二图片信息进行分类识别获得对应每一所述第一图片信息的图像场景概率；

图像概率处理步骤：根据每一所述第一图片信息的图像场景概率计算获得所述短视频图像的每一场景类别的场景概率。

上述的场景分类方法，其中，所述短视频图像处理步骤包括：将所述短视频图像进行抽帧提取，获取到所述短视频图像的分辨率及多个所述视频帧，根据所述分辨率对所述视频帧进行抽样保存获得所述图像数据集。

上述的场景分类方法，其中，所述分类识别步骤包括：

样本图像数据集获取步骤：对样本短视频图像进行抽帧提取获得多个样本视频帧，根据多个所述样本视频帧获得具有对应多个所述样本视频帧的多个第一样本图片信息的样本图像数据集；

样本图片信息处理步骤：对所述样本图像数据集的每一所述第一样本图片信息进行遮挡处理获得对应的第二样本图片信息；

特征向量提取步骤：通过第一resnet-32网络结构对所述第一样本图片信息进行特征提取获得第一特征向量，通过第二resnet-32网络结构对所述第二样本图片信息进行特征提取获得第二特征向量；

特征向量距离处理步骤：计算所述第一特征向量及所述第二特征向量在欧式空间下的距离后，通过L2正则化缩小所述第一特征向量及所述第二特征向量件的距离获得所述双流网络；

图像场景概率输出步骤：通过所述双流网络对所述第一图片信息及所述第二图片信息进行分类识别获得对应每一所述第一图片信息的第一图像场景概率及对应每一所述第二图片信息的第二图像场景概率；

聚合步骤：对所述第一图像场景概率及所述第二图像场景概率进行聚合获得对应每一所述第一图片信息的图像场景概率。

上述的场景分类方法，其中，所述图像概率处理步骤包括：根据每一场景类别的所有的所述第一图片信息的图像概率进行均值计算获得每一场景类别的场景概率。

本发明还提供一种基于双流网络的场景分类系统，其中，用于对短视频图像中的场景进行分类，所述场景分类系统包括：

短视频图像处理单元，对短视频图像进行抽帧提取获得多个视频帧，根据多个所述视频帧获得具有对应多个所述视频帧的多个第一图片信息的图像数据集；

图片信息处理单元，对所述图像数据集的每一所述第一图片信息进行遮挡处理获得对应的第二图片信息；

分类识别单元，通过双流网络对所述第一图片信息及所述第二图片信息进行分类识别获得对应每一所述第一图片信息的图像场景概率；

图像概率处理单元，根据每一所述第一图片信息的图像场景概率计算获得所述短视频图像的每一场景类别的场景概率。

上述的场景分类系统，其中，所述短视频图像处理单元将所述短视频图像进行抽帧提取，获取到所述短视频图像的分辨率及多个所述视频帧，根据所述分辨率对所述视频帧进行抽样保存获得所述图像数据集。

上述的场景分类系统，其中，所述分类识别单元包括：

样本图像数据集获取模块，对样本短视频图像进行抽帧提取获得多个样本视频帧，根据多个所述样本视频帧获得具有对应多个所述样本视频帧的多个第一样本图片信息的样本图像数据集；

样本图片信息处理模块，对所述样本图像数据集的每一所述第一样本图片信息进行遮挡处理获得对应的第二样本图片信息；

特征向量提取模块，通过第一resnet-32网络结构对所述第一样本图片信息进行特征提取获得第一特征向量，通过第二resnet-32网络结构对所述第二样本图片信息进行特征提取获得第二特征向量；

特征向量距离处理模块，计算所述第一特征向量及所述第二特征向量在欧式空间下的距离后，通过L2正则化缩小所述第一特征向量及所述第二特征向量件的距离获得所述双流网络；

图像场景概率输出模块，通过所述双流网络对所述第一图片信息及所述第二图片信息进行分类识别获得对应每一所述第一图片信息的第一图像场景概率及对应每一所述第二图片信息的第二图像场景概率；

聚合模块，对所述第一图像场景概率及所述第二图像场景概率进行聚合获得对应每一所述第一图片信息的图像场景概率。

上述的场景分类系统，其中，所述图像概率处理单元根据每一场景类别的所有的所述图片信息的图像概率进行均值计算获得每一场景类别的场景概率。

本发明还提供一种设备，包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，其中，所述处理器执行所述计算机程序时实现如上述中任一项所述的场景分类方法。

本发明还提供一种介质，其上存储有计算机程序，其中，该程序被处理器执行时实现如上述中任一项所述的场景分类方法。

本发明相对于现有技术其有益效果在于：

本发明使用基于图像级的抽帧采样分类方法，这种方法可以在短视频的训练数据较少的情况下通过抽帧获得大量的图像数据，并能够兼顾到短视频中出现多个场景的问题，为了提高识别的准确率，本发明结合了双流网络的方法，一个分支学习整体的图像特征，另一个学习图像的非中心区域特征，并使整体的网络学习到的特征与非中心区域学习到的特征相近，使得网络将注意力集中到主体区域后方，即场景的特征，以得到更高的分类性能，同时基于本发明的深度学习技术也提升了计算机视觉能力。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所指出的结构来实现和获得。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1-图3为图片信息示意图；

图4为本发明的场景分类方法的流程图；

图5为图4中步骤S3的分步骤流程图；

图6为本发明的场景分类方法的框架示意图；

图7为本发明的场景分类系统的结构示意图；

图8为本发明的电子设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地说明，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的示意性实施例及其说明用于解释本发明，但并不作为对本发明的限定。另外，在附图及实施方式中所使用相同或类似标号的元件/构件是用来代表相同或类似部分。

关于本文中所使用的“第一”、“第二”、“S1”、“S2”、…等，并非特别指称次序或顺位的意思，也非用以限定本发明，其仅为了区别以相同技术用语描述的元件或操作。

关于本文中所使用的方向用语，例如：上、下、左、右、前或后等，仅是参考附图的方向。因此，使用的方向用语是用来说明并非用来限制本创作。

关于本文中所使用的“包含”、“包括”、“具有”、“含有”等等，均为开放性的用语，即意指包含但不限于。

关于本文中所使用的“及/或”，包括所述事物的任一或全部组合。

关于本文中的“多个”包括“两个”及“两个以上”；关于本文中的“多组”包括“两组”及“两组以上”。

关于本文中所使用的用语“大致”、“约”等，用以修饰任何可以微变化的数量或误差，但这些微变化或误差并不会改变其本质。一般而言，此类用语所修饰的微变化或误差的范围在部分实施例中可为20％，在部分实施例中可为10％，在部分实施例中可为5％或是其他数值。本领域技术人员应当了解，前述提及的数值可依实际需求而调整，并不以此为限。

某些用以描述本申请的用词将于下或在此说明书的别处讨论，以提供本领域技术人员在有关本申请的描述上额外的引导。

短视频场景分类，是获取短视频有效信息的技术方法之一，通过分析大量短视频的发生场景，如居家，户外，健身房等，能够有效的获取一定的规律信息。对于推荐算法而言可以有效提高短视频的推荐质量，可以有效的增加广告视频的推送后的点击率，提高企业的利润。而对于创作者而言，可以更好的把控目前相对火爆的短视频类型，提高视频创作的质量，有更高的概率提高视频的观看数量。

双流网络，双流网络是深度学习网络设计中的一个比较火热的设计方法，双流是指网络有两个分支，每个分支有自己的任务，最后两个分支学习到的内容可以进行聚合，这种双流的思想用于很多的任务中，如孪生神经网络中，双流方法可以用于进行对比学习。如教师-学生模型中，双流网络可以用于知识蒸馏，再比如视频分类网络中双流网络一个分支可以学习RGB的图像信息，另一个网络可以学习光流的运动信息。在短视频场景分类的任务中，本发明也引入了双流网络的思想。

本发明主要是在基于图像级的场景分类的基础上，为解决主体占比太大导致算法的识别效果不好的问题上进行了发明创造，使用了显著区域检测的技术与场景识别的技术相结合，解决了主体占比大的问题，并保证了最后的分类效果，以下结合具体实施例进行说明。

请参照图4-图6，图4为本发明的场景分类方法的流程图；图5为图4中步骤S3的分步骤流程图；图6为本发明的场景分类方法的框架示意图。如图4-图6所示，本发明的场景分类方法用于对短视频图像中的场景进行分类，场景分类方法包括：

短视频图像处理步骤S1：对短视频图像进行抽帧提取获得多个视频帧，根据多个所述视频帧获得具有对应多个所述视频帧的多个第一图片信息的图像数据集。

具体地说，在本步骤中将短视频图像进行抽帧提取，首先获取到这个视频的FPS(帧/秒)，即这个视频一秒钟有多少帧，基于FPS对于视频帧进行抽样保存，每一秒钟的时间长度上保存一帧图像，生成一个针对于这个短视频图像的所有的图像数据集。

图片信息处理步骤S2：对所述图像数据集的每一所述第一图片信息进行遮挡处理获得对应的第二图片信息。

其中，参见图6，在本实施例中，以遮挡所述第一图片信息的人物区域为较佳的实施方式，但本发明并不以此为限。

分类识别步骤S3：通过双流网络对所述第一图片信息及所述第二图片信息进行分类识别获得对应每一所述第一图片信息的图像场景概率。

其中，分类识别步骤S3包括：

样本图像数据集获取步骤S31：对样本短视频图像进行抽帧提取获得多个样本视频帧，根据多个所述样本视频帧获得具有对应多个所述样本视频帧的多个第一样本图片信息的样本图像数据集；

样本图片信息处理步骤S32：对所述样本图像数据集的每一所述第一样本图片信息进行遮挡处理获得对应的第二样本图片信息；

特征向量提取步骤S33：通过第一resnet-32网络结构对所述第一样本图片信息进行特征提取获得第一特征向量，通过第二resnet-32网络结构对所述第二样本图片信息进行特征提取获得第二特征向量；

特征向量距离处理步骤S34：计算所述第一特征向量及所述第二特征向量在欧式空间下的距离后，通过L2正则化缩小所述第一特征向量及所述第二特征向量件的距离获得所述双流网络；

图像场景概率输出步骤S35：通过所述双流网络对所述第一图片信息及所述第二图片信息进行分类识别获得对应每一所述第一图片信息的第一图像场景概率及对应每一所述第二图片信息的第二图像场景概率；

聚合步骤S36：对所述第一图像场景概率及所述第二图像场景概率进行聚合获得对应每一所述第一图片信息的图像场景概率。

具体地说，单一分支的网络结构均使用的是resnet-32的网络结构进行特征的提取，对上路网络而言，其输入是完整的全部的图像，经过一个resnet-32后会生成此图像对应的特征向量，对于下路分支而言，手动进行中间区域的遮挡，并对于此图像输入到另一个不同的resnet-32的网络结构中去进行特征的提取，其依然会生成一个相对应的特征向量。为了使得网络结构能够专注于非人物区域的环境信息，我们让两路特征信息的距离越近越好，当特征越近，说明上路特征也更加关注于非人物区域的信息。对于此对比学习的分类损失我们采用了L2正则的方法，采用下述公式(1)计算两个特征向量在欧式空间下的距离，使其距离最小。

(1)

其中，x、y分别代表第一特征向量及第二特征向量，dist(X，Y)代表第一特征向量与第二特征向量间的距离。

需要说明的是，在本实施例中，本步骤还可包括训练步骤，对resnet-32网络结构进行训练。具体地说，图像的分类识别使用上下两路网络结构的特征相加进行识别。识别网络的使用过程是网络结构接受图像将图像传至上路分支中，并对于图像进行中间区域的擦除后送入下路分支中，对两路的特征进行聚合后返回最后图像属于每一个场景的概率。识别网络的训练过程是使用了所有训练视频的抽帧图像随意打乱后的数据进行训练，为了能够避免训练过程中由于训练的数据其类别不一致的问题，对于每一个类别的所占比重进行了统计，在训练的采样过程中，尽量做到均匀采样。

图像概率处理步骤S4：根据每一所述第一图片信息的图像场景概率计算获得所述短视频图像的每一场景类别的场景概率。

其中，所述图像概率处理步骤S4包括：根据每一场景类别的所有的所述图片信息的图像概率进行均值计算获得每一场景类别的场景概率。

具体地说，在本步骤中，对于任一短视频的所有抽帧的图片信息进行类别的预测后，会对于所有的图像概率进行直接的加和再除以所有图片信息的个数，这就会使得最后的概率上出现频次最高的内容会有最高的概率，且其概率的大小也能反应各个场景出现的频次。

请参照图7，图7为本发明的场景分类系统的结构示意图。如图7所示，本发明的基于双流网络的场景分类系统用于对短视频图像中的场景进行分类，所述场景分类系统包括：

短视频图像处理单元11，对短视频图像进行抽帧提取获得多个视频帧，根据多个所述视频帧获得具有对应多个所述视频帧的多个第一图片信息的图像数据集；

图片信息处理单元12，对所述图像数据集的每一所述第一图片信息进行遮挡处理获得对应的第二图片信息；

分类识别单元13，通过双流网络对所述第一图片信息及所述第二图片信息进行分类识别获得对应每一所述第一图片信息的图像场景概率；

图像概率处理单元14，根据每一所述第一图片信息的图像场景概率计算获得所述短视频图像的每一场景类别的场景概率。

进一步地，所述短视频图像处理单元11将所述短视频图像进行抽帧提取，获取到所述短视频图像的分辨率及多个所述视频帧，根据所述分辨率对所述视频帧进行抽样保存获得所述图像数据集。

再进一步地，所述分类识别单元13包括：

样本图像数据集获取模块131，对样本短视频图像进行抽帧提取获得多个样本视频帧，根据多个所述样本视频帧获得具有对应多个所述样本视频帧的多个第一样本图片信息的样本图像数据集；

样本图片信息处理模块132，对所述样本图像数据集的每一所述第一样本图片信息进行遮挡处理获得对应的第二样本图片信息；

特征向量提取模块133，通过第一resnet-32网络结构对所述第一样本图片信息进行特征提取获得第一特征向量，通过第二resnet-32网络结构对所述第二样本图片信息进行特征提取获得第二特征向量；

特征向量距离处理模块134，计算所述第一特征向量及所述第二特征向量在欧式空间下的距离后，通过L2正则化缩小所述第一特征向量及所述第二特征向量件的距离获得所述双流网络；

图像场景概率输出模块135，通过所述双流网络对所述第一图片信息及所述第二图片信息进行分类识别获得对应每一所述第一图片信息的第一图像场景概率及对应每一所述第二图片信息的第二图像场景概率；

聚合模块136，对所述第一图像场景概率及所述第二图像场景概率进行聚合获得对应每一所述第一图片信息的图像场景概率。

更进一步地，所述图像概率处理单元14根据每一场景类别的所有的所述图片信息的图像概率进行均值计算获得每一场景类别的场景概率。

请参照图8，图8为本发明的设备的结构示意图。如图8所示，本实施例揭示了一种电子设备的一种具体实施方式。电子设备可以包括处理器81以及存储有计算机程序指令的存储器82。

具体地，上述处理器81可以包括中央处理器(CPU)，或者特定集成电路(Application Specific Integrated Circuit，简称为ASIC)，或者可以被配置成实施本申请实施例的一个或多个集成电路。

其中，存储器82可以包括用于数据或指令的大容量存储器。举例来说而非限制，存储器82可包括硬盘驱动器(Hard Disk Drive，简称为HDD)、软盘驱动器、固态驱动器(SolidState Drive，简称为SSD)、闪存、光盘、磁光盘、磁带或通用串行总线(Universal SerialBus，简称为USB)驱动器或者两个或更多个以上这些的组合。在合适的情况下，存储器82可包括可移除或不可移除(或固定)的介质。在合适的情况下，存储器82可在数据处理装置的内部或外部。在特定实施例中，存储器82是非易失性(Non-Volatile)存储器。在特定实施例中，存储器82包括只读存储器(Read-Only Memory，简称为ROM)和随机存取存储器(RandomAccess Memory，简称为RAM)。在合适的情况下，该ROM可以是掩模编程的ROM、可编程ROM(Programmable Read-Only Memory，简称为PROM)、可擦除PROM(Erasable ProgrammableRead-Only Memory，简称为EPROM)、电可擦除PROM(Electrically Erasable ProgrammableRead-Only Memory，简称为EEPROM)、电可改写ROM(Electrically Alterable Read-OnlyMemory，简称为EAROM)或闪存(FLASH)或者两个或更多个以上这些的组合。在合适的情况下，该RAM可以是静态随机存取存储器(Static Random-Access Memory，简称为SRAM)或动态随机存取存储器(Dynamic Random Access Memory，简称为DRAM)，其中，DRAM可以是快速页模式动态随机存取存储器(Fast Page Mode Dynamic Random Access Memory，简称为FPMDRAM)、扩展数据输出动态随机存取存储器(Extended Date Out Dynamic RandomAccess Memory，简称为EDODRAM)、同步动态随机存取内存(Synchronous Dynamic Random-Access Memory，简称SDRAM)等。

存储器82可以用来存储或者缓存需要处理和/或通信使用的各种数据文件，以及处理器81所执行的可能的计算机程序指令。

处理器81通过读取并执行存储器82中存储的计算机程序指令，以实现上述实施例中的任意一种场景分类方法。

在其中一些实施例中，电子设备还可包括通信接口83和总线80。其中，如图8所示，处理器81、存储器82、通信接口83通过总线80连接并完成相互间的通信。

通信接口83用于实现本申请实施例中各模块、装置、单元和/或设备之间的通信。通信端口83还可以实现与其他部件例如：外接设备、图像/数据采集设备、数据库、外部存储以及图像/数据处理工作站等之间进行数据通信。

总线80包括硬件、软件或两者，将电子设备的部件彼此耦接在一起。总线80包括但不限于以下至少之一：数据总线(Data Bus)、地址总线(Address Bus)、控制总线(ControlBus)、扩展总线(Expansion Bus)、局部总线(Local Bus)。举例来说而非限制，总线80可包括图形加速接口(Accelerated Graphics Port，简称为AGP)或其他图形总线、增强工业标准架构(Extended Industry Standard Architecture，简称为EISA)总线、前端总线(FrontSide Bus，简称为FSB)、超传输(Hyper Transport，简称为HT)互连、工业标准架构(Industry Standard Architecture，简称为ISA)总线、无线带宽(InfiniBand)互连、低引脚数(Low Pin Count，简称为LPC)总线、存储器总线、微信道架构(Micro ChannelArchitecture，简称为MCA)总线、外围组件互连(Peripheral Component Interconnect，简称为PCI)总线、PCI-Express(PCI-X)总线、串行高级技术附件(Serial AdvancedTechnology Attachment，简称为SATA)总线、视频电子标准协会局部(Video ElectronicsStandards Association Local Bus，简称为VLB)总线或其他合适的总线或者两个或更多个以上这些的组合。在合适的情况下，总线80可包括一个或多个总线。尽管本申请实施例描述和示出了特定的总线，但本申请考虑任何合适的总线或互连。

另外，结合上述实施例中处理方法，本申请实施例可提供一种计算机可读存储介质来实现。该计算机可读存储介质上存储有计算机程序指令；该计算机程序指令被处理器执行时实现上述实施例中的任意一种场景分类方法。

综上所述，本发明在基于图像级的场景分类的基础上，为解决主体占比太大导致算法的识别效果不好的问题，使用了双流网络的思想并使用特征对比的方法，解决了主体占比大的问题，迫使网络学习到非人物区域的地点场景特征，保证了最后的分类效果。

尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种基于双流网络的场景分类方法，其特征在于，用于对短视频图像中的场景进行分类，所述场景分类方法包括：

2.如权利要求1所述的场景分类方法，其特征在于，所述短视频图像处理步骤包括：将所述短视频图像进行抽帧提取，获取到所述短视频图像的分辨率及多个所述视频帧，根据所述分辨率对所述视频帧进行抽样保存获得所述图像数据集。

3.如权利要求1所述的场景分类方法，其特征在于，所述分类识别步骤包括：

4.如权利要求3所述的场景分类方法，其特征在于，所述图像概率处理步骤包括：根据每一场景类别的所有的所述第一图片信息的图像概率进行均值计算获得每一场景类别的场景概率。

5.一种基于双流网络的场景分类系统，其特征在于，用于对短视频图像中的场景进行分类，所述场景分类系统包括：

6.如权利要求5所述的场景分类系统，其特征在于，所述短视频图像处理单元将所述短视频图像进行抽帧提取，获取到所述短视频图像的分辨率及多个所述视频帧，根据所述分辨率对所述视频帧进行抽样保存获得所述图像数据集。

7.如权利要求6所述的场景分类系统，其特征在于，所述分类识别单元包括：

8.如权利要求7所述的场景分类系统，其特征在于，所述图像概率处理单元根据每一场景类别的所有的所述图片信息的图像概率进行均值计算获得每一场景类别的场景概率。

9.一种设备，包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至4中任一项所述的场景分类方法。

10.一种介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1至4中任一项所述的场景分类方法。