CN113496208A

CN113496208A - 视频的场景分类方法及装置、存储介质、终端

Info

Publication number: CN113496208A
Application number: CN202110551518.4A
Authority: CN
Inventors: 虞钉钉; 胡贤良; 徐清; 于祥雨
Original assignee: Huayuan Computing Technology Shanghai Co ltd
Current assignee: Huayuan Computing Technology Shanghai Co ltd
Priority date: 2021-05-20
Filing date: 2021-05-20
Publication date: 2021-10-12
Anticipated expiration: 2041-05-20
Also published as: CN113496208B

Abstract

一种视频的场景分类方法及装置、存储介质、终端，所述方法包括：获取输入视频，并从所述输入视频中提取图像序列，所述图像序列包括多帧图像，其中，每帧图像具有时间标签；将所述多帧图像输入至场景分类模型，以得到各帧图像的场景分类结果；根据相邻两帧图像之间的场景相似度对所述图像序列进行划分，以得到多个图像子序列，根据每个图像子序列的场景分类结果和该图像子序列的时间信息确定所述输入视频的场景分类结果。通过本发明的方案，可以对视频进行场景分类。

Description

视频的场景分类方法及装置、存储介质、终端

技术领域

本发明涉及计算机视觉技术领域，尤其涉及一种视频的场景分类方法及装置、存储介质、终端。

背景技术

随着互联网的发展，每时每刻都会产生大量的数据，其中就包括了大量的视频数据。随着智能设备(例如，手机、平板电脑等)的广泛应用，用户可以便捷地浏览各种视频。高效地理解视频的内容有利于向用户提供更加快捷便利的视频服务。此外，视频内容的理解在智能监控领域也有较高的应用前景，高效地理解视频的内容有利于提高智能监控系统的工作效率。对视频进行场景分类是理解视频内容的前提，现有技术中缺少能够高效地对视频进行场景分类的方法。

因此，亟需一种能够高效地对视频进行场景分类的方法。

发明内容

本发明解决的技术问题是如何高效地对视频进行场景分类。

为解决上述技术问题，本发明实施例提供一种视频的场景分类方法，所述方法包括：获取输入视频，并从所述输入视频中提取图像序列，所述图像序列包括多帧图像，其中，每帧图像具有时间标签；将所述多帧图像输入至场景分类模型，以得到各帧图像的场景分类结果，其中，所述场景分类模型是采用标注有场景分类结果的样本图像作为训练数据对预设模型进行训练得到的；根据相邻两帧图像之间的场景相似度对所述图像序列进行划分，以得到多个图像子序列，其中，每个图像子序列中相邻两帧图像之间的场景相似度均超过第一预设阈值，相邻两帧图像之间的场景相似度是根据所述场景分类结果计算得到的；根据每个图像子序列的场景分类结果和该图像子序列的时间信息确定所述输入视频的场景，其中，每个图像子序列的场景分类结果是根据该图像子序列中至少一帧图像的场景分类结果确定的，所述时间信息是根据该图像子序列中至少一帧图像的时间标签确定的。

可选的，所述场景分类结果为图像属于各个预设场景的概率，所述相邻两帧图像包括当前帧图像和相邻帧图像，所述相邻两帧图像之间的场景相似度的计算方法包括：根据所述当前帧图像的场景分类结果筛选出所述当前帧图像的第一优选场景，并根据所述相邻帧图像的场景分类结果筛选出所述相邻帧图像的第一优选场景，其中，所述第一优选场景为所述概率大于第二预设阈值的至少一个预设场景，或者，所述第一优选场景为所述概率最大的预设数量个预设场景；对所述当前帧图像的第一优选场景和所述相邻帧图像的第一优选场景进行比对，以确定两者中相同的预设场景，记为第二优选场景；将所述第二优选场景中预设场景的数量作为所述场景相似度。

可选的，根据相邻两帧图像之间的场景相似度对所述图像序列进行划分，以得到多个图像子序列包括：步骤一：令i＝1，k＝1,将第i帧图像划分至第k个图像子序列；步骤二：根据所述第i帧图像的场景分类结果和第i+1帧图像的场景分类结果计算所述第i帧图像和所述第i+1帧图像之间的场景相似度，并判断所述第i帧图像和所述第i+1帧图像之间的场景相似度是否大于所述第一预设阈值，如果所述场景相似度大于所述第一预设阈值，则执行步骤三，否则执行步骤四；步骤三：将所述第i+1帧图像划分至第k个图像子序列，并继续执行步骤五；步骤四：将所述第i+1帧图像划分至第k+1个图像子序列，然后令k＝k+1，并继续执行步骤五；步骤五：判断i是否小于N-1，如果是，则令i＝i+1，并返回至步骤二，直至i等于N-1为止；其中，1≤i≤N-1，1≤k≤N，N为所述多帧图像的数量，i、k、N为正整数，N≥2。

可选的，所述场景分类结果为图像属于各个预设场景的概率，根据第i帧图像的场景分类结果和第i+1帧图像的场景分类结果，计算所述第i帧图像和所述第i+1帧图像之间的场景相似度包括：根据所述第i帧图像的场景分类结果筛选出所述第i帧图像的第一优选场景，并根据所述第i+1帧图像的场景分类结果筛选出所述第i+1帧图像的第一优选场景，其中，所述第一优选场景为所述概率大于第二预设阈值的至少一个预设场景，或者，所述第一优选场景为所述概率最大的预设数量个预设场景；对所述第i帧图像的第一优选场景和所述第i+1帧图像的第一优选场景进行比对，以确定两者中相同的预设场景，记为第二优选场景；将所述第二优选场景中预设场景的数量作为所述第i帧图像和所述第i+1帧图像之间的场景相似度。

可选的，将所述第i+1帧图像划分至第k个图像子序列之前，所述步骤三还包括：将所述第i帧图像的场景分类结果和所述第i+1帧图像的场景分类结果进行合并，以得到第一合并结果，并将所述第一合并结果作为所述第i+1帧图像的场景分类结果。

可选的，所述第一合并结果包括所述第二优选场景中各个预设场景对应的概率，将所述第i帧图像的场景分类结果和所述第i+1帧图像的场景分类结果进行合并，以得到第一合并结果包括：对于所述第二优选场景中的每个预设场景，根据所述第i帧图像属于该预设场景的概率和所述第i+1帧图像属于该预设场景的概率，确定所述第一合并结果中该预设场景对应的概率，以得到所述第一合并结果。

可选的，对于每个图像子序列，该图像子序列的场景分类结果为最后划分至该图像子序列中的图像的场景分类结果，该图像子序列的时间信息为最先划分至该图像子序列中的图像的时间标签和最后划分至该图像子序列中的图像的时间标签确定的时间段。

可选的，根据相邻两帧图像之间的场景相似度对所述图像序列进行划分，以得到多个图像子序列包括：步骤一：令j＝N，m＝1，将第j帧图像划分至第m个图像子序列；步骤二：根据所述第j帧图像的场景分类结果和第j-1帧图像的场景分类结果计算所述第j帧图像和所述第j-1帧图像之间的场景相似度，并判断所述第j帧图像和所述第j-1帧图像之间的场景相似度是否大于所述第一预设阈值，如果所述场景相似度大于所述第一预设阈值，则执行步骤三，否则执行步骤四；步骤三：将所述第j-1帧图像划分至第m个图像子序列，并继续执行步骤五；步骤四：将所述第j-1帧图像划分至第m+1个图像子序列，然后令m＝m+1，并继续执行步骤五；步骤五：判断j是否大于2，如果是，则令j＝j-1，并返回至步骤二，直至j等于2为止；其中，2≤j≤N，1≤m≤N，N为所述多帧图像的数量，j、m、N为正整数，N≥2。

可选的，每帧图像具有偏转角度信息，所述偏转角度信息用于描述采集该帧图像的摄像头相对于预设方向的偏转角度，将所述多帧图像输入至场景分类模型之前，所述方法还包括：对于每帧图像，根据所述偏转角度信息判断每帧图像的偏转角度是否一致，如果不一致，则根据所述偏转角度信息对至少一帧帧图像进行旋转处理，以得到旋转后的图像，所述旋转后的各帧图像的偏转角度一致。

本发明实施例还提供一种视频的场景分类装置，所述装置包括：获取模块，用于获取输入视频，并从所述输入视频中提取图像序列，所述图像序列包括多帧图像，其中，每帧图像具有时间标签；第一场景分类模块，用于将所述多帧图像输入至场景分类模型，以得到各帧图像的场景分类结果，其中，所述场景分类模型是采用标注有场景分类结果的样本图像作为训练数据对预设模型进行训练得到的；划分模块，用于根据相邻两帧图像之间的场景相似度对所述图像序列进行划分，以得到多个图像子序列，其中，每个图像子序列中相邻两帧图像之间的场景相似度均超过第一预设阈值，相邻两帧图像之间的场景相似度是根据所述场景分类结果计算得到的；第二场景分类模块，用于根据每个图像子序列的场景分类结果和该图像子序列的时间信息确定所述输入视频的场景，其中，每个图像子序列的场景分类结果是根据该图像子序列中多帧图像的场景分类结果确定的，所述时间信息是根据该图像子序列中多帧图像的时间标签确定的。

本发明实施例还提供一种存储介质，其上存储有计算机程序，所述计算机程序被处理器运行时，执行上述的视频的场景分类方法的步骤。

本发明实施例还提供一种终端，包括存储器和处理器，所述存储器上存储有可在所述处理器上运行的计算机程序，所述处理器运行所述计算机程序时执行上述的视频的场景分类方法的步骤。

与现有技术相比，本发明实施例的技术方案具有以下有益效果：

在本发明实施例的方案中，根据相邻两帧图像之间的场景相似度对输入视频的图像序列进行划分，得到多个图像子序列。由于划分得到的每个图像子序列中相邻两帧图像之间的场景相似度均超过第一预设阈值，因此可以判断每个图像子序列中的图像的场景是近似的。根据图像子序列中各帧图像的场景分类结果确定图像子序列的场景分类结果，并根据图像子序列中各帧图像的时间标签确定图像子序列的时间信息后，进一步可以根据每个图像子序列的场景分类结果和该图像子序列的时间信息确定输入视频中包含的一个或多个场景，由此可以高效地得到输入视频的场景分类结果。

进一步，本发明实施例的方案中，分别从当前帧图像和相邻帧图像的场景分类结果中筛选出各自的第一优选场景并进行比对，然后将两者中相同的预设场景作为第二优选场景，并将第二优选场景中预设场景的数量作为场景相似度，这种方法可以快速地确定相邻两帧图像之间的场景相似度，有利于提高对视频进行场景分类的效率。

进一步，本发明实施例的方案中，从第一帧图像开始，迭代地计算第i帧图像和第i+1帧图像之间的场景相似度，并根据场景相似度确定将第i+1帧图像划分至第k个图像子序列还是将第i+1帧图像划分至第k+1个图像子序列，由此得到多个图像子序列，这种方案可以快速地将图像序列划分为多个图像子序列，进一步提高了对视频进行场景分类的效率。

进一步，本发明实施例的方案中，将第i+1帧图像划分至第k个图像子序列之前，将所述第i帧图像的场景分类结果和所述第i+1帧图像的场景分类结果进行合并，以得到第一合并结果，并将第一合并结果作为第i+1帧图像的场景分类结果。采用这样的方案时，计算得到的第i帧图像和第i+1帧图像之间的场景相似度不仅可以描述第i+1帧图像和第i帧图像之间的场景相似的程度，还可以描述第i+1帧图像和第i帧图像所在的图像子序列中的其他图像之间的场景相似的程度，可以提高图像子序列划分的准确性，从而可以提高场景分类的准确性。

附图说明

图1是本发明实施例中一种视频的场景分类方法的流程示意图；

图2是本发明实施例中一种场景分类模型的结构示意图；

图3是图1中步骤S103的一种具体实施方式的流程示意图；

图4是图1中步骤S103的另一种具体实施方式的流程示意图；

图5是本发明实施例中一种视频的场景分类装置的结构示意图。

具体实施方式

如背景技术所述，亟需一种能够高效地对视频进行场景分类的方法。

本发明的发明人经过研究发现，现有技术中，通常采用卷积神经网络对图像进行场景分类，但由于视频通常会涉及到许多复杂的场景，现有的方案并不能高效地对视频进行场景分类。

为了解决上述技术问题，本发明实施例提供一种视频的场景分类方法。在本发明实施例的方案中，根据相邻两帧图像之间的场景相似度对输入视频的图像序列进行划分，得到多个图像子序列。由于划分得到的每个图像子序列中相邻两帧图像之间的场景相似度均超过第一预设阈值，因此可以判断每个图像子序列中的图像的场景是近似的。根据图像子序列中各帧图像的场景分类结果确定图像子序列的场景分类结果，并根据图像子序列中各帧图像的时间标签确定图像子序列的时间信息后，进一步可以根据每个图像子序列的场景分类结果和该图像子序列的时间信息确定输入视频中包含的一个或多个场景，由此可以高效地得到输入视频的场景分类结果。

为使本发明的上述目的、特征和有益效果能够更为明显易懂，下面结合附图对本发明的具体实施例做详细的说明。

图1是本发明实施例中一种视频的场景分类方法的流程示意图。所述方法可以由终端执行，所述终端可以是各种恰当的终端，例如，可以是手机、计算机、物联网设备等，但并不限于此。需要说明的是，所述终端可以是拍摄所述视频的终端，也即，终端拍摄到视频后，可以直接对视频进行场景分类，以得到视频的场景。终端也可以从其他设备上获取视频以对视频进行场景分类，但并不限于此。所述视频可以是电影视频，也可以是监控视频、互联网短视频等，本发明实施例对于视频的类型、来源等并不进行限制。

图1示出的视频的场景分类方法可以包括如下步骤：

步骤S101：获取输入视频，并从所述输入视频中提取图像序列，所述图像序列包括多帧图像，其中，每帧图像具有时间标签；

步骤S102：将所述多帧图像输入至场景分类模型，以得到各帧图像的场景分类结果，其中，所述场景分类模型是采用标注有场景分类结果的样本图像作为训练数据对预设模型进行训练得到的；

步骤S103：根据相邻两帧图像之间的场景相似度对所述图像序列进行划分，以得到多个图像子序列，其中，每个图像子序列中相邻两帧图像之间的场景相似度均超过第一预设阈值，相邻两帧图像之间的场景相似度是根据所述场景分类结果计算得到的；

步骤S104：根据每个图像子序列的场景分类结果和该图像子序列的时间信息确定所述输入视频的场景，其中，每个图像子序列的场景分类结果是根据该图像子序列中至少一帧图像的场景分类结果确定的，所述时间信息是根据该图像子序列中至少一帧图像的时间标签确定的。

在步骤S101的具体实施中，所述输入视频可以是存储在终端本地的，也可以是从外部获取的，本发明实施例对此并不进行限制。

进一步地，从输入视频中提取多帧图像，提取出的多帧图像构成图像序列。其中，每帧图像具有时间标签，所述时间标签可以用于指示图像在输入视频中的位置。需要说明的是，从输入视频中提取多帧图像的方法可以是各种现有的恰当的方法，例如，可以按照预设的时间间隔进行提取等等，本发明实施例对此并不进行限制。

进一步地，可以对多帧图像进行预处理。在一个具体的实施例中，可以将多帧图像的尺寸调整为预设尺寸，所述预设尺寸可以是预先设置的，例如，可以是96×96、1920×1080等，但并不限于此。

在另一个具体的实施例中，还可以对多帧图像进行旋转处理。具体而言，每帧图像具有偏转角度信息，所述偏转角度信息用于描述采集该帧图像的摄像头相对于预设方向的偏转角度。进一步可以根据各帧图像的偏转角度信息判断多帧图像的偏转角度是否一致，如果不一致，则可以对至少一帧图像进行旋转处理，以得到旋转后的图像，所述旋转后的各帧图像的偏转角度是一致的。

更具体地，对于每帧图像，可以根据该帧图像的偏转角度信息判断该帧图像的偏转角度是否为零，也即，判断该帧图像是否是在预设方向上拍摄的，如果偏转角度不为零，则根据偏转角度信息对该帧图像进行旋转的处理，以得到旋转后的图像，旋转后的图像的偏转角度均为零。

需要说明的是，本发明实施例对于调整多帧图像的尺寸和对多帧图像进行旋转处理的顺序并不进行限制。

在步骤S102的具体实施中，将多帧图像输入至场景分类模型，以得到各帧图像的场景分类结果。

具体而言，场景分类模型是采用标注有场景分类结果的样本图像作为训练数据对预设模型进行训练得到的。所述场景分类模型可以是预先存储在终端本地的，也可以是从外部获取的。所述场景分类模型可以是各种现有的恰当的模型，例如，可以是残差网络(ResNets)、视觉几何组(Visual Geometry Group，VGG)网络和深度空间网络(InceptionNets)等。在一个非限制性的例子中，所述场景分类模型可以采用特征金字塔网络(Feature Pyramid Network，FPN)的结构。

参考图2，图2是本发明实施例中一种场景分类模型的结构示意图。所述场景分类模型可以包括输入模块10、特征提取模块(图未标出)和分类器13。其中，所述输入模块10用于获取待处理的图像，特征提取模块可以用于计算待处理图像的特征图，分类器13可以用于根据待处理图像的特征图计算待处理图像的场景分类结果。其中，所述待处理的图像可以是本发明实施例中从输入视频中提取到的多帧图像，所述场景分类结果为图像属于各个预设场景的概率。

进一步地，特征提取模块可以包括多个级联的特征提取单元，每个特征提取单元可以包括卷积层，还可以包括池化层等，本发明实施例对于特征提取单元的结构并不进行任何限制。需要说明的是，本发明实施例中，不同的特征提取单元输出的特征图(FeatureMap)的分辨率不同。

在一个具体的实施例中，特征提取模块包括第一特征提取单元11和第二特征提取单元12，但并不限于此。其中，输入模块10的输出与第一特征提取单元11的输入连接，输入模块10的输出还可以与第二特征提取单元12的输入连接，输入模块10的输出还可以与分类器13的输入连接。

进一步地，第一特征提取单元11的输出可以与第二特征单元12的输入连接，第一特征提取单元11的输出还可以与分类器13的输入连接。进一步地，第二特征单元12的输出与分类器13的输入连接。

由上，由于不同的特征提取单元输出的特征图的分辨率不同，且输入模块10的输出和每个特征提取单元的输出均与分类器13的输入连接，因此本发明实施例的方案中的场景分类模型可以将待处理图像在不同分辨率下的信息进行融合，从而得到场景分类结果。采用这种跳层连接结构的场景分类模型可以提高图像的场景分类结果的准确度，从而提高视频的场景分类结果的准确性。

继续参考图1，在步骤S103的具体实施中，可以先计算相邻两帧图像中之间的场景相似度，然后根据相邻两帧图像之间的场景相似度对图像序列进行划分，以得到多个图像子序列，每个图像子序列中相邻两帧图像之间的场景相似度均超过第一预设阈值。其中，所述第一预设阈值可以是预先设置的。

具体而言，可以根据当前帧图像的场景分类结果筛选出当前帧图像的第一优选场景，并根据相邻帧图像的场景分类结果筛选出相邻帧图像的第一优选场景。其中，所述第一优选场景为概率大于第二预设阈值的至少一个预设场景，或者，所述第一优选场景为所述概率最大的预设数量个预设场景。也即，第一优选场景包括至少一个预设场景。

在一个具体的实施例中，可以将当前帧图像的场景分类结果中概率最大的预设数量个预设场景作为当前帧图像的第一优选场景，并将相邻帧图像的场景分类结果中概率最大的预设数量个预设场景作为相邻帧图像的第一优选场景，其中，预设数量可以是预先设置的。例如，预设数量可以是1至10之间的自然数。

在另一个具体的实施例中，可以将当前帧图像的场景分类结果中概率超过第二预设阈值的预设场景作为当前帧图像的第一优选场景，并将相邻帧图像的场景分类结果中概率超过第二预设阈值的预设场景作为相邻帧图像的第一优选场景。其中，第二预设阈值可以是预先设置的0至1之间的任意值。

进一步地，可以将当前帧图像的第一优选场景和相邻帧图像的第一优选场景进行比对，也即，将当前帧图像的第一优选场景中的预设场景和相邻帧图像的第一优选场景中的预设场景进行比对，以确定当前帧图像的第一优选场景和相邻帧图像的第一优选场景中相同的预设场景，并记为第二优选场景，然后将第二优选场景中预设场景的数量作为当前帧图像和相邻帧图像之间的场景相似度。

采用上述的场景相似度的计算方法，计算量小，可以快速地确定相邻两帧图像之间场景相似度，有利于提高对输入视频进行场景分类的效率。

参考图3，图3是步骤S103的一种具体实施方式的流程示意图。图3示出的步骤S103可以包括如下步骤：

步骤S301：令i＝1，k＝1,将第i帧图像划分至第k个图像子序列。

步骤S302：根据所述第i帧图像的场景分类结果和第i+1帧图像的场景分类结果计算所述第i帧图像和所述第i+1帧图像之间的场景相似度。

具体而言，根据所述第i帧图像的场景分类结果筛选出所述第i帧图像的第一优选场景，并根据所述第i+1帧图像的场景分类结果筛选出所述第i+1帧图像的第一优选场景；对所述第i帧图像的第一优选场景和所述第i+1帧图像的第一优选场景进行比对，以确定两者中相同的预设场景，记为第二优选场景；将所述第二优选场景中预设场景的数量作为所述第i帧图像和所述第i+1帧图像之间的场景相似度。关于计算第i帧图像和第i+1帧图像之间的场景相似度的更多内容可以参照上文关于计算相邻两帧图像之间的场景相似度的内容，在此不再赘述。

步骤S303：判断第i帧图像和第i+1帧图像之间的场景相似度是否大于所述第一预设阈值。如果场景相似度大于所述第一预设阈值，则执行步骤S304，否则执行步骤S305。

步骤S304：将所述第i+1帧图像划分至第k个图像子序列，并继续执行步骤S306。也即，如果第i帧图像和第i+1帧图像之间的场景相似度大于第一预设阈值，则将第i+1帧图像划分至第i帧图像所在的图像子序列。

在一个具体的实施例中，如果步骤S303中判断场景相似度大于第一预设阈值，在将第i+1帧图像划分至第k个图像子序列之前，还可以将第i帧图像的场景分类结果和第i+1帧图像的场景分类结果进行合并，并将合并后得到的第一合并结果作为第i+1帧图像的场景分类结果。

具体而言，所述第一合并结果包括第二优选场景中各个预设场景对应的概率，对于第二优选场景中的每个预设场景，根据所述第i帧图像属于该预设场景的概率和所述第i+1帧图像属于该预设场景的概率，确定所述第一合并结果中该预设场景对应的概率，以得到所述第一合并结果。

更具体地，对于第二优选场景中的每个预设场景，计算第i帧图像属于该预设场景的概率与第i+1帧图像属于该预设场景的概率的平均值，并将所述平均值作为第一合并结果中该预设场景对应的概率。

由上，采用这样的方案时计算得到的第i帧图像和第i+1帧图像之间的场景相似度不仅可以描述第i+1帧图像和第i帧图像之间的场景相似的程度，还可以描述第i+1帧图像和第i帧图像所在的图像子序列中的其他图像之间的场景相似的程度，可以提高图像子序列划分的准确性，从而可以提高场景分类的准确性。

需要说明的是，如果在执行步骤S304时将第一合并结果作为第i+1帧图像的场景分类结果，则下一次执行步骤S302时，可以无需再确定第i帧图像的第一优选场景，也即，如果将第一合并结果作为第i+1帧图像的场景分类结果，则令i＝i+1之后，可以无需再确定第i帧图像的第一优选场景。具体而言，可以根据所述第i+1帧图像的场景分类结果筛选出所述第i+1帧图像的第一优选场景，将第i帧图像的场景分类结果与第i+1帧图像的第一优选场景进行比对，并将二者中相同的预设场景作为第二预设场景，从而得到第i帧图像和第i+1帧图像之间的场景相似度。

步骤S305：将所述第i+1帧图像划分至第k+1个图像子序列，然后令k＝k+1，并继续执行步骤S306。也即，如果第i帧图像和第i+1帧图像之间的场景相似度不超过第一预设阈值，则第i+1帧图像和第i帧图像不属于同一个图像子序列，并将第i+1帧图像划分至下一个图像子序列。

步骤S306：判断i是否小于N-1。如果是，则执行步骤S307，否则可以结束对多帧图像的划分，并得到多个图像子序列。

步骤S307：令i＝i+1，并返回至步骤S302。

其中，1≤i≤N-1，1≤k≤N，N为所述多帧图像的数量，i、k、N为正整数，N≥2。

参考图4，图4是步骤S103的另一种具体实施方式的流程示意图。图4示出的步骤S103可以包括如下步骤：

步骤S401：令j＝N，m＝1，将第j帧图像划分至第m个图像子序列；

步骤S402：根据所述第j帧图像的场景分类结果和第j-1帧图像的场景分类结果计算所述第j帧图像和所述第j-1帧图像之间的场景相似度；

步骤S403：判断所述第j帧图像和所述第j-1帧图像之间的场景相似度是否大于所述第一预设阈值；

步骤S404：将所述第j-1帧图像划分至第m个图像子序列，并继续执行步骤S406；

步骤S405：将所述第j-1帧图像划分至第m+1个图像子序列，然后令m＝m+1，并继续执行步骤S406；

步骤S406：判断j是否大于2。如果是，如果是，则执行步骤S407，否则可以结束对多帧图像的划分，并得到多个图像子序列。

步骤S407：令j＝j-1，并返回至步骤S402。

其中，2≤j≤N，1≤m≤N，N为所述多帧图像的数量，j、m、N为正整数，N≥2。

关于图4所示的步骤S103的更多内容可以参照上文所述的图3示出的步骤S103的具体内容，在此不再赘述。

继续参考图1，在步骤S104的具体实施中，对于每个图像子序列，可以根据该图像子序列中的图像的场景分类结果确定该图像子序列的场景分类结果。

在一个具体的实施例中，可以将图像子序列中各帧图像的场景分类结果进行合并，以得到第二合并结果，并将所述第二合并结果作为该图像子序列的场景分类结果。

具体而言，对于每个图像子序列，分别根据该图像子序列中各帧图像的场景分类结果确定筛选出各帧图像的第一优选场景，并将各帧图像的第一优选场景进行比对，并确定各帧图像的第一优选场景中相同的预设场景，记为第三优选场景。进一步地，第二合并结果包括第三优选场景中各个预设场景对应的概率，对于第三优选场景中的每个预设场景，根据各帧图像属于该预设场景的概率确定第二合并结果中该预设场景对应的概率，例如，可以将各帧图像属于该预设场景的概率的平均值作为第二合并结果中该预设场景对应的概率，从而可以得到第二合并结果。

在另一个具体的实施例中，将所述第i+1帧图像划分至第k个图像子序列之前，将第一合并结果作为第i+1帧图像的场景分类结果，则对于每个图像子序列，该图像子序列的场景分类结果为最后划分至该图像子序列中的图像的场景分类结果。

进一步地，可以根据各个图像子序列的场景分类结果确定输入视频的场景分类结果。

具体而言，对于每个图像子序列，将最先划分至该图像子序列中的图像的时间标签和最后划分至该图像子序列中的图像的时间标签确定的时间段作为该图像子序列的时间信息。由此，可以根据图像子序列的时间信息将输入视频划分为多个视频片段，视频片段与图像子序列一一对应。对于每个视频片段，可以将对应的图像子序列的场景分类结果中概率最高的预设场景作为该视频片段的场景。由此，采用本发明实施例提供的方案，可以确定输入视频中一个或多个场景。

需要说明的是，本发明实施例中的视频的场景分类方法可以适用于各种视频，尤其适用于电影视频的场景分类。在得到该输入视频的场景后，可以利用相应的场景信息对该输入视频进行后续处理，例如分类、自动打标签等。

参照图5，图5是本发明实施例中一种视频的场景分类装置，所述装置可以包括：获取模块51、第一场景分类模块52、划分模块53和第二场景分类模块54。

其中，获取模块51可以用于获取输入视频，并从所述输入视频中提取图像序列，所述图像序列包括多帧图像，其中，每帧图像具有时间标签；第一场景分类模块52可以用于将所述多帧图像输入至场景分类模型，以得到各帧图像的场景分类结果，其中，所述场景分类模型是采用标注有场景分类结果的样本图像作为训练数据对预设模型进行训练得到的；划分模块53可以用于根据相邻两帧图像之间的场景相似度对所述图像序列进行划分，以得到多个图像子序列，其中，每个图像子序列中相邻两帧图像之间的场景相似度均超过第一预设阈值，相邻两帧图像之间的场景相似度是根据所述场景分类结果计算得到的；第二场景分类模块54可以用于根据每个图像子序列的场景分类结果和该图像子序列的时间信息确定所述输入视频的场景分类结果，其中，每个图像子序列的场景分类结果是根据该图像子序列中多帧图像的场景分类结果确定的，所述时间信息是根据该图像子序列中多帧图像的时间标签确定的。

在具体实施中，上述视频的场景分类装置可以对应于终端内具有数据处理功能的芯片；或者对应于终端中具有数据处理功能的芯片模组，或者对应于终端。

关于图5示出的视频的场景分类装置的工作原理、工作方式和有益效果等更多内容，可以参照上文关于图1至图4的相关描述，在此不再赘述。

本发明实施例还提供一种存储介质，其上存储有计算机程序，所述计算机程序被处理器运行时，执行上述的视频的场景分类方法的步骤。所述存储介质可以包括ROM、RAM、磁盘或光盘等。所述存储介质还可以包括非挥发性存储器(non-volatile)或者非瞬态(non-transitory)存储器等。

本发明实施例还提供一种终端，包括存储器和处理器，所述存储器上存储有可在所述处理器上运行的计算机程序，所述处理器运行所述计算机程序时执行上述的视频的场景分类方法的步骤。所述终端包括但不限于手机、计算机、平板电脑等终端设备。

应理解，本申请实施例中，所述处理器可以为中央处理单元(central processingunit，简称CPU)，该处理器还可以是其他通用处理器、数字信号处理器(digital signalprocessor，简称DSP)、专用集成电路(application specific integrated circuit，简称ASIC)、现成可编程门阵列(field programmable gate array，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

还应理解，本申请实施例中的存储器可以是易失性存储器或非易失性存储器，或可包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(read-only memory，简称ROM)、可编程只读存储器(programmable ROM，简称PROM)、可擦除可编程只读存储器(erasable PROM，简称EPROM)、电可擦除可编程只读存储器(electricallyEPROM，简称EEPROM)或闪存。易失性存储器可以是随机存取存储器(random accessmemory，简称RAM)，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的随机存取存储器(random access memory，简称RAM)可用，例如静态随机存取存储器(staticRAM，简称SRAM)、动态随机存取存储器(DRAM)、同步动态随机存取存储器(synchronousDRAM，简称SDRAM)、双倍数据速率同步动态随机存取存储器(double data rate SDRAM，简称DDR SDRAM)、增强型同步动态随机存取存储器(enhanced SDRAM，简称ESDRAM)、同步连接动态随机存取存储器(synchlink DRAM，简称SLDRAM)和直接内存总线随机存取存储器(direct rambus RAM，简称DR RAM)。

上述实施例，可以全部或部分地通过软件、硬件、固件或其他任意组合来实现。当使用软件实现时，上述实施例可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令或计算机程序。在计算机上加载或执行所述计算机指令或计算机程序时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以为通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机程序可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机程序可以从一个网站站点、计算机、服务器或数据中心通过有线或无线方式向另一个网站站点、计算机、服务器或数据中心进行传输。

在本申请所提供的几个实施例中，应该理解到，所揭露的方法、装置和系统，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的；例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式；例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理包括，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。例如，对于应用于或集成于芯片的各个装置、产品，其包含的各个模块/单元可以都采用电路等硬件的方式实现，或者，至少部分模块/单元可以采用软件程序的方式实现，该软件程序运行于芯片内部集成的处理器，剩余的(如果有)部分模块/单元可以采用电路等硬件方式实现；对于应用于或集成于芯片模组的各个装置、产品，其包含的各个模块/单元可以都采用电路等硬件的方式实现，不同的模块/单元可以位于芯片模组的同一组件(例如芯片、电路模块等)或者不同组件中，或者，至少部分模块/单元可以采用软件程序的方式实现，该软件程序运行于芯片模组内部集成的处理器，剩余的(如果有)部分模块/单元可以采用电路等硬件方式实现；对于应用于或集成于终端的各个装置、产品，其包含的各个模块/单元可以都采用电路等硬件的方式实现，不同的模块/单元可以位于终端内同一组件(例如，芯片、电路模块等)或者不同组件中，或者，至少部分模块/单元可以采用软件程序的方式实现，该软件程序运行于终端内部集成的处理器，剩余的(如果有)部分模块/单元可以采用电路等硬件方式实现。

应理解，本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，表示前后关联对象是一种“或”的关系。

本申请实施例中出现的“多个”是指两个或两个以上。

本申请实施例中出现的第一、第二等描述，仅作示意与区分描述对象之用，没有次序之分，也不表示本申请实施例中对设备个数的特别限定，不能构成对本申请实施例的任何限制。

虽然本发明披露如上，但本发明并非限定于此。任何本领域技术人员，在不脱离本发明的精神和范围内，均可作各种更动与修改，因此本发明的保护范围应当以权利要求所限定的范围为准。

Claims

1.一种视频的场景分类方法，其特征在于，所述方法包括：

获取输入视频，并从所述输入视频中提取图像序列，所述图像序列包括多帧图像，其中，每帧图像具有时间标签；

将所述多帧图像输入至场景分类模型，以得到各帧图像的场景分类结果，其中，所述场景分类模型是采用标注有场景分类结果的样本图像作为训练数据对预设模型进行训练得到的；

根据相邻两帧图像之间的场景相似度对所述图像序列进行划分，以得到多个图像子序列，其中，每个图像子序列中相邻两帧图像之间的场景相似度均超过第一预设阈值，相邻两帧图像之间的场景相似度是根据所述场景分类结果计算得到的；

根据每个图像子序列的场景分类结果和该图像子序列的时间信息确定所述输入视频的场景，其中，每个图像子序列的场景分类结果是根据该图像子序列中至少一帧图像的场景分类结果确定的，所述时间信息是根据该图像子序列中至少一帧图像的时间标签确定的。

2.根据权利要求1所述的视频的场景分类方法，其特征在于，所述场景分类结果为图像属于各个预设场景的概率，所述相邻两帧图像包括当前帧图像和相邻帧图像，所述相邻两帧图像之间的场景相似度的计算方法包括：

根据所述当前帧图像的场景分类结果筛选出所述当前帧图像的第一优选场景，并根据所述相邻帧图像的场景分类结果筛选出所述相邻帧图像的第一优选场景，其中，所述第一优选场景为所述概率大于第二预设阈值的至少一个预设场景，或者，所述第一优选场景为所述概率最大的预设数量个预设场景；

对所述当前帧图像的第一优选场景和所述相邻帧图像的第一优选场景进行比对，以确定两者中相同的预设场景，记为第二优选场景；

将所述第二优选场景中预设场景的数量作为所述场景相似度。

3.根据权利要求1所述的视频的场景分类方法，其特征在于，根据相邻两帧图像之间的场景相似度对所述图像序列进行划分，以得到多个图像子序列包括：

步骤一：令i＝1，k＝1,将第i帧图像划分至第k个图像子序列；

步骤二：根据所述第i帧图像的场景分类结果和第i+1帧图像的场景分类结果计算所述第i帧图像和所述第i+1帧图像之间的场景相似度，并判断所述第i帧图像和所述第i+1帧图像之间的场景相似度是否大于所述第一预设阈值，如果所述场景相似度大于所述第一预设阈值，则执行步骤三，否则执行步骤四；

步骤三：将所述第i+1帧图像划分至第k个图像子序列，并继续执行步骤五；

步骤四：将所述第i+1帧图像划分至第k+1个图像子序列，然后令k＝k+1，并继续执行步骤五；

步骤五：判断i是否小于N-1，如果是，则令i＝i+1，并返回至步骤二，直至i等于N-1为止；

4.根据权利要求3所述的视频的场景分类方法，其特征在于，所述场景分类结果为图像属于各个预设场景的概率，根据第i帧图像的场景分类结果和第i+1帧图像的场景分类结果，计算所述第i帧图像和所述第i+1帧图像之间的场景相似度包括：

根据所述第i帧图像的场景分类结果筛选出所述第i帧图像的第一优选场景，并根据所述第i+1帧图像的场景分类结果筛选出所述第i+1帧图像的第一优选场景，其中，所述第一优选场景为所述概率大于第二预设阈值的至少一个预设场景，或者，所述第一优选场景为所述概率最大的预设数量个预设场景；

对所述第i帧图像的第一优选场景和所述第i+1帧图像的第一优选场景进行比对，以确定两者中相同的预设场景，记为第二优选场景；

将所述第二优选场景中预设场景的数量作为所述第i帧图像和所述第i+1帧图像之间的场景相似度。

5.根据权利要求4所述的视频的场景分类方法，其特征在于，将所述第i+1帧图像划分至第k个图像子序列之前，所述步骤三还包括：

将所述第i帧图像的场景分类结果和所述第i+1帧图像的场景分类结果进行合并，以得到第一合并结果，并将所述第一合并结果作为所述第i+1帧图像的场景分类结果。

6.根据权利要求5所述的视频的场景分类方法，其特征在于，所述第一合并结果包括所述第二优选场景中各个预设场景对应的概率，将所述第i帧图像的场景分类结果和所述第i+1帧图像的场景分类结果进行合并，以得到第一合并结果包括：

对于所述第二优选场景中的每个预设场景，根据所述第i帧图像属于该预设场景的概率和所述第i+1帧图像属于该预设场景的概率，确定所述第一合并结果中该预设场景对应的概率，以得到所述第一合并结果。

7.根据权利要求5所述的视频的场景分类方法，其特征在于，对于每个图像子序列，该图像子序列的场景分类结果为最后划分至该图像子序列中的图像的场景分类结果，该图像子序列的时间信息为最先划分至该图像子序列中的图像的时间标签和最后划分至该图像子序列中的图像的时间标签确定的时间段。

8.根据权利要求1所述的视频的场景分类方法，其特征在于，根据相邻两帧图像之间的场景相似度对所述图像序列进行划分，以得到多个图像子序列包括：

步骤一：令j＝N，m＝1，将第j帧图像划分至第m个图像子序列；

步骤二：根据所述第j帧图像的场景分类结果和第j-1帧图像的场景分类结果计算所述第j帧图像和所述第j-1帧图像之间的场景相似度，并判断所述第j帧图像和所述第j-1帧图像之间的场景相似度是否大于所述第一预设阈值，如果所述场景相似度大于所述第一预设阈值，则执行步骤三，否则执行步骤四；

步骤三：将所述第j-1帧图像划分至第m个图像子序列，并继续执行步骤五；

步骤四：将所述第j-1帧图像划分至第m+1个图像子序列，然后令m＝m+1，并继续执行步骤五；

步骤五：判断j是否大于2，如果是，则令j＝j-1，并返回至步骤二，直至j等于2为止；

9.根据权利要求1所述的视频的场景分类方法，其特征在于，每帧图像具有偏转角度信息，所述偏转角度信息用于描述采集该帧图像的摄像头相对于预设方向的偏转角度，将所述多帧图像输入至场景分类模型之前，所述方法还包括：

根据多帧图像的偏转角度信息判断多帧图像的偏转角度是否一致，如果不一致，则根据所述偏转角度信息对至少一帧帧图像进行旋转处理，以得到旋转后的图像，所述旋转后的各帧图像的偏转角度一致。

10.一种视频的场景分类装置，其特征在于，所述装置包括：

获取模块，用于获取输入视频，并从所述输入视频中提取图像序列，所述图像序列包括多帧图像，其中，每帧图像具有时间标签；

第一场景分类模块，用于将所述多帧图像输入至场景分类模型，以得到各帧图像的场景分类结果，其中，所述场景分类模型是采用标注有场景分类结果的样本图像作为训练数据对预设模型进行训练得到的；

划分模块，用于根据相邻两帧图像之间的场景相似度对所述图像序列进行划分，以得到多个图像子序列，其中，每个图像子序列中相邻两帧图像之间的场景相似度均超过第一预设阈值，相邻两帧图像之间的场景相似度是根据所述场景分类结果计算得到的；

第二场景分类模块，用于根据每个图像子序列的场景分类结果和该图像子序列的时间信息确定所述输入视频的场景，其中，每个图像子序列的场景分类结果是根据该图像子序列中多帧图像的场景分类结果确定的，所述时间信息是根据该图像子序列中多帧图像的时间标签确定的。

11.一种存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器运行时，执行权利要求1至9中任一项所述的视频的场景分类方法的步骤。

12.一种终端，包括存储器和处理器，所述存储器上存储有可在所述处理器上运行的计算机程序，其特征在于，所述处理器运行所述计算机程序时执行权利要求1至9中任一项所述的视频的场景分类方法的步骤。