CN114332716A

CN114332716A - 视频中场景的聚类方法、装置、电子设备及存储介质

Info

Publication number: CN114332716A
Application number: CN202111653928.6A
Authority: CN
Inventors: 毕泊
Original assignee: Beijing IQIYI Science and Technology Co Ltd
Current assignee: Beijing IQIYI Science and Technology Co Ltd
Priority date: 2021-12-30
Filing date: 2021-12-30
Publication date: 2022-04-12

Abstract

本发明实施例提供了一种视频中场景的聚类方法、装置、电子设备及存储介质，该方法包括：获取视频中的多帧图像；将所述多帧图像输入到预训练的第一深度学习模型中进行分类识别，获得所述多帧图像中的景点图像；将所述景点图像输入到预训练的第二深度学习模型中进行特征提取，获得景点聚类特征数据集；基于所述景点聚类特征数据集进行聚类分析获取聚类结果。本发明实施例提供的一种视频中场景的聚类方法，通过获取视频中的多帧图像后，将图像输入深度学习模型中进行处理从而获得聚类结果，根据聚类结果可以准确将同一景点图像中不同角度或者露出程度不同的两张景点图像识别为同一景点，实现了通过获取聚类结果来达到提高识别场景图片准确率的效果。

Description

视频中场景的聚类方法、装置、电子设备及存储介质

技术领域

本发明涉及图像识别技术，尤其涉及一种视频中场景的聚类方法、装置、电子设备及存储介质。

背景技术

影视剧的拍摄过程中通常会使用知名的景点或者是网红地点，从而提高整部剧的拍摄效果。因此，观众在观看过程中也会对其中的一些取景地产生想了解具体位置信息的需求。

但是目前对于场景识别存在的误差性较大，选择个别代表性较高的景点图像进行识别，会出现识别在视频播放过程中可以获取的识别图像过少，影响识别过程。另外在识别模型获取景点图像时，一般无法准确获取该景点所有角度的图像信息，导致在识别过程中无法准确识别该景点或者出现识别错误的情况，在场景识别中存在识别精度较低的问题。

发明内容

本发明实施例提供的一种视频中场景的聚类方法、装置、电子设备及存储介质，解决了现有技术中场景识别中识别精度较低的问题。

第一方面，本发明实施例提供了一种视频中场景的聚类方法，该方法包括：

获取视频中的多帧图像；

将所述多帧图像输入到预训练的第一深度学习模型中进行分类识别，获得所述多帧图像中的景点图像；

将所述景点图像输入到预训练的第二深度学习模型中进行特征提取，获得景点聚类特征数据集；

基于所述景点聚类特征数据集进行聚类分析获取聚类结果。

可选的，所述将所述多帧图像输入到预训练的第一深度学习模型中进行分类识别，获得所述多帧图像中的景点图像之前还包括：

获取创建的分类模型；

通过预设的训练样本对所述分类模型进行训练，所述训练样本包括第一景点样本图像和第一非景点样本图像；

将训练好的分类模型确定为所述第一深度学习模型。

可选的，所述将所述景点图像输入到预训练的第二深度学习模型中进行特征提取，获得景点聚类特征数据集之前还包括：

获取创建的特征提取模型；

通过样本图像对所述特征提取模型进行训练，所述样本图像基于第二景点样本图像进行图像处理后生成；

将训练好的特征提取模型确定为所述第二深度学习模型。

可选的，所述通过样本图像对所述特征提取模型进行训练，所述样本图像基于所述第二景点样本图像进行图像处理后生成包括：

将样本图像输入到所述特征提取模型中提取样本特征；

基于所述样本特征生成地标特征库，所述地标特征库包括多个地标子类簇；

根据所述地标特征库与分类函数对所述特征提取模型进行训练获取残差网络参数，所述分类函数基于所述地标特征库生成；

基于所述残差网络对所述特征提取模型进行更新。

可选的，所述基于所述景点聚类特征数据集进行聚类分析获取聚类结果包括：

基于所述景点聚类特征数据集获取多个景点聚类簇；

对所述多个景点聚类簇中任意两个景点聚类簇进行聚类分析获取聚类结果。

可选的，所述对所述多个景点聚类簇中任意两个景点聚类簇进行聚类分析获取聚类结果包括：

对所述多个景点聚类簇中任意两个景点聚类簇进行相关性计算，获取相关性数值；

若所述相关性数值小于或等于预设阈值，则将所述两个景点聚类簇合并为新的景点聚类簇；

重复所述任意两个景点聚类簇进行相关性计算，直到所述任意两个景点聚类簇的相关性数值均大于所述预设阈值，从而生成聚类结果。

第二方面，本发明实施例还提供了一种视频中场景的聚类装置，包括：

获取模块，用于获取视频中的多帧图像；

识别模块，用于将所述多帧图像输入到预训练的第一深度学习模型中进行分类识别，获得所述多帧图像中的景点图像；

提取模块，用于将所述景点图像输入到预训练的第二深度学习模型中进行特征提取，获得景点聚类特征数据集；

分析模块，用于基于所述景点聚类特征数据集进行聚类分析获取聚类结果。

可选的，还包括：

第一创建模块，用于获取创建的分类模型；

第一训练模块，用于通过预设的训练样本对所述分类模型进行训练，所述训练样本包括第一景点样本图像和第一非景点样本图像；

第一确定模块，用于将训练好的分类模型确定为所述第一深度学习模型。

第三方面，本发明实施例还提供了一种电子设备，包括处理器，存储器及存储在所述存储器上并可在所述处理器上运行的程序或指令，所述程序或指令被所述处理器执行时实现如上述任一项所述的视频中场景的聚类方法的步骤。

第四方面，本发明实施例还提供了一种计算机可读存储介质，所述可读存储介质上存储有程序或指令，所述程序或指令被处理器执行时实现如上述任一项所述的视频中场景的聚类方法的步骤。

附图说明

图1为本发明实施例中一种视频中场景的聚类方法的方法流程图；

图2为本发明实施例中一种视频中场景的聚类装置的结构示意图；

图3为本发明实施例中一种电子设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获取的所有其他实施例，都属于本申请保护的范围。

在更加详细地讨论示例性实施例之前应当提到的是，一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各步骤描述成顺序的处理，但是其中的许多步骤可以被并行地、并发地或者同时实施。此外，各步骤的顺序可以被重新安排。当其操作完成时处理可以被终止，但是还可以具有未包括在附图中的附加步骤。处理可以对应于方法、函数、规程、子例程、子程序等等。

此外，术语“第一”、“第二”等可在本文中用于描述各种方向、动作、步骤或元件等，但这些方向、动作、步骤或元件不受这些术语限制。这些术语仅用于将第一个方向、动作、步骤或元件与另一个方向、动作、步骤或元件区分。举例来说，在不脱离本申请的范围的情况下，可以将第一速度差值为第二速度差值，且类似地，可将第二速度差值称为第一速度差值。第一速度差值和第二速度差值两者都是速度差值，但其不是同一速度差值。术语“第一”、“第二”等而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

图1为本实施例中一种视频中场景的聚类方法的方法流程图，本实施例提供的一种视频中场景的聚类方法包括：

步骤110、获取视频中的多帧图像。

在本实施例中，视频为用户观看过程中的视频，具体地，该视频中包括了多种景点图像和非景点图像，其中，景点图像包含了人文景观或自然风景等，例如天安门的拍摄图像。对于景点图像和非景点图像的区分，主要是根据该图像中占比较大的特征属于景点或者非景点，示例性的，当图像中既包括景点又包括行人时，若此时行人占比较小，则将该图像识别为景点图像。

通过对视频进行处理后，获取视频中的多帧图像，该多帧图像既包括了景点图像也包括了非景点图像。

步骤120、将所述多帧图像输入到预训练的第一深度学习模型中进行分类识别，获得所述多帧图像中的景点图像。

在本实施例中，预训练的第一深度学习模型为训练好的卷积网络图像，采用预先训练好的卷积网络图像分类模型对图像进行分类识别，具体地，根据分类结果可以获取到多帧图像中哪些属于景点图像，哪些属于非景点图像，其中，非景点图像通常为镜头特写，例如主体可能使人或者物的图像。在本实施例中，景点分类方法可以为任何常见的图像分类方法，包括但不限于基于深度学习算法的方法。示例性的，通过预先训练好的卷积网络图像分类模型对图像进行分类，根据分类结果识别出该图像是否为景点图像。

步骤130、将所述景点图像输入到预训练的第二深度学习模型中进行特征提取，获得景点聚类特征数据集。

在本实施例中，预训练的第二深度学习模型为训练好的卷积神经网络，将步骤120中识别出来的景点图像输入到训练好的卷积神经网络中对景点图像进行特征提取，从而获取到景点聚类特征数据集，具体地，该景点聚类特征数据集包括了相似程度较高的同一景点图像，例如同一建筑或者风景。景点聚类特征数据集代表了相同景点的特征数据，具体地，可以通过特征之间的相似度作为衡量景点的相似度。示例性的，当获取到任意一张景点的拍摄图像后，如提取到的特征与该景点聚类特征数据集中的特征相似程度小于某个预设阈值时，即可认为该任意一张景点的拍摄图像属于与景点聚类特征数据集对应的景点为同一景点。

步骤140、基于所述景点聚类特征数据集进行聚类分析获取聚类结果。

在本实施例中，通过采用基于层级聚类的场景聚类方法对景点聚类特征数据集进行聚类分析从而获取聚类结果，其中层级聚类是一种常用的聚类方法，以自底向上的方式，根据一定的条件分层合并紧密的集群。具体地，该聚类结果可以将相似的场景进行合并，从而实现时间上的连接，例如同一建筑在时间跨度较大的情况下可能出现存在特征变化的情况，通过进行聚类分析可以识别出在不同时间跨度下，该同一建筑两张图片之间的相似程度较高，即可以判别出该两张图片为同一建筑，提升视频识别结果的时域一致性，提升用户体验。

本发明实施例提供的一种视频中场景的聚类方法，通过获取视频中的多帧图像后，将图像输入深度学习模型中进行处理从而获得聚类结果，根据聚类结果可以准确将同一景点图像中不同角度或者露出程度不同的两张景点图像识别为同一景点，实现了通过获取聚类结果来达到提高识别场景图片准确率的效果。

在另外一个实施例中，可选的，所述将所述多帧图像输入到预训练的第一深度学习模型中进行分类识别，获得所述多帧图像中的景点图像之前还包括：

获取创建的分类模型；

将训练好的分类模型确定为所述第一深度学习模型。

在本实施例中，首先获取建立好的分类模型，该分类模型可以为符合图像分类的深度学习模型，在本实施例中不做具体限定，可以根据实际情况选择符合的模型。预设的训练样本为大量的样本图像，其中该样本图像包括了大量的第一景点样本图像和第一非景点样本图像，将大量的第一景点样本图像和第一非景点样本图像输入到分类模型中进行训练从而获取对该分类模型的各项参数进行不断调整，最后该分类模型训练好后可直接识别出视频中任意一帧图像为景点图像还是非景点图像。

获取创建的特征提取模型；

将训练好的特征提取模型确定为所述第二深度学习模型。

在本实施例中，首先建立好特征提取模型，该特征提取模型可以为深度残差网络，具体地，使用在公开数据集训练好的深度残差网络对目标图像提取特征后进行聚类处理。大量的样本图像可以基于从公开地标数据库中获取，具体地，可以在公开地标数据库基础上进行数据增广，示例性的，对输入图像进行随机的裁剪或者抠图，故意制造信息缺失，以这种方式来促使模型能够更多地从全局信息中补全缺失的部分，从而然模型避免过度地聚焦于局部信息，提高模型的全局信息提取能力和泛化性，使得模型可以在遮挡、人物干扰和多角度变换下依然可以正确识别同一个样本。通过样本图像对所述特征提取模型进行训练，不断更新该模型中的参数，最终获得训练好的特征提取模型并将该特征提取模型确定为所述第二深度学习模型。

将样本图像输入到所述特征提取模型中提取样本特征；

基于所述残差网络对所述特征提取模型进行更新。

在本实施例中，使用在公开数据集训练好的深度残差网络对目标图像提取特征；并对所有训练数据对应特征进行DBSCAN算法聚类；按照聚类的标签，每个类别代表一个地标子类簇，每个地表子类簇对应了一个景点，例如某一大楼或者风景，在该地标子类簇内通过特征提取模型，在所有特征中挑选出代表性的特征存入字典，从而建立地标特征库，基于地标特征库字典标签通过分类函数来对网络进行训练，从而更新残差网络参数，其中分类函数可以使用softmax分类函数。最后，在固定训练好的参数下，网络输入目标区域图像并得到地标聚类特征。示例性的，训练的数据集为谷歌开放地标识别系统Google-Landmarks-v2，其中有20W处地标和400W个图像实例，训练阶段一开始使用可视化数据库ImageNet预训练的模型参数作初始化，并对训练集图像提取特征，再基于特征数据进行聚类，这里聚类使用的基于密度的聚类方法，其他类似无监督的聚类方法均可，然后以聚类后的地标ID为键，该聚类中心下所有特征平均值为代表特征值，通过设置对比损失函数网络进行反向传播，以动量更新的方式更新残差模型参数。这种自步对比学习的训练框架，核心是基于聚类的伪标签算法，以聚类的标签作为监督信息，以对比损失函数的形式实现网络更新。

其中，最终当模型收敛之后，该景点识别模型具备区分不同地标场景的能力，当输入不同景点的图像检测数据后，特征之间的相似度可以衡量景点的相似度。以此特征进行自下向上的层级聚类后，相同景点特征可以得到相同标签，从而得到景点聚类结果。

基于所述景点聚类特征数据集获取多个景点聚类簇；

在本实施例中，通过景点聚类特征数据集进行层级聚类分析，具体地，基于景点特征利将景点图像进行层级聚类，将视频中属于相同景点场景但角度不同，露出程度不同的情况，聚类为一个统一的类别，为后续识别提供信息支持。其中，层级聚类是指通过自底而上的方式根据预设的条件将部分的景点聚类特征数据集进行合并。具体地，将景点聚类特征数据集进行划分，每个单独的景点图像对应一个单独的景点聚类簇，该景点聚类簇中包含了该景点的相关特征。具体地，该聚类结果可以将相似的场景进行合并，从而实现时间上的连接，例如同一建筑在时间跨度较大的情况下可能出现存在特征变化的情况，通过进行聚类分析可以识别为同一建筑，提升视频识别结果的时域一致性，提升用户体验。

在本实施例中，将每一个景点图像当作一个新的聚类簇；相关性计算为对每两个聚类簇之间包含元素计算两两之间距离平方的平均距离，将距离小于阈值两个聚类簇进行合并；如果大于这个阈值两个聚类簇分开，其中阈值设置为0.5，具体地，该阈值可以根据实际情况进行适应性调整，在本实施例中以0.5为例进行说明。重复所述任意两个景点聚类簇进行相关性计算直到所有聚类簇合并完毕为止从而生成聚类结果。具体地，聚类结果中包括了不同角度以及露出程度不同的同一景点，在后续识别过程中，当遇到同一景点而角度不同的图像，通过聚类结果可以准确将该两张图像识别为同一景点。获取到聚类结果后，当用户需要对新的景点图像进行识别时，通过将新的景点图像输入到包含聚类结果的识别模型中，识别模型可以识别出新的景点图像是否属于在聚类结果中已包含的景点图像，若是，则将该新的景点图像归类为聚类结果中已包含的景点图像。示例性的，在实际应用中，例如将东方明珠的侧视图和正视图通过识别模型进行识别，可以计算出该正视图和侧视图相似程度高，属于同一聚类，因此将该侧视图和正视图都识别为东方明珠并且作为同一聚类结果，后续再识别模型中输入东方明珠的其他视图时，识别模型根据聚类结果也能够将其识别为东方明珠，因此达到了提高识别场景图片准确率的效果。

图2为本实施例中提供的一种视频中场景的聚类装置200的结构示意图，本实施例提供的一种视频中场景的聚类装置200包括：

获取模块210，用于获取视频中的多帧图像。

识别模块220，用于将所述多帧图像输入到预训练的第一深度学习模型中进行分类识别，获得所述多帧图像中的景点图像。

提取模块230，用于将所述景点图像输入到预训练的第二深度学习模型中进行特征提取，获得景点聚类特征数据集。

分析模块240，用于基于所述景点聚类特征数据集进行聚类分析获取聚类结果。

可选的，还包括：

第一创建模块，用于获取创建的分类模型；

可选的，还包括：

第二创建模块，用于获取创建的特征提取模型；

第二训练模块，用于通过样本图像对所述特征提取模型进行训练，所述样本图像基于第二景点样本图像进行图像处理后生成；

第二确定模块，用于将训练好的特征提取模型确定为所述第二深度学习模型。

可选的，所述第二训练模块还包括：

特征提取子模块，用于将样本图像输入到所述特征提取模型中提取样本特征；

特征生成子模块，用于基于所述样本特征生成地标特征库，所述地标特征库包括多个地标子类簇；

模型训练子模块，用于根据所述地标特征库与分类函数对所述特征提取模型进行训练获取残差网络参数，所述分类函数基于所述地标特征库生成；

模型更新子模块，用于基于所述残差网络对所述特征提取模型进行更新。

可选的，所述分析模块240还包括：

特征获取子模块，用于基于所述景点聚类特征数据集获取多个景点聚类簇；

聚类分析子模块，用于对所述多个景点聚类簇中任意两个景点聚类簇进行聚类分析获取聚类结果。

可选的，所述聚类分析子模块还包括：

计算单元，用于对所述多个景点聚类簇中任意两个景点聚类簇进行相关性计算，获取相关性数值；

合并单元，用于若所述相关性数值小于或等于预设阈值，则将所述两个景点聚类簇合并为新的景点聚类簇；

生成单元，用于重复所述任意两个景点聚类簇进行相关性计算，直到所述任意两个景点聚类簇的相关性数值均大于所述预设阈值，从而生成聚类结果。

本发明实施例提供的一种视频中场景的聚类装置，通过获取视频中的多帧图像后，将图像输入深度学习模型中进行处理从而获得聚类结果，根据聚类结果可以准确将同一景点图像中不同角度或者露出程度不同的两张景点图像识别为同一景点，实现了通过获取聚类结果来达到提高识别场景图片准确率的效果。。

图3为本发明实施例提供的一种电子设备的结构示意图，如图3所示，该电子设备300包括存储器310、处理器320，电子设备300中处理器320的数量可以是一个或多个，图3中以一个处理器320为例；服务器中的存储器310、处理器320可以通过总线或其他方式连接，图3中以通过总线连接为例。

存储器310作为一种计算机可读存储介质，可用于存储软件程序、计算机可执行程序以及模块，如本发明实施例中的视频中场景的聚类方法对应的程序指令/模块，处理器320通过运行存储在存储器310中的软件程序、指令以及模块，从而执行服务器/终端/服务器的各种功能应用以及数据处理，即实现上述的视频中场景的聚类方法。

其中，处理器320用于运行存储在存储器310中的计算机程序，实现如下步骤：

获取视频中的多帧图像；

基于所述景点聚类特征数据集进行聚类分析获取聚类结果。

获取创建的分类模型；

将训练好的分类模型确定为所述第一深度学习模型。

获取创建的特征提取模型；

将训练好的特征提取模型确定为所述第二深度学习模型。

将样本图像输入到所述特征提取模型中提取样本特征；

根据所述地标特征库对所述特征提取模型进行训练。

基于所述景点聚类特征数据集获取多个景点聚类簇；

在其中一个实施例中，本发明实施例所提供的一种电子设备，其计算机程序不限于如上的方法操作，还可以执行本发明任意实施例所提供的视频中场景的聚类方法中的相关操作。

存储器310可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序；存储数据区可存储根据终端的使用所创建的数据等。此外，存储器310可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中，存储器310可进一步包括相对于处理器320远程设置的存储器，这些远程存储器可以通过网络连接至服务器/终端/服务器。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

本发明实施例提供的一种视频中场景的聚类的电子设备，通过获取视频中的多帧图像后，将图像输入深度学习模型中进行处理从而获得聚类结果，根据聚类结果可以准确将同一景点图像中不同角度或者露出程度不同的两张景点图像识别为同一景点，实现了通过获取聚类结果来达到提高识别场景图片准确率的效果。

本发明实施例还提供了一种包含计算机可执行指令的存储介质，所述计算机可执行指令在由计算机处理器执行时用于执行一种视频中场景的聚类方法，该方法包括：

获取视频中的多帧图像；

基于所述景点聚类特征数据集进行聚类分析获取聚类结果。

当然，本发明实施例所提供的一种包含计算机可执行指令的存储介质，其计算机可执行指令不限于如上所述的方法操作，还可以执行本发明任意实施例所提供的一种视频中场景的聚类方法中的相关操作。

本发明实施例的计算机可读存储介质，可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

存储介质上包含的程序代码可以用任何适当的介质传输，包括——但不限于无线、电线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或终端上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

本发明实施例提供的一种视频中场景的聚类的存储介质，通过获取视频中的多帧图像后，将图像输入深度学习模型中进行处理从而获得聚类结果，根据聚类结果可以准确将同一景点图像中不同角度或者露出程度不同的两张景点图像识别为同一景点，实现了通过获取聚类结果来达到提高识别场景图片准确率的效果。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

Claims

1.一种视频中场景的聚类方法，其特征在于，包括：

获取视频中的多帧图像；

基于所述景点聚类特征数据集进行聚类分析获取聚类结果。

2.根据权利要求1中所述的方法，其特征在于，所述将所述多帧图像输入到预训练的第一深度学习模型中进行分类识别，获得所述多帧图像中的景点图像之前还包括：

获取创建的分类模型；

将训练好的分类模型确定为所述第一深度学习模型。

3.根据权利要求1中所述的方法，其特征在于，所述将所述景点图像输入到预训练的第二深度学习模型中进行特征提取，获得景点聚类特征数据集之前还包括：

获取创建的特征提取模型；

将训练好的特征提取模型确定为所述第二深度学习模型。

4.根据权利要求3中所述的方法，其特征在于，所述通过样本图像对所述特征提取模型进行训练，所述样本图像基于所述第二景点样本图像进行图像处理后生成包括：

将样本图像输入到所述特征提取模型中提取样本特征；

基于所述残差网络对所述特征提取模型进行更新。

5.根据权利要求1至4中任一项中所述的方法，其特征在于，所述基于所述景点聚类特征数据集进行聚类分析获取聚类结果包括：

基于所述景点聚类特征数据集获取多个景点聚类簇；

6.根据权利要求5中所述的方法，其特征在于，所述对所述多个景点聚类簇中任意两个景点聚类簇进行聚类分析获取聚类结果包括：

7.一种视频中场景的聚类装置，其特征在于，包括：

获取模块，用于获取视频中的多帧图像；

8.根据权利要求7中所述的装置，其特征在于，还包括：

第一创建模块，用于获取创建的分类模型；

9.一种电子设备，其特征在于，包括处理器，存储器及存储在所述存储器上并可在所述处理器上运行的程序或指令，所述程序或指令被所述处理器执行时实现如权利要求1至6中任一项所述的视频中场景的聚类方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述可读存储介质上存储有程序或指令，所述程序或指令被处理器执行时实现如权利要求1至6中任一项所述的视频中场景的聚类方法的步骤。