CN114299435A

CN114299435A - 视频中的场景聚类方法、装置及相关设备

Info

Publication number: CN114299435A
Application number: CN202111649894.3A
Authority: CN
Inventors: 毕泊
Original assignee: Beijing IQIYI Science and Technology Co Ltd
Current assignee: Beijing IQIYI Science and Technology Co Ltd
Priority date: 2021-12-30
Filing date: 2021-12-30
Publication date: 2022-04-08

Abstract

本发明实施例提供一种视频中的场景聚类方法，包括：获取视频中的多帧图像；对多帧图像进行分类识别，获取多帧图像中的景点图像；对景点图像根据场景分类标签进行场景分类标记，得到标记后的景点图像；对标记后的景点图像进行特征提取，获得景点聚类特征数据集；基于景点聚类特征数据集进行聚类分析，获得各场景分类标签对应的聚类结果。本发明实施例通过获取视频中的多帧图像后，对多帧图像进行标记后，将图像输入深度学习模型中进行处理从而获得标记对应的聚类结果，根据聚类结果可以准确将同一类型景点图像中不同角度或者露出程度不同的两张景点图像识别为同一类型景点图像，实现了通过获取聚类结果来达到提高识别场景图片准确率的效果。

Description

视频中的场景聚类方法、装置及相关设备

技术领域

本发明涉及图像识别技术，尤其涉及一种视频中的场景聚类方法、装置及相关设备。

背景技术

影视剧的拍摄过程中通常会使用知名的景点或者是网红地点，从而提高整部剧的拍摄效果。因此，观众在观看过程中也会对其中的一些取景地产生想了解具体位置信息的需求。

但是目前对于场景识别存在的误差性较大，选择个别代表性较高的景点图像进行识别，会出现在视频播放过程中可以获取的识别图像过少，影响识别过程。另外在识别模型获取景点图像时，一般无法准确获取该景点所有角度的图像信息，导致在识别过程中无法准确识别该景点或者出现识别错误的情况，在场景识别中存在识别精度较低的问题。

发明内容

本发明实施例提供的一种视频中的场景聚类方法、装置及相关设备，解决了现有技术中场景识别中识别精度较低的问题。

第一方面，本发明实施例提供了一种视频中的场景聚类方法，包括：

获取视频中的多帧图像；

对所述多帧图像进行分类识别，获取所述多帧图像中的景点图像；

对所述景点图像根据场景分类标签进行场景分类标记，得到标记后的景点图像；

对所述标记后的景点图像进行特征提取，获得景点聚类特征数据集；

基于所述景点聚类特征数据集进行聚类分析，获得各场景分类标签对应的聚类结果。

可选的，所述对所述多帧图像进行分类识别，获取所述多帧图像中的景点图像包括：

对所述多帧图像输入到预训练的第一深度学习模型中进行分类识别，获取所述多帧图像中的景点图像。

可选的，所述对所述多帧图像输入到预训练的第一深度学习模型中进行分类识别，获取所述多帧图像中的景点图像之前还包括：

获取创建的分类模型；

通过预设的训练样本对所述分类模型进行训练，所述训练样本包括第一景点样本图像和第一非景点样本图像；

将训练好的分类模型确定为所述第一深度学习模型。

可选的，所述对所述标记后的景点图像进行特征提取，获得景点聚类特征数据集包括：

将所述标记后的景点图像输入到预训练的第二深度学习模型中进行特征提取，获得景点聚类特征数据集。

可选的，所述将所述标记后的景点图像输入到预训练的第二深度学习模型中进行特征提取，获得景点聚类特征数据集之前还包括：

获取创建的特征提取模型；

通过样本图像对所述特征提取模型进行训练，所述样本图像基于第二景点样本图像进行图像增广后生成；

将训练好的特征提取模型确定为所述第二深度学习模型。

可选的，所述通过样本图像对所述特征提取模型进行训练，所述样本图像基于所述第二景点样本图像进行图像处理后生成包括：

将样本图像输入到所述特征提取模型中提取样本特征；

基于所述样本特征生成场景分类特征库；

根据所述场景分类特征库与分类函数对所述特征提取模型进行训练获取残差网络参数，所述分类函数基于所述地标特征库生成；

基于所述残差网络对所述特征提取模型进行更新。

可选的，所述基于所述景点聚类特征数据集进行聚类分析，获得各场景分类标签对应的聚类结果包括：

基于所述景点聚类特征数据集获取多个场景分类聚类簇，所述场景分类聚类簇与所述场景分类标签相匹配；

对所述多个场景分类聚类簇中任意两个场景分类聚类簇进行相关性计算，获取相关性数值，其中，所述任意两个场景分类聚类簇具有相同场景分类标签；

若所述相关性数值小于或等于预设阈值，则将所述两个场景分类聚类簇合并为新的场景分类聚类簇，所述新的场景分类聚类簇包括至少两个所述场景分类标签；

重复所述任意两个场景分类聚类簇进行相关性计算，直到所述任意两个场景分类聚类簇的相关性数值均大于所述预设阈值，获得各场景分类标签对应的聚类结果。

第二方面，本发明实施例还提供了一种视频中的场景聚类装置，包括：

获取模块，用于获取视频中的多帧图像；

识别模块，用于对所述多帧图像进行分类识别，获取所述多帧图像中的景点图像；

分类模块，用于对所述景点图像根据场景分类标签进行场景分类标记，得到标记后的景点图像；

提取模块，用于对所述标记后的景点图像进行特征提取，获得景点聚类特征数据集；

分析模块，用于基于所述景点聚类特征数据集进行聚类分析，获得各场景分类标签对应的聚类结果。

第三方面，本发明实施例还提供了一种电子设备，包括处理器，存储器及存储在所述存储器上并可在所述处理器上运行的程序或指令，所述程序或指令被所述处理器执行时实现如上述任一项所述的视频中的场景聚类方法的步骤。

第四方面，本发明实施例还提供了一种计算机可读存储介质，其特征在于，所述可读存储介质上存储有程序或指令，所述程序或指令被处理器执行时实现如上述任一项所述的视频中的场景聚类方法的步骤。

本发明实施例提供一种视频中的场景聚类方法、装置及相关设备，该方法包括：获取视频中的多帧图像；对所述多帧图像进行分类识别，获取所述多帧图像中的景点图像；对所述景点图像根据场景分类标签进行场景分类标记，得到标记后的景点图像；对所述标记后的景点图像进行特征提取，获得景点聚类特征数据集；基于所述景点聚类特征数据集进行聚类分析，获得各场景分类标签对应的聚类结果。本发明实施例提供的一种视频中的场景聚类方法，通过获取视频中的多帧图像后，对多帧图像进行标记后，将图像输入深度学习模型中进行处理从而获得标记对应的聚类结果，根据聚类结果可以准确将同一类型景点图像中不同角度或者露出程度不同的两张景点图像识别为同一类型景点图像，实现了通过获取聚类结果来达到提高识别场景图片准确率的效果。

附图说明

图1为本发明实施例中一种视频中的场景聚类方法的方法流程图；

图2为本发明实施例中景点分类的结构图示意图；

图3为本发明实施例中一种视频中的场景聚类方法的流程示意图；

图4为本发明实施例中一种视频中的场景聚类装置的结构示意图；

图5为本发明实施例中一种电子设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获取的所有其他实施例，都属于本申请保护的范围。

在更加详细地讨论示例性实施例之前应当提到的是，一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各步骤描述成顺序的处理，但是其中的许多步骤可以被并行地、并发地或者同时实施。此外，各步骤的顺序可以被重新安排。当其操作完成时处理可以被终止，但是还可以具有未包括在附图中的附加步骤。处理可以对应于方法、函数、规程、子例程、子程序等等。

此外，术语“第一”、“第二”等可在本文中用于描述各种方向、动作、步骤或元件等，但这些方向、动作、步骤或元件不受这些术语限制。这些术语仅用于将第一个方向、动作、步骤或元件与另一个方向、动作、步骤或元件区分。举例来说，在不脱离本申请的范围的情况下，可以将第一速度差值为第二速度差值，且类似地，可将第二速度差值称为第一速度差值。第一速度差值和第二速度差值两者都是速度差值，但其不是同一速度差值。术语“第一”、“第二”等而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

图1为本发明实施例提供的一种视频中的场景聚类方法的方法流程图，本实施例提供的一种视频中的场景聚类方法包括：

步骤110、获取视频中的多帧图像。

在本实施例中，视频为用户观看过程中的视频，具体地，该视频中包括了多种景点图像和非景点图像，其中，景点图像包含了人文景观或自然风景等，例如天安门的拍摄图像。对于景点图像和非景点图像的区分，主要是根据该图像中占比较大的特征属于景点或者非景点，示例性的，当图像中既包括景点又包括行人时，若此时行人占比较小，则将该图像识别为景点图像。

通过对视频进行处理后，获取视频中的多帧图像，该多帧图像既包括了景点图像也包括了非景点图像。

步骤120、对所述多帧图像进行分类识别，获取所述多帧图像中的景点图像。

参阅图2，图2为本发明实施例中景点分类的结构图示意图，具体地，输入的图像可以分为景点图像和非景点图像，在本实施例中，对多帧图像进行分类识别从而将多帧图像中的景点图像与非景点图像进行区分，具体地，多视频中的多帧图像可以通过深度学习模型或者其他识别模型进行分类识别，根据分类识别的结果获取到多帧图像中哪些属于景点图像，哪些属于非景点图像，其中，非景点图像通常为镜头特写，例如主体可能是人或者物的图像，景点图像为建筑物或者风景图像，而景点图像又可以分为摩天大楼、亭台楼阁、商业街等等不同类型的景点。

步骤130、对所述景点图像根据场景分类标签进行场景分类标记，得到标记后的景点图像。

在本实施例中，场景分类标签为对不同景点进行区分的相关标签，具体地，该标签可以为摩天大楼、商业街、亭台楼阁等，一般地，通过人工或者机器识别该景点图像的相关标签并对该景点图像进行标记，通过对不同的景点图像进行分类标记后获得标记后的景点图像。示例性的，例如拍摄的景点图像为东方明珠，因此对其标记的标签为摩天大楼。

步骤140、对所述标记后的景点图像进行特征提取，获得景点聚类特征数据集。

在本实施例中，对标记后的景点图像进行特征提取并根据该特征生成景点聚类特征数据集。具体地，该景点聚类特征数据集包括了相似程度较高的同一景点图像，例如同一建筑或者风景。具体地，可以将标记后景点图像输入到深度学习模型中进行特征提取。景点聚类特征数据集代表了相同景点的特征数据，具体地，可以通过特征之间的相似度作为衡量景点的相似度。示例性的，当获取到任意一张景点的拍摄图像后，如提取到的特征与该景点聚类特征数据集中的特征相同的话，即可认为该任意一张景点的拍摄图像属于与景点聚类特征数据集对应的景点为同一景点。

步骤150、基于所述景点聚类特征数据集进行聚类分析，获得各场景分类标签对应的聚类结果。

在本实施例中，通过采用基于层级聚类的场景聚类方法对景点聚类特征数据集进行聚类分析从而获得各场景分类标签聚类结果，以自底向上的方式，根据一定的条件分层合并紧密的集群。具体地，聚类结果中包括了不同角度以及露出程度不同的同一类型景点，在后续识别过程中，当遇到同一类型景点而角度不同的图像，通过聚类结果可以准确将该两张图像识别为同一类型景点。获取到聚类结果后，当用户需要对新的景点图像进行识别时，通过将新的景点图像输入到包含聚类结果的识别模型中，识别模型可以识别出新的景点图像是否属于在聚类结果中已包含的景点图像，若是，则将该新的景点图像归类为聚类结果中已包含的景点图像。示例性的，在实际应用中，例如将电视塔聚类中的东方明珠的侧视图和正视图通过识别模型进行识别，可以计算出该正视图和侧视图相似程度高，属于同一聚类，因此将该侧视图和正视图都识别为东方明珠并且作为同一聚类结果，后续再识别模型中输入类似东方明珠的电视塔的其他视图时，识别模型根据聚类结果也能够将其识别为电视塔，因此达到了提高识别场景图片准确率的效果。

具体地，该聚类结果可以将相似的场景进行合并，从而实现时间上的连接，例如同一建筑在时间跨度较大的情况下可能出现存在特征变化的情况，通过进行聚类分析可以识别为同一建筑，提升视频识别结果的时域一致性，提升用户体验。

本发明实施例提供的一种视频中的场景聚类方法，通过获取视频中的多帧图像后，对多帧图像进行标记后，将图像输入深度学习模型中进行处理从而获得标记对应的聚类结果，根据聚类结果可以准确将同一类型景点图像中不同角度或者露出程度不同的两张景点图像识别为同一类型景点图像，实现了通过获取聚类结果来达到提高识别场景图片准确率的效果。

在另一个实施例中，可选的，所述对所述多帧图像进行分类识别，获取所述多帧图像中的景点图像包括：

在本实施例中，预训练的第一深度学习模型为训练好的卷积网络图像，采用预先训练好的卷积网络图像分类模型对推向进行分类识别，具体地，根据分类结果可以获取到多帧图像中哪些属于景点图像，哪些属于非景点图像，其中，非景点图像通常为镜头特写，例如主体可能是人或者物的图像。在本实施例中，景点分类方法可以为任何常见的图像分类方法，包括但不限于基于深度学习算法的方法。

获取创建的分类模型；

将训练好的分类模型确定为所述第一深度学习模型。

在本实施例中，首先获取建立好的分类模型，该分类模型可以为符合图像分类的深度学习模型，在本实施例中不做具体限定，可以根据实际情况选择符合的模型。预设的训练样本为大量的样本图像，其中该样本图像包括了大量的第一景点样本图像和第一非景点样本图像，将大量的第一景点样本图像和第一非景点样本图像输入到分类模型中进行训练从而获取对该分类模型的各项参数并进行不断的调整，最后该分类模型训练好后可直接识别出视频中任意一帧图像为景点图像还是非景点图像。

在本实施例中，通过预训练的第二深度学习模型为训练好的卷积神经网络，将标记后的景点图像输入到训练好的卷积神经网络中对景点图像进行特征提取，从而获取到景点聚类特征数据集。景点聚类特征数据集代表了相同景点的特征数据，具体地，可以通过特征之间的相似度作为衡量景点的相似度。景点聚类特征数据集用于将相同的景点图像划分为同一类图像，示例性的，当获取到任意一张景点的拍摄图像后，如提取到的特征与该景点聚类特征数据集中的特征相同的话，即可认为该任意一张景点的拍摄图像属于与景点聚类特征数据集对应的景点为同一景点。

获取创建的特征提取模型；

通过样本图像对所述特征提取模型进行训练，所述样本图像基于第二景点样本图像进行图像处理后生成；

将训练好的特征提取模型确定为所述第二深度学习模型。

在本实施例中，首先建立好特征提取模型，该特征提取模型可以为深度残差网络或其他深度学习网络，具体地，使用在公开数据集训练好的深度残差网络对目标图像提取特征后进行聚类处理。大量的样本图像可以基于从公开地标数据库中获取，具体地，可以在公开地标数据库基础上进行数据增广，示例性的，对输入图像进行随机的裁剪或者抠图，故意制造信息缺失，以这种方式来促使模型能够更多地从全局信息中补全缺失的部分，从而然模型避免过度地聚焦于局部信息，提高模型的全局信息提取能力和泛化性，使得模型可以在遮挡、人物干扰和多角度变换下依然可以正确识别同一个样本。通过大量样本图像对所述特征提取模型进行训练，不断更新该模型中的参数，最终获得训练好的特征提取模型并将该特征提取模型确定为所述第二深度学习模型。

可选的，所述通过样本图像对所述特征提取模型进行训练，所述样本图像基于所述第二景点样本图像进行图像增广后生成包括：

将样本图像输入到所述特征提取模型中提取样本特征；

基于所述样本特征生成场景分类特征库；

基于所述残差网络对所述特征提取模型进行更新。

在本实施例中，使用在公开数据集训练好的深度残差网络对目标图像提取特征；并对所有训练数据对应特征进行基于密度的聚类算法(Density-Based SpatialClustering of Applications with Noise，简称DBSCAN)聚类；按照聚类的标签，每个类别代表一个地标子类簇，在该地标子类簇内所有特征中挑选出代表性的特征存入字典，从而建立地标特征库，基于地标特征库字典标签通过分类函数来对网络进行训练，从而更新残差网络参数，其中分类函数可以使用softmax分类函数。最后，在固定训练好的参数下，网络输入目标区域图像并得到地标聚类特征。示例性的，训练的数据集为谷歌开放地标识别系统Google-Landmarks-v2，其中有20W处地标和400W个图像实例，训练阶段一开始使用可视化数据库ImageNet预训练的模型参数作初始化，并对训练集图像提取特征，再基于特征数据进行聚类，这里聚类使用的基于密度的聚类方法，其他类似无监督的聚类方法均可，然后以聚类后的地标ID为键，该聚类中心下所有特征平均值为代表特征值，通过设置对比损失函数网络进行反向传播，以动量更新的方式更新残差模型参数。这种自步对比学习的训练框架，核心是基于聚类的伪标签算法，以聚类的标签作为监督信息，以对比损失函数的形式实现网络更新。

其中，最终当模型收敛之后，该景点识别模型具备区分不同地标场景的能力，当输入不同景点的图像检测数据后，特征之间的相似度可以衡量景点的相似度。以此特征进行自下向上的层级聚类后，相同景点特征可以得到相同标签，从而得到景点聚类结果。

对所述多个场景分类聚类簇中任意两个场景分类聚类簇进行相关性计算，获取相关性数值；

在本实施例中，通过景点聚类特征数据集进行层级聚类分析即再次进行聚类处理，具体地，层级聚类是以自底向上的方式，根据一定的条件分层合并紧密的集群。基于景点特征将景点图像进行层级聚类，将视频中属于相同景点场景但角度不同，露出程度不同的情况，聚类为一个统一的类别，为后续识别提供信息支持。具体地，将景点聚类特征数据集进行划分，每个单独的景点图像对应一个单独的景点聚类簇，该景点聚类簇中包含了该景点的相关特征。具体地，该聚类结果可以将相似的场景进行合并，从而实现时间上的连接，例如同一建筑在时间跨度较大的情况下可能出现存在特征变化的情况，通过进行聚类分析可以识别为同一建筑，提升视频识别结果的时域一致性，提升用户体验。

具体地，将每一个景点图像当做一个新的聚类簇；相关性计算为对每两个聚类簇之间包含元素计算两两之间距离平方的平均距离，将距离小于阈值两个聚类簇进行合并；如果大于这个阈值两个聚类簇分开，其中阈值设置为0.5，具体地，该阈值可以根据实际情况进行适应性地调整，在本实施例中以0.5为例进行说明。重复所述任意两个景点聚类簇进行相关性计算直到所有聚类簇合并完毕为止获得一级聚类结果。具体地，在本实施例中，具有相同标签的聚类簇才能进行合并，示例性的，例如标签为摩天大楼和标签为亭台楼阁的两个聚类簇之间即使相似程度较高也无法进行合并。在本实施例中，结合场景分类标签和一级聚类结果进行二级聚类，具体地，通过将一级聚类结果中每一个景点图像簇对应的特征进行平均聚合作为该聚类簇代表，计算簇和簇之间的景点聚类特征相似度，结合景点标签信息例如摩天大楼、亭台楼阁、商业街等，当两个簇之间相似度大于阈值且标签信息一致，则合并为一个新的聚类簇，否则不合并，该阈值可以根据实际情况进行适应性调整，在本实施例中不做具体限定。当遍历所有的聚类簇之后，得到最终的的场景聚类结果。本发明实施例提供的一种视频中的场景聚类方法，通过获取视频中的多帧图像后，对多帧图像进行标记后，将图像输入深度学习模型中进行处理从而获得标记对应的聚类结果，根据聚类结果可以准确将同一类型景点图像中不同角度或者露出程度不同的两张景点图像识别为同一类型景点图像，实现了通过获取聚类结果来达到提高识别场景图片准确率的效果。

参阅图3，图3为本实施例中一种视频中的场景聚类方法的流程示意图，首先获取视频中的相关视频帧，对视频帧通过景点分类骨干网进行景点分类识别，若该视频帧识别为分类后的二级分类(即不同类型的景点图像，例如摩天大楼、亭台楼阁等等)，则进行后续二级聚类处理。若该视频帧无法直接识别，则通过一级分类确定该视频帧是否为景点图像，如果为非景点图像则放弃该视频帧，如果为景点图像，则将该景点图像进行特征提取识别特征，并将特征相近的景点图像进行一级聚类(HAC聚类)后获得一级聚类结果。将一级聚类结果通过标签(即不同类型的景点图像，例如摩天大楼、亭台楼阁等等)进行二级聚类获得的聚类结果，该聚类结果可以识别包括了不同角度以及露出程度不同的同一类型景点，在后续识别过程中，当遇到同一类型景点而角度不同的图像，通过聚类结果可以准确将该两张图像识别为同一类型景点。

图4为本实施例中提供的一种视频中的场景聚类装置200的结构示意图，本实施例提供的一种视频中的场景聚类装置200包括：

获取模块210，用于获取视频中的多帧图像；

识别模块220，用于对所述多帧图像进行分类识别，获取所述多帧图像中的景点图像；

分类模块230，用于对所述景点图像根据场景分类标签进行场景分类标记，得到标记后的景点图像；

提取模块240，用于对所述标记后的景点图像进行特征提取，获得景点聚类特征数据集；

分析模块250，用于基于所述景点聚类特征数据集进行聚类分析，获得各场景分类标签对应的聚类结果。

可选的，所述识别模块220包括：

识别子模块，用于对所述多帧图像输入到预训练的第一深度学习模型中进行分类识别，获取所述多帧图像中的景点图像。

可选的，还包括：

第一创建模块，用于获取创建的分类模型；

第一训练模块，用于通过预设的训练样本对所述分类模型进行训练，所述训练样本包括第一景点样本图像和第一非景点样本图像；

第一确定模块，用于将训练好的分类模型确定为所述第一深度学习模型。

可选的，提取模块240包括：

提取子模块，用于将所述标记后的景点图像输入到预训练的第二深度学习模型中进行特征提取，获得景点聚类特征数据集。

可选的，还包括：

第二创建模块，用于获取创建的特征提取模型；

第二训练模块，用于通过样本图像对所述特征提取模型进行训练，所述样本图像基于第二景点样本图像进行图像增广后生成；

第二确定模块，用于将训练好的特征提取模型确定为所述第二深度学习模型。

可选的，第二训练模块包括：

特征提取子模块，用于将样本图像输入到所述特征提取模型中提取样本特征；

特征生成子模块，用于基于所述样本特征生成场景分类特征库；

模型训练子模块，用于根据所述场景分类特征库与分类函数对所述特征提取模型进行训练获取残差网络参数，所述分类函数基于所述地标特征库生成；

基于所述残差网络对所述特征提取模型进行更新。

可选的，分析模块250包括：

获取子模块，用于基于所述景点聚类特征数据集获取多个场景分类聚类簇，所述场景分类聚类簇与所述场景分类标签相匹配；

计算子模块，用于对所述多个场景分类聚类簇中任意两个场景分类聚类簇进行相关性计算，获取相关性数值，其中，所述任意两个场景分类聚类簇具有相同场景分类标签；

合并子模块，用于若所述相关性数值小于或等于预设阈值，则将所述两个场景分类聚类簇合并为新的场景分类聚类簇，所述新的场景分类聚类簇包括至少两个所述场景分类标签；

生成子模块，用于重复所述任意两个场景分类聚类簇进行相关性计算，直到所述任意两个场景分类聚类簇的相关性数值均大于所述预设阈值，获得各场景分类标签对应的聚类结果。

本发明实施例提供的一种视频中的场景聚类装置，通过获取视频中的多帧图像后，对多帧图像进行标记后，将图像输入深度学习模型中进行处理从而获得标记对应的聚类结果，实现了根据聚类结果可以准确将同一类型景点图像中不同角度或者露出程度不同的两张景点图像识别为同一类型景点图像，实现了通过获取聚类结果来达到提高识别场景图片准确率的效果。

图5为本发明实施例提供的一种电子设备的结构示意图，如图5所示，该电子设备包括存储器310、处理器320，电子设备300中处理器320的数量可以是一个或多个，图5中以一个处理器320为例；服务器中的存储器310、处理器320可以通过总线或其他方式连接，图5中以通过总线连接为例。

存储器310作为一种计算机可读存储介质，可用于存储软件程序、计算机可执行程序以及模块，如本发明实施例中的视频中的场景聚类方法对应的程序指令/模块，处理器320通过运行存储在存储器310中的软件程序、指令以及模块，从而执行服务器/终端/服务器的各种功能应用以及数据处理，即实现上述的视频中的场景聚类方法。

其中，处理器320用于运行存储在存储器310中的计算机程序，实现如下步骤：

获取视频中的多帧图像；

获取创建的分类模型；

将训练好的分类模型确定为所述第一深度学习模型。

获取创建的特征提取模型；

将训练好的特征提取模型确定为所述第二深度学习模型。

将样本图像输入到所述特征提取模型中提取样本特征；

基于所述样本特征生成场景分类特征库，所述场景分类特征库中包括所述场景分类标签；

基于所述残差网络对所述特征提取模型进行更新。

其中一个实施例中，本发明实施例所提供的一种电子设备，其计算机程序不限于如上的方法操作，还可以执行本发明任意实施例所提供的视频中的场景聚类方法中的相关操作。

存储器310可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序；存储数据区可存储根据终端的使用所创建的数据等。此外，存储器310可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中，存储器310可进一步包括相对于处理器320远程设置的存储器，这些远程存储器可以通过网络连接至服务器/终端/服务器。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

本发明实施例提供的一种视频中的场景聚类的电子设备，通过获取视频中的多帧图像后，对多帧图像进行标记后，将图像输入深度学习模型中进行处理从而获得标记对应的聚类结果，实现了根据聚类结果可以准确将同一类型景点图像中不同角度或者露出程度不同的两张景点图像识别为同一类型景点图像，实现了通过获取聚类结果来达到提高识别场景图片准确率的效果。

本发明实施例还提供了一种包含计算机可执行指令的存储介质，所述计算机可执行指令在由计算机处理器执行时用于执行一种视频中的场景聚类方法，该方法包括：

获取视频中的多帧图像；

当然，本发明实施例所提供的一种包含计算机可执行指令的存储介质，其计算机可执行指令不限于如上所述的方法操作，还可以执行本发明任意实施例所提供的一种视频中的场景聚类方法中的相关操作。

本发明实施例的计算机可读存储介质，可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

存储介质上包含的程序代码可以用任何适当的介质传输，包括——但不限于无线、电线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或终端上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

本发明实施例提供的一种视频中的场景聚类的存储介质，通过获取视频中的多帧图像后，对多帧图像进行标记后，将图像输入深度学习模型中进行处理从而获得标记对应的聚类结果，实现了根据聚类结果可以准确将同一类型景点图像中不同角度或者露出程度不同的两张景点图像识别为同一类型景点图像，实现了通过获取聚类结果来达到提高识别场景图片准确率的效果。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

Claims

1.一种视频中的场景聚类方法，其特征在于，包括：

获取视频中的多帧图像；

2.根据权利要求1中所述的方法，其特征在于，所述对所述多帧图像进行分类识别，获取所述多帧图像中的景点图像包括：

3.根据权利要求2中所述的方法，其特征在于，所述对所述多帧图像输入到预训练的第一深度学习模型中进行分类识别，获取所述多帧图像中的景点图像之前还包括：

获取创建的分类模型；

将训练好的分类模型确定为所述第一深度学习模型。

4.根据权利要求1中所述的方法，其特征在于，所述对所述标记后的景点图像进行特征提取，获得景点聚类特征数据集包括：

5.根据权利要求4中所述的方法，其特征在于，所述将所述标记后的景点图像输入到预训练的第二深度学习模型中进行特征提取，获得景点聚类特征数据集之前还包括：

获取创建的特征提取模型；

将训练好的特征提取模型确定为所述第二深度学习模型。

6.根据权利要求5中所述的方法，其特征在于，所述通过样本图像对所述特征提取模型进行训练，所述样本图像基于所述第二景点样本图像进行图像处理后生成包括：

将样本图像输入到所述特征提取模型中提取样本特征；

基于所述样本特征生成场景分类特征库；

基于所述残差网络对所述特征提取模型进行更新。

7.根据权利要求1至6中任一项中所述的方法，其特征在于，所述基于所述景点聚类特征数据集进行聚类分析，获得各场景分类标签对应的聚类结果包括：

8.一种视频中的场景聚类装置，其特征在于，包括：

获取模块，用于获取视频中的多帧图像；

9.一种电子设备，其特征在于，包括处理器，存储器及存储在所述存储器上并可在所述处理器上运行的程序或指令，所述程序或指令被所述处理器执行时实现如权利要求1至7中任一项所述的视频中的场景聚类方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述可读存储介质上存储有程序或指令，所述程序或指令被处理器执行时实现如权利要求1至7中任一项所述的视频中的场景聚类方法的步骤。