CN113963295A

CN113963295A - 视频片段中地标识别方法、装置、设备及存储介质

Info

Publication number: CN113963295A
Application number: CN202111233452.0A
Authority: CN
Inventors: 李冠楠
Original assignee: Beijing IQIYI Science and Technology Co Ltd
Current assignee: Beijing IQIYI Science and Technology Co Ltd
Priority date: 2021-10-22
Filing date: 2021-10-22
Publication date: 2022-01-21

Abstract

本申请涉及一种视频片段中地标识别方法，其特征在于，方法包括：提取视频片段中的关键帧，从关键帧中筛选出包含地标的目标帧；逐个选取目标帧，提取选取的目标帧的全局特征，计算全局特征与预先获取的预设多个地标对应的标准全局特征的全局相似度，选择全局相似度大于预设第一阈值的地标为候选地标；提取选择的目标帧的局部特征，计算局部特征与候选地标对应的标准局部特征的局部相似度，选择局部相似度最大的候选地标为目标帧的地标；根据目标帧对视频片段中的每一帧图像进行聚类，并根据目标帧的地标设置每一帧图像的地标标识。此外，本申请还涉及一种视频片段中地标识别方法、装置、设备及介质。本申请可提高对视频片段进行地标识别的效率。

Description

视频片段中地标识别方法、装置、设备及存储介质

技术领域

本申请涉及视频处理领域，尤其涉及一种视频片段中地标识别方法、装置及存储介质。

背景技术

随着视频录像的逐渐普及，人们越来越多的使用视频录像来记录生活，例如，人们出行时，利用视频录像记录出行的过程，参加重要节日或活动时，利用视频录像记录发生的事物等。通过对视频录像的分析，可从视频录像中获取与该视频录像有关的大量信息，例如，从视频中识别出地标数据，其中，所述地标数据为图像中包含的建筑物信息，例如图像中包含的房屋、街道、山水等信息。

现有的视频中地标识别方法多为通过图像帧的逐一匹配来实现，即对视频中每一帧的图像进行分析，并检索该图像中的地标内容，以识别该视频中的地标，但该方法需要对视频中每一帧图像进行分析，因此会占用大量的计算资源，导致对视频进行地标识别的效率低下。

发明内容

本申请提供了一种视频片段中地标识别方法、装置及存储介质，以解决对视频片段进行地标识别的效率不高的问题。

第一方面，本申请提供了一种视频片段中地标识别方法，所述方法包括：

提取视频片段中的关键帧，从所述关键帧中筛选出包含地标的帧作为目标帧；

逐个选取其中一帧目标帧，提取选取的所述目标帧的全局特征，计算所述全局特征与预先获取的预设多个地标对应的标准全局特征的全局相似度，并选择所述全局相似度大于预设第一阈值的地标为候选地标；

提取选取的所述目标帧的局部特征，计算所述局部特征与预先获取的与所述候选地标对应的标准局部特征的局部相似度，选择所述局部相似度最大的候选地标为选取的所述目标帧的地标；

根据每一个所述目标帧为中心对所述视频片段中的所有帧执行聚类操作，将所述视频片段分成多组图像，在每组图像中，根据所述目标帧的地标设置该组图像的地标标识。

详细地，所述从所述关键帧中筛选出包含地标的帧作为目标帧，包括：

提取每一个所述关键帧对应的低维特征表达；

利用预设的映射函数将所述低维特征表达映射至预先构建的高维空间，得到所述低维特征表达的高维特征表达；

利用预设的激活函数计算所述高维特征表达中每一个特征的输出值，并选取所述输出值大于预设输出阈值的特征为待筛选特征；

将所述待筛选特征进行降维，并利用预设的分类器从降维后的待筛选特征中筛选出预设类别的特征，并确定筛选出的特征对应的图像为目标帧。

详细地，所述提取选取的所述目标帧的全局特征，包括：

将选取的所述目标帧转换为灰度图像，对所述灰度图像进行色彩空间归一化，得到标准图像；

将所述标准图像按照预设比例划分为多个图像块，计算每一个图像块中每个像素的像素梯度，根据所述像素梯度统计得到每一个图像块的梯度直方图；

将所述梯度直方图转换为向量，并将所有梯度直方图的向量进行拼接，得到所述目标帧的全局特征。

详细地，所述提取选取的所述目标帧的全局特征，包括：

将选取的所述目标帧按照预设比例划分为多个图像块，从所述多个图像块中逐个选取其中一个图像块为目标帧块；

根据所述目标帧块的像素尺寸确定所述目标帧块的中心像素；

在所述目标帧块中，将像素值大于或等于所述中心像素的的像素点置为第一像素点，将像素值小于所述中心像素的的像素点置为第二像素点；

按照预设顺序统计所述目标帧块中被重置的第一像素点和第二像素点，将统计后的像素点按照预设进制转换规则转换为图像块数值，并汇集所有目标帧块的图像块的图像块数值为所述目标帧的全局特征。

详细地，所述计算所述全局特征与预先获取的预设多个地标对应的标准全局特征的全局相似度，包括：

利用如下相似度算法计算所述全局特征与预先获取的预设多个地标对应的标准全局特征的全局相似度：

其中，Sim_Q为所述全局相似度，α为所述全局特征，β_n为预设多个地标中第n个地标对应的标准全局特征。

详细地，所述提取选取的所述目标帧的局部特征，包括：

利用预设核函数构建尺度空间，将选择的所述目标帧映射至所述尺度空间中，在所述尺度空间中，从所述目标帧的像素点中逐个选取其中一个像素点为目标像素点；

判断所述目标像素点的像素值在预设邻域内是否为极值；

当所述目标像素点的像素值在所述预设邻域内不为极值时，返回从所述目标帧的像素点中逐个选取其中一个像素点为目标像素点的步骤；

当所述目标像素点的像素值在所述预设邻域内为极值时，确定所述目标像素点为关键点；

计算所述关键点的像素对比度，汇集所述像素对比度大于预设对比度阈值的关键点为所述目标帧的特征点；

计算每一个所述特征点的特征像素梯度，将所述像素梯度进行归一化处理，并将归一化后的特征像素梯度汇集为所述目标帧的局部特征。

详细地，所述根据每一个所述目标帧为中心对所述视频片段中的所有帧执行聚类操作，包括：

将所述视频片段中每一帧图像转化为图像向量；

将每一个所述目标帧的图像向量作为中心向量；

从所述图像向量中逐个选取其中一个向量为目标向量，分别计算所述目标向量与每一个所述中心向量之间的距离值，将所述距离值最小的目标向量对应的图像与所述中心向量对应的目标帧聚为一类。

第二方面，本申请提供了一种视频片段中地标识别装置，所述装置包括：

关键帧提取模块，用于提取视频片段中的关键帧，从所述关键帧中筛选出包含地标的帧作为目标帧；

全局特征提取模块，用于逐个选取其中一帧目标帧，提取选取的所述目标帧的全局特征，计算所述全局特征与预先获取的预设多个地标对应的标准全局特征的全局相似度，并选择所述全局相似度大于预设第一阈值的地标为候选地标；

局部特征提取模块，用于提取选取的所述目标帧的局部特征，计算所述局部特征与预先获取的与所述候选地标对应的标准局部特征的局部相似度，选择所述局部相似度最大的候选地标为选取的所述目标帧的地标；

图像聚类模块，用于根据每一个所述目标帧为中心对所述视频片段中的所有帧执行聚类操作，将所述视频片段分成多组图像，在每组图像中，根据所述目标帧的地标设置该组图像的地标标识。

第三方面，提供了一种基于隐私信息的音频溯源设备，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现第一方面任一项实施例所述的视频片段中地标识别方法的步骤。

第四方面，提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如第一方面任一项实施例所述的视频片段中地标识别方法的步骤。

本申请实施例提供的上述技术方案与现有技术相比具有如下优点：

本申请实施例提供的该方法，可通过对视频片段的关键帧进行地标识别，且在识别出关键帧的地标后，根据识别出的地标对视频片段中每一帧的图像进行聚类，通过聚类分析出视频片段中每一帧的地标，避免对视频片段中每一帧图像的详细分析，进而提高了地标识别的效率，可解决对视频片段进行地标识别的效率不高的问题。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种视频片段中地标识别方法的流程示意图；

图2为本申请实施例提供的提取全局特征的流程示意图；

图3为本申请实施例提供的提取局部特征的流程示意图；

图4为本申请实施例提供的一种视频片段中地标识别的装置的模块示意图；

图5为本申请实施例提供的一种视频片段中地标识别的电子设备的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请的一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

图1为本申请实施例提供的一种视频片段中地标识别方法的流程示意图。在本实施例中，所述视频片段中地标识别方法包括：

S1、提取视频片段中的关键帧，从所述关键帧中筛选出包含地标的帧作为目标帧。

本申请实施例中，所述视频片段可以为任何视频影像，例如，某电影，或该电影的部分片段，或者，日常生活记录的Vlog等。

本申请其中一个实际应用场景中，由于视频在拍摄时为了叙事的完整性以及用户观感的流畅性，会从多机位、多角度的方式对同一个事物进行记录，进而导致视频片段通常由大量的图像帧组成。

在对视频片段进行分析时，若对所述视频片段中的每一帧图像进行分析，会占用大量的计算资源，不仅会导致分析的效率低下，还会对分析结果造成干扰，导致结果的不精确。

因此，本申请实施例需提取所述视频片段中的关键帧，以减少对所述视频片段进行分析时，需要处理的数据量，提高分析效率和精确度，其中，所述关键帧是指视频片段中出现部分时间段的重复场景或画面时，该场景或画面内包含信息量较多的那一帧。

本申请实施例中，可采用像素帧平均、直方图帧平均等方法从所述视频片段中提取关键帧。

进一步地，由于视频片段中可能包含人物特写镜头、物品特写镜头等不是用于对地标进行记录的镜头，因此，从所述视频片段中提取出的关键帧中可能会包含一些噪声图像(用于进行人物特写、物品特写等不是用于对地标进行记录的镜头)，为了进一步提高对所述视频片段中地标片段进行识别的效率和精确度，本申请实施例需对提取出的关键帧进行筛选，以获取所述关键帧中包含地标的图像，并将筛选出的图像作为目标帧。

本申请实施例中，可采用预先训练的地标筛选模型对所述关键帧进行筛选，以从所述关键帧中提取出包含地标的图像，其中，所述地标筛选模型可采用通用的卷积神经网络进行架构而成，通过地标图像与噪声图像所述卷积神经网络进行训练得到所述地标筛选模型。

详细地，所述地标图像为可用于对特定地标进行展示的图像，所述噪声图像为不包含地标的图像。

本申请其中一个实施例中，所述地标筛选模型的训练过程包括：

获取地标图像与噪声图像，以及所述地标图像与噪声图像对应的图像标签；

利用预设的卷积神经网络对所述地标图像和噪声图像进行卷积、池化，得到每一张图像的图像特征；

利用预设的激活函数计算每一张图像的图像特征的输出值，汇集所述输出值大于预设输出阈值的图像特征对应的图像为目标帧，并对所述目标帧生成地标图像的预测标签；

并利用预设的损失函数计算所述预测标签与所述图像标签之间的损失值；

根据所述损失值对所述卷积神经网络进行参数优化，并返回利用预设的卷积神经网络对所述训练集进行卷积、池化的步骤，直至所述损失值小于预设损失阈值，确定所述卷积神经网络为标筛选模型。

详细地，所述激活函数包括但不限于softmax激活函数、Relu激活函数、sigmoid激活函数；所述损失函数包括但不限于对数损失函数、交叉熵损失函数、平方误差损失函数。

具体地，当所述损失值大于或等于所述预设损失阈值时，则说明该卷积神经网络的精确度不够，会出现较多的错误判断，因此，需要对该卷积神经网络进行参数优化，以提高该卷积神经网络的精确度。

本实施例中，可根据所述损失值，利用预设的梯度下降算法计算所述卷积神经网络中参数的更新梯度，进而根据所述更新梯度对该卷积神经网络中的参数进行调整，直至所述损失值小于预设损失阈值，其中，所述梯度下降算法包括但不限于小批量梯度下降算法、批量梯度下降算法、随机梯度下降算法。

本实施例中，利用地标图像与噪声图像对卷积神经网络进行训练得到地标筛选模型，可提高训练得到的地标筛选模型的精确度。

进一步地，训练得到所述地标筛选模型后，本申请实施例可利用所述地标筛选模型对所述关键帧进行分析，以从所述关键帧中筛选出包含地标的目标帧。

本申请实施例中，所述从所述关键帧中筛选出包含地标的帧作为目标帧，包括：

提取每一个所述关键帧对应的低维特征表达；

详细地，可利用预先训练的地标筛选网络对所述关键帧进行卷积及池化操作，将所述关键帧中每一帧的图像中包含的多维度的信息降低为低维特征表达，有利于提高从所述关键帧中提取图像特征的精确度和效率。

具体地，可利用预设的映射函数将所述低维特征表达映射至预先构建的高维空间，例如，将在二维平面中坐标形式的低维特在表达(x，y)映射至预先构建的三维空间中以(x，y，z)进行表达，将特征的维度提高，有利于提高对所述特征进行选择性输出时的精确度，进而提高筛选出的目标帧的精确度。

详细地，所述预设的分类器包括但不限于SVM分类器等具有特征分类功能的软件、程序等。

本申请实施例中国，通过提取每一个镜头片段中的关键帧，筛选出所述关键帧中包含地标的目标帧，有利于减少对所述视频片段进行分析时，需要处理的数据量，提高分析效率和精确度。

S2、逐个选取其中一帧目标帧，提取选取的所述目标帧的全局特征，计算所述全局特征与预先获取的预设多个地标对应的标准全局特征的全局相似度，并选择所述全局相似度大于预设第一阈值的地标为候选地标。

本申请其中一个实施例中，由于在进行地标识别时，需要对目标帧中的每一帧图像进行详细分析，当对视频片段的关键帧进行筛选得到的目标帧的数量较多时，依旧会造成分析效率低下的问题。

因此，本申请实施例提取所述目标帧中每一帧图像的全局特征，以对所述目标帧进行分析，避免直接对所述目标帧中的每一帧图像进行详细的分析，以提高分析效率，其中，所述全局特征包括图像的颜色特征、形状特征、纹理特征等用于描述图像整体的特征。

本申请实施例中，可从所述目标帧中逐个选取其中一帧图像为目标帧，提取所述目标帧的全局特征，并返回选取目标帧的步骤，直至提取出所述目标帧中每一帧图像的全局特征。

本申请实施例中，可采用HOG(Histogram of Oriented Gradient，方向梯度直方图)、DPM(Deformable Part Model，可变性组件模型)、LBP(Local Binary Patterns，局部二值模式)等方式来提取所述目标帧的全局特征。

本申请其中一个实施例中，参图2所示，所述提取选取的所述目标帧的全局特征，包括：

S21、将选取的所述目标帧转换为灰度图像，对所述灰度图像进行色彩空间归一化，得到标准图像；

S22、将所述标准图像按照预设比例划分为多个图像块，计算每一个图像块中每个像素的像素梯度，根据所述像素梯度统计得到每一个图像块的梯度直方图；

S23、将所述梯度直方图转换为向量，并将所有梯度直方图的向量进行拼接，得到所述目标帧的全局特征。

详细地，可通过最大值平均法、最小值平均法、加权平均法等方式将所述目标帧转换为灰度图像，进而利用预设的归一化公式对所述灰度图像中每一点的像素值进行归一化运算，以将所述灰度图像中每一点的像素值映射至预设值域内，实现对所述灰度图像进行色彩空间归一化，得到标准图像。

示例性地，所述归一化公式可以为：

其中，Z_i为所述灰度图像中第i个像素的归一化数值，x_i为所述灰度图像中第i个像素的像素值，max(X)为所述灰度图像中最大的像素值，min(X)为所述灰度图像中最小的像素值。

本实施例中，通过对所述灰度图像进行色彩空间归一化，可调节图像的对比度，降低图像局部的阴影和光照变化对图像全局特征所造成的影响，有利于提高提取全局特征的精确度。

进一步地，可将所述标准图像按照预设比例划分为多个图像块，并逐一计算每一个像素块中每个像素的像素梯度，通过计算像素梯度，可捕获所述标准图像中物体的轮廓信息，同时进一步弱化光照的干扰，提高提取全局特征的精确度。

其中，可利用预设的梯度算法计算每一个图像块中每个像素的像素梯度，所述梯度算法包括但不限于二维离散求导算法、soble算子等。

本申请实施例可根据所述像素梯度，统计出每个图像块中的梯度直方图，进而利用所述梯度直方图中各梯度的值，生成用于标识该梯度直方图的向量，并将所有梯度直方图的向量拼接为所述目标帧的全局特征。

本发明另一实施例中，所述提取选取的所述目标帧的全局特征，包括：

详细地，所述第一像素点通常为1，所述第二像素点通常为0。

例如，以3*3的比例将所述标准图像划分为多个图像块后，选取的目标帧块为：

可知，该图像块中，中心点即为所述中心像素，且像素值为83，则将该图像块中每个点的像素值与该中心像素的像素值进行比对，并将大于或等于所述中心像素点的像素值重置为第一像素点(1)，将小于所述中心像素点的像素值重置为第一像素点(0)，得到如下转换后的目标帧块：

0	1	1
			0	1
0	1	1

进而，若按照顺时针的顺序对该目标帧中被重置的像素值进行统计，可得到01111100，按照预设的进制转换规则(如十进制转换规则)对得到的数值进行转换，得到(01111100)₁₀＝124，则124即为所述目标帧块的图像块数值。

本申请实施例汇集所有目标帧块的图像块的图像块数值为所述目标帧的全局特征。

例如，所述目标帧中包含4个图像块，每个图像块对应的图像块数值分别为124、88、36和158，则可将四个图像块的图像块数值汇集为(124，88，36，158)的向量形式，并将该向量作为所述目标帧的全局特征。

本申请实施例中，可计算所述全局特征与预先获取的预设多个地标对应的标准全局特征的全局相似度，进而按照所述全局相似度，从所述多个地标中筛选出与标准图像相似的地标为候选地标。

详细地，所述标准全局特征为预先从多个地标的图像中进行全局特征提取所得到的，每个地标对应的全局特征。

例如，预先获取的预设多个地标对应的标准全局特征包括：地标A对应的标准全局特征a，地标B对应的标准全局特征b和地标C对应的标准全局特征c，其中，经过计算可知，所述全局特征与标准全局特征a的全局相似度为80，所述全局特征与标准全局特征b的全局相似度为70，所述全局特征与标准全局特征c的全局相似度为30，当所述预设第一阈值为60时，则汇集地标A和地标B为候选地标。

本申请其中一个实施例中，所述计算所述全局特征与预先获取的预设多个地标对应的标准全局特征的全局相似度，包括：

本申请其他实施例中，还可通过欧式距离算法、预先距离算法等具有相似度计算功能的算法计算所述全局特征与预先获取的预设多个地标对应的标准全局特征的全局相似度。

本申请其他实施例中，还可利用预先训练的第一神经网络提取选取的所述目标帧的全局特征，其中，所述第一神经网络包括但不限于CNN网络、RNN网络、RCNN网络等具有图像特征提取功能的网络。

本申请实施例通过分别计算所述全局特征与预先获取的预设多个地标对应的标准全局特征的全局相似度，并汇集所述全局相似度大于预设第一阈值的标准全局特征对应的地标为候选地标，可实现利用全局特征对预设多个地标的粗略筛选，获取与目标帧相似的地标，有利于提高进行地标识别的效率。

S3、提取选取的所述目标帧的局部特征，计算所述局部特征与预先获取的与所述候选地标对应的标准局部特征的局部相似度，选择所述局部相似度最大的候选地标为选取的所述目标帧的地标。

本申请其中一个实际应用场景中，由于所述候选地标是通过全局特征筛选得到的，但全局特征为了尽可能包含图像更多的全局信息，会丢失图像大量的细节信息，进而导致利用全局特征筛选出的候选地标中可能会存在误选的情况。

因此，本申请实施例为了提高进行地标识别的精确度，提取所述目标帧的局部特征，并将所述局部特征与预设的预先获取的与所述候选地标对应的标准局部特征进行相似度计算，得到所述标准图像的局部特征与预先获取的与所述候选地标对应的标准局部特征之间的局部相似度，进而利用所述局部相似度对所述候选地标进行进一步筛选，以确定所述目标帧的地标，提高了识别所述目标帧的地标的精确度。

本申请实施例中，可采用LOG(Laplacian of Gaussian，高斯拉普拉斯算子检测)、DOH(Dot of Hessian，斑点检测)、SIFT(Scale-invariant feature transform，尺度不变特征转换)等方法提取所述目标帧的局部特征，所述局部特征包括但不限于斑点和角点。

本申请其中一个实施例中，参图3所示，所述提取选择的所述目标帧的局部特征，包括：

S31、利用预设核函数构建尺度空间，将选择的所述目标帧映射至所述尺度空间中，在所述尺度空间中；

S32、从所述目标帧的像素点中逐个选取其中一个像素点为目标像素点；

S33、判断所述目标像素点的像素值在预设邻域内是否为极值；

当所述目标像素点的像素值在所述预设邻域内不为极值，则返回S32；

当所述目标像素点的像素值在所述预设邻域内为极值时，则执行S34、确定所述目标像素点为关键点；

S35、计算所述关键点的像素对比度，汇集所述像素对比度大于预设对比度阈值的关键点为所述目标帧的特征点；

S36、计算每一个所述特征点的特征像素梯度，将所述像素梯度进行归一化处理，并将归一化后的特征像素梯度汇集为所述目标帧的局部特征。

示例性地，所述预设核函数可以为高斯函数，可利用所述高斯函数构建如下尺度空间：

L(x，y，σ)＝G(x，y，σ)*I(x，y)

其中，L(x，y，σ)为所述尺度空间的数值表达，G(x，y，σ)为所述高斯函数，I(x，y)为所述目标帧，x为所述目标帧中像素点的横坐标，y为所述目标帧中像素点的纵坐标，σ为预设参数。

可按照上述尺度空间的算法公式，将所述目标帧映射至所述尺度空间中。

本申请实施例中，所述极值包括极大值与极小值，当所述目标像素点的像素值在所述预设领域内为极大值或极小值时，即确定所述目标像素点为所述目标帧的关键点。

详细地，可利用预设的python程序计算所述关键点的像素对比度，并汇集所述像素对比度大于预设对比度阈值的关键点为所述目标帧的特征点。

具体地，所述计算每一个所述特征点的特征像素梯度的步骤，与S2中计算所述全局特征与预先获取的预设多个地标对应的标准全局特征的全局相似度的步骤一致，在此不做赘述。

所述将所述像素梯度进行归一化处理的步骤，与S2中提取所述目标帧的全局特征时，对所述灰度图像进行色彩空间归一化的步骤一致，在此不做赘述。

进一步地，本申请实施例可分别计算所述局部特征与预先获取的与所述候选地标对应的标准局部特征的局部相似度，确定所述局部相似度最大的标准局部特征对应的地标为所述目标帧的地标。

详细地，所述标准局部特征为预先从多个地标的图像中进行局部特征提取所得到的，每个地标对应的局部特征。

具体地，所述分别计算所述局部特征与预先获取的与所述候选地标对应的标准局部特征的局部相似度的步骤，与S3中分别计算所述全局特征与预先获取的预设多个地标对应的标准全局特征的全局相似度的步骤一致，在此不做赘述。

本申请其他实施例中，还可利用预先训练的第二神经网络提取选择的所述目标帧的局部特征，其中，所述第二神经网络包括但不限于CNN网络、RNN网络、RCNN网络等具有图像特征提取功能的网络。

S4、根据每一个所述目标帧为中心对所述视频片段中的所有帧执行聚类操作，将所述视频片段分成多组图像，在每组图像中，根据所述目标帧的地标设置该组图像的地标标识。

本申请其中一个实际应用场景中，由于所述目标帧仅是所述视频片段中的部分关键帧，因此，为了实现对整个视频片段中不同地标进行识别，需要利用所述目标帧对所述视频片段中每一帧图像进行标记。

因此，本申请实施例中，当确定了所述目标帧中每一帧图像的地标后，可利用预设的聚类算法，根据所述目标帧对所述视频片段中的每一帧图像进行聚类，并将与所述目标帧属于同一类别的图像均利用所述目标帧对应的地标进行标记。

例如，所述目标帧包括：目标帧A对应的地标为a，以及目标帧B对应的地标为b，所述视频片段中包括100帧图像，经过聚类算法运算后，可知，第1帧至第39帧图像与目标帧A属于相同类别，第40帧至第100帧与目标帧B属于相同类别，因此，将第1帧至第39帧图像利用地标a进行标记，将第40帧至第100帧图像利用地标b进行标记。

本申请实施例中，可采用K-means算法、均值漂移聚类算法、最大期望聚类算法等具有聚类功能的算法根据所述目标帧对所述视频片段中的每一帧图像进行聚类。

本申请其中一个实施例中，所述根据所述目标帧对所述视频片段中的每一帧图像进行聚类，包括：

将所述视频片段中每一帧图像转化为图像向量；

将每一个所述目标帧的图像向量作为中心向量；

从所述图像向量中逐个选取其中一个向量为目标向量，分别计算所述目标向量与每一个所述中心向量之间的距离值，确定所述距离值最小的目标向量对应的图像与所述中心向量对应的目标帧属于相同类别。

例如，存在目标帧A和目标帧B，其中，目标帧A对应的图像向量为a，目标帧B对应的图像向量为b，将图像向量a和图像向量b，当选取目标向量c后，分别计算目标向量c与图像向量a、图像向量b之间的距离值，得到目标向量c与图像向量a之间的距离值为80，目标向量c与图像向量b之间的距离值为20，则确定目标向量c对应的图像C与目标帧A属于同一类别。

详细地，可利用预设的向量转换模型将所述视频片段中每一帧图像转化为图像向量，所述向量转换模型包括但不限于Transforming模型、GANs模型等。

本申请实施例中，还可利用欧式距离算法、余弦距离算法分别计算所述目标向量与每一个所述中心向量之间的距离值。

本申请实施例中，所述根据所述目标帧对所述视频片段中的每一帧图像进行聚类，得到所述视频片段中每一帧图像的地标之后，所述方法还包括：按照所述视频片段中每一帧的地标将所述视频片段划分为多组图像，并根据所述目标帧的地标设置每一组图像的地标标识。

例如，所述视频片段中包含100帧图像，其中，第1帧至第39帧图像为地标a，第40帧至第100帧图像为地标b，则按照所述地标将所述视频片段划分为以第一帧为起始，第39帧为结束的地标片段中所有图像的地标标识设置为地标a；以第40帧为起始，第100帧为结束的地标片段中所有图像的地标标识设置为地标b。

如图4所示，本申请实施例提供了一种视频片段中地标识别装置10的模块示意图，所述视频片段中地标识别装置10，包括：关键帧提取模块11、全局特征提取模块12、局部特征提取模块13和图像聚类模块14。

所述关键帧提取模块11，用于提取视频片段中的关键帧，从所述关键帧中筛选出包含地标的帧作为目标帧；

所述全局特征提取模块12，用于逐个选取其中一帧目标帧，提取选取的所述目标帧的全局特征，计算所述全局特征与预先获取的预设多个地标对应的标准全局特征的全局相似度，并选择所述全局相似度大于预设第一阈值的地标为候选地标；

所述局部特征提取模块13，用于提取选取的所述目标帧的局部特征，计算所述局部特征与预先获取的与所述候选地标对应的标准局部特征的局部相似度，选择所述局部相似度最大的候选地标为选取的所述目标帧的地标；

所述图像聚类模块14，用于根据每一个所述目标帧为中心对所述视频片段中的所有帧执行聚类操作，将所述视频片段分成多组图像，在每组图像中，根据所述目标帧的地标设置该组图像的地标标识。

如图5所示，本申请实施例提供了一种基于隐私信息的音频溯源设备，包括处理器111、通信接口112、存储器113和通信总线114，其中，处理器111，通信接口112，存储器113通过通信总线114完成相互间的通信，

存储器113，用于存放计算机程序；

在本申请一个实施例中，处理器111，用于执行存储器113上所存放的程序时，实现前述任意一个方法实施例提供的XX的控制方法，包括：

本申请实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如前述任意一个方法实施例提供的视频片段中地标识别方法的步骤。

需要说明的是，在本文中，诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所述仅是本发明的具体实施方式，使本领域技术人员能够理解或实现本发明。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所申请的原理和新颖特点相一致的最宽的范围。

Claims

1.一种视频片段中地标识别方法，其特征在于，所述方法包括：

2.根据权利要求1所述视频片段中地标识别的方法，其特征在于，所述从所述关键帧中筛选出包含地标的帧作为目标帧，包括：

提取每一个所述关键帧对应的低维特征表达；

3.根据权利要求1所述的视频片段中地标识别方法，其特征在于，所述提取选取的所述目标帧的全局特征，包括：

4.根据权利要求1所述的视频片段中地标识别方法，其特征在于，所述提取选取的所述目标帧的全局特征，包括：

5.根据权利要求1所述的视频片段中地标识别方法，其特征在于，所述计算所述全局特征与预先获取的预设多个地标对应的标准全局特征的全局相似度，包括：

6.根据权利要求1所述的视频片段中地标识别方法，其特征在于，所述提取选取的所述目标帧的局部特征，包括：

判断所述目标像素点的像素值在预设邻域内是否为极值；

7.根据权利要求1至6中任一项所述的视频片段中地标识别方法，其特征在于，所述根据每一个所述目标帧为中心对所述视频片段中的所有帧执行聚类操作，包括：

将所述视频片段中每一帧图像转化为图像向量；

将每一个所述目标帧的图像向量作为中心向量；

8.一种视频片段中地标识别装置，其特征在于，所述装置包括：

9.一种电子设备，其特征在于，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现权利要求1-7任一项所述的视频片段中地标识别方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1-7任一项所述的视频片段中地标识别方法的步骤。