CN114782866B

CN114782866B - 地理标记视频的相似度确定方法、装置、电子设备及介质

Info

Publication number: CN114782866B
Application number: CN202210417377.1A
Authority: CN
Inventors: 丁伟; 张玮; 周岩; 史慧玲; 刘礼彬; 郝昊; 于清宾
Original assignee: Shandong Computer Science Center National Super Computing Center in Jinan
Current assignee: Shandong Computer Science Center National Super Computing Center in Jinan
Priority date: 2022-04-20
Filing date: 2022-04-20
Publication date: 2024-03-08
Anticipated expiration: 2042-04-20
Also published as: CN114782866A

Abstract

本发明涉及一种地理标记视频的相似度确定方法、装置、电子设备及介质，该方法包括：获取待处理的第一视频和第二视频，第一视频和第二视频均为地理标记视频；基于数据库缓存区的内存容量阈值，分别对第一视频和第二视频进行分割，得到多个目标分割视频场景；对于属于同一个视频的每个目标分割视频场景，将至少一个目标分割视频场景中的满足聚类条件的目标分割视频场景进行合并，得到至少一个目标视频场景；根据至少一个目标视频场景中每个目标视频场景对应的视场区域，确定第一视频和第二视频之间的视频相似度。通过本发明的方法，可减少数据处理量，减少算法复杂度，提高数据处理效率。

Description

地理标记视频的相似度确定方法、装置、电子设备及介质

技术领域

本发明涉及数据挖掘、信息处理和移动多媒体技术领域，具体而言，本发明涉及一种地理标记视频的相似度确定方法、装置、电子设备及介质。

背景技术

移动传感技术的发展在日常生活中生成了大量地理参考视频数据，许多研发人员针对地理标记视频的查询处理开发大量应用程序。例如，伯克利收集地理标记视频数据分析用户驾驶模式。此外，地理标记视频在智慧交通方面的出行推荐、智慧旅游方面的个性化旅游定制方案等也有大量的应用。其中，一项重要的工作就是计算地理标记视频的相似度，通过挖掘地理标记视频的上下文感知信息，聚类相似的视频数据集，以进一步了解用户行为。

地理标记视频是一种新兴的视频多媒体文件，通过FoV(Field-of-View)模型表示视频可视区域的场景。FoV模型由可视信息，包括时间、空间位置、可视角度、可视方向和可视距离组成。通过从地理标记视频中提取GPS、可视区域等信息，能够在数据层面构建地理标记视频。

地理标记视频相似度测量的一种可行性方法是逐帧比较法，首先，通过视觉场景(FoV)模型对可视区域进行建模，计算视频帧可视区域的相交面积与合并面积的比值衡量相似性。然后，逐帧比较视频序列的可视区域重叠面积，根据重叠区域的相似性标记地理标记视频帧的相似度。最后，通过比较视频帧的相似度获取相似的地理标记视频。然而，面向海量地理标记视频数据，视频相似度算法的研究仍有不足。

如图1所示，现有技术中的地理标记视频表示模型包括：视频级、场景级、镜头级和帧级，其中，逐帧比较技术在计算地理标记视频相似度时，通过大量比对视频帧序列的重叠区域来获得相似度值，时间复杂度为O(n2)，计算时间成本花费过高。由于基于视频帧的相似度算法难以快速完成帧数较多的地理标记视频相似性计算，因此，需要提出一种场景级快速计算地理标记视频相似度的解决方案。

发明内容

本发明所要解决的技术问题是提供了一种地理标记视频的相似度确定方法、装置、电子设备及介质，旨在解决上述至少一个技术问题。

第一方面，本发明解决上述技术问题的技术方案如下：一种地理标记视频的相似度确定方法，该方法包括：

获取待处理的第一视频和第二视频，第一视频和第二视频均为地理标记视频；

基于数据库缓存区的内存容量阈值，分别对第一视频和第二视频进行分割，得到多个目标分割视频场景，多个目标分割视频场景包括第一视频对应的至少一个第一目标分割视频场景和第二视频对应的至少一个第二目标分割视频场景，每个目标分割视频场景对应一个视频帧序列；

对于属于同一个视频的每个目标分割视频场景，将至少一个目标分割视频场景中的满足聚类条件的目标分割视频场景进行合并，得到至少一个目标视频场景，属于同一个视频的目标视频场景对应同一个视场区域，聚类条件为至少一个目标分割视频场景中最相似的至少两个目标分割视频场景；

根据至少一个目标视频场景中每个目标视频场景对应的视场区域，确定第一视频和第二视频之间的视频相似度。

本发明的有益效果是：在本发明的方案中，基于数据库缓存区的内存容量阈值，分别对第一视频和第二视频进行分割，得到多个目标分割视频场景，每个目标分割视频场景对应一个视频帧序列，对于属于同一个视频的每个目标分割视频场景，将至少一个目标分割视频场景中的满足聚类条件的目标分割视频场景进行合并，得到至少一个目标视频场景，按照第一视频和第二视频中的每个目标视频场景对应的视场区域，确定第一视频和第二视频之间的视频相似度，由于一个目标视频场景对应一个视频帧序列，则基于目标视频场景确定第一视频和第二视频之间的相似度，可减少数据处理量，减少算法复杂度，提高数据处理效率。

在上述技术方案的基础上，本发明还可以做如下改进。

进一步，上述基于数据库缓存区的内存容量阈值，分别对第一视频和第二视频进行分割，得到多个目标分割视频场景，包括：

基于数据库缓存区的内存容量阈值，分别对第一视频和第二视频进行分割，得到多个初始分割视频场景，多个初始分割视频场景包括第一视频对应的至少一个第一初始分割视频场景，以及第二视频对应的至少一个第二初始分割视频场景；

确定每个初始分割视频场景对应的视频特征信息，对于每个初始分割视频场景，视频特征信息包括初始分割视频场景的地理空间位置和拍摄方向区间中的至少一项；

对于每个初始分割视频场景，根据初始分割视频场景的视频特征信息和设定条件，对初始分割视频场景进行分割，得到至少一个目标分割视频场景；

其中，设定条件包括视频特征信息小于设定阈值，设定阈值包括轨迹偏移量阈值和视频拍摄方向阈值中的至少一项。

采用上述进一步方案的有益效果是，在分别对第一视频和第二视频进行分割，得到至少一个目标分割视频场景过程时，先按照内存容量阈值进行粗分割，得到多个初始分割视频场景，然后再基于初始分割视频场景对应的视频特征信息和设定条件对各个多个初始分割视频场景进行细分割，得到至少一个目标分割视频场景，使得分割得到的至少一个目标分割视频场景更加准确。

进一步，对于每个目标视频场景，该目标视频场景对应的视场区域是通过以下方式确定的：

确定初始分割视频场景对应的地理空间位置；

根据初始分割视频场景对应的地理空间位置，确定包含初始分割视频场景对应的地理空间位置的最小边界倾斜矩形MBTR，将最小边界倾斜矩形MBTR对应的区域确定为目标视频场景对应的视场区域；

其中，最小边界倾斜矩形MBTR指的是包含初始分割视频场景对应的地理空间位置对应的面积最小区域。

采用上述进一步方案的有益效果是，在确定标视频场景对应的视场区域时，可基于地理空间位置确定最小边界倾斜矩形MBTR，这样确定的视场区域更加准确，以使后续基于目标视频场景对应的视场区域确定第一视频和第二视频的相似度更加准确。

进一步，该方法还包括：

对于第一视频对应的第一目标视频场景和第二视频对应的第二目标视频场景，根据每个第一目标视频场景对应的视场区域，以及每个第二目标视频场景对应的视场区域，确定第一视频对应的第一目标视频场景和第二视频对应的第二目标视频场景中是否存在具有公共视场区域，且该公共视场区域的面积最大的子序列，子序列中包括一个第一目标视频场景和一个第二目标视频场景；

若存在子序列，根据至少一个目标视频场景中每个目标视频场景对应的视场区域，确定第一视频和第二视频之间的视频相似度，包括：

根据第一视频对应的每个第一目标视频场景对应的视场区域、子序列中每个目标视频场景对应的视场区域、第二视频对应的每个第二目标视频场景对应的视场区域和子序列中的每个目标视频场景对应的拍摄时间，确定第一视频和第二视频之间的视频相似度；

若不存在子序列，根据至少一个目标视频场景中每个目标视频场景对应的视场区域，确定第一视频和第二视频之间的视频相似度，包括：

根据第一视频对应的每个第一目标视频场景的视频区域和第二视频对应的每个第二目标视频场景的视频区域，确定第一视频和第二视频之间的视频相似度。

采用上述进一步方案的有益效果是，在确定第一视频和第二视频之间的视频相似度的过程中，先判断第一视频对应的第一目标视频场景和第二视频对应的第二目标视频场景中是否存在具有公共视场区域，且该公共视场区域的面积最大的子序列，对于存在和不存在该子序列的两种情况，可采用不同的方式确定第一视频和第二视频之间的视频相似度，这样对于不同情况的目标视频场景，可以更加准确的确定出第一视频和第二视频之间的视频相似度。

进一步，该方法还包括：

对于第三视频对应的每个第三目标视频场景，根据第三目标视频场景对应的视场区域，确定第四视频对应的第四目标视频场景中与第三目标视频场景相似的第四目标视频场景；

对于每个第三目标视频场景，若与第三目标视频场景相似的第四目标视频场景为至少两个第四目标视频场景，对至少两个第四目标视频场景进行聚类，得到第四视频对应的关键视频场景簇；

对于每个第三目标视频场景，根据第三目标视频场景对应的视场区域和第四视频对应的关键视频场景簇对应的视场区域，确定第三目标视频场景和第四视频对应的关键视频场景簇对应的视频场景之间的场景相似度；

其中，若第三视频为第一视频，第三目标视频场景为第一目标视频场景，第四视频为第二视频，第四目标视频场景为第二目标视频场景；若第三视频为第二视频，则第三目标视频场景为第二目标视频场景，第四视频为第一视频，第四目标视频场景为第一目标视频场景；

对于第一视频对应的第一目标视频场景和第二视频对应的第二目标视频场景，根据每个第一目标视频场景对应的视场区域，以及每个第二目标视频场景对应的视场区域，确定第一视频对应的第一目标视频场景和第二视频对应的第二目标视频场景中是否存在具有公共视场区域，且该公共视场区域的面积最大的子序列，包括：

对于每个第三目标视频场景，根据第三目标视频场景和第四视频对应的关键视频场景簇对应的视频场景之间的场景相似度，从第四视频对应的第四目标视频场景中筛选出符合场景相似条件的第五目标视频场景；

对于每个第三目标视频场景，根据第三目标视频场景对应的视场区域，以及第五目标视频场景对应的视场区域，确定第三目标视频场景和第五目标视频场景中是否存在具有公共视场区域，且该公共视场区域面积最大的子序列，子序列包括一个第三目标视频场景和一个第五目标视频场景；

若存在子序列，根据第一视频对应的每个第一目标视频场景对应的视场区域、子序列中每个目标视频场景对应的视场区域、第二视频对应的每个第二目标视频场景对应的视场区域和子序列中的每个目标视频场景对应的拍摄时间，确定第一视频和第二视频之间的视频相似度，包括：

根据子序列中的每个目标视频场景对应的拍摄时间，确定子序列中两个目标视频场景之间的时间差异；

若时间差异大于预设的时间差异阈值，则根据子序列中每个目标视频场景对应的视场区域和子序列所对应的场景相似度，确定第一视频和第二视频之间的视频相似度，其中，子序列所对应的场景相似度为子序列中的第三目标视频场景和第四视频对应的关键视频场景簇对应的视频场景之间的场景相似度；

若时间差异不大于时间差异阈值，则根据第一视频对应的每个第一目标视频场景对应的视场区域、第二视频对应的每个第二目标视频场景对应的视场区域和子序列中每个目标视频场景对应的视场区域，确定第一视频和第二视频之间的视频相似度。

采用上述进一步方案的有益效果是，在确定子序列的过程中，先对第一视频对应的第一目标视频场景和第二视频对应的第二目标视频场景进行聚类，再基于聚类得到的关键视频场景簇和第四视频对应的关键视频场景簇对应的视频场景之间的场景相似度，确定第四视频对应的第四目标视频场景中符合场景相似条件的第五目标视频场景，最后再基于第五目标视频场景对应的视场区域和第三目标视频场景对应的视场区域，确定子序列，这样可以进一步减少数据处理量；在确定了子序列之后，可结合子序列中的每个目标视频场景对应的拍摄时间进行视频相似度的确定，使得确定的视频相似度更加准确。

进一步，该方法还包括：

根据各个目标视频场景对应的视频数据、地理标识和存储位置，构建R*树结构索引，对于每个目标视频场景，视频数据包括目标视频场景对应的视场区域和可视方向，存储位置表示视频数据的存储位置；

其中，R*树结构索引中的根节点对应的地理标识为一级地理标识，非叶子节点对应的地理标识为二级地理标识，叶子节点对应的地理标识为三级地理标识，一级地理标识对应的区域包括二级地理标识对应的区域，二级地理标识对应的区域包括三级地理标识对应的区域；

在接收到查询请求时，查询请求中包括待查询地理标识，待查询地理标识为一级地理标识、二级地理标识和三级地理标识中的任一项；

根据待查询地理标识，通过R*树结构索引，确定与待查询地理标识对应的视频数据的存储位置。

采用上述进一步方案的有益效果是，本发明方案中，基于目标视频场景对应的视频数据、地理标识和存储位置，构建R*树结构索引，这样在查询某个地理标识对应的视频数据时，可基于该R*树结构索引进行查找，通过R*树结构索引为用户提供了不同地理标识对应的视频数据的查找方法，提高用户查找速度。

进一步，上述根据各个目标视频场景对应的视频数据、地理标识和存储位置，构建R*树结构索引，包括：

若各个目标视频场景中存在视场区域的面积相同的目标视频场景，则根据面积相同的目标视频场景中每个目标视频场景对应的可视方向，确定面积相同的目标视频场景中每个目标视频场景对应的节点；

根据各个目标视频场景中除面积相同的目标视频场景之外的每个目标视频场景视频数据、地理标识、存储位置和面积相同的目标视频场景中每个目标视频场景对应的节点，构建R*树结构索引。

采用上述进一步方案的有益效果是，构建R*树结构索引的过程中，考虑到目标视频场景中存在视场区域的面积相同的目标视频场景，可以使得确定的每个节点表征的视频数据更加准确。

第二方面，本发明为了解决上述技术问题还提供了一种地理标记视频的相似度确定装置，该装置包括：

视频获取模块，用于获取待处理的第一视频和第二视频，第一视频和第二视频均为地理标记视频；

初始分割模块，用于基于数据库缓存区的内存容量阈值，分别对第一视频和第二视频进行分割，得到多个目标分割视频场景，多个目标分割视频场景包括第一视频对应的至少一个第一目标分割视频场景和第二视频对应的至少一个第二目标分割视频场景，每个目标分割视频场景对应一个视频帧序列；

目标视频场景确定模块，用于对于属于同一个视频的每个目标分割视频场景，将至少一个目标分割视频场景中的满足聚类条件的目标分割视频场景进行合并，得到至少一个目标视频场景，属于同一个视频的目标视频场景对应同一个视场区域，聚类条件为至少一个目标分割视频场景中最相似的至少两个目标分割视频场景；

相似度确定模块，用于根据至少一个目标视频场景中每个目标视频场景对应的视场区域，确定第一视频和第二视频之间的视频相似度。

第三方面，本发明为了解决上述技术问题还提供了一种电子设备，该电子设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行该计算机程序时实现本申请的地理标记视频的相似度确定方法。

第四方面，本发明为了解决上述技术问题还提供了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器执行时实现本申请的地理标记视频的相似度确定方法。

本申请附加的方面和优点将在下面的描述中部分给出，这些将从下面的描述中变得明显，或通过本申请的实践了解到。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对本发明实施例描述中所需要使用的附图作简单地介绍。

图1为本发明一个实施例提供的一种现有技术中的地理标记视频表示模型的示意图；

图2为本发明一个实施例提供的一种地理标记视频的相似度确定方法的流程示意图；

图3为本发明一个实施例提供的一种视频场景分割示意图的示意图；

图4为本发明一个实施例提供的一种基于轨迹偏移量阈值对初始分割视频场景进行分割的示意图；

图5为本发明一个实施例提供的一种基于视频拍摄方向阈值对初始分割视频场景进行分割的示意图；

图6为本发明一个实施例提供的一种最小边界倾斜矩形MBTR确定过程示意图；

图7为本发明一个实施例提供的一种基于可视区域聚类的视频场景相似度计算方法的示意图；

图8为本发明一个实施例提供的一种基于决策量对第一视频和第二视频对应的目标视频场景进行剪枝优化的示意图；

图9为本发明一个实施例提供的一种R*树结构索引示意图；

图10为本发明一个实施例提供的一种不良分裂的覆盖矩形面积和最佳分裂的覆盖矩形面积的示意图；

图11为本发明一个实施例提供的另一种地理标记视频的相似度确定方法的流程示意图；

图12为本发明一个实施例提供的一种实验框架示意图；

图13为本发明一个实施例提供的一种视频数据量对运行时间的影响的结果示意图；

图14为本发明一个实施例提供的一种可视角度对视频数据计算准确度的影响的结果示意图；

图15为本发明一个实施例提供的一种可视距离对视频数据计算准确度的影响的结果示意图；

图16为本发明一个实施例提供的一种地理标记视频的相似度确定装置的结构示意图；

图17为本发明一个实施例提供的一种电子设备的结构示意图。

具体实施方式

以下对本发明的原理和特征进行描述，所举实例只用于解释本发明，并非用于限定本发明的范围。

下面以具体实施例对本发明的技术方案以及本发明的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图，对本发明的实施例进行描述。

本发明实施例所提供的方案可以适用于任何需要在确定两个地理标记视频之间的视频相似度的应用场景中。本发明实施例提供了一种可能的实现方式，如图2所示，提供了一种地理标记视频的相似度确定方法的流程图，该方案可以由任一电子设备执行，例如，可以是终端设备，或者由终端设备和服务器共同执行。为描述方便，下面将以服务器作为执行主体为例对本发明实施例提供的方法进行说明，如图2中所示的流程图，该方法可以包括以下步骤：

步骤S110，获取待处理的第一视频和第二视频，第一视频和第二视频均为地理标记视频；

步骤S120，基于数据库缓存区的内存容量阈值，分别对第一视频和第二视频进行分割，得到多个目标分割视频场景，多个目标分割视频场景包括第一视频对应的至少一个第一目标分割视频场景和第二视频对应的至少一个第二目标分割视频场景，每个目标分割视频场景对应一个视频帧序列；

步骤S130，对于属于同一个视频的每个目标分割视频场景，将至少一个目标分割视频场景中的满足聚类条件的目标分割视频场景进行合并，得到至少一个目标视频场景，属于同一个视频的目标视频场景对应同一个视场区域，聚类条件为至少一个目标分割视频场景中最相似的至少两个目标分割视频场景；

步骤S140，根据至少一个目标视频场景中每个目标视频场景对应的视场区域，确定第一视频和第二视频之间的视频相似度。

通过本发明的方法，基于数据库缓存区的内存容量阈值，分别对第一视频和第二视频进行分割，得到多个目标分割视频场景，每个目标分割视频场景对应一个视频帧序列，对于属于同一个视频的每个目标分割视频场景，将至少一个目标分割视频场景中的满足聚类条件的目标分割视频场景进行合并，得到至少一个目标视频场景，按照第一视频和第二视频中的每个目标视频场景对应的视场区域，确定第一视频和第二视频之间的视频相似度，由于一个目标视频场景对应一个视频帧序列，则基于目标视频场景确定第一视频和第二视频之间的相似度，可减少数据处理量，减少算法复杂度，提高数据处理效率。

下面结合以下具体的实施例，对本发明的方案进行进一步的说明，在该实施例中，地理标记视频的相似度确定方法可以包括以下步骤：

步骤S110，获取待处理的第一视频和第二视频，第一视频和第二视频均为地理标记视频。

其中，第一视频和第二视频均为地理标记视频，本申请方案中，对于任两个地理标记视频均可采用本发明的方法，本示例中以第一视频和第二视频为例对本发明方案的原理进行阐述。

步骤S120，基于数据库缓存区的内存容量阈值，分别对第一视频和第二视频进行分割，得到多个目标分割视频场景，多个目标分割视频场景包括第一视频对应的至少一个第一目标分割视频场景和第二视频对应的至少一个第二目标分割视频场景，每个目标分割视频场景对应一个视频帧序列。

其中，数据库缓存区指的是用来存储第一视频和第二视频的视频数据的存储区，可选的，该数据库缓存区可以为PostgreSQL数据库，考虑到数据库缓存区的存储空间的大小，分别对第一视频和第二视频进行分割，得到多个目标分割视频场景，一个目标分割视频场景对应的至少一帧视频帧的数据量为内存容量阈值，在分割过程中，根据每个视频中的各视频帧的数据量，累计计算各视频帧的数据量之和，若该和大于内存容量阈值，则将该和对应的各视频帧进行分割，得到数据量之和等于内存容量阈值的视频数据，作为一个目标分割视频场景。按照此方法进行分割，每个目标分割视频场景对应一个视频帧序列，一个视频帧序列包括至少一帧视频图像，每个目标分割视频场景还可对应唯一一个场景标识。内存容量阈值可基于实际需求配置，通常小于数据库缓存区的存储空间的大小。

作为一个示例，参见图3中所示的视频场景分割示意图，以第一视频(记为VideoDB或者，Geo-referenced Viedo(地理标记视频))为例进行分割，该第一视频的视频标记mpid为1，数据类型为bigint，分割前该第一视频包括n帧图像，vi表示第i帧图像，i为不小于1，不大于n的正整数，内存容量阈值为8k，按照该内存容量阈值，对该第一视频进行分割，可得到3个目标分割视频场景，具体的，第一个目标分割视频场景中包括v1至vk帧视频图像，该第一个目标分割视频场景对应的场景标识segid为1，第二个目标分割视频场景中包括vk+1至vm帧视频图像，该第二个目标分割视频场景对应的场景标识segid为2，第三个目标分割视频场景中包括vm+1至vn帧视频图像，该第三个目标分割视频场景对应的场景标识segid为3。

可选的，对于每个视频，考虑到视频中各个初始分割视频场景各自对应的视频特征信息可能不同，则上述基于数据库缓存区的内存容量阈值，分别对第一视频和第二视频进行分割，得到多个目标分割视频场景，包括：

基于数据库缓存区的内存容量阈值，分别对第一视频和第二视频进行分割，得到多个初始分割视频场景，多个初始分割视频场景包括第一视频对应的至少一个第一初始分割视频场景，以及第二视频对应的至少一个第二初始分割视频场景；确定每个初始分割视频场景对应的视频特征信息，对于每个初始分割视频场景，视频特征信息包括初始分割视频场景的地理空间位置和拍摄方向区间中的至少一项；对于每个初始分割视频场景，根据初始分割视频场景的视频特征信息和设定条件，对初始分割视频场景进行分割，得到至少一个目标分割视频场景；其中，设定条件包括视频特征信息小于设定阈值，设定阈值包括轨迹偏移量阈值和视频拍摄方向阈值中的至少一项。

其中，在分割第一视频和第二视频的过程中，先基于数据库缓存区的内存容量阈值进行初始划分，得到多个初始分割视频场，然后再根据每个初始分割视频场景对应的视频特征信息和设定条件，对初始分割视频场景进行分割，这样使得划分的到的目标分割视频场景更加准确的表达视频的特征。

其中，由于视频特征信息包括初始分割视频场景的地理空间位置和拍摄方向区间中的至少一项，则设定条件可以包括地理空间位置对应的设定条件和拍摄方向区间对应的设定条件，对应的，地理空间位置对应的设定阈值为轨迹偏移量阈值，轨迹偏移量阈值指的是位置偏移对应的阈值；拍摄方向区间对应的设定阈值为视频拍摄方向阈值。由于一个初始分割视频场景对应的各帧视频帧图像是连续的视频帧图像，其对应的视频特征信息比较相近，则可将一个初始分割视频场景对应的视频特征信息理解为相同，即地理空间位置相同和/或拍摄方向区间相同。

其中，地理空间位置指的是初始分割视频场景的地理空间位置，可通过经纬度表示，拍摄方向区间指的是初始分割视频场景的拍摄方向对应的区间范围，作为一个示例，一个初始分割视频场景S，它包含N个视频帧，比如，N为4，这4帧视频帧对应的拍摄方向分别是【5°，10°，11°，18°】，则初始分割视频场景S对应的拍摄方向区间(可以称为可视区间)为【5°，18°】。

可选的，如果视频特征信息为地理空间位置和拍摄方向区间，则对于每个初始分割视频场景，在初始分割视频场景的地理空间位置小于轨迹偏移量阈值，且拍摄方向区间小于视频拍摄方向阈值时，对初始分割视频场景进行分割，得到至少一个目标分割视频场景。具体过程可参见以下公式(1)：

其中，S_i表示第i个视频场景，v_j表示一个初始分割视频场景对应的多个视频帧中的第j个视频帧(j∈1…n)，d(v₁，v_j)表示初始分割视频场景对应的多个视频帧中的第1个视频帧到第j帧视频帧对应的地理空间位置，v(v₁，v_j)表示初始分割视频场景对应的多个视频帧中的第1个视频帧到第j帧视频帧对应的拍摄方向区间，d_max表示轨迹偏移量阈值，v_max表示视频拍摄方向阈值。

通过上述公式(1)可知，在一个初始分割视频场景对应的多个视频帧中的第1个视频帧到第j帧视频帧对应的地理空间位置小于轨迹偏移量阈值，且该第1个视频帧到第j帧视频帧对应的拍摄方向区间小于视频拍摄方向阈值时，将这第1个视频帧到第j帧视频帧分割为一个目标分割视频场景。

可选的，上述轨迹偏移量阈值和视频拍摄方向阈值可通过以下方式确定：初始估计值T，表示视频场景集合所包含视频帧的平均移动偏移量或平均可视方向角度，然后对于一个地理标记视频，对该地理标记视频进行分割，得到两组小视频场景G₁和G₂，G₁为移动偏移量平均值大于T的视频帧组成，G₂为移动偏移量平均值小于等于T的视频帧组成，计算G₁的平均移动偏移量值表示为m₁，计算G₂的平均移动偏移量值表示为m₂，通过公式T₁＝(m₁+m₂)/2计算一个新的阈值T₁。重复上述操作步骤，直到连续迭代中的T₁值间的差足够精确，将最后确定出的T₁值作为轨迹偏移量阈值。

同理，可采用上述相同的方法，计算G₁和G₂的平均可视方向角度值，分别表示为n1和n2，通过公式T₂＝(n₁+n₂)/2计算一个新的阈值T₂。重复上述操作步骤，直到连续迭代中的T₂值间的差足够精确，将最后确定出的T₂值作为视频拍摄方向阈值。

作为一个示例，参见图4所示的基于轨迹偏移量阈值对初始分割视频场景进行分割的示意图，

图4左侧的三个空心圆点表示根据第一轨迹偏移量分割的一个初始分割视频场景对应的视频轨迹，该第一轨迹偏移量指的是根据该初始分割视频场景对应的地理空间位置确定的，黑色实心圆点表示分割后得到的目标分割视频场景对应的视频片段的起点和终点，图4右侧的多个空心圆点表示根据第二轨迹偏移量分割的另一个初始分割视频场景对应的视频轨迹，该第二轨迹偏移量指的是根据该初始分割视频场景对应的地理空间位置确定的，黑色实心圆点表示分割后得到的目标分割视频场景对应的视频片段的起点和终点，图4中的空心圆点形成的曲线表示视频轨迹的运动曲线，d_max为满足轨迹偏移量阈值时，分割得到的视频轨迹对应的最大偏移量，实线表示用于计算当前视频轨迹片段的轨迹偏移量的基准线。

参见图5所示的基于视频拍摄方向阈值对初始分割视频场景进行分割的示意图，图5中的各个扇形表示一个初始分割视频场景所包含的各帧图像，一个扇形表示一帧图像，一个扇形对应的角度表示一帧图像对应的拍摄方向区间，基于视频拍摄方向阈值，分别比对各个扇形对应的角度值，将大于该视频拍摄方向阈值的扇形对应的图像从该初始分割视频场景中删除，最终确定的目标分割视频场景中仅包括扇形的角度值小于该视频拍摄方向阈值的扇形对应的图像。

步骤S130，对于属于同一个视频的每个目标分割视频场景，将至少一个目标分割视频场景中的满足聚类条件的目标分割视频场景进行合并，得到至少一个目标视频场景，属于同一个视频的目标视频场景对应同一个视场区域，上述聚类条件为至少一个目标分割视频场景中最相似的至少两个目标分割视频场景。

其中，将属于同一个视频的各目标分割视频场景中最相似的至少两个目标分割视频场景进行聚类，这样可进一步减少数据处理量。

其中，一个目标视频场景对应的视场区域指的是该目标视频场景对应的地理位置区间，基于至少一个目标视频场景中每个目标视频场景对应的视场区域指的是基于第一视频对应的目标视频场景对应的视场区域以及第二视频对应的目标视频场景对应的视场区域，确定第一视频和第二视频之间的视频相似度。

可选的，在获取了每个初始分割视频场景的地理空间位置之后，可基于地理空间位置确定目标视频场景对应的视场区域，具体地，上述对于每个目标视频场景，目标视频场景对应的视场区域是通过以下方式确定的：确定初始分割视频场景对应的地理空间位置；根据初始分割视频场景对应的地理空间位置，确定包含初始分割视频场景对应的地理空间位置的最小边界倾斜矩形MBTR，将最小边界倾斜矩形MBTR对应的区域确定为目标视频场景对应的视场区域；其中，最小边界倾斜矩形MBTR指的是包含初始分割视频场景对应的地理空间位置对应的面积最小区域。

作为一个示例，例如一个初始分割视频场景S，它包含N个视频帧，地理位置分别是北京朝阳区、海淀区等等，视场区域就是包含北京市的最小面积的矩形，即最小边界倾斜矩形MBTR。具体可参见图6所示的最小边界倾斜矩形MBTR确定过程示意图，在图6中表示的一个初始分割视频场景S包括的多帧图像，图6中的每个扇形表示一帧图像，图6中的矩形即为该初始分割视频场景S对应的最小边界倾斜矩形MBTR。

可选的，该方法还包括：

对于第一视频对应的第一目标视频场景和第二视频对应的第二目标视频场景，根据每个第一目标视频场景对应的视场区域，以及每个第二目标视频场景对应的视场区域，确定第一视频对应的第一目标视频场景和第二视频对应的第二目标视频场景中是否存在具有公共视场区域，且该公共视场区域的面积最大的子序列，子序列中包括一个第一目标视频场景和一个第二目标视频场景。

本发明方案中提出基于最长公共子序列的方式对第一视频对应的第一目标视频场景和第二视频对应的第二目标视频场景进行过滤，可进一步减少数据处理量。其中，公共视场区域指的是两个目标视频场景对应的视场区域具有重叠部分，该子序列对应的区域也可称为最大公共可视区域。

具体的，如果存在子序列，上述根据至少一个目标视频场景中每个目标视频场景对应的视场区域，确定第一视频和第二视频之间的视频相似度，包括：

根据第一视频对应的每个第一目标视频场景对应的视场区域、子序列中每个目标视频场景对应的视场区域、第二视频对应的每个第二目标视频场景对应的视场区域和子序列中的每个目标视频场景对应的拍摄时间，确定第一视频和第二视频之间的视频相似度。若不存在子序列，根据至少一个目标视频场景中每个目标视频场景对应的视场区域，确定第一视频和第二视频之间的视频相似度，包括：根据第一视频对应的每个第一目标视频场景的视频区域和第二视频对应的每个第二目标视频场景的视频区域，确定第一视频和第二视频之间的视频相似度。

完全相似的地理标记视频会将其分割成不同的视频场景数据。因此，单一计算视频场景之间的相似度并不能准确的获得相似性结果(视频相似度)，则在本发明的方案中，可基于可视区域聚类的视频场景相似度计算方法，衡量地理标记视频场景之间的相似性，具体为：对于第三视频对应的每个第三目标视频场景，根据第三目标视频场景对应的视场区域，确定第四视频对应的第四目标视频场景中与第三目标视频场景相似的第四目标视频场景；对于每个第三目标视频场景，若与第三目标视频场景相似的第四目标视频场景为至少两个第四目标视频场景，对至少两个第四目标视频场景进行聚类，得到第四视频对应的关键视频场景簇；对于每个第三目标视频场景，根据第三目标视频场景对应的视场区域和第四视频对应的关键视频场景簇对应的视场区域，确定第三目标视频场景和第四视频对应的关键视频场景簇对应的视频场景之间的场景相似度；其中，若第三视频为第一视频，第三目标视频场景为第一目标视频场景，第四视频为第二视频，第四目标视频场景为第二目标视频场景；若第三视频为第二视频，则第三目标视频场景为第二目标视频场景，第四视频为第一视频，第四目标视频场景为第一目标视频场景。

其中，对于同一个视频，比如，第一视频对应的各个第一目标视频场景，可先基于其中一个第一目标视频场景与第二视频对应的各个第二目标视频场景的相似度先进行聚类，然后再计算第一视频和第二视频对应的场景相似度，通过场景相似度表征两个视频之间的相似性。

参见图7所示的基于可视区域聚类的视频场景相似度计算方法的示意图，场景相似度存在完全相似、部分相似、完全不相似三种情况。为了纠正部分相似的视频场景因采样频率不同、运动速度不同、采样时间不同，导致相似度计算结果错误的问题，可基于无监督模式的可视区域聚类方法对目标视频场景进行聚类，以贪心的方式弥补目标视频场景划分的计算误差。

在本发明方案中，对目标视频场景进行聚类的一种可实现方式为：以第一视频为例，对于第一视频所包含的多个第一目标视频场景，先确定各个第一目标视频场景中的聚类质心，然后再根据该聚类质心进行聚类，该聚类质心对应的是一个第一目标视频场景，记为目标视频场景A，从该目标视频场景A对应的第一视频中的各个第一目标视频场景中找到与该目标视频场景A的可视区域最相近的至少一个第一目标视频场景，将该至少一个第一目标视频场景对应的可视区域和该目标视频场景A对应的可视区域进行合并，作为关键视频场景簇(关键视频场景簇)，如图7所示，可视区域聚类方法的计算公式(2)如下：

cs_i＝view(s_i∪s_j∪s_k) (2)

其中，cs_i表示的是s_i聚类后对应的关键视频场景簇，V表示目标视频场景A对应的第一视频中各个第一目标视频场景所对应的序列，可表示为V＝{s₁，…s_n}，s_i表示的是第i个第一目标视频场景，s_j表示的是第j个第一目标视频场景，s_k表示的是第k个第一目标视频场景。view(s_i∪s_j∪s_k)表示聚类后的关键视频场景簇对应的可视区域，|s_i∪s_j∪s_k|表示目标视频场景i，j，k的可视区域合并后对应的最小边界倾斜矩形MBTR的面积。

其中，计算第一视频中的聚类质心的具体实现过程为：比如，第一视频包括多个第一目标视频场景，分别为A、B、C、D和E，A中的一个视频场景是从X的东门到西门，C中的一个视频场景为在X的中间位置，D中的一个视频场景是从中间位置到西门，E中的一个视频场景是从中间位置到东门，B中的一个视频场景是在X处的南门，对该A、B、C、D和E进行聚类，即将CDE聚到一起，聚类排列是：ECD，C就是聚类质心。

由于目标视频场景的可视区域与关键视频场景簇对应的可视区域存在包含、被包含、相交的情况，数据的稀疏度很高，通过传统的余弦相似度计算会产生误导性结果。因此，本发明可基于Jaccard系数计算场景相似度，主要思路是：通过计算视频场景与视频场景簇之间相交区域面积作为分子，两者之间最小的MBTR面积作为分母，取最大的比值结果表示相似度的度量值。接上例，基于关键视频场景簇的场景相似度计算公式(3)如下所示：

其中，Similarity表示场景相似度，S_i表示的是第i个目标视频场景(第三目标视频场景)，CS_l表示第四目标视频场景s_l聚类后对应的关键视频场景簇，CS_i表示第三目标视频场景S_i聚类后对应的关键视频场景簇。

在基于Jaccard系数计算场景相似度的过程中，还可先参见图8所示的基于决策量对第一视频和第二视频对应的目标视频场景进行剪枝优化的示意图，在图8中，V₁、V₂、V₃、V₄和V₅表示一个地理标记视频中所包含的各个目标视频场景，在T₁时间对应的目标视频场景V₃为例(对应图8中所示的查询视频V₃)，确定该V₃对应的拍摄时间分别与T₂时间对应的目标视频场景V₁、V₂、V₃、V₄和V₅对应的拍摄时间之间的相交时间(即每两个拍摄时间之间相重叠时间)，根据各个相交时间和预先设定的时间差异阈值，确定T₁时间对应的目标视频场景V₃与T₂时间对应的目标视频场景V₁、V₂、V₃、V₄和V₅之间的相似度，根据相似度对T₂时间对应的目标视频场景V₁、V₂、V₃、V₄和V₅进行剪枝，在本示例中，T₂时间对应的目标视频场景V₁和V₃被进行剪枝，以同样的方式，依次对T₃时间、T_n-1时间，一直到T_n时间对应的各目标视频场景进行剪枝，本示例中，对T_n-1时间对应的目标视频场景V₁、V₂、V₃、V₄和V₅中的V₁和V₅进行剪枝，对T_n时间对应的各目标视频场景V₁、V₂、V₃、V₄和V₅中的V1、V3和V4进行剪枝。然后根据各个剪枝处理后的目标视频场景确定关键视频场景簇并进行后续处理。

在本申请方案中，由于目标视频场景的数量是确定的，地理标记视频相似度的计算可以采用动态规划在目标视频场景的多项式时间内解决，本发明基于LCSS算法计算目标视频场景的最大公共可视区域。首先，定义视频场景序列A和B，即第一目标视频场景对应的视频场景序列，第二目标视频场景对应的视频场景序列，H(A)和H(B)分别是子序列中包括的第一目标视频场景和第二目标视频场景，对于第一视频对应的第一目标视频场景和第二视频对应的第二目标视频场景，根据每个第一目标视频场景对应的视场区域，以及每个第二目标视频场景对应的视场区域，确定第一视频对应的第一目标视频场景和第二视频对应的第二目标视频场景中是否存在具有公共视场区域，且该公共视场区域的面积最大的子序列，包括：

对于每个第三目标视频场景，根据第三目标视频场景对应的视场区域，以及第五目标视频场景对应的视场区域，确定第三目标视频场景和第五目标视频场景中是否存在具有公共视场区域，且该公共视场区域面积最大的子序列，子序列包括一个第三目标视频场景和一个第五目标视频场景。

若时间差异大于预设的时间差异阈值(该时间差异阈值可以与前文图8对应的时间差异阈值相同，也可以不同)，则根据子序列中每个目标视频场景对应的视场区域和子序列所对应的场景相似度，确定第一视频和第二视频之间的视频相似度，其中，子序列所对应的场景相似度为子序列中的第三目标视频场景和第四视频对应的关键视频场景簇对应的视频场景之间的场景相似度；

接上例，视频相似度可通过以下公式(4)确定：

其中，VVS表示视频相似度，(H(A)，H(B))表示一个子序列，Similarity表示该子序列所对应的场景相似度，A表示第一视频对应的第一目标视频场景，B表示第二视频对应的第二目标视频场景，H(A)表示该子序列中的第三目标视频场景，H(B)表示该子序列中的第五目标视频场景，σ表示地理标记视频第一视频A和第二视频B之间的时间差异阈值，t_i表示第一目标视频场景H(A)对应的拍摄时间，t_l表示的是第二目标视频场景H(B)对应的拍摄时间。

由于VVS的结果是最大公共可视区域的累加之和，这种方式不利于量化相似度的指标，因此，需要将结果归一化为一个可量化的尺度，获取标准度量特征的相似度值，归一化公式(5)如下所示：

其中，m和n分别表示第一视频A和第二视频B中目标视频场景的数量，min(m，n)表示基于最大公共可视区域计算地理标记视频相似度的最少目标视频场景的数量。

在确定了第一视频和第二视频的视频相似度之后，可根据上述确定第一视频和第二视频的视频相似度相同的方式，确定多个地理标记视频之间的视频相似度，然后为了后续便于对其中任一个视频场景的查找，可根据各个目标视频场景对应的视频数据、地理标识和存储位置，构建R*树结构索引，对于每个目标视频场景，视频数据包括目标视频场景对应的视场区域和可视方向，存储位置表示视频数据的存储位置；其中，R*树结构索引中的根节点对应的地理标识为一级地理标识，非叶子节点对应的地理标识为二级地理标识，叶子节点对应的地理标识为三级地理标识，一级地理标识对应的区域包括二级地理标识对应的区域，二级地理标识对应的区域包括三级地理标识对应的区域；在接收到查询请求时，查询请求中包括待查询地理标识，待查询地理标识为一级地理标识、二级地理标识和三级地理标识中的任一项；根据待查询地理标识，通过R*树结构索引，确定与待查询地理标识对应的视频数据的存储位置。

其中，一个目标视频场景对应的视频数据指的是该目标视频场景所包含的视频帧图像，地理标识表示的是该目标视频场景对应的地理位置，存储位置指的是该目标视频场景对应的视频数据的存储位置。

在本申请方案中，根据各个目标视频场景对应的视频数据、地理标识和存储位置，构建R*树结构索引的具体过程为：初始化设置N个节点，包括根节点、叶子节点和非叶子节点，然后，按照各个目标视频场景对应的地理标识的等级，将各个目标视频场景对应的视频数据存储至对应节点对应的存储位置，其中，一级地理标识通常对应的是根节点，二级地理标识通常对应的是非叶子节点，三级地理标识通常对应的是叶子节点。具体可参见图9所示的R*树结构索引示意图，图9中，所构建的R*树结构索引包括N1至N7共7个节点，N7为根节点，N5和N6为非叶子节点，N1至N4为叶子节点，N7对应的是一级地理标识，N5和N6对应的是二级地理标识，N1至N4对应的是三级地理标识。图9中的每个节点下对应显示的数据为该节点对应的地理位置数据和可视方向(拍摄方向)数据，以节点N7为例，其中，[37，43]，[13，15]，[50，65]，[12，18]表示的是该N7节点对应的目标视频场景中所包含的各帧图像的地理位置数据，[37，43]表示的是经纬度坐标；(230°，7°)和(24°，215°)表示的是该N7节点对应的目标视频场景中所包含的各帧图像的可视方向数据，[37，43]，[13，15]对应的可视方向数据为(230°，7°)，[50，65]，[12，18]]对应的可视方向数据为(24°，215°)。

在构建R*树结构索引的过程中，考虑到有些目标视频场景对应的视场区域的面积相同，则为了后续便于基于构建好的R*树结构索引准确查找到对应的视频数据，在本申请的方案中，上述根据各个目标视频场景对应的视频数据、地理标识和存储位置，构建R*树结构索引，包括：若各个目标视频场景中存在视场区域的面积相同的目标视频场景，则根据面积相同的目标视频场景中每个目标视频场景对应的可视方向，确定面积相同的目标视频场景中每个目标视频场景对应的节点；根据各个目标视频场景中除面积相同的目标视频场景之外的每个目标视频场景视频数据、地理标识、存储位置和面积相同的目标视频场景中每个目标视频场景对应的节点，构建R*树结构索引。

其中，如果各个目标视频场景中存在视场区域的面积相同的目标视频场景，可比较面积相同的目标视频场景中每个目标视频场景对应的可视方向，然后按照比较结果通过Split Node分裂算法分裂出一个新的节点，通过该新的节点存储和之前的节点一起存储该面积相同的目标视频场景对应的视频数据。比如，各个目标视频场景中存在视场区域的面积相同的两个目标视频场景a和b，比较两个场景a和b的可视方向，选择可视方向中最小的一个创建一个新的节点，通过该新的节点存储最小可视方向对应的视频数据。分裂出的新的节点的地理标识的等级小于可视方向最大的视频数据对应的地理标识。

可选的，上述基于Split Node分裂算法分裂新的节点的实现过程具体为：在创建索引结构时，由于每个叶子节点存储空间有限，为了解决选择一个合适的插入路径的问题，在R*树中对场景面积(视场区域的面积)、可视方向区间、场景最小边界矩形及覆盖组合起来考虑，以视场区域的面积相同的两个目标视频场景为例，这两个目标视频场景分别为视频1和视频2，视频1对应的节点为节点k，视频2对应的节点为节点i，先计算节点i对应的视场区域与节点k对应的视场区域是否存在重叠面积，然后基于该重叠面积增加新的节点。

其中，上述重叠面积可通过公式(6)计算，其中公式(6)为：

其中，N_k表示第k个节点(即节点k)，N_i表示第i个节点(即节点i)，overlap(N_k)表示第k个节点对应的视场区域和第i个节点对应的视场区域之间的重叠面积，p为R*树中节点的总个数，area(N_kMBR∩N_iMBR)表示的是节点k对应的视场区域的MBR面积和节点i对应的视场区域的MBR面积之间的交集。

基于上述的公式(6)，为了在一个已包含M个视频场景条目(一个目标视频场景对应一个节点，条目表示节点的含义)已满的节点中加入一个新的条目，即在包含M个节点的R*树中增加一个新的节点，需要把M+1个视频场景条目的集合分成两个节点集合，其中，M+1中的1表示的是所要新增加的节点，在基于Split Node分裂算法分裂一个新的节点的过程中，尽量使两个节点集合在接下来的搜索过程中不同时出现。因为访问一个节点集合取决于该节点集合对应的覆盖矩形的面积，两个覆盖矩形的总面积在分裂之后应保持重叠面积最小，即两个覆盖矩形之间的重叠面积最小，图10举例说明了不良分裂的覆盖矩形的面积要比最佳分裂情况下的面积大很多。地理标记视频的目标视频场景对应的节点分裂算法具体思路如下：

第一步，确定分裂节点指针：首先，调用Choose SplitAxis分裂维度方法，选择要分裂的维度。然后，在选择好的维度上调用Choose SplitIndexis分裂索引方法，算法结束后返回指向分裂后两个节点的指针。

第二步，分裂维度：首先，初始化最佳分裂维度设置为0，如果当前维度已经超过d-1(d为R*树的维度)，返回当前的最佳分裂维度。然后，在当前维度上对分裂节点(即包含所要新增加的节点的节点集合)的所有子节点(即包含所要新增加的节点的节点集合中的各节点)做两组从小到大的排序，第一组排序根据当前维度区间的下界，采用归并排序算法进行排序；第二组排序根据当前维度区间的上界。其中，当前维度区间指的当前维度对应的各目标视频场景的时间区间(拍摄时间对应的区间)或视场区域的面积区域，则当前维度区间的下界指的即是各时间区间中的最小区间或各视场区域的面积区域的最小面积。

接着，将分裂节点的所有子节点分裂为两个部分，第一部分包括前m-1+k个子节点，第二部分包含M+2-m-k个子节点，其中k的范围是1到M-2*m+2，M为目标视频场景的总数量。然后，用S₁和S₂表示两组排序的子节点，计算S₁和S₂的长度之和margin(S₁)+margin(S₂)，并将其累加。其中，margin指各个维度的区间长度之和，长度指的是时间区间或视频场景对应的面积区域，作为一个示例，比如，长度为时间区间，则margin(S₁)表示的S₁中包含的各子节点对应的时间区间之和，margin(S₂)表示S₂中包含的各子节点对应的时间区间之和。最后，如果长度总和(即margin(S₁)+margin(S₂))与以前维度(上一次分裂维度所获得的最佳分裂维度)所对应的长度总和相比更小，则将当前维度设置为最佳分裂维度，将当前维度加1，重复执行分裂维度。

第三步，分裂索引：首先，根据要分裂的节点和当前最佳分裂维度，在最佳分裂维度上，对分裂节点的所有子节点做两组从小到大排序，同上，第一组排序根据当前维度区间的下界，第二组排序根据当前维度区间的上界。然后，将分裂节点的所有子节点分裂为两个部分，第一部分包括前m-1+k个子节点，第二部分包含M+2-m-k个子节点。其中k的范围是1到M-2*m+2。用S₁和S₂表示两组排序的子节点，对两组排序计算S₁和S₂对应的视场区域之间的重叠部分的面积，选择重叠面积最小的分裂方案。其次，如果发生重叠面积相同的情况，则选择S₁和S₂中可视方向区间最小的一个，如果两个分裂方案可视方向区间也出现相同情况，选择两种方案中的视场区域对应的面积最小的一个。最后，输出最佳分裂排序，最佳分裂点。

为了更好的说明及理解本发明所提供的方法的原理，下面结合一个可选的具体实施例对本发明的方案进行说明。需要说明的是，该具体实施例中的各步骤的具体实现方式并不应当理解为对于本发明方案的限定，在本发明所提供的方案的原理的基础上，本领域技术人员能够想到的其他实现方式也应视为本发明的保护范围之内。

在本示例中，参见图11所示的流程图，在本示例中，地理标记视频的相似度确定方法包括以下三部分，其中：

第一部分为场景级地理标记视频模型，通过该模型可对地理标记视频进行分割，具体分割方式为：

采用地理标记视频场景分割算法对地理标记视频(图11中所示的视频，1为地理标记视频的个数)按照缓存区内存阈值(内存容量阈值)进行分割，得到多个初始分割视频场景(图11中所示的视频场景，图11中的n为初始分割视频场景的个数)，地理标记视频场景分割算法需要对视频序列按照一定的特征值(内存容量阈值)进行分割，调研目前常用的视频场景分割方法，没有针对计算机组件运行速度(磁盘<内存<缓存)进行视频分割的设计，导致分割后的地理标记视频出现“大场景”，即数据量大于内存容量阈值，影响了数据查询速度。因此，构建基于缓存区内存容量的视频分割方法，能够有效提升数据库缓存对视频数据的查询性能。

地理标记视频数据的查询在数据库中会经过查询分析、查询重写、查询规划和查询执行阶段，在查询规划阶段会选择出最优的地理标记视频数据查询计划，Postgres将查询计划缓存下来，如果查询存在于缓存的buffer(以8KB大小为单位的数组)，则直接命中，返回缓存的数据，避免I/O；反之，如果不存在，Postgres会通过I/O访问硬盘获取地理标记视频数据。具体思路如下：

获取缓存区内存阈值：地理标记视频的存储数据库为PostgreSQL，在该数据库中，查询数据库缓存区内存阈值的语句为：‘SELECT current_setting('block_size')’。

在确定了多个初始分割视频场景之后，确定每个初始分割视频场景对应的地理空间位置和拍摄方向区间，采用基于视频场景可视区域的全局阈值赋值方法，根据该地理空间位置和轨迹偏移量阈值(对应图11中所示的视频轨迹移动偏移阈值)，以及拍摄方向区间和视频拍摄方向阈值，对各个初始分割视频场景进行细化分割，得到n+m个目标分割视频场景。

第二部分为基于视频场景聚类的最大公共可视区域相似度算法，即确定两个地理标记视频(分别为第一视频和第二视频)之间的视频相似度的方案，具体过程为：

在确定了每个地理标记视频的目标分割视频场景之后，先调用模型，基于可视区域聚类的视频场景相似度计算方法，对每个地理标记视频进行聚类，得到每个地理标记视频对应的关键视频场景簇(对应图11中所示的场景聚类)，具体的聚类过程已在前文描述，在此不再赘述。

对于每个第三目标视频场景，根据第三目标视频场景对应的视场区域和第四视频对应的关键视频场景簇对应的视场区域，确定第三目标视频场景和第四视频对应的关键视频场景簇对应的视频场景之间的场景相似度(对应图11中所示的视频场景相似度)，然后基于最大公共可视区域的视频序列计算方法，根据可视距离阈值(符合场景相似条件)和时间差异阈值，确定第一视频和第二视频之间的视频相似度(对应图11中所示的地理标记视频相似度)。

第三部分为基于方向优化的视频场景R*树索引算法，即根据各个目标视频场景对应的视频数据、地理标识和存储位置，构建R*树结构索引，以供后续查询任一个目标视频场景对应的视频数据(对应图11中所示的查询场景)，具体过程为：

先通过地理标记视频场景范围查询方法对第一视频和第二视频各自对应的目标视频场景(此处的目标视频场景可包括场景聚类处理后得到的视频场景，对应图11中所示的匹配场景)进行过滤、剪枝，然后根据各个目标视频场景对应的视频数据、地理标识和存储位置，构建R*树结构索引，同时将各个目标视频场景存储至对应的存储位置(对应图11中所示的建立索引和存储场景)。

在上述过程中，还可基于地理位置和可视方向的双重索引方法和地理标记视频场景索引分割方法在已建立的R*树结构索引中插入新的节点或者分割出新的节点(对应图11中所示的插入、分割)。

基于建立好的R*树结构索引，接收到在接收到查询请求时，根据待查询地理标识，通过R*树结构索引，确定与待查询地理标识对应的视频数据的存储位置，查询请求中包括待查询地理标识，待查询地理标识为一级地理标识、二级地理标识和三级地理标识中的任一项(对应图11中所示的访问索引)。

本发明方案拟进行真实数据集的地理标记视频相似度算法实验，针对加州大学伯克利Deep Drive深度学习自动驾驶数据集进行测试，该数据集包含地理标记视频帧图像、地理坐标、可视方向等信息，能够很好的支持本专利算法的验证分析。申请人的前期研究工作已涉及多种地理标记视频相似度算法，可以获得对比实验数据。同时，本发明方案拟采用PostgreSQL存储地理标记视频数据，设计的算法主要采用PL/Java、PL/pgSQL程序语言，并结合Maven等工具进行模拟实验，实验框架设计如图12所示。

其中，实验架构包括网页端和服务器端，在网页端，为实验人员提供查询地理标记视频中不同视频场景对应的视频数据的查询工具和UI界面，实验人员根据该查询工具和UI界面可以对视频场景进行查询，在服务器端，为用户提供了用户自定义模块，在该用户自定义模块中，包括视频场景类模块和相似度算法模块，其中，视频场景类模块用于为用户提供查询视频场景对应的视频数据的功能，相似度算法模块用于为用户提供计算地理标记视频之间的视频相似度的方法，在服务器端还存储有时空数据表(Geo-video)，该时空数据表中存储有地理标记视频的时空属性信息，即拍摄时间以及空间地理位置等，其中，mpid表示地理标记视频的编号，videoscene表示目标视频场景，integer表示int数据类型，scene表示目标视频场景对应的场景标识，1表示mpid编号为1，图12中的(f1···fi)表示一个目标视频场景中的第1个视频帧到第i个视频帧的集合，服务器端还存储有基本信息表(Cars)，本示例中，基本信息表中的信息是通过汽车的行车记录仪所拍摄得到的地理标记视频的相关信息，该基本信息表中存储有地理标记视频的基础属性信息，比如，该汽车和行车记录仪的相关信息，其中，carid表示汽车编号(比如，行车记录仪的编号)，integer表示int数据类型，1表示编号为1的汽车(行车记录仪)，mgeometry表示地理标记视频类，指向时空数据表，(integer，integer)表示汽车编号与时空数据表中视频场景编号的数据类型，(1，100010)表示汽车编号与时空数据表中视频场景的编号，index表示构建的R*树结构索引，服务器端还存储有元数据表(geovideometa)，该元数据表中存储有地理标记视频的元属性信息，其中，schema表示策略，其中，在数据库中，schema是数据库的组织和结构，策略中包含了schema对象，可以是表(table)、列(column)、数据类型(data type)、视图(view)、存储过程(stored procedures)、关系(relationships)、主键(primary key)、外键(foreign key)等。public表示数据表为公有类型，videosize表示视频场景对应的数据量大小满足缓存区内存阈值时包含视频帧的最大数量，480表示视频场景对应的数据量大小满足缓存区内存阈值时包含视频帧的最大数量的数值。

在本发明算法的模拟实验中，本发明的算法名称记为VVS，对比算法为最长公共子序列(LCSS)算法和最大公共可视区域(LCVS)算法。首先第一个实验评估了数据量对算法的性能的影响。性能测量指标是算法的计算成本。本发明方案测试了10000到50000条视频数据，可视距离值设置为50米。

图13给出了视频数据量对运行时间的影响。所有算法的运行时间都随着视频数量增加而增加。我们可以看出VVS和LCSS的表现优于LCVS。这是因为LCVS需要几何相交计算来获取视频帧的交集和合并区域，计算更加复杂。图13中通过不同灰度的曲线表征不同的算法下，不同的视频数据量对运行时间的影响，图13的横轴表示的是视频数据量(图13中所示的Number of Videos)，纵轴表示的是运行时间(图13中所示的Time，单位是秒，s)，其中，对于LCVS算法，k＝3表示视频帧FoV(地理标记视频中的一个视频帧)对应的扇形弧度部分的切割边数为3，k＝5表示视频帧FoV扇形弧度部分的切割边数为5，k＝7表示视频帧FoV扇形弧度部分的切割边数为7，其中，切割边数表示视频帧FoV扇形的弧线被分割成线段的数量，用于近似表示弧线(k的值越大，表示弧线的精度越高)。

然后，第二个实验检验了可视角度的对算法性能的影响。性能测量指标是算法的准确性。我们选择了10000个视频数据来评估可视角度的性能。其中，“准确度”一词是指结果与“真实”值之间的差异，我们计算了每个视频前10个相似的地理标记视频。

如图14所示，可视角度(可视方向)对视频数据计算准确度的影响，图14的横轴表示的是可视角度(图14中所示的Viewable Angel)，纵轴表示的是精度(图14中所示的Accuracy)，图14中通过不同曲线表征不同算法下，在不同可视角度下对应的准确度。由图14显示的曲线可看出，VVS和LCVS是稳定的。随着可视角度的增大，LCVS的精度接近100％，VVS的精度在85％以上。由于LCSS仅依赖空间位置来计算FoV标记视频的相似性，因此LCSS的准确性表现不佳。总结来看，VVS可以达到高精度的结果，这是因为视频场景以特定的可视方向为中心，可视方向不会随着可视角度的增加而改变。

最后，我们进行了第三组实验，实验评估了算法可视距离的影响。性能测量指标是算法的准确性。我们选择了10000个地理标记视频数据进行实验分析。图15给出了可视距离对准确度的影响。图15的横轴表示的是可视距离(图15中所示的Viewable Distance)，纵轴表示的是准确度(图15中所示的Accuracy)，图15中通过不同曲线表征不同算法下，在不同可视距离下对应的准确度。由图15可知，LCVS的准确性不受可视距离的影响；LCSS算法表现不佳，因为LCSS仅依赖空间位置来计算地理标记视频的相似性；VVS算法的准确度随着可视距离的增加而略有下降，但计算结果仍然具有较高精度。这是因为可视距离是作为VVS算法中的一个重要参数，会影响视频场景聚类的结果，进而导致面向大场景区域的地理标记视频聚类时，准确度略微下降。

结合实验分析结果，总结本发明的改进之处主要包含以下三点：

(1)构建场景级的地理标记视频数据模型，标准的地理标记视频表示模型包括：视频级、场景级、镜头级和帧级。已有的数据模型主要在视频帧层面对地理标记视频进行建模，导致数据查询时间成本高。本专利拟构建场景级地理标记视频数据模型，优化提升地理标记视频数据的查询性能。

(2)面向视频场景级的地理标记视频可视区域相似度计算方法，地理标记视频相似度的计算过程复杂，视频数据具有高维的、大数据量的特征，如果直接用地理标记视频帧之间的欧式距离来计算相似度，其计算结果的准确性和鲁棒性都无法得到保障。本专利设计面向视频场景级的地理标记视频可视区域相似度计算方法，能够降低视频序列的相似度计算量，防止出现“维度灾难”的情况。通过视频场景之间的聚类融合，能够有效提升算法对不同采样率的地理标记视频相似度计算的准确性。

(3)基于地理空间位置和可视方向的地理标记视频场景双重索引方法，地理标记视频基于FoV的视频帧索引方法针对不同可视方向的数据易造成索引查询结果的大量误报，严重影响索引效率。目前尚无基于方向优化的视频场景索引方法，本专利拟基于视频场景构建地理空间位置与可视方向的双重索引，通过可视方向和地理位置感知，完成海量地理标记视频的快速、准确查询。

基于与图2中所示的方法相同的原理，本发明实施例还提供了一种地理标记视频的相似度确定装置20，如图16中所示，该地理标记视频的相似度确定装置20可以包括视频获取模块210、初始分割模块220、目标视频场景确定模块230和相似度确定模块240，其中：

视频获取模块210，用于获取待处理的第一视频和第二视频，第一视频和第二视频均为地理标记视频；

初始分割模块220，用于基于数据库缓存区的内存容量阈值，分别对第一视频和第二视频进行分割，得到多个目标分割视频场景，多个目标分割视频场景包括第一视频对应的至少一个第一目标分割视频场景和第二视频对应的至少一个第二目标分割视频场景，每个目标分割视频场景对应一个视频帧序列；

目标视频场景确定模块230，用于对于属于同一个视频的每个目标分割视频场景，将至少一个目标分割视频场景中的满足聚类条件的目标分割视频场景进行合并，得到至少一个目标视频场景，属于同一个视频的目标视频场景对应同一个视场区域，聚类条件为至少一个目标分割视频场景中最相似的至少两个目标分割视频场景；

相似度确定模块240，用于根据至少一个目标视频场景中每个目标视频场景对应的视场区域，确定第一视频和第二视频之间的视频相似度。

可选的，上述初始分割模块220在基于数据库缓存区的内存容量阈值，分别对第一视频和第二视频进行分割，得到多个目标分割视频场景时，具体用于：基于数据库缓存区的内存容量阈值，分别对第一视频和第二视频进行分割，得到多个初始分割视频场景，多个初始分割视频场景包括第一视频对应的至少一个第一初始分割视频场景，以及第二视频对应的至少一个第二初始分割视频场景；确定每个初始分割视频场景对应的视频特征信息，对于每个初始分割视频场景，视频特征信息包括初始分割视频场景的地理空间位置和拍摄方向区间中的至少一项；对于每个初始分割视频场景，根据初始分割视频场景的视频特征信息和设定条件，对初始分割视频场景进行分割，得到至少一个目标分割视频场景；其中，设定条件包括视频特征信息小于设定阈值，设定阈值包括轨迹偏移量阈值和视频拍摄方向阈值中的至少一项。

可选的，对于每个目标视频场景，上述目标视频场景对应的视场区域是通过以下方式确定的：确定初始分割视频场景对应的地理空间位置；根据初始分割视频场景对应的地理空间位置，确定包含初始分割视频场景对应的地理空间位置的最小边界倾斜矩形MBTR，将最小边界倾斜矩形MBTR对应的区域确定为目标视频场景对应的视场区域；其中，上述最小边界倾斜矩形MBTR指的是包含初始分割视频场景对应的地理空间位置对应的面积最小区域。

可选的，该装置还包括：

子序列确定模块，用于对于第一视频对应的第一目标视频场景和第二视频对应的第二目标视频场景，根据每个第一目标视频场景对应的视场区域，以及每个第二目标视频场景对应的视场区域，确定第一视频对应的第一目标视频场景和第二视频对应的第二目标视频场景中是否存在具有公共视场区域，且该公共视场区域的面积最大的子序列，子序列中包括一个第一目标视频场景和一个第二目标视频场景；若存在子序列，上述相似度确定模块240在根据至少一个目标视频场景中每个目标视频场景对应的视场区域，确定第一视频和第二视频之间的视频相似度时，具体用于：根据第一视频对应的每个第一目标视频场景对应的视场区域、子序列中每个目标视频场景对应的视场区域、第二视频对应的每个第二目标视频场景对应的视场区域和子序列中的每个目标视频场景对应的拍摄时间，确定第一视频和第二视频之间的视频相似度；若不存在子序列，上述相似度确定模块240在根据至少一个目标视频场景中每个目标视频场景对应的视场区域，确定第一视频和第二视频之间的视频相似度时，具体用于：根据第一视频对应的每个第一目标视频场景的视频区域和第二视频对应的每个第二目标视频场景的视频区域，确定第一视频和第二视频之间的视频相似度。

可选的，该装置还包括：

场景相似度确定模块，用于对于第三视频对应的每个第三目标视频场景，根据第三目标视频场景对应的视场区域，确定第四视频对应的第四目标视频场景中与第三目标视频场景相似的第四目标视频场景；若与第三目标视频场景相似的第四目标视频场景为至少两个第四目标视频场景，对至少两个第四目标视频场景进行聚类，得到第四视频对应的关键视频场景簇；根据第三目标视频场景对应的视场区域和第四视频对应的关键视频场景簇对应的视场区域，确定第三目标视频场景和第四视频对应的关键视频场景簇对应的视频场景之间的场景相似度；

对于第一视频对应的第一目标视频场景和第二视频对应的第二目标视频场景，上述子序列确定模块在根据每个第一目标视频场景对应的视场区域，以及每个第二目标视频场景对应的视场区域，确定第一视频对应的第一目标视频场景和第二视频对应的第二目标视频场景中是否存在具有公共视场区域，且该公共视场区域的面积最大的子序列时，具体用于：

对于每个第三目标视频场景，根据第三目标视频场景和第四视频对应的关键视频场景簇对应的视频场景之间的场景相似度，从第四视频对应的第四目标视频场景中筛选出符合场景相似条件的第五目标视频场景；根据第三目标视频场景对应的视场区域，以及第五目标视频场景对应的视场区域，确定第三目标视频场景和第五目标视频场景中是否存在具有公共视场区域，且该公共视场区域面积最大的子序列，子序列包括一个第三目标视频场景和一个第五目标视频场景；

若存在子序列，上述相似度确定模块240在根据第一视频对应的每个第一目标视频场景对应的视场区域、子序列中每个目标视频场景对应的视场区域、第二视频对应的每个第二目标视频场景对应的视场区域和子序列中的每个目标视频场景对应的拍摄时间，确定第一视频和第二视频之间的视频相似度时，具体用于：根据子序列中的每个目标视频场景对应的拍摄时间，确定子序列中两个目标视频场景之间的时间差异；若时间差异大于预设的时间差异阈值，则根据子序列中每个目标视频场景对应的视场区域和子序列所对应的场景相似度，确定第一视频和第二视频之间的视频相似度，其中，子序列所对应的场景相似度为子序列中的第三目标视频场景和第四视频对应的关键视频场景簇对应的视频场景之间的场景相似度；若时间差异不大于时间差异阈值，则根据第一视频对应的每个第一目标视频场景对应的视场区域、第二视频对应的每个第二目标视频场景对应的视场区域和子序列中每个目标视频场景对应的视场区域，确定第一视频和第二视频之间的视频相似度。

可选的，该装置还包括：

R*树结构索引构建模块，用于根据各个目标视频场景对应的视频数据、地理标识和存储位置，构建R*树结构索引，对于每个目标视频场景，视频数据包括目标视频场景对应的视场区域和可视方向，存储位置表示视频数据的存储位置；其中，R*树结构索引中的根节点对应的地理标识为一级地理标识，非叶子节点对应的地理标识为二级地理标识，叶子节点对应的地理标识为三级地理标识，一级地理标识对应的区域包括二级地理标识对应的区域，二级地理标识对应的区域包括三级地理标识对应的区域；在接收到查询请求时，查询请求中包括待查询地理标识，待查询地理标识为一级地理标识、二级地理标识和三级地理标识中的任一项；根据待查询地理标识，通过R*树结构索引，确定与待查询地理标识对应的视频数据的存储位置。

可选的，上述R*树结构索引构建模块在根据各个目标视频场景对应的视频数据、地理标识和存储位置，构建R*树结构索引时，具体用于：若各个目标视频场景中存在视场区域的面积相同的目标视频场景，则根据面积相同的目标视频场景中每个目标视频场景对应的可视方向，确定面积相同的目标视频场景中每个目标视频场景对应的节点；根据各个目标视频场景中除面积相同的目标视频场景之外的每个目标视频场景视频数据、地理标识、存储位置和面积相同的目标视频场景中每个目标视频场景对应的节点，构建R*树结构索引。

本发明实施例的地理标记视频的相似度确定装置可执行本发明实施例所提供的地理标记视频的相似度确定方法，其实现原理相类似，本发明各实施例中的地理标记视频的相似度确定装置中的各模块、单元所执行的动作是与本发明各实施例中的地理标记视频的相似度确定方法中的步骤相对应的，对于地理标记视频的相似度确定装置的各模块的详细功能描述具体可以参见前文中所示的对应的地理标记视频的相似度确定方法中的描述，此处不再赘述。

其中，上述地理标记视频的相似度确定装置可以是运行于计算机设备中的一个计算机程序(包括程序代码)，例如该地理标记视频的相似度确定装置为一个应用软件；该装置可以用于执行本发明实施例提供的方法中的相应步骤。

在一些实施例中，本发明实施例提供的地理标记视频的相似度确定装置可以采用软硬件结合的方式实现，作为示例，本发明实施例提供的地理标记视频的相似度确定装置可以是采用硬件译码处理器形式的处理器，其被编程以执行本发明实施例提供的地理标记视频的相似度确定方法，例如，硬件译码处理器形式的处理器可以采用一个或多个应用专用集成电路(ASIC，Application Specific Integrated Circuit)、DSP、可编程逻辑器件(PLD，Programmable Logic Device)、复杂可编程逻辑器件(CPLD，Complex ProgrammableLogic Device)、现场可编程门阵列(FPGA，Field-Programmable Gate Array)或其他电子元件。

在另一些实施例中，本发明实施例提供的地理标记视频的相似度确定装置可以采用软件方式实现，图16示出了存储在存储器中的地理标记视频的相似度确定装置，其可以是程序和插件等形式的软件，并包括一系列的模块，包括视频获取模块210、初始分割模块220、目标视频场景确定模块230和相似度确定模块240，用于实现本发明实施例提供的地理标记视频的相似度确定方法。

描述于本发明实施例中所涉及到的模块可以通过软件的方式实现，也可以通过硬件的方式来实现。其中，模块的名称在某种情况下并不构成对该模块本身的限定。

基于与本发明的实施例中所示的方法相同的原理，本发明的实施例中还提供了一种电子设备，该电子设备可以包括但不限于：处理器和存储器；存储器，用于存储计算机程序；处理器，用于通过调用计算机程序执行本发明任一实施例所示的方法。

在一个可选实施例中提供了一种电子设备，如图17所示，图17所示的电子设备4000包括：处理器4001和存储器4003。其中，处理器4001和存储器4003相连，如通过总线4002相连。可选地，电子设备4000还可以包括收发器4004，收发器4004可以用于该电子设备与其他电子设备之间的数据交互，如数据的发送和/或数据的接收等。需要说明的是，实际应用中收发器4004不限于一个，该电子设备4000的结构并不构成对本发明实施例的限定。

处理器4001可以是CPU(Central Processing Unit，中央处理器)，通用处理器，DSP(Digital Signal Processor，数据信号处理器)，ASIC(Application SpecificIntegrated Circuit，专用集成电路)，FPGA(Field Programmable Gate Array，现场可编程门阵列)或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本发明公开内容所描述的各种示例性的逻辑方框，模块和电路。处理器4001也可以是实现计算功能的组合，例如包含一个或多个微处理器组合，DSP和微处理器的组合等。

总线4002可包括一通路，在上述组件之间传送信息。总线4002可以是PCI(Peripheral Component Interconnect，外设部件互连标准)总线或EISA(ExtendedIndustry Standard Architecture，扩展工业标准结构)总线等。总线4002可以分为地址总线、数据总线、控制总线等。为便于表示，图17中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

存储器4003可以是ROM(Read Only Memory，只读存储器)或可存储静态信息和指令的其他类型的静态存储设备，RAM(Random Access Memory，随机存取存储器)或者可存储信息和指令的其他类型的动态存储设备，也可以是EEPROM(Electrically ErasableProgrammable Read Only Memory，电可擦可编程只读存储器)、CD-ROM(Compact DiscRead Only Memory，只读光盘)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。

存储器4003用于存储执行本发明方案的应用程序代码(计算机程序)，并由处理器4001来控制执行。处理器4001用于执行存储器4003中存储的应用程序代码，以实现前述方法实施例所示的内容。

其中，电子设备也可以是终端设备，图17示出的电子设备仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

本发明实施例提供了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，当其在计算机上运行时，使得计算机可以执行前述方法实施例中相应内容。

根据本发明的另一个方面，还提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述各种实施例实现方式中提供的方法。

可以以一种或多种程序设计语言或其组合来编写用于执行本发明的操作的计算机程序代码，上述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

应该理解的是，附图中的流程图和框图，图示了按照本发明各种实施例的方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

本发明实施例提供的计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

上述计算机可读存储介质承载有一个或者多个程序，当上述一个或者多个程序被该电子设备执行时，使得该电子设备执行上述实施例所示的方法。

以上描述仅为本发明的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本发明中所涉及的公开范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离上述公开构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本发明中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims

1.一种地理标记视频的相似度确定方法，其特征在于，包括：

获取待处理的第一视频和第二视频，所述第一视频和所述第二视频均为地理标记视频；

基于数据库缓存区的内存容量阈值，分别对所述第一视频和所述第二视频进行分割，得到多个目标分割视频场景，多个所述目标分割视频场景包括所述第一视频对应的至少一个第一目标分割视频场景和所述第二视频对应的至少一个第二目标分割视频场景，每个所述目标分割视频场景对应一个视频帧序列；

对于属于同一个视频的每个所述目标分割视频场景，将所述至少一个目标分割视频场景中的满足聚类条件的目标分割视频场景进行合并，得到至少一个目标视频场景，属于同一个视频的目标视频场景对应同一个视场区域，所述聚类条件为所述至少一个目标分割视频场景中最相似的至少两个目标分割视频场景；

根据所述至少一个目标视频场景中每个目标视频场景对应的视场区域，确定所述第一视频和所述第二视频之间的视频相似度。

2.根据权利要求1所述的方法，其特征在于，所述基于数据库缓存区的内存容量阈值，分别对所述第一视频和所述第二视频进行分割，得到多个目标分割视频场景，包括：

基于所述数据库缓存区的内存容量阈值，分别对所述第一视频和所述第二视频进行分割，得到多个初始分割视频场景，多个所述初始分割视频场景包括所述第一视频对应的至少一个第一初始分割视频场景，以及所述第二视频对应的至少一个第二初始分割视频场景；

确定每个所述初始分割视频场景对应的视频特征信息，对于每个所述初始分割视频场景，所述视频特征信息包括所述初始分割视频场景的地理空间位置和拍摄方向区间中的至少一项；

对于每个所述初始分割视频场景，根据所述初始分割视频场景的视频特征信息和设定条件，对所述初始分割视频场景进行分割，得到至少一个目标分割视频场景；

其中，所述设定条件包括视频特征信息小于设定阈值，所述设定阈值包括轨迹偏移量阈值和视频拍摄方向阈值中的至少一项。

3.根据权利要求2所述的方法，其特征在于，对于每个所述目标视频场景，所述目标视频场景对应的视场区域是通过以下方式确定的：

确定所述初始分割视频场景对应的地理空间位置；

根据所述初始分割视频场景对应的地理空间位置，确定包含所述初始分割视频场景对应的地理空间位置的最小边界倾斜矩形MBTR，将所述最小边界倾斜矩形MBTR对应的区域确定为所述目标视频场景对应的视场区域；

其中，所述最小边界倾斜矩形MBTR指的是包含所述初始分割视频场景对应的地理空间位置对应的面积最小区域。

4.根据权利要求1至3中任一项所述的方法，其特征在于，所述方法还包括：

对于所述第一视频对应的第一目标视频场景和所述第二视频对应的第二目标视频场景，根据每个所述第一目标视频场景对应的视场区域，以及每个所述第二目标视频场景对应的视场区域，确定所述第一视频对应的第一目标视频场景和所述第二视频对应的第二目标视频场景中是否存在具有公共视场区域，且该公共视场区域的面积最大的子序列，所述子序列中包括一个所述第一目标视频场景和一个所述第二目标视频场景；

若存在所述子序列，所述根据所述至少一个目标视频场景中每个目标视频场景对应的视场区域，确定所述第一视频和所述第二视频之间的视频相似度，包括：

根据所述第一视频对应的每个第一目标视频场景对应的视场区域、所述子序列中每个目标视频场景对应的视场区域、所述第二视频对应的每个所述第二目标视频场景对应的视场区域和所述子序列中的每个目标视频场景对应的拍摄时间，确定所述第一视频和所述第二视频之间的视频相似度；

若不存在所述子序列，所述根据所述至少一个目标视频场景中每个目标视频场景对应的视场区域，确定所述第一视频和所述第二视频之间的视频相似度，包括：

根据所述第一视频对应的每个所述第一目标视频场景的视频区域和所述第二视频对应的每个所述第二目标视频场景的视频区域，确定所述第一视频和所述第二视频之间的视频相似度。

5.根据权利要求4所述的方法，其特征在于，所述方法还包括：

对于第三视频对应的每个第三目标视频场景，根据所述第三目标视频场景对应的视场区域，确定第四视频对应的第四目标视频场景中与所述第三目标视频场景相似的第四目标视频场景；

对于每个所述第三目标视频场景，若与所述第三目标视频场景相似的第四目标视频场景为至少两个所述第四目标视频场景，对至少两个所述第四目标视频场景进行聚类，得到所述第四视频对应的关键视频场景簇；

对于每个所述第三目标视频场景，根据所述第三目标视频场景对应的视场区域和所述第四视频对应的关键视频场景簇对应的视场区域，确定所述第三目标视频场景和所述第四视频对应的关键视频场景簇对应的视频场景之间的场景相似度；

其中，若所述第三视频为所述第一视频，所述第三目标视频场景为所述第一目标视频场景，所述第四视频为所述第二视频，所述第四目标视频场景为所述第二目标视频场景；若所述第三视频为所述第二视频，则所述第三目标视频场景为所述第二目标视频场景，所述第四视频为所述第一视频，所述第四目标视频场景为所述第一目标视频场景；

对于所述第一视频对应的第一目标视频场景和所述第二视频对应的第二目标视频场景，根据每个所述第一目标视频场景对应的视场区域，以及每个所述第二目标视频场景对应的视场区域，确定所述第一视频对应的第一目标视频场景和所述第二视频对应的第二目标视频场景中是否存在具有公共视场区域，且该公共视场区域的面积最大的子序列，包括：

对于每个第三目标视频场景，根据所述第三目标视频场景和所述第四视频对应的关键视频场景簇对应的视频场景之间的场景相似度，从所述第四视频对应的第四目标视频场景中筛选出符合场景相似条件的第五目标视频场景；

对于每个所述第三目标视频场景，根据所述第三目标视频场景对应的视场区域，以及所述第五目标视频场景对应的视场区域，确定所述第三目标视频场景和所述第五目标视频场景中是否存在具有公共视场区域，且该公共视场区域面积最大的子序列，所述子序列包括一个所述第三目标视频场景和一个所述第五目标视频场景；

若存在所述子序列，所述根据所述第一视频对应的每个第一目标视频场景对应的视场区域、所述子序列中每个目标视频场景对应的视场区域、所述第二视频对应的每个所述第二目标视频场景对应的视场区域和所述子序列中的每个目标视频场景对应的拍摄时间，确定所述第一视频和所述第二视频之间的视频相似度，包括：

根据所述子序列中的每个目标视频场景对应的拍摄时间，确定所述子序列中两个目标视频场景之间的时间差异；

若所述时间差异大于预设的时间差异阈值，则根据所述子序列中每个目标视频场景对应的视场区域和所述子序列所对应的场景相似度，确定所述第一视频和所述第二视频之间的视频相似度，其中，所述子序列所对应的场景相似度为所述子序列中的第三目标视频场景和所述第四视频对应的关键视频场景簇对应的视频场景之间的场景相似度；

若所述时间差异不大于所述时间差异阈值，则根据所述第一视频对应的每个第一目标视频场景对应的视场区域、所述第二视频对应的每个所述第二目标视频场景对应的视场区域和所述子序列中每个目标视频场景对应的视场区域，确定所述第一视频和所述第二视频之间的视频相似度。

6.根据权利要求1至3中任一项所述的方法，其特征在于，所述方法还包括：

根据各个所述目标视频场景对应的视频数据、地理标识和存储位置，构建R*树结构索引，对于每个所述目标视频场景，所述视频数据包括所述目标视频场景对应的视场区域和可视方向，所述存储位置表示所述视频数据的存储位置；

其中，所述R*树结构索引中的根节点对应的地理标识为一级地理标识，非叶子节点对应的地理标识为二级地理标识，叶子节点对应的地理标识为三级地理标识，所述一级地理标识对应的区域包括二级地理标识对应的区域，所述二级地理标识对应的区域包括三级地理标识对应的区域；

在接收到查询请求时，所述查询请求中包括待查询地理标识，所述待查询地理标识为所述一级地理标识、所述二级地理标识和所述三级地理标识中的任一项；

根据所述待查询地理标识，通过所述R*树结构索引，确定与所述待查询地理标识对应的视频数据的存储位置。

7.根据权利要求6所述的方法，其特征在于，所述根据各个所述目标视频场景对应的视频数据、地理标识和存储位置，构建R*树结构索引，包括：

若各个所述目标视频场景中存在视场区域的面积相同的目标视频场景，则根据面积相同的目标视频场景中每个所述目标视频场景对应的可视方向，确定所述面积相同的目标视频场景中每个所述目标视频场景对应的节点；

根据各个所述目标视频场景中除所述面积相同的目标视频场景之外的每个所述目标视频场景视频数据、地理标识、存储位置和所述面积相同的目标视频场景中每个所述目标视频场景对应的节点，构建所述R*树结构索引。

8.一种地理标记视频的相似度确定装置，其特征在于，包括：

视频获取模块，用于获取待处理的第一视频和第二视频，所述第一视频和所述第二视频均为地理标记视频；

初始分割模块，用于基于数据库缓存区的内存容量阈值，分别对第一视频和第二视频进行分割，得到多个目标分割视频场景，多个所述目标分割视频场景包括所述第一视频对应的至少一个第一目标分割视频场景和所述第二视频对应的至少一个第二目标分割视频场景，每个所述目标分割视频场景对应一个视频帧序列；

目标视频场景确定模块，用于对于属于同一个视频的每个所述目标分割视频场景，将所述至少一个目标分割视频场景中的满足聚类条件的目标分割视频场景进行合并，得到至少一个目标视频场景，属于同一个视频的目标视频场景对应同一个视场区域，所述聚类条件为所述至少一个目标分割视频场景中最相似的至少两个目标分割视频场景；

相似度确定模块，用于根据所述至少一个目标视频场景中每个目标视频场景对应的视场区域，确定所述第一视频和所述第二视频之间的视频相似度。

9.一种电子设备，其特征在于，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现权利要求1-7中任一项所述的方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1-7中任一项所述的方法。