CN108287924A

CN108287924A - 一种可定位视频数据采集与组织检索方法

Info

Publication number: CN108287924A
Application number: CN201810166927.0A
Authority: CN
Inventors: 吴勇; 童为民; 林月煌; 郑森源
Original assignee: Fujian Normal University
Current assignee: Fujian Normal University
Priority date: 2018-02-28
Filing date: 2018-02-28
Publication date: 2018-07-17

Abstract

本发明公开一种可定位视频数据采集与组织检索方法，采集音视频的同时记录GPS定位信息、拍摄方位、摄像头参数形成可定位视频，并以MultiPoint空间要素描述视频帧与空间信息的关联关系，其中MultiPoint每个Point用于存储视频帧GPS定位信息、镜头朝向以及视频时间戳，在此基础上，结合拍摄参数构建视频帧二维可视域，并通过MultiPolygon描述视频帧的可视域进而构建可定位视频空间数据库，同时针对MultiPolygon字段建立空间索引，最终在GIS技术支持下实现基于可定位视频高效、精确的空间检索。本发明的视频检索结果更加精确，更符合人们的检索需求。

Description

一种可定位视频数据采集与组织检索方法

技术领域

本发明涉及视频数据处理与地理信息科学领域，尤其涉及一种可定位视频数据采集与组织检索方法。

背景技术

视频，作为一种公众媒体，已经成为日常生活中必不可少的信息载体，其应用领域日益广泛。面对飞速增长的海量视频数据，如何采取快速、高效的索引方式是视频数据处理领域的关键问题。自20世纪70年代以来，视频索引经历了基于文本索引与基于内容索引两种方式，其中文本索引是指通过人工提取视频关键信息，对视频的内容(如建筑、人物、事件等)进行语义层次上的描述，以关键字构建视频的索引，而基于内容的索引则根据视频的颜色、纹理、形状等特征进行索引。上述视频索引技术主要专注于视频主题、内容特征等方面，对于视频隐含的位置特征考虑较少，而在日常生活中，通常人们更关注“某某地方某某范围内拍摄的视频”、“某个路段沿线的视频”等之类的视频查询，并非简单的视觉特征查询需求。近年来，随着GPS、相机、传感器等硬件设备的飞速发展，诸多学者在视频与GPS定位信息、方位信息的融合以及基于位置视频检索进行了大量的研究。

在视频与GPS位置融合采集方面，主要有以下四种融合方案：(1)GPS信息与视频的叠加方案，通过一个电路控制的同步字符发生器将转换后的模拟GPS信号以点阵数据脉冲的方式叠加到视频信号的适当位置以实现两者的融合；(2)GPS信息调制到音频信道，其通过专用信号调制解调设备接收GPS信号，并对GPS信号进行解析以获取空间位置、运动方向等参数，然后将解算后的GPS参数转换为模拟信号调制到音频载频中，完成与模拟视频信号的合成；(3)以时间为纽带，实现视频和GPS信息的关联。这是目前最为常用的一种融合方法，如Hwang(2003)利用MPEG-7对视频帧与空间位置关系进行描述；Navarrete等(2006)通过视频片断的地理索引，将分开存储的视频影像与地理空间定位信息相结合，生成能在地理环境中调用的超视频(Hypervideo)；孔云峰(2009)通过建立专门的元数据描述特定视频帧与地理位置的对照关系，并使用插值方式获得所有视频帧的空间位置，将分离采集的视频、GPS定位信息联系起来生成地理视频数据(GeoVideo)；以及加拿大卡尔加里大学、武汉大学、南京师范大学开发的移动测量系统(MMS)都是基于视频与空间信息关联的方法；(4)基于ASF容器融合方式，使用ASF流媒体文件作为编码容器，将视频信息、音频信息和定位信息进行实时融合，实现定位信息的自动无损嵌入，避免了空间信息的再编码，使视频带有定位功能；(5)专利CN101547360《可定位视频文件格式及该格式文件数据的采集方法》提出了一种可定位视频文件格式，支持视频信息、音频信息以及空间定位信息三者融为一体，便于后期视频基于空间定位信息的快速检索。

在可定位视频检索方面，目前主要将视频采集路径抽象为线状数据，并采用空间网格方式进行索引，最终通过地图位置与视频采集路径之间的交集实现可定位视频的检索。具体步骤为：1)循环提取可定位视频每一视频帧对应的GPS定位信息，并在数据库中生成一条线记录信息，视频作为线的属性存储在该条记录中；2)采用空间索引对数据库中线记录集进行组织；3)用户在电子地图上框选视频查询范围，4)在空间索引支持下，基于查询范围筛选出初步视频片段集，再遍历初选视频片段集记录判断检索区域内的线段；5)返回位于检索区域内的视频片段数据集。

目前可定位视频数据采集与检索方法缺点在于：(1)在数据采集方面，上述可定位视频采集方式重点关注于视频与GPS位置时间同步传输与显示问题，对于视频数据后期如何快速地、便捷地构建空间索引，实现基于位置的视频高效检索考虑较少；同时未充分考虑视频拍摄参数信息，例如镜头焦距、镜头可视角度、镜头放大倍数、镜头朝向等参数，仅考虑了GPS定位信息。(2)在数据组织方面，可定位视频拍摄场景实际上反映的是线性面状区域，而目前组织方式仅简单的根据拍摄视频所对应的GPS轨迹抽象为线模型，采用以线代面的检索方式会造成只能检索到拍摄位置位于检索范围内的视频片段，而一些虽然拍摄位置在区域外，但是实际上拍摄场景在检索范围内的视频片段出现漏检。

发明内容

本发明的目的在于克服现有技术的不足，提供一种可定位视频数据采集与组织检索方法。

本发明采用的技术方案是：

一种可定位视频数据采集与组织检索方法，其包括以下步骤：

步骤1：采集获取可定位视频数据：

可定位视频数据包括视频信息、音频信息、GPS位置信息、镜头朝向、拍摄参数，其中GPS定位信息、镜头朝向、视频帧时间戳使用MultiPoint格式进行组织，MultiPoint形式为：(((经度0纬度0方位0时间戳0),(经度1纬度1方位1时间戳1),…,(经度n纬度n方位n时间戳n)))；

步骤2：基于可定位视频数据构建视频帧的二维视域模型，

二维视域模型由镜头视点、镜头朝向、可视角度、拍摄距离四个参数决定。

二维视域模型各个参数计算方法如下：

(1)镜头视点：以可定位视频数据的视频帧GPS经纬度值作为视点位置；

(2)镜头朝向：以可定位视频数据的视频帧镜头朝向作为镜头中心朝向；

(3)可视角度：针对定焦方式拍摄的视频，其可视角度为可定位视频数据的镜头初始可视角度值；

(4)拍摄距离：利用感光元件成像宽度、镜头焦距与可视距离之间的比例关系确定图像的可视距离；

基于公式1计算图像的极限可视距离作为该图像的可视距离。

其中Distance为图像可视距离，SensorWidth为感光元件宽度，FocalLen为镜头焦距，Ratio为单位尺寸物体宽度所占图幅的比例，ObjectWidth为物体的实际宽度，SensorWidthZom为变焦后感光元件成像宽度；

当视频未发生缩放，感光元件宽度SensorWidth由公式2计算得到，

其中ViewAngle为可视角度；

当视频发生缩放则需要除以缩放倍数如公式3所示。

其中ScaleFactor为缩放倍数，其中SensorWidth取值由ScaleFactor决定；

步骤3：遍历MultiPoint中所有Point，计算得到视频序列帧可视域并存储为MultiPolygon格式，同时建立视频空间数据库；

其中MultiPolygon格式为：(((经度0纬度0方位0时间戳0,经度0’纬度0’,经度0”纬度0”,经度0纬度0))，((经度1纬度1方位1时间戳1,经度1’纬度1’,经度1”纬度1”,经度1纬度1)),…,((经度n纬度n方位n时间戳n,经度n’纬度n’,经度n”纬度n”,经度n纬度n)))；

步骤4：对视频空间数据库中空间类型MultiPolygon字段构建空间索引，

根据视频可视域多面图形分布的范围确定索引边界、分割索引区域空间，并基于分割区域与可视域多面图形的空间关系确定索引坐标，进而建立视频可视域的空间索引；

步骤5：在地图上框选视频检索区域，从空间索引的区域块筛选出与检索区域相交区域块内的视频片断集合作为初级过滤结果集；

将检索区域与空间索引的区域块进行相交判断；获取与检索区域相交的空间索引的区域块，然后根据视频可视域与空间索引的区域块之间的索引关系，快速筛选出相交区域块内的视频片断集合作为初级过滤结果集；

步骤6：逐一判断初级过滤结果集的视频帧可视域是否与检索区域相交；剔除与检索区域不相交的视频帧，并将与检索区域相交的视频帧并入视频检索结构集，视频检索结构集的视频返回给用户。

本发明采用以上技术方案，在音视频数据采集的同时，通过MultiPoint类型的ShapeFile文件进行关联，记录视频对应的轨迹、方位信息、摄像头焦距、镜头可视角度、镜头放大倍率等参数信息，构建视频与GPS轨迹集合记录一一对应关系，形成可定位视频；在数据检索时，利用摄像头参数、GPS定位参数、拍摄方位参数建立视频帧二维可视域模型，用面状图形代替传统的点图形，更真实表达视频图像在现实场景中的所覆盖的区域，针对视频所构建的二维可视域集合，采用MultiPolygon格式组织存储，既存储了可定位视频的整体轨迹特征，又简化了视频与空间信息一对多复杂关系，同时还可以通过内部面描述视频帧所覆盖的实地范围，改善了可定位视频在空间数据库中信息冗余，同时便于可定位视频的组织与检索，最后通过对MultiPolygon字段建立空间索引，进而在GIS技术支持下实现基于位置的图像检索，使得视频检索结果更加精确，更符合人们的检索需求。

附图说明

以下结合附图和具体实施方式对本发明做进一步详细说明；

图1为本发明一种可定位视频数据采集与组织检索方法的原理流程示意图；

图2为本发明一种可定位视频数据采集与组织检索方法的视频帧可视域模型结构示意图；

图3为本发明一种可定位视频数据采集与组织检索方法的物体宽度与成像宽度的关系示意图；

图4为本发明一种可定位视频数据采集与组织检索方法的可定位视频数据采集系统运行界面；

图5为本发明一种可定位视频数据采集与组织检索方法的多级网格空间索引流程图；

图6为本发明一种可定位视频数据采集与组织检索方法的4×4多级网格划分示意图；

图7为本发明一种可定位视频数据采集与组织检索方法的索引坐标B树组织结构关系图；

图8为本发明一种可定位视频数据采集与组织检索方法的基于可视域视频的检索流程图；

图9为本发明一种可定位视频数据采集与组织检索方法的基于可视域视频检索结果示意图。

具体实施方式

如图1-9之一所示，本发明公开了一种可定位视频数据采集与组织检索方法，其包括以下步骤：

步骤1：实现视频信息、音频信息、GPS位置信息、镜头朝向、拍摄参数同步采集，其中GPS定位信息、镜头朝向、视频帧时间戳使用MultiPoint格式进行组织，MultiPoint形式为：(((经度0纬度0方位0时间戳0),(经度1纬度1方位1时间戳1),…,(经度n纬度n方位n时间戳n)))；

步骤2：根据步骤1中采集的可定位视频数据构建视频帧的二维视域模型(FOV，Field of Vision)，其二维视域模型如图2所示，主要由镜头视点、镜头朝向、可视角度、拍摄距离四个参数决定。在本例中，各个参数计算方法如下：

(1)镜头视点：以步骤1中获取的视频帧GPS经纬度值作为视点位置；

(2)镜头朝向：以步骤1获取的视频帧镜头朝向作为镜头中心朝向；

(3)可视角度：主要针对定焦方式拍摄的视频，其可视角度等于步骤1中获取的镜头初始可视角度值；

(4)拍摄距离：图像的可视距离理论上是无限远的，然而图像中物体的成像清晰度随着距离增加而逐渐降低，距离较远的物体在图像上几乎无法分辨，因此可视距离取无限远是无意义的。本方法以图像上清晰成像为前提，通过设置某单位尺寸的物体宽度所占图幅宽度的比例，利用感光元件成像宽度、镜头焦距与可视距离之间的比例关系(如图3所示)，基于公式1计算图像的极限可视距离作为该图像的可视距离。公式3中的Distance为图像可视距离，SensorWidth为感光元件宽度，FocalLen为镜头焦距，Ratio为单位尺寸物体宽度所占图幅的比例，ObjectWidth为物体的实际宽度，ViewAngle为可视角度，SensorWidthZom为变焦后感光元件成像宽度，ScaleFactor为缩放倍数，其中SensorWidth取值由ScaleFactor决定，若视频未发生缩放，SensorWidth由公式2计算得到，若视频发生缩放则需要除以缩放倍数如公式3所示。

步骤3：通过步骤2遍历MultiPoint中所有Point，计算得到视频序列帧可视域，并将其存储为MultiPolygon格式，同时建立视频空间数据库，其中MultiPolygon格式为：(((经度0纬度0方位0时间戳0,经度0’纬度0’,经度0”纬度0”,经度0纬度0))，((经度1纬度1方位1时间戳1,经度1’纬度1’,经度1”纬度1”,经度1纬度1)),…,((经度n纬度n方位n时间戳n,经度n’纬度n’,经度n”纬度n”,经度n纬度n)))；

步骤4：针对步骤3中存储于视频空间数据库中空间类型MultiPolygon字段构建空间索引，其原理是根据视频可视域多面图形分布的范围确定索引边界、分割索引区域空间，并基于分割区域与可视域多面图形的空间关系确定索引坐标，从而实现视频可视域的空间索引；

步骤5：在地图上框选视频检索区域，通过检索区域与步骤4中建立的空间索引区域块进行相交判断，获取与检索区域相交的索引区域块，然后根据视频可视域与索引区域块之间的索引关系，快速筛选出相交区域块内的视频片断集合作为初级过滤结果集；

步骤6：在步骤5中筛选出的初级过滤结果集中的视频片断，逐一判断视频帧可视域是否与检索范围相交。如果不相交，则将当前视频帧剔除，如果相交，则将该视频帧加入到视频检索结果集中，直到相交网格内索引的全部视频片段都判断结束后，最终将检索到视频片段集返回给用户。

下面就本发明的具体实施例1进行详细说明：

本发明的具体实施例1所述的是一种面向可定位视频数据采集与检索方法，其数据是采用Android手机拍摄可定位视频，并将视频数据存储于SQL Server2008中，并利用其提供的多级网格进行空间索引，其具体步骤如下：

步骤1：基于Android平台定制可定位视频采集系统，系统运行界面如图4所示，实现可定位视频数据采集功能，并将采集的数据存储于SQLite数据库中，其数据表结构如下表1所示：

表1视频数据采集表结构

通过步骤1中采集的视频数据，遍历MultiPoint中所有Point，获取第一个Point拍摄位置的GPS经纬度为(E 119.303，N 26.039)、拍摄方位为105°，初始可视视角为55.6°、数码变焦倍数为1.5倍、焦距为3.9mm；

步骤2：通过步骤1中提取的参数构建镜头的二维可视域模型，其镜头视点、镜头朝向、可视角度、拍摄距离参数值计算过程如下：

(1)镜头视点：将步骤1中获取的拍摄位置GPS经纬度值(E 119.303，N 26.039)作为视点；

(2)镜头朝向：将步骤1获取的拍摄方位105°作为视角中心的朝向；

(3)可视角度：由于图像放大倍率值为1.5，说明当前视频是采用变焦方式拍摄的。因此，首先根据步骤1获取的镜头初始可视角度、焦距值代入公式2可得镜头感光元件宽度值为4.11mm，然后将计算得到感光元件宽度值与变焦倍数值代入公式3可得当前变焦视频帧感光元件成像实际宽度值为2.74mm，最后将计算得到的变焦感光元件成像实际宽度、焦距值代入公式2得到变焦图像的可视角度为成像根据，通过计算可得当前视频帧水平可视角度为36.69度。

根据公式2计算感光元件宽度可得：

根据公式3计算该变焦图像感光元件成像实际宽度值可得：

根据公式2计算该变焦图像可视角度可得：

(4)可视距离：本例中以1米宽度的物体在视频中清晰成像至少其成像宽度占整幅图像宽度的2％为限，在此条件下计算可视距离。将物体实际宽度、占图幅的比例、镜头焦距、放大倍率以及步骤3)中计算出感光元件宽度值代入公式1计算该视频帧的可视距离为47.4m。

根据公式1计算图像可视距离可得：

步骤3：基于步骤2计算得到的视点、镜头朝向、镜头焦距、可视距离值构建视频可视范围，并将计算得到的视频可视域存储在SQL Server 2008数据库中。在SQL Server2008数据库创建视频空间数据表，其数据结构如表2所示，其中将计算得到的视频可视域以OGC(Open Geospatial Consortium，开放地理空间联盟)定义的WKT(well-known text)文本形式存储在空间字段中，如本例中的视频可视域采用MultiPolygon方式存储，其中经度、纬度值为构成面域的点坐标。

字段名	数据类型	描述
			Id	int	视频ID，设为主键
Videopath	nvarchar(50)	视频存储相对路径
			Datatime	datetime	采集视频的日期
StartTime	datetime	拍摄开始时间
			EndTime	datetime	拍摄结束时间
Focallength	float	镜头焦距
			OriginalViewAngle	float	镜头初始视角
DigitalZoom	float	镜头放大倍率
			Viewshed	geometry	视频可视域(MultiPolygon)

表2视频空间数据表结构

步骤4：、重复以上步骤2，3遍历SQLite数据库中所有记录，并将数据存储于视频空间空间数据库中。所有视频处理完毕后，采用多级网格对该空间字段建立空间索引，其空间索引流程如图5所示，具体步骤如下：

步骤4-1：索引范围的确定：遍历数据库表空间字段，计算出所有视频可视域面状数据的空间坐标范围作为网格划分的边界，同时将索引空间范围坐标值记录在空间系统表中，空间系统表结构如表3的多级网格空间索引表所示，其中经度最小值存在Bounding_box_xmin字段中，经度最大值存储在Bounding_box_xmax字段中，纬度最小值存储在Bounding_box_ymin字段中，纬度最大值存储在Bounding_box_ymax字段中。

步骤4-2：空间网格划分：根据步骤4-1中计算得到的空间索引范围区域，本例中采用四层嵌套网格结构进行索引管理，每级单元又以4×4网格方式进行空间区域划分，空间网格划分示意图如图6所示，同时将网格相应参数值存储在空间系统表中，其中各个级别的网格密度存储在的Level_1_grid、Level_2_grid、Level_3_grid、Level_4_grid字段中，本例中其数值为16；各个级别网格描述信息存储在Level_1_grid_desc，Level_2_grid_desc，Level_3_grid_desc，Level_4_grid_desc字段中；网格划分方式存储在Tessellation_scheme字段中，即4×4网格划分方式；空间对象最大分割单元数存储在Cell_per_object字段中，本例中其数值为16。

表3

步骤4-3：对象分割与定位：从图像数据库空间字段中读取出一个视频可视域面状对象，然后以“广度优先”方式从第一级网格开始逐一判断网格与对象是否接触，如果对象覆盖了整个接触格网，则该对象不必进行分割，结束索引并返回该对象在网格中的坐标位置存储于空间索引表中，如图6中可视域对象1所示；如果该对象包含在接触网格中，则继续分割对象直到达到限制或不再有要计数单元的单元为止，如图6中可视域对象2所示，该对象一直被分割到第四级网格，由于达到了网格最低级别则结束对象分割，返回该对象的索引坐标11.11.11.1、11.11.11.2、11.11.11.3、11.11.11.4并存储在空间索引表中，空间索引表结构如表4所示。重复此步骤，直到视频数据库中所有可视域面状数据索引完毕。

字段名	描述
		Object_id	索引对象ID
Index_id	索引ID
		Index_name	索引名称
Type	索引类型
		Type_desc	索引类型描述
Index_depth	索引深度
		Page_count	索引数据页总数

表4空间索引表

步骤4-4：空间坐标索引：采用B树索引对空间索引表中的视频可视域的索引坐标信息进行组织，具体索引组织结构如图7所示，实现图像可视域面状数据的空间索引的创建。

步骤5：在电子地图上框选视频检索区域，通过判断该视频检索区域与视频可视域面状数据的空间位置关系，实现该区域内视频片段集的快速检索，其检索具体流程如图8所示，具体步骤如下：

步骤5-1：获取用户在电子地图上框选的检索范围，检索范围如图9中方框区域，其左上角坐标为(119.315，26.045)，右下角坐标为(119.316，26.043)；

步骤5-2：采用SQL内置STIntersects()方法对多级网格空间索引表中记录进行遍历，获取与空间检索范围相接触的网格，并根据索引坐标检索出网格内的所有视频可视域面状对象作为初步检索结果集合；

步骤6：遍历步骤5得到的初步检索结果集合，逐一判断视频可视域面状对象是否与检索范围是否有接触，如果未接触，说明该面状对象未在检索范围中，则将该面状对象对应的视频从结果集中剔除，如果存在接触，则在初步视频结果集中保留。当所有对象处理完毕后，返回最终的视频集合给用户。如图9所示，图中方框为用户指定的检索区域，在该区域中检索出一段视频片段。从检索到的视频片段位置来看，其中部分视频片段虽然拍摄位置在检索区域外，但是其视频中的实际场景仍在检索区域内，符合用户检索的需求，但是按传统直接以视点查询的方式无法精确检索，因此基于可视域的视频检索方法能更精确的检索到用户所需的图像。

Claims

1.一种可定位视频数据采集与组织检索方法，其特征在于：其包括以下步骤：

步骤1：采集获取可定位视频数据：

可定位视频数据包括视频信息、音频信息、GPS位置信息、镜头朝向、拍摄参数，其中GPS定位信息、镜头朝向、视频帧时间戳使用MultiPoint格式进行组织，

步骤2：基于可定位视频数据构建视频帧的二维视域模型，二维视域模型包括镜头视点、镜头朝向、可视角度、拍摄距离四个参数；

2.根据权利要求1所述的一种可定位视频数据采集与组织检索方法，其特征在于：所述MultiPoint形式为：(((经度0纬度0方位0时间戳0),(经度1纬度1方位1时间戳1),…,(经度n纬度n方位n时间戳n)))。

3.根据权利要求1所述的一种可定位视频数据采集与组织检索方法，其特征在于：二维视域模型各个参数计算方法如下：

(4)拍摄距离：利用感光元件成像宽度、镜头焦距与可视距离之间的比例关系确定图像的可视距离。

4.根据权利要求3所述的一种可定位视频数据采集与组织检索方法，其特征在于：图像的可视距离的具体计算步骤如下：

基于公式1计算图像的极限可视距离作为该图像的可视距离：

其中ViewAngle为可视角度；

当视频发生缩放，则需要除以缩放倍数如公式3所示：

其中ScaleFactor为缩放倍数，其中SensorWidth取值由ScaleFactor决定。

5.根据权利要求1所述的一种可定位视频数据采集与组织检索方法，其特征在于：MultiPolygon格式为：(((经度0纬度0方位0时间戳0,经度0’纬度0’,经度0”纬度0”,经度0纬度0))，((经度1纬度1方位1时间戳1,经度1’纬度1’,经度1”纬度1”,经度1纬度1)),…,((经度n纬度n方位n时间戳n,经度n’纬度n’,经度n”纬度n”,经度n纬度n)))。

6.根据权利要求1所述的一种可定位视频数据采集与组织检索方法，其特征在于：步骤4的具体步骤为：根据视频可视域多面图形分布的范围确定索引边界、分割索引区域空间，并基于分割区域与可视域多面图形的空间关系确定索引坐标，进而建立视频可视域的空间索引。

7.根据权利要求1所述的一种可定位视频数据采集与组织检索方法，其特征在于：步骤5的具体步骤为：将检索区域与空间索引的区域块进行相交判断；获取与检索区域相交的空间索引的区域块，然后根据视频可视域与空间索引的区域块之间的索引关系，快速筛选出相交区域块内的视频片断集合作为初级过滤结果集。