CN102522045B

CN102522045B - 一种基于社会信息的网络视频在线地理定位系统

Info

Publication number: CN102522045B
Application number: CN201110432327.2A
Authority: CN
Inventors: 宋一丞; 曹娟; 夏添; 张勇东; 李锦涛
Original assignee: Institute of Computing Technology of CAS
Current assignee: Institute of Computing Technology of CAS
Priority date: 2011-12-21
Filing date: 2011-12-21
Publication date: 2014-12-10
Anticipated expiration: 2031-12-21
Also published as: CN102522045A

Abstract

本发明公开了一种基于社会信息的网络视频在线地理定位方法，其特征在于，包括：步骤100，将全球地区划分成网格，使网格的每一个区块对应一个地区；步骤200，输入待定位的视频，获取视频的网格；步骤300，建立所述视频的相似度矩阵W；步骤400，利用步骤300的视频相似度矩阵，通过标签传播算法将已标记视频数据的标签根据相似度，联系传播给未标记的视频数据；步骤500，标签传播算法收敛后，得到了待定位的视频V在每个地理区块的分布情况，其中具有最大分布值的地理区块为待定位的视频V的地理区块，同时显示预测的地理区块。

Description

一种基于社会信息的网络视频在线地理定位系统

技术领域

本发明涉及一种视频的地理定位的系统，特别是涉及一种基于社会信息的网络视频在线地理定位系统。

背景技术

随着GPS的普及和Web 2.0技术的应用，带GPS标签的网络视频开始获得人们越来越多的关注。利用这些带GPS的网络视频，服务商可以构建的各种新颖而实用的网络应用：例如基于地理位置的网络视频的推荐与检索，基于网络视频地理位置的广告发布等。但是经过统计发现，目前带GPS标签的网络视频的数量非常少，仅仅有2.5％的网络视频是带有GPS标注的。因此，如何对大规模的网络视频数据进行快速有效地理定位成为亟待解决的问题。

目前的网络视频的地理定位处于刚刚起步阶段，而目前为数不多的工作也主要是利用视频本身的地理线索来推测视频的地理位置：如果一个视频标有地名的文本标签，那么这个视频很容易定位到这个地点。或者一个视频在视觉内容上反映了一些耳熟能详的建筑或场景，那么这个视频也可以定位到一个特定的区域。但是对于本身没有明确地理线索的视频来说，如何确定他们的地理位置呢？

因此，研究有效的网络视频地理定位方法，不仅能定位那些本身具有地理线索的视频而且能够定位那些本身没有明确地理线索的视频具有重要意义。

发明内容

为解决上述问题，本发明的目的是针对没有GPS标签的网络视频，提供一种不仅能定位那些本身具有地理线索的视频而且能够定位那些本身没有明确地理线索的视频的网络视频地理定位方法；同时对定位结果进行有效展示，使用户能够方便的浏览视频的地理位置。

为了实现上述目的，本发明提供了一种基于社会信息的网络视频在线地理定位方法，其特征在于，包括：

步骤100，将全球地区划分成网格，使网格的每一个区块对应一个地区；

步骤200，输入待定位的视频，获取视频的网格；

步骤300，建立所述视频的相似度矩阵W；

步骤400，利用步骤300的视频相似度矩阵，通过标签传播算法将已标记视频数据的标签根据相似度，联系传播给未标记的视频数据；

步骤500，标签传播算法收敛后，得到了待定位的视频V在每个地理区块的分布情况，其中具有最大分布值的地理区块为待定位的视频V的地理区块，同时显示预测的地理区块。

所述的网络视频在线地理定位方法，其特征在于，所述步骤100中网格将全球进行相等面积的划分。

所述的网络视频在线地理定位方法，其特征在于，所述步骤200还包括：

步骤210，待定位的视频V，通过应用程序获取个带GPS标注的相关视频和相同作者的视频L，其中V代表为标记的视频数据，L代表已标记的视频数据，

步骤220，将L中的所有视频数据根据其GPS标注获取相应网格号，L个视频数据位于C个不同的网格中，C表示L个视频分属于不同网络的网络数量。

所述的网络视频在线地理定位方法，其特征在于，所述步骤300还包括：

步骤310，得到的待定位的视频V与带GPS标注的相关视频与相同作者视频L，融合视觉与文本信息计算其相似度，建立视频(l+)×(l+1)相似度矩阵W。

所述的网络视频在线地理定位方法，其特征在于，所述步骤301还包括：

步骤311，将视频的标签利用波特词根还原法词根化以后，为每个视频建立其文本特征向量；

步骤312，执行步骤311中所述的特征向量利用余弦距离计算出视频的文本相似度TIJ；

步骤313，将视频抽取关键帧后，抽取每帧的尺度特征不变转换描述子并利用视觉关键词技术形成视觉特征向量来表示该帧的视觉信息；

步骤314，将步骤313中所述的特征向量利用余弦距离计算出视频帧间的视觉相似度，两个视频的最大帧间相似度被认定为是视频间的视觉相似度VIJ；

步骤315，将步骤312与步骤314中所述的视频的文本相似度与视觉相似度进行后融合，得到了视频的相似度度量WIJ＝0.6TIJ+0.4VIJ将文本相似度与视觉相似度加权融合；

步骤316，将视频数据V与视频数据L中的所有视频按照步骤311到步骤315中的方法计算相似度以后，形成了(l+1)×(l+1)视频相似度矩阵W。

所述的网络视频在线地理定位方法，其特征在于，所述步骤400还包括：

步骤410，根据步骤300中得到的视频相似度矩阵W，建立视频转移概率矩阵P，其中

P_{ij} = P (i &RightArrow; j) = \frac{w_{ij}}{Σ_{k = 0}^{l} w_{ik}};

步骤420，对于个带GPS标注的相关视频与相同作者视频L，建立l×C的标签分布矩阵M_L，矩阵M_L的每一行表示一个已标注视频的区域分布情况，如果一个视频分布在区域i，那么这一行在第i项为1，其余为0；

步骤430，针对个已标注视频和一个未标注视频建立(l+1)×C的标签分布矩阵F，F的初始化根据已标注数据和未标注数据的不同而不同，对于未标注数据F_U的分布来说，它是平均分布的C个区块的，每个区块的概率为1/C，而对于已标记的数据来说，F_L的初始化跟M_L一致；

步骤440，根据步骤410中的视频转移概率矩阵P来传播标签：F←PF；

步骤450，为了避免已标记数据的标签流失，将F_L与M_L保持一致；

步骤460，迭代运行步骤440与步骤450，直至F_U收敛；

步骤470，将视频数据V定位到F_U最大分布值所在的区块中。

本发明公开还一种基于社会信息的网络视频在线地理定位系统，其特征在于，包括：

生成网格模块，用于将全球地区划分成网格，使网格的每一个区块对应一个地区；

获取视频模块，用于输入待定位的视频，获取视频的网格；

建立矩阵模块，用于建立所述视频的相似度矩阵W；

相似度模块，用于将建立矩阵模块的视频相似度矩阵，通过标签传播算法将已标记视频数据的标签根据相似度，联系传播给未标记的视频数据；

定位模块，用于标签传播算法收敛后，得到了待定位的视频V在每个地理区块的分布情况，其中具有最大分布值的地理区块为待定位的视频V的地理区块，同时显示预测的地理区块。

所述的网络视频在线地理定位系统，其特征在于，所述获取视频模块还包括：

视频输入模块，用于待定位的视频V，通过应用程序获取个带GPS标注的相关视频和相同作者的视频L，其中V代表为标记的视频数据，L代表已标记的视频数据，

生成网格号模块，用于将L中的所有视频数据根据其GPS标注获取相应网格号，L个视频数据位于C个不同的网格中，C表示L个视频分属于不同网格的网格数量。

所述的网络视频在线地理定位系统，其特征在于，所述建立矩阵模块还包括：

矩阵模块，用于得到的待定位的视频V与带GPS标注的相关视频与相同作者视频L，融合视觉与文本信息计算其相似度，建立视频(l+1)×(l+1)相似度矩阵W。

所述的网络视频在线地理定位系统，其特征在于，所述矩阵模块还包括：

特征向量模块，用于将视频的标签利用波特词根还原法词根化以后，为每个视频建立其文本特征向量；执行特征向量模块中所述的特征向量利用余弦距离计算出视频的文本相似度TIJ；将视频抽取关键帧后，抽取每帧的尺度特征不变转换描述子并利用视觉关键词技术形成视觉特征向量来表示该帧的视觉信息；所述的特征向量利用余弦距离计算出视频帧间的视觉相似度，两个视频的最大帧间相似度被认定为是视频间的视觉相似度VIJ；所述的视频的文本相似度与视觉相似度进行后融合，得到了视频的相似度度量WIJ＝0.6TIJ+0.4VIJ将文本相似度与视觉相似度加权融合；将视频数据V与视频数据L中的所有视频计算相似度以后，形成了(l+1)×(l+1)视频相似度矩阵W。

所述的网络视频在线地理定位方法，其特征在于，所述定位模块还包括：

定位建立模块，根据建立矩阵模块中得到的视频相似度矩阵W，建立视频转移概率矩阵P，其中对于l个带GPS标注的相关视频与相

同作者视频L，建立l×C的标签分布矩阵M_L，矩阵M_L的每一行表示一个已标注视频的区域分布情况，如果一个视频分布在区域i，那么这一行在第i项为1，其余为0；针对l个已标注视频和一个未标注视频建立(l+1)×C的标签分布矩阵F，F的初始化根据已标注数据和未标注数据的不同而不同，对于未标注数据F_U的分布来说，它是平均分布的C个区块的，每个区块的概率为1/C，而对于已标记的数据来说，F_L的初始化跟M_L一致；根据所述视频转移概率矩阵P来传播标签：F←PF；为了避免已标记数据的标签流失，将F_L与M_L保持一致；迭代运行上述算法，直至F_U收敛；将视频数据V定位到F_U最大分布值所在的区块中。

本发明的优点在于：

本发明的方法通过获取一个视频的带GPS标签的相关视频和同作者视频作为定位资源，可以大大提高视频地理定位的精度。

本发明提出的基于这些社会关系的视频地理定位方法，不仅能定位那些具有明确地理线索的视频，也能定位那些没有明确地理线索的视频。

本发明的方法采用了高效的标签传播算法和精简有效的在线社会资源，使得我们的方法能高效的完成视频的在线地理定位任务。

本发明的方法以动态的形式将视频的定位地点在地图上进行展示。提高了用户体验。

附图说明

图1为本发明的基于社会信息的网络视频在线地理定位方法的流程图；

图2A为本发明的基于社会信息的网络视频在线地理定位系统的首页；

图2B为本发明的基于社会信息的网络视频在线地理定位系统的定位结果展示图；

图3为本发明的基于社会信息的网络视频在线地理定位系统示意图。

具体实施方式

下面给出本发明的具体实施方式，结合附图对本发明做出进一步的描述。

一种基于社会信息的网络视频在线地理定位系统，用来自动确定一个视频的拍摄地点。该方法包括以下步骤：

1)将全球等面积的划分成网格，网格每个区块对应一个地区。

2)对一个待定位的视频V(V表示一个待地理定位的网络视频)，通过YouTube API(目前因为youtube提供这种接口，所以可以定位youtube视频。如果其他站点也提供类似接口，那么它们的视频也可以定位。)获取它的个带GPS标注的相关视频与同作者视频集L。

3)对步骤1)得到的网格，将L中的所有视频根据其GPS标注获取它们的网格号，L个视频位于C个不同的网格中。此时将V视为未标记数据，将L视为已标记数据。

4)对步骤2)得到的待定位的视频V与带GPS标注的相关视频与同作者视频集L，融合视觉与文本信息计算它们相似度，建立视频(l+1)×(l+1)相似度矩阵W(W是一个维度为(l+1)×(l+1)的相似度矩阵)。

5)对步骤4)得到的视频相似度矩阵；我们利用标签传播算法将已标记数据的标签根据相似度联系传播给未标记数据。

6)对步骤5)中的标签传播算法收敛后，得到了待定位的视频V在各个区块上的分布情况，其中具有最大分布值的区块被选为视频V的定位区块。

所述的一个网络视频的在线地理定位系统，其特征在于，所述的步骤4)中，融合视觉与文本信息计算视频的相似度实现步骤包括：

4-1)、将视频的Tag(标签)利用Porter(波特)词根还原法词根化以后，为每个视频建立其文本特征向量；

4-2)、步骤4-1)中所述的特征向量利用余弦距离计算出视频的文本相似度TIJ。

4-3)、将视频抽取关键帧后，抽取每帧的SIFT(尺度特征不变转换)描述子并利用视觉关键词技术形成视觉特征向量来表示该帧的视觉信息。

4-4)、将步骤4-3)中所述的特征向量利用余弦距离计算出视频帧间的视觉相似度，两个视频的最大帧间相似度被认定为是视频间的视觉相似度VIJ。

4-5)、将步骤4-2)与步骤4-4)中所述的视频的文本相似度与视觉相似度进行后融合，得到了视频的相似度度量WIJ＝0.6TIJ+0.4VIJ将文本相似度与视觉相似度加权融合。

4-6)、将视频V与视频集L中的所有视频按照步骤4-1)到步骤4-5)中的方法计算相似度以后，形成了(l+1)×(l+1)视频相似度矩阵W。

所述的一个网络视频的在线地理定位系统，其特征在于，所述的步骤5)中，利用标签传播算法将已标记数据的标签根据相似度联系传播给未标记数据的实现步骤包括：

5-1)、根据步骤4)中得到的视频相似度矩阵W，建立视频转移概率矩阵P，其中

P_{ij} = P (i &RightArrow; j) = \frac{w_{ij}}{Σ_{k = 0}^{l} w_{ik}}

5-2)、针对步骤3中得到的1L在步骤二中已有定义，表示对一个待定位的视频，通过YouTube API获取它的个带GPS标注的相关视频与同作者视频集L个带GPS标注的相关视频与同作者视频集L，建立l×C的标签分布矩阵M_L。矩阵M_L的每一行表示一个已标注视频的区域分布情况：如果一个视频分布在区域i，那么这一行在第i项为1，其余为0。

5-3)、针对l个已标注视频和1个未标注视频建立(l+1)×C的标签分布矩阵F，F的初始化根据已标注数据和未标注数据的不同而不同。对于未标注数据F_U的分布来说，它是平均分布的C个区块的，每个区块的概率为1/C。而对于已标记的数据来说，F_L的初始化跟M_L一致。

5-4)、现在就可以根据5-1)中的视频转移概率矩阵P来传播标签：F←PF

5-5)、为了避免已标记数据的标签流失，将F_L与M_L保持一致。

5-6)、不断迭代运行5-4)与5-5)，直至F_U收敛。

5-7)、将视频V定位到F_U最大分布值所在的区块中去。

下面结合附图对本发明的方法做进一步的说明。

如图1所示。本发明的网络视频的在线地理定位系统包括以下步骤：

步骤0、准备工作：将全球等面积的划分成网格，网格每个区块对应一个地区。方法：采用开源工具Geodesic Di screte Global Grid Systems(http://webpages.sou.edu/～sahrk/dgg/)将全球划分为等面积网格，每一个网格赋予一个网格号。

步骤1、如图2(a)所示，用户可以输入一个YouTube视频的URL或者在首页选择一个YouTube的观看次数最多的视频来触底视频的地理定位。在获得了一个视频V定位请求以后。本系统通过YouTube API在线获取待定位视频V的l个带GPS标注的相关视频与同作者视频集L。方法：通过YouTube API开放的服务，对于一个视频V，我们通过API获取其带地理标注的同作者视频相关视频。

步骤2、将L中的所有视频根据其GPS标注获取它们的网格号，L个视频位于C个不同的网格中。

步骤3、融合视觉和文本特征，建立视频的相似度矩阵W。(上文步骤4已经详细说明了矩阵的计算方法)

步骤4、将V视为将V视为未标记数据，将L视为已标记数据。利用标签传播算法获得V的网格标签来实现定位。

步骤5、如图2B所示，将步骤4得到预测的地理区块显示在地图上。

图2在线视频地理定位系统。图2A系统的首页提供两种视频地理定位入口，用户可以输入一个YouTube视频的URL，或者点击下方的YouTube每日观看次数最多的视频来定位一个视频；图2B视频定位的结果页面，红色的区域表示预测的视频的地理位置，如果这个视频是已经带有GPS标注的，那么会有一个绿色的小球表示他的原始位置。这个视频周围的相关视频也会在地图下方展示。

如图3所示一种基于社会信息的网络视频在线地理定位系统，其特征在于，包括：

获取视频模块，用于输入待定位的视频，获取视频的网格；

建立矩阵模块，用于建立所述视频的相似度矩阵W；

本领域的技术人员在不脱离权利要求书确定的本发明的精神和范围的条件下，还可以对以上内容进行各种各样的修改。因此本发明的范围并不仅限于以上的说明，而是由权利要求书的范围来确定的。

Claims

1.一种基于社会信息的网络视频在线地理定位方法，其特征在于，包括：

步骤200，输入待定位的视频V，获取所述待定位的视频V的l个带GPS标注的相关视频和相同作者的视频集L，获取视频集L的网格；其中，l个视频数据位于C个不同的网格中，C表示l个视频分属于不同网格的网格数量；

步骤300，建立所述视频的相似度矩阵W，该步骤具体为：

步骤311，将视频的标签利用波特词根还原法词根化以后，为每个视频建立其文本特征向量，

步骤312，执行步骤311中所述的特征向量利用余弦距离计算出视频的文本相似度TIJ，

步骤313，将视频抽取关键帧后，抽取每帧的尺度特征不变转换描述子并利用视觉关键词技术形成视觉特征向量来表示该帧的视觉信息，

步骤314，将步骤313中所述的特征向量利用余弦距离计算出视频帧间的视觉相似度，两个视频的最大帧间相似度被认定为是视频间的视觉相似度VIJ，

步骤315，将步骤312与步骤314中所述的视频的文本相似度与视觉相似度进行后融合，得到了视频的相似度度量WIJ＝0.6TIJ+0.4VIJ将文本相似度与视觉相似度加权融合，

步骤316，将视频数据V与视频数据L中的所有视频按照步骤311到步骤315中的方法计算相似度以后，形成了(l+1)×(l+1)视频相似度矩阵W；

步骤400，利用步骤300的视频相似度矩阵，通过标签传播算法将已标记视频数据的标签根据相似度，联系传播给未标记的视频数据；其中，所述标签传播算法为：使用视频相似度矩阵W建立视频转移概率矩阵P；对于视频集L，建立的标签分布矩阵M_L；针对视频集L的l个已标注视频和一个未标注待定位的视频V,建立(l+1)×C的标签分布矩阵F，其中，未标注待定位的视频V对应的F中数据为F_U，l个已标注视频对应的F中数据为F_L；使用视频转移概率矩阵P传播标签：F←PF；迭代所述视频转移概率矩阵P传播标签的操作，直至F_U收敛，其中，迭代操作中F_L与M_L保持一致；将视频数据V定位到F_U最大分布值所在的区块中；

2.如权利要求1所述的网络视频在线地理定位方法，其特征在于，所述步骤100中网格将全球进行相等面积的划分。

3.如权利要求1所述的网络视频在线地理定位方法，其特征在于，所述步骤200还包括：

步骤210，待定位的视频V，通过应用程序获取l个带GPS标注的相关视频和相同作者的视频L，其中V代表未标记的视频数据，L代表已标记的视频数据，l≥0；

步骤220，将L中的所有视频数据根据其GPS标注获取相应网格号。

4.如权利要求3所述的网络视频在线地理定位方法，其特征在于，所述步骤400还包括：

步骤410，根据步骤300中得到的视频相似度矩阵W,建立视频转移概率矩阵P，其中其中，i表示视频转移概率矩阵P的第i行，j表示视频转移概率矩阵P的第j列，k表示变量，l表示带GPS标注的相关视频和相同作者的视频L的视频数量，W_ij表示视频的相似度矩阵W中第i行视频与第j列视频的相似度，W_ik表示视频的相似度矩阵W中第i行视频与第k列视频的相似度；步骤420，对于l个带GPS标注的相关视频与相同作者视频L，建立l×C的标签分布矩阵M_L，矩阵M_L的每一行表示一个已标注视频的区域分布情况，如果一个视频分布在区域i,那么这一行在第i项为1，其余为0；步骤430，针对l个已标注视频和一个未标注视频建立(l+1)×C的标签分布矩阵F，F的初始化根据已标注数据和未标注数据的不同而不同，对于未标注数据F_U的分布来说，它是平均分布的C个区块的，每个区块的概率为1/C，而对于已标记的数据来说，F_L的初始化跟M_L一致；步骤440，根据步骤410中的视频转移概率矩阵P来传播标签：F←PF；步骤450，为了避免已标记数据的标签流失，将F_L与M_L保持一致；步骤460，迭代运行步骤440与步骤450，直至F_U收敛；步骤470，将视频数据V定位到F_U最大分布值所在的区块中；

5.一种基于社会信息的网络视频在线地理定位系统，其特征在于，包括：

获取视频模块，用于输入待定位的视频V，获取所述待定位的视频V的l个带GPS标注的相关视频和相同作者的视频集L，获取视频集L的网格；其中，l个视频数据位于C个不同的网格中，C表示l个视频分属于不同网格的网格数量；

建立矩阵模块，用于建立所述视频的相似度矩阵W,具体方法为：

相似度模块，用于将建立矩阵模块的视频相似度矩阵，通过标签传播算法将已标记视频数据的标签根据相似度，联系传播给未标记的视频数据；其中，所述标签传播算法为：使用视频相似度矩阵W建立视频转移概率矩阵P；对于视频集L，建立的标签分布矩阵M_L；针对视频集L的l个已标注视频和一个未标注待定位的视频V,建立(l+1)×C的标签分布矩阵F，其中，未标注待定位的视频V在F中对应的数据为F_U，l个已标注视频在F中对应的数据为F_L；使用视频转移概率矩阵P传播标签：F←PF；迭代所述视频转移概率矩阵P传播标签的操作，直至F_U收敛，其中，迭代操作中F_L与M_L保持一致；将视频数据V定位到F_U最大分布值所在的区块中；

6.如权利要求5所述的网络视频在线地理定位系统，其特征在于，所述获取视频模块还包括：

视频输入模块，用于待定位的视频V，通过应用程序获取l个带GPS标注的相关视频和相同作者的视频L，其中V代表未标记的视频数据，L代表已标记的视频数据，l≥0；

生成网格号模块，用于将L中的所有视频数据根据其GPS标注获取相应网格号。

7.如权利要求5所述的网络视频在线地理定位系统，其特征在于，所述矩阵模块还包括：

8.如权利要求6所述的网络视频在线地理定位系统，其特征在于，所述定位模块还包括：定位建立模块，根据建立矩阵模块中得到的视频相似度矩阵W,建立视频转移概率矩阵P，其中其中，i表示视频转移概率矩阵P的第i行，j表示视频转移概率矩阵P的第j列，k表示变量，l表示带GPS标注的相关视频和相同作者的视频L的视频数量，W_ij表示视频的相似度矩阵W中第i行视频与第j列视频的相似度，W_ik表示视频的相似度矩阵W中第i行视频与第k列视频的相似度；对于l个带GPS标注的相关视频与相同作者视频L，建立l×C的标签分布矩阵M_L，矩阵M_L的每一行表示一个已标注视频的区域分布情况，如果一个视频分布在区域i,那么这一行在第i项为1，其余为0；针对l个已标注视频和一个未标注视频建立(l+1)×C的标签分布矩阵F，F的初始化根据已标注数据和未标注数据的不同而不同，对于未标注数据F_U的分布来说，它是平均分布的C个区块的，每个区块的概率为1/C，而对于已标记的数据来说，F_L的初始化跟M_L一致；根据所述视频转移概率矩阵P来传播标签：F←PF；为了避免已标记数据的标签流失，将F_L与M_L保持一致；迭代运行上述算法，直至F_U收敛；将视频数据V定位到F_U最大分布值所在的区块中。