CN106767812A

CN106767812A - 一种基于语义信息提取的室内语义地图更新方法与系统

Info

Publication number: CN106767812A
Application number: CN201611054254.7A
Authority: CN
Inventors: 郭得科; 滕晓强; 周晓磊
Original assignee: Individual
Current assignee: National University of Defense Technology
Priority date: 2016-11-25
Filing date: 2016-11-25
Publication date: 2017-05-31
Anticipated expiration: 2036-11-25
Also published as: US20180150693A1; CN106767812B; US10235568B2

Abstract

本发明公开了一种基于语义信息提取的室内语义地图更新方法与系统包括：向所有移动端发布众包任务；等待任意移动端执行众包任务，并接收其任务结果；对任务结果进行预处理，获得公共关键帧序列；从公共关键帧序列中提取精确文本序列；根据公共关键帧序列与精确文本序列更新室内语义地图。本发明能够鼓励移动端执行众包任务，并以较低的成本更新室内语义地图与文本语义信息。

Description

一种基于语义信息提取的室内语义地图更新方法与系统

技术领域

本发明涉及室内定位技术，特别地，涉及一种基于语义信息提取的室内语义地图更新方法与系统。

背景技术

近年来，室内定位技术已经在室内导航、社交网络、推送广告等服务中得以应用。基于室内定位的服务系统工作的必要条件之一是具有可用的室内地图，因此室内地图的自动化构建成为了当前基于室内位置服务的主要问题。很多研究者利用众包数据(如图像、WiFi信号强度、用户的移动轨迹等)来构建室内二维平面地图。然而，这些系统构造的二维平面地图不具有室内空间的语义信息。

语义室内地图的出现能够改善现有的基于室内位置服务的系统的工作，同时也能够被用来设计新的基于室内位置服务的系统。室内语义地图记载着室内对象的空间结构及其语义(如名称、类别、功能等非空间属性)，每一个室内空间对象都有丰富的语义信息。室内空间对象指代的是任意位置和区域的一般实体，包括标注实体和未标注实体。标注实体表示的是其语义信息已经通过文本信息被标记，例如，在商业场所中的室内对象的名称以及功能属性已经通过文本信息进行标注。而非标注实体，例如细粒度的一般实体，指的是缺少被标记的文本信息的实体。

尽管对于室内语义地图的自动化构建，每一个标记实体的文本信息能够提供精确的语义信息，然而现有技术中的方法主要关注的是室内特定实体的识别与分类，尚不能精确地识别这些语义文本信息。同时，室内空间的语义信息是动态变化的，例如商场的店铺的更换、商场的促销信息的更新、陈列展品的更换。对于给定的室内空间，地图上的已经标记的语义信息明显与当前室内语义信息存在差异。如果新更新的语义信息没有被及时标记或者是旧的语义信息没有及时被移除，初始的室内语义地图就会逐步的衰减甚至是破坏基于位置服务系统的绩效。在这样的情况下，室内语义地图不仅不能够改善现有的基于室内位置的服务体验，而且也不能产生新的基于室内位置服务系统。因此，室内语义地图的自适应与更新问题还没有被解决。这个开放问题基本上限制了室内语义地图的应用，尤其是长期部署的应用。

解决此问题的一个直接的方法是定时重新生成整个室内语义地图。这个方法耗时耗力，而且也在更新没有变化的室内环境上浪费大量资源。该方法被设计用来自动构建整个室内平面地图，不适合对复杂的室内空间进行实时的、明确的语义信息的更新。而且，他们也不能更新文本语义信息，因此对已标注的实体的更新就会失效。

针对现有技术中更新室内语义地图的方法成本过高且不能更新文本信息的问题，目前尚未有有效的解决方案。

发明内容

有鉴于此，本发明的目的在于提出一种基于语义信息提取的室内语义地图更新方法，能够以较低的成本更新室内语义地图与文本语义信息。

根据本发明的一个方面，提供了一种基于语义信息提取的室内语义地图更新方法。

根据本发明提供的基于语义信息提取的室内语义地图更新方法包括：

向所有移动端发布众包任务；

等待任意移动端执行众包任务，并接收其任务结果；

对任务结果进行预处理，获得公共关键帧序列；

从公共关键帧序列中提取精确文本序列；

根据公共关键帧序列与精确文本序列更新室内语义地图。

其中，众包任务包括位置获取任务与短视频采集任务，其中，位置获取任务为根据GPS定位获取移动端所在的地理位置，短视频采集任务为拍摄包含丰富语义的室内对象；对任务结果进行预处理提取公共关键帧序列，为对短视频采集任务采集的短视频进行预处理并提取公共关键帧序列。

并且，对短视频采集任务采集的短视频进行预处理并提取公共关键帧序列包括：

从短视频中提取所有的关键帧，并将所有关键帧归纳到多条关键帧序列中；

从多条关键帧序列提取出公共部分，获得公共关键帧序列。

并且，从短视频中提取所有的关键帧，为使用关键帧算法从短视频移除所有与其他图像高度相似的图像，剩余的图像被认为是关键帧。

同时，从多条关键帧序列提取出公共部分获得公共关键帧序列包括：

从多条关键帧序列中指定一条作为种子序列；

从多条关键帧序列中另选取一条未被标记的序列，并计算种子序列与另一条序列间的序列距离以及两序列的长度差；

根据种子序列与另一条序列间的序列距离以及两序列的长度差，计算种子序列与另一条序列的最长公共子序列；

根据种子序列与另一条序列的最长公共子序列计算两序列的相似性得分，并根据相似性得分确定两序列是否相似；

判断种子序列与另一条序列的最长公共子序列的长度是否达到另一条序列的长度的一半以上，是则标记另一条序列，否则不标记；

从多条关键帧序列中重新选取另一条未被标记的序列依次执行上述操作，直到多条关键帧序列中的所有序列都被标记。

另外，从公共关键帧序列中提取精确文本序列包括：

从公共关键帧序列中识别文字，并将所有被识别出的文字归纳到多条文本序列中；

使用马尔科夫随机场从多条文本序列提取精确文本序列。

并且，使用马尔科夫随机场从多条文本序列提取精确文本序列包括：

获取多条文本序列中的每个隐状态节点与和与其对应的观测节点；

根据多条文本序列中的每个隐状态节点和与其对应的观测节点，获得每两个隐状态邻居节点之间的概率函数以及每个隐状态节点和与其对应的观测节点之间的概率函数；

根据每两个隐状态邻居节点之间的概率函数以及每个隐状态节点和与其对应的观测节点之间的概率函数，获得多条文本序列的联合概率；

对多条文本序列的联合概率使用最大似然估计法，获得对任一节点的最佳估计；

根据该节点的最佳估计与信度获得任意两节点间的信息；

根据任意两节点间的信息提取精确文本序列。

另外，根据公共关键帧序列与精确文本序列更新室内语义地图包括：

从公共关键帧序列中提取图像特征；

从精确文本序列中提取未变化文本得分与未变化文本集合；

根据图像特征、未变化文本得分与未变化文本集合，以及事先设定的权重，分别计算出房间轮廓能项、未变化文本能项与未变化邻居文本能项；

根据房间轮廓能项、未变化文本能项与未变化邻居文本能项计算总能项；

使用总能项将精确文本序列定位到室内语义地图上，并进行更新。

并且，使用总能项将精确文本序列定位到室内语义地图上包括：

依次指定每一条文本序列；

计算被指定文本序列与室内语义地图整体序列间的序列距离以及两序列的长度差；

根据被指定文本序列与室内语义地图整体序列间的序列距离以及两序列的长度差，计算被指定文本序列与室内语义地图整体序列的最长公共子序列；

根据被指定文本序列与室内语义地图整体序列的最长公共子序列计算两序列的相似性得分；

遍历了每一条文本序列后，将相似性得分最高的文本序列作为结果定位到室内语义地图上。

根据本发明的另一个方面，提供了一种基于语义信息提取的室内语义地图更新系统。

根据本发明提供的基于语义信息提取的室内语义地图更新系统运用了上述的任一种室内语义地图更新方法。

从上面所述可以看出，本发明提供的技术方案通过使用向发布众包任务接收其任务结果，进行预处理，获得公共关键帧序列，提取精确文本序列并更新室内语义地图的技术手段，能够鼓励移动端执行众包任务，并以较低的成本更新室内语义地图与文本语义信息。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为根据本发明实施例的一种基于语义信息提取的室内语义地图更新方法的流程图；

图2为根据本发明实施例的一种基于语义信息提取的室内语义地图更新系统的结构图；

图3为根据本发明实施例的一种基于语义信息提取的室内语义地图更新系统中，马尔科夫随机场的无向图模型；

图4为根据本发明实施例的一种基于语义信息提取的室内语义地图更新系统中，室内语义地图更新的一个实施例。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进一步进行清楚、完整、详细地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员所获得的所有其他实施例，都属于本发明保护的范围。

根据本发明的一个实施例，提供了一种基于语义信息提取的室内语义地图更新方法。

如图1所示，根据本发明的实施例提供的基于语义信息提取的室内语义地图更新方法包括：

步骤S101，向所有移动端发布众包任务；

步骤S103，等待任意移动端执行众包任务，并接收其任务结果；

步骤S105，对任务结果进行预处理，获得公共关键帧序列；

步骤S107，从公共关键帧序列中提取精确文本序列；

步骤S109，根据公共关键帧序列与精确文本序列更新室内语义地图。

从多条关键帧序列提取出公共部分，获得公共关键帧序列。

从多条关键帧序列中指定一条作为种子序列；

另外，从公共关键帧序列中提取精确文本序列包括：

使用马尔科夫随机场从多条文本序列提取精确文本序列。

根据该节点的最佳估计与信度获得任意两节点间的信息；

根据任意两节点间的信息提取精确文本序列。

从公共关键帧序列中提取图像特征；

从精确文本序列中提取未变化文本得分与未变化文本集合；

依次指定每一条文本序列；

根据本发明的另一个实施例，提供了一种基于用户反馈的室内语义地图更新系统，运用了上述的任一种室内语义地图更新方法。

下面根据具体实施例进一步阐述本发明的技术方案。

本发明实施例利用语义丰富的短视频来设计一个自动化、持续的更新语义室内地图系统，命名为SiFi。语义丰富的短视频提供了室内对象的语义信息，而且易于移动端捕获和共享。移动端主动去捕获室内短视频，并上传到服务器做进一步处理。SiFi系统从短的视频中提取图像和语义序列，建立图像之间、文本之间的序列关系。相比较于无序的图像和文本，SiFi系统阐明了在同等大小的数据量下，有序的图像和文本提供更多的有价值的信息，这些被提取出来的文本序列与当前的室内语义地图进行匹配去更新变化的语义信息。这使得室内语义地图可以实时更新以维护室内位置服务系统的长期部署，而且不依赖于任何的室内定位系统与额外的硬件设施。

室内语义地图系统的结构如图2所示。为了采集语义丰富的短的视频，服务器首先分发两个众包任务，用户通过执行众包任务来捕获室内空间的视频，通过WiFi网络上传至服务器做进一步处理。

大部分的系统处理视频的计算负载都放在服务器上。服务器端处理部分包括视频预处理、精确地文本提取和更新。不同用户、不同设备、不同使用姿态、不同摄像机的位置以及不同视角所捕获的语义丰富的短视频，显然具有明显的差异；另一方面，摄像机的运动轨迹也是不确定的。在这两个因素的影响下，服务器处理视频非常困难。因此，语义丰富的短的视频首先被加载到服务器的视频预处理模块，视频预处理模块从语义丰富的短的视频中提取出公共关键帧序列，文本提取模块从公共关键帧序列中提取出精确文本序列。在本发明实施例中，精确文本提取过程被建模为马尔科夫随机场过程。获得精确文本序列之后，服务器利用三个能项(房间轮廓、未变化的文本和未变化的邻居文本)在室内语义地图上来定位文本序列，从而得到变化的语义信息的位置，并更新变化的文本语义。更新后的室内语义地图可以用于服务基于室内位置服务的系统。

现有技术中计算机视觉领域的文字识别算法存在假阳性与假阴性错误，其文字识别精度过低而不能直接用于SiFi系统。本发明实施例首先执行视频预处理，再进行精确文本提取。

因为视频是在众包的模式下采集到的，视频之间存在显著差异。因此需要首先进行视频预处理。

首先，使用SURF(Speed Up Robust Features)算法去匹配两帧图像时，视频数据的处理是制约SiFi系统运行的瓶颈。已知的事实是：视频中相邻的两帧图像具有高度相似性，而非相邻的两帧图像具有明显的可区分度。因此，本发明实施例使用关键帧提取算法来移除视频中相似的图像，剩下图像的称为关键帧。在本发明实施例中，I_i表示的是关键帧，I＝{I₁,I₂,…,I_m}表示的是关键帧序列。

当得到了数条关键帧序列，本发明实施例使用LCS(longest commonsubsequence)方法来计算两个关键帧之间的相似性，并提取其公共部分。另I_a和I_b是两个关键帧序列，其长度分别为m和n，LCS矩阵使用下述公式计算：

其中，δ是两个关键帧序列的长度差阈值，∈是距离阈值，d是两关键帧序列相似性计算值。

相似性得分S_I被定义为：

其中，F表示的所有的滑动窗口。如果S_I高于阈值S_H，则两个关键帧序列被认为是相似的。

本发明实施例用以下方法来计算多个关键帧的公共部分：指定一条关键帧序列被选择作为种子序列(seed)，使seed与第二条关键帧序列(second sequence)通过LCS方法得到公共部分。如果公共部分是第二条关键帧序列长度的一半以上，那么第二条关键帧序列被加载到具有公共部分的集合，否则被加载到非公共部分集合。然后，不断地从非公共部分集合选取不同的第二条关键帧序列重复进行上述运算，直到非公共部分集合为空。

因为基于视觉的文字识别算法精度不够高，导致不能直接应用于SiFi系统。算法精度低会产生两类错误，假阳性错误和假阴性错误：假阳性错误指的是文字的错误识别(非文字识别为文字)，假阴性错误指的是文字的遗漏识别(文字未识别为文字)。这些错误使得难以直接得到精确文本信息来更新室内语义地图。

为了得到精确地文本信息，本发明实施例设计了分层的方法。首先，利用现有的计算机视觉算法初步识别文字；其次，从关键帧序列中得到文字序列。在本发明实施例中，tx表示的一个文本，TX＝{tx₁,tx₂,,tx_k}表示的文本序列。我们采用马尔科夫随机场从多条文本序列中来提取精确地文本。

图3示出的是马尔科夫随机场的无向图模型。马尔科夫随机场表示了两个随机变量的联合概率。在马尔科夫随机场中，一个文本tx_i在第k条文本序列中有一个隐状态节点x(tx_i,k)(圆形)和一个观测节点y(tx_i,k)(方形)。在同一个文本序列中，x(tx_i,k)有两个邻居节点x(tx_i+1,k)和x(tx_i-1,k)。在不同文本序列中，x(tx_i,k)有两个邻居节点x(tx_i,k-1)和x(tx_i,k+1)。随机变量x₁,x₂,…,x_N,y₁,y₂,…,y_N(定义为X,Y)联合概率定义为：

其中，ψ是邻居节点之间的概率函数，φ是状态节点和观测节点之间的概率函数，N是文本的数量，Z是归一化参数。进一步地，MLE(Maximum Likelihood Estimation，最大似然估计)被用来得到x_j的最佳估计：

本发明实施例用信度传播算法求解马尔科夫随机场模型。令b(x_j)表示节点x_j的信度，m_kj(x_j)表示节点k与节点j之间的消息，则MLE消息表示为：

整理可得

其中，i∈N(k)\j是除了x_j的x_i的所有邻居节点。

另外，观测节点y(tx_i)表示的在两个文本序列中第i个节点变化的概率。如果y(tx_i)＝0，则认为第i个文本没有变化。假设初始服从在[1,M]上的均匀分布，其中M是文本数量。如果y(tx_i)＝1，则认为第i个文本发生变化。变化后的文本设置为ξ(x_i＝f(i))，其中，f(i)是一个计数函数，定义为f(i)＝tx(max{N(tx₁),N(tx₂),…,N(tx_M)})，其中，N(tx_i)指的是第i个文本的数量，tx(N)指的是具有数量为N的那个文本。于是有

另外，ψ使用Potts模型来代替：

其中，和分别表示的是第P_g文本对于节点x_i和第P_h个文本对于节点x_j，0<p<1，p＞＞q。如果文本没有变化，对于后续的文本序列就会下降。其中，P是一个衰减指数，表示的是两个邻居节点之间的差异性。

得到文本序列后，本发明实施例首先寻找文本序列与室内语义地图之间的函数关系，在室内语义地图上定位并更新发生变化的文本语义信息。首先，文本在室内语义地图上使用元组Z(X,Y)＝{(x,y)|(x,y)∈R²}，其中，(x,y)是一个文本在室内语义地图上的位置坐标。如此，我们得到函数关系U为：

Z(X,Y)＝U(I,TX,M)

其中，I表示任一图像序列，TX表示与其对应的文本序列，M表示代被更新的室内语义地图。

本发明实施例建模三个能项用来描述概率，包括房间轮廓、未变化的文本和邻居未变化的文本。考虑到室内环境十分复杂，平面图上的区域大多是非凸的，我们使用二元组Q＝{q_i,s_i}来表述，其中，q_i是平行四边形，s_i是对应的文本。

本发明实施例我们建模房间轮廓能项为：

其中，Ψ_om+gc(q_i)表示的是图像特征，是权重。

本发明实施例建模未变化的文本能项为：

其中，f_UT是未变化文本的得分，b是未变化文本盒子的集合，-w_UT是权重。

本发明实施例建模未变化的邻居文本能项为：

E_NUT＝-w_NUTΠE_UT

其中，-w_NUT是权重。

最后，我们得到整体能项，定义为：

E＝E_facade+E_UT+E_NUT

其中，房间轮廓的能项使用关键帧序列计算得到，未变化文本与未变化邻居文本使用文本序列计算得到。权重根据关键帧与文本序列自适应调整。接下来，我们使用整体的能项来定位文本序列在室内语义地图上。

给定一条长度为n的文本序列(TX_a)与对应的关键帧序列I，本发明实施例使用LCS方法在整个室内语义地图上匹配TX_a和I。将整个室内语义地图视为一条长度为M的文本序列TX_b，TX_a与TX_b的LCS矩阵为：

其中，δ两条文本序列最大的距离差阈值，∈为能量阈值。

相似性得分计算为：

其中，F表示所有滑动窗口。在室内语义地图上，具有最大值S_TX的文本序列被选择作为结果值，也可以获得每一个对应的文本的坐标。

至此，本发明实施例使用新测量得到的图像和文本序列来更新室内语义地图，室内语义地图被更新来适应室内环境的动态性变化，如图4所示。

综上所述，借助于本发明的上述技术方案，通过使用向发布众包任务接收其任务结果，进行预处理，获得公共关键帧序列，提取精确文本序列并更新室内语义地图的技术手段，能够鼓励移动端执行众包任务，并以较低的成本更新室内语义地图与文本语义信息。

所属领域的普通技术人员应当理解：以上所述仅为本发明的具体实施例而已，并不用于限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于语义信息提取的室内语义地图更新方法，其特征在于，包括：

向所有移动端发布众包任务；

等待任意移动端执行众包任务，并接收其任务结果；

对所述任务结果进行预处理，获得公共关键帧序列；

从所述公共关键帧序列中提取精确文本序列；

根据所述公共关键帧序列与所述精确文本序列更新室内语义地图。

2.根据权利要求1所述的方法，其特征在于，所述众包任务包括位置获取任务与短视频采集任务，其中，所述位置获取任务为根据GPS定位获取移动端所在的地理位置，所述短视频采集任务为拍摄包含丰富语义的室内对象；对所述任务结果进行预处理提取公共关键帧序列，为对所述短视频采集任务采集的短视频进行预处理并提取公共关键帧序列。

3.根据权利要求2所述的方法，其特征在于，对所述短视频采集任务采集的短视频进行预处理并提取公共关键帧序列包括：

从所述短视频中提取所有的关键帧，并将所有关键帧归纳到多条关键帧序列中；

从所述多条关键帧序列提取出公共部分，获得公共关键帧序列。

4.根据权利要求3所述的方法，其特征在于，从所述短视频中提取所有的关键帧，为使用关键帧算法从所述短视频移除所有与其他图像高度相似的图像，剩余的图像被认为是关键帧。

5.根据权利要求3所述的方法，其特征在于，从所述多条关键帧序列提取出公共部分获得公共关键帧序列包括：

从所述多条关键帧序列中指定一条作为种子序列；

从所述多条关键帧序列中另选取一条未被标记的序列，并计算所述种子序列与另一条序列间的序列距离以及两序列的长度差；

根据所述种子序列与另一条序列间的序列距离以及两序列的长度差，计算所述种子序列与另一条序列的最长公共子序列；

根据所述种子序列与另一条序列的最长公共子序列计算两序列的相似性得分，并根据所述相似性得分确定两序列是否相似；

判断所述种子序列与另一条序列的最长公共子序列的长度是否达到所述另一条序列的长度的一半以上，是则标记所述另一条序列，否则不标记；

从所述多条关键帧序列中重新选取另一条未被标记的序列依次执行上述操作，直到所述多条关键帧序列中的所有序列都被标记。

6.根据权利要求2所述的方法，其特征在于，从所述公共关键帧序列中提取精确文本序列包括：

从所述公共关键帧序列中识别文字，并将所有被识别出的文字归纳到多条文本序列中；

使用马尔科夫随机场从所述多条文本序列提取精确文本序列。

7.根据权利要求6所述的方法，其特征在于，所述使用马尔科夫随机场从所述多条文本序列提取精确文本序列包括：

获取所述多条文本序列中的每个隐状态节点与和与其对应的观测节点；

根据所述多条文本序列中的每个隐状态节点和与其对应的观测节点，获得所述每两个隐状态邻居节点之间的概率函数以及每个隐状态节点和与其对应的观测节点之间的概率函数；

根据所述每两个隐状态邻居节点之间的概率函数以及每个隐状态节点和与其对应的观测节点之间的概率函数，获得所述多条文本序列的联合概率；

对所述多条文本序列的联合概率使用最大似然估计法，获得对任一节点的最佳估计；

根据该节点的最佳估计与信度获得任意两节点间的信息；

根据所述任意两节点间的信息提取精确文本序列。

8.根据权利要求2所述的方法，其特征在于，根据所述公共关键帧序列与所述精确文本序列更新室内语义地图包括：

从所述公共关键帧序列中提取图像特征；

从所述精确文本序列中提取未变化文本得分与未变化文本集合；

根据所述图像特征、未变化文本得分与未变化文本集合，以及事先设定的权重，分别计算出房间轮廓能项、未变化文本能项与未变化邻居文本能项；

根据所述房间轮廓能项、未变化文本能项与未变化邻居文本能项计算总能项；

使用所述总能项将所述精确文本序列定位到室内语义地图上，并进行更新。

9.根据权利要求8所述的方法，其特征在于，使用所述总能项将所述精确文本序列定位到室内语义地图上包括：

依次指定每一条文本序列；

计算所述被指定文本序列与室内语义地图整体序列间的序列距离以及两序列的长度差；

根据所述被指定文本序列与室内语义地图整体序列间的序列距离以及两序列的长度差，计算所述被指定文本序列与室内语义地图整体序列的最长公共子序列；

根据所述被指定文本序列与室内语义地图整体序列的最长公共子序列计算两序列的相似性得分；

10.一种基于语义信息提取的室内语义地图更新系统，其特征在于，运用了如权利要求1-9中任意一项所述的室内语义地图更新方法。