发明内容
本发明的目的是提供一种便捷、快速、高效的POI更新方法,以满足社会及LBS等行业领域对POI的需求。
本发明的技术方案为一种基于位置签到数据的POI更新方法,其特征在于,包括以下步骤:
步骤1,进行位置签到数据预处理;
步骤2,进行位置签到数据地理配准;
步骤3,进行位置签到数据匹配建模;
步骤4,进行有效性验证与POI更新。
而且,所述步骤1进一步包括以下子步骤,
步骤1.1,去除签到次数未达到阈值的位置签到数据;
步骤1.2,去除属性信息不完整的位置签到数据;
步骤1.3,对重复的位置签到数据进行合并处理。
而且,所述步骤2进一步包括以下子步骤,
步骤2.1,将位置签到数据、标准POI数据与底图统一坐标系;
步骤2.2,提取出名称属性完全匹配的位置签到数据和POI数据库中对应POI数据,得到数据点对集;
步骤2.3,根据数据点对集,采用RANSAC算法对位置签到数据和对应POI数据的仿射变换关系模型进行估算,迭代出最优模型参数;
步骤2.4,计算地理配准精度是否符合数据质量要求,包括以下子步骤,
步骤2.4.1,利用仿射变换参数对位置签到数据进行整体地理配准;
步骤2.4.2,利用配准前后签到数据与对应POI的距离偏差均值和标准差进行精度验证,未通过验证则剔除掉偏移量较大的位置签到数据后,重复步骤2.4.1进行配准,直到通过验证。
而且,所述步骤3进一步包括以下子步骤,
步骤3.1,将位置签到数据进行空间匹配,
步骤3.2,在空间匹配确定的缓冲区内进行属性匹配,
步骤3.3,将属性匹配成功的位置签到数据作为潜在存活数据保存;将属性匹配失败的位置签到数据作为潜在更新数据保存。
而且,所述步骤4进一步包括以下子步骤,
步骤4.1,将旧时序的准存活数据和潜在更新数据分别与新时序的位置签到数据进行连接;
步骤4.2,根据旧时序的准存活数据与新时序的位置签到数据连接后的结果、旧时序的潜在更新数据与新时序的位置签到数据连接后的结果分别计算出签到次数增长率和签到次数与人数比,作为有效性验证的判断条件,公式如下所示,
式中是位置签到数据在新时序t2与旧时序t1之间时间段内的签到次数增长率,Ct2与Ct1分别是新时序t2、旧时序t1的签到次数,|t2-t1|是新时序t2与旧时序t1之间时间跨度;ρ是位置签到数据的签到次数与人数的比,C是签到次数,U是签到人数;T与T′是预设的阈值;对准存活数据和潜在更新数据分别按以上公式计算并判断是否满足阈值要求。
步骤4.3,将旧时序的准存活数据中不满足阈值要求的位置签到数据所对应的POI数据从POI数据库中删除;将旧时序的潜在更新数据中满足阈值要求的位置签到数据作为更新数据加入到POI数据库中。
本发明具有以下优点和积极效果:
1)突破了POI原有的人工实地考察的更新方法,实现了POI的便捷、快速、高效的POI更新,解决POI获取无法满足社会及LBS等行业领域需求的问题;
2)本发明使用位置签到数据作为POI更新的数据源,在提高效率的同时,极大的缩减了POI更新的成本。
具体实施方式
本发明以当前用户参与数众多的社交网络为数据平台,提出了一种基于位置签到数据的POI更新方法,例如微博签到数据。以下结合附图和实施例详细说明本发明技术方案。
如图1所示,实施例的流程具体包括以下步骤:
步骤S1:位置签到数据预处理;
该步骤进一步包括以下子步骤:
①对位置签到数据设置签到次数的阈值,以筛选剔除一部分没有意义或者签到次数很少,关注度低的数据。具体实施时,本领域技术人员可以预设签到次数的阈值,执行流程时自动导入。
②检查位置签到数据的属性信息(如名称,地理坐标,签到人数等),信息是否齐全。因为可能有缺失的信息,可以预先建立一个标准格式来筛选出有效的位置签到数据,并且对需要进行保留的位置签到数据按照标准格式进行修改。
③对大量的重复位置签到数据进行数据合并处理,利用POI数据字典与位置签到数据进行比对识别,将对应于同一地理目标的不同别名、俗称与标准名称进行合并,以降低数据的冗余度;
步骤S2:位置签到数据地理配准;
该步骤进一步包括以下子步骤:
①将位置签到数据、标准POI数据与底图统一坐标系;
②将位置签到数据与已有POI数据库按名称属性进行连接,提取出名称属性完全匹配的位置签到数据和对应POI数据;
③采用RANSAC算法对位置签到数据和对应POI数据的仿射变换关系模型进行估算,迭代出最优模型参数;
本方法采用仿射变换公式作为模型,求解6个参数至少需要4个点对。
X=a0+a1x’+a2y’
Y=b0+b1x'+b2y′(1)
其中,a0、a1、a2、b0、b1、b2为仿射变换模型参数,x’,y’为位置签到数据的坐标值,X、Y为位置签到数据经仿射变换转换后得到的坐标值,根据以上公式,采用RANSAC算法即可得到最优模型参数。RANSAC算法为现有技术,为便于实施参考起见,提供建议实现过程简要说明如下:
预设迭代次数阈值N、内点判断参数diserror的阈值D,以及最少内点数阈值Z;将所有名称属性完全匹配的位置签到数据和对应POI数据做为点对样本,得到数据点对集S。
1)从点对集S中随机选取4个点对样本,加入内点集Si(i=1,2,3……,N,表示当前的迭代次数)。根据这4个点对样本的坐标值,利用间接平差初始化公式1所示仿射变换模型M,8个方程可以求解出6个未知的仿射变换模型参数,并得到拟合精度误差,将初始化所得模型设为最优模型,初始化所得拟合精度误差设为最小误差minerror;
2)从数据点对集S中继续随机取出点对样本,如果点对样本的内点判断参数diserror小于阈值D,将该点对样本加入符合当前模型的内点集Si(i=1,2,3……,N,表示当前的迭代次数)。
内点条件阈值diserror具体确定按公式2所示,式中a0、a1、a2、b0、b1、b2为步骤1)所得仿射变换模型参数,x1与y1代表位置签到数据的坐标值,X2与Y2代表与该位置签到数据对应的标准POI数据的坐标值。
temp1=X2-a0-a1×x1-a2×y1
temp2=Y2-b0-b1×x1-b2×y1
3)若内点集Si的大小超过了最少内点数阈值Z,则用当前内点集Si根据公式1重新估计仿射变换模型参数并得到拟合的精度误差。如果得到的新的拟合精度误差小于当前最小误差minerror,则把当前内点集Si设为最优内点集,由它估计的模型为最优模型;如果得到的新的拟合精度误差不小于当前最小误差minerror,则认为当前内点集Si不是最优内点集,返回步骤1)从数据点对集S中重新随机选取4个点对样本进行估计。
在经过N次迭代后,由当前最优的内点集Si估算得到的即为最优模型,输出模型参数。具体实施时,本领域技术人员可以根据精度需要仔细设置N值。
④计算地理配准精度是否符合数据质量要求;
1)利用仿射变换参数对位置签到数据进行整体地理配准;
2)利用配准前后签到数据与对应POI的距离偏差均值和标准差进行精度验证。距离偏
差均值和标准差的计算方式为现有技术。如果未通过精度验证,则可以剔除掉偏移量较
大的位置签到数据后,重复上述配准过程,直至满足精度要求。
步骤S3:位置签到数据匹配建模;
该步骤进一步包括以下子步骤:
①将位置签到数据进行空间匹配,即以位置签到数据为中心,通过设定一定的距离建立点缓冲区,将缓冲区与现有的POI数据进行点面叠置分析,分析同时会关联相应属性表。具体实现可采用现有软件,例如ArcMap软件。同时考虑到可能存在多个位置签到数据对应同一标准POI数据点,使得缓冲区间有重合,此时不应将缓冲区合并;
②在空间匹配确定的缓冲区内进行属性匹配,对位置签到数据与缓冲区里面的已有POI数据集的属性信息进行匹配,主要是指要素名称的匹配。对于要素名称匹配可采用字符串法。
③将属性匹配成功的位置签到数据作为准存活数据保存,具体实施时可以建立存活数据库,将准存活数据加入到存活数据库中;将属性匹配失败的位置签到数据作为潜在更新数据保存,具体实施时可以建立更新数据库,将潜在更新数据加入到更新数据库中。
步骤S4:有效性验证与POI更新;
该步骤进一步包括以下子步骤:
①将旧时序的准存活数据和潜在更新数据分别与新时序的位置签到数据进行连接;本发明利用新时序的位置签到数据检验旧时序数据中准存活数据是否可以存活和潜在更新数据是否满足更新条件。具体实施时,本领域技术人员可以自行根据需要指定时序规则,例如将2012年9月的数据作为旧时序的数据,将2012年10月的数据作为新时序的数据。
②根据旧时序的准存活数据与新时序的位置签到数据连接后的结果、旧时序的潜在更新数据与新时序的位置签到数据连接后的结果分别计算出签到次数增长率和签到次数与人数比,作为有效性验证的判断条件,公式如下所示:
式中是新时序t2的位置签到数据与旧时序t1的准存活数据或潜在更新数据之间时间段内的签到次数增长率,Ct2与Ct1分别是新时序t2的位置签到数据、旧时序t1的准存活数据或潜在更新数据的签到次数,|t2-t1|是新时序t2与旧时序t1之间时间跨度;ρ是位置签到数据的签到次数与人数的比,C是签到次数,U是签到人数;T与T′是预设的阈值,本领域技术人员可以自行根据具体情况预先设定。对旧时序的准存活数据和潜在更新数据分别按以上公式计算并判断是否满足阈值要求。
③将旧时序的准存活数据中不满足阈值要求的位置签到数据所对应的POI数据从POI数据库中删除;将旧时序的潜在更新数据中满足阈值要求的位置签到数据作为更新数据加入到POI数据库中。
本发明的基本原理是利用位置签到数据作为数据源快速的更新POI,进而可以满足社会及LBS等行业领域对POI的需求,其中通过对位置签到数据的预处理、地理配准、匹配建模以及有效性验证,从而实现了对POI的更新。
本文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代,但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。