CN103886082A - 对兴趣点的位置信息进行校验的方法和设备 - Google Patents

对兴趣点的位置信息进行校验的方法和设备 Download PDF

Info

Publication number
CN103886082A
CN103886082A CN201410117421.2A CN201410117421A CN103886082A CN 103886082 A CN103886082 A CN 103886082A CN 201410117421 A CN201410117421 A CN 201410117421A CN 103886082 A CN103886082 A CN 103886082A
Authority
CN
China
Prior art keywords
interest
point
neighbours
unit
positional information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410117421.2A
Other languages
English (en)
Other versions
CN103886082B (zh
Inventor
刘燕云
孙彬
李国强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201410117421.2A priority Critical patent/CN103886082B/zh
Publication of CN103886082A publication Critical patent/CN103886082A/zh
Application granted granted Critical
Publication of CN103886082B publication Critical patent/CN103886082B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G01MEASURING; TESTING
    • G01CMEASURING DISTANCES, LEVELS OR BEARINGS; SURVEYING; NAVIGATION; GYROSCOPIC INSTRUMENTS; PHOTOGRAMMETRY OR VIDEOGRAMMETRY
    • G01C21/00Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00
    • G01C21/26Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00 specially adapted for navigation in a road network
    • G01C21/34Route searching; Route guidance
    • G01C21/3453Special cost functions, i.e. other than distance or default speed limit of road segments
    • G01C21/3476Special cost functions, i.e. other than distance or default speed limit of road segments using point of interest [POI] information, e.g. a route passing visible POIs

Landscapes

  • Engineering & Computer Science (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Automation & Control Theory (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Navigation (AREA)

Abstract

提供了一种对兴趣点的位置信息进行校验的方法和设备。所述方法包括:选取地址中带有邻居描述关系的第一兴趣点;取出与第一兴趣点具有邻居描述关系的第二兴趣点并获取第二兴趣点的位置信息;利用第二兴趣点的位置信息对第一兴趣点的位置信息进行校验。根据本发明的对兴趣点的位置信息进行校验的方法可以校验传统方法无法校验的兴趣点数据位置,因此提升兴趣点空间准确率。

Description

对兴趣点的位置信息进行校验的方法和设备
技术领域
本发明涉及基于位置的服务(LBS)领域,更具体地讲,涉及LBS领域的兴趣点空间位置检验。
背景技术
导航在我们的日常生活中发挥的作用越来越大,导航产品逐渐向精细化、人性化、个性化的方向发展,这就对导航数据的准确性提出了更高的要求。
导航数据包括存储于导航器存储设备中的电子地图数据,这些电子地图数据显示在屏幕上形成地图图像,电子地图数据还包括一些兴趣点信息。兴趣点信息是电子地图数据的重要组成部分,常常是使用频率较高或者一定地域内比较重要的设施信息,例如小区、学校、医院、商场、超市、写字楼、餐厅、宾馆酒店、停车场等。兴趣点信息通常包括兴趣点的名称、兴趣点地址和电话号码等信息。
兴趣点空间准确率是LBS产品的重要指标,也是影响LBS产品用户体验的重要因素。
传统方式下,空间准确率是靠数据采集方来保证,使用方强依赖于来源方,目前校验兴趣点空间位置的方法主要包括以下三种:
第一种是人工扫街复查,即人工到实际地点去确认。这种方法需要大量的人力,当需要校验的兴趣点数据量越来越大时,使用纯人工复查的成本会加大。
第二种是UGC(用户原创内容)方式。即,通过使用地图产品的用户反馈来修改错误的地点。这种方式由于受限于用户反馈意识,反馈数量有限,因此局限性较大。
第三种是多个来源之间相互校验方式。在多个来源的地点数据都标注在空间同一位置的情况下,如果四个同等可信度来源对同一个地点标注的空间位置有一定距离,其中一个和其他三个隔得远,则认为这个孤立的来源方的这条数据是错的。这种方式受限于各来源方数据规范的统一,且此方法本身具有缺陷,一是各个来源方的可信度不一样,但是当两条数据出现不一致时,也不一定是可信度低的来源方是错误数据;二是各来源数据互补的集合大,重合的区间小,非重合数据此方法无法校验。
因此,需要一种能够更准确地对兴趣点空间位置进行校验的方法。
发明内容
根据本发明的一方面,提供了一种对兴趣点的位置信息进行校验的方法,包括:选取地址中带有邻居描述关系的第一兴趣点;取出与第一兴趣点具有邻居描述关系的第二兴趣点并获取第二兴趣点的位置信息;利用第二兴趣点的位置信息对第一兴趣点的位置信息进行校验。
取出第二兴趣点并获取第二兴趣点的位置信息可包括:将所存储的所有兴趣点构建成Trie树;用第一兴趣点在Trie树中找出与第一兴趣点具有邻居描述关系的第二兴趣点;取出第二兴趣点的位置信息。
如果没有找出与第一兴趣点具有邻居描述关系的第二兴趣点,则可将所述第二兴趣点作为新增点补充到兴趣点库中。
对第一兴趣点的位置信息进行校验可包括:将第一兴趣点地址中的邻居描述关系以及第二兴趣点地址中的邻居描述关系保存成邻居关系表;从邻居关系表中取出第一兴趣点对应的第二兴趣点,并使用第一兴趣点和第二兴趣点的坐标和邻居位置关系来校正第一兴趣点的位置信息。
所述方法可还包括:基于校验出的位置信息错误的错误兴趣点和位置信息正确的正确兴趣点提取不同用户针对这些兴趣点进行过操作的操作历史序列;基于兴趣点对提取的操作历史序列进行聚合以得到针对正确兴趣点的正确操作序列和针对错误兴趣点的错误操作序列;提取所有含有错误操作序列的兴趣点作为兴趣点错误数据。
提取不同用户针对这些兴趣点进行过操作的操作历史序列可包括:在用户日志中预先记录用户对兴趣点的操作历史信息;按照时间顺序将同一用户的操作历史信息进行排序并记录其操作对应的兴趣点信息;对排序后的操作历史信息中的连续操作行为进行去重;按时间间隔将去重后的操作历史信息切分为不同的操作序列。
所述方法可还包括:对提取的兴趣点错误数据进行过滤以找出错误提取的非兴趣点错误数据。
根据本发明的另一方面,提供了一种对兴趣点的位置信息进行校验的设备,包括:兴趣点选取单元,选取地址中带有邻居描述关系的第一兴趣点;邻居点获取单元,取出与第一兴趣点具有邻居描述关系的第二兴趣点并获取第二兴趣点的位置信息;位置信息校验单元,利用第二兴趣点的位置信息对第一兴趣点的位置信息进行校验。
邻居点获取单元可包括:Trie树创建单元,将所存储的所有兴趣点构建成Trie树;邻居点寻找单元,用第一兴趣点在Trie树中找出与第一兴趣点具有邻居描述关系的第二兴趣点;邻居点位置信息取出单元,取出第二兴趣点的位置信息。
邻居点获取单元可还包括:兴趣点增加单元,如果邻居点寻找单元没有找出与第一兴趣点具有邻居描述关系的第二兴趣点,则将所述第二兴趣点作为新增点补充到兴趣点库中。
位置信息校验单元可将第一兴趣点地址中的邻居描述关系以及第二兴趣点地址中的邻居描述关系保存成邻居关系表,从邻居关系表中取出第一兴趣点对应的第二兴趣点,并使用第一兴趣点和第二兴趣点的坐标和邻居位置关系来校正第一兴趣点的位置信息。
所述设备可还包括:操作历史序列提取单元,基于校验出的位置信息错误的错误兴趣点和位置信息正确的正确兴趣点提取不同用户针对这些兴趣点进行过操作的操作历史序列;操作历史序列聚合单元,基于兴趣点对提取的操作历史序列进行聚合以得到针对正确兴趣点的正确操作序列和针对错误兴趣点的错误操作序列;错误数据提取单元,提取所有含有错误操作序列的兴趣点作为兴趣点错误数据。
操作历史序列提取单元可包括:操作历史记录单元,在用户日志中预先记录用户对兴趣点的操作历史信息;操作历史排序单元,按照时间顺序将同一用户的操作历史信息进行排序并记录其操作对应的兴趣点信息;连续操作去重单元,对排序后的操作历史信息中的连续操作行为进行去重;切分单元,按时间间隔将去重后的操作历史信息切分为不同的操作序列。
所述设备可还包括:错误数据过滤单元,对提取的兴趣点错误数据进行过滤以找出错误提取的非兴趣点错误数据。
根据本发明的另一方面,提供了一种对兴趣点的位置信息进行校验的方法,包括:基于位置信息错误的错误兴趣点和位置信息正确的正确兴趣点提取不同用户针对这些兴趣点进行过操作的操作历史序列;基于兴趣点对提取的操作历史序列进行聚合以得到针对正确兴趣点的正确操作序列和针对错误兴趣点的错误操作序列;提取所有含有错误操作序列的兴趣点作为兴趣点错误数据。
提取不同用户针对这些兴趣点进行过操作的操作历史序列可包括:在用户日志中预先记录用户对兴趣点的操作历史信息;按照时间顺序将同一用户的操作历史信息进行排序并记录其操作对应的兴趣点信息;对排序后的操作历史信息中的连续操作行为进行去重;按时间间隔将去重后的操作历史信息切分为不同的操作序列。
所述方法可还包括:对提取的兴趣点错误数据进行过滤以找出错误提取的非兴趣点错误数据。
根据本发明的另一方面,提供了一种对兴趣点的位置信息进行校验的设备,包括:操作历史序列提取单元,基于位置信息错误的错误兴趣点和位置信息正确的正确兴趣点提取不同用户针对这些兴趣点进行过操作的操作历史序列;操作历史序列聚合单元,基于兴趣点对提取的操作历史序列进行聚合以得到针对正确兴趣点的正确操作序列和针对错误兴趣点的错误操作序列;错误数据提取单元,提取所有含有错误操作序列的兴趣点作为兴趣点错误数据。
操作历史序列提取单元可包括:操作历史记录单元,在用户日志中预先记录用户对兴趣点的操作历史信息;操作历史排序单元,按照时间顺序将同一用户的操作历史信息进行排序并记录其操作对应的兴趣点信息;连续操作去重单元,对排序后的操作历史信息中的连续操作行为进行去重;切分单元,按时间间隔将去重后的操作历史信息切分为不同的操作序列。
所述设备可还包括:错误数据过滤单元,对提取的兴趣点错误数据进行过滤以找出错误提取的非兴趣点错误数据。
将在接下来的描述中部分阐述本发明另外的方面和/或优点,还有一部分通过描述将是清楚的,或者可以经过本发明的实施而得知。
附图说明
通过下面结合附图对本发明的实施例进行描述,本发明的上述和其他目的将会变得更加清楚,其中:
图1是示出根据本发明第一实施例的对兴趣点的位置信息进行校验的方法的流程图;
图2是示出图1中的取出与第一兴趣点具有邻居描述关系的第二兴趣点并获取第二兴趣点的位置信息的过程的流程图;
图3是邻居关系表的示意图;
图4是单点校验的示意图;
图5是多点校验的示意图;
图6是示出根据本发明第二实施例的对兴趣点的位置信息进行校验的方法的流程图;
图7是示出根据本发明第三实施例的对兴趣点的位置信息进行校验的设备的结构的框图;
图8是示出图7中的邻居点获取单元的结构的框图;
图9是示出根据本发明第四实施例的对兴趣点的位置信息进行校验的设备的结构的框图;
图10是示出操作历史序列提取单元的结构的框图。
具体实施方式
图1是示出根据本发明第一实施例的对兴趣点的位置信息进行校验的方法的流程图。
根据本发明第一实施例的对兴趣点的位置信息进行校验的方法是基于兴趣点的邻居关系来对兴趣点的位置进行校验的方法。邻居关系是指兴趣点之间相近的空间位置的位置关系,因此可以借助邻居关系中的对方的位置和相对自己的方向来描述自己的位置。例如兴趣点Poi A的地址为XX区XX工业园B以南30米,则AB具有邻居关系。
因此,如果第一兴趣点的地址中带有第二兴趣点的信息,则第一兴趣点与第二兴趣点具有邻居关系,在第二兴趣点也同时具有对应的邻居关系的情况下,则可确定第一兴趣点的位置信息正确。下面对该方法进行详细描述。
在101中,选取地址中带有邻居描述关系的第一兴趣点。
带有邻居描述关系的第一兴趣点包括兴趣点的名称,地址,电话,分类,坐标等信息。应该理解,可存在带有邻居描述关系的一个或多个第一兴趣点(以下针对具有邻居描述关系的一个兴趣点进行描述,即以下所称的第一兴趣点就是指具有邻居描述关系的一个兴趣点)。
例如,可通过关键字识别,通过正则表达式从存储了需要进行校验的兴趣点的库中取出带有邻居描述关系的兴趣点的集合。
在102中,取出与第一兴趣点具有邻居描述关系的第二兴趣点并获取第二兴趣点的位置信息。
应该理解,第二兴趣点是第一兴趣点的一个或多个邻居点的统称。
例如,在101中取出兴趣点A,兴趣点A的地址描述是信息路B点以南100米(邻居描述关系是:信息路B点以南100米)的情况下,在102中取出B点的位置信息。
下面参照图2对102进行详细描述。
在201中,将所存储的所有兴趣点构建成Trie树。
其中,所有兴趣点包含了地址中含有邻居描述的兴趣点和地址中没有含有邻居描述的兴趣点。Trie树是计算机科学的一种数据结构,是一种经常用于查找的字典树,该树形结构是一种有效提高查找匹配字符串效率的方式。
在202中,用第一兴趣点在Trie树中找出与第一兴趣点具有邻居描述关系的第二兴趣点(以下称为邻居点)。
例如,可通过正向匹配来取出邻居点。
其中,相对于逆向匹配而言,正向匹配是指从头开始匹配,逆向匹配则是指从尾部开始倒序匹配。例如A的地址是上地信息路甲9号联想大厦附近,正向匹配的方式就是从“上”开始匹配,如果Trie树中没有找到“上”,就往下匹配“地”,依次往下,例如找到“联”字,在Trie树中找到了,就在它的子节点查找“想”,如果“想”是一个叶子节点,那么“联想”就是一个正确匹配出的结果,如果“联想大厦“也被匹配出来,那么根据最大正向匹配的原则会选择“联想大厦作为最终的结果”。
如果找出多个邻居点,则根据找出的多个邻居点依次进行校验。
如果没有成功匹配出邻居点,则说明需要进行校验的兴趣点的地址中描述邻居关系的点与存储所有兴趣点的数据库中的兴趣点名称不一致。其原因在于:从图商处买来的所有的兴趣点通常可具有几个信息,即兴趣点的名称、地址、电话、坐标、分类等。假如图商采集的时候一个兴趣点Poi A的地址是上地信息路甲9号奎科信息科技大厦旁,而另一个兴趣点Poi B的名称是奎科科技信息大厦,这样用Trie树去匹配地址“上地信息路甲9号奎科大厦旁”就会匹配不出来奎科信息科技大厦,而实际上A的邻居点就是B。
对于这种情况,可通过这样的解决方案来解决:对A地址进行切词,粒度粘结,并利用规则过滤非兴趣点项,从而取出邻居点项,将邻居点项进行兴趣点检索,对召回的结果进行城市过滤以及和项的相似度计算,从而取出邻居兴趣点。该解决方案属于现有技术,因此在此不进行更加详细的描述。
在步骤203,确定是否找到了邻居点。
在203找到邻居点之后,在204中,取出邻居点的位置信息,即邻居点地址的邻居描述关系。
例如,可通过正则表达式取出邻居描述关系,其中邻居描述关系包括邻居方式,例如,XX点以东|西|南|北…米,或者东南西北角等。其中,正则表达式使用单个字符串来描述、匹配一系列符合某个句法规则的字符串。正则表达式通常被用来检索、替换那些符合某个模式的文本。
然而,如果在203无法找到邻居点,说明没有收录该邻居点,则在205将取出的邻居点作为新增点补充到兴趣点库中。
现在返回图1,在103,利用第二兴趣点的位置信息对第一兴趣点的位置信息进行校验。
具体的讲,首先,可将第一兴趣点地址中的邻居描述关系以及第二兴趣点地址中的邻居描述关系保存成邻居关系表。
例如,邻居关系表的格式可以是:左侧表格记录第一兴趣点poi(主点)的信息(例如,第一兴趣点poi的名称、地址和坐标等),右侧表格记录与第一兴趣点对应的邻居点列表(例如,邻居点的地址、坐标、邻居方式、阈值)。
而当邻居点不在兴趣点库中存在时,该邻居点作为新增点保存,地址为NULL,坐标标记为新增,邻居方式和阈值不变。
图3是邻居关系表的示意图。
如图3所示,在第一行中,兴趣点Poi A记录在左侧,同时记录了兴趣点Poi A的地址(即XX路B点附近)以及坐标,兴趣点Poi A存在三个邻居兴趣点,即Poi B、Poi C、Poi D,记录在右侧。其中,记录了Poi B的地址是XX路E点附近、坐标、邻居方式(附近)、阈值(100米);Poi C的地址是XX路A点以南100米、坐标、邻居方式(北)、阈值(100米);Poi D的地址是XX路A点东南角、坐标、邻居方式(西南角)、阈值(100米)。
此外,从图3中可以看出,在以兴趣点Poi C作为主点获取邻居点时,从Poi C的地址(X路A点以南100米)中取出了邻居点A,因此增加会新增一项纪录C->A(如第三行),同时也会将C点放入A的邻居列表中(见第一行中Poi A的邻居点列表),邻居方式改为相对的邻居关系,阈值与C->A相等。
另外,对于兴趣点Poi B(Poi B的地址为XX路E点附近),由于在存储所有兴趣点的库中不存在邻居点Poi E,因此Poi E作为新增点进行保存,地址为NULL,坐标标记为新增。
其次,可从邻居关系表中取出第一兴趣点对应的邻居点,并使用兴趣点和对应邻居点的坐标和邻居位置关系来校正第一兴趣点的位置信息。
在从邻居关系表中取出的一兴趣点的邻居点只有一个的情况下,执行单点校验。
图4是示出单点校验的示意图。例如,如图4所示,兴趣点poi C(墨卡托坐标为(x1,y1),地址为X路A点以南100米)只有一个邻居点A(Poi A,墨卡托坐标为(x2,y2)地址为XX路B点附近),对兴趣点poiC进行校验可包括邻居方式校验和距离校验中的至少一个:
邻居方式校验根据兴趣点位置信息关系来对兴趣点的位置信息进行校验。例如兴趣点C在兴趣点A的南边,若y2<y1则兴趣点C通过邻居方式校验并且确定C点的位置数据为正确位置数据,否则为错误位置数据;
距离校验根据兴趣点与邻居点之间的距离来对兴趣点的位置信息进行校验。例如,若满足兴趣点C和邻居点A之间的距离distance(A,C)<140+X则通过校验,否则为错误位置数据。
其中,X为阈值,由两个因素决定:第一因素是分类。即不同分类取不同阈值。分类是每个兴趣点的一个属性,兴趣点的属性有名称、地址、电话和分类,比如全聚德王府井店,这个兴趣点的分类是餐饮,颐和园这个兴趣点的分类是旅游景点。第二因素是邻居点知名度调权。邻居点为知名地点的情况下,距离阈值应该放宽。知名度由类别和被展现次数共同决定。上式中的140是个多次调整尝试的经验值。应该理解,该值可根据具体情况而改变。
图4中示出的C1、C2和C2是兴趣点C的地理位置可能出现的情况。通过单点校验可确定C2点的位置是正确的。
另外,在从邻居关系表中取出的一兴趣点的邻居点存在多个的情况下,执行多点校验。
图5是示出多点校验的示意图。
例如,如图5所示,在从邻居关系表中取出的例如兴趣点A的邻居点存在多个邻居点(例如,邻居点B、C、D)的情况下,执行多点校验。多点校验过程如下:
首先,根据单点校验中的分类阈值和知名度阈值调权,求出邻居点的邻居辐射面积。邻居辐射面积是根据邻居点的地址中的邻居描述关系确定的图形面积。
例如,如图5所示,邻居点BCD的邻居辐射面积是跟邻居关系绑定的,周围和附近是以该点为圆心的100米范围,东南则是该点为圆心的100米为半径的圆的右下角的扇形。
其次,求邻居点的邻居辐射面积的空间交集。
最后,根据空间交集确定兴趣点的位置信息是否正确。
如图5所示,如果兴趣点A落在空间交集内,则通过多点验证;如果A点没有落在空间交集内,则分别对兴趣点A和邻居点BCD做单点验证,假如邻居点CD通过验证,邻居点B没有通过验证,则错误点为邻居点B。
另外,对于新增点,如果兴趣点A的邻居点B没有在库中找到,说明没有收录此点,可以将邻居点B作为新增点,通过兴趣点A点定位出邻居点B的空间位置,从而增加兴趣点的覆盖率。
图6是示出根据本发明第二实施例的对兴趣点的位置信息进行校验的方法的流程图。
根据本发明第二实施例的对兴趣点的位置信息进行校验的方法是基于用户行为对兴趣点位置信息错误数据进行校正的方法。具体地讲,该实施例通过对用户历史行为的分析以及错误数据对操作序列拟合来挖掘兴趣点位置信息错误数据。
如图6所示,在601,分别基于已经发现的位置信息错误的兴趣点(以下称为错误兴趣点)和已经发现的位置信息正确的兴趣点(以下称为正确兴趣点)提取不同用户针对这些兴趣点进行过操作的操作历史序列。
例如,这里的已经发现的错误兴趣点和已经发现的正确兴趣点可指通过图1-图5进行的上述描述校验出的正确兴趣点和错误兴趣点。
例如,操作历史可从用户日志中获得。
具体的讲,首先,在用户日志中预先记录用户对兴趣点的操作历史信息。操作信息包括请求类型、请求时间、请求的兴趣点信息以及用户标识(id)。请求类型可包括检索、放大缩小底图、点击等等操作,并且分别对各个请求类型赋予不同的序列代号。例如,检索请求为1,放大请求为2,缩小请求为3,点击行为为4。
对于未登录用户(即不存在用户id),可用cookie。
其次,按照时间顺序将同一用户的操作历史信息进行排序并记录其操作对应的兴趣点信息。
然后,可对排序后的操作历史信息中的连续操作行为进行去重。例如,在假设检索请求为1,放大请求为2,缩小请求为3,点击行为为4的情况下,如果用户A的操作历史为1222234,用户B的操作历史为122234;则去重处理后的用户A和用户B的有效操作都为1234。
最后,按时间间隔将操作历史信息切分为不同的操作序列。例如A用户对一兴趣点的操作历史为12345678,其中操作1234之间的时间间隔都是5s内,5678之间的时间间隔也在5s内,4和5之间的时间间隔是3小时以上,那么将A用户对该兴趣点的操作历史切分为两个操作序列1234和5678。
应该理解,上述对用户日志的操作可根据需要进行执行,而非必须对用户日志执行上述所有操作。
现返回图6,在602,基于兴趣点对提取的操作历史序列进行聚合以得到针对正确兴趣点的正确操作序列和针对错误兴趣点的错误操作序列。
这里聚合的方法可以是但不限于操作序列的公共子序列相似度计算,线性序列相似度计算等。如果采用公共子序列相似度计算,可以得到的不同用户对同一个兴趣点的历史操作序列包括:123456、123457、1378902876、12345678。
在603,提取所有含有错误操作序列的兴趣点作为兴趣点错误数据。
通过上述操作,本发明第二实施例的方法便能够挖掘出潜在的错误数据。
为了更精确地挖掘出错误数据,上述提取的兴趣点错误数据中存在不是错误数据的情况出现,本发明第二实施例还可包括:例如,在604,对在603中提取的兴趣点错误数据进行过滤以找出错误提取的非兴趣点错误数据。
过滤方法可包括但不限于“正确操作序列过滤”和“疑似错误操作序列与展现次数比例排序过滤”。
对于“正确操作序列过滤”,例如,兴趣点Poi A的操作序列是112233445566777,假如错误操作序列是556677,则在603可将该兴趣点PoiA确定为疑似错误数据,然而假如存在一个正确操作序列为112233,则在604可排除兴趣点Poi A是错误数据。
关于“疑似错误操作序列与展现次数比例排序过滤”,例如,如果一个兴趣点Poi B展现给用户次数是100次,用户对这个兴趣点Poi B的历史操作有30次为错误操作序列,那么比例就是30%,每个兴趣点poi都有一个这样的比例值,这个值越高,是错误数据的可能性就越大,按这个比例值排序,取前50%或者其他阈值的兴趣点认为是错误兴趣点。
通过对兴趣点反复执行上述操作,可挖掘出更多的错误数据。
图7是示出根据本发明第三实施例的对兴趣点的位置信息进行校验的设备的结构的框图。
该设备包括兴趣点选取单元701、邻居点获取单元702和位置信息校验单元703。
下面分别对各单元进行详细描述。
兴趣点选取单元701用于选取地址中带有邻居描述关系的第一兴趣点。带有邻居描述关系的第一兴趣点包括兴趣点的名称,地址,电话,分类,坐标等信息。应该理解,这里的第一兴趣点是带有邻居描述关系的一个或多个兴趣点的统称。
例如,兴趣点选取单元701可通过关键字识别,通过正则表达式从存储了需要进行校验的兴趣点的库中取出带有邻居描述关系的兴趣点的集合。
邻居点获取单元702用于取出与第一兴趣点具有邻居描述关系的第二兴趣点并获取第二兴趣点的位置信息。
应该理解,第二兴趣点是第一兴趣点的一个或多个邻居点的统称。
图8是示出图7中的邻居点获取单元702的结构的框图。
如图8所示,邻居点获取单元702包括Trie树创建单元801、邻居点寻找单元802、邻居点位置信息取出单元803和兴趣点增加单元804。
Trie树创建单元801用于将所存储的所有兴趣点构建成Trie树。
其中,所有兴趣点包含了地址中含有邻居描述的兴趣点和地址中没有含有邻居描述的兴趣点。
邻居点寻找单元802用于用第一兴趣点在Trie树中找出与第一兴趣点具有邻居描述关系的第二兴趣点(以下称为邻居点)。
例如,邻居点寻找单元802可通过正向匹配来取出邻居点。
如果邻居点寻找单元802找出多个邻居点,则根据找出的多个邻居点依次进行校验。如果邻居点寻找单元802没有成功匹配出邻居点,则说明需要进行校验的兴趣点的地址中描述邻居关系的点与存储所有兴趣点的数据库中的兴趣点名称不一致。
邻居点位置信息取出单元803用于取出邻居点的位置信息,即邻居点地址的邻居描述关系。
例如,邻居点位置信息取出单元803可通过正则表达式取出邻居描述关系,其中邻居描述关系包括邻居方式。
兴趣点增加单元804用于将没有找到的邻居点作为新增点补充到兴趣点库中。
位置信息校验单元703用于利用第二兴趣点的位置信息对第一兴趣点的位置信息进行校验。
位置信息校验单元703可将第一兴趣点地址中的邻居描述关系以及第二兴趣点地址中的邻居描述关系保存成邻居关系表,从邻居关系表中取出第一兴趣点对应的邻居点,并使用兴趣点和对应邻居点的坐标和邻居位置关系来校正第一兴趣点的位置信息。
例如,在从邻居关系表中取出的一兴趣点的邻居点只有一个邻居点的情况下,执行单点校验。单点校验可包括邻居方式校验和距离校验中的至少一个。由于前面已经对单点校验进行了详细描述,在此不再赘述。
另一方面,在从邻居关系表中取出的一兴趣点的邻居点存在多个邻居点的情况下,执行多点校验。可通过根据单点校验中的分类阈值和知名度阈值调权求出邻居点的邻居辐射面积,求邻居点的邻居辐射面积的空间交集,并根据空间交集确定兴趣点的位置信息是否正确来执行多点校验。由于前面已经对多点校验进行了详细描述,在此不再赘述。
图9是示出根据本发明第四实施例的对兴趣点的位置信息进行校验的设备的结构的框图。
如图9所示,该设备包括操作历史序列提取单元901、操作历史序列聚合单元902、错误数据提取单元903。
操作历史序列提取单元901分别基于已经发现的位置信息错误的兴趣点(以下称为错误兴趣点)和已经发现的位置信息正确的兴趣点(以下称为正确兴趣点)提取不同用户针对这些兴趣点进行过操作的操作历史序列。
例如,这里的已经发现的错误兴趣点和已经发现的正确兴趣点可指通过图1-图5和图7-图8进行的上述描述校验出的正确兴趣点和错误兴趣点。
图10是示出操作历史序列提取单元901的结构的框图。
如图10所示,操作历史序列提取单元901包括操作历史记录单元1001、操作历史排序单元1002、连续操作去重单元1003和切分单元1004。
操作历史记录单元1001在用户日志中预先记录用户对兴趣点的操作历史信息。
操作历史排序单元1002按照时间顺序将同一用户的操作历史信息进行排序并记录其操作对应的兴趣点信息。
连续操作去重单元1003对排序后的操作历史信息中的连续操作行为进行去重。
切分单元1004按时间间隔将去重后的操作历史信息切分为不同的操作序列。
现返回图9,操作历史聚合单元902用于基于兴趣点对提取的操作历史序列进行聚合以得到针对正确兴趣点的正确操作序列和针对错误兴趣点的错误操作序列。
错误数据提取单元903用于提取所有含有根据错误操作序列的兴趣点作为兴趣点错误数据。
为了更精确地挖掘出错误数据,避免错误数据提取单元903提取的兴趣点错误数据中存在不是错误数据的情况出现,图9的对兴趣点的位置信息进行校验的设备还可包括错误数据过滤单元904。
错误数据过滤单元904用于对提取的兴趣点错误数据进行过滤以找出错误提取的非兴趣点错误数据。
过滤方法可包括但不限于“正确操作序列过滤”和“疑似错误操作序列与展现次数比例排序过滤”。
通过对兴趣点反复执行上述操作,可挖掘出更多的错误数据。
通过本发明的上述实施例的对兴趣点位置信息进行校验的方法和设备,可以校验传统方法无法校验的兴趣点数据位置,因此提升兴趣点空间准确率,减少错误数据对用户带来的伤害,改善用户体验。
尽管已经参照本发明的实施例具体显示和描述了本发明,但是本领域的技术人员应该理解,在不脱离由权利要求限定的本发明的精神和范围的情况下,可以对其进行形式和细节上的各种改变。

Claims (20)

1.一种对兴趣点的位置信息进行校验的方法,包括:
选取地址中带有邻居描述关系的第一兴趣点;
取出与第一兴趣点具有邻居描述关系的第二兴趣点并获取第二兴趣点的位置信息;
利用第二兴趣点的位置信息对第一兴趣点的位置信息进行校验。
2.如权利要求1所述的方法,其中,取出第二兴趣点并获取第二兴趣点的位置信息包括:
将所存储的所有兴趣点构建成Trie树;
用第一兴趣点在Trie树中找出与第一兴趣点具有邻居描述关系的第二兴趣点;
取出第二兴趣点的位置信息。
3.如权利要求2所述的方法,其中,如果没有找出与第一兴趣点具有邻居描述关系的第二兴趣点,则将所述第二兴趣点作为新增点补充到兴趣点库中。
4.如权利要求1所述的方法,其中,对第一兴趣点的位置信息进行校验包括:
将第一兴趣点地址中的邻居描述关系以及第二兴趣点地址中的邻居描述关系保存成邻居关系表;
从邻居关系表中取出第一兴趣点对应的第二兴趣点,并使用第一兴趣点和第二兴趣点的坐标和邻居位置关系来校正第一兴趣点的位置信息。
5.如权利要求1所述的方法,还包括:
基于校验出的位置信息错误的错误兴趣点和位置信息正确的正确兴趣点提取不同用户针对这些兴趣点进行过操作的操作历史序列;
基于兴趣点对提取的操作历史序列进行聚合以得到针对正确兴趣点的正确操作序列和针对错误兴趣点的错误操作序列;
提取所有含有错误操作序列的兴趣点作为兴趣点错误数据。
6.如权利要求5所述的方法,其中,提取不同用户针对这些兴趣点进行过操作的操作历史序列包括:
在用户日志中预先记录用户对兴趣点的操作历史信息;
按照时间顺序将同一用户的操作历史信息进行排序并记录其操作对应的兴趣点信息;
对排序后的操作历史信息中的连续操作行为进行去重;
按时间间隔将去重后的操作历史信息切分为不同的操作序列。
7.如权利要求5所述的方法,还包括:对提取的兴趣点错误数据进行过滤以找出错误提取的非兴趣点错误数据。
8.一种对兴趣点的位置信息进行校验的设备,包括:
兴趣点选取单元,选取地址中带有邻居描述关系的第一兴趣点;
邻居点获取单元,取出与第一兴趣点具有邻居描述关系的第二兴趣点并获取第二兴趣点的位置信息;
位置信息校验单元,利用第二兴趣点的位置信息对第一兴趣点的位置信息进行校验。
9.如权利要求8所述的设备,其中,邻居点获取单元包括:
Trie树创建单元,将所存储的所有兴趣点构建成Trie树;
邻居点寻找单元,用第一兴趣点在Trie树中找出与第一兴趣点具有邻居描述关系的第二兴趣点;
邻居点位置信息取出单元,取出第二兴趣点的位置信息。
10.如权利要求9所述的设备,其中,邻居点获取单元还包括:兴趣点增加单元,如果邻居点寻找单元没有找出与第一兴趣点具有邻居描述关系的第二兴趣点,则将所述第二兴趣点作为新增点补充到兴趣点库中。
11.如权利要求8所述的设备,其中,位置信息校验单元将第一兴趣点地址中的邻居描述关系以及第二兴趣点地址中的邻居描述关系保存成邻居关系表,从邻居关系表中取出第一兴趣点对应的第二兴趣点,并使用第一兴趣点和第二兴趣点的坐标和邻居位置关系来校正第一兴趣点的位置信息。
12.如权利要求8所述的设备,还包括:
操作历史序列提取单元,基于校验出的位置信息错误的错误兴趣点和位置信息正确的正确兴趣点提取不同用户针对这些兴趣点进行过操作的操作历史序列;
操作历史序列聚合单元,基于兴趣点对提取的操作历史序列进行聚合以得到针对正确兴趣点的正确操作序列和针对错误兴趣点的错误操作序列;
错误数据提取单元,提取所有含有错误操作序列的兴趣点作为兴趣点错误数据。
13.如权利要求12所述的设备,其中,操作历史序列提取单元包括:
操作历史记录单元,在用户日志中预先记录用户对兴趣点的操作历史信息;
操作历史排序单元,按照时间顺序将同一用户的操作历史信息进行排序并记录其操作对应的兴趣点信息;
连续操作去重单元,对排序后的操作历史信息中的连续操作行为进行去重;
切分单元,按时间间隔将去重后的操作历史信息切分为不同的操作序列。
14.如权利要求12所述的设备,还包括:错误数据过滤单元,对提取的兴趣点错误数据进行过滤以找出错误提取的非兴趣点错误数据。
15.一种对兴趣点的位置信息进行校验的方法,包括:
基于位置信息错误的错误兴趣点和位置信息正确的正确兴趣点提取不同用户针对这些兴趣点进行过操作的操作历史序列;
基于兴趣点对提取的操作历史序列进行聚合以得到针对正确兴趣点的正确操作序列和针对错误兴趣点的错误操作序列;
提取所有含有错误操作序列的兴趣点作为兴趣点错误数据。
16.如权利要求15所述的方法,其中,提取不同用户针对这些兴趣点进行过操作的操作历史序列包括:
在用户日志中预先记录用户对兴趣点的操作历史信息;
按照时间顺序将同一用户的操作历史信息进行排序并记录其操作对应的兴趣点信息;
对排序后的操作历史信息中的连续操作行为进行去重;
按时间间隔将去重后的操作历史信息切分为不同的操作序列。
17.如权利要求15所述的方法,还包括:对提取的兴趣点错误数据进行过滤以找出错误提取的非兴趣点错误数据。
18.一种对兴趣点的位置信息进行校验的设备,包括:
操作历史序列提取单元,基于位置信息错误的错误兴趣点和位置信息正确的正确兴趣点提取不同用户针对这些兴趣点进行过操作的操作历史序列;
操作历史序列聚合单元,基于兴趣点对提取的操作历史序列进行聚合以得到针对正确兴趣点的正确操作序列和针对错误兴趣点的错误操作序列;
错误数据提取单元,提取所有含有错误操作序列的兴趣点作为兴趣点错误数据。
19.如权利要求18所述的设备,其中,操作历史序列提取单元包括:
操作历史记录单元,在用户日志中预先记录用户对兴趣点的操作历史信息;
操作历史排序单元,按照时间顺序将同一用户的操作历史信息进行排序并记录其操作对应的兴趣点信息;
连续操作去重单元,对排序后的操作历史信息中的连续操作行为进行去重;
切分单元,按时间间隔将去重后的操作历史信息切分为不同的操作序列。
20.如权利要求18所述的设备,还包括:错误数据过滤单元,对提取的兴趣点错误数据进行过滤以找出错误提取的非兴趣点错误数据。
CN201410117421.2A 2014-03-26 2014-03-26 对兴趣点的位置信息进行校验的方法和设备 Active CN103886082B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410117421.2A CN103886082B (zh) 2014-03-26 2014-03-26 对兴趣点的位置信息进行校验的方法和设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410117421.2A CN103886082B (zh) 2014-03-26 2014-03-26 对兴趣点的位置信息进行校验的方法和设备

Publications (2)

Publication Number Publication Date
CN103886082A true CN103886082A (zh) 2014-06-25
CN103886082B CN103886082B (zh) 2017-02-08

Family

ID=50954974

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410117421.2A Active CN103886082B (zh) 2014-03-26 2014-03-26 对兴趣点的位置信息进行校验的方法和设备

Country Status (1)

Country Link
CN (1) CN103886082B (zh)

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104156420A (zh) * 2014-08-06 2014-11-19 曙光信息产业(北京)有限公司 事务日志的管理方法和装置
CN104346467A (zh) * 2014-11-14 2015-02-11 北京百度网讯科技有限公司 地理信息校验方法、相关装置及相应的数据库
CN105608153A (zh) * 2015-12-18 2016-05-25 晶赞广告(上海)有限公司 一种通用的poi信息关联方法
CN106528559A (zh) * 2015-09-10 2017-03-22 阿里巴巴集团控股有限公司 一种位置信息的提供方法和设备
CN106846166A (zh) * 2016-12-08 2017-06-13 北京中电普华信息技术有限公司 一种基于地址大数据分析的电力营销客户档案完善方法
CN107203547A (zh) * 2016-03-17 2017-09-26 高德软件有限公司 兴趣点信息的审核方法和装置
CN107798110A (zh) * 2017-11-01 2018-03-13 百度在线网络技术(北京)有限公司 兴趣点地址校验方法、装置、服务器及存储介质
CN108363698A (zh) * 2018-03-13 2018-08-03 腾讯大地通途(北京)科技有限公司 兴趣点关系识别方法及装置
CN109815307A (zh) * 2019-02-13 2019-05-28 北京百度网讯科技有限公司 位置确定方法、装置、设备和介质
CN110287426A (zh) * 2019-05-23 2019-09-27 北京百度网讯科技有限公司 兴趣点父子关系的建立方法、装置、存储介质及处理器
CN110413904A (zh) * 2019-07-25 2019-11-05 北京百度网讯科技有限公司 一种兴趣点地址数据处理方法、装置、服务器和介质
CN110647601A (zh) * 2018-06-26 2020-01-03 百度在线网络技术(北京)有限公司 一种存疑poi的校验方法、装置、服务器及存储介质
CN111259018A (zh) * 2020-01-08 2020-06-09 北京百度网讯科技有限公司 生效验证方法、装置、电子设备及存储介质
CN113780955A (zh) * 2021-09-17 2021-12-10 拉扎斯网络科技(上海)有限公司 位置校验方法及装置、电子设备、存储介质

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108733665A (zh) * 2017-04-13 2018-11-02 艺龙网信息技术(北京)有限公司 基于特征和语义的景点信息匹配方法及装置
CN107704589B (zh) * 2017-09-30 2020-11-20 百度在线网络技术(北京)有限公司 基于运单的兴趣点失效挖掘方法、装置、服务器及介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102506878A (zh) * 2011-10-17 2012-06-20 深圳市路畅科技有限公司 在lbs应用中创建poi的方法
US20130054602A1 (en) * 2010-05-12 2013-02-28 Nec Corporation Characteristic point detection system, characteristic point detection method, and program
CN103167404A (zh) * 2011-12-14 2013-06-19 北京千橡网景科技发展有限公司 用于确定兴趣点的方法和设备
CN103218406A (zh) * 2013-03-21 2013-07-24 百度在线网络技术(北京)有限公司 兴趣点的地址信息的处理方法及设备

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130054602A1 (en) * 2010-05-12 2013-02-28 Nec Corporation Characteristic point detection system, characteristic point detection method, and program
CN102506878A (zh) * 2011-10-17 2012-06-20 深圳市路畅科技有限公司 在lbs应用中创建poi的方法
CN103167404A (zh) * 2011-12-14 2013-06-19 北京千橡网景科技发展有限公司 用于确定兴趣点的方法和设备
CN103218406A (zh) * 2013-03-21 2013-07-24 百度在线网络技术(北京)有限公司 兴趣点的地址信息的处理方法及设备

Cited By (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104156420A (zh) * 2014-08-06 2014-11-19 曙光信息产业(北京)有限公司 事务日志的管理方法和装置
CN104156420B (zh) * 2014-08-06 2017-10-03 曙光信息产业(北京)有限公司 事务日志的管理方法和装置
CN104346467B (zh) * 2014-11-14 2017-12-22 北京百度网讯科技有限公司 地理信息校验方法、相关装置及相应的数据库
CN104346467A (zh) * 2014-11-14 2015-02-11 北京百度网讯科技有限公司 地理信息校验方法、相关装置及相应的数据库
CN106528559A (zh) * 2015-09-10 2017-03-22 阿里巴巴集团控股有限公司 一种位置信息的提供方法和设备
CN106528559B (zh) * 2015-09-10 2020-04-24 阿里巴巴集团控股有限公司 一种位置信息的提供方法和设备
CN105608153A (zh) * 2015-12-18 2016-05-25 晶赞广告(上海)有限公司 一种通用的poi信息关联方法
CN107203547A (zh) * 2016-03-17 2017-09-26 高德软件有限公司 兴趣点信息的审核方法和装置
CN107203547B (zh) * 2016-03-17 2020-04-14 高德软件有限公司 兴趣点信息的审核方法和装置
CN106846166A (zh) * 2016-12-08 2017-06-13 北京中电普华信息技术有限公司 一种基于地址大数据分析的电力营销客户档案完善方法
CN107798110A (zh) * 2017-11-01 2018-03-13 百度在线网络技术(北京)有限公司 兴趣点地址校验方法、装置、服务器及存储介质
CN108363698B (zh) * 2018-03-13 2021-05-14 腾讯大地通途(北京)科技有限公司 兴趣点关系识别方法及装置
CN108363698A (zh) * 2018-03-13 2018-08-03 腾讯大地通途(北京)科技有限公司 兴趣点关系识别方法及装置
CN110647601A (zh) * 2018-06-26 2020-01-03 百度在线网络技术(北京)有限公司 一种存疑poi的校验方法、装置、服务器及存储介质
CN109815307A (zh) * 2019-02-13 2019-05-28 北京百度网讯科技有限公司 位置确定方法、装置、设备和介质
CN110287426A (zh) * 2019-05-23 2019-09-27 北京百度网讯科技有限公司 兴趣点父子关系的建立方法、装置、存储介质及处理器
CN110287426B (zh) * 2019-05-23 2021-12-31 北京百度网讯科技有限公司 兴趣点父子关系的建立方法、装置、存储介质及处理器
CN110413904A (zh) * 2019-07-25 2019-11-05 北京百度网讯科技有限公司 一种兴趣点地址数据处理方法、装置、服务器和介质
CN111259018A (zh) * 2020-01-08 2020-06-09 北京百度网讯科技有限公司 生效验证方法、装置、电子设备及存储介质
CN111259018B (zh) * 2020-01-08 2023-03-21 北京百度网讯科技有限公司 生效验证方法、装置、电子设备及存储介质
CN113780955A (zh) * 2021-09-17 2021-12-10 拉扎斯网络科技(上海)有限公司 位置校验方法及装置、电子设备、存储介质

Also Published As

Publication number Publication date
CN103886082B (zh) 2017-02-08

Similar Documents

Publication Publication Date Title
CN103886082A (zh) 对兴趣点的位置信息进行校验的方法和设备
US11698261B2 (en) Method, apparatus, computer device and storage medium for determining POI alias
US11151179B2 (en) Method, apparatus and electronic device for determining knowledge sample data set
US8402058B2 (en) Method and computer program product for geophysical and geologic data identification, geodetic classification, organization, updating, and extracting spatially referenced data records
CN105760360A (zh) 一种地址纠正方法和装置
CN103605752A (zh) 一种基于语义识别的地址匹配方法
CN102915326A (zh) 一种基于gps和图像搜索技术的移动终端景物辨识系统
CN102089761A (zh) 自动发现受欢迎的地标
WO2005069147A1 (ja) 検索データの更新方法および更新システム
CN106033460A (zh) 地址数据处理方法及装置
CN103699623B (zh) 地理编码实现方法和装置
CN101685021A (zh) 一种兴趣点信息获取方法及装置
CN106021556A (zh) 地址信息处理方法及装置
CN104750673B (zh) 文本匹配过滤方法及装置
CN105209858A (zh) 企业场所数据的非确定性消岐和匹配
CN104077410A (zh) 一种提取手机位置信息并在地图上标注的装置和方法
CN104252507A (zh) 一种企业数据匹配方法和装置
CN101477565B (zh) 确定搜索引擎中输入字符串正确性的方法及装置
CN111931077A (zh) 数据处理方法、装置、电子设备及存储介质
CN106155998A (zh) 一种数据处理方法及装置
CN101493340A (zh) 一种车辆导航系统中兴趣点信息的快速检索方法
Aucott et al. Locating past places in Britain: Creating and evaluating the GB1900 Gazetteer
CN112363996B (zh) 用于建立电网知识图谱的物理模型的方法及系统和介质
CN102460440B (zh) 搜索方法和设备
Chatterjee et al. SAGEL: smart address geocoding engine for supply-chain logistics

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant