CN105243136A - 一种挖掘互联网中的兴趣点poi数据的方法和装置 - Google Patents

一种挖掘互联网中的兴趣点poi数据的方法和装置 Download PDF

Info

Publication number
CN105243136A
CN105243136A CN201510642603.6A CN201510642603A CN105243136A CN 105243136 A CN105243136 A CN 105243136A CN 201510642603 A CN201510642603 A CN 201510642603A CN 105243136 A CN105243136 A CN 105243136A
Authority
CN
China
Prior art keywords
poi data
main territory
excavated
confidence value
poi
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510642603.6A
Other languages
English (en)
Other versions
CN105243136B (zh
Inventor
马健
王智广
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Qihoo Technology Co Ltd
Original Assignee
Beijing Qihoo Technology Co Ltd
Qizhi Software Beijing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Qihoo Technology Co Ltd, Qizhi Software Beijing Co Ltd filed Critical Beijing Qihoo Technology Co Ltd
Priority to CN201510642603.6A priority Critical patent/CN105243136B/zh
Publication of CN105243136A publication Critical patent/CN105243136A/zh
Application granted granted Critical
Publication of CN105243136B publication Critical patent/CN105243136B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9537Spatial or temporal dependent retrieval, e.g. spatiotemporal queries

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种挖掘互联网中的兴趣点POI数据的方法和装置。方法包括:从各主域中挖掘POI数据;其中,一条POI数据包括名称和经纬度;如果从多个主域中都挖掘到了名称相同的POI数据,根据所述多个主域的置信度值进行评分;当评分超过预设值时,从所述多个主域中选择一个主域,将从该选择的主域中挖掘到的POI数据作为最后挖掘到的POI数据进行记录。该技术方案采用置信度评分方式,可以从挖掘到的POI数据中剔除错误、多余的POI数据,提高POI数据挖掘的准确率,提升用户体验。

Description

一种挖掘互联网中的兴趣点POI数据的方法和装置
技术领域
本发明涉及数据挖掘领域,特别涉及一种挖掘互联网中的兴趣点POI数据的方法和装置。
背景技术
POI(PointofInterest),即兴趣点,是地理信息系统中重要的信息,甚至可以称为整个地图导航产业的基石。在地理信息系统中,一条POI数据可以是一栋房子,一个商铺,一个邮筒,一个公交站等。传统的地理信息采集方法需要地图测绘人员采用精密的测绘仪器去获取一个POI的经纬度,然后再标记下来。
而在互联网中,实现了将测绘得到的底图数据制成电子地图,自然地,在电子地图中可以根据POI数据的经纬度将其在电子地图中加以标注。现有的生活服务类平台大多拥有自己的POI数据库,可以为用户提供服务型POI数据,但POI数据库只能涵盖部分POI数据,在海量网页中依然存在着许多未被收录的POI数据,由此产生了对POI进行数据挖掘的需求。
然而,不同的网页所提供的POI数据的质量参差不齐,具体表现对于相同名称POI数据,各个网页提供的该POI数据的经纬度可能不同,而POI的经纬度恰恰是POI数据中的重要指标,需要解决从获取到的POI数据中确定可信度高的POI数据。
发明内容
鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的挖掘互联网中的兴趣点POI数据的方法和装置。
依据本发明的一个方面,提供了一种挖掘互联网中的兴趣点POI数据的方法,包括:从各主域中挖掘POI数据;其中,一条POI数据包括名称和经纬度;如果从多个主域中都挖掘到了名称相同的POI数据,根据所述多个主域的置信度值进行评分;当评分超过预设值时,从所述多个主域中选择一个主域,将从该选择的主域中挖掘到的POI数据作为最后挖掘到的POI数据进行记录。
可选地,根据所述多个主域的置信度值进行评分包括:将所述多个主域的置信度值进行累加得到评分。
可选地,从所述多个主域中选择一个主域包括:从所述多个主域中选择置信度值最高的主域。
可选地,该方法进一步包括:获取各主域的置信度值。
可选地,所述获取各主域的置信度值包括:预设一个POI数据集合;对于一个主域,运用所述POI数据集合对从该主域中挖掘到的POI数据进行测试,如果所述POI数据集合中的一条POI数据可在该主域挖掘到的POI数据中找到与其名称相同的POI数据,则对比两条POI数据的经纬度,当所述两条POI数据的经纬度距离在预设范围内时,将此条在该主域中挖掘到的POI数据记为可信POI数据;统计该主域中的可信POI数据总数X,以及统计所述POI数据集合中与该主域中挖掘到的POI数据名称相同的POI数据总数Y,该主域的置信度值等于X/Y;将该主域的置信度值保存到置信度数据库中。
可选地,所述获取各主域的置信度值包括:从所述置信度数据库获取各主域的置信度值。
可选地,该方法进一步包括:如果从一个主域中挖掘到了多个名称相同的POI数据,则对比名称相同的各POI数据的经纬度,如果其中两条POI数据的经纬度距离在预设范围内,则将其合并为一条POI数据。
依据本分发明的另一个方面,提供了一种挖掘互联网中的兴趣点POI数据的装置,包括:数据挖掘单元,适于从各主域中挖掘POI数据;其中,一条POI数据包括名称和经纬度;评分单元,当从多个主域中都挖掘到了名称相同的POI数据时,适于根据所述多个主域的置信度值进行评分;当评分超过预设值时,从所述多个主域中选择一个主域,将从该选择的主域中挖掘到的POI数据作为最后挖掘到的POI数据进行记录。
可选地,所述评分单元,适于将所述多个主域的置信度值进行累加得到评分。
可选地,所述评分单元,适于从所述多个主域中选择置信度值最高的主域。
可选地,该装置进一步包括:置信度值获取单元,适于获取各主域的置信度值。
可选地,所述置信度值获取单元,适于预设一个POI数据集合;对于一个主域,运用所述POI数据集合对从该主域中挖掘到的POI数据进行测试,如果所述POI数据集合中的一条POI数据可在该主域挖掘到的POI数据中找到与其名称相同的POI数据,则对比两条POI数据的经纬度,当所述两条POI数据的经纬度距离在预设范围内时,将此条在该主域中挖掘到的POI数据记为可信POI数据;统计该主域中的可信POI数据总数X,以及统计所述POI数据集合中与该主域中挖掘到的POI数据名称相同的POI数据总数Y,该主域的置信度值等于X/Y;将该主域的置信度值保存到置信度数据库中。
可选地,所述置信度值获取单元,从所述置信度数据库获取各主域的置信度值。
可选地,该装置进一步包括:去重单元,当从一个主域中挖掘到了多个名称相同的POI数据时,适于对比名称相同的各POI数据的经纬度,如果其中两条POI数据的经纬度距离在预设范围内,则将其合并为一条POI数据。
由上述可知,本发明的技术方案,首先从各主域中挖掘包括名称和经纬度的POI数据,如果从多个主域中都挖掘到了名称相同的POI数据,基本可以确定其实质描述的是同一条POI数据的信息,由于对于一条POI数据,最终只能确定唯一的经纬度,则将挖掘到的名称相同的POI数据根据多个主域的置信度值进行评分,当评分超过预设值时,从多个主域中选择一个主域,将从该选择的主域中挖掘到的POI数据作为最后挖掘到的POI数据进行记录。该技术方案采用置信度评分方式,可以从挖掘到的POI数据中剔除错误、多余的POI数据,提高POI数据挖掘的准确率,提升用户体验。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了根据本发明一个实施例的一种挖掘互联网中的兴趣点POI数据的方法流程图;
图2示出了根据本发明一个实施例的一种挖掘互联网中的兴趣点POI数据的装置结构图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
图1示出了根据本发明一个实施例的一种挖掘互联网中的兴趣点POI数据的方法流程图,如图1所示,该方法包括:
步骤S110,从各主域中挖掘POI数据;其中,一条POI数据包括名称和经纬度。
本发明的技术方案中所称“主域”是指,互联网中可获取到的一级域名及该一级域名对应的各级域名。例如一级域名baidu.com,以及其对应的二级域名zhidao.baidu.com、三级域名open.weigou.baidu.com等。
步骤S120,如果从多个主域中都挖掘到了名称相同的POI数据,根据多个主域的置信度值进行评分。
表1示出了若干挖掘到的POI数据。如表1所示,每一行代表了一条POI数据的各项信息,包括名称、地址、经纬度和挖掘来源。表1所示的POI数据名称均为lobby大堂(星光大道店),对比表中所列出的此四条POI数据的地址可以发现,其描述的是同一个地址,此四条POI数据实际可以归为一条POI数据。首先需要解决的问题是,此四条POI数据是否为可信数据。如果仅在一个或少数可信度较低的主域挖掘到名称相同的POI数据,这些挖掘到的POI数据也未必是正确的。因此在本步骤中,对挖掘到的名称相同的POI数据根据其来源主域的置信度值进行评分。
表1
步骤S130,当评分超过预设值时,从多个主域中选择一个主域,将从该选择的主域中挖掘到的POI数据作为最后挖掘到的POI数据进行记录。
在确定了挖掘到的POI数据为可信数据后,由于对于名称相同的POI数据,只能选取挖掘到的多个POI数据中的一个进行记录,而各POI数据的经纬度不同,此时需要进行合理地选择,从多个主域中选择一个主域,将从该选择的主域中挖掘到的POI数据作为最后挖掘到的POI数据进行记录。以1中的四条数据为例,如果依照网站知名度选取了www.meituan.com,评分超过预设值,则将数据来源为www.meituan.com对应的POI数据作为最后挖掘到的POI数据进行记录。
可见,图1所示的方法,采用置信度评分方式,对从各主域中挖掘到的同名称POI数据进行评价,由于对于一条POI数据,最终只能确定唯一的经纬度,将置信度评分超过预设值时,从多个主域中选择一个主域。将从该选择的主域中挖掘到的POI数据作为最后挖掘到的POI数据,可以从挖掘到的POI数据中剔除错误、多余的POI数据,提高POI数据挖掘的准确率,提升用户体验。
在本发明的一个实施例中,根据多个主域的置信度值进行评分包括:将多个主域的置信度值进行累加得到评分。
该方法可用公式进行表示,其中score(N)表示名称为N的POI数据根据其来源的各个主域的置信度值得到的评分,αk为该名称为N的POI数据所在的第k个主域的置信度。得到该POI的评分后,将该评分与预设值进行比对,根据经验,可以将评分阈值设定为1.6,即当score(N)>1.6时,认为该名称为N的POI数据为可信的。
表2示出了多个主域的置信度值。以表1和表2为例,名称为“lobby大堂(星光大道店)”的POI数据根据其数据来源的主域的置信度值累加得到的评分为0.82709312+0.953818791=1.780911911>1.6,则认为这四条POI数据为可信的POI数据。
表2
主域 对比数 准确数 置信度
nuomi.com 147736 147215 0.996473439
todgo.com 4504646 4296616 0.953818791
ctrip.com 6409557 6045590 0.943214952
91160.com 64153 59768 0.93164778
qunar.com 1527741 1360346 0.890429726
dianping.com 5317202 4592172 0.863644451
118114.cn 25486 21817 0.856038609
8684.com 3337047 2776886 0.832138714
meituan.com 1361305 1125926 0.82709312
5booking.com 6656 5447 0.818359375
在本发明的一个实施例中,从多个主域中选择一个主域包括:从多个主域中选择置信度值最高的主域。以前述实施例为例,名称为“lobby大堂(星光大道店)”的POI数据已被判定为可信,但由于该名称对应的POI数据有四条,查找表2可知,主域名todgo.com的置信度为0.953818791,大于主域名meituan.com的置信度0.82709312,而表2中不包含主域名hao224.com的置信度,此时,将主域名todgo.com中挖掘到的POI数据“名称:lobby大堂(星光大道店);地址:杭州市滨江区星光大道1号楼227号(味千拉面对面);经纬度:(120.20895421,30.20760484)”作为最后挖掘到的POI数据进行记录。
在本发明的一个实施例中,图1所示的方法进一步包括:获取各主域的置信度值。
具体地,获取各主域的置信度值包括:预设一个POI数据集合;对于一个主域,运用POI数据集合对从该主域中挖掘到的POI数据进行测试,如果POI数据集合中的一条POI数据可在该主域挖掘到的POI数据中找到与其名称相同的POI数据,则对比两条POI数据的经纬度,当两条POI数据的经纬度距离在预设范围内时,将此条在该主域中挖掘到的POI数据记为可信POI数据;统计该主域中的可信POI数据总数X,以及统计POI数据集合中与该主域中挖掘到的POI数据名称相同的POI数据总数Y,该主域的置信度值等于X/Y;将该主域的置信度值保存到置信度数据库中。
其中,获取各主域的置信度值包括:从置信度数据库获取各主域的置信度值。
不同主域所采用的POI数据生成方式不一样,所以数据质量也会有很大差别。为了获取一个主域的置信度值,在具体实施过程中,可以使用一批高质量的POI数据(千万量级)作为标准进行度量,即预设一个POI数据集合,如果POI数据集合中的一条POI数据可在该主域挖掘到的POI数据中找到与其名称相同的POI数据,则进一步对比两条POI数据的经纬度,当经纬度距离在预设范围内时,将此条在该主域中挖掘到的POI数据记为可信POI数据,根据经验,可将预设范围优选为200米。在该对比过程结束后,统计该主域中的可信POI数据总数X,以及统计POI数据集合中与该主域中挖掘到的POI数据名称相同的POI数据总数Y,该主域的置信度值等于X/Y。表2中示出的多个主域的置信度值就是以此方法得到的。得到多个主域的置信度值后,可以将其保存到置信度数据库中,此时获取各主域的置信度值就可以利用从置信度数据库获取各主域的置信度值来完成。
在本发明的一个实施例中,图1所示的方法进一步包括:如果从一个主域中挖掘到了多个名称相同的POI数据,则对比名称相同的各POI数据的经纬度,如果其中两条POI数据的经纬度距离在预设范围内,则将其合并为一条POI数据。
以表1为例,名称为“lobby大堂(星光大道店)”的POI数据,在域名hao224.com中可以挖掘到两条名称相同的POI数据,但这两条数据的经纬度不同。通过人工验证可以很容易地看出这两条POI数据实质描述的为同一POI信息,然而面对挖掘到的大量POI数据不可能利用人工一一筛选,本实施例提供了一种简单有效的POI数据合并方式。通过对比这两条名称相同的POI数据的经纬度可以发现,二者距离仅为0.3米。考虑大量POI数据的情况,可以采取本实施例提供的策略,即如果中从一个主域中挖掘到的两条POI数据的经纬度距离在预设范围内,则将其合并为一条POI数据。根据经验,可以将该预设范围设定为200米。事实上,还存在相类似的几种情况:在同一主域中的挖掘到多个名称与经纬度相同的POI数据,则可以毫无疑义地将其合并为同一条POI数据;在不同主域中有时也会挖掘到多个名称与经纬度相同的POI数据,这是因为不同主域间存在抄袭的情况,实质上这些名称与经纬度相同的POI数据就是同一POI数据,也可以将其毫无疑义地将其合并为同一条POI数据。此外,也存在在不同主域中挖掘到多个名称相同,经纬度相近的POI数据,此时可以考虑到由于网页POI信息多数是由人工编辑,如果不同主域中存在名称相同且经纬度相近但不相同的POI信息,并且所产生POI信息的主域比较可靠,那么这些POI信息可能描述的是同一条POI信息,也可以采取与本实施例中类似的方法,通过预设范围加以判断。
图2为本发明一个实施例的一种挖掘互联网中的兴趣点POI数据的装置结构图,如图2所示,该挖掘互联网中的兴趣点POI数据的装置200包括:
数据挖掘单元210,适于从各主域中挖掘POI数据;其中,一条POI数据包括名称和经纬度;其中,本发明的技术方案中所称“主域”是指,互联网中可获取到的一级域名及该一级域名对应的各级域名。例如一级域名baidu.com,以及其对应的二级域名zhidao.baidu.com、三级域名open.weigou.baidu.com等。
评分单元220,当从多个主域中都挖掘到了名称相同的POI数据时,适于根据多个主域的置信度值进行评分;当评分超过预设值时,从多个主域中选择一个主域,将从该选择的主域中挖掘到的POI数据作为最后挖掘到的POI数据进行记录。
如表1所示,每一行代表了一条POI数据的各项信息,包括名称、地址、经纬度和挖掘来源。表1所示的POI数据名称均为lobby大堂(星光大道店),对比表中所列出的此四条POI数据的地址可以发现,其描述的是同一个地址,此四条POI数据实际可以归为一条POI数据。首先需要解决的问题是,此四条POI数据是否为可信数据。如果仅在一个或少数可信度较低的主域挖掘到名称相同的POI数据,这些挖掘到的POI数据也未必是正确的。因此评分单元220对挖掘到的名称相同的POI数据根据其来源主域的置信度值进行评分,在确定了挖掘到的POI数据为可信数据后,由于对于名称相同的POI数据,只能选取挖掘到的多个POI数据中的一个进行记录,而各POI数据的经纬度不同,此时需要进行合理地选择,从多个主域中选择一个主域,将从该选择的主域中挖掘到的POI数据作为最后挖掘到的POI数据进行记录。以1中的四条数据为例,如果依照网站知名度选取了www.meituan.com,评分超过预设值,则将数据来源为www.meituan.com对应的POI数据作为最后挖掘到的POI数据进行记录。
可见,图2所示的装置,采用置信度评分方式,对从各主域中挖掘到的同名称POI数据进行评价,由于对于一条POI数据,最终只能确定唯一的经纬度,将置信度评分超过预设值时,从多个主域中选择一个主域。将从该选择的主域中挖掘到的POI数据作为最后挖掘到的POI数据,可以从挖掘到的POI数据中剔除错误、多余的POI数据,提高POI数据挖掘的准确率,提升用户体验。
在本发明的一个实施例中,图2所示的装置中,评分单元220,适于将多个主域的置信度值进行累加得到评分。具体地,可用公式进行表示,其中score(N)表示名称为N的POI数据根据其来源的各个主域的置信度值得到的评分,αk为该名称为N的POI数据所在的第k个主域的置信度。得到该POI的评分后,将该评分与预设值进行比对,根据经验,可以将评分阈值设定为1.6,即当score(N)>1.6时,认为该名称为N的POI数据为可信的。详细实施方式与前述对应方法的实施例中相同,在此不再赘述。
在本发明的一个实施例中,图2所示的方法中,评分单元220,适于从多个主域中选择置信度值最高的主域。详细实施方式与前述对应方法的实施例中相同,上文已详细说明,在此不再赘述。
在本发明的一个实施例中,图2所示的装置进一步包括:置信度值获取单元,适于获取各主域的置信度值。具体地,置信度值获取单元,适于预设一个POI数据集合;对于一个主域,运用POI数据集合对从该主域中挖掘到的POI数据进行测试,如果POI数据集合中的一条POI数据可在该主域挖掘到的POI数据中找到与其名称相同的POI数据,则对比两条POI数据的经纬度,当两条POI数据的经纬度距离在预设范围内时,将此条在该主域中挖掘到的POI数据记为可信POI数据;统计该主域中的可信POI数据总数X,以及统计POI数据集合中与该主域中挖掘到的POI数据名称相同的POI数据总数Y,该主域的置信度值等于X/Y;将该主域的置信度值保存到置信度数据库中。其中,置信度值获取单元,从置信度数据库获取各主域的置信度值。置信度值获取单元获取各主域的置信度值的详细实施方式与前述对应方法的实施例中相同,上文已详细说明,在此不再赘述。
在本发明的一个实施例中,上述装置进一步包括:
去重单元,当从一个主域中挖掘到了多个名称相同的POI数据时,适于对比名称相同的各POI数据的经纬度,如果其中两条POI数据的经纬度距离在预设范围内,则将其合并为一条POI数据。去重单元的详细实施方式与前述对应方法的实施例中相同,上文已详细说明,在此不再赘述。
综上所述,本发明的技术方案,首先从各主域中挖掘包括名称和经纬度的POI数据,如果从多个主域中都挖掘到了名称相同的POI数据,基本可以确定其实质描述的是同一条POI数据的信息,可以对其先进行合并处理。由于对于一条POI数据,最终只能确定唯一的经纬度,则将挖掘到的名称相同的POI数据根据从置信度数据库中获取的多个主域的置信度值进行评分,当评分超过预设值时,从多个主域中选择一个主域,具体可以选取置信度最高的主域,将从该选择的主域中挖掘到的POI数据作为最后挖掘到的POI数据进行记录。该技术方案采用置信度评分方式,可以从挖掘到的POI数据中剔除错误、多余的POI数据,提高POI数据挖掘的准确率,提升用户体验。
以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。
需要说明的是:
在此提供的算法和显示不与任何特定计算机、虚拟装置或者其它设备固有相关。各种通用装置也可以与基于在此的示教一起使用。根据上面的描述,构造这类装置所要求的结构是显而易见的。此外,本发明也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的挖掘互联网中的兴趣点POI数据的装置中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。
本发明公开了A1、一种挖掘互联网中的兴趣点POI数据的方法,其中,该方法包括:
从各主域中挖掘POI数据;其中,一条POI数据包括名称和经纬度;
如果从多个主域中都挖掘到了名称相同的POI数据,根据所述多个主域的置信度值进行评分;
当评分超过预设值时,从所述多个主域中选择一个主域,将从该选择的主域中挖掘到的POI数据作为最后挖掘到的POI数据进行记录。
A2、如A1所述的方法,其中,根据所述多个主域的置信度值进行评分包括:
将所述多个主域的置信度值进行累加得到评分。
A3、如A1所述的方法,其中,从所述多个主域中选择一个主域包括:从所述多个主域中选择置信度值最高的主域。
A4、如A1所述的方法,其中,该方法进一步包括:获取各主域的置信度值。
A5、如A4所述的方法,其中,所述获取各主域的置信度值包括:
预设一个POI数据集合;
对于一个主域,运用所述POI数据集合对从该主域中挖掘到的POI数据进行测试,如果所述POI数据集合中的一条POI数据可在该主域挖掘到的POI数据中找到与其名称相同的POI数据,则对比两条POI数据的经纬度,当所述两条POI数据的经纬度距离在预设范围内时,将此条在该主域中挖掘到的POI数据记为可信POI数据;
统计该主域中的可信POI数据总数X,以及统计所述POI数据集合中与该主域中挖掘到的POI数据名称相同的POI数据总数Y,该主域的置信度值等于X/Y;
将该主域的置信度值保存到置信度数据库中。
A6、如A5所述的方法,所述获取各主域的置信度值包括:
从所述置信度数据库获取各主域的置信度值。
A7、如A1-A6中任一项所述的方法,其中,该方法进一步包括:
如果从一个主域中挖掘到了多个名称相同的POI数据,则对比名称相同的各POI数据的经纬度,如果其中两条POI数据的经纬度距离在预设范围内,则将其合并为一条POI数据。
本发明还公开了B8、一种挖掘互联网中的兴趣点POI数据的装置,其中,该装置包括:
数据挖掘单元,适于从各主域中挖掘POI数据;其中,一条POI数据包括名称和经纬度;
评分单元,当从多个主域中都挖掘到了名称相同的POI数据时,适于根据所述多个主域的置信度值进行评分;当评分超过预设值时,从所述多个主域中选择一个主域,将从该选择的主域中挖掘到的POI数据作为最后挖掘到的POI数据进行记录。
B9、如B8所述的装置,其中,
所述评分单元,适于将所述多个主域的置信度值进行累加得到评分。
B10、如B8所述的装置,其中,
所述评分单元,适于从所述多个主域中选择置信度值最高的主域。
B11、如B8所述的装置,其中,该装置进一步包括:
置信度值获取单元,适于获取各主域的置信度值。
B12、如B11所述的装置,其中,
所述置信度值获取单元,适于预设一个POI数据集合;对于一个主域,运用所述POI数据集合对从该主域中挖掘到的POI数据进行测试,如果所述POI数据集合中的一条POI数据可在该主域挖掘到的POI数据中找到与其名称相同的POI数据,则对比两条POI数据的经纬度,当所述两条POI数据的经纬度距离在预设范围内时,将此条在该主域中挖掘到的POI数据记为可信POI数据;统计该主域中的可信POI数据总数X,以及统计所述POI数据集合中与该主域中挖掘到的POI数据名称相同的POI数据总数Y,该主域的置信度值等于X/Y;将该主域的置信度值保存到置信度数据库中。
B13、如B12所述的装置,其中,
所述置信度值获取单元,从所述置信度数据库获取各主域的置信度值。
B14、如B8-B13中任一项所述的装置,其中,该装置进一步包括:
去重单元,当从一个主域中挖掘到了多个名称相同的POI数据时,适于对比名称相同的各POI数据的经纬度,如果其中两条POI数据的经纬度距离在预设范围内,则将其合并为一条POI数据。

Claims (10)

1.一种挖掘互联网中的兴趣点POI数据的方法,其中,该方法包括:
从各主域中挖掘POI数据;其中,一条POI数据包括名称和经纬度;
如果从多个主域中都挖掘到了名称相同的POI数据,根据所述多个主域的置信度值进行评分;
当评分超过预设值时,从所述多个主域中选择一个主域,将从该选择的主域中挖掘到的POI数据作为最后挖掘到的POI数据进行记录。
2.如权利要求1所述的方法,其中,根据所述多个主域的置信度值进行评分包括:
将所述多个主域的置信度值进行累加得到评分。
3.如权利要求1所述的方法,其中,从所述多个主域中选择一个主域包括:从所述多个主域中选择置信度值最高的主域。
4.如权利要求1所述的方法,其中,该方法进一步包括:获取各主域的置信度值。
5.如权利要求4所述的方法,其中,所述获取各主域的置信度值包括:
预设一个POI数据集合;
对于一个主域,运用所述POI数据集合对从该主域中挖掘到的POI数据进行测试,如果所述POI数据集合中的一条POI数据可在该主域挖掘到的POI数据中找到与其名称相同的POI数据,则对比两条POI数据的经纬度,当所述两条POI数据的经纬度距离在预设范围内时,将此条在该主域中挖掘到的POI数据记为可信POI数据;
统计该主域中的可信POI数据总数X,以及统计所述POI数据集合中与该主域中挖掘到的POI数据名称相同的POI数据总数Y,该主域的置信度值等于X/Y;
将该主域的置信度值保存到置信度数据库中。
6.一种挖掘互联网中的兴趣点POI数据的装置,其中,该装置包括:
数据挖掘单元,适于从各主域中挖掘POI数据;其中,一条POI数据包括名称和经纬度;
评分单元,当从多个主域中都挖掘到了名称相同的POI数据时,适于根据所述多个主域的置信度值进行评分;当评分超过预设值时,从所述多个主域中选择一个主域,将从该选择的主域中挖掘到的POI数据作为最后挖掘到的POI数据进行记录。
7.如权利要求6所述的装置,其中,
所述评分单元,适于将所述多个主域的置信度值进行累加得到评分。
8.如权利要求6所述的装置,其中,
所述评分单元,适于从所述多个主域中选择置信度值最高的主域。
9.如权利要求6所述的装置,其中,该装置进一步包括:
置信度值获取单元,适于获取各主域的置信度值。
10.如权利要求9所述的装置,其中,
所述置信度值获取单元,适于预设一个POI数据集合;对于一个主域,运用所述POI数据集合对从该主域中挖掘到的POI数据进行测试,如果所述POI数据集合中的一条POI数据可在该主域挖掘到的POI数据中找到与其名称相同的POI数据,则对比两条POI数据的经纬度,当所述两条POI数据的经纬度距离在预设范围内时,将此条在该主域中挖掘到的POI数据记为可信POI数据;统计该主域中的可信POI数据总数X,以及统计所述POI数据集合中与该主域中挖掘到的POI数据名称相同的POI数据总数Y,该主域的置信度值等于X/Y;将该主域的置信度值保存到置信度数据库中。
CN201510642603.6A 2015-09-30 2015-09-30 一种挖掘互联网中的兴趣点poi数据的方法和装置 Active CN105243136B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510642603.6A CN105243136B (zh) 2015-09-30 2015-09-30 一种挖掘互联网中的兴趣点poi数据的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510642603.6A CN105243136B (zh) 2015-09-30 2015-09-30 一种挖掘互联网中的兴趣点poi数据的方法和装置

Publications (2)

Publication Number Publication Date
CN105243136A true CN105243136A (zh) 2016-01-13
CN105243136B CN105243136B (zh) 2019-02-19

Family

ID=55040784

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510642603.6A Active CN105243136B (zh) 2015-09-30 2015-09-30 一种挖掘互联网中的兴趣点poi数据的方法和装置

Country Status (1)

Country Link
CN (1) CN105243136B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107729368A (zh) * 2017-09-08 2018-02-23 百度在线网络技术(北京)有限公司 一种用于poi数据校验的方法和装置
CN108959550A (zh) * 2018-06-29 2018-12-07 北京百度网讯科技有限公司 用户关注点挖掘方法、装置、设备及计算机可读介质
CN109992638A (zh) * 2019-03-29 2019-07-09 北京三快在线科技有限公司 地理位置poi的生成方法、装置、电子设备和存储介质
CN110659433A (zh) * 2019-08-01 2020-01-07 北京百度网讯科技有限公司 Poi价值评估的方法、装置、设备和计算机存储介质
TWI730539B (zh) * 2019-10-09 2021-06-11 開曼群島商粉迷科技股份有限公司 動態數位內容的顯示方法、圖形使用者介面與系統

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130102283A1 (en) * 2011-10-21 2013-04-25 Alvin Lau Mobile device user behavior analysis and authentication
CN104182471A (zh) * 2014-07-29 2014-12-03 小米科技有限责任公司 用户兴趣点的确定方法、装置及终端
CN104572955A (zh) * 2014-12-29 2015-04-29 北京奇虎科技有限公司 一种基于聚类确定poi名称的系统及方法
CN104572957A (zh) * 2014-12-29 2015-04-29 北京奇虎科技有限公司 一种基于聚类的poi名称确定系统及方法
CN104699835A (zh) * 2015-03-31 2015-06-10 北京奇虎科技有限公司 用于确定网页页面中包括兴趣点poi数据的方法及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130102283A1 (en) * 2011-10-21 2013-04-25 Alvin Lau Mobile device user behavior analysis and authentication
CN104182471A (zh) * 2014-07-29 2014-12-03 小米科技有限责任公司 用户兴趣点的确定方法、装置及终端
CN104572955A (zh) * 2014-12-29 2015-04-29 北京奇虎科技有限公司 一种基于聚类确定poi名称的系统及方法
CN104572957A (zh) * 2014-12-29 2015-04-29 北京奇虎科技有限公司 一种基于聚类的poi名称确定系统及方法
CN104699835A (zh) * 2015-03-31 2015-06-10 北京奇虎科技有限公司 用于确定网页页面中包括兴趣点poi数据的方法及装置

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107729368A (zh) * 2017-09-08 2018-02-23 百度在线网络技术(北京)有限公司 一种用于poi数据校验的方法和装置
CN108959550A (zh) * 2018-06-29 2018-12-07 北京百度网讯科技有限公司 用户关注点挖掘方法、装置、设备及计算机可读介质
CN109992638A (zh) * 2019-03-29 2019-07-09 北京三快在线科技有限公司 地理位置poi的生成方法、装置、电子设备和存储介质
CN110659433A (zh) * 2019-08-01 2020-01-07 北京百度网讯科技有限公司 Poi价值评估的方法、装置、设备和计算机存储介质
CN110659433B (zh) * 2019-08-01 2020-12-18 北京百度网讯科技有限公司 Poi价值评估的方法、装置、设备和计算机存储介质
US11468349B2 (en) 2019-08-01 2022-10-11 Beijing Baidu Netcom Science And Technology Co., Ltd. POI valuation method, apparatus, device and computer storage medium
TWI730539B (zh) * 2019-10-09 2021-06-11 開曼群島商粉迷科技股份有限公司 動態數位內容的顯示方法、圖形使用者介面與系統

Also Published As

Publication number Publication date
CN105243136B (zh) 2019-02-19

Similar Documents

Publication Publication Date Title
CN105243136A (zh) 一种挖掘互联网中的兴趣点poi数据的方法和装置
Zielke et al. High‐resolution topography‐derived offsets along the 1857 Fort Tejon earthquake rupture trace, San Andreas fault
US20130046738A1 (en) Method, apparatus and computer program product for providing conflicting point of interest information
US20110173066A1 (en) Methods and apparatus for performing enhanced queries for items such as maps and geospatial data
Wöppelmann et al. Tide gauge datum continuity at Brest since 1711: France's longest sea‐level record
Marsico et al. Flooding scenario for four Italian coastal plains using three relative sea level rise models
CN105095205A (zh) 地址定位方法及装置
CN105183908A (zh) 一种兴趣点poi数据的分类方法和装置
MXPA04001369A (es) Metodos de interpretacion para la difusion de la resonancia magnetico-nuclear ("nmr")-mapas de relajamiento de difusion (mapas t2).
RU2017115716A (ru) Способ отрисовки поисковых результатов на карте, отображаемой на электронном устройстве
CN109146360A (zh) 网格建立方法和装置以及配送方法和装置
CN105279246A (zh) 一种判断网页中是否包含指定兴趣点poi的方法和装置
Maher Lining up data in ArcGIS: a guide to map projections
US20150260533A1 (en) Navigation system with error detection mechanism and method of operation thereof
CN104677387B (zh) 智能设备保护套检测方法及装置
Hooke et al. The planimetric accuracy of tithe maps
JP2020105791A (ja) 層序判定装置及びプログラム
JP5046107B2 (ja) Poi情報の住所データ更新システム及びプログラム
CN106933735A (zh) 测试用例更新方法及装置
CN106998371B (zh) 可信ip信息的判定方法、ip信息库的更新方法及装置
CN108768862A (zh) 一种多接口路由器地理定位方法
Damen et al. Assessment of the Impact of Land Subsidence, Sea Level Rise and Coastal Change in the city of Semarang, Java, Indonesia
CN105630807B (zh) 一种未知道路与已知道路关联关系的分析方法和装置
Ławniczak et al. Geometric accuracy of topographical objects at Polish topographic maps
Osada et al. Method of optimal fitting of existing lower-class leveling control networks to modernized national higher-class networks

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20220715

Address after: Room 801, 8th floor, No. 104, floors 1-19, building 2, yard 6, Jiuxianqiao Road, Chaoyang District, Beijing 100015

Patentee after: BEIJING QIHOO TECHNOLOGY Co.,Ltd.

Address before: 100088 room 112, block D, 28 new street, new street, Xicheng District, Beijing (Desheng Park)

Patentee before: BEIJING QIHOO TECHNOLOGY Co.,Ltd.

Patentee before: Qizhi software (Beijing) Co.,Ltd.