CN106528597B - 兴趣点的标注方法以及装置 - Google Patents

兴趣点的标注方法以及装置 Download PDF

Info

Publication number
CN106528597B
CN106528597B CN201610848182.7A CN201610848182A CN106528597B CN 106528597 B CN106528597 B CN 106528597B CN 201610848182 A CN201610848182 A CN 201610848182A CN 106528597 B CN106528597 B CN 106528597B
Authority
CN
China
Prior art keywords
interest
point
cluster
title
areas
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610848182.7A
Other languages
English (en)
Other versions
CN106528597A (zh
Inventor
高龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201610848182.7A priority Critical patent/CN106528597B/zh
Publication of CN106528597A publication Critical patent/CN106528597A/zh
Application granted granted Critical
Publication of CN106528597B publication Critical patent/CN106528597B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/29Geographical information databases

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Remote Sensing (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种兴趣点的标注方法以及装置。其中,该方法包括:接收多个用户上传的多个兴趣点数据;采用聚类算法将多个兴趣点数据按照位置信息进行一次聚类,生成多个聚类区域;分别将多个聚类区域按照兴趣点的名称进行二次聚类,生成多个聚类结果集;根据多个聚类结果集对存在兴趣点的位置区域进行标注。该方法利用用户上传的海量的POI的位置及属性信息,快速准确地挖掘出POI点,节省了人力物力成本,提高了POI更新速度,提高了POI标注效率。

Description

兴趣点的标注方法以及装置
技术领域
本发明涉及地理信息处理技术领域,尤其涉及一种兴趣点的标注方法以及装置。
背景技术
兴趣点(POI,Point Of Interest)是地理信息系统中的一个术语,泛指一切可以抽象为点的地理对象,尤其是一些与人们生活密切相关的地理实体,如学校、银行、餐馆、加油站、医院、超市等。兴趣点的主要用途是对事物或事件的地址进行描述,能在很大程度上增强对事物或事件位置的描述能力和查询能力,提高地理定位的精度和速度。相关技术中,兴趣点的采集方法通常是由数据提供商通过采集人员携带相关设备直接进行外业采集,之后将采集到的数据经过数据处理后提供给需求方。
但是,目前存在的问题是,通过上述这种人工外业采集的方式,往往需要数月才能更新地图中的POI数据,显然无法满足实时性需求,并且,通过人工进行大规模的外业数据采集,会导致采集成本高、效率低。
发明内容
本发明的目的旨在至少在一定程度上解决上述的技术问题之一。
为此,本发明的第一个目的在于提出一种兴趣点的标注方法。该方法利用用户上传的海量的POI的位置及属性信息,快速准确地挖掘出POI点,节省了人力物力成本,提高了POI更新速度,提高了POI标注效率。
本发明的第二个目的在于提出一种兴趣点的标注装置。
为达到上述目的,本发明第一方面实施例提出的兴趣点的标注方法,包括:接收多个用户上传的多个兴趣点数据;采用聚类算法将所述多个兴趣点数据按照位置信息进行一次聚类,生成多个聚类区域;分别将所述多个聚类区域按照兴趣点的名称进行二次聚类,生成多个聚类结果集;根据所述多个聚类结果集对存在兴趣点的位置区域进行标注。
本发明实施例的兴趣点的标注方法,可接收多个用户上传的多个兴趣点数据,并采用聚类算法将多个兴趣点数据按照位置信息进行一次聚类,生成多个聚类区域,并分别将多个聚类区域按照兴趣点的名称进行二次聚类,生成多个聚类结果集,最后,根据多个聚类结果集对存在兴趣点的位置区域进行标注。即通过接收用户上传的大量兴趣点数据,并将用户上传的大量兴趣点数据进行二次聚类,最终根据二次聚类后的结果实现对存在兴趣点的位置区域进行标注,这种方式可以快速准确地挖掘POI点,节省了人力物力成本,提高了POI更新速度,提高了POI标注效率。
本发明的第二个目的在于提出一种兴趣点的标注装置,包括:接收模块,用于接收多个用户上传的多个兴趣点数据;第一聚类模块,用于采用聚类算法将所述多个兴趣点数据按照位置信息进行一次聚类,生成多个聚类区域;第二聚类模块,用于分别将所述多个聚类区域按照兴趣点的名称进行二次聚类,生成多个聚类结果集;标注模块,用于根据所述多个聚类结果集对存在兴趣点的位置区域进行标注。
本发明实施例的兴趣点的标注装置,可通过接收模块接收多个用户上传的多个兴趣点数据,第一聚类模块采用聚类算法将多个兴趣点数据按照位置信息进行一次聚类,生成多个聚类区域,第二聚类模块分别将多个聚类区域按照兴趣点的名称进行二次聚类,生成多个聚类结果集,标注模块根据多个聚类结果集对存在兴趣点的位置区域进行标注。即通过接收用户上传的大量兴趣点数据,并将用户上传的大量兴趣点数据进行二次聚类,最终根据二次聚类后的结果实现对存在兴趣点的位置区域进行标注,这种方式可以快速准确地挖掘POI点,节省了人力物力成本,提高了POI更新速度,提高了POI标注效率。
本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1是根据本发明一个实施例的兴趣点的标注方法的流程图;
图2是根据本发明一个实施例的Geo哈希字符串标识位置区域的示意图;
图3是根据本发明一个具体实施例的兴趣点的标注方法的流程图;
图4是根据本发明一个实施例的兴趣点的标注装置的结构示意图;
图5是根据本发明一个具体实施例的兴趣点的标注装置的结构示意图;
图6是根据本发明另一个具体实施例的兴趣点的标注装置的结构示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
下面参考附图描述本发明实施例的兴趣点的标注方法以及装置。
图1是根据本发明一个实施例的兴趣点的标注方法的流程图。需要说明的是,本发明实施例的兴趣点的标注方法可应用于本发明实施例的兴趣点的标注装置,该标注装置可被配置于具有地图功能的大数据平台或云存储平台。该大数据平台或云存储平台可利用本发明实施例的兴趣点的标注方法,对其为用户提供的地图应用程序中的POI数据进行更新,即对地图应用程序中的存在有效兴趣点的位置区域进行标注,以实现对地图应用程序中地图的更新。
如图1所示,该兴趣点的标注方法可以包括:
S110,接收多个用户上传的多个兴趣点数据。
可以理解,为了能够收集大量用户上传的兴趣点数据,作为一种示例,可预先为用户提供上传界面,该上传界面可用于接收用户填写的兴趣点数据,并在接收到用户的确认上传指令时,将用户填写的兴趣点数据进行上传。其中,该兴趣点数据可包括但不限于兴趣点的名称、兴趣点的经纬度信息等。这样,大量的用户可通过该上传界面将自己了解的兴趣点数据进行上传,以帮助后续根据用户上传的兴趣点数据对存在有效兴趣点的位置区域进行标注。
作为一种示例,可通过上述上传界面实时接收大量用户上传的多个兴趣点POI信息以及对应的经纬度信息。
S120,采用聚类算法将多个兴趣点数据按照位置信息进行一次聚类,生成多个聚类区域。
作为一种示例,该位置信息可为经纬度信息。具体地,可采用聚类算法将用户上传的大量兴趣点数据按照经纬度等位置信息进行一次聚类之后,可以将地理范围分为多个区域,将位置相近的兴趣点聚为一类,这些同类的兴趣点共享一个位置区域,其中,该聚类算法可包括Geo哈希算法等。
举例而言,可采用Geo哈希算法将一定地理范围内的兴趣点的经度、纬度转换为对应的字符串,每个字符串不是代表一个点,而是代表了一个矩形区域,这个矩形区域内的所有点都享有共同的Geo哈希位置信息。例如,如图2所示,采用Geo哈希算法可将一定范围内的经纬度点聚合到一起,其中,如图2所示的字符串,即为该矩形区域内的所有兴趣点共同享有的Geo哈希位置信息。这样,采用Geo哈希算法可将用户上传的多个兴趣点数据按照位置信息进行聚类,得到多个聚类区域,每个聚类区域都有对应的字符串进行表示。
也就是说,可根据多个兴趣点数据中的经纬度信息,分别给每个兴趣点编码设置一个Geo哈希字符串,Geo哈希字符串标识对应兴趣点数据的位置,然后,根据各个兴趣点的Geo哈希字符串,采用Geo哈希算法将各个兴趣点进行聚类。
作为一种示例,假设一个兴趣点数据中的经纬度分别为116.389550和39.928167,则对经纬度进行Geo哈希编码的过程如下:地球纬度区间是[-90,90],可以通过下面算法对纬度39.928167进行逼近编码:(1)将区间[-90,90]分为[-90,0)和[0,90],称为左右区间,可以确定39.928167属于右区间[0,90],给标记为1;(2)接着将区间[0,90]进行二分为[0,45),[45,90],可以确定39.928167属于左区间[0,45),给标记为0;(3)递归上述过程,39.928167总是属于某个区间[a,b]。随着每次迭代区间[a,b]总在缩小,并越来越逼近39.928167;(4)如果给定的纬度x(39.928167)属于左区间,则记录0,如果属于右区间则记录1。这样随着算法的进行会产生一个序列10111 00011,该序列即为根据纬度得到的编码,其中,序列的长度与给定的区间划分次数有关;同理,地球的经度区间是[-180,180],对经度116.389550进行编码得到的编码为11010 01011。将偶数位放经度,奇数为放纬度,组合成新编码为11100 11101 00100 01111。然后再将编码转换为十进制的数字,由于5位编码对应一个十进制的数字,转换的十进制范围为0-31。上面的编码对应的十进制数位28、29、4、15,最后按照十进制与Base32的对应关系,将十进制数转换成字符串,也即是哈希字符串,在本示例中,使用的哈希字符串的长度为4,经纬度对应的字符串为WX4G。
可以理解,Geo哈希算法中Geo哈希字符串的长度与表示的经纬度范围经度具有对应关系,该对应关系如下表1所示:
表1
Length lat error lng error km error
1 23 23 2500
2 2.8 5.6 630
3 0.70 0.7 78
4 0.087 0.18 20
5 0.022 0.022 2.4
6 0.0027 0.0055 0.61
7 0.00068 0.00068 0.076
8 0.000085 0.00017 0.019
为了兼顾精准度与采集的兴趣点POI数据的粒度,作为一种示例,采用Geo哈希算法将多个兴趣点数据按照位置信息进行一次聚类时,采用的Geo哈希字符串的长度可为7。也就是说,在采用Geo哈希算法对多个兴趣点数据按照位置信息进行聚类时,可选择Geo哈希字符串的长度为7,这样,可以将面积为76*68地理范围内的POI点会聚集到一个聚类区域中。
S130,分别将多个聚类区域按照兴趣点的名称进行二次聚类,生成多个聚类结果集。
具体地,在将多个兴趣点数据按照位置信息进行一次聚类以生成多个聚类区域之后,可分别对生成的每一个聚类区域,按照POI名称的编辑距离相似性进行二次聚类,以得到对应的聚类结果集。也就是说,在对多个兴趣点数据按照位置信息进行一次聚类之后,再按照POI名称将第一次聚类后的兴趣点进行第二次聚类,以使得将编辑距离相似的POI名称所对应的兴趣点聚为一类。
S140,根据多个聚类结果集对存在兴趣点的位置区域进行标注。
具体而言,在本发明的一个实施例中,针对每个聚类结果集,判断每个聚类结果集中兴趣点的个数是否大于或等于第二阈值,如果每个聚类结果集中兴趣点的个数大于或等于第二阈值,则判定每个聚类结果集中存在有效兴趣点,并从每个聚类结果集中的兴趣点数据中,随机选取经纬度信息,并将该随机选取的经纬度信息作为该存在有效兴趣点的位置区域的坐标。
更具体地,针对每个聚类结果集,可先统计该聚类结果集中兴趣点的个数,并判断该个数是否大于或等于第二阈值,若是,则可判定该聚类结果集中存在有效兴趣点,即可认为此类POI是可靠的兴趣点,此时可从该聚类结果集中的兴趣点数据中,随机选取一个经纬度信息,并将该随机选取的经纬度信息作为该存在有效兴趣点的位置区域的坐标。由此,实现了对该位置区域进行兴趣点的标注。其中,在本发明的实施例中,该第二阈值可为315,该第二阈值可为预先通过大量试验而得到的标定值。
本发明实施例的兴趣点的标注方法,可接收多个用户上传的多个兴趣点数据,并采用聚类算法将多个兴趣点数据按照位置信息进行一次聚类,生成多个聚类区域,并分别将多个聚类区域按照兴趣点的名称进行二次聚类,生成多个聚类结果集,最后,根据多个聚类结果集对存在兴趣点的位置区域进行标注。即通过接收用户上传的大量兴趣点数据,并将用户上传的大量兴趣点数据进行二次聚类,最终根据二次聚类后的结果实现对存在兴趣点的位置区域进行标注,这种方式可以快速准确地挖掘POI点,节省了人力物力成本,提高了POI更新速度,提高了POI标注效率。
图3是根据本发明一个具体实施例的兴趣点的标注方法的流程图。
为了兼顾兴趣点标注的准确率,以及提高兴趣点的召回率,可按照POI名称的编辑距离相似性对聚类区域中的兴趣点进行二次聚类,并将两两兴趣点数据中名称之间的编辑距离相似性与第一阈值进行比对,并将编辑距离相似性大于第一阈值的名称所对应的兴趣点聚为一类。具体地,如图3所示,该兴趣点的标注方法可以包括:
S310,接收多个用户上传的多个兴趣点数据。
S320,采用聚类算法将多个兴趣点数据按照位置信息进行一次聚类,生成多个聚类区域。
作为一种示例,该位置信息可为经纬度信息。具体地,可采用聚类算法将用户上传的大量兴趣点数据按照经纬度等位置信息进行一次聚类之后,可以将地理范围分为多个区域,将位置相近的兴趣点聚为一类,这些同类的兴趣点共享一个位置区域,其中,该聚类算法可包括Geo哈希算法等。
举例而言,可采用Geo哈希算法将一定地理范围内的兴趣点的经度、纬度转换为对应的字符串,每个字符串不是代表一个点,而是代表了一个矩形区域,这个矩形区域内的所有点都享有共同的Geo哈希位置信息。例如,如图2所示,采用Geo哈希算法可将一定范围内的经纬度点聚合到一起,其中,如图2所示的字符串,即为该矩形区域内的所有兴趣点共同享有的Geo哈希位置信息。这样,采用Geo哈希算法可将用户上传的多个兴趣点数据按照位置信息进行聚类,得到多个聚类区域,每个聚类区域都有对应的字符串进行表示。
S330,针对每个聚类区域,计算每个聚类区域中的两两兴趣点数据中名称之间的编辑距离相似性。
具体而言,在本发明的一个实施例中,针对每个聚类区域,可计算每个聚类区域中的两两兴趣点数据中名称之间的编辑距离,并根据两两兴趣点数据中名称的字符总数、以及编辑距离,计算两两兴趣点数据中名称之间的编辑距离相似性。
更具体地,计算每个聚类区域中的两两兴趣点数据中名称之间的编辑距离,并根据两两兴趣点数据中名称的字符总数、以及编辑距离,计算两两兴趣点数据中名称的相同字符个数,并根据两两兴趣点数据中名称的相同字符个数、以及字符总数,计算两两兴趣点数据中名称之间的编辑距离相似性。
例如,假设聚类区域中有兴趣点A和兴趣点B,兴趣点A的名称为“中国”,兴趣点B的名称为“中国人”,则兴趣点A与兴趣点B的名称的编辑距离为1,其中,兴趣点A与B的字符总数为5,则兴趣点A与兴趣点B中名称的相同字符个数为4,最后,可计算出兴趣点A和兴趣点B名称之间的编辑距离相似性为4/5。
S340,将编辑距离相似性大于第一阈值的名称所对应的兴趣点进行聚类,生成对应的聚类结果集。
作为一种示例,该第一阈值可为0.9。具体地,在计算每个聚类区域中的两两兴趣点数据中名称之间的编辑距离相似性之后,可将得到的编辑距离相似性与第一阈值进行大小比对,并将编辑距离相似性大于该第一阈值的名称所对应的兴趣点进行聚类,最后得到每个聚类区域对应的聚类结果集。
也就是说,在按照POI名称的编辑距离相似性对每个聚类区域进行二次聚类时,可将聚类区域中POI名称的编辑距离相似性大于第一阈值的兴趣点聚为一类。
S350,根据多个聚类结果集对存在兴趣点的位置区域进行标注。
具体而言,在本发明的一个实施例中,针对每个聚类结果集,判断每个聚类结果集中兴趣点的个数是否大于或等于第二阈值,如果每个聚类结果集中兴趣点的个数大于或等于第二阈值,则判定每个聚类结果集中存在有效兴趣点,并从每个聚类结果集中的兴趣点数据中,随机选取经纬度信息,并将该随机选取的经纬度信息作为该存在有效兴趣点的位置区域的坐标。
本发明实施例的兴趣点的标注方法,可按照POI名称的编辑距离相似性对聚类区域中的兴趣点进行二次聚类,并将两两兴趣点数据中名称之间的编辑距离相似性与第一阈值进行比对,并将编辑距离相似性大于第一阈值的名称所对应的兴趣点聚为一类,这样,不仅可以兼顾兴趣点标注的准确率,还可以提高兴趣点的召回率。
与上述几种实施例提供的兴趣点的标注方法相对应,本发明的一种实施例还提供一种兴趣点的标注装置,由于本发明实施例提供的兴趣点的标注装置与上述几种实施例提供的兴趣点的标注方法相对应,因此在前述兴趣点的标注方法的实施方式也适用于本实施例提供的兴趣点的标注装置,在本实施例中不再详细描述。图4是根据本发明一个实施例的兴趣点的标注装置的结构示意图。如图4所示,该兴趣点的标注装置可以包括:接收模块410、第一聚类模块420、第二聚类模块430和标注模块440。
具体地,接收模块410用于接收多个用户上传的多个兴趣点数据。
第一聚类模块420用于采用聚类算法将多个兴趣点数据按照位置信息进行一次聚类,生成多个聚类区域。其中,在本发明的实施例中,该聚类算法可为Geo哈希算法,该位置信息可为经纬度信息。
作为一种示例,第一聚类模块420采用Geo哈希算法将多个兴趣点数据按照位置信息进行一次聚类时,采用的Geo哈希字符串的长度为7。
第二聚类模块430用于分别将多个聚类区域按照兴趣点的名称进行二次聚类,生成多个聚类结果集。具体而言,在本发明的一个实施例中,如图5所示,该第二聚类模块430可包括:计算单元431和聚类单元432。
其中,计算单元431用于针对每个聚类区域,计算每个聚类区域中的两两兴趣点数据中名称之间的编辑距离相似性。聚类单元432用于将编辑距离相似性大于第一阈值的名称所对应的兴趣点进行聚类,生成对应的聚类结果集。
具体而言,在本发明的一个实施例中,计算单元431计算每个聚类区域中的两两兴趣点数据中名称之间的编辑距离相似性的具体实现过程可如下:计算每个聚类区域中的两两兴趣点数据中名称之间的编辑距离;根据两两兴趣点数据中名称的字符总数、以及编辑距离,计算两两兴趣点数据中名称之间的编辑距离相似性。
标注模块440用于根据多个聚类结果集对存在兴趣点的位置区域进行标注。具体而言,在本发明的一个实施例中,如图6所示,该标注模块440可以包括:判断单元441、判定单元442和标注单元443。
其中,判断单元441用于针对每个聚类结果集,判断每个聚类结果集中兴趣点的个数是否大于或等于第二阈值。判定单元442用于在每个聚类结果集中兴趣点的个数大于或等于第二阈值时,判定每个聚类结果集中存在有效兴趣点。标注单元443用于从每个聚类结果集中的兴趣点数据中,随机选取经纬度信息,并将随机选取的经纬度信息作为存在有效兴趣点的位置区域的坐标。
本发明实施例的兴趣点的标注装置,可通过接收模块接收多个用户上传的多个兴趣点数据,第一聚类模块采用聚类算法将多个兴趣点数据按照位置信息进行一次聚类,生成多个聚类区域,第二聚类模块分别将多个聚类区域按照兴趣点的名称进行二次聚类,生成多个聚类结果集,标注模块根据多个聚类结果集对存在兴趣点的位置区域进行标注。即通过接收用户上传的大量兴趣点数据,并将用户上传的大量兴趣点数据进行二次聚类,最终根据二次聚类后的结果实现对存在兴趣点的位置区域进行标注,这种方式可以快速准确地挖掘POI点,节省了人力物力成本,提高了POI更新速度,提高了POI标注效率。
在本发明的描述中,需要理解的是,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (12)

1.一种兴趣点的标注方法,其特征在于,所述标注方法用于实现对地图应用程序中的POI数据的挖掘和更新,所述标注方法包括以下步骤:
接收多个用户上传的多个兴趣点数据;
采用聚类算法将所述多个兴趣点数据按照位置信息进行一次聚类,生成多个聚类区域;
分别将所述多个聚类区域按照兴趣点的名称进行二次聚类,生成多个聚类结果集;
根据所述多个聚类结果集对存在兴趣点的位置区域进行标注。
2.如权利要求1所述的方法,其特征在于,所述分别将所述多个聚类区域按照兴趣点的名称进行二次聚类,生成多个聚类结果集,包括:
针对每个聚类区域,计算所述每个聚类区域中的两两兴趣点数据中名称之间的编辑距离相似性;
将编辑距离相似性大于第一阈值的名称所对应的兴趣点进行聚类,生成对应的聚类结果集。
3.如权利要求2所述的方法,其特征在于,所述计算所述每个聚类区域中的两两兴趣点数据中名称之间的编辑距离相似性,包括:
计算所述每个聚类区域中的两两兴趣点数据中名称之间的编辑距离;
根据所述两两兴趣点数据中名称的字符总数、以及所述编辑距离,计算所述两两兴趣点数据中名称之间的编辑距离相似性。
4.如权利要求1所述的方法,其特征在于,所述根据所述多个聚类结果集对存在兴趣点的位置区域进行标注,包括:
针对每个聚类结果集,判断所述每个聚类结果集中兴趣点的个数是否大于或等于第二阈值;
如果所述每个聚类结果集中兴趣点的个数大于或等于所述第二阈值,则判定所述每个聚类结果集中存在有效兴趣点;
从所述每个聚类结果集中的兴趣点数据中,随机选取经纬度信息,并将所述随机选取的经纬度信息作为所述存在有效兴趣点的位置区域的坐标。
5.如权利要求1所述的方法,其特征在于,所述聚类算法为Geo哈希算法,所述位置信息为经纬度信息。
6.如权利要求5所述的方法,其特征在于,采用所述Geo哈希算法将所述多个兴趣点数据按照位置信息进行一次聚类时,采用的Geo哈希字符串的长度为7。
7.一种兴趣点的标注装置,其特征在于,所述标注装置用于实现对地图应用程序中的POI数据的挖掘和更新,所述标注装置包括:
接收模块,用于接收多个用户上传的多个兴趣点数据;
第一聚类模块,用于采用聚类算法将所述多个兴趣点数据按照位置信息进行一次聚类,生成多个聚类区域;
第二聚类模块,用于分别将所述多个聚类区域按照兴趣点的名称进行二次聚类,生成多个聚类结果集;
标注模块,用于根据所述多个聚类结果集对存在兴趣点的位置区域进行标注。
8.如权利要求7所述的装置,其特征在于,所述第二聚类模块包括:
计算单元,用于针对每个聚类区域,计算所述每个聚类区域中的两两兴趣点数据中名称之间的编辑距离相似性;
聚类单元,用于将编辑距离相似性大于第一阈值的名称所对应的兴趣点进行聚类,生成对应的聚类结果集。
9.如权利要求8所述的装置,其特征在于,所述计算单元具体用于:
计算所述每个聚类区域中的两两兴趣点数据中名称之间的编辑距离;
根据所述两两兴趣点数据中名称的字符总数、以及所述编辑距离,计算所述两两兴趣点数据中名称之间的编辑距离相似性。
10.如权利要求7所述的装置,其特征在于,所述标注模块包括:
判断单元,用于针对每个聚类结果集,判断所述每个聚类结果集中兴趣点的个数是否大于或等于第二阈值;
判定单元,用于在所述每个聚类结果集中兴趣点的个数大于或等于所述第二阈值时,判定所述每个聚类结果集中存在有效兴趣点;
标注单元,用于从所述每个聚类结果集中的兴趣点数据中,随机选取经纬度信息,并将所述随机选取的经纬度信息作为所述存在有效兴趣点的位置区域的坐标。
11.如权利要求7所述的装置,其特征在于,所述聚类算法为Geo哈希算法,所述位置信息为经纬度信息。
12.如权利要求11所述的装置,其特征在于,所述第一聚类模块采用所述Geo哈希算法将所述多个兴趣点数据按照位置信息进行一次聚类时,采用的Geo哈希字符串的长度为7。
CN201610848182.7A 2016-09-23 2016-09-23 兴趣点的标注方法以及装置 Active CN106528597B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610848182.7A CN106528597B (zh) 2016-09-23 2016-09-23 兴趣点的标注方法以及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610848182.7A CN106528597B (zh) 2016-09-23 2016-09-23 兴趣点的标注方法以及装置

Publications (2)

Publication Number Publication Date
CN106528597A CN106528597A (zh) 2017-03-22
CN106528597B true CN106528597B (zh) 2019-07-05

Family

ID=58344272

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610848182.7A Active CN106528597B (zh) 2016-09-23 2016-09-23 兴趣点的标注方法以及装置

Country Status (1)

Country Link
CN (1) CN106528597B (zh)

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107330466B (zh) * 2017-06-30 2023-01-24 上海连尚网络科技有限公司 极速地理GeoHash聚类方法
CN107832325B (zh) * 2017-09-15 2021-11-16 百度在线网络技术(北京)有限公司 一种poi数据校验方法与设备
CN108052499B (zh) * 2017-11-20 2021-06-11 北京百度网讯科技有限公司 基于人工智能的文本纠错方法、装置及计算机可读介质
CN108171452B (zh) * 2017-12-08 2022-04-05 苏宁易购集团股份有限公司 一种快递点选址方法及装置
CN110647623B (zh) * 2018-06-11 2022-09-23 百度在线网络技术(北京)有限公司 用于更新信息的方法及装置
CN110796323A (zh) * 2018-08-03 2020-02-14 北京嘀嘀无限科技发展有限公司 车辆的调度方法、装置、终端及计算机可读存储介质
EP3649435A4 (en) 2018-09-18 2020-05-13 Beijing Didi Infinity Technology and Development Co., Ltd. SYSTEMS WITH ARTIFICIAL INTELLIGENCE AND METHOD FOR THE PREDICTION OF TRAFFIC ACCIDENT LOCATIONS
CN109597922B (zh) * 2019-01-03 2023-02-28 北京顺源开华科技有限公司 时区确定方法、装置、可穿戴设备及系统
CN109918581B (zh) * 2019-03-06 2023-09-22 上海评驾科技有限公司 一种基于时空数据的用户多兴趣点多结果识别的方法
CN109974730A (zh) * 2019-03-15 2019-07-05 桂林理工大学 一种自发地理信息的兴趣点地标路径引导方法
CN111723959B (zh) * 2019-03-19 2023-12-12 腾讯科技(深圳)有限公司 区域的划分方法、装置、存储介质及电子装置
CN110334349B (zh) * 2019-06-28 2022-07-19 腾讯科技(深圳)有限公司 商圈自动命名的方法、装置、计算机设备及存储介质
CN110895138B (zh) * 2019-11-13 2023-01-24 北京数字联盟网络科技有限公司 一种对终端设备进行楼层判定的方法
CN111352964B (zh) * 2020-02-07 2023-09-12 北京梧桐车联科技有限责任公司 获取兴趣点信息的方法、装置、设备及存储介质
CN111782741A (zh) * 2020-06-04 2020-10-16 汉海信息技术(上海)有限公司 兴趣点挖掘方法、装置、电子设备及存储介质
CN113032514B (zh) * 2021-05-28 2021-09-07 浙江口碑网络技术有限公司 兴趣点数据处理方法及装置
CN116863127A (zh) * 2022-03-28 2023-10-10 华为技术有限公司 一种感兴趣区域的获取方法以及相关设备
CN116049464B (zh) * 2022-08-05 2023-10-20 荣耀终端有限公司 一种图像整理方法及电子设备

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103954277A (zh) * 2014-04-30 2014-07-30 百度在线网络技术(北京)有限公司 检测兴趣点位置的方法及装置
CN104089620A (zh) * 2014-04-04 2014-10-08 北京乐投信息技术有限公司 一种基于数据分析的自动路线规划方法及其系统
CN104572956A (zh) * 2014-12-29 2015-04-29 北京奇虎科技有限公司 确定poi信息有效性的系统及方法
CN104572955A (zh) * 2014-12-29 2015-04-29 北京奇虎科技有限公司 一种基于聚类确定poi名称的系统及方法
CN104731783A (zh) * 2013-12-18 2015-06-24 高德软件有限公司 一种展示兴趣点的方法和装置
CN105045858A (zh) * 2015-07-10 2015-11-11 湖南科技大学 基于投票的出租车载客点推荐方法
CN105302870A (zh) * 2015-09-30 2016-02-03 百度在线网络技术(北京)有限公司 一种加油站poi自动发现的方法和装置
CN105426387A (zh) * 2015-10-23 2016-03-23 北京锐安科技有限公司 一种基于K-means算法的地图聚合方法
CN105550285A (zh) * 2015-12-10 2016-05-04 北京奇虎科技有限公司 构建poi词典的方法及装置
CN105677804A (zh) * 2015-12-31 2016-06-15 百度在线网络技术(北京)有限公司 权威站点的确定以及权威站点数据库的建立方法和装置
CN105825672A (zh) * 2016-04-11 2016-08-03 中山大学 一种基于浮动车数据的城市指引区域提取方法

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104731783A (zh) * 2013-12-18 2015-06-24 高德软件有限公司 一种展示兴趣点的方法和装置
CN104089620A (zh) * 2014-04-04 2014-10-08 北京乐投信息技术有限公司 一种基于数据分析的自动路线规划方法及其系统
CN103954277A (zh) * 2014-04-30 2014-07-30 百度在线网络技术(北京)有限公司 检测兴趣点位置的方法及装置
CN104572956A (zh) * 2014-12-29 2015-04-29 北京奇虎科技有限公司 确定poi信息有效性的系统及方法
CN104572955A (zh) * 2014-12-29 2015-04-29 北京奇虎科技有限公司 一种基于聚类确定poi名称的系统及方法
CN105045858A (zh) * 2015-07-10 2015-11-11 湖南科技大学 基于投票的出租车载客点推荐方法
CN105302870A (zh) * 2015-09-30 2016-02-03 百度在线网络技术(北京)有限公司 一种加油站poi自动发现的方法和装置
CN105426387A (zh) * 2015-10-23 2016-03-23 北京锐安科技有限公司 一种基于K-means算法的地图聚合方法
CN105550285A (zh) * 2015-12-10 2016-05-04 北京奇虎科技有限公司 构建poi词典的方法及装置
CN105677804A (zh) * 2015-12-31 2016-06-15 百度在线网络技术(北京)有限公司 权威站点的确定以及权威站点数据库的建立方法和装置
CN105825672A (zh) * 2016-04-11 2016-08-03 中山大学 一种基于浮动车数据的城市指引区域提取方法

Also Published As

Publication number Publication date
CN106528597A (zh) 2017-03-22

Similar Documents

Publication Publication Date Title
CN106528597B (zh) 兴趣点的标注方法以及装置
CN104050196B (zh) 一种兴趣点数据冗余检测方法及装置
CN102833680B (zh) 基于位置的海洋渔业信息服务方法
CN114610829B (zh) 一种基于智能终端和遥感智能识别的土地信息管理方法
CN106950612B (zh) 一种用于气象学中自动识别并绘制冷锋的方法
CN106162872A (zh) 一种室内定位系统、方法和基于其的信息推送系统、方法
CN109376996A (zh) 基于统计年鉴及地理信息的洪水损失评估方法和系统
CN106960006A (zh) 一种不同轨迹间相似度度量系统及其度量方法
CN104867402B (zh) 一种离线的逆地理编码的方法及其装置和终端设备
CN107766433A (zh) 一种基于Geo‑BTree的范围查询方法及装置
CN106156528A (zh) 一种轨迹数据停留识别方法及系统
CN106772685A (zh) 基于Web‑GIS的相似台风匹配算法及软件支持系统
WO2017211150A1 (zh) 指纹数据入库处理方法及装置
CN104166695A (zh) 一种面向遥感数据内容的剖分、查询及动态显示方法
CN111954160A (zh) 一种二维手机信令数据转化三维空间轨迹数据的方法
Wazneh et al. Historical spatial and temporal climate trends in southern Ontario, Canada
CN107229742A (zh) 一种基于遥感大数据确定城市易涝点的方法
WO2021114615A1 (zh) 行为风险识别的可视化方法、装置、设备及存储介质
CN207423929U (zh) 新型空气质量智能预测系统
CN104537024A (zh) 一种海量位置签到数据的可视化方法
CN105096062A (zh) Cors应用管理系统
CN102081657B (zh) 一种基于网络的卫星云图定位方法
Aernouts et al. Sigfox and LoRaWAN datasets for fingerprint localization in large urban and rural areas
CN116862258A (zh) 一种顾及集聚和三生功能的乡村聚落空间重构方法
CN110995849A (zh) 一种矢量数据位置信息的传输与存储方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant