CN104572955A - 一种基于聚类确定poi名称的系统及方法 - Google Patents

一种基于聚类确定poi名称的系统及方法 Download PDF

Info

Publication number
CN104572955A
CN104572955A CN201410849123.2A CN201410849123A CN104572955A CN 104572955 A CN104572955 A CN 104572955A CN 201410849123 A CN201410849123 A CN 201410849123A CN 104572955 A CN104572955 A CN 104572955A
Authority
CN
China
Prior art keywords
keyword
frequency
title
poi
class
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410849123.2A
Other languages
English (en)
Other versions
CN104572955B (zh
Inventor
王智广
魏少俊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Qihoo Technology Co Ltd
Original Assignee
Beijing Qihoo Technology Co Ltd
Qizhi Software Beijing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Qihoo Technology Co Ltd, Qizhi Software Beijing Co Ltd filed Critical Beijing Qihoo Technology Co Ltd
Priority to CN201410849123.2A priority Critical patent/CN104572955B/zh
Publication of CN104572955A publication Critical patent/CN104572955A/zh
Priority to PCT/CN2015/095857 priority patent/WO2016107352A1/zh
Application granted granted Critical
Publication of CN104572955B publication Critical patent/CN104572955B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9537Spatial or temporal dependent retrieval, e.g. spatiotemporal queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种基于聚类确定POI名称的系统和方法,其中,该方法包括:从网络数据中抓取地址数据;从抓取到的一个或多个地址数据中分别提取名称字段和地址信息;基于所述名称字段确定一个或多个关键词;将对应相同地址信息的所述关键词进行聚类,生成至少一个类;根据聚类后的关键词确定此地址信息对应的POI名称。通过本发明的技术方案,使得用户能够快速、准确地搜索到同一经、纬度的POI地址对应的POI名称,改善用户体验。

Description

一种基于聚类确定POI名称的系统及方法
技术领域
本发明涉及电子地图技术领域,具体而言,涉及一种基于聚类确定POI名称的系统和一种基于聚类确定POI名称的方法。
背景技术
兴趣点(Point of Interest,POI)一般是电子地图中标注的地理信息点,通常包含POI标识、POI名称、POI类型、经度、纬度等信息。POI可以在地图上标注出来,带有经纬度信息,可以用来查找并计算导航的地标点或者建筑物,例如商场、停车场、学校、医院、酒店、饭店、超市、公园、旅游景点等。
越来越多的用户在电子地图中查询POI,数据库中存储的POI数据为POI查询提供数据支撑。目前,对数据库中的POI数据进行更新主要通过进行数据实采,根据实采得到的数据对数据库中存储的POI数据进行更新,或是从互联网上的各个生活类信息网站上获取POI数据,只要获取的数据包括POI的名称和地址,即可将该条数据确定为一条POI数据。由于POI数据的获取及更新方式的特点,不可避免的导致互联网上存在着各种各样的POI数据。因此,从不同来源网站获取的POI数据中,有可能存在重复性数据,即多条POI数据实际描述的是同一POI,其实际的POI经度、纬度相同,但是POI名称和POI地址的描述方式却不同。重复性的POI数据导致用户无法快速、准确的搜索到同一POI地理位置(经纬度)的POI地址对应的POI名称,影响用户体验。
发明内容
鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决或者减缓上述问题的基于聚类确定POI名称的系统和相应的基于聚类确定POI名称的方法。
根据本发明的一个方面,提供了一种基于聚类确定POI名称的系统,该系统包括:
地址数据抓取器,用于从网络数据中抓取地址数据;
地址数据解析器,用于从抓取到的一个或多个地址数据中分别提取名称字段和地址信息;
关键词确定器,用于基于所述名称字段确定一个或多个关键词;
关键词聚类器,用于将对应相同地址信息的所述关键词进行聚类,生成至少一个类;
POI名称生成器,用于根据聚类后的关键词确定此地址信息对应的POI名称。
优选地,所述关键词确定器进一步包括:
切词单元,用于对所述名称字段中的名称进行切词处理生成分词;
关键词获取单元,用于根据所述分词获取所述地址数据的关键词。
优选地,所述关键词获取单元进一步包括:
第一频次统计模块,用于统计对应相同地址信息的每个分词出现的频次,作为第一频次;
关键词生成模块,用于根据所述第一频次生成所述地址数据的关键词。
优选地,所述关键词生成模块选择频次最小并且是非地名的分词作为所述地址数据的关键词。
优选地,所述POI名称生成器进一步包括:
频率统计单元,用于计算各个类中名称字段的出现频率;
类标识名称确定单元,用于将所述各个类中出现频率最高的名称字段作为类标识名称;
POI名称确定单元,用于将每个类标识名称均作为POI名称。
优选地,所述POI名称生成器进一步包括:
频率统计单元,用于计算各个类中名称字段的出现频率;
类标识名称确定单元,用于将所述各个类中出现频率最高的名称字段作为类标识名称;
POI名称确定单元,用于选择出现频率最高的类标识名称作为POI名称。
根据本发明的另一个方面,提供了一种基于聚类确定POI名称的方法,包括:
从网络数据中抓取地址数据;
从抓取到的一个或多个地址数据中分别提取名称字段和地址信息;
基于所述名称字段确定一个或多个关键词;
将对应相同地址信息的所述关键词进行聚类,生成至少一个类;
根据聚类后的关键词确定此地址信息对应的POI名称。
优选地,所述步骤:基于所述名称字段确定一个或多个关键词,进一步包括:
对所述名称字段中的名称进行切词处理生成分词;
根据所述分词获取所述地址数据的关键词。
优选地,所述步骤:根据所述分词获取所述地址数据的关键词,进一步包括:
统计对应相同地址信息的每个分词出现的频次作为第一频次;
根据所述第一频次生成所述地址数据的关键词。
优选地,所述步骤根据所述第一频次生成所述地址数据的关键词具体为:
选择频次最小并且是非地名的分词作为所述地址数据的关键词。
优选地,所述步骤:根据聚类后的关键词确定此地址信息对应的POI名称,进一步包括:
计算各个类中名称字段的出现频率;
将所述各个类中出现频率最高的名称字段作为类标识名称;
将每个类标识名称均作为POI名称。
优选地,所述步骤:根据聚类后的关键词确定此地址信息对应的POI名称,进一步包括:
计算各个类中名称字段的出现频率;
将所述各个类中出现频率最高的名称字段作为类标识名称;
选择出现频率最高的类标识名称作为POI名称。
本发明的有益效果为:
本发明对从网络数据中抓取地址数据进行名称字段和地址信息的提取,基于名称字段确定一个或多个关键词,并将对应相同地址信息的关键词进行聚类,基于聚类后的关键词确定地址信息对应的POI名称,从而使得用户能够快速、准确地搜索到同一经、纬度的POI地址对应的POI名称,改善用户体验。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示意性示出了本发明一个实施例的基于聚类确定POI名称的系统的框图;
图2示意性示出了本发明另一个实施例的基于聚类确定POI名称的系统中的关键词确定器的框图;
图3示意性示出了本发明另一个实施例的基于聚类确定POI名称的系统中的POI名称生成器的框图;
图4示意性示出了本发明另一个实施例的基于聚类确定POI名称的系统中的POI名称生成器的框图;
图5示意性示出了本发明一个实施例的基于聚类确定POI名称的方法的流程图;
图6示意性示出了本发明另一个实施例的基于聚类确定POI名称的方法的步骤S13的细分流程图;
图7示意性示出了本发明另一个实施例的基于聚类确定POI名称的方法的步骤S15的细分流程图;以及
图8示意性示出了本发明另一个实施例的基于聚类确定POI名称的方法的步骤S15的细分流程图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能解释为对本发明的限制。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。
本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语),具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语,应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非被特定定义,否则不会用理想化或过于正式的含义来解释。
图1示出了本发明一个实施例的基于聚类确定POI名称的系统的框图。
参照图1,本发明实施例的基于聚类确定POI名称的系统,包括:
地址数据抓取器11,用于从网络数据中抓取地址数据;
地址数据解析器12,用于从抓取到的一个或多个地址数据中分别提取名称字段和地址信息;
关键词确定器13,用于基于所述名称字段确定一个或多个关键词;
关键词聚类器14,用于将对应相同地址信息的所述关键词进行聚类,生成至少一个类;
POI名称生成器15,用于根据聚类后的关键词确定此地址信息对应的POI名称。
本发明实施例,基于搜索引擎利用网络中的地址数据,所述地址数据包括名称字段、地址信息以及多个相关POI信息;本发明实施例中,所述多个相关POI信息为对应POI至少一个预设属性的信息。进一步地,所述预设属性为经纬度、地址、建筑物名称或所囊括单位名称。
本发明实施例,基于搜索引擎从网络数据中抓取地址数据,所述地址数据包括名称字段和地址信息,基于搜索引擎从互联网上挖掘的地图地址数据,比如name:某某地产集团**分公司公司;address:**市**区8*财富中心A座写字楼14楼,其中“某某地产集团**分公司公司”为POI的名称,“**市**区8*财富中心A座写字楼14楼”为此POI的地址,通过对地址的经纬度解析可以获得此地址所在的经纬度信息,比如地址“**市**区8*财富中心A座写字楼14楼”经纬度解析得到的经纬度为:东经:102.733445  北纬:25.08108。另外,需要统计POI信息在互联网上出现的次数以及记录来源。
所以,最终从互联网上挖掘的地址数据对应的不同信息来源的POI信息的格式如表1所示,具体如下:
表1不同信息来源的POI信息的格式表
由表1可见,在同一地理位置(经纬度相同)从不同来源网站获取的POI数据中,有可能存在重复性数据,即同一个地址(经纬度)可能存在多个POI名字,如表1中同一个经纬度存在多个公司,其实际的POI经度、纬度相同,但是POI名称和POI地址的描述方式却不同;还可以看出,同一个poi名字可能多种不同的说法,比如“保山明志汽车销售有限公司”和“保山明志汽车销售服务有限公司”,重复性的POI数据导致用户无法快速、准确的搜索到同一POI地理位置(经纬度)的POI地址对应的POI名称。
对此,本发明实施例,从网络数据中抓取地址数据,从抓取到的一个或多个地址数据中分别提取名称字段和地址信息,基于所述名称字段确定一个或多个关键词;将对应相同地址信息的所述关键词进行聚类,生成至少一个类,根据聚类后的关键词确定此地址信息对应的POI名称,进而得到最佳的poi名字。
为了进一步体现发明的优越性,如下进一步揭示本发明基于聚类确定POI名称的系统中的关键词确定器13的在另一实施例中的内部结构,来体现依据关键词确定器13实现的另一实施例的细节。参照图2,关键词确定器13进一步包括切词单元131以及关键词获取单元132:
所述的切词单元131,用于对所述名称字段中的名称进行切词处理生成分词;
所述的关键词获取单元132,用于根据所述分词获取所述地址数据的关键词。
其中,关键词获取单元进一步包括:
第一频次统计模块,用于统计对应相同地址信息的每个分词出现的频次,作为第一频次;
关键词生成模块,用于根据所述第一频次生成所述地址数据的关键词。
其中,关键词生成模块选择频次最小并且是非地名的分词作为所述地址数据的关键词。
本发明实施例中,对所挖掘的地址数据中POI信息的名称切词,并且统计切词后每个词出现的次数,同一个POI名称中出现频次最少即包含的信息量最大,并且是非地名的那个词记为该POI名称的关键词,比如表1中出现的地址数据对应的相关POI信息中POI名称切词后数据如表2所示(词频是根据约9000万的poi名字统计的),表2中第二列为获取到的关键词,具体如下:
表2  POI名称的切词后的数据表
根据关键词聚类:同一个关键词对应的POI名称记为同一类,上述几个POI名称可以归为5个类,也就是说在此POI地址上存在5个不同的poi名字。
为了进一步体现发明的优越性,如下进一步揭示本发明基于聚类确定POI名称的系统中的POI名称生成器15的在另一实施例中的内部结构,来体现依据POI名称生成器15实现的另一实施例的细节。参照图3,POI名称生成器15进一步包括频率统计单元151、类标识名称确定单元152以及POI名称确定单元153:
所述的频率统计单元151,用于计算各个类中名称字段的出现频率;
所述的类标识名称确定单元152,用于将所述各个类中出现频率最高的名称字段作为类标识名称;
所述的POI名称确定单元153,用于将每个类标识名称均作为POI名称。
本实施例中,将每个类标识名称均作为POI名称,进一步为:根据关键词聚类:同一个关键词对应的POI名称记为同一类,上述几个POI名称可以归为5个类,也就是说在此POI地址上存在5个不同的poi名字,分别为:
A:保山博鑫源汽车贸易有限公司;
B:云南省澜沧江啤酒集团保山有限公司云南省澜沧江啤酒集团保山有限公司(地图标注);
C:保山明志汽车销售有限公司保山明志汽车销售服务有限公司
D:保山长城汽车4S店;
E:保山融易通汽车销售有限公司(雪佛兰4S店)。
为了进一步体现发明的优越性,如下进一步揭示本发明基于聚类确定POI名称的系统中的POI名称生成器15的在另一实施例中的内部结构,来体现依据POI名称生成器15实现的另一实施例的细节。参照图4,POI名称生成器15进一步包括频率统计单元151'、类标识名称确定单元152'以及POI名称确定单元153':
频率统计单元151',用于计算各个类中名称字段的出现频率;
类标识名称确定单元152',用于将所述各个类中出现频率最高的名称字段作为类标识名称;
POI名称确定单元153',用于选择出现频率最高的类标识名称作为POI名称。
本实施例中,在同一类的POI名称中,选取最佳的POI名称是根据互联上的“投票”来解决,所谓“投票”主要是根据此POI名称在互联网上出现的频次以及来源的可信度,互联网上出现的频次最高、来源最可信的那个名字为要选取的最佳名字。比如:
A类中只有一个名字,最佳的也是这一个。
B类中有两个名字,其中“云南省澜沧江啤酒集团保山有限公司”出现的频率最高,作为最佳名字。
C类中有两个名字,其中“保山明志汽车销售服务有限公司”出现的频率最高,作为最佳名字。
D类和E类中同样是只有一个名字,类似A。
本发明实施例中,所述可靠来源为具有预定可信度的来源。其中,所述来源为网站或者网页。
其中,可靠来源的网站或者网页包括但不限于,如新浪、凤凰网等大型网站、通过官方认证的网站、访问频次比较高、数据流量大的网站以及不携带恶意链接、病毒链接且客户满意度交高的网站等。
本发明实施例中,可靠来源的网站或者网页的可信度是可量化的,可根据用户的访问次数以及客户评价等对各个网站或网页的可信度进行量化。而且各个网站或网页的可信度是动态变化的,若当前网站出现病毒、欺诈广告或被其他恶意欺诈网站所利用,则其可信度会随之降低,本发明通过网站可信度的量化和动态调整,进一步保证获取的POI信息的可靠、有效。
本发明实施例提供的基于聚类确定POI名称的系统,根据切词后词频次的多少来挖掘poi名字的关键词,并且以此关键词来聚类,把不同说法的同一个poi名字聚为一类,解决同一个经纬度对应多个poi名字的问题,利用互联网“投票”机制来选取最佳的poi名字。
图5示出了本发明一个实施例的基于聚类确定POI名称的方法的流程图。
参照图5,本发明实施例的基于聚类确定POI名称的方法包括以下步骤:
S11、从网络数据中抓取地址数据;
S12、从抓取到的一个或多个地址数据中分别提取名称字段和地址信息;
S13、基于所述名称字段确定一个或多个关键词;
S14、将对应相同地址信息的所述关键词进行聚类,生成至少一个类;
S15、根据聚类后的关键词确定此地址信息对应的POI名称。
本发明实施例,基于搜索引擎从网络数据中抓取地址数据,所述地址数据包括名称字段和地址信息,基于搜索引擎从互联网上挖掘的地图地址数据,比如name:恒大地产集团昆明公司;address:昆明市盘龙区北辰财富中心A座写字楼14楼,其中”恒大地产集团昆明公司”为POI的名称,“昆明市盘龙区北辰财富中心A座写字楼14楼”为此POI的地址,通过对地址的经纬度解析可以获得此地址所在的经纬度信息,比如地址“昆明市盘龙区北辰财富中心A座写字楼14楼”经纬度解析得到的经纬度为:东经:102.733445北纬:25.08108。另外,需要统计POI信息在互联网上出现的次数以及记录来源。在同一地理位置(经纬度相同)从不同来源网站获取的POI数据中,有可能存在重复性数据,即同一个地址(经纬度)可能存在多个POI名字,如同一个经纬度存在多个公司,其实际的POI经度、纬度相同,但是POI名称和POI地址的描述方式却不同;还可以看出,同一个poi名字可能多种不同的说法,比如“保山明志汽车销售有限公司”和“保山明志汽车销售服务有限公司”,重复性的POI数据导致用户无法快速、准确的搜索到同一POI地理位置(经纬度)的POI地址对应的POI名称。
对此,本发明实施例,从网络数据中抓取地址数据,从抓取到的一个或多个地址数据中分别提取名称字段和地址信息,基于所述名称字段确定一个或多个关键词;将对应相同地址信息的所述关键词进行聚类,生成至少一个类,根据聚类后的关键词确定此地址信息对应的POI名称,进而得到最佳的poi名字。
为了进一步体现发明的优越性,如下进一步揭示本发明基于聚类确定POI名称的方法中步骤S13的细分步骤,来体现依据本步骤实现的另一实施例。参照图6,本步骤的细分步骤包括:
S131、对所述名称字段中的名称进行切词处理生成分词;
S132、根据所述分词获取所述地址数据的关键词。
其中,步骤S132:根据所述分词获取所述地址数据的关键词,进一步包括:
统计对应相同地址信息的每个分词出现的频次作为第一频次;
根据所述第一频次生成所述地址数据的关键词。
其中步骤:根据所述第一频次生成所述地址数据的关键词具体为:
选择频次最小并且是非地名的分词作为所述地址数据的关键词。
为了进一步体现发明的优越性,如下进一步揭示本发明基于聚类确定POI名称的方法中步骤S15的细分步骤,来体现依据本步骤实现的另一实施例。参照图7,本步骤的细分步骤包括:
S151、计算各个类中名称字段的出现频率;
S152、将所述各个类中出现频率最高的名称字段作为类标识名称;
S153、将每个类标识名称均作为POI名称。
本实施例中,将每类标识名称均作为对应该地址信息的POI名称,根据关键词聚类:同一个关键词对应的POI名称记为同一类,上述几个POI名称可以归为5个类,也就是说在此POI地址上存在5个不同的poi名字,分别为:
A:保山博鑫源汽车贸易有限公司;
B:云南省澜沧江啤酒集团保山有限公司云南省澜沧江啤酒集团保山有限公司(地图标注);
C:保山明志汽车销售有限公司保山明志汽车销售服务有限公司
D:保山长城汽车4S店;
E:保山融易通汽车销售有限公司(雪佛兰4S店)。
为了进一步体现发明的优越性,如下进一步揭示本发明基于聚类确定POI名称的方法中步骤S15的细分步骤,来体现依据本步骤实现的另一实施例。参照图8,本步骤的细分步骤包括:
S151'、计算各个类中名称字段的出现频率;
S152'、将所述各个类中出现频率最高的名称字段作为类标识名称;
S153'、选择出现频率最高的类标识名称作为POI名称。
本实施例中,在同一类的POI名称中,选取最佳的POI名称是根据互联上的“投票”来解决,所谓“投票”主要是根据此POI名称在互联网上出现的频次以及来源的可信度,互联网上出现的频次最高、来源最可信的那个名字为要选取的最佳名字。比如:
A类中只有一个名字,最佳的也是这一个。
B类中有两个名字,其中“云南省澜沧江啤酒集团保山有限公司”出现的频率最高,作为最佳名字。
C类中有两个名字,其中“保山明志汽车销售服务有限公司”出现的频率最高,作为最佳名字。
D类和E类中同样是只有一个名字,类似A。
本发明实施例中,所述可靠来源为具有预定可信度的来源。其中,所述来源为网站或者网页。
其中,可靠来源的网站或者网页包括但不限于,如新浪、凤凰网等大型网站、通过官方认证的网站、访问频次比较高、数据流量大的网站以及不携带恶意链接、病毒链接且客户满意度交高的网站等。
本发明实施例中,可靠来源的网站或者网页的可信度是可量化的,可根据用户的访问次数以及客户评价等对各个网站或网页的可信度进行量化。而且各个网站或网页的可信度是动态变化的,若当前网站出现病毒、欺诈广告或被其他恶意欺诈网站所利用,则其可信度会随之降低,本发明通过网站可信度的量化和动态调整,进一步保证获取的POI信息的可靠、有效。
本发明实施例提供的基于聚类确定POI名称的方法,根据切词后词频次的多少来挖掘poi名字的关键词,并且以此关键词来聚类,把不同说法的同一个poi名字聚为一类,解决同一个经纬度对应多个poi名字的问题,利用互联网“投票”机制来选取最佳的poi名字。
综上所述,本发明通过对从网络数据中抓取地址数据进行名称字段和地址信息的提取,基于名称字段确定关键词,并将对应相同地址信息的关键词进行聚类,基于聚类后的关键词确定地址信息对应的POI名称,从而使得用户能够快速、准确地搜索到同一经、纬度的POI地址对应的POI名称,改善用户体验。
应当注意,在此提供的算法和公式不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示例一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本发明也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本发明并帮助理解本发明各个方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法和装置解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如权利要求书所反映,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。
本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的网站安全检测设备中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
以上所述仅是本发明的部分实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (12)

1.一种基于聚类确定POI名称的系统,该系统包括:
地址数据抓取器,用于从网络数据中抓取地址数据;
地址数据解析器,用于从抓取到的一个或多个地址数据中分别提取名称字段和地址信息;
关键词确定器,用于基于所述名称字段确定一个或多个关键词;
关键词聚类器,用于将对应相同地址信息的所述关键词进行聚类,生成至少一个类;
POI名称生成器,用于根据聚类后的关键词确定此地址信息对应的POI名称。
2.如权利要求1所述的系统,所述关键词确定器进一步包括:
切词单元,用于对所述名称字段中的名称进行切词处理生成分词;
关键词获取单元,用于根据所述分词获取所述地址数据的关键词。
3.如权利要求1-2任一项所述的系统,所述关键词获取单元进一步包括:
第一频次统计模块,用于统计对应相同地址信息的每个分词出现的频次,作为第一频次;
关键词生成模块,用于根据所述第一频次生成所述地址数据的关键词。
4.如权利要求1-3任一项所述的系统,所述关键词生成模块选择频次最小并且是非地名的分词作为所述地址数据的关键词。
5.如权利要求1-4任一项所述的系统,所述POI名称生成器进一步包括:
频率统计单元,用于计算各个类中名称字段的出现频率;
类标识名称确定单元,用于将所述各个类中出现频率最高的名称字段作为类标识名称;
POI名称确定单元,用于将每个类标识名称均作为POI名称。
6.如权利要求1-4任一项所述的系统,所述POI名称生成器进一步包括:
频率统计单元,用于计算各个类中名称字段的出现频率;
类标识名称确定单元,用于将所述各个类中出现频率最高的名称字段作为类标识名称;
POI名称确定单元,用于选择出现频率最高的类标识名称作为POI名称。
7.一种基于聚类确定POI名称的方法,包括:
从网络数据中抓取地址数据;
从抓取到的一个或多个地址数据中分别提取名称字段和地址信息;
基于所述名称字段确定一个或多个关键词;
将对应相同地址信息的所述关键词进行聚类,生成至少一个类;
根据聚类后的关键词确定此地址信息对应的POI名称。
8.如权利要求7所述的方法,所述步骤:基于所述名称字段确定一个或多个关键词,进一步包括:
对所述名称字段中的名称进行切词处理生成分词;
根据所述分词获取所述地址数据的关键词。
9.如权利要求7-8任一项所述的方法,所述步骤:根据所述分词获取所述地址数据的关键词,进一步包括:
统计对应相同地址信息的每个分词出现的频次作为第一频次;
根据所述第一频次生成所述地址数据的关键词。
10.如权利要求7-9任一项所述的方法,所述步骤根据所述第一频次生成所述地址数据的关键词具体为:
选择频次最小并且是非地名的分词作为所述地址数据的关键词。
11.如权利要求7-10任一项所述的方法,所述步骤:根据聚类后的关键词确定此地址信息对应的POI名称,进一步包括:
计算各个类中名称字段的出现频率;
将所述各个类中出现频率最高的名称字段作为类标识名称;
将每个类标识名称均作为POI名称。
12.如权利要求7-11任一项所述的方法,所述步骤:根据聚类后的关键词确定此地址信息对应的POI名称,进一步包括:
计算各个类中名称字段的出现频率;
将所述各个类中出现频率最高的名称字段作为类标识名称;
选择出现频率最高的类标识名称作为POI名称。
CN201410849123.2A 2014-12-29 2014-12-29 一种基于聚类确定poi名称的系统及方法 Active CN104572955B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201410849123.2A CN104572955B (zh) 2014-12-29 2014-12-29 一种基于聚类确定poi名称的系统及方法
PCT/CN2015/095857 WO2016107352A1 (zh) 2014-12-29 2015-11-27 确定poi名称、确定poi信息有效性的系统和方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410849123.2A CN104572955B (zh) 2014-12-29 2014-12-29 一种基于聚类确定poi名称的系统及方法

Publications (2)

Publication Number Publication Date
CN104572955A true CN104572955A (zh) 2015-04-29
CN104572955B CN104572955B (zh) 2016-08-24

Family

ID=53089017

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410849123.2A Active CN104572955B (zh) 2014-12-29 2014-12-29 一种基于聚类确定poi名称的系统及方法

Country Status (1)

Country Link
CN (1) CN104572955B (zh)

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105183908A (zh) * 2015-09-30 2015-12-23 北京奇虎科技有限公司 一种兴趣点poi数据的分类方法和装置
CN105224660A (zh) * 2015-09-30 2016-01-06 北京奇虎科技有限公司 一种地图兴趣点poi数据的处理方法和装置
CN105243136A (zh) * 2015-09-30 2016-01-13 北京奇虎科技有限公司 一种挖掘互联网中的兴趣点poi数据的方法和装置
CN105550285A (zh) * 2015-12-10 2016-05-04 北京奇虎科技有限公司 构建poi词典的方法及装置
WO2016107352A1 (zh) * 2014-12-29 2016-07-07 北京奇虎科技有限公司 确定poi名称、确定poi信息有效性的系统和方法
CN106528597A (zh) * 2016-09-23 2017-03-22 百度在线网络技术(北京)有限公司 兴趣点的标注方法以及装置
CN106933972A (zh) * 2017-02-14 2017-07-07 杭州数梦工场科技有限公司 利用自然语言处理技术定义数据元素的方法以及装置
CN107871008A (zh) * 2017-11-17 2018-04-03 中国科学院计算技术研究所 一种生成用于用户代理信息的数据库的方法
CN108287841A (zh) * 2017-01-09 2018-07-17 北京四维图新科技股份有限公司 景点数据采集和更新方法及系统、游客终端设备及助导游设备
CN108536695A (zh) * 2017-03-02 2018-09-14 北京嘀嘀无限科技发展有限公司 一种地理位置信息点的聚合方法以及装置
CN109376761A (zh) * 2018-09-12 2019-02-22 北京三快在线科技有限公司 一种地址标识及其经纬度的挖掘方法及装置
CN109635063A (zh) * 2018-12-06 2019-04-16 拉扎斯网络科技(上海)有限公司 地址库的信息处理方法、装置、电子设备和存储介质
CN109992638A (zh) * 2019-03-29 2019-07-09 北京三快在线科技有限公司 地理位置poi的生成方法、装置、电子设备和存储介质
CN110020216A (zh) * 2017-07-20 2019-07-16 北京嘀嘀无限科技发展有限公司 目的地推送方法和装置
CN111506675A (zh) * 2019-01-11 2020-08-07 阿里巴巴集团控股有限公司 确定兴趣点的方法、装置、设备和介质
CN112001172A (zh) * 2020-08-25 2020-11-27 杭州橙鹰数据技术有限公司 识别方法及装置
CN112016326A (zh) * 2020-09-25 2020-12-01 北京百度网讯科技有限公司 一种地图区域词识别方法、装置、电子设备和存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6947920B2 (en) * 2001-06-20 2005-09-20 Oracle International Corporation Method and system for response time optimization of data query rankings and retrieval
CN102063460A (zh) * 2010-10-19 2011-05-18 蔡亮华 信息处理方法和装置
CN102479229A (zh) * 2010-11-29 2012-05-30 北京四维图新科技股份有限公司 一种兴趣点poi数据产生方法和系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6947920B2 (en) * 2001-06-20 2005-09-20 Oracle International Corporation Method and system for response time optimization of data query rankings and retrieval
CN102063460A (zh) * 2010-10-19 2011-05-18 蔡亮华 信息处理方法和装置
CN102479229A (zh) * 2010-11-29 2012-05-30 北京四维图新科技股份有限公司 一种兴趣点poi数据产生方法和系统

Cited By (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016107352A1 (zh) * 2014-12-29 2016-07-07 北京奇虎科技有限公司 确定poi名称、确定poi信息有效性的系统和方法
CN105224660A (zh) * 2015-09-30 2016-01-06 北京奇虎科技有限公司 一种地图兴趣点poi数据的处理方法和装置
CN105243136A (zh) * 2015-09-30 2016-01-13 北京奇虎科技有限公司 一种挖掘互联网中的兴趣点poi数据的方法和装置
CN105183908A (zh) * 2015-09-30 2015-12-23 北京奇虎科技有限公司 一种兴趣点poi数据的分类方法和装置
CN105183908B (zh) * 2015-09-30 2019-05-28 北京奇虎科技有限公司 一种兴趣点poi数据的分类方法和装置
CN105243136B (zh) * 2015-09-30 2019-02-19 北京奇虎科技有限公司 一种挖掘互联网中的兴趣点poi数据的方法和装置
CN105550285B (zh) * 2015-12-10 2018-12-14 北京奇虎科技有限公司 构建poi词典的方法及装置
CN105550285A (zh) * 2015-12-10 2016-05-04 北京奇虎科技有限公司 构建poi词典的方法及装置
CN106528597A (zh) * 2016-09-23 2017-03-22 百度在线网络技术(北京)有限公司 兴趣点的标注方法以及装置
CN106528597B (zh) * 2016-09-23 2019-07-05 百度在线网络技术(北京)有限公司 兴趣点的标注方法以及装置
CN108287841A (zh) * 2017-01-09 2018-07-17 北京四维图新科技股份有限公司 景点数据采集和更新方法及系统、游客终端设备及助导游设备
CN106933972A (zh) * 2017-02-14 2017-07-07 杭州数梦工场科技有限公司 利用自然语言处理技术定义数据元素的方法以及装置
CN108536695A (zh) * 2017-03-02 2018-09-14 北京嘀嘀无限科技发展有限公司 一种地理位置信息点的聚合方法以及装置
CN110020216A (zh) * 2017-07-20 2019-07-16 北京嘀嘀无限科技发展有限公司 目的地推送方法和装置
CN107871008A (zh) * 2017-11-17 2018-04-03 中国科学院计算技术研究所 一种生成用于用户代理信息的数据库的方法
CN109376761A (zh) * 2018-09-12 2019-02-22 北京三快在线科技有限公司 一种地址标识及其经纬度的挖掘方法及装置
CN109376761B (zh) * 2018-09-12 2021-01-22 北京三快在线科技有限公司 一种地址标识及其经纬度的挖掘方法及装置
CN109635063A (zh) * 2018-12-06 2019-04-16 拉扎斯网络科技(上海)有限公司 地址库的信息处理方法、装置、电子设备和存储介质
CN111506675A (zh) * 2019-01-11 2020-08-07 阿里巴巴集团控股有限公司 确定兴趣点的方法、装置、设备和介质
CN109992638A (zh) * 2019-03-29 2019-07-09 北京三快在线科技有限公司 地理位置poi的生成方法、装置、电子设备和存储介质
CN112001172A (zh) * 2020-08-25 2020-11-27 杭州橙鹰数据技术有限公司 识别方法及装置
CN112016326A (zh) * 2020-09-25 2020-12-01 北京百度网讯科技有限公司 一种地图区域词识别方法、装置、电子设备和存储介质

Also Published As

Publication number Publication date
CN104572955B (zh) 2016-08-24

Similar Documents

Publication Publication Date Title
CN104572955A (zh) 一种基于聚类确定poi名称的系统及方法
CN104572956A (zh) 确定poi信息有效性的系统及方法
CN104572957A (zh) 一种基于聚类的poi名称确定系统及方法
CN110008300B (zh) Poi别名的确定方法、装置、计算机设备和存储介质
US8266132B2 (en) Map aggregation
CN101350012B (zh) 一种地址匹配的方法和系统
US7698336B2 (en) Associating geographic-related information with objects
CN104537065A (zh) 一种搜索结果的推送方法及系统
US20160162512A1 (en) Method for the Creation of Databases of Events Having a Mediatic Echo in the Internet
CN105224660A (zh) 一种地图兴趣点poi数据的处理方法和装置
CN107203526B (zh) 一种查询串语义需求分析方法及装置
CN105160031A (zh) 一种地图兴趣点poi数据的挖掘方法和装置
CN104182517A (zh) 数据处理的方法及装置
CN109492066B (zh) 一种兴趣点分支名称的确定方法、装置、设备及存储介质
CN105183908A (zh) 一种兴趣点poi数据的分类方法和装置
CN105608113A (zh) 判断文本中poi数据的方法及装置
US20130031458A1 (en) Hyperlocal content determination
CN105159885A (zh) 一种兴趣点名称的识别方法和装置
CN108984640A (zh) 一种基于web数据挖掘的地理信息获取方法
CN105069079B (zh) 筛选兴趣点poi数据的方法及装置
CN105279249B (zh) 一种网站中兴趣点数据的置信度的判定方法和装置
CN105138708A (zh) 一种兴趣点名称的识别方法和装置
CN104166659A (zh) 一种地图数据判重的方法及系统
WO2016107352A1 (zh) 确定poi名称、确定poi信息有效性的系统和方法
CN104063437A (zh) 一种基于电子地图的服务信息发布和搜索装置以及方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20220725

Address after: Room 801, 8th floor, No. 104, floors 1-19, building 2, yard 6, Jiuxianqiao Road, Chaoyang District, Beijing 100015

Patentee after: BEIJING QIHOO TECHNOLOGY Co.,Ltd.

Address before: 100088 room 112, block D, 28 new street, new street, Xicheng District, Beijing (Desheng Park)

Patentee before: BEIJING QIHOO TECHNOLOGY Co.,Ltd.

Patentee before: Qizhi software (Beijing) Co.,Ltd.

TR01 Transfer of patent right