CN104572957A - 一种基于聚类的poi名称确定系统及方法 - Google Patents

一种基于聚类的poi名称确定系统及方法 Download PDF

Info

Publication number
CN104572957A
CN104572957A CN201410849382.5A CN201410849382A CN104572957A CN 104572957 A CN104572957 A CN 104572957A CN 201410849382 A CN201410849382 A CN 201410849382A CN 104572957 A CN104572957 A CN 104572957A
Authority
CN
China
Prior art keywords
frequency
name field
keyword
poi
cluster
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410849382.5A
Other languages
English (en)
Other versions
CN104572957B (zh
Inventor
王智广
魏少俊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Qihoo Technology Co Ltd
Original Assignee
Beijing Qihoo Technology Co Ltd
Qizhi Software Beijing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Qihoo Technology Co Ltd, Qizhi Software Beijing Co Ltd filed Critical Beijing Qihoo Technology Co Ltd
Priority to CN201410849382.5A priority Critical patent/CN104572957B/zh
Publication of CN104572957A publication Critical patent/CN104572957A/zh
Priority to PCT/CN2015/095857 priority patent/WO2016107352A1/zh
Application granted granted Critical
Publication of CN104572957B publication Critical patent/CN104572957B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种基于聚类的POI名称确定系统和方法,其中,该方法包括:从网络数据中抓取地址数据,所述地址数据包括名称字段和地址信息;将对应相同地址信息的名称字段按照关键词进行聚类;统计聚类后各类别中名称字段出现的频次,作为第二频次;根据所述第二频次确定该类别对应该地址信息的POI名称。通过本发明的技术方案,使得用户能够快速、准确地搜索到同一经、纬度的POI地址对应的POI名称,改善用户体验。

Description

一种基于聚类的POI名称确定系统及方法
技术领域
本发明涉及电子地图技术领域,具体而言,涉及一种基于聚类的POI名称确定系统和一种基于聚类的POI名称确定方法。
背景技术
兴趣点(Point of Interest,POI)一般电子地图中标注的地理信息点通常包含POI标识、POI名称、POI类型、经度、纬度等信息。POI可以在地图上标注出来,带有经纬度信息,可以用来查找并计算导航的地标点或者建筑物,例如商场、停车场、学校、医院、酒店、饭店、超市、公园、旅游景点等。
越来越多的用户在电子地图中查询POI,数据库中存储的POI数据为POI查询提供数据支撑。目前,对数据库中的POI数据进行更新主要通过进行数据实采,根据实采得到的数据对数据库中存储的POI数据进行更新,或是从互联网上的各个生活类信息网站上获取POI数据,只要获取的数据包括POI的名称和地址,即可将该条数据确定为一条POI数据。由于POI数据的获取及更新方式的特点,不可避免的导致互联网上存在着各种各样的POI数据。因此,从不同来源网站获取的POI数据中,有可能存在重复性数据,即多条POI数据实际描述的是同一POI,其实际的POI经度、纬度相同,但是POI名称和POI地址的描述方式却不同。重复性的POI数据导致用户无法快速、准确的搜索到同一POI地理位置(经纬度)的POI地址对应的POI名称,影响用户体验。
发明内容
鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决或者减缓上述问题的基于聚类的POI名称确定系统和相应的基于聚类的POI名称确定方法。
根据本发明的一个方面,提供了一种基于聚类的POI名称确定系统,该系统包括:
地址数据抓取器,用于基于搜索引擎从网络数据中抓取地址数据,所述地址数据包括名称字段和地址信息;
名称字段聚类器,用于将对应相同地址信息的名称字段按照关键词进行聚类;
第二频次统计器,用于统计聚类后各类别中名称字段出现的频次,作为第二频次;
POI名称确定单元,用于根据所述第二频次确定该类别对应该地址信息的POI名称。
优选地,所述名称字段聚类器进一步包括:
关键词确定单元,用于基于所述名称字段确定一个或多个关键词;
关键词聚类单元,用于将对应相同地址信息的所述关键词进行聚类;
名称字段聚类确定单元,用于根据聚类后的关键词确定聚类后的名称字段。
优选地,所述关键词确定单元进一步包括:
切词模块,用于对所述名称字段中的名称进行切词处理生成分词;
关键词获取模块,用于根据所述分词获取所述名称字段的关键词。
优选地,所述关键词获取模块进一步包括:
第一频次统计子模块,用于统计对应相同地址信息的每个分词出现的频次,作为第一频次;
关键词生成子模块,用于根据所述第一频次生成所述名称字段的关键词。
优选地,所述关键词生成子模块选择所述第一频次最小并且是非地名的分词作为所述名称字段的关键词。
优选地,所述第二频次统计器进一步包括:
名称字段来源获取单元,用于获取所述名称字段的来源;
来源可靠性判断单元,用于判断所述来源是否属于可靠来源;
第二频次统计单元,用于在判断为是的情况下,统计所述名称字段出现的频次,作为第二频次,否则不统计。
优选地,所述POI名称确定单元进一步包括:
类标识名称确定模块,用于将所述各个类中所述第二频次最高的名称字段作为类标识名称;
第一POI名称确定模块,用于将每类标识名称均作为对应该地址信息的POI名称。
优选地,所述POI名称确定单元进一步包括:
类标识名称确定模块,用于将所述各个类中第二频次最高的名称字段作为类标识名称;
第二POI名称确定模块,用于将网络上出现次数最多的类标识名称作为对应该地址信息的POI名称。
根据本发明的另一个方面,提供了一种基于聚类的POI名称确定方法,包括:
从网络数据中抓取地址数据,所述地址数据包括名称字段和地址信息;
将对应相同地址信息的名称字段按照关键词进行聚类;
统计聚类后各类别中名称字段出现的频次,作为第二频次;
根据所述第二频次确定该类别对应该地址信息的POI名称。
优选地,所述步骤:将对应相同地址信息的名称字段按照关键词进行聚类,进一步包括:
基于所述名称字段确定一个或多个关键词;
将对应相同地址信息的所述关键词进行聚类;
根据聚类后的关键词确定聚类后的名称字段。
优选地,所述步骤:基于所述名称字段确定一个或多个关键词,进一步包括:
对所述名称字段进行切词处理生成分词;
根据分词获取所述名称字段的关键词。
优选地,所述步骤:根据分词获取所述名称字段的关键词,进一步包括:
统计对应相同地址信息的每个分词出现的频次,作为第一频次;
根据所述第一频次确定所述名称字段的关键词。
优选地,所述步骤根据所述第一频次确定所述名称字段的关键词具体为:
选择第一频次最小并且是非地名的分词作为所述名称的关键词。
优选地,所述步骤:统计聚类后各类别中名称字段出现的频次,作为第二频次,进一步包括:
获取所述名称字段的来源;
判断所述来源是否属于可靠来源,如果是,则统计所述名称字段出现的频次,作为第二频次。
优选地,所述步骤:根据所述第二频次确定该类别对应该地址信息的POI名称,进一步包括:
将所述各个类中所述第二频次最高的名称字段作为类标识名称;
将每类标识名称均作为对应该地址信息的POI名称。
优选地,所述步骤:根据所述第二频次确定该类别对应该地址信息的POI名称,进一步包括:
将所述各个类中所述第二频次最高的名称字段作为类标识名称;
将网络上出现次数最多的类标识名称作为对应该地址信息的POI名称。
本发明的有益效果为:
本发明对从网络数据中抓取地址数据进行名称字段和地址信息的提取,基于名称字段确定一个或多个关键词,并将对应相同地址信息的关键词进行聚类,基于聚类后的关键词确定地址信息对应的POI名称,从而使得用户能够快速、准确地搜索到同一经、纬度的POI地址对应的POI名称,改善用户体验。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示意性示出了本发明一个实施例的基于聚类的POI名称确定系统的框图;
图2示意性示出了本发明另一个实施例的基于聚类的POI名称确定系统中的名称字段聚类器的框图;
图3示意性示出了本发明另一个实施例的基于聚类的POI名称确定系统中的第二频次统计器的框图;
图4示意性示出了本发明一个实施例的基于聚类的POI名称确定方法的流程图;
图5示意性示出了本发明另一个实施例的基于聚类的POI名称确定方法的步骤S12的细分流程图;以及
图6示意性示出了本发明另一个实施例的基于聚类的POI名称确定方法的步骤S13的细分流程图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能解释为对本发明的限制。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。
本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语),具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语,应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非特定定义,否则不会用理想化或过于正式的含义来解释。
图1示出了本发明一个实施例的基于聚类的POI名称确定系统的框图。
参照图1,本发明实施例的基于聚类的POI名称确定系统,包括:
地址数据抓取器11,用于基于搜索引擎从网络数据中抓取地址数据,所述地址数据包括名称字段和地址信息;
名称字段聚类器12,用于将对应相同地址信息的名称字段按照关键词进行聚类;
第二频次统计器13,用于统计聚类后各类别中名称字段出现的频次,作为第二频次;
POI名称确定单元14,用于根据所述第二频次确定该类别对应该地址信息的POI名称。
本发明实施例,基于搜索引擎利用网络中的地址数据,所述地址数据包括名称字段、地址信息以及多个相关POI信息;本发明实施例中,所述多个相关POI信息为对应POI至少一个预设属性的信息。进一步地,所述预设属性为经纬度、地址、建筑物名称或所囊括单位名称。
本发明实施例,基于搜索引擎从网络数据中抓取地址数据,所述地址数据包括名称字段和地址信息,基于搜索引擎从互联网上挖掘的地图地址数据,比如name:恒大地产集团昆明公司;address:昆明市盘龙区北辰财富中心A座写字楼14楼,其中”恒大地产集团昆明公司”为POI的名称,“昆明市盘龙区北辰财富中心A座写字楼14楼”为此POI的地址,通过对地址的经纬度解析可以获得此地址所在的经纬度信息,比如地址“昆明市盘龙区北辰财富中心A座写字楼14楼”经纬度解析得到的经纬度为:东经:102.733445北纬:25.08108。另外,需要统计POI信息在互联网上出现的次数以及记录来源。
所以,最终从互联网上挖掘的地址数据对应的不同信息来源的POI信息的格式如表1所示,具体如下:
表1不同信息来源的POI信息的格式表
由表1可见,在同一地理位置(经纬度相同)从不同来源网站获取的POI数据中,有可能存在重复性数据,即同一个地址(经纬度)可能存在多个POI名字,如表1中同一个经纬度存在多个公司,其实际的POI经度、纬度相同,但是POI名称和POI地址的描述方式却不同;还可以看出,同一个poi名字可能多种不同的说法,比如“保山明志汽车销售有限公司”和“保山明志汽车销售服务有限公司”,重复性的POI数据导致用户无法快速、准确的搜索到同一POI地理位置(经纬度)的POI地址对应的POI名称。
对此,本发明实施例,基于搜索引擎从网络数据中抓取地址数据,所述地址数据包括名称字段和地址信息,将对应相同地址信息的名称字段按照关键词进行聚类,统计聚类后各类别中名称字段出现的频次,作为第二频次,根据所述第二频次确定该类别对应该地址信息的POI名称,进而得到最佳的poi名字。
为了进一步体现发明的优越性,如下进一步揭示本发明基于聚类的POI名称确定系统中的名称字段聚类器12的在另一实施例中的内部结构,来体现依据名称字段聚类器12实现的另一实施例的细节。参照图2,名称字段聚类器12进一步包括关键词确定单元121、关键词聚类单元122以及名称字段聚类确定单元123:
所述关键词确定单元121,用于基于所述名称字段确定一个或多个关键词;
所述关键词聚类单元122,用于将对应相同地址信息的所述关键词进行聚类;
所述名称字段聚类确定单元123,用于根据聚类后的关键词确定聚类后的名称字段。
更进一步地,所述关键词确定单元121进一步包括切词模块和关键词获取模块:所述切词模块,用于对所述名称字段中的名称进行切词处理生成分词;所述关键词获取模块,用于根据所述分词获取所述名称字段的关键词。
更进一步地,所述关键词获取模块进一步包括第一频次统计子模块和关键词生成子模块:所述第一频次统计子模块,用于统计对应相同地址信息的每个分词出现的频次,作为第一频次;所述关键词生成子模块,用于根据所述第一频次生成所述名称字段的关键词。
其中,所述关键词生成子模块选择所述第一频次最小并且是非地名的分词作为所述名称字段的关键词。
本发明实施例中,对所挖掘的地址数据中POI信息的名称切词,并且统计切词后每个词出现的次数,同一个POI名称中出现频次最少即包含的信息量最大,并且是非地名的那个词记为该POI名称的关键词,比如表1中出现的地址数据对应的相关POI信息中POI名称切词后数据如表2所示(词频是根据约9000万的poi名字统计的),表2中第二列为获取到的关键词,具体如下:
表2 POI名称的切词后的数据表
根据关键词聚类:同一个关键词对应的POI名称记为同一类,上述几个POI名称可以归为5个类,也就是说在此POI地址上存在5个不同的poi名字。
为了进一步体现发明的优越性,如下进一步揭示本发明基于聚类的POI名称确定系统中的第二频次统计器13的在另一实施例中的内部结构,来体现依据第二频次统计器13实现的另一实施例的细节。参照图3,第二频次统计器13进一步包括名称字段来源获取单元131、来源可靠性判断单元132以及第二频次统计单元133:
所述名称字段来源获取单元131,用于获取所述名称字段的来源;
所述来源可靠性判断单元132,用于判断所述来源是否属于可靠来源;
所述第二频次统计单元133,用于在判断为是的情况下,统计所述名称字段出现的频次,作为第二频次,否则不统计。
本发明实施例中,所述可靠来源为具有预定可信度的来源。其中,所述来源为网站或者网页。
其中,可靠来源的网站或者网页包括但不限于,如新浪、凤凰网等大型网站、通过官方认证的网站、访问频次比较高、数据流量大的网站以及不携带恶意链接、病毒链接且客户满意度交高的网站等。
本发明实施例中,可靠来源的网站或者网页的可信度是可量化的,可根据用户的访问次数以及客户评价等对各个网站或网页的可信度进行量化。而且各个网站或网页的可信度是动态变化的,若当前网站出现病毒、欺诈广告或被其他恶意欺诈网站所利用,则其可信度会随之降低,本发明通过网站可信度的量化和动态调整,进一步保证获取的POI信息的可靠、有效。
为了进一步体现发明的优越性,如下进一步揭示本发明基于聚类的POI名称确定系统中的POI名称确定单元14的在另一实施例中的内部结构,来体现依据POI名称确定单元14实现的另一实施例的细节。POI名称确定单元14进一步包括第一类标识名称确定模块以及第一POI名称确定模块:
所述第一类标识名称确定模块,用于将所述各个类中所述第二频次最高的名称字段作为类标识名称;
所述第一POI名称确定模块,用于将每类标识名称均作为对应该地址信息的POI名称。
本实施例中,将每类标识名称均作为对应该地址信息的POI名称,根据关键词聚类:同一个关键词对应的POI名称记为同一类,上述几个POI名称可以归为5个类,也就是说在此POI地址上存在5个不同的poi名字,分别为:
A:保山博鑫源汽车贸易有限公司;
B:云南省澜沧江啤酒集团保山有限公司云南省澜沧江啤酒集团保山有限公司(地图标注);
C:保山明志汽车销售有限公司保山明志汽车销售服务有限公司
D:保山长城汽车4S店;
E:保山融易通汽车销售有限公司(雪佛兰4S店)。
为了进一步体现发明的优越性,如下进一步揭示本发明基于聚类的POI名称确定系统中的POI名称确定单元14的在另一实施例中的内部结构,来体现依据POI名称确定单元14实现的另一实施例的细节。POI名称确定单元14进一步包括第二类标识名称确定模块以及第二POI名称确定模块:
所述第二类标识名称确定模块,用于将所述各个类中第二频次最高的名称字段作为类标识名称;
所述第二POI名称确定模块,用于将网络上出现次数最多的类标识名称作为对应该地址信息的POI名称。
本实施例中,在同一类的POI名称中,选取最佳的POI名称是根据互联上的“投票”来解决,所谓“投票”主要是根据此POI名称在互联网上出现的频次以及来源的可信度,互联网上出现的频次最高、来源最可信的那个名字为要选取的最佳名字。比如:
A类中只有一个名字,最佳的也是这一个。
B类中有两个名字,其中“云南省澜沧江啤酒集团保山有限公司”出现的频率最高,作为最佳名字。
C类中有两个名字,其中“保山明志汽车销售服务有限公司”出现的频率最高,作为最佳名字。
D类和E类中同样是只有一个名字,类似A。
本发明实施例提供的基于聚类的POI名称确定系统,根据切词后词频次的多少来挖掘POI名字的关键词,并且以此关键词来聚类,把不同说法的同一个POI名字聚为一类,解决同一个经纬度对应多个POI名字的问题,利用互联网“投票”机制来选取最佳的POI名字。
图4示出了本发明一个实施例的基于聚类的POI名称确定方法的流程图。
参照图4,本发明实施例的基于聚类的POI名称确定方法包括以下步骤:
S11、从网络数据中抓取地址数据,所述地址数据包括名称字段和地址信息;
S12、将对应相同地址信息的名称字段按照关键词进行聚类;
S13、统计聚类后各类别中名称字段出现的频次,作为第二频次;
S14、根据所述第二频次确定该类别对应该地址信息的POI名称。
基于搜索引擎利用网络中的地址数据,所述地址数据包括名称字段、地址信息以及多个相关POI信息;本发明实施例中,所述多个相关POI信息为对应POI至少一个预设属性的信息。进一步地,所述预设属性为经纬度、地址、建筑物名称或所囊括单位名称。
本发明实施例,基于搜索引擎从网络数据中抓取地址数据,所述地址数据包括名称字段和地址信息,基于搜索引擎从互联网上挖掘的地图地址数据,比如name:恒大地产集团昆明公司;address:昆明市盘龙区北辰财富中心A座写字楼14楼,其中”恒大地产集团昆明公司”为POI的名称,“昆明市盘龙区北辰财富中心A座写字楼14楼”为此POI的地址,通过对地址的经纬度解析可以获得此地址所在的经纬度信息,比如地址“昆明市盘龙区北辰财富中心A座写字楼14楼”经纬度解析得到的经纬度为:东经:102.733445北纬:25.08108。另外,需要统计POI信息在互联网上出现的次数以及记录来源。
但是,在同一地理位置(经纬度相同)从不同来源网站获取的POI数据中,有可能存在重复性数据,即同一个地址(经纬度)可能存在多个POI名字,如同一个经纬度存在多个公司,其实际的POI经度、纬度相同,但是POI名称和POI地址的描述方式却不同;还可以看出,同一个poi名字可能多种不同的说法,比如“保山明志汽车销售有限公司”和“保山明志汽车销售服务有限公司”,重复性的POI数据导致用户无法快速、准确的搜索到同一POI地理位置(经纬度)的POI地址对应的POI名称。
为了进一步体现发明的优越性,如下进一步揭示本发明基于聚类的POI名称确定方法中步骤S12的细分步骤,来体现依据本步骤实现的另一实施例。参照图5,本步骤的细分步骤包括:
S121、基于所述名称字段确定一个或多个关键词;
S122、将对应相同地址信息的所述关键词进行聚类;
S123、根据聚类后的关键词确定聚类后的名称字段。
更进一步地,所述步骤S121:基于所述名称字段确定一个或多个关键词,进一步包括:对所述名称字段进行切词处理生成分词;根据分词获取所述名称字段的关键词。
更进一步地,所述步骤:根据分词获取所述名称字段的关键词,进一步包括:统计对应相同地址信息的每个分词出现的频次,作为第一频次;根据所述第一频次确定所述名称字段的关键词。
更进一步地,所述步骤根据所述第一频次确定所述名称字段的关键词具体为:选择第一频次最小并且是非地名的分词作为所述名称的关键词。
本发明实施例中,对所挖掘的地址数据中POI信息的名称切词,并且统计切词后每个词出现的次数,同一个POI名称中出现频次最少即包含的信息量最大,并且是非地名的那个词记为该POI名称的关键词,根据关键词聚类:同一个关键词对应的POI名称记为同一类。
为了进一步体现发明的优越性,如下进一步揭示本发明基于聚类的POI名称确定方法中步骤S13的细分步骤,来体现依据本步骤实现的另一实施例。参照图6,本步骤的细分步骤包括:
S131、获取所述名称字段的来源;
S132、判断所述来源是否属于可靠来源,如果是,则执行S133;
S133、统计所述名称字段出现的频次,作为第二频次。
本发明实施例中,所述可靠来源为具有预定可信度的来源。其中,所述来源为网站或者网页。
其中,可靠来源的网站或者网页包括但不限于,如新浪、凤凰网等大型网站、通过官方认证的网站、访问频次比较高、数据流量大的网站以及不携带恶意链接、病毒链接且客户满意度交高的网站等。
本发明实施例中,可靠来源的网站或者网页的可信度是可量化的,可根据用户的访问次数以及客户评价等对各个网站或网页的可信度进行量化。而且各个网站或网页的可信度是动态变化的,若当前网站出现病毒、欺诈广告或被其他恶意欺诈网站所利用,则其可信度会随之降低,本发明通过网站可信度的量化和动态调整,进一步保证获取的POI信息的可靠、有效。
为了进一步体现发明的优越性,如下进一步揭示本发明基于聚类的POI名称确定方法中步骤S14的细分步骤,来体现依据本步骤实现的另一实施例。本步骤的细分步骤包括:
将所述各个类中所述第二频次最高的名称字段作为类标识名称;将每类标识名称均作为对应该地址信息的POI名称。
为了进一步体现发明的优越性,如下进一步揭示本发明基于聚类的POI名称确定方法中步骤S14的细分步骤,来体现依据本步骤实现的另一实施例。本步骤的细分步骤包括:
将所述各个类中所述第二频次最高的名称字段作为类标识名称;将网络上出现次数最多的类标识名称作为对应该地址信息的POI名称。
本发明实施例提供的基于聚类的POI名称确定方法,根据切词后词频次的多少来挖掘POI名字的关键词,并且以此关键词来聚类,把不同说法的同一个POI名字聚为一类,解决同一个经纬度对应多个POI名字的问题,利用互联网“投票”机制来选取最佳的POI名字。
综上所述,本发明通过对从网络数据中抓取地址数据进行名称字段和地址信息的提取,基于名称字段确定关键词,并将对应相同地址信息的关键词进行聚类,基于聚类后的关键词确定地址信息对应的POI名称,从而使得用户能够快速、准确地搜索到同一经、纬度的POI地址对应的POI名称,改善用户体验。
应当注意,在此提供的算法和公式不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示例一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本发明也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本发明并帮助理解本发明各个方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法和装置解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如权利要求书所反映,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。
本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的网站安全检测设备中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
以上所述仅是本发明的部分实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (10)

1.一种基于聚类的POI名称确定系统,包括:
地址数据抓取器,用于基于搜索引擎从网络数据中抓取地址数据,所述地址数据包括名称字段和地址信息;
名称字段聚类器,用于将对应相同地址信息的名称字段按照关键词进行聚类;
第二频次统计器,用于统计聚类后各类别中名称字段出现的频次,作为第二频次;
POI名称确定单元,用于根据所述第二频次确定该类别对应该地址信息的POI名称。
2.如权利要求1所述系统,所述名称字段聚类器进一步包括:
关键词确定单元,用于基于所述名称字段确定一个或多个关键词;
关键词聚类单元,用于将对应相同地址信息的所述关键词进行聚类;
名称字段聚类确定单元,用于根据聚类后的关键词确定聚类后的名称字段。
3.一种基于聚类的POI名称确定方法,包括:
从网络数据中抓取地址数据,所述地址数据包括名称字段和地址信息;
将对应相同地址信息的名称字段按照关键词进行聚类;
统计聚类后各类别中名称字段出现的频次,作为第二频次;
根据所述第二频次确定该类别对应该地址信息的POI名称。
4.如权利要求3所述方法,所述将对应相同地址信息的名称字段按照关键词进行聚类,进一步包括:
基于所述名称字段确定一个或多个关键词;
将对应相同地址信息的所述关键词进行聚类;
根据聚类后的关键词确定聚类后的名称字段。
5.如权利要求3-4任一项所述的方法,所述基于所述名称字段确定一个或多个关键词,进一步包括:
对所述名称字段进行切词处理生成分词;
根据分词获取所述名称字段的关键词。
6.如权利要求3-5任一项所述的方法,所述根据分词获取所述名称字段的关键词,进一步包括:
统计对应相同地址信息的每个分词出现的频次,作为第一频次;
根据所述第一频次确定所述名称字段的关键词。
7.如权利要求3-6任一项所述的方法,所述根据所述第一频次确定所述名称字段的关键词具体为:
选择第一频次最小并且是非地名的分词作为所述名称的关键词。
8.如权利要求3-7任一项所述的方法,所述统计聚类后各类别中名称字段出现的频次,作为第二频次,进一步包括:
获取所述名称字段的来源;
判断所述来源是否属于可靠来源,如果是,则统计所述名称字段出现的频次,作为第二频次。
9.如权利要求3-8任一项所述方法,所述根据所述第二频次确定该类别对应该地址信息的POI名称,进一步包括:
将所述各个类中所述第二频次最高的名称字段作为类标识名称;
将每类标识名称均作为对应该地址信息的POI名称。
10.如权利要求3-9任一项所述方法,所述根据所述第二频次确定该类别对应该地址信息的POI名称,进一步包括:
将所述各个类中所述第二频次最高的名称字段作为类标识名称;
将网络上出现次数最多的类标识名称作为对应该地址信息的POI名称。
CN201410849382.5A 2014-12-29 2014-12-29 一种基于聚类的poi名称确定系统及方法 Active CN104572957B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201410849382.5A CN104572957B (zh) 2014-12-29 2014-12-29 一种基于聚类的poi名称确定系统及方法
PCT/CN2015/095857 WO2016107352A1 (zh) 2014-12-29 2015-11-27 确定poi名称、确定poi信息有效性的系统和方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410849382.5A CN104572957B (zh) 2014-12-29 2014-12-29 一种基于聚类的poi名称确定系统及方法

Publications (2)

Publication Number Publication Date
CN104572957A true CN104572957A (zh) 2015-04-29
CN104572957B CN104572957B (zh) 2016-08-24

Family

ID=53089019

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410849382.5A Active CN104572957B (zh) 2014-12-29 2014-12-29 一种基于聚类的poi名称确定系统及方法

Country Status (1)

Country Link
CN (1) CN104572957B (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104899339A (zh) * 2015-07-01 2015-09-09 北京奇虎科技有限公司 对poi信息进行分类的方法和装置
CN104915453A (zh) * 2015-07-01 2015-09-16 北京奇虎科技有限公司 对poi信息进行分类的方法、装置和系统
CN105138708A (zh) * 2015-09-30 2015-12-09 北京奇虎科技有限公司 一种兴趣点名称的识别方法和装置
CN105159885A (zh) * 2015-09-30 2015-12-16 北京奇虎科技有限公司 一种兴趣点名称的识别方法和装置
CN105224660A (zh) * 2015-09-30 2016-01-06 北京奇虎科技有限公司 一种地图兴趣点poi数据的处理方法和装置
CN105243136A (zh) * 2015-09-30 2016-01-13 北京奇虎科技有限公司 一种挖掘互联网中的兴趣点poi数据的方法和装置
WO2016107352A1 (zh) * 2014-12-29 2016-07-07 北京奇虎科技有限公司 确定poi名称、确定poi信息有效性的系统和方法
CN107871008A (zh) * 2017-11-17 2018-04-03 中国科学院计算技术研究所 一种生成用于用户代理信息的数据库的方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6947920B2 (en) * 2001-06-20 2005-09-20 Oracle International Corporation Method and system for response time optimization of data query rankings and retrieval
CN102063460A (zh) * 2010-10-19 2011-05-18 蔡亮华 信息处理方法和装置
CN102479229A (zh) * 2010-11-29 2012-05-30 北京四维图新科技股份有限公司 一种兴趣点poi数据产生方法和系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6947920B2 (en) * 2001-06-20 2005-09-20 Oracle International Corporation Method and system for response time optimization of data query rankings and retrieval
CN102063460A (zh) * 2010-10-19 2011-05-18 蔡亮华 信息处理方法和装置
CN102479229A (zh) * 2010-11-29 2012-05-30 北京四维图新科技股份有限公司 一种兴趣点poi数据产生方法和系统

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016107352A1 (zh) * 2014-12-29 2016-07-07 北京奇虎科技有限公司 确定poi名称、确定poi信息有效性的系统和方法
CN104899339A (zh) * 2015-07-01 2015-09-09 北京奇虎科技有限公司 对poi信息进行分类的方法和装置
CN104915453A (zh) * 2015-07-01 2015-09-16 北京奇虎科技有限公司 对poi信息进行分类的方法、装置和系统
CN105138708A (zh) * 2015-09-30 2015-12-09 北京奇虎科技有限公司 一种兴趣点名称的识别方法和装置
CN105159885A (zh) * 2015-09-30 2015-12-16 北京奇虎科技有限公司 一种兴趣点名称的识别方法和装置
CN105224660A (zh) * 2015-09-30 2016-01-06 北京奇虎科技有限公司 一种地图兴趣点poi数据的处理方法和装置
CN105243136A (zh) * 2015-09-30 2016-01-13 北京奇虎科技有限公司 一种挖掘互联网中的兴趣点poi数据的方法和装置
CN105243136B (zh) * 2015-09-30 2019-02-19 北京奇虎科技有限公司 一种挖掘互联网中的兴趣点poi数据的方法和装置
CN107871008A (zh) * 2017-11-17 2018-04-03 中国科学院计算技术研究所 一种生成用于用户代理信息的数据库的方法

Also Published As

Publication number Publication date
CN104572957B (zh) 2016-08-24

Similar Documents

Publication Publication Date Title
CN104572955A (zh) 一种基于聚类确定poi名称的系统及方法
CN104572956A (zh) 确定poi信息有效性的系统及方法
CN104572957A (zh) 一种基于聚类的poi名称确定系统及方法
CN110008300B (zh) Poi别名的确定方法、装置、计算机设备和存储介质
CN107589855B (zh) 一种根据地理位置推荐候选词的方法和装置
US20160162512A1 (en) Method for the Creation of Databases of Events Having a Mediatic Echo in the Internet
US8086622B2 (en) Search engine using world map with whois database search restrictions
US7698336B2 (en) Associating geographic-related information with objects
CN104537065A (zh) 一种搜索结果的推送方法及系统
US8266132B2 (en) Map aggregation
CN104182517A (zh) 数据处理的方法及装置
CN109492066B (zh) 一种兴趣点分支名称的确定方法、装置、设备及存储介质
CN104080054A (zh) 一种异常兴趣点的获取方法及装置
CN105224660A (zh) 一种地图兴趣点poi数据的处理方法和装置
CN104462143B (zh) 连锁品牌词词库、类别词词库建立方法和装置
CN107203526A (zh) 一种查询串语义需求分析方法及装置
CN105069076A (zh) 确定官网首页中的地址信息的方法及装置
WO2016107352A1 (zh) 确定poi名称、确定poi信息有效性的系统和方法
CN105183908A (zh) 一种兴趣点poi数据的分类方法和装置
KR102124935B1 (ko) 크라우드 소싱을 활용한 재난 모니터링 시스템, 재난 모니터링 방법 및 이를 수행하기 위한 컴퓨터 프로그램
US20130031458A1 (en) Hyperlocal content determination
CN104166659B (zh) 一种地图数据判重的方法及系统
CN105159885A (zh) 一种兴趣点名称的识别方法和装置
CN105069079B (zh) 筛选兴趣点poi数据的方法及装置
CN105279249B (zh) 一种网站中兴趣点数据的置信度的判定方法和装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20220728

Address after: Room 801, 8th floor, No. 104, floors 1-19, building 2, yard 6, Jiuxianqiao Road, Chaoyang District, Beijing 100015

Patentee after: BEIJING QIHOO TECHNOLOGY Co.,Ltd.

Address before: 100088 room 112, block D, 28 new street, new street, Xicheng District, Beijing (Desheng Park)

Patentee before: BEIJING QIHOO TECHNOLOGY Co.,Ltd.

Patentee before: Qizhi software (Beijing) Co.,Ltd.

TR01 Transfer of patent right