CN102541936A - 兴趣点流行度获取方法和装置 - Google Patents
兴趣点流行度获取方法和装置 Download PDFInfo
- Publication number
- CN102541936A CN102541936A CN2010106182310A CN201010618231A CN102541936A CN 102541936 A CN102541936 A CN 102541936A CN 2010106182310 A CN2010106182310 A CN 2010106182310A CN 201010618231 A CN201010618231 A CN 201010618231A CN 102541936 A CN102541936 A CN 102541936A
- Authority
- CN
- China
- Prior art keywords
- interest
- point
- frequency
- query string
- auxilliary
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明实施例公开一种兴趣点流行度获取方法和装置,涉及导航领域。所述方法包括:对兴趣点进行网络搜索;采集该兴趣点在搜索结果中出现的频度;利用所述频度计算该兴趣点流行度。所述装置包括:网络搜索模块,频度采集模块和流行度计算模块。本发明实施例结合互联网搜索引擎技术采集POI数据在网络上出现的频度,进而根据该频度计算POI数据的网络流行度,使得POI流行度能够客观的反映其在互联网上实际出现的频度,更加准确客观的反映POI数据被人们关注的重要程度。
Description
技术领域
本发明涉及导航领域,特别是涉及一种兴趣点流行度获取方法和装置。
背景技术
随着地理信息系统的发展和完善,电子地图的设计开发技术也日趋成熟。电子地图中,有一类数据被称为兴趣点(Point of Interest,POI),是指人们感兴趣的数据,如餐馆、公园、商场等建筑物信息,或是一些街道信息等等。通常,POI数据主要包括名称、类别、坐标(如经纬度)、地址、电话、邮编等等信息。POI数据是电子地图中最重要的元素之一,也是人们使用电子地图时最为关注的信息。
电子地图通常包含很多的POI数据,这些POI数据涵盖了该地图范围内的绝大部分地理信息。但是,电子地图中各POI的流行度有所不同,POI流行度是用于评估不同POI数据重要程度的指标,在汽车导航、生活搜索等领域具有广泛的应用。
目前,还没有比较成熟的POI流行度获取方法,传统上,POI流行度主要是通过计算POI属性信息的丰富程度获取得到,也就是说,通过计算POI数据所包含的名称、类别、坐标、地址、电话、邮编等信息的丰富程度,进而评估获得POI流行度。
在对现有技术的研究和实践过程中,发明人发现现有技术存在以下问题:现有POI流行度的获取方法仅考虑了POI数据属性信息的丰富程度,而POI属性信息的丰富程度并不能非常客观准确的反映出其被关注的重要程度。因此,迫切需要一种获取POI流行度的技术方案,该方案获取的POI流行度能够准确客观地反映POI被人们关注的重要程度,以满足地理信息系统的高速发展的需求。
发明内容
本发明实施例提供一种兴趣点流行度获取方法和装置,使获得的POI流行度能够更加准确客观的反映被人们关注的重要程度。
为实现上述目的,本发明实施例提供了如下方案:
一种兴趣点流行度获取方法,包括:
对兴趣点进行网络搜索;
采集该兴趣点在搜索结果中出现的频度;
利用所述频度计算该兴趣点流行度。
一种兴趣点流行度获取装置,包括:
网络搜索模块,用于对兴趣点进行网络搜索;
频度采集模块,用于采集该兴趣点在搜索结果中出现的频度;
流行度计算模块,用于利用所述频度采集模块采集的频度计算该兴趣点流行度。
根据本发明提供的具体实施例,公开了以下技术效果:
本发明实施例中,结合互联网搜索引擎技术采集POI数据在网络上出现的频度,进而根据该频度计算POI数据的网络流行度,由于POI数据在网络出现的频度,基本反映了人们对该POI数据的关注度,因此,根据频度计算POI数据的网络流行度,能够客观的反映其在互联网上实际出现的频度,也就是说,能够客观的反映该POI数据在互联网上被人们实际关注的多少。可见,本发明实施例提供的POI流行度的获取方案,能够更加准确客观的反映POI数据被人们关注的重要程度。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的兴趣点流行度获取方法流程图;
图2为本发明实施例中利用频度计算兴趣点流行度的具体实现方式的方法流程图;
图3为本发明实施例的一个具体实例的方法流程图;
图4为本发明实施例还提供的兴趣点流行度获取装置结构框图;
图5为本发明实施例中网络搜索模块结构框图;
图6为本发明实施例中查询串策略获取子模块结构框图;
图7为本发明实施例中分词等级判断单元结构框图。
具体实施方式
为使本发明实施例的目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
参见图1,本发明实施例提供了一种兴趣点流行度获取方法,主要包括如下步骤:
S101:对兴趣点进行网络搜索。
S102:并采集该兴趣点在搜索结果中出现的频度。
一条POI数据在互联网上出现的频度越大,说明该POI点在现实生活中被人们关注的程度越高,本发明实施例利用网络搜索引擎技术,在互联网上对POI数据进行搜索,并采集该POI在网络搜索结果中出现的频度,来计算其流行度,从而可以客观准确的反映该POI数据在互联网上被人们实际关注的多少。
本领域技术人员可以理解,本发明实施例中该兴趣点在搜索结果中出现的频度,在实际应用中,可以具体是搜索到包含该POI的网页个数,比如,搜索兴趣点“高德软件”,共搜索到10万个包含该POI的网页,则此时兴趣点“高德软件”在搜索结果中出现的频度为10万;还可以具体是该POI在搜索到的网页中出现的次数,比如,搜索兴趣点“高德软件”,共搜索到10万个网页,在这10万个网页中“高德软件”共出现了100万次,则兴趣点“高德软件”在搜索结果中出现的频度为100万次。
需要说明的是,利用上述两种具体实现方式采集到的频度,均能较为客观的体现出不同POI数据在互联网上出现的频度的多少,均可以用于计算该兴趣点的流行度,实现更加准确客观的反映该POI数据被人们实际关注的重要程度的发明目的。在实际应用中,对于上述第二种具体实现方式需要将所有搜索到的页面下载,再分析其中包含的POI数目,得到该POI的频度。对于上述第一种具体实现方式而言,可以直接用搜索到的网页数作为频度计算流行度,即只需要分析一个搜索结果页面即可,相对而言实现起来较为简单,且也能在一定程度上较为客观准确的体现出不同兴趣点在网络中出现的频度多少,故优选的,本发明实施例中,所述采集该兴趣点在搜索结果中出现的频度具体为:从网络查询结果页面中抽取该兴趣点相关网页的个数。
S103:利用上述频度计算该兴趣点流行度。
需要说明的是,利用频度计算该兴趣点流行度的方法可以有很多种,也就是说,本发明实施例中,只要将该POI在网络上出现的频度作为POI流行度计算的一个参考因素,即可实现本发明实施例的目的,即能够提供一种更加准确客观反映被人们关注重要程度的POI流行度的获取方法,在具体实现中,本领域技术人员可以根据自己的需要具体设计如何将POI在网络上出现的频度作为评价流行度高低的一个参考因素,比如对频度进行可靠性修正、归一化处理等等,本发明实施例对此并不限制。
可见,结合互联网搜索引擎技术采集POI数据在网络上出现的频度,进而根据该频度计算POI数据的网络流行度,由于POI数据在网络出现的频度,基本反映了人们对该POI数据的关注度,因此,根据频度计算POI数据的网络流行度,能够客观的反映其在互联网上实际出现的频度,也就是说,能够客观的反应该POI数据在互联网上被人们实际关注的多少。可见,本发明实施例提供了一种更加合理的POI流行度的获取方案,能够更加准确客观的反映POI数据被人们关注的重要程度。
需要说明的是,采集POI数据在网络上出现频度时,存在如何保证互联网搜索引擎的查询结果与需要查询的POI数据真实相关的问题,具体而言,由于搜索引擎具备中文分词、模糊查询等特点,仅仅简单选取POI的某个或某几个关键词进行网络搜索,比如仅仅简单的选取名称、地址等相关的某个或某几个关键词进行网络搜索,往往会出现网络搜索结果排序靠后的网页与该POI数据的相关性甚小或者无关,而如果采集了这部分网页中POI出现的频度,会影响POI流行度的计算准确度。本发明实施例为了进一步提高POI流行度计算的准确度,通过制定一定的网络查询策略,以合理调整用于网络搜索的查询串,尽可能的达到使网络查询结果与POI的表述相统一,尽可能减小搜索结果中与该POI数据相关性甚小或无关的网页出现。
具体的,本发明实施例中,所述对兴趣点进行网络搜索包括:
获取兴趣点的查询串策略;
依据所述查询策略,对兴趣点的名称、类别和/或地址进行组合,得到兴趣点查询串;
根据所述兴趣点查询串进行网络搜索。
其中,所述获取兴趣点的查询串策略的步骤可以具体包括:
判断所述兴趣点名称的分词等级;
依据所述兴趣点的类别和所述分词等级查询策略配置表,得到所述兴趣点的查询串策略。
其中,所述策略配置表中建立有兴趣点所属类别、名称分词等级和查询串策略的对应关系,其中所述查询串策略为按预设规则对兴趣点的名称、类别和/或地址进行组合得到的。
优选的,本发明实施例中,查询串策略是按预设规则对兴趣点的名称、类别和/或地址进行组合得到的。表1示出查询串策略的一种具体实现方式:
表1
也就是说,其中名称查询中查询串策略所采用的组合形式为POI名称;地域查询中查询串策略所采用的组合形式为对POI名称和城市名(地址)进行组合得到的;类别查询中查询串策略所采用的组合形式为POI名称和类别名进行组合得到的。
需要说明的是,通常情况下,各兴趣点都会标注有对应的类别信息,比如住宿服务、餐饮服务、公司企业等等。在实际应用中,类别可以采用分级别的方式,比如三级类别,一级类别中可以包含多个二级类别,二级类别中可以包含多个三级类别。当然,不同的地图数据供应商等所采用的类别划分方式各不相同,本发明实施例中,以三级类别方式进行说明,本领域技术人员可以根据本发明实施例进行等同替换或简单变形,本发明实施例对此并不限制。
若类别采用上述三级类别方式,为了进一步提高POI流行度计算的准确度,表1中类别查询策略中“POI名称+类别名”中的类别名,优选的采用三级类别名,这样可以使得网络搜索的结果中进一步减少不相关的内容,使得搜索结果更加精确。
在实际应用中,所述判断所述兴趣点名称的分词等级的方法可以有多种,本发明实施例中提供一种具体实现步骤包括:
对所述兴趣点名称进行基本词分词处理;
判断经分词处理后的兴趣点名称包括的基本词数量,当基本词数量为1时确定分词等级为短词,当基本词数量为2时确定分词等级为中长词,当基本词数量为3个以上时确定分词等级为长词。
参见表2,示出几个按字符串长度将POI名称划分为短词POI、中长词POI或长词POI的示例:
表2
本发明实施例为了进一步提高POI流行度计算的准确度,所制定的网络查询串策略中,优选的,所述查询串策略包括主查询串策略和辅查询串策略,以便通过主查询串策略和辅查询串策略的合理配合,尽可能减小搜索结果中与该POI数据相关性甚小或无关的网页出现。
相应的,所述依据所述查询串策略,对兴趣点的名称、类别和/或地址进行组合,得到所述兴趣点的查询串的步骤具体包括:
依据所述主查询串策略,对兴趣点的名称、类别和/或地址进行组合,得到所述兴趣点的主查询串;依据所述辅查询串策略,对兴趣点的名称、类别和/或地址进行组合,得到所述兴趣点的辅查询串。
另外还需要说明的是,策略配置表中建立有兴趣点所属类别、名称分词等级和查询串策略的对应关系。参见表3,示出一种策略配置表的具体实现方式:
表3
为了更加便于查询策略配置表,本发明实施例中表3的“POI类别名”优选的采用一级类别名,这样不但可以提高查询策略配置表的效率,也可以对一些二级类别、三级类别标注不太准确的情况进行一定的修正,可以使得结果更准确。
通常,根据经验建立策略配置表中的兴趣点所属类别、名称分词等级和查询串策略的对应关系。
需要说明的是,在策略配置表中,长词通常仅采用主查询串策略进行网络搜索就可以了,通常不需要再采用辅查询串策略做修正了,因为当POI名称长度超过一定长度后,搜索引擎返回的结果基本上都能表达POI本身,与该POI无关的结果几乎很少,就好比给的输入条件越多,查询结果越精准一样。
根据主查询串和辅查询串在搜索引擎上进行网络搜索,当前搜索引擎有很多种,可以根据自己的需要自行选择,本发明实施例对此并不限制。比如,选择百度搜索引擎的话,可以将主查询串和辅查询串转换为符合百度搜索引擎格式的主查询URL(统一资源定位符,也称为网页地址)和辅查询URL,在百度搜索引擎上进行网络查询,百度搜索引擎便会返回网络查询结果页面,抽取得到该主查询串和辅查询串的网络查询频度,包括主搜索频度和辅搜索频度。
从网络查询结果页面中抽取频度的方法比较简单,一种具体实现方式是:由于查询结果的网页结构都是相同的,采用固定的模版匹配方式就可以实现抽取,也就是说,由于页面结构是固定的,即能够在页面的固定位置处直接找到网络查询的频度值(即包含该兴趣点的网页个数),对于如何在网络搜索结果页面中抽取频度的方法本领域技术人员可以根据自己的需求采用不同的方式实现,本发明实施例对此并不限制。
相应的,所述利用上述频度计算该兴趣点流行度包括:
将根据所述主查询串进行网络搜索采集的主搜索频度和根据所述辅查询串进行网络搜索采集的辅搜索频度进行合并处理,得到所述兴趣点流行度。
主查询串和辅查询串的目的是通过不同的查询词串来反映POI在互联网上的查询热度,但由于查询词串本身的歧义性,不能保证利用主查询串或辅查询串的搜索结果就一定能够反映其真实的情况,所以采用一种折中的合并方法,使其更能准确的描述POI的网络热度。
优选的,在上述合并处理之前还包括:
根据预置的网络搜索频度范围对所述主搜索频度和辅搜索频度分别进行修正处理。
在上述合并处理之后还包括:
将合并处理结果进行归一化处理,将归一化处理结果作为所述兴趣点流行度。
通过上述修正处理和归一化处理,可以使得计算得到的POI流行度的值在0至1之间,这样,不但结果简洁,而且不同POI流行度之间的比较会更方便。
其中,若所述辅搜索频度为空时,上述合并处理具体包括:将所述主搜索频度作为合并处理结果。
若所述辅搜索频度为非空时,上述合并处理具体包括:判断所述主搜索频度和辅搜索频度之间的数量级是否相近或相同,是则对所述主搜索频度和辅搜索频度进行加权平均处理,否则直接将数量级小的频度作为合并处理结果。
其中,主搜索频度和辅搜索频度之间的数量级相近或相同,比如可以是,主搜索频度和辅搜索频度之间的数量级相差2级之内。
参见图2,一种利用频度计算兴趣点流行度的具体实现方式可以是:
S201:根据搜索引擎的频度最大值和最小值对主搜索频度和辅搜索频度进行修正处理。
通常,各搜索引擎会预先设置查询结果中频度的最大值和最小值,比如百度搜索引擎会预先设置查询结果中频度的最大值SEQMAX和最小值SEQMIN分别为:
SEQMAX=100000000,SEQMIN=1
最大值和最小值的获取方法比如可以是:在百度搜索引擎上,随意输入一个高频查询词,比如“a”,那么可以看到返回结果数为固定的100000000,也就是说对于超过这个数目的结果,都以这个数为结果,从而获取到该搜索引擎返回结果中频度的最大值。最小值的获取也同理,不再赘述。
对主搜索频度和辅搜索频度进行修正处理的目的是,保证步骤S203中归一化处理得到POI流行度的值在区间(0-1)中,基于此,对主搜索频度和辅搜索频度进行修正处理的方法可以有多种,比如,本发明实施例中采用如下公式对其进行修正处理:
其中,θ=0.000005为修正系数,Seqmain为主搜索频度,Seqaux为辅搜索频度。
S202:对修正处理后的主搜索频度和辅搜索频度进行合并处理。
本发明实施例中,对主搜索频度和辅搜索频度进行合并处理的目的是为了采用一种折中的合并方法,减小由于搜索引擎的中文分词、模糊查询等特点,导致无法保证利用主查询串或辅查询串的搜索结果能够反映POI被关注的真实情况,使得处理结果更能准确的描述POI的网络热度。基于此,本领域技术人员可以采用多种折中的合并方式以达到上述目的,以下为本发明实施例采用的一种折中合并方式的具体实例:
当辅搜索频度为空时,比如表3中有些情况的辅查询串策略为“无修正”,此时辅搜索频度为空,则对修正处理后的主搜索频度和辅搜索频度进行合并处理包括:将所述主搜索频度直接作为合并处理结果。即:
Seqpoi=Seqmain
当所述辅搜索频度为非空时,则对修正处理后的主搜索频度和辅搜索频度进行合并处理包括:判断主搜索频度和辅搜索频度之间的数量级是否相近或相同,是则对所述主搜索频度和辅搜索频度进行加权平均处理,否则直接将数量级小的频度作为合并处理结果。
其中,主搜索频度和辅搜索频度之间的数量级相近或相同,比如可以是,主搜索频度和辅搜索频度之间的数量级相差2级之内。则,可以采用如下公式对主搜索频度和辅搜索频度进行合并处理:
其中,bv=1000,为均衡系数(Balance Value),用于均衡低频度处理。
S203:对合并处理结果进行归一化处理,得到POI流行度。
归一化处理的目的是为了使得得到的POI流行度的值能够在0至1之间,以便更加直观的显示各POI的流行程度。
本实施例中采用如下公式对合并结果进行归一化处理:
POIRank=log(Seqpoi)/log(SEQMAX-SEQMIN)。
一个具体实例,参见图3,假设计算下面5条POI的网络流行度,见表4所示:
表4
POI | 城市 | 名称 | 一级类别 | 二级类别 | 三级类别 |
1 | 三亚市 | 海湾酒店 | 住宿服务 | 宾馆酒店 | 宾馆酒店 |
2 | 沈阳市 | 全聚德 | 餐饮服务 | 中餐厅 | 北京菜 |
3 | 杭州市 | 我爱我家 | 生活服务 | 中介机构 | 中介机构 |
4 | 北京市 | 高德软件有限公司 | 公司企业 | 公司 | 网络科技 |
5 | 武汉市 | 龙泉村 | 地名地址信息 | 行政地名 | 村庄级地名 |
S301:确定各POI的查询串策略。
首先,对各POI名称进行基本词分词处理,根据基本词的分词结果,确定各POI名称的分词等级。
然后,根据各POI所属类别和分词等级查询策略配置表(如上表3),确定各POI的查询串,结果见下表5所示:
表5
POI | 基本词分词 | 名称划分 | 主查询串策略 | 辅查询串策略 |
1 | 海湾/酒店 | 中长词POI | 地域查询 | 名称查询 |
2 | 全聚德 | 短词POI | 名称查询 | 地域查询 |
3 | 我爱我家 | 短词POI | 类别查询 | 地域查询 |
4 | 高德/软件/有限/公司 | 长词POI | 名称查询 | 无修正 |
5 | 龙泉/村 | 中长词POI | 地域查询 | 无修正 |
S302:依据查询串策略确定各POI的查询串,进行网络搜索并采集各POI的频度。
本实例以百度搜索引擎作为互联网搜索引擎为例进行说明,将主查询串和辅查询串转换为符合百度搜索引擎格式的主查询URL和辅查询URL,下载网络搜索结果并抽取相关网页的频度,得到主搜索频度和辅搜索频度,见表6所示:
表6
S303:计算各POI流行度。
根据上表6中相关网页频度,结合图2所示方法,计算得出最终各POI流行度,见表7:
表7
POI | Seqpoi | POIRank |
1 | 133300 | 0.6406038 |
2 | 1429000 | 0.769379 |
3 | 264000 | 0.677700 |
4 | 9780 | 0.498792 |
5 | 3360 | 0.440792 |
从表7所示的POIRank一列的值,可以非常直观的看出各POI流行度的大小,更加准确客观的反映POI数据被人们关注的重要程度。
参见图4,本发明实施例还提供了一种兴趣点流行度获取装置,包括:
网络搜索模块401,用于对兴趣点进行网络搜索。
频度采集模块402,用于采集该兴趣点在搜索结果中出现的频度。
一条POI数据在互联网上出现的频度越大,说明该POI点在现实生活中被人们关注的程度越高,本发明实施例利用网络搜索引擎技术,在互联网上对POI数据进行搜索,并采集该POI在网络搜索结果中出现的频度,来计算其流行度,从而可以客观准确的反映该POI数据在互联网上被人们实际关注的多少。
需要说明的是,利用上述两种具体实现方式采集到的频度,均能较为客观的体现出不同POI数据在互联网上出现的频度的多少,均可以用于计算该兴趣点的流行度,实现更加准确客观的反映该POI数据被人们实际关注的重要程度的发明目的。在实际应用中,对于上述第二种具体实现方式需要将所有搜索到的页面下载,再分析其中包含的POI数目,得到该POI的频度。对于上述第一种具体实现方式而言,可以直接用搜索到的网页数作为频度计算流行度,即只需要分析一个搜索结果页面即可,相对而言实现起来较为简单,且也能在一定程度上较为客观准确的体现出不同兴趣点在网络中出现的频度多少,故优选的,本发明实施例中,所述频度采集模块具体用于:从网络查询结果页面中抽取该兴趣点相关网页的个数。
流行度计算模块403,用于利用所述频度采集模块402采集的频度计算该兴趣点流行度。
具体的,参见图5,本发明实施例中,所述网络搜索模块401包括:
查询串策略获取子模块501,用于获取兴趣点的查询串策略;
查询串确定子模块502,用于依据所述查询策略,对兴趣点的名称、类别和/或地址进行组合,得到所述兴趣点查询串;
网络搜索子模块503,用于根据所述兴趣点查询串进行网络搜索。
参见图6,所述查询串策略获取子模块501包括:
分词等级判断单元601,用于判断所述兴趣点名称的分词等级。
查询串策略获取单元602,用于依据所述兴趣点的类别和所述分词等级查询策略配置表,得到所述兴趣点的查询串策略。
其中,所述策略配置表中建立有兴趣点所属类别、名称分词等级和查询串策略的对应关系,其中所述查询串策略为按预设规则对兴趣点的名称、类别和/或地址进行组合得到的。
相应的,参见图7,所述分词等级判断单元601包括:
分词处理子单元701,用于对所述兴趣点名称进行基本词分词处理;
等级确定子单元702,用于判断经分词处理后的兴趣点名称包括的基本词数量,当基本词数量为1时确定分词等级为短词,当基本词数量为2时确定分词等级为中长词,当基本词数量为3个以上时确定分词等级为长词。
本发明实施例为了进一步提高POI流行度计算的准确度,所制定的网络查询串策略中,优选的,所述查询串策略包括主查询串策略和辅查询串策略,以便通过主查询串策略和辅查询串策略的合理配合,尽可能减小搜索结果中与该POI数据相关性甚小或无关的网页出现。
相应的,所述查询串确定子模块502包括:
主查询串获取子单元,用于依据所述主查询串策略,对兴趣点的名称、类别和/或地址进行组合,得到所述兴趣点的主查询串;
辅查询串获取子单元,用于依据所述辅查询串策略,对兴趣点的名称、类别和/或地址进行组合,得到所述兴趣点的辅查询串。
根据主查询串和辅查询串在搜索引擎上进行网络搜索,当前搜索引擎有很多种,可以根据自己的需要自行选择,本发明实施例对此并不限制。比如,选择百度搜索引擎的话,可以将主查询串和辅查询串转换为符合百度搜索引擎格式的主查询URL(统一资源定位符,也称为网页地址)和辅查询URL,在百度搜索引擎上进行网络查询,百度搜索引擎便会返回网络查询结果页面,抽取得到该主查询串和辅查询串的网络查询频度,包括主搜索频度和辅搜索频度。
从网络查询结果页面中抽取频度的方法比较简单,一种具体实现方式是:由于查询结果的网页结构都是相同的,采用固定的模版匹配方式就可以实现抽取,也就是说,由于页面结构是固定的,即能够在页面的固定位置处直接找到网络查询的频度值,对于如何在网络搜索结果页面中抽取频度的方法本领域技术人员可以根据自己的需求采用不同的方式实现,本发明实施例对此并不限制。
相应的,所述流行度计算模块403包括:
合并处理子模块,用于将根据所述主查询串进行网络搜索采集的主搜索频度和根据所述辅查询串进行网络搜索采集的辅搜索频度进行合并处理,得到所述兴趣点的流行度。
主查询串和辅查询串的目的是通过不同的查询词串来反映POI在互联网上的查询热度,但由于查询词串本身的歧义性,不能保证利用主查询串或辅查询串的搜索结果就一定能够反映其真实的情况,所以采用一种折中的合并方法,使其更能准确的描述POI的网络热度。
进一步的,所述流行度计算模块403还包括:
修正处理子模块,用于根据预置的网络搜索频度范围对所述主搜索频度和辅搜索频度分别进行修正处理,将修正处理后的主搜索频度和辅搜索频度发送至所述合并处理子模块;
归一化处理子模块,用于将所述合并处理子模块的合并处理结果进行归一化处理。
通过上述修正处理和归一化处理,可以使得计算得到的POI流行度的值在0至1之间,这样,不但结果简洁,而且不同POI流行度之间的比较会更方便。
所述辅搜索频度为空时,所述合并处理子模块具体用于将所述主搜索频度作为合并处理结果;
所述辅搜索频度为非空时,所述合并处理子模块具体用于判断所述主搜索频度和辅搜索频度之间的数量级是否相近或相同,是则对所述主搜索频度和辅搜索频度进行加权平均处理,否则直接将数量级小的频度作为合并处理结果。
其中,主搜索频度和辅搜索频度之间的数量级相近或相同,比如可以是,主搜索频度和辅搜索频度之间的数量级相差2级之内。
需要说明的是,本装置实施例中的各功能模块或者各功能单元的工作原理和处理过程可以参见上述方法实施例中的相关描述,此处不再赘述。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个......”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,所述的程序可以保存于一计算机可读取保存介质中。所述的保存介质,如:ROM/RAM、磁碟、光盘等。
以上对本发明所提供的兴趣点流行度获取方法和装置,进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本发明的限制。
Claims (18)
1.一种兴趣点流行度获取方法,其特征在于,包括:
对兴趣点进行网络搜索;
采集该兴趣点在搜索结果中出现的频度;
利用所述频度计算该兴趣点流行度。
2.根据权利要求1所述的方法,其特征在于,所述对兴趣点进行网络搜索包括:
获取兴趣点的查询串策略;
依据所述查询策略,对兴趣点的名称、类别和/或地址进行组合,得到兴趣点查询串;
根据所述兴趣点查询串进行网络搜索。
3.根据权利要求2所述的方法,其特征在于,获取兴趣点的查询串策略具体包括:
判断所述兴趣点名称的分词等级;
依据所述兴趣点的类别和所述分词等级查询策略配置表,得到所述兴趣点的查询串策略。
4.根据权利要求3所述的方法,其特征在于,所述判断所述兴趣点名称的分词等级包括:
对所述兴趣点名称进行基本词分词处理;
判断经分词处理后的兴趣点名称包括的基本词数量,当基本词数量为1时确定分词等级为短词,当基本词数量为2时确定分词等级为中长词,当基本词数量为3个以上时确定分词等级为长词。
5.根据权利要求3所述的方法,其特征在于,所述查询串策略包括主查询串策略和辅查询串策略,所述依据所述查询策略,对兴趣点的名称、类别和/或地址进行组合,得到兴趣点查询串包括:
依据所述主查询串策略,对兴趣点的名称、类别和/或地址进行组合,得到所述兴趣点的主查询串;
依据所述辅查询串策略,对兴趣点的名称、类别和/或地址进行组合,得到所述兴趣点的辅查询串。
6.根据权利要求5所述的方法,其特征在于,所述利用所述频度计算该兴趣点流行度包括:
将根据所述主查询串进行网络搜索采集的主搜索频度和根据所述辅查询串进行网络搜索采集的辅搜索频度进行合并处理,得到所述兴趣点的流行度。
7.根据权利要求6所述的方法,其特征在于,所述合并处理之前还包括:
根据预置的网络搜索频度范围对所述主搜索频度和辅搜索频度分别进行修正处理;
所述合并处理之后还包括:
将合并处理结果进行归一化处理。
8.根据权利要求6所述的方法,其特征在于,
所述辅搜索频度为空时,所述合并处理包括:将所述主搜索频度作为合并处理结果;
所述辅搜索频度为非空时,所述合并处理包括:判断所述主搜索频度和辅搜索频度之间的数量级是否相近或相同,是则对所述主搜索频度和辅搜索频度进行加权平均处理,否则直接将数量级小的频度作为合并处理结果。
9.根据权利要求1-8任一项所述的方法,其特征在于,所述采集该兴趣点在搜索结果中出现的频度具体为:
从网络查询结果页面中抽取该兴趣点相关网页的个数。
10.一种兴趣点流行度获取装置,其特征在于,包括:
网络搜索模块,用于对兴趣点进行网络搜索;
频度采集模块,用于采集该兴趣点在搜索结果中出现的频度;
流行度计算模块,用于利用所述频度采集模块采集的频度计算该兴趣点流行度。
11.根据权利要求10所述的装置,其特征在于,所述网络搜索模块包括:
查询串策略获取子模块,用于获取兴趣点的查询串策略;
查询串确定子模块,用于依据所述查询策略,对兴趣点的名称、类别和/或地址进行组合,得到所述兴趣点查询串;
网络搜索子模块,用于根据所述兴趣点查询串进行网络搜索。
12.根据权利要求11所述的装置,其特征在于,所述查询串策略获取子模块包括:
分词等级判断单元,用于判断所述兴趣点名称的分词等级;
查询串策略获取单元,用于依据所述兴趣点的类别和所述分词等级查询策略配置表,得到所述兴趣点的查询串策略。
13.根据权利要求12所述的装置,其特征在于,所述分词等级判断单元包括:
分词处理子单元,用于对所述兴趣点名称进行基本词分词处理;
等级确定子单元,用于判断经分词处理后的兴趣点名称包括的基本词数量,当基本词数量为1时确定分词等级为短词,当基本词数量为2时确定分词等级为中长词,当基本词数量为3个以上时确定分词等级为长词。
14.根据权利要求12所述的装置,其特征在于,所述查询串策略包括主查询串策略和辅查询串策略,所述查询串确定子模块包括:
主查询串获取子单元,用于依据所述主查询串策略,对兴趣点的名称、类别和/或地址进行组合,得到所述兴趣点的主查询串;
辅查询串获取子单元,用于依据所述辅查询串策略,对兴趣点的名称、类别和/或地址进行组合,得到所述兴趣点的辅查询串。
15.根据权利要求14所述的装置,其特征在于,所述流行度计算模块包括:
合并处理子模块,用于将根据所述主查询串进行网络搜索采集的主搜索频度和根据所述辅查询串进行网络搜索采集的辅搜索频度进行合并处理,得到所述兴趣点的流行度。
16.根据权利要求15所述的装置,其特征在于,所述流行度计算模块还包括:
修正处理子模块,用于根据预置的网络搜索频度范围对所述主搜索频度和辅搜索频度分别进行修正处理,将修正处理后的主搜索频度和辅搜索频度发送至所述合并处理子模块;
归一化处理子模块,用于将所述合并处理子模块的合并处理结果进行归一化处理。
17.根据权利要求15所述的装置,其特征在于,
所述辅搜索频度为空时,所述合并处理子模块具体用于将所述主搜索频度作为合并处理结果;
所述辅搜索频度为非空时,所述合并处理子模块具体用于判断所述主搜索频度和辅搜索频度之间的数量级是否相近或相同,是则对所述主搜索频度和辅搜索频度进行加权平均处理,否则直接将数量级小的频度作为合并处理结果。
18.根据权利要求10-17任一项所述的装置,其特征在于,所述频度采集模块,具体用于从网络查询结果页面中抽取该兴趣点相关网页的个数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2010106182310A CN102541936A (zh) | 2010-12-31 | 2010-12-31 | 兴趣点流行度获取方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2010106182310A CN102541936A (zh) | 2010-12-31 | 2010-12-31 | 兴趣点流行度获取方法和装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN102541936A true CN102541936A (zh) | 2012-07-04 |
Family
ID=46348852
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2010106182310A Pending CN102541936A (zh) | 2010-12-31 | 2010-12-31 | 兴趣点流行度获取方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN102541936A (zh) |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103336807A (zh) * | 2013-06-25 | 2013-10-02 | 百度在线网络技术(北京)有限公司 | 一种显示兴趣点的方法及系统 |
CN103577442A (zh) * | 2012-07-30 | 2014-02-12 | 腾讯科技(深圳)有限公司 | 一种地图数据重要度计算方法及装置 |
CN104102637A (zh) * | 2013-04-02 | 2014-10-15 | 高德软件有限公司 | 一种生成热点区域的方法及装置 |
CN104123318A (zh) * | 2013-04-28 | 2014-10-29 | 百度在线网络技术(北京)有限公司 | 一种地图显示兴趣点的方法及系统 |
CN104281576A (zh) * | 2013-07-02 | 2015-01-14 | 威盛电子股份有限公司 | 地标数据的显示方法 |
CN104899200A (zh) * | 2014-03-04 | 2015-09-09 | 高德软件有限公司 | 一种poi搜索反馈方法及装置 |
CN105069079A (zh) * | 2015-07-31 | 2015-11-18 | 北京奇虎科技有限公司 | 筛选兴趣点poi数据的方法及装置 |
CN105786915A (zh) * | 2014-12-25 | 2016-07-20 | 高德软件有限公司 | 一种poi重要度确定方法及装置 |
CN107704589A (zh) * | 2017-09-30 | 2018-02-16 | 百度在线网络技术(北京)有限公司 | 基于运单的兴趣点失效挖掘方法、装置、服务器及介质 |
CN108241690A (zh) * | 2016-12-26 | 2018-07-03 | 北京搜狗信息服务有限公司 | 一种数据处理方法和装置、一种用于数据处理的装置 |
CN109522345A (zh) * | 2018-11-19 | 2019-03-26 | 百度在线网络技术(北京)有限公司 | 用于显示信息的方法及装置 |
CN109597859A (zh) * | 2017-09-30 | 2019-04-09 | 北京国双科技有限公司 | 地域名称的处理方法和装置 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101350154A (zh) * | 2008-09-16 | 2009-01-21 | 北京搜狗科技发展有限公司 | 一种电子地图数据的排序方法及装置 |
US20100070165A1 (en) * | 2006-11-29 | 2010-03-18 | Kang Jung Min | System and method for providing point of interest in destination around |
-
2010
- 2010-12-31 CN CN2010106182310A patent/CN102541936A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100070165A1 (en) * | 2006-11-29 | 2010-03-18 | Kang Jung Min | System and method for providing point of interest in destination around |
CN101350154A (zh) * | 2008-09-16 | 2009-01-21 | 北京搜狗科技发展有限公司 | 一种电子地图数据的排序方法及装置 |
Cited By (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103577442A (zh) * | 2012-07-30 | 2014-02-12 | 腾讯科技(深圳)有限公司 | 一种地图数据重要度计算方法及装置 |
CN103577442B (zh) * | 2012-07-30 | 2019-02-05 | 腾讯科技(深圳)有限公司 | 一种地图数据重要度计算方法及装置 |
CN104102637B (zh) * | 2013-04-02 | 2017-09-29 | 高德软件有限公司 | 一种生成热点区域的方法及装置 |
CN104102637A (zh) * | 2013-04-02 | 2014-10-15 | 高德软件有限公司 | 一种生成热点区域的方法及装置 |
CN104123318A (zh) * | 2013-04-28 | 2014-10-29 | 百度在线网络技术(北京)有限公司 | 一种地图显示兴趣点的方法及系统 |
CN104123318B (zh) * | 2013-04-28 | 2019-01-15 | 百度在线网络技术(北京)有限公司 | 一种地图显示兴趣点的方法及系统 |
CN103336807A (zh) * | 2013-06-25 | 2013-10-02 | 百度在线网络技术(北京)有限公司 | 一种显示兴趣点的方法及系统 |
CN103336807B (zh) * | 2013-06-25 | 2018-01-05 | 百度在线网络技术(北京)有限公司 | 一种显示兴趣点的方法及系统 |
CN104281576A (zh) * | 2013-07-02 | 2015-01-14 | 威盛电子股份有限公司 | 地标数据的显示方法 |
CN104281576B (zh) * | 2013-07-02 | 2018-08-31 | 威盛电子股份有限公司 | 地标数据的显示方法 |
CN104899200A (zh) * | 2014-03-04 | 2015-09-09 | 高德软件有限公司 | 一种poi搜索反馈方法及装置 |
CN105786915A (zh) * | 2014-12-25 | 2016-07-20 | 高德软件有限公司 | 一种poi重要度确定方法及装置 |
CN105069079A (zh) * | 2015-07-31 | 2015-11-18 | 北京奇虎科技有限公司 | 筛选兴趣点poi数据的方法及装置 |
CN108241690A (zh) * | 2016-12-26 | 2018-07-03 | 北京搜狗信息服务有限公司 | 一种数据处理方法和装置、一种用于数据处理的装置 |
CN107704589A (zh) * | 2017-09-30 | 2018-02-16 | 百度在线网络技术(北京)有限公司 | 基于运单的兴趣点失效挖掘方法、装置、服务器及介质 |
CN109597859A (zh) * | 2017-09-30 | 2019-04-09 | 北京国双科技有限公司 | 地域名称的处理方法和装置 |
CN107704589B (zh) * | 2017-09-30 | 2020-11-20 | 百度在线网络技术(北京)有限公司 | 基于运单的兴趣点失效挖掘方法、装置、服务器及介质 |
CN109522345A (zh) * | 2018-11-19 | 2019-03-26 | 百度在线网络技术(北京)有限公司 | 用于显示信息的方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102541936A (zh) | 兴趣点流行度获取方法和装置 | |
CN109145169B (zh) | 一种基于统计分词的地址匹配方法 | |
US7650431B2 (en) | Serving locally relevant advertisements | |
CN101241512B (zh) | 一种重新定义查询词的搜索方法及装置 | |
US8489625B2 (en) | Mobile query suggestions with time-location awareness | |
US7747598B2 (en) | Geographic coding for location search queries | |
US20150356088A1 (en) | Tile-based geocoder | |
CN102591867B (zh) | 一种基于移动设备位置的搜索服务方法 | |
Mihaila et al. | Using Quality of Data Metadata for Source Selection and Ranking. | |
CA2640365C (en) | Geographic coding for location search queries | |
US20070233649A1 (en) | Hybrid location and keyword index | |
US20080154888A1 (en) | Viewport-Relative Scoring For Location Search Queries | |
CN101350013A (zh) | 一种地理信息的搜索方法和系统 | |
US8898130B1 (en) | Organizing search results | |
Tezuka et al. | Toward tighter integration of web search with a geographic information system | |
US8977625B2 (en) | Inference indexing | |
CN101350154A (zh) | 一种电子地图数据的排序方法及装置 | |
CN101777082A (zh) | 一种文字信息与地理信息的关联方法及系统 | |
CN104143005A (zh) | 一种相关搜索系统及方法 | |
CN103793403A (zh) | 推送与搜索结果相关联信息的方法与装置 | |
US9092454B2 (en) | Discovering co-located queries in geographic search logs | |
US8738602B1 (en) | Determining relevance scores for locations | |
KR101867421B1 (ko) | 소셜 데이터를 이용한 서비스 제공업체 추천 방법 및 장치 | |
CN111177585A (zh) | 地图poi反馈方法及装置 | |
CN115329221B (zh) | 一种针对多源地理实体的查询方法及查询系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C12 | Rejection of a patent application after its publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20120704 |