CN102591867A - 一种基于移动设备位置的搜索服务方法 - Google Patents
一种基于移动设备位置的搜索服务方法 Download PDFInfo
- Publication number
- CN102591867A CN102591867A CN2011100026258A CN201110002625A CN102591867A CN 102591867 A CN102591867 A CN 102591867A CN 2011100026258 A CN2011100026258 A CN 2011100026258A CN 201110002625 A CN201110002625 A CN 201110002625A CN 102591867 A CN102591867 A CN 102591867A
- Authority
- CN
- China
- Prior art keywords
- database
- data
- search
- mobile device
- interested
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Information Transfer Between Computers (AREA)
Abstract
本发明提供了一种基于移动设备位置的搜索服务方法和一种搜索服务数据库的建立方法,其中的搜索服务方法具体包括:依据移动设备的当前位置和当前方位,在搜索服务数据库中进行搜索,并将第一搜索结果推送给移动设备用户,其中,该搜索服务数据库中包括有感兴趣地理数据和对应的结构化数据;或者,在接收到移动设备用户发送的搜索请求时,从该搜索请求中提取关键词;依据所述关键词及该移动设备用户的当前位置和当前方位,在该搜索服务数据库中进行搜索,并将第二搜索结果返回给该移动设备用户。本发明能够将包含有丰富、详细、充实结构化数据的搜索结果提供给移动设备用户,从而给用户带来更好的查询体验与视觉效果。
Description
技术领域
本发明涉及移动搜索技术领域,特别是涉及一种基于移动设备位置的搜索服务方法和一种搜索服务数据库的建立方法。
背景技术
随着移动网络的快速发展,移动搜索作为一项新兴的技术,受到了越来越多的关注。移动搜索是一项基于移动网络、应用于手机终端的搜索技术,用户可以通过SMS(短消息服务、Short Message Service)、WAP(无线应用协议,Wireless Application Protocol)、IVR(互动式语音应答,InteractiveVoice Response)等多种接入方式进行搜索,获得因特网信息、移动增值服务及本地信息服务内容。但由于手机终端的特性,移动搜索本身存在一定的局限性,例如手机内存小、运行速度慢,屏幕尺寸有限导致难以通过单一页面完整显示查询结果等。
LBS(基于位置的服务,Location Based Service)是一种通过移动设备、移动网络手机终端位置信息,并以此为依据提供信息的服务方式,例如最简单的导航系统(navigation systems)。一方面,位置信息能够很好地表现用户的查询意图,所以利用这个位置信息分析、猜测用户的兴趣点,可以有效地避免不必要的运算,从而缩短查询的操作时间。另一方面,如果能够准确地估计出用户所期望的内容,那么将会减小屏幕尺寸所带来的限制。
目前,一个与LBS相关联、且得到广泛使用的实例是GIS(地理资讯系统,Geographic Information Systems)。GIS中的数据代表了现实中的实体,对于基于位置的服务,除了需要GIS系统中存储的客观的空间数据(spatialdata)外,还需要更多的信息来给用户提供更好的服务,因此需要在GIS中引入用户POI(兴趣点,Point of Interest)的概念。每个POI表示一个对用户有用或者能够让用户产生兴趣的点,通常用经纬度来表征。
这样,当移动终端用户输入某个查询词,例如“成都小吃”,传统的基于移动设备位置的搜索服务方法只能给出简单的POI信息,例如地址,而不能给出详细的结构化信息,例如菜系、乘车路线、评价、图片等,这就影响了用户的查询体验。
总之,需要本领域技术人员迫切解决的一个技术问题就是:如何能够向移动终端用户提供丰富的结构化信息。
发明内容
本发明所要解决的技术问题是提供一种搜索服务数据库的建立方法,能够针对感兴趣地理数据,获取并存储丰富、详细、充实的结构化数据;
相应的,本发明还提供了一种基于移动设备位置的搜索服务方法,使得可以依据移动设备的当前位置和当前方位,在搜索服务数据库中进行搜索,将包含有丰富、详细、充实结构化数据的搜索结果直接推送给移动设备用户,或者,以查询响应的形式返回给移动设备用户。
为了解决上述问题,本发明公开了一种基于移动设备位置的搜索服务方法,包括:
依据移动设备的当前位置和当前方位,在搜索服务数据库中进行搜索,并将第一搜索结果推送给移动设备用户,其中,该搜索服务数据库为依据在互联网中采集得到与所述感兴趣地理数据相应的网页数据建立,该搜索服务数据库中包括有感兴趣地理数据和对应的结构化数据,所述感兴趣地理数据包括地理位置和标签;
或者,
在接收到移动设备用户发送的搜索请求时,从该搜索请求中提取关键词;
依据所述关键词及该移动设备用户的当前位置和当前方位,在该搜索服务数据库中进行搜索,并将第二搜索结果返回给该移动设备用户。
优选的,所述依据移动设备的当前位置和当前方位,在搜索服务数据库中进行搜索的步骤,包括:
通过移动设备中的位置感应装置获取移动设备的当前经纬度和当前方位;
依据该当前经纬度和当前方位,获取第一兴趣区域;
在该搜索服务数据库中搜索该第一兴趣区域范围内的感兴趣地理数据和对应的结构化数据,得到第一搜索结果。
优选的,所述依据所述关键词及该移动设备用户的当前位置和当前方位,在该搜索服务数据库中进行搜索的步骤,包括:
通过移动设备中的位置感应装置获取移动设备的当前经纬度和当前方位;
依据该当前经纬度和当前方位,获取第二兴趣区域;
在该搜索服务数据库中搜索该第二兴趣区域范围内的、且与所述关键字相匹配的感兴趣地理数据和对应的结构化数据,得到第二搜索结果。
优选的,通过以下步骤获取第一兴趣区域或者第二兴趣区域:
以当前经纬度Plongitude,latitude为圆心,做一个半径为R、圆心角为θ的扇形,以该扇形区域作为第一兴趣区域或者第二兴趣区域,其中,该扇形区域关于当前方位dorient,angle对称,R、θ为根据移动设备用户输入确定,或者由服务器设置。
优选的,所述方法还包括:
根据移动设备用户输入,变更R、θ的值。
优选的,所述将第二搜索结果返回给该移动设备用户的步骤,包括:
通过统计当前关键词keyi在第一搜索结果rj中出现的次数ni,j得到搜索结果rj与用户搜索的第一相似度scorej1=∑i=1,...,l(tfi,j*idfi),其中,ni为当前关键词的词频,归一化词频tfi,j=ni,j/ni,dfi为统计的包含keyi的元组数量,逆向文件频率idfi=log(l/dfi);
计算rj所在位置与用户位置Plongitude,latitude的距离distj,进一步得到第二搜索结果rj与用户搜索的第二相似度scorej2=1/distj;
根据站点可信度与IP地址分析,获得第二搜索结果rj与用户搜索的第三相似度scorej3;
利用scorej1,scorej2,scorej3计算第二搜索结果rj与用户搜索的总相似度scorej=α1*scorej1+α2*scorej2+α3*scorej3,其中,α1、α2、α3分别为scorej1,scorej2,scorej3的权值,0<α1、α2、α3<1;
根据scorej对第二搜索结果排序,并将排在前面的返回给用户。
优选的,通过以下步骤建立所述搜索服务数据库:
获取感兴趣地理数据,其中,所述感兴趣地理数据包括地理位置和标签;
依据所述标签,在互联网中采集得到与所述感兴趣地理数据相应的网页数据,并连同所述感兴趣地理数据保存至第一数据库;
对所述第一数据库中的网页数据进行清洗,得到第二数据库;
将所述第二数据库中的网页数据转换为与搜索服务属性相应的结构化数据,得到第三数据库;
对所述第三数据库中同一个感兴趣地理数据对应的结构化数据进行整合,得到搜索服务数据库。
另一方面,本发明还公开了一种搜索服务数据库的建立方法,包括:
获取感兴趣地理数据,其中,所述感兴趣地理数据包括地理位置和标签;
依据所述标签,在互联网中采集得到与所述感兴趣地理数据相应的网页数据,并连同所述感兴趣地理数据保存至第一数据库;
对所述第一数据库中的网页数据进行清洗,得到第二数据库;
将所述第二数据库中的网页数据转换为与搜索服务属性相应的结构化数据,得到第三数据库;
对所述第三数据库中同一个感兴趣地理数据对应的结构化数据进行整合,得到搜索服务数据库。
优选的,所述获取感兴趣地理数据的步骤为,从空间数据库中提取地理位置及相应的标签。
优选的,所述依据所述标签得到第一数据库的步骤,包括:
针对每个感兴趣地理数据,将其标签作为关键字在互联网中进行网页查询;
选取前k条查询结果P1,1,P1,2,...,P1,k,P2,1,...,Pm,1,...,Pm,k,连同相应的感兴趣地理数据保存至第一数据库,其中,k为自然数。
优选的,所述对第一数据库中的网页数据进行清洗的步骤,包括验证所述网页数据的准确性和去除重复的网页数据。
优选的,所述去除重复的网页数据的步骤,包括:
计算两个网页之间的相似度;
若该相似度小于第一阈值,则视该两个网页重复,并从所述第一数据库中删除其中一个。
优选的,所述验证所述网页数据的准确性的步骤,包括:
统计同一标签的网页数据;
通过投票机制,保留票数高的网页数据,以及,从所述第一数据库中删除票数低的网页数据。
优选的,所述将所述第二数据库中的网页数据转换为与搜索服务属性相应的结构化数据,得到第三数据库的步骤,包括:
确定搜索服务属性;
依据所述第二数据库中的网页数据中,识别各标签对应的搜索服务属性的值;
依据搜索服务属性和相应的值,将所有网页数据转换为结构化数据,并保存至第三数据库。
优选的,所述识别各标签对应的搜索服务属性的值的方法包括:HTML识别、XML标签识别或者正则表达式匹配。
与现有技术相比,本发明具有以下优点:
本发明在互联网中采集得到与POI数据相应的网页数据,并依据所述网页数据建立搜索服务数据库;由于互联网中的数据是海量的,可以为搜索服务数据库提供充足的数据来源,并且,由于在建立过程中,将所述网页数据转换为与搜索服务属性相应的结构化数据,这样,搜索服务数据库存储有与地址、电话、菜系、评价、图片等多种搜索服务属性相对应的结构化数据;因此,搜索服务数据库可以提供丰富、充实的结构化数据;
另外,由于在建立过程中对网页数据进行了清洗,该清洗能够去除数据库中不完全、不正确、不精准、不相关的数据,因此,搜索服务数据库中的结构化数据是准确的;
综上,本发明可以依据移动设备的当前位置和当前方位,在搜索服务数据库中进行搜索,将包含有丰富、详细、充实结构化数据的搜索结果直接推送给移动设备用户,或者,以查询响应的形式返回给移动设备用户;因此,本发明可以提高移动检索的效率和准确率,从而给用户带来更好的查询体验与视觉效果。
附图说明
图1是本发明一种搜索服务数据库的建立方法实施例的流程图;
图2是本发明一种基于移动设备位置的搜索服务方法实施例的流程图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
本发明的核心构思之一在于,在互联网中采集得到与POI数据相应的网页数据,并依据所述网页数据建立搜索服务数据库;互联网中的海量数据决定了所述网页数据的丰富性,这就导致依据所述网页数据建立的搜索服务数据库,能够针对感兴趣地理数据,存储丰富、详细、充实的结构化数据,如一家餐馆的标签、地址、电话、菜系、评价、图片等;这样,当用户查询时,服务器端能够依据用户的位置信息,将包含有丰富、详细、充实结构化数据的搜索结果以查询响应的形式返回给移动设备用户,从而给用户带来更好的查询体验与视觉效果。
参照图1,示出了本发明一种搜索服务数据库的建立方法实施例的流程图,具体可以包括:
步骤101、获取感兴趣地理数据,其中,所述感兴趣地理数据可以包括地理位置和标签;
在实际中,可由服务器端以从空间数据库中提取地理位置及相应的标签;其中,所述空间数据库Ds可为已有数据库,也可通过收集地图信息,建立空间数据库Ds;总之,这里的空间数据库为包含有一系列POI数据点的数据库,本发明对该空间数据库的具体来源不加以限制。
在具体实现中,每个POI数据点可由若干部分组成,其中,最基本的性质可以包括两个:地理位置和标签,地理位置记录了该POI数据点在地图上所处的位置(例如经纬度),标签标记了该POI数据点的属性(例如海底捞餐馆)。
步骤102、依据所述标签,在互联网中采集得到与所述感兴趣地理数据相应的网页数据,并连同所述感兴趣地理数据保存至第一数据库;
首先互联网中的数据是海量的,可以为搜索服务数据库提供充足的数据来源。但是,从需求角度考虑,并非所有的内容都是有用的,所以建立搜索服务数据库的第一步就是从海量的数据中采集有意义的数据。
在具体实现中,所述依据所述标签得到第一数据库的步骤,具体可以包括:
子步骤A1、针对每个感兴趣地理数据,将其标签作为关键字在互联网中进行网页查询;
子步骤A2、选取前k条查询结果P1,1,P1,2,...,P1,k,P2,1,...,Pm,1,...,Pm,k,连同相应的感兴趣地理数据保存至第一数据库,其中,k为自然数。
现有多数广泛使用的搜索引擎能够提供针对不同数据类型的检索功能,可以用来抓取不同类型相关数据。例如,可以用标签内容(例如海底捞餐馆)在搜索引擎中执行查询,对于每个地点,选择返回结果中的前100个页面保存;由于搜索引擎已经完成了一些过滤信息、相关度排序等的功能,故可以用这些页面连同相应的感兴趣地理数据构建第一数据库。
步骤103、对所述第一数据库中的网页数据进行清洗,得到第二数据库;
虽然搜索引擎已经完成了部分数据清洗的工作,但是仍然不够彻底。此时,第一数据库中还存在一些“脏数据”,这里的“脏数据”主要指不完全、不正确、不精确、不相关等的网页数据,例如,重复、虚假(例如广告等)的网页数据等。因此,欲给用户提供更加满意的结构化数据,还需要在第一数据库中去除这部分“脏数据”。
在实际中,所述对第一数据库中的网页数据进行清洗的步骤,主要可以包括验证所述网页数据的准确性和去除重复的网页数据。
互联网中有很多内容都是重复的,在本发明的一种优选实施例中,可以通过如下步骤去除重复的网页数据:
子步骤B1、计算两个网页之间的相似度;
子步骤B2、若该相似度大于第一阈值,则视该两个网页重复,并从所述第一数据库中删除其中一个。
在实际中,可以用Jaccard距离或编辑距离的原理来计算该相似度。
例如,Jaccard距离也即将两个网页文本的Jaccard距离作为判定重复的标准,现有很多方法可以用于快速地估算Jaccard距离的值,例如min-hash(最小哈希)算法等。在判定过程中,可以设定第一阈值δ=0.75,即如果两个HTML(超文本标记语言,Hyper Text Mark-up Language)文档的Jaccard距离大于0.7时,就可以判定这两个网页内容重复,删除其中一个。
在实际应用中,可利用一些经典的方法验证所述网页数据的准确性,例如,可通过审计、观察等方法获取数据特征,检测、修复、删除第一数据库中不正确、不完整、不必要的网页数据。
在本发明的另一种优选实施例中,可通过投票机制删除第一数据库中的错误信息,此时,所述验证所述网页数据的准确性的步骤,具体可以包括:
子步骤C1、统计同一标签的网页数据;
子步骤C2、通过投票机制,保留票数高的网页数据,以及,从所述第一数据库中删除票数低的网页数据。
例如通过某个网页Px,y得到“px是一家经营川菜的餐馆”,而通过与之相关的另一个网页Px,z得到“px是意式餐厅”这样矛盾的信息,其中肯定有一条是错误的。采用投票机制,统计在100个网页中分别有多少网页将px标注为“川菜馆”,又有多少网页将其标注为“意式餐厅”,这样,票数高的视为正确结果。此外,在投票机制中,还可以考虑数据来源的站点可信度,对于可信度较高的网站,给予更高的权值,反之赋予权值较低。本发明对投票机制的具体实现方式不加以限制。
为了更好地适应移动搜索的特点,在每次数据清洗结束后,还可以执行进一步的人工标注/审核,此时,如果数据质量仍然没有达到要求,可以重复执行数据清洗,直至数据在准确性、完整性方面符合要求,所述人工标注/审核能够进一步确保数据的准确性。
对于第二数据库而言,其中包含的仍然是一系列网页,每个网页对应于一个POI数据点。与第一数据库相比,区别仅在于第二数据库中的数据是准确无重复的。
步骤104、将所述第二数据库中的网页数据转换为与搜索服务属性相应的结构化数据,得到第三数据库;
一方面,互联网数据大多是非结构化或半结构化的,所以很难进行分析以及进一步的信息提取,另一方面,对于手机用户而言,手机的体积限制了查询结果的显示;因此,本步骤将所述第二数据库中的网页数据转换为与搜索服务属性相应的结构化数据,也即,将用户感兴趣的内容从中原始的网页文档中识别抽取出来。
在实际中,可通过实体识别(entity recognition)和信息抽取(informationextraction)进行网页数据到结构化数据的转换。具体而言,实现实体识别需要自然语言处理(natural language processing)、机器学习(machine learning)等技术。用这些方法处理第二数据库,只保留抽取出的有意义的实体信息,例如商场、餐厅等的电话号码等,通过这种方式将所有的网页转化为结构化数据S1,1,S1,2,...,S1,k,S2,1,...,Sm,1,...,Sm,k,得到第三数据库。
实体识别的目的在于搜索服务属性值的抽取,这里,需要抽取的搜索服务属性可以包括:“位置”,“营业时间”,“客户评价”等。在本发明的一种优选实施例中,所述步骤104具体可以包括:
子步骤D1、确定搜索服务属性;
子步骤D2、依据所述第二数据库中的网页数据中,识别各标签对应的搜索服务属性的值;
子步骤D3、依据搜索服务属性和相应的值,将所有网页数据转换为结构化数据,并保存至第三数据库。
其中,所述识别各标签对应的搜索服务属性的值的方法具体可以包括:HTML识别、XML(可扩展标记语言,Extensible Markup Language)标签识别或者正则表达式匹配等。
对于比较工整的网页,可直接从HTML文档中识别相应标签,而一些人工编写的、表达不规则的网页,则使用正则表达式匹配的方法,例如“营业时间”这个属性,它通常是“hh:mm-hh:mm”的格式,因此通过表达式:
\d{1,2}:\d{1,2}:\d{1,2}\d{1,2}.\d{1,2}:\d{1,2}:\d{1,2}\d{1,2}进行匹配,其中,中间的“.”可以用来匹配“-”“~”等多种用于表示时间关联的符号。
得到了搜索服务属性和相应的值,就可以将第二数据库中的非结构化或者半结构化的网页转换为标签与属性值严格匹配、格式统一的结构化数据,用这些结构化数据构建第三数据库。第三数据库中的结构化数据与第二数据库中的网页是一一对应的关系,即一个POI数据对应了多个结构化数据。
步骤105、对所述第三数据库中同一个感兴趣地理数据对应的结构化数据进行整合,得到搜索服务数据库。
数据整合要完成的工作就是将同一个POI数据对应的结构化数据整合起来,使每一个POI数据只与唯一的一个包含了所有信息的结构化数据对应。
例如,POI pi对应了Si,1,Si,2,...,Si,k,那么,数据整合则是将这k个结构化数据合并,得到Sk,而Sk中包括了Si,1,Si,2,...,Si,k中所有的信息。
需要说明的是,如果一个搜索服务属性的值Aj只出现在了其中一个结构化数据中,则可以将这个值加入到Sk中,否则,需要通过投票机制决定它的最终值,然后加入到Sk中。
若干POI连同相应的Sk,就组成了搜索服务数据库。可以注意到,Sk中的信息可以对应地址、电话、菜系、评价、图片等多种搜索服务属性,因此,搜索服务数据库可以提供丰富的结构化数据。
另外,由于数据清洗去除了数据库中不完全、不正确、不精准、不相关的数据,因此,搜索服务数据库中的结构化数据也是准确的。
在实际应用中,除了以互联网数据作为数据来源外,搜索服务数据库中的结构化数据还可以由合作商家直接提供。其中,在提供数据时,只需将数据规范化,直接作为新的标签与搜索服务属性对(pair)加入到对应的结构化数据中即可。
例如,合作商家可以向搜索服务数据库DI中加入更详细的商铺数据、打折优惠等内容。在DI中找到与合作商C商铺对应的POI px,在它对应的结构化数据Sx中添加相应标签和值,记为Sx’;这样,当合作商家提供优惠券时,可以在原有结构化数据Sx基础上加上<coupon>XXXX</coupon>。用这样的方式,可以得到一个更加生活化的基于位置的数据库DI’。
参照图2,示出了本发明一种基于移动设备位置的搜索服务方法实施例的流程图,具体可以包括:
步骤201、依据移动设备的当前位置和当前方位,在搜索服务数据库中进行搜索,并将第一搜索结果推送给移动设备用户,其中,该搜索服务数据库可以为依据在互联网中采集得到与所述感兴趣地理数据相应的网页数据建立,该搜索服务数据库中可以包括有感兴趣地理数据和对应的结构化数据,所述感兴趣地理数据可以包括地理位置和标签;
科技的发展不仅体现在网络上,也体现在移动设备上。现有手机已经有功能强大的导航、感应设备,能够捕捉到充足的信息来反映用户的个性化特征。因此,综合利用移动设备上的用户数据以及上述搜索服务数据库中存储的结构化数据,能够给用户带来更好的查询体验与视觉效果。
在具体实现中,可以通过以下步骤建立所述搜索服务数据库:
获取感兴趣地理数据,其中,所述感兴趣地理数据包括地理位置和标签;
依据所述标签,在互联网中采集得到与所述感兴趣地理数据相应的网页数据,并连同所述感兴趣地理数据保存至第一数据库;
对所述第一数据库中的网页数据进行清洗,得到第二数据库;
将所述第二数据库中的网页数据转换为与搜索服务属性相应的结构化数据,得到第三数据库;
对所述第三数据库中同一个感兴趣地理数据对应的结构化数据进行整合,得到搜索服务数据库。
对于建立搜索服务数据库的详细过程,请参照搜索服务数据库的建立方法实施例的相关说明,在此不做赘述。
在实际中,可通过如下步骤获取所述第一搜索结果:
子步骤E1、通过移动设备中的位置感应装置(例如GPS装置)获取移动设备的当前经纬度和当前方位;
子步骤E2、依据该当前经纬度和当前方位,获取第一兴趣区域;
子步骤E3、在该搜索服务数据库中搜索该第一兴趣区域范围内的感兴趣地理数据和对应的结构化数据,得到第一搜索结果。
在本发明的一种优选实施例中,可以通过以下步骤获取第一兴趣区域:
以当前经纬度Plongitude,latitude为圆心,做一个半径为R、圆心角为θ的扇形,以该扇形区域作为第一兴趣区域或者第二兴趣区域,其中,该扇形区域关于当前方位dorient,angle对称,R、θ为根据移动设备用户输入确定,或者由服务器设置。
移动设备用户获得第一搜索结果后,可以根据需要缩小搜索范围,例如,可以通过输入变更R、θ的值,由服务器重新进行搜索。
或者,步骤202,可以包括:
步骤221、在接收到移动设备用户发送的搜索请求时,从该搜索请求中提取关键词;
步骤222、依据所述关键词及该移动设备用户的当前位置和当前方位,在该搜索服务数据库中进行搜索,并将第二搜索结果返回给该移动设备用户。
在实际中,可通过如下步骤获取所述第二搜索结果:
子步骤F1、通过移动设备中的位置感应装置获取移动设备的当前经纬度和当前方位;
子步骤F2、依据该当前经纬度和当前方位,获取第二兴趣区域;
子步骤F3、在该搜索服务数据库中搜索该第二兴趣区域范围内的、且与所述关键字相匹配的感兴趣地理数据和对应的结构化数据,得到第二搜索结果。
对于获取第二兴趣区域的过程,由于其与第一兴趣区域的获取过程类似,故在此不作赘述。
在本发明的一种优选实施例中,还可以对第二搜索结果进行排序后返回,相应地,所述将第二搜索结果返回给该移动设备用户的步骤,具体可以包括:
子步骤G1、通过统计当前关键词keyi在第一搜索结果rj中出现的次数ni,j,得到搜索结果rj与用户搜索的第一相似度scorej1=∑i=1,...,l(tfi,j*idfi),其中,ni为当前关键词的词频,归一化词频tfi,j=ni,j/ni,dfi为统计的包含keyi的元组数量,逆向文件频率idfi=log(l/dfi);
子步骤G2、计算rj所在位置与用户位置Plongitude,latitude的距离distj,进一步得到第二搜索结果rj与用户搜索的第二相似度scorej2=1/distj;
子步骤G3、根据站点可信度与IP地址分析,获得第二搜索结果rj与用户搜索的第三相似度scorej3;
子步骤G4、利用scorej1,scorej2,scorej3计算第二搜索结果rj与用户搜索的总相似度scorej=α1*scorej1+α2*scorej2+α3*scorej3,其中,α1、α2、α3分别为scorej1,scorej2,scorej3的权值,0<α1、α2、α3<1;
子步骤G5、根据scorej对第二搜索结果排序,并将排在前面的返回给用户。
网络的发展和移动设备的推广普及,使得人们将越来越多的精力投入到基于位置的移动搜索领域上来。位置信息在一定程度上可以很好地反应用户需求,因此,基于位置的移动搜索可以给用户带来更好的查询体验,为用户提供更加精准、更加符合要求的查询结果。对于商家而言,移动搜索也提供了一个很好的平台,让其能更加合理地推广它们产品及服务,而不至于因为给用户带来困扰而引起负面效果。因此,本发明可以利用位置信息,准确估计用户查询意图,提供相关的结构化信息及检索服务,也即可以提高移动检索的效率和准确率。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
以上对本发明所提供的一种基于移动设备位置的搜索服务方法和一种搜索服务数据库的建立方法,进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
Claims (15)
1.一种基于移动设备位置的搜索服务方法,其特征在于,包括:
依据移动设备的当前位置和当前方位,在搜索服务数据库中进行搜索,并将第一搜索结果推送给移动设备用户,其中,该搜索服务数据库为依据在互联网中采集得到与所述感兴趣地理数据相应的网页数据建立,该搜索服务数据库中包括有感兴趣地理数据和对应的结构化数据,所述感兴趣地理数据包括地理位置和标签;
或者,
在接收到移动设备用户发送的搜索请求时,从该搜索请求中提取关键词;
依据所述关键词及该移动设备用户的当前位置和当前方位,在该搜索服务数据库中进行搜索,并将第二搜索结果返回给该移动设备用户。
2.如权利要求1所述的方法,其特征在于,所述依据移动设备的当前位置和当前方位,在搜索服务数据库中进行搜索的步骤,包括:
通过移动设备中的位置感应装置获取移动设备的当前经纬度和当前方位;
依据该当前经纬度和当前方位,获取第一兴趣区域;
在该搜索服务数据库中搜索该第一兴趣区域范围内的感兴趣地理数据和对应的结构化数据,得到第一搜索结果。
3.如权利要求1所述的方法,其特征在于,所述依据所述关键词及该移动设备用户的当前位置和当前方位,在该搜索服务数据库中进行搜索的步骤,包括:
通过移动设备中的位置感应装置获取移动设备的当前经纬度和当前方位;
依据该当前经纬度和当前方位,获取第二兴趣区域;
在该搜索服务数据库中搜索该第二兴趣区域范围内的、且与所述关键字相匹配的感兴趣地理数据和对应的结构化数据,得到第二搜索结果。
4.如权利要求2或3所述的方法,其特征在于,通过以下步骤获取第一兴趣区域或者第二兴趣区域:
以当前经纬度Plongitude,latitude为圆心,做一个半径为R、圆心角为θ的扇形,以该扇形区域作为第一兴趣区域或者第二兴趣区域,其中,该扇形区域关于当前方位dorient,angle对称,R、θ为根据移动设备用户输入确定,或者由服务器设置。
5.如权利要求2或3所述的方法,其特征在于,还包括:
根据移动设备用户输入,变更R、θ的值。
6.如权利要求3所述的方法,其特征在于,所述将第二搜索结果返回给该移动设备用户的步骤,包括:
通过统计当前关键词keyi在第一搜索结果rj中出现的次数ni,j,得到搜索结果rj与用户搜索的第一相似度scorej1=∑i=1,...,l(tfi,j*idfi),其中,ni为当前关键词的词频,归一化词频tfi,j=ni,j/ni,dfi为统计的包含keyi的元组数量,逆向文件频率idfi=log(l/dfi);
计算rj所在位置与用户位置Plongitude,latitude的距离distj,进一步得到第二搜索结果rj与用户搜索的第二相似度scorej2=1/distj;
根据站点可信度与IP地址分析,获得第二搜索结果rj与用户搜索的第三相似度scorej3;
利用scorej1,scorej2,scorej3计算第二搜索结果rj与用户搜索的总相似度scorej=α1*scorej1+α2*scorej2+α3*scorej3,其中,α1、α2、α3分别为scorej1,scorej2,scorej3的权值,0<α1、α2、α3<1;
根据scorej对第二搜索结果排序,并将排在前面的返回给用户。
7.如权利要求1所述的方法,其特征在于,通过以下步骤建立所述搜索服务数据库:
获取感兴趣地理数据,其中,所述感兴趣地理数据包括地理位置和标签;
依据所述标签,在互联网中采集得到与所述感兴趣地理数据相应的网页数据,并连同所述感兴趣地理数据保存至第一数据库;
对所述第一数据库中的网页数据进行清洗,得到第二数据库;
将所述第二数据库中的网页数据转换为与搜索服务属性相应的结构化数据,得到第三数据库;
对所述第三数据库中同一个感兴趣地理数据对应的结构化数据进行整合,得到搜索服务数据库。
8.一种搜索服务数据库的建立方法,其特征在于,包括:
获取感兴趣地理数据,其中,所述感兴趣地理数据包括地理位置和标签;
依据所述标签,在互联网中采集得到与所述感兴趣地理数据相应的网页数据,并连同所述感兴趣地理数据保存至第一数据库;
对所述第一数据库中的网页数据进行清洗,得到第二数据库;
将所述第二数据库中的网页数据转换为与搜索服务属性相应的结构化数据,得到第三数据库;
对所述第三数据库中同一个感兴趣地理数据对应的结构化数据进行整合,得到搜索服务数据库。
9.如权利要求8所述的方法,其特征在于,所述获取感兴趣地理数据的步骤为,从空间数据库中提取地理位置及相应的标签。
10.如权利要求8所述的方法,其特征在于,所述依据所述标签得到第一数据库的步骤,包括:
针对每个感兴趣地理数据,将其标签作为关键字在互联网中进行网页查询;
选取前k条查询结果P1,1,P1,2,...,P1,k,P2,1,...,Pm,1,...,Pm,k,连同相应的感兴趣地理数据保存至第一数据库,其中,k为自然数。
11.如权利要求8所述的方法,其特征在于,所述对第一数据库中的网页数据进行清洗的步骤,包括验证所述网页数据的准确性和去除重复的网页数据。
12.如权利要求11所述的方法,其特征在于,所述去除重复的网页数据的步骤,包括:
计算两个网页之间的相似度;
若该相似度小于第一阈值,则视该两个网页重复,并从所述第一数据库中删除其中一个。
13.如权利要求11所述的方法,其特征在于,所述验证所述网页数据的准确性的步骤,包括:
统计同一标签的网页数据;
通过投票机制,保留票数高的网页数据,以及,从所述第一数据库中删除票数低的网页数据。
14.如权利要求8所述的方法,其特征在于,所述将所述第二数据库中的网页数据转换为与搜索服务属性相应的结构化数据,得到第三数据库的步骤,包括:
确定搜索服务属性;
依据所述第二数据库中的网页数据中,识别各标签对应的搜索服务属性的值;
依据搜索服务属性和相应的值,将所有网页数据转换为结构化数据,并保存至第三数据库。
15.如权利要求14所述的方法,其特征在于,所述识别各标签对应的搜索服务属性的值的方法包括:HTML识别、XML标签识别或者正则表达式匹配。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201110002625.8A CN102591867B (zh) | 2011-01-07 | 2011-01-07 | 一种基于移动设备位置的搜索服务方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201110002625.8A CN102591867B (zh) | 2011-01-07 | 2011-01-07 | 一种基于移动设备位置的搜索服务方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN102591867A true CN102591867A (zh) | 2012-07-18 |
CN102591867B CN102591867B (zh) | 2015-05-27 |
Family
ID=46480536
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201110002625.8A Expired - Fee Related CN102591867B (zh) | 2011-01-07 | 2011-01-07 | 一种基于移动设备位置的搜索服务方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN102591867B (zh) |
Cited By (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102937991A (zh) * | 2012-10-31 | 2013-02-20 | 北京奇虎科技有限公司 | 搜索导航系统和方法 |
CN103092918A (zh) * | 2012-12-21 | 2013-05-08 | 东莞中国科学院云计算产业技术创新与育成中心 | 基于位置信息的应急辅助决策系统知识库构建及查询方法 |
CN103167404A (zh) * | 2011-12-14 | 2013-06-19 | 北京千橡网景科技发展有限公司 | 用于确定兴趣点的方法和设备 |
CN103593390A (zh) * | 2013-08-22 | 2014-02-19 | 小米科技有限责任公司 | 一种多媒体信息识别的方法、装置及设备 |
CN103902680A (zh) * | 2014-03-21 | 2014-07-02 | 百度在线网络技术(北京)有限公司 | 搜索推荐方法和装置 |
CN104102433A (zh) * | 2013-04-12 | 2014-10-15 | 杭州脸脸会网络技术有限公司 | 一种基于滚轮交互的兴趣点定位方法 |
CN104424301A (zh) * | 2013-08-30 | 2015-03-18 | 北京千橡网景科技发展有限公司 | 用于提供地点信息的方法和设备 |
CN104615734A (zh) * | 2015-02-10 | 2015-05-13 | 合肥工业大学 | 一种社区管理服务大数据处理系统及其处理方法 |
CN104699835A (zh) * | 2015-03-31 | 2015-06-10 | 北京奇虎科技有限公司 | 用于确定网页页面中包括兴趣点poi数据的方法及装置 |
CN104915418A (zh) * | 2015-06-08 | 2015-09-16 | 小米科技有限责任公司 | 网站推荐方法及装置 |
CN105468601A (zh) * | 2014-08-21 | 2016-04-06 | 富泰华工业(深圳)有限公司 | 信息处理装置和信息处理系统及其信息处理方法 |
CN106407444A (zh) * | 2016-09-28 | 2017-02-15 | 北京金山安全软件有限公司 | 检索方法以及装置、终端 |
CN106454716A (zh) * | 2015-08-13 | 2017-02-22 | 株式会社理光 | 对象分析方法、对象分析设备及对象分析系统 |
CN106997349A (zh) * | 2016-01-22 | 2017-08-01 | 阿里巴巴集团控股有限公司 | 一种信息推送的方法、装置及电子设备 |
CN108763264A (zh) * | 2018-03-30 | 2018-11-06 | 斑马网络技术有限公司 | 基于车辆的智能搜索系统及其搜索方法 |
CN110188072A (zh) * | 2019-05-08 | 2019-08-30 | 北京字节跳动网络技术有限公司 | 一种文件处理方法、装置、终端、服务器及存储介质 |
CN110399568A (zh) * | 2019-07-04 | 2019-11-01 | Oppo广东移动通信有限公司 | 信息搜索方法、装置、终端及存储介质 |
CN110674419A (zh) * | 2019-01-25 | 2020-01-10 | 北京嘀嘀无限科技发展有限公司 | 地理信息检索方法、装置、电子设备及可读存储介质 |
CN111460327A (zh) * | 2020-03-10 | 2020-07-28 | 口口相传(北京)网络技术有限公司 | 兴趣地搜索方法及装置、存储介质、计算机设备 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1503200A (zh) * | 2002-11-22 | 2004-06-09 | 韩国电子通信研究院 | 提供地理目标立体图像和/或详细信息的装置及其方法 |
CN1975725A (zh) * | 2006-12-12 | 2007-06-06 | 华为技术有限公司 | 一种管理日志的方法及系统 |
WO2010051827A1 (en) * | 2008-11-06 | 2010-05-14 | Tomtom International B.V. | Data acquisition apparatus, data acquisition system and method of acquiring data |
CN201663612U (zh) * | 2010-03-05 | 2010-12-01 | 东莞市华业龙图信息技术有限公司 | 一种基于位置服务的用户兴趣建模系统 |
CN101911072A (zh) * | 2008-01-10 | 2010-12-08 | 皇家飞利浦电子股份有限公司 | 在数据项集合中搜索的方法 |
-
2011
- 2011-01-07 CN CN201110002625.8A patent/CN102591867B/zh not_active Expired - Fee Related
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1503200A (zh) * | 2002-11-22 | 2004-06-09 | 韩国电子通信研究院 | 提供地理目标立体图像和/或详细信息的装置及其方法 |
CN1975725A (zh) * | 2006-12-12 | 2007-06-06 | 华为技术有限公司 | 一种管理日志的方法及系统 |
CN101911072A (zh) * | 2008-01-10 | 2010-12-08 | 皇家飞利浦电子股份有限公司 | 在数据项集合中搜索的方法 |
WO2010051827A1 (en) * | 2008-11-06 | 2010-05-14 | Tomtom International B.V. | Data acquisition apparatus, data acquisition system and method of acquiring data |
CN201663612U (zh) * | 2010-03-05 | 2010-12-01 | 东莞市华业龙图信息技术有限公司 | 一种基于位置服务的用户兴趣建模系统 |
Cited By (24)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103167404A (zh) * | 2011-12-14 | 2013-06-19 | 北京千橡网景科技发展有限公司 | 用于确定兴趣点的方法和设备 |
CN102937991A (zh) * | 2012-10-31 | 2013-02-20 | 北京奇虎科技有限公司 | 搜索导航系统和方法 |
CN103092918A (zh) * | 2012-12-21 | 2013-05-08 | 东莞中国科学院云计算产业技术创新与育成中心 | 基于位置信息的应急辅助决策系统知识库构建及查询方法 |
CN104102433A (zh) * | 2013-04-12 | 2014-10-15 | 杭州脸脸会网络技术有限公司 | 一种基于滚轮交互的兴趣点定位方法 |
CN103593390A (zh) * | 2013-08-22 | 2014-02-19 | 小米科技有限责任公司 | 一种多媒体信息识别的方法、装置及设备 |
CN104424301A (zh) * | 2013-08-30 | 2015-03-18 | 北京千橡网景科技发展有限公司 | 用于提供地点信息的方法和设备 |
CN103902680A (zh) * | 2014-03-21 | 2014-07-02 | 百度在线网络技术(北京)有限公司 | 搜索推荐方法和装置 |
CN105468601A (zh) * | 2014-08-21 | 2016-04-06 | 富泰华工业(深圳)有限公司 | 信息处理装置和信息处理系统及其信息处理方法 |
CN104615734B (zh) * | 2015-02-10 | 2017-10-03 | 合肥工业大学 | 一种社区管理服务大数据处理系统及其处理方法 |
CN104615734A (zh) * | 2015-02-10 | 2015-05-13 | 合肥工业大学 | 一种社区管理服务大数据处理系统及其处理方法 |
CN104699835A (zh) * | 2015-03-31 | 2015-06-10 | 北京奇虎科技有限公司 | 用于确定网页页面中包括兴趣点poi数据的方法及装置 |
CN104915418A (zh) * | 2015-06-08 | 2015-09-16 | 小米科技有限责任公司 | 网站推荐方法及装置 |
CN104915418B (zh) * | 2015-06-08 | 2018-09-04 | 小米科技有限责任公司 | 网站推荐方法及装置 |
CN106454716A (zh) * | 2015-08-13 | 2017-02-22 | 株式会社理光 | 对象分析方法、对象分析设备及对象分析系统 |
CN106997349A (zh) * | 2016-01-22 | 2017-08-01 | 阿里巴巴集团控股有限公司 | 一种信息推送的方法、装置及电子设备 |
CN106997349B (zh) * | 2016-01-22 | 2020-11-20 | 创新先进技术有限公司 | 一种信息推送的方法、装置及电子设备 |
CN106407444A (zh) * | 2016-09-28 | 2017-02-15 | 北京金山安全软件有限公司 | 检索方法以及装置、终端 |
CN108763264A (zh) * | 2018-03-30 | 2018-11-06 | 斑马网络技术有限公司 | 基于车辆的智能搜索系统及其搜索方法 |
CN110674419A (zh) * | 2019-01-25 | 2020-01-10 | 北京嘀嘀无限科技发展有限公司 | 地理信息检索方法、装置、电子设备及可读存储介质 |
CN110188072A (zh) * | 2019-05-08 | 2019-08-30 | 北京字节跳动网络技术有限公司 | 一种文件处理方法、装置、终端、服务器及存储介质 |
CN110399568A (zh) * | 2019-07-04 | 2019-11-01 | Oppo广东移动通信有限公司 | 信息搜索方法、装置、终端及存储介质 |
CN110399568B (zh) * | 2019-07-04 | 2022-09-30 | Oppo广东移动通信有限公司 | 信息搜索方法、装置、终端及存储介质 |
CN111460327A (zh) * | 2020-03-10 | 2020-07-28 | 口口相传(北京)网络技术有限公司 | 兴趣地搜索方法及装置、存储介质、计算机设备 |
CN111460327B (zh) * | 2020-03-10 | 2023-06-16 | 口口相传(北京)网络技术有限公司 | 兴趣地搜索方法及装置、存储介质、计算机设备 |
Also Published As
Publication number | Publication date |
---|---|
CN102591867B (zh) | 2015-05-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102591867B (zh) | 一种基于移动设备位置的搜索服务方法 | |
KR101213887B1 (ko) | 로컬 인텐션에 기초한 검색 결과의 자동 생성을 위한시스템 및 방법 | |
CN101409748B (zh) | 一种移动终端的信息收集、索引、订阅发布系统和方法 | |
Lee et al. | A user similarity calculation based on the location for social network services | |
CN101025737B (zh) | 基于关注度的同源信息搜索引擎聚合显示方法 | |
KR101667232B1 (ko) | 의미기반 검색 장치 및 그 방법과, 의미기반 메타데이터 제공 서버 및 그 동작 방법 | |
US8150979B1 (en) | Supporting multiple landing pages | |
CN108154425B (zh) | 一种结合社会网络和位置的线下商户推荐方法 | |
CN101512586A (zh) | 对相关广告的本地服务 | |
CN103473230A (zh) | 服务范围确定方法、物流服务提供方推荐方法及相应装置 | |
CN103049440A (zh) | 一种相关文章的推荐处理方法和处理系统 | |
CN103914498A (zh) | 一种地图搜索的搜索建议方法和装置 | |
KR20060095979A (ko) | 검색 결과를 클러스터화하기 위한 시스템 및 방법 | |
CN104008109A (zh) | 基于用户兴趣的Web信息推送服务系统 | |
CN101651634A (zh) | 提供地域化信息的方法和系统 | |
CN103324645A (zh) | 一种网页推荐方法和装置 | |
CN102231152B (zh) | 基于移动终端ip地址进行精确查询的搜索方法 | |
CN101159755A (zh) | 移动搜索系统及移动搜索方法 | |
CN105760380A (zh) | 数据库查询方法、装置及系统 | |
CN103995848A (zh) | 图片搜索方法及装置 | |
CN102541936A (zh) | 兴趣点流行度获取方法和装置 | |
US9092454B2 (en) | Discovering co-located queries in geographic search logs | |
JP2010009315A (ja) | 推薦店舗提示システム | |
CN103390000A (zh) | 一种网页搜索方法及网页搜索系统 | |
CN103257962A (zh) | 信息提供方法以及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20150527 |
|
CF01 | Termination of patent right due to non-payment of annual fee |