CN101604317A - 搜索引擎的检索结果重排序方法及系统 - Google Patents

搜索引擎的检索结果重排序方法及系统 Download PDF

Info

Publication number
CN101604317A
CN101604317A CNA2009100410664A CN200910041066A CN101604317A CN 101604317 A CN101604317 A CN 101604317A CN A2009100410664 A CNA2009100410664 A CN A2009100410664A CN 200910041066 A CN200910041066 A CN 200910041066A CN 101604317 A CN101604317 A CN 101604317A
Authority
CN
China
Prior art keywords
information
user
search engine
retrieval
coding
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CNA2009100410664A
Other languages
English (en)
Inventor
王顼
陈璠
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CNA2009100410664A priority Critical patent/CN101604317A/zh
Publication of CN101604317A publication Critical patent/CN101604317A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种搜索引擎的检索结果重排序方法及系统,所述方法包括:检测用户输入的检索串,当检测到所述检索串属于本地化信息的数据集合时,则获取用户的地理信息编码;查找搜索引擎返回的检索结果中地理信息编码与所述用户的地理信息编码一致的网页,对所述网页进行加权处理;根据加权处理的结果对所述搜索引擎返回的检索结果进行重新排序。本发明还提供一种搜索引擎的检索结果重排序系统。采用本发明,能将用户需求的结果靠前优先呈现给用户,提高了检索的准确性。

Description

搜索引擎的检索结果重排序方法及系统
技术领域
本发明涉及数据处理技术领域,更具体地说,涉及一种搜索引擎的检索结果重排序方法及系统。
背景技术
目前,用户使用搜索引擎检索信息时,常常会检索一些与地区相关的信息。例如公交信息、餐饮信息、地图、租房/买房信息等等。现有的搜索引擎并未对这些与地区相关的信息做特别处理,对返回的网页数据也仅仅按照网页级别及相关性等因素进行排序,往往造成用户需要的与其所在地相关的网页数据并不能在比较靠前的位置给出。
用户需要检索某一地区的信息时,通常会通过输入地址位置名词来检索这个地区的信息。例如,用户需要检索深圳的饮食信息,则可同时输入“深圳”和“饮食”。然而,很多地区性的网站上并没有自己城市或地区的名字,例如,深圳的某个介绍饮食的网站,有可能整个网站上并没有“深圳”两个字,则该网站很可能不会被检索到,从而造成漏检。另外,一些地理名字在很多城市都有,例如“市中区”、“南山”等词汇在多个城市中都有。用户在输入这些地理名词时,很可能返回的结果并不是自己所在城市的信息。
发明内容
基于此,有必要提供一种能提高检索准确性的搜索引擎的检索结果重排序方法。
另外,还有必要提供一种能提高检索准确性的搜索引擎的检索结果重排序系统。
所述搜索引擎的检索结果重排序方法包括:检测用户输入的检索串,当检测到所述检索串属于本地化信息的数据集合时,则获取用户的地理信息编码;查找搜索引擎返回的检索结果中地理信息编码与所述用户的地理信息编码一致的网页,对所述网页进行加权处理;根据加权处理的结果对所述搜索引擎返回的检索结果进行重新排序。
该获取用户的地理信息编码的步骤具体可以是:根据用户的访问信息获取用户的地理位置信息,并查找与所述地理位置信息对应的地理信息编码。
而检测用户输入的检索串的步骤之前还可包括:存储本地化信息的数据集合。
另外,检测用户输入的检索串的步骤之前还可包括:建立地理位置信息与编码的对应关系。
该方法还可包括:获取网页数据,当网页数据包含本地化信息时,获取网页的地理位置信息,并根据地理位置信息与编码的对应关系查找网页的地理信息编码。
所述搜索引擎的检索结果重排序系统包括:检测单元,用于检测用户输入的检索串;地理信息编码单元,与检测单元相连,当检测单元检测到检索串属于本地化信息的数据集合时,则获取用户的地理信息编码;加权处理单元,与地理信息编码单元相连,从搜索引擎返回的检索结果中查找地理信息编码与用户的地理信息编码一致的网页,并对网页进行加权处理;排序单元,与加权处理单元相连,根据加权处理的结果对搜索引擎返回的检索结果进行重新排序。
该地理信息编码单元还可用于根据用户的访问信息获取用户的地理位置信息,并查找与所述地理位置信息对应的地理信息编码。
该系统还可包括存储本地化信息的数据集合的数据库。
而数据库可包括:搜索引擎数据库,用于存储搜索引擎返回的检索结果;地理信息数据库,用于存储地理位置信息与编码的对应关系的记录。
另外,该系统还可包括:网页爬虫单元,与所述数据库相连,获取网页数据,当所述网页数据包含本地化信息时,获取所述网页的地理位置信息,并根据所述地理位置信息与编码的对应关系查找网页的地理信息编码。
上述搜索引擎的检索结果重排序方法及系统中,通过检测用户输入的检索串,当检索串属于本地化信息的数据集合时,表明用户需检索的是本地化信息,则获取用户的地理信息编码,并查找搜索引擎返回的检索结果中地理信息编码与用户的地理信息编码一致的网页,对这些网页进行加权处理,将加权处理后的网页靠前,使其能优先呈现给用户。由于对包含本地化信息的网页进行了处理,无需用户输入地理名词,且能将返回的检索结果中与用户所在地区或城市相关的网页优先显示给用户,因此所得到的检索结果更准确。
附图说明
图1是一个实施例中搜索引擎的检索结果重排序方法的流程图;
图2是一个实施例中获取用户的地理信息编码的方法流程图;
图3是一个实施例中获取网页的地理信息编码的方法流程图;
图4是一个实施例中搜索引擎的检索结果重排序系统的示意图;
图5是一个实施例中网页爬虫单元与数据库的连接示意图。
具体实施方式
图1示出了一个实施例中搜索引擎的检索结果重排序方法的流程,具体过程如下:
在步骤S101中,检测用户输入的检索串,当检测到所述检索串属于本地化信息的数据集合时,则获取用户的地理信息编码。
在步骤S102中,查找搜索引擎返回的检索结果中地理信息编码与用户的地理信息编码一致的网页,对所述网页进行加权处理。
在步骤S103中,根据所述加权处理的结果对搜索引擎返回的检索结果进行重新排序。
上述本地化信息指的是与地区相关的信息,例如餐饮、公交、房屋出租、娱乐设施等适合就近体验的项目的信息。当检测到用户输入的检索串属于本地化信息的数据集合时,表明用户需检索的是本地化信息且希望就近去体验。
图2示出了一个实施例中获取用户的地理信息编码的方法流程,具体过程如下:
在下述步骤之前,需建立本地化信息的数据集合。现有的很多网站都对本地的信息进行了详细的收录,例如,各地的旅游网站、租房网站,当地的介绍饮食、小吃的网站,以及人才招聘网站等。这些网站都收录了很多当地的信息,通过分析这些网站,可以得到这些信息内容的数据集合,这个数据集合则成为本地化信息的数据集合,可将其存储在数据库中,用于后续的检测步骤使用。
另外,还需建立地理位置信息与编码的对应关系,对不同的城市或地区,可设置不同的编码,该编码成为地理信息编码。例如,广东广州的编码设置为10001,广东深圳的编码设置为10002等。为避免出现地理信息的重复,每一个地区的地理信息都应用唯一的编码表示。建立好地理位置信息与编码的对应关系后,可将其存储在数据库中。
在步骤S201中,检测用户输入的检索串。
在步骤S202中,判断用户输入的检索串是否属于本地化信息的数据集合,若是则进入步骤S203,否则结束,不获取用户的地理信息编码。
在步骤S203中,获取用户的访问信息。用户的访问信息包括用户的IP信息、GPS信息及手机信息等。这里的IP信息是指用户的IP地址,通过公开的IP地址数据库即可查找到IP地址所对应的区域。GPS信息指的是GPS定位信息,当用户进行移动搜索时,其还会带有GPS定位信息,通过对GPS定位信息解码,也可得到GPS定位信息所对应的区域。手机信息可以是手机的服务区或手机号码。
在步骤S204中,根据用户的访问信息获取用户的地理位置信息。不同的访问信息所对应的地区不同,根据用户的访问信息即可获取用户所处的地理位置。
在步骤S205中,查找与用户的地理位置信息对应的地理信息编码。根据上述建立的地理位置信息与编码的对应关系,从数据库中即可查找到与用户的地理位置信息所对应的编码,从而得到用户的地理信息编码。例如,根据用户的IP地址查找到该用户所在的地区为“深圳”,则根据数据库中存储的地理位置信息与编码的对应关系查找到该用户的地理信息编码为10002。
在一个实施方式中,执行上述步骤之前,还需对网页进行地理信息编码。图3示出了一个实施例中获取网页的地理信息编码的方法流程,具体过程如下:
如上所述,在执行下述步骤之前,也需建立本地化信息的数据集合以及建立地理位置信息与编码的对应关系,其方法原理与上述相同,在此不再赘述。
在步骤S301中,获取网页数据。在一个实施方式中,通过网页爬虫单元抓取普通的网页数据,这些网页数据包括网页所属网站的内容、网站的域名、锚文本信息等,通过这些信息则可判断该网页是否包含了本地化信息的内容。
在步骤S302中,判断网页数据是否包含本地化信息,若是,则进入步骤S303,否则结束,不对网页进行地理信息编码。
在步骤S303中,获取网页的地理位置信息。根据上述获取的网页数据则可获取网页的地理位置信息。例如,http://sz.soufun.com网站,通过网页爬虫单元获取到该网站的内容是介绍深圳的房地产信息的,则在这个站点下的所有网页的地理位置都是深圳。这里的网站并不一定是整个网站,可以是子域级别的网站。
在步骤S304中,查找与网页的地理位置信息对应的地理信息编码。根据上述建立的地理位置信息与编码的对应关系,从数据库中即可查找到与网页的地理位置信息对应的编码,该编码即网页的地理信息编码。例如,对上述介绍深圳房地产信息的网站,其所有网页的地理位置都是深圳,则这些网页对应的地理信息编码是10002。
应当说明的是,同一网页可给其分配多个不同的地理信息编码,由于行政区域的划分是层级的,当用户的地理位置信息不明确时,可将较大范围的数据反馈给用户。例如,对一个记录深圳饮食信息的网页,其地理信息编码可以对应深圳的编码,也可以对应广东的编码。
在一个实施方式中,当查找到用户的地理信息编码和网页的地理信息编码后,则可从搜索引擎返回的检索结果中查找地理信息编码与用户的地理信息编码一致的网页,并对这些网页进行加权处理,以及对检索结果进行重新排序,使加权处理过的网页的排序靠前。在一个实施例中,获取到用户的地理信息编码是10002,表明用户所属的地区为深圳。从搜索引擎返回的检索结果中查找地理信息编码为10002的网页,并对这些网页进行加权处理,以及将加权处理过的网页的排序靠前。由于对包含了本地化信息的网页进行了处理,且将包含用户所在地区的信息的网页优先呈现给了用户,避免了漏检以及靠前的网页并不适合用户所需的情形,提高了检索的准确性。同时,该方法无需用户手动输入地理名词,也提高了用户检索的便利性。
图4示出了一个实施例中搜索引擎的检索结果重排序的系统,该系统包括检测单元100、地理信息编码单元200、加权处理单元300和排序单元400。其中:
检测单元100用于检测用户输入的检索串;地理信息编码单元200与检测单元100相连,用于当检测单元100检测到用户输入的检索串属于本地化信息的数据集合时,则获取用户的地理信息编码;加权处理单元300与地理信息编码单元200相连,用于从搜索引擎返回的检索结果中查找地理信息编码与用户的地理信息编码一致的网页,并对该网页进行加权处理;排序单元400与加权处理单元300相连,用于根据加权处理的结果对搜索引擎返回的检索结果进行重新排序。
在一个实施方式中,本发明提供的系统还包括数据库500和网页爬虫单元600。图5示出了一个实施例中网页爬虫单元600与数据库500的连接示意图,其中,数据库500与检测模块100、地理信息编码单元200、加权处理单元300及排序单元400相连(图中未示出),其中存储了本地化信息的数据集合。
数据库500包括搜索引擎数据库501和地理信息数据库502,其中,搜索引擎数据库501用于存储搜索引擎返回的检索结果,即存储检索到的网页数据;地理信息数据库502与搜索引擎数据库501相连,用于存储地理位置信息与编码的对应关系。在一个实施方式中,检测单元100可根据数据库500中存储的本地化信息的数据集合判断用户输入的检索串是否属于该本地化信息的数据集合,若属于,则地理信息编码单元200获取用户的访问信息,并根据用户的访问信息获取用户的地理位置信息,以及根据地理信息数据库502中存储的地理信息位置与编码的对应关系,查找与用户的地理位置信息对应的编码,该编码即用户的地理信息编码,并将用户的地理信息编码存储在地理信息数据库502中。
网页爬虫单元600与数据库500相连,用于获取网页数据,当网页数据包含本地化信息时,获取该网页的地理位置信息,并根据地理位置信息与编码的对应关系查找网页的地理信息编码。在一个实施例中,网页爬虫单元600抓取网页数据,这些网页数据包括网页所属网站的内容、域名、锚文本信息等,通过这些信息则可判断该网页是否包含了本地化信息的内容。当网页包含本地化信息时,网页爬虫单元600根据抓取的网页数据得到网页的地理位置信息,则可根据地理信息数据库502中存储的地理位置信息与编码的对应关系查找网页的地理信息编码,并将查找到的网页的地理信息编码也存储在地理信息数据库502中。
上述实施方式中,加权处理单元300根据地理信息数据库502中存储的用户的地理信息编码和网页的地理信息编码,从搜索引擎数据库501中存储的检索结果中查找地理信息编码与用户的地理信息编码一致的网页,并对这些网页进行加权处理,然后通知排序单元400对检索结果进行重新排序。排序单元400则将加权处理的网页靠前排列,使这些网页优先呈现给用户。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (10)

1、一种搜索引擎的检索结果重排序方法,其特征在于,所述方法包括:
检测用户输入的检索串,当检测到所述检索串属于本地化信息的数据集合时,则获取用户的地理信息编码;
查找搜索引擎返回的检索结果中地理信息编码与所述用户的地理信息编码一致的网页,对所述网页进行加权处理;
根据所述加权处理的结果对所述搜索引擎返回的检索结果进行重新排序。
2、根据权利要求1所述的搜索引擎的检索结果重排序方法,其特征在于,所述获取用户的地理信息编码的步骤具体是:根据用户的访问信息获取用户的地理位置信息,并查找与所述地理位置信息对应的地理信息编码。
3、根据权利要求1所述的搜索引擎的检索结果重排序方法,其特征在于,所述检测用户输入的检索串的步骤之前还包括:存储本地化信息的数据集合。
4、根据权利要求1所述的搜索引擎的检索结果重排序方法,其特征在于,所述检测用户输入的检索串的步骤之前还包括:建立地理位置信息与编码的对应关系。
5、根据权利要求4所述的搜索引擎的检索结果重排序方法,其特征在于,所述方法还包括:获取网页数据,当所述网页数据包含本地化信息时,获取所述网页的地理位置信息,并根据所述地理位置信息与编码的对应关系查找网页的地理信息编码。
6、一种搜索引擎的检索结果重排序系统,其特征在于,所述系统包括:
检测单元,用于检测用户输入的检索串;
地理信息编码单元,与所述检测单元相连,当所述检测单元检测到所述检索串属于本地化信息的数据集合时,则获取用户的地理信息编码;
加权处理单元,与所述地理信息编码单元相连,从搜索引擎返回的检索结果中查找地理信息编码与所述用户的地理信息编码一致的网页,并对所述网页进行加权处理;
排序单元,与所述加权处理单元相连,根据所述加权处理的结果对搜索引擎返回的检索结果进行重新排序。
7、根据权利要求6所述的搜索引擎的检索结果重排序系统,其特征在于,所述地理信息编码单元还用于根据用户的访问信息获取用户的地理位置信息,并查找与所述地理位置信息对应的地理信息编码。
8、根据权利要求6所述的搜索引擎的检索结果重排序系统,其特征在于,所述系统还包括存储本地化信息的数据集合的数据库。
9、根据权利要求8所述的搜索引擎的检索结果重排序系统,其特征在于,所述数据库包括:
搜索引擎数据库,用于存储搜索引擎返回的检索结果;
地理信息数据库,用于存储地理位置信息与编码的对应关系的记录。
10、根据权利要求8所述的搜索引擎的检索结果重排序系统,其特征在于,所述系统还包括:
网页爬虫单元,与所述数据库相连,获取网页数据,当所述网页数据包含本地化信息时,获取所述网页的地理位置信息,并根据所述地理位置信息与编码的对应关系查找网页的地理信息编码。
CNA2009100410664A 2009-07-13 2009-07-13 搜索引擎的检索结果重排序方法及系统 Pending CN101604317A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CNA2009100410664A CN101604317A (zh) 2009-07-13 2009-07-13 搜索引擎的检索结果重排序方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CNA2009100410664A CN101604317A (zh) 2009-07-13 2009-07-13 搜索引擎的检索结果重排序方法及系统

Publications (1)

Publication Number Publication Date
CN101604317A true CN101604317A (zh) 2009-12-16

Family

ID=41470049

Family Applications (1)

Application Number Title Priority Date Filing Date
CNA2009100410664A Pending CN101604317A (zh) 2009-07-13 2009-07-13 搜索引擎的检索结果重排序方法及系统

Country Status (1)

Country Link
CN (1) CN101604317A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102314461A (zh) * 2010-06-30 2012-01-11 北京搜狗科技发展有限公司 一种导航提示方法及系统
CN102314462A (zh) * 2010-06-30 2012-01-11 北京搜狗科技发展有限公司 一种输入法平台获取导航结果的方法及系统
CN102708168A (zh) * 2012-04-27 2012-10-03 北京邮电大学 一种教学资源搜索结果排序的系统及方法
CN103646106A (zh) * 2013-12-23 2014-03-19 山东大学 一种基于内容相似性的Web主题排序方法
CN103678292A (zh) * 2012-08-29 2014-03-26 百度在线网络技术(北京)有限公司 一种用于基于位置信息进行排序的方法和装置
CN104615688A (zh) * 2015-01-22 2015-05-13 百度在线网络技术(北京)有限公司 一种搜索方法及装置
CN105897466A (zh) * 2016-03-30 2016-08-24 中国联合网络通信集团有限公司 一种网页资源分布的评价方法和装置

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102314461A (zh) * 2010-06-30 2012-01-11 北京搜狗科技发展有限公司 一种导航提示方法及系统
CN102314462A (zh) * 2010-06-30 2012-01-11 北京搜狗科技发展有限公司 一种输入法平台获取导航结果的方法及系统
CN102708168A (zh) * 2012-04-27 2012-10-03 北京邮电大学 一种教学资源搜索结果排序的系统及方法
CN103678292A (zh) * 2012-08-29 2014-03-26 百度在线网络技术(北京)有限公司 一种用于基于位置信息进行排序的方法和装置
CN103646106A (zh) * 2013-12-23 2014-03-19 山东大学 一种基于内容相似性的Web主题排序方法
CN103646106B (zh) * 2013-12-23 2016-05-25 山东大学 一种基于内容相似性的Web主题排序方法
CN104615688A (zh) * 2015-01-22 2015-05-13 百度在线网络技术(北京)有限公司 一种搜索方法及装置
WO2016115939A1 (zh) * 2015-01-22 2016-07-28 百度在线网络技术(北京)有限公司 一种搜索方法、装置、设备及计算机存储介质
CN105897466A (zh) * 2016-03-30 2016-08-24 中国联合网络通信集团有限公司 一种网页资源分布的评价方法和装置
CN105897466B (zh) * 2016-03-30 2018-10-12 中国联合网络通信集团有限公司 一种网页资源分布的评价方法和装置

Similar Documents

Publication Publication Date Title
CN101604317A (zh) 搜索引擎的检索结果重排序方法及系统
JP6343010B2 (ja) ワイヤレスネットワークのアクセスポイントに関連したエンティティの識別
US8458173B2 (en) Computer-implemented methods and systems for multi-level geographic query
US20150370828A1 (en) Tile-Based Distribution of Searchable Geospatial Data to Client Devices
CN102288189B (zh) 移动终端的位置信息管理方法和设备
CN101409748B (zh) 一种移动终端的信息收集、索引、订阅发布系统和方法
US20150032770A1 (en) Providing regional content by matching geographical properties
CN104965847A (zh) 信息展示方法及装置
CN102047249A (zh) 用于聚合和呈现与地理位置相关联的数据的方法和设备
CN101754363A (zh) 一种识别位置的系统、方法及装置
CN104899243A (zh) 检测兴趣点poi数据准确性的方法及装置
CN102867031A (zh) 兴趣点poi搜索结果优化方法、系统、移动终端和服务器
CN105338427A (zh) 一种对移动设备进行视频推荐的方法及装置
US8862701B2 (en) Communication network utilizing email or web addresses that describe a physical location
CN111723959A (zh) 区域的划分方法、装置、存储介质及电子装置
CN201548960U (zh) 一种获取公交信息的设备
CN106487828B (zh) 新闻推送方法及装置
CN104077329A (zh) 一种信息推荐方法和系统
CN105989024A (zh) 确定用户所在的位置区域的方法和装置
WO2012097760A1 (zh) 获取地理位置的图片的方法和移动终端
AU2015278591B2 (en) Survey (bird's-eye)-type navigation system
CN100342387C (zh) 一种应用可识别读取标签的商业系统及其便携式装置
JP5587281B2 (ja) 注記表記変換装置、注記表記変換方法および注記表記変換プログラム
CN105611022B (zh) 一种异地推荐移动终端通讯录联系人的装置和方法
WO2010093686A1 (en) System and method of identifying relevance of electronic content to location or place

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C12 Rejection of a patent application after its publication
RJ01 Rejection of invention patent application after publication

Open date: 20091216