CN103778156A - 数据搜索的方法和装置以及用于数据搜索的服务器 - Google Patents

数据搜索的方法和装置以及用于数据搜索的服务器 Download PDF

Info

Publication number
CN103778156A
CN103778156A CN201210411742.4A CN201210411742A CN103778156A CN 103778156 A CN103778156 A CN 103778156A CN 201210411742 A CN201210411742 A CN 201210411742A CN 103778156 A CN103778156 A CN 103778156A
Authority
CN
China
Prior art keywords
web page
search
search engine
key word
result data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201210411742.4A
Other languages
English (en)
Inventor
谢谦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201210411742.4A priority Critical patent/CN103778156A/zh
Publication of CN103778156A publication Critical patent/CN103778156A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请提供了一种数据搜索的方法和装置以及用于数据搜索的服务器,其中所述数据搜索的方法,包括:接收web页面请求,所述web页面请求中包括页面链接源referer信息;当所述页面链接源referer信息中包括搜索引擎的信息时,根据所述搜索引擎的信息提取相应的搜索关键词;采用所述搜索关键词进行搜索,获得搜索结果数据;返回所述web页面请求对应的web页面,并在所述web页面中展现所述搜索结果数据。本申请可以在简化用户操作,降低客户端与服务器资源耗费的基础上,提高搜索效率。

Description

数据搜索的方法和装置以及用于数据搜索的服务器
技术领域
本申请涉及网络数据搜索的技术领域,特别是涉及一种数据搜索的方法,一种数据搜索的装置,以及,一种用于数据搜索的服务器。
背景技术
现有技术中,对于网络数据的搜索通常基于搜索引擎实现。
搜索引擎指自动从因特网搜集信息,经过一定整理以后,提供给用户进行查询的系统。因特网上的信息浩瀚万千,而且毫无秩序,所有的信息像汪洋上的一个个小岛,网页链接是这些小岛之间纵横交错的桥梁,而搜索引擎,则为用户绘制一幅一目了然的信息地图,供用户随时查阅。
搜索引擎的工作原理大致可以分为:
(1)搜集信息:搜索引擎的信息搜集基本都是自动的。搜索引擎利用称为网络蜘蛛(Spider)的自动搜索机器人程序根据网页中的超链接,从少数几个网页开始,连到数据库上所有到其他网页的链接。理论上,若网页上有适当的超链接,机器人便可以遍历绝大部分网页。
(2)整理信息:搜索引擎整理信息的过程称为“创建索引”。搜索引擎不仅要保存搜集起来的信息,还要将它们按照一定的规则进行编排。这样,搜索引擎根本不用重新翻查它所有保存的信息而迅速找到所要的资料。
(3)接受查询:用户向搜索引擎发出查询,搜索引擎接受查询并向用户返回资料。搜索引擎每时每刻都要接到来自大量用户的几乎是同时发出的查询,它按照每个用户的要求检查自己的索引,在极短时间内找到用户需要的资料,并返回给用户。目前,搜索引擎返回结果主要是以网页链接的形式提供的,这样通过这些链接,用户便能到达含有自己所需资料的网页。通常搜索引擎会在这些链接下提供一小段来自这些网页的摘要信息以帮助用户判断此网页是否含有自己需要的内容。
现有技术中,用户从搜索引擎的搜索结果展示页面中点击网站的URL(统一资源定位符),即可浏览搜索引擎爬取的网页内容。然而,用户往往希望基于其提交的搜索关键词,获得某个特定网站的站内搜索数据,例如,针对用户在搜索引擎提交的“秋装新款”关键词,用户希望获得的是该关键词在某些电子商务网站的站内搜索数据。采用现有技术,针对搜索引擎返回的搜索结果数据,该搜索结果数据只是搜索引擎利用网络蜘蛛(Spider)事先抓取并存储在搜索引擎服务器中的数据,而无法实时获取到电子商务网站的站内搜索数据。因此,用户只能去查找有没有其想要的电子商务网站的URL,若有,则在点击该电子商务网站的URL进入该电子商务网站后,再在其站内提交“秋装新款”关键词进行搜索,才能获得该关键词在该电子商务网站的站内搜索数据。显然,采用现有的搜索技术不仅使用户操作繁琐,并且耗费了过多的客户端与服务器的资源,搜索效率低下。
因此,本领域技术人员迫切需要解决的问题是:提供一种数据搜索的机制,用以在简化用户操作,降低客户端与服务器资源耗费的基础上,提高搜索效率。
发明内容
本申请所要解决的技术问题是提供一种数据搜索的方法,用以在简化用户操作,降低客户端与服务器资源耗费的基础上,提高搜索效率。
相应的,本申请还提供了一种数据搜索的装置和一种用于数据搜索的服务器,用以保证上述方法在实际中的应用。
为了解决上述问题,本申请公开了一种数据搜索的方法,包括:
接收web页面请求,所述web页面请求中包括页面链接源referer信息;
当所述页面链接源referer信息中包括搜索引擎的信息时,根据所述搜索引擎的信息提取相应的搜索关键词;
采用所述搜索关键词进行搜索,获得搜索结果数据;
返回所述web页面请求对应的web页面,并在所述web页面中展现所述搜索结果数据。
优选地,所述当页面链接源referer信息中包括搜索引擎的信息时,根据所述搜索引擎的信息提取相应的搜索关键词的步骤包括:
判断所述页面链接源referer信息中,是否存在与预置的搜索引擎匹配规则匹配的信息,其中,所述搜索引擎匹配规则包括搜索引擎的网页地址URL,或者,搜索引擎的网页地址URL和对应的搜索参数;
若是,则解析所述搜索引擎的网页地址URL的编码格式以及参数名称,从中提取相应的搜索关键词。
优选地,所述采用搜索关键词进行搜索,获得搜索结果数据的步骤包括:
采用所述搜索关键词在预置的网站数据库中进行匹配,获得匹配的搜索结果数据。
优选地,在所述采用搜索关键词进行搜索,获得搜索结果数据的步骤之前,还包括:
获取所述web页面请求对应的web页面的标签;
所述采用搜索关键词进行搜索,获得搜索结果数据的步骤包括:
采用所述搜索关键词和web页面的标签,在预置的网站数据库中进行匹配,获得匹配的搜索结果数据。
优选地,所述采用搜索关键词进行搜索,获得搜索结果数据的步骤为,采用所述搜索关键词进行站内搜索,获得站内搜索结果数据;
所述站内搜索包括在预置的一个或多个网站数据库中进行的搜索,所述匹配为采用所述搜索关键词在所述预置的一个或多个网站数据库中进行文本模糊匹配。
优选地,所述在web页面中展现所述搜索结果数据的步骤包括:
在所述web页面中生成弹出层;
在所述弹出层中展现所述搜索结果数据。
优选地,所述web页面请求包括http请求,https请求。
本申请实施例还公开了一种数据搜索的装置,包括:
请求接收模块,用于接收web页面请求,所述web页面请求中包括页面链接源referer信息;
判断模块,用于判断所述页面链接源referer信息中是否包括搜索引擎的信息,若是,则调用关键词提取模块;
关键词提取模块,用于根据所述搜索引擎的信息提取相应的搜索关键词;
搜索模块,用于采用所述搜索关键词进行搜索,获得搜索结果数据;
页面返回模块,用于返回所述web页面请求对应的web页面,并在所述web页面中展现所述搜索结果数据。
优选地,所述判断模块包括:
规则匹配子模块,用于判断所述页面链接源referer信息中,是否存在与预置的搜索引擎匹配规则匹配的信息,其中,所述搜索引擎匹配规则包括搜索引擎的网页地址URL,或者,搜索引擎的网页地址URL和对应的搜索参数;若是,则调用所述关键词提取模块;
所述关键词提取模块包括:
解析子模块,用于解析所述搜索引擎的网页地址URL的编码格式以及参数名称;
提取子模块,用于按照所述搜索引擎的网页地址URL的编码格式以及参数名称,从所述搜索引擎的网页地址URL中提取相应的搜索关键词。
优选地,所述搜索模块包括:
第一匹配子模块,用于采用所述搜索关键词在预置的网站数据库中进行匹配,获得匹配的搜索结果数据。
优选地,所述的装置还包括:
页面标签获取模块,用于获取所述web页面请求对应的web页面的标签;
所述搜索模块包括:
第二匹配子模块,用于采用所述搜索关键词和web页面的标签,在预置的网站数据库中进行匹配,获得匹配的搜索结果数据。
优选地,所述页面返回模块包括:
页面生成返回子模块,用于返回所述web页面请求对应的web页面;
弹出层生成子模块,用于在所述web页面中生成弹出层;
内容展现子模块,用于在所述弹出层中展现所述搜索结果数据。
本申请实施例还公开了一种用于数据搜索的服务器,包括:
请求接收模块,用于接收web页面请求,所述web页面请求中包括页面链接源referer信息;
判断模块,用于判断所述页面链接源referer信息中是否包括搜索引擎的信息,若是,则调用关键词提取模块;
关键词提取模块,用于根据所述搜索引擎的信息提取相应的搜索关键词;
搜索模块,用于采用所述搜索关键词进行搜索,获得搜索结果数据;
页面返回模块,用于返回所述web页面请求对应的web页面,并在所述web页面中展现所述搜索结果数据。
与现有技术相比,本申请具有以下优点:
本申请根据越来越多的互联网应用依赖于搜索引擎链接引入的现状,针对通过点击搜索引擎依据搜索关键词生成的搜索结果而链接进来的用户,提取其搜索关键词进行当前网站的站内搜索,从而获得更符合用户需求的站内搜索结果数据,并在所链接页面中展现所述搜索结果数据。
本申请充分利用http请求头Referer中的URL,由于这个URL表示用户从该URL代表的页面出发访问当前请求的页面,故针对这个URL进行数据分析筛选出搜索引擎链接进来的请求,再提取出搜索引擎中用户提交的搜索关键词来进行深入地用户需求挖掘,获得与用户需求最匹配的站内搜索内容并推荐给用户。应用本实施例,用户只需从搜索引擎提交关键词进行搜索,在搜索结果中点击其所需的某个网站后,在返回的网页内容中即会包括与用户在搜索引擎所提交的关键词相关的该网站的站内搜索数据,用户只需要完成基本的搜索引擎搜索操作,就能获得其所需的特定网站的实时站内搜索数据,从而大大简化了用户操作;并且,各个网站服务器也无需反复处理客户端请求,从而节约了客户端与服务器的资源,有效提高了搜索效率。
附图说明
图1是本申请一种数据搜索的方法实施例的步骤流程图;
图2是本申请一种广告数据搜索装置实施例的结构框图。
具体实施方式
为使本申请的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本申请作进一步详细的说明。
本申请实施例的核心构思之一在于,根据越来越多的互联网应用依赖于搜索引擎链接引入的现状,针对通过点击搜索引擎依据搜索关键词生成的搜索结果而链接进来的用户,提取其搜索关键词进行当前网站的站内搜索,从而获得更符合用户需求的站内搜索结果数据,并在所链接页面中展现所述搜索结果数据。
参照图1,示出了本申请的一种数据搜索的方法实施例1的步骤流程图,具体可以包括以下步骤:
步骤101、接收web页面请求,所述web页面请求中包括页面链接源referer信息;
在本申请实施例中,所述web页面请求可以包括http请求,https请求等。以http请求为例,当在Web浏览器中输入URL时,浏览器将创建并发送相应的http请求,该请求包含所述URL以及一些与浏览器本身相关的信息。具体可以包括如下内容:
1)请求行:是一个ASCII文本行,由三个标记组成:请求的http方法、URL、http版本,之间用空格分开。
例如:{GET/lovobook/index.html http/1.0}。
2)请求头:http协议使用http请求头来传递请求的元信息。http请求头是一个用冒号分隔的名称/值对,冒号前面是http请求头的名称,后面是http的值。
http请求头中通常包含有页面链接源(referer)信息,Referer是http请求头的一部分,当浏览器向web服务器发送http请求的时候,一般会带上Referer,告诉服务器我是从哪个页面链接过来的,服务器籍此可以获得一些信息用于处理。
例如:某个http请求头中的referer信息如下:
Referer″http://www.baidu.com/s?wd=%E7%BD%91%E7%BB%9C%E8%90%A5%E9%94%80″
User-Agent″Mozilla/4.0(compatible;MSIE 5.5;Windows NT 5.0)″
其中,http://www.baidu.com即表示该referer信息中包括百度这个搜索引擎的信息。
3)空行:发送回车符和退行,通知服务器一下不再有请求头;
4)消息体:http请求中带有查询字符串时,如果是GET方法,查询字符或表单数据附加值请求行中,则消息体中就没有内容;如果是POST方法,查询字符串或表单数据及添加在消息体中。
在具体实现中,所述web页面请求可以为在搜索结果页面中点击某个链接时发出的web页面请求;还可以为在浏览器中输入url发送的web页面请求等。当然,所述web页面请求并不限定于由用户手动输入url而生成的web页面请求,其它各种方式触发生成的web页面请求都在本申请实施例所指的“web页面请求”范围内。
步骤102,当所述页面链接源referer信息中包括搜索引擎的信息时,根据所述搜索引擎的信息提取相应的搜索关键词;
在具体实现中,所述步骤102可以包括如下子步骤:
子步骤S11,判断所述页面链接源referer信息中,是否存在与预置的搜索引擎匹配规则匹配的信息;若是,则执行子步骤S12;
其中,所述搜索引擎匹配规则可以包括搜索引擎的网页地址URL,或者,搜索引擎的网页地址URL和对应的搜索参数;
子步骤S12,解析所述搜索引擎的网页地址URL的编码格式以及参数名称,从中提取相应的搜索关键词。
例如:某个http请求头中的referer信息如下:
Referer″http://www.baidu.com/s?wd=%E7%BD%91%E7%BB%9C%E8%90%A5%E9%94%80″
User-Agent″Mozilla/4.0(compatible;MSIE 5.5;Windows NT 5.0)″
其中,http://www.baidu.com对应百度搜索引擎的网页地址(URL),wd=对应百度搜索引擎的搜索参数,故可以判定该referer信息中包括百度搜索引擎的信息;在这种情况下,可以从所述搜索引擎的信息中提取对应的URL以及搜索引擎名称,通过在预置的数据池中查找对应搜索引擎的URL的参数名称与编码格式,按查找到的编码格式对URL进行解码(参数解析),从而提取到相应的搜索关键词。
当然,上述判断referer信息中是否包括搜索引擎的信息的方法,以及,根据搜索引擎的信息提取相应的搜索关键词的方法仅仅用作示例,本领域技术人员依据实际情况采用任一种方法均是可行的,本申请对此不作限制。
步骤103,采用所述搜索关键词进行搜索,获得搜索结果数据;
所述搜索的数据源可以为整个互联网的数据资源,也可以为一个或多个特定的网站数据库资源,还可以为某些特意收集的数据资源集合,本申请对此不作限制。
在本申请的一种优选实施例中,所述步骤103可以为:
采用所述搜索关键词进行站内搜索,获得站内搜索结果数据;
站内搜索即指在本网站内的搜索。在具体实现中,可以采用所述搜索关键词在预置的一个或多个网站数据库中进行匹配,获得匹配的站内搜索结果数据。
例如,当获得搜索关键词为“秋装新款”时,可以在淘宝网站的网站数据库中进行站内搜索,也可以同时在淘宝网站和天猫网站这两个网站的数据库中进行搜索。
作为本申请实施例具体应用的一种示例,所述匹配可以为文本模糊匹配,在搜索过程中采用文本匹配技术可以参考现有技术中相关说明,本发明在此不作赘述。
作为本申请的一种优选实施例,还可以在步骤103之前获取所述web页面请求对应的web页面的标签;在这种情况下,所述步骤103可以包括如下子步骤:
采用所述搜索关键词和web页面的标签,在预置的一个或多个网站数据库中进行文本模糊匹配,获得匹配的站内搜索结果数据。
本领域技术人员依据实际情况采用任一种站内搜索引擎获得站内搜索结果数据,或基于关键词在指定的网站数据库中进行匹配搜索均是可行的,本申请对此不作限制。
步骤104,返回所述web页面请求对应的web页面,并在所述web页面中展现所述搜索结果数据。
在本申请的一种优选实施例中,可以通过以下子步骤在web页面中展现所述搜索结果数据:
子步骤S31,在所述web页面中生成弹出层;
子步骤S32,在所述弹出层中展现所述搜索结果数据。
在本申请的一种优选实施例中,所述弹出层可以为DIV弹出层,在实际应用中,可以通过设置弹出层所在的页面位置,弹出框的宽度、弹出框的高度、弹出层的内容等创建弹出层,其中,弹出层的内容是站内搜索结果数据,可以用框架iframe传进来,也可以用jQuery的load()方法传进来。
当然,所述弹出层的展现方式仅仅用作示例,本领域技术人员根据实际情况任意设置站内搜索结果数据在当前web页面的展现方式都是可行的,例如,采用菜单,页面的方式等,本申请对此无需加以限制。
本申请实施例充分利用http请求头Referer中的URL,由于这个URL表示用户从该URL代表的页面出发访问当前请求的页面,故针对这个URL进行数据分析筛选出搜索引擎链接进来的请求,再提取出搜索引擎中用户提交的搜索关键词来进行深入地用户需求挖掘,获得与用户需求最匹配的站内搜索内容并推荐给用户。应用本实施例,用户只需从搜索引擎提交关键词进行搜索,在搜索结果中点击其所需的某个网站后,在返回的网页内容中即会包括与用户在搜索引擎所提交的关键词相关的该网站的站内搜索数据,用户只需要完成基本的搜索引擎搜索操作,就能获得其所需的特定网站的站内搜索数据,从而大大简化了用户操作;并且,各个网站服务器也无需反复处理客户端请求,从而节约了客户端与服务器的资源,有效提高了搜索效率。
以下提供一个应用本申请实施例的具体实例:
1)网站服务器接收用户提交的HTTP请求,所述HTTP请求包括通过搜索引擎提交的HTTP请求(即用户在搜索引擎中提交搜索后,对搜索结果中的链接进行点击后发出的http请求),或者,从其它入口提交的HTTP请求,所述其它入口可以包括通过浏览器地址栏输入的url,或者站内的url布点接入;
2|)网站服务器收到所述HTTP请求后,进行http请求头信息中的referer分析,判断是否为通过搜索引擎链接过来提交的HTTP请求;如果referer中有搜索引擎的域名和搜索参数,则可判定为通过搜索引擎链接过来提交的HTTP请求;其它入口链接进来的http请求头信息中的referer或者为空,或者是非搜索引擎的域名,如referer:http://club.alibaba.com/thread。
3)如果判断为通过搜索引擎链接过来提交的HTTP请求,则从所述搜索引擎的信息中提取对应的URL以及搜索引擎名称,通过在预置的数据池中查找对应搜索引擎的URL的参数名称与编码格式,按查找到的编码格式对URL进行解码(参数解析),从而提取到相应的搜索关键词;
4)网站服务器采用所述搜索关键词进行站内搜索,获得站内搜索结果数据;
5)网站服务器向客户端返回当前HTTP请求对应的web页面,并在web页面中展现站内搜索结果数据,即将所述站内搜索结果数据作为推荐内容向用户推荐。当用户觉得当前web页面中不满足其需求时,可以从站内搜索结果数据进一步选择其它页面的内容进行访问。
6)如果判断为从其它入口提交的HTTP请求,则直接返回当前HTTP请求对应的web页面。
需要说明的是,对于方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作并不一定是本申请所必须的。
参照图2,示出了一种数据搜索的装置实施例的结构框图,具体可以包括如下模块:
请求接收模块201,用于接收web页面请求,所述web页面请求中包括页面链接源referer信息;
判断模块202,用于判断所述页面链接源referer信息中是否包括搜索引擎的信息,若是,则调用关键词提取模块203;
关键词提取模块203,用于根据所述搜索引擎的信息提取相应的搜索关键词;
搜索模块204,用于采用所述搜索关键词进行搜索,获得搜索结果数据;
页面返回模块205,用于返回所述web页面请求对应的web页面,并在所述web页面中展现所述搜索结果数据。
在实际中,所述web页面请求可以包括http请求,https请求等。
在本申请的一种优选实施例中,所述判断模块202可以包括如下子模块:
规则匹配子模块,用于判断所述页面链接源referer信息中,是否存在与预置的搜索引擎匹配规则匹配的信息,其中,所述搜索引擎匹配规则包括搜索引擎的网页地址URL,或者,搜索引擎的网页地址URL和对应的搜索参数;若是,则调用关键词提取模块;
在具体实现中,所述关键词提取模块203可以包括以下子模块:
解析子模块,用于解析所述搜索引擎的网页地址URL的编码格式以及参数名称;
提取子模块,用于按照所述搜索引擎的网页地址URL的编码格式以及参数名称,从所述搜索引擎的网页地址URL中提取相应的搜索关键词。
作为本申请实施例具体应用的一种示例,所述搜索模块204可以包括以下子模块:
第一匹配子模块,用于采用所述搜索关键词在预置的网站数据库中进行匹配,获得匹配的搜索结果数据。
更为优选的是,所述第一匹配子模块还可以包括以下单元:
第一文本匹配单元,用于采用所述搜索关键词在预置的一个或多个网站数据库中进行文本模糊匹配;
第一结果获取单元,用于获得所述搜索关键词匹配的搜索结果数据。
作为本申请实施例具体应用的另一种示例,本申请实施例还可以包括以下模块:
页面标签获取模块,用于获取所述web页面请求对应的web页面的标签;
在这种情况下,所述搜索模块204可以包括以下子模块:
第二匹配子模块,用于采用所述搜索关键词和web页面的标签,在预置的网站数据库中进行文本模糊匹配,获得匹配的站内搜索结果数据。
更为优选的是,所述第二匹配子模块还可以包括以下单元:
第二文本匹配单元,用于采用所述搜索关键词和web页面的标签在预置的一个或多个网站数据库中进行文本模糊匹配;
第二结果获取单元,用于获得所述搜索关键词和web页面的标签匹配的搜索结果数据。
在具体实现中,所述页面返回模块205可以包括以下子模块:
页面生成返回子模块,用于返回所述web页面请求对应的web页面;
弹出层生成子模块,用于在所述web页面中生成弹出层;
内容展现子模块,用于在所述弹出层中展现所述搜索结果数据。
由于所述装置实施例基本相应于前述方法实施例,故本实施例的描述中未详尽之处,可以参见前述实施例中的相关说明,在此就不赘述了。
本申请还公开了一种用于数据搜索的服务器,可以包括以下模块:
请求接收模块,用于接收web页面请求,所述web页面请求中包括页面链接源referer信息;
判断模块,用于判断所述页面链接源referer信息中是否包括搜索引擎的信息,若是,则调用关键词提取模块;
关键词提取模块,用于根据所述搜索引擎的信息提取相应的搜索关键词;
搜索模块,用于采用所述搜索关键词进行搜索,获得搜索结果数据;
页面返回模块,用于返回所述web页面请求对应的web页面,并在所述web页面中展现所述搜索结果数据。
在实际中,所述web页面请求可以包括http请求,https请求等。
在本申请的一种优选实施例中,所述判断模块可以包括如下子模块:
规则匹配子模块,用于判断所述页面链接源referer信息中,是否存在与预置的搜索引擎匹配规则匹配的信息,其中,所述搜索引擎匹配规则包括搜索引擎的网页地址URL,或者,搜索引擎的网页地址URL和对应的搜索参数;若是,则调用关键词提取模块;
在具体实现中,所述关键词提取模块可以包括以下子模块:
解析子模块,用于解析所述搜索引擎的网页地址URL的编码格式以及参数名称;
提取子模块,用于按照所述搜索引擎的网页地址URL的编码格式以及参数名称,从所述搜索引擎的网页地址URL中提取相应的搜索关键词。
作为本申请实施例具体应用的一种示例,所述搜索模块可以包括以下子模块:
第一匹配子模块,用于采用所述搜索关键词在预置的网站数据库中进行匹配,获得匹配的搜索结果数据。
作为本申请实施例具体应用的另一种示例,本申请实施例还可以包括以下模块:
页面标签获取模块,用于获取所述web页面请求对应的web页面的标签;
在这种情况下,所述搜索模块可以包括以下子模块:
第二匹配子模块,用于采用所述搜索关键词和web页面的标签,在预置的网站数据库中进行匹配,获得匹配的搜索结果数据。
在具体实现中,所述页面返回模块可以用于向客户端返回所述web页面请求对应的web页面;并且,在所述web页面中可以生成弹出层,在所述弹出层中展现所述搜索结果数据。
由于所述服务器的实施例基本相应于前述方法实施例,故本实施例的描述中未详尽之处,可以参见前述实施例中的相关说明,在此就不赘述了。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本申请的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。
最后,还需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个......”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上对本申请所提供的一种数据搜索的方法,以及,一种数据搜索的装置进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。

Claims (13)

1.一种数据搜索的方法,其特征在于,包括:
接收web页面请求,所述web页面请求中包括页面链接源referer信息;
当所述页面链接源referer信息中包括搜索引擎的信息时,根据所述搜索引擎的信息提取相应的搜索关键词;
采用所述搜索关键词进行搜索,获得搜索结果数据;
返回所述web页面请求对应的web页面,并在所述web页面中展现所述搜索结果数据。
2.如权利要求1所述的方法,其特征在于,所述当页面链接源referer信息中包括搜索引擎的信息时,根据所述搜索引擎的信息提取相应的搜索关键词的步骤包括:
判断所述页面链接源referer信息中,是否存在与预置的搜索引擎匹配规则匹配的信息,其中,所述搜索引擎匹配规则包括搜索引擎的网页地址URL,或者,搜索引擎的网页地址URL和对应的搜索参数;
若是,则解析所述搜索引擎的网页地址URL的编码格式以及参数名称,从中提取相应的搜索关键词。
3.如权利要求1所述的方法,其特征在于,所述采用搜索关键词进行搜索,获得搜索结果数据的步骤包括:
采用所述搜索关键词在预置的网站数据库中进行匹配,获得匹配的搜索结果数据。
4.如权利要求1所述的方法,其特征在于,在所述采用搜索关键词进行搜索,获得搜索结果数据的步骤之前,还包括:
获取所述web页面请求对应的web页面的标签;
所述采用搜索关键词进行搜索,获得搜索结果数据的步骤包括:
采用所述搜索关键词和web页面的标签,在预置的网站数据库中进行匹配,获得匹配的搜索结果数据。
5.如权利要求3或4所述的方法,其特征在于,所述采用搜索关键词进行搜索,获得搜索结果数据的步骤为,采用所述搜索关键词进行站内搜索,获得站内搜索结果数据;
所述站内搜索包括在预置的一个或多个网站数据库中进行的搜索,所述匹配为采用所述搜索关键词在所述预置的一个或多个网站数据库中进行文本模糊匹配。
6.如权利要求1、2、3或4所述的方法,其特征在于,所述在web页面中展现所述搜索结果数据的步骤包括:
在所述web页面中生成弹出层;
在所述弹出层中展现所述搜索结果数据。
7.如权利要求1、2、3或4所述的方法,其特征在于,所述web页面请求包括http请求,https请求。
8.一种数据搜索的装置,其特征在于,包括:
请求接收模块,用于接收web页面请求,所述web页面请求中包括页面链接源referer信息;
判断模块,用于判断所述页面链接源referer信息中是否包括搜索引擎的信息,若是,则调用关键词提取模块;
关键词提取模块,用于根据所述搜索引擎的信息提取相应的搜索关键词;
搜索模块,用于采用所述搜索关键词进行搜索,获得搜索结果数据;
页面返回模块,用于返回所述web页面请求对应的web页面,并在所述web页面中展现所述搜索结果数据。
9.如权利要求8所述的装置,其特征在于,所述判断模块包括:
规则匹配子模块,用于判断所述页面链接源referer信息中,是否存在与预置的搜索引擎匹配规则匹配的信息,其中,所述搜索引擎匹配规则包括搜索引擎的网页地址URL,或者,搜索引擎的网页地址URL和对应的搜索参数;若是,则调用所述关键词提取模块;
所述关键词提取模块包括:
解析子模块,用于解析所述搜索引擎的网页地址URL的编码格式以及参数名称;
提取子模块,用于按照所述搜索引擎的网页地址URL的编码格式以及参数名称,从所述搜索引擎的网页地址URL中提取相应的搜索关键词。
10.如权利要求8或9所述的装置,其特征在于,所述搜索模块包括:
第一匹配子模块,用于采用所述搜索关键词在预置的网站数据库中进行匹配,获得匹配的搜索结果数据。
11.如权利要求8或9所述的装置,其特征在于,还包括:
页面标签获取模块,用于获取所述web页面请求对应的web页面的标签;
所述搜索模块包括:
第二匹配子模块,用于采用所述搜索关键词和web页面的标签,在预置的网站数据库中进行匹配,获得匹配的搜索结果数据。
12.如权利要求8所述的装置,其特征在于,所述页面返回模块包括:
页面生成返回子模块,用于返回所述web页面请求对应的web页面;
弹出层生成子模块,用于在所述web页面中生成弹出层;
内容展现子模块,用于在所述弹出层中展现所述搜索结果数据。
13.一种用于数据搜索的服务器,其特征在于,包括:
请求接收模块,用于接收web页面请求,所述web页面请求中包括页面链接源referer信息;
判断模块,用于判断所述页面链接源referer信息中是否包括搜索引擎的信息,若是,则调用关键词提取模块;
关键词提取模块,用于根据所述搜索引擎的信息提取相应的搜索关键词;
搜索模块,用于采用所述搜索关键词进行搜索,获得搜索结果数据;
页面返回模块,用于返回所述web页面请求对应的web页面,并在所述web页面中展现所述搜索结果数据。
CN201210411742.4A 2012-10-24 2012-10-24 数据搜索的方法和装置以及用于数据搜索的服务器 Pending CN103778156A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210411742.4A CN103778156A (zh) 2012-10-24 2012-10-24 数据搜索的方法和装置以及用于数据搜索的服务器

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210411742.4A CN103778156A (zh) 2012-10-24 2012-10-24 数据搜索的方法和装置以及用于数据搜索的服务器

Publications (1)

Publication Number Publication Date
CN103778156A true CN103778156A (zh) 2014-05-07

Family

ID=50570398

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210411742.4A Pending CN103778156A (zh) 2012-10-24 2012-10-24 数据搜索的方法和装置以及用于数据搜索的服务器

Country Status (1)

Country Link
CN (1) CN103778156A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105138579A (zh) * 2015-07-31 2015-12-09 北京金山安全软件有限公司 获取关键词和基于该关键词进行信息推荐的方法及装置
CN105808606A (zh) * 2014-12-31 2016-07-27 北京奇虎科技有限公司 一种移动设备上的搜索方法和装置
CN106547821A (zh) * 2016-09-29 2017-03-29 广东工业大学 一种浏览器内根据关键词搜索相关网页的方法
CN106687949A (zh) * 2014-06-24 2017-05-17 谷歌公司 本地应用的搜索结果
CN108738362A (zh) * 2017-02-15 2018-11-02 谷歌有限责任公司 基于多层级引用符数据生成应用的深度链接
CN110110185A (zh) * 2018-01-16 2019-08-09 中兴通讯股份有限公司 一种提取浏览器搜索引擎的方法、设备及存储介质
CN112084441A (zh) * 2019-06-13 2020-12-15 北京字节跳动网络技术有限公司 信息检索方法、装置和电子设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090125577A1 (en) * 2007-11-09 2009-05-14 Hitachi, Ltd. Backup executability judging system
CN102306201A (zh) * 2011-09-30 2012-01-04 邢飞 一种网页标题分析的方法和系统
CN102355488A (zh) * 2011-08-15 2012-02-15 北京星网锐捷网络技术有限公司 爬虫种子获取方法与设备及爬虫爬取方法与设备

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090125577A1 (en) * 2007-11-09 2009-05-14 Hitachi, Ltd. Backup executability judging system
CN102355488A (zh) * 2011-08-15 2012-02-15 北京星网锐捷网络技术有限公司 爬虫种子获取方法与设备及爬虫爬取方法与设备
CN102306201A (zh) * 2011-09-30 2012-01-04 邢飞 一种网页标题分析的方法和系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
BIAN WANG 等: "A Prediction Study of Transactions Based on E-commerce Site Search Data", 《CONFERENCE ON WEB BASED BUSINESS MANAGEMENT (WBM2012)》 *
张红宇: "浅论SEO及其实现", 《科技论坛》 *

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106687949A (zh) * 2014-06-24 2017-05-17 谷歌公司 本地应用的搜索结果
US10713324B2 (en) 2014-06-24 2020-07-14 Google Llc Search results for native applications
CN105808606A (zh) * 2014-12-31 2016-07-27 北京奇虎科技有限公司 一种移动设备上的搜索方法和装置
CN105808606B (zh) * 2014-12-31 2020-05-15 北京奇虎科技有限公司 一种移动设备上的搜索方法和装置
CN105138579A (zh) * 2015-07-31 2015-12-09 北京金山安全软件有限公司 获取关键词和基于该关键词进行信息推荐的方法及装置
CN106547821A (zh) * 2016-09-29 2017-03-29 广东工业大学 一种浏览器内根据关键词搜索相关网页的方法
CN108738362A (zh) * 2017-02-15 2018-11-02 谷歌有限责任公司 基于多层级引用符数据生成应用的深度链接
CN108738362B (zh) * 2017-02-15 2022-04-08 谷歌有限责任公司 基于多层级引用符数据生成应用的深度链接
CN110110185A (zh) * 2018-01-16 2019-08-09 中兴通讯股份有限公司 一种提取浏览器搜索引擎的方法、设备及存储介质
CN112084441A (zh) * 2019-06-13 2020-12-15 北京字节跳动网络技术有限公司 信息检索方法、装置和电子设备

Similar Documents

Publication Publication Date Title
CN102073725B (zh) 结构化数据的搜索方法和实现该搜索方法的搜索引擎系统
CN103778156A (zh) 数据搜索的方法和装置以及用于数据搜索的服务器
Elgazzar et al. Clustering wsdl documents to bootstrap the discovery of web services
US9292877B2 (en) Methods and systems for generating concept-based hash tags
US9002821B2 (en) Indexing application pages of native applications
EP3161678B1 (en) Deep links for native applications
CN100476830C (zh) 一种网络资源检索方法及系统
CN101231661B (zh) 对象级知识挖掘的方法和系统
CN106687949B (zh) 本地应用的搜索结果
CN102760151B (zh) 开源软件获取与搜索系统的实现方法
US11263062B2 (en) API mashup exploration and recommendation
WO2010120941A2 (en) Automatic mapping of a location identifier pattern of an object to a semantic type using object metadata
CN103838785A (zh) 一种专利领域的垂直搜索引擎
CN102270331A (zh) 基于可视化搜索的网络购物导航方法
CN101571860A (zh) 动态网页生成方法和装置、提取结构化数据的方法和装置
CN106446113A (zh) 移动大数据解析方法及装置
CN102760150A (zh) 基于属性重现和标签路径的网页抽取方法
CN103838862A (zh) 一种视频搜索的方法、装置及终端
CN103365932A (zh) 一种网页搜索方法和装置
CN103793495A (zh) 应用信息检索方法及系统和应用信息获取方法及系统
CN104778232B (zh) 一种基于长查询的搜索结果的优化方法和装置
US20140074814A1 (en) Method and apparatus for switching search engine to repeat search
EP2711838A1 (en) Documentation parser
CN105574185A (zh) 一种提供聚合类型的智能摘要的方法和装置
CN106940719B (zh) 一种页面跳转方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 1194177

Country of ref document: HK

RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20140507

REG Reference to a national code

Ref country code: HK

Ref legal event code: WD

Ref document number: 1194177

Country of ref document: HK