CN102831252B - 一种用于更新索引数据库的方法及装置、搜索方法和系统 - Google Patents
一种用于更新索引数据库的方法及装置、搜索方法和系统 Download PDFInfo
- Publication number
- CN102831252B CN102831252B CN201210357182.9A CN201210357182A CN102831252B CN 102831252 B CN102831252 B CN 102831252B CN 201210357182 A CN201210357182 A CN 201210357182A CN 102831252 B CN102831252 B CN 102831252B
- Authority
- CN
- China
- Prior art keywords
- searched
- webpage
- data base
- index data
- thing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 66
- 241000239290 Araneae Species 0.000 claims description 23
- 230000009471 action Effects 0.000 claims description 18
- 230000008859 change Effects 0.000 claims description 13
- 238000013507 mapping Methods 0.000 claims description 8
- 230000006870 function Effects 0.000 claims description 7
- 238000004321 preservation Methods 0.000 claims description 6
- 238000012163 sequencing technique Methods 0.000 claims description 4
- 230000006399 behavior Effects 0.000 description 47
- 230000000875 corresponding effect Effects 0.000 description 17
- 238000005516 engineering process Methods 0.000 description 10
- 230000008569 process Effects 0.000 description 9
- 238000010586 diagram Methods 0.000 description 8
- 230000008901 benefit Effects 0.000 description 4
- 230000009193 crawling Effects 0.000 description 3
- 238000004590 computer program Methods 0.000 description 2
- 230000002596 correlated effect Effects 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 239000002699 waste material Substances 0.000 description 2
- 238000004891 communication Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 239000003550 marker Substances 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000009897 systematic effect Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Information Transfer Between Computers (AREA)
Abstract
本发明公开了一种用于更新索引数据库的方法,包括:获取客户端搜索被搜索物的操作行为的对象;根据所述操作行为的对象,由源网站获取与该操作行为的对象相关的被搜索物最新的属性信息;根据所述被搜索物最新的属性信息,更新索引数据库中所述被搜索物的状态信息。本发明还公开了一种用于更新索引数据库的装置。能够使得索引数据库中的被搜索物状态信息得到高频率更新,且占用资源少。本发明同时公开了一种用于提供被搜索物状态信息搜索服务的方法和一种用于提供被搜索物状态信息搜索服务的系统,该方法和系统能够提供被搜索物最新状态信息。
Description
技术领域
本发明涉及计算机搜索技术领域,具体涉及一种购物搜索中用于更新索引数据库的方法及装置。本发明同时还涉及一种用于提供被搜索物状态信息搜索服务的方法和系统。
背景技术
购物搜索是指通过购物搜索引擎搜索欲购买的商品的价格、库存、规格、图片等状态信息(以下简称商品信息)。购物搜索与一般的网页搜索相比,具备诸多的优点:通过购物搜索可以展示各个购物网站的商品信息,还可以对不同购物网站的商品进行比价,而且也可以对商品进行在线商店评级。越来越多人开始使用并依赖购物搜索来搜索并购买需要的商品。
现有的购物搜索引擎的原理如下:
通过网络蜘蛛(spider)爬取各个购物网站的网页;解析出网上的商品信息;建立索引数据库,即索引关键词到商品信息之间映射关系;
搜索时,用户由客户端搜索入口输入关键词,通过索引数据库中关键词与商品信息之间的映射关系,找找相关的商品信息,并将该信息呈现给用户,即完成了用户的搜索。
索引数据库中的数据需要定期进行更新,以便能够使数据库中商品信息能够与源网站保持一致。比如,有的购物网站一天更新一次。数据库更新的原理同上,即用网络蜘蛛爬取网页,解析网页,然后重新建立索引数据。在更新时由于受网络带宽资源或服务器资源等方面的限制,可能无法将全部数据更新,故只能更新部分。因而,更新时会有优先级的考量,比如有的搜索引擎将数据库中时间久未更新的商品信息作为标记为高优先级,优选进行更新。各个购物搜索引擎的更新调度策略不尽相同,这里仅举出上面的例子来说明。
在现实情况中,购物网站(或在线商店)的商品信息不断在变化,其变化的周期往往小于搜索引起更新的周期,而搜索引擎受诸如带宽资源、购物网站服务器以及搜索引擎自身索引等方面的限制,只能按照较低的、固定的频率在固定的时间(例如一天一次或者更低的频率)创建索引,更新索引数据库中的信息。这使得创建索引之前得到更新的商品信息能够反映在索引中,但之后的变化往往无能为力。反映在搜索结果上就是,商品在陈列系统中展示的时候,商品信息跟源网站信息会有不符的问题,比如商品的是否有售状态不一致、价格不一致等等。而为了提高信息的准确性,只能频繁的建立索引,然后检索系统加载索引,这不但浪费机器资源,而且也很耗时,商品的状态更新仍会有大量延迟。
发明内容
鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的用于更新索引数据库的方法及相应的用于更新索引数据库的装置。本发明同时还提供了一种用于提供被搜索物状态信息搜索服务的方法和系统。
依据本发明的一个方面,提供了一种用于更新索引数据库的方法,包括:
获取客户端搜索被搜索物的操作行为的对象;根据所述操作行为的对象,由源网站获取与该操作行为的对象相关的被搜索物最新的属性信息;根据所述被搜索物最新的属性信息,更新索引数据库中所述被搜索物的状态信息。
可选的,所述搜索被搜索物的操作行为包括以下行为中的一种或多种:
接收客户端在搜索入口输入的被搜索物关键词查询请求,接收点击的链接请求,接收收藏或保存搜索到的被搜索物页面的请求;
所述操作行为的对象包括以下中的一种或多种:
在搜索入口中输入的被搜索物的关键词、点击的已搜索出的被搜索物链接,收藏或保存搜索到的被搜索物网页。
可选的,所述收藏或保存搜索到的被搜索物网页包括:将网页网址保存到浏览器的收藏夹或书签中,或者将网页保存到本地客户端。
可选的,所述获取客户端搜索被搜索物的操作行为的对象包括:
通过异步的JavaSrcipt和可扩展标记语言向服务器发送异步消息的方式获取客户端搜索被搜索物的操作行为的对象。
可选的,所述根据所述操作行为的对象,由源网站获取与该操作行为的对象相关的被搜索物最新的属性信息包括:
通过网络蜘蛛爬取与该对象对应的网页或与该对象相关的被搜索物的网页;
解析所爬取的网页,获得被搜索物最新的属性信息。
可选的,解析所爬取的网页,获得被搜索物最新的属性信息包括:
采用正则表达式方式,由网页页面中提取被搜索物最新的属性信息。
可选的,所述通过网络蜘蛛爬取与该对象对应的网页或与该对象相关的被搜索物的网页包括:
判断待爬取的网页本次爬取与最近一次的爬取的时间间隔是否满足设定的间隔阈值;若满足,则执行本次爬取动作;否则,不执行本次爬取动作。
可选的,所述通过网络蜘蛛爬取与该对象对应的网页或与该对象相关的被搜索物的网页包括:
按照网页获取的时间先后顺序对待爬取的网页排序,在后获取的网页排在在先获取的网页的前面;
对排序的网页顺次执行爬取动作。
可选的,所述更新索引数据库中所述被搜索物的状态信息包括:
与索引数据库中已有的被搜索物比对,判断获取的被搜索物最新的状态信息是否不同;
若是,更改该被搜索物的状态信息记录;
若否,则不更改该被搜索物的状态信息记录。
可选的,所述更改被搜索物的状态信息记录的方法包括:
存储被搜索物的最新状态信息;
建立关键词到所述被搜索物的最新状态信息的映射。
根据本发明的另一方面,还提供一种用于提供被搜索物状态信息搜索服务的方法,包括:
接收客户端输入的被搜索物搜索词;
根据所述被搜索物搜索词,在索引数据库中搜索对应的被搜索物的属性信息,所述索引数据库通过上述中任一项所述的用于更新索引数据库的方法进行更新;
向客户端展现关于所述被搜索物状态更新后的搜索结果。
根据本发明的另一方面,还提供一种用于更新索引数据库的装置,包括:
获取单元,用于获取客户端搜索被搜索物的操作行为的对象;
下载单元,根据所述操作行为的对象,由源网站获取与该操作行为的对象相关的被搜索物最新的属性信息;
更新单元,用于根据所述被搜索物最新的属性信息,更新索引数据库中所述被搜索物的状态信息。
可选的,所述下载单元包括:
爬取单元,用于通过网络蜘蛛爬取与该对象对应的网页或与该对象相关的被搜索物的网页;
解析单元,用于析所爬取的网页,获得被搜索物最新的属性信息。
可选的,所述爬取单元包括:
判断单元,用于判断待爬取的网页本次爬取与最近一次的爬取的时间间隔是否满足设定的间隔阈值;
执行单元,用于执行爬取动作。
可选的,所述爬取单元包括:
排序单元,用于按照网页获取的时间先后顺序对待爬取的网页排序,在后获取的网页排在在先获取的网页的前面;
调度单元,用于调度排序的网页顺次执行爬取动作。
可选的,所述更新单元包括:
比对单元,用于与索引数据库中已有的被搜索物比对,判断获取的被搜索物最新的状态信息是否不同;
更改单元,用于在所述状态信息不同时更改索引数据库中的状态信息记录。
可选的,所述更改单元包括:
存储单元,用于存储被搜索物的最新状态信息;
映射单元,用于建立关键词到所述被搜索物的最新状态信息的映射。
根据本发明的另一方面,还提供一种用于提供被搜索物状态信息搜索服务的系统,包括:
客户端,用于接收客户端输入的被搜索物搜索词以及向客户端展现关于被搜索物的搜索结果;
服务器,用于根据所述被搜索物搜索词,在索引数据库中搜索对应的被搜索物的属性信息,并按照上述中任一项所述的用于更新索引数据库的方法进行更新所述索引数据库,向客户端发送关于所述被搜索物的搜索结果。
本发明的用于更新索引数据库的方法,以客户端在搜索时的搜索操作行为为依据,认为客户端搜索时操作的被搜索物为热门产品,根据该操作行为爬取该被搜索物相关的源网站的网页,并解析获取网页上被搜索物的属性信息,依据该属性信息更新索引数据库中相应的被搜索物状态信息中;客户端的每一次操作行为都会作为触发搜索引擎的索引数据库中被搜索物状态信息更新的依据,故索引数据库中的被搜索物状态信息能够高频率的得到更新,由此解决了客户端在访问搜索网站时,被搜索物状态信息与源网站不一致的问题;此外,本方法中由客户端操作行为引起的被搜索物状态信息更新的数据量相比背景技术中的更新数据量大大下降,且本方法中不必在每次更新后再次执行索引的步骤,直接更改被搜索物状态信息记录即可,因而不会不过多占用带宽资源,不增加及其资源的消耗且耗时较少。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1为本发明的一种用于更新索引数据库的方法的实施例的流程图;
图2为本发明的一种用于更新索引数据库的装置的一种实施例的示意图;
图3为本发明的一种用于提供被搜索物状态信息搜索服务的方法的实施例的流程图;以及
图4为本发明的一种用于提供被搜索物状态信息搜索服务的系统的实施例的示意图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
请参看图1,其为本发明的一种用于更新索引数据库的方法的实施例的流程图。
步骤100,获取客户端搜索被搜索物的操作行为的对象。
所述搜索被搜索物的操作行为具体包括以下行为中的一种或多种:接收客户端在搜索入口输入的被搜索物关键词查询请求,接收点击的链接请求,接收收藏或保存搜索到的被搜索物页面的请求。
所述操作行为的对象包括以下中的一种或多种:在搜索入口中输入的被搜索物的关键词、点击的已搜索出的被搜索物链接,收藏或保存搜索到的被搜索物网页。其中,所述收藏或保存搜索到的被搜索物网页具体包括将网页网址保存到浏览器的收藏夹或书签中,或者将网页保存到本地客户端、拷贝屏幕,或者通过一些笔记软件记录被搜索物网页等行为。
需要说明的是,本申请中的“被搜索物”包括有形的产品,还包括无形的服务,例如购物搜索中的商品,服务产品搜索中的“金融产品”、“保险产品”、“旅游产品”等等,应当理解,本实施例的方法可以应用到所有垂直搜索领域中。在本实施例的描述中,具体以被搜索物为购物搜索中的商品为例来进行说明。但是本领域技术人员应当意识到本实施例的方法可应用于垂直搜索领域中任何被搜索信息与源网站不一致的情形。
具体而言,以购物搜索为例,购物搜索时,一种典型的模式如下:在客户端输入商品的名称、型号等待搜索信息信息。由客户端浏览器向Web(WORLDWIDEWEB)服务器发送搜索请求。Web服务器将该请求提交给嵌入到服务器中的PHP(HypertextPreprocessor,超文本预处理语言)引擎。由该PHP引擎处理请求,并查询存储于服务器上数据库,获取满足要求的商品及其属性信息,生成页面。然后服务器将完成的页面回传给浏览器,最终通过浏览器展现给客户端用户。
用户可以对感兴趣的商品进行进一步操作,例如,点击回传页面上某商品的链接,此时,客户端执行同样的操作,将该点击请求上传,服务器回传,并下发该链接的具体内容。此外,用户还可以保存、收藏该页面,以备后续进一步操作或者查询。
可见,所述搜索商品的操作行为即为上述的客户端为获取搜索结果而执行的任何与获取该搜索结果有关的操作。本实施例中仅仅列举其中的几种搜索商品的操作行为,但并非是穷举。不难理解,所述搜索商品的操作行为的对象即指该操作行为具体指向的内容。
本实施例的本步骤中,所述获取客户端搜索商品的操作行为的对象包括,通过异步数据传输的方法获取客户端搜索商品的操作行为的对象。具体而言,在客户端Web搜索商品时,通过Ajax(AsynchronousJavaScriptandXML)向服务器发送客户端搜索商品的操作行为。其中,Ajax为异步的JavaSrcipt和可扩展标记语言(ExtensibleMarkupLanguage,XML),其原理简单来说,实际上就是通过XmlHttpRequest对象来向服务器发异步请求,从服务器获得数据,然后用javascript来操作DOM(DocumentObjectModel,文档对象模型)而更新页面。本实施例中具体用到了Ajax向服务器发送异步请求的技术。
步骤110,根据所述操作行为的对象,由源网站获取与该操作行为的对象相关的被搜索物最新的属性信息。
如上所述,若所述操作行为是输入商品关键词的查询请求,其对象即为所输入的商品关键词;若所述操作行为点击搜索到的某商品的统一资源定位符(UniformResoureLocator,url),则其对象即为该url;...在获取的所述操作行为的对象包含的商品的基础上,到源网站(即源购物网站)获取所述的商品的最新的属性信息。
其中,所述根据所述操作行为的对象,由源网站获取与该操作行为的对象相关的商品最新的属性信息包括:a,通过网络蜘蛛(WebSpider,也称为搜索引擎蜘蛛)爬取与该对象对应的网页或与该对象相关的商品的网页;b,解析所爬取的网页,获得商品最新的属性信息。
具体而言,由客户端提交的请求为输入商品的关键词的查询请求,则在检索数据库中查询所有与该商品关键词相关的数据,获得其保存在数据库中的url,将该url提交给网络蜘蛛,由网络蜘蛛爬取该url对应的网页,该网页上即保存有该商品最新的属性信息,包括商品的最新价格、是否有售的状态、商品的规格以及图片等状态信息。通过网页解析获取商品的最新的属性信息。若由客户端提交的请求为点击某商品的url的请求行为,则网络蜘蛛可根据该url,爬取其相应的网页。
所述网络蜘蛛通过网页的链接地址来寻找网页,并从网站某一个页面(通常是首页)开始,读取网页的内容,找到在网页中的其它链接地址,然后通过这些链接地址寻找下一个网页,这样一直循环下去,直到把这个网站所有的网页都抓取完为止。目前,各大搜索网站都有自己的网络蜘蛛程序,通过不同的爬取策略实现网页的抓取。本实施例中所称的网络蜘蛛并不局限于某一具体的网络蜘蛛程序,应当理解,任何的网络蜘蛛程序都能够应用到本实施例中,以实现本发明的目的。
所述的网页解析是指去除网页中的格式标签,提取正文内容或目标内容。由于网页结构复杂且多变,目前已经发展了多种网页解析技术。例如基于字符串匹配的正则表达式方式的网页内容和标记提取技术,基于文件对象模型(DocumentObjectModel,简称DOM)树形结构的路径抽象表达式提取Web页面信息的方法,基于模板的网页信息解析技术等等。本实施例中,并不限制使用哪一种网页解析技术。应当理解,任何能够实现抽取网页商品属性信息的网页解析技术均可应用于本实施例中。
由于在同一时刻或较短的时间段内,客户端可能有多次的搜索商品的操作行为,若对每一次的操作行为均响应,并执行商品属性信息的爬取动作;势必会造成服务器资源以及带宽资源浪费;另一方面,源网站的商品属性信息在一段时间内可能并未更新,使得多次爬取获得的商品属性信息均相同,也就是出第一次爬取之外的其它连续多次爬取都在做无用功。因而需要考量对于某一url,本次爬取与上次爬取的时间间隔的问题。例如,可以设定一时间间隔阈值,判断本次待爬取的网页与最近一次已执行的爬取的时间间隔是否满足该阈值,若满足,则本次执行爬取动作,爬取并解析该网页;否则,则不执行本次爬取动作。所述的间隔阈值可以根据实际情况而设定,对于不同的源网站可以分别设定不同的间隔阈值,也可以所有源网站设定统一的间隔阈值,还可以某些网站设定同样的间隔阈值。此外,所述间隔阈值也可以根据购物源网站的商品信息刷新频率而调整。
此外,如上所述,在同一时刻或较短的时间段内,客户端可能有多次的搜索商品的操作行为,对于满足爬取时间间隔的待爬取网页,网络蜘蛛需要按照一定的先后顺序顺次执行爬取动作。本实施例中,具体的设定方式之一是按照网页获取的时间先后顺序对待爬取的网页排序,在后获取的网页排在在先获取的网页的前面,接着对排序的网页顺次执行爬取动作。即按照在先获取在后执行爬取的方式顺次执行对多个网页的爬取动作。当然,爬行顺序的执行方式并非一定要按照本实施例所述的方式实施,其还可以有其它方式,例如在先获取在先执行,这里不再赘述。
步骤120,根据所述被搜索物最新的属性信息,更新索引数据库中所述被搜索物的状态信息。
以被搜索物为商品为例,所述根据所述商品最新的属性信息,更新索引数据库中所述商品的商品信息包括:A,与索引数据库中已有的商品比对,判断获取的商品最新的商品信息是否不同;B,若是,更改该商品的商品信息记录;否则,不更改该商品的信息记录。其中,所述的商品信息包括商品的名称、价格、库存、照片、规格等信息。所述商品信息不同包括商品信息的任何一项或数项的不同或者所有信息均不同。所述的更改被搜索物的状态信息记录的方法包括:单独存储被搜索物的最新状态信息,而非将其放入原索引数据中,接着建立关键词到所述被搜索物的最新状态信息的映射,例如hashmap。这样可以提高更新效率。当然也可以指直接更改索引数据库中的信息记录。
此外,根据所述商品最新的属性信息,更新索引数据库中所述商品的商品信息还可以以如下方式实现,无需对比判断获取的商品最新的商品信息与数据库中的是否相同,直接将最新获取的商品信息更新至索引数据库。
此外,若通过解析获取的商品及其属性信息在所述索引数据库中没有相应的记录,则索引数据库中添加该商品的信息记录,并建立对应于该信息记录的索引。
通过上述的方法,可实现索引数据库的更新,在更新完毕后再次在客户端搜索该商品,则可以显示出该商品最新的信息。
本实施例中的用于更新索引数据库的方法,以客户端在搜索时的搜索操作行为为依据,认为客户端搜索时操作的商品为热门商品,根据该操作行为爬取该商品相关的源网站的网页,并解析获取网页上商品的属性信息,依据该属性信息更新索引数据库中相应的商品信息中;客户端的每一次操作行为都会作为触发搜索引擎的索引数据库中商品信息更新的依据,故索引数据库中的商品信息能够高频率的得到更新,由此解决了客户端在访问购物搜索网站时,商品价格与库存等商品信息与源网站不一致的问题;此外,本方法中由客户端操作行为引起的商品信息更新的数据量相比背景技术中的更新数据量大大下降,且本方法中不必在每次更新后再次执行索引的步骤,直接更改商品信息记录即可,因而不会不过多占用带宽资源,不增加及其资源的消耗且耗时较少。
以上公开了本发明的一种用于更新索引数据库的方法的实施例,与此相应的,本发明还公开了一种用于更新索引数据库的装置。请参考图2,其为本发明的一种用于更新索引数据库的装置的一种实施例的示意图。由于该装置的实施例与前述的方法的实施例基本相同,下面仅简单描述本实施例中的装置。
本实施例的一种用于更新索引数据库的装置,包括:获取单元102,用于获取客户端搜索被搜索物的操作行为的对象;下载单元104,根据所述操作行为的对象,由源网站获取与该操作行为的对象相关的被搜索物最新的属性信息;更新单元106,用于根据所述被搜索物最新的属性信息,更新索引数据库中所述被搜索物的状态信息。
可选的,所述下载单元包括:爬取单元,用于通过网络蜘蛛爬取与该对象对应的网页或与该对象相关的被搜索物的网页。解析单元,用于析所爬取的网页,获得被搜索物最新的属性信息。
可选的,所述爬取单元包括:判断单元,用于判断待爬取的网页本次爬取与最近一次的爬取的时间间隔是否满足设定的间隔阈值;执行单元,用于执行爬取动作。
可选的,所述爬取单元包括:排序单元,用于按照网页获取的时间先后顺序对待爬取的网页排序,在后获取的网页排在在先获取的网页的前面;调度单元,用于调度排序的网页顺次执行爬取动作。
可选的,所述更新单元包括:比对单元,用于与索引数据库中已有的被搜索物比对,判断获取的被搜索物最新的状态信息是否不同;更改单元,用于在所述状态信息不同时更改索引数据库中的状态信息记录。
可选的,所述更改单元包括:存储单元,用于存储被搜索物的最新状态信息;映射单元,用于建立关键词到所述被搜索物的最新状态信息的映射。
此外,本发明还提供一种用于提供被搜索物状态信息搜索服务的方法。图3为本发明的一种用于提供被搜索物状态信息搜索服务的方法的实施例的流程图。
请参看图3,步骤200,接收客户端输入的被搜索物搜索词。即在客户端Web入口输入待搜索被搜索物的关键词。
步骤210,根据所述被搜索物搜索词,在索引数据库中搜索对应的被搜索物的属性信息,所述索引数据库通过上述更新索引数据库的方法进行更新。
具体的,在客户端输入被搜索物的名称、型号等待搜索信息信息。由客户端浏览器向Web(WORLDWIDEWEB)服务器发送搜索请求。Web服务器将该请求提交给嵌入到服务器中的PHP(HypertextPreprocessor,超文本预处理语言)引擎。由该PHP引擎处理请求,并查询存储于服务器上数据库,获取满足要求的被搜索物及其属性信息,生成页面。然后服务器将完成的页面回传给浏览器,最终通过浏览器展现给客户端用户。其中,与现有的技术所不同的是,服务器回传至客户端的状态信息是通过本发明上述实施例所更新之后的数据库的被搜索物状态信息。也就是说,在服务器接收用户的查询请求之后,首先通过本发明的上述实施例所记载的方法更新索引数据库,使得索引数据中的被搜索物信息记录为最新的,然后将该最新的被搜索物状态信息记录生成页面回传至客户端。这里不再对如何更新被搜索物索引数据库做重复的描述,详细的过程可参看上述的更新索引数据库的实施例的描述。
步骤220,向客户端展现关于所述被搜索物更新后的搜索结果。
此外,本发明还公开了一种用于提供被搜索物状态信息搜索服务的系统,请参考图4,其为本发明的一种用于提供被搜索物状态信息搜索服务的系统的实施例的示意图。本实施例中,所述系统包括:
客户端202,用于接收客户端输入的被搜索物搜索词以及向客户端展现关于被搜索物状态的搜索结果;
服务器204,用于根据所述被搜索物状态搜索词,在索引数据库中搜索对应的被搜索物状态的属性信息,通过上述更新索引数据库的方法更新所述索引数据库,向客户端发送关于所述被搜索物状态的搜索结果。
本申请可以应用于计算机系统/服务器,其可与众多其它通用或专用计算系统环境或配置一起操作。适于与计算机系统/服务器一起使用的众所周知的计算系统、环境和/或配置的例子包括但不限于:个人计算机系统、服务器计算机系统、瘦客户机、厚客户机、手持或膝上设备、基于微处理器的系统、机顶盒、可编程消费电子产品、网络个人电脑、小型计算机系统、大型计算机系统和包括上述任何系统的分布式云计算技术环境,等等。
计算机系统/服务器可以在由计算机系统执行的计算机系统可执行指令(诸如程序模块)的一般语境下描述。通常,程序模块可以包括例程、程序、目标程序、组件、逻辑、数据结构等等,它们执行特定的任务或者实现特定的抽象数据类型。计算机系统/服务器可以在分布式云计算环境中实施,分布式云计算环境中,任务是由通过通信网络链接的远程处理设备执行的。在分布式云计算环境中,程序模块可以位于包括存储设备的本地或远程计算系统存储介质上。在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本发明也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的用于更新索引数据库装置中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。
Claims (18)
1.一种用于更新索引数据库的方法,包括:
获取客户端搜索被搜索物的操作行为的对象;
根据所述操作行为的对象,由源网站获取与该操作行为的对象相关的被搜索物最新的属性信息;
根据所述被搜索物最新的属性信息,更新索引数据库中所述被搜索物的状态信息。
2.根据权利要求1所述的用于更新索引数据库的方法,所述搜索被搜索物的操作行为包括以下行为中的一种或多种:
接收客户端在搜索入口输入的被搜索物关键词查询请求,接收点击的链接请求,接收收藏或保存搜索到的被搜索物页面的请求;
所述操作行为的对象包括以下中的一种或多种:
在搜索入口中输入的被搜索物的关键词、点击的已搜索出的被搜索物链接,收藏或保存搜索到的被搜索物网页。
3.根据权利要求2所述的用于更新索引数据库的方法,所述收藏或保存搜索到的被搜索物网页包括:将网页网址保存到浏览器的收藏夹或书签中,或者将网页保存到本地客户端。
4.根据权利要求1所述的用于更新索引数据库的方法,所述获取客户端搜索被搜索物的操作行为的对象包括:
通过异步的JavaSrcipt和可扩展标记语言向服务器发送异步消息的方式获取客户端搜索被搜索物的操作行为的对象。
5.根据权利要求1所述的用于更新索引数据库的方法,所述根据所述操作行为的对象,由源网站获取与该操作行为的对象相关的被搜索物最新的属性信息包括:
通过网络蜘蛛爬取与该对象对应的网页或与该对象相关的被搜索物的网页;
解析所爬取的网页,获得被搜索物最新的属性信息。
6.根据权利要求5所述的用于更新索引数据库的方法,解析所爬取的网页,获得被搜索物最新的属性信息包括:
采用正则表达式方式,由网页页面中提取被搜索物最新的属性信息。
7.根据权利要求5所述的用于更新索引数据库的方法,所述通过网络蜘蛛爬取与该对象对应的网页或与该对象相关的被搜索物的网页包括:
判断待爬取的网页本次爬取与最近一次的爬取的时间间隔是否满足设定的间隔阈值;若满足,则执行本次爬取动作;否则,不执行本次爬取动作。
8.根据权利要求5所述的用于更新索引数据库的方法,所述通过网络蜘蛛爬取与该对象对应的网页或与该对象相关的被搜索物的网页包括:
按照网页获取的时间先后顺序对待爬取的网页排序,在后获取的网页排在在先获取的网页的前面;
对排序的网页顺次执行爬取动作。
9.根据权利要求1所述的用于更新索引数据库的方法,所述更新索引数据库中所述被搜索物的状态信息包括:
与索引数据库中已有的被搜索物比对,判断获取的被搜索物最新的状态信息是否不同;
若是,更改该被搜索物的状态信息记录;
若否,则不更改该被搜索物的状态信息记录。
10.根据权利要求9所述的用于更新索引数据库的方法,所述更改被搜索物的状态信息记录的方法包括:
存储被搜索物的最新状态信息;
建立关键词到所述被搜索物的最新状态信息的映射。
11.一种用于提供被搜索物状态信息搜索服务的方法,包括:
接收客户端输入的被搜索物搜索词;
根据所述被搜索物搜索词,在索引数据库中搜索对应的被搜索物的属性信息,所述索引数据库通过权利要求1-10中任一项所述的方法进行更新;
向客户端展现关于所述被搜索物状态更新后的搜索结果。
12.一种用于更新索引数据库的装置,包括:
获取单元,用于获取客户端搜索被搜索物的操作行为的对象;
下载单元,根据所述操作行为的对象,由源网站获取与该操作行为的对象相关的被搜索物最新的属性信息;
更新单元,用于根据所述被搜索物最新的属性信息,更新索引数据库中所述被搜索物的状态信息。
13.根据权利要求12所述的用于更新索引数据库的装置,所述下载单元包括:
爬取单元,用于通过网络蜘蛛爬取与该对象对应的网页或与该对象相关的被搜索物的网页;
解析单元,用于析所爬取的网页,获得被搜索物最新的属性信息。
14.根据权利要求13所述的用于更新索引数据库的装置,所述爬取单元包括:
判断单元,用于判断待爬取的网页本次爬取与最近一次的爬取的时间间隔是否满足设定的间隔阈值;
执行单元,用于执行爬取动作。
15.根据权利要求13所述的用于更新索引数据库的装置,所述爬取单元包括:
排序单元,用于按照网页获取的时间先后顺序对待爬取的网页排序,在后获取的网页排在在先获取的网页的前面;
调度单元,用于调度排序的网页顺次执行爬取动作。
16.根据权利要求12所述的用于更新索引数据库的装置,所述更新单元包括:
比对单元,用于与索引数据库中已有的被搜索物比对,判断获取的被搜索物最新的状态信息是否不同;
更改单元,用于在所述状态信息不同时更改索引数据库中的状态信息记录。
17.根据权利要求16所述的用于更新索引数据库的装置,所述更改单元包括:
存储单元,用于存储被搜索物的最新状态信息;
映射单元,用于建立关键词到所述被搜索物的最新状态信息的映射。
18.一种用于提供被搜索物状态信息搜索服务的系统,包括:
客户端,用于接收客户端输入的被搜索物搜索词以及向客户端展现关于被搜索物的搜索结果;
服务器,用于根据所述被搜索物搜索词,在索引数据库中搜索对应的被搜索物的属性信息,并按照权利要求1-10中任一项所述的方法进行更新所述索引数据库,向客户端发送关于所述被搜索物的搜索结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210357182.9A CN102831252B (zh) | 2012-09-21 | 2012-09-21 | 一种用于更新索引数据库的方法及装置、搜索方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210357182.9A CN102831252B (zh) | 2012-09-21 | 2012-09-21 | 一种用于更新索引数据库的方法及装置、搜索方法和系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN102831252A CN102831252A (zh) | 2012-12-19 |
CN102831252B true CN102831252B (zh) | 2015-11-25 |
Family
ID=47334387
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201210357182.9A Active CN102831252B (zh) | 2012-09-21 | 2012-09-21 | 一种用于更新索引数据库的方法及装置、搜索方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN102831252B (zh) |
Families Citing this family (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104572743B (zh) * | 2013-10-23 | 2020-03-17 | 腾讯科技(深圳)有限公司 | 快速链接的信息更新方法及装置 |
CN104732399B (zh) * | 2013-12-20 | 2018-03-02 | 上海携程商务有限公司 | 在线商品库存的更新方法及系统 |
CN104866492B (zh) * | 2014-02-24 | 2019-10-11 | 腾讯科技(深圳)有限公司 | 书签的管理方法及装置 |
CN105205061B (zh) * | 2014-06-12 | 2018-08-10 | 中国银联股份有限公司 | 一种电商网站的页面信息获取方法 |
CN105468637A (zh) * | 2014-09-05 | 2016-04-06 | 北京联嘉众赢网络技术有限公司 | 一种数据库更新方法及装置 |
CN106156018B (zh) * | 2015-03-23 | 2020-05-05 | 深圳市腾讯计算机系统有限公司 | 数据索引方法及装置 |
CN104794177B (zh) * | 2015-04-02 | 2016-10-12 | 广州神马移动信息科技有限公司 | 一种数据存储方法及装置 |
CN104751386A (zh) * | 2015-04-14 | 2015-07-01 | 携程计算机技术(上海)有限公司 | 酒店的分布式比价方法 |
CN106777306A (zh) * | 2016-12-30 | 2017-05-31 | 维沃移动通信有限公司 | 一种网页书签的更新方法及移动终端 |
CN111566653A (zh) * | 2017-12-29 | 2020-08-21 | 斯布罗凯迪风险投资公司 | 用于搜索和通知的方法和系统 |
CN111241135B (zh) * | 2019-12-31 | 2024-04-09 | 广州酷旅旅行社有限公司 | 一种商品搜索方法、装置、计算机设备和存储介质 |
CN112632306B (zh) * | 2021-01-05 | 2024-06-07 | 深圳前海微众银行股份有限公司 | 卫星图像索引的建立方法、装置、终端设备及存储介质 |
CN113076493A (zh) * | 2021-03-31 | 2021-07-06 | 北京达佳互联信息技术有限公司 | 电子地图兴趣点poi数据处理方法、装置及服务器 |
CN113836405B (zh) * | 2021-09-09 | 2024-03-12 | 深圳Tcl新技术有限公司 | 信息查询方法、装置以及计算机可读存储介质 |
CN113961858A (zh) * | 2021-10-18 | 2022-01-21 | 广州创乐出海科技有限公司 | 一种商品页面更新方法、装置、计算机设备和存储介质 |
CN113987146B (zh) * | 2021-10-22 | 2023-01-31 | 国网江苏省电力有限公司镇江供电分公司 | 一种电力内网专用的智能问答系统 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2001044973A2 (en) * | 1999-12-15 | 2001-06-21 | Napster, Inc. | Real-time search engine |
CN101178736A (zh) * | 2007-12-11 | 2008-05-14 | 腾讯科技(深圳)有限公司 | 网页抓取方法和网页抓取服务器 |
CN101923566A (zh) * | 2010-06-24 | 2010-12-22 | 浙江协同数据系统有限公司 | 一种基于触发器的数据增量抽取方法 |
CN102270331A (zh) * | 2011-08-14 | 2011-12-07 | 黄斌 | 基于可视化搜索的网络购物导航方法 |
CN102347930A (zh) * | 2010-07-26 | 2012-02-08 | 中国电信股份有限公司 | 网页内容获取方法和系统 |
CN102521285A (zh) * | 2011-11-28 | 2012-06-27 | 北京百度网讯科技有限公司 | 基于搜索引擎的实时信息查看方法及服务器 |
-
2012
- 2012-09-21 CN CN201210357182.9A patent/CN102831252B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2001044973A2 (en) * | 1999-12-15 | 2001-06-21 | Napster, Inc. | Real-time search engine |
CN101178736A (zh) * | 2007-12-11 | 2008-05-14 | 腾讯科技(深圳)有限公司 | 网页抓取方法和网页抓取服务器 |
CN101923566A (zh) * | 2010-06-24 | 2010-12-22 | 浙江协同数据系统有限公司 | 一种基于触发器的数据增量抽取方法 |
CN102347930A (zh) * | 2010-07-26 | 2012-02-08 | 中国电信股份有限公司 | 网页内容获取方法和系统 |
CN102270331A (zh) * | 2011-08-14 | 2011-12-07 | 黄斌 | 基于可视化搜索的网络购物导航方法 |
CN102521285A (zh) * | 2011-11-28 | 2012-06-27 | 北京百度网讯科技有限公司 | 基于搜索引擎的实时信息查看方法及服务器 |
Also Published As
Publication number | Publication date |
---|---|
CN102831252A (zh) | 2012-12-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102831252B (zh) | 一种用于更新索引数据库的方法及装置、搜索方法和系统 | |
US20180276304A1 (en) | Advanced computer implementation for crawling and/or detecting related electronically catalogued data using improved metadata processing | |
CN102722563B (zh) | 页面显示方法及装置 | |
CN109033358B (zh) | 新闻聚合与智能实体关联的方法 | |
US20070198727A1 (en) | Method, apparatus and system for extracting field-specific structured data from the web using sample | |
US20120203747A1 (en) | Method and System for Processing Information of a Stream of Information | |
EP3563240B1 (en) | Systems and methods for harvesting data associated with fraudulent content in a networked environment | |
CN103401835A (zh) | 一种展现微博页面的安全检测结果的方法及装置 | |
EP3289487B1 (en) | Computer-implemented methods of website analysis | |
Henrys | Importance of web scraping in e-commerce and e-marketing | |
CN103577566A (zh) | 一种网页阅读内容加载方法和装置 | |
CN102982118A (zh) | 一种基于收藏夹的搜索方法和装置 | |
Kumar | World towards advance web mining: A review | |
US11321400B2 (en) | System and method for crawling web-content | |
Chang | A survey of modern crawler methods | |
CN103617225A (zh) | 一种关联网页搜索方法和系统 | |
US11055365B2 (en) | Mechanism for web crawling e-commerce resource pages | |
Qudus Khan et al. | Smart algorithmic based web crawling and scraping with template autoupdate capabilities | |
WO2016001287A1 (en) | Automated generation of web site entry pages | |
KR102522043B1 (ko) | 검색 정보 제공 시스템 및 그 방법 | |
Nakasho et al. | Documentation generator focusing on symbols for the HTML-ized Mizar library | |
Lawankar et al. | A review on techniques for optimizing web crawler results | |
US20240086941A1 (en) | Systems and methods to identify technographics for a company | |
US11714804B2 (en) | Method and apparatus for managing link related to keyword advertisement | |
Sultan et al. | Scraping Google Scholar Data Using Cloud Computing Techniques |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right |
Effective date of registration: 20220715 Address after: Room 801, 8th floor, No. 104, floors 1-19, building 2, yard 6, Jiuxianqiao Road, Chaoyang District, Beijing 100015 Patentee after: BEIJING QIHOO TECHNOLOGY Co.,Ltd. Address before: 100088 room 112, block D, 28 new street, new street, Xicheng District, Beijing (Desheng Park) Patentee before: BEIJING QIHOO TECHNOLOGY Co.,Ltd. Patentee before: Qizhi software (Beijing) Co.,Ltd. |
|
TR01 | Transfer of patent right |