一种网页搜索设备和方法
技术领域
本发明涉及计算机领域,更具体地,涉及一种网页搜索设备和方法。
背景技术
计算机用户可以通过网页浏览器来访问互联网网页。随着互联网的高速发展,在互联网上提供的信息数量也日益庞大,用户很难记住提供信息网站的具体地址,因而常常依赖于搜索网站来查询网络上的相关信息。
搜索网站利用搜索引擎来从互联网中提取各个网站或网页的信息(以网页文字为主),建立起数据库。当用户在搜索网站上进行查询时,搜索引擎能检索与用户查询条件相匹配的记录,按一定的排列顺序返回查询结果。
然而,现有的搜索网站在提供搜索服务时,其通常要求用户在搜索界面中输入具体的查询内容即搜索词。然后,当用户通过敲击键盘上的回车或者点击搜索界面上的搜索图标来发出搜索请求时,搜索引擎会根据用户输入的搜索词进行检索,并向用户返回搜索结果。如果用户没有输入搜索词,搜索网站则会不进行任何搜索操作,有时还会提醒用户应当输入搜索词。
本申请的发明人发现,有些时候,用户未在搜索网站上输入搜索词并不是因为忘记输入,而是如同用户在浏览各种信息网站一样,并没有明确的查询目的,而是希望搜索引擎可以向用户提供感兴趣的搜索结果。
现有的搜索网站没有充分考虑用户没有明确输入搜索词的原因,而是简单地认为是用户忘记输入搜索词了,因此没有充分考虑到用户期望搜索网站能够提供自己最感兴趣的搜索结果而不用任何输入的潜在需求。
发明内容
本发明的一个目的是提供一种克服上述缺陷或者至少部分地缓解上述缺陷的一种网页搜索设备和方法。
为了实现上述至少一个目的,按照本发明的一个方面,提供了一种网页搜索设备,该网页搜索设备包括:
术语提取器,其配置成从网页中提取一个或多个术语;
搜索器,其配置成在用户未输入搜索词时将一个或者多个术语中的至少一个术语作为搜索词向搜索引擎发出搜索请求,并向用户返回搜索结果。
在一个实施例中,网页搜索设备还包括网址获取器,其配置成获取浏览器处的一个或多个用户关注网址;其中,术语提取器从与一个或多个用户关注网址相对应的网页中提取术语。
可选地,术语提取器还配置成计算一个或多个术语的重要度值,重要度值用于标识术语在网页中的重要度。
可选地,术语的重要度值根据术语分别在各个对应网页的重要度值以及各个对应网页的网页权重值加权计算得到。
可选地,网页权重值根据用户浏览对应网页的顺序来确定,越新浏览的网页的权重值越高。
可选地,搜索器设置成基于术语的重要度值选择至少一个术语作为搜索词,例如,搜索器设置成将重要度值最高的术语选做搜索词。
可选地,搜索器设置成:当用户未输入搜索词后对返回的搜索结果无浏览操作时,则在用户后续未输入搜索词进行搜索时,将之前没有作为搜索词使用过的术语作为备选的搜索词。
可选地,网址获取器配置成从下列网址中获取用户关注网址:
浏览器中存储的网页浏览历史;
浏览器的本地收藏夹中存储的网页的网址;和/或
用户的网络收藏夹中存储的网页的网址。
可选地,网址获取器配置成排除与呈现搜索结果的网页相对应的网址作为用户关注网址。
在一个实施例中,网页搜索设备还包括术语列表生成器,其配置成生成包含所提取的各术语的术语列表。
在一个实施例中,网页搜索设备还包括术语更新器,其配置成更新用户关注网址;以及术语提取器从与更新的用户关注网址相对应的网页中提取术语。
可选地,搜索器配置成在用户输入搜索词时,根据用户输入的搜索词向搜索引擎发出搜索请求,并向用户返回搜索结果。
按照本发明的另一方面,提供了一种网页搜索方法,包括:
术语提取步骤,用于从网页中提取一个或多个术语;
搜索步骤,用于在用户未输入搜索词时将一个或者多个术语中的至少一个术语作为搜索词向搜索引擎发出搜索请求,并向用户返回搜索结果。
在一个实施例中,网页搜索方法还包括网址获取步骤,用于获取浏览器处的一个或多个用户关注网址;其中,在术语提取步骤中,从与一个或多个用户关注网址相对应的网页中提取术语。
可选地,在术语提取步骤中还计算一个或多个术语的重要度值,重要度值用于标识术语在网页中的重要度。
可选地,术语的重要度值根据术语分别在各个对应网页的重要度值以及各个对应网页的网页权重值加权计算得到。
可选地,网页权重值根据用户浏览对应网页的顺序来确定,越新浏览的网页的权重值越高。
在一个实施例中,网页搜索方法还包括网页权重生成步骤,用于根据浏览顺序预先设定网页权重值。
可选地,在搜索步骤中,基于术语的重要度值选择至少一个术语作为搜索词。
可选地,在搜索步骤中,将重要度值最高的术语选做搜索词。
可选地,在搜索步骤中,当用户未输入搜索词后对返回的搜索结果无浏览操作时,则在用户后续未输入搜索词进行搜索时,将之前没有作为搜索词使用过的术语作为备选的搜索词。
可选地,在网址获取步骤中,从下列网址中获取用户关注网址:
浏览器中存储的网页浏览历史;
浏览器的本地收藏夹中存储的网页的网址;和/或
用户的网络收藏夹中存储的网页的网址。
可选地,在网址获取步骤中,排除与呈现搜索结果的网页相对应的网址作为用户关注网址。
在一个实施例中,网页搜索方法还包括术语列表生成步骤,用于生成包含所提取的各术语的术语列表。
在一个实施例中,网页搜索方法还包括术语更新步骤,用于判断用户关注网址是否有更新;如果有,则在术语提取步骤中,从与更新的用户关注网址相对应的网页中提取术语。
可选地,在搜索步骤中,在用户输入搜索词时,根据用户输入的搜索词向搜索引擎发出搜索请求,并向用户返回搜索结果。
本发明可以在用户未输入搜索词的情况下向搜索引擎提供推荐的搜索词,以获得用户可能感兴趣的搜索结果。这极大地提高了计算机的运行效率,并且改善了用户的体验和操作效率。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1是按照本发明的网页搜索设备的一个实施例的示意图;
图2是按照本发明的网页搜索方法的一个实施例的流程图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
图1所示的网页搜索设备100可以在计算机系统中实现。在一个实施例中,该网页搜索设备100可以在计算机系统的浏览器客户端处实现。如图1所示,该网页搜索设备100可以包括网址获取器102、术语提取器106、和搜索器112。另外,可选地,网页搜索设备100还可以包括术语更新器104、网页权重生成器108和术语列表生成器110。
网址获取器102可以配置成获取浏览器处的一个或多个用户关注网址。用户关注网址可以来源于:浏览器中存储的网页浏览历史;浏览器的本地收藏夹中存储的网页的网址;和/或用户的网络收藏夹中存储的网页的网址。对于来自这些来源的用户关注网址,用户对其的浏览和/或收藏操作体现了用户对该网址的关注。因此,用户关注网址能够至少部分地反映用户对互联网上的信息的关注点或者说兴趣点。
术语提取器106可以配置成从由网址获取器102所获取的网页中提取一个或多个术语或者说关键词。在图1的实施例中,该术语提取器106可以根据网址获取器102所获取的用户关注网址从与用户关注网址相对应的网页中提取术语。
该术语提取器106最好还可以配置成能够计算所提取的术语的重要度值,该重要度值可以用于标识所提取的术语在网页中的重要度。在一个实施例中,术语提取器106可以采用现有技术中常用的基于TF-IDF(term frequency-inverse document frequency,词频-反文档频率)的关键词/术语提取方法来对每个网页进行术语的提取。TF-IDF是一种用于信息检索与文本挖掘的常用加权技术。TF-IDF作为一种统计方法,用以评估一术语对于一个文件集或一个语料库中的其中一份文件的重要程度。TF-IDF的统计结果例如可以用一个key-value表来记录,其中key是术语,value是该术语的TF与IDF的乘积,用来表示该术语的重要度值。然后可以按value值对该表进行排序,最后取重要度值排名靠前的几个词作为关键词。这样,术语提取器106可以对于每个用户关注网址对应的网页获得一个key-value表。
可选地,术语提取器106还可以根据一个术语分别在各个对应网页的重要度值以及各个对应网页的网页权重值加权(例如加权求和)计算得到该术语在所有网页中的重要度值,以反映该术语在所有用户关注网址对应网页中的重要性。为此,术语提取器106可以从网页权重生成器108获取相应网址的权重。
网页权重生成器108中可以存储有根据网页浏览顺序预先设定的网页权重值。在一个实施例中,网页权重值根据用户浏览对应网页的顺序来确定,越新浏览的网页的权重值越高。例如,可以选择前5个网页,每个网页的权重为1、0.6、0.3、0.2、0.15,当然可以采用其他合适的权重分配。对于存储在用户的本地或网络收藏夹中的网页,可以作为一种具有特别浏览顺序的网页来处理,为其分配指定的权重,如0.9、1或甚至更高如1.2,等等。术语提取器106在计算加权的术语重要度值时,可以读取网页权重生成器108中的相应的网页权重值。
可选地,术语列表生成器110可以配置成生成包含由术语提取器106所提取的各术语的术语列表,以供搜索器112选取。在一个实施例中,该术语列表生成器110可以将该术语提取器106提取的术语以及计算得到的加权的重要度值以术语列表的方式存储。可选地,该术语列表以术语的重要度值进行排序,重要度值越大的术语的排列顺序越靠前。
可选地,网页搜索设备100还包括有术语更新器104。术语更新器104可以配置成更新用户关注网址。当浏览器有新的网页浏览操作或者网页收藏操作时,网址获取器102中所获取的用户关注网址将会增加或者说更新。此时,术语更新器104会检测这种更新,并仅将更新的用户关注网址发送给术语提取器106,由术语提取器106从与更新的用户关注网址相对应的网页中提取术语。这样可以避免术语提取器106每次都重新处理所有的用户关注网址,以提高计算机运行效率。
搜索器112可以配置成在用户未输入搜索词时将术语提取器106所提取的术语中的至少一个术语作为搜索词向搜索引擎200发出搜索请求,并向用户返回搜索结果。这样,当用户未输入搜索词,但是却通过敲击键盘上的回车或者点击搜索界面上的搜索图标发出搜索请求时,搜索器112仍然可以获得搜索结果。在图1的实施例中,搜索器112可以从术语列表生成器110中基于术语的重要度值从高到低的顺序选择至少一个术语作为搜索词。当选择多个术语作为搜索词时,搜索器112可以以一定或预定的逻辑关系如“与”或“或”进行组合搜索。在一个实施例中,搜索器112可以将重要度值最高的术语选做搜索词。
搜索器112最好还设置成当用户未输入搜索词后对返回的搜索结果无浏览操作时,则在用户后续未输入搜索词进行搜索时,将之前没有作为搜索词使用过的术语作为备选的搜索词。这样,当用户进行一次未输入搜索词的搜索后,如果发现没有其感兴趣的网页时,可以在不输入搜索词的情况下再次发送搜索请求,而搜索器112会从术语列表生成器110中选择新的术语作为搜索词由搜索引擎200进行搜索。
显然,搜索器112还可以设置成具有常规的搜索模式,即,当用户输入搜索词时,搜索器112根据用户输入的搜索词向搜索引擎200发出搜索请求,并向用户返回搜索结果。
需要注意的是,用户通过搜索器112进行搜索操作后,不论是未输入搜索词还是有输入搜索词,搜索器112都会向用户返回呈现搜索结果的网页。这种呈现搜索结果的网页的网址也会被存储在浏览器的网页浏览历史中,但是这样的网页实际上并不能反映用户关注点或兴趣点(该网页中列出的搜索结果有可能反映用户的关注点或兴趣点),因此,网址获取器102最好配置成能够排除这样的网页对应的网址作为用户关注网址。
在其它实施例中,该网页搜索设备100的各个组成部分在实现本发明基本功能的情况下可以进行各种拆分、组合或者省略。在一个示例性实施例中,术语提取器106仅获取针对各个网页的key-value表,各术语的加权的重要度值可以在术语列表生成器110中进行计算,并且由网页权重生成器108向术语列表生成器110提供网页权重值。在其它示例性实施例中,图1中的网址获取器102、术语更新器104、网页权重生成器108和术语列表生成器110中的一个或多个可以与术语提取器106合并为新的术语提取器。在另一个实施例中,网址获取器102每次仅获取用户最新浏览的网页作为用户关注网址,并由术语提取器106提取术语,这样就可以省略术语更新器104。
图2示出了本发明的网页搜索方法300的一个实施例的流程图。图2所示的网页搜索方法300适于在下面结合图1所示的网页搜索设备100来描述本发明的网页搜索方法300中执行。
该方法300可以始于网址获取步骤S302。在该步骤S302中,可以获取浏览器处的一个或多个用户关注网址。如前所述,用户关注网址可以来源于:浏览器中存储的网页浏览历史;浏览器的本地收藏夹中存储的网页的网址;和/或用户的网络收藏夹中存储的网页的网址。在步骤S302中,最好还排除与呈现搜索结果的网页相对应的网址作为用户关注网址。步骤S302可以由网址获取器102来执行。
随后,该方法300进入术语提取步骤S306。在术语提取步骤S306中,可以从网页中提取一个或多个术语。如果是该方法300首次运行,在术语提取步骤S306中会将在网址获取步骤S302所获取的所有用户关注网址相对应的网页进行术语提取,并在术语列表生成步骤S310生成术语列表。在该方法300的后续运行过程中,在术语提取步骤S306中可以仅对更新的用户关注网址进行术语提取,并相应地更新术语列表。如前所述,在进行术语提取时,可以获得首先获得各网页的key-value表,以得到各网页的术语及术语在对应网页中的重要度值;然后,可以根据各网页的网页权重值,获得术语在所有网页中的加权的重要度值。如前所述,网页权重值可以根据用户浏览所述对应网页的顺序来确定,越新浏览的网页的权重值越高。这可以在本方法执行前根据网页浏览顺序预先设定。可选地,步骤S306可以由术语提取器106来执行。
随后,可选地,该方法300可以包括术语列表生成步骤S310。在术语列表生成步骤S310中,可以生成包含所提取的各术语的术语列表。可选地,该术语列表以术语的重要度值进行排序,重要度值越大的术语的排列顺序越靠前。可选地,步骤S310可以由术语列表生成器110来执行。
随后,该方法300进入搜索步骤S312。在搜索步骤S312中,可以在用户未输入搜索词时将术语列表中的至少一个术语作为搜索词向搜索引擎发出搜索请求,并向用户返回搜索结果。可以基于术语的重要度值来选择至少一个术语作为搜索词。可选地,可以将重要度值最高的术语选做搜索词。这样就可以实现用户未输入搜索词时的搜索操作。当用户未输入搜索词后对返回的搜索结果无浏览操作时,则在用户后续未输入搜索词进行搜索时,可以将之前没有作为搜索词使用过的术语作为备选的搜索词。在用户输入搜索词时,可以根据用户输入的搜索词向搜索引擎发出搜索请求,并向用户返回搜索结果。可选地,步骤S312可以由搜索器112来执行。
可选地,在方法300中,还可以包括术语更新步骤S304。在术语更新步骤S304中,可以判断网址获取步骤S302所获取的用户关注网址相比于之前所获得的结果是否有更新,从而决定是否需要进行术语更新。如果用户关注网址没有更新,则不进行术语更新,返回到步骤S302,并保持之前获得的术语列表。如果用户关注网址有更新,则进行术语更新,并仅针对更新的用户关注网址进行术语提取步骤S306。可选地,步骤S304可以由术语更新器104来执行。应当理解,图2所示的网页搜索方法300也可以由不同于图1所示的设备来实现。还应当理解,在本发明的网页搜索方法的其它实施例中,一个或多个步骤可以被省略、重复和/或以不同的顺序执行。因此,图2中所示的步骤的特定排列不应当被解释为对技术范围的限制。
本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的网页搜索设备中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
上述本发明实施例中的方法和设备适用于各种网络或者客户端环境中,例如可以实现在诸如个人计算机设备之类的计算机设备中,或者可以实现在诸如移动电话、移动通信设备、个人数字助理(PDA)等其他便携式电子设备或者非便携式电子设备中。因此本领域技术人员要明确的是,本发明的保护范围并不限于PC上运行浏览器中的网页搜索功能,仅是出于描述的简洁和方便而在本发明实施例中采用了PC上运行浏览器中的网页搜索功能进行描述。
以上实施例仅用于说明本发明的技术方案,并不用于限制本发明的保护范围。在不脱离本发明权利要求的精神和范围的情况下,本领域技术人员可以对本发明的技术方案进行各种修改或者变型。