CN106611022A - 提高网站站内搜索效率的方法和装置 - Google Patents

提高网站站内搜索效率的方法和装置 Download PDF

Info

Publication number
CN106611022A
CN106611022A CN201510708722.7A CN201510708722A CN106611022A CN 106611022 A CN106611022 A CN 106611022A CN 201510708722 A CN201510708722 A CN 201510708722A CN 106611022 A CN106611022 A CN 106611022A
Authority
CN
China
Prior art keywords
website
keyword
search
page
search results
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510708722.7A
Other languages
English (en)
Other versions
CN106611022B (zh
Inventor
李新国
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Gridsum Technology Co Ltd
Original Assignee
Beijing Gridsum Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Gridsum Technology Co Ltd filed Critical Beijing Gridsum Technology Co Ltd
Priority to CN201510708722.7A priority Critical patent/CN106611022B/zh
Publication of CN106611022A publication Critical patent/CN106611022A/zh
Application granted granted Critical
Publication of CN106611022B publication Critical patent/CN106611022B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • G06F16/9566URL specific, e.g. using aliases, detecting broken or misspelled links

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本申请公开了一种提高网站站内搜索效率的方法和装置。其中,该方法包括:从访问目标网站的访问日志中,提取表示目标网站的站内搜索结果页的统一资源定位符URL;根据目标网站的站内搜索结果页的URL,确定用于匹配目标网站的站内搜索结果页的匹配式;从访问日志中提取第一关键词、第二关键词、第一搜索结果页的URL、第一目标页面;利用匹配式对第一搜索结果页的URL进行匹配;以及在匹配式与第一搜索结果页的URL匹配成功的情况下,关联第二关键词和第一目标页面。本申请解决了现有技术中用户的搜索效率比较低的技术问题。

Description

提高网站站内搜索效率的方法和装置
技术领域
本申请涉及搜索领域,具体而言,涉及一种提高网站站内搜索效率的方法和装置。
背景技术
在以往网站建设、企业信息系统搭建过程中,由于信息结构简单、内容稀缺,站内搜索不是网站系统的必要装备。但随着Web2.0带来的海量信息井喷式涌现,企业自身对信息架构、管理、发布的需求,以及用户对信息的组织、查询、可寻性的要求越来越高,于是站内搜索出现了。
通常情况下,用户在进行网站站内搜索时,如果结果页中没有想要的结果,会通过改变搜索关键词的方式继续尝试找到自己想要的结果。
在用户找到想要的页面之前,可能会经历数次无效的搜索,不能快速找到目标页面。
针对上述的问题,目前尚未提出有效的解决方案。
发明内容
本申请实施例提供了一种提高网站站内搜索效率的方法和装置,以至少解决现有技术中用户搜索效率比较低的技术问题。
根据本申请实施例的一个方面,提供了一种提高网站站内搜索效率的方法,包括:从访问目标网站的访问日志中,提取表示所述目标网站的站内搜索结果页的统一资源定位符URL;根据所述目标网站的站内搜索结果页的URL,确定用于匹配所述目标网站的站内搜索结果页的匹配式;从所述访问日志中提取第一关键词、第二关键词、第一搜索结果页的URL、第一目标页面,其中,所述第一关键词和所述第二关键词均为用于在所述目标网站进行站内搜索的关键词,所述第一搜索结果页为接收到所述第一关键词后加载的页面,所述第一目标页面为加载出的所述第一搜索结果页中任一搜索结果表示的页面,所述第二关键词为在接收到所述第一关键词之前接收到的关键词,并且在接收到所述第二关键词后,所述目标网站未加载第二搜索结果页中的任一搜索结果表示的页面,所述第二搜索结果页为接收到所述第二关键词后加载的页面;利用所述匹配式对所述第一搜索结果页的URL进行匹配;以及在所述匹配式与所述第一搜索结果页的URL匹配成功的情况下,关联所述第二关键词和所述第一目标页面。
进一步地,关联所述第二关键词和所述第一目标页面包括:添加所述第二关键词至所述第一目标页面的页面标签。
进一步地,所述匹配式为正则表达式,利用所述匹配式对所述第一搜索结果页的URL进行匹配包括:判断所述第一搜索结果页的URL中表示主机名的字段与所述正则表达式中表示域名的字段是否相同,其中,在所述第一搜索结果页的URL中表示主机名的字段与所述正则表达式中表示域名的字段相同的情况下,确定所述匹配式与所述第一搜索结果页的URL匹配成功。
进一步地,在从访问目标网站的访问日志中,提取表示所述目标网站的站内搜索结果页的统一资源定位符URL之前,所述方法还包括:在所述目标网站部署日志获取程序;以及运行所述日志获取程序以获取所述访问日志。
进一步地,从访问目标网站的访问日志中,提取表示所述目标网站的站内搜索结果页的统一资源定位符URL包括:从所述访问日志中提取URL域名为所述目标网站的域名的URL,得到所述目标网站的站内搜索结果页的URL。
根据本申请实施例的另一方面,提供了一种提高网站站内搜索效率的装置,包括:第一提取单元,用于从访问目标网站的访问日志中,提取表示所述目标网站的站内搜索结果页的统一资源定位符URL;确定单元,用于根据所述目标网站的站内搜索结果页的URL,确定用于匹配所述目标网站的站内搜索结果页的匹配式;第二提取单元,用于从所述访问日志中提取第一关键词、第二关键词、第一搜索结果页的URL、第一目标页面,其中,所述第一关键词和所述第二关键词均为用于在所述目标网站进行站内搜索的关键词,所述第一搜索结果页为接收到所述第一关键词后加载的页面,所述第一目标页面为加载出的所述第一搜索结果页中任一搜索结果表示的页面,所述第二关键词为在接收到所述第一关键词之前接收到的关键词,并且在接收到所述第二关键词后,所述目标网站未加载第二搜索结果页中的任一搜索结果表示的页面,所述第二搜索结果页为接收到所述第二关键词后加载的页面;匹配单元,用于利用所述匹配式对所述第一搜索结果页的URL进行匹配;以及关联单元,用于在所述匹配式与所述第一搜索结果页的URL匹配成功的情况下,关联所述第二关键词和所述第一目标页面。
进一步地,所述关联单元包括:添加子单元,用于添加所述第二关键词至所述第一目标页面的页面标签。
进一步地,所述匹配式为正则表达式,所述匹配单元包括:判断子单元,用于判断所述第一搜索结果页的URL中表示主机名的字段与所述正则表达式中表示域名的字段是否相同,其中,在所述第一搜索结果页的URL中表示主机名的字段与所述正则表达式中表示域名的字段相同的情况下,确定所述匹配式与所述第一搜索结果页的URL匹配成功。
进一步地,所述装置包括:部署单元,用于在所述第一提取单元从访问目标网站的访问日志中,提取表示所述目标网站的站内搜索结果页的统一资源定位符URL之前,在所述目标网站部署日志获取程序;以及运行单元,用于运行所述日志获取程序以获取所述访问日志。
进一步地,所述第一提取单元包括:提取子单元,用于从所述访问日志中提取URL域名为所述目标网站的域名的URL,得到所述目标网站的站内搜索结果页的URL。
在本申请实施例中,采用从访问目标网站的访问日志中,提取表示目标网站的站内搜索结果页的统一资源定位符URL,根据目标网站的站内搜索结果页的URL,确定用于匹配目标网站的站内搜索结果页的匹配式,从访问日志中提取第一关键词、第二关键词、第一搜索结果页的URL、第一目标页面,其中,第一关键词和第二关键词均为用于在目标网站进行站内搜索的关键词,第一搜索结果页为接收到第一关键词后加载的页面,第一目标页面为加载出的第一搜索结果页中任一搜索结果表示的页面,第二关键词为在接收到第一关键词之前接收到的关键词,并且在接收到第二关键词后,目标网站未加载第二搜索结果页中的任一搜索结果表示的页面,第二搜索结果页为接收到第二关键词后加载的页面,利用匹配式对第一搜索结果页的URL进行匹配,以及在匹配式与第一搜索结果页的URL匹配成功的情况下,关联第二关键词和第一目标页面。通过读取用户的访问日志,得到用户使用的关键词、访问过的页面的URL,根据目标网站的站内搜索结果页的URL,构造能够匹配目标网站的站内搜索结果页的匹配式,使用匹配式对用户的搜索结果页进行匹配,筛选出用户进行站内搜索的搜索结果页。把本次有效站内搜索之前进行的无效搜索的关键词与本次有效站内搜索所搜索出的目标网站页面进行关联,使用户输入无效搜索关键词后也能搜索出想要的页面,解决了现有技术中网站站内搜索效率低的技术问题,达到了提高网站站内搜索效率的技术效果。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是根据本申请实施例的一种提高网站站内搜索效率的方法的流程图;以及
图2是根据本申请实施例的一种提高网站站内搜索效率的装置的示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
首先对本申请实施例所涉及的技术术语作如下解释:
统一资源定位符(Uniform Resource Locator,简称,URL):统一资源定位符是对可以从互联网上得到的资源的位置和访问方法的一种简洁的表示,是互联网上标准资源的地址。互联网上的每个文件都有一个唯一的URL,它包含的信息指出文件的位置以及浏览器应该怎么处理它。
正则表达式:又称正规表示法、常规表示法,是计算机科学的一个概念。正则表达式使用单个字符串来描述、匹配一系列符合某个句法规则的字符串。在很多文本编辑器里,正则表达式通常被用来检索、替换那些符合某个模式的文本。
根据本申请实施例,提供了一种提高网站站内搜索效率的方法的实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
图1是根据本申请实施例的一种提高网站站内搜索效率的方法的流程图,如图1所示,该方法包括如下步骤S102至步骤S110:
步骤S102,从访问目标网站的访问日志中,提取表示目标网站的站内搜索结果页的统一资源定位符URL,即从访问日志中提取出目标网站的站内搜索结果页的URL。
步骤S104,根据目标网站的站内搜索结果页的URL,确定用于匹配目标网站的站内搜索结果页的匹配式,即根据目标网站站内搜索结果页的URL,确定出匹配式,该匹配式满足的条件是:用它匹配目标网站的站内搜索结果页URL时,匹配成功,否则,匹配失败。
步骤S106,从访问日志中提取第一关键词、第二关键词、第一搜索结果页的URL、第一目标页面,其中,第一关键词和第二关键词均为用于在目标网站进行站内搜索的关键词,第一搜索结果页为接收到第一关键词后加载的页面,第一目标页面为加载出的第一搜索结果页中任一搜索结果表示的页面,第二关键词为在接收到第一关键词之前接收到的关键词,并且在接收到第二关键词后,目标网站未加载第二搜索结果页中的任一搜索结果表示的页面,第二搜索结果页为接收到第二关键词后加载的页面。即,从访问日志中提取出用户进行搜索的关键词、用户输入关键词后加载出的页面、该加载出来的页面的搜索结果所指向的页面中那些被用户点击过的页面。其中,第一关键词为用户输入之后,对其搜索结果页的搜索结果指向的页面又进行了访问的关键词,也就是有效搜索关键词。用户输入第一关键词后,加载出来的页面为第一搜索结果页,第一搜索结果页的搜索结果指向的多个页面中那些被用户访问过的页面为第一目标页面,第一目标页面可以为多个。第二关键词为用户输入之后,对其搜索结果页指向的页面未进行任何访问的关键词,也就是无效搜索关键词。用户输入第二关键词后,加载出来的页面为第二搜索结果页。
步骤S108,利用匹配式对第一搜索结果页的URL进行匹配。即,利用匹配式对第一搜索结果页的URL进行匹配,筛选出目标网站站内搜索的搜索结果页。如果匹配成功,说明该第一搜索结果页为目标网站的站内搜索的搜索结果页,如果匹配失败,说明该第一搜索结果页不是目标网站的站内搜索的搜索结果页。
步骤S110,在匹配式与第一搜索结果页的URL匹配成功的情况下,关联第二关键词和第一目标页面。当匹配式与第一搜索结果页的URL匹配成功时,说明该第一搜索结果页是目标网站站内搜索的搜索结果页。此时,把第二关键词和第一目标页面进行关联,即,当第一搜索结果页是目标网站站内搜索的搜索结果页时,把之前的无效搜索关键词与第一目标页面进行关联。
需要注意的是,本申请实施例中的网站均只能提供站内搜索功能,不能提供站外搜索功能。
例如,用户在A网站输入关键词“国庆阅兵”,进行站内搜索,得到一个搜索结果页,假设该搜索结果页中某一条搜索结果为“国庆阅兵有七大不同”,在用户点击了该搜索结果后,得到了一个第一目标页面。另一条搜索结果为“新中国14次国庆阅兵|海军陆战队|步兵”,在用户点击了该搜索结果后,又得到了另一个第一目标页面。由于用户对搜索结果页中的搜索结果进行了点击(可以是点击一个搜索结果,也可以是点击多个搜索结果),所以该次搜索的关键词“国庆阅兵”是第一关键词,也称为有效搜索关键词。用户输入第一关键词后加载出的页面,为第一搜索结果页,第一搜索结果页所指向的页面中那些被用户点击过的页面为第一目标页面。
又例如,用户在B网站输入关键词“国庆放假”,进行站内搜索,得到一个搜索结果页。用户对该搜索结果页的各条搜索结果未进行任何点击,接着又输入了关键词“国庆放假游玩”,进行站内搜索,得到一个搜索结果页。假设该搜索结果页中某一条搜索结果为“‘十一’出境游进入倒计时|游客|出游”,在用户点击了该搜索结果后,得到了一个第一目标页面。由于用户使用关键词“国庆放假”进行搜索时,对搜索结果页的各条搜索结果未进行任何点击,所以关键词“国庆放假”是第二关键词,说明用户没有在搜索结果页中找到想要的搜索结果,因此,关键词“国庆放假”是无效搜索关键词。用户输入第二关键词后加载出来的页面,为第二搜索结果页。由于用户使用关键词“国庆放假出游”进行搜索时,对得到的站内搜索结果页中的搜索结果进行了点击,所以关键词“国庆放假出游”是第一关键词。用户输入第一关键词后加载出的页面,为第一搜索结果页,第一搜索结果页所指向的页面中那些被用户点击过的页面为第一目标页面。把关键词“国庆放假”与用户使用关键词“国庆放假出游”进行搜索得到的第一目标页面建立关联,这样当用户使用关键词“国庆放假”进行搜索时,也能搜索出该第一目标页面。
本申请实施例所提供的提高网站站内搜索效率的方法,通过读取用户的访问日志,得到用户使用的关键词、访问过的页面的URL,根据目标网站的站内搜索结果页的URL,构造能够匹配目标网站的站内搜索结果页的匹配式,使用匹配式对用户的搜索结果页进行匹配,筛选出用户进行站内搜索的搜索结果页。把本次有效站内搜索之前进行的无效搜索的关键词与本次有效站内搜索所搜索出的目标网站页面进行关联,使用户输入无效搜索关键词后也能搜索出想要的页面,解决了现有技术中网站站内搜索效率低的技术问题,达到了提高网站站内搜索效率的技术效果。
可选地,关联第二关键词和第一目标页面包括:添加第二关键词至第一目标页面的页面标签。即,通过把无效搜索的关键词添加到第一目标页面的页面标签中,使无效搜索的关键词和第一目标页面建立关联,使用户使用无效搜索关键词也能搜索到想要的页面。也就是说,关联无效搜索关键词和有效搜索关键词所搜索出来的站内页面的方法,可以是把无效搜索关键词添加到有效搜索关键词所搜索出来的站内页面的页面标签中。
例如,用户一共进行了5次站内搜索。下面使用A、B、C、D、E表示用户输入的搜索关键词。
用户第一次站内搜索输入的搜索关键词为A,加载出搜索结果页,搜索结果页用pageA表示,用户点击了搜索结果页pageA的两条搜索结果所指向的页面,这两个页面分别用pageA1和pageA2表示。
用户第二次站内搜索输入的搜索关键词为B,加载出搜索结果页,搜索结果页用pageB表示,用户点击了搜索结果页pageB的一条搜索结果所指向的页面,这个页面用pageB1表示。
用户第三次站内搜索输入的搜索关键词为C,加载出搜索结果页,搜索结果页用pageC表示,用户未点击搜索结果页pageC的任何搜索结果所指向的页面。
用户第四次站内搜索输入的搜索关键词为D,加载出搜索结果页,搜索结果页用pageD表示,用户未点击搜索结果页pageD的任何搜索结果所指向的页面。
用户第五次站内搜索输入的搜索关键词为E,加载出搜索结果页,搜索结果页用pageE表示,用户点击了搜索结果页pageE的其中一条搜索结果所指向的页面,这个页面用pageE1表示。
用户输入关键词A之后,对搜索结果页的搜索结果所指向的页面进行了访问,因此关键词A是第一关键词,也就是有效搜索关键词,关键词A的搜索结果页pageA是第一搜索结果页,页面pageA1和pageA2为第一目标页面。
用户输入关键词B之后,对搜索结果页的搜索结果所指向的页面进行了访问,因此关键词B是第一关键词,也就是有效搜索关键词,关键词B的搜索结果页pageB是第一搜索结果页,页面pageB1为第一目标页面。
用户输入关键词C之后,未点击搜索结果页的任何搜索结果所指向的页面,因此,关键词C是第二关键词,也就是无效搜索关键词,关键词C的搜索结果页pageC是第二搜索结果页。
依此类推,关键词D是第二关键词,也就是无效搜索关键词。关键词D的搜索结果页pageD是第二搜索结果页。
关键词E是第一关键词,也就是有效搜索关键词。关键词E的搜索结果页pageE是第一搜索结果页。页面pageE1为第一目标页面。
将第二关键词C与第二关键词D添加到第一目标页面pageE1的页面标签中,使得用户在使用关键词C和关键词D进行站内搜索也能搜索出页面pageE1。
可选地,匹配式为正则表达式,利用匹配式对第一搜索结果页的URL进行匹配包括:判断第一搜索结果页的URL中表示主机名的字段与正则表达式中表示域名的字段是否相同,其中,在第一搜索结果页的URL中表示主机名的字段与正则表达式中表示域名的字段相同的情况下,确定匹配式与第一搜索结果页的URL匹配成功。即,使用正则表达式对第一搜索结果页进行匹配,如果第一搜索结果页的URL中表示主机名的字段与正则表达式中表示域名的字段相同,则匹配成功,说明该第一搜索结果页是目标网站站内搜索结果页。
正则表达式有很多用法,例如:替换指定内容到行尾、数字替换、删除每一行行尾的指定字符、匹配字符串,等等。
比如有两个字符串:“123451265345”和“2345”,需要删除每个字符串末尾的“345”。解决方法如下:在替换对话框中,启用“正则表达式”复选框,在查找内容里面输入“345$”,其中,“$”表示从行尾匹配。
可以使用正则表达式作为匹配式,用于匹配URL的正则表达式可以为以下形式:“^http://([\\w-]+\.)+[\\w-]+(/[\\w-./?%&=]*)?$”。
在凤凰网输入搜索关键词“天津爆炸”,选择站内搜索,搜索结果页的搜索结果指向的部分页面的URL为:
http://news.ifeng.com/a/20150814/44423078_0.shtml
http://news.ifeng.com/a/20150815/44433711_0.shtml
http://news.ifeng.com/a/20150813/44417356_0.shtml
http://news.ifeng.com/a/20150829/44546931_0.shtml
从上面几条URL可以看出它们的域名都为news.ifeng.com,只是后面的路径不同,因此可以通过判断URL表示主机名的字段与正则表达式中表示域名的字段是否相同来判断是否为目标网站站内页面,如果URL表示主机名的字段与正则表达式中表示域名的字段相同,则该URL为目标网站站内页面。
可选地,在从访问目标网站的访问日志中,提取表示目标网站的站内搜索结果页的统一资源定位符URL之前,方法包括:在目标网站部署日志获取程序;以及运行日志获取程序以获取访问日志。即,通过在目标网站部署并运行日志获取程序来获取用户访问日志。其中,用户访问日志记录了用户在目标网站的访问信息,可以包括用户输入的搜索关键词、点击的页面、在页面的停留时间,等等。
可选地,从访问目标网站的访问日志中,提取表示目标网站的站内搜索结果页的统一资源定位符URL包括:从访问日志中提取URL域名为目标网站的域名的URL,得到目标网站的站内搜索结果页的URL。即,如果某一个URL的域名与目标网站的域名相同,则这个URL所表示的页面是这个目标网站的站内页面。
根据本申请实施例,还提供了一种提高网站站内搜索效率的装置。该提高网站站内搜索效率的装置可以执行上述提高网站站内搜索效率的方法,上述提高网站站内搜索效率的方法也可以通过该提高网站站内搜索效率的装置实施。
图2是根据本申请实施例的一种提高网站站内搜索效率的装置的示意图。如图2所示,该装置包括第一提取单元20、确定单元22、第二提取单元24、匹配单元26和关联单元28。
第一提取单元20,用于从访问目标网站的访问日志中,提取表示目标网站的站内搜索结果页的统一资源定位符URL。即从访问日志中提取出目标网站的站内搜索结果页的URL。
确定单元22,用于根据目标网站的站内搜索结果页的URL,确定用于匹配目标网站的站内搜索结果页的匹配式。即根据目标网站站内搜索结果页的URL,确定出匹配式,该匹配式满足的条件是:用它匹配目标网站的站内搜索结果页URL时,匹配成功,否则,匹配失败。
第二提取单元24,用于从访问日志中提取第一关键词、第二关键词、第一搜索结果页的URL、第一目标页面,其中,第一关键词和第二关键词均为用于在目标网站进行站内搜索的关键词,第一搜索结果页为接收到第一关键词后加载的页面,第一目标页面为加载出的第一搜索结果页中任一搜索结果表示的页面,第二关键词为在接收到第一关键词之前接收到的关键词,并且在接收到第二关键词后,目标网站未加载第二搜索结果页中的任一搜索结果表示的页面,第二搜索结果页为接收到第二关键词后加载的页面。即,从访问日志中提取出用户进行搜索的关键词、用户输入关键词后加载出的页面、该加载出来的页面的搜索结果所指向的页面中那些被用户点击过的页面。其中,第一关键词为用户输入之后,对其搜索结果页的搜索结果指向的页面又进行了访问的关键词,也就是有效搜索关键词。用户输入第一关键词后,加载出来的页面为第一搜索结果页,第一搜索结果页的搜索结果指向的多个页面中那些被用户访问过的页面为第一目标页面,第一目标页面可以为多个。第二关键词为用户输入之后,对其搜索结果页指向的页面未进行任何访问的关键词,也就是无效搜索关键词。用户输入第二关键词后,加载出来的页面为第二搜索结果页。
匹配单元26,用于利用匹配式对第一搜索结果页的URL进行匹配。即,利用匹配式对第一搜索结果页的URL进行匹配,筛选出目标网站站内搜索的搜索结果页。如果匹配成功,说明该第一搜索结果页为目标网站的站内搜索的搜索结果页,如果匹配失败,说明该第一搜索结果页不是目标网站的站内搜索的搜索结果页。
关联单元28,用于在匹配式与第一搜索结果页的URL匹配成功的情况下,关联第二关键词和第一目标页面。即,当第一搜索结果页是目标网站站内搜索的搜索结果页时,把之前的无效搜索关键词与第一目标页面进行关联。
需要注意的是,本申请实施例中的网站均只能提供站内搜索功能,不能提供站外搜索功能。
例如,用户在A网站输入关键词“国庆阅兵”,进行站内搜索,得到一个搜索结果页,假设该搜索结果页中某一条搜索结果为“国庆阅兵有七大不同”,在用户点击了该搜索结果后,得到了一个第一目标页面。另一条搜索结果为“新中国14次国庆阅兵|海军陆战队|步兵”,在用户点击了该搜索结果后,又得到了另一个第一目标页面。由于用户对搜索结果页中的搜索结果进行了点击(可以是点击一个搜索结果,也可以是点击多个搜索结果),所以该次搜索的关键词“国庆阅兵”是第一关键词,也称为有效搜索关键词。用户输入第一关键词后加载出的页面,为第一搜索结果页,第一搜索结果页所指向的页面中那些被用户点击过的页面为第一目标页面。
又例如,用户在B网站输入关键词“国庆放假”,进行站内搜索,得到一个搜索结果页。用户对该搜索结果页的各条搜索结果未进行任何点击,接着又输入了关键词“国庆放假游玩”,进行站内搜索,得到一个搜索结果页。假设该搜索结果页中某一条搜索结果为“‘十一’出境游进入倒计时|游客|出游”,在用户点击了该搜索结果后,得到了一个第一目标页面。由于用户使用关键词“国庆放假”进行搜索时,对搜索结果页的各条搜索结果未进行任何点击,所以关键词“国庆放假”是第二关键词,说明用户没有在搜索结果页中找到想要的搜索结果,因此,关键词“国庆放假”是无效搜索关键词。用户输入第二关键词后加载出来的页面,为第二搜索结果页。由于用户使用关键词“国庆放假出游”进行搜索时,对得到的站内搜索结果页中的搜索结果进行了点击,所以关键词“国庆放假出游”是第一关键词。用户输入第一关键词后加载出的页面,为第一搜索结果页,第一搜索结果页所指向的页面中那些被用户点击过的页面为第一目标页面。把关键词“国庆放假”与用户使用关键词“国庆放假出游”进行搜索得到的第一目标页面建立关联,这样当用户使用关键词“国庆放假”进行搜索时,也能搜索出该第一目标页面。
本申请实施例所提供的提高网站站内搜索效率的装置,通过读取用户的访问日志,得到用户使用的关键词、访问过的页面的URL,根据目标网站的站内搜索结果页的URL,构造能够匹配目标网站的站内搜索结果页的匹配式,使用匹配式对用户的搜索结果页进行匹配,筛选出用户进行站内搜索的搜索结果页。把本次有效站内搜索之前进行的无效搜索的关键词与本次有效站内搜索所搜索出的目标网站页面进行关联,使用户输入无效搜索关键词后也能搜索出想要的页面,解决了现有技术中网站站内搜索效率低的技术问题,达到了提高网站站内搜索效率的技术效果。
可选地,关联单元包括添加子单元。该添加子单元用于添加第二关键词至第一目标页面的页面标签。即,通过把无效搜索的关键词添加到第一目标页面的页面标签中,使无效搜索的关键词和第一目标页面建立关联,使用户使用无效搜索关键词也能搜索到想要的页面。也就是说,关联无效搜索关键词和有效搜索关键词所搜索出来的站内页面的方法,可以是把无效搜索关键词添加到有效搜索关键词所搜索出来的站内页面的页面标签中。
例如,用户一共进行了5次站内搜索。下面使用A、B、C、D、E表示用户输入的搜索关键词。
用户第一次站内搜索输入的搜索关键词为A,加载出搜索结果页,搜索结果页用pageA表示,用户点击了搜索结果页pageA的两条搜索结果所指向的页面,这两个页面分别用pageA1和pageA2表示。
用户第二次站内搜索输入的搜索关键词为B,加载出搜索结果页,搜索结果页用pageB表示,用户点击了搜索结果页pageB的一条搜索结果所指向的页面,这个页面用pageB1表示。
用户第三次站内搜索输入的搜索关键词为C,加载出搜索结果页,搜索结果页用pageC表示,用户未点击搜索结果页pageC的任何搜索结果所指向的页面。
用户第四次站内搜索输入的搜索关键词为D,加载出搜索结果页,搜索结果页用pageD表示,用户未点击搜索结果页pageD的任何搜索结果所指向的页面。
用户第五次站内搜索输入的搜索关键词为E,加载出搜索结果页,搜索结果页用pageE表示,用户点击了搜索结果页pageE的其中一条搜索结果所指向的页面,这个页面用pageE1表示。
用户输入关键词A之后,对搜索结果页的搜索结果所指向的页面进行了访问,因此关键词A是第一关键词,也就是有效搜索关键词,关键词A的搜索结果页pageA是第一搜索结果页,页面pageA1和pageA2为第一目标页面。
用户输入关键词B之后,对搜索结果页的搜索结果所指向的页面进行了访问,因此关键词B是第一关键词,也就是有效搜索关键词,关键词B的搜索结果页pageB是第一搜索结果页,页面pageB1为第一目标页面。
用户输入关键词C之后,未点击搜索结果页的任何搜索结果所指向的页面,因此,关键词C是第二关键词,也就是无效搜索关键词,关键词C的搜索结果页pageC是第二搜索结果页。
依此类推,关键词D是第二关键词,也就是无效搜索关键词。关键词D的搜索结果页pageD是第二搜索结果页。
关键词E是第一关键词,也就是有效搜索关键词。关键词E的搜索结果页pageE是第一搜索结果页。页面pageE1为第一目标页面。
将第二关键词C与第二关键词D添加到第一目标页面pageE1的页面标签中,使得用户在使用关键词C和关键词D进行站内搜索也能搜索出页面pageE1。
可选地,匹配式为正则表达式,匹配单元包括判断子单元。该判断子单元用于判断第一搜索结果页的URL中表示主机名的字段与正则表达式中表示域名的字段是否相同,其中,在第一搜索结果页的URL中表示主机名的字段与正则表达式中表示域名的字段相同的情况下,确定匹配式与第一搜索结果页的URL匹配成功。即,使用正则表达式对第一搜索结果页进行匹配,如果第一搜索结果页的URL中表示主机名的字段与正则表达式中表示域名的字段相同,则匹配成功,说明该第一搜索结果页是目标网站站内搜索结果页。
正则表达式有很多用法,例如:替换指定内容到行尾、数字替换、删除每一行行尾的指定字符、匹配字符串,等等。
比如有两个字符串:“123451265345”和“2345”,需要删除每个字符串末尾的“345”。解决方法如下:在替换对话框中,启用“正则表达式”复选框,在查找内容里面输入“345$”,其中,“$”表示从行尾匹配。
可以使用正则表达式作为匹配式,用于匹配URL的正则表达式可以为以下形式:“^http://([\\w-]+\.)+[\\w-]+(/[\\w-./?%&=]*)?$”。
在凤凰网输入搜索关键词“天津爆炸”,选择站内搜索,搜索结果页的搜索结果指向的部分页面的URL为:
http://news.ifeng.com/a/20150814/44423078_0.shtml
http://news.ifeng.com/a/20150815/44433711_0.shtml
http://news.ifeng.com/a/20150813/44417356_0.shtml
http://news.ifeng.com/a/20150829/44546931_0.shtml
从上面几条URL可以看出它们的域名都为news.ifeng.com,只是后面的路径不同,因此可以通过判断URL表示主机名的字段与正则表达式中表示域名的字段是否相同来判断是否为目标网站站内页面,如果URL表示主机名的字段与正则表达式中表示域名的字段相同,则该URL为目标网站站内页面。
可选地,装置包括部署单元和运行单元。部署单元用于在第一提取单元从访问目标网站的访问日志中,提取表示目标网站的站内搜索结果页的统一资源定位符URL之前,在目标网站部署日志获取程序。运行单元,用于运行日志获取程序以获取访问日志。即,通过在目标网站部署并运行日志获取程序来获取用户访问日志。其中,用户访问日志记录了用户在目标网站的访问信息,可以包括用户输入的搜索关键词、点击的页面、在页面的停留时间,等等。
可选地,第一提取单元包括提取子单元。该提取子单元用于从访问日志中提取URL域名为目标网站的域名的URL,得到目标网站的站内搜索结果页的URL。即,如果某一个URL的域名与目标网站的域名相同,则这个URL所表示的页面是这个目标网站的站内页面。
所述提高网站站内搜索效率的装置包括处理器和存储器,上述第一提取单元20、确定单元22、第二提取单元24、匹配单元26和关联单元28等均作为程序单元存储在存储器中,由处理器执行存储在存储器中的上述程序单元来实现相应的功能。
处理器中包含内核,由内核去存储器中调取相应的程序单元。内核可以设置一个或以上,通过调整内核参数来在提高站内搜索效率。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM),存储器包括至少一个存储芯片。
本申请还提供了一种计算机程序产品,当在数据处理设备上执行时,适于执行初始化有如下方法步骤的程序代码:从访问目标网站的访问日志中,提取表示目标网站的站内搜索结果页的统一资源定位符URL,根据目标网站的站内搜索结果页的URL,确定用于匹配目标网站的站内搜索结果页的匹配式,从访问日志中提取第一关键词、第二关键词、第一搜索结果页的URL、第一目标页面,其中,第一关键词和第二关键词均为用于在目标网站进行站内搜索的关键词,第一搜索结果页为接收到第一关键词后加载的页面,第一目标页面为加载出的第一搜索结果页中任一搜索结果表示的页面,第二关键词为在接收到第一关键词之前接收到的关键词,并且在接收到第二关键词后,目标网站未加载第二搜索结果页中的任一搜索结果表示的页面,第二搜索结果页为接收到第二关键词后加载的页面,利用匹配式对第一搜索结果页的URL进行匹配,以及在匹配式与第一搜索结果页的URL匹配成功的情况下,关联第二关键词和第一目标页面。
上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。
在本申请的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,可以为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅是本申请的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。

Claims (10)

1.一种提高网站站内搜索效率的方法,其特征在于,包括:
从访问目标网站的访问日志中,提取表示所述目标网站的站内搜索结果页的统一资源定位符URL;
根据所述目标网站的站内搜索结果页的URL,确定用于匹配所述目标网站的站内搜索结果页的匹配式;
从所述访问日志中提取第一关键词、第二关键词、第一搜索结果页的URL、第一目标页面,其中,所述第一关键词和所述第二关键词均为用于在所述目标网站进行站内搜索的关键词,所述第一搜索结果页为接收到所述第一关键词后加载的页面,所述第一目标页面为加载出的所述第一搜索结果页中任一搜索结果表示的页面,所述第二关键词为在接收到所述第一关键词之前接收到的关键词,并且在接收到所述第二关键词后,所述目标网站未加载第二搜索结果页中的任一搜索结果表示的页面,所述第二搜索结果页为接收到所述第二关键词后加载的页面;
利用所述匹配式对所述第一搜索结果页的URL进行匹配;以及
在所述匹配式与所述第一搜索结果页的URL匹配成功的情况下,关联所述第二关键词和所述第一目标页面。
2.根据权利要求1所述的方法,其特征在于,关联所述第二关键词和所述第一目标页面包括:
添加所述第二关键词至所述第一目标页面的页面标签。
3.根据权利要求1所述的方法,其特征在于,所述匹配式为正则表达式,利用所述匹配式对所述第一搜索结果页的URL进行匹配包括:
判断所述第一搜索结果页的URL中表示主机名的字段与所述正则表达式中表示域名的字段是否相同,其中,在所述第一搜索结果页的URL中表示主机名的字段与所述正则表达式中表示域名的字段相同的情况下,确定所述匹配式与所述第一搜索结果页的URL匹配成功。
4.根据权利要求1所述的方法,其特征在于,在从访问目标网站的访问日志中,提取表示所述目标网站的站内搜索结果页的统一资源定位符URL之前,所述方法还包括:
在所述目标网站部署日志获取程序;以及
运行所述日志获取程序以获取所述访问日志。
5.根据权利要求1所述的方法,其特征在于,从访问目标网站的访问日志中,提取表示所述目标网站的站内搜索结果页的统一资源定位符URL包括:
从所述访问日志中提取URL域名为所述目标网站的域名的URL,得到所述目标网站的站内搜索结果页的URL。
6.一种提高网站站内搜索效率的装置,其特征在于,包括:
第一提取单元,用于从访问目标网站的访问日志中,提取表示所述目标网站的站内搜索结果页的统一资源定位符URL;
确定单元,用于根据所述目标网站的站内搜索结果页的URL,确定用于匹配所述目标网站的站内搜索结果页的匹配式;
第二提取单元,用于从所述访问日志中提取第一关键词、第二关键词、第一搜索结果页的URL、第一目标页面,其中,所述第一关键词和所述第二关键词均为用于在所述目标网站进行站内搜索的关键词,所述第一搜索结果页为接收到所述第一关键词后加载的页面,所述第一目标页面为加载出的所述第一搜索结果页中任一搜索结果表示的页面,所述第二关键词为在接收到所述第一关键词之前接收到的关键词,并且在接收到所述第二关键词后,所述目标网站未加载第二搜索结果页中的任一搜索结果表示的页面,所述第二搜索结果页为接收到所述第二关键词后加载的页面;
匹配单元,用于利用所述匹配式对所述第一搜索结果页的URL进行匹配;以及
关联单元,用于在所述匹配式与所述第一搜索结果页的URL匹配成功的情况下,关联所述第二关键词和所述第一目标页面。
7.根据权利要求6所述的装置,其特征在于,所述关联单元包括:
添加子单元,用于添加所述第二关键词至所述第一目标页面的页面标签。
8.根据权利要求6所述的装置,其特征在于,所述匹配式为正则表达式,所述匹配单元包括:
判断子单元,用于判断所述第一搜索结果页的URL中表示主机名的字段与所述正则表达式中表示域名的字段是否相同,其中,在所述第一搜索结果页的URL中表示主机名的字段与所述正则表达式中表示域名的字段相同的情况下,确定所述匹配式与所述第一搜索结果页的URL匹配成功。
9.根据权利要求6所述的装置,其特征在于,所述装置包括:
部署单元,用于在所述第一提取单元从访问目标网站的访问日志中,提取表示所述目标网站的站内搜索结果页的统一资源定位符URL之前,在所述目标网站部署日志获取程序;以及
运行单元,用于运行所述日志获取程序以获取所述访问日志。
10.根据权利要求6所述的装置,其特征在于,所述第一提取单元包括:
提取子单元,用于从所述访问日志中提取URL域名为所述目标网站的域名的URL,得到所述目标网站的站内搜索结果页的URL。
CN201510708722.7A 2015-10-27 2015-10-27 提高网站站内搜索效率的方法和装置 Active CN106611022B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510708722.7A CN106611022B (zh) 2015-10-27 2015-10-27 提高网站站内搜索效率的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510708722.7A CN106611022B (zh) 2015-10-27 2015-10-27 提高网站站内搜索效率的方法和装置

Publications (2)

Publication Number Publication Date
CN106611022A true CN106611022A (zh) 2017-05-03
CN106611022B CN106611022B (zh) 2020-03-03

Family

ID=58614689

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510708722.7A Active CN106611022B (zh) 2015-10-27 2015-10-27 提高网站站内搜索效率的方法和装置

Country Status (1)

Country Link
CN (1) CN106611022B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107193987A (zh) * 2017-05-27 2017-09-22 广东神马搜索科技有限公司 获取与页面相关的搜索词的方法、装置和系统
CN110020105A (zh) * 2017-09-07 2019-07-16 北京国双科技有限公司 网站搜索性能的确定方法及装置
CN110889050A (zh) * 2018-09-07 2020-03-17 北京搜狗科技发展有限公司 一种泛品牌词的挖掘方法及装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110055253A1 (en) * 2009-08-26 2011-03-03 Electronics And Telecommunications Research Institute Apparatus and methods for integrated management of spatial/geographic contents
CN103577489A (zh) * 2012-08-08 2014-02-12 百度在线网络技术(北京)有限公司 一种网页浏览历史查询方法及装置
CN103617225A (zh) * 2013-11-25 2014-03-05 北京奇虎科技有限公司 一种关联网页搜索方法和系统
CN104391958A (zh) * 2014-11-28 2015-03-04 北京国双科技有限公司 网页搜索关键词的相关性检测方法及装置
CN104484399A (zh) * 2014-12-12 2015-04-01 北京国双科技有限公司 网页页面的跳转处理方法和装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110055253A1 (en) * 2009-08-26 2011-03-03 Electronics And Telecommunications Research Institute Apparatus and methods for integrated management of spatial/geographic contents
CN103577489A (zh) * 2012-08-08 2014-02-12 百度在线网络技术(北京)有限公司 一种网页浏览历史查询方法及装置
CN103617225A (zh) * 2013-11-25 2014-03-05 北京奇虎科技有限公司 一种关联网页搜索方法和系统
CN104391958A (zh) * 2014-11-28 2015-03-04 北京国双科技有限公司 网页搜索关键词的相关性检测方法及装置
CN104484399A (zh) * 2014-12-12 2015-04-01 北京国双科技有限公司 网页页面的跳转处理方法和装置

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107193987A (zh) * 2017-05-27 2017-09-22 广东神马搜索科技有限公司 获取与页面相关的搜索词的方法、装置和系统
CN107193987B (zh) * 2017-05-27 2020-12-29 阿里巴巴(中国)有限公司 获取与页面相关的搜索词的方法、装置和系统
CN110020105A (zh) * 2017-09-07 2019-07-16 北京国双科技有限公司 网站搜索性能的确定方法及装置
CN110889050A (zh) * 2018-09-07 2020-03-17 北京搜狗科技发展有限公司 一种泛品牌词的挖掘方法及装置

Also Published As

Publication number Publication date
CN106611022B (zh) 2020-03-03

Similar Documents

Publication Publication Date Title
CN104715064B (zh) 一种实现在网页上标注关键词的方法和服务器
US8255386B1 (en) Selection of documents to place in search index
US9251157B2 (en) Enterprise node rank engine
CN102930059B (zh) 一种聚焦爬虫的设计方法
CN104750704B (zh) 一种网页url地址分类识别方法及装置
CN107145496A (zh) 基于关键词将图像与内容项目匹配的方法
CN104102639B (zh) 基于文本分类的推广触发方法和装置
CN111241389B (zh) 一种基于矩阵的敏感词过滤方法、装置、电子设备、存储介质
CN102725759A (zh) 用于搜索结果的语义目录
CN106611029A (zh) 提高网站站内搜索效率的方法和装置
CN107341399A (zh) 评估代码文件安全性的方法及装置
CN103136360A (zh) 一种互联网行为标注引擎及对应该引擎的行为标注方法
JP6165955B1 (ja) 検索クエリに応答してホワイトリストとブラックリストを使用し画像とコンテンツをマッチングする方法及びシステム
CN107766399A (zh) 用于使图像与内容项目匹配的方法和系统及机器可读介质
CN107491465A (zh) 用于搜索内容的方法和装置以及数据处理系统
GB2555801A (en) Identifying fraudulent and malicious websites, domain and subdomain names
CN103218443A (zh) 一种面向博客网页的网页检索系统及方法
CN106776937B (zh) 一种确定内链关键词的方法和装置
US20130031080A1 (en) Surfacing actions from social data
CN105302876A (zh) 基于正则表达式的url过滤方法
CN107145497A (zh) 基于图像和内容的元数据选择与内容匹配的图像的方法
CN107977420A (zh) 一种演进式文档的摘要提取方法、装置及可读存储介质
CN106250402B (zh) 一种网站分类方法及装置
CN105095175A (zh) 获取截短的网页标题的方法及装置
CN106611022A (zh) 提高网站站内搜索效率的方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information
CB02 Change of applicant information

Address after: 100083 No. 401, 4th Floor, Haitai Building, 229 North Fourth Ring Road, Haidian District, Beijing

Applicant after: Beijing Guoshuang Technology Co.,Ltd.

Address before: 100086 Cuigong Hotel, 76 Zhichun Road, Shuangyushu District, Haidian District, Beijing

Applicant before: Beijing Guoshuang Technology Co.,Ltd.

GR01 Patent grant
GR01 Patent grant