CN106611029A

CN106611029A - 提高网站站内搜索效率的方法和装置

Info

Publication number: CN106611029A
Application number: CN201510708859.2A
Authority: CN
Inventors: 李新国
Original assignee: Beijing Gridsum Technology Co Ltd
Current assignee: Beijing Gridsum Technology Co Ltd
Priority date: 2015-10-27
Filing date: 2015-10-27
Publication date: 2017-05-03
Anticipated expiration: 2035-10-27
Also published as: CN106611029B

Abstract

本申请公开了一种提高网站站内搜索效率的方法和装置。其中，该方法包括：从访问目标网站的访问日志中，提取表示目标网站的站内搜索结果页的统一资源定位符URL；根据目标网站的站内搜索结果页的URL，确定用于匹配目标网站的站内搜索结果页的匹配式；从访问日志中提取第一关键词、第二关键词、第一搜索结果页的URL、第一目标页面；利用匹配式对第一搜索结果页的URL进行匹配；提取预设时间段内搜索次数高于第一预设数量的第二关键词；检查提取到的第二关键词是否已存储在预设关键词词典中；关联提取到的第二关键词和第一目标页面。本申请解决了现有技术中用户的搜索效率比较低的技术问题。

Description

提高网站站内搜索效率的方法和装置

技术领域

本申请涉及搜索领域，具体而言，涉及一种提高网站站内搜索效率的方法和装置。

背景技术

在以往网站建设、企业信息系统搭建过程中，由于信息结构简单、内容稀缺，站内搜索不是网站系统的必要装备。但随着Web2.0带来的海量信息井喷式涌现，企业自身对信息架构、管理、发布的需求，以及用户对信息的组织、查询、可寻性的要求越来越高，于是站内搜索出现了。

通常情况下，用户在进行网站站内搜索时，如果结果页中没有想要的结果，会通过改变搜索关键词的方式继续尝试找到自己想要的结果。

在用户找到想要的页面之前，可能会经历数次无效的搜索，不能快速找到目标页面。

针对上述的问题，目前尚未提出有效的解决方案。

发明内容

本申请实施例提供了一种提高网站站内搜索效率的方法和装置，以至少解决现有技术中用户搜索效率比较低的技术问题。

根据本申请实施例的一个方面，提供了一种提高网站站内搜索效率的方法，包括：从访问目标网站的访问日志中，提取表示所述目标网站的站内搜索结果页的统一资源定位符URL；根据所述目标网站的站内搜索结果页的URL，确定用于匹配所述目标网站的站内搜索结果页的匹配式；从所述访问日志中提取第一关键词、第二关键词、第一搜索结果页的URL、第一目标页面，其中，所述第一关键词和所述第二关键词均为用于在所述目标网站进行站内搜索的关键词，所述第一搜索结果页为接收到所述第一关键词后加载的页面，所述第一目标页面为加载出的所述第一搜索结果页中任一搜索结果表示的页面，所述第二关键词为在接收到所述第一关键词之前接收到的关键词，并且在接收到所述第二关键词后，所述目标网站未加载第二搜索结果页中的任一搜索结果表示的页面，所述第二搜索结果页为接收到所述第二关键词后加载的页面；利用所述匹配式对所述第一搜索结果页的URL进行匹配；在所述匹配式与所述第一搜索结果页的URL匹配成功的情况下，提取预设时间段内搜索次数高于第一预设数量的所述第二关键词；检查提取到的所述第二关键词是否已存储在预设关键词词典中，其中，所述预设关键词词典中存储有多个关于所述目标网站的关键词；在检查出提取到的所述第二关键词已存储在所述关键词词典中的情况下，关联提取到的所述第二关键词和所述第一目标页面。

进一步地，在从访问目标网站的访问日志中，提取表示所述目标网站的站内搜索结果页的统一资源定位符URL之前，所述方法还包括：在所述目标网站部署日志获取程序；以及运行所述日志获取程序以获取所述访问日志。

进一步地，关联提取到的所述第二关键词和所述第一目标页面包括：添加提取到的所述第二关键词至所述第一目标页面的页面标签。

进一步地，所述匹配式为正则表达式，利用所述匹配式对所述第一搜索结果页的URL进行匹配包括：判断所述第一搜索结果页的URL中表示主机名的字段与所述正则表达式中表示域名的字段是否相同，其中，在所述第一搜索结果页的URL中表示主机名的字段与所述正则表达式中表示域名的字段相同的情况下，确定所述匹配式与所述第一搜索结果页的URL匹配成功。

进一步地，在从访问目标网站的访问日志中，提取表示所述目标网站的站内搜索结果页的统一资源定位符URL之前，所述方法还包括：从所述目标网站上获取第二预设数量的文本文件；对获取到的每个所述文本文件的文本内容进行分词；以及将分词后的结果进行汇总，得到所述关键词词典。

根据本申请实施例的一个方面，提供了一种提高网站站内搜索效率的装置，包括：第一提取单元，用于从访问目标网站的访问日志中，提取表示所述目标网站的站内搜索结果页的统一资源定位符URL；确定单元，用于根据所述目标网站的站内搜索结果页的URL，确定用于匹配所述目标网站的站内搜索结果页的匹配式；第二提取单元，用于从所述访问日志中提取第一关键词、第二关键词、第一搜索结果页的URL、第一目标页面，其中，所述第一关键词和所述第二关键词均为用于在所述目标网站进行站内搜索的关键词，所述第一搜索结果页为接收到所述第一关键词后加载的页面，所述第一目标页面为加载出的所述第一搜索结果页中任一搜索结果表示的页面，所述第二关键词为在接收到所述第一关键词之前接收到的关键词，并且在接收到所述第二关键词后，所述目标网站未加载第二搜索结果页中的任一搜索结果表示的页面，所述第二搜索结果页为接收到所述第二关键词后加载的页面；匹配单元，用于利用所述匹配式对所述第一搜索结果页的URL进行匹配；第三提取单元，用于在所述匹配式与所述第一搜索结果页的URL匹配成功的情况下，提取预设时间段内搜索次数高于第一预设数量的所述第二关键词；检查单元，用于检查提取到的所述第二关键词是否已存储在预设关键词词典中，其中，所述预设关键词词典中存储有多个关于所述目标网站的关键词；关联单元，用于在检查出提取到的所述第二关键词已存储在所述关键词词典中的情况下，关联提取到的所述第二关键词和所述第一目标页面。

进一步地，所述装置还包括：部署单元，用于在所述第一提取单元从访问目标网站的访问日志中，提取表示所述目标网站的站内搜索结果页的统一资源定位符URL之前，在所述目标网站部署日志获取程序；以及运行单元，用于运行所述日志获取程序以获取所述访问日志。

进一步地，所述关联单元包括：添加子单元，用于添加提取到的所述第二关键词至所述第一目标页面的页面标签。

进一步地，所述匹配式为正则表达式，所述匹配单元包括：判断子单元，用于判断所述第一搜索结果页的URL中表示主机名的字段与所述正则表达式中表示域名的字段是否相同，其中，在所述第一搜索结果页的URL中表示主机名的字段与所述正则表达式中表示域名的字段相同的情况下，确定所述匹配式与所述第一搜索结果页的URL匹配成功。

进一步地，所述装置还包括：获取单元，用于在从访问目标网站的访问日志中，提取表示所述目标网站的站内搜索结果页的统一资源定位符URL之前，从所述目标网站上获取第二预设数量的文本文件；分词单元，用于对获取到的每个所述文本文件的文本内容进行分词；以及汇总单元，用于将分词后的结果进行汇总，得到所述关键词词典。

在本申请实施例中，采用从访问目标网站的访问日志中，提取表示目标网站的站内搜索结果页的统一资源定位符URL，根据目标网站的站内搜索结果页的URL，确定用于匹配目标网站的站内搜索结果页的匹配式，从访问日志中提取第一关键词、第二关键词、第一搜索结果页的URL、第一目标页面，其中，第一关键词和第二关键词均为用于在目标网站进行站内搜索的关键词，第一搜索结果页为接收到第一关键词后加载的页面，第一目标页面为加载出的第一搜索结果页中任一搜索结果表示的页面，第二关键词为在接收到第一关键词之前接收到的关键词，并且在接收到第二关键词后，目标网站未加载第二搜索结果页中的任一搜索结果表示的页面，第二搜索结果页为接收到第二关键词后加载的页面，利用匹配式对第一搜索结果页的URL进行匹配，在匹配式与第一搜索结果页的URL匹配成功的情况下，提取预设时间段内搜索次数高于第一预设数量的第二关键词，检查提取到的第二关键词是否已存储在预设关键词词典中，其中，预设关键词词典中存储有多个关于目标网站的关键词，在检查出提取到的第二关键词已存储在关键词词典中的情况下，关联提取到的第二关键词和第一目标页面。通过读取用户的访问日志，得到用户使用的关键词、访问过的页面的URL，根据目标网站的站内搜索结果页的URL，构造能够匹配目标网站的站内搜索结果页的匹配式，使用匹配式对用户的搜索结果页进行匹配，筛选出用户进行站内搜索的搜索结果页。提取出在一定时间段内搜索次数较多的无效搜索关键词，检查提取出的无效搜索关键词是否包含在关键词词典中，把包含在关键词词典中的本次有效站内搜索之前进行的无效搜索关键词与本次有效站内搜索所搜索出的目标网站页面进行关联，使输入用户使用次数较多的无效搜索关键词后也能搜索出想要的页面，解决了现有技术中网站站内搜索效率低的技术问题，达到了提高网站站内搜索效率的技术效果。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1是根据本申请实施例的一种提高网站站内搜索效率的方法的流程图；以及

图2是根据本申请实施例的一种提高网站站内搜索效率的装置的示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分的实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

首先对本申请实施例所涉及的技术术语作如下解释：

统一资源定位符(Uniform Resource Locator，简称，URL)：统一资源定位符是对可以从互联网上得到的资源的位置和访问方法的一种简洁的表示，是互联网上标准资源的地址。互联网上的每个文件都有一个唯一的URL，它包含的信息指出文件的位置以及浏览器应该怎么处理它。

正则表达式：又称正规表示法、常规表示法，是计算机科学的一个概念。正则表达式使用单个字符串来描述、匹配一系列符合某个句法规则的字符串。在很多文本编辑器里，正则表达式通常被用来检索、替换那些符合某个模式的文本。

根据本申请实施例，提供了一种提高网站站内搜索效率的方法的实施例，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

图1是根据本申请实施例的一种提高网站站内搜索效率的方法的流程图，如图1所示，该方法包括如下步骤S102至步骤S114：

步骤S102，从访问目标网站的访问日志中，提取表示目标网站的站内搜索结果页的统一资源定位符URL。即从访问日志中提取出目标网站的站内搜索结果页的URL。

步骤S104，根据目标网站的站内搜索结果页的URL，确定用于匹配目标网站的站内搜索结果页的匹配式。即根据目标网站站内搜索结果页的URL，确定出匹配式，该匹配式满足的条件是：用它匹配目标网站的站内搜索结果页URL时，匹配成功，否则，匹配失败。

步骤S106，从访问日志中提取第一关键词、第二关键词、第一搜索结果页的URL、第一目标页面，其中，第一关键词和第二关键词均为用于在目标网站进行站内搜索的关键词，第一搜索结果页为接收到第一关键词后加载的页面，第一目标页面为加载出的第一搜索结果页中任一搜索结果表示的页面，第二关键词为在接收到第一关键词之前接收到的关键词，并且在接收到第二关键词后，目标网站未加载第二搜索结果页中的任一搜索结果表示的页面，第二搜索结果页为接收到第二关键词后加载的页面。即，从访问日志中提取出用户进行搜索的关键词、用户输入关键词后加载出的页面、该加载出来的页面的搜索结果所指向的页面中那些被用户点击过的页面。其中，第一关键词为用户输入之后，对其搜索结果页的搜索结果指向的页面又进行了访问的关键词，也就是有效搜索关键词。用户输入第一关键词后，加载出来的页面为第一搜索结果页，第一搜索结果页的搜索结果指向的多个页面中那些被用户访问过的页面为第一目标页面，第一目标页面可以为多个。第二关键词为用户输入之后，对其搜索结果页指向的页面未进行任何访问的关键词，也就是无效搜索关键词。用户输入第二关键词后，加载出来的页面为第二搜索结果页。

步骤S108，利用匹配式对第一搜索结果页的URL进行匹配。即，利用匹配式对第一搜索结果页的URL进行匹配，筛选出目标网站站内搜索的搜索结果页。如果匹配成功，说明该第一搜索结果页为目标网站的站内搜索的搜索结果页，如果匹配失败，说明该第一搜索结果页不是目标网站的站内搜索的搜索结果页。

步骤S110，在匹配式与第一搜索结果页的URL匹配成功的情况下，提取预设时间段内搜索次数高于第一预设数量的第二关键词。即第一搜索结果页为目标网站的站内搜索的搜索结果页的情况下，提取在预先设置的时间段内用户搜索的次数高于预设数量的第二关键词。预先设置的时间段可以参考网站的流量等因素根据实际需要设置，例如可以设置为几天，几个月等。预设数量根据实际需要设置，例如可以设置为1、2或者3等。以预设数量为3为例进行说明，提取在预先设置的时间段内用户搜索的次数大于3的第二关键词，那么在预先设置的时间段内用户搜索的次数为1、2或者3的第二关键词就不会被提取出来。如果想提取出那些搜索次数比较高的无效搜索关键词，就可以把预设数量设置成一个较大的数字。如果想提取出那些搜索次数比较低的无效搜索关键词，就可以把预设数量设置成一个较小的数字。

步骤S112，检查提取到的第二关键词是否已存储在预设关键词词典中，其中，预设关键词词典中存储有多个关于目标网站的关键词。即，当提取出预设时间段内搜索次数高于第一预设数量的无效搜索关键词之后，检查此无效搜索关键词是否在关键词词典中，其中，该关键词词典是预先设置的，里面存储着多个关于目标网站的关键词。

步骤S114，在检查出提取到的第二关键词已存储在关键词词典中的情况下，关联提取到的第二关键词和第一目标页面。即，当检查出提取出来的无效搜索关键词已经存储在关键词词典中的情况下，把提取出的无效搜索关键词和第一目标页面建立关联。

例如，用户在A网站输入关键词“国庆阅兵”，进行站内搜索，得到一个搜索结果页，假设该搜索结果页中某一条搜索结果为“国庆阅兵有七大不同”，在用户点击了该搜索结果后，得到了一个第一目标页面。另一条搜索结果为“新中国14次国庆阅兵|海军陆战队|步兵”，在用户点击了该搜索结果后，又得到了另一个第一目标页面。由于用户对搜索结果页中的搜索结果进行了点击(可以是点击一个搜索结果，也可以是点击多个搜索结果)，所以该次搜索的关键词“国庆阅兵”是第一关键词，也称为有效搜索关键词。用户输入第一关键词后加载出的页面，为第一搜索结果页，第一搜索结果页所指向的页面中那些被用户点击过的页面为第一目标页面。

又例如，用户在B网站输入关键词“国庆放假”，进行站内搜索，得到一个搜索结果页。用户对该搜索结果页的各条搜索结果未进行任何点击，接着又输入了关键词“国庆放假游玩”，进行站内搜索，得到一个搜索结果页。假设该搜索结果页中某一条搜索结果为“‘十一’出境游进入倒计时|游客|出游”，在用户点击了该搜索结果后，得到了一个第一目标页面。由于用户使用关键词“国庆放假”进行搜索时，对搜索结果页的各条搜索结果未进行任何点击，所以关键词“国庆放假”是第二关键词，说明用户没有在搜索结果页中找到想要的搜索结果，因此，关键词“国庆放假”是无效搜索关键词。用户输入第二关键词后加载出来的页面，为第二搜索结果页。由于用户使用关键词“国庆放假出游”进行搜索时，对得到的站内搜索结果页中的搜索结果进行了点击，所以关键词“国庆放假出游”是第一关键词。用户输入第一关键词后加载出的页面，为第一搜索结果页，第一搜索结果页所指向的页面中那些被用户点击过的页面为第一目标页面。提取出一周之内搜索次数超过100次的第二关键词，得到关键词“国庆放假”。经过检查，发现关键词“国庆放假”已经存储在关键词词典中。把关键词“国庆放假”与用户使用关键词“国庆放假出游”进行搜索得到的第一目标页面建立关联，这样当用户使用关键词“国庆放假”进行搜索时，也能搜索出该第一目标页面。

本申请实施例所提供的提高网站站内搜索效率的方法，通过读取用户的访问日志，得到用户使用的关键词、访问过的页面的URL，根据目标网站的站内搜索结果页的URL，构造能够匹配目标网站的站内搜索结果页的匹配式，使用匹配式对用户的搜索结果页进行匹配，筛选出用户进行站内搜索的搜索结果页。提取出在一定时间段内搜索次数较多的无效搜索关键词，检查提取出的无效搜索关键词是否包含在关键词词典中，把包含在关键词词典中的本次有效站内搜索之前进行的无效搜索关键词与本次有效站内搜索所搜索出的目标网站页面进行关联，使输入用户使用次数较多的无效搜索关键词后也能搜索出想要的页面，解决了现有技术中网站站内搜索效率低的技术问题，达到了提高网站站内搜索效率的技术效果。

可选地，在从访问目标网站的访问日志中，提取表示所述目标网站的站内搜索结果页的统一资源定位符URL之前，本申请实施例所提供的提高网站站内搜索效率的方法还可以在目标网站部署能够监控日志获取程序，然后运行日志获取程序来获取访问日志，即，通过在目标网站部署并运行日志获取程序来获取用户访问日志。其中，用户访问日志记录了用户在目标网站的访问信息，可以包括用户输入的搜索关键词、点击的页面、在页面的停留时间，等等。

例如，两个用户一共进行了7次搜索。下面使用A、B、C、D、E表示用户输入的搜索关键词。

用户甲第一次站内搜索输入的搜索关键词为A，加载出搜索结果页，搜索结果页用pageA表示，用户点击了搜索结果页pageA的两条搜索结果所指向的页面，这两个页面分别用pageA1和pageA2表示。

用户甲第二次站内搜索输入的搜索关键词为B，加载出搜索结果页，搜索结果页用pageB表示，用户点击了搜索结果页pageB的一条搜索结果所指向的页面，这个页面用pageB1表示。

用户甲第三次站内搜索输入的搜索关键词为C，加载出搜索结果页，搜索结果页用pageC表示,用户未点击搜索结果页pageC的任何搜索结果所指向的页面。

用户甲第四次站内搜索输入的搜索关键词为D，加载出搜索结果页，搜索结果页用pageD表示,用户未点击搜索结果页pageD的任何搜索结果所指向的页面。

用户甲第五次站内搜索输入的搜索关键词为E，加载出搜索结果页，搜索结果页用pageE表示,用户点击了搜索结果页pageE的其中一条搜索结果所指向的页面，这个页面用pageE1表示。

用户乙第一次站内搜索输入的搜索关键词为C，加载出搜索结果页pageC，用户未点击搜索结果页pageC的任何搜索结果所指向的页面。

用户乙第二次站内搜索输入的搜索关键词为E，加载出搜索结果页pageE,用户点击了搜索结果页pageE的其中一条搜索结果所指向的页面pageE1。

用户甲输入关键词A之后，对搜索结果页的搜索结果所指向的页面进行了访问，因此关键词A是第一关键词，也就是有效搜索关键词，关键词A的搜索结果页pageA是第一搜索结果页，页面pageA1和pageA2为第一目标页面。

用户甲输入关键词B之后，对搜索结果页的搜索结果所指向的页面进行了访问，因此关键词B是第一关键词，也就是有效搜索关键词，关键词B的搜索结果页pageB是第一搜索结果页，页面pageB1为第一目标页面。

用户甲输入关键词C之后，未点击搜索结果页的任何搜索结果所指向的页面，因此，关键词C是第二关键词，也就是无效搜索关键词，关键词C的搜索结果页pageC是第二搜索结果页。

依此类推，关键词D是第二关键词，也就是无效搜索关键词。关键词D的搜索结果页pageD是第二搜索结果页。

关键词E是第一关键词，也就是有效搜索关键词。关键词E的搜索结果页pageE是第一搜索结果页。页面pageE1为第一目标页面。

上述关键词A、B、C、D、E中，关键词C和关键词D都是第二关键词，提取出一天之内搜索次数大于1的第二关键词，得到关键词C,把关键词C与第一目标页面pageE1建立关联。

通过以上步骤，建立了用户进行站内搜索输入的次数较多的无效搜索关键词与有效搜索关键词搜索出来的站内页面之间的联系，对于用户输入次数较少的无效搜索关键词，不与站内页面建立联系，避免了为站内页面关联太多关键词以至于影响搜索速度的问题。

可选地，关联提取到的第二关键词和第一目标页面包括：添加提取到的第二关键词至第一目标页面的页面标签。即，通过把提取到的无效搜索的关键词添加到第一目标页面的页面标签中，使提取到的无效搜索的关键词和第一目标页面建立关联，使用户使用无效搜索关键词也能搜索到想要的页面。也就是说，关联提取到的无效搜索关键词和有效搜索关键词所搜索出来的站内页面的方法，可以是把提取到的无效搜索关键词添加到有效搜索关键词所搜索出来的站内页面的页面标签中。

可选地，匹配式为正则表达式，利用匹配式对第一搜索结果页的URL进行匹配包括：判断第一搜索结果页的URL中表示主机名的字段与正则表达式中表示域名的字段是否相同，其中，在第一搜索结果页的URL中表示主机名的字段与正则表达式中表示域名的字段相同的情况下，确定匹配式与第一搜索结果页的URL匹配成功。即，使用正则表达式对第一搜索结果页进行匹配，如果第一搜索结果页的URL中表示主机名的字段与正则表达式中表示域名的字段相同，则匹配成功，说明该第一搜索结果页是目标网站站内搜索结果页。

正则表达式有很多用法，例如：替换指定内容到行尾、数字替换、删除每一行行尾的指定字符、匹配字符串，等等。

比如有两个字符串：“123451265345”和“2345”，需要删除每个字符串末尾的“345”。解决方法如下：在替换对话框中，启用“正则表达式”复选框，在查找内容里面输入“345$”，其中，“$”表示从行尾匹配。

可以使用正则表达式作为匹配式，用于匹配URL的正则表达式可以为以下形式：“^http://([\\w-]+\.)+[\\w-]+(/[\\w-./？％&＝]*)？$”。

在凤凰网输入搜索关键词“天津爆炸”，选择站内搜索，搜索结果页的搜索结果指向的部分页面的URL为:

http://news.ifeng.com/a/20150814/44423078_0.shtml

http://news.ifeng.com/a/20150815/44433711_0.shtml

http://news.ifeng.com/a/20150813/44417356_0.shtml

http://news.ifeng.com/a/20150829/44546931_0.shtml

从上面几条URL可以看出它们的域名都为news.ifeng.com，只是后面的路径不同，因此可以通过判断URL表示主机名的字段与正则表达式中表示域名的字段是否相同来判断是否为目标网站站内页面，如果URL表示主机名的字段与正则表达式中表示域名的字段相同，则该URL为目标网站站内页面。

可选地，在从访问目标网站的访问日志中，提取表示目标网站的站内搜索结果页的统一资源定位符URL之前，本申请实施例所提供的提高网站站内搜索效率的方法还包括：从目标网站上获取第二预设数量的文本文件；对获取到的每个文本文件的文本内容进行分词；以及将分词后的结果进行汇总，得到关键词词典。即，通过在目标网站部署并运行爬虫程序，来爬取目标网站的文本文件，该文本文件可以是目标网站上的文章，在本申请实施例中，可以获取5000篇文章，然后利用分词方法对每一个文本文件(即，文章)进行分词处理，得到能够用来描述网站上内容的多个分词结果，确定这些分词结果的集合为关键词词典。

根据本申请实施例，还提供了一种提高网站站内搜索效率的装置。该提高网站站内搜索效率的装置可以执行上述提高网站站内搜索效率的方法，上述提高网站站内搜索效率的方法也可以通过该提高网站站内搜索效率的装置实施。

图2是根据本申请实施例的一种提高网站站内搜索效率的装置的示意图。如图2所示，该装置包括：第一提取单元20、确定单元30、第二提取单元40、匹配单元50、第三提取单元60、检查单元70、关联单元80。

第一提取单元20用于从访问目标网站的访问日志中，提取表示目标网站的站内搜索结果页的统一资源定位符URL。即从访问日志中提取出目标网站的站内搜索结果页的URL。

确定单元30用于根据目标网站的站内搜索结果页的URL，确定用于匹配目标网站的站内搜索结果页的匹配式。即根据目标网站站内搜索结果页的URL，确定出匹配式，该匹配式满足的条件是：用它匹配目标网站的站内搜索结果页URL时，匹配成功，否则，匹配失败。

第二提取单元40用于从访问日志中提取第一关键词、第二关键词、第一搜索结果页的URL、第一目标页面，其中，第一关键词和第二关键词均为用于在目标网站进行站内搜索的关键词，第一搜索结果页为接收到第一关键词后加载的页面，第一目标页面为加载出的第一搜索结果页中任一搜索结果表示的页面，第二关键词为在接收到第一关键词之前接收到的关键词，并且在接收到第二关键词后，目标网站未加载第二搜索结果页中的任一搜索结果表示的页面，第二搜索结果页为接收到第二关键词后加载的页面。即，从访问日志中提取出用户进行搜索的关键词、用户输入关键词后加载出的页面、该加载出来的页面的搜索结果所指向的页面中那些被用户点击过的页面。其中，第一关键词为用户输入之后，对其搜索结果页的搜索结果指向的页面又进行了访问的关键词，也就是有效搜索关键词。用户输入第一关键词后，加载出来的页面为第一搜索结果页，第一搜索结果页的搜索结果指向的多个页面中那些被用户访问过的页面为第一目标页面，第一目标页面可以为多个。第二关键词为用户输入之后，对其搜索结果页指向的页面未进行任何访问的关键词，也就是无效搜索关键词。用户输入第二关键词后，加载出来的页面为第二搜索结果页。

匹配单元50用于利用匹配式对第一搜索结果页的URL进行匹配。即，利用匹配式对第一搜索结果页的URL进行匹配，筛选出目标网站站内搜索的搜索结果页。如果匹配成功，说明该第一搜索结果页为目标网站的站内搜索的搜索结果页，如果匹配失败，说明该第一搜索结果页不是目标网站的站内搜索的搜索结果页。

第三提取单元60用于在匹配式与第一搜索结果页的URL匹配成功的情况下，提取预设时间段内搜索次数高于第一预设数量的第二关键词。即第一搜索结果页为目标网站的站内搜索的搜索结果页的情况下，提取在预先设置的时间段内用户搜索的次数高于预设数量的第二关键词。预先设置的时间段可以参考网站的流量等因素根据实际需要设置，例如可以设置为几天，几个月等。预设数量根据实际需要设置，例如可以设置为1、2或者3等。以预设数量为3为例进行说明，提取在预先设置的时间段内用户搜索的次数大于3的第二关键词，那么在预先设置的时间段内用户搜索的次数为1、2或者3的第二关键词就不会被提取出来。如果想提取出那些搜索次数比较高的无效搜索关键词，就可以把预设数量设置成一个较大的数字。如果想提取出那些搜索次数比较低的无效搜索关键词，就可以把预设数量设置成一个较小的数字。

检查单元70用于检查提取到的第二关键词是否已存储在预设关键词词典中，其中，预设关键词词典中存储有多个关于目标网站的关键词。即，当提取出预设时间段内搜索次数高于第一预设数量的无效搜索关键词之后，检查此无效搜索关键词是否在关键词词典中，其中，该关键词词典是预先设置的，里面存储着多个关于目标网站的关键词。

关联单元80用于在检查出提取到的第二关键词已存储在关键词词典中的情况下，关联提取到的第二关键词和第一目标页面。即，当检查出提取出来的无效搜索关键词已经存储在关键词词典中的情况下，把提取出的无效搜索关键词和第一目标页面建立关联。

本申请实施例所提供的提高网站站内搜索效率的装置，通过读取用户的访问日志，得到用户使用的关键词、访问过的页面的URL，根据目标网站的站内搜索结果页的URL，构造能够匹配目标网站的站内搜索结果页的匹配式，使用匹配式对用户的搜索结果页进行匹配，筛选出用户进行站内搜索的搜索结果页。提取出在一定时间段内搜索次数较多的无效搜索关键词，检查提取出的无效搜索关键词是否包含在关键词词典中，把包含在关键词词典中的本次有效站内搜索之前进行的无效搜索关键词与本次有效站内搜索所搜索出的目标网站页面进行关联，使输入用户使用次数较多的无效搜索关键词后也能搜索出想要的页面，解决了现有技术中网站站内搜索效率低的技术问题，达到了提高网站站内搜索效率的技术效果。

可选地，本申请实施例所提供的提高网站站内搜索效率的装置还包括部署单元和运行单元，其中，在第一提取单元从访问目标网站的访问日志中，提取表示所述目标网站的站内搜索结果页的统一资源定位符URL之前，部署单元用于在目标网站部署能够监控日志获取程序，然后由运行单元运行日志获取程序来获取访问日志，即，通过在目标网站部署并运行日志获取程序来获取用户访问日志。其中，用户访问日志记录了用户在目标网站的访问信息，可以包括用户输入的搜索关键词、点击的页面、在页面的停留时间，等等。

可选地，关联单元包括添加子单元。该添加子单元用于添加提取到的第二关键词至第一目标页面的页面标签。即，通过把提取到的无效搜索的关键词添加到第一目标页面的页面标签中，使提取到的无效搜索的关键词和第一目标页面建立关联，使用户使用无效搜索关键词也能搜索到想要的页面。也就是说，关联提取到的无效搜索关键词和有效搜索关键词所搜索出来的站内页面的方法，可以是把提取到的无效搜索关键词添加到有效搜索关键词所搜索出来的站内页面的页面标签中。

可选地，匹配式为正则表达式，匹配单元包括判断子单元。该判断子单元用于判断第一搜索结果页的URL中表示主机名的字段与正则表达式中表示域名的字段是否相同，其中，在第一搜索结果页的URL中表示主机名的字段与正则表达式中表示域名的字段相同的情况下，确定匹配式与第一搜索结果页的URL匹配成功。即，使用正则表达式对第一搜索结果页进行匹配，如果第一搜索结果页的URL中表示主机名的字段与正则表达式中表示域名的字段相同，则匹配成功，说明该第一搜索结果页是目标网站站内搜索结果页。

http://news.ifeng.com/a/20150814/44423078_0.shtml

http://news.ifeng.com/a/20150815/44433711_0.shtml

http://news.ifeng.com/a/20150813/44417356_0.shtml

http://news.ifeng.com/a/20150829/44546931_0.shtml

可选地，本申请实施例所提供的提高网站站内搜索效率的装置还包括：获取单元、分词单元、汇总单元。获取单元用于在从访问目标网站的访问日志中，提取表示目标网站的站内搜索结果页的统一资源定位符URL之前，从目标网站上获取第二预设数量的文本文件。分词单元用于对获取到的每个文本文件的文本内容进行分词。汇总单元用于将分词后的结果进行汇总，得到关键词词典。

即，通过在目标网站部署并运行爬虫程序，来爬取目标网站的文本文件，该文本文件可以是目标网站上的文章，在本申请实施例中，可以获取5000篇文章，然后利用分词方法对每一个文本文件(即，文章)进行分词处理，得到能够用来描述网站上内容的多个分词结果，确定这些分词结果的集合为关键词词典。

所述提高网站站内搜索效率的装置包括处理器和存储器，上述第一提取单元20、确定单元30、第二提取单元40、匹配单元50、第三提取单元60、检查单元70、关联单元80等均作为程序单元存储在存储器中，由处理器执行存储在存储器中的上述程序单元来实现相应的功能。

处理器中包含内核，由内核去存储器中调取相应的程序单元。内核可以设置一个或以上，通过调整内核参数来在提高站内搜索效率。

存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)，存储器包括至少一个存储芯片。

本申请还提供了一种计算机程序产品，当在数据处理设备上执行时，适于执行初始化有如下方法步骤的程序代码：从访问目标网站的访问日志中，提取表示目标网站的站内搜索结果页的统一资源定位符URL，根据目标网站的站内搜索结果页的URL，确定用于匹配目标网站的站内搜索结果页的匹配式，从访问日志中提取第一关键词、第二关键词、第一搜索结果页的URL、第一目标页面，其中，第一关键词和第二关键词均为用于在目标网站进行站内搜索的关键词，第一搜索结果页为接收到第一关键词后加载的页面，第一目标页面为加载出的第一搜索结果页中任一搜索结果表示的页面，第二关键词为在接收到第一关键词之前接收到的关键词，并且在接收到第二关键词后，目标网站未加载第二搜索结果页中的任一搜索结果表示的页面，第二搜索结果页为接收到第二关键词后加载的页面，利用匹配式对第一搜索结果页的URL进行匹配，在匹配式与第一搜索结果页的URL匹配成功的情况下，提取预设时间段内搜索次数高于第一预设数量的第二关键词，检查提取到的第二关键词是否已存储在预设关键词词典中，其中，预设关键词词典中存储有多个关于目标网站的关键词，在检查出提取到的第二关键词已存储在关键词词典中的情况下，关联提取到的第二关键词和第一目标页面。

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

在本申请的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的技术内容，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，可以为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅是本申请的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本申请的保护范围。

Claims

1.一种提高网站站内搜索效率的方法，其特征在于，包括：

从访问目标网站的访问日志中，提取表示所述目标网站的站内搜索结果页的统一资源定位符URL；

根据所述目标网站的站内搜索结果页的URL，确定用于匹配所述目标网站的站内搜索结果页的匹配式；

从所述访问日志中提取第一关键词、第二关键词、第一搜索结果页的URL、第一目标页面，其中，所述第一关键词和所述第二关键词均为用于在所述目标网站进行站内搜索的关键词，所述第一搜索结果页为接收到所述第一关键词后加载的页面，所述第一目标页面为加载出的所述第一搜索结果页中任一搜索结果表示的页面，所述第二关键词为在接收到所述第一关键词之前接收到的关键词，并且在接收到所述第二关键词后，所述目标网站未加载第二搜索结果页中的任一搜索结果表示的页面，所述第二搜索结果页为接收到所述第二关键词后加载的页面；

利用所述匹配式对所述第一搜索结果页的URL进行匹配；

在所述匹配式与所述第一搜索结果页的URL匹配成功的情况下，提取预设时间段内搜索次数高于第一预设数量的所述第二关键词；

检查提取到的所述第二关键词是否已存储在预设关键词词典中，其中，所述预设关键词词典中存储有多个关于所述目标网站的关键词；

在检查出提取到的所述第二关键词已存储在所述关键词词典中的情况下，关联提取到的所述第二关键词和所述第一目标页面。

2.根据权利要求1所述的方法，其特征在于，在从访问目标网站的访问日志中，提取表示所述目标网站的站内搜索结果页的统一资源定位符URL之前，所述方法还包括：

在所述目标网站部署日志获取程序；以及

运行所述日志获取程序以获取所述访问日志。

3.根据权利要求1所述的方法，其特征在于，关联提取到的所述第二关键词和所述第一目标页面包括：

添加提取到的所述第二关键词至所述第一目标页面的页面标签。

4.根据权利要求1所述的方法，其特征在于，所述匹配式为正则表达式，利用所述匹配式对所述第一搜索结果页的URL进行匹配包括：

判断所述第一搜索结果页的URL中表示主机名的字段与所述正则表达式中表示域名的字段是否相同，其中，在所述第一搜索结果页的URL中表示主机名的字段与所述正则表达式中表示域名的字段相同的情况下，确定所述匹配式与所述第一搜索结果页的URL匹配成功。

5.根据权利要求1所述的方法，其特征在于，在从访问目标网站的访问日志中，提取表示所述目标网站的站内搜索结果页的统一资源定位符URL之前，所述方法还包括：

从所述目标网站上获取第二预设数量的文本文件；

对获取到的每个所述文本文件的文本内容进行分词；以及

将分词后的结果进行汇总，得到所述关键词词典。

6.一种提高网站站内搜索效率的装置，其特征在于，包括：

第一提取单元，用于从访问目标网站的访问日志中，提取表示所述目标网站的站内搜索结果页的统一资源定位符URL；

确定单元，用于根据所述目标网站的站内搜索结果页的URL，确定用于匹配所述目标网站的站内搜索结果页的匹配式；

第二提取单元，用于从所述访问日志中提取第一关键词、第二关键词、第一搜索结果页的URL、第一目标页面，其中，所述第一关键词和所述第二关键词均为用于在所述目标网站进行站内搜索的关键词，所述第一搜索结果页为接收到所述第一关键词后加载的页面，所述第一目标页面为加载出的所述第一搜索结果页中任一搜索结果表示的页面，所述第二关键词为在接收到所述第一关键词之前接收到的关键词，并且在接收到所述第二关键词后，所述目标网站未加载第二搜索结果页中的任一搜索结果表示的页面，所述第二搜索结果页为接收到所述第二关键词后加载的页面；

匹配单元，用于利用所述匹配式对所述第一搜索结果页的URL进行匹配；

第三提取单元，用于在所述匹配式与所述第一搜索结果页的URL匹配成功的情况下，提取预设时间段内搜索次数高于第一预设数量的所述第二关键词；

检查单元，用于检查提取到的所述第二关键词是否已存储在预设关键词词典中，其中，所述预设关键词词典中存储有多个关于所述目标网站的关键词；

关联单元，用于在检查出提取到的所述第二关键词已存储在所述关键词词典中的情况下，关联提取到的所述第二关键词和所述第一目标页面。

7.根据权利要求6所述的装置，其特征在于，所述装置还包括：

部署单元，用于在所述第一提取单元从访问目标网站的访问日志中，提取表示所述目标网站的站内搜索结果页的统一资源定位符URL之前，在所述目标网站部署日志获取程序；以及

运行单元，用于运行所述日志获取程序以获取所述访问日志。

8.根据权利要求6所述的装置，其特征在于，所述关联单元包括：

添加子单元，用于添加提取到的所述第二关键词至所述第一目标页面的页面标签。

9.根据权利要求6所述的装置，其特征在于，所述匹配式为正则表达式，所述匹配单元包括：

判断子单元，用于判断所述第一搜索结果页的URL中表示主机名的字段与所述正则表达式中表示域名的字段是否相同，其中，在所述第一搜索结果页的URL中表示主机名的字段与所述正则表达式中表示域名的字段相同的情况下，确定所述匹配式与所述第一搜索结果页的URL匹配成功。

10.根据权利要求6所述的装置，其特征在于，所述装置还包括：

获取单元，用于在从访问目标网站的访问日志中，提取表示所述目标网站的站内搜索结果页的统一资源定位符URL之前，从所述目标网站上获取第二预设数量的文本文件；

分词单元，用于对获取到的每个所述文本文件的文本内容进行分词；以及

汇总单元，用于将分词后的结果进行汇总，得到所述关键词词典。