CN105335408B

CN105335408B - 一种搜索词白名单的扩展方法及相关系统

Info

Publication number: CN105335408B
Application number: CN201410370143.1A
Authority: CN
Inventors: 刘庆; 周文军; 黄华
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2014-07-30
Filing date: 2014-07-30
Publication date: 2019-03-12
Anticipated expiration: 2034-07-30
Also published as: WO2016018991A1; US20160034589A1; CN105335408A

Abstract

本申请提供了一种搜索词白名单的扩展方法及相关系统，所述方法包括：第一搜索系统接收搜索请求；从搜索请求中获取待搜索词；判断待搜索词是否在搜索词白名单中，如果否，计算待搜索词的属性值；判断待搜索词的属性值是否大于预设阈值，如果是，将待搜索词加入搜索词白名单中；搜索词白名单用于限制来源于第二搜索系统中且在第一搜索系统中搜索的可用搜索词的范围。可见，本申请无需根据系统日志的离线数据去扩展搜索词白名单，而是第一搜索系统每接收到一次搜索请求，都会去判断是否需要扩展搜索词白名单，如果是，则实现对搜索词白名单的扩展，实现了时效性较高地对搜索词白名单进行扩展。大大提升了用户体验，减少了第一搜索引擎的流量流失。

Description

一种搜索词白名单的扩展方法及相关系统

技术领域

本申请涉及计算机领域，尤其是涉及一种搜索词白名单的扩展方法及相关系统。

背景技术

搜索引擎是一种常用的搜索系统，通过搜索引擎等搜索系统的搜索过程，能够为用户提供信息检索服务。以搜索系统为搜索引擎A为例，具体的搜索过程包括：搜索引擎A接收到用户的搜索请求后，根据该请求中包含的待搜索词，搜索出与待搜索词相匹配的搜索结果。

而当搜索引擎A在接收到其他的搜索引擎，比如搜索引擎B发送的搜索请求时，则在进行搜索之前，还需要对搜索请求中的待搜索词进行搜索词白名单的过滤，具体过滤过程是：判断搜索请求中的待搜索词是否在搜索词白名单中，如果否，则显示搜索结果为零。这是因为若不设置搜索词白名单而直接对待搜索词进行搜索，则很有可能使得搜索结果与待搜索词的相关性较差，而搜索引擎B会收录该相关性较差的搜索结果，并因此降低搜索引擎A 在搜索引擎B的搜索结果排序。

目前在扩展搜索词白名单时，一般采用的是分析系统日志的方式，也就是每隔一段时间，通过系统日志的离线数据分析用户输入的待搜索词，从而判断是否添加到搜索词白名单中。显然在这种方式中，由于每隔一段时间才扩展一次搜索词白名单，因此时效性很差，即使在一段时间内某个待搜索词的搜索热度很高，也很有可能会使得用户无法通过搜索引擎A转入到搜索引擎B中实现对该待搜索词的搜索，造成搜索引擎A的流量流失以及用户体验较差。

需要说明的是，上面仅以搜索系统为搜索引擎为例加以说明，对于其余的搜索系统，同样存在上述问题。

发明内容

本申请解决的技术问题在于提供一种搜索词白名单的扩展方法及装置，以实现时效性较高的对搜索词白名单进行扩展，因此减少搜索系统的流量流失，提升用户体验。

为此，本申请解决技术问题的技术方案是：

本申请提供了一种搜索词白名单的扩展方法，包括：

第一搜索系统接收搜索请求；所述搜索请求用于指示在所述第一搜索系统中搜索与待搜索词相关的信息；

所述第一搜索系统从所述搜索请求中获取所述待搜索词；

所述第一搜索系统判断所述待搜索词是否在搜索词白名单中，如果否，计算所述待搜索词的属性值；

所述第一搜索系统判断所述待搜索词的属性值是否大于预设阈值，如果是，将所述待搜索词加入所述搜索词白名单中；

其中，所述搜索词白名单用于限制来源于第二搜索系统中且在所述第一搜索系统中搜索的可用搜索词的范围。

可选的，所述第一搜索系统从所述搜索请求中获取所述待搜索词之前还包括：

所述第一搜索系统判断所述搜索请求是否来源于所述第二搜索系统，如果是，才执行所述从所述搜索请求中获取所述待搜索词。

可选的，还包括：

若判断所述待搜索词是否在搜索词白名单的判断结果为否，返回默认搜索页面；所述默认搜索页面表示搜索结果为零。

可选的，所述待搜索词的属性值基于以下参数中的至少一项计算得到：

所述待搜索词所属的频道与所述待搜索词的相关度、所述第一搜索结果与所述待搜索词的相关度、以及所述第一搜索结果的数量；

其中，所述第一搜索结果通过在所述第一搜索系统中搜索待搜索词而获取到；所述待搜索词所属的频道基于所述第一搜索结果的着陆页面而获取到。

可选的，在执行所述将所述待搜索词加入所述搜索词白名单中之前，还包括：

判断所述待搜索词是否满足用于过滤不可用搜索词的过滤条件，如果否，才执行所述将所述待搜索词加入所述搜索词白名单中。

可选的，所述过滤条件包括以下条件中的至少一项：

不包含中文或英文字符、包含违禁字符、以及开头或者结尾字段为违禁格式。

可选的，所述第二搜索系统为通用搜索引擎。

本申请还提供了一种搜索系统，所述搜索系统为第一搜索系统；所述第一搜索系统包括前端接口模块、搜索词提取模块、搜索词过滤模块以及数据存储模块：

所述数据存储模块用于存储搜索词白名单；其中，所述搜索词白名单用于限制来源于第二搜索系统中且在所述第一搜索系统中搜索的可用搜索词的范围；

所述前端接口模块，用于接收搜索请求，将所述搜索请求发送至所述搜索词提取模块；所述搜索请求用于指示在所述第一搜索系统中搜索与待搜索词相关的信息；

搜索词提取模块，用于从所述搜索请求中获取所述待搜索词，以及判断所述待搜索词是否在搜索词白名单中，如果否，将所述待搜索词发送至搜索词过滤模块；

搜索词过滤模块，用于计算所述待搜索词的属性值，以及判断所述待搜索词的属性值是否大于预设阈值，如果是，将所述待搜索词加入所述搜索词白名单中。

可选的，所述搜索词提取模块还用于，在从所述搜索请求中获取所述待搜索词之前，判断所述搜索请求是否来源于所述第二搜索系统，如果是，才执行所述从所述搜索请求中获取所述待搜索词。

可选的，所述搜索词提取模块还用于，若判断所述待搜索词是否在搜索词白名单的判断结果为否，通知所述前端接口模块返回默认搜索页面；所述默认搜索页面表示搜索结果为零。

可选的，所述搜索词过滤模块还用于，在执行所述将所述待搜索词加入所述搜索词白名单中之前，判断所述待搜索词是否满足用于过滤不可用搜索词的过滤条件，如果否，才执行所述将所述待搜索词加入所述搜索词白名单中。

可选的，所述过滤条件包括以下条件中的至少一项：

可选的，所述第二搜索系统为通用搜索引擎。

通过上述技术方案可知，本申请实施例无需根据系统日志的离线数据去扩展搜索词白名单，而是第一搜索系统每接收到一次搜索请求，也就是每当第一搜索系统需要搜索与待搜索词相关的信息时，都会去判断是否需要扩展搜索词白名单，也就是判断待搜索词的属性值是否大于预设阈值，如果是，则实现对搜索词白名单的扩展。因此当下一次接收到来源于第二搜索系统的待搜索词时，不再限制对该待搜索词的搜索，实现了时效性较高地对搜索词白名单进行扩展。如果在某一段时间内某个待搜索词的搜索热度很高，则很快就有可能加入搜索词白名单中，大大提升了用户体验，减少了第一搜索引擎的流量流失。

附图说明

图1为本申请提供的一种方法实施例的流程示意图；

图2为本申请提供的另一种方法实施例中搜索词提取模块的流程示意图；

图3为本申请提供的另一种方法实施例中搜索词过滤模块的流程示意图；

图4为本申请提供的搜索系统的具体实施例的结构示意图。

具体实施方式

SEO(Search Engine Optimization，即搜索引擎优化)，指的是一种利用搜索引擎的搜索规则来提高目前网站(也可以为搜索引擎)在有关搜索引擎内的自然排序的方式。

作为一种SEO的实现方式，当搜索引擎A(比如一特定的站内搜索引擎) 在接收到搜索引擎B(比如通用搜索引擎)发送的搜索请求时，则在进行搜索之前，还需要对搜索请求中的待搜索词(也称为关键词)进行搜索词白名单的过滤，具体过滤过程是：判断搜索请求中的待搜索词是否在搜索词白名单中，如果是，则直接对该待搜索词进行搜索并返回搜索结果，如果否，则返回报错页面(例如404页面)。这是因为若不设置搜索词白名单而直接对待搜索词进行搜索，则很有可能使得搜索结果与待搜索词的相关性较差，比如搜索词本身质量较低或者是竞争对手恶意制造的垃圾关键词时，那么将会产生质量较低的搜索页面，而搜索引擎B往往会收录该质量较低的搜索页面，此时将会降低搜索引擎B对搜索引擎A的评分，因此会导致搜索引擎A面临被搜索引擎B惩罚的风险，例如降低搜索引擎A在搜索引擎B的搜索结果排序，并直接导致搜索引擎A的流量流失。基于上述原因，在搜索引擎A中通常会维护一份搜索词白名单。

但是，仅仅通过普通的日志挖掘，搜索词白名单很难一次性收集全，因此如果不对搜索词白名单进行实时扩展就会造成流量的损失。

目前在扩展搜索词白名单时，一般采用的是分析系统日志的方式，也就是每隔一段时间，通过系统日志的离线数据分析用户输入的待搜索词，从而判断是否添加到搜索词白名单中。显然在这种方式中，由于每隔一段时间才扩展一次搜索词白名单，因此时效性很差，即使在一段时间内某个待搜索词的搜索热度很高，也很有可能会使得用户无法通过搜索引擎A转入到搜索引擎B中实现对该搜索词的搜索，造成用户体验较差，以及搜索引擎A的流量流失。

而在本申请实施例中，提供一种搜索词白名单的扩展方法及相关系统，以实现时效性较高的对搜索词白名单进行扩展，因此提升用户体验，减少搜索系统的流量流失。

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

请参阅图1，本申请提供了搜索词白名单的扩展方法的一种实施例，本实施例用于第一搜索系统中。

本实施例包括：

S101：第一搜索系统接收搜索请求；所述搜索请求用于指示在第一搜索系统中搜索与待搜索词相关的信息。

其中，搜求请求可以是来源于第一搜索系统，也可以是来源于与第一搜索系统不同的第二搜索系统。例如，第一搜索系统可以为一特定的站内搜索引擎，比如1688站点的商务搜索引擎(网址为http：//s.1688.com/)，而第二搜索引擎具体可以为通用搜索引擎，比如百度、谷歌、雅虎等等搜索引擎。在本申请实施例中，第一或第二搜索系统指的是搜索引擎等用于实现搜索功能的系统。

S102：第一搜索系统从搜索请求中获取待搜索词。

在执行本步骤之前，还可以判断搜索请求中是否包括待搜索词，如果否，则说明搜索请求中并不包括待搜索词，此时也不需要进行搜索词白名单的扩展，可以直接结束流程，也可以返回默认搜索页面。其中，默认搜索页面表示搜索结果为零，例如可以为报错页面(例如404页面)。

由于对于来源于不同的搜索系统的搜索请求(例如搜索请求是来源于站内搜索引擎还是通用搜索引擎，具体来源于哪一个通用搜索引擎)，其中所包括的待搜索词的参数信息、加密方式、编码方式一般都不同。因此本步骤中在从搜索请求中获取待搜索词时，还可以根据搜索请求的来源信息进行获取。例如，来源于搜索系统A的搜索请求中对待搜索词进行了特殊的编码或者加密，则对待搜索词进行相应的解码或者解密从而获取到待搜索词。其中，待搜索词的参数信息可以为url(Uniform Resource Locator，即统一资源定位符)参数，表示用于提取待搜索词的标识信息。例如在来源于搜索系统B的搜索请求：http:// www.baidu.com/#wd＝mp3&rsv_bp＝0中，url参数为wd，也就是说待搜索词是在wd这个参数里的，因此该步骤从wd参数中获取待搜索词。

由于本实施例的搜索词白名单用于限制来源于第二搜索系统中且在第一搜索系统中搜索的可用搜索词的范围，因此，本申请实施例在对搜索词白名单进行扩展时，可以仅仅是在接收到由与第一搜索引擎不同的第二搜索引擎发送过来的搜索请求时，才触发相应的扩展功能。此时在执行步骤S102之前，第一搜索系统判断搜索请求是否来源于第二搜索系统，如果是，才执行步骤 S102。而如果上述判断结果为否，则说明此时是来源于第一搜索引擎的搜索请求，也就是站内的搜索请求，此时直接进行站内搜索即可，无需进行搜索词白名单的扩展，因此结束本实施例的流程。其中，第一搜索系统在接收到搜索请求(比如用户访问的URL)时，可以根据搜索请求中的来源信息判断该搜索请求是否来源于第二搜求引擎。

S103：第一搜索系统判断待搜索词是否在搜索词白名单中，如果否，执行步骤S104。

如果本步骤的判断结果为是，则说明待搜索词本身已经在搜索词白名单中，则无需进行搜索词白名单的扩展，直接对待搜索词进行搜索并返回搜索结果即可。而如果本步骤的判断结果为否，则说明待搜索词并不在搜索词白名单中，此时需要进一步判断是否需要对搜索词白名单进行扩展，因此执行步骤S104。

需要说明的是，如果本步骤的判断结果为否并且待搜索词来源于第二搜索系统，则还可以执行返回默认搜索页面；所述默认搜索页面表示搜索结果为零。

S104：第一搜索系统计算待搜索词的属性值。

本申请实施例中，实际上是通过计算待搜索词的属性值来判断该待搜索词是否需要加入搜索词白名单中。而待搜索词的属性值主要是用于反映待搜索词与搜索结果的相关性，其具体计算方式在本申请实施例中并不加以限定。

S105：第一搜索系统判断待搜索词的属性值是否大于预设阈值，如果是，则执行步骤S106。

如果本步骤的判断结果为是，则说明待搜索词与搜索结果的相关性较高，因此需要加入搜索词白名单中以实现对搜索词白名单的扩展，因此执行步骤 S106。而如果本步骤的搜索结果为否，则说明待搜索词与搜索结果的相关性较差，此时不需要将待搜索词加入搜索词白名单中，可以直接结束流程，同时为了节省系统的工作量，可以标记在一段时间内获取到同样的第一搜索词时，都不需要计算该第一搜索词的属性值而是直接返回不加入搜索词白名单的结果。

预设阈值可以根据待搜索词和搜索结果的相关性的要求进行设定，而且还可以参考第二搜索引擎对第一搜索引擎的评分标准。

S106：第一搜索系统将待搜索词加入所述搜索词白名单中。

在本申请实施例中，当待搜索词的属性值大于预设阈值时，将待搜索词加入搜索词白名单以实现对搜索词白名单的扩展。

通过上述技术方案可知，本实施例无需根据系统日志的离线数据去扩展搜索词白名单，而是第一搜索系统每接收到一次搜索请求，也就是每当第一搜索系统需要搜索来源待搜索词时，都会去判断是否需要扩展搜索词白名单，也就是判断待搜索词的属性值是否大于预设阈值，如果是，则将待搜索词加入搜索词白名单中实现对搜索词白名单的扩展。因此当下一次接收到来源于第二搜索系统的待搜索词时，不再限制第一搜索系统对该待搜索词的搜索，因此实现了时效性较高地对搜索词白名单进行扩展。而且如果在某一段时间内某个搜索词的搜索热度很高，而该搜索词又符合加入搜索词白名单的要求，则很快就会随着用户的搜索而加入搜索词白名单中，大大提升了用户体验，减少了第一搜索引擎的流量流失。

在本申请实施例中待搜索词的属性值主要是用于反映待搜索词与搜索结果的相关性，其具体计算方式并不加以限定，下面仅给出一种可选的计算方式。

在本申请实施例中，待搜索词的属性值可以基于以下参数中的至少一项计算得到：待搜索词所属的频道与所述待搜索词的相关度、第一搜索结果与待搜索词的相关度、以及第一搜索结果的数量。

其中，第一搜索结果通过在第一搜索系统中搜索待搜索词而获取到。需要说明的是，在本申请实施例中，第一搜索结果用于计算待搜索词的属性值。如果搜索请求来源于第二搜索系统，同时待搜索词不在搜索词白名单时，第一搜索结果并不会返回至用户，因此并不会向用户展示。

待搜索词所属的频道基于第一搜索结果的l anding page(着陆页面)而获取到。在本申请实施例中，第一搜索系统可以包括多个搜索频道，因此用户在第一搜索系统发起搜索请求并进行的搜索需要选择对应的搜索频道，最终第一搜索系统也只会返回在该搜索频道内对用户输入的搜索词的搜索结果。例如用户在搜索频道“产品”中输入搜索词“手机”，第一搜索系统在搜索频道“产品”中对“手机”进行搜索。因此在本申请实施例中，可以根据第一搜索结果的landing page，判断出待搜索词所属的频道。而在计算待搜索词的属性值时，可以基于待搜索词所属的频道与待搜索词的相关性。

需要说明的是，在计算待搜索词的属性值之前，本申请实施例还可以对待搜索词进行分词，得到至少一个分词结果，对每个分词结果分别计算属性值，最终根据每个分词结果的属性值计算整个待搜索词的属性值。而且整个待搜索词的属性值可以包括两部分：词本身的属性值以及搜索结果的属性值。其中，词本身的属性值指的是与待搜索词本身相关的属性值，可以体现在待搜索词所属的频道与待搜索词的相关度、通过分词得到的各个分词结果之间的相关性、各个分词结果的位置属性等等。而搜索结果的属性值指的是与待搜索词的第一搜索结果相关的属性值，可以体现在第一搜索结果与待搜索词的相关度、以及第一搜索结果的数量等等。

实际上，如果根据待搜索词本身就能判断出其属于不可用的搜索词，此时甚至无需计算属性值，直接就能够判定出无需将待搜索词加入搜索词白名单中。具体实现方式是，在执行步骤S106之前，本实施例还包括：判断所述待搜索词是否满足用于过滤不可用搜索词的过滤条件，如果否，才执行待搜索词加入搜索词白名单，也就是如果判断结果为是，则不执行将待搜索词加入搜索词白名单中，可以直接结束流程。其中过滤条件可以包括以下条件中的至少一项:不包含中文或英文字符、包含违禁字符、以及开头或者结尾字段为违禁格式。

在本申请实施例在具体应用时，第一搜索系统可以包括4个模块：前端接口模块、搜索词提取模块、搜索词过滤模块以及数据存储模块。搜索词白名单存储在数据存储模块中，前端接口模块用于执行本实施例的步骤S101，搜索词提取模块用于执行步骤S102和S103，搜索词过滤模块用于执行步骤 S104至S106。下面本申请将以第一搜索系统包括上述4个模块为例，说明本申请实施例的一个具体的应用场景。并且在该具体应用场景中，以第一搜索系统为1688站点的商务搜索引擎，第二搜索系统为通用搜索引擎为例加以说明。

请参阅图2和图3，本申请提供了搜索词白名单的扩展方法的另一种实施例，本实施例用于第一搜索系统中。本实施例中的第一搜索系统包括前端接口模块、搜索词提取模块、搜索词过滤模块以及数据存储模块。

本实施例包括：

S2011：前端接口模块接收用户的搜索请求，将该搜索请求发送至搜索词提取模块。其中，该搜索请求具体为用户访问的URL。

例如，用户在任一搜索系统中点击了搜索按钮，则此时前端接口模块将会接收到用户的搜索请求。

执行完本步骤后执行步骤S2021。

S2021：搜索词提取模块根据搜索请求中的refer(参考)信息，判断该搜索请求是否来源于通用搜索引擎，如果否，则执行步骤S2022，如果是，则执行步骤S2023。

S2022：此时可以判断出搜索请求不是来源于通用搜索引擎，因此可知搜索请求实际上来源于1688站点的商务搜索引擎，故在该步骤中搜索词提取模块执行正常的站内搜索流程，也就是在获取待搜索词并在1688站点的商务搜索引擎内进行搜索并结束流程。

S2023：此时可以判断出搜索请求来源于通用搜索引擎，因此搜索词提取模块根据搜索请求的来源，获取搜索请求中的待搜索词。

例如在该步骤中，根据搜索请求来源于哪一个通用搜索引擎，判断出待搜索词的url参数，根据该url参数提取出待搜索词。

S2024：搜索词提取模块判断是否获取到待搜索词，如果否，则执行步骤 S2025，如果是，则执行步骤S2026。

S2025：此时可以判断出搜索请求中不包括待搜索词，因此搜索词提取模块通知前端接口模块返回默认搜索页面并结束流程；默认搜索页面表示搜索结果为零。

S2026：此时可以判断出搜索请求中包括有待搜索词，因此搜索词提取模块根据搜索请求的来源信息对待搜索词进行进一步的解码和/或解密。

需要说明的是，步骤S2024与步骤S2026的执行顺序不受限定。

S2027：搜索词提取模块判断待搜索词是否在搜索词白名单中，如果是，则执行S2022，如果否，则执行S2028。其中，搜索词白名单从数据存储模块中读取。

在本申请实施例中，数据存储模块可以设置在KV(Key Value)缓存中。其中，KV缓存具体可以为LDB(level database)缓存。由于搜索词白名单的数据量较大而且对于数据的可用性要求较高，因此数据存储模块可以采用基于硬盘缓存的方式进行存储，保证了数据不会因为掉电而丢失。而且大部分情况下都只需要对搜索词白名单进行读操作，而写操作相对来说会少很多，因此本发明实施例中还可以进一步对数据存储模块进行优化，以提高其读性能。

S2028：此时可以判断出待搜索词不在搜索词白名单中，因此需要进一步判断待搜索词是否需要加入该搜索词白名单，故在本步骤中搜索词提取模块向搜索词过滤模块发送过滤请求(例如可以为http请求)。该过滤请求中包括编码后的待搜索词、待搜索词的状态信息以及待搜索词的来源信息。其中状态信息表示待搜索词设置为待过滤状态，来源信息表示待搜索词来源于通用搜索系统。其中编码方式可以为UTF-8编码。

由于待搜索词不在搜索词白名单中，因此该步骤还可以同时执行通知前端接口模块返回默认搜索页面。

执行完本步骤后执行S2031。

S2031：搜索词过滤模块接收到过滤请求后，对过滤请求进行解析，获取到待搜索词、待搜索词的来源信息以及待搜索词的状态信息。

S2032：搜索词过滤模块判断从过滤请求解析出的待搜索词的状态信息是否为待过滤状态，如果是，则执行S2033。

在该步骤中，如果判断出从过滤请求解析出的待搜索词的状态信息不为待过滤状态，则说明这里并不是要判断是否要将待搜索词加入搜索词白名单中，因此搜索词过滤模块可以将待搜索词交给其他模块进行相应的处理。

S2033：搜索词过滤模块判断待搜索词是否满足用于过滤不可用搜索词的过滤条件，如果否，才执行S2034，如果是，则结束流程。

该步骤中可以依次判断待搜索词是否满足：不包含中文或英文字符、包含违禁字符、以及开头或者结尾字段为违禁格式，如果满足其中任一项，都不执行S2034而是直接结束流程。

S2034：搜索词过滤模块对待搜索词在第一搜索系统中进行搜索以获取到搜索结果，并基于搜索结果的l anding page获取待搜索词所属的频道。

S2035：搜索词过滤模块对待搜索词进行分词，得到至少一个分词结果(页也叫分词term)。

S2036：搜索词过滤模块判断分词结果的个数是否为1，如果是，则执行 S2037，如果否，则执行S2038。

在本申请实施例中，可以根据分词结果的个数，按照不同的方式计算待搜索词的属性值。

S2037：此时待搜索词本身即为一个不可分割的词，搜索词过滤模块直接计算待搜索词的属性值。在执行完本步骤后执行S2039。

待搜索词的属性值可以包括词本身的属性值以及搜索结果的属性值。词本身的属性值可以体现在待搜索词所属的频道与待搜索词的相关度。而搜索结果的属性值可以体现在搜索结果与待搜索词的相关度以及搜索结果的数量。

其中，待搜索词所属的频道与所述待搜索词的相关度，具体可以体现为待搜索词是否属于待搜索词所属的频道，或者说待搜索词所属的类别是否为待搜索词所属的频道匹配。例如，在步骤S2034中获取到待搜索词所属的频道是“产品”频道，则该步骤中可以判断待搜索词的属性标签是否为产品，如果否，则认为该相关度很低，直接结束流程。

S2038：此时待搜索词分词得到多个分词结果，分别计算每个分词结果的属性值从而得到待搜索词的属性值。在执行完本步骤后执行S2039。

每个分词结果的属性值可以包括词本身的属性值以及搜索结果的属性值。词本身的属性值可以体现在各个分词结果之间的相关性以及位置属性。而搜索结果的属性值可以体现在搜索结果与待搜索词的相关度以及搜索结果的数量。

S2039：搜索词过滤模块判断待搜索词的属性值是否大于预设阈值，如果是，则执行S20310，如果否，则可以结束流程。

其中，搜索词过滤模块可以是根据将词本身的属性值以及搜索结果的属性值两个属性值的总和，判断是否大于预设阈值，也可以针对词本身的属性值以及搜索结果的属性值分别设置相应的预设阈值，当词本身的属性值以及搜索结果的属性值中的任一属性值不满足相应的预设阈值时，则不执行S20310而是直接结束流程。

S20310：此时可以判断出待搜索词与搜索结果的相关性较高，因此搜索词过滤模块将待搜索词加入搜索词白名单中。

需要说明的是，图2示出了搜索词提取模块的内部流程，即上述步骤 S2021至S2028，而图3示出了搜索词过滤模块的内部流程，即上述步骤S2031 至S20310。

如图4所示，对应上述方法实施例，本申请还提供了搜索系统的具体实施例。本实施例中的搜索系统为第一搜索系统。第一搜索系统包括前端接口模块401、搜索词提取模块402、搜索词过滤模块403以及数据存储模块404。

数据存储模块404用于存储搜索词白名单；其中，搜索词白名单用于限制来源于第二搜索系统中且在所述第一搜索系统中搜索的可用搜索词的范围。

前端接口模块401，用于接收搜索请求，将所述搜索请求发送至所述搜索词提取模块；所述搜索请求用于指示在所述第一搜索系统中搜索与待搜索词相关的信息。

其中，搜求请求可以是来源于第一搜索系统，也可以是来源于与第一搜索系统不同的第二搜索系统。例如，第一搜索系统可以为一特定的站内搜索引擎，比如1688站点的商务搜索引擎(网址为http://s.1688.com/)，而第二搜索引擎具体可以为通用搜索引擎，比如百度、谷歌、雅虎等等搜索引擎。在本申请实施例中，第一或第二搜索系统指的是搜索引擎等用于实现搜索功能的系统。

搜索词提取模块402，用于从所述搜索请求中获取所述待搜索词，以及判断所述待搜索词是否在搜索词白名单中，如果否，将所述待搜索词发送至搜索词过滤模块。

由于本实施例的搜索词白名单用于限制来源于第二搜索系统中且在第一搜索系统中搜索的可用搜索词的范围，因此，本申请实施例可以仅仅是在接收到由与第一搜索引擎不同的第二搜索引擎发送过来的搜索请求时，才触发相应的扩展功能。因此搜索词提取模块402还用于，在从搜索请求中获取待搜索词之前，判断搜索请求是否来源于第二搜索系统，如果是，才执行从搜索请求中获取待搜索词。而如果上述判断结果为否，则说明此时是来源于第一搜索引擎的搜索请求，也就是站内的搜索请求，此时直接进行站内搜索即可，无需进行搜索词白名单的扩展，因此本实施例的第一搜索系统停止执行本实施例对应的功能。其中，搜索词提取模块402在接收到搜索请求(比如用户访问的URL)时，可以根据搜索请求中的来源信息判断该搜索请求是否来源于第二搜求引擎。

搜索词提取模块402在获取搜索词之前，还可以判断搜索请求中是否包括待搜索词，如果否，则说明搜索请求中并不包括待搜索词，此时也不需要进行搜索词白名单的扩展，可以直接结束流程，也可以返回默认搜索页面。其中，默认搜索页面表示搜索结果为零，例如可以为报错页面(例如404页面)。

由于对于来源于不同的搜索系统的搜索请求(例如搜索请求是来源于站内搜索引擎还是通用搜索引擎，具体来源于哪一个通用搜索引擎)，其中所包括的待搜索词的参数信息、加密方式、编码方式一般都不同。因此搜索词提取模块402在从搜索请求中获取待搜索词时，还可以根据搜索请求的来源信息进行获取。例如，来源于搜索系统A的搜索请求中对待搜索词进行了特殊的编码或者加密，则搜索词提取模块402需要对待搜索词进行相应的解码或者解密从而获取到待搜索词。其中，待搜索词的参数信息可以为url参数，表示用于提取待搜索词的标识信息。

如果搜索词提取模块402判断待搜索词是否在搜索词白名单的判断结果为是时，则说明待搜索词本身已经在搜索词白名单中，则无需进行搜索词白名单的扩展，直接对待搜索词进行搜索并返回搜索结果即可。而如果本步骤的判断结果为否，则说明待搜索词并不在搜索词白名单中，此时需要进一步判断是否需要对搜索词白名单进行扩展，因此将待搜索词发送至搜索词过滤模块403。其中，搜索词提取模块402可以是通过过滤请求发送待搜索词，而且在该过滤请求中，还可以对待搜索词的过滤状态进行标记，从而使得搜索词过滤模块403能够获知该待搜索词需要进一步判断是否需要加入搜索词白名单中。

需要说明的是，如果搜索词提取模块402的上述判断结果为否并且待搜索词来源于第二搜索系统，则还可以执行返回默认搜索页面；所述默认搜索页面表示搜索结果为零。

搜索词过滤模块403，用于计算所述待搜索词的属性值，以及判断所述待搜索词的属性值是否大于预设阈值，如果是，将所述待搜索词加入所述搜索词白名单中。

搜索词过滤模块403判断搜索词的属性值大于预设阈值的判断结果为是时，则说明待搜索词与搜索结果的相关性较高，因此需要加入搜索词白名单中以实现对搜索词白名单的扩展。而如果本步骤的搜索结果为否，则说明待搜索词与搜索结果的相关性较差，此时不需要将待搜索词加入搜索词白名单中，可以搜索词过滤模块403停止执行本实施例对应的功能，同时为了节省系统的工作量，可以标记在一段时间内获取到同样的第一搜索词时，都不需要计算该第一搜索词的属性值而是直接返回不加入搜索词白名单的结果。

其中预设阈值可以根据待搜索词和搜索结果的相关性的要求进行设定，而且还可以参考第二搜索引擎对第一搜索引擎的评分标准。

其中，第一搜索结果通过在第一搜索系统中搜索待搜索词而获取到。在本申请实施例中，第一搜索结果用于计算待搜索词的属性值。需要说明的是。如果搜索请求来源于第二搜索系统，同时待搜索词不在搜索词白名单时，第一搜索结果并不会返回至用户，因此并不会向用户展示。

待搜索词所属的频道基于第一搜索结果的l anding page(着陆页面)而获取到。在本申请实施例中，第一搜索系统可以包括多个搜索频道，因此用户在第一搜索系统发起搜索请求并进行的搜索需要选择对应的搜索频道，最终第一搜索系统也只会返回在该搜索频道内对用户输入的搜索词的搜索结果。因此在本申请实施例中，可以根据第一搜索结果的l anding page，判断出待搜索词所属的频道。而在计算待搜索词的属性值时，可以基于待搜索词所属的频道与待搜索词的相关性。

实际上，如果根据待搜索词本身就能判断出其属于不可用的搜索词，此时甚至无需计算属性值，直接就能够判定出无需将待搜索词加入搜索词白名单中。具体实现方式是，搜索词过滤模块还用于，在执行将待搜索词加入搜索词白名单之前，判断所述待搜索词是否满足用于过滤不可用搜索词的过滤条件，如果否，才执行待搜索词加入搜索词白名单。如果判断结果为是，则不执行将待搜索词加入搜索词白名单中，搜索词过滤模块可以停止本申请实施例对应的功能。其中过滤条件可以包括以下条件中的至少一项:不包含中文或英文字符、包含违禁字符、以及开头或者结尾字段为违禁格式。

本申请实施例的第一搜索系统还可以应用于方法第二实施例中的具体应用场景中，具体内容参见方法第二实施例的相关内容，这里不再赘述。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种搜索词白名单的扩展方法，其特征在于，包括：

所述第一搜索系统从所述搜索请求中获取所述待搜索词；

2.根据权利要求1所述的方法，其特征在于，所述第一搜索系统从所述搜索请求中获取所述待搜索词之前还包括：

3.根据权利要求2所述的方法，其特征在于，还包括：

4.根据权利要求1所述的方法，其特征在于，所述待搜索词的属性值基于以下参数中的至少一项计算得到：

所述待搜索词所属的频道与所述待搜索词的相关度、第一搜索结果与所述待搜索词的相关度、以及所述第一搜索结果的数量；

5.根据权利要求1所述的方法，其特征在于，在执行所述将所述待搜索词加入所述搜索词白名单中之前，还包括：

6.根据权利要求5所述的方法，其特征在于，所述过滤条件包括以下条件中的至少一项:

7.根据权利要求1所述的方法，其特征在于，所述第二搜索系统为通用搜索引擎。

8.一种搜索系统，其特征在于，所述搜索系统为第一搜索系统；所述第一搜索系统包括前端接口模块、搜索词提取模块、搜索词过滤模块以及数据存储模块：

9.根据权利要求8所述的第一搜索系统，其特征在于，所述搜索词提取模块还用于，在从所述搜索请求中获取所述待搜索词之前，判断所述搜索请求是否来源于所述第二搜索系统，如果是，才执行所述从所述搜索请求中获取所述待搜索词。

10.根据权利要求9所述的第一搜索系统，其特征在于，所述搜索词提取模块还用于，若判断所述待搜索词是否在搜索词白名单的判断结果为否，通知所述前端接口模块返回默认搜索页面；所述默认搜索页面表示搜索结果为零。

11.根据权利要求8所述的第一搜索系统，其特征在于，所述待搜索词的属性值基于以下参数中的至少一项计算得到：

12.根据权利要求8所述的第一搜索系统，其特征在于，所述搜索词过滤模块还用于，在执行所述将所述待搜索词加入所述搜索词白名单中之前，判断所述待搜索词是否满足用于过滤不可用搜索词的过滤条件，如果否，才执行所述将所述待搜索词加入所述搜索词白名单中。

13.根据权利要求12所述的第一搜索系统，其特征在于，所述过滤条件包括以下条件中的至少一项:

14.根据权利要求8所述的第一搜索系统，其特征在于，所述第二搜索系统为通用搜索引擎。