CN103729374A

CN103729374A - 一种信息搜索方法及搜索引擎

Info

Publication number: CN103729374A
Application number: CN201210390941.1A
Authority: CN
Inventors: 张帆
Original assignee: Beijing Sogou Technology Development Co Ltd; Beijing Sogou Information Service Co Ltd
Current assignee: Beijing Sogou Technology Development Co Ltd; Beijing Sogou Information Service Co Ltd
Priority date: 2012-10-15
Filing date: 2012-10-15
Publication date: 2014-04-16
Anticipated expiration: 2032-10-15
Also published as: CN103729374B

Abstract

本申请提供了一种信息搜索方法及搜索引擎，属于数据处理技术领域。其中方法包括：依据预置的各入口网站的网站模型，分别获取输入的查询词与各入口网站的关联度；所述入口网站的网站模型用于描述各实体词与相应入口网站的关联度；根据所述查询词与各入口网站的关联度选取入口网站作为价值网站；依据所述查询词在所述价值网站中进行信息搜索，得到相应的搜索结果。本申请将小众站点中的内容也通过模型进行索引，增强了行业类别和网站的覆盖面，提供了更加丰富的信息；而且本申请的操作流程均为自动完成，无需人工参与，且各网站模型可以自动训练和自动更新，大大提高了信息处理的效率。

Description

一种信息搜索方法及搜索引擎

技术领域

本申请涉及数据处理技术领域，特别是涉及一种信息搜索方法及搜索引擎。

背景技术

目前，搜索引擎技术已经是人们从互联网上获得资金所需要信息的主要工具，得到了广泛应用。

相对于通用搜索引擎的信息量大、查询不准确、深度不够等缺陷，垂直搜索引擎是一种新的搜索引擎服务模式，通过针对某一行业类别、某一特定人群或某一特定需求设定查询入口，提供有一定价值的信息和相关服务，例如，游戏、软件、房产、汽车等都是独立的垂直搜索类型。

现有技术中的信息搜索方法为将多个垂直搜索引擎的结果按分类模型中的规则合并在一个搜索结果页面上，相应的流程具体可以包括：

步骤1、人工预设查询的行业类别（比如：游戏，软件，房产、汽车等），人工筛选出预设的行业类别中知名可靠的站点，并建立相应的解析和展示逻辑；

步骤2、利用分类模型、规则筛选等方法来建立以查询词为基础的分类模型，当用户输入查询词后会通过所述分类模型将查询词映射到预设的行业类别上，将查询词解析后输入到预设的行业类别中比较知名可靠的站点，并获取站点中相应的搜索结果；

步骤3、整合各站点中垂直搜索引擎对应的搜索结果，统一滤重、排序并展示在搜索结果页面上。

现有技术具有如下缺点：

1、行业类别覆盖面较小；现有技术中需要人工预设行业类别，由于每个行业类别均需要进行结构定义、数据获取、模型训练、黑白名单挖掘等一系列复杂繁琐的工作，因此能覆盖的行业类别是非常有限的。

比如，在现有技术的搜索引擎中输入查询词“三级螺纹钢”，由于钢材类的需求非常少，在搜索中的占比不到万分之一，人工方式通常不会针对这么小的需求来建立行业类别的；因此，现有技术通常只能搜索出一些钢材网站的零散页面作为搜索结果返回给用户。

2、网站覆盖面比较小；现有技术中的站点依靠人工筛选，预设得行业类别中比较知名可靠的站点，但这样通常仅能利用有限数量的站点，使搜索结果均为一些名站的结果，提供的信息有限。

比如，用户搜索某一款限量款的奢侈汽车，现有的方法会将该款汽车相应的查询词归类为汽车类，在名站“搜狐汽车”和“爱卡汽车网”中获取对应的搜索结果并展示给用户；但是，这两个网站主要关注是普通的消费类汽车，对奢侈汽车的覆盖度不高，不能提供对应的查询信息。

3、信息的处理效率低；由于设定的每个行业类别均需要进行结构定义、获取数据、训练模型、挖掘黑白名单等一系列复杂繁琐的工作，均需要人工来完成，因此每增加一个行业类别均需要耗费大量的人力，从而降低了信息的处理效率。

总之，需要本领域技术人员迫切解决的一个技术问题就是：如何能够更好地覆盖用户的搜索需求，以及，能够提高信息的处理效率。

发明内容

本申请所要解决的技术问题是提供一种信息搜索方法及搜索引擎，得到的搜索结果能够更好地覆盖用户的搜索需求，并且能够提高信息的处理效率。

为了解决上述问题，本申请公开了一种信息搜索方法，包括：

依据预置的各入口网站的网站模型，分别获取输入的查询词与各入口网站的关联度；所述入口网站的网站模型用于描述各实体词与相应入口网站的关联度；

根据所述查询词与各入口网站的关联度选取入口网站作为价值网站；

依据所述查询词在所述价值网站中进行信息搜索，得到相应的搜索结果。

优选的，所述获取输入的查询词与各入口网站的关联度包括：在入口网站的网站模型中，根据一元或多元的查询词分别在所述入口网站和全网网站中的出现概率获取查询词的关联度。

优选的，所述实体词为依据对所述入口网站的网站模型的训练数据进行分析抽取得到；

所述训练数据至少包括下列数据中的一种或多种：用于展现入口网站中页面内容的页面数据、从入口网站搜索结果中提取后形成的结果数据、符合预置质量指标的结果数据对应的查询词。

优选的，所述方法还包括：通过下列步骤收集互联网上的入口网站：

针对互联网上的网站，依据其页面结构判断其是否为暗网资源入口，若是，则其为入口网站。

优选的，所述针对互联网上的网站，依据其页面结构判断其是否为暗网资源入口的步骤，包括：

第一判断步骤：判断所述网站的页面元素中是否包含输入框，若是，则执行第二判断步骤；

第二判断步骤：判断所述网站中输入框的功能是否为供查询词进行输入后搜索或查询，若是，则执行第三判断步骤；

第三判断步骤：判断所述网站对应的结果页面的地址是否符合搜索引擎对应的结果页面地址的格式。

优选的，在所述网站对应的结果页面的地址符合搜索引擎对应的结果页面地址的格式时，判断该网站依据查询词得到的结果页面的内容和页面结构是否符合搜索引擎对应的结果页面的内容和页面结构，若是，则该网站为暗网资源入口。

优选的，所述收集互联网上的入口网站的步骤还包括：

对判断为暗网资源入口的对应网站进行质量评估，得到相应的质量得分；

依据所述质量得分对所述判断为暗网资源入口的对应网站进行筛选，得到相应的入口网站。

优选的，所述根据所述查询词与相应入口网站的关联度选取入口网站作为价值网站时，将与入口网站的关联度高于关联度阈值的入口网站作为价值网站；所述关联度阈值依据预置的召回率和准确率得到。

优选的，所述方法还包括：依据接收到的对所述价值网站的选择信息，搜索得到所述查询词在选中的价值网站中的搜索结果。

优选的，所述方法还包括：按照所述查询词与入口网站的关联度的从高到低的顺序，将所述搜索结果以条目链接的形式按对应的价值网站进行展现。

根据本申请的另一方面，提供了一种搜索引擎，包括：

关联度获取单元，用于依据预置的各入口网站的网站模型，分别获取输入的查询词与各入口网站的关联度；所述入口网站的网站模型用于描述各实体词与相应入口网站的关联度；

第一价值网站获取单元，用于根据所述查询词与各入口网站的关联度选取入口网站作为价值网站；及

信息搜索单元，用于依据所述查询词在所述价值网站中进行信息搜索，得到相应的搜索结果。

优选的，所述关联度获取单元，具体用于在入口网站的网站模型中，根据一元或多元的查询词分别在所述入口网站和全网网站中的出现概率获取查询词的关联度。

优选的，所述搜索引擎还包括：用于收集互联网上的入口网站的收集单元；

所述收集单元，包括：

暗网资源的入口判断子单元，用于针对互联网上的网站，依据其页面结构判断其是否为暗网资源入口，若是，则其为入口网站。

优选的，所述收集单元还包括：

质量评估子单元，用于对判断为暗网资源入口的对应网站进行质量评估，得到相应的质量得分；

筛选子单元，用于依据所述质量得分，对所述判断为暗网资源入口的对应网站进行筛选，得到相应的入口网站。

优选的，所述搜索引擎还包括：

第一展现单元，用于展现所述价值网站；

选择搜索单元，用于依据接收到的对所述价值网站的选择信息，搜索得到所述查询词在选中的价值网站中的搜索结果。

优选的，所述搜索引擎还包括：

排序展现单元，用于按照所述查询词与入口网站的关联度的从高到低的顺序，将所述搜索结果以条目链接的形式按对应的价值网站进行展现。

与现有技术相比，本申请具有以下优点：

本申请依据查询词在价值网站中进行信息搜索；一方面，本申请的价值网站为经过选取的入口网站，而入口网站用于表示暗网资源的入口，故能够搜索得到现有技术无法索引的暗网资源对应的结果；另一方面，由于本申请中查询词在各价值网站中的搜索结果会好于在全网网站中的搜索结果；因此，本申请摒弃了现有技术中基于行业类别对查询词进行搜索，将小众站点中的内容也通过模型进行索引，增强了行业类别和网站的覆盖面，提供了更加丰富的信息；而且本申请的操作流程均为自动完成，无需人工参与，且各网站模型可以自动训练和自动更新，因此，相对于现有技术，大大提高了信息处理的效率。

附图说明

图1是本申请一种信息搜索方法实施例的流程图；

图2是本申请一种入口网站的网站模型的训练方法实施例的流程图；

图3是本申请一种搜索引擎实施例的结构图。

具体实施方式

为使本申请的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本申请作进一步详细的说明。

互联网上存在着数千个或数万个网站，每个网站具有一种有关不同字段的搜索功能。但是，网络上大部分内容是不能通过静态链接获取的，特别是大部分隐藏在搜索表单之后的页面只有通过用户键入一系列关键词才可以获得，这些页面被称为暗网资源（Hidden Web）。也就是说，由于当前的搜索引擎不能索引到或不能在它们的返回结果中显示这些页面，因此，这些页面是现有技术中搜索引擎所无法抓取的网页、不能检索到的信息，即“看不见”的页面，因此对用户来说这部分页面是隐藏的。

本申请采用入口网站表示暗网资源的入口，以及采用入口网站的网站模型描述各实体词与相应入口网站的关联度；这里，关联度主要根据各实体词在入口网站的出现概率和在全网网站的出现概率进行计算。全网网站主要指整个互联网上的网站，入口网站主要指全网网站中表示暗网资源的入口的单个网站；这样，如果查询词与某入口网站的关联度较高，则说明该查询词在该入口网站中的搜索结果会好于其在全网网站中的搜索结果；由于现有技术中搜索引擎无法索引到入口网站中的暗网资源，因此，本申请得到查询词在关联度较高的入口网站的搜索结果，能够更好地满足用户的搜索需求。

参照图1，示出了本申请一种信息搜索方法实施例的流程图，具体可以包括：

步骤101、依据预置的入口网站的网站模型，分别获取输入的查询词与各入口网站的关联度；所述入口网站的网站模型与入口网站一一对应，用于描述各实体词与相应入口网站的关联度；

在获取输入的查询词与各入口网站的关联度后，能够从全网中区分出与输入的查询词关联度高的入口网站。

在本申请的一种优选实施例中，所述获取输入的查询词与各入口网站的关联度具体可以包括：在入口网站的网站模型中，根据一元或多元的查询词分别在入口网站和全网网站出现概率获取查询词的关联度。

本申请实施例中，一元实体词也即一个实体词，多元实体词也即连续的多个实体词，多元实体词可有查询串分词得到。具体而言，如果一元或多元实体词在某入口网站的出现概率大于其在全网网站的出现概率，则该一元或多元实体词与该入口网站的关联度较高，即以该一元或多元实体词作为查询词在该入口网站中的搜索结果会好于在全网网站中的搜索结果。

在具体实现中，各入口网站的网站模型可采用数据库的形式存储一元或多元实体词分别在入口网站和全网网站的出现概率，则步骤101依据预置的入口网站的网站模型，分别获取输入的查询词与各入口网站的关联度的实现过程具体可以包括：

将所述查询词与所述数据库中存储的一元或多元实体词进行匹配，若匹配成功，则通过所述数据库获取该一元或多元实体词分别在入口网站和全网网站的出现概率，从而得到所述查询词与各入口网站的关联度。

在本申请的一种应用示例中，入口网站的网站模型存储的所述一元或多元实体词分别在入口网站和全网网站的出现概率的关联情况，具体可以包括一元或多元实体词分别在入口网站和全网网站的出现概率比的对数（log）值。

参照表1，示出了本申请入口网站的网站模型描述的一元实体词分别在某入口网站和全网网站的出现概率比的log值的示例。

表1

参照表2，示出了本申请入口网站的网站模型存储的二元实体词分别在某入口网站和全网网站的出现概率比的log值的示例。

表2

当然，上述一元或多元实体词分别在入口网站和全网网站的出现概率比的log值只是一种示例，实际上，其它对出现概率进行统计的方式也是可行的，例如直接分别计算一元或多元实体词在入口网站和全网网站的出现概率比。

另外，所述一元或多元实体词分别在入口网站和全网网站的出现概率作为计算关联度的一种示例，本领域技术人员可以根据需要采用其它的方式计算各实体词与入口网站的关联度。

例如，在本申请的一种应用示例中，还可以采用各入口网站对应的分类模型对实体词进行特征判别（一个入口网站对应一个分类模型），判别输入的查询词为各对应入口网站的入口网站类别或非入口网站类别。

在实际应用中，查询词输入特定入口网站的分类模型后，如果此分类模型将查询词判别为入口网站对应的入口网站类别，则该查询词与该入口网站的关联度高于该查询词与全网网站的关联度，表示该入口网站对于该查询词来说为关联度较大的网站，即该查询词在该入口网站中的搜索结果会好于在全网网站中的搜索结果。

在训练某入口网站的分类模型时，可以将该入口网站的训练数据作为正样本，将全网网站的训练数据作为负样本，并从所述正样本和负样本中提取各实体词得到特征向量进行特征计算，其中，实体词可以为一元或多元实体词。

步骤101依据预置的入口网站的网站模型，分别获取输入的查询词与各入口网站的关联度的实现过程具体可以包括：

将所述查询词输入至所述各入口网站的分类模型，若分类模型的输出结果与正样本的标识一致（例如大于0），则可以将所述查询词判别为入口网站类别，即输入的查询词与各入口网站的关联度大，若分类模型的输出结果与负样本的标识一致（例如小于等于0），则可以将所述查询词判别为全网网站类别，即输入的查询词与各入口网站的关联度小。

在本申请的一种优选实施例中，所述实体词可为依据所述入口网站的网站模型的训练数据进行分析抽取得到。

所述入口网站的网站模型的训练数据至少可以包括下列数据中的一种或多种：用于展现入口网站中页面内容的页面数据、从入口网站搜索结果中提取后形成的结果数据、符合预置质量指标的结果数据对应的查询词。

其中，从入口网站搜索结果中提取后形成的结果数据可从入口网站对应的搜索结果中收集得到，通常会以title（标题）和summary（摘要）为展现方式；其中，向入口网站输入查询词，即可获得相应的入口网站搜索结果，查询词可以使用人为设定或者通用网站的查询日志中记录的查询词。

用于展现入口网站中页面内容的页面数据，包括入口网站下所有页面的标题数据和内容数据。比如下载网站，每一款软件都会在网站中有一个页面，而且标题通常是软件本身的描述，即使没有把数据都展现出来，也会通过标题数据在页面上保存一些相关的主题信息，故从入口网站下所有页面中抽取标题数据，连同所有页面对应的内容数据一起得到入口网站的页面数据。

符合预置质量指标的结果数据对应的查询词，所述优质搜索结果为符合预置质量指标条件的搜索结果。所述预置质量指标条件具体可以包括：搜索结果数达到第一阈值，包含有命中的标红查询词的搜索结果的数目达到第二阈值等等。

需要说明的是，在训练入口网站的网站模型的过程中，入口网站的训练数据作为正样本，全网网站的训练数据作为反样本；故相应地，所述全网网站的网站模型的训练数据还至少可以包括下列数据中的一种或多种：从全网网站搜索结果中提取后形成的结果数据，展现全网网站中页面内容的页面数据，以及全网网站中符合预置质量指标的结果数据对应的查询词。由于全网网站的训练数据的获取过程与入口网站的训练数据的获取过程类似，只是网站范围的不同，故在此不作赘述，相互参照即可。

在具体实现中，可以依据所述入口网站的网站模型的训练数据，利用各种数理统计方法得到上述一元或多元实体词分别在入口网站和全网网站的出现概率；以及，可以依据所述入口网站的网站模型的训练数据，利用各种统计模式识别方法得到上述分类模型。

上述的数理统计方法具体可以包括：统计一元或多元实体词在上述正样本和负样本中的出现频率等等；上述的统计模式识别方法具体可以包括：N-Gram（N元语法）语言模型、SVM（支持向量机，Support Vector Machines）、贝叶斯等，本申请对具体的数理统计方法和统计模式识别方法不加以限制。

需要说明的是，在使用多种训练数据方法得到多种网站模型时，步骤101可以对多个入口网站的网站模型的输出结果进行整合。例如，一种整合的示例为，分别赋予每个网站模型的输出结果一个权重w，并进行综合加权计算。

例如，在其他实施例中，使用入口网站的三种分类模型得到的输出分数分别为s1、s2和s3，且三种分类模型的在该入口网站的权重分别为w1、w2和w3，则查询词对于该入口网站的关联度最终的输出结果为：

final_score=s1*w1+s2*w2+s3*w3其中，w1+w2+w3=1

另外，输入的查询词也可以是由多个单个词组成的短语，还可以是通过关系运算符(and、or等)连接的多个单个词(或短语)。

在本申请的一种优选实施例中，还可以对输入的查询词进行分词处理，得到查询词中包含的所有关键词，然后依据预置的入口网站的网站模型，分别获取各关键词与各入口网站的关联度，最后对各关键词与各入口网站的关联度进行合并处理得到输入的查询词与各入口网站的关联度。这里，所述合并处理可以是获取各关键词与各入口网站的关联度的乘积，或者，对各关键词与各入口网站的关联度进行加权平均等等，本申请对具体的合并处理方法不加以限制。

互联网上存在着数千个或数万个网站，在本申请的一种优选实施例中，可以通过下列步骤收集互联网上的入口网站：

针对互联网上的网站，依据其页面结构判断其是否为暗网资源的入口，若是，则其为入口网站。

在本申请的另一种优选实施例中，所述针对互联网上的网站，依据其页面结构判断其是否为暗网资源的入口的步骤，具体可以包括：

在本申请的一种优选实施例中，可以依据该网站中输入框周围的上下文意图，来判断该网站中输入框的功能；若输入框周围的上下文为入口意图，则该输入框的功能为供查询词进行输入后搜索或查询。输入框周围的上下文可以包括关键词，比如登陆，首页，内容，发表等关键词就是明显的非入口意图关键词，则功能为其他，而搜索，查询等就是明确的入口意图关键词，则功能为供查询词进行输入后搜索或查询。

第三判断步骤：判断所述网站对应的结果页面的地址是否符合搜索引擎对应的结果页面地址的格式，若是，则所述网站为暗网资源入口。

搜索结果页面地址通常表现为URL（统一资源定位符，Uniform ResourceLocator）。在实际中，可以收集全网中各种搜索引擎对应的结果页面地址的格式，统计并记录相应的搜索结果页面地址的格式规律，然后，在执行第三判断步骤时，判断该网站依据查询词得到的结果页面的地址是否符合搜索引擎对应的结果页面地址的格式规律。例如，搜索结果页面地址的格式规律具体可以包括如下规律中的一项或多项：URL中包含查询词，URL以search或query为前缀等等。

经过第一判断步骤、第二判断步骤和第三判断步骤，能够有效地判断互联网上的网站是否为暗网资源入口。

在本申请的一种优选实施例中，为了进一步验证互联网上的网站的暗网资源入口有效性，进而收集互联网上的入口网站，所述针对互联网上的网站，依据其页面内容判断其是否为暗网资源入口的步骤，还可以包括：

第四判断步骤：在所述网站对应的结果页面的地址符合搜索引擎对应的结果页面地址的格式时，判断该网站依据查询词得到的结果页面的内容和页面结构是否符合搜索引擎对应的结果页面的内容和页面结构，若是，则该网站为暗网资源入口。

这里，搜索结果页面的内容和页面结构也可以通过依据搜索网站的数据分析统计得到。其中，搜索结果页面的页面结构的一个示例为，每条搜索结果以条目链接的形式存在，并且，每条搜索结果的组词是有规律的，如网站标题、网站链接和网页快照等；搜索结果页面的内容的一个示例为，每条搜索结果中会含有查询词，且查询词被标红进行命中显示。本申请对具体的搜索结果页面的内容和页面结构的获取方式不加以限制。

经过上述判断步骤，收集得到了为暗网资源入口的网站，这些网站包括了含有暗网资源的垂直搜索引擎，可以直接作为入口网站来获取相应的训练数据，并进一步训练得到网站模型。

在本申请的一种优选实施例中，通过对入口网站进行质量评估，确保其内部数据信息是有价值，从而能够进一步满足用户的搜索需求。相应地，所述收集互联网上的入口网站的步骤还可以包括：

步骤A1、对判断为暗网资源入口的对应网站进行质量评估，得到相应的质量得分；

步骤A2、依据所述质量得分，对所述判断为暗网资源入口的对应网站进行筛选，得到相应的入口网站。

其中，所述步骤A1的实现过程具体可以包括：

步骤A11、针对所述判断为暗网资源入口的对应网站，评估网站本身的质量，得到相应的第一质量得分；

通常来说网站本身的价值与其内部数据的价值是一致的，好的数据必然在好的网站上。在具体实现中，可以通过网站的日常流量，网站速度，更新频率，在搜索引擎中的搜索点出数，pagerank（网页级别）等一系列的信息来评估暗网资源对应的网站本身的质量，通过评估结果得到第一质量得分。

步骤A12、针对所述判断为暗网资源入口的对应网站，评估网站中内部数据的质量，得到相应的第二质量得分；

所述步骤A12的实现过程具体可以包括：

步骤B1、指派一批查询词（人为设定或者用通用网站的查询日志中记录的查询词），将这些查询词输入所述判断为暗网资源入口的对应网站，之后获取返回的结果页面；

步骤B2、分析结果页面对应的页面结构，然后根据页面结构来判断是其否为搜索结果页面。

这里，可以判断该网站依据查询词得到的结果页面的内容和页面结构是否符合搜索结果页面的内容和页面结构，若是，则其为搜索结果页面。

步骤B3、获取结果页面中搜索结果数，搜索结果的内容等结果信息，依据所述结果信息评估该网站中内部数据的质量。

例如，搜索结果数较多的网站，可视为结果较为丰富的网站，相应的第二质量得分较高；搜索结果内容与查询词相关性较高的网站，也可视为结果较为丰富的网站，相应的第二质量得分较高。本申请对具体的结果信息不加以限制。

步骤A13、整合所述第一质量分和第二质量分，得到相应的质量得分。

在实际中，可以对所述第一质量分和第二质量分进行加权平均、移动平均等整合处理得到相应的质量得分，本申请对具体的综合方式不加以限制。

所述步骤A2的筛选过程具体可以包括：按照质量得分从高到低的顺序对所述判断为暗网资源入口的对应网站进行排序，并选取排在前面的若干作为入口网站；或者，针对所述判断为暗网资源对应的网站，选取质量得分高于既定质量得分阈值的作为入口网站等等；本申请对具体的筛选方案不加以限制。

步骤102、根据所述查询词与各入口网站的关联度选取入口网站作为价值网站；

如果查询词与某入口网站的关联度较高，则说明该查询词在该入口网站中的搜索结果与在全网网站中的搜索结果相比更相关，本申请将该入口网站作为价值网站。可以理解，入口网站与查询词的关联度越高，则该查询词在该入口网站中的搜索结果越优质，则越能够满足用户的搜索需求。

在具体实现中，依据所述查询词与各入口网站的关联度对相应的入口网站进行筛选。

例如，在本申请的一种优选实施例中，所述方法还可以包括：依据所述查询词与各入口网站的关联度对相应的各入口网站进行排序，并选取排在前面的若干位作为价值网站。

或者，在本申请的另一种优选实施例中，所述方法还可以包括：将与入口网站的关联度高于关联度阈值的入口网站作为价值网站；所述关联度阈值为依据预置的召回率和准确率得到。

召回率和准确率为搜索引擎领域内的技术术语，其中，召回率(RecallRate)是搜索出的与查询词相关的搜索结果数与全网网站中所有的与查询词相关的信息条数的比率，衡量的是搜索引擎的查全率；准确率是搜索出的与查询词相关的搜索结果数与搜索出的搜索结果总数的比率，衡量的是搜索引擎的查准率。

为了更好地说明召回率和准确率，将查询词输入至价值网站，搜索得到的相关结果中包括；

A：搜索出的与查询词相关的搜索结果数（搜出的、相关的）；

B：搜索出的与查询词不相关的搜索结果数（搜出的、不相关的）；

C：未搜索出的与查询词相关的信息数量（没搜出、实际相关的）；

D：未搜索出的与查询词不相关的信息数量（没搜出、不相关的）。

可见，召回率=A/(A+C)，准确率=A/(A+B)。召回率与准确率虽然没有必然的关系（从上面公式中可以看到），在实际应用中，是相互制约的，可以根据实际需求，找到一个平衡最佳的准确率和召回率，并找到对应的关联度阈值。

在实际应用中，可以搭建搜索测试环境，所述搜索测试环境中具体包括全网网站和若干入口网站，所述全网网站和若干入口网站包括特定的信息条目；并且，标注各信息条目与查询词的相关性（相关或者不相关）；利用所述搜索测试环境测试得到不同关联度阈值对应的准确率和召回率，并从所述不同关联度阈值对应的准确率和召回率选择一个平衡最佳的准确率和召回率对应的关联度阈值，作为本申请的关联度阈值。

其中，平衡最佳的准确率和召回率可依据实际需求进行确定；例如，希望被搜索到的内容越多越好，则确定的召回率越大越好，如果希望搜索结果中真正想要的、即相关的越多越好，不相关的越少越好，则确定的准确率越大越好。

当然，上述获取平衡最佳的准确率和召回率对应的关联度阈值只是作为示例，实际上，本领域技术人员使用正态分布函数其它方法获取得到平衡最佳的准确率和召回率，从而得到对应的关联度阈值，本申请对具体的获取关联度阈值的方法不加以限制。

步骤103、依据所述查询词在所述价值网站中进行信息搜索，得到相应的搜索结果。

在此给出相应的应用示例：

应用示例1、

用户搜索在现有技术的搜索引擎中输入查询词“三级螺纹钢”，由于钢材类的需求非常少，在搜索中的占比不到万分之一，现有技术通常不会针对这么小的需求来建立行业类别的模型；因此，现有技术通常只能靠匹配搜索出一些钢材网站的零散页面作为搜索结果返回给用户。

实际上，“三级螺纹钢”对应的搜索需求为暗网资源，故本申请摒弃了现有技术的行业类别，收集到互联网上暗网资源入口的对应网站，并且，使用与“三级螺纹钢”关联度高的价值网站进行搜索。对于全网中的价值网站“中国建材在线”建立的网站模型，当搜索“三级螺纹钢”的信息时，“中国建材在线”的网站模型与“三级螺纹钢”之间的关联度高于设定的关联度阈值，则“三级螺纹钢”进入到该价值网站的暗网资源对应的垂直入口，抓取对应的垂直数据并在结果页的“中国建材在线”条目下展示；故能够在该价值网站中搜索得到现有技术无法索引得到的，且能够贴近用户搜索需求的搜索结果。

应用示例2、

用户搜索某一款限量款奢侈汽车，按照现有技术的方法会将相应的查询词归类为汽车类，类别模型中收录的往往是“汽车之家”、“搜狐汽车”这类名站的数据并展示给用户；但是，这两个网站主要关注是普通的消费类汽车，对奢侈汽车的关注度不高，这样，奢侈汽车的搜索结果并不好，所以并不能满足用户的搜索需求。

实际上，本申请不再局限于现有技术的名站，而是收集到互联网上包括该入口网站在内的入口网站，对全网中受访范围较大的价值网站“奢侈汽车网”建立了网站模型，网站模型中存储的为实体词和实体词在本站和全网间出现概率的比值；当搜索该款限量款奢侈汽车的信息时，“奢侈汽车网”的网站模型与该款限量款奢侈汽车之间的关联度高于设定的关联度阈值，则该款限量款奢侈汽车进入到该站的垂直入口，抓取对应的垂直数据并在结果页的“奢侈汽车网”条目下展示；因此能够在该入口网站中搜索得到现有技术无法索引得到的，且能够贴近用户搜索需求的搜索结果。

本申请依据查询词在价值网站中进行信息搜索；一方面，本申请的入口网站用于表示暗网资源的入口，故能够搜索得到现有技术无法索引的暗网资源对应的结果；另一方面，由于本申请中查询词在各价值网站中的搜索结果会好于在全网网站中的搜索结果；因此，本申请能够完全摒弃现有技术中基于行业类别对查询词进行搜索，将小众站点中的内容也通过模型进行索引，增强了行业类别和网站的覆盖面，提供了更加丰富的信息；而且本申请的操作流程均为自动完成，无需人工参与，且各网站模型可以自动训练和自动更新，因此，相对于现有技术，能够大大提高信息的处理效率。

在本申请的一种优选实施例中，还可以展现所述价值网站，则所述方法还可以包括：

依据接收到的对所述价值网站的选择信息，搜索得到所述查询词在选中的价值网站中的搜索结果。

本优选实施例可以让用户筛选出相关的价值网站，因此，得到的搜索结果能够更贴近用户的搜索需求。

在本申请的另一种优选实施例中，所述方法还可以包括：

按照所述查询词与入口网站的关联度的从高到低的顺序，将所述搜索结果以条目链接的形式按对应的价值网站进行展现。

这里，可以使用现有技术的搜索引擎的展现方法，例如，以条目链接的形式将所述搜索结果按对应的价值网站展现在搜索结果页面；或者，也可以使用其它展现方法，本申请对具体的展现方法不加以限制。

需要说明的是，在本申请的一些实施例中，所述查询词在所述价值网站中的搜索结果，可以与所述查询词在现有技术的搜索引擎中的搜索结果（简称普通搜索结果）共同展现，其中，所述查询词在所述价值网站中的搜索结果可以展现在所述普通搜索结果的前面，或者，所述查询词在所述价值网站中的搜索结果可以使用不同的展现区域等等，本申请对具体的展现方式不加以限制。

为使本领域技术人员更好地理解本申请，参照图2，示出了本申请一种入口网站的网站模型的训练方法实施例的流程图，具体可以包括：

步骤201、收集互联网上的入口网站：

在本申请的一种优选实施例中，所述收集互联网上的入口网站的步骤具体可以包括：

步骤C1、针对互联网上的网站，依据其页面结构判断其是否为暗网资源入口；

步骤C2、对判断为暗网资源入口的对应网站进行质量评估，得到相应的质量得分；

步骤C3、依据所述质量得分，对所述判断为暗网资源的入口的对应网站进行筛选，得到相应的入口网站。

在本申请的另一种优选实施例中，所述针对互联网上的网站，依据其页面结构判断其是否为暗网资源入口的步骤，具体可以包括：

第三判断步骤：判断所述网站对应的结果页面的地址是否符合搜索引擎对应的结果页面地址的格式，若是，则执行第四判断步骤；

第四判断步骤：判断该网站依据查询词得到的结果页面的内容和页面结构是否符合搜索引擎对应的结果页面的内容和页面结构，若是，则该网站为暗网资源入口。

步骤202、获取所述入口网站的网站模型的训练数据；所述入口网站的网站模型的训练数据具体可以包括：入口网站的训练数据和全网网站的训练数据；

在本申请的一种优选实施例中，所述入口网站的网站模型的训练数据至少可以包括下列数据中的一种或多种：用于展现入口网站中页面内容的页面数据、从入口网站搜索结果中提取后形成的结果数据、符合预置质量指标的结果数据对应的查询词。

需要说明的是，在训练入口网站的网站模型的过程中，入口网站的训练数据作为正样本，全网网站的训练数据作为反样本；故相应地，所述入口网站的网站模型的训练数据还至少可以包括下列数据中的一种或多种：全网网站搜索结果的内容数据，全网网站页面的内容数据，以及全网网站的优质搜索结果对应的查询词；其中，所述优质搜索结果为符合预置质量指标条件的搜索结果。

步骤203、将入口网站的训练数据作为正样本，将全网网站的训练数据作为负样本，提取所述正样本和负样本中实体词作为特征向量，训练得到入口网站的网站模型。

对于训练方法实施例而言，由于其与信息搜索方法实施例的部分内容基本相似，所以描述的比较简单，相关之处参见信息搜索方法实施例的部分说明即可。

参照图3，示出了本申请一种搜索引擎实施例的结构图，具体可以包括：

关联度获取单元301，用于依据预置的各入口网站的网站模型，分别获取输入的查询词与各入口网站的关联度；所述入口网站的网站模型用于描述各实体词与相应入口网站的关联度；

第一价值网站获取单元302，用于根据所述查询词与各入口网站的关联度选取入口网站作为价值网站；及

信息搜索单元303，用于依据所述查询词在所述价值网站中进行信息搜索，得到相应的搜索结果。

在本申请的一种优选实施例中，所述关联度获取单元301，可具体用于根据入口网站的网站模型获取一元或多元的实体词分别在入口网站和全网网站中的出现概率获取查询词的关联度。

在本申请的另一种优选实施例中，所述实体词可以为依据对所述入口网站的网站模型的训练数据进行分析抽取得到；

建立所述入口网站的网站模型的训练数据至少可以包括下列数据中的一种或多种：用于展现入口网站中页面内容的页面数据、从入口网站搜索结果中提取后形成的结果数据、符合预置质量指标的结果数据对应的查询词。

在本申请的再一种优选实施例中，所述搜索引擎还可以包括：用于收集互联网上的入口网站的收集单元；

所述收集单元，具体可以包括：

在本申请的一种优选实施例中，所述暗网资源的入口判断子单元具体可以包括：

第一判断模块，用于判断所述网站的页面元素中是否包含输入框；

第二判断模块，用于在网站的页面元素中包含输入框时，判断所述网站中输入框的功能是否为供查询词进行输入后搜索或查询；

第三判断模块，用于在所述网站中输入框的功能为供查询词进行输入后搜索或查询时，判断所述网站对应的结果页面的地址是否符合搜索引擎对应的结果页面地址的格式，若是，则所述网站为暗网资源的入口。

在本申请的另一种优选实施例中，所述暗网资源的入口判断子单元还可以包括：

第四判断模块，用于在所述网站对应的结果页面的地址符合搜索引擎对应的结果页面地址的格式时，判断所述网站依据查询词得到的结果页面的内容和页面结构是否符合搜索引擎对应的结果页面的内容和页面结构，若是，则所述网站为暗网资源入口。

在本申请的再一种优选实施例中，所述收集单元还可以包括：

在本申请的一种优选实施例中，所述搜索引擎还可以包括：

第二价值网站获取单元，用于在根据所述查询词与相应入口网站的关联度选取入口网站作为价值网站时，将与入口网站的关联度高于关联度阈值的入口网站作为价值网站；所述关联度阈值依据预置的召回率和准确率得到。

在本申请的一种优选实施例中，所述搜索引擎还可以包括：第一展现单元，用于展现所述价值网站；

在本申请的一种优选实施例中，所述搜索引擎还可以包括：排序展现单元，用于按照所述查询词与入口网站的关联度的从高到低的顺序，将所述搜索结果以条目链接的形式按对应的价值网站进行展现。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。对于搜索引擎实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质（包括但不限于磁盘存储器、CD-ROM、光学存储器等）上实施的计算机程序产品的形式。

Claims

1.一种信息搜索方法，其特征在于，包括：

2.如权利要求1所述的方法，其特征在于，所述获取输入的查询词与各入口网站的关联度包括：在入口网站的网站模型中，根据一元或多元的查询词分别在所述入口网站和全网网站中的出现概率获取查询词的关联度。

3.如权利要求1或2所述的方法，其特征在于，所述实体词为依据对所述入口网站的网站模型的训练数据进行分析抽取得到；

4.如权利要求1或2所述的方法，其特征在于，还包括：通过下列步骤收集互联网上的入口网站：

5.如权利要求4所述的方法，其特征在于，所述针对互联网上的网站，依据其页面结构判断其是否为暗网资源入口的步骤，包括：

6.如权利要求5所述的方法，其特征在于，在所述网站对应的结果页面的地址符合搜索引擎对应的结果页面地址的格式时，判断该网站依据查询词得到的结果页面的内容和页面结构是否符合搜索引擎对应的结果页面的内容和页面结构，若是，则该网站为暗网资源入口。

7.如权利要求4所述的方法，其特征在于，所述收集互联网上的入口网站的步骤还包括：

8.如权利要求1所述的方法，其特征在于，所述根据所述查询词与相应入口网站的关联度选取入口网站作为价值网站时，将与入口网站的关联度高于关联度阈值的入口网站作为价值网站；所述关联度阈值依据预置的召回率和准确率得到。

9.如权利要求1所述的方法，其特征在于，还包括：

10.如权利要求1或8或9所述的方法，其特征在于，还包括：

11.一种搜索引擎，其特征在于，包括：

12.如权利要求11所述的搜索引擎，其特征在于，所述关联度获取单元，具体用于在入口网站的网站模型中，根据一元或多元的查询词分别在所述入口网站和全网网站中的出现概率获取查询词的关联度。

13.如权利要求11或12所述的搜索引擎，其特征在于，所述实体词为依据对所述入口网站的网站模型的训练数据进行分析抽取得到；

14.如权利要求11或12所述的搜索引擎，其特征在于，还包括：用于收集互联网上的入口网站的收集单元；

所述收集单元，包括：

15.如权利要求14所述的搜索引擎，其特征在于，所述收集单元还包括：

16.如权利要求11所述的搜索引擎，其特征在于，还包括：

第一展现单元，用于展现所述价值网站；

17.如权利要求11或16所述的搜索引擎，其特征在于，还包括：