CN102609539A

CN102609539A - 一种搜索方法和系统

Info

Publication number: CN102609539A
Application number: CN2012100357240A
Authority: CN
Inventors: 张帆
Original assignee: Beijing Sogou Technology Development Co Ltd; Beijing Sogou Information Service Co Ltd
Current assignee: Beijing Sogou Technology Development Co Ltd; Beijing Sogou Information Service Co Ltd
Priority date: 2012-02-16
Filing date: 2012-02-16
Publication date: 2012-07-25
Anticipated expiration: 2032-02-16
Also published as: CN102609539B

Abstract

本申请提供了一种搜索方法和系统，涉及网络技术领域。本申请的方法包括：利用各强相关分类特征集合对对应用户的查询词的第一初始搜索结果进行匹配分析，获得所述查询词与各强相关分类特征集合相应分类的相关性分析结果；所述强相关分类特征集合由通用搜索引擎对随机词集合的搜索结果和分类词集合的搜索结果进行比较处理得到；当所述查询词与特定分类对应的强相关分类特征集合的相关性分析结果符合判定条件时，针对相应分类进行处理。本申请可便捷的获取数据，对于数据源没有量的制约；所述强相关分类特征集合是基于搜索引擎的客观结果的，可更客观、准确的对查询词分类，从而保证了搜索结果中强相关类别对应的搜索结果被优先显示。

Description

一种搜索方法和系统

技术领域

本申请涉及网络技术领域，特别是涉及一种搜索方法和系统。

背景技术

在搜索领域，经常需要分析用户输入的查询词相关的分类，即分析用户的查询意图，然后基于该查询词相关的分类或者说用户的查询意图针对性的展示相关站点给用户。随着这种趋势的发展，用户的查询意图识别成为搜索引擎中非常重要的一个领域。一般来说，对于用户输入的查询词，该查询词在客观上会属于某一个类别，比如对于用户输入的“单反相机”这个查询词，“单反相机”客观上可属于摄像器材类行业，即对于用户来说，其输入的查询词具有对应该行业的查询意图。在传统的通用搜索引擎中，一般只根据网站的权重和查询词的匹配情况对结果进行展现，基本上没有在用户查询意图层面进行考虑，即用户输入的查询词和网站的相关性，无法针对性的做出相应展示，也无法更精准更客观的将查询结果展现给用户。针对上述情况，现有技术中设计并运用了类别查询的方法，判断查询词所属的相关类别，然后将查询结果中对应类别的查询结果整理展示给用户端。

现有技术中，进行类别查询时，多以手工标注，分析用户点击行为等方法来获取用户输入的查询词与某些行业类别的相关性。

手工标注的方法一般是通过手工标注出有行业需求查询词，以此为训练数据来训练分类模型，来获取用户输入的查询词与某些行业类别网站的相关性，该方法由于采用人工进行标注行业需求查询词，导致获取成本高，代价太大，且主观性较强。

分析用户点击行为的方法包括两种方法：其一是通过用户点击行为来获取行业需求查询词，以此为训练数据来训练分类模型，来获取用户输入的查询词与某些行业类别网站的相关性；其二是通过用户在行业站点中的搜索行为来获取行业需求查询词，以此为训练数据来训练分类模型来获取用户输入的查询词与某些行业类别网站的相关性。上述两种方法由于用户的点击行为存在一定的非理性因素等原因，比如对于一些小众的行业类别，可能不存在用户查询点击的历史记录，或者用户在行业网站内输入了非该行业的查询词，导致基于用户点击行为相关历史数据所建立的模型不够准确，从而导致判断用户输入的查询词与某些行业类别网站的相关性时出现偏差；并且，由于受行业站点自身的限制，使用户点击行为数据获取的代价高昂并且受数据量的限制，用户点击行为数据获取的门槛高，获取方式不够便捷，导致数据难以获取，且不能保证搜索结果中强相关类别对应的搜索结果被优先显示。

发明内容

本申请所要解决的技术问题是提供一种搜索方法和系统，能更客观、更精确、更便捷的分析用户输入的查询词与行业类别的相关性，可更客观、更精确、更便捷与查询词展现相关的搜索结果。

为了解决上述问题，本申请公开了一种搜索方法，其特征在于，包括：

接收用户端输入的查询词，并获取对应的第一初始搜索结果；

利用各分类对应的强相关分类特征集合对所述第一初始搜索结果进行匹配分析，获得所述查询词与各强相关分类特征集合相应分类的相关性分析结果；所述强相关分类特征集合通过通用搜索引擎对随机词集合的搜索结果和分类词集合的搜索结果进行比较处理得到；

当所述查询词与特定分类对应的强相关分类特征集合的相关性分析结果符合判定条件时，则所述查询词与所述强相关分类特征集合相应的分类强相关，从第一初始搜索结果中提取所述分类的搜索结果并展示给用户端。

优选的，所述强相关分类特征集合分别包括一行业类别对应的特征信息；通过如下步骤获取，包括：

获取第二初始搜索结果集合中的特征信息和第三初始搜索结果集合中的特征信息；所述第二初始搜索结果集合通过将随机词集合输入通用搜索引擎获得，所述第三初始搜索结果集合通过将初始分类词集合输入通用搜索引擎获得；

将第二初始搜索结果集合中的各特征信息的出现频率与所述特征信息在第三初始搜索结果集合中的各特征信息的出现频率进行比较分析，并将比较分析对应的特征信息存入与初始分类词集合所在分类相应的强相关分类特征集合。

优选的，所述特征信息包括网址和/或文本信息；所述强相关分类特征集合包括行业类别对应的网址列表和/或语言模型，对应记录所述特征信息。

优选的，将第二初始搜索结果集合中的各特征信息的出现频率与第三初始搜索结果集合中各特征信息的出现频率进行比较分析时：

将第二初始搜索结果集合中各网址的出现频率与所述网址在所述第三初始搜索结果集合中的出现频率进行比较；当比较结果大于强需求阈值时，将所述网址存入与初始分类词集合所在分类相应的强相关分类特征集合；和/或，

将所述第二初始搜索结果集合的文本信息中各词的出现频率与所述词在所述第三初始搜索结果集合的文本信息中的出现频率进行比较，获得各词的比较值；基于所述比较值和相应的词进行处理得到与初始分类词集合所在分类相应的语言模型并存入相应的强相关分类特征集合。

优选的，所述方法还包括：

当所述比较结果小于等于强需求阈值而大于弱需求阈值时，将该网址对应的文本信息的各词在第二初始搜索结果中的出现频率与所述各词在第三初始搜索结果中的出现频率进行比较，当比较结果大于第三强相关阈值时，则将该网址存入与初始分类词集合所在分类相应的强相关分类特征集合。

优选的，利用各分类对应的强相关分类特征集合对所述第一初始搜索结果进行匹配分析时：

将所述第一初始搜索结果中的网址与各强相关分类特征集合中的各网址进行匹配，并统计第一初始搜索结果中网址与各强相关分类特征集合匹配上的总次数；

和/或，将所述第一初始搜索结果的文本信息中的词与各强相关分类特征集合中的语言模型的词进行综合匹配。

优选的，所述方法还包括：

当所述第一初始搜索结果中网址与一强相关分类特征集合匹配上的总次数大于第一强相关阈值时，

和/或，当所述综合匹配的结果大于第二强相关阈值时，则确认所述查询词与所述强相关分类特征集合相应的分类强相关。

优选的，所述从第一初始搜索结果中提取所述分类的搜索结果展示给用户端包括：

将第一初始搜索结果的各条结果逐条与强相关分类集合进行匹配，当一条搜索结果的网址属于强相关分类特征集合中网址列表，和/或，所述搜索结果的综合匹配的结果大于第二强相关阈值，则从第一初始搜索结果中提取该搜索结果；

将提取出的各搜索结果优先展示给用户端。

优选的，所述方法还包括：

当所述查询词与各分类对应的强相关分类特征集合的相关性分析结果均不符合判定条件时，则依据各分类对应的分类词模型判断所述查询词是否属于相应分类；所述各分类对应的分类词模型基于各分类对应的强相关分类特征集合的语言模型构建。

优选的，所述文本信息包括标题信息和/或摘要信息。

相应的本申请还公开了一种搜索系统，包括：

初始搜索模块，用于接收用户端输入的查询词，并获取对应的第一初始搜索结果；

匹配分析模块，用于利用各分类对应的强相关分类特征集合对所述第一初始搜索结果进行匹配分析，获得所述查询词与强相关分类特征集合中相应分类的相关性分析结果；所述强相关分类特征集合通过通用搜索引擎对随机词集合的搜索结果和分类词集合的搜索结果进行比较处理得到；

结果处理模块，用于当所述查询词与特定分类对应的强相关分类特征集合的相关性分析结果符合判定条件时，则所述查询词与所述强相关分类特征集合相应的分类强相关，从第一初始搜索结果中提取所述分类的搜索结果并展示给用户端。

优选的，还包括：

强相关分类特征集合获取模块，用于获取分别包括一行业类别对应的特征信息的强相关分类特征集合；所述模块包括：

特征信息获取子模块，用于获取第二初始搜索结果集合中的特征信息和第三初始搜索结果集合中的特征信息；所述第二初始搜索结果集合通过将随机词集合输入通用搜索引擎获得，所述第三初始搜索结果集合通过将初始分类词集合输入通用搜索引擎获得；

处理子模块，用于将第二初始搜索结果集合中的各特征信息的出现频率与所述特征信息在第三初始搜索结果集合中的出现频率进行比较分析，并将比较分析得到的特征信息存入与初始分类词集合所在分类相应的强相关分类特征集合。

优选的，所述的处理子模块包括：

第一处理子单元，用于将第二初始搜索结果集合中各网址的出现频率与所述网址在所述第三初始搜索结果集合中的出现频率进行比较；当比较结果大于强需求阈值时，将所述网址存入与初始分类词集合所在分类相应的强相关分类特征集合；和/或，

第二处理子单元，用于将所述第二初始搜索结果集合的文本信息中各词的出现频率与所述词在所述第三初始搜索结果集合的文本信息中的出现频率进行比较，获得各词的比较值；基于所述比较值和相应的词进行处理得到语言模型并存入相应的强相关分类特征集合。

优选的，所述处理子模块还包括：

当比较结果小于等于强需求阈值而大于弱需求阈值时，将该网址对应的文本信息的各词在第二初始搜索结果中的出现频率与所述各词在第三初始搜索结果中的出现频率进行比较，当比较结果大于第三强相关阈值时，则将该网址存入与初始分类词集合所在分类相应的强相关分类特征集合。

优选的，所述匹配分析模块包括：

第一分析匹配模块，用于将所述第一初始搜索结果中的网址与各强相关分类特征集合中的各网址进行匹配，并统计第一初始搜索结果中网址与各强相关分类特征集合匹配上的总次数；

和/或，第二分析匹配模块，用于将所述第一初始搜索结果的文本信息中的词与各强相关分类特征集合中的语言模型的词进行综合匹配。

优选的所述结果处理模块包括：

第一结果处理子模块，用于当所述第一初始搜索结果中网址与一强相关分类特征集合匹配上的总次数大于第一强相关阈值时，则确认所述查询词与该分类强相关；

和/或，第二结果处理子模块当所述综合匹配的结果大于第二强相关阈值时，则确认所述查询词与所述强相关分类特征集合相应的分类强相关。

优选的，所述结果处理模块还包括：

第三结果处理子模块，当所述查询词与特定分类对应的强相关分类特征集合的相关性分析结果不符合判定条件时，则依据各分类对应的分类词模型判断所述查询词是否属于相应分类；所述各分类对应的分类词模型基于各分类对应的强相关分类特征集合的语言模型构建。

将提取出的各搜索结果优先展示给用户端。

其中，所述特征信息包括网址和/或文本信息；所述强相关分类特征集合包括行业类别对应的网址列表和/或语言模型，对应记录所述特征信息。

与现有技术相比，本申请包括以下优点：

利用由通用搜索引擎采用随机词集合搜索得到的第二初始搜索结果集合，与由通用搜索引擎采用分类词集合得到的第三初始搜索结果集合，将上述两个搜索结果集合中信息进行比较分析，得到该类别的强相关分类特征集合；对于输入的查询词，将各行业类别对应的强相关分类特征集合与对应所述查询词的初始搜索结果近行匹配分析处理，如果相关性结果符合判断条件，则该查询词与相应行业类别强相关，然后针对该查询词的强相关行业类别进行相应展示。本申请首先利用随机词和分类词的搜索结果进行处理，可以便捷容易的获取数据，建立用于分类的强相关分类特征集合，所以对于数据源没有量的制约；其次，本申请是基于前述搜索结果集合建立的用于分类的强相关分类特征集合，基于搜索引擎客观的搜索结果，并且可以对查询词分类更加准确，从而保证了查询词对应的搜索结果中强相关类别对应的搜索结果被优先显示。

附图说明

图1是本申请一种搜索方法的流程示意图；

图2是本申请获取强相关分类特征集合方法的流程示意图；

图3是本申请一种搜索系统的结构示意图。

具体实施方式

为使本申请的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本申请作进一步详细的说明。

本申请的核心思想之一是，利用随机词集合在通用搜索引擎中的搜索结果，和分类词在通用搜索引擎中的搜索结果，建立多个强相关分类特征集合，所述强相关分类特征集合包括一个行业类别对应的网址列表和/或语言模型，对应记录所述特征信息，即根据各个词与网页相关性得到的搜索结果；然后当用户输入的查询词后，首先获取搜索引擎初步搜索得到的结果，即根据查询词与网络中各网页的相关性得到的搜索结果，然后利用前述得到的各强相关分类特征集合对该搜索结果进行分析，分析查询词与各强相关分类特征集合对应分类的相关性结果，当相关性结果符合判定条件时，则可认为该查询词与该强相关分类特征集合对应的分类强相关。其中，对于分类，一般来说，基本上是全网中基于行业进行分类，如软件、影视、音乐等。

参照图1，示出了本申请一种搜索方法的流程示意图，具体可以包括以下步骤：

步骤110，接收用户端输入的查询词，并获取对应的第一初始搜索结果。

对于通用搜索引擎来说，在接收到用户端输入的查询词后，对其进行分词等操作，然后基于分词结果在索引中查找所有与分词相关的网页及其内容，再进一步对搜索得到的网页及其内容进行后续处理，直至返回用户端进行展示。而本步骤与通用搜索引擎的工作方式基本相同，即将查询词进行分词等操作，然后基于分词结果在索引中查找所有与分词相关的网页及其内容。比如输入“搜狗浏览器下载”，搜索引擎会“搜狗浏览器下载”分词为“搜狗”、“浏览器”、“下载”等词，然后基于这些词联合或者单独在全网中搜索相关的网页及其内容。

对于与搜索引擎查询词相关的各网页及其内容，一般，搜索引擎会按一定的排序规则对各网页及其内容进行排序。本申请可以获取与输入的查询词对应的全部网页及其内容，也可获取排序靠前的大于一定数量的网页及其内容，该数量可以根据实际情况进行限定。

步骤120，利用各分类对应的强相关分类特征集合对所述第一初始搜索结果进行匹配分析，获得所述查询词与强相关分类特征集合中相应分类的相关性分析结果；所述强相关分类特征集合通过通用搜索引擎对随机词集合的搜索结果和分类词集合的搜索结果进行比较处理得到。

在实际中，本申请可预先建立各分类对应的强相关分类特征集合，所述强相关分类特征集合与各分类一一对应，其中的特征信息通过通用搜索引擎对随机词集合的搜索结果和分类词集合的搜索结果进行处理得到，所述特征信息用于判断所述查询词与特定的某一强相关分类特征集合相应分类的相关性。比如建立软件类强相关分类特征集合，影视类强相关分类特征集合，或者是计算机设备类强相关分类特征集合。

优选的，参照图2，其示出了本申请强相关分类特征集合的获取方法流程示意图。

所述各类别强相关分类特征集合通过如下获取步骤包括：

步骤S10，获取第二初始搜索结果集合中的特征信息和第三初始搜索结果集合中的特征信息；所述第二初始搜索结果集合通过将随机词集合输入通用搜索引擎获得，所述第三初始搜索结果集合通过将初始分类词集合输入通用搜索引擎获得。

一般情况下，可先从全网的网络查询日志中随机出一个“随机词集合”，逐个将随机词集合中的词打入通用搜索引擎，得到与随机词相关的搜索结果，比如网页及其内容，然后可获取各条搜索结果中的特征信息，比如网页的网址、网页的标题、网页的摘要等，实际中通过获取网页的URL(统一资源定位符，Uniform/Universal Resource Locator)获取网页的网址。本步骤可在得到每条搜索结果时即可获取该条搜索结果的特征信息，也可在获取到所有条搜索结果时再获取搜索结果中的特征信息，本申请不对其加以限制。

然后，再从全网中的行业网站内取出分类实体名称组成“分类词集合”，比如全网中的若干个行业网站内取出行业实体名称组成“行业分类词集合”，打入通用搜索引擎，得到与分类词相关的搜索结果，比如网页及其内容，然后可获取各条搜索结果中的特征信息，比如网页的网址、网页的标题、网页的摘要等，实际中通过获取网页的URL(统一资源定位符，Uniform/Universal Resource Locator)获取网页的网址。本步骤可在得到每条搜索结果时即可获取该条搜索结果的特征信息，也可在获取到所有条搜索结果时再获取搜索结果中的特征信息，本申请不对其加以限制。具体比如，在软件类别的行业网站“天空下载”：http://www.skycn.com/等网站中的软件下载排行榜抓取“迅雷7”、“腾讯QQ 2011”等特征词作为软件类的初始分类词，打入搜索引擎，从对应的搜索结果中获取上述信息。

步骤S20，将第二初始搜索结果集合中的各特征信息的出现频率与所述特征信息在第三初始搜索结果集合中的出现频率进行比较分析，并将比较分析对应的特征信息存入与初始分类词集合所在分类相应的强相关分类特征集合。

在前述步骤获取到第二初始搜索结果集合中的特征信息和第三初始搜索结果集合中的特征信息后，可计算相同特征信息在各自集合的特征信息中出现的概率，然后将两者进行比较分析，然后再将比较分析结果与初始分类词集合所在分类相应的强相关分类特征集合。在实际中，所述的特征信息包括文本信息和/或网址信息。所述的强相关分类特征集合包括行业类别对应的语言模型和/或网址列表，对应记录文本信息和/或网址。

优选的，将第二初始搜索结果集合中的各特征信息的出现频率与第三初始搜索结果集合中的特征信息的出现频率进行比较分析时包括：

步骤R21，将第二初始搜索结果集合中各网址的出现频率与所述网址在所述第三初始搜索结果集合中的出现频率进行比较；

将第二初始搜索结果中的网址i的出现频率与该网址i在第三初始搜索结果的出现频率进行比较，一般情况下，可求上述两者的比值P，P＝第三初始搜索结果中网址i的出现频率/第二初始搜索结果中网址i的出现频率。

步骤R22，当比较结果大于强需求阈值时，将所述网址存入与初始分类词集合所在分类相应的强相关分类特征集合。

比如，当上述P值大于强需求阈值时，则将相应网址i存入行业类别强相关分类特征集合，比如如果初始分类词为软件类时，若www.sogou.com的 P值大于强需求阈值，可将www.sogou.com加入软件类对应的强相关分类特征集合。如果初始分类词为影视类时，若http://www.ku6.com的P值大于某强需求阈值，则可将www.ku6.com加入影视类对应的强相关分类特征集合。其中所述强需求阈值可根据实际精度需求设置。本申请中强需求阈值的设置原则可以根据需求不同进行设定，如对精度要求高的需求则设置较高的阈值，对于召回要求高的需求则设置较低的阈值，通常可用已有的算法对查询词进行匹配，得到每一个查询词和该词对应的结果匹配次数，然后判断所有查询词的意图，之后再依照需求的精度反向计算出强需求阈值。

另外，优选的，将第二初始搜索结果集合中各网址的出现频率与所述网址在所述第三初始搜索结果集合中的出现频率进行比较，还包括：

步骤R23，当比较结果小于等于强需求阈值而大于弱需求阈值时，将该网址对应的文本信息的各词在第二初始搜索结果中的出现频率与所述各词在第三初始搜索结果中的出现频率进行比较，当比较结果大于第三强相关阈值时，则将该网址存入与初始分类词集合所在分类相应的强相关分类特征集合。

比如词m在第三初始搜索结果中的出现频率/词m在第二初始搜索结果中的出现频率＝L，L值大于第三相关阈值时，则可将该网址存入相应强相关分类特征集合。所述第三相关阈值也可根据实际需求设置。

其中，所述的网址可包括网站的域名，也可包括该网站的二级目录或者某些格式的模板链接。

在实际中，对于第二初始搜索结果集合中各网址的出现频率与所述网址在第三初始搜索结果集合中的出现频率对应的比较结果小于等于强需求阈值而大于弱需求阈值时的情况，对于所述网址对应的文本信息的词m在第二初始搜索结果中的出现频率与词m在第三初始搜索结果中的出现频率的比较结果大于某一阈值时，也可不将其与初始分类词集合所在分类相应的强相关分类特征集合，并将其单独存入一个中等相关分类特征集合，并以所述网址对应的文本信息的词m在第二初始搜索结果中的出现频率与词m在第三初始搜索结果中的出现频率的比较结果作为该网址的比较值，然后在后续分析一查询词与该分类的相关性时将该中等相关分类特征集合作为辅助评判集合。

和/或，步骤Q21，将所述第一初始搜索结果的文本信息中的词与各强相关分类特征集合中的语言模型的词进行综合匹配。

即将所述第二初始搜索结果集合中的文本信息中词j的出现频率与该词j在所述第三初始搜索结果集合中的文本信息的出现频率进行比较，获得词j的比较值。一般情况下，可求上述两者的比值P作为词j的比较值，P＝第三初始搜索结果中文本信息中词j的出现频率/第二初始搜索结果中各文本信息中词j的出现频率。实际中，所述文本信息包括标题信息和/或摘要信息。

步骤Q22，将所述比较值进行处理得到语言模型并与初始分类词集合所在分类相应的强相关分类特征集合。

对于网页来说，本申请优选的获取网页的标题信息、和/或摘要信息。本申请可单独对标题信息或摘要信息通过各种建模方法建立语言模型，也可将标题信息和摘要信息通过各种建模方法一起建立语言模型，用来对后续的词进行分析处理。

然后将P值作为该词j的比较值与该词j一起作为数据处理得到语言模型，并存入与初始分类词集合所在分类相应的强相关分类特征集合。

然后，即可利用强相关分类特征集合中的特征信息对所初始述搜索结果进行匹配分析，获得所述查询词与相应分类的相关性分析结果。

优选的，利用强相关分类特征集合中的特征信息对所初始述搜索结果进行匹配分析包括：

步骤S30，将所述第一初始搜索结果中的网址与各强相关分类特征集合中的各网址进行匹配，并统计第一初始搜索结果中网址与各强相关分类特征集合匹配上的总次数。

将用户端输入的查询词进行分词等操作，获取到第一初始搜索结果中各与该分词相关的各网页及其内容后，可提取各条结果逐条与各分类对应的强相关分类特征集合中的网址进行匹配，当对某一个强相关分类特征集合匹配上一个，即记录与该强相关分类特征集合匹配上一次，然后统计与该强相关分类特征集合匹配上的总次数。比如第一初始搜索结果中的各URL中出现了50个与www.sogou.com相关的链接，而软件类的强相关分类特征集合中包括了www.sogou.com这个网址或者说存入了与前述相同www.sogou.com相关的链接，那么第一初始搜索结果中有50个与www.sogou.com相关的条目匹配成功，或者直接将各相关链接与所述集合中的链接进行完整匹配，如果都匹配上，则可统计该查询词的第一初始搜索结果与软件分类的强相关分类特征集合网址的匹配次数为50次。

即可统计搜索结果与该强相关分类特征集合中网址的匹配次数为50次。

和/或，步骤S40，将所述第一初始搜索结果的文本信息中的词与各强相关分类特征集合中的语言模型的词进行综合匹配。

在搜索引擎将用户端输入的查询词进行分词等操作，获取到第一初始搜索结果中与该分词相关的各网页及其内容后，可提取各网页的网页内容中的文本信息的词与各相关分类特征模型的语言模型中的词进行匹配分析。在前述例子中，对于软件类强相关分类特征集合的语言模型中包括了软件类各词的比较值，比如“搜狗”0.9分，“浏览器”0.7分，“下载”0.6分，如果获取到第一初始搜索结果中某条目的文本信息含有“搜狗”、“浏览器”和“下载”，那么将该条目的文本信息与所述语言模型中的词进行匹配分析，得到该条目对应的文本信息的总比较值为2.2分。在本申请中，一般对于一个网页的文本信息，分析该文本信息的总比较值。

另外，对于网页来说，本申请优选的获取网页的标题信息、和/或摘要信息作为文本信息，根据语言模型的建立情况，可单独将标题信息与标题语言模型进行匹配，或单独将摘要信息与摘要语言模型进行匹配，也可将标题信息和摘要信息作为整体与整体的语言模型进行匹配。

另外，还包括：步骤S50，当所述查询词与各分类对应的强相关分类特征集合的相关性分析结果均不符合判定条件时，则依据各分类对应的分类词模型判断所述查询词是否属于相应分类；所述各分类对应的分类词模型基于各分类对应的强相关分类特征集合的语言模型构建，所述分类词模型用于判断所述查询词是否属于相应分类。

比如，如果存在10个行业类别对应的强相关分类特征集合，即10个强相关分类特征集合。对于用户输入的查询词A，通过前述步骤，查询词A与所述10个强相关分类特征集合的相关性分析结果均不符合判定条件时。比如查询词A对应的搜索结果中的网址与各强相关分类特征集合的网址的匹配总次数均小于等于第一强相关阈值，且查询词A对应的搜索结果中的文本信息与每个强相关分类特征集合的语言模型的综合匹配结果均小于等于第二强相关阈值，那么就无法判断查询词A与哪一个强相关分类特征集合强相关，即查询词A近似于中性词，不属于多数行业类别，此时就可采用本步骤进行辅助判断。

本申请可预先根据获取的分类词，比如行业分类词，通过比如n-gram(大词汇连续语音识别中常用的一种语言模型)，贝叶斯，crf(条件随机域模型)等方法构建分类词模型。然后基于该分类词模型判断查询词与相应分类的关系。比如当前建立了一个软件类别分类词模型，对于查询词“海豚浏览器下载”，由于某些原因搜索结果并不是很准确，即所述相关性结果不符合判定条件时，本申请可以以已知的分类词来建立分类词模型，来预测这个词是否是这个行业类别的查询，比如“浏览器”在正例(即软件分类词集合)中出现的概率是0.09，负例(非软件分类词集合)中是0.02，“海豚”在正例中的概率是0.04，在负例中是0.08，“下载”在正例中的概率是0.1，在负例中是0.04，由此我们可以计算出(0.09*0.04*0.1)/(0.02*0.08*0.04)＝5.625，大于我们规定的第二强相关阈值，可以得出这个查询词很有很大的概率就是软件行业查询词，所以可以给第一初始搜索结果中的软件类网站加权，来弥补搜索结果不准确的问题或者说相关性结果不符合判定条件时的问题。

其中，对于分类词模型的构建，是基于对应的强相关分类特征集合的语言模型构建，比如软件类别的分类词模型，那么通过前述步骤建立软件类别强相关分类特征集合时，即获得了该类别的语言模型，该语言模型中包括了词及该词的比较值，那么该语言模型中大于一定阈值的词即可作为软件类别的分类词。更进一步的，基于将已知的分类词作为种子，通过迭代的方式获取更完善的分类词：优选的，所述分类词可通过以下步骤获取：

步骤S51，当某类别对应的强相关分类特征集合的语言模型中某词的比较值大于第四强相关阈值时，将该词作为分类词，并将该词再次在搜索引擎中进行搜索，获取与该词相关的搜索结果。

比如前述说明中对于语言模型中，各词具有一个比较值，当词i的比较值大于一定阈值时，即可将其作为相应分类的分类词加入相应分类的分类词集合。

步骤S52，将所述搜索结果中文本信息中除查询词外未出现过的新词与所述强相关分类特征集合中的语言模型进行综合匹配，当匹配得到的计算结果大于第四强相关阈值时，将所述新词加入分类词。

将该分类词集合中的分类词逐个打入本系统的搜索引擎中，通过前述步骤获取各网页的文本信息，将该文本信息的词通过前述语言模型进行匹配分析，对于比较值继续大于所述第四强相关阈值的新词，将该新词作为分类词加入分类词集合，从而建立分类词模型。

本申请也可将所述分类词集合中的分类词作为种子词打入通用搜索引擎，获取对应搜索结果集合中的特征信息，并再随机选取一批随机词打入通用搜索引擎获取搜索结果集合中的特征信息；然后再进行步骤S20对上述两份搜索结果集合中的各特征信息的出现频率进行比较分析，从而形成迭代过程。如此迭代处理，可对强相关分类特征集合进行进一步优化处理，并且同时也可优化分类词模型。

本过程利用搜索结果获取到的符合阈值条件的分类词，然后再用该结果中的分类词进行迭代获取，可保证分类词的客观性和及时性，从而使基于该分类词集合建立的分类词模型更加准确。

步骤130，当所述查询词与特定分类对应的强相关分类特征集合的相关性分析结果符合判定条件时，则所述查询词与所述强相关分类特征集合相应的分类强相关，从第一初始搜索结果中提取所述分类的搜索结果并优先展示给用户端。

当判断出查询词与某个分类强相关，即判断出用户的意图时候，我们可以更针对性的去满足用户的需求，比如可以提升该类别的强相关网站的权重，或者对该类别的强相关网站进行聚合，或者把该类别的强相关网站明确的标识出来，或者解析该类别的强相关网站内容并做结构化展示等。

相应的，当相关性结果符合判定条件时，则所述查询词与所述强相关分类特征集合相应的分类强相关，从第一初始搜索结果中提取所述分类的搜索结果并展示给用户端时包括：

步骤S31，当所述第一初始搜索结果中网址与一强相关分类特征集合匹配上的总次数大于第一强相关阈值时，则确认所述查询词与所述强相关分类特征集合相应的分类强相关。

对于第一初始搜索结果中各网址与某强相关分类特征集合中强相关网址的匹配总次数，当该次数大于第一强相关阈值，即可确认当前查询词与所述强相关分类特征集合相应类别强相关，即与相应分类强相关。其中，所述第一强相关阈值可根据实际情况设置。

和/或，步骤S41，当所述综合匹配的结果大于第二强相关阈值时，则确认所述查询词与该分类强相关。

比如前述的文本信息匹配的总比较值大于第二强相关阈值时，也可确认当前查询词与相应类别强相关。其中，所述第二强相关阈值可根据实际情况设置。

优选的，所述从第一初始搜索结果中提取所述分类的搜索结果并展示给用户端包括：

将第一初始搜索结果的各条结果逐条与强相关分类集合进行匹配，当一条搜索结果的网址属于强相关分类特征集合中网址列表，和/或，所述一条搜索结果的综合匹配的结果大于第二强相关阈值时则从第一初始搜索结果中提取该搜索结果；

将提取出的各条搜索结果优先展示给用户端。

比如，对于用户输入的“搜狗浏览器下载”，将该查询词对应的第一初始搜索结果中的各网址与软件类的强相关分类特征集合的各网址进行匹配，从第一初始搜索结果中将匹配成功的网址对应的搜索结果进行提取，并将提取得到的搜索结果优先展示给客户端。

比如，对于查询词A，如果其搜索结果有100条，那么这些搜索结果逐条与相应强相关分类特征集合进行匹配，匹配成功则将其进行标记或者直接提取。进一步的说，逐条将搜索结果的网址和相应强相关分类特征集合的网址，和/或逐条将搜索结果的词和相应强相关分类特征集合的语言模型进行综合匹配，当匹配上则标记或者直接提取该条搜索结果，然后将匹配上相应强相关分类特征集合的搜索结果优先展示给用户端，从而保证了查询词对应的搜索结果中强相关类别对应的搜索结果被优先显示。

对于确认与用户端输入的查询词强相关的分类，可将第一初始搜索结果中的相应分类的网页及其内容整理展示给用户端，即分析出用户的客观需求后进行针对性的展示。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。

参照图3，其示出了本申请一种搜索系统的结构示意图，具体可以包括：

初始搜索模块310，用于接收用户端输入的查询词，并获取对应的第一初始搜索结果；

匹配分析模块320，用于利用各分类对应的强相关分类特征集合对所述第一初始搜索结果进行匹配分析，获得所述查询词与强相关分类特征集合中相应分类的相关性分析结果；所述强相关分类特征集合通过通用搜索引擎对随机词集合的搜索结果和分类词集合的搜索结果进行比较处理得到；

结果处理模块330，用于当所述查询词与特定分类对应的强相关分类特征集合的相关性分析结果符合判定条件时，则所述查询词与所述强相关分类特征集合相应的分类强相关，从第一初始搜索结果中提取所述分类的搜索结果并展示给用户端。

还包括：强相关分类特征集合获取模块340，用于获取分别包括一行业类别对应的特征信息的强相关分类特征集合；所述模块包括：

所述的处理子模块包括：

优选的，所述处理子模块还包括：

优选的，所述匹配分析模块320包括：

优选的，所述结果处理模块330包括：

所述结果处理模块330还包括：

对于系统实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。

以上对本申请所提供的一种搜索方法和系统，进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种搜索方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述强相关分类特征集合分别包括一行业类别对应的特征信息；通过如下步骤获取，包括：

3.根据权利要求2所述的方法，其特征在于：

所述特征信息包括网址和/或文本信息；所述强相关分类特征集合包括行业类别对应的网址列表和/或语言模型，对应记录所述特征信息。

4.根据权利要求3所述的方法，其特征在于，将第二初始搜索结果集合中的各特征信息的出现频率与第三初始搜索结果集合中各特征信息的出现频率进行比较分析时：

5.根据权利要求4所述的方法，其特征在于，所述方法还包括：

6.根据权利要求3、4或5所述的方法，其特征在于，利用各分类对应的强相关分类特征集合对所述第一初始搜索结果进行匹配分析时：

7.根据权利要求6所述的方法，其特征在于，所述方法还包括：

8.根据权利要求6所述的方法，其特征在于，所述从第一初始搜索结果中提取所述分类的搜索结果并展示给用户端包括：

将提取出的各搜索结果优先展示给用户端。

9.根据权利要求4所述的方法，其特征在于，所述方法还包括：

10.根据权利要求6所述的方法，其特征在于：

所述文本信息包括标题信息和/或摘要信息。

11.一种搜索系统，其特征在于，包括：

12.根据权利要求11所述的系统，其特征在于，还包括：

13.根据权利要求12所述的系统，其特征在于，所述的处理子模块包括：