CN103246681A

CN103246681A - 一种搜索方法及装置

Info

Publication number: CN103246681A
Application number: CN2012100315233A
Authority: CN
Inventors: 路彦雄; 杨月奎; 王亮; 焦峰
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Shenzhen Shiji Guangsu Information Technology Co Ltd
Priority date: 2012-02-13
Filing date: 2012-02-13
Publication date: 2013-08-14
Anticipated expiration: 2032-02-13
Also published as: CN103246681B; US20140358914A1; WO2013120373A1; US9317590B2

Abstract

本发明实施例公开了一种搜索方法，包括：获取待搜索信息的所有关联文档；基于词匹配算法及语义匹配算法，计算每一个关联文档与所述待搜索信息的相关度；根据计算得到的相关度对所有关联文档进行排序处理，并显示排序结果。本发明实施例还公开了一种搜索装置。本发明综合考虑词与词的匹配，以及词与词之间的语义关系的匹配，获得准确的相关度计算结果，为用户提供理想的搜索结果，提高用户的满意度。

Description

一种搜索方法及装置

技术领域

本发明涉及计算机网络搜索技术领域，尤其涉及一种搜索方法及装置。

背景技术

目前，传统的搜索方案主要为：根据用户输入待搜索信息在网络中查找所有的关联文档，依据一定的算法规则计算每个关联文档与待搜索信息的关联程度，基于关联程度的高低对所有关联文档进行排序处理，将排序结果作为搜索结果返回给用户。上述可知，关联程度的高低直接影响关联文档的排序结果，直接影响用户的搜索结果，而关联程度的高低一般采用相关度评分直观反映。

传统的搜索方案中，通常采用词匹配算法进行相关度计算，例如采用BM25(Best Match，最佳匹配)算法、proximity(Term proximity scoring，词近邻得分)算法等等进行相关度评分，相关度评分越高，表明关联程度越强。以基于BM25算法的搜索方案进行说明，如下：假设用户输入的待搜索信息为“中国的首都”，根据BM25算法的相关度评分原则，关联文档中必须出现“中国”、“首都”，才能够获得相应的相关度评分，否则该关联文档的相关度评分则为0；例如：其中一个关联文档为：“北京，它是一座有着3000多年的建城史，850多年的建者史的历史文化名城；是全国政治、文化中心，也是全国最大的陆空产通枢纽”，根据上述传统的搜索方案，该关联文档的相关度评分为0，表明与待搜索信息不相关，然而，从语义关系来看，该关联文档与待搜索信息的相关性实际上是十分好的。经过排序处理后，该关联文档可能排列于较后的搜索结果页面中，不利于用户的查看。上述例子可知，传统的搜索方案仅仅基于词进行相关度的匹配，并未考虑词与词之间的语义关系，可能造成相关度计算结果的不准确，影响搜索结果的排列顺序，降低用户对搜索结果的满意度，降低用户的搜索体验。

发明内容

本发明实施例所要解决的技术问题在于，提供一种搜索方法及装置，能够获得更准确的搜索结果。

一方面，本发明实施例提供了一种搜索方法，包括：

获取待搜索信息的关联文档；

基于词匹配算法及语义匹配算法，计算获取到的每一个关联文档与所述待搜索信息的相关度；

根据计算得到的相关度对获取到的关联文档进行排序，并显示排序结果。

另一方面，本发明实施例还提供了一种搜索装置，包括：

搜索模块，用于获取待搜索信息的关联文档；

计算模块，用于基于词匹配算法及语义匹配算法，计算所述搜索模块获得的每一个关联文档与所述待搜索信息的相关度；

排序模块，用于根据所述计算模块计算得到的相关度对所述搜索模块获得的所有关联文档进行排序处理；

显示模块，用于显示所述排序模块获得的排序结果。

实施本发明实施例，具有如下有益效果：

本发明实施例结合词匹配算法及语义匹配算法，综合考虑词与词的匹配，以及词与词之间的语义关系的匹配，获得每一个关联文档与待搜索信息之间较为准确的相关度，基于该相关度进行排序并显示排序结果，可以为用户提供理想的搜索结果，使得用户可以从显示的搜索结果中快速获得相关度较高的关联文档，满足自己实际的搜索需求，提高了搜索效率，从而提高了用户的满意度。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明提供的搜索方法的一个实施例的流程图；

图2为图1所示步骤S102的具体流程图；

图3为本发明提供的IDF表的示意图；

图4为本发明提供的MI表的示意图；

图5为图1所示步骤S103的具体流程图；

图6为本发明提供的搜索装置的一个实施例的结构示意图；

图7为图6所示的计算模块的实施例的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提供的方案中，搜索装置可以基于词匹配以及词与词之间的语义匹配算法，计算待搜索信息的所有关联文档的相关度，并根据该相关度进行排序和显示，使得用户可以从显示的搜索结果中快速获得相关度较高的关联文档，满足自己的搜索需求，提高搜索效率。

其中，所述待搜索信息可以为用户输入的搜索关键词句，其可以用query(查询)表示。所述关联文档可以为：基于用户输入的搜索关键词句，利用现有的网络搜索技术获得的搜索结果中包含的文档，其可以用document(文档)表示。

所述词匹配算法是指搜索过程基于词进行匹配，其可以为：BM25算法、proximity等算法，除特别说明外，本发明实施例以BM25算法为例进行说明。所述语义匹配算法是指搜索过程基于词与词之间的语义关系进行匹配，也即，搜索过程基于词与词之间的互信息进行匹配。所谓MI(Mutual Information，互信息)，是对两个随机变量的关联程度的描述，在文本处理中，MI用来衡量两个词的相关度，两个词的MI越大，表示该两个词的关联程度越强。

下面将结合附图1-附图5，对本发明实施例提供的搜索方法进行详细介绍。

请参见图1，为本发明提供的搜索方法的一个实施例的流程图；该方法包括：

S101，获取待搜索信息的关联文档。本步骤可以参照现有技术，在此不赘述。

S102，基于词匹配算法及语义匹配算法，计算获取到的每一个关联文档与所述待搜索信息的相关度。

本步骤中，每一个关联文档与待搜索信息的相关度的评分可以由两部分组成，一部分是基于词匹配算法获得的关联评分，另一部分是基于语义匹配算法获得的关联评分。实际应用中，可以根据具体情况，预先设置两部分关联评分的权重，使得加权后的两部分关联评分所组成的相关度评分更能准确体现关联文档与待搜索信息的关联程度。

S103，根据计算得到的相关度对获取到的关联文档进行排序处理，并显示排序结果。

本步骤中，可以按照每个关联文档与待搜索信息的相关度评分由高至低的顺序，对搜索得到的所有关联文档进行排序和显示，使得显示在前的始终为与待搜索信息较相关的关联文档，从而使得用户可以从显示的搜索结果中快速获得相关度较高的关联文档，满足自己的搜索需求，提高搜索效率。可以理解的是，本步骤也可以采用其他顺序进行排序处理，例如按照相关度评分由低至高的顺序，或者设置一部分按照相关度评分由低至高的顺序，一部分按照相关度评分由高至低的顺序，等等。

请参见图2，为图1所示步骤S102的具体流程图；该步骤S102包括：

S211，对所述待搜索信息进行向量化处理，获得m个向量t_i。

本步骤中，对待搜索信息进行向量化处理，即是利用分词技术，对待搜索信息进行分词处理，将待搜索信息分割成m个词组成，可以表示为t₁至t_m，其中，m和i均为正整数，且1≤i≤m。

S212，对获取到的每一个关联文档进行向量化处理，获得每一个关联文档所对应的n个向量d_j。

本步骤中，对获取到的所有关联文档中的每一个文档进行向量化处理，即是利用分词技术，对每一个关联文档进行分词处理，将该关联文档分割成n个词组成，可以表示为d₁至d_n，其中，n和j均为正整数，且1≤j≤n。

需要说明的是，步骤S211与步骤S212在时序上不分先后，例如也可以先执行步骤S212，再执行步骤S211。步骤S211-步骤S212中的向量化处理过程可以参照现有技术，在此不赘述。

S213，基于词匹配算法，计算得到每一个关联文档与所述待搜索信息的关联评分S₁。

本步骤中，词匹配算法的公式可以为：

S_{1} = Σ_{i = 1}^{m} (\frac{{qtf}_{i}}{k_{3} + {qtf}_{i}}) \times (\frac{(k_{1} + 1) \times {tf}_{i}}{k \times (1 - b + b \frac{l}{avdl}) + {tf}_{i}}) \log (w_{i})

其中，参数k₁、k₃、k、b为调节因子，可以起到平滑数据的作用；具体实现中，参数k₁、k₃、k、b为常数，其具体取值可以根据实际情况或经验值由用户进行设定；

qtf_i为第i个向量t_i在所述待搜索信息中的词频，即向量t_i在所述待搜索信息中出现的次数；

tf_i为向量t_i在所述关联文档中的词频，即向量t_i在相应的关联文档中出现的次数；

l为所述关联文档的长度，根据步骤S212中的向量化处理结果，l的值为n；

avdl为所有关联文档的平均长度；

w_i为向量t_i的权重，w_i一般为IDF(Inverse document frequency，逆文档频率)值，其可以通过以下公式计算得到，该计算公式如下：

w_{i} = \log \frac{H - {htf}_{i} + 0.5}{{htf}_{i} + 0.5}

其中，H为所有关联文档的个数，htf_i为向量t_i在获取到的所有关联文档中的词频。

本发明实施例中，在搜索过程执行之前，可以将网络中各个向量(词)的权重(IDF值)预先计算出来并进行存储，例如可以采用表的形式存储各向量的权重。请一并参见图3，为本发明提供的IDF表的示意图，图3所示例子中的IDF表中存储了各向量的权重，可以理解的是，图3所示例子的IDF表以及表中各项均为举例。

步骤S213中，可直接从预设的IDF表中读取到待搜索信息中的各向量的权重，并根据步骤S211和步骤S212所得到的数据，计算获得词匹配算法所需的各参数，代入上述词匹配算法的计算公式中计算，得到所述关联文档与所述待搜索信息的关联评分S₁。

S214，基于语义匹配算法，计算得到每一个关联文档与所述待搜索信息的关联评分S₂。

本步骤中，所述语义匹配算法的公式可以为：

S_{2} = Σ_{i = 1}^{m} Σ_{j}^{n} \frac{1}{k_{3} + 1} \times (\frac{k_{1} + 1}{k \times (1 - b + b \frac{l}{avdl})}) mi (t_{i}, d_{j})

l为相应关联文档的长度，根据步骤S212中的向量化处理结果，l的值为n；

avdl为获取到的所有关联文档的平均长度；

mi(t_i，d_j)为向量t_i与向量d_j的互信息，实际应用中，向量t_i与向量d_j的互信息的计算公式可以为：

mi (t_{i}, d_{j}) = \log \frac{p (t_{i}, d_{j})}{p (t_{i}) p (d_{j})}

其中，

c(t_i，d_j)表示在网络中，向量t_i与向量d_j同时出现在同一篇文档中的次数；

c(t_i)表示在网络中，向量t_i出现的次数；

c(d_j)表示在网络中，向量d_j出现的次数。

本发明实施例中，在搜索过程执行之前，可以将网络中各个向量(词)与各个向量之间的互信息预先计算出来并进行存储，例如可以采用表的形式存储各向量之间的互信息。请一并参见图4，为本发明提供的MI表的示意图；图4所示例子中的MI表中存储了各向量之间的互信息，可以理解的是，图4所示例子的MI表以及表中各项均为举例。

步骤S214中，可直接从预设的MI表中读取到所述待搜索信息中的各向量与所述关联文档的各向量的互信息，并根据步骤S211和步骤S212所得到的数据，计算获得语义匹配算法所需的各参数，代入上述语义匹配算法的计算公式中计算，得到所述关联文档与所述待搜索信息的关联评分S₂。

需要说明的是，步骤S213与步骤S214在时序上不分先后，例如也可以先执行步骤S214，再执行步骤S213。

S215，根据公式S＝α×S₁+(1-α)×S₂，计算得到每一个关联文档与所述待搜索信息的相关度S。

其中，α为预设的权重，且0＜α＜1。实际应用中，可以根据具体情况设置α的值，使得加权后的S₁和S₂所组成的相关度评分S更能准确体现该关联文档与待搜索信息的关联程度。需要说明的是，S的值越大，表明该关联文档与所述待搜索信息的关联程度越强。

请参见图5，为图1所示步骤S103的具体流程图；该步骤S103包括：

S311，根据每一个关联文档与所述待搜索信息的相关度，按照相关度从高至低的顺序对所有关联文档进行排序。

S312，显示排序后的所有关联文档。

经步骤S311排序处理之后，各关联文档按照相关度由高至低的顺序进行排列，步骤S312则显示按照相关度由高至低的顺序排列的关联文档，使得用户可以从显示的搜索结果中快速获得相关度较高的关联文档，满足自己的搜索需求，提高搜索效率。

下面将结合一个具体示例，详细阐述上述图1-图5所示例子中的搜索方法。

假设用户想要查询关于XX牌手机的一些资讯介绍，可以在搜索引擎中输入的待搜索信息为：“XX牌手机性价比”；经步骤S101搜索后，总共获得三个关联文档，包括：

关联文档1：XX牌的手机性价比都很不错的，而且XX牌手机很耐用的；

关联文档2：我是XX牌手机的忠实玩友，喜欢玩XX牌手机，刷机呀，下载程序呀，游戏呀各方面，觉得XX牌手机的各种软件都比较多比较全，所以一直玩到现在；

关联文档3：符合你要求的机型非常多，给你几个参考：1、直板商务新机A，2.4寸全键盘，金属机身，500万像素，带WIFI，全面支持导航系统；2、全触摸娱乐街机B，3.2的1600万色屏，支持WIFI，320万像素，支持导航系统且带车载架；3、传统直板机C，功能同B，但更薄、轻，2.2寸屏，500万像素。

步骤S211对待搜索信息进行向量化处理，得到获得m个向量t_i，具体如下：XX牌\手机\性价比。其中，m＝3，t₁为“XX牌”，t₂为“手机”，t₃为“性价比”。

步骤S212对任一个关联文档进行向量化处理，以关联文档1为例，经步骤S212的向量化处理后，获得n个向量d_j，具体如下：XX牌\的\手机\性价比\都\很\不错\的\，\而且\XX牌\手机\很\耐用\的。其中，n＝15，d₁为“XX牌”，d₂为“的”，d₃为“手机”，d₄为“性价比”，d₅为“都”，d₆为“很”，d₇为“不错”，d₈为“的”，d₉为“，”，d₁₀为“而且”，d₁₁为“XX牌”，d₁₂为“手机”，d₁₃为“很”，d₁₄为“耐用”，d₁₅为“的”。

步骤S213中，可分别统计出向量t_i在所述待搜索信息中的词频qtf_i分别为：t₁为1，t₂为1，t₃为1。向量t_i在所述关联文档中的词频tf_i分别为：t₁为2，t₂为2，t₃为1。l为关联文档1的长度15。avdl为三个关联文档的平均长度。可以从图3所示的预设的IDF表中读取待搜索信息中的各向量的权重分别为：w₁为8.435292，w₂为5.256969，w₃为8.952069。基于词匹配算法的计算公式，计算得到所述关联文档与所述待搜索信息的关联评分S₁。

步骤S214中，可以从图4所示的预设的MI表中读取到所述待搜索信息中的各向量与所述关联文档的各向量的互信息。基于语义匹配算法的计算公式，计算得到所述关联文档与所述待搜索信息的关联评分S₂。

步骤S215中，可以根据实际需要设定α为，例如α为0.4，从而利用α对S₁和S₂加权求和，计算得到关联文档1与所述待搜索信息的相关度S为1.759。

重复上述步骤S211-步骤S215，分别获得关联文档2与所述待搜索信息的相关度S为4.509；关联文档3与所述待搜索信息的相关度S为10.403。

步骤S311按照相关度由高至低的顺序对关联文档1-3进行排序，形成“关联文档3-关联文档2-关联文档1”的排列。步骤S312向用户显示步骤S311所获得的排列。

经过上述各步骤的处理，用户可以从显示的搜索结果中最首位获得最相关的关联文档3，无需再进行查找即可满足自己的实际的搜索需求，提高了搜索效率。

对应于上述附图1-附图5任一实施例所述的搜索方法，下面将结合附图6-附图7，对本发明实施例提供的搜索装置进行详细介绍，下述实施例的装置可以应用于上述方法实施例中。

请参见图6，为本发明提供的搜索装置的一个实施例的结构示意图；该装置包括：

搜索模块101，用于获取待搜索信息的关联文档。搜索模块101的具体搜索过程可以参照现有技术，在此不赘述。

计算模块102，用于基于词匹配算法及语义匹配算法，计算所述搜索模块101获得的每一个关联文档与所述待搜索信息的相关度。

本实施例中，每一个关联文档与待搜索信息的相关度的评分可以由两部分组成，一部分是基于词匹配算法获得的关联评分，另一部分是基于语义匹配算法获得的关联评分。实际应用中，可以根据具体情况，预先设置两部分关联评分的权重，使得加权后的两部分关联评分所组成的相关度评分更能准确体现关联文档与待搜索信息的关联程度。

排序模块103，用于根据所述计算模块102计算得到的相关度对所述搜索模块获得的关联文档进行排序。

排序模块103可以按照计算模块102计算获得的每个关联文档与待搜索信息的相关度评分由高至低的顺序，对搜索得到的所有关联文档进行排序，也可以采用其他顺序进行排序处理，例如按照相关度评分由低至高的顺序，或者设置一部分按照相关度评分由低至高的顺序，一部分按照相关度评分由高至低的顺序，等等。

显示模块104，用于显示所述排序模块103获得的排序结果。

显示模块104按照排序模块103获得的排序结果进行显示，使得显示在前的始终为与待搜索信息较相关的关联文档，从而使得用户可以从显示的搜索结果中快速获得相关度较高的关联文档，满足自己的搜索需求，提高搜索效率。

请参见图7，为图6所示的计算模块的实施例的结构示意图，该计算模块102包括：

第一向量化处理单元211，用于对所述待搜索信息进行向量化处理，获得m个向量t_i。

第一向量化处理单元211对待搜索信息进行向量化处理，即是利用分词技术，对待搜索信息进行分词处理，将待搜索信息分割成m个词组成，可以表示为t₁至t_m，其中，m和i均为正整数，且1≤i≤m。第一向量化处理单元211的具体处理过程可以参照现有技术，在此不赘述。

第二向量化处理单元212，用于对所述搜索模块获得的每一个关联文档进行向量化处理，获得每一个关联文档所对应的n个向量d_j。

第二向量化处理单元212对关联文档进行向量化处理，即是利用分词技术，对关联文档进行分词处理，将该关联文档分割成n个词组成，可以表示为d₁至d_n，其中，n和j均为正整数，且1≤j≤n。第二向量化处理单元212的具体处理过程可以参照现有技术，在此不赘述。

词匹配计算单元213，用于基于词匹配算法，计算得到所述第二向量化处理单元212处理后的关联文档与所述待搜索信息的关联评分S₁。

词匹配计算单元213可直接从图3所示例子中的预设的IDF表中读取到待搜索信息中的各向量的权重，并根据第一向量化处理单元211和第二向量化处理单元212所得到的数据，计算获得词匹配算法所需的各参数，基于词匹配算法的计算公式，计算得到所述关联文档与所述待搜索信息的关联评分S₁。

语义匹配计算单元214，用于基于语义匹配算法，计算得到所述第二向量化处理单元212处理后的关联文档与所述待搜索信息的关联评分S₂。

语义匹配计算单元214可直接从图4所示例子中的预设的MI表中读取到所述待搜索信息中的各向量与所述关联文档的各向量的互信息，并根据第一向量化处理单元211和第二向量化处理单元212所得到的数据，计算获得语义匹配算法所需的各参数，基于语义匹配算法的计算公式，计算得到所述关联文档与所述待搜索信息的关联评分S₂。

相关度计算单元215，用于根据公式S＝α×S₁+(1-α)×S₂，计算得到所述关联文档与所述待搜索信息的相关度S，其中，α为预设的权重，且0＜α＜1。

可以理解的是，第二向量化处理单元212、词匹配计算单元213、语义匹配计算单元214以及相关度计算单元215可能需要重复工作，直至获得所有关联文档与待搜索信息的相关度为止。之后，所述排序模块103可以根据每个关联文档与所述待搜索信息的相关度，按照相关度从高至低的顺序对所述搜索模块获得的所有关联文档进行排序；所述显示模块104则显示所述排序模块103排序处理后的所有关联文档。

需要说明的是，本发明实施例所述的搜索装置可以为：搜索引擎、浏览器以及具备搜索功能的终端。

通过上述实施例的描述，本发明实施例结合词匹配算法及语义匹配算法，综合考虑词与词的匹配，以及词与词之间的语义关系的匹配，获得每一个关联文档与待搜索信息之间较为准确的相关度，基于该相关度进行排序并显示排序结果，可以为用户提供理想的搜索结果，使得用户可以从显示的搜索结果中快速获得相关度较高的关联文档，满足自己实际的搜索需求，提高了搜索效率，从而提高了用户的满意度。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(Random Access Memory，RAM)等。

以上所揭露的仅为本发明一种较佳实施例而已，当然不能以此来限定本发明之权利范围，本领域普通技术人员可以理解实现上述实施例的全部或部分流程，并依本发明权利要求所作的等同变化，仍属于发明所涵盖的范围。

Claims

1.一种搜索方法，其特征在于，包括：

获取待搜索信息的关联文档；

2.如权利要求1所述的方法，其特征在于，所述基于词匹配算法及语义匹配算法，计算获取到的每一个关联文档与所述待搜索信息的相关度，包括：

对所述待搜索信息进行向量化处理，获得m个向量t_i，其中，m和i均为正整数，且1≤i≤m；

对获取到的每一个关联文档进行向量化处理，获得每一个关联文档所对应的n个向量d_j，其中，n和j均为正整数，且1≤j≤n；

基于词匹配算法，计算得到每一个关联文档与所述待搜索信息的关联评分S₁，基于语义匹配算法，计算得到每一个关联文档与所述待搜索信息的关联评分S₂；

根据公式S＝α×S₁+(1-α)×S₂，计算得到每一个关联文档与所述待搜索信息的相关度S，其中，α为预设的权重，且0＜α＜1。

3.如权利要求2所述的方法，其特征在于：所述词匹配算法的公式为：

S_{1} = Σ_{i = 1}^{m} (\frac{{qtf}_{i}}{k_{3} + {qtf}_{i}}) \times (\frac{(k_{1} + 1) \times {tf}_{i}}{k \times (1 - b + b \frac{l}{avdl}) + {tf}_{i}}) \log (w_{i})

其中，k₁、k₃、k、b为常数；qtf_i为第i个向量t_i在所述待搜索信息中的词频；tf_i为向量t_i在相应的关联文档中的词频；l为该相应关联文档的长度，avdl为获取到的所有关联文档的平均长度；w_i为向量t_i的权重。

4.如权利要求3所述的方法，其特征在于，向量t_i的权重的计算公式如下：

w_{i} = \log \frac{H - {htf}_{i} + 0.5}{{htf}_{i} + 0.5}

其中，H为获取到的所有关联文档的个数，htf_i为向量f_i在所有关联文档中的词频。

5.如权利要求2所述的方法，其特征在于：所述语义匹配算法的公式为：

S_{2} = Σ_{i = 1}^{m} Σ_{j}^{n} \frac{1}{k_{3} + 1} \times (\frac{k_{1} + 1}{k \times (1 - b + b \frac{l}{avdl})}) mi (t_{i}, d_{j})

其中，k₁、k₃、k、b为常数；l为相应关联文档的长度，avdl为获取到的所有关联文档的平均长度；mi(t_i，d_j)为向量t_i与向量d_j的互信息。

6.如权利要求5所述的方法，其特征在于，向量t_i与向量d_j的互信息的计算公式如下：

mi (t_{i}, d_{j}) = \log \frac{p (t_{i}, d_{j})}{p (t_{i}) p (d_{j})}

其中，

c(t_i)表示在网络中，向量t_i出现的次数；

c(d_j)表示在网络中，向量d_j出现的次数。

7.如权利要求1-6任一项所述的方法，其特征在于，所述根据计算得到的相关度对获取到的关联文档进行排序，并显示排序结果，包括：

根据每一个关联文档与所述待搜索信息的相关度，按照相关度从高至低的顺序对所有关联文档进行排序；

显示排序后的所有关联文档。

8.一种搜索装置，其特征在于，包括：

搜索模块，用于获取待搜索信息的关联文档；

排序模块，用于根据所述计算模块计算得到的相关度对所述搜索模块获得的关联文档进行排序；

显示模块，用于显示所述排序模块获得的排序结果。

9.如权利要求8所述的装置，其特征在于，所述计算模块包括：

第一向量化处理单元，用于对所述待搜索信息进行向量化处理，获得m个向量t_i，其中，m和i均为正整数，且1≤i≤m；

第二向量化处理单元，用于对所述搜索模块获得的每一个关联文档进行向量化处理，获得每一个关联文档所对应的n个向量d_j，其中，n和j均为正整数，且1≤j≤n；

词匹配计算单元，用于基于词匹配算法，计算得到所述第二向量化处理单元处理后的关联文档与所述待搜索信息的关联评分S₁；

语义匹配计算单元，用于基于语义匹配算法，计算得到所述第二向量化处理单元处理后的关联文档与所述待搜索信息的关联评分S₂；

相关度计算单元，用于根据公式S＝α×S₁(1-α)×S₂，计算得到所述关联文档与所述待搜索信息的相关度S，其中，α为预设的权重，且0＜α＜1。

10.如权利要求9所述的装置，其特征在于，所述词匹配算法的公式为：

S_{1} = Σ_{i = 1}^{m} (\frac{{qtf}_{i}}{k_{3} + {qtf}_{i}}) \times (\frac{(k_{1} + 1) \times {tf}_{i}}{k \times (1 - b + b \frac{l}{avdl}) + {tf}_{i}}) \log (w_{i})

所述语义匹配算法的公式为：

S_{2} = Σ_{i = 1}^{m} Σ_{j}^{n} \frac{1}{k_{3} + 1} \times (\frac{k_{1} + 1}{k \times (1 - b + b \frac{l}{avdl})}) mi (t_{i}, d_{j})

其中，k₁、k₃、k、b为常数；qtf_i为第i个向量t_i在所述待搜索信息中的词频；tf_i为向量t_i在相应的关联文档中的词频；l为该相应关联文档的长度，avdl为所述搜索模块获得的所有关联文档的平均长度；w_i为向量t_i的权重；mi(t_i，d_j)为向量t_i与向量d_j的互信息。

11.如权利要求8-10任一项所述的装置，其特征在于，

所述排序模块根据每个关联文档与所述待搜索信息的相关度，按照相关度从高至低的顺序对所述搜索模块获得的所有关联文档进行排序；

所述显示模块显示所述排序模块排序后的所有关联文档。