CN103778262B

CN103778262B - 基于叙词表的信息检索方法及装置

Info

Publication number: CN103778262B
Application number: CN201410080938.9A
Authority: CN
Inventors: 李冬梅; 韩其琛; 方博; 檀稳; 张琪
Original assignee: Beijing Forestry University
Current assignee: Beijing Forestry University
Priority date: 2014-03-06
Filing date: 2014-03-06
Publication date: 2017-07-21
Anticipated expiration: 2034-03-06
Also published as: CN103778262A

Abstract

一种基于叙词表的信息检索方法和装置，所述方法包括根据叙词表，对用户输入的检索词进行规范化，获得规范化检索词K；利用规范化检索词K，通过通用搜索引擎对规范化检索词K进行检索，对结果的网址进行分析，提取要素信息；利用相似度计算的方法求出叙词表中K的相关词的相似度，将相似度大于阈值的相关词加入查询扩展集合N；将与K的相似度作为对应相关词的权值，利用相关词对每个网页中的要素信息进行加权求和计算，得到网页的权值，将网页按照权值由从大到小排序。本发明利用叙词表的词间关系，提出语义相似度计算方法，实现对叙词表词间关系的量化分析，并将计算相似度的叙词用于检索后结果的加权排序。本发明信息检索方法和装置显著提高了查询效果。

Description

基于叙词表的信息检索方法及装置

技术领域

本申请涉及一种信息检索方法和装置，具体地，涉及一种利用叙词表的相似度计算得到查询扩展词集从而对检索结果进行相似度加权排序的信息检索方法和装置。

背景技术

随着Internet的迅速发展，网络上的信息已经变得非常庞大，面对海量级的数据，如何进行高效、准确的信息检索是值得研究的课题。现有技术中，搜索引擎凭借其符合大众信息检索习惯的优势成为了目前获取网络信息的主要工具。但是，由于目前的搜索引擎采用的都是基于关键词的字面匹配模式，即仅以孤立的关键词对信息内容进行标引和检索，并不能表达出词语的语义内涵，更不能胜任获取文本中潜在的丰富的语义知识。因此，人们依然很难从海量信息中获取到自己最需要的信息，在多样化的网络信息环境下，现有搜索技术存在着明显的不足之处。

为解决以上问题，提出了一些新颖的网络信息组织和检索理念。例如，概念检索和语义检索等。本体是实现语义检索的一种较为有效的工具，但本体的构建和维护需要大量的工作。

目前很多行业领域都有自己较成熟的叙词表。叙词表是一个相对完善并且发展成熟的概念知识体系，自其从20世纪50年代诞生以来，经过不断发展和完善，已成为主题法中重要的信息组织工具，并曾在传统文献标引和检索中发挥过重要作用。与普通的网络信息扩展检索方法相比，基于叙词表词间关系的信息检索方法更注重利用叙词表这一语义逻辑提高检索结果的检准率和检全率。基于叙词表的信息检索方法在某些领域已有相关研究，文献1(Chen C,Zhu Q,Lin L，et al.Web media semantic concept retrieval via tagremoval and model fusion[J].ACM Transactions on Intelligent Systems andTechnology(TIST)，2013，4(4):61)利用美国国立医学图书馆(The National Library ofMedicine)设计的元叙词表(Metathesaurus)对用户所输入的检索信息进行语法分析，并根据分析结果进行查询扩展。但是该文献没有对叙词之间的关系类型进行量化分析。文献2(XiongXia.Domain information retrieval based on term relationships ofthesaurus.Beijing:Chinese Academy of Agricultural Sciences Dissertation，2011)给出一种基于农业叙词表的信息检索方法，但该方法在查询扩展时只考虑了与核心检索词直接相关的单级扩展，没有考虑其他叙词的影响。

因此，如何能够将叙词表利用到信息检索中，并综合考虑叙词间多种关系的相似度，进行检索结果的加权分析，成为现有技术亟需解决的技术问题。

发明内容

本发明的目的在于基于叙词表的信息检索方法和装置，使得能够利用叙词表的相似度计算得到查询扩展词集从而对检索结果进行相似度加权排序。

为达到此目的，本发明采用了如下方案：

一种基于叙词表的信息检索方法，包括如下步骤：

叙词规范化步骤：根据叙词表，对用户输入的检索词进行规范化，获得规范化检索词K；

网页抓取步骤：利用通用搜索引擎以规范化检索词K为检索词进行检索，对前若干个结果的网址进行分析，提取出网页中的要素信息，所述要素信息包括网页中的URL、标题、正文、摘要、关键词；

查询扩展集合建立步骤：利用相似度计算的方法求出叙词表中K的相关词的相似度，将相似度大于所设置的阈值的相关词加入所述查询扩展集合N；

加权排序步骤：将与K的相似度作为所述查询扩展集合N中相关词的权值，利用所述相关词对每个网页中的所述要素信息进行加权求和计算，得到每个网页的权值，将所述网页按照所述权值由从大到小排序，并返回给用户。

优选地，所述加权排序步骤包括：

频率计算步骤，计算所述查询扩展集合中的每一个相关词在网页的标题中出现的频率X以及在网页正文中出现的频率P；

权值计算步骤，求和计算每个网页的权值，其公式为：

其中，TW_n为第n个网页的总权值，m为所述查询扩展集合N中相关词的数目，W_i为N中第i个扩展词与规范化检索词K的相似度，X_i和P_i分别为所述扩展词在第i个网页的标题和正文中出现的频率，ω为标题正文比，用于调节标题对于最终结果的重要性，ω越大，标题对该网页权值的影响越大；

排序步骤，将所述网页按照所述权值由从大到小排序，并返回给用户。

进一步优选地，通过实验来选择合适的阈值Q及加权排序中的标题正文比ω。阈值Q取值为0.2-0.8，标题正文比ω取值为1-6。

优选地，所述查询扩展集合建立步骤包括：

建立初始查询扩展集合步骤：根据叙词表对规范化检索词K进行扩展，得到关于所述规范化检索词K的初始查询扩展集合U＝{D,F,W,Y}，其中，D表示K的等同词，F表示K的所有上位/下位词，即叙词表概念树T的所有节点，W表示K的相关词，Y表示F的等同词和相关词；

建立叙词表查询概念树步骤：找到所述规范化检索K的族首词O，以O为根节点建立叙词表概念树T；

概念对组成步骤：从所述初始查询扩展集合中逐个抽取扩展词，使得规范化检索词K与扩展词组成概念对；

相似度计算步骤：根据所述概念对中规范化检索词K与扩展词的关系类型，采用不同的公式计算规范化检索词K与扩展词的相似度；

阈值判断步骤：设置阈值Q，判断所述初始查询扩展集合每个词与所述规范化检索词K的相似度是否大于Q：若大于，则将该词加入到查询扩展集合N中；若小于，则跳过，即不加入到查询扩展集合N中。

进一步优选地，所述相似度计算步骤包括：

当概念对中扩展词为K的等同词D时，所述相似度为等同相似度SimD(K,D)，采用以下公式计算：

SimD(K,D)＝1。

当概念对中扩展词为K的上位/下位词F时，所述相似度为属分相似度SimF(K,F)，采用以下公式计算：

SimF(K,F)＝f₁×f₂×f₃

其中，f₁为基于最短路径的相似度，f₂为基于最近根深度的相似度，f₃为基于密度的相似度，

基于最短路径的相似度f₁的计算公式为：

f₁(d)＝e^-αd

其中，d为在T中由K到F的最短路径长度，α为调节因子，α越大，f₁也越大。

基于最近根深度的相似度f₂的计算公式为：

f₂(h)＝1-e^-βh

其中，h为R(K,F)所在深度，β为调节因子，β越大，f₂也就越大。

基于密度的相似度f₃的计算公式为：

其中，分别为K和F的密度向量。

当概念对中扩展词为K的相关词W时，所述相似度为相关相似度SimW(K,W)，采用以下公式计算：

SimW(K,W)＝g₁×g₂

其中，g₁为基于相关关联叙词深度的相似度，g₂为基于相关关联叙词密度的相似度，

基于相关关联叙词深度的相似度g₁的计算公式为：

其中，K的深度为h，ε为调节因子，ε越大，g₁也越大。

基于相关关联叙词密度的相似度g₂的计算公式为：

g₂(e)＝1-e^-γe

其中，e为以K为根节点的直接子节点数，γ为调节因子，γ越大，g₂也就越大。

当概念对中扩展词为K的上位/下位词F的等同词/相关词Y时，所述相似度为间接关系相似度，分别采用以下公式计算：

SimY(K,Y)＝SimF(K,F)×SimD(F,Y)或者

SimY(K,Y)＝SimF(K,F)×SimW(F,Y)。

本发明还公开了一种基于叙词表的信息检索装置，包括：

叙词规范化单元：根据叙词表，对用户输入的检索词进行规范化，获得规范化检索词K；

网页抓取单元：利用所述叙词规范化单元得到的规范化检索词K，利用通用搜索引擎以规范化检索词K为检索词进行检索，对前若干个结果的网址进行分析，提取出网页中的要素信息，所述要素信息包括网页中的URL、标题、正文、摘要、关键词；

查询扩展集合建立单元：利用相似度计算的方法求出叙词表中K的相关词的相似度，将相似度大于所设置的阈值的相关词加入所述查询扩展集合N；

加权排序单元：将与K的相似度作为所述查询扩展集合N中相关词的权值，利用所述相关词对每个网页中的所述要素信息进行加权求和计算，得到每个网页的权值，将所述网页按照所述权值由从大到小排序，并返回给用户。

本发明针对基于关键词的传统信息检索方法不能充分表达语义信息的缺陷，利用叙词表的词间关系，提出了一种计算叙词表中词间语义相似度的方法，实现对叙词表词间关系的量化分析，并将计算了相似度的相关词用于检索后结果的加权排序。本发明充分利用叙词表的完整的逻辑体系，提供更多用于扩展查询的相关词，更为全面的利用叙词表的词间关系。通过实验证明，本发明所公开的方法显著提高了查询效果。

附图说明

图1是根据本发明的基于叙词表的信息检索方法的流程图；

图2是根据本发明的具体实施例的进行相似度计算以建立查询扩展集合的流程图；

图3是根据本发明的另一具体实施例的阈值权值的测定示意图；

图4是根据本发明的另一具体实施例的标题正文比的权值测定第一示意图；

图5是根据本发明的另一具体实施例的标题正文比的权值测定第二示意图；

图6是本发明与现有技术的搜索结果相关性对比图；

图7是本发明与现有技术的搜索结果搜索长度对比图；

图8是根据本发明的基于叙词表的信息检索装置的模块图。

具体实施方式

下面结合附图和实施例对本发明作进一步地详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构。

在申请中使用的与叙词表概念树中相关的术语定义如下：

叙词表概念树：在叙词表中，以族首词O为根节点，由族首词为O的所有叙词的上位叙词和下位叙词构成的树状结构T称为叙词表概念树，T中的节点C称为叙词节点。在T中，C所具有的兄弟节点数记为n(C)；根节点O的深度记为1；树中路径上分支数目为1的两个节点间的距离记为1。

最短路径长度：在叙词表概念树T中，两个叙词节点之间分支数目最少的树中路径称为两个节点的最短路径，最短路径所拥有的分支数目称为最短路径长度。

最近根节点：在叙词表概念树T中，如果节点R是A和B共同的祖先节点，并且是符合此条件的所有节点中距离T的根结点最远的一个，则称R为A和B的最近根节点，记为R(A,B)或R。

相关关联叙词：若C在叙词表概念树T中，且至少存在一个词W与C所对应的叙词为相关关系，则称C所对应的叙词为W的相关关联叙词。

祖先叙词节点：在叙词表概念树T中，C的所有祖先节点构成的集合称为C的祖先叙词节点A(C)。

孩子叙词节点：在叙词表概念树T中，C的所有孩子节点构成的集合称为C的孩子叙词节点L(C)。

关联叙词节点：在叙词表概念树T中，由A(C)、L(C)和C本身组成的集合称为C的关联叙词节点。

关联叙词节点密度：在叙词表概念树T中，根节点的关联叙词节点密度为1，子节点的关联叙词节点密度为其兄弟节点的个数加1。因此，若设C的关联叙词节点密度为Den(C)，则Den(O)＝1，Den(C)＝n(C)+1。

基于叙词的密度向量：在一个深度为h的T中，C表示成向量该向量称为基于叙词的密度向量。其中

C_i为深度为i的叙词节点中距离C最近的叙词节点集合。δ为调节因子，用于调节密度向量对于叙词相似度的影响。δ越大，叙词节点的孩子节点对于叙词相似度的影响越大；δ越小，叙词节点的兄弟节点对于叙词相似度的影响越大。

图1示出了根据本发明的基于叙词表的信息检索方法的流程图。

在步骤S110，根据叙词表，对用户输入的检索词进行规范化，获得规范化检索词K。

在该步骤中，如果规范化成功，则得到规范化检索词K。如果规范化失败，则结束本方法，只采用常规的检索方法进行检索和排序。

所述规范化成功包括以下三种情况中的任意一种：a.所述检索词为叙词表中的叙词，则视为已经规范化，可直接使用；b.所述检索词为叙词表中的非叙词，则通过叙词表将所述检索词规范为相应的叙词；c.所述检索词能够与叙词表中的叙词部分匹配，则将可匹配的所有叙词返回，供用户从中选择新的检索词作为规范化检索词。如果规范化成功，则在后续的步骤中，同时或者分别执行步骤S120和步骤S130。

所述规范化失败为：除了以上a、b、c三种情况以外的其它情况。如果检索词无法匹配或对应于叙词表中的任何部分，则无法基于叙词表进行信息检索的加权排序工作。

在步骤S120，利用通用搜索引擎以规范化检索词K为检索词进行检索，以前S个结果的URL，作为爬行网址，对S个所述爬行网址进行分析，提取出网页中的要素信息，所述要素信息包括网页中的URL、标题、正文、摘要、关键词。

例如，可以采用开源网页分析工具Htmlparser分析这S个网址所对应的网页，提取出网页中的URL、标题、正文、摘要、关键词等要素信息。在一个优选的实施例中，所述要素信息为网页中的标题和正文。

在步骤S130，利用相似度计算的方法求出叙词表中K的相关词的相似度，将相似度大于所设置的阈值的相关词加入所述查询扩展集合N。

在步骤S140，将与K的相似度作为所述查询扩展集合N中相关词的权值，利用所述相关词对每个网页中的所述要素信息进行加权求和计算，得到每个网页的权值，将所述网页按照所述权值由从大到小排序，并返回给用户。

应当理解，所述步骤S120和步骤S130可以在所述叙词规范化步骤S110后同时进行，也可以先后进行，即先执行步骤S120，再执行步骤S130，或者先执行步骤S130，再执行步骤S120。本发明并不限制这两个步骤进行的顺序，只要在进行S140之前，完成上述两个步骤即可。

如图2所示，在一个优选的实施例中，所述步骤S130可以包括以下步骤。

在步骤S131，根据叙词表对规范化检索词K进行扩展，建立关于所述规范化检索词K的初始查询扩展集合U＝{D,F,W,Y}，其中，D表示K的等同词，F表示K的所有上位/下位词，即叙词表概念树T的所有节点，W表示K的相关词，Y表示F的等同词和相关词。

在步骤S132，找到K的族首词O，以O为根节点建立叙词表概念树T。

在步骤S133，从所述初始查询扩展集合中逐个抽取扩展词，使得规范化检索词K与扩展词组成概念对。

在步骤S134，根据所述概念对中规范化检索词K与扩展词的关系类型，采用不同的公式计算规范化检索词K与扩展词的相似度。在本发明中，综合使用叙词表概念树中的各个词的词间关系，而相似度计算，也正是基于在叙词表概念树中各个相关词的之间的彼此相似度。

当概念对中扩展词为K的等同词D时，所述相似度为等同相似度SimD(K，D)。等同词为等价关系，即在叙词表中，两个词之间可以相互替换使用。该等同相似度采用以下公式计算：

SimD(K,D)＝1 (2)

SimF(K,F)＝f₁×f₂×f₃ (3)

其中，f₁为基于最短路径的相似度，f₂为基于最近根深度的相似度，f₃为基于密度的相似度。

SimW(K,W)＝g₁×g₂ (4)

其中，g₁为基于相关关联叙词深度的相似度，g₂为基于相关关联叙词密度的相似度。

SimY(K,Y)＝SimF(K,F)×SimD(F,Y)(5)或者

SimY(K,Y)＝SimF(K,F)×SimW(F,Y) (6)

在上述公式(3)中，基于最短路径的相似度f₁的计算公式为：

f₁(d)＝e^-αd (7)

其中，d为在T中由K到F的最短路径长度，α为调节因子。α越大，f₁也越大。

基于最近根深度的相似度f₂的计算公式为：

f₂(h)＝1-e^-βh (8)

其中，h为R(K,F)所在深度，β为调节因子。β越大，f₂也就越大。

基于密度的相似度f₃基于密度的相似度计算公式为：

其中，根据公式(1)，分别求出K和F的密度向量

在上述公式(4)中，基于相关关联叙词深度的相似度g₁的计算公式为：

其中，K的深度为h，ε为调节因子。ε越大，g₁也越大。

基于相关关联叙词密度的相似度g₂的计算公式为：

g₂(e)＝1-e^-γe (11)

其中，e为以K为根节点的直接子节点数，γ为调节因子。γ越大，g₂也就越大。

阈值判断步骤S135：设置阈值Q，判断所述初始查询扩展集合每个词与所述规范化检索词K的相似度是否大于Q：若大于，则将该词加入到查询扩展集合N中；若小于，则跳过，即不加入到查询扩展集合N中。

在一个优选的实施例中，所述步骤S140具体地包括：

频率计算步骤，计算所述查询扩展集合中的每一个相关词在网页的标题中出现的频率X以及在网页正文中出现的频率P。

权值计算步骤，求和计算每个网页的权值，其公式为：

其中，TW_n为第n个网页的总权值，m为所述查询扩展集合N中相关词的数目，W_i为N中第i个扩展词与规范化检索词K的相似度，X_i和P_i分别为所述扩展词在第i个网页的标题和正文中出现的频率。ω为标题正文比，用于调节标题对于最终结果的重要性，ω越大，标题对该网页权值的影响越大。

进一步地，图8示出了根据本发明的基于叙词表的信息检索装置的模块图。该信息检索装置包括：叙词规范化单元210、网页抓取单元220、查询扩展集合建立单元230和加权排序单元240。

叙词规范化单元210根据叙词表，对用户输入的检索词进行规范化，获得规范化检索词K。

在该单元中，如果规范化成功，则得到规范化检索词K，然后同时或者分别进行网页抓取单元和查询扩展集合建立单元。如果规范化失败，则结束本方法，只采用常规的检索方法进行检索和排序。

规范化成功包括以下三种情况中的任意一种：a.所述检索词为叙词表中的叙词，则视为已经规范化，可直接使用；b.所述检索词为叙词表中的非叙词，则通过叙词表将所述检索词规范为相应的叙词；c.所述检索词能够与叙词表中的叙词部分匹配，则将可匹配的所有叙词返回，供用户从中选择新的检索词作为规范化检索词。

规范化失败为：除了以上a、b、c三种情况以外的其它情况，则保留原检索词，不对所述检索词进行查询扩展。

网页抓取单元220：利用所述叙词规范化单元得到的规范化检索词K，利用通用搜索引擎以规范化检索词K为检索词进行检索，对前若干个结果的网址进行分析，提取出网页中的要素信息，所述要素信息包括网页中的URL、标题、正文、摘要、关键词。

查询扩展集合建立单元230：利用相似度计算装置求出叙词表中K的相关词的相似度，将相似度大于所设置的阈值的相关词加入所述查询扩展集合N。

加权排序单元240：将与K的相似度作为所述查询扩展集合N中相关词的权值，利用所述相关词对每个网页中的所述要素信息进行加权求和计算，得到每个网页的权值，将所述网页按照所述权值由从大到小排序，并返回给用户。

实施例1，查询扩展集合建立示例：

规范化检索词K：夏绿林

初始查询扩展集合U：{森林，矮林，高山矮曲林，亚高山矮曲林，成林，成熟林，纯林，次生林，萌芽林，丛林，法正林，广义法正林，泛滥地森林，封禁林，复层林，灌木林，灌丛林，矮灌丛，常绿灌丛，国有林，过伐林，过熟林，寒带林，恒续林，混交林，常绿落叶阔叶混交林，复层混交林，针阔叶混交林，极地林，集体林，禁伐林，禁猎林，近熟林，阔叶林，常绿阔叶林，硬叶常绿林，常绿竹林，落叶阔叶林，栎林，桤林，母树林，临时母树林，永久母树林，目标林，暖带林，乔林，热带林，红树林，热带草原林，热带稀疏林，珊瑚岛常绿林，人工林，实生林，疏林，示范林，试验林，产地试验林，苔藓林，天然林，同龄林，完全调整林，温带林，现实林，异龄林，幼龄林，雨林，亚热带雨林，原始林，择伐林，针叶林，暗针叶林，常绿针叶林，桧林，冷杉林，松林，落叶针叶林，落叶松林，泰加林，中龄林，竹林，材用竹林，笋材兼用林，笋用林，法正林，种源试验林，种子林，照叶林，滩地森林，一般法正林}

初始查询扩展集合U中的词的关系分别为：

等同关系：无

上位下位关系：{森林，矮林，高山矮曲林，亚高山矮曲林，成林，成熟林，纯林，次生林，萌芽林，丛林，法正林，广义法正林，泛滥地森林，封禁林，复层林，灌木林，灌丛林，矮灌丛，常绿灌丛，国有林，过伐林，过熟林，寒带林，恒续林，混交林，常绿落叶阔叶混交林，复层混交林，针阔叶混交林，极地林，集体林，禁伐林，禁猎林，近熟林，阔叶林，常绿阔叶林，硬叶常绿林，常绿竹林，落叶阔叶林，栎林，桤林，母树林，临时母树林，永久母树林，目标林，暖带林，乔林，热带林，红树林，热带草原林，热带稀疏林，珊瑚岛常绿林，人工林，实生林，疏林，示范林，试验林，产地试验林，苔藓林，天然林，同龄林，完全调整林，温带林，现实林，异龄林，幼龄林，雨林，亚热带雨林，原始林，择伐林，针叶林，暗针叶林，常绿针叶林，桧林，冷杉林，松林，落叶针叶林，落叶松林，泰加林，中龄林，竹林，材用竹林，笋材兼用林，笋用林}

Claims

1.一种基于叙词表的信息检索方法，包括如下步骤：

加权排序步骤：将与K的相似度作为所述查询扩展集合N中相关词的权值，利用所述相关词对每个网页中的所述要素信息进行加权求和计算，得到每个网页的权值，将所述网页按照所述权值由从大到小排序，并返回给用户；

其中，所述查询扩展集合建立步骤包括：

建立初始查询扩展集合步骤：根据叙词表对规范化检索词K进行扩展，得到关于所述规范化检索词K的初始查询扩展集合U＝{D,F,W,Y}，其中，D表示K的等同词，F表示K的所有上位/下位词，即叙词表概念树T的所有节点，W表示K的相关词，Y表示F的等同词和相关词；以及

2.根据权利要求1所述的基于叙词表的信息检索方法，其特征在于：

所述加权排序步骤包括：

权值计算步骤，求和计算每个网页的权值，其公式为：

3.根据权利要求2所述的基于叙词表的信息检索方法，其特征在于：

通过实验来选择合适的阈值Q及加权排序中的标题正文比ω。

4.根据权利要求3所述的基于叙词表的信息检索方法，其特征在于：

阈值Q取值为0.2-0.8，标题正文比ω取值为1-6。

5.根据权利要求1所述的基于叙词表的信息检索方法，其特征在于：

所述相似度计算步骤包括：

SimD(K,D)＝1。

6.根据权利要求1所述的基于叙词表的信息检索方法，其特征在于：

所述相似度计算步骤包括：

SimF(K,F)＝f₁×f₂×f₃

基于最短路径的相似度f₁的计算公式为：

f₁(d)＝e^-αd

其中，d为在T中由K到F的最短路径长度，α为调节因子，α越大，f₁也越大，

基于最近根深度的相似度f₂的计算公式为：

f₂(h)＝1-e^-βh

其中，h为R(K，F)所在深度，R(K，F)为K和F的最近根节点，β为调节因子，β越大，f₂也就越大，

基于密度的相似度f₃的计算公式为：

其中，分别为K和F的密度向量。

7.根据权利要求1所述的基于叙词表的信息检索方法，其特征在于：

所述相似度计算步骤包括：

SimW(K,W)＝g₁×g₂

基于相关关联叙词深度的相似度g₁的计算公式为：

其中，K的深度为h，ε为调节因子，ε越大，g₁也越大，

基于相关关联叙词密度的相似度g₂的计算公式为：

g₂(e)＝1-e^-γe

8.根据权利要求1所述的基于叙词表的信息检索方法，其特征在于：

SimY(K,Y)＝SimF(K,F)×SimD(F,Y)或者

SimY(K,Y)＝SimF(K,F)×SimW(F,Y)。

9.一种基于叙词表的信息检索装置，包括：

加权排序单元：将与K的相似度作为所述查询扩展集合N中相关词的权值，利用所述相关词对每个网页中的所述要素信息进行加权求和计算，得到每个网页的权值，将所述网页按照所述权值由从大到小排序，并返回给用户，

其中，所述查询扩展集合建立单元用于：

建立初始查询扩展集合：根据叙词表对规范化检索词K进行扩展，得到关于所述规范化检索词K的初始查询扩展集合U＝{D，F，W，Y}其中，D表示K的等同词，F表示K的所有上位/下位词，即叙词表概念树T的所有节点，W表示K的相关词，Y表示F的等同词和相关词；以及

建立叙词表查询概念树：找到所述规范化检索K的族首词O，以O为根节点建立叙词表概念树T；

概念对组成：从所述初始查询扩展集合中逐个抽取扩展词，使得规范化检索词K与扩展词组成概念对；

相似度计算：根据所述概念对中规范化检索词K与扩展词的关系类型，采用不同的公式计算规范化检索词K与扩展词的相似度；

阈值判断：设置阈值Q，判断所述初始查询扩展集合每个词与所述规范化检索词K的相似度是否大于Q：若大于，则将该词加入到查询扩展集合N中；若小于，则跳过，即不加入到查询扩展集合N中。