CN101840438A

CN101840438A - 面向源文献元关键词的检索系统

Info

Publication number: CN101840438A
Application number: CN 201010182289
Authority: CN
Inventors: 刘宏
Original assignee: Individual
Current assignee: Individual
Priority date: 2010-05-25
Filing date: 2010-05-25
Publication date: 2010-09-22
Anticipated expiration: 2030-05-25
Also published as: CN101840438B

Abstract

本发明公开了一种面向源文献元关键词的检索系统，包括源文献接收模块、定义模块、索引模块、检索模块、检索结果处理模块和源文献及其元关键词管理模块；检索结果处理模块在对检索结果集中的源文献进行排序时，综合考虑元关键词的语义权重的分布特性。本发明的积极效果是：通过引入元关键词作为中间层，使得源文献与其索引形成松耦合；引入和计算元关键词的语义权重并处理元关键词的语义权重的分布特性，可以完成元关键词语义权重在排序计算中的补偿，增加检索结果排序的合理性；对计算资源的需求相对低。

Description

面向源文献元关键词的检索系统

技术领域

本发明涉及一种基于关键词的文献检索系统，尤其是涉及一种面向源文献元关键词的检索系统。

背景技术

现有的信息检索技术，如互联网搜索引擎(或者按照常见的说法，“搜索引擎”)，其工作原理大致可以分为：

1)搜集信息：搜索引擎的信息搜集基本都是自动的。搜索引擎利用称为网络蜘蛛的自动搜索机器人程序来连上每一个网页上的超链接。机器人程序根据网页链到其中的超链接，就象日常生活中所说的“一传十，十传百......”一样，从少数几个网页开始，连到数据库上所有到其他网页的链接。理论上，若网页上有适当的超链接，机器人便可以遍历绝大部分网页。

2)整理信息：搜索引擎整理信息的过程称为“建立索引”。搜索引擎不仅要保存搜集起来的信息，还要将它们按照一定的规则进行编排。这样，搜索引擎根本不用重新翻查它所有保存的信息而迅速找到所要的资料。

3)接受查询：用户向搜索引擎发出查询，搜索引擎接受查询并向用户返回资料。搜索引擎每时每刻都要接到来自大量用户的几乎是同时发出的查询，它按照每个用户的要求检查自己的索引，在极短时间内找到用户需要的资料，并返回给用户。目前，搜索引擎返回主要是以网页链接的形式提供的，这样通过这些链接，用户便能到达含有自己所需资料的网页。通常搜索引擎会在这些链接下提供一小段来自这些网页的摘要信息以帮助用户判断此网页是否含有自己需要的内容。

整理信息及接受查询的过程，大量应用了文本信息检索技术，并根据网络超文本的特点，引入了更多的信息。

关于文本信息检索，目前，最为常用的信息检索模型有三种：1)向量空间模型(Vector Space Model，VSM)；2)概率模型(Probabilistic Model)；3)推理网络模型(Inference Network Model)。

向量空间模型最早由Gerard提出。在此模型中，一个文档(Document)被描述成由一系列关键词(Term)组成的向量。模型并没有规定关键词如何定义，但是一般来说，关键词可以是字，词或者短语。如果一篇文档包含这个词，那么表示这个文档的向量在这个词所定义的维度上应该拥有一个非0值(对绝大多数系统来说，是正值)。

当一个查询被提交时，由于这个查询也是由文本构成，所以也可以被向量空间所表示。模型将对查询与文档，计算一个相似度。需要注意的是，模型也没有对相似度给出确切的定义。它可以是欧氏距离，也可以是两个向量的夹角的余弦。

文件d的权重向量为v_d＝[w_1，d，w_2，d，...，w_N，d]^T，其中

w_{t, d} = {tf}_{t} \cdot \log \frac{| D |}{| {t &Element; d} |},

并且

·tf_t是词组″t″的在文件″d″出现的次数(区域参数)

是反文件频(全域参数)。|D|是文件的总数；|{t∈d}|是含有词组″t″的文件数。

假设

表示文档向量，而表示查询向量，文档与查询的相关性可以用余弦距离表示如下：

Sim (\overset{&RightArrow;}{D}, \overset{&RightArrow;}{Q}) = \frac{\overset{&RightArrow;}{D} \cdot \overset{&RightArrow;}{Q}}{(\overset{&RightArrow;}{D} \cdot \overset{&RightArrow;}{D}) (\overset{&RightArrow;}{Q} \cdot \overset{&RightArrow;}{Q})}

如果我们用

和

表示

和

中的第i维的值，并且对每个文档矢量进行归一化，即令

那么上式有可以表示为

Sim (\overset{&RightArrow;}{D} \cdot \overset{&RightArrow;}{Q}) = \underset{t_{i} &Element; Q \cap D}{Σ} w_{t_{i} Q} \cdot w_{t_{i} D}

也即，查询向量和文档向量的相关度，是一些词分别在文档向量和查询向量中的权重的乘积的和，这里的“一些词”是指在查询向量和文档向量中都出现的词。

目前，对关键词权重的确定方法一般都需要获取一些关于关键词的统计量，而后根据这些统计量，应用某种人为规定的计算公式来得到权重。

在向量空间模型下，构造关键词权重计算公式有三个基本原则：

1)如果一个关键词在某个文档中出现次数越多，那么这个词应该被认为越重要。

2)如果一个关键词在越多的文档中出现，那么这个词区分文档的作用就越低，于是其重要性也应当相应降低。

3)一篇文档越长，那么其出现某个关键词的次数可能越高，而每个关键词对这个文档的区分作用也越低，相应的应该对这些关键词予以一定的折扣。

较为常用的关键词权重算法有所谓的TF-IDF等。

倒排索引(Inverted index)，也常被称为反向索引、置入档案或反向档案，是一种索引方法，被用来存储在全文搜索下某个单词在一个文档或者一组文档中的存储位置的映射。它是文档检索系统中最常用的数据结构。

有两种不同的反向索引形式：

1)一条记录的水平反向索引(或者反向档案索引)包含每个引用单词的文档的列表。

2)一个单词的水平反向索引(或者完全反向索引)又包含每个单词在一个文档中的位置。

后者的形式提供了更多的兼容性(比如短语搜索)，但是需要更多的时间和空间来创建。

常见检索方案出于其本身定义的：抽取关键词、计算权重、建立索引的流程，包括其中定义的倒排索引数据结构，常常可能存在数据更新带来的时间滞后：源文献的新增、删除必然导致倒排索引数据结构的计算，包括建立或者更新索引，才能支持后续的检索；源文献的修改必然导致检索方案定义的流程全部重新计算，然后更新甚至重新建立索引，才能支持后续的检索。以上计算量相对大，带来对计算资源的需求。

导致问题的原因是：倒排索引的索引项是源文献的抽取关键词，这时倒排索引与源文献是紧耦合的；倒排索引要求来自不同源文献的多个相同的抽取关键词进行“合并”，这样的数据结构导致本无关联关系的源文献之间“直接”产生了耦合，进而带来面向源文献的相对大量的计算；倒排索引，比如完全反向索引，尤其在需要记录抽取关键词的相关信息的情况下，数据结构相对复杂；相对大量的计算带来对计算资源的需求。

具体说明如下：

如图1所示，源文献D_i、D_j经过计算抽取关键词，并基于抽取关键词建立倒排索引，抽取关键词是索引项。在图1中，源文献D_i抽取了关键词Term i和Termj，源文献D_j抽取了关键词Term i、Term j和Term k。图中箭头H₁、H₂以及H₃、H₄表示相同的抽取关键词“合并”为同一索引项，对应的信息放入同一索引表中，如图中(D_i，W_ij，Info_ii)和(D_j，W_ij，Info_ij)所示；W_ij表示Term i在Dj中计算得到的权重。其中W是抽取关键词的权重，是fr，p，l，ofr，G以及更多可能的变量的函数，其中：

fr：当前关键词在源文献中的重要性，比如用频度来表征；

p：当前关键词在源文献中的位置；

l：当前关键词所在源文献的长度；

ofr：同一源文献中其它关键词的重要性，比如用频度来表征；

G：当前关键词在全部源文献中的重要性，比如包含当前关键词的源文献的数量。

图1中的Info是指倒排索引数据结构可能需要存储一些信息，比如其它关于权重计算的信息，或者数据结构本身需要的信息等。实际应用中Info的结构相对复杂。

如图1所示，索引项和索引表中的节点都是直接来自源文献中的信息，谓之“紧耦合”，计算流程复杂，计算量相对大；数据结构复杂，需要存储的信息相对多；源文献的新增删除修改导致复杂的计算流程和数据结构处理，并进而导致对计算资源的需求。

如图2所示，新增源文献的时候，需要经过计算抽取关键词，并将抽取关键词对应的信息合并到相应的索引表中，新增节点；删除源文献的时候，需要定位抽取关键词，并将相应索引表中的节点删除。因为计算和数据结构操作相对复杂，对于计算资源存在需求，所以可能会引起更新时间的滞后。

如图3所示，修改源文献D_i，需要更新其抽取关键词以及索引表：Term i不再出现在源文献D_i中，需要在Term i对应的索引表中删除节点；Term k出现在源文献D_i中，需要在Te rm k对应的索引表中新增节点。前提是，需要对源文献D_i的关键词抽取和权重进行计算，包括影响W的多个因素，以及可能的Info的更新。

综上所述，在源文献基于抽取关键词建立倒排索引的情况下，存在相对大量的计算，其中新增删除带来的计算量相对小，而修改带来的计算量就相对大。这里的计算量包括了抽取关键词的计算。

大量的计算以及对计算资源的需求是常见检索方案在源文献更新时造成时间滞后的原因之一。

发明内容

为了克服现有技术的上述缺点，本发明提供了一种面向源文献元关键词的检索系统，通过引入元关键词并基于元关键词建立索引，使得源文献和索引之间形成松耦合，同时索引数据结构相对简单，源文献的更新，尤其源文献的修改，其计算量相对小，对计算资源的需求相对低，从而可以实现源文献的“即时”更新和支持后续的检索。

本发明解决其技术问题所采用的技术方案是：一种面向源文献元关键词的检索系统，包括源文献接收模块、定义模块、索引模块、检索模块、检索结果处理模块和源文献及其元关键词管理模块；其中：

源文献接收模块：提供对源文献的输入或者采集功能，用于接收源文献的输入或者自动采集源文献；

定义模块：用于定义源文献元关键词，并将源文献与源文献元关键词关联；

索引模块：基于元关键词建立索引，计算索引项权重，将索引项权重存储在索引表节点中，并根据需要完成索引表中节点的新增、删除、修改；

检索模块：用于接收查询关键词，检索源文献元关键词索引模块建立的源文献元关键词索引，获得与查询关键词词条匹配的索引项及其相应索引表结果集；

检索结果处理模块：用于接收源文献元关键词检索模块返回的结果集，并对检索结果集中的源文献按照与查询关键词匹配的索引项的权重进行排序；

源文献及其元关键词管理模块，实现如下功能：源文献的新增删除修改，以及源文献元关键词的新增删除修改。

所述定义模块还用于定义元关键词语义权重，并将源文献元关键词与其语义权重关联；所述检索结果处理模块实现以下功能：

1)根据元关键词语义权重绝对值和所在源文献的元关键词数量，计算元关键词语义权重相对补偿值；

2)综合计算检索结果集中索引项权重和元关键词语义权重相对补偿值获得相对比较权重值；

3)对检索结果集中同一源文献的相对比较权重值求和；

4)对检索结果集中的源文献按照相对比较权重值求和的结果排序；

5)根据各个索引项的索引表中的元关键词词条的识别码，以及通过源文献与其元关键词的关联，组织检索结果集中源文献及其关联的元关键词集合；

6)返回排序后检索结果。

与现有技术相比，本发明的积极效果是：

1.通过引入元关键词作为中间层，使得源文献与其索引形成松耦合；

2.源文献的新增、删除可以“即时”支持后续的检索；

3.源文献的修改完全不会导致检索方案定义的流程的重新计算，可以“即时”支持后续的检索；

4.面向源文献元关键词建立索引，其索引结构简单，时间空间复杂度相对低；

5.源文献元关键词的新增删除修改引起对索引的更新，其时间空间复杂度相对低；

6.基于上述索引完成检索，时间空间复杂度相对低；

7.引入和计算元关键词的语义权重，可以完成元关键词语义权重在排序计算中的补偿，增加检索结果排序的合理性；

8.对计算资源的需求相对低。

附图说明

本发明将通过例子并参照附图的方式说明，其中：

图1是源文献与其倒排索引基于抽取关键词的耦合示意图；

图2是新增删除源文献的倒排索引数据结构计算示意图；

图3是修改源文献的倒排索引数据结构计算示意图；

图4是源文献与基于元关键词建立的索引的松耦合示意图；

图5是新增删除源文献的基于元关键词建立的索引数据结构计算示意图；

图6是修改源文献的基于元关键词建立的索引数据结构计算示意图；

图7是新增删除修改源文献元关键词的索引数据结构计算示意图；

图8是本发明的系统结构图；

图9是本发明的源文献及其元关键词管理模块的流程图。

具体实施方式

如图8所示，一种面向源文献元关键词的检索系统，包括：源文献接收模块、定义模块、索引模块、检索模块、检索结果处理模块和源文献及其元关键词管理模块。

如图9所示，所述源文献及其元关键词管理模块的工作流程为：源文献接收模块接收源文献，完成后，源文献及其元关键词管理模块向定义模块发出指令，定义模块完成定义后，源文献及其元关键词管理模块向索引模块发出指令，索引模块完成索引后，源文献及其元关键词管理模块向检索模块发出指令，检索模块完成检索后，源文献及其元关键词管理模块向检索结果处理模块发出指令，对检索结果进行处理。

各个模块实现的功能如下：

1、源文献接收模块：提供对源文献的输入或者采集功能，用于接收源文献的输入或者自动采集源文献。

2、定义模块：用于定义源文献元关键词，并将源文献与源文献元关键词关联，以及定义元关键词语义权重，并将源文献元关键词与其语义权重关联。元关键词是源文献的特征词；元关键词可以出现在源文献中，也可以不出现在源文献中。元关键词对其所属的源文献的权重，称为“元关键词的语义权重”。定义元关键词和元关键词语义权重有两种方式：接收定义者输入或者通过系统自动计算来定义。可以定义源文献所有的元关键词的语义权重的和为1。

3、索引模块，完成以下功能：

1)基于元关键词建立索引，比如二叉树索引、全文索引、倒排索引等：

如图4所示，引入源文献元关键词，作为源文献和索引项之间的中间层。对源文献D_i定义元关键词(Term i，Term j)，对源文献D_j定义元关键词(Termi，Term j，Term k)；基于全部元关键词建立索引，这里以倒排索引为例说明：

如图4所示，元关键词词条是索引项；相同的元关键词词条“合并”到同一索引项，如图中箭头H₁、H₂以及H₃、H₄所示，对应的元关键词词条的信息放入同一索引表中，如图中(termId_ii，W_ii)和(termId_ij，W_ij)等所示。图4中还列出了元关键词是多个词条的情况下的索引项。

如图4所示，其中termId是元关键词词条的识别码(Id)，这样可以区分当前元关键词词条对应的源自各个源文献的元关键词。

2)计算索引项权重，如图4所示，索引表中另一部分是索引项的权重。W_ij表示源自源文献D_j的Term i的索引项的权重，W_kj表示源自源文献D_j的Term k的索引项的权重。W是索引项的权重，是fr，ofr，G的函数，即：权重函数W＝F(fr，ofr，G)，其中：

fr：当前索引项在其所在元关键词中的重要性，比如用频度来表征，可以是：fr＝N；fr＝logN；fr＝logN+1等，其中N是当前索引项在其所在元关键词中出现的次数；

ofr：当前索引项所在元关键词中其它索引项的重要性，比如用频度来表征，可以是：ofr＝∑_kN_k-N；ofr＝∑_klogN_k-N；ofr＝∑_kN_k；ofr＝∑_klogN_k等，其中∑_kN_k表示当前索引项所在元关键词中所有索引项在所在元关键词中出现的次数的和，其它∑_k形式以此类推；其中N是当前索引项在其所在元关键词中出现的次数；

G：当前索引项在全部元关键词中的重要性，比如包含当前索引项的元关键词的数量或者比例，可以是：G＝S/C；G＝log(S/C)；G＝(S-C)/C；G＝log((S-C)/C)等，其中S是当前全部元关键词的数量；其中C是包含当前索引项的元关键词的数量；

于是，W＝F(fr，ofr，G)，可以是：

W＝fr/ofr*G；

W＝c*fr/ofr*G；

W＝fr/ofr*log(G)等。

其中c是常数系数；其中log(G)表示G的对数。

3)存储索引项权重在索引表节点中：

存储策略一，存储W＝F(fr，ofr，G)在索引表节点中。

存储策略二，存储WL＝FL(fr，ofr)在索引表节点中，FL(fr，ofr)是F(fr，ofr，G)中不含变量G的部分，如FL(fr，ofr)＝fr/ofr等。

4)完成索引表中节点的新增删除修改。

4、检索模块：用于接收查询关键词，检索索引模块建立的源文献元关键词索引，获得与查询关键词词条匹配的索引项及其相应索引表结果集，并返回上述结果集。

5、检索结果处理模块，用于接收检索模块返回的结果集，并对检索结果集中的源文献按照与查询关键词匹配的索引项的权重进行排序，返回排序后的检索结果。

为了增加排序的准确性，检索结果处理模块还能实现以下功能：

1)计算元关键词语义权重相对补偿值SWC＝F_c(SAV，KN)，其中SAV是元关键词语义权重绝对值，KN是所在源文献的元关键词数量，可以是SWC＝SAV*KN；SWC＝log(SAV*KN)等。

元关键词对其所属的源文献的权重，称为“语义权重”，可以定义源文献所有的元关键词的语义权重的和为1，比如：源文献A、B、C，分别定义了元关键词(A1，A2)、(B1，B2，B3)和(C1，C2，C3，C4，C5)，源文献A的元关键词及其语义权重定义为((A1，0.5)，(A2，0.5))，源文献B的元关键词及其语义权重定义为((B1，0.2)，(B2，0.2)，(B3，0.2)，(B4，0.2)，(B5，0.2))，源文献C的元关键词及其语义权重定义为((C1，0.3)，(C2，0.2)，(C3，0.2)，(C4，0.1)，(C5，0.2))。

由于每个源文献的元关键词的数量不是都一样的，且每个源文献的元关键词的语义权重的和都是1，元关键词上的语义权重分布受到所在源文献的元关键词数量的影响：元关键词数量多，语义权重绝对值相对小，元关键词数量少，语义权重绝对值相对大。这里把元关键词上的语义权重分布受到所在源文献的元关键词数量的影响这个特性称为“元关键词的语义权重的分布特性”。如果在排序时考虑到元关键词的语义权重的分布特性，通过计算元关键词语义权重相对补偿值，来参与对源文献的排序，获得的排序结果将更合理和正确。

2)综合计算检索结果集中索引项权重和元关键词语义权重相对补偿值获得“相对比较权重值”RCW＝F_r(W，SWC)，其中W是索引项权重，SWC是元关键词语义权重相对补偿值，可以是RCW＝W*SWC，RCW＝c1*W+c2*SWC等，其中c1、c2是事先设定的常数系数；

3)对检索结果集中同一源文献的上述相对比较权重值求和；

4)对检索结果集中的源文献按照上述相对比较权重值求和的结果排序；

5)根据各个索引项的索引表中termId，以及通过源文献与其元关键词的关联，组织检索结果集中源文献及其关联的元关键词集合；

6)返回排序后检索结果。

6、源文献及其元关键词管理模块，实现如下功能：

1)源文献的新增删除修改

新增源文献：源文献接收模块接收新增的源文献；定义模块接收或者定义相应的元关键词，并将它们关联起来；索引模块建立基于元关键词的索引，包括计算其在对应的索引表中的权重和在索引表中新增节点；

删除源文献：源文献及其元关键词管理模块定位指定的源文献，定义模块定位源文献关联的元关键词；源文献及其元关键词管理模块完成源文献的删除，定义模块完成关联的元关键词的删除；索引模块完成元关键词相应的索引项权重的更新以及索引表中节点的删除。

如图5所示，新增源文献的时候，需要将元关键词的索引项的节点新增到相应的索引表中；删除源文献的时候，需要将元关键词的索引项的相应索引表中的节点删除。基于元关键词建立索引，源文献的新增、删除计算相对简单，对计算资源的需求相对低，可以“即时”支持后续的检索。

修改源文献：源文献及其元关键词管理模块定位指定的源文献；完成修改后，源文献及其元关键词管理模块更新源文献：

如图6所示，修改源文献的时候，因为源文献元关键词并没有改变，所以源文献的修改完全不会导致索引数据结构的计算，可以“即时”支持后续的检索。

2)源文献元关键词的新增删除修改：引入元关键词作为中间层，源文献和索引之间形成了松耦合，同时元关键词是存在新增删除修改的。

新增元关键词：源文献及其元关键词管理模块定位指定的源文献；定义模块接收或者定义新增的元关键词，并将指定的源文献与新增元关键词关联起来；索引模块建立新增元关键词的索引，包括计算其在对应的索引表中的权重，以及在索引表中新增节点；

删除元关键词：源文献及其元关键词管理模块定位指定的源文献，及其关联的元关键词；定义模块完成指定的元关键词的删除；索引模块更新元关键词的索引，包括元关键词相应的索引表中节点的删除；

修改元关键词：源文献及其元关键词管理模块定位指定的源文献，及其关联的元关键词；定义模块完成指定的元关键词的更新；索引模块更新元关键词的索引，包括修改前元关键词相应的索引表中节点的删除和修改后元关键词相应的索引表中节点的新增。

如图7所示，源文献D_j新增Term i，会在索引项Term i对应的索引表中新增节点；源文献D_j删除Term j，会在索引项Term j对应的索引表中删除节点；源文献D_j修改Term k为Term m，会在索引项Term k对应的索引表中删除节点，同时在索引项Term m对应的索引表中新增节点。

Claims

1.一种面向源文献元关键词的检索系统，其特征是：包括源文献接收模块、定义模块、索引模块、检索模块、检索结果处理模块和源文献及其元关键词管理模块；其中：

2.根据权利要求1所述的面向源文献元关键词的检索系统，其特征是：

3)对检索结果集中同一源文献的相对比较权重值求和；

6)返回排序后检索结果。