CN1641638A

CN1641638A - 一种计算机标引和检索的方法

Info

Publication number: CN1641638A
Application number: CN 200410000936
Authority: CN
Inventors: 刘千祥; 季晓燕; 周群; 苏华; 赵静
Original assignee: CHINA COMPUTER WORLD PUBLICATION SERVICE Co
Current assignee: CHINA COMPUTER WORLD PUBLICATION SERVICE Co
Priority date: 2004-01-17
Filing date: 2004-01-17
Publication date: 2005-07-20
Anticipated expiration: 2024-01-17
Also published as: CN100535893C

Abstract

本发明提出一种利用计算机系统进行自动标引及检索的方法，利用包括内容分析子系统、普通索引子系统、隐含概念索引子系统和检索子系统的计算机系统进行自动标引和检索。通过对文献增加隐含概念的标引及在其基础上的检索，使检索输出的文献更为全面和准确。

Description

一种计算机标引和检索的方法

技术领域

本发明涉及计算机信息处理技术，特别是一种利用计算机对文献进行标引和检索的方法。

背景技术

随着计算机技术特别是互联网技术的迅速发展，信息爆炸性地增长。如何快速、准确地获取自己所需要的信息是人们的迫切需求。利用计算机系统进行自动标引和检索技术的发展为我们提供了有力的支持。基于词汇的检索技术是目前最常见的检索技术，由这种方法构建的计算机检索系统，使用者只要输入以词汇、短语或句子组成的提问，就可以实现对相关文献的检索。

目前进行自动标引和检索的计算机系统一般包括内容分析子系统、索引子系统和检索子系统(参见公开号为CN1435776A的专利文献)。其进行标引的方法主要包括以下步骤：进行文本分析、自动分词，根据词频等信息提取关键词，并计算出每个关键词与文献的相关度，为文献建立以词汇为内容的倒排索引。其进行检索的方法主要包括以下步骤：检索输入串进行分词处理，得到检索关键词，用检索关键词依据一定的信息检索模型进行检索，得到文献和检索输入串的相关度，然后根据文献的相关度进行排序输出。

目前的自动标引多是字面标引，也就是将文本中出现的关键词标为该文的索引词，也有部分进行同义词或上位词标引。例如：文本中出现“计算机”一词，字面标引仅将“计算机”作为索引词，而同义词标引则同时将其同义词“电脑”作为索引词；文本中出现“Windows 2000”一词，字面标引仅将“Windows 2000”作为索引词，而上位词标引同时将其上位词“操作系统”作为索引词。上述标引方法不进行更深层次的隐含概念的标引，不能揭示文本的隐含概念。

在检索时，目前常用的信息检索模型有：布尔检索模型、向量空间模型、概率检索模型。其中向量空间模型是指，在向量空间模型(Vector Space Model)中，检索系统中的每一篇文献和每一个提问式均用向量表示，例如：Di＝(T1，T2，T3，...，Tm)，Q＝(T1，T2，T3，...，Tn)，其中，Di为文献集合中的第i篇文献；Q为提问；Tk表示文献向量或提问向量中的第k个分量，即文献表示或提问式中所含的第k个索引词或检索词。那么向量Di(DVi)、Q(QV)可表示如下：

DVi＝(DWi1，DWi2，DWi3，...DWim)

QV＝(QW1，QW2，QW3，...QWn)

DWij和QWj 分别是文献和提问中每个分量(词)的权值，即词在特定文献中加权后的权重。向量空间模型将DWij和QWj在[0，1]区间取值。这样，就可以构成一个向量空间，把信息检索中文献与提问的匹配处理过程转化为向量空间中文献向量与提问向量的相似度计算问题。某一文献与某一提问的相关程度通过计算该向量对之间的相似度来测定。

计算向量对之间相似度最简单的方法就是用点积函数，它把文献向量与提问向量的相似度定义为：

Sim (DVi, QV) = Σ_{j = 1}^{n} DWij * QWj - - - (1)

公式(1)中，Sim(DVi，QV)表示文献向量Di与提问向量Q的相似度。

计算向量对之间相似度较常用的方法是用余弦函数，它将相似度定义为：

Sim (DVi, QV) = \frac{Σ_{j = 1}^{n} DWij * QWj}{\sqrt{(Σ_{j = 1}^{n} {DWij}^{2}) (Σ_{j = 1}^{n} {QWj}^{2})}} - - - (2)

公式(2)中，Sim(DVi，QV)表示文献向量Di与提问向量Q的相似度，这种方法的实质就是计算多维空间中文献向量与提问向量之间的夹角余弦。当两个向量完全相同时，它们在该空间中相互重叠，即夹角为0，函数(相似度)达到最大值。公式中的分母作为某种标准化因子起作用。若向量之间夹角很小，且采用的是标准化向量，那么向量之间的夹角余弦近似等于对应向量的端点之间的距离。

当全部文献向量与某个提问向量的相似度都计算完毕后，系统就把相似度超过某一规定阈值的文献(或者根据预定要检出的文献数量)按相似度大小降序排列输出。

使用公式(1)计算向量相似度有明显的局限性，因为公式(1)只是向量简单相加，未考虑向量的夹角，这样计算出的向量相似度与实际情况可能会有较大出入，如：根据公式(1)将向量简单相加后计算出的相似度相同的文献，其向量夹角可能并不相同，这样实际相似度也不相同，向量夹角小的实际相似度高；公式(2)只度量了两个向量的夹角大小，而没有考虑向量的长度，这样计算出的向量相似度也可能与实际情况有较大出入，如：根据公式(2)的计算结果，向量夹角大小一致而向量长度不一样的文献相似度相同，而事实上向量长度大的文献的实际相似度高。所以上述两种计算方法都有一定局限性。

目前检索技术的另一个局限性是检索结果仅仅考虑文献的相关度，而不考虑时间，实际上只按相关度排序在很多时候并不符合用户实际的需求，因为在一般情况下，用户需要既相关又时效性强文献。

发明内容

本发明的方法针对上述标引方法的不足，提出一种利用计算机系统进行自动标引及其基础上的检索方法，使检索输出的文献更为全面；作为本发明的进一步改进，还针对上述检索方法的不足，提出新的技术方案，使检索输出文献与提问关键词的相关度更高，保证检索的准确性。

本发明的目的是通过以下技术方案实现的：

本方法利用包括内容分析子系统、普通索引子系统、隐含概念索引子系统和检索子系统的计算机系统进行自动标引和检索。其中隐含概念索引子系统中存储有由隐含概念规则表组成的隐含概念规则数据库，隐含概念规则表的内容包含有隐含概念、隐含概念所对应的词、隐含概念所对应的词的权值。本方法利用隐含概念索引子系统进行隐含概念的标引，并根据包括隐含概念索引在内的文献索引提供检索结果。本方法利用隐含概念索引子系统进行隐含概念的标引时包括以下步骤：

根据存储在隐含概念索引子系统内的隐含概念规则数据库及文献的关键词权值信息计算隐含概念与文献的相关度；

将与文献的相关度达到一定阈值的隐含概念作为索引词进行标引；

该方法根据包括隐含概念索引在内的文献索引提供检索结果。

所述隐含概念规则库可以由隐含概念规则表组成，该规则表包含隐含概念、隐含概念所对应的词、隐含概念所对应的词权值。

在计算隐含概念与文献的相关度时采用向量空间模型，其计算公式为：

Sim (Dvi, Cvi) = \frac{Σ_{j = 1}^{n} DWij * CWij}{Σ_{j = 1}^{n} {(DWij)}^{2} + Σ_{j = 1}^{n} {(CWij)}^{2} - Σ_{j = 1}^{n} DWij * CWij} - - - (3)

(3)式中Sim(Dvi，Cvi)为隐含概念与文献的相关度，DWij为文献中每个关键词的权值，CWij为隐含概念规则表中每个隐含概念所对应的关键词的权值。

作为本发明的进一步改进，运用信息检索模型的向量空间模型进行检索时，计算文献和提问的相关度的公式为：

Sim (Dvi, Qv) = \frac{Σ_{j = 1}^{n} DWij * QWj}{Σ_{j = 1}^{n} {(DWij)}^{2} + Σ_{j = 1}^{n} {(QWj)}^{2} - Σ_{j = 1}^{n} DWij * QWj} - - - (4)

式中Sim(DVi，QV)表示文献向量与提问的相关度，Dwij为文献中每个索引词的权值，QWj为提问经过分析后所得出的每个关键词的权值。

作为本发明的进一步改进，本方法的检索结果可以依据文献的综合相关度排序输出，文献的综合相关度的计算方法为：将文献的时间和文献与提问的相关度进行加权处理，得到文献的综合相关度。

与现有技术相比，本发明具有以下优点：

1、目前自动标引的索引多是字面索引，未能进行更深层次的隐含概念的标引，不能揭示文本的隐含概念，本发明提出自动标引在字面索引的基础上加入隐含概念的标引，使得更能准确地索引文献。

2、目前检索时采用的向量空间模型中计算相关度的算法(点积函数、余弦函数)不能兼顾向量的夹角和长度两个因素，因而计算结果的精确度有限。本发明采用的一种计算文献和提问相关度的新算法，能够同时兼顾向量的夹角和长度两个因素，计算结果的精确度大大提高。

3、目前已有检索方法的检索结果仅按相关度排序而不考虑时间导致很早的文献出现在检索结果前列，或者按时间排序时不考虑相关度导致相关性很小的文献出现在检索结果前列，本发明提出采用相关度与时间相结合的办法，排序输出。保证相关且时间近，符合用户实际需求。

附图说明：

图1为本发明计算机标引和检索的基本框架

图2为本发明隐含概念的标引方法的工作流程

图3为本发明计算机检索方法的工作流程

具体实施方式

下面结合附图和具体实施方式对本发明作进一步描述：

本发明的方法适用于通过计算机系统对文字文献所组成的信息库进行自动标引和检索。图1显示了本实施例的方法所利用的计算机系统的基本框架。本方法利用包含有内容分析子系统、索引子系统、隐含概念索引子系统和检索子系统的计算机系统进行计算机自动标引和检索。其中内容分析子系统是对检索所针对的文字文献数据库中的每一篇文献内容进行分析，通过文本分析、自动分词得到文献的词频等信息，提取关键词；索引子系统根据文献的词频等信息，进行字面标引、同义词标引等常用的标引；隐含概念索引子系统中存储有由隐含概念规则表组成的隐含概念规则数据库，隐含概念索引子系统负责隐含概念的标引；检索子系统负责响应用户的检索请求，完成检索和结果输出的工作。在具体设备配置方面，可以使用一台服务器运行上述几个子系统，也可以用多台服务器分别运行。

本实施例采用的计算机标引方法包括以下步骤：

1、通过文本分析、自动分词得到文献的词频等信息，提取文献的关键词；

2、根据文献关键词的权值信息，在字面标引、同义词标引的基础上加入隐含概念的标引；

3、利用最后得到的文献索引词及其权值信息，建立倒排索引(D，T，W)。其中D为文献，T为词，W为文献词相关权值。

图2为进行上述步骤2中的隐含概念的标引的工作流程，隐含概念的标引方法包含以下步骤：

21、建立隐含概念规则库并将其存储在隐含概念索引子系统中。该规则库由隐含概念规则表组成，规则表包含隐含概念、隐含概念所对应的词、隐含概念所对应的词权值，可表示为(Ci，Tij，CWij)，其中Ci为隐含概念，Tij为词，CWij为词权值。例如对于隐含概念“新网站”，规则表内容可以设计为：新网站，网站，1.0；新网站，开通，0.9；新网站，推出，0.9；新网站，发布，0.9；……。其中“新网站”为隐含概念，“网站”“开通”、“推出”、“发布”等为相关的词，“1.0”、“0.9”、“0.9”、“0.9”等为不同相关词的权值。该权值的加权因素可以包括词频、倒置文献频率、规范因子等。

22、将通过文本分析、自动分词得到的文献的词频信息进行归一化处理，得到归一化的文献关键词权值信息，可表示为(Di，Tij，DWij)。其中Di为文献集合中的第i篇文献，Tij为第i篇文献中的第j个关键词，DWij第i篇文献中的第j个关键词的权值。为进行归一化处理可以采用目前常用的词频、倒置文献频率公式(即TF-IDF公式)计算词权值，加权因素有词频、倒置文献频率、规范因子等。

23、根据已经建立的隐含概念规则库和归一化后的文献关键词权值信息，运用向量空间模型计算隐含概念与文献的相关度。计算公式为：

Sim (Dvi, Cvi) = \frac{Σ_{j = 1}^{n} DWij * CWij}{Σ_{j = 1}^{n} {(DWij)}^{2} + Σ_{j = 1}^{n} {(CWij)}^{2} - Σ_{j = 1}^{n} DWij * CWij} - - - (3)

(3)式中Sim(Dvi，Cvi)为隐含概念与文献的相关度，DWij为文献中每个关键词的权值，CWij为隐含概念规则表中每个隐含概念所对应的该关键词的权值。

24、将与文献的相关度达到一定阈值的隐含概念作为索引词进行标引。

图3显示了本实施例计算机检索方法的工作流程，该方法根据包括隐含概念索引在内的文献索引提供检索结果，包含以下具体步骤：

1、接收用户提出的检索请求，所谓检索请求是指用户在检索时输入的字符串，也就是提问，可以是词汇、短语或句子。

2、对检索输入串进行分词处理，得到检索关键词。

3、运用信息检索模型的向量空间模型进行检索，得到文献和提问的相关度。计算公式如下：

Sim (Dvi, Qv) = \frac{Σ_{j = 1}^{n} DWij * QWj}{Σ_{j = 1}^{n} {(DWij)}^{2} + Σ_{j = 1}^{n} {(QWj)}^{2} - Σ_{j = 1}^{n} DWij * QWj} - - - (4)

(4)式中Sim(DVi，QV)表示文献向量DVi与提问向量QV的相似度，Dwij为文献中每个索引词的权值，QWj为提问中每个关键词的权值，DWij和QWj在[0，1]区间取值。

上述公式能够同时兼顾向量的夹角和长度两个因素。当文献和提问内容毫不相关时(即它们的关键词集合没有交集)，Sim的值为0。当它们相同时，Sim为1。当它们相似而不相同时，Sim的值介于0和1之间，于是Sim的值成为判断文献和提问相似度的标准。

例如有提问Q(T1，T2)，其向量表示为QV＝(QW1，QW2)＝(1，1)，一般情况下可以认为提问向量各向量的权值为1。

假设文献库中有两篇文献(DV1，DV2)与之相关，DV1＝(0.9，0.1)，其中0.9是T1在DV1的权值，0.1是T2在DV1的权值；DV2＝(0.6，0.4)，其中0.6是T1在DV2的权值，0.4是T2在DV2的权值。

利用点积函数公式(1)求得sim(DV1，QV)＝1.0，sim(DV2，QV)＝1.0

利用余弦函数公式(2)求得sim(DV1，QV)＝0.78，sim(DV2，QV)＝0.96

利用公式(4)求得sim(DV1，QV)＝0.55，sim(DV2，QV)＝0.66

点积函数公式计算的结果是两篇文献(DV1，DV2)对于提问Q(T1，T2)同样重要，而事实上文献DV2对于提问Q(T1，T2)更相关，也就是说公式(2)、(4)的结果更准确些。

假设文献库中有两篇文献(DV1，DV2)与之相关，DV1＝(0.3，0.3)，其中0.3是T1在DV1的权值，0.3是T2在DV1的权值；DV2＝(0.7，0.7)，其中0.7是T1在DV2的权值，0.7是T2在DV2的权值。

利用点积函数公式(1)求得sim(DV1，QV)＝0.6，sim(DV2，QV)＝1.4

利用余弦函数公式(2)求得sim(DV1，QV)＝1.0，sim(DV2，QV)＝1.0

利用公式(4)求得sim(DV1，QV)＝0.38，sim(DV2，QV)＝0.89

余弦函数公式计算的结果是两篇文献(DV1，DV2)对于提问Q(T1，T2)同样重要，而事实上文献DV2对于提问Q(T1，T2)更相关，也就是说公式(1)、(4)的结果更准确些。

通过将计算结果与实际情况比较，可以认为公式(4)能够同时兼顾向量的夹角和长度两个因素，较公式(1)、(2)更能准确反映文献和提问的相关度。

4、根据文献的时间和相关度进行加权处理，得到文献的综合相关度

将文献的时间权值表示为Si，根据文献的时间权值Si和上述步骤3得到提问和文献的相关度Sim(DVi，QV)计算文献的综合相关度，公式如下：

SimT(DVi，QV)＝Sim(DVi，QV)+k*Si

式中SimT(DVi，QV)表示文献的综合相关度，k为时间加权系数。

在本实施例中，我们计算时间权值Si的方法如下：

根据与当前时间的时间差将时间分为时间段，每段时间分别设定一个权值，文献的时间属于哪个时间段则赋予其相应的时间权值。例如：以一年为单位分为时间段，所有当前年的文献的时间权值为1，与当前年相比每早一年的文献，其时间权值减少0.05，与当前年相比早20年或以上的文献时间权值都设定为0。也就是说，在2003年时，2003年的文献为当前年文献，其时间权值为1，2002年的文献的时间权值为0.95，以此类推为2001年、2000年、1999年等等每一年的文献赋予时间权值；在2004年时，2004年的文献为当前年文献，2004年的文献的时间权值为1，2003年的文献的时间权值则为0.95，以此类推为2002、2001年、2000年、1999年等等每一年的文献赋予时间权值。

5、根据综合相关度进行排序输出

根据步骤4中计算所得的文献的综合相关度进行排序，将大于特定阈值的文献输出到检索结果。

通过上述标引和检索的方法，可以保证得到的检索结果与检索输入串既相关又时效性强，符合读者实际需求。

Claims

1、一种计算机标引和检索的方法，利用包括内容分析子系统、普通索引子系统和检索子系统的计算机系统进行自动标引和检索，其特征在于所述计算机系统还包含有隐含概念索引子系统，该子系统中存储有由隐含概念规则表组成的隐含概念规则库，隐含概念规则表的内容包含有隐含概念、隐含概念所对应的词、隐含概念所对应的词的权值；所述标引和检索的方法利用隐含概念索引子系统进行隐含概念的标引，并根据包括隐含概念索引在内的文献索引提供检索结果；所述方法利用隐含概念索引子系统进行隐含概念的标引时包括以下步骤：

根据存储在隐含概念索引子系统内的隐含概念规则库及文献的关键词权值信息计算隐含概念与文献的相关度；

2、根据权利要求1所述的一种计算机标引和检索的方法，其特征在于隐含概念规则库由隐含概念规则表组成，该规则表包含隐含概念、隐含概念所对应的词、隐含概念所对应的词权值。

3、根据权利要求1或2所述的一种计算机标引和检索的方法，其特征在于计算隐含概念与文献的相关度的计算公式为：

Sim (Dvi, Cvi) = \frac{Σ_{j = 1}^{n} DWij * CWij}{Σ_{j = 1}^{n} {(DWij)}^{2} + Σ_{j = 1}^{n} {(CWij)}^{2} - Σ_{j = 1}^{n} DWij * CWij}

式中Sim(Dvi，Cvi)为隐含概念与文献的相关度，DWij为文献中每个关键词的权值，CWij为隐含概念规则表中每个隐含概念所对应的关键词的权值。

4、根据权利要求1或2所述的一种计算机标引和检索的方法，其特征在于该方法运用信息检索模型的向量空间模型进行检索，文献与提问的相关度的计算公式为：

Sim (Dvi, Qv) = \frac{Σ_{j = 1}^{n} DWij * QWj}{Σ_{j = 1}^{n} {(DWij)}^{2} + Σ_{j = 1}^{n} {(QWj)}^{2} - Σ_{j = 1}^{n} DWij * QWj}

式中Sim(Dvi，Qv)表示文献向量与提问的相关度，Dwij为文献中每个索引词的权值，QWj为提问中每个关键词的权值。

5、根据权利要求3所述的一种计算机标引和检索的方法，其特征在于该方法运用信息检索模型的向量空间模型进行检索，文献与提问的相关度的计算公式为：

Sim (Dvi, Qv) = \frac{Σ_{j = 1}^{n} DWij * QWj}{Σ_{j = 1}^{n} {(DWij)}^{2} + Σ_{j = 1}^{n} {(QWj)}^{2} - Σ_{j = 1}^{n} DWij * QWj}

6、根据权利要求1或2所述的一种计算机标引和检索的方法，其特征在于检索结果是依据文献的综合相关度排序输出的，文献的综合相关度的计算方法为：将文献的时间和文献与提问的相关度进行加权处理，得到文献的综合相关度；计算公式如下：

SimT(Dvi，Qv)＝Sim(Dvi，Qv)+k*Si

式中SimT(Dvi，Qv)表示文献的综合相关度，Sim(Dvi，Qv)为文献向量与提问向量的相关度，k为时间加权系数，Si为时间权值。

7、根据权利要求3所述的一种计算机标引和检索的方法，其特征在于检索结果是依据文献的综合相关度排序输出的，文献的综合相关度的计算方法为：将文献的时间和文献与提问的相关度进行加权处理，得到文献的综合相关度；计算公式如下：

SimT(Dvi，Qv)＝Sim(Dvi，Qv)+k*Si

8、根据权利要求5所述的一种计算机标引和检索的方法，其特征在于检索结果是依据文献的综合相关度排序输出的，文献的综合相关度的计算方法为：将文献的时间和文献与提问的相关度进行加权处理，得到文献的综合相关度；计算公式如下：

SimT(Dvi，Qv)＝Sim(Dvi，Qv)+k*Si

9、根据权利要求6所述的一种计算机标引和检索的方法，其特征在于计算所述时间权值Si的方法如下：

根据与当前时间的时间差将时间分为时间段，每段时间分别设定一个权值，文献的时间属于哪个时间段则赋予其相应的时间权值。

10、根据权利要求7所述的一种计算机标引和检索的方法，其特征在于计算所述时间权值Si的方法如下：