CN102110174A

CN102110174A - 一种基于关键词的web服务器扩展检索方法

Info

Publication number: CN102110174A
Application number: CN 201110089889
Authority: CN
Inventors: 叶蕾; 邹国奇; 刘春伟
Original assignee: Chongqing University
Current assignee: Chongqing University
Priority date: 2011-04-11
Filing date: 2011-04-11
Publication date: 2011-06-29
Anticipated expiration: 2031-04-11
Also published as: CN102110174B

Abstract

本发明提供了一种基于关键词的WEB服务器扩展检索方法，该方法由WEB服务器提供的检索系统自动扩展出与用户所输入关键词相对应的扩展词进行辅助检索，即WEB服务器的检索系统在进行检索之前，先根据扩展条件自动把用户查询的关键词进行语义扩展，从而形成新的查询条件，并检索相匹配的信息文本返回给用户。本发明方法可增强WEB服务器的语义扩展检索性能，并且扩展条件可灵活选择，能够更好的满足人们对于语义信息检索的灵活性需求。

Description

一种基于关键词的WEB服务器扩展检索方法

技术领域

本发明属于计算机与通信技术领域，尤其涉及一种基于关键词的WEB服务器扩展检索方法。

背景技术

互联网与计算机网络技术的发展给人们带来了前所未有的方便，其蕴涵的大量共享资源，已成为人类获得信息的重要途径之一。互联网络中的文本信息的数量不断增加，个人和组织拥有的文档数量也越来越多。随着人们对信息获取所要求的准确性和全面性，从而如何从海量的信息资源中快速的检索出满足用户所需的信息已成为亟需解决的问题。

近几十年来，文本检索的研究取得了很大进展，典型的有决策树、K近邻、朴素贝叶斯和向量空间模型中基于特征向量与向量机、潜在语义分析(Latent Semantic Analysis，简称LSA)等。但大多数方法存在严重的鲁棒性问题，这些文本检索系统都是基于词频统计的向量空间模型(Vector Space Model，简称VSM)的改进或推广，其基本思想是用向量之间的距离来逼近文本之间的语义相似性，VSM的优点是将文本和检索简化为词项及权重集合的向量表示，从而把检索操作变成向量空间上的向量运算，从而使得检索简便快捷，适合于大规模文档库的文本检索。基于现有VSM模型的互联网络检索模式，是将海量的信息以文本的形式存储在WEB服务器的信息文本数据库中，用户使用计算机客户端输入药检所的关键词并通过互联网络向WEB服务器发送检索请求，WEB服务器的检索请求解析程序解析获得关键词，并通过搜索引擎检索信息文本数据库，获得与关键词相匹配的项检索结果返回至发送检索请求的客户端，完成信息检索。

但是，VSM模型假定的关键词仅唯一地代表一个概念或语义单元，这种基于关键词频统计的文本处理方法，其两个文本的相似度取决于它们包含的公共词语的数量，而无法体现语义信息。然而，在很多情况下，人们需要检索的信息是包含关键词所体现的语义信息的，例如外地游客需要查询陌生城市中的住宿地点，输入关键词“住宿”，实际上该游客需要查询的内容包括了旅社、宾馆、酒店等各种与“住宿”相关的信息，针对这种情况，现有的检索技术是难以满足用户检索需求的，因此用户只能够针对含有相同语义的不同关键词进行反复的检索，以从中搜寻自己需要的信息，非常麻烦。

发明内容

针对现有技术中存在的上述问题，本发明综合考虑到人们对于语义信息检索的灵活性需求，提出一种基于关键词的WEB服务器扩展检索方法，通过该方法增强WEB服务器的语义扩展检索性能。

为实现上述目的，本发明采用了如下的技术手段：

一种基于关键词的WEB服务器扩展检索方法，包括如下步骤：

1)在WEB服务器的检索请求解析程序与搜索引擎之间设置关键词扩展程序；所述关键词扩展程序由扩展信息注册线程、扩展条件生成线程、扩展信息解析线程以及关联词映射表、拼音汉字映射表、英汉对照映射表、同义词映射表、错别字映射别和缩写词映射表组成；

2)通过扩展信息注册线程，将关联词对应关系、拼音与汉字对应关系、英文与汉字对应关系、同义词对应关系、错别字对应关系和缩写词对应关系分别存入或更新到关联词映射表、拼音汉字映射表、英汉对照映射表、同义词映射表、错别字映射别和缩写词映射表中；

3)当WEB服务器收到来自客户端的检索请求时，检索请求解析程序解析检索请求获得检索的关键词以及扩展条件选项，所述扩展条件选项用于指定关联词映射表、拼音汉字映射表、英汉对照映射表、同义词映射表、错别字映射别、缩写词映射表中的一项或几项映射表作为扩展条件；扩展条件生成线程将扩展条件选项所选择各项映射表生成为一份扩展条件映射总表；扩展信息解析线程查询扩展条件映射总表中的各项映射表，获得与关键词相对应的扩展词；搜索引擎则根据检索请求解析程序解析获得的关键词以及扩展信息解析线程查询获得的对应的扩展词检索信息文本数据库，获得分别与关键词及其对应的扩展词相匹配的各项检索结果，并将所述检索结果返回至发送检索请求的客户端。

上述的基于关键词的WEB服务器扩展检索方法中，进一步，所述关联词对应关系，是针对一个候选词，建立一个包含该候选词的文本库，通过基于广义jaccard系数的相似度算法从所述文本库中计算与该候选词相关度，取相关度排列前三的三个词作为与该候选词对应的关联词；由此获得关联词对应关系。

进一步，所述拼音与汉字对应关系根据汉语词典获得。

进一步，所述英文与汉字对应关系根据英汉对照词典获得。

进一步，所述同义词对应关系根据同义词词典获得。

相比于现有技术，本发明具有如下优点：

1、本发明方法针对人们对文本检索准确性和高效性的需求，研究了查询扩展技术以及其在文本检索中的应用，设计出一种基于关键词的WEB服务器扩展检索方法，增强WEB服务器的语义扩展检索性能，能够更好的满足人们对于语义信息检索的灵活性需求。

2、用户可通过扩展条件选项指定关联词映射表、拼音汉字映射表、英汉对照映射表、同义词映射表、错别字映射别、缩写词映射表中的一项或几项映射表作为扩展条件，更具自己的实际检索需求进行关键词扩展，使用灵活。

3、采用本发明方法的WEB服务器不需要在硬件上作改动，不会增加服务器的硬件建设成本，并且易于实现，更新和维护都很方便，具有很好的工业实用性。

附图说明

图1为采用本发明方法的检索过程流程框图。

具体实施方式

采用现有的检索技术，由于输入的关键词不匹配问题的存在，很多时候用户不得不反复针对含有相同语义的不同关键词进行检索，才能找到所需要的信息。本发明基于关键词的WEB服务器扩展检索方法就能够减轻用户的这一负担，由WEB服务器提供的检索系统自动扩展出与用户所输入关键词相对应的扩展词进行辅助检索，即查询扩展技术；简单地说来，就是WEB服务器的检索系统在进行检索之前，先根据扩展条件自动把用户查询的关键词进行语义扩展，从而形成新的查询条件，并检索相匹配的信息文本返回给用户。

本发明基于关键词的WEB服务器扩展检索方法的的流程框图如图1所示，其具体步骤如下：

通过上述的检索方法，WEB服务器即可根据用户通过扩展条件选项指定的关联词映射表、拼音汉字映射表、英汉对照映射表、同义词映射表、错别字映射别、缩写词映射表中的一项或几项映射表作为扩展条件，对关键词进行扩展检索，更好的满足人们对于语义信息检索的灵活性需求。由上述方法可见，要在现有的WEB服务器上实现本发明的检索方法，不需要在服务器的硬件上添加任何的额外装置，只需要在软件上增加关键词扩展程序即可，对于熟悉服务器编程的技术人员而言非常容易实现，而且关键词扩展程序中各映射表的更新和维护都很方便。

下面通过具体实施方式对本发明作进一步的说明。

根据目前网络语言的的特点以及汉语意思表达形式的多样化，结合现行所研究出来的语义扩展方法，本发明基于关键词的WEB服务器扩展检索方法中共设计了六个用于语义扩展的映射表，分别为关联词映射表、拼音汉字映射表、英汉对照映射表、同义词映射表、错别字映射别和缩写词映射表。对于不同的映射表，其对应关系需要通过不同的方式获得。

A、关联词对应关系的获得：

基于关键词匹配的现有检索技术中，由于单个的关键词所表达的语义并不明确，所以对于每个关键词计算其关联词也就是与之相关度高的词汇，以关联词作为体现关键词语义的一个方面。本发明方法中通过关联词映射表来记录关联词对应关系，而关联词对应关系则通过计算词汇的相关度来获得。

对于词汇相关度的计算方式，现行研究出来的已有很多，具体可参考文献“田萱、杜小勇、李海华.语义查询扩展中词语-概念相关度的计算[J]软件学报，2008，19(8)：第2043～2053页”以及“Ricardo Baeza Yates.现代信息检索[M].王知津，译.北京：机械工业出版社2004”。为了提高检索效率，结合WEB服务器自身的一些特征，本实施例中采用基于广义Jaccard系数的相似度计算方法来计算词与词之间的相关度，针对一个候选词，建立一个包含该候选词的文本库，通过基于广义jaccard系数的相似度算法从所述文本库中计算与该候选词相关度，取相关度排列前三的三个词作为与该候选词对应的关联词；由此获得关联词对应关系，从而建立不同词语的关联词。

一般数据类型有：标称型变量、序数型变量、二元变量、比例标度型变量、混合类型变量等。综合以上变量类型，文本字符串适合归为二元变量，所以可利用分词技术先将字符串分成若干个词，每个独立词作为二元变量的一个属性。把全部词设定为一个二元变量属性集合R，字符串A和字符串B的词包含于这个集合R。设m是字符串A词总数，n是字符串B词总数，p是字符串A、B共有词总数。m、n、p是字符串比较的3个状态分量。

采用广义Jaccard系数来描述两个字符串间(可以把一个词语看做一个字符串)的相关程度，即相似度＝p/(m+n-p)。

根据字符串相似度计算公式，结合向量空间模型中文本的表示，本文所采用的相关度算法如下：假设一文本库中文本集合为W，其中总的文本数为R篇，W中出现词a的文本集合为W_a，W_a＝{W_a1，W_a2，...，W_am}。设文本集合W中出现词b的文本集合为W_b，W_b＝{W_b1，W_b2，...，W_bn}。设W_a中含有词b的文章集合为W_ab∈W_a以及W_b中含有词a的文章集合为W_ba∈W_b，则出现词a的集合中含有词b的子集应等于出现词b的集合中含有词a的子集，即W_ab＝W_ba＝W_a∩W_b，W_ab＝{W_ab1，W_ab2，...，W_abs}。再设W中或者出现词a和或者出现词b的文本集合为W_a∪b，则W_a∪b＝W_a∪W_b，W_a∪b＝W_a+W_b-W_ab。从而由字符串相似度的定义有词a和词b的相似度Sim(a，b)必定正比于集合W_ab与集合W_a∪b大小之比，由此得到词a与词b相似度计算公式如下：

Sim (a, b) = \frac{β \times Z}{\sqrt{X^{2} + Y^{2} - Z^{2}}} - - - (1);

式(1)中参数

X = Σ_{i = 1}^{m} W_{ai},

Y = Σ_{j = 1}^{n} W_{bj},

Z = Σ_{k = 1}^{s} W_{abk};

其中

为修正系数均值，因为词a和词b有可能出现在同一个标题中，或者出现在同一个句子中，还有可能出现在同一段话中等等，所以根据在文本集合W_abi中词a和词b出现位置的不同赋予不同修正系数β_i。

定义查询词相关度的取值范围为(0，1]，相关度取1表示的是查询词同其自身的相关度。一般情况下相关度的取值都是很小的，所以为了让结果便于表示，这里对式(1)进行归一化处理，采用TF-IDF加权策略，可得归一化相关度：

norm_sim (a, b) = 1 + \frac{\log Sim (a, b)}{2} - - - (2);

根据以上算法，可快速计算找出指定候选词在文本库中的关联词及其相关度，取出相关度排列前三的三个词作为与该候选词对应的关联词。表1中列举了几个候选词通过上述方法计算得到的关联词：

表1

从表1中我们可以得出，由此方法计算能很好的得到候选词的关联词，并且关联词都在一定程度上体现了候选词的语义。

B、拼音与汉字对应关系的获得：

由于网络语言元素日益丰富、计算机输入法的限制等原因，在关键词的输入过程中有可能夹杂拼音，如“亚运会”输入成“ya运会”等等。本发明方法中通过拼音汉字映射表记录拼音与汉字对应关系，拼音与汉字对应关系则直接根据汉语词典获得。

C、英文与汉字对应关系的获得：

考虑到英语使用范围广泛，很多文献资料都以英语为语言载体，本发明将中文关键词的英文翻译或者英文关键词的中文翻译作为关键词的横向扩展条件，例如“大学”翻译为“university”，有时候一个关键词可能存在几种翻译方式，如“大学”还可以翻译为“college”；通过英汉互译扩展，为用户提供一种横向将扩展检索的选择。本发明方法中通过英汉对照映射表记录英文与汉字对应关系，英文与汉字对应关系则直接根据英汉对照词典获得。

D、同义词对应关系的获得：

对于同义词当然我们也可以说是近义词，我们知道一词多义或多词一义在汉语中是很常见的，所以在文本语言的表示方面同一信息可以用不同的词语来表达，而且这种现象在文本检索中出现的比较频繁，例如“早餐”，通常也可以说是“早点”，二者属于同义词或近义词。本发明方法中通过同义词映射表记录同义词对应关系，同义词对应关系则直接根据同义词词典获得。

E、错别字对应关系和缩写词对应关系：

由于网络语言以及计算机输入习惯等原因，可能用户输入的关键词中存在错别字，例如“博览会”是入为“波澜会”、“自动化”输入为“自动划”等情况，但是用户想表达的语义却是相同的。而缩写词在中文表达中的应用就更为广泛了，例如“世界博览会”通常会缩写为“世博”、“奥林匹克运动会”通常会缩写为“奥运会”等，缩写词是词汇语义的一个重要体现方面。

基于上面两方面原因，本发明方法还通过错别字映射别和缩写词映射表分别记录错别字对应关系和缩写词对应关系，对关键词进行语义扩展；错别字对应关系和缩写词对应关系通过经验获得，需要总结、归纳人们日常的语言表达习惯和文字输入习惯，根据归纳出的结果列举出错别字对应关系和缩写词对应关系。

最后说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明技术方案的宗旨和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种基于关键词的WEB服务器扩展检索方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的基于关键词的WEB服务器扩展检索方法，其特征在于：所述关联词对应关系，是针对一个候选词，建立一个包含该候选词的文本库，通过基于广义jaccard系数的相似度算法从所述文本库中计算与该候选词相关度，取相关度排列前三的三个词作为与该候选词对应的关联词；由此获得关联词对应关系。

3.根据权利要求1所述的基于关键词的WEB服务器扩展检索方法，其特征在于：所述拼音与汉字对应关系根据汉语词典获得。

4.根据权利要求1所述的基于关键词的WEB服务器扩展检索方法，其特征在于：所述英文与汉字对应关系根据英汉对照词典获得。

5.根据权利要求1所述的基于关键词的WEB服务器扩展检索方法，其特征在于：所述同义词对应关系根据同义词词典获得。