CN101251841A

CN101251841A - 基于语义的Web文档的特征矩阵的建立和检索方法

Info

Publication number: CN101251841A
Application number: CNA2007100407681A
Authority: CN
Inventors: 顾君忠; 杨静; 李子成; 贺梁; 吕钊; 王麒; 江开忠
Original assignee: East China Normal University
Current assignee: East China Normal University
Priority date: 2007-05-17
Filing date: 2007-05-17
Publication date: 2008-08-27
Anticipated expiration: 2027-05-17
Also published as: CN101251841B

Abstract

一种基于语义的Web文档的特征矩阵的建立和检索方法，属于信息检索的技术领域。在为Web文档建立特征矩阵过程中，利用了Web文档中的特殊的位置信息和特殊的表现形态信息，给传统的LSA模型的索引过程添加了位置信息和特殊表现形态信息，从而使传统的LSA方法得到有效的改进。检索过程首先根据本体对查询语句中出现的概念进行语义扩展，再根据查询概念及其扩张概念生成查询向量，向量的值会考虑查询概念与扩展概念的相似度，在一定程度上弥补传统LSA模型在语义上的缺失。本发明的重要意义是：对非结构化的文档信息科学的索引和有效的检索；实现对非结构化信息的随时随地的检索，帮助用户方便及时地获得自己需要的信息。

Description

基于语义的Web文档的特征矩阵的建立和检索方法

技术领域

本发明涉及一种基于语义的Web文档的特征矩阵的建立和检索方法，属于信息检索(Information Retrieval)的技术领域。

背景技术

数据库技术发展至今，对于格式化数据的检索已经比较成熟，已经可以实现基于字符串匹配功能的文档检索功能。然而对于大量的非格式化文档(主要指非数据库中的数据，如Web文档)还没有有效的检索办法。如何让用户在浩如烟海的自由文本集中以最有效的方式最准确地找到需要的信息，已经成为中文检索领域内的热点。

Web搜索引擎技术的发展，使得对Internet中海量的Web页面信息检索成为可能。但是这种检索也存在自身的弊端：搜索引擎运营商的Page Rank算法的基本原理多是基于关键词匹配和网页的链入度和链出度计算出的，因此缺少对网页内容在语义上的理解。这种语义上的缺失导致查询结果的不准和不全。

对于非格式化文档，目前比较先进的处理方法是潜语义分析(简称LSA)。在基于LSA的文本处理中，每篇文本首先被分词并抽取关键词词频，表示成(关键词，词频)的集合，这样一个文本库就可以表示为一个t×d的关键词-文本矩阵A＝[w_ij]_t×d，其中，一个关键词对应于矩阵的一行；一个文本对应于矩阵的一列，w_ij为非负值，表示第i个关键词在第j个文本中的权重。单个词的权重主要考虑其对文本的表征程度和所带的文本的信息量，所以对权重的处理主要考虑了两方面的贡献，即其在文本内部的重要程度-局部权重和其在整个文本集中的重要程度-全局权重。局部权重和全局权重有不同的取值方法，取值方法的不同会对最后的检索结果产生一定的影响。公式1给出了经典的LSA中权重的计算方法(TF-IDF)，即：

w_ij＝tf_ij*idf_i＝tf_ij*log₂(1+N/n_i) (1)

其中，w_ij表示第i个关键词在第j篇文本中的权重；tf_ij表示第i个关键词在第j篇文本中出现的频率；idf_i表示第i个关键词的反比文本频率，N是整个文本集的文本个数，n_i是包含第i个关键词的文本个数。

这样统计得到的矩阵A_t×d，它的每个列是一个t维特征向量，它反应了与该列对应文本的词分布特征。同样的道理对于查询问题也可以看成一篇伪文档，也可以表示成为一个t维向量。然后可以根据向量间的相似度(或距离)为所有文档就该查询排序。这种方法就是传统的VSM方法。

但是，VSM方法无法解决同义词、近义词以及多义词的问题。可以通过对矩阵A_t×d奇异值分解(SVD)，降低关键词-文档矩阵里的噪声，使得其中隐藏的主要信息凸显出来。从而在一定程度上解决了同义词、近义词及多义词带来的问题。奇异值分解可以表示为：

A_{t \times d} = T_{t \times t} \cdot S_{t \times d} \cdot D_{d \times d}^{T}

其中

S_{t \times d} = (\begin{matrix} Σ_{r, r} & O_{r, d - r} \\ O_{t - r, r} & O_{t - r, d - r} \end{matrix}),

∑_r，r为r阶对角阵，r＝Rank(A)，∑＝diag(σ₁，...，σ_r)，称σ₁≥σ₂≥...≥σ_r＞0，称它们为矩阵A的奇异值，其值等于AA^T和A^TA的非零特征值的平方根。设k≤r可以通过数学变换得到A的一个近似矩阵A_k，从而降低矩阵维度，将文本在更少、更能表示其特征的语义空间中表示出来。

A_{k} = T_{t \times t} \cdot diag (σ_{1}, σ_{2}, . . . σ_{k}, 0, . . ., 0) \cdot D_{d \times d}^{T}

也就是A_k把A最小的r-k个奇异值和相应的左右奇异向量丢弃了(因为这些向量都乘以0了)。^[1](如图1)

从某种意义上说，SVD是一种用于发掘一组相互无关联的索引变量因素的技术，从而使每个词/文本都可以利用左/右奇异值向量表示为单个k维空间向量。利用SVD降维是为了削弱噪音或消除一些不需要的细节信息，从而使得对文本理解的潜语义结构凸显出来。^[2]在同一个空间中，可以计算词语和文本、词和词以及文本和文本的相似度，例如可以通过它们在向量空间中的向量距离(或者向量夹角)来衡量。

用户查询要求可以是词语、文本或两者的任意组合。检索执行时，先对用户查询进行预处理，根据词频信息生成一个t维的查询向量，并将其转换成k维语义空间向量。预处理过程为：设q为原始查询向量，根据^[3]可得其在k维语义空间向量计算方法为：

q^{*} = q^{T} T_{K} S_{K}^{- 1}

这样就可在k维空间中计算k维查询向量q^*和其它文本向量的相似度(如公式2所示)：

sim (q^{*}, d_{j}) = \frac{Σ_{m = 1}^{k} w_{im} \times w_{jm}}{\sqrt{(Σ_{m = 1}^{k} w_{im}^{2}) \cdot ({Σ_{m = 1}^{k} w}_{jm}^{2})}} - - - (2)

其中，q^*为查询向量，d_j为第j个文本向量，k为语义空间的维数，w_im为q^*的第m维权值，w_jm为d_j的第m维的权值。这样就可以计算查询向量q^*与每篇文本向量相似度，把相似度高于阈值的文本按相似度大小从高到低排列文本，再将该检索结果返回给用户。以上这种文本索引和建设方法就是LSA方法。

然而传统的基于词袋的LSA方法都摆脱不了一大弊病：仅依赖于词的统计信息，所以必然要丢失词分布的空间位置信息。另外，对于Web文本来说，还有另外一种信息：关键词的特殊表现形态信息。也就是Web文本的作者或者设计者想通过某些词语的表现形态所传达出的特殊信息。例如Web文本中的特殊字体、特殊颜色、特殊的对齐方式、黑体、加粗等等，都从不同程度上反应了原文作者或者设计者想传达出要重点强调部分。遗憾的是，传统方法却丢失了这些宝贵的表现形态信息。在实际的中文Web文本处理中，这种词分布的空间位置信息及其表现形态信息可以给实际处理的问题带来很有意义的辅助信息。所以这些信息应当引起我们足够的重视。

在传统的LSA模型中，由于是基于词袋模型的方法，所以很难在概念层次上进行扩展，因此在语义层面上存在很多的信息丢失。而且这种语义丢失仅依靠传统方法较难解决。例如在传统的LSA模型中，把“交通工具”和“汽车”、“飞机”、“轮船”、“火车”、“公交车”等看成互相没有联系的词汇，而事实上它们之间具有包含关系，即后面的概念是前面的概念的子概念。然而传统的LSA模型中，没有在概念层次上考虑这种关系，所以在语义层次上很难提高，从而造成了语义信息的大量丢失。因此，如果能够从外部对这些语义信息加以弥补，将很有可能提高检索的准确率和召回率。

发明内容

本发明的第一个目的是：针对Web文档，提出一种建立基于语义的Web文档的特征矩阵的方法。

为实现上述目的，本发明采用的技术方案是：在为Web文档建立特征矩阵过程中，利用了Web文档中的特殊的位置信息和特殊的表现形态信息，给传统的LSA模型的索引过程添加了位置信息和特殊表现形态信息，从而使传统的LSA方法得到有效的改进。

现详细描述本发明的技术方案。一种基于语义的Web文档的特征矩阵的建立，需在以下的硬件环境中实现：该硬件环境含客户端、服务器和有线网络或无线网络，客户端和服务器连接在有线网络或无线网络上，其特征在于，操作步骤：

第一步，通过搜索引擎提供的应用编程接口(API，Application Programming Interface)提交相应的查询，然后将返回的Web页面下载到本地，利用页面分析工具分析Web页面，取出其中的正文、特殊的位置信息和特殊的表现形态信息；

第二步，对于来自Web的文档集，通过分词工具对文档集合的每篇文章内容进行分词，同时对于每篇文章中的名词、代词、处所词、人名、地名、机构团体、其它专名进行词频统计，也即计算出tf_ij，分词工具为海量集团的中文分词工具，http://www.hylanda.com/；

第三步，根据第二步得到的结果，形成关键词-文档词频矩阵，矩阵的行表示关键词在不同文档中的词频特征，矩阵的列表示文档中所有词的词频特征，矩阵中第i行第j列的值表示的是第i个关键词在第j篇文档中的词频；

第四步，根据第三步的得到的结果，计算出每个词在整个文档集中出现该词的个数，即n_i；

第五步，根据第四步的结果，同时根据log₂(N/n_i)计算出每个词的全局权重，即idf_i，这里需要注意的是，真数由1+N/n_i变为N/n_i，这种变化的意义基于以下假设：如果所搜索的整个文本集中每一篇文本都出现第i个关键词，那么该词在区分这些文本所能贡献的力量将趋近于0，表现在公式中就是对于所有的i都有w_ij＝0；

第六步，由第二步和第五步，根据公式w_ij＝tf_ij*idf_i*e_ij＝tf_ij*log₂(N/n_i)*e_ij计算出每个词的权重，得到关键词-文档权重矩阵A_t×d，其中e_ij是第i个关键词在第j篇文本中的位置-特殊形态影响因子，它与第i个关键词在第j篇文本中出现的空间位置以及表现形态有关，根据关键词的重要程度，e_ij取不同的值，如表1所示：

表1.位置-特殊形态影响因子

第i个关键词在第j篇文本中的位置或形态	e_ij
第i个关键词在第j篇文本中的位置或形态	e_ij	标题(title)	2.5
子标题(sub-title)	2	标题(title)	2.5
子标题(sub-title)	2	通常位置	1
加粗、特殊颜色、特殊对齐方式	2	通常位置	1

在TF-IDF计算关键词权重的基础上，对网页中出现在不同位置的关键词赋予不同的权值，对网页中特殊表现形态的关键词也赋予相应的权值，从而弥补了空间信息、表现形态信息的丢失；

第七步，特种矩阵建立过程到第六步结束，将第六步得到的关键词-文档权重矩阵A_t×d作为特征矩阵保存。

本发明的第二个目的是：提出一种Web文档的基于语义的检索方法。

为实现上述目的，本发明采用的技术方案是：检索过程首先根据本体对查询语句中出现的概念进行语义扩展，再根据查询概念及其扩张概念生成查询向量，向量的值会考虑查询概念与扩展概念的相似度，在一定程度上弥补传统LSA模型在语义上的缺失。

为实现上述目的，在硬软件方面需要满足的要求：至少一台PDA或个人电脑，为用户输入查询请求和返回和显示查询结果提供条件；至少一台服务器，用于接收客户端软件传来的XML文件，解析出查询请求，根据算法建立索引并检索，计算出每篇Web文档与查询的相似度，并按照相似度从大到小排列，将结果返回给查询用户的客户端。

为实现上述目的，需要做的检索前准备工作有：

第一，根据人类对世界的认识，对概念的基本分类，利用建立本体的工具，建立一个知识本体，它是对概念在语义层次上的理解。本体可以找专家建立。

第二，计算出本体中所有概念之间的语义相似度，计算的方法是：

①计算本体概念树每个概念的深度，深度的计算方法是：对于本体概念树中概念N，它的深度定义为：Depth(N)＝Depth(parentOf(N))+1，其中，根节点的深度为0，即若root表示本体概念树的根，则Depth(root)＝0；patentOf(N)表示N的父亲概念(或者称为父亲节点)。

②根据①计算本体中任意两个概念之间的长度，计算方法是：对于本体概念树中任意两个节点N1、N2，则它们之间的长度定义为：

Length(N1，N2)＝Depth(N1)+Depth(N2)-2*Depth(com_parent(N1，N2))，com_parent(N1，N2)表示N1和N2的公共父亲概念(或者称为公共父亲节点)。

③根据①计算本体中任意节点的高度，计算方法是：对于本体概念树中任意节点N，它的高度定义为：Height(N)＝Max(Depth(childOf(N)))，其中Max表示求最大值，childOf(N)表示N的所有子孙。即：N的高度应该是其所有子孙的深度的最大值，也就是从N的任意一个子孙到N距离的最大值。

④根据①②③计算本体中任意两个节点之间的语义相似度，计算方法是：对本体概念树中任意两个节点N1，N2之间的语义相似度的定义为SN(N1，N2)：

SN (N 1, N 2) = \frac{Depth (com_parent (N 1, N 2))}{Height (root) \times (length (N 1, N 2) + 1)}

⑤根据④计算结果，将所有概念两两之间的相似度保存。

现详细描述本发明的技术方案。一种基于语义的Web文档的特征矩阵的检索方法，需在以下的硬件环境中实现：该硬件环境含客户端、服务器和有线网络或无线网络，客户端和服务器连接在有线网络或无线网络上，其特征在于，操作步骤：

第一步，用户通过便携式设备(PDA)或个人电脑(PC)，向服务器提出查询请求，查询请求是一个以自然语言形式描述的语句，PDA将该语句以XML文件的形式传送给服务器，服务器接收到该XML文件后，解析XML文件内容，获得查询请求；

第二步，服务器利用分词工具对查询请求分词，提取其中的名词、代词、处所词、人名、地名、机构团体、其它专名，作为查询概念；

第三步，根据本体和第二步，对查询概念进行扩展，得到查询概念的扩展概念以及它们的相似度，扩展的方法如下：

根据准备工作第二得到的概念之间的相似度对由第二步获得的查询概念进行扩展，扩展的方法是定义一个阈值θ，凡是和查询概念之间相似度大于θ的概念都作为查询概念的扩展概念；

第四步，根据第三步和准备工作中准备的关键词-文档矩阵对应的关键词生成查询向量q，如果关键词是查询概念则其值取1，如果关键词是查询概念的扩展概念，则其值是查询概念和该概念之间的相似度，除此之外，向量中对应分量的值取0；

第五步，对关键词-文档矩阵进行奇异值分解，即

A_{t \times d} = T_{t \times t} \cdot S_{t \times d} \cdot D_{d \times d}^{T},

然后A将分解后的矩阵降维到K维，即

A_{k} = T_{t \times t} \cdot diag (σ_{1}, σ_{2}, . . . σ_{k}, 0, . . ., 0) \cdot D_{d \times d}^{T},

降维的方法是：如果

Σ_{i = 0}^{j} σ_{i} &GreaterEqual; α \times Σ_{i = 0}^{r} σ_{i}

则k＝j，其中0＜α≤1，σ_i是非0的奇异值，r为关键词-文本矩阵分解后，中间矩阵的秩，α反映了对原始矩阵信息量的保持程度，例如α＝0.7就是保留了原始矩阵70％的信息而去除了30％的噪声；

第六步，根据第四步和第五步，将查询向量q变化到K维空间，向量变化空间的方法是：

q^{*} = q^{T} T_{K} S_{K}^{- 1}

其中q^*是变化后的K维空间向量，q是原始查询向量，T_k是降维后A的左奇异向量矩阵，即T_t×t的前t行K列，S_K是降维后A的奇异值矩阵，即S_t×d的前K行K列；

第七步，根据第六步，计算降维后的查询向量和每一篇文档对应向量，即D的每一个K维行向量的相似度，并根据相似度大小排序，相似度越大排的越靠前，向量相似度的计算方法是经典的Cos夹角的计算方法，具体是：

sim (q^{*}, d_{j}) = \frac{Σ_{m = 1}^{k} w_{im} \times w_{jm}}{\sqrt{(Σ_{m = 1}^{k} w_{im}^{2}) (Σ_{m = 1}^{k} w_{jm}^{2})}},

其中，q^*为查询向量，d_j为第j个文本向量，k为语义空间的维数，w_im为q^*的第m维权值，w_jm为d_j的第m维的权值，这样就可以计算查询向量q^*与每篇文本向量相似度，把相似度高于阈值的文本按相似度大小从高到低排列文本，再将该检索结果返回给用户。

本发明与已有技术相比所具有的优点：

本发明主要应用于非格式化文档信息的检索。下面主要将其和传统的关系数据库、网络搜索引擎(如：Google)以及操作系统自带的文件搜索功能进行比较。对于Web文本基于改进的LSA算法(词的权重按公式2计算)，我们通过试验说明改进后的算法比传统的LSA在准确率和召回率上都有很大的提高。

第一、与传统的关系数据库比较：

传统的数据库查询，主要是基于字符串的匹配功能，因此无法避免一词多义引起的查不准和多词一义引起的查不全的问题。另外由于传统数据库查询原理是基于词或者字段的匹配功能，很难支持部分匹配功能。本发明与传统的数据库查询不同，它是基于潜语义分析(LSA)的方法。LSA是一种通过分析大量文本集，自动生成关键词-概念(语义)之间的映射规则的方法。它的基本假设是文本内容的意思与该文本中使用的词汇有着很强的联系。^[2]它认为词语在文本中的使用模式内，存在着潜在的语义结构，同义词之间具有基本相同的语义结构，多义词的使用必定具有多种不同的语义结构，而词语之间的这种语义结构体现为它们在文本中的出现频率上，通过统计学方法，提取并量化这些潜在的语义结构，进而消除同义词、多义词的影响，提高文本表示的准确性。^[4]因此本发明可以一定程度上避免传统数据库检索的弊病。另外，从应用领域来说，本发明主要是针对非格式化信息的查询，是传统数据库很难应用的领域。

第二、与网络搜索引擎比较：

对于网络搜索引擎，虽然各个搜索引擎公司都有自己的Page Rank算法，但是这些算法的基本思想是：部分地考虑Web网页的内容以及该网页的链入度和链出度，同时还要考虑自己的商业利益。这种搜索引擎相比本发明有以下缺点：1)搜索内容只能针对Web页面信息，应用面不广；2)搜索的页面来自整个Internet，针对性不强。3)搜索引擎多是基于字符串匹配，没有的Web文档内容进行语义层次的理解。相对搜索引擎的缺点，本发明的优点是：1)搜索的内容表达形式多样，可以使Web文档、文本文档、word文档等等；2)搜索的范围可以针对特定的领域、应用；3)本发明是基于LSA，是对文档内容语义层次的理解。

第三、和操作系统自带的文件搜索功能比较：

现在的操作系统大多带有文件搜索功能，但是这种功能大多只限于对文件名、创建日期等信息的查找，几乎没有涉及文件内容的查找。而本发明恰恰是基于对文件内容的语义理解基础上的查找，因此查找出的内容也更加符合用户的需求。另外，操作系统的文件查找功能，一般是基于文件名字符串匹配出来的，所以需要和每个文件名相比较，因此耗时比较长。然而，对于本发明由于它在检索之前已经对文档内容做好了索引，所以在检索时只需要根据特征矩阵和查询向量计算出最相关的若干篇文档，因此检索所需要的时间非常少(一般都在2秒钟之内)。

第四、试验表明对于Web文档改进后的LSA效果明显：

本发明主要是基于传统的LSA和本体，对传统的LSA方法进行改进，新的方法可以弥补传统方法在位置-表现形态信息和语义信息上的缺失。本试验针对于上海2010年世博会，我们从世博网上下载了300篇世博科技类文本和200篇世博经济类文本。进行处理，发现权重计算方法改进以后可以有效的提高准确率和召回率，平均准确率提高了17.3％，召回率提高了8.3％(如表2所示)。方法是：利用分词工具对文本内容分词、统计，并且利用位置-特殊表现形态信息和本体信息加权；再从统计结果中，选择1400个词作为关键词(选择的办法是：对于关键词i求出∑_j＝1 ⁿ w_ij，然后把最大的∑_j＝1 ⁿ w_ij1400个关键词选择出来。为了保证尽量检索出查询内容，在实际编程序时要对在查询中出现的词的权重和作特殊处理(赋予一个很大的值，保证这些词都被选中。)然后把统计的关键词-文本矩阵奇异值分解，选择适当的k(选择办法是：如果

Σ_{i = 0}^{j} σ_{i} &GreaterEqual; α \times Σ_{i = 0}^{r} σ_{i}

则k＝j，其中α反映了对原始矩阵信息量的保持程度，例如α＝0.7就是保留了原始矩阵70％的信息而去除了30％的噪声；r为关键词-文本矩阵分解后，S矩阵的秩)；最后根据公式2计算出查询向量与每一篇文本的相似度，把相似度阈值以0.0005的间隔计算出准确率和召回率。由于篇幅的限制，表2仅将具有代表意义的14个阈值的结果列了出来。

表2.LSA模型改进前后准确率和召回率比较

(P表示准确率，R表示召回率，T表示传统方法，N表示改进后方法，S表示世博科技类文本，E表示世博经济类文本)

其中P(T，S)、R(T，S)分别表示对于世博科技类文本传统算法的准确率和召回率，表2中其它符号意义以此类推。从表2我们可以得出：(1)改进后，对于世博科技类文本precision和recall分别提高了9.6％、14.3％，而世博经济类文本precision和recall分别提高了25％和2.3％；(2)对于世博科技类文本，改进后的方法在所有的阈值上，其召回率和准确率都要比传统方法高，这说明这类文本在加入语义信息和位置-特殊表现形态信息以后，不仅对准确度有很多提高(precision增大)而且对消除噪声增加区分度也有很大的提高(recall增大)；(3)对于世博经济类文本，改进后对准确率提高是有效的，但是在阈值小于0.1时其召回率反而没有传统方法高(虽然两者差距很小)，显然这是由于准确率大幅提高(25％的提高)所带来的结果(因为在方法相同的情况下，准确率的提高将导致召回率的降低)；但是从整体表现上讲，对于这类文本，改进的方法在召回率上还是有较好的提高。

本发明的重要意义是：对非结构化的文档信息科学的索引和有效的检索；实现对非结构化信息的随时随地的检索，帮助用户方便及时地获得自己需要的信息。在这个信息爆炸的时代，对信息的科学有效的检索无疑意味着巨大的商机。当今社会，小到一个家庭一个公司，大到一个行业一个国家，都拥有大量的非格式化的文档数据。如何有效地对这些数据信息索引、检索，成为一个亟待解决得问题。而该发明正是由于这种需求催生而来，它可以实现对这些非格式化信息的自动索引和检索。

附图说明

图1是SVD算法示意图，其中A是原始的关键词-文档矩阵，A_k是降秩后的关键词-文档矩阵；T是SVD后的左奇异值矩阵，T_k是降秩后的左奇异值矩阵；S奇异值矩阵，S_k是降秩后的奇异值矩阵；D^T是右奇异值矩阵，D^T _k是降秩后的右奇异值矩阵。

图2非格式化Web文档的检索过程图，其中符号说明如下：

1.1用户可以通过语音或者手工向PDA移动设备输入需要查询的内容请求；

1.2用户可以通过语音或者手工向个人电脑PC机输入需要查询的内容请求；

1.3便携设备PDA将用户的请求以XML文件的形式，通过无线网络传送到服务器端；

1.4个人电脑PC机将用户的请求以XML文件的形式，通过有线网络传送到服务器端；

2.1服务器端将用户的查询请求通过网络发送到Web搜索引擎服务器上；

2.2Web搜索引擎服务器将查询的结果反馈给服务器端；

3.1服务器端根据本发明提出的计算查询语句和文档的相似度的算法重新对Web搜索引擎返回的文档排序，并将排好序的结果形成XML文件，并将该XML文件通过无线网络传送到移动便携式设备PDA上；

3.2服务器端根据本发明提出的计算查询语句和文档的相似度的算法重新对Web搜索引擎返回的文档排序，并将排好序的结果形成XML文件，并将该XML文件通过无线网络传送到个人电脑PC机上；

3.3便携式设备PDA将处理的结果显示给用户；

3.4个人电脑将处理的结果显示给用户。

图3Web文档的特征矩阵的建立过程。

图4Web文档的检索过程。

图5为实施例建立的交通本体。

具体实施方式

实施例1.基于语义的Web文档的特征矩阵的建立

假设有五篇来自Internet的Web文档(第一步)，它们的内容分别为：

文档1：<tile>公共交通</title>

火车、飞机、汽车、巴士、地铁

文档2：交通堵塞

文档3：交通行业

文档4：公共交通之命脉

文档5：巴士和地铁是主要的交通工具

首先利用分词工具，对每篇文档中的名词、代词、处所词、人名、地名、机构团体、其它专名进行词频统计(第二步)。形成关键词-文档词频矩阵(如下表3，对应于第三步、第四步、第五步)。

表3.关键词-文档词频矩阵以及n_i和idf_i

关键词\文档(词频)	文档1	文档2	文档3	文档4	文档5	n_i	idf_i
关键词\文档(词频)	文档1	文档2	文档3	文档4	文档5	n_i	idf_i	公共交通	1	0	0	1	0	2	1.321928
火车	1	0	0	0	0	1	2.321928	公共交通	1	0	0	1	0	2	1.321928
火车	1	0	0	0	0	1	2.321928	飞机	1	0	0	0	0	1	2.321928
汽车	1	0	0	0	0	1	2.321928	飞机	1	0	0	0	0	1	2.321928
汽车	1	0	0	0	0	1	2.321928	巴士	1	0	0	0	1	2	1.321928
地铁	1	0	0	0	1	2	1.321928	巴士	1	0	0	0	1	2	1.321928
地铁	1	0	0	0	1	2	1.321928	交通	0	1	1	0	1	3	0.736966
堵塞	0	1	0	0	0	1	2.321928	交通	0	1	1	0	1	3	0.736966
堵塞	0	1	0	0	0	1	2.321928	行业	0	0	1	0	0	1	2.321928
命脉	0	0	0	1	0	1	2.321928	行业	0	0	1	0	0	1	2.321928
命脉	0	0	0	1	0	1	2.321928	工具	0	0	0	0	1	1	2.321928

然后，根据w_ij＝tf_ij*idf_i*e_ij＝tf_ij*log₂(N/n_i)*e_ij计算每个关键词在每篇文档内的权重，得到关键词-文档权重矩阵A(如表4所示，对应于第六步、第七步)。

表4关键词-文档权重矩阵A

3.305	0	0	1.321928	0
3.305	0	0	1.321928	0	2.321928	0	0	0	0
2.321928	0	0	0	0	2.321928	0	0	0	0
2.321928	0	0	0	0	2.321928	0	0	0	0
2.644	0	0	0	2.644	2.321928	0	0	0	0
2.644	0	0	0	2.644	2,644	0	0	0	2.644
0	0.736966	0.736966	0	0.736966	2,644	0	0	0	2.644
0	0.736966	0.736966	0	0.736966	0	2.321928	0	0	0
0	0	2.321928	0	0	0	2.321928	0	0	0

0	0	0	4.644	0
0	0	0	4.644	0	0	0	0	0	2.321928

实施例2.Web文档的基于语义的检索方法

假设检索内容为：公共交通；假设检索的数据源是1中建立特征矩阵对应的五篇文档；

建立本体：假设建立的交通本体如图5所示(对应于准备工作的第一)：

根据

SN (N 1, N 2) = \frac{Depth (com_parent (N 1, N 2))}{Height (root) \times (length (N 1, N 2) + 1)},

计算出检索概念和其他概念的相似度分别为(对应于准备工作的第二)：交通0，地铁1/6(取0.167)，巴士1/6，飞机1/6，汽车1/6，火车1/6，轮船1/6，高速火车1/9，普通火车1/9；

通过PDA内设计的软件界面，输入查询请求“公共交通”。PDA将该语句以XML文件的形式传送给服务器。服务器接收到该XML文件后，解析XML文件内容，获得查询请求。(第一步)对查询请求利用分词工具分词得到查询概念“公共交通”(第二步)。根据相似度大于0.1的概念为查询概念的扩展概念，则公共交通的扩展概念为地铁，巴士，飞机，汽车，火车，轮船，高速火车，普通火车。根据分析文档集获得的关键词，生成检索向量q：检索向量中，对应于关键词，如果关键词是查询概念则其值取1，如果关键词是查询概念的扩展概念，则其值是查询概念和该概念之间的相似度；除此之外，向量中对应分量的值取0(第三步)；

检索向量q

对1中建立的关键词-文档权重矩阵，(即于语义的Web文档的特征矩阵)进行奇异值分解(第四步)

分解后A的左奇异向量的特征矩阵T为：

-0.4172	0.236253	0.340995	0.048376	0
-0.4172	0.236253	0.340995	0.048376	0	-0.29743	-0.02414	0.310401	0.041273	0	0	0	0	0	0	0
-0.29743	-0.02414	0.310401	0.041273	0	-0.29743	-0.02414	0.310401	0.041273	0	0	0	0	0	0	0
-0.29743	-0.02414	0.310401	0.041273	0	-0.29743	-0.02414	0.310401	0.041273	0	0	0	0	0	0	0
-0.51228	-0.14923	-0.2921	-0.06063	0	-0.29743	-0.02414	0.310401	0.041273	0	0	0	0	0	0	0
-0.51228	-0.14923	-0.2921	-0.06063	0	-0.51228	-0.14923	-0.2921	-0.06063	0	0	0	0	0	0	0
-0.04968	-0.03615	-0.21316	0.37941	0	-0.51228	-0.14923	-0.2921	-0.06063	0	0	0	0	0	0	0
-0.04968	-0.03615	-0.21316	0.37941	0	-0.00203	-0.00349	-0.05234	0.644953	-0.70711	0	0	0	0	0	0
-0.00203	-0.00349	-0.05234	0.644953	0.707107	-0.00203	-0.00349	-0.05234	0.644953	-0.70711	0	0	0	0	0	0
-0.00203	-0.00349	-0.05234	0.644953	0.707107	-0.09989	0.940817	-0.2274	-0.01958	0	0	0	0	0	0	0
-0.15245	-0.10691	-0.56692	-0.09452	0	-0.09989	0.940817	-0.2274	-0.01958	0	0	0	0	0	0	0

分解后A的奇异值矩阵S为：

6.87074	0	0
6.87074	0	0	0	4.807113	0	0	0
0	3.515835	0	0	4.807113	0	0	0
0	3.515835	0	0	0	0	2.529426	0
0	0	2.321928	0	0	0	2.529426	0

分解后A的右奇异向量特征矩阵D^T为：

-0.8801	-0.00602	-0.00602	-0.14779	-0.45112
-0.8801	-0.00602	-0.00602	-0.14779	-0.45112	-0.04998	-0.00723	-0.00723	0.973862	-0.22134
0.470005	-0.07924	-0.07924	-0.17216	-0.85843	-0.04998	-0.00723	-0.00723	0.973862	-0.22134
0.470005	-0.07924	-0.07924	-0.17216	-0.85843	0.044962	0.702589	0.702589	-0.01066	-0.10296
0	-0.70711	0.707107	0	0	0.044962	0.702589	0.702589	-0.01066	-0.10296

取原有信息量的70％，计算出K＝3，对SVD分解的结果进行降维(对应于二2第五步)。

则降维后

左奇异值矩阵的近似矩阵为：T_K

中间矩阵的近似矩阵是：S_K

6.87074	0
6.87074	0	0	4.807113	0
0	3.515835	0	4.807113	0

右奇异矩阵的近似矩阵是：D^T _K

-0.8801	-0.00602	-0.00602	-0.14779	-0.45112
-0.8801	-0.00602	-0.00602	-0.14779	-0.45112	-0.04998	-0.00723	-0.00723	0.973862	-0.22134
0.470005	-0.07924	-0.07924	-0.17216	-0.85843	-0.04998	-0.00723	-0.00723	0.973862	-0.22134

S_K ^-1为：

0.145545	0
0.145545	0	0	0.145545	0
0	0.145545	0	0.145545	0

根据

q^{*} = q^{T} T_{K} S_{K}^{- 1},

查询向量变形为q^*(对应于二2第六步)：

-0.10731
-0.10731	0.025371
0.058064	0.025371

根据

sim (q^{*}, d_{j}) = \frac{Σ_{m = 1}^{k} w_{im} \times w_{jm}}{\sqrt{(Σ_{m = 1}^{k} w_{im}^{2}) \cdot (Σ_{m = 1}^{k} w_{jm}^{2})}},

计算出q*与每篇文档的相似度分别是：

第一篇：0.967633，第二篇：-0.416200，第三篇：-0.416200，第四篇：0.245318，第五篇：-0.056862。则按照相似度从大到小排序为：第一篇、第四篇、第五篇、第二篇、第三篇(第七步)。

实施例3.利用传统LSA算法

假设有五篇文档，它们的内容分别为：

文档1：公共交通

火车、飞机、汽车、巴士、地铁

文档2：交通堵塞

文档3：交通行业

文档4：公共交通之命脉

文档5：巴士和地铁是主要的交通工具

假设检索内容为：公共交通

首先利用分词工具，对每篇文档中的名词、代词、处所词、人名、地名、机构团体、其它专名进行词频统计。形成关键词-文档词频矩阵。

表5关键词-文档词频矩阵以及n_i和idf_i

然后，根据w_ij＝tf_ij*idf_i＝tf_ij*log₂(N/n_i)计算每个关键词在每篇文档内的权重，得到关键词-文档权重矩阵A。

表6关键词-文档权重矩阵A

关键词\文档(权重)	文档1	文档2	文档3	文档4	文档5
关键词\文档(权重)	文档1	文档2	文档3	文档4	文档5	公共交通	1.321928	0	0	1.321928	0
火车	2.321928	0	0	0	0	公共交通	1.321928	0	0	1.321928	0
火车	2.321928	0	0	0	0	飞机	2.321928	0	0	0	0
汽车	2.321928	0	0	0	0	飞机	2.321928	0	0	0	0
汽车	2.321928	0	0	0	0	巴士	1.321928	0	0	0	1.321928
地铁	1.321928	0	0	0	1.321928	巴士	1.321928	0	0	0	1.321928
地铁	1.321928	0	0	0	1.321928	交通	0	0.736966	0.736966	0	0.736966
堵塞	0	2.321928	0	0	0	交通	0	0.736966	0.736966	0	0.736966
堵塞	0	2.321928	0	0	0	行业	0	0	2.321928	0	0
命脉	0	0	0	2.321928	0	行业	0	0	2.321928	0	0
命脉	0	0	0	2.321928	0	工具	0	0	0	0	2.321928

通过PDA内设计的软件界面，输入查询请求“公共交通”。PDA将该语句以XML文件的形似传送给服务器。服务器接收到该XML文件后，解析XML文件内容，获得查询请求。根据分析文档集获得的关键词，生成检索向量q：检索向量中，对应于关键词，如果关键词是查询概念则其值取1，否则，向量中对应分量的值取0。

检索向量q

对关键词-文档权重矩阵奇异值分解

分解后A的左奇异向量的特征矩阵T为：

-0.29765	-0.19814	-0.40696	-0.04422	0
-0.29765	-0.19814	-0.40696	-0.04422	0	-0.46957	-0.17122	0.127787	0.088321	0	0	0	0	0	0	0
-0.46957	-0.17122	0.127787	0.088321	0	-0.46957	-0.17122	0.127787	0.088321	0	0	0	0	0	0	0
-0.46957	-0.17122	0.127787	0.088321	0	-0.46957	-0.17122	0.127787	0.088321	0	0	0	0	0	0	0
-0.33876	0.303874	0.009887	-0.12126	0	-0.46957	-0.17122	0.127787	0.088321	0	0	0	0	0	0	0
-0.33876	0.303874	0.009887	-0.12126	0	-0.33876	0.303874	0.009887	-0.12126	0	0	0	0	0	0	0
-0.04251	0.327018	-0.13113	0.291059	0	-0.33876	0.303874	0.009887	-0.12126	0	0	0	0	0	0	0
-0.04251	0.327018	-0.13113	0.291059	0	-0.00424	0.162676	-0.15137	0.60917	-0.70711	0	0	0	0	0	0
-0.00424	0.162676	-0.15137	0.60917	0.707107	-0.00424	0.162676	-0.15137	0.60917	-0.70711	0	0	0	0	0	0
-0.00424	0.162676	-0.15137	0.60917	0.707107	-0.05325	-0.1768	-0.84261	-0.16599	0	0	0	0	0	0	0
-0.12545	0.704971	-0.11042	-0.30132	0	-0.05325	-0.1768	-0.84261	-0.16599	0	0	0	0	0	0	0

分解后A的奇异值矩阵S为：

4.748516	0	0
4.748516	0	0	0	2.971741	0	0	0
0	2.621797	0	0	2.971741	0	0	0
0	2.621797	0	0	0	0	2.491776	0
0	0	2.321928	0	0	0	2.491776	0

分解后A的右奇异向量特征矩阵D^T为：

-0.9603	-0.00867	-0.00867	-0.1089	-0.25655
-0.9603	-0.00867	-0.00867	-0.1089	-0.25655	-0.21914	0.208202	0.208202	-0.22628	0.902263
0.14429	-0.17092	-0.17092	-0.95143	-0.12468	-0.21914	0.208202	0.208202	-0.22628	0.902263
0.14429	-0.17092	-0.17092	-0.95143	-0.12468	0.094782	0.653731	0.653731	-0.17813	-0.32336

0

-0.70711

0.707107

0

取原有信息量的70％，计算出K＝4，对SVD分解的结果进行降维。

则降维后

左奇异值矩阵的近似矩阵为：T_K

-0.29765	-0.19814	-0.40696	-0.04422
-0.29765	-0.19814	-0.40696	-0.04422	-0.46957	-0.17122	0.127787	0.088321
-0.46957	-0.17122	0.127787	0.088321	-0.46957	-0.17122	0.127787	0.088321
-0.46957	-0.17122	0.127787	0.088321	-0.46957	-0.17122	0.127787	0.088321
-0.33876	0.303874	0.009887	-0.12126	-0.46957	-0.17122	0.127787	0.088321
-0.33876	0.303874	0.009887	-0.12126	-0.33876	0.303874	0.009887	-0.12126
-0.04251	0.327018	-0.13113	0.291059	-0.33876	0.303874	0.009887	-0.12126
-0.04251	0.327018	-0.13113	0.291059	-0.00424	0.162676	-0.15137	0.60917
-0.00424	0.162676	-0.15137	0.60917	-0.00424	0.162676	-0.15137	0.60917
-0.00424	0.162676	-0.15137	0.60917	-0.05325	-0.1768	-0.84261	-0.16599
-0.12545	0.704971	-0.11042	-0.30132	-0.05325	-0.1768	-0.84261	-0.16599

中间矩阵的近似矩阵是：S_K

4.748516	0
4.748516	0	0	2.971741	0	0
0	2.621797	0	2.971741	0	0
0	2.621797	0	0	0	2.491776

右奇异矩阵的近似矩阵是：D^T _K

S_K ^-1为：

0.210592	0
0.210592	0	0	0.210592	0	0
0	0.210592	0	0.210592	0	0
0	0.210592	0	0	0	0.210592

根据

q^{*} = q^{T} T_{K} S_{K}^{- 1},

查询向量变形为q^*：

-0.136053
-0.136053	-0.038418
-0.071525	-0.038418
-0.071525	-0.008522

根据

sim (q^{*}, d_{j}) = \frac{Σ_{m = 1}^{k} w_{im} \times w_{jm}}{\sqrt{(Σ_{m = 1}^{k} w_{im}^{2}) \cdot (Σ_{m = 1}^{k} w_{jm}^{2})}},

计算出q*与每篇文档的相似度分别是：

第一篇：0.490022，第二篇：0.005150，第三篇：0.005150，第四篇：0.868979，第五篇：-0.068757。

则按照相似度从大到下排序为：第四篇、第一篇、第二篇、第三篇、第五篇。

对比实施例1，2和实施例3的检索结果，明显改进后的方法更能体现出在语义层次上的理解。

参考文献

[1]Yinghui Xu，Kyoji Umemura.Very Low-Dimensional Latent Semantic Indexing for LocalQuery Regions[C].Sappro，Jap：Proc.of the Sixth International Workshop onInformation Retrieval with Asian Languages，2003，11：84-91.

[2]Kakkonen，Myller，Timonen，et al.Automatic Essay Grading with Probabilistic LatentSemantic Analysis[C].Ann Arbor，USA：Proc.of the 2nd Workshop on BuildingEducational Applications Using NLP，June 2005：29-36.

[3]George W.Furnas，Scott C.Deerwester，Susan T.Dumais，et al.Information Retrievalusing a Singular Value Decomposition Model of Latent Semantic Structure[C].Grenoble，France：Annual ACM Conference on Research and Development in InformationRetrieval，1988：465-480.

[4]盖杰，王怡，武港山.基于潜在语义分析的信息检索.计算机工程[J]，2004，30(2)：58-60.

Claims

1. 一种基于语义的Web文档的特征矩阵的建立，需在以下的硬件环境中实现：该硬件环境含客户端、服务器和有线网络或无线网络，客户端和服务器连接在有线网络或无线网络上，其特征在于，操作步骤：

第一步，通过搜索引擎提供的应用编程接口提交相应的查询，然后将返回的Web页面下载到本地，利用页面分析工具分析Web页面，取出其中的正文、特殊的位置信息和特殊的表现形态信息；

表1.位置-特殊形态影响因子

第i个关键词在第j篇文本中的位置或形态 e_ij 标题(title) 2.5 子标题(sub-title) 2 通常位置 1 加粗、特殊颜色、特殊对齐方式 2

2. 一种基于语义的Web文档的特征矩阵的检索方法，需在以下的硬件环境中实现：该硬件环境含客户端、服务器和有线网络或无线网络，客户端和服务器连接在有线网络或无线网络上，其特征在于，操作步骤：

第一步，用户通过便携式设备或个人电脑，向服务器提出查询请求，查询请求是一个以自然语言形式描述的语句，PDA将该语句以XML文件的形式传送给服务器，服务器接收到该XML文件后，解析XML文件内容，获得查询请求；

第三步，根据本体和第二步，对查询概念进行扩展，得到查询概念的扩展概念以及它们的相似度，扩展的方法如下：根据准备工作第二得到的概念之间的相似度对由第二步获得的查询概念进行扩展，扩展的方法是定义一个阈值θ，凡是和查询概念之间相似度大于θ的概念都作为查询概念的扩展概念；

第五步，对关键词-文档矩阵进行奇异值分解，即

A_{t \times d} = T_{t \times t} \cdot S_{t \times d} \cdot D_{d \times d}^{T},

然后A将分解后的矩阵降维到K维，即

A_{k} = T_{t \times t} \cdot diag (σ_{1}, σ_{2}, . . . σ_{k}, 0, . . ., 0) \cdot D_{d \times d}^{T},

降维的方法是：如果

Σ_{i = 0}^{j} σ_{i} &GreaterEqual; α \times Σ_{i = 0}^{r} σ_{i}

q^{*} = q^{T} T_{K} S_{K}^{- 1}

sim (q^{*}, d_{j}) = \frac{Σ_{m = 1}^{k} w_{im} \times w_{jm}}{\sqrt{(Σ_{m = 1}^{k} w_{im}^{2}) \cdot (Σ_{m = 1}^{k} w_{jm}^{2})}},