CN100530192C

CN100530192C - 一种文本检索的方法和装置

Info

Publication number: CN100530192C
Application number: CNB2007101238322A
Authority: CN
Inventors: 胡辛遥; 韩定一; 俞勇; 金洪波; 吕晓雨
Original assignee: Huawei Technologies Co Ltd; Shanghai Jiaotong University
Current assignee: Huawei Technologies Co Ltd; Shanghai Jiaotong University
Priority date: 2007-10-09
Filing date: 2007-10-09
Publication date: 2009-08-19
Anticipated expiration: 2027-10-09
Also published as: CN101140583A

Abstract

本发明公开了一种文本检索的方法和装置。该方法包括：输入原始文本数据；对所述原始文本数据进行自适应映射降维处理；根据所述自适应映射降维处理后的数据，检索与其相似的文本数据；输出所述检索到的文本数据。本发明实施例在对高维文本数据进行降维后，能对原数据进行有效的压缩，时间复杂度较低，适用于海量数据，能有效地保持文本数据各原向量之间的相似度。使用本发明实施例的方法或装置可以以比较小的运算代价迅速地响应网络文本查询、搜索、检索等请求，从而解决了现有网络文本检索时间复杂度高、耗费空间大、精度较差的问题。

Description

一种文本检索的方法和装置

技术领域

本发明涉及文本检索技术，尤其涉及一种在网络上进行文本检索的方法和装置。

背景技术

万维网上每年新增的数据超过10¹⁸bytes，并且每年继续以指数级别增长。现有的一些搜索引擎已经不能适应这样的增长规模。这样的增长规模要求一种新的构架，使得它能够迅速索引和查询内容信息，例如HTML、纯文本、音乐和图像。在另一方面，对等网络在近几年获得了广泛的接受。它们的可扩展性，容错性以及自适应性的本质引起了人们在对等网络之上建立低成本的搜索引擎的兴趣。

虽然最近一些基于对等网络的搜索技术被提出，它们大都是基于简单的关键词匹配，没有使用信息检索领域的一些更高级的排序算法。在没有排序算法的情况下，当用户输入一些比较流行的关键词，就会返回很多文档，这些文档的数目超过了用户的处理能力，这使得这些系统不可用。

这些现有对等网络系统的另一个基本问题是：文档是随机分布的。当用户输入一个查询时，系统需要搜索大量的节点。如果系统使用一些启发式的规则来缩小查找的范围，则会丢失一些与查询相关的文档。为了解决这个问题，基于语义overlay被提出。在基于语义overlay之上，内容是根据它们的语义来组织的。内容之间的距离正比于它们语义上的相似度。

CAN(Content-Aware Network，内容感知网络)是一种对等结构化网络。CAN从概念上理解是一个n维笛卡尔空间，即每个点在CAN空间中可以表示为(x1，…，xn)。每一个peer(可以理解为一台真实的PC)，管理着一个区域，即(x1_low＜＝x1＜＝x1_high，…，xn_low＜xn＜xn_high)。在2维空间中，每一台机器管理一个矩阵区域，3维空间中，每一台机器管理一个立方体。n维空间中，每一台机器管理一个超立方体。

CAN的路由机制就是从每一维上接近目标，即(2，3，4)需要路由到(3，4，5)，可以如下路由，(2，3，4)-＞(3，3，4)，此时，第一位已经满足了，再路由第二位，(3，3，4)-＞(3，4，4)，最后路由第三位，到(3，4，5)。

CAN空间的索引，假设peer1需要将d＝(d1，…，dn)索引到CAN空间中。首先它找到包含d的区域，再将(peer1，d)关系存储到peer2(包含该区域的节点)上。它只是存储了一个关系，而没有实际将文档复制过去CAN中存放的是n维的向量，这与信息检索中查询和文档的表示方法很类似，因此基于语义overlay一般使用CAN来存放对象。将内容作为向量存放到CAN空间的想法是很直接的。但是它引入了一系列复杂的问题：

(1)在信息检索中，文档与查询是由高维向量来表示的，通常是几万维，而CAN空间的维度一般是几十，维度的不匹配使得不能直接将文档索引至CAN中；

(2)维灾难——高维空间中的相似度不准确，这导致了在高维空间中进行查询变得困难。

相似查询(Similarity Search)被广泛地应用在各种系统中，比如图像检索、网页检索和数据压缩等。在这些应用中，真实的对象被抽象成几何空间中的向量。通过定义一个或多个计算相似度的函数，可以用来衡量人对对象之间相似度的印象。例如：可以认为两个向量之间的夹角就是真实对象的相似度，或者认为两个向量的Jaccard值为真实向量的相似度。为了尽可能地准确计算相似度，向量之间的相似度通常需要在高维的空间中进行计算。假设高维空间的维数为n，那么一般的方法需要用n个单位空间来存储，计算向量之间的相似度时间复杂度约为O(n)。例如，在一个600MB大小的纯英文文本的文档集合里，文本向量空间的维数可以高达几十万。在这种情况下，存储这些向量需要很大的存储空间，计算向量之间相似度的运算量也很大。因此，为了减少存储空间和简化向量之间相似度的计算，需要一种简单有效的降维方法，将高维空间的向量映射到低维空间。

然而，现有用于做相似查询的数据结构，如B+树，kd树，vp树和CAN等，都要求对象以低维空间的向量来表示。如果将高维向量直接应用在这些数据结构上，这些算法的有效性会大大降低。因此，将高维向量降维到低维空间并在一定程度上保持原来的相似度，对很多应用来说都有重要意义。

现有的浅层语义索引(Latent Semantic lndexing)技术，通过把多个词合并为一个概念来对矩阵进行降维。该方法把文档与词之间的关系转化为文档与概念之间的关系。比如，原来有{car，truck，flower}三个概念，经过LSI处理以后，这3个概念被转化为以下两个概念，{(1.3452^＊car+0.2828^＊truck)，flower}。LSI采用了奇异值分解(Singular Value Decomposition)对矩阵降维。该算法的时间复杂度较高，所以LSI的可适应性和可扩展性较差。

现有的随机映射(Random Mapping)技术，其算法如下：假定原矩阵为M[t^＊x](有t个对象，每个对象为x维)，通过生成一个随机矩阵R[x^＊y]，将原矩阵乘以随机矩阵得到M[t^＊y]，即为降维结果。随机映射有以下几个缺点：

(1)随机映射必须维护随机矩阵R[x^＊y]，通常这个矩阵是比较大的(因为原矩阵的维数x较高)；

(2)存储该矩阵需要耗费较多的空间。

发明内容

有鉴于此，本发明实施例提供一种网络文本检索方法和装置，克服了现有网络上文本检索时间复杂度高、耗费空间大、精确度较差的缺陷。

本发明实施例是通过以下技术方案实现的：

本发明实施例提供一种文本检索的方法，包括：

输入原始文本数据；

对所述原始文本数据进行自适应映射降维处理；

根据所述自适应映射降维处理后的数据，检索与其相似的文本数据。

本发明实施例还提供一种文本检索装置，包括：输入模块、降维模块、检索模块，其中：

输入模块，用于输入原始文本数据；

降维模块，用于对所述原始文本数据进行自适应映射降维处理；

检索模块，用于根据所述降维模块处理后的数据，检索与其相似的文本数据。

由上述本发明实施例提供的技术方案可以看出，本发明实施例在对高维文本数据进行降维后，能对原数据进行有效的压缩，时间复杂度较低，适用于海量数据，能有效地保持文本数据各原向量之间的相似度。使用本发明实施例的方法或装置可以以比较小的运算代价迅速地响应网络文本查询、搜索、检索等请求，从而解决了现有网络文本检索时间复杂度高、耗费空间大、精度较差的问题。

本发明实施例还可以根据用户的需求，通过调整参数来控制相似度的保持程度和运算的速度，使得用户可以在文本检索的精度和计算量上求得一个平衡。并且，实施本发明不需要引入领域相关的知识。

附图说明

图1为本发明实施例自适应映射算法流程图；

图2为本发明实施例更具体的自适应映射算法流程图；

图3-a为本发明自适应映射算法的程序流程图；

图3-b为本发明自适应映射算法的迭代示意图；

图4为本发明实施例的索引过程示意图；

图5为本发明实施例的文本检索装置功能模块示意图；

图6为本发明实施例的文本检索装置中的降维模块的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面结合附图对本发明实施例所提出的技术方案进行详细说明。

本发明实施例的文本检索方法基于“自适应映射”算法。参照图1，“自适应映射”算法包括如下步骤：

S102：输入原始数据；该原始数据为向量形式，不妨设其维数为M；

S104：确定目标映射空间的维数，也即拟降维后的数据的维数，不妨设该维数为N；

S106：根据原始数据的维数和所确定的目标映射空间的维数，确定降维映射关系；

S108：根据S106所确定的降维映射关系，确定原始数据各维度同目标映射空间各维度的对应关系。

进一步地，该方法还可以包括：

S110：根据原始数据，计算目标映射空间各维度的取值。所采用的计算方法可以有很多种，比如：迭代累加等。

参照图2，更具体地，“自适应映射”算法包括如下步骤：

S202：输入原始数据；该原始数据为向量形式，不妨设其维数为M；

S204：确定目标映射空间的维数，也即拟降维后的数据的维数，不妨设该维数为N；

S206：根据原始数据的维数和所确定的目标映射空间的维数，选择确定hash函数；该hash函数的选择可以是根据S202输入的原始数据的维数以及拟降维后的数据的维数而定；

S208：根据S206所确定的hash函数，确定原始数据各维度同目标映射空间各维度的对应关系。

进一步地，该方法还可以包括：

S210：根据原始数据，计算目标映射空间各维度的取值。所采用的计算方法可以有很多种，比如：迭代累加等。

“自适应映射”算法更具体的实施流程举例描述如下：

算法的输入分为两个部分：

(1)输入向量input，即原始数据；

(2)输入hash函数；hash函数可以是取模函数、MD5、SHA1等；

其中input向量的维数为m，算法的输出为output向量，其维数为n(n＜＜m)。

如图3-a和图3-b所示，程序流程如下：

(1)初始化output向量，其各维度的取值初始化为0；

(2)初始化索引i；

(3)对input向量进行循环，对其每维i，计算其哈希值hash(i)；

(4)计算output[hash(i)]的取值，可以采用多种计算方法，例如：迭代累加，即：output[hash(i)]＝output[hash(i)]+input[i]，或者可以是：output[hash(i)]＝(output[hash(i)]²+input[i]²)^1/2.

下面给出一个hash函数为取模函数的例子：

原始数据f是一个5维向量，表示为f＝{0.1，0.3，0.2，0.4，0.5}。目标映射空间的维数k＝2，原始数据f在目标映射空间的对应为向量v＝{v(0)，v(1)}。取一致性哈希函数为h(i)＝i mod k＝i mod 2。自适应映射算法的流程如下：

(1)初始化v(0)＝v(1)＝0；

(2)采用“累加”计算返回值：

h(0)＝0，v(0)＝v(0)+0.1＝0.1；

h(1)＝1，v(1)＝v(1)+0.3＝0.3；

h(2)＝0，v(0)＝v(0)+0.2＝0.3；

h(3)＝1，v(1)＝v(1)+0.4＝0.7；

h(4)＝0，v(0)＝v(0)+0.5＝0.8.

(3)最终返回向量v＝{0.8，0.7}.

下面再给出一个例子，采用的hash函数为MD5，如表1所示，第1列“原空间维度”经MD5映射为第2列的hash值(十六进制)，第3列为第2列的十进制表示，第4列为第3列对5求模的结果。

原空间维度	原空间维度的hash值(十六进制)	hash值的整数型式表示(十进制)	hash值对5求模的值
原空间维度	原空间维度的hash值(十六进制)	hash值的整数型式表示(十进制)	hash值对5求模的值	1	a0b923820dcc509a	v11581326958244155546	1
2	9d4c2f636f067f89	v11334486466295660425	0	1	a0b923820dcc509a	v11581326958244155546	1
2	9d4c2f636f067f89	v11334486466295660425	0	3	4b5ce2fe28308fd9	v5430464831925817305	0
4	a2f3e71d9181a67b	v11741982767666275963	3	3	4b5ce2fe28308fd9	v5430464831925817305	0
4	a2f3e71d9181a67b	v11741982767666275963	3	5	bbce2345d7772b06	v13532792713169545990	0
6	5a880faf6fb5e608	v6523481306414048776	1	5	bbce2345d7772b06	v13532792713169545990	0
6	5a880faf6fb5e608	v6523481306414048776	1	7	ceea167a5a36dedd	v14909754231118814941	1
8	fb98ab9159f51fd0	v18129428940747775952	2	7	ceea167a5a36dedd	v14909754231118814941	1

9	2e2d7fbdea1afc51	v3327456153349848145	0
9	2e2d7fbdea1afc51	v3327456153349848145	0	10	02a44259755d38e6	v190350036244969702	2
11	d9caa6e02c990b0a	v15693539333277027082	2	10	02a44259755d38e6	v190350036244969702	2
11	d9caa6e02c990b0a	v15693539333277027082	2	12	6fe97759aa27a0c9	v8064107834774102217	2
13	c124a10e0db5e4b9	v8064107834774102217	2	12	6fe97759aa27a0c9	v8064107834774102217	2
13	c124a10e0db5e4b9	v8064107834774102217	2	14	22bcc25a6f606eb5	v2503089186582589109	4
15	f062936a96d3c8bd	v17321569202826627261	1	14	22bcc25a6f606eb5	v2503089186582589109	4
15	f062936a96d3c8bd	v17321569202826627261	1	16	1eae257e44aa9d5b	v2210745691333631323	3
17	c9b086079795c442	v14533263364690658370	0	16	1eae257e44aa9d5b	v2210745691333631323	3
17	c9b086079795c442	v14533263364690658370	0	18	5568161a8cdf4ad2	v6154193194090187474	4
19	99908345f7439f8f	v11065488620973694863	3	18	5568161a8cdf4ad2	v6154193194090187474	4
19	99908345f7439f8f	v11065488620973694863	3	20	210194c475687be6	v2378345649732615142	2

表1

如上表所示，hash映射结果：

hash(2，3，59，17)＝0，

hash(1，6，7，15)＝1，

hash(8，10，11，12，13，20)＝2，

hash(4，16)＝3，

hash(14，18)＝4，

虽然映射不是完全均匀，但因为“均匀”是统计意义上的，只要当原空间的维数达到足够高，映射就会变得“均匀”。

自适应映射在高维稀疏向量下效果较好，下面一段是高维稀疏向量产生原因的补充。

高维稀疏向量的产生主要来源于文本到高维空间的映射。文本到高维空间的映射的具体过程如下：首先统计文档集合中的词；然后开始映射，文档在每一维的分量都对应了文档集合中的某个词。每一维度的值计算如下，如果这篇文档含有对应该分量的词的话，该分量不为零(可以通过tfidf等方法计算得到)，否则该分量为0。我们以trec-6文档集为例，trec-6有556k篇文档，共有742k词。其中，平均每篇文档有200-300个词。按照上面的映射过程，文档被映射为742k维向量，其中只有200-300维的值不为0，其余大多数维的值都为0。因此，该映射过程引入了高维稀疏向量。产生高维稀疏向量的主要原因是文档集合中词的数目很大，但是每篇文档中所含的词的数目很少。

高维向量不仅带来存储和计算上的困难，在其他一些领域也存在着一些困难。在基于自适应映射的对等网络检索系统中，CAN空间的维数一般是几十维，而文本向量是几十万。维数的不匹配性使得文本不能直接放入CAN空间。其次，高维空间中，由于维灾难，相似度的计算不是很准确，这使得文本检索的能力下降。通过自适应映射，我们能把高维空间的向量映射到低维空间，不仅仅减小了存储和计算上的代价，而且还能将文本索引至CAN空间，构建了基于语义的overlay，以便后面的检索过程。

下面再给出一个例子，其中的向量都满足高维稀疏的特性：

原始向量f1，f2是一个50维的向量，因为维数较高，故采用稀疏表示法来表示，如下：

f1＝[10:0.468，15:0.058，42:0.336，43:0.852]；

f2＝[1:0.16134499，6:0.086649，10:0.11352496，29:0.7749904，47:0.95804197]；

采用向量空间夹角，可以计算得到f1和f2之间的相似度为0.0532。

以上两个向量经过hash函数映射到10维空间以后，得到hash_f1和hash_f2，分别是：

hash_f1＝[0:0.468，2:0.336，3:0.852，5:0.058]；

hash_f2＝[0:0.113，1:0.161，6:0.086，7:0.958，9:0.774].

采用向量空间夹角，可以计算得到hash_f1和hash_f2之间的相似度也是0.0532。可见“自适应映射”算法具有能高度保持哈希前后的向量相似度的优点。

本发明实施例提供一种文本检索方法，该方法基于自适应映射算法，应用于一种对等结构化网络——CAN(Content-Aware Network，内容感知网络)，在介绍该文本检索方法之前，先说明建立文本在CAN空间中的索引的方法：

假设文档的维数为n，CAN空间的维数为k；

建立文本索引主要包括两个步骤：

(1)对于某一篇文档d＝(t₁，…，t_n)，用自适应映射算法进行降维，目标维数是CAN空间维数k，得到的结果为d’＝(t₁’，…，t_k’)；

(2)将d存储到CAN空间中包含(t₁’，…，t_k’)的区域上.

参照图4，图4揭示如何将一个n维的文档索引到2维的CAN空间上。输入文档d＝(t₁，…，t_n)通过SAM被映射为2维向量(5，4)，随后文档d被索引至包含(5，4)的区域B。

这种建立索引的方法使得相似的文本在CAN空间中的距离比较接近。

下面说明本实施例的文本检索方法：

首先，对要检索的文本q用自适应映射算法进行降维，将其维数降至CAN空间的维数k，得到降维后的查询q’；

然后，将查询q’路由到CAN空间中包含q’区域；因为该区域的文本与周围区域的文本比较相似，所以在该区域及该区域的周围进行检索，返回最相似的文本集合。

检索结果可以表示为Q_r(q)＝{d，S(d，q)＞r}。其中q是查询，d是文档，r是相似度的阈值，S(x，y)是相似度函数——相似度函数的定义方式可以是：两向量的夹角余弦，等等。Q_r(q)是找到与查询q相似度大于r的文档d的集合。

检索的步骤如下：

(1)对于某一查询q＝(t₁，…，t_n)，用自适应映射算法进行降维，目标维数是CAN空间维数k，得到结果为q’＝(t₁’，…，t_k’)；

(2)将q路由到CAN空间中包含坐标q’＝(t₁’，…，t_k’)的区域z，比较区域z中的所有文档d，返回那些满足S(d，q)＞r的文档；

(3)假如该区域z中所有的d都满足S(d，q)＞r，则将查询q路由到z的邻居区域。重复步骤(2)～(3)；

(4)假如该区域z中存在某一文档d’，不满足S(d’，q)＞r，则查询停止。

本实施例方法运行所涉及的一系列参数的确定和选取可以是由用户根据检索的精度需求和计算量决定的，使得本发明实施例更加灵活地满足用户需求。

本实施例方法可以应用的场合至少包括：网络文本检索、数据库、搜索引擎或检索服务器等。

参照图5，本实施例提供一种文本检索装置，该装置包括：输入模块502、降维模块504、检索模块506、输出模块508，其中：

输入模块502，用于输入原始文本数据；

降维模块504可以采用自适应映射降维算法，用于对输入的原始文本数据进行降维处理，根据原始数据的维数和目标映射空间的维数，确定降维映射关系，并根据该映射关系，确定原始数据各维同目标映射空间各维的对应关系，计算目标映射空间各维的取值；

检索模块506，用于对降维模块504降维处理后的数据进行检索。

进一步地，该装置还包括：

输出模块508，用于输出检索模块506检索到的文本数据；

参数调节模块510，用于确定目标映射空间的维数、目标映射空间各维取值的计算方式，选取降维映射关系等，比如hash函数的选取，拟降维后的数据的维数等。装置运行所涉及的一系列参数的确定和选取可以是由用户根据检索的精度需求和计算量决定的，使得本发明实施例更加灵活地满足用户需求。该模块调节的参数传递给降维模块504，以控制降维模块的处理流程。通过该模块调整参数来控制相似度的保持程度和运算的速度，使得用户可以在精度和计算量上求的一个平衡。

参照图6，降维模块504具体可以包括：

维度映射模块504-1和计算模块504-2，其中：

维度映射模块504-1，用于根据原始数据的维数和目标映射空间的维数，确定降维映射关系，并根据该映射关系，确定原始数据各维度同目标映射空间各维度的对应关系；确定降维映射关系具体可以是选择确定特定的hash函数，如模n取模函数、MD5函数或SHA1等；

计算模块504-2，用于根据某种计算方法，比如累加、平方和累加再开方等，计算目标映射空间各维度的取值。

降维模块504可以根据来自参数调节模块510的参数执行处理流程。

上述模块502～510可以是硬件单元、软件单元、或者是硬件单元与软件单元的结合。

本实施例的检索装置可以集成于网络文本检索器、数据库、搜索引擎或检索服务器等中。

本实施例的检索装置的各个模块可以分布式集成于多个设备上，即由多台设备构成与本实施例的装置功能相当的检索系统。

综上所述，本发明实施例提供了一种基于自适应映射算法的文本检索方法和装置，能对原文本数据进行有效的压缩，时间复杂度较低，适用于海量数据，能有效地保持文本数据各原向量之间的相似度。使用本发明实施例的方法或装置可以以比较小的运算代价迅速地响应网络文本查询、搜索、检索等请求，从而解决了现有网络文本检索时间复杂度高、耗费空间大、精度较差的问题。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求的保护范围为准。

Claims

1、一种文本检索的方法，其特征在于，包括：

输入原始文本数据；

对所述原始文本数据进行自适应映射降维处理；

根据所述自适应映射降维处理后的数据，检索与其相似的文本数据；

其中，所述对原始文本数据进行自适应映射降维处理包括：

根据所述原始文本数据的维数和目标映射空间的维数，确定降维映射关系；根据所述确定的降维映射关系，确定所述原始文本数据各维度同目标映射空间各维度的对应关系。

2、如权利要求1所述的方法，其特征在于，在所述根据所述自适应映射降维处理后的数据，检索与其相似的文本数据的步骤之后，进一步包括：

输出所述检索到的文本数据。

3、如权利要求1所述的方法，其特征在于，在所述根据原始文本数据的维数和目标映射空间的维数，确定降维映射关系的步骤之前，该方法进一步包括：

确定目标映射空间的维数。

4、如权利要求1所述的方法，其特征在于，在所述确定所述原始数据各维同目标映射空间各维的对应关系的步骤之后，该方法进一步包括：

根据原始文本数据，计算目标映射空间各维度的取值。

5、如权利要求1所述的方法，其特征在于，所述确定降维映射关系包括：选择确定哈希hash函数。

6、如权利要求1所述的方法，其特征在于，所述方法应用的场合至少包括：网络文本检索、数据库、搜索引擎或检索服务器。

7、一种文本检索装置，其特征在于，包括：输入模块、降维模块、检索模块，其中：

输入模块，用于输入原始文本数据；

检索模块，用于根据所述降维模块处理后的数据，检索与其相似的文本数据；

其中，所述降维模块包括：

维度映射模块，用于根据原始数据的维数和目标映射空间的维数，确定降维映射关系；根据所述确定的降维映射关系，确定原始文本数据各维度同目标映射空间各维度的对应关系；

计算模块，用于计算目标映射空间各维度的取值。

8、如权利要求7所述的装置，其特征在于，该装置进一步包括：

输出模块，用于输出所述检索模块检索到的文本数据。

9、如权利要求7所述的装置，其特征在于，进一步包括：

参数调节模块，用于确定目标映射空间的维数、目标映射空间各维度取值的计算方式、选取降维映射关系；将该模块所确定和/或选取的参数传递给所述降维模块以参与控制降维模块的运行。

10、如权利要求7所述的装置，其特征在于，该装置集成于网络文本检索器、数据库、搜索引擎或检索服务器中。