CN102841945A

CN102841945A - 基于扩展查询似然模型的动态后继树索引裁剪方法

Info

Publication number: CN102841945A
Application number: CN201210307005XA
Authority: CN
Inventors: 霍林; 邹先泽
Original assignee: Guangxi University
Current assignee: Guangxi University
Priority date: 2012-08-27
Filing date: 2012-08-27
Publication date: 2012-12-26
Anticipated expiration: 2032-08-27
Also published as: CN102841945B

Abstract

本发明公开了一种基于扩展查询似然模型的动态后继树索引裁剪方法，该方法依次包括以下步骤：（1）针对动态后继树索引结构，首先创建完整的动态后继树索引；（2）然后依次遍历索引中每一篇文档包含的不同二元词项，提取索引的统计信息；（3）计算这些二元词项在其当前出现文档中的相对重要性评分；（4）输入裁剪参数，从完整动态后继树索引中删除掉一定比例的不重要二元词项所对应的索引信息；（5）形成裁剪后的动态后继树索引。本方法通过合理的去掉动态后继树索引中的不重要信息达到降低索引文件大小的目的。

Description

基于扩展查询似然模型的动态后继树索引裁剪方法

技术领域

本发明涉及信息检索与数据压缩技术领域，具体涉及一种基于扩展查询似然模型的动态后继树索引裁剪方法。

背景技术

随着以社交网络为代表的Web 2.0时代的到来，每时每刻都有大量文本数据被生产出来，对这些海量文本数据或者大数据建立索引必然导致庞大的索引文件。同时，为支持更加丰富而多样化的查询检索功能，存储在索引文件中的信息类型和数量也较以前有大量的增加，这无疑进一步加剧了索引文件的膨胀。庞大索引文件不仅占用大量的磁盘空间，更使得查询时访问索引文件时间开销过大，磁盘I/O的过于频繁与缓慢的磁盘访问速度，已经成为影响效率提升的重大瓶颈之一。此外，新应用场景的出现，如移动终端检索(search in mobile devices)、个人电脑桌面搜索(desktop search)、P2P检索(Peer to Peer search)等，对信息检索系统的各项性能提出了更严格的要求，迫使现代信息检索系统必须重新考虑下列问题：哪一部分索引数据应该被存储于索引文件之中。

目前降低索引文件大小的最常见方法是使用数据压缩技术，数据压缩技术一般存在两种类型：无损压缩和有损压缩。无损压缩采用高效的数据编码方式表示记录在索引结构中的数据信息，比如Delta编码、Golomb编码和可变长字节编码等，压缩过程中不删除任何索引信息。有损压缩则是通过删除在查询时被认为是无用的索引信息的方式达到降低索引文件大小的目的。目前，对倒排索引文件无损压缩方法的研究已经有许多成熟的解决方案，也有一些对动态后继树索引文件进行无损压缩的相关研究。无损压缩的优势在于其安全性高，不会损失任何索引信息。与无损压缩研究不同，针对索引文件的有损压缩研究,即索引裁剪技术研究，却并不是很多。依据目前公开可查询的国内外文献来看，索引裁剪技术研究主要针对倒排索引文件进行，国内的相关研究更少，而且没有针对动态后继树索引文件进行索引裁剪的相关研究。在充分利用动态后继树索引结构针对中文信息检索的优越性的同时，必须注意到动态后继树索引结构的不足：产生的索引文件比较大，膨胀比高。因此针对动态后继树索引的特点进行相应的索引裁剪技术研究，从而弥补其索引文件膨胀比高的不足就具有极大理论价值和实践意义。

发明内容

本发明的目的在于针对现有技术的不足，提供了一种基于扩展查询似然模型的动态后继树索引裁剪方法。

为了实现上述目的，本发明采用了以下技术方案：一种基于扩展查询似然模型的动态后继树索引裁剪方法，以完整的动态后继树索引作为处理对象，对索引中的树叶信息进行重要性评估，然后删除不重要的树叶信息，形成裁剪后的动态后继树索引；

该方法依次包括以下步骤：

（1）针对动态后继树索引结构，创建完整的动态后继树索引；

（2）依次遍历索引中每一篇文档包含的不同二元词项，提取索引统计信息；

（3）利用重要性评分公式：

Figure 201210307005X100002DEST_PATH_IMAGE002

，计算索引中的二元词项在其当前出现文档中的重要性评分，然后对二元词项进行重要性降序排列；其中：

Figure 201210307005X100002DEST_PATH_IMAGE004

是二元词项在文档

中的出现次数，

Figure 201210307005X100002DEST_PATH_IMAGE010

是二元词项

在文档集

Figure 201210307005X100002DEST_PATH_IMAGE012

中的出现次数，

Figure 201210307005X100002DEST_PATH_IMAGE014

是文档集

的长度，

Figure 201210307005X100002DEST_PATH_IMAGE016

为文档的长度，

Figure 201210307005X100002DEST_PATH_IMAGE018

为平滑因子；该评分公式由一系列的公式推导而形成：首先从传统的查询似然模型出发，引入高效的狄尼克雷平滑机制对此查询似然模型进行扩展；然后在信息论K-L距离定义的基础上采用算术平均数的方式定义了对称K-L距离，从而更加平衡的度量文档与文档集之间的差异；最后评估文档中的二元词项对文档对称K-L距离的贡献度即

Figure 201210307005X100002DEST_PATH_IMAGE020

；

（4）输入裁剪参数、

Figure 201210307005X100002DEST_PATH_IMAGE024

，让裁剪参数

Figure 201210307005X100002DEST_PATH_IMAGE026

依次分别和索引中与一篇文档关联的所有树叶信息的个数

Figure 201210307005X100002DEST_PATH_IMAGE028

进行比较、计算，控制动态后继树索引的裁剪规模，删除一篇文档中排序靠后的二元词项所对应的树叶信息Leaf Information（LI）；裁剪参数

在取值范围内的实际取值可以根据裁剪数据的实际情况、实际需求输入，通过不同的取值，可以得到我们需要的不同裁剪效果；

（5）形成并输出裁剪后的动态后继树索引。

上述的二元词项由树根词项和与树根词项直接关联的树叶词项组成的整体，是不可分割。所述的树根词项是指在创建动态后继树索引时，位于树根的分词词项；而树叶词项则是树根的后继，指位于树叶的分词词项。

上述的索引统计信息包括二元词项在每一篇文档中出现的次数、含有某一个二元词项的文档数目、二元词项在文档集中总的出现次数、每一篇文档的长度（即包含二元词项的个数）和文档集的总长度（即所有文档长度之和）、与一篇文档关联的所有树叶信息的个数

等，索引统计信息还可包括有其他信息，不限于上述提及的统计信息。

所述的步骤（4）输入裁剪参数

、

，让裁剪参数

分别和索引中与一篇文档关联的所有树叶信息的个数

进行比较、计算，控制动态后继树索引的裁剪规模，删除一篇文档中排序靠后的二元词项所对应的树叶信息步骤为：

①输入裁剪参数

；

②若≤k，转步骤⑤；

③若

Figure 201210307005X100002DEST_PATH_IMAGE030

且

-

Figure 201210307005X100002DEST_PATH_IMAGE032

>k,则裁剪掉排序靠后的⌈⌉个树叶信息；⌈

⌉表示的是对

进行上取整，即当

为小数时，则对其上取整，如

的结果为8.2时，则取整为9；

④若

且

-≤k,则裁剪掉排序靠后的

-k个树叶信息；

⑤结束。

k参数可以更加精确的控制索引裁剪的规模。另外，本发明的方法中的步骤（1）中动态后继树索引的创建过程可参见本申请人的在先申请专利：名称：密文全文检索系统，专利申请号201010187384.4，申请日期：2010-5-31，公开日期：2010-10-13 。

本发明的裁剪方法是一种索引有损压缩方法，通过合理的去掉动态后继树索引中的不重要信息达到降低索引文件大小的目的。具体为：针对动态后继树索引结构，首先创建完整的动态后继树索引；然后依次遍历索引中每一篇文档包含的不同二元词项，并提取索引的统计信息；将统计信息的数据代入评估公式中，计算这些二元词项在其当前出现文档中的相对重要性评分，并进行重要性降序排列；再输入相应的裁剪参数，从完整动态后继树索引中删除掉一定比例的不重要二元词项所对应的索引信息；最后得到裁剪后的动态后继树索引。

本发明的优点：

1.索引文件小、膨胀比低、对检索结果影响小。该裁剪方法不仅能够可控制幅度的降低动态后继树索引的大小，同时能够保证在裁剪后的动态后继树索引上进行检索时得到较好的结果，不会严重损害用户搜索体验；裁剪粒度是树叶信息，对检索结果的影响很小。

2.方法操作简单易行、可靠性高。

附图说明

图1是本发明基于扩展查询似然模型的动态后继树索引裁剪方法的流程图。

具体实施方式

下面结合附图和实施例对本发明进一步说明。

实施例：

如附图所示，本发明的裁剪方法具体实施过程如下：

（2）依次遍历索引中每一篇文档包含的由树根词项和与树根词项直接关联的树叶词项组成的不同二元词项，提取索引统计信息，统计信息包括二元词项在每一篇文档中出现的次数、含有某一个二元词项的文档数目、二元词项在文档集中总的出现次数、每一篇文档的长度（即包含二元词项的个数）和文档集的总长度（即所有文档长度之和）、与一篇文档关联的所有树叶信息的个数

等；

（3）利用重要性评分公式：

，其中

是二元词项

在文档

中的出现次数，

是二元词项在文档集

中的出现次数，

是文档集

的长度，

为文档

的长度，为平滑因子，计算索引中的二元词项在其当前出现文档中的重要性评分，然后对二元词项进行重要性降序排列；

（4）输入裁剪参数

、

，让裁剪参数

依次分别和索引中与一篇文档关联的所有树叶信息的个数

进行比较、计算，控制动态后继树索引的裁剪规模，删除一篇文档中排序靠后的二元词项所对应的树叶信息；具体言之为：

①输入裁剪参数

；

②若≤k，转步骤⑤；

③若

且

-

>k,则裁剪掉排序靠后的⌈⌉个树叶信息；

④若

且

-

≤k,则裁剪掉排序靠后的

-k个树叶信息；

⑤结束。此步骤中的裁剪参数在取值范围内的实际取值可以根据裁剪数据的实际情况、实际需求输入，通过输入不同的取值，可以得到我们需要的不同裁剪效果；

（5）裁剪结束后，即可形成并输出裁剪后的动态后继树索引。

该裁剪方法是一种索引有损压缩方法，通过合理的去掉动态后继树索引中的不重要信息达到了降低索引文件大小的目的。该方法操作简单易行，具备了索引文件小、膨胀比低、对检索结果影响小、可靠性高等特点。