CN102841945A - 基于扩展查询似然模型的动态后继树索引裁剪方法 - Google Patents
基于扩展查询似然模型的动态后继树索引裁剪方法 Download PDFInfo
- Publication number
- CN102841945A CN102841945A CN201210307005XA CN201210307005A CN102841945A CN 102841945 A CN102841945 A CN 102841945A CN 201210307005X A CN201210307005X A CN 201210307005XA CN 201210307005 A CN201210307005 A CN 201210307005A CN 102841945 A CN102841945 A CN 102841945A
- Authority
- CN
- China
- Prior art keywords
- index
- document
- img
- dynamic
- descendence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于扩展查询似然模型的动态后继树索引裁剪方法,该方法依次包括以下步骤:(1)针对动态后继树索引结构,首先创建完整的动态后继树索引;(2)然后依次遍历索引中每一篇文档包含的不同二元词项,提取索引的统计信息;(3)计算这些二元词项在其当前出现文档中的相对重要性评分;(4)输入裁剪参数,从完整动态后继树索引中删除掉一定比例的不重要二元词项所对应的索引信息;(5)形成裁剪后的动态后继树索引。本方法通过合理的去掉动态后继树索引中的不重要信息达到降低索引文件大小的目的。
Description
技术领域
本发明涉及信息检索与数据压缩技术领域,具体涉及一种基于扩展查询似然模型的动态后继树索引裁剪方法。
背景技术
随着以社交网络为代表的Web 2.0时代的到来,每时每刻都有大量文本数据被生产出来,对这些海量文本数据或者大数据建立索引必然导致庞大的索引文件。同时,为支持更加丰富而多样化的查询检索功能,存储在索引文件中的信息类型和数量也较以前有大量的增加,这无疑进一步加剧了索引文件的膨胀。庞大索引文件不仅占用大量的磁盘空间,更使得查询时访问索引文件时间开销过大,磁盘I/O的过于频繁与缓慢的磁盘访问速度,已经成为影响效率提升的重大瓶颈之一。此外,新应用场景的出现,如移动终端检索(search in mobile devices)、个人电脑桌面搜索(desktop
search)、P2P检索(Peer to Peer
search)等,对信息检索系统的各项性能提出了更严格的要求,迫使现代信息检索系统必须重新考虑下列问题:哪一部分索引数据应该被存储于索引文件之中。
目前降低索引文件大小的最常见方法是使用数据压缩技术,数据压缩技术一般存在两种类型:无损压缩和有损压缩。无损压缩采用高效的数据编码方式表示记录在索引结构中的数据信息,比如Delta编码、Golomb编码和可变长字节编码等,压缩过程中不删除任何索引信息。有损压缩则是通过删除在查询时被认为是无用的索引信息的方式达到降低索引文件大小的目的。目前,对倒排索引文件无损压缩方法的研究已经有许多成熟的解决方案,也有一些对动态后继树索引文件进行无损压缩的相关研究。无损压缩的优势在于其安全性高,不会损失任何索引信息。与无损压缩研究不同,针对索引文件的有损压缩研究,即索引裁剪技术研究,却并不是很多。依据目前公开可查询的国内外文献来看,索引裁剪技术研究主要针对倒排索引文件进行,国内的相关研究更少,而且没有针对动态后继树索引文件进行索引裁剪的相关研究。在充分利用动态后继树索引结构针对中文信息检索的优越性的同时,必须注意到动态后继树索引结构的不足:产生的索引文件比较大,膨胀比高。因此针对动态后继树索引的特点进行相应的索引裁剪技术研究,从而弥补其索引文件膨胀比高的不足就具有极大理论价值和实践意义。
发明内容
本发明的目的在于针对现有技术的不足,提供了一种基于扩展查询似然模型的动态后继树索引裁剪方法。
为了实现上述目的,本发明采用了以下技术方案:一种基于扩展查询似然模型的动态后继树索引裁剪方法,以完整的动态后继树索引作为处理对象,对索引中的树叶信息进行重要性评估,然后删除不重要的树叶信息,形成裁剪后的动态后继树索引;
该方法依次包括以下步骤:
(1)针对动态后继树索引结构,创建完整的动态后继树索引;
(2)依次遍历索引中每一篇文档包含的不同二元词项,提取索引统计信息;
(3)利用重要性评分公式:
,计算索引中的二元词项在其当前出现文档中的重要性评分,然后对二元词项进行重要性降序排列;其中:是二元词项在文档中的出现次数,是二元词项在文档集中的出现次数,是文档集的长度,为文档的长度,为平滑因子;该评分公式由一系列的公式推导而形成:首先从传统的查询似然模型出发,引入高效的狄尼克雷平滑机制对此查询似然模型进行扩展;然后在信息论K-L距离定义的基础上采用算术平均数的方式定义了对称K-L距离,从而更加平衡的度量文档与文档集之间的差异;最后评估文档中的二元词项对文档对称K-L距离的贡献度即;
(4)输入裁剪参数、,让裁剪参数依次分别和索引中与一篇文档关联的所有树叶信息的个数进行比较、计算,控制动态后继树索引的裁剪规模,删除一篇文档中排序靠后的二元词项所对应的树叶信息Leaf Information(LI);裁剪参数在取值范围内的实际取值可以根据裁剪数据的实际情况、实际需求输入,通过不同的取值,可以得到我们需要的不同裁剪效果;
(5)形成并输出裁剪后的动态后继树索引。
上述的二元词项由树根词项和与树根词项直接关联的树叶词项组成的整体,是不可分割。所述的树根词项是指在创建动态后继树索引时,位于树根的分词词项;而树叶词项则是树根的后继,指位于树叶的分词词项。
上述的索引统计信息包括二元词项在每一篇文档中出现的次数、含有某一个二元词项的文档数目、二元词项在文档集中总的出现次数、每一篇文档的长度(即包含二元词项的个数)和文档集的总长度(即所有文档长度之和)、与一篇文档关联的所有树叶信息的个数等,索引统计信息还可包括有其他信息,不限于上述提及的统计信息。
②若≤k,转步骤⑤;
⑤结束。
k参数可以更加精确的控制索引裁剪的规模。另外,本发明的方法中的步骤(1)中动态后继树索引的创建过程可参见本申请人的在先申请专利:名称:密文全文检索系统,专利申请号201010187384.4,申请日期:2010-5-31,公开日期:2010-10-13 。
本发明的裁剪方法是一种索引有损压缩方法,通过合理的去掉动态后继树索引中的不重要信息达到降低索引文件大小的目的。具体为:针对动态后继树索引结构,首先创建完整的动态后继树索引;然后依次遍历索引中每一篇文档包含的不同二元词项,并提取索引的统计信息;将统计信息的数据代入评估公式中,计算这些二元词项在其当前出现文档中的相对重要性评分,并进行重要性降序排列;再输入相应的裁剪参数,从完整动态后继树索引中删除掉一定比例的不重要二元词项所对应的索引信息;最后得到裁剪后的动态后继树索引。
本发明的优点:
1.索引文件小、膨胀比低、对检索结果影响小。该裁剪方法不仅能够可控制幅度的降低动态后继树索引的大小,同时能够保证在裁剪后的动态后继树索引上进行检索时得到较好的结果,不会严重损害用户搜索体验;裁剪粒度是树叶信息,对检索结果的影响很小。
2.方法操作简单易行、可靠性高。
附图说明
图1是本发明基于扩展查询似然模型的动态后继树索引裁剪方法的流程图。
具体实施方式
下面结合附图和实施例对本发明进一步说明。
实施例:
如附图所示,本发明的裁剪方法具体实施过程如下:
(1)针对动态后继树索引结构,创建完整的动态后继树索引;
(2)依次遍历索引中每一篇文档包含的由树根词项和与树根词项直接关联的树叶词项组成的不同二元词项,提取索引统计信息,统计信息包括二元词项在每一篇文档中出现的次数、含有某一个二元词项的文档数目、二元词项在文档集中总的出现次数、每一篇文档的长度(即包含二元词项的个数)和文档集的总长度(即所有文档长度之和)、与一篇文档关联的所有树叶信息的个数等;
(3)利用重要性评分公式:
②若≤k,转步骤⑤;
⑤结束。此步骤中的裁剪参数在取值范围内的实际取值可以根据裁剪数据的实际情况、实际需求输入,通过输入不同的取值,可以得到我们需要的不同裁剪效果;
(5)裁剪结束后,即可形成并输出裁剪后的动态后继树索引。
该裁剪方法是一种索引有损压缩方法,通过合理的去掉动态后继树索引中的不重要信息达到了降低索引文件大小的目的。该方法操作简单易行,具备了索引文件小、膨胀比低、对检索结果影响小、可靠性高等特点。
Claims (4)
1. 一种基于扩展查询似然模型的动态后继树索引裁剪方法,其特征在于:该方法依次包括以下步骤:
(1)针对动态后继树索引结构,创建完整的动态后继树索引;
(2)依次遍历索引中每一篇文档包含的不同二元词项,提取索引统计信息;
(3)利用重要性评分公式:
(5)形成并输出裁剪后的动态后继树索引。
2. 根据权利要求1所述的基于扩展查询似然模型的动态后继树索引裁剪方法,其特征在于:所述的二元词项由树根词项和与树根词项直接关联的树叶词项组成的整体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210307005.XA CN102841945B (zh) | 2012-08-27 | 2012-08-27 | 基于扩展查询似然模型的动态后继树索引裁剪方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210307005.XA CN102841945B (zh) | 2012-08-27 | 2012-08-27 | 基于扩展查询似然模型的动态后继树索引裁剪方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN102841945A true CN102841945A (zh) | 2012-12-26 |
CN102841945B CN102841945B (zh) | 2015-06-17 |
Family
ID=47369308
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201210307005.XA Active CN102841945B (zh) | 2012-08-27 | 2012-08-27 | 基于扩展查询似然模型的动态后继树索引裁剪方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN102841945B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050114298A1 (en) * | 2003-11-26 | 2005-05-26 | International Business Machines Corporation | System and method for indexing weighted-sequences in large databases |
CN101859323A (zh) * | 2010-05-31 | 2010-10-13 | 广西大学 | 密文全文检索系统 |
CN102169504A (zh) * | 2011-05-10 | 2011-08-31 | 航天恒星科技有限公司 | 一种用于卫星地面设备监控的数据库索引方法 |
CN102629274A (zh) * | 2010-05-31 | 2012-08-08 | 广西大学 | 基于动态后继树索引结构的密文全文检索系统的索引更新方法 |
-
2012
- 2012-08-27 CN CN201210307005.XA patent/CN102841945B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050114298A1 (en) * | 2003-11-26 | 2005-05-26 | International Business Machines Corporation | System and method for indexing weighted-sequences in large databases |
CN101859323A (zh) * | 2010-05-31 | 2010-10-13 | 广西大学 | 密文全文检索系统 |
CN102629274A (zh) * | 2010-05-31 | 2012-08-08 | 广西大学 | 基于动态后继树索引结构的密文全文检索系统的索引更新方法 |
CN102169504A (zh) * | 2011-05-10 | 2011-08-31 | 航天恒星科技有限公司 | 一种用于卫星地面设备监控的数据库索引方法 |
Non-Patent Citations (1)
Title |
---|
霍林等: "二元互关联后继树精简索引模型研究", 《小型微型计算机系统》 * |
Also Published As
Publication number | Publication date |
---|---|
CN102841945B (zh) | 2015-06-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Ren et al. | On querying historical evolving graph sequences | |
CN102426610B (zh) | 微博搜索排名方法及微博搜索引擎 | |
CN102799682B (zh) | 一种海量数据预处理方法及其系统 | |
CN105808696B (zh) | 一种基于全局和局部特征的跨在线社交网络用户匹配方法 | |
CN101561813B (zh) | 一种Web环境下的字符串相似度的分析方法 | |
CN103218436B (zh) | 一种融合用户类别标签的相似问题检索方法及装置 | |
CN104462383A (zh) | 一种基于用户多种行为反馈的电影推荐方法 | |
CN103236847A (zh) | 基于多层哈希结构与游程编码的数据无损压缩方法 | |
RU2010150819A (ru) | Оптимизация формата поискового индекса | |
CN102915365A (zh) | 基于Hadoop的分布式搜索引擎构建方法 | |
CN104182388A (zh) | 一种基于语义分析的文本聚类系统及方法 | |
CN104199827A (zh) | 基于局部敏感哈希的大规模多媒体数据的高维索引方法 | |
CN104077386A (zh) | 一种族谱数据关系表的创建及查询方法 | |
CN103646029A (zh) | 一种针对博文的相似度计算方法 | |
CN103425763A (zh) | 基于sns的用户推荐方法及装置 | |
CN109447261A (zh) | 一种基于多阶邻近相似度的网络表示学习的方法 | |
CN104915405A (zh) | 一种基于多层次的微博查询扩展方法 | |
CN108241713A (zh) | 一种基于多元切分的倒排索引检索方法 | |
CN103838831A (zh) | 一种基于社区划分的在线社交网络海量数据存储方法 | |
Ye et al. | Big data processing framework for manufacturing | |
CN104346347A (zh) | 数据存储方法、装置、服务器及系统 | |
CN105302915A (zh) | 基于内存计算的高性能数据处理系统 | |
CN104731887A (zh) | 一种协同过滤中的用户相似度度量方法 | |
CN105447004A (zh) | 查询推荐词的挖掘、相关查询方法及装置 | |
US11488061B2 (en) | High-dimensional data nearest-neighbor query method based on variable-length hash codes |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant |