CN102841945A - 基于扩展查询似然模型的动态后继树索引裁剪方法 - Google Patents

基于扩展查询似然模型的动态后继树索引裁剪方法 Download PDF

Info

Publication number
CN102841945A
CN102841945A CN201210307005XA CN201210307005A CN102841945A CN 102841945 A CN102841945 A CN 102841945A CN 201210307005X A CN201210307005X A CN 201210307005XA CN 201210307005 A CN201210307005 A CN 201210307005A CN 102841945 A CN102841945 A CN 102841945A
Authority
CN
China
Prior art keywords
index
document
img
dynamic
descendence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201210307005XA
Other languages
English (en)
Other versions
CN102841945B (zh
Inventor
霍林
邹先泽
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangxi University
Original Assignee
Guangxi University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangxi University filed Critical Guangxi University
Priority to CN201210307005.XA priority Critical patent/CN102841945B/zh
Publication of CN102841945A publication Critical patent/CN102841945A/zh
Application granted granted Critical
Publication of CN102841945B publication Critical patent/CN102841945B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于扩展查询似然模型的动态后继树索引裁剪方法,该方法依次包括以下步骤:(1)针对动态后继树索引结构,首先创建完整的动态后继树索引;(2)然后依次遍历索引中每一篇文档包含的不同二元词项,提取索引的统计信息;(3)计算这些二元词项在其当前出现文档中的相对重要性评分;(4)输入裁剪参数,从完整动态后继树索引中删除掉一定比例的不重要二元词项所对应的索引信息;(5)形成裁剪后的动态后继树索引。本方法通过合理的去掉动态后继树索引中的不重要信息达到降低索引文件大小的目的。

Description

基于扩展查询似然模型的动态后继树索引裁剪方法
技术领域
本发明涉及信息检索与数据压缩技术领域,具体涉及一种基于扩展查询似然模型的动态后继树索引裁剪方法。
背景技术
随着以社交网络为代表的Web 2.0时代的到来,每时每刻都有大量文本数据被生产出来,对这些海量文本数据或者大数据建立索引必然导致庞大的索引文件。同时,为支持更加丰富而多样化的查询检索功能,存储在索引文件中的信息类型和数量也较以前有大量的增加,这无疑进一步加剧了索引文件的膨胀。庞大索引文件不仅占用大量的磁盘空间,更使得查询时访问索引文件时间开销过大,磁盘I/O的过于频繁与缓慢的磁盘访问速度,已经成为影响效率提升的重大瓶颈之一。此外,新应用场景的出现,如移动终端检索(search in mobile devices)、个人电脑桌面搜索(desktop search)、P2P检索(Peer to Peer search)等,对信息检索系统的各项性能提出了更严格的要求,迫使现代信息检索系统必须重新考虑下列问题:哪一部分索引数据应该被存储于索引文件之中。
目前降低索引文件大小的最常见方法是使用数据压缩技术,数据压缩技术一般存在两种类型:无损压缩和有损压缩。无损压缩采用高效的数据编码方式表示记录在索引结构中的数据信息,比如Delta编码、Golomb编码和可变长字节编码等,压缩过程中不删除任何索引信息。有损压缩则是通过删除在查询时被认为是无用的索引信息的方式达到降低索引文件大小的目的。目前,对倒排索引文件无损压缩方法的研究已经有许多成熟的解决方案,也有一些对动态后继树索引文件进行无损压缩的相关研究。无损压缩的优势在于其安全性高,不会损失任何索引信息。与无损压缩研究不同,针对索引文件的有损压缩研究,即索引裁剪技术研究,却并不是很多。依据目前公开可查询的国内外文献来看,索引裁剪技术研究主要针对倒排索引文件进行,国内的相关研究更少,而且没有针对动态后继树索引文件进行索引裁剪的相关研究。在充分利用动态后继树索引结构针对中文信息检索的优越性的同时,必须注意到动态后继树索引结构的不足:产生的索引文件比较大,膨胀比高。因此针对动态后继树索引的特点进行相应的索引裁剪技术研究,从而弥补其索引文件膨胀比高的不足就具有极大理论价值和实践意义。
发明内容
本发明的目的在于针对现有技术的不足,提供了一种基于扩展查询似然模型的动态后继树索引裁剪方法。
为了实现上述目的,本发明采用了以下技术方案:一种基于扩展查询似然模型的动态后继树索引裁剪方法,以完整的动态后继树索引作为处理对象,对索引中的树叶信息进行重要性评估,然后删除不重要的树叶信息,形成裁剪后的动态后继树索引;
该方法依次包括以下步骤:
(1)针对动态后继树索引结构,创建完整的动态后继树索引;
(2)依次遍历索引中每一篇文档包含的不同二元词项,提取索引统计信息;
(3)利用重要性评分公式:
Figure 201210307005X100002DEST_PATH_IMAGE002
,计算索引中的二元词项在其当前出现文档中的重要性评分,然后对二元词项进行重要性降序排列;其中:
Figure 201210307005X100002DEST_PATH_IMAGE004
是二元词项在文档
Figure 201210307005X100002DEST_PATH_IMAGE008
中的出现次数,
Figure 201210307005X100002DEST_PATH_IMAGE010
是二元词项
Figure 597820DEST_PATH_IMAGE006
在文档集
Figure 201210307005X100002DEST_PATH_IMAGE012
中的出现次数,
Figure 201210307005X100002DEST_PATH_IMAGE014
是文档集
Figure 328010DEST_PATH_IMAGE012
的长度,
Figure 201210307005X100002DEST_PATH_IMAGE016
为文档的长度,
Figure 201210307005X100002DEST_PATH_IMAGE018
为平滑因子;该评分公式由一系列的公式推导而形成:首先从传统的查询似然模型出发,引入高效的狄尼克雷平滑机制对此查询似然模型进行扩展;然后在信息论K-L距离定义的基础上采用算术平均数的方式定义了对称K-L距离,从而更加平衡的度量文档与文档集之间的差异;最后评估文档中的二元词项对文档对称K-L距离的贡献度即
Figure 201210307005X100002DEST_PATH_IMAGE020
(4)输入裁剪参数
Figure 201210307005X100002DEST_PATH_IMAGE024
,让裁剪参数
Figure 201210307005X100002DEST_PATH_IMAGE026
依次分别和索引中与一篇文档关联的所有树叶信息的个数
Figure 201210307005X100002DEST_PATH_IMAGE028
进行比较、计算,控制动态后继树索引的裁剪规模,删除一篇文档中排序靠后的二元词项所对应的树叶信息Leaf Information(LI);裁剪参数
Figure 440640DEST_PATH_IMAGE026
在取值范围内的实际取值可以根据裁剪数据的实际情况、实际需求输入,通过不同的取值,可以得到我们需要的不同裁剪效果;
(5)形成并输出裁剪后的动态后继树索引。
上述的二元词项由树根词项和与树根词项直接关联的树叶词项组成的整体,是不可分割。所述的树根词项是指在创建动态后继树索引时,位于树根的分词词项;而树叶词项则是树根的后继,指位于树叶的分词词项。
上述的索引统计信息包括二元词项在每一篇文档中出现的次数、含有某一个二元词项的文档数目、二元词项在文档集中总的出现次数、每一篇文档的长度(即包含二元词项的个数)和文档集的总长度(即所有文档长度之和)、与一篇文档关联的所有树叶信息的个数
Figure 255012DEST_PATH_IMAGE028
等,索引统计信息还可包括有其他信息,不限于上述提及的统计信息。
所述的步骤(4)输入裁剪参数
Figure 77474DEST_PATH_IMAGE022
Figure 157557DEST_PATH_IMAGE024
,让裁剪参数
Figure 356457DEST_PATH_IMAGE026
分别和索引中与一篇文档关联的所有树叶信息的个数
Figure 25336DEST_PATH_IMAGE028
进行比较、计算,控制动态后继树索引的裁剪规模,删除一篇文档中排序靠后的二元词项所对应的树叶信息步骤为:
①输入裁剪参数
Figure 81017DEST_PATH_IMAGE026
②若≤k,转步骤⑤;
③若
Figure 201210307005X100002DEST_PATH_IMAGE030
Figure 382478DEST_PATH_IMAGE028
-
Figure 201210307005X100002DEST_PATH_IMAGE032
>k,则裁剪掉排序靠后的⌈⌉个树叶信息;⌈
Figure 335707DEST_PATH_IMAGE032
⌉表示的是对
Figure 639649DEST_PATH_IMAGE032
进行上取整,即当
Figure 914773DEST_PATH_IMAGE032
为小数时,则对其上取整,如
Figure 558244DEST_PATH_IMAGE032
的结果为8.2时,则取整为9;
④若
Figure 706460DEST_PATH_IMAGE030
Figure 435381DEST_PATH_IMAGE028
-≤k,则裁剪掉排序靠后的
Figure 74490DEST_PATH_IMAGE028
-k个树叶信息;
⑤结束。
k参数可以更加精确的控制索引裁剪的规模。另外,本发明的方法中的步骤(1)中动态后继树索引的创建过程可参见本申请人的在先申请专利:名称:密文全文检索系统,专利申请号201010187384.4,申请日期:2010-5-31,公开日期:2010-10-13 。
本发明的裁剪方法是一种索引有损压缩方法,通过合理的去掉动态后继树索引中的不重要信息达到降低索引文件大小的目的。具体为:针对动态后继树索引结构,首先创建完整的动态后继树索引;然后依次遍历索引中每一篇文档包含的不同二元词项,并提取索引的统计信息;将统计信息的数据代入评估公式中,计算这些二元词项在其当前出现文档中的相对重要性评分,并进行重要性降序排列;再输入相应的裁剪参数,从完整动态后继树索引中删除掉一定比例的不重要二元词项所对应的索引信息;最后得到裁剪后的动态后继树索引。
本发明的优点:
1.索引文件小、膨胀比低、对检索结果影响小。该裁剪方法不仅能够可控制幅度的降低动态后继树索引的大小,同时能够保证在裁剪后的动态后继树索引上进行检索时得到较好的结果,不会严重损害用户搜索体验;裁剪粒度是树叶信息,对检索结果的影响很小。
2.方法操作简单易行、可靠性高。
附图说明
图1是本发明基于扩展查询似然模型的动态后继树索引裁剪方法的流程图。
具体实施方式
下面结合附图和实施例对本发明进一步说明。
实施例:
如附图所示,本发明的裁剪方法具体实施过程如下:
(1)针对动态后继树索引结构,创建完整的动态后继树索引;
(2)依次遍历索引中每一篇文档包含的由树根词项和与树根词项直接关联的树叶词项组成的不同二元词项,提取索引统计信息,统计信息包括二元词项在每一篇文档中出现的次数、含有某一个二元词项的文档数目、二元词项在文档集中总的出现次数、每一篇文档的长度(即包含二元词项的个数)和文档集的总长度(即所有文档长度之和)、与一篇文档关联的所有树叶信息的个数
Figure 846137DEST_PATH_IMAGE028
等;
(3)利用重要性评分公式:
Figure 796775DEST_PATH_IMAGE002
,其中
Figure 492330DEST_PATH_IMAGE004
是二元词项
Figure 844814DEST_PATH_IMAGE006
在文档
Figure 787362DEST_PATH_IMAGE008
中的出现次数,
Figure 287614DEST_PATH_IMAGE010
是二元词项在文档集
Figure 180800DEST_PATH_IMAGE012
中的出现次数,
Figure 107299DEST_PATH_IMAGE014
是文档集
Figure 32530DEST_PATH_IMAGE012
的长度,
Figure 256838DEST_PATH_IMAGE016
为文档
Figure 318335DEST_PATH_IMAGE008
的长度,为平滑因子,计算索引中的二元词项在其当前出现文档中的重要性评分,然后对二元词项进行重要性降序排列;
(4)输入裁剪参数
Figure 77529DEST_PATH_IMAGE022
Figure 921507DEST_PATH_IMAGE024
,让裁剪参数
Figure 103090DEST_PATH_IMAGE026
依次分别和索引中与一篇文档关联的所有树叶信息的个数
Figure 168129DEST_PATH_IMAGE028
进行比较、计算,控制动态后继树索引的裁剪规模,删除一篇文档中排序靠后的二元词项所对应的树叶信息;具体言之为:
①输入裁剪参数
Figure 67952DEST_PATH_IMAGE026
②若≤k,转步骤⑤;
③若
Figure 998048DEST_PATH_IMAGE030
Figure 358622DEST_PATH_IMAGE028
-
Figure 558790DEST_PATH_IMAGE032
>k,则裁剪掉排序靠后的⌈⌉个树叶信息;
④若
Figure 819187DEST_PATH_IMAGE030
Figure 678559DEST_PATH_IMAGE028
-
Figure 287395DEST_PATH_IMAGE032
≤k,则裁剪掉排序靠后的
Figure 460887DEST_PATH_IMAGE028
-k个树叶信息;
⑤结束。此步骤中的裁剪参数在取值范围内的实际取值可以根据裁剪数据的实际情况、实际需求输入,通过输入不同的取值,可以得到我们需要的不同裁剪效果;
(5)裁剪结束后,即可形成并输出裁剪后的动态后继树索引。
该裁剪方法是一种索引有损压缩方法,通过合理的去掉动态后继树索引中的不重要信息达到了降低索引文件大小的目的。该方法操作简单易行,具备了索引文件小、膨胀比低、对检索结果影响小、可靠性高等特点。

Claims (4)

1. 一种基于扩展查询似然模型的动态后继树索引裁剪方法,其特征在于:该方法依次包括以下步骤:
(1)针对动态后继树索引结构,创建完整的动态后继树索引;
(2)依次遍历索引中每一篇文档包含的不同二元词项,提取索引统计信息;
(3)利用重要性评分公式:
Figure 201210307005X100001DEST_PATH_IMAGE002
,其中:是二元词项
Figure 201210307005X100001DEST_PATH_IMAGE006
在文档
Figure 201210307005X100001DEST_PATH_IMAGE008
中的出现次数,
Figure 201210307005X100001DEST_PATH_IMAGE010
是二元词项
Figure 898463DEST_PATH_IMAGE006
在文档集
Figure 201210307005X100001DEST_PATH_IMAGE012
中的出现次数,
Figure 201210307005X100001DEST_PATH_IMAGE014
是文档集
Figure 807644DEST_PATH_IMAGE012
的长度,为文档
Figure 519248DEST_PATH_IMAGE008
的长度,
Figure 201210307005X100001DEST_PATH_IMAGE018
为平滑因子;计算索引中的二元词项在其当前出现文档中的重要性评分,然后对二元词项进行排序;
(4)输入裁剪参数
Figure 201210307005X100001DEST_PATH_IMAGE020
Figure 201210307005X100001DEST_PATH_IMAGE022
,让裁剪参数
Figure 201210307005X100001DEST_PATH_IMAGE024
依次分别和索引中与一篇文档关联的所有树叶信息的个数
Figure 201210307005X100001DEST_PATH_IMAGE026
进行比较、计算,控制动态后继树索引的裁剪规模,删除一篇文档中排序靠后的二元词项所对应的树叶信息;
(5)形成并输出裁剪后的动态后继树索引。
2. 根据权利要求1所述的基于扩展查询似然模型的动态后继树索引裁剪方法,其特征在于:所述的二元词项由树根词项和与树根词项直接关联的树叶词项组成的整体。
3. 根据权利要求1所述的基于扩展查询似然模型的动态后继树索引裁剪方法,其特征在于:所述的索引统计信息包括二元词项在每一篇文档中出现的次数、含有某一个二元词项的文档数目、二元词项在文档集中总的出现次数、每一篇文档的长度和文档集的总长度、与一篇文档关联的所有树叶信息的个数
Figure 256873DEST_PATH_IMAGE026
4. 根据权利要求1所述的基于扩展查询似然模型的动态后继树索引裁剪方法,其特征在于:所述的步骤(4)输入裁剪参数
Figure 395730DEST_PATH_IMAGE020
Figure 41475DEST_PATH_IMAGE022
,让裁剪参数
Figure 291191DEST_PATH_IMAGE024
分别和索引中与一篇文档关联的所有树叶信息的个数
Figure 276464DEST_PATH_IMAGE026
进行比较、计算,控制动态后继树索引的裁剪规模,删除一篇文档中排序靠后的二元词项所对应的树叶信息步骤为:
①输入裁剪参数
Figure 399272DEST_PATH_IMAGE024
②若
Figure 469996DEST_PATH_IMAGE026
≤k,转步骤⑤;
③若
Figure 201210307005X100001DEST_PATH_IMAGE028
-
Figure 201210307005X100001DEST_PATH_IMAGE030
>k,则裁剪掉排序靠后的⌈
Figure 425500DEST_PATH_IMAGE030
⌉个树叶信息;
④若
Figure 719209DEST_PATH_IMAGE028
Figure 11650DEST_PATH_IMAGE026
-
Figure 868748DEST_PATH_IMAGE030
≤k,则裁剪掉排序靠后的
Figure 625351DEST_PATH_IMAGE026
-k个树叶信息;
⑤结束。
CN201210307005.XA 2012-08-27 2012-08-27 基于扩展查询似然模型的动态后继树索引裁剪方法 Active CN102841945B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210307005.XA CN102841945B (zh) 2012-08-27 2012-08-27 基于扩展查询似然模型的动态后继树索引裁剪方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210307005.XA CN102841945B (zh) 2012-08-27 2012-08-27 基于扩展查询似然模型的动态后继树索引裁剪方法

Publications (2)

Publication Number Publication Date
CN102841945A true CN102841945A (zh) 2012-12-26
CN102841945B CN102841945B (zh) 2015-06-17

Family

ID=47369308

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210307005.XA Active CN102841945B (zh) 2012-08-27 2012-08-27 基于扩展查询似然模型的动态后继树索引裁剪方法

Country Status (1)

Country Link
CN (1) CN102841945B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050114298A1 (en) * 2003-11-26 2005-05-26 International Business Machines Corporation System and method for indexing weighted-sequences in large databases
CN101859323A (zh) * 2010-05-31 2010-10-13 广西大学 密文全文检索系统
CN102169504A (zh) * 2011-05-10 2011-08-31 航天恒星科技有限公司 一种用于卫星地面设备监控的数据库索引方法
CN102629274A (zh) * 2010-05-31 2012-08-08 广西大学 基于动态后继树索引结构的密文全文检索系统的索引更新方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050114298A1 (en) * 2003-11-26 2005-05-26 International Business Machines Corporation System and method for indexing weighted-sequences in large databases
CN101859323A (zh) * 2010-05-31 2010-10-13 广西大学 密文全文检索系统
CN102629274A (zh) * 2010-05-31 2012-08-08 广西大学 基于动态后继树索引结构的密文全文检索系统的索引更新方法
CN102169504A (zh) * 2011-05-10 2011-08-31 航天恒星科技有限公司 一种用于卫星地面设备监控的数据库索引方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
霍林等: "二元互关联后继树精简索引模型研究", 《小型微型计算机系统》 *

Also Published As

Publication number Publication date
CN102841945B (zh) 2015-06-17

Similar Documents

Publication Publication Date Title
Ren et al. On querying historical evolving graph sequences
CN102426610B (zh) 微博搜索排名方法及微博搜索引擎
CN102799682B (zh) 一种海量数据预处理方法及其系统
CN105808696B (zh) 一种基于全局和局部特征的跨在线社交网络用户匹配方法
CN101561813B (zh) 一种Web环境下的字符串相似度的分析方法
CN103218436B (zh) 一种融合用户类别标签的相似问题检索方法及装置
CN104462383A (zh) 一种基于用户多种行为反馈的电影推荐方法
CN103236847A (zh) 基于多层哈希结构与游程编码的数据无损压缩方法
RU2010150819A (ru) Оптимизация формата поискового индекса
CN102915365A (zh) 基于Hadoop的分布式搜索引擎构建方法
CN104182388A (zh) 一种基于语义分析的文本聚类系统及方法
CN104199827A (zh) 基于局部敏感哈希的大规模多媒体数据的高维索引方法
CN104077386A (zh) 一种族谱数据关系表的创建及查询方法
CN103646029A (zh) 一种针对博文的相似度计算方法
CN103425763A (zh) 基于sns的用户推荐方法及装置
CN109447261A (zh) 一种基于多阶邻近相似度的网络表示学习的方法
CN104915405A (zh) 一种基于多层次的微博查询扩展方法
CN108241713A (zh) 一种基于多元切分的倒排索引检索方法
CN103838831A (zh) 一种基于社区划分的在线社交网络海量数据存储方法
Ye et al. Big data processing framework for manufacturing
CN104346347A (zh) 数据存储方法、装置、服务器及系统
CN105302915A (zh) 基于内存计算的高性能数据处理系统
CN104731887A (zh) 一种协同过滤中的用户相似度度量方法
CN105447004A (zh) 查询推荐词的挖掘、相关查询方法及装置
US11488061B2 (en) High-dimensional data nearest-neighbor query method based on variable-length hash codes

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant