CN104537078B - 一种基于滑块的目录索引优化方法 - Google Patents

一种基于滑块的目录索引优化方法 Download PDF

Info

Publication number
CN104537078B
CN104537078B CN201410851219.2A CN201410851219A CN104537078B CN 104537078 B CN104537078 B CN 104537078B CN 201410851219 A CN201410851219 A CN 201410851219A CN 104537078 B CN104537078 B CN 104537078B
Authority
CN
China
Prior art keywords
sliding block
index
retrieval
parameter
directory
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201410851219.2A
Other languages
English (en)
Other versions
CN104537078A (zh
Inventor
张健
陈文亭
朱宏军
崔维力
武新
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
TIANJIN NANKAI UNIVERSITY GENERAL DATA TECHNOLOGIES Co Ltd
Original Assignee
TIANJIN NANKAI UNIVERSITY GENERAL DATA TECHNOLOGIES Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by TIANJIN NANKAI UNIVERSITY GENERAL DATA TECHNOLOGIES Co Ltd filed Critical TIANJIN NANKAI UNIVERSITY GENERAL DATA TECHNOLOGIES Co Ltd
Priority to CN201410851219.2A priority Critical patent/CN104537078B/zh
Publication of CN104537078A publication Critical patent/CN104537078A/zh
Application granted granted Critical
Publication of CN104537078B publication Critical patent/CN104537078B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • G06F16/9017Indexing; Data structures therefor; Storage structures using directory or table look-up

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种基于滑块的目录索引优化方法,包括以下步骤:(1)在目录索引中设置动态检索滑块,且在该检索滑块内增加可配置该检索滑块大小的参数;(2)在检索系统中输入查询条件,配置文件根据查询条件为目录索引属性设置参数;(3)目录索引启动时根据所启动目录索引的属性读取配置文件中的参数;(4)根据检索滑块内参数的设置,重新计算目录索引中的索引个数;(5)根据滑块参数及目录索引中的索引个数做循环,计算该目录索引当前属性当前类别匹配规则的索引值;(6)统计检索结果;采用上述技术方案,可以根据业务需要指定滑块大小,避免any类型的索引要进行的每字符错位计算,可以快速完成索引创建过程,又能保证查询的效率。

Description

一种基于滑块的目录索引优化方法
技术领域
本发明涉及目录服务系统领域,尤其是基于滑块的目录索引优化方法。
背景技术
随着互联网的发展,对各种数据资源的标准化管理和高效存取的要求变得十分迫切,目录服务技术就是在这样的背景下产生并迅速发展的新技术。目录服务系统是用于网络数据资源的分布式存储和快速查询的新型专用数据库系统,是专门为那些检索频率大大高于数据更新频率的信息服务而设计的。比如图书馆图书索引系统、网络资源管理系统、组织人员管理系统、单点登录系统等。
目录服务系统一般遵循轻型目录访问协议LDAPv3协议,该协议规定了目录数据的基本单元和格式,目录服务连接和通讯的操作及安全处理,目录服务的基本操作和通讯格式,目录服务扩展和自定义操作的方式,目录服务的分布式部署等,从而能够保持应用的标准性和独立性,该协议中目录的数据单元为条目,且该协议规定的操作条目数据的九个基本操作包括绑定,添加,修改,删除,搜索,比较,解绑定等,而该协议规定的控制和扩展使得目录服务系统在基本的九个操作之外,增加了服务方能够处理的操作请求的数量和范围。
目录服务系统的实现厂商,可以在自己的目录服务系统中给出这些操作的不同实现方式、特性,并且可以自定义新的扩展和控制操作,实现新的目录服务功能,同时可以提供数据同步的方式和具体功能。
所述基于滑块的目录索引优化技术,目的是为了降低目录创建索引的负载,并提高目录查找的效率。根据不同的应用需求,合理设置索引滑块大小,可同时降低创建索引的时间,并提高索引查找效率。
滑块大小,指计算索引时每次提取的数据字符个数,计算索引时,按照动态设定的滑块大小从条目属性值中去除数据并计算;如果没有滑块的设置,那么需要每次错一个字符且不固定长度,然后获取数据并计算,这样会大幅增加计算索引的时间,以及索引存储的空间。
为了实现目录子串索引,需要执行如图1所示的过程:
直接按照每个字符都计算的方式来计算索引个数,2个以上才计算索引;
根据索引个数循环,计算具体的索引值;
由以上操作可以看出,所述目录子串索引,使用的是固定大小的计算方法,这种方式的缺点是创建的索引个数较多,一般远远超出查询所需要的范围,造成添加、修改数据时的低效,尤其是在目录这种本身写慢读快的库中,体现的更加明显。
发明内容
本发明要解决的问题是提供一种通过定义和实现可配置大小的滑块进而实现目录索引创建及查询优化的基于滑块的目录索引优化方法,用以降低索引创建的强度,提高索引为查询服务的效率,满足不同应用场景下对查询效率的要求,进而达到提高查询性能的目的。
为解决上述技术问题,本发明采用的技术方案是:一种基于滑块的目录索引优化方法,包括以下步骤:
(1)在目录索引中设置动态检索滑块,且在该检索滑块内增加可配置该检索滑块大小的参数;
(2)在检索系统中输入查询条件,配置文件根据查询条件为目录索引属性设置参数;
(3)目录索引启动时根据所启动目录索引的属性读取配置文件中的参数;
(4)根据检索滑块内参数的设置,重新计算目录索引中的索引个数;
(5)根据滑块参数及目录索引中的索引个数做循环,计算该目录索引当前属性当前类别匹配规则的索引值。
(6)统计检索结果,得到查询结果,查询结束。
进一步,所述步骤(1)中可配置检索滑块大小的参数与该检索滑块的属性名字位于检索目录的同一级别。
进一步,所述步骤(1)中可配置检索滑块大小的参数为全局参数。
进一步,所述步骤(1)中可配置检索滑块大小的参数包括检索对象字符串长度min值和滑块大小数值。
进一步,所述步骤(4)中检索目录的索引个数的计算方法和逻辑包括initial,final,any三种情况。
进一步,所述步骤(4)中检索目录的索引个数的计算方法如下:
(a)比较所要检索的字符串长度与滑块大小之间的关系;
(b)当所要检索的字符串长度大于或等于滑块大小时:
initial索引个数是滑块大小-min值+1;
final索引个数是滑块大小-min值+1;
any索引个数是字符串长度-滑块大小+1
(c)当字符串长度小于滑块大小,但大于或等于min值时:
initial索引个数是字符串长度-min值+1;
final索引个数是字符串长度-min值+1;
无any索引;
(d)当字符串长度小于min时:
无initial索引;
无final索引;
无any索引。
本发明具有的优点和积极效果是:采用上述技术方案,可以根据业务需要指定滑块大小,避免any类型的索引要进行的每字符错位计算,可以快速完成索引创建过程,又能保证查询的效率。
附图说明
图1是现有索引创建流程示意图;
图2是优化索引创建流程示意图。
具体实施方式
以下根据附图及具体实施例对本发明作出详细说明。
如图2所示,本发明包括以下步骤:
(1)在目录索引中设置动态检索滑块,且在该检索滑块内增加可配置该检索滑块大小的参数;
(2)在检索系统中输入查询条件,配置文件根据查询条件为目录索引属性设置参数;
(3)目录索引启动时根据所启动目录索引的属性读取配置文件中的参数;
(4)根据检索滑块内参数的设置,重新计算目录索引中的索引个数;
(5)根据滑块参数及目录索引中的索引个数做循环,计算该目录索引当前属性当前类别匹配规则的索引值。
(6)统计检索结果,得到查询结果,查询结束。
步骤(1)中可配置检索滑块大小的参数与该检索滑块的属性名字位于检索目录的同一级别,也可以是全局参数。
步骤(1)中可配置检索滑块大小的参数包括检索对象字符串长度min值和滑块大小数值,以便于根据参数进行索引个数的计算。
步骤(4)中检索目录的索引个数的计算方法和逻辑包括initial,final,any三种情况。
进步骤(4)中检索目录的索引个数的其中一个计算方法如下:
(a)比较所要检索的字符串长度与滑块大小之间的关系;
(b)当所要检索的字符串长度大于或等于滑块大小时:
initial索引个数是滑块大小-min值+1;
final索引个数是滑块大小-min值+1;
any索引个数是字符串长度-滑块大小+1
(c)当字符串长度小于滑块大小,但大于或等于min值时:
initial索引个数是字符串长度-min值+1;
final索引个数是字符串长度-min值+1;
无any索引;
(d)当字符串长度小于min时:
无initial索引;
无final索引;
无any索引。
此种计算方法避免了原来索引个数是字符串长度的级数级别,使得索引个数与字符串长度成线性相关,大大缩减了索引个数,提高了索引创建效率。
本发明中动态检索滑块的设置,使得索引属性的滑块大小由业务中的查询条件确定,使得查询中使用于滑块匹配的查询值长度,提升了查询时的效率。
在查询时,目录使用标准的过滤字符串表示方法,即正则表达式的形式;当查询条件中要查找的内容长度与滑块大小相同时,将达到最佳的匹配;否则需要把查询条件拆成若干个去计算索引,然后再匹配;比如查询*张三*,当滑块设置成4(一个中文是2个字符,gb2312编码)时,将会只计算一个索引值,然后进行匹配。
此种查询步骤与索引个数相结合,对动态检索滑块进行合理配置,综合提升创建和查询时的效率。
以上对本发明的实施例进行了详细说明,但所述内容仅为本发明的较佳实施例,不能被认为用于限定本发明的实施范围。凡依本发明范围所作的均等变化与改进等,均应仍归属于本专利涵盖范围之内。

Claims (3)

1.一种基于滑块的目录索引优化方法,其特征在于:包括以下步骤:
(1)在目录索引中设置动态检索滑块,且在该检索滑块内增加可配置该检索滑块大小的参数,所述可配置检索滑块大小的参数包括检索对象字符串长度min值和滑块大小数值;
(2)在检索系统中输入查询条件,配置文件根据查询条件为目录索引属性设置参数;
(3)目录索引启动时根据所启动目录索引的属性读取配置文件中的参数;
(4)根据检索滑块内参数的设置,重新计算目录索引中的索引个数,所述目录索引的索引个数的计算方法和逻辑包括initial,final,any三种情况,检索目录的索引个数的计算方法如下:
(a)比较所要检索的字符串长度与滑块大小之间的关系;
(b)当所要检索的字符串长度大于或等于滑块大小时:
initial索引个数是滑块大小-min值+1;
final索引个数是滑块大小-min值+1;
any索引个数是字符串长度-滑块大小+1;
(c)当字符串长度小于滑块大小,但大于或等于min值时:
initial索引个数是字符串长度-min值+1;
final索引个数是字符串长度-min值+1;
无any索引;
(d)当字符串长度小于min时:
无initial索引;
无final索引;
无any索引;
(5)根据滑块参数及目录索引中的索引个数做循环,计算该目录索引当前属性当前类别匹配规则的索引值;
(6)统计检索结果,得到查询结果,查询结束。
2.根据权利要求1所述的基于滑块的目录索引优化方法,其特征在于:所述步骤(1)中可配置检索滑块大小的参数与该检索滑块的属性名字位于检索目录的同一级别。
3.根据权利要求1所述的基于滑块的目录索引优化方法,其特征在于:所述步骤(1)中可配置检索滑块大小的参数为全局参数。
CN201410851219.2A 2014-12-31 2014-12-31 一种基于滑块的目录索引优化方法 Active CN104537078B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410851219.2A CN104537078B (zh) 2014-12-31 2014-12-31 一种基于滑块的目录索引优化方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410851219.2A CN104537078B (zh) 2014-12-31 2014-12-31 一种基于滑块的目录索引优化方法

Publications (2)

Publication Number Publication Date
CN104537078A CN104537078A (zh) 2015-04-22
CN104537078B true CN104537078B (zh) 2018-02-27

Family

ID=52852606

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410851219.2A Active CN104537078B (zh) 2014-12-31 2014-12-31 一种基于滑块的目录索引优化方法

Country Status (1)

Country Link
CN (1) CN104537078B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105574125B (zh) * 2015-12-12 2019-04-30 天津南大通用数据技术股份有限公司 基于ldapv3扩展操作的目录条目批量增删操作实现方法
CN110866003B (zh) * 2018-08-27 2023-09-26 阿里云计算有限公司 索引值数目的估算方法和装置以及电子设备

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103810212A (zh) * 2012-11-14 2014-05-21 阿里巴巴集团控股有限公司 一种数据库索引的自动创建方法及系统
CN104239417A (zh) * 2014-08-19 2014-12-24 天津南大通用数据技术股份有限公司 一种分布式数据库数据分片后动态调整方法及装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4181196B2 (ja) * 2006-09-28 2008-11-12 株式会社東芝 検索システム、検索方法、および情報管理装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103810212A (zh) * 2012-11-14 2014-05-21 阿里巴巴集团控股有限公司 一种数据库索引的自动创建方法及系统
CN104239417A (zh) * 2014-08-19 2014-12-24 天津南大通用数据技术股份有限公司 一种分布式数据库数据分片后动态调整方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于动态索引和缓冲池的空间数据服务优化技术;李欢;《系统仿真学报》;20081031;第20卷(第20期);第5593-5595页 *

Also Published As

Publication number Publication date
CN104537078A (zh) 2015-04-22

Similar Documents

Publication Publication Date Title
US11775548B1 (en) Selection of representative data subsets from groups of events
CN111259006B (zh) 一种通用的分布式异构数据一体化物理汇聚、组织、发布与服务方法及系统
US11068439B2 (en) Unsupervised method for enriching RDF data sources from denormalized data
CN102193917B (zh) 一种数据处理和查询方法和装置
CN105701098B (zh) 针对数据库中的表生成索引的方法和装置
CN103823838B (zh) 一种多格式文档录入并比对的方法
EP2637111A1 (en) Data management system and method using database middleware
US9753960B1 (en) System, method, and computer program for dynamically generating a visual representation of a subset of a graph for display, based on search criteria
CN110555012A (zh) 数据迁移方法及装置
CN102567418A (zh) 一种数据整合、搜索的方法及装置
CN104731945A (zh) 一种基于HBase的全文检索方法及装置
CN104750825A (zh) 一种智能变电站scd文件快速解析方法
CN104572978A (zh) 基于日志的电力调度自动化系统用户行为统计方法
CN104035993A (zh) 电子书的存储检索方法、电子书管理系统、阅读系统
CN108009296A (zh) 一种基于Hbase的SQL查询方法、系统及相关装置
CN111404932A (zh) 一种医疗机构系统接入智慧医疗云服务平台的方法
CN105183916A (zh) 一种管理非结构化数据的装置和方法
CN106649800A (zh) 一种基于Solr的中文检索方法
CN104537078B (zh) 一种基于滑块的目录索引优化方法
CN104462134A (zh) 一种检索方法与系统
CN102346765A (zh) 一种查询内存数据的方法及装置
EP3282372B1 (en) Method and apparatus for storing data
US20160179857A1 (en) Database joins using uncertain criteria
Kaur et al. Image processing on multinode hadoop cluster
CN112639786A (zh) 智能地标

Legal Events

Date Code Title Description
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant