CN102298631A - 一种新型元数据管理系统和一种元数据属性混合索引方法 - Google Patents

一种新型元数据管理系统和一种元数据属性混合索引方法 Download PDF

Info

Publication number
CN102298631A
CN102298631A CN 201110256451 CN201110256451A CN102298631A CN 102298631 A CN102298631 A CN 102298631A CN 201110256451 CN201110256451 CN 201110256451 CN 201110256451 A CN201110256451 A CN 201110256451A CN 102298631 A CN102298631 A CN 102298631A
Authority
CN
China
Prior art keywords
metadata
attributes
low frequency
high frequency
metadata attributes
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN 201110256451
Other languages
English (en)
Other versions
CN102298631B (zh
Inventor
蔡涛
牛德姣
宋丽丽
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
TIANJIN YIPOINT TECHNOLOGY Co.,Ltd.
Original Assignee
Jiangsu University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangsu University filed Critical Jiangsu University
Priority to CN 201110256451 priority Critical patent/CN102298631B/zh
Publication of CN102298631A publication Critical patent/CN102298631A/zh
Application granted granted Critical
Publication of CN102298631B publication Critical patent/CN102298631B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提出了一种元数据属性的混合索引方法,依据各元数据属性被使用频率、创建时间和最近被访问时间,将元数据属性划分为高频元数据属性和低频元数据属性,针对高频和低频元数据属性的特性,分别使用KD-tree、B-tree树和人工免疫算法建立索引。并给出了新型元数据管理系统的结构,介绍了主要模块的功能和流程。该发明能针对管理和查找元数据时存在的时间与空间开销大、额外空间大等问题,提高查找高频元数据属性的效率,减少管理低频元数据属性所需的空间开销。

Description

一种新型元数据管理系统和一种元数据属性混合索引方法
技术领域
本发明属于存储技术领域,涉及其中的元数据管理系统,具体涉及元数据索引的建立方法。 
背景技术
海量存储系统需要响应大量用户的元数据访问请求,据统计访问请求中有约70%均为对元数据的访问请求,元数据管理性能的优劣直接影响着海量存储系统的整体性能。海量存储系统中元数据包含多个属性,但用户访问一般集中在其中的某几个属性,从而使得同一条元数据中有些属性的使用频率很高、而有些属性使用频率较低,使用单一方法建立索引管理元数据无法针对元数据属性使用频率的不同,存在所需时间与空间开销大等问题。
海量存储系统中元数据管理问题的特性分析
海量存储系统中,每条元数据均包含名字、标识、时间、权限、摘要等多个属性,其中部分元数据属性经常会被用户访问,其余属性被访问的频率较低。因此使用同样的方法组织和管理难以带来良好的效果。
用户在访问经常被访问的元数据属性时,如何快速查找到所需的元数据属性是用户最关心的问题。在管理不经常被访问的元数据属性时,如何减少所需的额外时间与空间开销则是关键。
发明内容
本发明的目的是解决海量存储系统中现有的元数据管理方法所存在的时间与空间开销大等问题,提供一种元数据属性混合索引方法,并构建一种新型的元数据管理系统。
实现本发明目的的技术方案是,一种元数据属性混合索引方法,包括下列步骤: 1)将元数据属性划分为高频元数据属性和低频元数据属性,在附加元数据标识后分别存入高频元数据集和低频元数据集;2)对高频元数据集使用改进的KD-tree和B-tree建立索引;3)对低频元数据集使用人工免疫算法建立索引。
所述步骤1)具体包括下列步骤:
1.1)定义元数据属性的活跃度阈值                                                
Figure 2011102564518100002DEST_PATH_IMAGE001
,作为对元数据属性划分的依据。
1.2)定义元数据属性的活跃度
Figure 729759DEST_PATH_IMAGE002
,作为衡量元数据属性活跃度的依据,使用公式
Figure 2011102564518100002DEST_PATH_IMAGE003
计算获得,其中
Figure 126105DEST_PATH_IMAGE004
是最近访问元数据属性的时间,
Figure 2011102564518100002DEST_PATH_IMAGE005
是创建元数据属性的时间,是系统当前的时间,
Figure 671487DEST_PATH_IMAGE008
是元数据属性在当前时间之前的
Figure 2011102564518100002DEST_PATH_IMAGE009
时间内被访问的次数。
1.3)当
Figure 786073DEST_PATH_IMAGE010
时,该元数据属性是高频元数据属性,当
Figure 2011102564518100002DEST_PATH_IMAGE011
时,该元数据属性是低频元数据属性;
1.4)将所有元数据中高频元数据属性的值在附加相应的元数据标识后存入高频元数据集,将所有元数据中低频元数据属性的值附加相应的元数据标识(如文件的绝对路径、inode节点号等)后存入低频元数据集。
所述步骤2)具体包括下列步骤:
 2.1)收集高频元数据集中被用作查询条件的元数据属性(如文件名、文件后缀名等),构建高频元数据检索集;
2.2)如高频元数据检索集中包含不少于两个元数据属性,使用KD-tree建立高频元数据集的索引;
2.3)如高频元数据检索集中仅包含单个元数据属性,使用B-tree建立高频元数据集的索引。
所述步骤3)具体包括下列步骤:
3.1)将低频元数据集均衡的分为若干分区,每个分区包含数目基本相等的低频元数据;
    3.2)收集低频元数据集中被用作查询条件的元数据属性(如作者、类别和备注等),构建低频元数据检索集,用表示,其中n表示被用为查询条件的元数据属性个数,
Figure 2011102564518100002DEST_PATH_IMAGE013
表示每个被用于查询条件的元数据属性;
3.3)每个低频元数据条目中被用作为查询条件的多个属性的值的集合构成一个自体,收集该分区中所有低频元数据条目中被用作查询条件的属性值,构成自体集
Figure 457281DEST_PATH_IMAGE014
,其中每个自体n为被用为查询条件的元数据属性个数;
    3.4)定义检测器
Figure 173564DEST_PATH_IMAGE016
,其中每个
Figure 2011102564518100002DEST_PATH_IMAGE017
与自体s中的类型相同;
3.5)对低频元数据检索集中的数值型元数据属性,使用
Figure 2011102564518100002DEST_PATH_IMAGE019
计算
Figure 235378DEST_PATH_IMAGE017
Figure 606317DEST_PATH_IMAGE018
之间的子匹配度
Figure 86976DEST_PATH_IMAGE020
3.6)对低频元数据检索集中的非数值型元数据属性,将表示为以ASCII字符组成的字符串,此时
Figure 2011102564518100002DEST_PATH_IMAGE021
包含l个ASCII字符,使用
Figure 174198DEST_PATH_IMAGE022
计算
Figure 773544DEST_PATH_IMAGE017
Figure 425106DEST_PATH_IMAGE018
之间的子匹配度
3.7)设数值型元数据属性的个数是x个,非数值型元数据属性的个数是y个,使用
Figure 2011102564518100002DEST_PATH_IMAGE023
计算检测器
Figure 803314DEST_PATH_IMAGE024
与自体s中之间的匹配度m
3.8)定义匹配阈值为r,如匹配度
Figure 352107DEST_PATH_IMAGE026
则判断两者匹配;
3.9)使用否定选择算法,分别给每个低频元数据分区筛选出p个不与该分区中任何自体匹配的检测器,作为该低频元数据分区的索引;
3.10)接收到查询低频元数据属性的请求后,查找出没有任何检测器与查询请求匹配的分区,再在这些低频元数据分区中查询所需的元数据属性。
本发明依据元数据属性被使用的频率将元数据属性划分为高频属性和低频属性,针对不同频率元数据属性的特性使用不同的方法分别建立索引,减少了元数据查询和管理所需的时间与空间开销。
    实现本发明目的的装置如下:
一种新型元数据管理系统,包括属性分频装置、高频元数据索引装置和低频元数据索引装置。属性分频装置用于将元数据属性分为高频属性和低频属性。高频元数据索引装置用于依据高频属性中被用于查询的属性建立索引。低频元数据索引装置用于依据低频属性中被用于查询的属性建立索引。
属性分频装置包括元数据属性使用频率统计模块和元数据属性分频模块。元数据属性使用频率统计模块用于元数据属性被使用的次数、保存元数据属性的更新时间。元数据属性分频模块用于依据元数据属性使用频率统计模块收集到的信息,判断属性是属于高频还是低频属性,并在所有元数据中高频元数据属性的值附加相应的元数据标识后存入高频元数据集,在所有元数据中低频元数据属性的值附加相应的元数据标识后存入低频元数据集。
高频元数据索引装置包括高频元数据检索集构建模块和基于KD-tree、B-tree的索引模块。高频元数据检索集构建模块负责收集高频元数据集中被用作查询条件的元数据属性,构建高频元数据检索集。基于KD-tree、B-tree的索引模块负责依据高频元数据检索集使用KD-tree和B-tree建立高频元数据集的索引。
低频元数据索引装置包括低频元数据集分区模块、低频元数据检索集构建模块、元数据属性值转换模块、匹配度计算模块和各分区检测器生成模块。低频元数据集分区模块负责将低频元数据集均衡的分为若干分区,每个分区包含数目基本相等的低频元数据。低频元数据检索集构建模块负责收集低频元数据集中被用作查询条件的元数据属性,构建低频元数据检索集。元数据属性值转换模块:负责将低频元数据检索集中的非数值型元数据属性值转换为由ASCII字符组成的字符串。匹配度计算模块负责计算检测器与元数据属性之间的匹配度。各分区检测器生成模块负责使用否定选择算法,分别给每个分区生成检测器。
本发明的有益效果在于:
1、依据元数据中不同属性被使用的次数、创建时间、最近被访问时间等因素,将元数据属性分为高频和低频两部分,为减少管理元数据的时间与空间开销提供了基础。
2、使用KD-tree和B-tree建立高频元数据集的索引,能提高查找高频元数据属性的效率;同时高频元数据集仅包含部分的元数据,这使得所建立的KD-tree和B-tree索引树较小,能减少借助索引查找元数据所需的时间和空间开销,同时也相应减少了维护KD-tree和B-tree索引所需的时间和空间开销。
3、使用KD-tree建立多关键字的索引,能满足使用多个条件联合查询元数据的要求。
4、使用B-tree建立单关键字的索引可以获得更高的查询效率,查询元数据所需的时间和空间开销小于依据KD-tree索引的查询。
5、使用人工免疫算法建立低频元数据属性各分区的索引后,在查询低频元数据属性时,只需要与分区所属的检测器进行比较,如均不匹配则在这该分区中查找要查询的元数据属性;检查是否与检测器匹配的时间与空间开销很小,且每个分区所对应的检测器数量固定,所以查询低频元数据属性所需的时间与空间开销很小且稳定。
6、在低频元数据属性分区中保存检测器所需的存储空间远小于使用B-tree建立索引所需的存储空间,因此使用人工免疫算法建立低频元数据索引能减少保存索引所需的额外空间开销。
附图说明
图1是本发明实施例1中一种新型元数据管理系统的结构图。
图2是本发明实施例2中建立低频元数据索引方法的流程图。
具体实施方式
实施例1
如图1所示,一种新型元数据管理系统,包括属性分频装置、高频元数据索引装置和低频元数据索引装置。
属性分频装置包括元数据属性使用频率统计模块和元数据属性分频模块。元数据属性使用频率统计模块用于元数据属性被使用的次数、保存元数据属性的更新时间。元数据属性分频模块用于依据元数据属性使用频率统计模块收集到的信息,判断属性属于高频或低频属性,并在所有元数据中高频元数据属性的值附加相应的元数据标识后存入高频元数据集,在所有元数据中低频元数据属性的值附加相应的元数据标识后存入低频元数据集。
高频元数据索引装置包括高频元数据检索集构建模块和基于KD-tree、B-tree的索引模块。高频元数据检索集构建模块负责收集高频元数据集中被用作查询条件的元数据属性,构建高频元数据检索集。基于KD-tree、B-tree的索引模块负责依据高频元数据检索集使用KD-tree和B-tree建立高频元数据集的索引。
低频元数据索引装置包括低频元数据集分区模块、低频元数据检索集构建模块、元数据属性值转换模块、匹配度计算模块和各分区检测器生成模块。低频元数据集分区模块负责将低频元数据集均衡的分为若干分区,每个分区包含数目基本相等的低频元数据。候低频元数据检索集构建模块负责收集低频元数据集中被用作查询条件的元数据属性,构建低频元数据检索集。元数据属性值转换模块负责将低频元数据检索集中的非数值型元数据属性值转换为由ASCII字符组成的字符串。匹配度计算模块负责计算检测器与元数据属性之间的匹配度。各分区检测器生成模块负责使用否定选择算法,分别给每个分区生成检测器。
新型元数据管理系统中各功能模块的说明如表1所示。
表1 新型元数据管理系统中的功能模块
Figure 2011102564518100002DEST_PATH_IMAGE027
实施例2
一种元数据属性混合索引方法,包括下列步骤:
1)将元数据属性划分为高频元数据属性和低频元数据属性,在附加元数据标识后分别存入高频元数据集和低频元数据集;2)对高频元数据集使用KD-tree和B-tree建立索引;3)对低频元数据集使用人工免疫算法建立索引。
   步骤1具体可包括下列流程:
1.1)定义元数据属性的活跃度阈值
Figure 971308DEST_PATH_IMAGE001
,作为对元数据属性划分的依据。
1.2)定义元数据属性的活跃度
Figure 238341DEST_PATH_IMAGE002
,作为衡量元数据属性活跃度的依据,使用公式
Figure 843766DEST_PATH_IMAGE028
计算获得,其中
Figure 247065DEST_PATH_IMAGE004
是最近访问元数据属性的时间,
Figure 37167DEST_PATH_IMAGE005
是创建元数据属性的时间,
Figure 791496DEST_PATH_IMAGE007
是系统当前的时间,
Figure 528508DEST_PATH_IMAGE008
是元数据属性在当前时间之前的
Figure 458418DEST_PATH_IMAGE009
时间内被访问的次数。
1.3)当
Figure 2011102564518100002DEST_PATH_IMAGE029
时,该元数据属性是高频元数据属性,当
Figure 419421DEST_PATH_IMAGE030
时,该元数据属性是低频元数据属性;
1.4)将所有元数据中高频元数据属性的值在附加相应的元数据标识(如文件的绝对路径、inode节点号等)后存入高频元数据集,将所有元数据中低频元数据属性的值在附加相应的元数据标识后存入低频元数据集。
步骤2具体可包括下列流程:
2.1)收集高频元数据集中被用作查询条件的元数据属性(如文件名、文件后缀名等),构建高频元数据检索集;
2.2)如高频元数据检索集中包含不少于两个元数据属性,使用KD-tree建立高频元数据集的索引;
2.3)如高频元数据检索集中仅包含单个元数据属性,使用B-tree建立高频元数据集的索引。
如图2所示,步骤3具体可包括下列流程:
3.1)将低频元数据集均衡的分为若干分区,每个分区包含数目基本相等的低频元数据;
3.2)收集低频元数据集中被用作查询条件的元数据属性(如作者、类别和备注等),构建低频元数据检索集,用表示,其中n表示被用为查询条件的元数据属性个数,
Figure 395467DEST_PATH_IMAGE032
表示每个被用于查询条件的元数据属性;
3.3)每个低频元数据条目中被用作为查询条件的多个属性的值的集合构成一个自体,收集该分区中所有低频元数据条目中包含的被用作查询条件的属性值,构成自体集
Figure 2011102564518100002DEST_PATH_IMAGE033
,其中每个自体
Figure 841229DEST_PATH_IMAGE034
n为被用为查询条件的元数据属性个数;
3.4)定义检测器
Figure 2011102564518100002DEST_PATH_IMAGE035
,其中每个
Figure 15859DEST_PATH_IMAGE017
与自体s中
Figure 351025DEST_PATH_IMAGE018
的类型相同;
3.5)对低频元数据检索集中的数值型元数据属性,使用
Figure 79947DEST_PATH_IMAGE036
计算
Figure 565286DEST_PATH_IMAGE017
之间的子匹配度
Figure 569331DEST_PATH_IMAGE020
3.6)对低频元数据检索集中的非数值型元数据属性,将
Figure 316707DEST_PATH_IMAGE018
表示为以ASCII字符组成的字符串,此时
Figure 2011102564518100002DEST_PATH_IMAGE037
包含l个ASCII字符,使用
Figure 605737DEST_PATH_IMAGE038
计算
Figure 900769DEST_PATH_IMAGE018
之间的子匹配度
3.7)设数值型元数据属性的个数是x个,非数值型元数据属性的个数是y个,使用计算检测器
Figure 290479DEST_PATH_IMAGE024
与自体s中
Figure 169574DEST_PATH_IMAGE025
之间的匹配度m
3.8)定义匹配阈值为r,如匹配度
Figure 17444DEST_PATH_IMAGE026
则判断两者匹配;
3.9)使用否定选择算法,分别给每个低频元数据分区筛选出p个不与该分区中任何自体匹配的检测器,作为该低频元数据分区的索引;
3.10)接收到查询低频元数据属性的请求后,查找出没有任何检测器与查询请求匹配的分区,再在这些低频元数据分区中查询所需的元数据属性。
实施例3
设已知一条元数据中包括属性A、B和C,其中A的创建时间是200、最近一次被访问时间是500,B的创建时间是100、最近一次被访问时间是100,C的创建时间是100、最近一次被访问时间是550,当前系统时间是600,在周期T内属性A被访问了300次、属性B被访问了100次、属性C被访问了200次。
根据步骤1.1)设置活跃度阈值
Figure 942675DEST_PATH_IMAGE001
为1.2,依据步骤1.2)中给出的计算方法分别计算出属性A、B和C的活跃度如下:
属性A的活跃度为1-0.003+0.217-0.003=1.211;
属性B的活跃度为1-0.01+0.161-0.002=1.149;
属性C的活跃度为1-0.005+0.256-0.002=1.249;
根据步骤1.3)属性A和属性C为高频属性,属性B为低频属性。
实施例4
设通过属性分频,高频属性集中包括:文件id号、文件路径名、文件后缀名这三个属性。
第一种情况,当前系统中只使用文件id号查询高频元数据属性集,依据步骤2.1)高频元数据检索集中只包含文件id号这一个属性;依据步骤2.3)此时不能使用KD-tree建立索引,使用B-tree针对关键字文件id号建立高频元数据属性集的索引,使用B-tree建立索引是一个通用方法,在此我们不展开举例;
第二种情况,当前系统中文件id号和文件路径名都会被用作查询高频元数据属性集的条件,依据步骤2.1)高频元数据检索集中包含文件id号和文件路径名两个属性;依据步骤2.2)使用KD-tree对关键字文件id号和文件路径名建立高频元数据属性集的索引,使用KD-tree树建立索引同样也是一个通用方法,在此我们也不展开举例。
实施例5
设低频元数据检索集由三个属性构成,其中
Figure 2011102564518100002DEST_PATH_IMAGE041
Figure 25217DEST_PATH_IMAGE042
是数值型属性,
Figure 2011102564518100002DEST_PATH_IMAGE043
是字符串型属性,此时n值为3;设P为1,该分区自体集,其中
Figure 2011102564518100002DEST_PATH_IMAGE045
Figure 158313DEST_PATH_IMAGE046
,定义匹配阈值r为1;
对检测器
Figure 2011102564518100002DEST_PATH_IMAGE047
依据步骤3.5)和3.6)计算出计算
Figure 2011102564518100002DEST_PATH_IMAGE049
之间的子匹配度
Figure 508840DEST_PATH_IMAGE050
Figure 2011102564518100002DEST_PATH_IMAGE051
Figure 495251DEST_PATH_IMAGE052
依据步骤3.7)计算出
Figure 395073DEST_PATH_IMAGE048
Figure 367709DEST_PATH_IMAGE049
之间的匹配度
Figure 403798DEST_PATH_IMAGE053
依据步骤3.5)和3.6)计算出
Figure 561110DEST_PATH_IMAGE048
Figure 948229DEST_PATH_IMAGE054
之间的子匹配度
Figure 52451DEST_PATH_IMAGE055
Figure 615150DEST_PATH_IMAGE056
Figure 412205DEST_PATH_IMAGE057
依据步骤3.7)计算出
Figure 21041DEST_PATH_IMAGE048
Figure 725692DEST_PATH_IMAGE054
之间的匹配度
Figure 736373DEST_PATH_IMAGE058
依据步骤3.8)
Figure 704329DEST_PATH_IMAGE048
Figure 717240DEST_PATH_IMAGE049
不匹配、
Figure 163265DEST_PATH_IMAGE048
Figure 294032DEST_PATH_IMAGE054
匹配。
依据步骤3.9)检测器
Figure 964047DEST_PATH_IMAGE048
不能作为该分区的检测器;
对检测器
Figure 547475DEST_PATH_IMAGE059
依据步骤3.5)和3.6)计算出计算
Figure 188989DEST_PATH_IMAGE049
之间的子匹配度
Figure 498748DEST_PATH_IMAGE061
Figure 154037DEST_PATH_IMAGE063
依据步骤3.7)计算出
Figure 412160DEST_PATH_IMAGE049
之间的匹配度
Figure 111126DEST_PATH_IMAGE064
依据步骤3.5)和3.6)计算出
Figure 968224DEST_PATH_IMAGE060
Figure 662510DEST_PATH_IMAGE054
之间的子匹配度
Figure 845230DEST_PATH_IMAGE055
Figure 2011102564518100002DEST_PATH_IMAGE065
依据步骤3.7)计算出
Figure 190815DEST_PATH_IMAGE060
Figure 739608DEST_PATH_IMAGE054
之间的匹配度
Figure 827650DEST_PATH_IMAGE066
依据步骤3.8)
Figure 625842DEST_PATH_IMAGE060
Figure 559163DEST_PATH_IMAGE049
不匹配、
Figure 228041DEST_PATH_IMAGE060
Figure 893509DEST_PATH_IMAGE054
不匹配。
依据步骤3.9)检测器
Figure 382259DEST_PATH_IMAGE060
可作为该分区的检测器,由于P=1所以为该分区生成索引的流程结束,检测器
Figure 916009DEST_PATH_IMAGE060
作为该分区的索引。

Claims (8)

1.一种元数据属性混合索引方法,包括下列步骤:
步骤1)将元数据属性划分为高频元数据属性和低频元数据属性,在附加元数据标识后分别存入高频元数据集和低频元数据集;
步骤2)对高频元数据集使用KD-tree和B-tree建立索引;
步骤3)对低频元数据集使用人工免疫算法建立索引。
2.根据权利要求1所述的一种元数据属性混合索引方法,所述步骤1)具体包括下列步骤:
步骤1.1)定义元数据属性的活跃度阈值                                                ,作为对元数据属性划分的依据;
步骤1.2)定义元数据属性的活跃度,作为衡量元数据属性活跃度的依据,使用公式
Figure 808208DEST_PATH_IMAGE003
计算获得,其中是最近访问元数据属性的时间,是创建元数据属性的时间,
Figure 590854DEST_PATH_IMAGE006
是系统当前的时间,
Figure 601535DEST_PATH_IMAGE007
是元数据属性在当前时间之前的
Figure 536868DEST_PATH_IMAGE008
时间内被访问的次数;
步骤1.3)当
Figure 633000DEST_PATH_IMAGE009
时,该元数据属性是高频元数据属性,当
Figure 813445DEST_PATH_IMAGE010
时,该元数据属性是低频元数据属性;
步骤1.4)将所有元数据中高频元数据属性的值在附加相应的元数据标识后存入高频元数据集,将所有元数据中低频元数据属性的值在附加相应的元数据标识后存入低频元数据集。
3.根据权利要求1所述的一种元数据属性混合索引方法,所述步骤2)具体包括下列步骤:
步骤2.1)收集高频元数据集中被用作查询条件的元数据属性,构建高频元数据检索集;
步骤2.2)如高频元数据检索集中包含不少于两个元数据属性,使用KD-tree建立高频元数据集的索引;
步骤2.3)如高频元数据检索集中仅包含单个元数据属性,使用B-tree建立高频元数据集的索引。
4.根据权利要求1所述的一种元数据属性混合索引方法,所述步骤3)具体包括下列步骤:
步骤 3.1)将低频元数据集均衡地分为若干分区,每个分区包含数目基本相等的低频元数据;
步骤 3.2)收集低频元数据集中被用作查询条件的元数据属性,构建低频元数据检索集,用
Figure 944212DEST_PATH_IMAGE011
表示,其中n表示被用为查询条件的元数据属性个数,
Figure 83070DEST_PATH_IMAGE012
表示每个被用于查询条件的元数据属性;
步骤 3.3)每个低频元数据条目中被用作为查询条件的多个属性的值的集合构成一个自体,收集该分区中所有低频元数据条目中被用作查询条件的属性值,构成自体集
Figure 869760DEST_PATH_IMAGE013
,其中每个自体
Figure 385055DEST_PATH_IMAGE014
n为被用为查询条件的元数据属性个数;
步骤 3.4)定义检测器
Figure 370329DEST_PATH_IMAGE015
,其中每个
Figure 148929DEST_PATH_IMAGE016
与自体s中
Figure 954074DEST_PATH_IMAGE017
的类型相同;
步骤 3.5)对低频元数据检索集中的数值型元数据属性,使用
Figure 476322DEST_PATH_IMAGE018
计算
Figure 316102DEST_PATH_IMAGE016
Figure 796762DEST_PATH_IMAGE017
之间的子匹配度
Figure 823624DEST_PATH_IMAGE019
步骤 3.6)对低频元数据检索集中的非数值型元数据属性,将表示为以ASCII字符组成的字符串,此时
Figure 843849DEST_PATH_IMAGE020
包含l个ASCII字符,使用
Figure 495411DEST_PATH_IMAGE021
计算
Figure 743989DEST_PATH_IMAGE016
Figure 139199DEST_PATH_IMAGE017
之间的子匹配度
Figure 920947DEST_PATH_IMAGE019
步骤 3.7)设数值型元数据属性的个数是x个,非数值型元数据属性的个数是y个,使用计算检测器与自体s中之间的匹配度m
步骤 3.8)定义匹配阈值为r,如匹配度
Figure 347064DEST_PATH_IMAGE025
则判断两者匹配;
步骤 3.9)使用否定选择算法,分别给每个低频元数据分区筛选出p个不与该分区中任何自体匹配的检测器,作为该低频元数据分区的索引;
步骤 3.10)接收到查询低频元数据属性的请求后,查找出没有任何检测器与查询请求匹配的分区,再在这些低频元数据分区中查询所需的元数据属性。
5.一种新型元数据管理系统,包括属性分频装置、高频元数据索引装置和低频元数据索引装置。
6.根据权利要求5所述一种新型元数据管理系统,其特征在于,所述属性分频装置包括元数据属性使用频率统计模块和元数据属性分频模块:
元数据属性使用频率统计模块用于元数据属性被使用的次数、保存元数据属性的更新时间;
元数据属性分频模块用于依据元数据属性使用频率统计模块收集到的信息判断属性是属于高频还是低频属性,并在所有元数据中高频元数据属性的值附加相应的元数据标识后存入高频元数据集,在所有元数据中低频元数据属性的值附加相应的元数据标识后存入低频元数据集。
7.根据权利要求5所述的一种新型元数据管理系统,其特征在于,所述高频元数据索引装置包括高频元数据检索集构建模块和基于KD-tree、B-tree的索引模块:
高频元数据检索集构建模块:负责收集高频元数据集中被用作查询条件的元数据属性,构建高频元数据检索集;
基于KD-tree、B-tree的索引模块:负责依据高频元数据检索集使用KD-tree和B-tree建立高频元数据集的索引。
8.根据权利要求5所述的一种新型元数据管理系统,其特征在于,所述低频元数据索引装置包括低频元数据集分区模块、低频元数据检索集构建模块、元数据属性值转换模块、匹配度计算模块和各分区检测器生成模块:
低频元数据集分区模块:负责将低频元数据集均衡的分为若干分区,每个分区包含数目基本相等的低频元数据;
低频元数据检索集构建模块:负责收集低频元数据集中被用作查询条件的元数据属性,构建低频元数据检索集;
元数据属性值转换模块:负责将低频元数据检索集中的非数值型元数据属性值转换为由ASCII字符组成的字符串;
匹配度计算模块:负责计算检测器与元数据属性之间的匹配度;
各分区检测器生成模块:负责使用否定选择算法,分别给每个分区生成检测器。
CN 201110256451 2011-08-31 2011-08-31 一种新型元数据管理系统和一种元数据属性混合索引方法 Active CN102298631B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN 201110256451 CN102298631B (zh) 2011-08-31 2011-08-31 一种新型元数据管理系统和一种元数据属性混合索引方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN 201110256451 CN102298631B (zh) 2011-08-31 2011-08-31 一种新型元数据管理系统和一种元数据属性混合索引方法

Publications (2)

Publication Number Publication Date
CN102298631A true CN102298631A (zh) 2011-12-28
CN102298631B CN102298631B (zh) 2013-08-21

Family

ID=45359045

Family Applications (1)

Application Number Title Priority Date Filing Date
CN 201110256451 Active CN102298631B (zh) 2011-08-31 2011-08-31 一种新型元数据管理系统和一种元数据属性混合索引方法

Country Status (1)

Country Link
CN (1) CN102298631B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103078898A (zh) * 2012-12-18 2013-05-01 华为技术有限公司 文件系统、接口服务装置和数据存储服务提供方法
CN105677840A (zh) * 2016-01-06 2016-06-15 东北大学 一种基于多维渐增数据模型的数据查询方法
WO2017032229A1 (en) * 2015-08-25 2017-03-02 Huawei Technologies Co., Ltd. Systems and methods for searching heterogeneous indexes of metadata and tags in file systems
CN107273443A (zh) * 2017-05-26 2017-10-20 电子科技大学 一种基于大数据模型元数据的混合索引方法
CN109992708A (zh) * 2019-04-12 2019-07-09 苏州浪潮智能科技有限公司 一种元数据查询的方法、装置、设备以及存储介质
CN110377697A (zh) * 2019-06-19 2019-10-25 平安国际智慧城市科技股份有限公司 元数据标准的更新方法、装置、设备及存储介质
CN111666370A (zh) * 2020-07-28 2020-09-15 中国人民解放军国防科技大学 面向多源异构航天数据的语义索引方法和装置

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106201602B (zh) * 2016-06-30 2020-02-14 北京奇虎科技有限公司 一种标签提供方法、获取方法、服务器及电子设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7689602B1 (en) * 2005-07-20 2010-03-30 Bakbone Software, Inc. Method of creating hierarchical indices for a distributed object system
CN101944134A (zh) * 2010-10-18 2011-01-12 江苏大学 一种海量存储系统的元数据服务器和元数据索引方法
CN101968795A (zh) * 2010-09-03 2011-02-09 清华大学 一种数据块长度可变的文件系统缓存方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7689602B1 (en) * 2005-07-20 2010-03-30 Bakbone Software, Inc. Method of creating hierarchical indices for a distributed object system
CN101968795A (zh) * 2010-09-03 2011-02-09 清华大学 一种数据块长度可变的文件系统缓存方法
CN101944134A (zh) * 2010-10-18 2011-01-12 江苏大学 一种海量存储系统的元数据服务器和元数据索引方法

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103078898A (zh) * 2012-12-18 2013-05-01 华为技术有限公司 文件系统、接口服务装置和数据存储服务提供方法
CN103078898B (zh) * 2012-12-18 2016-03-02 华为技术有限公司 文件系统、接口服务装置和数据存储服务提供方法
WO2017032229A1 (en) * 2015-08-25 2017-03-02 Huawei Technologies Co., Ltd. Systems and methods for searching heterogeneous indexes of metadata and tags in file systems
CN105677840A (zh) * 2016-01-06 2016-06-15 东北大学 一种基于多维渐增数据模型的数据查询方法
CN105677840B (zh) * 2016-01-06 2019-02-05 东北大学 一种基于多维渐增数据模型的数据查询方法
CN107273443A (zh) * 2017-05-26 2017-10-20 电子科技大学 一种基于大数据模型元数据的混合索引方法
CN107273443B (zh) * 2017-05-26 2020-09-29 电子科技大学 一种基于大数据模型元数据的混合索引方法
CN109992708A (zh) * 2019-04-12 2019-07-09 苏州浪潮智能科技有限公司 一种元数据查询的方法、装置、设备以及存储介质
CN110377697A (zh) * 2019-06-19 2019-10-25 平安国际智慧城市科技股份有限公司 元数据标准的更新方法、装置、设备及存储介质
CN110377697B (zh) * 2019-06-19 2020-09-22 平安国际智慧城市科技股份有限公司 元数据标准的更新方法、装置、设备及存储介质
CN111666370A (zh) * 2020-07-28 2020-09-15 中国人民解放军国防科技大学 面向多源异构航天数据的语义索引方法和装置
CN111666370B (zh) * 2020-07-28 2022-04-22 中国人民解放军国防科技大学 面向多源异构航天数据的语义索引方法和装置

Also Published As

Publication number Publication date
CN102298631B (zh) 2013-08-21

Similar Documents

Publication Publication Date Title
CN102298631B (zh) 一种新型元数据管理系统和一种元数据属性混合索引方法
Vu et al. A graph method for keyword-based selection of the top-k databases
CN101944134B (zh) 一种海量存储系统的元数据服务器和元数据索引方法
CN102163218B (zh) 基于图索引的图数据库关键词邻近搜索方法
CN102955843B (zh) 一种键值数据库的多键查找实现方法
Zhou et al. A survey on the management of uncertain data
CN103678550A (zh) 一种基于动态索引结构的海量数据实时查询方法
CN102880854A (zh) 基于分布式和哈希映射的室外海量物体识别方法和系统
CN102306202B (zh) 一种基于街区距离的高维向量快速检索算法
CN102314464B (zh) 歌词搜索方法及搜索引擎
Cheng et al. Distributed indexes design to accelerate similarity based images retrieval in airport video monitoring systems
Lin et al. Towards heterogeneous keyword search
Ladwig et al. Combining query translation with query answering for efficient keyword search
CN105868406A (zh) 基于多数据库的专利检索系统
CN103365966B (zh) 物联网节点信息存储方法及装置
Kulkarni et al. Parallel skyline computation for frequent queries in distributed environment
Li et al. Progressive ranking for efficient keyword search over relational databases
Chaudhari et al. Dynamic materialized view selection algorithm: a clustering approach
CN112817966B (zh) 数据检索方法、装置、电子设备以及存储介质
Altingovde et al. Large-scale cluster-based retrieval experiments on Turkish texts
Zhang et al. Efficient metric all-k-nearest-neighbor search on datasets without any index
WO2023074943A1 (ko) 사물 인터넷 환경에서 비정형 데이터 활용을 위한 정형 데이터 베이스 구성 및 그 사용 방법
Yu et al. Distributed top-k keyword search over very large databases with MapReduce
Xu et al. Hybrid graph based keyword query interpretation on RDF
Ioannou et al. Enabling entity-based aggregators for web 2.0 data

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20171120

Address after: 212100 Zhenjiang province Jiangsu city Dantu District Shangdang ecological Automobile Industrial Park No. 8

Patentee after: JIANGSU HUIZHI INTELLECTUAL PROPERTY SERVICES CO., LTD.

Address before: 212013 Zhenjiang City, Jiangsu Province University Road, No. 301

Patentee before: Jiangsu University

TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20190313

Address after: 401120 data of Xiantao street, Yubei District, Chongqing 19

Patentee after: Chongqing Wingshengda Technology Co., Ltd.

Address before: 212100 Shangdang Eco-automobile Complementary Industrial Park No. 8, Dantu District, Zhenjiang City, Jiangsu Province

Patentee before: JIANGSU HUIZHI INTELLECTUAL PROPERTY SERVICES CO., LTD.

TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20200519

Address after: 300131 Third Floor of CIIC Building, 19 Xianyang Road, Hongqiao District, Tianjin

Patentee after: TIANJIN YIPOINT TECHNOLOGY Co.,Ltd.

Address before: 401120, Chongqing, Yubei District, Xiantao street, No. 19 East Valley Road

Patentee before: Chongqing Wingshengda Technology Co.,Ltd.