CN107066506B - 一种提高空间科学与应用数据检索效率的方法及装置 - Google Patents

一种提高空间科学与应用数据检索效率的方法及装置 Download PDF

Info

Publication number
CN107066506B
CN107066506B CN201710017705.8A CN201710017705A CN107066506B CN 107066506 B CN107066506 B CN 107066506B CN 201710017705 A CN201710017705 A CN 201710017705A CN 107066506 B CN107066506 B CN 107066506B
Authority
CN
China
Prior art keywords
data
file
name
retrieval
data file
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710017705.8A
Other languages
English (en)
Other versions
CN107066506A (zh
Inventor
李盛阳
郝忠翁
黑保琴
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Technology and Engineering Center for Space Utilization of CAS
Original Assignee
Technology and Engineering Center for Space Utilization of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Technology and Engineering Center for Space Utilization of CAS filed Critical Technology and Engineering Center for Space Utilization of CAS
Priority to CN201710017705.8A priority Critical patent/CN107066506B/zh
Publication of CN107066506A publication Critical patent/CN107066506A/zh
Application granted granted Critical
Publication of CN107066506B publication Critical patent/CN107066506B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2228Indexing structures
    • G06F16/2246Trees, e.g. B+trees
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种提高空间科学与应用数据检索效率的方法及装置,该方法包括如下步骤:为待存储的数据文件命名,数据文件的文件名包括至少两个前缀,存储数据文件时,通过解析文件名的方式构建文件名的查找树,查找树根结点外的结点存放文件名的一个前缀,查找树的叶结点对应数据文件的存储地址,检索数据文件时,通过检索条件与查找树树枝的比对获取数据文件的存储地址而得到数据文件;该装置包括命名模块、生成模块及检索模块。本发明通过对文件名的快速检索的方式实现对空间科学与应用数据文件的快速检索,极大减少了对计算资源和存储资源的占用,从而本发明极大缩短了检索时间、提高了检索效率,用户的体验更好。

Description

一种提高空间科学与应用数据检索效率的方法及装置
技术领域
本发明涉及空间科学与应用数据检索技术领域,更为具体来说,本发明为一种提高空间科学与应用数据检索效率的方法及装置。
背景技术
目前,对于空间科学与应用数据的归档和检索方法如下:通过数据文件对应的XML配置文件进行入库归档,用户检索时,通过数据库SQL语句进行查询。
但是,传统的方法存在如下的弊端:当空间科学与应用数据的数据量巨大时,一方面,对计算和存储资源显得日益紧张,且大量存在的XML配置文件对数据高效管理带来不便,另一方面,用户检索查询时,对数据库多表的关联查询耗费时间且对服务器资源带来过多的占用,导致较大的检索响应延迟。
发明内容
为克服现有空间科学与应用数据检索存在的检索响应延迟、对计算和存储资源消耗大的问题,本发明提供了一种提高空间科学与应用数据检索效率的方法及装置,对空间科学与应用数据的文件名制定一种标准规范,通过对文件名直接解析入库,用户检索时通过构建文件名的trie树实现内存中对文件名的快速检索,进而实现了对数据文件的快速检索,极大地提高检索操作效率,满足大规模空间科学与应用数据实时性的操作要求,极大地提高了用户体验。
为实现上述的技术目的,本发明公开了一种提高空间科学与应用数据检索效率的方法,该方法包括如下步骤,
步骤1,采用预设的命名格式为待存储的数据文件命名,数据文件的文件名包括至少两个前缀;
步骤2,存储所述数据文件时,通过解析文件名的方式构建文件名的查找树,所述查找树根结点外的结点存放文件名的一个前缀,所述查找树的叶结点对应数据文件的存储地址;
步骤3,检索所述数据文件时,通过检索条件与查找树树枝比对的方式获取所述数据文件的存储地址,利用所述存储地址检索得到所述数据文件。
本发明不需要再对空间科学与应用数据的文件配置相应的XML文件,以节省XML文件生成和解析时所耗费的时间,也为数据文件管理提供方便,用户检索时通过内存中查找树直接检索文件存储地址,不再使用SQL语句对数据表进行多表关联查询,可将数据检索响应时间从几秒的级别降低到几十毫秒的级别,极大地提高了数据检索效率、降低了对服务器资源的消耗。
进一步地,步骤2中,将所述数据文件存储至数据库,将所述查找树存储至内存中。
进一步地,所述查找树为单词查找树。
进一步地,步骤1中,所述预设的命名格式为:飞行器名称_载荷名称_数据类型_数据等级_数据标识_数据采集开始时间_数据采集结束时间。
进一步地,步骤1中,所述飞行器名称、载荷名称、数据类型、数据等级、数据标识均采用大写英文字母和数字的组合表示;所述数据采集开始时间和数据采集结束时间均采用长整型的数值表示。
本发明的另一个发明目的在于提供一种提高空间科学与应用数据检索效率的装置,该装置包括依次连接的命名模块、生成模块及检索模块;所述命名模块用于采用预设的命名格式为待存储的数据文件命名,数据文件的文件名包括至少两个前缀;所述生成模块用于在存储所述数据文件时通过解析文件名的方式构建文件名的查找树,所述查找树根结点外的结点存放文件名的一个前缀,所述查找树的叶结点对应数据文件的存储地址;所述检索模块用于在检索所述数据文件时通过检索条件与查找树树枝比对的方式获取所述数据文件的存储地址,所述检索模块利用所述存储地址检索得到所述数据文件。
本发明不需要再对空间科学与应用数据的文件配置相应的XML文件,以节省XML文件生成和解析时所耗费的时间,也为数据文件管理提供方便,用户检索时通过内存中查找树直接检索文件存储地址,不再使用SQL语句对数据表进行关联查询,可将数据检索响应时间从几秒的级别降低到几十毫秒的级别,极大地提高了数据检索效率。
进一步地,所述数据文件存储于数据库中,所述查找树存储于内存中。
进一步地,所述查找树为单词查找树。
进一步地,所述预设的命名格式为:飞行器名称_载荷名称_数据类型_数据等级_数据标识_数据采集开始时间_数据采集结束时间。
进一步地,所述飞行器名称、载荷名称、数据类型、数据等级、数据标识均为大写英文字母和数字的组合;所述数据采集开始时间和数据采集结束时间均为长整型的数值。
本发明的有益效果为:本发明通过对文件名的快速检索的方式实现对空间科学与应用数据文件的快速检索,极大减少了对计算资源和存储资源的占用,从而本发明极大缩短了检索时间、提高了检索效率,方便对空间科学与数据文件的高效管理,用户的体验更好。
附图说明
图1为本发明提高空间科学与应用数据检索效率的方法流程图。
图2为本发明提高空间科学与应用数据检索效率的装置组成图。
图3为数据文件快速归档和检索的流程示意图。
图4为根据文件名构建Trie树的示意图。
具体实施方式
下面结合说明书附图对本发明的一种提高空间科学与应用数据检索效率的方法及装置进行详细的解释和说明。
如图1、2、3、4所示,本发明涉及一种基于文件名解析的空间科学与应用数据的快速归档、建档及检索方法,具体公开了一种提高空间科学与应用数据检索效率的方法。
如图1、3、4所示,本发明公开了一种提高空间科学与应用数据检索效率的方法,该方法包括如下步骤,
步骤1,本发明首先对空间科学与应用数据文件名制定一种标准规范,采用预设的命名格式为待存储的数据文件命名,数据文件的文件名包括至少两个前缀,本实施例中,前缀为七个;本发明的数据文件为空间科学与应用数据文件,因此,本发明预设的命名格式为:飞行器名称_载荷名称_数据类型_数据等级_数据标识_数据采集开始时间_数据采集结束时间,将飞行器名称、载荷名称、数据类型、数据等级、数据标识、数据采集开始时间、数据采集结束时间这七个检索要素用下划线连接构成,比如,A01_B02_C03_D04_E05_1476083095_1478675095,即形成了本发明的空间科学与数据文件名标准规范。为方便后序步骤对文件名的解析和存储,本发明中,飞行器名称、载荷名称、数据类型、数据等级、数据标识均采用大写英文字母和数字的组合表示;数据采集开始时间和数据采集结束时间均采用长整型的数值表示,即使用long型数值表示。
步骤2,存储数据文件时,即数据入库时可直接对文件名进行解析,并解析出相应的数据文件信息,本发明不需要再对原数据文件配置相应的XML文件,而对数据文件执行入库操作并生成文件名的查找树,通过解析文件名的方式构建文件名的查找树,本实施例中的查找树为trie树,查找树根结点外的结点存放文件名的一个前缀,此处的结点可理解为不包括叶结点,查找树的叶结点对应数据文件的存储地址;本实施例中,将数据文件存储至数据库,将查找树存储至内存中;这样做的目的在于能够进行快速地查找,由于访问内存的速度远远大于访问数据库的速度,因此,本发明将寻址用的查找树存储于内存中;对于占用较大空间的数据文件,本发明将其存储于数据库中。
如图4所示的根据文件名构建Trie树的示意图,本发明以F01_Z02_L03_J04和F09_Z01_L01_J09为例构建Trie树。如图4所示,每个结点对应一项前缀,叶结点可对应最长前缀或最后一项前缀,最长前缀即文件名本身,叶结点存放文件名等相关信息,查询操作顺着前缀往叶结点搜索即可快速找到。
步骤3,检索所述数据文件时,本发明不再使用SQL语句频繁对数据表进行关联查询,而通过检索条件与查找树树枝比对的方式获取所述数据文件的存储地址,从而缩短查询时间,比如,可按照名称检索的顺序将检索条件与结点依次比对,最终,寻到需检索的数据文件入库、建立查找树时生成的叶结点,从而获得需检索的数据文件的存储地址,利用上述存储地址检索得到所述数据文件,本实施例中,根据检索条件直接在内存的Trie树中检索,同时返回相应的查询结果给用户。
如图3所示的数据文件快速归档和检索的流程示意图,图3中的1、2、3、4为实施本发明的步骤,本发明依次通过规范文件名、文件名解析、构建Trie树和数据文件入库、用户检索步骤实现提高本发明空间科学与应用数据检索效率的目的。
需要说明的是,本发明涉及的查找树可为单词查找树,即Trie树。
如图2、3、4所示,对应于上述提高空间科学与应用数据检索效率的方法,本发明还公开了一种提高空间科学与应用数据检索效率的装置,该装置包括依次连接的命名模块、生成模块及检索模块;命名模块用于采用预设的命名格式为待存储的数据文件命名,预设命名格式为:飞行器名称_载荷名称_数据类型_数据等级_数据标识_数据采集开始时间_数据采集结束时间,本实施例中,飞行器名称、载荷名称、数据类型、数据等级、数据标识均为大写英文字母和数字的组合;数据采集开始时间和数据采集结束时间均为长整型的数值;数据文件的文件名包括至少两个前缀;生成模块用于在存储所述数据文件时通过解析文件名的方式构建文件名的查找树,查找树根结点外的结点存放文件名的一个前缀,查找树的叶结点对应数据文件的存储地址,本发明中,上述数据文件存储于数据库中,上述的查找树存储于内存中;本发明涉及的查找树可为单词查找树,检索模块用于在检索所述数据文件时通过检索条件与查找树树枝比对的方式获取所述数据文件的存储地址,所述检索模块利用所述存储地址检索得到所述数据文件。
需要特殊说明的是,本发明中涉及到的数据文件均为空间科学与应用数据文件,本发明可主要应用于空间科学与应用技术领域。
在本发明中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或成一体;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通或两个元件的相互作用关系,除非另有明确的限定。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“本实施例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明实质内容上所作的任何修改、等同替换和简单改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种提高空间科学与应用数据检索效率的方法,其特征在于:该方法包括如下步骤,
步骤1,采用预设的命名格式为待存储的数据文件命名,数据文件的文件名包括至少两个前缀;
步骤2,存储所述数据文件时,通过解析文件名的方式构建文件名的查找树,所述查找树根结点外的结点存放文件名的一个前缀,所述查找树的叶结点对应数据文件的存储地址;
步骤3,检索所述数据文件时,通过检索条件与查找树树枝比对的方式获取所述数据文件的存储地址,利用所述存储地址检索得到所述数据文件。
2.根据权利要求1所述的提高空间科学与应用数据检索效率的方法,其特征在于:步骤2中,将所述数据文件存储至数据库,将所述查找树存储至内存中。
3.根据权利要求2所述的提高空间科学与应用数据检索效率的方法,其特征在于:所述查找树为单词查找树。
4.根据权利要求1、2或3所述的提高空间科学与应用数据检索效率的方法,其特征在于:步骤1中,所述预设的命名格式为:飞行器名称_载荷名称_数据类型_数据等级_数据标识_数据采集开始时间_数据采集结束时间。
5.根据权利要求4所述的提高空间科学与应用数据检索效率的方法,其特征在于:步骤1中,所述飞行器名称、载荷名称、数据类型、数据等级、数据标识均采用大写英文字母和数字的组合表示;所述数据采集开始时间和数据采集结束时间均采用长整型的数值表示。
6.一种提高空间科学与应用数据检索效率的装置,其特征在于:该装置包括依次连接的命名模块、生成模块及检索模块;所述命名模块用于采用预设的命名格式为待存储的数据文件命名,数据文件的文件名包括至少两个前缀;所述生成模块用于在存储所述数据文件时通过解析文件名的方式构建文件名的查找树,所述查找树根结点外的结点存放文件名的一个前缀,所述查找树的叶结点对应数据文件的存储地址;所述检索模块用于在检索所述数据文件时通过检索条件与查找树树枝比对的方式获取所述数据文件的存储地址,所述检索模块利用所述存储地址检索得到所述数据文件。
7.根据权利要求6所述的提高空间科学与应用数据检索效率的装置,其特征在于:所述数据文件存储于数据库中,所述查找树存储于内存中。
8.根据权利要求7所述的提高空间科学与应用数据检索效率的装置,其特征在于:所述查找树为单词查找树。
9.根据权利要求6、7或8所述的提高空间科学与应用数据检索效率的装置,其特征在于:所述预设的命名格式为:飞行器名称_载荷名称_数据类型_数据等级_数据标识_数据采集开始时间_数据采集结束时间。
10.根据权利要求9所述的提高空间科学与应用数据检索效率的装置,其特征在于:所述飞行器名称、载荷名称、数据类型、数据等级、数据标识均为大写英文字母和数字的组合;所述数据采集开始时间和数据采集结束时间均为长整型的数值。
CN201710017705.8A 2017-01-11 2017-01-11 一种提高空间科学与应用数据检索效率的方法及装置 Active CN107066506B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710017705.8A CN107066506B (zh) 2017-01-11 2017-01-11 一种提高空间科学与应用数据检索效率的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710017705.8A CN107066506B (zh) 2017-01-11 2017-01-11 一种提高空间科学与应用数据检索效率的方法及装置

Publications (2)

Publication Number Publication Date
CN107066506A CN107066506A (zh) 2017-08-18
CN107066506B true CN107066506B (zh) 2020-12-08

Family

ID=59598838

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710017705.8A Active CN107066506B (zh) 2017-01-11 2017-01-11 一种提高空间科学与应用数据检索效率的方法及装置

Country Status (1)

Country Link
CN (1) CN107066506B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108804745A (zh) * 2018-04-13 2018-11-13 上海机电工程研究所 飞行器气动试验数据管理系统及方法
CN109885632B (zh) * 2019-01-22 2021-02-12 中国科学院空间应用工程与技术中心 一种空间科学与应用数据检索方法、系统、介质及设备
CN111552388B (zh) * 2020-05-06 2023-05-26 重庆中宏建设监理有限公司 工程造价进度管理系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101226552A (zh) * 2008-02-01 2008-07-23 北京乾坤化物数字技术有限公司 一种利用多维结构树构成的目录管理海量信息的方法
CN101315640A (zh) * 2008-07-01 2008-12-03 中兴通讯股份有限公司 一种目录管理方法和装置
WO2013097115A1 (zh) * 2011-12-28 2013-07-04 华为技术有限公司 文件目录存储方法、检索方法和设备
CN104636464A (zh) * 2015-02-09 2015-05-20 腾讯科技(深圳)有限公司 访问文件的方法和装置
CN105279278A (zh) * 2015-11-13 2016-01-27 珠海市君天电子科技有限公司 文件的搜索方法及装置

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070198479A1 (en) * 2006-02-16 2007-08-23 International Business Machines Corporation Streaming XPath algorithm for XPath expressions with predicates
CN104239565B (zh) * 2014-09-28 2017-12-08 陆嘉恒 一种基于学术搜索的姓名自动提示方法
CN105787090A (zh) * 2016-03-15 2016-07-20 国网信息通信产业集团有限公司 一种电力数据的olap系统的索引建立方法和系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101226552A (zh) * 2008-02-01 2008-07-23 北京乾坤化物数字技术有限公司 一种利用多维结构树构成的目录管理海量信息的方法
CN101315640A (zh) * 2008-07-01 2008-12-03 中兴通讯股份有限公司 一种目录管理方法和装置
WO2013097115A1 (zh) * 2011-12-28 2013-07-04 华为技术有限公司 文件目录存储方法、检索方法和设备
CN104636464A (zh) * 2015-02-09 2015-05-20 腾讯科技(深圳)有限公司 访问文件的方法和装置
CN105279278A (zh) * 2015-11-13 2016-01-27 珠海市君天电子科技有限公司 文件的搜索方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
"基于Hadoop的海量医学影像数据处理过程中的优化方法研究";王燕楠;《中国优秀硕士学位论文全文数据库 信息科技辑》;20150115;全文 *
"通用分布式文件系统的研究与改进";龚高晟;《中国优秀硕士学位论文全文数据库 信息科技辑》;20110315;全文 *

Also Published As

Publication number Publication date
CN107066506A (zh) 2017-08-18

Similar Documents

Publication Publication Date Title
US20200257665A1 (en) Similarity-based search engine
CN107066506B (zh) 一种提高空间科学与应用数据检索效率的方法及装置
US20150310129A1 (en) Method of managing database, management computer and storage medium
JP5152877B2 (ja) 文書ベースシステムにおける文書データ記憶方法およびその装置
CN107368527B (zh) 基于数据流的多属性索引方法
CN103488704A (zh) 一种数据存储方法及装置
CN106407303A (zh) 数据存储、查询方法及装置
US8880463B2 (en) Standardized framework for reporting archived legacy system data
US11709831B2 (en) Cost-based query optimization for array fields in database systems
US9953058B1 (en) Systems and methods for searching large data sets
JP2008059557A (ja) データベースインデクシング、サーチング、及びデータ検索のシステム及び方法
CN109992603B (zh) 一种数据搜索方法、装置、电子设备和计算机可读介质
CN102999600A (zh) 一种嵌入式数据库自动生成方法和系统
CN104391941A (zh) 一种快速构建常用文件全文检索工具的方法
CN110674087A (zh) 文件查询方法、装置及计算机可读存储介质
CN100383787C (zh) 一种数据库多表信息初始化方法
CN108984626B (zh) 一种数据处理方法、装置及服务器
KR100899616B1 (ko) 관계형 데이터베이스를 이용한 메타데이터 관리 방법 및시스템
JP2008198237A (ja) 構造化文書管理システム
US8392433B2 (en) Self-indexer and self indexing system
US11954105B2 (en) Method and system for storing query plans in a cache and method for querying a database system
CN103955519A (zh) 一种台账查询记录系统及其查询记录方法
CN109063215B (zh) 数据检索方法及装置
CN111382120B (zh) 一种小文件管理方法、系统和计算机设备
CN110019221B (zh) 一种内存映像型数据库系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant