CN104391952A - 实现文件系统索引建立的方法及实现文件系统查询的方法 - Google Patents

实现文件系统索引建立的方法及实现文件系统查询的方法 Download PDF

Info

Publication number
CN104391952A
CN104391952A CN201410708668.1A CN201410708668A CN104391952A CN 104391952 A CN104391952 A CN 104391952A CN 201410708668 A CN201410708668 A CN 201410708668A CN 104391952 A CN104391952 A CN 104391952A
Authority
CN
China
Prior art keywords
file system
attribute
file
index
metadata
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201410708668.1A
Other languages
English (en)
Inventor
吴松洋
熊雄
张旭
孔华锋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Third Research Institute of the Ministry of Public Security
Original Assignee
Third Research Institute of the Ministry of Public Security
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Third Research Institute of the Ministry of Public Security filed Critical Third Research Institute of the Ministry of Public Security
Priority to CN201410708668.1A priority Critical patent/CN104391952A/zh
Publication of CN104391952A publication Critical patent/CN104391952A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/14Details of searching files based on file metadata
    • G06F16/148File search processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/16File or folder operations, e.g. details of user interfaces specifically adapted to file systems
    • G06F16/164File meta data generation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Library & Information Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种实现文件系统索引建立的方法,其中包括基于文件信息为所述的文件系统中各个文件建立一元数据,各个所述的元数据存储所对应的文件的属性和属性值信息;从文件系统的元数据集合中抽取属性形成属性集合;基于所述的属性集合中各个属性建立对应的属性索引文件得到属性和属性索引文件的集合共同形成文件系统索引,本发明还涉及一种基于所述的实现文件系统索引建立的方法实现文件系统查询的方法。采用该种实现文件系统索引建立的方法及实现文件系统查询的方法,实现面向实际的取证搜索需求,文件系统索引快速建立,文件快速查询,在索引建立时充分考虑取证人员的主观索引需求,利于存储多值属性,具有更广泛的应用范围。

Description

实现文件系统索引建立的方法及实现文件系统查询的方法
技术领域
本发明涉及数据查询技术领域,尤其涉及建立文件系统索引技术领域,具体是指一种实现文件系统索引建立的方法及实现文件系统查询的方法。
背景技术
在实际的取证操作过程中,取证分析人员的活动依赖大量的基于文件系统的搜索行为。在取证分析人员进行搜索时,主要关注文件的修改时间、文件的真实类型、文件的删除状态、文件的特征等类型信息。
目前已有的取证相关软件对于文件系统的索引主要采取两种方案进行建立:一种方案是遍历整个磁盘,提取每个文件的属性信息,建立一个多维的数据库表,将文件的各个属性信息都存储到数据库的表中然后建立索引。另外一种方案是根据磁盘上文件系统的部分索引信息建立零碎的索引,当用户执行搜索操作时再进行整个磁盘的遍历,逐步完善建立整个文件系统的索引信息。
这两种方案对于实际取证分析人员的搜索行为都存在一定的缺陷,第一种方案对于已经建立的索引信息进行动态扩充的代价很大,不利于存储多值的属性,在建立索引的时候无法参考取证分析人员的主观索引建立需求,并且基于文件内容的搜索难以提供加速。第二种方案无法预先处理好所有的文件,在实际搜索过程中花费时间过长,同时也存在了第一种方案的缺陷。
发明内容
本发明的目的是克服了上述现有技术的缺点,提供了一种能够实现面向实际的取证搜索需求、文件系统索引快速建立、文件快速查询、具有更广泛应用范围的实现文件系统索引建立的方法及实现文件系统查询的方法。
为了实现上述目的,本发明的实现文件系统索引建立的方法及实现文件系统查询的方法具有如下构成:
该实现文件系统索引建立的方法,其主要特点是,所述的方法包括以下步骤:
(1-1)基于文件信息为所述的文件系统中各个文件建立一元数据,各个所述的元数据存储所对应的文件的属性和属性值信息;
(1-2)从文件系统的元数据集合中抽取属性形成属性集合;
(1-3)基于所述的属性集合中各个属性建立对应的属性索引文件得到属性和属性索引文件的集合共同形成文件系统索引。
较佳地,所述的元数据为基于XML格式的元数据,所述的元数据集合为XML文档。
较佳地,所述的属性包括路径、创建时间、修改信息、原始类型和删除状态。
较佳地,所述的属性还包括文件名称、文件关键词和占用空间。
本发明还涉及一种基于所述的实现文件系统索引建立的方法实现文件系统查询的方法,其特征在于,所述的实现文件系统索引建立的方法包括以下步骤:
(2-1)将对文件系统的查询分散为对各个属性的查询;
(2-2)对各个属性的属性索引文件进行查询;
(2-3)将各个属性的查询结果进行交集运算得到符合查询条件的元数据文件;
(2-4)根据查询得到的元数据文件返回所对应的真实文件。
较佳地,所述的基于XML格式的元数据,所述的元数据集合为XML文档。
较佳地,所述的属性包括路径、创建时间、修改信息、原始类型和删除状态。
较佳地,所述的属性还包括文件名称、文件关键词和占用空间。
采用了该发明中的实现文件系统索引建立的方法及实现文件系统查询的方法,具有如下有益效果:
提供了一种实现文件系统索引建立的方法及实现文件系统查询的方法,面向实际的取证搜索需求,文件系统索引快速建立,文件快速查询,在索引建立时充分考虑取证人员的主观索引需求,利于存储多值属性,具有更广泛的应用范围。
附图说明
图1为本发明的实现文件系统索引建立的方法的流程图。
图2为本发明的实现文件系统索引建立的方法应用于具体实施例的流程图。
具体实施方式
为了能够更清楚地描述本发明的技术内容,下面结合具体实施例来进行进一步的描述。
本发明提出一种新型的实现文件系统索引建立及实现文件系统查询的方法,主要面向实际的取证搜索需求。
一种实现文件系统索引建立的方法,包括以下步骤:
(1-1)基于文件信息为所述的文件系统中各个文件建立一元数据,各个所述的元数据存储所对应的文件的属性和属性值信息;
(1-2)从文件系统的元数据集合中抽取属性形成属性集合;
(1-3)基于所述的属性集合中各个属性建立对应的属性索引文件得到属性和属性索引文件的集合共同形成文件系统索引。
在一种较佳的实施例中,所述的元数据为基于XML格式的元数据,所述的元数据集合为XML文档,在实际应用中,还可以采用其他数据格式和文件格式进行存储。
在一种较佳的实施例中,所述的属性包括路径、创建时间、修改信息、原始类型和删除状态。
在一种较佳的实施例中,所述的属性还包括文件名称、文件关键词和占用空间。还可以包括其他可以作为索引的属性类别。
本发明还涉及一种基于所述的实现文件系统索引建立的方法实现文件系统查询的方法,包括以下步骤:
(2-1)将对文件系统的查询分散为对各个属性的查询;
(2-2)对各个属性的属性索引文件进行查询;
(2-3)将各个属性的查询结果进行交集运算得到符合查询条件的元数据文件;
(2-4)根据查询得到的元数据文件返回所对应的真实文件。
下面以一具体实施例来进一步说明本发明的实现文件系统索引建立的方法及实现文件系统查询的方法。
本发明在对文件系统进行索引建立时,首先定义每个文件的元信息。元信息基于XML格式,具备丰富的扩展能力,如下所示:
文件系统中每个文件的路径、创建时间等属性都可以自由存储在元数据中。对于可能存在多个值的属性,例如真实后缀RealExt,可以通过建立子节点的方式创建多个属性,如上所述的“sqlite”、“db”等。
当文件系统遍历结束之后,即可将整个文件系统使用数量众多的XML元数据来表示了。
对于已经建立完成的xml文档,由于是符合严格的XML格式要求,所以文档中的每个节点都是符合<key>value</key>的格式的,因此可以抽取每个XML文档中的key形成一个集合。由于文件系统中不同类型文件的属性相差并不大,所以形成的key集合一般在30到100个之间。
抽取到key集合之后,即可基于单个key建立每个key的索引文件,key.index。文件系统在完成XML形式化描述和基于单个key的内容索引之后,就可以由30到100个keyx.index来描述了。
整个索引建立过程如图1所示。
建立完成所有的索引文件之后,对于任意形式的查询,即可分散为对多个key的查询,通过对多个key的查询结果进行交集运算,即可得到符合查询条件的XML元数据文件。最终根据XML元数据文件返回对应的真实文件给取证分析人员。
采用了该发明中的实现文件系统索引建立的方法及实现文件系统查询的方法,具有如下有益效果:
提供了一种实现文件系统索引建立的方法及实现文件系统查询的方法,面向实际的取证搜索需求,文件系统索引快速建立,文件快速查询,在索引建立时充分考虑取证人员的主观索引需求,利于存储多值属性,具有更广泛的应用范围。
在此说明书中,本发明已参照其特定的实施例作了描述。但是,很显然仍可以作出各种修改和变换而不背离本发明的精神和范围。因此,说明书和附图应被认为是说明性的而非限制性的。

Claims (8)

1.一种实现文件系统索引建立的方法,其特征在于,所述的实现文件系统索引建立的方法包括以下步骤:
(1-1)基于文件信息为所述的文件系统中各个文件建立一元数据,各个所述的元数据存储所对应的文件的属性和属性值信息;
(1-2)从文件系统的元数据集合中抽取属性形成属性集合;
(1-3)基于所述的属性集合中各个属性建立对应的属性索引文件得到属性和属性索引文件的集合共同形成文件系统索引。
2.根据权利要求1所述的实现文件系统索引建立的方法,其特征在于,所述的元数据为基于XML格式的元数据,所述的元数据集合为XML文档。
3.根据权利要求1所述的实现文件系统索引建立的方法,其特征在于,所述的属性包括路径、创建时间、修改信息、原始类型和删除状态。
4.根据权利要求1所述的实现文件系统索引建立的方法,其特征在于,所述的属性还包括文件名称、文件关键词和占用空间。
5.一种基于权利要求1所述的实现文件系统索引建立的方法实现文件系统查询的方法,其特征在于,所述的实现文件系统索引建立的方法包括以下步骤:
(2-1)将对文件系统的查询分散为对各个属性的查询;
(2-2)对各个属性的属性索引文件进行查询;
(2-3)将各个属性的查询结果进行交集运算得到符合查询条件的元数据文件;
(2-4)根据查询得到的元数据文件返回所对应的真实文件。
6.根据权利要求5所述的实现文件系统查询的方法,其特征在于,所述的基于XML格式的元数据,所述的元数据集合为XML文档。
7.根据权利要求5所述的实现文件系统查询的方法,其特征在于,所述的属性包括路径、创建时间、修改信息、原始类型和删除状态。
8.根据权利要求5所述的实现文件系统查询的方法,其特征在于,所述的属性还包括文件名称、文件关键词和占用空间。
CN201410708668.1A 2014-11-28 2014-11-28 实现文件系统索引建立的方法及实现文件系统查询的方法 Pending CN104391952A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410708668.1A CN104391952A (zh) 2014-11-28 2014-11-28 实现文件系统索引建立的方法及实现文件系统查询的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410708668.1A CN104391952A (zh) 2014-11-28 2014-11-28 实现文件系统索引建立的方法及实现文件系统查询的方法

Publications (1)

Publication Number Publication Date
CN104391952A true CN104391952A (zh) 2015-03-04

Family

ID=52609856

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410708668.1A Pending CN104391952A (zh) 2014-11-28 2014-11-28 实现文件系统索引建立的方法及实现文件系统查询的方法

Country Status (1)

Country Link
CN (1) CN104391952A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104899337A (zh) * 2015-07-01 2015-09-09 中国农业银行股份有限公司 一种文件索引的建立方法及系统
CN109947759A (zh) * 2017-07-17 2019-06-28 中国移动通信集团吉林有限公司 一种数据索引建立方法、索引检索方法及装置
CN111666370A (zh) * 2020-07-28 2020-09-15 中国人民解放军国防科技大学 面向多源异构航天数据的语义索引方法和装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1904889A (zh) * 2006-08-11 2007-01-31 中国科学院计算技术研究所 用附着属性存储逻辑文件系统元数据的方法
CN1908937A (zh) * 2006-08-09 2007-02-07 华为技术有限公司 一种闪存中的flash文件的管理方法及系统
CN102184211A (zh) * 2011-05-03 2011-09-14 成都市华为赛门铁克科技有限公司 文件系统和检索、写入、修改或删除文件的方法与装置
CN102810114A (zh) * 2012-06-13 2012-12-05 天津大学 基于本体的个人计算机资源管理系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1908937A (zh) * 2006-08-09 2007-02-07 华为技术有限公司 一种闪存中的flash文件的管理方法及系统
CN1904889A (zh) * 2006-08-11 2007-01-31 中国科学院计算技术研究所 用附着属性存储逻辑文件系统元数据的方法
CN102184211A (zh) * 2011-05-03 2011-09-14 成都市华为赛门铁克科技有限公司 文件系统和检索、写入、修改或删除文件的方法与装置
CN102810114A (zh) * 2012-06-13 2012-12-05 天津大学 基于本体的个人计算机资源管理系统

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104899337A (zh) * 2015-07-01 2015-09-09 中国农业银行股份有限公司 一种文件索引的建立方法及系统
CN104899337B (zh) * 2015-07-01 2018-05-29 中国农业银行股份有限公司 一种文件索引的建立方法及系统
CN109947759A (zh) * 2017-07-17 2019-06-28 中国移动通信集团吉林有限公司 一种数据索引建立方法、索引检索方法及装置
CN111666370A (zh) * 2020-07-28 2020-09-15 中国人民解放军国防科技大学 面向多源异构航天数据的语义索引方法和装置
CN111666370B (zh) * 2020-07-28 2022-04-22 中国人民解放军国防科技大学 面向多源异构航天数据的语义索引方法和装置

Similar Documents

Publication Publication Date Title
CN106227800B (zh) 一种高度关联大数据的存储方法及管理系统
CN109299102A (zh) 一种基于Elastcisearch的HBase二级索引系统及方法
CN103631909B (zh) 对大规模结构化和非结构化数据联合处理的系统及方法
CN103345521B (zh) 一种在哈希表数据库中处理键值的方法和装置
US9753960B1 (en) System, method, and computer program for dynamically generating a visual representation of a subset of a graph for display, based on search criteria
US8880463B2 (en) Standardized framework for reporting archived legacy system data
CN103646032A (zh) 一种基于本体和受限自然语言处理的数据库查询方法
CN109726305A (zh) 一种基于图结构的复杂关系数据存储及检索方法
US11216516B2 (en) Method and system for scalable search using microservice and cloud based search with records indexes
US9569441B2 (en) Archival of objects and dynamic search
CN104217011B (zh) HBase二级索引表的查询方法和装置
CN113986873A (zh) 一种海量物联网数据模型化的处理、存储与共享方法
CN103605778A (zh) 一种视频文件的定位方法、装置及系统
CN110750599A (zh) 一种基于实体建模的关联信息抽取和显示方法
CN104391952A (zh) 实现文件系统索引建立的方法及实现文件系统查询的方法
CN104346347A (zh) 数据存储方法、装置、服务器及系统
CN105354283A (zh) 一种资源的搜索方法和装置
Kanoje et al. Using MongoDB for social networking website deciphering the pros and cons
CN103902699B (zh) 一种用于大数据环境下可支持多格式特性的数据空间检索方法
CN104765767A (zh) 针对智能学习的知识存储算法
CN104679823A (zh) 基于语义标注的异构数据关联方法及系统
CN104750853A (zh) 一种异构数据搜索方法及装置
CN102214216B (zh) 一种层次关系数据上关键字检索结果的聚合摘要方法
CN104808995A (zh) 一种用于跨应用收藏应用内容的方法和装置
CN116049153B (zh) 数据库的数据处理方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20150304

RJ01 Rejection of invention patent application after publication