CN115454947A - 一种非结构化数据的存储方法、装置、设备及存储介质 - Google Patents

一种非结构化数据的存储方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN115454947A
CN115454947A CN202211071342.3A CN202211071342A CN115454947A CN 115454947 A CN115454947 A CN 115454947A CN 202211071342 A CN202211071342 A CN 202211071342A CN 115454947 A CN115454947 A CN 115454947A
Authority
CN
China
Prior art keywords
metadata information
original file
row
data
keys
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211071342.3A
Other languages
English (en)
Inventor
刘常铄
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Bank of China Ltd
Original Assignee
Bank of China Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Bank of China Ltd filed Critical Bank of China Ltd
Priority to CN202211071342.3A priority Critical patent/CN115454947A/zh
Publication of CN115454947A publication Critical patent/CN115454947A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/17Details of further file system functions
    • G06F16/172Caching, prefetching or hoarding of files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1402Saving, restoring, recovering or retrying
    • G06F11/1446Point-in-time backing up or restoration of persistent data
    • G06F11/1448Management of the data involved in backup or backup restore
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/11File system administration, e.g. details of archiving or snapshots
    • G06F16/122File system administration, e.g. details of archiving or snapshots using management policies
    • G06F16/125File system administration, e.g. details of archiving or snapshots using management policies characterised by the use of retention policies
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/13File access structures, e.g. distributed indices
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/14Details of searching files based on file metadata
    • G06F16/148File search processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/182Distributed file systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Quality & Reliability (AREA)
  • Library & Information Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请提供的一种非结构化数据的存储方法、装置、设备及存储介质,可应用于金融领域或其他领域。获取待存储的非结构化数据,将第一元数据信息以及第二元数据信息存储至目标数据库中;生成第一元数据信息的第一行键和第二元数据信息的第二行键;根据第一元数据信息和第二元数据信息的层级映射关系建立第一行键与第二行键的映射关系;将第一原始文件数据和第二原始文件数据存储至分布式文件系统中;建立第一元数据信息的第一索引以及第二元数据信息的第二索引。通过上述存储方法,利用第一索引经过一次检索即可得到第一原始文件数据和第二原始文件数据,提高非结构化数据的检索效率。

Description

一种非结构化数据的存储方法、装置、设备及存储介质
技术领域
本申请属于数据存储技术领域,尤其涉及一种非结构化数据的存储方法、装置、设备及存储介质。
背景技术
随着银行业务的快速发展,系统中的非结构化数据呈现出海量增长的趋势,并且在这些非结构化数据中以中小型文档、图片、压缩包等文件居多。
目前对于非结构化数据的存储方法主要还是:采用关系型数据库管理系统MySQL数据库存储文件的元数据信息,采用NAS(Network Attached Storage,网络附属存储)文件系统集中存储原始文件,之后通过建立MySQL与NAS文件存储的映射关系来实现文件的检索、查看等功能。但该存储方法在数据量大的情况下,存在检索效率低下的缺点。
发明内容
有鉴于此,本申请的目的在于提供一种非结构化数据的存储方法、装置、设备及存储介质,提高非结构化数据的检索效率。
为实现上述目的,本申请实施例公开了如下技术方案:
第一方面,本申请提供一种非结构化数据的存储方法,包括:
获取待存储的非结构化数据,所述非结构化数据包括第一元数据信息、第一原始文件数据、第二元数据信息以及第二原始文件数据,所述第一元数据信息与所述第一原始文件数据对应,所述第二元数据信息与所述第二原始文件数据对应,所述第一元数据信息和第二元数据信息属于不同层级,所述第一元数据信息和所述第二元数据信息具有层级映射关系;
将所述第一元数据信息以及所述第二元数据信息存储至目标数据库中;生成所述第一元数据信息的第一行键以及所述第二元数据信息的第二行键;
根据所述第一元数据信息和所述第二元数据信息的层级映射关系建立所述第一行键与所述第二行键的映射关系;
将所述第一原始文件数据和所述第二原始文件数据存储至分布式文件系统中;
建立所述第一元数据信息的第一索引以及所述第二元数据信息的第二索引,所述第一索引与所述第一行键存在映射关系,所述第二索引与所述第二行键存在映射关系。
可选的,所述方法还包括:获取数据查找请求,所述数据查找请求包括所述第一索引;
根据所述第一索引与所述第一行键的映射关系,确定第一行键;
根据所述第一行键与所述第一元数据信息的映射关系,以及所述第一元数据信息与所述第一原始文件信息的映射关系,获取第一原始文件信息;
根据所述第一行键与所述第二行键的映射关系,确定所述第二行键;
根据所述第二行键与所述第二元数据信息的映射关系,以及所述第二元数据信息与所述第二原始文件信息的映射关系,获取第二原始文件信息。
可选的,将所述第一元数据信息以及所述第二元数据信息存储到目标数据库中,包括:
根据分类规则,确定所述第一元数据信息的第一分类标签以及所述第二元数据信息的第二分类标签;
根据所述第一分类标签将第一元数据信息存储到所述目标数据库中的第一区域,根据所述第二分类标签将第二元数据信息存储到所述目标数据库中的第二区域,所述第一区域与所述第一分类标签对应,所述第二区域与所述第二分类标签对应。
可选的,所述方法还包括:
响应于第一原始文件数据的存储时间大于时间阈值,将第一原始文件数据从所述分布式文件系统删除;
响应于第二原始文件数据的存储时间大于时间阈值,将第二原始文件数据从所述分布式文件系统删除。
可选的,所述方法还包括:
响应于获取数据备份请求,将所述第一原始文件数据和所述第二原始文件数据进行备份。
可选的,所述数据备份请求包括备份时间点,所述将所述第一原始文件数据和所述第二原始文件数据进行备份,包括:
响应于到达所述备份时间点,将所述第一原始文件数据和所述第二原始文件数据进行备份。
第二方面,本申请提供了一种非结构化数据的存储装置,包括:
第一获取单元,用于获取待存储的非结构化数据,所述非结构化数据包括第一元数据信息、第一原始文件数据、第二元数据信息以及第二原始文件数据,所述第一元数据信息与所述第一原始文件数据对应,所述第二元数据信息与所述第二原始文件数据对应,所述第一元数据信息和第二元数据信息属于不同层级,所述第一元数据信息和所述第二元数据信息具有层级映射关系;
第一存储单元,用于将所述第一元数据信息以及所述第二元数据信息存储至目标数据库中;生成所述第一元数据信息的第一行键以及所述第二元数据信息的第二行键;
映射建立单元,用于根据所述第一元数据信息和所述第二元数据信息的层级映射关系建立所述第一行键与所述第二行键的映射关系;
第二存储单元,用于将所述第一原始文件数据和所述第二原始文件数据存储至分布式文件系统中;
索引建立单元,用于建立所述第一元数据信息的第一索引以及所述第二元数据信息的第二索引,所述第一索引与所述第一行键存在映射关系,所述第二索引与所述第二行键存在映射关系。
可选的,所述装置还包括:
第二获取单元,用于获取数据查找请求,所述数据查找请求包括所述第一索引;
第一确定单元,用于根据所述第一索引与所述第一行键的映射关系,确定第一行键;
第三获取单元,用于根据所述第一行键与所述第一元数据信息的映射关系,以及所述第一元数据信息与所述第一原始文件信息的映射关系,获取第一原始文件信息;
第二确定单元,用于根据所述第一行键与所述第二行键的映射关系,确定所述第二行键;
第四获取单元,用于根据所述第二行键与所述第二元数据信息的映射关系,以及所述第二元数据信息与所述第二原始文件信息的映射关系,获取第二原始文件信息。
可选的,第一存储单元,用于将所述第一元数据信息以及所述第二元数据信息存储至目标数据库中,包括:
标签确定子单元,用于根据分类规则,确定所述第一元数据信息的第一分类标签以及所述第二元数据信息的第二分类标签;
存储子单元,用于根据所述第一分类标签将第一元数据信息存储到所述目标数据库中的第一区域,根据所述第二分类标签将第二元数据信息存储到所述目标数据库中的第二区域,所述第一区域与所述第一分类标签对应,所述第二区域与所述第二分类标签对应。
可选的,所述装置还包括:
第一删除单元,用于响应于第一原始文件数据的存储时间大于时间阈值,将第一原始文件数据从所述分布式文件系统删除;
第二删除单元,用于响应于第二原始文件数据的存储时间大于时间阈值,将第二原始文件数据从所述分布式文件系统删除。
可选的,所述装置还包括:
备份单元,用于响应于获取数据备份请求,将所述第一原始文件数据和所述第二原始文件数据进行备份。
可选的,所述数据备份请求包括备份时间点,所述备份单元,用于将所述第一原始文件数据和所述第二原始文件数据进行备份,包括:
所述备份单元,用于响应于到达所述备份时间点,将所述第一原始文件数据和所述第二原始文件数据进行备份。
第三方面,本申请提供一种非结构化数据的存储设备,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述存储器中存储的计算机程序以实现如第一方面任一项所述非结构化数据的存储方法的步骤。
第四方面,本申请提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行以实现如第一方面任一项所述非结构化数据的存储方法的步骤。
可见,本申请公开的一种非结构化数据的存储方法、装置、设备及存储介质,获取待存储的非结构化数据,将第一元数据信息以及第二元数据信息存储至目标数据库中;生成第一元数据信息的第一行键以及第二元数据信息的第二行键;根据第一元数据信息和第二元数据信息的层级映射关系建立第一行键与第二行键的映射关系;将第一原始文件数据和第二原始文件数据存储至分布式文件系统中;建立第一元数据信息的第一索引以及第二元数据信息的第二索引,第一索引与第一行键存在映射关系,第二索引与第二行键存在映射关系。通过上述存储方法,利用第一索引经过一次检索即可得到第一原始文件数据和第二原始文件数据,提高非结构化数据的检索效率。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种非结构化数据的存储方法的流程示意图;
图2是本申请实施例提供的一种非结构化数据的存储装置的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
为便于理解本申请提供的技术方案,下面将先对本申请涉及的背景技术进行说明。
随着银行业务的快速发展,系统中的非结构化数据呈现出海量增长的趋势,并且在这些非结构化数据中以中小型文档、图片、压缩包等文件居多。目前对于非结构化数据的存储方法主要还是:采用关系型数据库管理系统MySQL数据库存储文件的元数据信息,采用NAS文件系统集中存储原始文件,之后通过建立MySQL与NAS文件存储的映射关系来实现文件的检索、查看等功能。但该存储方法在数据量大的情况下,存在检索效率低下的缺点。
基于此,本申请公开的一种非结构化数据的存储方法、装置、设备及存储介质,获取待存储的非结构化数据,将第一元数据信息以及第二元数据信息存储至目标数据库中;生成第一元数据信息的第一行键以及第二元数据信息的第二行键;根据第一元数据信息和第二元数据信息的层级映射关系建立第一行键与第二行键的映射关系;将第一原始文件数据和第二原始文件数据存储至分布式文件系统中;建立第一元数据信息的第一索引以及第二元数据信息的第二索引,第一索引与第一行键存在映射关系,第二索引与第二行键存在映射关系。通过上述存储方法,利用第一索引经过一次检索即可得到第一原始文件数据和第二原始文件数据,提高非结构化数据的检索效率。
为便于理解本申请提供的技术方案,下面将结合附图对本申请提供的一种非结构化数据的存储方法进行说明。需要说明的是,本申请提供的一种非结构化数据的存储方法,可用于金融领域或其他领域。例如,可用于金融领域中的银行系统。其他领域为除金融领域之外的任意领域,例如,其他存在非结构化数据存储的领域。上述仅为示例,并不对本申请提供的非结构化数据的存储方法的应用领域进行限定。
参见图1,该图为本申请实施例提供的一种非结构化数据的存储方法的流程示意图。如图1所示,所述方法包括S101-S105。
S101:获取待存储的非结构化数据,所述非结构化数据包括第一元数据信息、第一原始文件数据、第二元数据信息以及第二原始文件数据,所述第一元数据信息与所述第一原始文件数据对应,所述第二元数据信息与所述第二原始文件数据对应,所述第一元数据信息和第二元数据信息属于不同层级,所述第一元数据信息和所述第二元数据信息具有层级映射关系。
本申请实施例中,可以获取非结构化数据。非结构化数据可以为中小型文档、图片、压缩包、影像等文件,本申请不限制非结构化数据的具体文件。
非结构化数据包括第一元数据信息、第一原始文件数据、第二元数据信息以及第二原始文件数据。其中第一元数据信息与第一原始文件数据对应,第二元数据信息与第二原始文件数据对应,第一元数据信息和第二元数据信息属于不同层级,第一元数据信息和第二元数据信息具有层级映射关系。可以理解是的,元数据信息是用于描述原始文件数据的特征信息,例如元数据信息可以包括:文件作者、文件名称、文件类型、修改时间、文件格式、涉及业务系统编号等。本申请不限制元数据信息的具体内容。
作为一种示例,当非结构化数据是银行系统中的影像数据时,影像数据中的元数据信息可通过层级树状结构进行存储,元数据信息的层级树状存储结构从上到下分别是交易信息、影像组信息以及单张影像信息。
第一原始文件数据可以是具体的交易信息、影像组信息、单张影像信息中的一种,则第二原始文件数据则是三者中另外两种的其中一种。当原始文件数据是交易信息时,该原始文件数据所对应的元数据信息可以包括贷款交易相关信息及编号。当原始文件数据是影像组信息时,该原始文件数据所对应的元数据信息可以包括交易信息中贷款合同影像、担保合同影像、借款人身份证正反面影像、担保人身份证正反面等多组影像信息及编号。当原始文件数据是单张影像信息时,该原始文件数据所对应的元数据信息可以包括记录贷款合同中一页影像信息、编号及其对应存储位置。
S102:将所述第一元数据信息以及所述第二元数据信息存储至目标数据库中;生成所述第一元数据信息的第一行键以及所述第二元数据信息的第二行键。
本申请实施例中,在获取到非结构化数据后,可以将第一元数据信息以及第二元数据信息存储至目标数据库中,并生成第一元数据信息的第一行键以及第二元数据信息的第二行键。可以理解的是,行键用于标识元数据信息,可以用于查询元数据信息。
作为一种可能的实现方式,目标数据库可以是Hbase数据。
S103:根据所述第一元数据信息和所述第二元数据信息的层级映射关系建立所述第一行键与所述第二行键的映射关系。
本申请实施例中,在生成第一行键和第二行键后,会根据第一元数据信息和第二元数据信息的层级映射关系去建立第一行键和第二行键之间的映射关系。
S104:将所述第一原始文件数据和所述第二原始文件数据存储至分布式文件系统中。
本申请实施例中,是将第一原始文件数据和第二原始文件数据存储至分布式文件系统中。
S105:建立所述第一元数据信息的第一索引以及所述第二元数据信息的第二索引,所述第一索引与所述第一行键存在映射关系,所述第二索引与所述第二行键存在映射关系。
本申请实施例中还会去建立第一索引和第二索引,第一索引与第一行键存在映射关系,第二索引与第二行键存在映射关系。作为一种示例,建立的索引可以是ElasticSearch索引,通过建立ElasticSearch索引,可以便于后续对非结构化数据的高效检索。
通过获取待存储的非结构化数据,将第一元数据信息以及第二元数据信息存储至目标数据库中;生成第一元数据信息的第一行键以及第二元数据信息的第二行键;根据第一元数据信息和第二元数据信息的层级映射关系建立第一行键与第二行键的映射关系;将第一原始文件数据和第二原始文件数据存储至分布式文件系统中;建立第一元数据信息的第一索引以及第二元数据信息的第二索引,第一索引与第一行键存在映射关系,第二索引与第二行键存在映射关系。通过上述存储方法,利用第一索引经过一次检索即可得到第一原始文件和第二原始文件,提高非结构化数据的检索效率。
另外,通过分布式文件存储,具有良好的可扩展性,因此可以通过增加基础设施资源来提高存储性能,系统整体性能随着集群规模的增大而线性增长。能有效解决采用集中式方式存储文件会出现单点故障不易解决,容量空间扩容较难,数据备份机制不完善等问题。
作为一种可能的实现方式,将第一元数据信息以及第二元数据信息存储到目标数据库中,包括以下步骤:
A1:根据分类规则,确定所述第一元数据信息的第一分类标签以及所述第二元数据信息的第二分类标签。
本申请实施例中,还会去确定第一元数据信息的第一分类标签以及第二元数据信息的第二分类标签。
A2:根据所述第一分类标签将第一元数据信息存储到所述目标数据库中的第一区域,根据所述第二分类标签将第二元数据信息存储到所述目标数据库中的第二区域,所述第一区域与所述第一分类标签对应,所述第二区域与所述第二分类标签对应。
在确定出第一分类标签以及第二分类标签后,可以根据第一分类标签将第一元数据信息存储到目标数据库中的第一区域,根据第二分类标签将第二元数据信息存储到所述目标数据库中的第二区域。通过分类存储,能更好地提高非结构化数据的检索效率。
作为一种可能的实现方式,本申请所提供的一种非结构化数据的存储方法,还包括以下方法:
B1:获取数据查找请求,所述数据查找请求包括所述第一索引。
本申请实施例中,在需要进行数据查询时,可以获取数据查找请求,该数据查询请求包括有第一元数据信息的第一索引。
B2:根据所述第一索引与所述第一行键的映射关系,确定第一行键。
在获取到第一索引后,根据可以第一索引与第一行键的映射关系,确定第一行键。
B3:根据所述第一行键与所述第一元数据信息的映射关系,以及所述第一元数据信息与所述第一原始文件信息的映射关系,获取第一原始文件信息。
在获取到第一行键后,即可根据第一行键与第一元数据信息的映射关系,以及第一元数据信息与第一原始文件信息的映射关系,获取第一原始文件信息。
B4:根据所述第一行键与所述第二行键的映射关系,确定所述第二行键。
本申请实施例中,在确定出第一行键后,还会根据第一行键与第二行键的映射关系,确定第二行键。
B5:根据所述第二行键与所述第二元数据信息的映射关系,以及所述第二元数据信息与所述第二原始文件信息的映射关系,获取第二原始文件信息。
在确定出第二行键后,即可根据第二行键与第二元数据信息的映射关系,以及第二元数据信息与第二原始文件信息的映射关系,获取第二原始文件信息。
通过该方法,利用第一索引经过一次检索即可得到第一原始文件和第二原始文件,提高非结构化数据的检索效率。
作为一种可能的实现方式,本申请所提供的一种非结构化数据的存储方法,还包括以下方法:响应于第一原始文件数据的存储时间大于时间阈值,将第一原始文件数据从所述分布式文件系统删除;响应于第二原始文件数据的存储时间大于时间阈值,将第二原始文件数据从所述分布式文件系统删除。
本申请实施例中,会将存储时间大于时间阈值的原始文件数据进行删除,以便于。时间阈值可以为7天、10天、14天等,本申请不对时间阈值的具体数值进行限制。
作为一种可能的实现方式,在需要将原始文件数据从分布式文件系统中删除的时候,还可以在将原始文件数据迁移至其他的存储装置中存储,保留一段时间。
作为一种可能的实现方式,本申请所提供的一种非结构化数据的存储方法,还包括以下方法:响应于获取数据备份请求,将所述第一原始文件数据和所述第二原始文件数据进行备份。
可以理解是的,本申请可以根据数据备份请求,对原始文件数据进行备份,使得一部分原始文件数据出现问题时,还可以用备份的原始文件数据中进行获取,保证了原始文件数据的能够被完全获取。
作为一种可能的实现方式,数据备份请求包括备份时间点,则所述将所述第一原始文件数据和所述第二原始文件数据进行备份,包括:响应于到达所述备份时间点,将所述第一原始文件数据和所述第二原始文件数据进行备份。
可以理解的是,本申请实施例中,可以根据备份时间,在到达所需要备份的时间时,对第一原始文件数据和第二原始文件数据进行备份。备份时间点可以有多个,使得用户能够获取不同时间的原始文件数据。
下面对本申请实施例提供的一种非结构化数据的存储装置进行介绍,下文描述的装置与上文描述的一种非结构化数据的存储方法可相互对应参照。
本申请实施例还提供了一种非结构化数据的存储的装置结构示意图,该装置包括第一获取单元201、第一存储单元202、映射建立单元203、第二存储单元204和索引建立单元205。
第一获取单元201,用于获取待存储的非结构化数据,所述非结构化数据包括第一元数据信息、第一原始文件数据、第二元数据信息以及第二原始文件数据,所述第一元数据信息与所述第一原始文件数据对应,所述第二元数据信息与所述第二原始文件数据对应,所述第一元数据信息和第二元数据信息属于不同层级,所述第一元数据信息和所述第二元数据信息具有层级映射关系。
第一存储单元202,用于将所述第一元数据信息以及所述第二元数据信息存储至目标数据库中;生成所述第一元数据信息的第一行键以及所述第二元数据信息的第二行键。
映射建立单元203,用于根据所述第一元数据信息和所述第二元数据信息的层级映射关系建立所述第一行键与所述第二行键的映射关系。
第二存储单元204,用于将所述第一原始文件数据和所述第二原始文件数据存储至分布式文件系统中。
索引建立单元205,用于建立所述第一元数据信息的第一索引以及所述第二元数据信息的第二索引,所述第一索引与所述第一行键存在映射关系,所述第二索引与所述第二行键存在映射关系。
获取待存储的非结构化数据,将第一元数据信息以及第二元数据信息存储至目标数据库中;生成第一元数据信息的第一行键以及第二元数据信息的第二行键;根据第一元数据信息和第二元数据信息的层级映射关系建立第一行键与第二行键的映射关系;将第一原始文件数据和第二原始文件数据存储至分布式文件系统中;建立第一元数据信息的第一索引以及第二元数据信息的第二索引,第一索引与第一行键存在映射关系,第二索引与第二行键存在映射关系。通过上述存储装置,利用第一索引经过一次检索即可得到第一原始文件数据和第二原始文件数据,提高非结构化数据的检索效率。
可选的,所述装置还包括:
第二获取单元,用于获取数据查找请求,所述数据查找请求包括所述第一索引;
第一确定单元,用于根据所述第一索引与所述第一行键的映射关系,确定第一行键;
第三获取单元,用于根据所述第一行键与所述第一元数据信息的映射关系,以及所述第一元数据信息与所述第一原始文件信息的映射关系,获取第一原始文件信息;
第二确定单元,用于根据所述第一行键与所述第二行键的映射关系,确定所述第二行键;
第四获取单元,用于根据所述第二行键与所述第二元数据信息的映射关系,以及所述第二元数据信息与所述第二原始文件信息的映射关系,获取第二原始文件信息。
可选的,第一存储单元,用于将所述第一元数据信息以及所述第二元数据信息存储至目标数据库中,包括:
标签确定子单元,用于根据分类规则,确定所述第一元数据信息的第一分类标签以及所述第二元数据信息的第二分类标签;
存储子单元,用于根据所述第一分类标签将第一元数据信息存储到所述目标数据库中的第一区域,根据所述第二分类标签将第二元数据信息存储到所述目标数据库中的第二区域,所述第一区域与所述第一分类标签对应,所述第二区域与所述第二分类标签对应。
可选的,所述装置还包括:
第一删除单元,用于响应于第一原始文件数据的存储时间大于时间阈值,将第一原始文件数据从所述分布式文件系统删除;
第二删除单元,用于响应于第二原始文件数据的存储时间大于时间阈值,将第二原始文件数据从所述分布式文件系统删除。
可选的,所述装置还包括:
备份单元,用于响应于获取数据备份请求,将所述第一原始文件数据和所述第二原始文件数据进行备份。
可选的,所述数据备份请求包括备份时间点,所述备份单元,用于将所述第一原始文件数据和所述第二原始文件数据进行备份,包括:
所述备份单元,用于响应于到达所述备份时间点,将所述第一原始文件数据和所述第二原始文件数据进行备份。
本申请还提供了一种设备,可以包括存储器和处理器,所述存储器中存有计算机程序,所述处理器调用所述存储器中的计算机程序时,可以实现上述实施例所提供的步骤。当然所述设备还可以包括各种网络接口,电源等组件。
需要说明的是,本申请实施例提供的一种设备,具有如上任意一个实施例所具有的技术效果,本申请实施例在此并不作赘述。
本申请还提供了一种计算机可读存储介质,其上存有计算机程序,该计算机程序被执行时可以实现上述实施例所提供的步骤。该存储介质可以包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
需要说明的是,本申请实施例提供的一种计算机可读存储介质,具有如上任意一个实施例所具有的技术效果,本申请实施例在此并不作赘述。
应当理解,在本申请中,“至少一个(项)”是指一个或者多个,“多个”是指两个或两个以上。“和/或”,用于描述关联对象的关联关系,表示可以存在三种关系,例如,“A和/或B”可以表示:只存在A,只存在B以及同时存在A和B三种情况,其中A,B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达,是指这些项中的任意组合,包括单项(个)或复数项(个)的任意组合。例如,a,b或c中的至少一项(个),可以表示:a,b,c,“a和b”,“a和c”,“b和c”,或“a和b和c”,其中a,b,c可以是单个,也可以是多个。
还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想。应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以对本申请进行若干改进和修饰,这些改进和修饰也落入本申请权利要求的保护范围内。

Claims (10)

1.一种非结构化数据的存储方法,其特征在于,包括:
获取待存储的非结构化数据,所述非结构化数据包括第一元数据信息、第一原始文件数据、第二元数据信息以及第二原始文件数据,所述第一元数据信息与所述第一原始文件数据对应,所述第二元数据信息与所述第二原始文件数据对应,所述第一元数据信息和第二元数据信息属于不同层级,所述第一元数据信息和所述第二元数据信息具有层级映射关系;
将所述第一元数据信息以及所述第二元数据信息存储至目标数据库中;生成所述第一元数据信息的第一行键以及所述第二元数据信息的第二行键;
根据所述第一元数据信息和所述第二元数据信息的层级映射关系建立所述第一行键与所述第二行键的映射关系;
将所述第一原始文件数据和所述第二原始文件数据存储至分布式文件系统中;
建立所述第一元数据信息的第一索引以及所述第二元数据信息的第二索引,所述第一索引与所述第一行键存在映射关系,所述第二索引与所述第二行键存在映射关系。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取数据查找请求,所述数据查找请求包括所述第一索引;
根据所述第一索引与所述第一行键的映射关系,确定第一行键;
根据所述第一行键与所述第一元数据信息的映射关系,以及所述第一元数据信息与所述第一原始文件信息的映射关系,获取第一原始文件信息;
根据所述第一行键与所述第二行键的映射关系,确定所述第二行键;
根据所述第二行键与所述第二元数据信息的映射关系,以及所述第二元数据信息与所述第二原始文件信息的映射关系,获取第二原始文件信息。
3.根据权利要求1所述的方法,其特征在于,将所述第一元数据信息以及所述第二元数据信息存储到目标数据库中,包括:
根据分类规则,确定所述第一元数据信息的第一分类标签以及所述第二元数据信息的第二分类标签;
根据所述第一分类标签将第一元数据信息存储到所述目标数据库中的第一区域,根据所述第二分类标签将第二元数据信息存储到所述目标数据库中的第二区域,所述第一区域与所述第一分类标签对应,所述第二区域与所述第二分类标签对应。
4.根据权利要求1所述的方法,其特征在于,所述方法还包括:
响应于第一原始文件数据的存储时间大于时间阈值,将第一原始文件数据从所述分布式文件系统删除;
响应于第二原始文件数据的存储时间大于时间阈值,将第二原始文件数据从所述分布式文件系统删除。
5.根据权利要求1所述的方法,其特征在于,所述方法还包括:
响应于获取数据备份请求,将所述第一原始文件数据和所述第二原始文件数据进行备份。
6.根据权利要求5所述的方法,其特征在于,所述数据备份请求包括备份时间点,所述将所述第一原始文件数据和所述第二原始文件数据进行备份,包括:
响应于到达所述备份时间点,将所述第一原始文件数据和所述第二原始文件数据进行备份。
7.一种非结构化数据的存储装置,其特征在于,包括:
第一获取单元,用于获取待存储的非结构化数据,所述非结构化数据包括第一元数据信息、第一原始文件数据、第二元数据信息以及第二原始文件数据,所述第一元数据信息与所述第一原始文件数据对应,所述第二元数据信息与所述第二原始文件数据对应,所述第一元数据信息和第二元数据信息属于不同层级,所述第一元数据信息和所述第二元数据信息具有层级映射关系;
第一存储单元,用于将所述第一元数据信息以及所述第二元数据信息存储至目标数据库中;生成所述第一元数据信息的第一行键以及所述第二元数据信息的第二行键;
映射建立单元,用于根据所述第一元数据信息和所述第二元数据信息的层级映射关系建立所述第一行键与所述第二行键的映射关系;
第二存储单元,用于将所述第一原始文件数据和所述第二原始文件数据存储至分布式文件系统中;
索引建立单元,用于建立所述第一元数据信息的第一索引以及所述第二元数据信息的第二索引,所述第一索引与所述第一行键存在映射关系,所述第二索引与所述第二行键存在映射关系。
8.根据权利要求7所述的装置,其特征在于,所述装置还包括:
第二获取单元,用于获取数据查找请求,所述数据查找请求包括所述第一索引;
第一确定单元,用于根据所述第一索引与所述第一行键的映射关系,确定第一行键;
第三获取单元,用于根据所述第一行键与所述第一元数据信息的映射关系,以及所述第一元数据信息与所述第一原始文件信息的映射关系,获取第一原始文件信息;
第二确定单元,用于根据所述第一行键与所述第二行键的映射关系,确定所述第二行键;
第四获取单元,用于根据所述第二行键与所述第二元数据信息的映射关系,以及所述第二元数据信息与所述第二原始文件信息的映射关系,获取第二原始文件信息。
9.一种非结构化数据的存储设备,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述存储器中存储的计算机程序以实现如权利要求1至6任一项所述非结构化数据的存储方法的步骤。
10.一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,其特征在于,所述计算机程序被处理器执行以实现如权利要求1至6任一项所述非结构化数据的存储方法的步骤。
CN202211071342.3A 2022-09-02 2022-09-02 一种非结构化数据的存储方法、装置、设备及存储介质 Pending CN115454947A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211071342.3A CN115454947A (zh) 2022-09-02 2022-09-02 一种非结构化数据的存储方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211071342.3A CN115454947A (zh) 2022-09-02 2022-09-02 一种非结构化数据的存储方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
CN115454947A true CN115454947A (zh) 2022-12-09

Family

ID=84301206

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211071342.3A Pending CN115454947A (zh) 2022-09-02 2022-09-02 一种非结构化数据的存储方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN115454947A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117349401A (zh) * 2023-12-06 2024-01-05 之江实验室 一种非结构化数据的元数据存储方法、装置、介质及设备

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117349401A (zh) * 2023-12-06 2024-01-05 之江实验室 一种非结构化数据的元数据存储方法、装置、介质及设备
CN117349401B (zh) * 2023-12-06 2024-03-15 之江实验室 一种非结构化数据的元数据存储方法、装置、介质及设备

Similar Documents

Publication Publication Date Title
CN103262043B (zh) 从差异备份中执行数据库的精细恢复的方法和系统
US9507807B1 (en) Meta file system for big data
US8825700B2 (en) Paging hierarchical data
JP2010009469A (ja) ファイル管理装置
CN103365852A (zh) 一种文档库系统中的并发控制方法及系统
CN110888837B (zh) 对象存储小文件归并方法及装置
CN110505495A (zh) 多媒体资源抽帧方法、装置、服务器及存储介质
WO2020215580A1 (zh) 一种分布式全局数据去重方法和装置
CN114356878A (zh) 一种非结构化数据分布式存储方法及装置
CN115454947A (zh) 一种非结构化数据的存储方法、装置、设备及存储介质
CN112965939A (zh) 一种文件合并方法、装置和设备
CN115544050A (zh) 操作日志记录方法、装置、设备及存储介质
CN103714121B (zh) 一种索引记录的管理方法及装置
US20100257217A1 (en) Computer file storage
CN112000971B (zh) 一种文件权限记录方法、系统及相关装置
CN109947743A (zh) 一种优化的NoSQL大数据存储方法及系统
CN113761059A (zh) 数据处理方法及装置
US9275059B1 (en) Genome big data indexing
CN112463734A (zh) 一种文件检索方法、系统及相关装置
CN116521618A (zh) 文件在线归档方法及装置
CN116414854A (zh) 数据资产查询方法、装置、计算机设备和存储介质
CN115858471A (zh) 业务数据变更记录方法、装置、计算机设备及介质
CN114168391A (zh) Xfs下并行多线程文件备份恢复方法、系统及存储介质
CN113192579A (zh) 一种基于云计算的医疗数据的处理方法及系统
Jia et al. An ontology‐based semantic description model of ubiquitous map images

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination