CN117493275A - 冷数据检索方法、装置、电子设备及存储介质 - Google Patents
冷数据检索方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN117493275A CN117493275A CN202311437548.8A CN202311437548A CN117493275A CN 117493275 A CN117493275 A CN 117493275A CN 202311437548 A CN202311437548 A CN 202311437548A CN 117493275 A CN117493275 A CN 117493275A
- Authority
- CN
- China
- Prior art keywords
- data
- storage
- file
- target
- cold
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003860 storage Methods 0.000 title claims abstract description 365
- 238000000034 method Methods 0.000 title claims abstract description 78
- 238000005192 partition Methods 0.000 claims abstract description 167
- 238000009826 distribution Methods 0.000 claims abstract description 43
- 238000013500 data storage Methods 0.000 claims description 62
- 230000005540 biological transmission Effects 0.000 claims description 20
- 230000003993 interaction Effects 0.000 claims description 6
- 230000009545 invasion Effects 0.000 abstract 1
- 238000004519 manufacturing process Methods 0.000 description 9
- 238000012545 processing Methods 0.000 description 9
- 238000004140 cleaning Methods 0.000 description 4
- 238000004590 computer program Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000012546 transfer Methods 0.000 description 3
- 238000013523 data management Methods 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000000802 evaporation-induced self-assembly Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/13—File access structures, e.g. distributed indices
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/14—Details of searching files based on file metadata
- G06F16/148—File search processing
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Library & Information Science (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请提供一种冷数据检索方法、装置、电子设备及存储介质。该方法包括:获取待查找数据信息;根据待查找数据信息,构建hive外部表;根据待查找冷数据的访问时间和hive外部表,确定冷数据、冷数据的数据类型和存储有冷数据的目标存储分区;根据冷数据的数据类型,确定目标热数据、以及目标热数据在目标存储分区中各个存储文件的分布情况;根据目标热数据在目标存储分区中各个存储文件的分布情况,确定目标存储分区中各个存储文件的展示顺序;根据目标存储分区中各个存储文件的展示顺序,展示各个存储文件中的冷数据。本申请的方法,可以无侵入的快速确定冷数据的分布情况,并按照分布情况为用户展示冷数据的检索顺序,提高了冷数据检索的准确性。
Description
技术领域
本申请涉及大数据技术领域,尤其涉及一种冷数据检索方法、装置、电子设备及存储介质。
背景技术
在大数据处理的技术领域,随着分布式文件系统中存储数据量的不断增长,数据会出现访问热度不同的显著差异,在分布式文件系统中不常用的数据被称作冷数据,常用的(被访问频率高)的数据被称作热数据,大量冷数据的存在,是对系统资源的一种浪费,也会影响系统存储空间的稳定性。
在系统存储空间稳定性变差时,只能通知系统用户自己去识别冷数据,并进行清理或转存操作,具体的,采用遍历文件列表的方法来递归整个分布式文件系统的目录结构树来获取所有的文件列表,由此确定所有文件列表中冷数据的信息,从而查找对应冷数据在系统中的存储位置。
然而,这种方式人工干预过多,且用户在查找数据时很难判断哪些是冷数据,导致检索冷数据的效果和效率都不如预期。
发明内容
本申请提供一种冷数据检索方法、装置、电子设备及存储介质,用以解决冷数据在检索过程中,检索效率不高的问题。
第一方面,本申请提供一种冷数据检索方法,包括:
获取待查找数据信息,待查找数据信息包括各个数据的存储分区路径、文件访问时间、文件目录;
根据待查找数据信息,构建hive外部表;
根据待查找冷数据的访问时间和hive外部表,确定冷数据、冷数据的数据类型和存储有冷数据的目标存储分区;
根据冷数据的数据类型,确定目标热数据、以及目标热数据在目标存储分区中各个存储文件的分布情况,目标热数据的数据类型与冷数据的数据类型相同;
根据目标热数据在目标存储分区中各个存储文件的分布情况,确定目标存储分区中各个存储文件的展示顺序;
根据目标存储分区中各个存储文件的展示顺序,展示各个存储文件中的冷数据。
在本申请实施例中,获取待查找数据信息,包括:
接收数据存储服务器的数据信息,数据存储服务器为需要查找数据信息中冷数据信息的服务器;
将数据存储服务器的数据信息进行解析,得到待查找数据信息。
在本申请实施例中,接收数据存储服务器的数据信息,包括:
确定文件查找服务器权限信息和传输端口地址信息,文件查找服务器为执行冷数据信息查找指令的服务器,文件查找服务器与数据存储服务器不同;
根据数据存储服务器、文件查找服务器权限信息和传输端口地址信息,确定信息传输语句,以使文件查找服务器根据信息传输语句,获取数据存储服务器中的待查找数据信息。
在本申请实施例中,将数据存储服务器的数据信息进行解析,得到待查找数据信息,包括:
确定数据存储服务器的数据信息中的文件、以及文件存储地址;
根据预设的离线镜像文件查看器,将数据存储服务器的数据信息中的文件、以及文件存储地址进行格式转换,生成待查找数据信息。
在本申请实施例中,根据冷数据的数据类型,确定目标热数据、以及目标热数据在目标存储分区中各个存储文件的分布情况包括:
根据预设的访问时间,确定目标存储分区中的热数据、以及热数据的类型;
根据冷数据的数据类型和目标存储分区中的热数据、以及热数据的类型,确定目标热数据、以及目标热数据在目标存储分区中各个存储文件的分布情况。
在本申请实施例中,根据冷数据的数据类型和目标存储分区中的热数据、以及热数据的类型,确定目标热数据、以及目标热数据在目标存储分区中各个存储文件的分布情况,包括:
根据冷数据的数据类型,确定目标热数据;
根据目标热数据,确定目标热数据对应的存储量;
根据目标热数据的存储量,确定目标热数据在目标存储分区中各个存储文件的分布情况。
在本申请实施例中,根据目标存储分区中各个存储文件的展示顺序,展示各个存储文件中的冷数据,包括:
确定用户交互界面预设的查找结果显示数目;
根据查找结果显示数目和目标存储分区中各个存储文件的展示顺序,展示各个存储文件中的冷数据。
在本申请实施例中,根据查找结果显示数目和目标存储分区中各个存储文件的展示顺序,展示各个存储文件中的冷数据,包括:
获取预设的访问时间;
比对预设的访问时间和目标存储分区中各个存储文件中冷数据的访问时间,确定目标存储分区中各个存储文件中冷数据的展示顺序;
根据查找结果显示数目和目标存储分区中各个存储文件中冷数据的展示顺序,展示各个存储文件中的冷数据。
第二方面,本申请提供一种冷数据检索装置,包括:
获取模块,用于获取待查找数据信息,待查找数据信息包括各个数据的存储分区路径、文件访问时间、文件目录;
建立模块,用于根据待查找数据信息,构建hive外部表;
第一确定模块,用于根据待查找冷数据的访问时间和hive外部表,确定冷数据、冷数据的数据类型和存储有冷数据的目标存储分区;
第二确定模块,用于根据冷数据的数据类型,确定目标热数据、以及目标热数据在目标存储分区中各个存储文件的分布情况,目标热数据的数据类型与冷数据的数据类型相同;
第三确定模块,用于根据目标热数据在目标存储分区中各个存储文件的分布情况,确定目标存储分区中各个存储文件的展示顺序;
展示模块,用于根据目标存储分区中各个存储文件的展示顺序,展示各个存储文件中的冷数据。
第三方面,本申请提供了一种电子设备,包括:处理器,以及与处理器通信连接的存储器;
存储器存储计算机执行指令;
处理器执行存储器存储的计算机执行指令,以实现本申请实施例的冷数据检索方法。
第四方面,一种计算机可读存储介质,计算机可读存储介质中存储有计算机执行指令,计算机执行指令被处理器执行时用于实现本申请实施例的冷数据检索方法。
本申请提供的冷数据检索方法、装置、电子设备及存储介质,通过获取待查找数据信息,待查找数据信息包括各个数据的存储分区路径、文件访问时间、文件目录;根据待查找数据信息,构建hive外部表;根据待查找冷数据的访问时间和hive外部表,确定冷数据、冷数据的数据类型和存储有冷数据的目标存储分区;根据冷数据的数据类型,确定目标热数据、以及目标热数据在目标存储分区中各个存储文件的分布情况,目标热数据的数据类型与冷数据的数据类型相同;根据目标热数据在目标存储分区中各个存储文件的分布情况,确定目标存储分区中各个存储文件的展示顺序;根据目标存储分区中各个存储文件的展示顺序,展示各个存储文件中的冷数据的手段,使得冷数据检索的操作在文件查找服务器中进行,可以实现对数据存储服务器中的数据进行无侵入检索冷数据的效果,同时,利用同一类型冷热数据存储方式相关的特性,通过热数据在各存储分区的分布情况,确定冷数据检索结果顺序的优先级,提高了冷数据检索的准确性。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。
图1为本申请实施例提供的一种冷数据检索方法的流程示意图;
图2为本申请实施例提供的另一种冷数据检索方法的流程示意图;
图3为本申请实施例提供的另一种冷数据检索方法的具体流程示意图;
图4为本申请实施例提供的一种冷数据检索装置的结构示意图;
图5为本申请实施例提供的电子设备的结构示意图。
通过上述附图,已示出本申请明确的实施例,后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本申请构思的范围,而是通过参考特定实施例为本领域技术人员说明本申请的概念。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。
现有技术中,在系统存储空间稳定性变差时,会通知系统用户去进行人工识别冷数据,并进行清理或转存操作。但是这种方式人工干预过多,且用户在清理数据时很难判断哪些是冷数据,具有主观性,没有形成统一的规则,这导致清理的效果和效率都不如预期。随着数据量不断的提升,应用自动化的不断出现,数据管理也需要相关的自动管理技术手段和方法,以提高数据管理的效率,降低数据维护成本。因此,提供一种准确高效的冷数据检索方法成为目前急需解决的技术问题。
本申请可以将冷数据检索的操作转移至一个文件查找服务器中进行,从而实现对数据存储服务器中的数据进行无侵入检索冷数据的效果,同时,利用同一类型冷热数据存储方式相关的特性,通过热数据在各存储分区的分布情况,确定对应存储分区中冷数据检索结果顺序的优先级,为用户提供是否进行冷数据处理的判断依据,从而解决上述问题。
下面以具体地实施例对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图对本申请的实施例进行描述。
本申请实施例提供了一种冷数据检索方法、装置、电子设备及存储介质,应用于文件查找服务器中,这里的文件查找服务器是与数据存储服务器通过网络接口连接,且具有数据传输、数据处理、数据展示功能的服务器,其中,文件查找服务器可以是Hadoop系统中的一个服务器,但该服务器与数据存储服务器不在同一企业生产环境的资源池中。本实施例对文件查找服务器的选择类型不做特别的限制,只要能够通过获取待查找数据信息,待查找数据信息包括各个数据的存储分区路径、文件访问时间、文件目录;根据待查找数据信息,构建hive外部表;根据待查找冷数据的访问时间和hive外部表,确定冷数据、冷数据的数据类型和存储有冷数据的目标存储分区;根据冷数据的数据类型,确定目标热数据、以及目标热数据在目标存储分区中各个存储文件的分布情况,目标热数据的数据类型与冷数据的数据类型相同;根据目标热数据在目标存储分区中各个存储文件的分布情况,确定目标存储分区中各个存储文件的展示顺序;根据目标存储分区中各个存储文件的展示顺序,展示各个存储文件中的冷数据即可。
本申请实施例提供一种冷数据检索方法,该方法的执行主体可以为文件查找服务器,如图1所示,该冷数据检索方法可以包括以下步骤:
S101、获取待查找数据信息,待查找数据信息包括各个数据的存储分区路径、文件访问时间、文件目录。
其中,获取待查找数据信息的方法可以是解析数据存储服务器中的数据镜像,获取最新数据信息,然后导出最新元数据信息并将这些数据存储在一台与数据存储服务器无共享资源关联的服务器中,为执行服务器指令提供基础数据,最后将这些基础数据进行解析,即可得到待查找数据信息。
其中,数据存储服务器可以是HDFS元数据服务器,HDFS元数据服务器的架构包括元数据节点NameNode(A)、备份元数据节点NameNode(S)和数据块存储节点DataNode。NameNode内部结构由editlog和fsimage组成,editlog记录的是操作日志,fsimage记录的镜像文件,其中,fsimage文件包含了HDFS元数据服务器的所有目录和文件inode的序列化信息(ID、类型、目录、所属用户、用户权限、时间戳等等),因此上述导出最新元数据信息可以是fsimage文件信息。
其中,在本申请实施例中,获取待查找数据信息的方法可以包括:
接收数据存储服务器的数据信息,数据存储服务器为需要查找数据信息中冷数据信息的服务器;
将数据存储服务器的数据信息进行解析,得到待查找数据信息。
其中,对数据信息进行解析的方法可以是对文件进行反序列化操作,反序列化操作指的是将二进制形式文件转换为对象的状态形式文件,便于文件的阅读,其中,二进制流形式以便于存储到磁盘、通过网络传输或在内存中进行持久化;而对象的状态形式可以在不同的计算机、进程或网络中传递对象,并在需要时重新还原。
其中,在本申请实施例中,接收数据存储服务器的数据信息的方法可以包括:
确定文件查找服务器权限信息和传输端口地址信息,文件查找服务器为执行冷数据信息查找指令的服务器,文件查找服务器与数据存储服务器不同;
根据数据存储服务器、文件查找服务器权限信息和传输端口地址信息,确定信息传输语句,以使文件查找服务器根据信息传输语句,获取数据存储服务器中的待查找数据信息。
其中,文件查找服务器权限信息和传输端口地址信息可以是文件查找服务器的主机名称和IP地址信息,用于与数据存储服务器连接时对文件查找服务器进行安全性鉴别。
信息传输语句可以是SCP(secure copy)命令语句,是Linux系统下基于SSH(Secure Shell)登陆进行安全的远程文件拷贝命令。例如,文件查找服务器的客户端发送一个连接请求到数据存储服务器,数据存储服务器检查接收到的申请包和IP地址,若信息无误则发送连接密钥给文件查找服务器,通过密钥建立连接。
其中,在本申请实施例中,将数据存储服务器的数据信息进行解析,得到待查找数据信息的方法可以包括:
确定数据存储服务器的数据信息中的文件、以及文件存储地址;
根据预设的离线镜像文件查看器,将数据存储服务器的数据信息中的文件、以及文件存储地址进行格式转换,生成待查找数据信息。
其中,数据存储服务器的数据信息可以是以二进制形式存储的数据信息,而数据信息中的文件、以及文件存储地址都是以二进制字符串的格式展示,可读性较低,因此需要进行格式转换处理。
离线镜像文件查看器指的是OIV(Offline Image Viewer),是一种可以将HDFS的fsimage文件的序列化内容进行反序列化操作,转换为人类可读的格式,并提供只读的网页API接口,能够相对快速地处理非常大的fsimage文件。
S102、根据待查找数据信息,构建hive外部表。
其中,在本申请实施例中,根据待查找数据信息,构建hive外部表的方法可以包括:
确定待查找数据信息中的各个信息、以及预设的hive表;
将待查找数据信息中的各个信息加载至hive表中,得到数据信息与表结构对应的hive外部关系表。
其中,hive表可以由hive数据仓库工具进行构建,hive表与关系数据库中的表相同,不管用户有多少个数据库(数据仓库),数据库下面有多少表,所有这些表只存储元数据位置、类型、属性等信息,而所有表对应的实际存储数据都是存储在数据存储服务器中的。hive表可以包括hive内部表(managed table)和hive外部表(external table),hive内部表的存储位置是固定的,在对内部表进行修改时会将修改同步给元数据,在删除内部表时会直接删除元数据以及存储数据;hive外部表的存储位置可以指定一个位置,在对外部表结构和分区进行修改时不会直接同步修改,在删除外部表时只会删除元数据,不会对原服务器上的文件存储数据进行删除。
S103、根据待查找冷数据的访问时间和hive外部表,确定冷数据、冷数据的数据类型和存储有冷数据的目标存储分区。
其中,在本申请实施例中,确定冷数据、冷数据的数据类型和存储有冷数据的目标存储分区的方法可以包括:
确定预设的待查找冷数据的访问时间;
根据待查找冷数据的访问时间,构建冷数据查询语句;
根据冷数据查询语句,查询hive外部表,确定冷数据存储信息;
根据冷数据存储信息,确定冷数据的数据类型和目标存储分区。
其中,待查找冷数据的访问时间可以是根据文件类型、属性、最后一次修改时间等信息来设置的,待查找冷数据的访问时间和预设的访问时间相同。
冷数据查询语句可以是hive数据仓库工具提供的HQL(Hibernate QueryLanguage,对象关系映射框架查询语言),只需要目标对象编写HQL语句,hive自动将语句转换为MapReduce程序,处理对应服务器上的结构化数据。
例如,设置T0时间点之前访问的数据为冷数据,利用HQL生成冷数据查询语句即可在hive外部表中进行冷数据的查询,遍历hive外部表中数据的访问时间,确定访问时间在T0时间点之前进行访问的所有文件,记录这些文件中数据的存储信息,从而确定所有冷数据包括的类型、以及存储的分区位置。
S104、根据冷数据的数据类型,确定目标热数据、以及目标热数据在目标存储分区中各个存储文件的分布情况,目标热数据的数据类型与冷数据的数据类型相同。
其中,热数据可以是被服务器主机频繁访问的在线类数据,反之,冷数据可以是不经常访问的离线类数据。为了数据存储方便,会根据数据的不同类型建立不同的存储分区,例如,通过S103步骤确定了用户类型中有A用户和B用户,A用户和B用户的冷数据分别存储在存储分区1和存储分区2中。
其中,在本申请实施例中,根据冷数据的数据类型,确定目标热数据、以及目标热数据在目标存储分区中各个存储文件的分布情况的方法可以包括:
根据预设的访问时间,确定目标存储分区中的热数据、以及热数据的类型;
根据冷数据的数据类型和目标存储分区中的热数据、以及热数据的类型,确定目标热数据、以及目标热数据在目标存储分区中各个存储文件的分布情况。
其中,根据预设的访问时间确定目标存储分区中热数据的方法可以是遍历目标存储分区中各个数据的访问时间,确定在预设的访问时间之后的数据为对应目标存储分区的热数据。
例如,已知预设的访问时间T0为3月1日,冷数据对应的存储分区包括存储分区1和存储分区2,则遍历存储分区1和存储分区2中的数据,确定访问时间在3月1日之后的数据为热数据,然后分别对存储分区1和存储分区2的热数据进行分类,分类结果为:存储分区1中用户类别对应热数据包括A用户和C用户的热数据、日期类别对应热数据包括3月9日和3月10日的热数据;存储分区2中用户类别对应热数据包括B用户和C用户的热数据、日期类别对应热数据包括3月21日和4月2日的热数据。
其中,在本申请实施例中,根据冷数据的数据类型和目标存储分区中的热数据、以及热数据的类型,确定目标热数据、以及目标热数据在目标存储分区中各个存储文件的分布情况的方法可以包括:
根据冷数据的数据类型,确定目标热数据;
根据目标热数据,确定目标热数据对应的存储量;
根据目标热数据的存储量,确定目标热数据在目标存储分区中各个存储文件的分布情况。
例如,根据冷数据的数据类型,确定目标热数据的方法可以是:已知冷数据的类型包括用户类别(A用户、B用户、C用户和D用户)和日期类别(2月10日、2月20日),冷数据的存储分区包括存储分区1、存储分区2和存储分区3,那么根据冷数据的用户类别,可以确定A用户对应的热数据在存储分区1中、B用户对应的热数据在存储分区2中、C用户对应的热数据在存储分区1和存储分区2中、而D用户的数据均为冷数据。
其中,根据目标热数据的存储量,确定目标热数据在目标存储分区中各个存储文件的分布情况,以存储分区1中用户类别为例:在存储分区1中包括存储文件a、存储文件b、存储文件c,确定A用户在存储分区1中的热数据的存储数量由多至少排序为存储文件a、存储文件b、存储文件c;C用户在存储分区1中的热数据的存储数量由多至少排序为存储文件a、存储文件c、存储文件b。
其中,根据目标热数据的存储量,确定目标热数据在目标存储分区中各个存储文件的分布情况,以C用户为例:存在存储分区1和存储分区2,则需要分别记录存储分区1和存储分区2中的热数据的存储数量(记录结果为:存储分区1的热数据的存储数量高于存储分区2);然后分别确定两个存储分区的热数据的存储数量,结果为:在存储分区1中的热数据的存储数量由多至少排序为存储文件a、存储文件c、存储文件b;在存储分区2中的热数据的存储数量由多至少排序为存储文件a、存储文件d、存储文件f。
S105、根据目标热数据在目标存储分区中各个存储文件的分布情况,确定目标存储分区中各个存储文件的展示顺序。
其中,冷数据的展示顺序可以是热数据分布越多的存储文件越晚展示。
例如,由分布情况:A用户在存储分区1中的热数据的存储数量由多至少排序为存储文件a、存储文件b、存储文件c;C用户在存储分区1中的热数据的存储数量由多至少排序为存储文件a、存储文件c、存储文件b,可以确定:A用户在存储分区1中的存储文件的展示先后顺序为存储文件c、存储文件b、存储文件a;C用户在存储分区1中的存储文件的展示先后顺序为存储文件b、存储文件c、存储文件a。
例如,由分布情况:C用户对应的存储分区1的分布高于存储分区2的分布,则可以确定展示顺序为:存储分区2、存储分区1,然后根据两个存储分区的热数据存储数量分布情况,可以确定展示顺序为:存储分区2-(存储文件b、存储文件c、存储文件a)、存储分区1-(存储文件f、存储文件d、存储文件a)。
S106、根据目标存储分区中各个存储文件的展示顺序,展示各个存储文件中的冷数据。
其中,在本申请实施例中,根据目标存储分区中各个存储文件的展示顺序,展示各个存储文件中的冷数据的方法可以包括:
确定用户交互界面预设的查找结果显示数目;
根据查找结果显示数目和目标存储分区中各个存储文件的展示顺序,展示各个存储文件中的冷数据。
其中,在本申请实施例中,根据查找结果显示数目和目标存储分区中各个存储文件的展示顺序,展示各个存储文件中的冷数据的方法可以包括:
获取预设的访问时间;
比对预设的访问时间和目标存储分区中各个存储文件中冷数据的访问时间,确定目标存储分区中各个存储文件中冷数据的展示顺序;
根据查找结果显示数目和目标存储分区中各个存储文件中冷数据的展示顺序,展示各个存储文件中的冷数据。
例如,已知C用户对应的展示顺序为:存储分区2-(存储文件b、存储文件c、存储文件a)、存储分区1-(存储文件f、存储文件d、存储文件a),以及查找结果显示数目为4,其中,假设存储分区2中冷数据信息分别在存储文件b中有1条信息、存储文件c中有2条信息、存储文件a中有1条信息,即在用户交互界面展示顺序为存储分区2中的存储文件b、存储文件c/1、存储文件c/2、存储文件a,依次类推排序存储分区1。另一种可行的展示顺序可以是:假设存储分区2中冷数据信息分别在存储文件b中有1条信息、存储文件c中有2条信息、存储文件a中有1条信息;存储分区1中冷数据信息分别在存储文件f中有1条信息、存储文件d中有2条信息、存储文件a中有1条信息,即在用户交互界面展示顺序为存储分区2中的存储文件b、存储文件c/1、以及存储分区1中的存储文件f、存储文件d/1。
本申请实施例提供的冷数据检索方法,可以利用文件查找服务器来进行冷数据的查找,不会影响到数据存储服务器中正常数据业务的实施情况,从而在查找过程中保护了数据存储服务器的存储数据不被损坏,体现了本方法的无侵入性,同时,通过冷数据的访问时间,可以在hive外部表中检索到与访问时间对应的数据,从而确定冷数据,提高了冷数据的检索效率,此外,利用同一类型冷热数据存储方式相关的特性,通过热数据在各存储分区的分布情况,确定对应存储分区中冷数据检索结果顺序的优先级,为用户提供处理冷数据的判断依据,可实现用户选择部分处理冷数据的要求。
图2为本申请实施例提供的另一种冷数据检索方法的流程示意图,如图2所示,该方法包括:
S201、获取NameNode节点上的fsimage文件,并通过拷贝指令将fsimage文件拷贝至一台单独的服务器。
其中,在企业会有Hadoop生产集群,在Hadoop生产集群的NameNode节点上通过SCP的命令将fsimage元数据文件拷贝到一台单独的服务器上,这样在单独的服务器上进行fsimage文件的分析不会占用Hadoop的NameNode的资源。
其中,Hadoop生产集群可以是由多台服务器组成的进行实际运行作业的集群,一个服务器相当于一个节点,节点越多其处理的数据量更大,所以,在实际应用中,Hadoop生产集群所包含的服务器数量根据其需要处理的数据的多少决定。在一个Hadoop生产集群中,每个NameNode都是一台独立的服务器,在任意时刻,只有一个NameNode处于活跃(active)状态,另一个处于休眠(standby)状态。
fsimage文件指的是NameNode中元数据完整的镜像,保存了最新的元数据检查点,在Hadoop分布式文件系统启动时加载fsimage的信息,包含了整个文件系统的所有目录和文件的信息。
S202、通过反序列化指令,得到与fsimage文件不同格式的文件。
其中,使用Hadoop自带的OIV命令对在第一步上传到服务器上的fsimage命令进行反序列化操作,然后可以得到如下格式的明文文件:
HDFS_DIR:HDFS的文件路径和目录路径;MODIFICATION_TIME:修改时间;ACCESS_TIME:访问时间;FILE_SIZE:文件大小;USER_NAME:用户名称。
其中,OIV命令用于查看Hadoop中的fsimage文件,也可以用于保存格式化之后的文件、以及调用某种进程进行解码操作。
反序列化可以通过OIV命令和编写Java程序实现,其中,两个进程在远程通信时,可以发送多种数据,包括文本、图片、音频、视频等,这些数据都是以二进制序列的形式在网络上传输,而Java是面向对象的开发方式,一切都是Java对象,想要在网络中传输Java对象,可以使用序列化和反序列化去实现,发送方需要将Java对象转换为字节序列,然后在网络上传送,接收方收到字符序列后,会通过反序列化将字节序列恢复成Java对象。
将Java对象以一连串的字节保存在磁盘文件中的过程,也可以说是保存Java对象状态的过程称为序列化。序列化可以将数据永久保存在磁盘上(通常保存在文件中),与本申请实施例中的元数据文件对应,即读取的元数据文件为序列化文件;将保存在磁盘文件中的Java字节码重新转换成Java对象称为反序列化。
S203、建立hive表并加载反序列化后的文件。
其中,建立hive表的语句如下所示:
其中,hive是一个建立在分布式文件系统上的开源数据仓库软件,可以将存储在分布式文件中的结构化、半结构化数据文件映射为一张数据库表,基于表提供了一种类似SQL的查询模型,称为hive查询语言HQL,用于访问和分析存储在分布式文件系统中的大型数据集,hive核心是将HQL转换为MapReduce程序,然后将程序提交到分布式集群进行执行。
S204、获取多个维度下的冷数据大小,包括获取整个集群的冷数据大小、获取每个用户的冷数据大小、获取每天的冷数据大小。
其中,获取多个维度下冷数据大小,设定cold_time之前访问过的数据为冷数据,那么记录如下:
1)获取整个集群的冷数据大小
select sum(filesize)
from cold_data_table
where accesstime<cold_time
2)获取每个用户的冷数据大小
select username,sum(filesize)
from cold_data_table
where accesstime<cold_time
Group by username
3)获取每天的冷数据大小
select day(accesstime),sum(filesize)
from cold_data_table
where accesstime<cold_time
Group by day(accesstime)
其中,在查找出冷数据之后,可以根据查找信息对冷数据进行删除及清理,从而有效保障HDFS的稳定性。
本申请实施例提供的冷数据检索方法,将元数据文件拷贝至与企业Hadoop生产集群无关的服务器来进行冷数据的查找操作,不会影响到企业Hadoop生产集群的正常数据业务的实施情况,从而在查找过程中保护了NameNode中的存储数据不被损坏,体现了本方法的无侵入性,同时,通过冷数据的访问时间,在hive表中查找与访问时间对应的文件,即可生成冷数据,提高了冷数据的查找效率,与使用企业Hadoop生产集群中HDFS接口进行扫描的方法相比较,本申请实施例提供的冷数据查找方法在分钟级就可以精准定位冷数据,快速处理冷数据列表,保障分布式文件系统的稳定性。
图3为本申请实施例提供的另一种冷数据检索方法的具体流程示意图。如图3所示,将数据存储服务器中NameNode存储的fsimage元数据文件进行采集并拷贝至服务器中,其中该服务器与正在运行的数据存储服务器有所区别;在该服务器上对元数据文件进行反序列化,形成明文文件;然后建立hive表并将明文文件加载进入hive表,得到明文文件中各文件的映射关系;定义冷数据口径并使用HQL分布式计算出冷数据,整理得出冷数据列表对应的文件,从而对冷数据进行处理。
图4为本申请实施例提供的冷数据检索装置的结构示意图。如图4所示,该冷数据检索装置40包括:获取模块401、建立模块402、第一确定模块403、第二确定模块404、第三确定模块405、展示模块406。其中:
获取模块401,用于获取待查找数据信息,待查找数据信息包括各个数据的存储分区路径、文件访问时间、文件目录;
建立模块402,用于根据待查找数据信息,构建hive外部表;
第一确定模块403,用于根据待查找冷数据的访问时间和hive外部表,确定冷数据、冷数据的数据类型和存储有冷数据的目标存储分区;
第二确定模块404,用于根据冷数据的数据类型,确定目标热数据、以及目标热数据在目标存储分区中各个存储文件的分布情况,目标热数据的数据类型与冷数据的数据类型相同;
第三确定模块405,用于根据目标热数据在目标存储分区中各个存储文件的分布情况,确定目标存储分区中各个存储文件的展示顺序;
展示模块406,用于根据目标存储分区中各个存储文件的展示顺序,展示各个存储文件中的冷数据。
在本申请实施例中,获取模块401还可以用于:
接收数据存储服务器的数据信息,数据存储服务器为需要查找数据信息中冷数据信息的服务器;
将数据存储服务器的数据信息进行解析,得到待查找数据信息。
在本申请实施例中,获取模块401还可以用于:
确定文件查找服务器权限信息和传输端口地址信息,文件查找服务器为执行冷数据信息查找指令的服务器,文件查找服务器与数据存储服务器不同;
根据数据存储服务器、文件查找服务器权限信息和传输端口地址信息,确定信息传输语句,以使文件查找服务器根据信息传输语句,获取数据存储服务器中的待查找数据信息。
在本申请实施例中,获取模块401还可以用于:
确定数据存储服务器的数据信息中的文件、以及文件存储地址;
根据预设的离线镜像文件查看器,将数据存储服务器的数据信息中的文件、以及文件存储地址进行格式转换,生成待查找数据信息。
在本申请实施例中,第二确定模块404还可以用于:
根据预设的访问时间,确定目标存储分区中的热数据、以及热数据的类型;
根据冷数据的数据类型和目标存储分区中的热数据、以及热数据的类型,确定目标热数据、以及目标热数据在目标存储分区中各个存储文件的分布情况。
在本申请实施例中,第二确定模块404还可以用于:
根据冷数据的数据类型,确定目标热数据;
根据目标热数据,确定目标热数据对应的存储量;
根据目标热数据的存储量,确定目标热数据在目标存储分区中各个存储文件的分布情况。
在本申请实施例中,展示模块406还可以用于:
确定用户交互界面预设的查找结果显示数目;
根据查找结果显示数目和目标存储分区中各个存储文件的展示顺序,展示各个存储文件中的冷数据。
在本申请实施例中,展示模块406还可以用于:
获取预设的访问时间;
比对预设的访问时间和目标存储分区中各个存储文件中冷数据的访问时间,确定目标存储分区中各个存储文件中冷数据的展示顺序;
根据查找结果显示数目和目标存储分区中各个存储文件中冷数据的展示顺序,展示各个存储文件中的冷数据。
图5为本申请实施例提供的电子设备的结构示意图。如图5所示,该电子设备50包括:
该电子设备50可以包括一个或者一个以上处理核心的处理器501、一个或一个以上计算机可读存储介质的存储器502、网络接口503等部件。其中,处理器501、存储器502以及网络接口503通过总线504连接。
在具体实现过程中,至少一个处理器501执行存储器502存储的计算机执行指令,使得至少一个处理器501执行如上的冷数据检索方法。
处理器501的具体实现过程可参见上述方法实施例,其实现原理和技术效果类似,本实施例此处不再赘述。
在上述的图5所示的实施例中,应理解,处理器可以是中央处理单元(英文:Central Processing Unit,简称:CPU),还可以是其他通用处理器、数字信号处理器(英文:Digital Signal Processor,简称:DSP)、专用集成电路(英文:Application SpecificIntegrated Circuit,简称:ASIC)等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合发明所公开的方法的步骤可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。
存储器可能包含高速存储器(Random Access Memory,RAM),也可能还包括非易失性存储器(Non-volatile Memory,NVM),例如至少一个磁盘存储器。
网络接口可以是无线网络接口或有线网络接口,该网络接口通常用于在电子设备与其他电子设备之间建立通信连接。例如,网络接口用于通过网络将电子设备与外部终端相连,在电子设备与外部终端之间的建立数据传输通道和通信连接等。
总线可以是工业标准体系结构(Industry Standard Architecture,ISA)总线、外部设备互连(Peripheral Component,PCI)总线或扩展工业标准体系结构(ExtendedIndustry Standard Architecture,EISA)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示,本申请附图中的总线并不限定仅有一根总线或一种类型的总线。
在一些实施例中,还提出一种计算机程序产品,包括计算机程序或指令,该计算机程序或指令被处理器执行时实现上述任一种冷数据检索方法中的步骤。
本领域普通技术人员可以理解,上述实施例的各种方法中的全部或部分步骤可以通过指令来完成,或通过指令控制相关的硬件来完成,该指令可以存储于任一计算机可读存储介质中,并由处理器进行加载和执行。
为此,本申请实施例提供一种计算机可读存储介质,其中存储有多条指令,该指令能够被处理器进行加载,以执行本申请实施例所提供的任一种冷数据检索方法中的步骤。
其中,该存储介质可以包括:只读存储器(Read Only Memory,ROM)、随机存取记忆体(Random Access Memory,RAM)、磁盘或光盘等。
根据本申请的一个方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。
由于该存储介质中所存储的指令,可以执行本申请实施例所提供的任一种冷数据检索方法中的步骤,因此,可以实现本申请实施例所提供的任一种冷数据检索方法所能实现的有益效果,详见前面的实施例,在此不再赘述。
以上各个操作的具体实施可参见前面的实施例,在此不再赘述。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本申请的真正范围和精神由下面的权利要求书指出。
应当理解的是,本申请并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求书来限制。
Claims (11)
1.一种冷数据检索方法,其特征在于,应用于文件查找服务器,所述方法包括:
获取待查找数据信息,所述待查找数据信息包括各个数据的存储分区路径、文件访问时间、文件目录;
根据所述待查找数据信息,构建hive外部表;
根据待查找冷数据的访问时间和hive外部表,确定冷数据、所述冷数据的数据类型和存储有冷数据的目标存储分区;
根据所述冷数据的数据类型,确定目标热数据、以及所述目标热数据在所述目标存储分区中各个存储文件的分布情况,所述目标热数据的数据类型与所述冷数据的数据类型相同;
根据所述目标热数据在所述目标存储分区中各个存储文件的分布情况,确定目标存储分区中各个存储文件的展示顺序;
根据目标存储分区中各个存储文件的展示顺序,展示各个存储文件中的冷数据。
2.根据权利要求1所述的方法,其特征在于,所述获取待查找数据信息,包括:
接收数据存储服务器的数据信息,所述数据存储服务器为需要查找数据信息中冷数据信息的服务器;
将所述数据存储服务器的数据信息进行解析,得到所述待查找数据信息。
3.根据权利要求2所述的方法,其特征在于,所述接收数据存储服务器的数据信息,包括:
确定所述文件查找服务器权限信息和传输端口地址信息,所述文件查找服务器为执行冷数据信息查找指令的服务器,所述文件查找服务器与所述数据存储服务器不同;
根据所述数据存储服务器、所述文件查找服务器权限信息和传输端口地址信息,确定信息传输语句,以使所述文件查找服务器根据所述信息传输语句,获取所述数据存储服务器中的待查找数据信息。
4.根据权利要求2所述的方法,其特征在于,所述将所述数据存储服务器的数据信息进行解析,得到所述待查找数据信息,包括:
确定所述数据存储服务器的数据信息中的文件、以及文件存储地址;
根据预设的离线镜像文件查看器,将所述数据存储服务器的数据信息中的文件、以及文件存储地址进行格式转换,生成所述待查找数据信息。
5.根据权利要求1所述的方法,其特征在于,所述根据所述冷数据的数据类型,确定目标热数据、以及所述目标热数据在所述目标存储分区中各个存储文件的分布情况包括:
根据预设的访问时间,确定目标存储分区中的热数据、以及所述热数据的类型;
根据所述冷数据的数据类型和所述目标存储分区中的热数据、以及所述热数据的类型,确定所述目标热数据、以及所述目标热数据在所述目标存储分区中各个存储文件的分布情况。
6.根据权利要求5所述的方法,其特征在于,所述根据所述冷数据的数据类型和所述目标存储分区中的热数据、以及所述热数据的类型,确定所述目标热数据、以及所述目标热数据在所述目标存储分区中各个存储文件的分布情况,包括:
根据所述冷数据的数据类型,确定所述目标热数据;
根据所述目标热数据,确定所述目标热数据对应的存储量;
根据所述目标热数据的存储量,确定所述目标热数据在所述目标存储分区中各个存储文件的分布情况。
7.根据权利要求1所述的方法,其特征在于,所述根据目标存储分区中各个存储文件的展示顺序,展示各个存储文件中的冷数据,包括:
确定用户交互界面预设的查找结果显示数目;
根据所述查找结果显示数目和所述目标存储分区中各个存储文件的展示顺序,展示各个存储文件中的冷数据。
8.根据权利要求7所述的方法,其特征在于,所述根据所述查找结果显示数目和所述目标存储分区中各个存储文件的展示顺序,展示各个存储文件中的冷数据,包括:
获取预设的访问时间;
比对预设的访问时间和所述目标存储分区中各个存储文件中冷数据的访问时间,确定所述目标存储分区中各个存储文件中冷数据的展示顺序;
根据所述查找结果显示数目和所述目标存储分区中各个存储文件中冷数据的展示顺序,展示各个存储文件中的冷数据。
9.一种冷数据检索装置,其特征在于,包括:
获取模块,用于获取待查找数据信息,所述待查找数据信息包括各个数据的存储分区路径、文件访问时间、文件目录;
建立模块,用于根据所述待查找数据信息,构建hive外部表;
第一确定模块,用于根据待查找冷数据的访问时间和hive外部表,确定冷数据、所述冷数据的数据类型和存储有冷数据的目标存储分区;
第二确定模块,用于根据所述冷数据的数据类型,确定目标热数据、以及所述目标热数据在所述目标存储分区中各个存储文件的分布情况,所述目标热数据的数据类型与所述冷数据的数据类型相同;
第三确定模块,用于根据所述目标热数据在所述目标存储分区中各个存储文件的分布情况,确定目标存储分区中各个存储文件的展示顺序;
展示模块,用于根据目标存储分区中各个存储文件的展示顺序,展示各个存储文件中的冷数据。
10.一种电子设备,其特征在于,包括:处理器,以及与所述处理器通信连接的存储器;
所述存储器存储计算机执行指令;
所述处理器执行所述存储器存储的计算机执行指令,以实现如权利要求1至8中任一项所述的冷数据检索方法。
11.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机执行指令,所述计算机执行指令被处理器执行时用于实现如权利要求1至8任一项所述的冷数据检索方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311437548.8A CN117493275A (zh) | 2023-10-31 | 2023-10-31 | 冷数据检索方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311437548.8A CN117493275A (zh) | 2023-10-31 | 2023-10-31 | 冷数据检索方法、装置、电子设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117493275A true CN117493275A (zh) | 2024-02-02 |
Family
ID=89684115
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311437548.8A Pending CN117493275A (zh) | 2023-10-31 | 2023-10-31 | 冷数据检索方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117493275A (zh) |
-
2023
- 2023-10-31 CN CN202311437548.8A patent/CN117493275A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8924365B2 (en) | System and method for range search over distributive storage systems | |
US8260742B2 (en) | Data synchronization and consistency across distributed repositories | |
CN110032604B (zh) | 数据存储装置、转译装置及数据库访问方法 | |
JP5661104B2 (ja) | 検索エンジンインデクシング及びインデックスを使用する検索のための方法とシステム | |
CN109936571B (zh) | 一种海量数据共享方法、开放共享平台及电子设备 | |
US20070299880A1 (en) | Document Management Server, Document Management Method, Computer Readable Medium, Computer Data Signal, and System For Managing Document Use | |
CN106484820B (zh) | 一种重命名方法、访问方法及装置 | |
CN101197700A (zh) | 提供日志服务的方法及系统 | |
US20230024345A1 (en) | Data processing method and apparatus, device, and readable storage medium | |
CN109885577B (zh) | 数据处理方法、装置、终端及存储介质 | |
US20220075791A1 (en) | Storing data items and identifying stored data items | |
US20060271384A1 (en) | Reference data aggregate service population | |
CN111723161A (zh) | 一种数据处理方法、装置及设备 | |
CN111488377A (zh) | 数据查询方法、装置、电子设备及存储介质 | |
CN109947730A (zh) | 元数据恢复方法、装置、分布式文件系统及可读存储介质 | |
WO2017000592A1 (zh) | 数据处理方法、装置及系统 | |
CN117493275A (zh) | 冷数据检索方法、装置、电子设备及存储介质 | |
CN116821232A (zh) | 一种数据同步方法及相关装置 | |
CN114116717A (zh) | 一种数据库信息查询方法、装置、设备及可读存储介质 | |
CN117493274A (zh) | 一种冷目录查找方法、装置、电子设备及存储介质 | |
CN115934670B (zh) | Hdfs多机房的副本放置策略验证方法与装置 | |
CN116305288B (zh) | 一种隔离数据库资源的方法、装置、设备和存储介质 | |
CN110740046A (zh) | 分析服务契约的方法和装置 | |
WO2024022330A1 (zh) | 一种基于文件系统的元数据管理方法及其相关设备 | |
CN111753141B (zh) | 一种数据管理方法及相关设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |