CN110674101B - 文件系统的数据处理方法、装置和云服务器 - Google Patents

文件系统的数据处理方法、装置和云服务器 Download PDF

Info

Publication number
CN110674101B
CN110674101B CN201910931745.2A CN201910931745A CN110674101B CN 110674101 B CN110674101 B CN 110674101B CN 201910931745 A CN201910931745 A CN 201910931745A CN 110674101 B CN110674101 B CN 110674101B
Authority
CN
China
Prior art keywords
data
file system
capacity
list
data processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910931745.2A
Other languages
English (en)
Other versions
CN110674101A (zh
Inventor
蔡志强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Kingsoft Cloud Network Technology Co Ltd
Beijing Kingsoft Cloud Technology Co Ltd
Original Assignee
Beijing Kingsoft Cloud Network Technology Co Ltd
Beijing Kingsoft Cloud Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Kingsoft Cloud Network Technology Co Ltd, Beijing Kingsoft Cloud Technology Co Ltd filed Critical Beijing Kingsoft Cloud Network Technology Co Ltd
Priority to CN201910931745.2A priority Critical patent/CN110674101B/zh
Publication of CN110674101A publication Critical patent/CN110674101A/zh
Application granted granted Critical
Publication of CN110674101B publication Critical patent/CN110674101B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/182Distributed file systems
    • G06F16/1824Distributed file systems implemented using Network-attached Storage [NAS] architecture
    • G06F16/1827Management specifically adapted to NAS
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/17Details of further file system functions
    • G06F16/172Caching, prefetching or hoarding of files

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种文件系统的数据处理方法、装置和云服务器,该方法应用于云平台,该云平台包括服务器、大数据处理组件和ES,服务器的个数与云平台中文件系统个数匹配,服务器部署文件存储组件和数据采集器;首先文件存储组件将访问到的文件系统的容量数据传输至数据文件;数据采集器采集数据文件中的容量数据;大数据处理组件将采集到的数据转换为列表形式的容量数据,并将其存储至ES。该方式能够在文件系统的数量增加时,增加服务器的个数来进行扩容,提升云平台处理数据的能力,从而提高了数据处理的性能;同时,通过大数据处理组件和ES能够对数据进行格式转换和存储,优化了数据存储形式,更利于后续检索等使用。

Description

文件系统的数据处理方法、装置和云服务器
技术领域
本发明涉及大数据技术领域,尤其是涉及一种文件系统的数据处理方法、装置和云服务器。
背景技术
相关技术中,统计每个NAS文件系统的分钟级的容量数据的方式,通常是设置一个定时任务,并设定定时任务为每分钟启动执行,然后在定时任务中获取每个NAS文件系统的容量信息,并将该容量信息存储至关系数据库,但是当文件系统规模不断扩大后,关系数据库的写压力将剧增,严重影响处理数据的性能。
发明内容
本发明的目的在于提供一种文件系统的数据处理方法、装置和云服务器,以提高数据处理的性能。
第一方面,本发明实施例提供一种文件系统的数据处理方法,该方法应用于云平台,该云平台包括多个服务器和与每个服务器连接的大数据处理组件,以及与大数据处理组件连接的分布式搜索引擎ES,该服务器的个数与云平台上的文件系统个数匹配,每个服务器上均部署有文件存储组件和数据采集器;该方法包括:通过文件存储组件访问目标文件系统,将目标文件系统中的容量数据传输至预设的数据文件;其中,该容量数据为按指定分钟时长从目标文件系统中获取;通过数据采集器采集数据文件中的容量数据;通过大数据处理组件对采集到的容量数据进行转换处理,得到列表形式的容量数据;将该列表形式的容量数据存储至ES。
在本发明较佳的实施例中,上述通过文件存储组件访问获取目标文件系统的步骤,包括:根据预设的定时任务,通过文件存储组件的应用程序接口API访问目标文件系统,以得到该目标文件系统的容量数据;其中,该定时任务每隔指定分钟时长启动一次。
在本发明较佳的实施例中,上述文件存储组件为manila组件;上述数据采集器为日志收集系统flume。
在本发明较佳的实施例中,上述大数据处理组件包括:大数据存储组件和大数据清洗组件;通过大数据处理组件对采集到的容量数据进行转换处理,得到列表形式的容量数据的步骤,包括:通过大数据存储组件,对容量数据进行元数据存储,得到单行数据列表;通过大数据清洗组件,将该单行数据列表结构化为多字段的数据列表,形成容量列表。
在本发明较佳的实施例中,上述多字段包括用户识别码、系统文件识别码、使用时间和使用量。
在本发明较佳的实施例中,上述将列表形式的容量数据存储至ES的步骤,包括:根据预设配置规则,将列表形式的容量数据持久化至ES。
在本发明较佳的实施例中,上述ES配置有应用程序接口API,该方法还包括:通过ES的API接收用户的数据获取请求;向用户返回数据获取请求对应的目标文件系统的容量数据。
第二方面,本发明实施例提供一种文件系统的数据处理装置,该装置设置于云平台,该云平台包括多个服务器和与每个服务器连接的大数据处理组件,以及与大数据处理组件连接的分布式搜索引擎ES,该服务器的个数与云平台上的文件系统个数匹配,每个服务器上均部署有文件存储组件和数据采集器;该装置包括:数据传输模块,用于通过文件存储组件访问目标文件系统,将该目标文件系统中的容量数据传输至预设的数据文件,其中,该容量数据为按指定分钟时长从目标文件系统中获取;数据采集模块,用于通过数据采集器采集数据文件中的容量数据;数据转换模块,用于通过大数据处理组件对采集到的容量数据进行转换处理,得到列表形式的容量数据;数据存储模块,用于将该列表形式的容量数据存储至ES。
在本发明较佳的实施例中,上述数据传输模块,用于:根据预设的定时任务,通过文件存储组件的应用程序接口API访问目标文件系统,以得到目标文件系统的容量数据;其中,该定时任务每隔指定分钟时长启动一次。
在本发明较佳的实施例中,上述大数据处理组件包括:大数据存储组件和大数据清洗组件;该数据转换模块,用于:通过大数据存储组件,对容量数据进行元数据存储,得到单行数据列表;通过大数据清洗组件,将该单行数据列表结构化为多字段的数据列表,形成容量列表。
第三方面,本发明实施例提供一种服务器,包括处理器和存储器,该存储器存储有能够被处理器执行的机器可执行指令,该处理器执行机器可执行指令以实现上述文件系统的数据处理方法。
第四方面,本发明实施例提供一种机器可读存储介质,该机器可读存储介质存储有机器可执行指令,该机器可执行指令在被处理器调用和执行时,该机器可执行指令促使处理器实现上述文件系统的数据处理方法。
本发明提供的上述文件系统的数据处理方法、装置和云服务器,在云平台上处理文件系统数据,该云平台包括多个服务器和与每个服务器连接的大数据处理组件,以及与大数据处理组件连接的分布式搜索引擎ES,该服务器的个数与云平台上的文件系统个数匹配,每个服务器上均部署有文件存储组件和数据采集器;该方法首先通过文件存储组件访问目标文件系统,并将访问到的容量数据传输至预设的数据文件;通过数据采集器采集数据文件中的容量数据;通过大数据处理组件对采集到的数据进行转换处理,得到列表形式的容量数据;将列表形式的容量数据存储至ES。上述实现方式中,服务器的个数与云平台上的文件系统个数匹配,能够在文件系统的数量增加时,增加服务器的个数来进行扩容,提升云平台处理数据的能力,从而提高了数据处理的性能;同时,通过大数据处理组件和ES能够对文件系统的数据进行格式和存储方式的转换,优化了数据的存储形式,更利于后续检索等使用。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种云平台的结构示意图;
图2为本发明实施例提供的一种文件系统的数据处理方法的流程图;
图3为本发明实施例提供的另一种文件系统的数据处理方法的流程图;
图4为本发明实施例提供的另一种文件系统的数据处理方法的流程图;
图5为本发明实施例提供的一种文件系统的数据处理装置的结构示意图;
图6为本发明实施例提供的一种云服务器的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。
因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
NAS(Network Attached Storage,网络附属存储)是一种分布式的网络文件存储设备,它可以为云主机、EPC(Engineering Procurement Construction,设计采购施工)、Docker(容器引擎)等提供安全、无限容量、高性能、高可靠、简单易用的文件存储服务,也可以为多个计算节点提供共享存储空间;每个用户在每个地域上支持创建若干个(通常,小于10个)文件系统。
相关技术中,统计每个NAS文件系统的分钟级使用量的方式中,需要写一个定时任务,设定定时任务为每分钟启动执行,在定时任务中,获取每个NAS文件系统的使用量,将使用量信息(也可称容量信息)存储在关系型数据库(如,mysql数据库)中。但是当业务量以及文件系统规模上升后,传统的关系型数据库存储的分钟的容量数据将产生严重的性能问题,从而影响数据处理的性能。基于此,本发明实施例提供了一种文件系统的数据处理方法、装置和云服务器,该方式可以应用数据获取、数据处理场景中,尤其是文件系统的数据处理场景中。
为便于对本实施例进行理解,首先对本发明实施例所公开的一种文件系统的数据处理方法进行详细介绍,该方法应用于云平台,如图1所述为云平台的结构示意图,该云平台包括多个服务器和与每个该服务器连接的大数据处理组件,以及与所述大数据处理组件连接的分布式搜索引擎ES,该服务器的个数与该云平台上的文件系统个数匹配,每个服务器上均部署有文件存储组件和数据采集器;如图2所示,该方法包括如下步骤:
步骤S202,通过文件存储组件访问目标文件系统,将该目标文件系统中的容量数据传输至预设的数据文件;其中,该容量数据为按指定分钟时长从目标文件系统中获取。
服务器上的文件存储组件可以访问目标文件系统当前时刻的容量数据,通常文件存储组件可按指定分钟时长访问目标文件系统,其中指定分钟时长可以是一分钟,几分钟或者十几分钟等,从而获得分钟级别的容量数据,并将访问到的容量数据传输至预设的数据文件中进行存储,该预设的数据文件通常为服务器的本地文件。上述目标文件系统通常为NAS文件系统,且该文件系统的数量通常为多个,文件存储组件可以同时或者逐个访问各个文件系统,以获取每个文件系统的分钟级别的容量数据。
在具体实现时,通常会设置多个文件存储组件,该文件存储组件同时访问各个文件系统,可以满足文件系统规模增大的需求,保证可以快速访问文件系统的容量数据。
步骤S204,通过数据采集器采集数据文件中的容量数据。
上述数据采集器通常为大数据采集器,该大数据采集器可以提供高可靠和高扩展的数据采集。该大数据采集器可以对数据文件进行采集,以获得数据文件中的容量数据。
步骤S206,通过大数据处理组件对采集到的容量数据进行转换处理,得到列表形式的容量数据。
上述大数据处理组件通常可以对采集到的容量数据进行存储和清洗,首先是将容量数据存储成列表,然后再对列表中的数据进行清洗,以对数据进行重新审查和校验,并删除重复信息、纠正存在的错误。将数据清洗后可以得到最终的列表形式的容量数据。该列表形式的容量数据可以是单行数据表格,也可以是多行数据表格,该表格中通常包括各个文件系统对应的识别码和可用空间、使用的容量值、用户识别码、数据存储的类型等数据。
步骤S208,将上述列表形式的容量数据存储至ES。
上述ES(Elasticsearch,分布式搜索引擎)通常是一个支持多用户的分布式全文搜索引擎,ES通常也是一个非关系型数据库,它具有拓展和高可用的特点。ES可以通过创建集群的方式来提供服务,能够快速实现集群的部署,为用户提供对海量数据进行实时检索和分析的能力。通常,可以将列表形式的容量数据永久保存在分布式搜索引擎中,以便后续对该容量数据进行提取和后续处理。
上述服务器的个数通常与云平台上的文件系统个数匹配,也即是当文件系统的数量增加时,服务器的个数也随之增加,从而可以减小数据量增加带来的数据处理和存储压力。
本发明实施例提供的文件系统的数据处理方法应用于云平台,该云平台包括多个服务器和与每个服务器连接的大数据处理组件,以及与大数据处理组件连接的分布式搜索引擎ES,该服务器的个数与云平台上的文件系统个数匹配,每个服务器上均部署有文件存储组件和数据采集器;该方法首先通过文件存储组件访问目标文件系统,并将访问到的容量数据传输至预设的数据文件;通过数据采集器采集数据文件中的容量数据;通过大数据处理组件对采集到的数据进行转换处理,得到列表形式的容量数据;将列表形式的容量数据存储至ES。上述实现方式中,服务器的个数与云平台上的文件系统个数匹配,能够在文件系统的数量增加时,增加服务器的个数来进行扩容,提升云平台处理数据的能力,从而提高了数据处理的性能;同时,通过大数据处理组件和ES能够对文件系统的数据进行格式和存储方式的转换,优化了数据的存储形式,更利于后续检索等使用。
进一步地,上述文件系统的数据处理方法可以实时将容量数据存储至分布式目标搜索引擎中,相较于相关技术中通过定时任务将容量数据保存至数据库中方式,该方式可以有效避免由于定时任务服务器重启引起的数据丢失,从而保证了数据的完整性。
本发明实施例还提供另一种文件系统的数据处理方法,该方法在上述实施例所述方法的基础上实现;该方法重点描述访问文件系统的具体步骤,以及通过大数据处理组件对采集到的容量数据进行转换处理的具体步骤;如图3所示,该方法包括如下步骤:
步骤S302,根据预设的定时任务,通过文件存储组件的应用程序接口API访问目标文件系统,以得到目标文件系统的容量数据;其中,该定时任务每隔指定分钟时长启动一次。
上述文件存储组件通常需要通过API访问目标文件系统,且在API上通常设置有定时任务,该定时任务通常是一个触发指令,也即是可以触发API接通。通过该定时任务文件存储组件可以定时访问文件系统中的容量数据。如果定时任务每隔指定分钟时长启动一次,那么文件存储组件将每隔指定时长访问一次目标文件系统,以获得分钟级的容量数据;其中指定分钟时长可以是一分钟,几分钟或者十几分钟等。
步骤S304,通过数据采集器采集数据文件中的容量数据。
步骤S306,通过大数据处理组件中的大数据存储组件,对上述容量数据进行元数据存储,得到单行数据列表。
上述大数据处理组件通常包括大数据存储组件和大数据清洗组件;其中,大数据存储组件用于存储容量数据,大数据清洗组件用于清洗容量数据。上述元数据通常是描述其它数据(相当于上述容量数据)的数据,该元数据也是表的属性数据,该元数据的属性信息包括表的名字、列信息和分区等。将上述容量数据按照元数据中的属性信息进行存储后,可以得到容量信息对应的单行数据列表。
在具体实现时,通常在Hadoop平台上对容量数据进行元数据存储,以得到单行数据列表,该单行数据列表可以是HDFS(Hadoop Distributed File System,分布式文本系统)的单行HIVE表。该HIVE表通常是建立在Hadoop上的数据仓库基础构架,它提供了一系列的工具,可以用来进行数据提取、转化、加载。
步骤S308,通过大数据处理组件中的大数据清洗组件,将上述单行数据列表结构化为多字段的数据列表,形成容量列表。
上述大数据清洗组件可以是数据ETL(Extract-Transform-Load,抽取、转置、加载)结构化存储组件,通过大数清洗组件可以将单行数据列表中的容量数据中的分散、零乱、标准不统一的数据整合到一起,以提高数据的可用性。在具体实现时,通常需要在脚本(例如,scala脚本)中设置清洗规则,以通过该清洗规则对单行数据列表进行归纳和整理,得到多字段的数据列表,该多字段的数据列表也可是多行的HIVE表。
基于上述描述,容量列表中包含有多个字段的数据,如表1所示;该多字段包括可以包括用户识别码、系统文件识别码、使用时间和使用量;还可以包括数据存储类型、文件系统可用空间等数据。
表1
字段名
用户识别码
系统文件识别码
使用时间
使用量
数据存储类型
文件系统可用空间
步骤S310,将上述容量列表存储至ES。
上述文件系统的数据处理方法,首先根据预设的定时任务,通过文件存储组件的应用程序接口API访问目标文件系统,以得到目标文件系统的容量数据,再通过数据采集器采集数据文件中的容量数据,进而通过大数据存储组件对容量数据进行元数据存储,得到单行数据列表,然后通过大数据清洗组件将该单行数据列表结构化为多字段的数据列表,形成容量列表,最后将上述容量列表存储至ES。该方式不依赖于关系型数据库的存储方式,实现了系统的解耦,同时,将容量数据存储在ES中,在系统业务量上升,以及文件系统规模不断扩大之的情况下,数据获取和存储不会存在性能问题。
本发明实施例还提供另一种文件系统的数据处理方法,该方法在上述实施例所述方法的基础上实现;该方法重点描述将列表形式的容量数据存储至ES的具体步骤;如图4所示,该方法包括如下步骤:
步骤S402,通过manila组件访问目标文件系统,将该目标文件系统中的容量数据传输至预设的数据文件;其中,该容量数据为按指定分钟时长从目标文件系统中获取。
上述manila组件通常可以提供带有完整文件系统的存储,该manila组件是目前比较完善的一个OpenStack服务组件,该OpenStack通常是一个开源的云计算管理平台项目,由几个主要的组件组合起来完成具体工作。该OpenStack支持几乎所有类型的云环境,项目目标是提供实施简单、可大规模扩展、丰富、标准统一的云计算管理平台。
在具体实现时,上述manila组件访问目标文件系统的API上通常设置有定时任务,该定时任务通常每分钟时启动一次,以是manila组件可以访问当前时刻目标文件的分钟级的容量数据。
步骤S404,通过日志收集系统flume采集数据文件中的容量数据。
上述flume通常是一个高可用的、高可靠的、分布式的海量日志采集、聚合和传输的系统。该flume通常依赖java运行环境,它以agent为处理单位,每个agent中包含source,channel和sink组件,其中source负责接收分钟级容量数据,并将容量数据写入channel;channel负责存储该容量数据;sink负责将channel中的容量数据发送给下一个处理节点(相当于大数据处理组件)。
步骤S406,通过大数据处理组件对采集到的容量数据进行转换处理,得到列表形式的容量数据。
步骤S408,根据预设配置规则,将上述列表形式的容量数据持久化至ES;其中,该ES配置有应用程序接口API。
上述持久化通常是将数据在持久状态和瞬时状态间转换的机制,也即是就是瞬时数据持久化为持久数据。上述列表形式的容量数据难以永久保存在大数据处理组件中,也即是瞬时数据,因此,需要将其转换至可以长久保存的数据库中,以使该数据库可以永久保存容量数据。该数据库也即是上述分布式搜索引擎ES。上述预设配置规则,通常是开发人员设计的,将瞬间数据转换为持久数据的规则,例如,数据转换格式、数据转换的数据库等。
上述ES通常配置有相应的API,该API通常支持检索、汇聚查询等功能,也即是用户可以通过该API从ES中获取文件系统任意一段时间内的分钟级的容量数据。
步骤S410,通过上述ES的API接收用户的数据获取请求。该数据获取请求通常携带有文件系统的识别码、需要获取的时间段等信息。
步骤S412,向上述用户返回数据获取请求对应的目标文件系统的容量数据。
根据数据获取请求携带的信息,可以从ES中列表形式的容量数据中查找相应的文件系统中指定时间段的容量数据。
上述文件系统的数据处理方法,首先通过manila组件访问目标文件系统,并将该目标文件系统中的容量数据传输至预设的数据文件,再通过日志收集系统flume采集数据文件中的分钟级容量数据,进而通过大数据处理组件对采集到的容量数据进行转换处理,得到列表形式的容量数据,根据预设配置规则将该列表形式的容量数据持久化至ES,然后通过ES的API接收用户的数据获取请求,再向用户返回数据获取请求对应的目标文件系统的容量数据。该方式通过flume和大数据分布式集群,提高了系统的稳定性及性能,当文件系统数据量上升之后,依然能提供良好的性能。
对应于上述文件系统的数据处理方法实施例,本发明实施例提供了一种文件系统的数据处理装置,该装置设置于云平台,该云平台包括多个服务器和与每个服务器连接的大数据处理组件,以及与大数据处理组件连接的分布式搜索引擎ES,该服务器的个数与云平台上的文件系统个数匹配,每个服务器上均部署有文件存储组件和数据采集器;如图5所示,该装置包括:
数据传输模块50,用于通过文件存储组件访问目标文件系统,将目标文件系统中的容量数据传输至预设的数据文件;其中,该容量数据为按指定分钟时长从目标文件系统中获取。
数据采集模块51,用于通过所述数据采集器采集数据文件中的容量数据,以获得目标文件系统的容量数据。
数据转换模块52,用于通过大数据处理组件对采集到的容量数据进行转换处理,得到列表形式的容量数据。
数据存储模块53,用于将列表形式的容量数据存储至ES。
上述文件系统的数据处理装置设置于云平台,该云平台包括多个服务器和与每个服务器连接的大数据处理组件,以及与大数据处理组件连接的分布式搜索引擎ES,该服务器的个数与云平台上的文件系统个数匹配,每个服务器上均部署有文件存储组件和数据采集器;该方法首先通过文件存储组件访问目标文件系统,并将访问到的容量数据传输至预设的数据文件;通过数据采集器采集数据文件中的容量数据;通过大数据处理组件对采集到的数据进行转换处理,得到列表形式的容量数据;将列表形式的容量数据存储至ES。上述实现方式中,服务器的个数与云平台上的文件系统个数匹配,能够在文件系统的数量增加时,增加服务器的个数来进行扩容,提升云平台处理数据的能力,从而提高了数据处理的性能;同时,通过大数据处理组件和ES能够对文件系统的数据进行格式和存储方式的转换,优化了数据的存储形式,更利于后续检索等使用。
上述数据传输模块50用于:根据预设的定时任务,通过文件存储组件的应用程序接口API访问目标文件系统,以得到该目标文件系统的容量数据;其中,定时任务每隔指定分钟时长启动一次。
上述文件存储组件可以为manila组件;上述数据采集器可以为日志收集系统flume。
上述大数据处理组件包括:大数据存储组件和大数据清洗组件;上述数据转换模块52用于:通过大数据存储组件,对容量数据进行元数据存储,得到单行数据列表;通过大数据清洗组件,将单行数据列表结构化为多字段的数据列表,形成容量列表。该多字段包括用户识别码、系统文件识别码、使用时间和使用量。
上述数据存储模块53用于:根据预设配置规则,将容量列表持久化至ES。
上述ES配置有用接口API,该装置还包括数据查询模块用于:通过ES的API接收用户的数据获取请求;向用户返回数据获取请求对应的目标文件系统的容量列表。
本发明实施例所提供的文件系统的数据处理装置,其实现原理及产生的技术效果和前述数据转换方法实施例相同,为简要描述,装置实施例部分未提及之处,可参考前述方法实施例中相应内容。
本发明实施例还提供了一种云服务器,用于运行上述文件系统的数据处理方法,参见图6所示,该云服务器包括处理器和存储器,该终端设备包括处理器101和存储器100,该存储器100存储有能够被处理器101执行的机器可执行指令,该处理器101执行机器可执行指令以实现上述文件系统的数据处理方法。
进一步地,图6所示的云服务器还包括总线102和通信接口103,处理器101、通信接口103和存储器100通过总线102连接。
其中,存储器100可能包含高速随机存取存储器(RAM,RandomAccessMemory),也可能还包括非不稳定的存储器(non-volatilememory),例如至少一个磁盘存储器。通过至少一个通信接口103(可以是有线或者无线)实现该系统网元与至少一个其他网元之间的通信连接,可以使用互联网,广域网,本地网,城域网等。总线102可以是ISA总线、PCI总线或EISA总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示,图6中仅用一个双向箭头表示,但并不表示仅有一根总线或一种类型的总线。
处理器101可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器101中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器101可以是通用处理器,包括中央处理器(CentralProcessingUnit,简称CPU)、网络处理器(NetworkProcessor,简称NP)等;还可以是数字信号处理器(Digital SignalProcessor,简称DSP)、专用集成电路(Application Specific Integrated Circuit,简称ASIC)、现场可编程门阵列(Field-Programmable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器100,处理器101读取存储器100中的信息,结合其硬件完成前述实施例的方法的步骤。
本发明实施例还提供了一种机器可读存储介质,该机器可读存储介质存储有机器可执行指令,该机器可执行指令在被处理器调用和执行时,该机器可执行指令促使处理器上述文件系统的数据处理方法,具体实现可参见方法实施例,在此不再赘述。
本发明实施例所提供的文件系统的数据处理方法、装置和云服务器的计算机程序产品,包括存储了程序代码的计算机可读存储介质,所述程序代码包括的指令可用于执行前面方法实施例中所述的方法,具体实现可参见方法实施例,在此不再赘述。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的装置和/或电子设备的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims (12)

1.一种文件系统的数据处理方法,其特征在于,所述方法应用于云平台,所述云平台包括多个服务器和与每个所述服务器连接的大数据处理组件,以及与所述大数据处理组件连接的分布式搜索引擎ES,所述服务器的个数与所述云平台上的文件系统个数匹配,每个所述服务器上均部署有文件存储组件和数据采集器;所述方法包括:
通过所述文件存储组件访问目标文件系统,将所述目标文件系统中容量数据传输至预设的数据文件;其中,所述容量数据为按指定分钟时长从目标文件系统中获取;所述目标文件系统包括NAS文件系统;
通过所述数据采集器采集所述数据文件中的容量数据;
通过所述大数据处理组件对采集到的所述容量数据进行转换处理,得到列表形式的容量数据;
将所述列表形式的容量数据存储至所述ES。
2.根据权利要求1所述的方法,其特征在于,通过所述文件存储组件访问获取目标文件系统的步骤,包括:
根据预设的定时任务,通过所述文件存储组件的应用程序接口API访问所述目标文件系统,以得到所述目标文件系统的容量数据;其中,所述定时任务每隔指定分钟时长启动一次。
3.根据权利要求1所述的方法,其特征在于,所述文件存储组件为manila组件;所述数据采集器为日志收集系统flume。
4.根据权利要求1所述的方法,其特征在于,所述大数据处理组件包括:大数据存储组件和大数据清洗组件;通过所述大数据处理组件对采集到的所述容量数据进行转换处理,得到列表形式的容量数据的步骤,包括:
通过所述大数据存储组件,对所述容量数据进行元数据存储,得到单行数据列表;
通过所述大数据清洗组件,将所述单行数据列表结构化为多字段的数据列表,形成容量列表。
5.根据权利要求4所述的方法,其特征在于,所述多字段包括用户识别码、系统文件识别码、使用时间和使用量。
6.根据权利要求1所述的方法,其特征在于,将所述列表形式的容量数据存储至所述ES的步骤,包括:
根据预设配置规则,将所述列表形式的容量数据持久化至所述ES。
7.根据权利要求1所述的方法,其特征在于,所述ES配置有应用程序接口API,所述方法还包括:
通过所述ES的API接收用户的数据获取请求;
向所述用户返回所述数据获取请求对应的目标文件系统的容量数据。
8.一种文件系统的数据处理装置,其特征在于,所述装置设置于云平台,所述云平台包括多个服务器和与每个所述服务器连接的大数据处理组件,以及与所述大数据处理组件连接的分布式搜索引擎ES,所述服务器的个数与所述云平台上的文件系统个数匹配,每个所述服务器上均部署有文件存储组件和数据采集器;所述装置包括:
数据传输模块,用于通过所述文件存储组件访问目标文件系统,将所述目标文件系统中的容量数据传输至预设的数据文件;其中,所述容量数据为按指定分钟时长从目标文件系统中获取;所述目标文件系统包括NAS文件系统;
数据采集模块,用于通过所述数据采集器采集所述数据文件中的容量数据;
数据转换模块,用于通过所述大数据处理组件对采集到的所述容量数据进行转换处理,得到列表形式的容量数据;
数据存储模块,用于将所述列表形式的容量数据存储至所述ES。
9.根据权利要求8所述的装置,其特征在于,所述数据传输模块,用于:
根据预设的定时任务,通过所述文件存储组件的应用程序接口API访问所述目标文件系统,以得到所述目标文件系统的容量数据;其中,所述定时任务每隔指定分钟时长启动一次。
10.根据权利要求8所述的装置,其特征在于,所述大数据处理组件包括:大数据存储组件和大数据清洗组件;所述数据转换模块,用于:
通过所述大数据存储组件,对所述容量数据进行元数据存储,得到单行数据列表;
通过所述大数据清洗组件,将所述单行数据列表结构化为多字段的数据列表,形成容量列表。
11.一种云服务器,其特征在于,包括处理器和存储器,所述存储器存储有能够被所述处理器执行的机器可执行指令,所述处理器执行所述机器可执行指令以实现权利要求1至7任一项所述的文件系统的数据处理方法。
12.一种机器可读存储介质,其特征在于,所述机器可读存储介质存储有机器可执行指令,所述机器可执行指令在被处理器调用和执行时,所述机器可执行指令促使处理器实现权利要求1至7任一项所述的文件系统的数据处理方法。
CN201910931745.2A 2019-09-27 2019-09-27 文件系统的数据处理方法、装置和云服务器 Active CN110674101B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910931745.2A CN110674101B (zh) 2019-09-27 2019-09-27 文件系统的数据处理方法、装置和云服务器

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910931745.2A CN110674101B (zh) 2019-09-27 2019-09-27 文件系统的数据处理方法、装置和云服务器

Publications (2)

Publication Number Publication Date
CN110674101A CN110674101A (zh) 2020-01-10
CN110674101B true CN110674101B (zh) 2022-03-15

Family

ID=69079993

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910931745.2A Active CN110674101B (zh) 2019-09-27 2019-09-27 文件系统的数据处理方法、装置和云服务器

Country Status (1)

Country Link
CN (1) CN110674101B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111522801A (zh) * 2020-03-25 2020-08-11 平安科技(深圳)有限公司 分布式的数据库动态扩容方法、装置、设备及存储介质
CN113806611A (zh) * 2020-06-17 2021-12-17 海信集团有限公司 一种存储搜索引擎结果的方法及设备
CN112527885A (zh) * 2020-12-23 2021-03-19 民生科技有限责任公司 一种etl中基于规则配置的数据处理的系统和方法
CN113448929A (zh) * 2021-07-19 2021-09-28 上海商汤科技开发有限公司 数据存储方法及装置、设备、存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9171009B1 (en) * 2013-06-21 2015-10-27 Emc Corporation Cluster file system comprising storage server units each having a scale-out network attached storage cluster
CN106919675A (zh) * 2017-02-24 2017-07-04 浙江大华技术股份有限公司 一种数据存储方法及装置
CN108023735A (zh) * 2017-11-23 2018-05-11 太极计算机股份有限公司 一种基于动态资源的计费方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160050282A1 (en) * 2014-08-18 2016-02-18 SoftNAS, LLC Method for extending hybrid high availability cluster across network

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9171009B1 (en) * 2013-06-21 2015-10-27 Emc Corporation Cluster file system comprising storage server units each having a scale-out network attached storage cluster
CN106919675A (zh) * 2017-02-24 2017-07-04 浙江大华技术股份有限公司 一种数据存储方法及装置
CN108023735A (zh) * 2017-11-23 2018-05-11 太极计算机股份有限公司 一种基于动态资源的计费方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Feasibility analysis of big log data real time search based on Hbase and ElasticSearch;Bai J;《2013 9th International Conference on Natural Computation》;20141231;全文 *
基于Spark的数据实时分析处理系统的设计与实现;陈鹏;《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》;20181015(第2018年第10期);第I138-236页 *

Also Published As

Publication number Publication date
CN110674101A (zh) 2020-01-10

Similar Documents

Publication Publication Date Title
CN110674101B (zh) 文件系统的数据处理方法、装置和云服务器
CN106980699B (zh) 一种数据处理平台和系统
CN110362544B (zh) 日志处理系统、日志处理方法、终端及存储介质
CN107861981B (zh) 一种数据处理方法及装置
CN103838867A (zh) 日志处理方法和装置
US11188443B2 (en) Method, apparatus and system for processing log data
CN110675194A (zh) 一种漏斗分析方法、装置、设备及可读介质
CN110932933B (zh) 网络状况监测方法、计算设备及计算机存储介质
CN111881011A (zh) 日志管理方法、平台、服务器及存储介质
CN111143158B (zh) 一种监控数据实时存储方法、系统、电子设备及存储介质
CN110147470B (zh) 一种跨机房数据比对系统及方法
JP2015508543A (ja) 店舗訪問データを処理すること
CN112613271A (zh) 数据分页方法、装置、计算机设备及存储介质
US9760836B2 (en) Data typing with probabilistic maps having imbalanced error costs
CN111694793A (zh) 一种日志存储方法、装置及日志查询方法、装置
CN111258819A (zh) MySQL数据库备份文件的数据获取方法、装置和系统
CN104881475A (zh) 一种用于大数据随机抽样的方法和系统
CN106156258B (zh) 一种在分布式存储系统中统计数据的方法、装置及系统
CN114398520A (zh) 数据检索方法、系统、装置、电子设备及存储介质
CN112527824B (zh) 分页查询方法、装置、电子设备和计算机可读存储介质
CN111611222A (zh) 一种基于分布式存储的数据动态处理方法
CN110750539A (zh) 基于Redis数据库的信息查询方法、装置及电子设备
CN110674190B (zh) 文件系统任务的统计方法、装置和服务器
CN112699149A (zh) 目标数据获取方法、装置和存储介质及电子装置
CN112115164A (zh) 数据处理方法及装置、数据查询方法及装置、网络设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant