CN116974994A

CN116974994A - 一种基于集群的高效能文件协作系统

Info

Publication number: CN116974994A
Application number: CN202310947903.XA
Authority: CN
Inventors: 张彬; 党咏欣; 晏进; 李斌; 石彦彬; 郭建章
Original assignee: China Telecom Digital Intelligence Technology Co Ltd
Current assignee: China Telecom Digital Intelligence Technology Co Ltd
Priority date: 2023-07-31
Filing date: 2023-07-31
Publication date: 2023-10-31

Abstract

本发明公开了一种基于集群的高效能文件协作系统。该一种基于集群的高效能文件协作系统，包括用户接口单元、任务提取单元、协作中心单元、协作执行单元和集群作业调度单元，且所述用户接口单元和任务提取单元连接，协作中心单元和任务提取单元连接，任务提取单元和协作执行单元连接，协作执行单元和集群作业调度单元连接。本发明通过获得目标协作文件标识号对应的协作配置表，加载并执行结构化查询语句命令，将转换生成的SparkSq l作业调度到目标集群上，用户按照设定方式安全访问目标协作文件，进而最大化利用CPU数据和内存数据，达到了提高CPU数据和内存数据利用率的效果，解决了现有技术中CPU数据和内存数据利用率低的问题。

Description

一种基于集群的高效能文件协作系统

技术领域

本发明涉及计算机网络技术领域，尤其涉及一种基于集群的高效能文件协作系统。

背景技术

随着团队协作的需求增加，文件协作变得越来越重要。团队成员需要同时访问和编辑文件，并实时反馈更新。集群计算是将多台计算机连接在一起，形成一个计算资源池，可以提供并行处理和负载均衡，使文件协作系统能够处理大规模的数据和并发请求，以实现高性能和高可用性。通过利用集群中的多台计算机，文件系统可以实现更高的吞吐量和更低的延迟。元数据是描述文件和目录信息的数据，包括文件的名称、大小、权限和访问时间等，决定了文件的访问权限、共享和位置等信息。

传统的数据文件远程协作策略，文件生成依赖于数据库SQL，或采用程序执行、或使用脚本调用等方式，数据的效率和性能依赖于数据库的性能和任务并发度。当用户的需求发生改变时往往引起脚本的调整和程序的改造，通常需要重新发布应用版本，每一次调整都是一个小的迭代，优化成本高、灵活性不足。数据文件存储常因为文件大小、文件数量等问题出现存储分布不均的问题，资源利用不合理，存在单点故障，对应用的影响较大，运营成本较高。在现代的分布式系统中，往往会将作业调度到集群上并行处理，如何为SQL等作业分配合适的计算资源，既不会导致CPU浪费，Memory浪费，也不会因为任务阻塞等原因导致瓶颈，成为了企业在降本增效背景下的核心目标。

例如公开号为：CN103051681B公开的一种面向分布式文件系统的协作式日志系统，包括：日志请求模块、分发模块、N个传输模块、N个一致性保证模块、N个记录添加模块、N个记录回收模块和N个恢复模块，日志请求模块和分发模块运行于元数据管理节点或数据存储节点，各数据存储节点上均运行传输模块、一致性保证模块、记录添加模块、记录回收模块和恢复模块。

例如公开号为：CN106021462A公开的集群文件系统文件存储的方法及集群文件系统，包括：根据集群文件系统中条带分组的组数N，将预设消息摘要算法的结果值范围划分为N个结果值范围；获取文件的目录信息，根据所述目录信息通过预设消息摘要算法计算生成摘要结果值；根据所述生成的摘要结果值将所述文件存储到对应存储范围的条带分组中。

但本申请发明人在实现本申请实施例中发明技术方案的过程中，发现上述技术至少存在如下技术问题：

现有技术中，运用传统的数据文件远程协作策略因为文件大小、文件数量等问题出现存储分布不均，存在CPU数据和内存数据利用率低的问题。

发明内容

本申请实施例通过提供一种基于集群的高效能文件协作系统，解决了现有技术中CPU数据和内存数据利用率低的问题，实现了CPU数据和内存数据利用率的提高。

本申请实施例提供了一种基于集群的高效能文件协作系统，包括用户接口单元、任务提取单元、协作中心单元、协作执行单元和集群作业调度单元，且所述用户接口单元和任务提取单元连接，协作中心单元和任务提取单元连接，任务提取单元和协作执行单元连接，协作执行单元和集群作业调度单元连接：其中，所述用户接口单元用于将目标协作文件标识号传输给任务提取单元，实现用户的接入；所述任务提取单元用于根据目标协作文件标识号，从协作中心单元获得目标协作文件标识号对应的目标协作文件的协作配置表；所述协作中心单元用于管理协作文件的协作配置表数据库；所述协作执行单元用于基于目标协作文件的协作配置表加载并执行结构化查询语句命令；所述集群作业调度单元用于优化作业的资源配比，将由协作执行单元转换生成的SparkSql作业调度到目标集群上。

进一步的，所述目标协作文件标识号为目标协作文件的唯一标识，通过所述用户接口单元实现目标协作文件的创建和介入。

进一步的，所述任务提取单元获得目标协作文件的标识号对应的目标协作文件的协作配置表由通用的分布式数据处理引擎Spark的调用实现。

进一步的，所述协作中心单元用于管理协作文件的协作配置表数据库，具体如下：当用户请求创建和介入目标协作文件时，所述协作中心单元立即通过配置化方式实现，从目标协作文件的一条结构化查询语言到目标协作文件的协作文件目录均通过配置实现。

进一步的，所述协作执行单元用于基于目标协作文件的协作配置表加载并执行结构化查询语句命令，具体方式为：所述协作执行单元基于目标协作文件的协作配置表，通过部署有大量硬件的通用的分布式数据处理引擎集群SPARK技术按照目标协作文件的序号顺序加载并执行结构化查询语句。

进一步的，所述协作执行单元生成目标协作文件，并将目标协作文件的信息输出到目标协作文件的协作配置表中的协作文件目录，推送目标协作文件的协作文件目录。

进一步的，所述集群作业调度单元包括历史数据维护模块、采样分析模块、预测模块和集群资源交互模块；所述历史数据维护模块：用于收集设定时间间隔内所有作业运行过程中的历史CPU消耗数据和历史内存消耗数据，并维护作业的输入数据量和输出数据量等元数据；所述采样分析模块：用于根据输入数据的大小对TB级作业进行不同粒度的采样得到非TB级作业，并将其加载到常驻Spark服务中进行分析获得非TB级作业的资源利用率和时间开销，其中TB级作业为数据量达到TB级的作业，非TB级作业为数据量达不到TB级的作业，常驻Spark服务用于对运行时间长的作业进行分析；对于非TB级作业，支持用户自主开启采样分析配置，且不会主动对非TB级作业进行采样分析；所述预测模块：用于对不同类型的作业基于资源数据建立并训练回归模型预测当前作业的资源利用率；所述集群资源交互模块：用于维护当前所有集群的空闲CPU数据和空闲内存数据，并按照分钟级别更新。

进一步的，所述资源数据包括三类，通过对这三类数据的拼接来训练线性回归模型，具体如下：第一类，当前作业的历史CPU消耗数据和历史内存消耗数据；第二类，当前作业的元数据，具体包括当前作业的输入数据量、当前作业的类型和执行当前作业过程中各步骤的具体动作；第三类，采样分析模块的返回结果，包含在采样后非TB级作业的CPU数据和内存数据。

进一步的，所述集群作业单元还包括调度模块；所述调度模块根据作业的输入数据量判断是否对作业进行采样分析，当作业的输入数据量达到TB级，则进行采样分析；当作业的输入数据量达不到TB级，则不进行采样分析；所述调度模块根据所述预测模块预测的当前作业的资源利用向集群资源交互模块请求当前所有集群的空闲CPU数据和空闲内存数据，向同时满足采样后非TB级作业的CPU数据和内存数据要求且空闲CPU数据和空闲内存数据最少的目标集群调度作业。

进一步的，所述一种基于集群的高效能文件协作系统还包括Ceph存储集群，所述Ceph存储集群和集群作业调度单元连接；所述Ceph存储集群用于将目标协作文件存储在Ceph存储集群的Ceph文件系统中，用户按照设定方案访问目标协作文件。

本申请实施例中提供的一个或多个技术方案，至少具有如下技术效果或优点：

1、通过集群作业调度单元的历史数据维护模块收集设定时间间隔内所有作业运行过程中的历史CPU消耗数据和历史内存消耗数据，采样分析模块根据输入数据的大小对TB级作业进行采样分析获得非TB级作业的资源利用率和时间开销，预测模块对不同类型的作业基于资源数据建立并训练回归模型预测当前作业的资源利用率，集群资源交互模块维护当前所有集群的空闲CPU数据和空闲内存数据并按照分钟级别更新，从而实现了作业的更合理调度，进而实现了CPU数据和内存数据利用率的提高，解决现有技术存在CPU数据和内存数据利用率低的问题。

2、通过用户接口单元将目标协作文件标识号传输给任务提取单元，任务提取单元根据目标协作文件标识号，从协作中心单元获得目标协作文件标识号对应的目标协作文件的协作配置表，协作执行单元基于目标协作文件的协作配置表加载并执行结构化查询语句命令，集群作业调度单元优化作业的资源配比，从而实现了将协作执行单元转换生成的SparkSql作业调度到目标集群上，进而实现了高并发场景下目标协作文件生成效率和结构化查询语言SQL执行效率的提高。

3、通过任务提取单元根据目标协作文件标识号，采用Spark调用从协作中心单元获得协作配置表，协作执行单元基于协作配置表加载并执行结构化查询语句命令，Ceph存储集群采用Ceph文件系统进行数据协作，可在高并发场景下执行高任务量任务，数据文件存储不会因为文件大小、文件数量等情况出现存储分布不均的问题，从而实现了运营成本和任务阻塞可能性的降低，进而实现了生成目标协作文件的灵活性、数据传输和访问的安全性的提高。

附图说明

图1为本申请实施例提供的一种基于集群的高效能文件协作系统的结构示意图；

图2为本申请实施例提供的一种基于集群的高效能文件协作系统中集群作业调度单元的结构示意图；

图3为本申请实施例提供的一种基于集群的高效能文件协作系统中资源数据的概念图；

图4为本申请实施例提供的一种基于集群的高效能文件协作系统中资源数据的完整结构图。

具体实施方式

本申请实施例通过提供一种基于集群的高效能文件协作系统，解决了现有技术中存在CPU数据和内存数据利用率低的问题，通过用户接口单元将目标协作文件标识号传输给任务提取单元，任务提取单元根据目标协作文件标识号，从协作中心单元获得协作配置表，协作执行单元基于协作配置表加载并执行结构化查询语句命令，集群作业调度单元将协作执行单元转换生成的SparkSql作业调度到目标集群上，Ceph存储集群将目标协作文件存储在Ceph存储集群的Ceph文件系统中，实现了CPU数据和内存数据利用率的提高。

本申请实施例中的技术方案为解决上述现有技术存在CPU数据和内存数据利用率低的问题，总体思路如下：

通过获得目标协作文件标识号对应的协作配置表，基于协作配置表加载并执行结构化查询语句命令，将转换生成的SparkSql作业调度到目标集群上，再由Ceph存储集群将目标协作文件存储在Ceph存储集群的Ceph文件系统中，用户可以按照设定方式安全访问目标协作文件，实现了CPU数据和内存数据利用率的提高。

为了更好的理解上述技术方案，下面将结合说明书附图以及具体的实施方式对上述技术方案进行详细的说明。

如图1所示，为本申请实施例提供的一种基于集群的高效能文件协作系统的结构示意图，本申请实施例提供的一种基于集群的高效能文件协作系统包括用户接口单元、任务提取单元、协作中心单元、协作执行单元和集群作业调度单元，且用户接口单元和任务提取单元连接，协作中心单元和任务提取单元连接，任务提取单元和协作执行单元连接，协作执行单元和集群作业调度单元连接：其中，用户接口单元用于将目标协作文件标识号传输给任务提取单元，实现用户的接入；任务提取单元用于根据目标协作文件标识号，从协作中心单元获得目标协作文件标识号对应的目标协作文件的协作配置表；协作中心单元用于管理协作文件的协作配置表数据库；协作执行单元用于基于目标协作文件的协作配置表加载并执行结构化查询语句命令；集群作业调度单元用于优化作业的资源配比，将由协作执行单元转换生成的SparkSql作业调度到目标集群上。

在本实施例中，SparkSql为Spark处理结构化作业的一个模块；解决了现有技术高并发场景下，文件生成效率低、SQL执行效率低、灵活性不足的问题，具有高效、灵活、可配置、易扩展的特征。

进一步的，目标协作文件标识号为目标协作文件的唯一标识，通过用户接口单元可以实现目标协作文件的创建和介入。

在本实施例中，目标协作文件标识号TASK_ID为协作配置表中的数据，保证了目标协作文件的准确性和唯一性，实现了目标协作文件创建和介入效率的提高。

进一步的，任务提取单元获得目标协作文件的标识号对应的目标协作文件的协作配置表由通用的分布式数据处理引擎Spark的调用实现。

在本实施例中，通用指的是Spark可以执行很多任务，比如机器学习、数据流传输和交互分析等；Spark可以将数据转化成任意形式，实现了运营成本的降低。

进一步的，协作中心单元用于管理协作文件的协作配置表数据库，具体如下：当用户请求创建和介入目标协作文件时，协作中心单元立即通过配置化方式实现，从目标协作文件的一条结构化查询语言到目标协作文件的协作文件目录均通过配置实现。

在本实施例中，当需求发生变化时，不需要进行脚本的调整和程序的改造迭代，优化成本低，灵活性高，一次部署，长久受益，实现了版本发布频次的降低，实现了人工开发成本的降低，实现了运营效率的提高。

进一步的，协作执行单元用于基于目标协作文件的协作配置表加载并执行结构化查询语句命令，具体方式为：协作执行单元基于目标协作文件的协作配置表，通过部署有大量硬件的通用的分布式数据处理引擎集群SPARK技术按照目标协作文件的序号顺序加载并执行结构化查询语句。

在本实施例中，结构化查询语句SQL可以为一个或多个语句；协作配置表包括TASK_ID、TASK_SEQ、CONFIG_TYPE、DATA_SOURCE、SPARK_SQ、ALIAS、OUTPUT、FILE_PATH、IS_VALID和REMARK；当一个协作配置多个SQL语句的时候，SPARK按照TASK_SEQ加载并执行SQL语句；CONFIG_TYPE为当前配置数据的类型，包括parm、table和sql三种，parm表示当前SPARK_SQL字段配置的内容为一个参数，table表示当前SPARK_SQL字段配置的内容为一张数据表，DATA_SOURCE为该表所在的数据库，sql表示当前SPARK_SQL字段配置的内容为一条SQL语句，ALIAS为该语句生成的结果集别名，同一个协作的配置数据中别名不能重复；当CONFIG_TYPE配置内容为table时，DATA_SOURCE记录数据表所在的数据库；SPARK_SQL为协作配置的核心部分，当CONFIG_TYPE配置内容为sql时，SPARK_SQL记录数据处理的核心逻辑；当CONFIG_TYPE配置内容为sql时，ALIAS表示SQL语句执行的结果集别名；OUTPUT为协作配置SPARK_SQL的输出类型，包括cond、table和file三种，cond表示SPARK_SQL是配置的一个sql查询条件，table表示SPARK_SQL执行结果要视为一张新表，表名为ALIAS配置内容，file表示SPARK_SQL执行结果要视为一个文件，文件输出目录在FILE_PATH进行配置；FILE_PATH为协作文件生成的文件目录；IS_VALID为配置有效性：IS_VALID＝0代表配置无效，IS_VALID＝1代表配置有效；REMARK为配置数据说明，记录配置的目的、需求单号和配置人等信息；通过集群SPARK技术，数据文件存储不会因为文件大小、文件数量等问题出现存储分布不均的现象，实现了集群中空闲CPU数据和空闲内存数据的更合理利用，消除了单点故障。

进一步的，协作执行单元可以按照配置好的逻辑顺序生成目标协作文件，并将目标协作文件的信息输出到目标协作文件的协作配置表中的协作文件目录FILE_PATH，也可以推送目标协作文件的协作文件目录。

在本实施例中，FILE_PATH为目标协作文件生成的协作文件目录，目标协作文件的创建和介入在集群中进行，实现了目标协作文件生成效率的提高；协作执行单元通过集群SPARK技术可以在高并发场景下执行高任务量的任务，降低了任务发生阻塞的可能性，实现了结构化查询语句SQL的执行效率的提高。

进一步的，如图2所示，为本申请实施例提供的一种基于集群的高效能文件协作系统中集群作业调度单元的结构示意图，集群作业调度单元包括历史数据维护模块、采样分析模块、预测模块和集群资源交互模块；历史数据维护模块：用于收集设定时间间隔内所有作业运行过程中的历史CPU消耗数据和历史内存消耗数据，并维护作业的输入数据量和输出数据量等元数据；采样分析模块：用于根据输入数据的大小对TB级作业进行不同粒度的采样得到非TB级作业，并将其加载到常驻Spark服务中进行分析获得非TB级作业的资源利用率和时间开销，其中TB级作业为数据量达到TB级的作业，非TB级作业为数据量达不到TB级的作业，常驻Spark服务用于对运行时间长的作业进行分析；对于非TB级作业，支持用户自主开启采样分析配置，且不会主动对非TB级作业进行采样分析；预测模块：用于对不同类型的作业基于资源数据建立并训练回归模型预测当前作业的资源利用率；集群资源交互模块：用于维护当前所有集群的空闲CPU数据和空闲内存数据，并按照分钟级别更新。

在本实施例中，作业的元数据为(CONFIG_TYPE,INPUT_READ,CPU_MAX,MEMORY_MAX,OUTPUT_WRITE,SQL_FUNCTI ONS)，其中CONFIG_TYPE表示配置协作维护的作业配置参数，INPUT_READ表示来自DATA_SOURCE的输入数据，CPU_MAX表示作业运行过程中的最大CPU数据开销，MEMORY_MAX表示作业运行过程中的最大内存数据开销，OUTPUT_WRITE表示，SQL_FUNCTIONS表示对SPARK_SQL进行拆分后的不同函数算子；采样模块会对作业进行1/1000-1/10000粒度的采样，常驻Spark服务进行分析得到的采样分析结果为(SCALE,SCALED_INPUT_READ,SCALED_OUTPUT_WRITE,SCALED_CPU_MAX,SCALED_MEMORY_MAX,SCALED_RUNTIME)，其中SCALE表示随机产生的1/1000 -1/10000的粒度，SCALED_INPUT_READ表示采样后的输入数据量，SCALED_OUTPUT_WRITE表示采样后的输出数据量，SCALED_CPU_MAX表示采样后的最大CPU开销，SCALED_MEMORY_MAX表示采样后的最大MEMORY开销，SCALED_RUNTIME表示采样作业的运行时间；TB级作业的采样分析步骤不会延缓作业的实际运行时间；集群作业调度单元的目标有两点，其一为降低成本，优化作业的资源配比，在不影响作业性能的条件下尽可能减少集群空闲CPU和空闲内存分配占比，实现了对集群的空闲CPU和空闲内存的更高效利用；其二为增加集群整体的效率，避免作业被阻塞，实现了在不存在空闲CPU数据和空闲内存数据时最少限度的申请资源配置新集群。

进一步的，如图3所示，为本申请实施例提供的一种基于集群的高效能文件协作系统中资源数据的概念图，资源数据包括三类，通过对这三类数据的拼接来训练线性回归模型，具体如下：第一类，当前作业的历史CPU消耗数据和历史内存消耗数据；第二类，当前作业的元数据，具体包括当前作业的输入数据量、当前作业的类型和执行当前作业过程中各步骤的具体动作；第三类，采样分析模块的返回结果，包含在采样后非TB级作业的CPU数据和内存数据。

在本实施例中，历史CPU消耗数据和历史内存消耗数据具体为(CPU_AVG,MEMORY_AVG,INTPUT_READ_AVG,SQL_FUNCTIONS)；当前作业的元数据具体为(INTPUT_READ,CONFIG_TYPE,SQL_FUNCTIONS)；采样分析模块的返回结果具体为(SCALE,SCALED_INPUT_READ,SCALED_OUTPUT_WRITE,SCALED_CPU_MAX,SCALE D_MEMORY_MAX,SCALED_RUNTIME)；实现了对当前作业的资源利用率的更准确预测和更全面预测。

进一步的，集群作业单元还包括调度模块；调度模块根据作业的输入数据量判断是否对作业进行采样分析，当作业的输入数据量达到TB级，则进行采样分析；当作业的输入数据量达不到TB级，则不进行采样分析；调度模块根据预测模块预测的当前作业的资源利用向集群资源交互模块请求当前所有集群的空闲CPU数据和空闲内存数据，向同时满足采样后非TB级作业的CPU数据和内存数据要求且空闲CPU数据和空闲内存数据最少的目标集群调度作业。

在本实施例中，预测模块预测的当前作业的资源利用为调度模块会根据预测模块返回的CPU预测溢出CPU_PREDICT*OVERFLOW和内存预测溢出MEMORY_PREDICT*OVERFLOW，预设CPU溢出量和内存溢出量为1，以保证作业有足够充足的CPU和内存；空闲CPU数据和空闲内存数据最少的目标集群通过集群交互模块按照从大到小的顺序对所有集群的空闲CPU数据和空闲内存数据排序确定；实现了集群的空闲CPU和空闲内存利用的更大化。

进一步的，如图4所示，为本申请实施例提供的一种基于集群的高效能文件协作系统中资源数据的完整结构图，一种基于集群的高效能文件协作系统还包括Ceph存储集群，Ceph存储集群和集群作业调度单元连接；Ceph存储集群用于将目标协作文件存储在Ceph存储集群的Ceph文件系统中，用户按照设定方案访问目标协作文件。

在本实施例中，整个文件生成及协作过程基于集群进行处理，具有高效、灵活、可配置、易扩展的特点；通过Ceph文件系统进行数据协作实现了数据传输过程中安全性的提高；Ceph存储集群提供了充分的可靠性和安全性，实现了数据访问安全性的提高。

上述本申请实施例中的技术方案，至少具有如下的技术效果或优点：相对于公开号为：CN103051681B公开的一种面向分布式文件系统的协作式日志系统，本申请实施例通过集群作业调度单元的历史数据维护模块收集设定时间间隔内所有作业运行过程中的历史CPU消耗数据和历史内存消耗数据，采样分析模块根据输入数据的大小对TB级作业进行采样分析获得非TB级作业的资源利用率和时间开销，预测模块对不同类型的作业基于资源数据建立并训练回归模型预测当前作业的资源利用率，集群资源交互模块维护当前所有集群的空闲CPU数据和空闲内存数据并按照分钟级别更新，从而实现了作业的更合理调度，进而实现了CPU数据和内存数据利用率的提高；相对于公开号为：CN106021462A公开的集群文件系统文件存储的方法及集群文件系统，本申请实施例通过用户接口单元将目标协作文件标识号传输给任务提取单元，任务提取单元根据目标协作文件标识号，从协作中心单元获得目标协作文件标识号对应的目标协作文件的协作配置表，协作执行单元基于目标协作文件的协作配置表加载并执行结构化查询语句命令，集群作业调度单元优化作业的资源配比，从而实现了将协作执行单元转换生成的SparkSql作业调度到目标集群上，进而实现了高并发场景下目标协作文件生成效率和结构化查询语言SQL执行效率的提高。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的系统、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种基于集群的高效能文件协作系统，其特征在于，包括用户接口单元、任务提取单元、协作中心单元、协作执行单元和集群作业调度单元，且所述用户接口单元和任务提取单元连接，协作中心单元和任务提取单元连接，任务提取单元和协作执行单元连接，协作执行单元和集群作业调度单元连接：

其中，所述用户接口单元用于将目标协作文件标识号传输给任务提取单元，实现用户的接入；

所述任务提取单元用于根据目标协作文件标识号，从协作中心单元获得目标协作文件标识号对应的目标协作文件的协作配置表；

所述协作中心单元用于管理协作文件的协作配置表数据库；

所述协作执行单元用于基于目标协作文件的协作配置表加载并执行结构化查询语句命令；

所述集群作业调度单元用于优化作业的资源配比，将由协作执行单元转换生成的SparkSql作业调度到目标集群上。

2.如权利要求1所述一种基于集群的高效能文件协作系统，其特征在于：所述目标协作文件标识号为目标协作文件的唯一标识，通过所述用户接口单元实现目标协作文件的创建和介入。

3.如权利要求1所述一种基于集群的高效能文件协作系统，其特征在于：所述任务提取单元获得目标协作文件的标识号对应的目标协作文件的协作配置表由通用的分布式数据处理引擎Spark的调用实现。

4.如权利要求1所述一种基于集群的高效能文件协作系统，其特征在于，所述协作中心单元用于管理协作文件的协作配置表数据库，具体如下：

当用户请求创建和介入目标协作文件时，所述协作中心单元立即通过配置化方式实现，从目标协作文件的一条结构化查询语言到目标协作文件的协作文件目录均通过配置实现。

5.如权利要求1所述一种基于集群的高效能文件协作系统，其特征在于，所述协作执行单元用于基于目标协作文件的协作配置表加载并执行结构化查询语句命令，具体方式为：

所述协作执行单元基于目标协作文件的协作配置表，通过部署有大量硬件的通用的分布式数据处理引擎集群SPARK技术按照目标协作文件的序号顺序加载并执行结构化查询语句。

6.如权利要求5所述一种基于集群的高效能文件协作系统，其特征在于：所述协作执行单元生成目标协作文件，并将目标协作文件的信息输出到目标协作文件的协作配置表中的协作文件目录，推送目标协作文件的协作文件目录。

7.如权利要求1所述一种基于集群的高效能文件协作系统，其特征在于：所述集群作业调度单元包括历史数据维护模块、采样分析模块、预测模块和集群资源交互模块；

所述历史数据维护模块：用于收集设定时间间隔内所有作业运行过程中的历史CPU消耗数据和历史内存消耗数据，并维护作业的输入数据量和输出数据量等元数据；

所述采样分析模块：用于根据输入数据的大小对TB级作业进行不同粒度的采样得到非TB级作业，并将其加载到常驻Spark服务中进行分析获得非TB级作业的资源利用率和时间开销，其中TB级作业为数据量达到TB级的作业，非TB级作业为数据量达不到TB级的作业，常驻Spark服务用于对运行时间长的作业进行分析；对于非TB级作业，支持用户自主开启采样分析配置，且不会主动对非TB级作业进行采样分析；

所述预测模块：用于对不同类型的作业基于资源数据建立并训练回归模型预测当前作业的资源利用率；

所述集群资源交互模块：用于维护当前所有集群的空闲CPU数据和空闲内存数据，并按照分钟级别更新。

8.如权利要求7所述一种基于集群的高效能文件协作系统，其特征在于，所述资源数据包括三类，通过对这三类数据的拼接来训练线性回归模型，具体如下：

第一类，当前作业的历史CPU消耗数据和历史内存消耗数据；

第二类，当前作业的元数据，具体包括当前作业的输入数据量、当前作业的类型和执行当前作业过程中各步骤的具体动作；

第三类，采样分析模块的返回结果，包含在采样后非TB级作业的CPU数据和内存数据。

9.如权利要求7所述一种基于集群的高效能文件协作系统，其特征在于：所述集群作业单元还包括调度模块；

所述调度模块根据作业的输入数据量判断是否对作业进行采样分析，当作业的输入数据量达到TB级，则进行采样分析；当作业的输入数据量达不到TB级，则不进行采样分析；

所述调度模块根据所述预测模块预测的当前作业的资源利用向集群资源交互模块请求当前所有集群的空闲CPU数据和空闲内存数据，向同时满足采样后非TB级作业的CPU数据和内存数据要求且空闲CPU数据和空闲内存数据最少的目标集群调度作业。

10.如权利要求1所述一种基于集群的高效能文件协作系统，其特征在于，所述一种基于集群的高效能文件协作系统还包括Ceph存储集群，所述Ceph存储集群和集群作业调度单元连接；

所述Ceph存储集群用于将目标协作文件存储在Ceph存储集群的Ceph文件系统中，用户按照设定方案访问目标协作文件。