CN104346358A - 数据处理系统、管理中心和数据处理方法 - Google Patents

数据处理系统、管理中心和数据处理方法 Download PDF

Info

Publication number
CN104346358A
CN104346358A CN201310323031.6A CN201310323031A CN104346358A CN 104346358 A CN104346358 A CN 104346358A CN 201310323031 A CN201310323031 A CN 201310323031A CN 104346358 A CN104346358 A CN 104346358A
Authority
CN
China
Prior art keywords
data set
data
configuration
subsystem
son file
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201310323031.6A
Other languages
English (en)
Other versions
CN104346358B (zh
Inventor
付凯
罗伟
杨帅
何涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Tencent Cloud Computing Beijing Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201310323031.6A priority Critical patent/CN104346358B/zh
Publication of CN104346358A publication Critical patent/CN104346358A/zh
Application granted granted Critical
Publication of CN104346358B publication Critical patent/CN104346358B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/13File access structures, e.g. distributed indices
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/182Distributed file systems
    • G06F16/1824Distributed file systems implemented using Network-attached Storage [NAS] architecture
    • G06F16/183Provision of network file services by network file servers, e.g. by using NFS, CIFS

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种数据处理系统,属于网络技术领域。所述系统包括:管理中心、分别与管理中心相连的接入子系统、计算子系统和存储子系统,接入子系统还与计算子系统相连,计算子系统还与存储子系统相连。本发明通过管理中心获取各个数据集分别对应的配置信息,并根据配置信息为各个数据集生成对应的配置文件和数据集标识,各个子系统根据对应的配置文件对数据集进行处理;使得该系统可以根据用户的配置完成各种类型的数据的处理;从而解决了由于要处理多种类型的数据而需要开发建立多套系统导致需要花费大量资源和时间的问题;达到了一种数据处理系统只需通过简单的配置即可完成多种数据类型的处理的效果。

Description

数据处理系统、管理中心和数据处理方法
技术领域
本发明涉及信息技术领域,特别涉及一种数据处理系统、管理中心和数据处理方法。
背景技术
随着计算机和网络通信技术的飞速发展,企业要处理的数据爆炸式的增长,数据量已经从TB(1024GB=1TB)级别升到PB(1024TB=1PB)级、EB(1024PB=1EB)、甚至ZB(1024EB=1ZB)级别,所以对于海量数据的处理需要一整套的数据处理系统来完成。
通常情况下,不同类型的企业所要产生的数据的类型也不一样,那么对数据的处理要求也不一样,所以不同企业的数据处理系统也不一样。比如,教育机构的数据处理系统和银行机构的数据处理系统因为对数据的处理要求不同,所以二者也不同。
这种情况下,如果一个企业需要处理多种类型的数据,那么就需要多套数据处理系统。而一套数据处理系统的开发到建立需要花费大量的资源和时间,并且系统的稳定性也较差。
发明内容
为了解决由于要处理多种类型的数据而需要开发建立多套系统导致需要花费大量资源和时间的问题,本发明实施例提供了一种数据处理方法及装置。所述技术方案如下:
第一方面,提供了一种数据处理系统,所述系统包括:管理中心、分别与所述管理中心相连的接入子系统、计算子系统和存储子系统,所述接入子系统还与所述计算子系统相连,所述计算子系统还与所述存储子系统相连;
所述管理中心,用于获取至少两个数据集所分别对应的配置信息,并根据所述至少两个数据集所分别对应的配置信息为所述至少两个数据集分别生成各自的配置文件和数据集标识,所述配置文件包括接入配置子文件、计算配置子文件和存储配置子文件;分别向所述接入子系统、所述计算子系统和所述存储子系统发送对应的配置子文件和所述数据集标识;
所述接入子系统,用于接收所述至少两个数据集和各自对应的所述数据集标识,查询与各个数据集标识对应的接入配置子文件,并根据所述接入配置子文件将各个数据集和各个数据集对应的数据集标识发送给所述计算子系统;
所述计算子系统,用于接收各个数据集和各个数据集对应的数据集标识,查询与各个数据集标识对应的计算配置子文件,并根据所述计算配置子文件对各个数据集进行相同或者不同的统计分析以得到对应的结果数据集,并将各个数据集标识和对应的所述结果数据集发送给所述存储子系统;
所述存储子系统,用于接收各个数据集标识和对应的所述结果数据集,查询与各个数据集标识对应的存储配置子文件,根据所述存储配置子文件将所述结果数据集按照相同或不同的方式存储至不同存储位置。
第二方面,提供了一种管理中心,所述管理中心,包括:
获取模块,用于获取至少两个数据集所分别对应的配置信息;
生成模块,根据所述获取模块获取到的至少两个数据集所分别对应的配置信息为所述至少两个数据集分别生成各自的配置文件和数据集标识,所述配置文件包括接入配置子文件、计算配置子文件和存储配置子文件;
发送模块,用于分别向接入子系统、计算子系统和存储子系统发送对应的配置子文件和所述数据集标识,以便所述接入子系统在接收到所述至少两个数据集和各自对应的所述数据集标识之后,查询与各个数据集标识对应的接入配置子文件,并根据所述接入配置子文件将各个数据集和各个数据集对应的数据集标识发送给所述计算子系统;以便所述计算子系统在接收到所述接入子系统发送的各个数据集和各个数据集对应的数据集标识之后,查询与各个数据集标识对应的计算配置子文件,并根据所述计算配置子文件对所述各个数据集进行相同或者不同的统计分析以得到对应的结果数据集,并将各个数据集标识和对应的所述结果数据集发送给所述存储子系统;以便所述存储子系统在接收到所述计算子系统发送的各个数据集标识和对应的所述结果数据集之后,查询与各个数据集标识对应的存储配置子文件,根据所述存储配置子文件将所述结果数据集按照相同或不同的方式存储至不同存储位置。
第二方面,提供了数据处理方法,用于第一方面所述的数据处理系统中的管理中心,所述方法包括:
获取至少两个数据集所分别对应的配置信息,
根据所述至少两个数据集所分别对应的配置信息为所述至少两个数据集分别生成各自的配置文件和数据集标识,所述配置文件包括接入配置子文件、计算配置子文件和存储配置子文件;
分别向所述接入子系统、所述计算子系统和所述存储子系统发送对应的配置子文件和所述数据集标识,以便所述接入子系统在接收到所述至少两个数据集和各自对应的所述数据集标识之后,查询与各个数据集标识对应的接入配置子文件,并根据所述接入配置子文件将各个数据集和各个数据集对应的数据集标识发送给所述计算子系统;以便所述计算子系统在接收到所述接入子系统发送的各个数据集和各个数据集对应的数据集标识之后,查询与各个数据集标识对应的计算配置子文件,并根据所述计算配置子文件对所述各个数据集进行相同或者不同的统计分析以得到对应的结果数据集,并将各个数据集标识和对应的所述结果数据集发送给所述存储子系统;以便所述存储子系统在接收到所述计算子系统发送的各个数据集标识和对应的所述结果数据集之后,查询与各个数据集标识对应的存储配置子文件,根据所述存储配置子文件将所述结果数据集按照相同或不同的方式存储至不同存储位置。
本发明实施例提供的技术方案带来的有益效果是:
通过管理中心获取各个数据集分别对应的配置信息,并根据配置信息为各个数据集生成对应的配置文件和数据集标识,并将配置文件中各个配置子文件和数据集标识分别发送给接入子系统、计算子系统和存储子系统,以便接入子系统、计算子系统和存储子系统分别根据对应的配置子文件对各个数据集进行处理;使得该系统可以根据用户的配置完成各种类型的数据的处理;从而解决了由于要处理多种类型的数据而需要开发建立多套系统导致需要花费大量资源和时间的问题;达到了一种数据处理系统只需通过简单的配置即可完成多种数据类型的处理的效果。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例一提供的数据处理系统的结构示意图;
图2是本发明实施例二提供的数据处理系统的结构示意图;
图3是本发明实施例二提供的数据处理系统涉及的处理路径示意图;
图4是发明实施例三提供的管理中心的结构方框图;
图5是本发明实施例四提供的管理中心的结构方框图;
图6是本发明实施例五提供的数据处理方法的方法流程图;
图7是本发明实施例六提供的数据处理方法的方法流程图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。
实施例一
请参考图1,其示出了本发明实施例一提供的数据处理系统的结构示意图。该数据处理系统包括:管理中心110、分别与管理中心110相连的接入子系统120、计算子系统130和存储子系统140,接入子系统120还与计算子系统130相连,计算子系统130还与存储子系统140相连;
管理中心110,用于获取至少两个数据集所分别对应的配置信息,并根据至少两个数据集所分别对应的配置信息为至少两个数据集分别生成各自的配置文件和数据集标识,配置文件包括接入配置子文件、计算配置子文件和存储配置子文件;分别向接入子系统120、计算子系统130和存储子系统140发送对应的配置子文件和数据集标识;
接入子系统120,用于接收至少两个数据集和各自对应的数据集标识,查询与各个数据集标识对应的接入配置子文件,并根据接入配置子文件将各个数据集和各个数据集对应的数据集标识发送给计算子系统130;
计算子系统130,用于接收各个数据集和各个数据集对应的数据集标识,查询与各个数据集标识对应的计算配置子文件,并根据计算配置子文件对各个数据集进行相同或者不同的统计分析以得到对应的结果数据集,并将各个数据集标识和对应的结果数据集发送给存储子系统140;
存储子系统140,用于接收各个数据集标识和对应的结果数据集,查询与各个数据集标识对应的存储配置子文件,根据存储配置子文件将结果数据集按照相同或不同的方式存储至不同存储位置。
综上所述,本发明实施例提供的数据处理系统,通过管理中心获取各个数据集分别对应的配置信息,并根据配置信息为各个数据集生成对应的配置文件和数据集标识,并将配置文件中各个配置子文件和数据集标识分别发送给接入子系统、计算子系统和存储子系统,以便接入子系统、计算子系统和存储子系统分别根据对应的配置子文件对各个数据集进行处理;使得该系统可以根据用户的配置完成各种类型的数据的处理;从而解决了由于要处理多种类型的数据而需要开发建立多套系统导致需要花费大量资源和时间的问题;达到了一种数据处理系统只需通过简单的配置即可完成多种数据类型的处理的效果。
本发明实施例提供的数据处理系统,在管理中心的UI界面上提供用户配置界面,用户可以针对自己所要处理的数据的类型进行相应的配置,即需要对数据作何处理;从而该数据处理系统可以根据用户的配置信息对用户上报的数据进行相应的处理。
实施例二
请参考图2,其示出了本发明实施例二提供的数据处理系统的结构示意图。该数据处理系统包括:管理中心210、分别与管理中心210相连的接入子系统220、计算子系统230和存储子系统240,接入子系统220还与计算子系统230相连,计算子系统230还与存储子系统240相连。
其中,接入子系统220包括至少一个接收代理服务器221和与各个接收代理服务器221相连的至少一个接收分发服务器222,每个接收代理服务器221还与至少一个上报端223相连。
计算子系统230包括至少一个计算节点231。
存储子系统240包括至少一个存储服务器241。
通常情况下,该数据处理系统的接入子系统220在多个地区分别设有上报端223和对应的接收代理服务器221,以便多个地区的用户都可以使用该数据处理系统,并且用户可以指定所需要处理的数据的处理地区及对应的存储地区。比如,图2所示的数据处理系统中,分别在深圳地区、上海地区和XX地区设有上报端223和对应的接收代理服务器221,同时设有对应的计算节点231和存储服务器241。
管理中心210,用于获取至少两个数据集所分别对应的配置信息,配置信息包括:各个数据集的数据格式、各个数据集的处理信息和各个数据集的结果信息。其中,各个数据集的数据格式包括:各个数据集的字段名、字段类型和字段长度;各个数据集的处理信息包括:各个数据集的字段维度和字段指标;各个数据集的结果信息包括:各个数据集对应的结果数据集的存储方式和存储位置。
需要说明的是,至少两个数据集的数据类型可以相同,也可以不同,用户只需要针对自己所要处理的数据进行相应的配置,该数据处理系统即可完成各种数据类型的处理。
比如,用户需要分别统计表1中所示的希望小学的所有学生的语文成绩的平均成绩、一(1)班所有学生的数学成绩的平均成绩和学生李晓的语文、数学和英语三科成绩的平均值,则用户需要在管理中心的UI界面中输入对该数据集的配置信息,包括该数据集的数据格式、处理信息和结果信息;
其中,该数据集的数据格式包括:第一列数据的字段名为学校、字段类型为字符型、字段长度为4;第二列数据的字段名为班级、字段类型为字符型、字段长度为4;第三列数据的字段名为姓名、字段类型为字符型、字段长度为3;第四列数据的字段名为语文成绩、字段类型为数值型、字段长度为3;第五列数据的字段名为数学成绩、字段类型为数值型、字段长度为3;第六列数据的字段名为英语成绩、字段类型为数值型、字段长度为3;对于求表1中所示的希望小学的所有学生的语文成绩的平均成绩的处理信息包括:字段维度为希望小学和语文成绩,字段指标为求平均值,即表示要对表1中希望小学的所有学生的语文成绩求平均值;对于求表1中所示的一(1)班所有学生的数学成绩的平均成绩的处理信息包括:字段维度为一(1)和数学成绩,字段指标为求平均值,即表示要对表1中一(1)的所有学生的数学成绩求平均值;对于求表1中所示的学生李晓的语文、数学和英语三科成绩的平均值的处理信息包括:字段维度为李晓、语文成绩、数学成绩和英语成绩,字段指标为求平均值,即表示要对表1中李晓的语文、数学和英语三科成绩求平均值;该数据集的结果信息为以文件系统方式存储至存储服务器。
表1
学校 班级 姓名 语文成绩 数学成绩 英语成绩
希望小学 一(1) 李晓 78 96 92
希望小学 一(1) 田美 94 82 76
希望小学 一(1) 朱浩 85 97 70
希望小学 一(2) 胡佳 81 84 88
希望小学 一(2) 吴宇 80 98 82
需要说明的是,若用户非常了解该数据处理系统,则还可以进一步指定该数据处理系统的哪些设备进行相应的操作,但是,对于一般用户来说通常不熟悉系统内部的设备运行情况,所以由系统管理员来进行配置该部分信息。
管理中心210在接收到用户对于该数据集的配置信息之后,根据各个数据集的数据格式生成配置文件中的接入配置子文件,并结合接入子系统系统中各个设备的负载情况生成接入配置子文件中的传输规则和分发规则;根据各个数据集的处理信息生成配置文件中的计算配置子文件,并结合计算子系统中各个计算节点的负载情况生成计算配置子文件中的处理路径信息;根据各个数据集的结果信息生成配置文件中的存储配置子文件,并结合存储子系统中的各个存储服务器的负载情况生成存储配置子文件中的存储信息和迁移规则。
比如,管理中心210在接收到上述配置信息之后,为该数据集生成配置文件和数据集标识1000001,并结合接入子系统220中各个设备的负载情况生成接入配置子文件中的传输规则和分发规则,其中,传输规则规定了接入子系统220中各个接收代理服务器221和接收分发服务器222在传输数据集标识为1000001的数据集时对应的传输链路及二者之间的对应关系。分发规则规定了接收分发服务器222需要将数据集标识为1000001的数据集分发给计算子系统230中的哪些计算节点231。
管理中心210在接收到上述配置信息之后还结合计算子系统230中各个计算节点231的负载情况生成计算配置子文件中的处理路径信息;该处理路径信息包括各个数据集所需要的各个统计分析步骤所对应的数据集标识及执行各个统计分析步骤的计算节点231的信息。
管理中心210在接收到上述配置信息之后还结合存储子系统240中的各个存储服务器241的负载情况生成存储配置子文件中的存储信息和迁移规则;其中,存储信息规定了各个结果数据集的存储方式及对应的存储服务器241,迁移规则规定了各个结果数据集的的迁移操作。
管理中心210在为各个子系统生成对应的配置子文件之后,分别向接入子系统220、计算子系统230和存储子系统240发送对应的配置子文件和数据集标识。
接入子系统220,用于接收至少两个数据集和各自对应的数据集标识,查询与各个数据集标识对应的接入配置子文件,并根据接入配置子文件将各个数据集和各个数据集对应的数据集标识发送给计算子系统240。
接入子系统220中,上报端223用于接收各个数据集和各个数据集对应的数据集标识,并将各个数据集和各个数据集对应的数据集标识上报至相连的接收代理服务器221。
比如,用户在管理中心210的UI界面输入所要处理的数据集的配置信息之后,管理中心210为用户所要处理的数据集生成一个数据集标识1000001,用户在上传需要处理的如表1所示的数据集时,将表1所示的数据集和该数据集对应的数据集标识1000001一起上传至上报端223,以便上报端223将该数据集和对应的数据集标识上报至相连的接收代理服务器221。
接收代理服务器221根据各个数据集对应的数据集标识查询与各个数据集对应的接入配置子文件中的传输规则,并根据对应的传输规则将各个数据集和各个数据集对应的数据集标识传输给对应的接收分发服务器222。
比如,接收代理服务器221在接收到上报端223上报的数据集和对应的数据集标识1000001后,根据数据集标识1000001查询管理中心210发送的接入配置子文件中对应于该数据集1000001的传输规则,根据查询到的传输规则选择对应的VIDC(Virtual Internet Data Center,虚拟互联网数据中心)链路将该数据集和对应的数据集标识1000001传输给对应的接收分发服务器222。
需要说明的是,为了整个系统的正常运行和传输的安全性,接收代理服务器221通过虚拟互联网数据中心VIDC链路将各个数据集和各个数据集对应的数据集标识传输给对应的接收分发服务器222,且每个接收代理服务器221和对应的接收分发服务器222之间会有两条甚至多条VIDC链路,所以接收代理服务器221在接收到数据集和对应的数据集标识后需要根据对应的传输规则来传输给对应的接收分发服务器222。
接收分发服务器222,用于根据各个数据集对应的数据集标识查询与各个数据集对应的接入配置子文件中的分发规则,并根据对应的分发规则将各个数据集和各个数据集对应的数据集标识传输给计算子系统230。
比如,接收分发服务器222在接收到接收代理服务器221发送的数据集和对应的数据集标识1000001后,首先将该数据集和对应的数据集标识转换成二进制数据,再根据数据集标识1000001查询管理中心210发送的接入配置子文件中对应于数据集1000001的分发规则,根据查询到的分发规则将转换成二进制数据的数据集和对应的数据集标识传输给计算子系统230中的对应的计算节点231。
计算子系统230,用于接收各个数据集和各个数据集对应的数据集标识,查询与各个数据集标识对应的计算配置子文件,并根据计算配置子文件对各个数据集进行相同或者不同的统计分析以得到对应的结果数据集,并将各个数据集标识和对应的结果数据集发送给存储子系统240。
计算子系统230中,各个计算节点231用于根据各个数据集标识查询与各个数据集对应的计算配置子文件中的处理路径信息,该处理路径信息包括各个数据集所需要的各个统计分析步骤所对应的数据集标识及执行各个统计分析步骤的计算节点信息。
各个计算节点231,还用于根据处理路径信息中需要自身执行的统计分析步骤和对应的数据集标识对各个数据集执行至少一个统计分析步骤,并在统计分析后输出各个数据集的中间数据集或者结果数据集。
各个计算节点231,还用于将中间数据集以及与中间数据集对应的数据集标识发送给处理路径信息所指示的下一跳计算节点;或者,将结果数据集以及与结果数据集对应的数据集标识发送给存储子系统240。
其中,每个数据集对应的数据集标识为始终不变的标识;或者,每个数据集对应的数据集标识为拥有继承关系的若干个数据集标识,所述若干个数据集标识包括原始数据集标识,和根据统计分析步骤的执行、在前一数据集标识基础上根据统计分析步骤继承生成的新的数据集标识,该新的数据集标识不仅继续用于唯一标识对应数据集的身份,还用于标识已经执行过的统计分析步骤。
比如,管理中心210为数据集标识为1000001的数据集生成的处理路径信息如图3所示,
计算节点231中的节点1接收到该数据集之后,按照该处理路径信息将数据集分别发送给节点2、节点3和节点4;分别由节点2、节点3和节点4计算该数据集中的希望小学的所有学生的语文成绩的平均成绩、一(1)班所有学生的数学成绩的平均成绩和学生李晓的语文、数学和英语三科成绩的平均值,即由上述各个节点中的统计进程分别先对该数据集中希望小学的所有学生的语文成绩、一(1)班所有学生的数学成绩和学生李晓的语文、数学和英语三科成绩进行求和,进而求平均值,分别得到希望小学的所有学生的语文成绩的平均成绩83.6、一(1)班所有学生的数学成绩的平均成绩91.7和学生李晓的语文、数学和英语三科成绩的平均值86.7。同时,在计算完毕后将数据集标识对应修改为2000001、2000002和2000003,并将处理后的数据集及对应修改后的数据集标识发送至节点5,由节点5将处理得到的结果数据集及对应的数据及标识4000001、4000002和4000003发送给存储子系统240。
上述各个计算节点231中,节点3、节点4和节点5由图中的节点N代替。
上述各个计算节点231在对数据集进行处理后,根据自身执行的统计分析步骤、在前一数据集标识基础上根据统计分析步骤继承生成的新的数据集标识,该新的数据集标识不仅继续用于唯一标识对应数据集的身份,还用于标识已经执行过的统计分析步骤。比如,在上述计算过程中,节点2、节点3和节点4在根据处理路径信息对数据集执行对应的统计分析步骤之后,在前一数据集标识1000001的基础上根据自身执行的统计分析步骤生成新的数据集标识2000001、2000002和2000003。
需要说明的是,对于各个数据集的统计分析处理步骤,包括数据接入转换、或者数据接入转换和以下之一或其任意组合:数据分流、数据解析翻译、数据筛选、数据聚合统计和数据指标统计。其中,数据接入转换即将各个数据集和对应的数据集标识转换成二进制编码格式;数据分流即将当前节点处理后的数据传输至下一节点或下一步处理,比如上述节点1将数据集中希望小学的所有学生的语文成绩、一(1)班所有学生的数学成绩和学生李晓的语文、数学和英语三科成绩分流至节点2、节点3和节点4;数据解析翻译即将数据集中指定的某一字段解析翻译成相关信息,形成新的字段信息追加到数据集中。比如,可以根据数据集中的IP信息翻译出国家省市的地区信息。数据筛选即根据数据集中某一字段对数据集进行过滤、拆分,计算不同统计纬度。数据聚合统计即将数据集中的某一字段作为唯一索引将数据集进行合并统计。数据指标统计即对数据集中的指定字段进行求和、求最大最小值、求平均值、成功率、正态分布等统计计算。本发明实施例以对数据集中的希望小学的所有学生的语文成绩、一(1)班所有学生的数学成绩和学生李晓的语文、数学和英语三科成绩求平均值为例进行说明。
另外,上述统计分析处理步骤也可以由同一计算节点231执行完成,上述实施例中以由不同的计算节点231执行完成为例进行说明。管理中心210是在结合各个计算节点231的负载情况、运行情况等各方面情况的基础上为该数据集生成处理路径信息的,即各个计算节点231只需要根据管理中心210发送计算配置子文件中的处理路径信息来执行对应的统计分析步骤即可。
存储子系统240,用于接收各个数据集标识和对应的结果数据集,查询与各个数据集标识对应的存储配置子文件,根据存储配置子文件将结果数据集按照相同或不同的方式存储至不同存储位置。
存储子系统240中,各个存储服务器241,用于根据各个数据集标识查询与各个数据集对应的存储信息,并根据对应的存储信息将各个结果数据集按照相同或者不同的方式存储至相应的存储位置。
各个存储服务器241,还用于根据各个数据集标识查询与各个数据集对应的迁移规则,并根据对应的迁移规则将各个结果数据集从初始存储位置迁移至目的存储位置。
比如,用户要求以文件系统方式将上述结果数据集存储至对应的存储服务器,各个存储服务器241则根据该结果数据集的数据集标识4000001、4000002和4000003查询管理中心210发送的存储配置子文件中的存储信息,并根据存储信息以文件系统方式将上述结果数据集存储至对应的存储服务器。
若用户要求在存储上述结果数据集3个月后将其删除,那么存储服务器241根据该结果数据集的数据集标识4000001、4000002和4000003查询到的该数据集对应的迁移规则即为3个月后将该结果数据集从对应的存储服务器241中删除。
需要说明的是,该数据处理系统中的存储服务器241支持关系型数据库存储、非关系型数据库存储、文件系统存储方式和内存缓存存储方式等多种存储方式。本发明实施例以存储服务器241以文件系统存储方式进行存储结果数据集为例进行说明。
另外,本发明实施例以用户需要统计表1所示的实验组五名同学的各科平均成绩为例进行说明,若用户需要处理其他类型的数据集,则只需要在管理中心210的UI界面上对所要处理的数据集进行相应的配置,该数据处理系统即可完成相应的处理。
综上所述,本发明实施例提供的数据处理系统,通过管理中心获取各个数据集分别对应的配置信息,根据配置信息为各个数据集生成对应的配置文件和数据集标识。具体的,管理中心根据配置信息中的数据格式生成配置文件中的接入配置子文件,并结合接入子系统系统中各个设备的负载情况生成接入配置子文件中的传输规则和分发规则;根据各个数据集的处理信息生成配置文件中的计算配置子文件,并结合计算子系统中各个计算节点的负载情况生成计算配置子文件中的处理路径信息;根据各个数据集的结果信息生成配置文件中的存储配置子文件,并结合存储子系统中的各个存储服务器的负载情况生成存储配置子文件中的存储信息和迁移规则,将配置文件中各个配置子文件和数据集标识分别发送给接入子系统、计算子系统和存储子系统,以便接入子系统、计算子系统和存储子系统分别根据对应的配置子文件对各个数据集进行处理;使得该系统可以根据用户的配置完成各种类型的数据的处理;从而解决了由于要处理多种类型的数据而需要开发建立多套系统导致需要花费大量资源和时间的问题;达到了一种数据处理系统只需通过简单的配置即可完成多种数据类型的处理的效果。
实施例三
请参考图4,其示出了本发明实施例三提供的管理中心的结构方框图。该管理中心包括:
获取模块410,用于获取至少两个数据集所分别对应的配置信息;
生成模块420,根据所述获取模块410获取到的至少两个数据集所分别对应的配置信息为所述至少两个数据集分别生成各自的配置文件和数据集标识,所述配置文件包括接入配置子文件、计算配置子文件和存储配置子文件;
发送模块430,用于分别向接入子系统、计算子系统和存储子系统发送所述生成模块420生成的对应的配置子文件和所述数据集标识,以便所述接入子系统在接收到所述至少两个数据集和各自对应的所述数据集标识之后,查询与各个数据集标识对应的接入配置子文件,并根据所述接入配置子文件将各个数据集和各个数据集对应的数据集标识发送给所述计算子系统;以便所述计算子系统在接收到所述接入子系统发送的各个数据集和各个数据集对应的数据集标识之后,查询与各个数据集标识对应的计算配置子文件,并根据所述计算配置子文件对所述各个数据集进行相同或者不同的统计分析以得到对应的结果数据集,并将各个数据集标识和对应的所述结果数据集发送给所述存储子系统;以便所述存储子系统在接收到所述计算子系统发送的各个数据集标识和对应的所述结果数据集之后,查询与各个数据集标识对应的存储配置子文件,根据所述存储配置子文件将所述结果数据集按照相同或不同的方式存储至不同存储位置。
综上所述,本发明实施例提供的管理中心,通过获取各个数据集分别对应的配置信息,并根据配置信息为各个数据集生成对应的配置文件和数据集标识,并将配置文件中各个配置子文件和数据集标识分别发送给接入子系统、计算子系统和存储子系统,以便接入子系统、计算子系统和存储子系统分别根据对应的配置子文件对各个数据集进行处理;使得该系统可以根据用户的配置完成各种类型的数据的处理;从而解决了由于要处理多种类型的数据而需要开发建立多套系统导致需要花费大量资源和时间的问题;达到了一种数据处理系统只需通过简单的配置即可完成多种数据类型的处理的效果。
实施例四
请参考图5,其示出了本发明实施例四提供的管理中心的结构方框图。该管理中心包括:
获取模块510,用于获取至少两个数据集所分别对应的配置信息;
所述配置信息包括:各个数据集的数据格式、各个数据集的处理信息和各个数据集的结果信息;
所述各个数据集的数据格式包括:各个数据集的字段名、字段类型和字段长度;
所述各个数据集的处理信息包括:各个数据集的字段维度和字段指标;
所述各个数据集的结果信息包括:各个数据集对应的结果数据集的存储方式和存储位置;
生成模块520,根据所述获取模块510获取到的至少两个数据集所分别对应的配置信息为所述至少两个数据集分别生成各自的配置文件和数据集标识,所述配置文件包括接入配置子文件、计算配置子文件和存储配置子文件;
具体的讲,所述生成模块520,包括:
标识生成单元521,用于生成各个数据集对应的数据集标识;
接入生成单元522,用于根据所述各个数据集的数据格式生成所述配置文件中的接入配置子文件,并结合所述接入子系统系统中各个设备的负载情况生成所述接入配置子文件中的传输规则和分发规则;
计算生成单元523,用于根据所述各个数据集的处理信息生成所述配置文件中的计算配置子文件,并结合所述计算子系统中各个计算节点的负载情况生成所述计算配置子文件中的处理路径信息;
存储生成单元524,用于根据所述各个数据集的结果信息生成所述配置文件中的存储配置子文件,并结合所述存储子系统中的各个存储服务器的负载情况生成所述存储配置子文件中的存储信息和迁移规则。
发送模块530,用于分别向接入子系统、计算子系统和存储子系统发送所述生成模块520生成的对应的配置子文件和所述数据集标识,以便所述接入子系统在接收到所述至少两个数据集和各自对应的所述数据集标识之后,查询与各个数据集标识对应的接入配置子文件,并根据所述接入配置子文件将各个数据集和各个数据集对应的数据集标识发送给所述计算子系统;以便所述计算子系统在接收到所述接入子系统发送的各个数据集和各个数据集对应的数据集标识之后,查询与各个数据集标识对应的计算配置子文件,并根据所述计算配置子文件对所述各个数据集进行相同或者不同的统计分析以得到对应的结果数据集,并将各个数据集标识和对应的所述结果数据集发送给所述存储子系统;以便所述存储子系统在接收到所述计算子系统发送的各个数据集标识和对应的所述结果数据集之后,查询与各个数据集标识对应的存储配置子文件,根据所述存储配置子文件将所述结果数据集按照相同或不同的方式存储至不同存储位置。
综上所述,本发明实施例提供的管理中心,通过管理中心获取各个数据集分别对应的配置信息,根据配置信息为各个数据集生成对应的配置文件和数据集标识。具体的,管理中心根据配置信息中的数据格式生成配置文件中的接入配置子文件,并结合接入子系统系统中各个设备的负载情况生成接入配置子文件中的传输规则和分发规则;根据各个数据集的处理信息生成所述配置文件中的计算配置子文件,并结合计算子系统中各个计算节点的负载情况生成计算配置子文件中的处理路径信息;根据各个数据集的结果信息生成配置文件中的存储配置子文件,并结合存储子系统中的各个存储服务器的负载情况生成存储配置子文件中的存储信息和迁移规则,将配置文件中各个配置子文件和数据集标识分别发送给接入子系统、计算子系统和存储子系统,以便接入子系统、计算子系统和存储子系统分别根据对应的配置子文件对各个数据集进行处理;使得该系统可以根据用户的配置完成各种类型的数据的处理;从而解决了由于要处理多种类型的数据而需要开发建立多套系统导致需要花费大量资源和时间的问题;达到了一种数据处理系统只需通过简单的配置即可完成多种数据类型的处理的效果。
实施例五
请参考图6,其示出了本发明实施例五提供的数据处理方法的方法流程图。该数据处理方法包括:
步骤601,获取至少两个数据集所分别对应的配置信息;
管理中心获取至少两个数据集所分别对应的配置信息。
步骤602,根据至少两个数据集所分别对应的配置信息为至少两个数据集分别生成各自的配置文件和数据集标识;
管理中心根据至少两个数据集所分别对应的配置信息为至少两个数据集分别生成各自的配置文件和数据集标识,该配置文件包括接入配置子文件、计算配置子文件和存储配置子文件。
步骤603,分别向接入子系统、计算子系统和存储子系统发送对应的配置子文件和数据集标识,以便各个子系统根据配置子文件对接收到的数据集进行相应的处理。
管理中心分别向接入子系统、计算子系统和存储子系统发送的接入配置子文件、计算配置子文件、存储配置子文件和数据集标识,以便接入子系统在接收到至少两个数据集和各自对应的数据集标识之后,查询与各个数据集标识对应的接入配置子文件,并根据接入配置子文件将各个数据集和各个数据集对应的数据集标识发送给计算子系统;以便计算子系统在接收到接入子系统发送的各个数据集和各个数据集对应的数据集标识之后,查询与各个数据集标识对应的计算配置子文件,并根据计算配置子文件对各个数据集进行相同或者不同的统计分析以得到对应的结果数据集,并将各个数据集标识和对应的结果数据集发送给存储子系统;以便存储子系统在接收到计算子系统发送的各个数据集标识和对应的结果数据集之后,查询与各个数据集标识对应的存储配置子文件,根据存储配置子文件将结果数据集按照相同或不同的方式存储至不同存储位置。
综上所述,本发明实施例提供的数据处理方法,通过获取各个数据集分别对应的配置信息,并根据配置信息为各个数据集生成对应的配置文件和数据集标识,并将配置文件中各个配置子文件和数据集标识分别发送给接入子系统、计算子系统和存储子系统,以便接入子系统、计算子系统和存储子系统分别根据对应的配置子文件对各个数据集进行处理;使得该系统可以根据用户的配置完成各种类型的数据的处理;从而解决了由于要处理多种类型的数据而需要开发建立多套系统导致需要花费大量资源和时间的问题;达到了一种数据处理系统只需通过简单的配置即可完成多种数据类型的处理的效果。
实施例六
请参考图7,其示出了本发明实施例六提供的数据处理方法的方法流程图。该数据处理方法包括:
步骤701,管理中心获取至少两个数据集所分别对应的配置信息;
配置信息包括:各个数据集的数据格式、各个数据集的处理信息和各个数据集的结果信息;
其中,各个数据集的数据格式包括:各个数据集的字段名、字段类型和字段长度;各个数据集的处理信息包括:各个数据集的字段维度和字段指标;各个数据集的结果信息包括:各个数据集对应的结果数据集的存储方式和存储位置。
步骤702,管理中心根据至少两个数据集所分别对应的配置信息为至少两个数据集分别生成各自的配置文件和数据集标识;
配置文件包括接入配置子文件、计算配置子文件和存储配置子文件。
具体的讲,管理中心根据各个数据集的数据格式生成配置文件中的接入配置子文件,并结合接入子系统系统中各个设备的负载情况生成接入配置子文件中的传输规则和分发规则;
管理中心根据各个数据集的处理信息生成配置文件中的计算配置子文件,并结合计算子系统中各个计算节点的负载情况生成计算配置子文件中的处理路径信息;
管理中心根据各个数据集的结果信息生成配置文件中的存储配置子文件,并结合存储子系统中的各个存储服务器的负载情况生成存储配置子文件中的存储信息和迁移规则。
步骤703,管理中心分别向接入子系统、计算子系统和存储子系统发送对应的配置子文件和数据集标识,以便各个子系统根据对应的配置子文件对接收到的数据集进行相应的处理。
管理中心分别向接入子系统、计算子系统和存储子系统发送接入配置子文件、计算配置子文件和存储配置子文件以及数据集标识,以便各个子系统根据配置子文件对接收到的数据集进行相应的处理。
对应的,接入子系统、计算子系统和存储子系统分别接收对应的接入配置子文件、计算配置子文件和存储配置子文件和数据集标识。
步骤705,接入子系统接收用户上报的数据集和对应的数据集标识;
用户在上报数据时,会同时将管理中心根据配置信息分配的数据集标识上报到接入子系统,相应的,接入子系统接收用户上报的数据集和对应的数据集标识。
步骤706,接入子系统查询与各个数据集标识对应的接入配置子文件。
该接入配置子文件包括传输规则和分发规则,接入子系统在接收到用户上报的数据集和对应的数据集标识后,根据数据集标识查询管理中心发送的接入子配置子文件中的传输规则和分发规则。
步骤707,接入子系统根据接入配置子文件将各个数据集和各个数据集对应的数据集标识发送给计算子系统;
接入子系统根据查询到的传输规则和分发规则对接收到的数据集和对应的数据集标识发送给计算子系统。
对应的,计算子系统接收接入子系统发送的各个数据集和各个数据集对应的数据集标识
步骤708,计算子系统查询与各个数据集标识对应的计算配置子文件;
计算子系统在接收到接入子系统发送的数据集和对应的数据集标识后,根据数据集标识查询管理中心发送的计算配置子文件,该计算配置子文件包括处理路径信息,处理路径信息包括各个数据集所需要的各个统计分析步骤所对应的数据集标识及执行各个统计分析步骤的计算节点信息。
步骤709,计算子系统根据处理路径信息对各个数据集进行相同或者不同的统计分析得到对应的结果数据集;
计算子系统根据查询到的处理路径信息对接入子系统发送的各个数据集和对应的数据集标识进行相同或者不同的统计分析得到对应的结果数据集。
其中,每个数据集对应的数据集标识为始终不变的标识;或者,每个数据集对应的数据集标识为拥有继承关系的若干个数据集标识,若干个数据集标识包括原始数据集标识,和根据统计分析步骤的执行、在前一数据集标识基础上根据统计分析步骤继承生成的新的数据集标识,新的数据集标识不仅继续用于唯一标识对应数据集的身份,还用于标识已经执行过的统计分析步骤。
步骤710,计算子系统将各个数据集标识和对应的结果数据集发送给存储子系统;
对应的,存储子系统接收计算子系统发送的各个数据集标识和对应的结果数据集。
步骤711,存储子系统查询与各个数据集标识对应的存储配置子文件;
存储子系统在接收到计算子系统发送的各个数据集标识和对应的结果数据集之后,根据各个数据集标识查询管理中心发送的存储配置子文件,该存储配置子文件包括存储信息和迁移规则。
步骤712,存储子系统根据存储配置子文件将结果数据集按照相同或不同的方式存储至不同存储位置。
存储子系统根据存储配置子文件中的存储信息将结果数据集按照相同或不同的方式存储至不同存储位置。
步骤713,存储子系统根据存储配置子文件中的迁移规则将将各个结果数据集从初始存储位置迁移至目的存储位置。
综上所述,本发明实施例提供的数据处理方法,通过管理中心获取各个数据集分别对应的配置信息,根据配置信息为各个数据集生成对应的配置文件和数据集标识。具体的,管理中心根据配置信息中的数据格式生成配置文件中的接入配置子文件,并结合接入子系统系统中各个设备的负载情况生成接入配置子文件中的传输规则和分发规则;根据各个数据集的处理信息生成配置文件中的计算配置子文件,并结合计算子系统中各个计算节点的负载情况生成计算配置子文件中的处理路径信息;根据各个数据集的结果信息生成配置文件中的存储配置子文件,并结合存储子系统中的各个存储服务器的负载情况生成存储配置子文件中的存储信息和迁移规则,将配置文件中各个配置子文件和数据集标识分别发送给接入子系统、计算子系统和存储子系统,以便接入子系统、计算子系统和存储子系统分别根据对应的配置子文件对各个数据集进行处理;使得该系统可以根据用户的配置完成各种类型的数据的处理;从而解决了由于要处理多种类型的数据而需要开发建立多套系统导致需要花费大量资源和时间的问题;达到了一种数据处理系统只需通过简单的配置即可完成多种数据类型的处理的效果。
需要说明的是:上述实施例提供的数据处理系统在进行数据处理时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将系统的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的数据处理系统与数据处理方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (11)

1.一种数据处理系统,其特征在于,所述系统包括:管理中心、分别与所述管理中心相连的接入子系统、计算子系统和存储子系统,所述接入子系统还与所述计算子系统相连,所述计算子系统还与所述存储子系统相连;
所述管理中心,用于获取至少两个数据集所分别对应的配置信息,并根据所述至少两个数据集所分别对应的配置信息为所述至少两个数据集分别生成各自的配置文件和数据集标识,所述配置文件包括接入配置子文件、计算配置子文件和存储配置子文件;分别向所述接入子系统、所述计算子系统和所述存储子系统发送对应的配置子文件和所述数据集标识;
所述接入子系统,用于接收所述至少两个数据集和各自对应的所述数据集标识,查询与各个数据集标识对应的接入配置子文件,并根据所述接入配置子文件将各个数据集和各个数据集对应的数据集标识发送给所述计算子系统;
所述计算子系统,用于接收各个数据集和各个数据集对应的数据集标识,查询与各个数据集标识对应的计算配置子文件,并根据所述计算配置子文件对各个数据集进行相同或者不同的统计分析以得到对应的结果数据集,并将各个数据集标识和对应的所述结果数据集发送给所述存储子系统;
所述存储子系统,用于接收各个数据集标识和对应的所述结果数据集,查询与各个数据集标识对应的存储配置子文件,根据所述存储配置子文件将所述结果数据集按照相同或不同的方式存储至不同存储位置。
2.根据权利要求1所述的数据处理系统,其特征在于,所述接入配置子文件包括传输规则和分发规则,所述接入子系统包括:至少一个接收代理服务器和与各个接收代理服务器相连的至少一个接收分发服务器,每个接收代理服务器还与至少一个上报端相连;
所述上报端,用于接收各个数据集和各个数据集对应的数据集标识,并将各个数据集和各个数据集对应的数据集标识上报至相连的接收代理服务器;
所述接收代理服务器,用于根据各个数据集对应的数据集标识查询与各个数据集对应的接入配置子文件中的传输规则,并根据对应的传输规则将各个数据集和各个数据集对应的数据集标识传输给对应的接收分发服务器;
所述接收分发服务器,用于根据各个数据集对应的数据集标识查询与各个数据集对应的接入配置子文件中的分发规则,并根据对应的分发规则将各个数据集和各个数据集对应的数据集标识传输给所述计算子系统。
3.根据权利要求2所述的数据处理系统,其特征在于:
所述接收代理服务器,用于通过虚拟互联网数据中心VIDC链路将各个数据集和各个数据集对应的数据集标识传输给对应的接收分发服务器。
4.根据权利要求1所述的数据处理系统,其特征在于,所述计算配置子文件包括处理路径信息,所述处理路径信息包括各个数据集所需要的各个统计分析步骤所对应的数据集标识及执行各个统计分析步骤的计算节点信息;
所述计算子系统包括:至少一个计算节点;
各个计算节点,用于根据各个数据集标识查询与各个数据集对应的计算子文件中的处理路径信息,根据所述处理路径信息对各个数据集进行相同或者不同的统计分析得到对应的结果数据集,并将各个数据集标识和对应的所述结果数据集发送给所述存储子系统;
各个计算节点,用于根据所述处理路径信息中需要自身执行的统计分析步骤和对应的数据集标识对各个数据集执行至少一个统计分析步骤,并在统计分析后输出各个数据集的中间数据集或者结果数据集;
各个计算节点,还用于将所述中间数据集以及与所述中间数据集对应的数据集标识发送给所述处理路径信息所指示的下一跳计算节点;或者,将所述结果数据集以及与所述结果数据集对应的数据集标识发送给所述存储子系统。
5.根据权利4所述的数据处理系统,其特征在于,所述与各个数据集对应的数据集标识用于唯一标识对应数据集的身份;
每个数据集对应的数据集标识为始终不变的标识;
或者,
每个数据集对应的数据集标识为拥有继承关系的若干个数据集标识,所述若干个数据集标识包括原始数据集标识,和根据统计分析步骤的执行、在前一数据集标识基础上根据所述统计分析步骤继承生成的新的数据集标识,所述新的数据集标识不仅继续用于唯一标识对应数据集的身份,还用于标识已经执行过的所述统计分析步骤。
6.根据权利要求1所述的数据处理系统,其特征在于,所述存储配置子文件包括存储信息和迁移规则,所述存储子系统包括:至少一个存储服务器;
各个存储服务器,用于根据各个数据集标识查询与各个数据集对应的存储信息,并根据对应的存储信息将各个结果数据集按照相同或者不同的方式存储至相应的存储位置;
各个存储服务器,还用于根据各个数据集标识查询与各个数据集对应的迁移规则,并根据对应的迁移规则将各个结果数据集从初始存储位置迁移至目的存储位置。
7.根据权利要求1至6任一所述的数据处理系统,其特征在于,所述配置信息包括:各个数据集的数据格式、各个数据集的处理信息和各个数据集的结果信息;
所述各个数据集的数据格式包括:各个数据集的字段名、字段类型和字段长度;
所述各个数据集的处理信息包括:各个数据集的字段维度和字段指标;
所述各个数据集的结果信息包括:各个数据集对应的结果数据集的存储方式和存储位置;
所述管理中心,用于根据所述各个数据集的数据格式生成所述配置文件中的接入配置子文件,并结合所述接入子系统系统中各个设备的负载情况生成所述接入配置子文件中的传输规则和分发规则;
所述管理中心,还用于根据所述各个数据集的处理信息生成所述配置文件中的计算配置子文件,并结合所述计算子系统中各个计算节点的负载情况生成所述计算配置子文件中的处理路径信息;
所述管理中心,还用于根据所述各个数据集的结果信息生成所述配置文件中的存储配置子文件,并结合所述存储子系统中的各个存储服务器的负载情况生成所述存储配置子文件中的存储信息和迁移规则。
8.一种管理中心,用于如权利要求1所述的数据处理系统中,其特征在于,所述管理中心,包括:
获取模块,用于获取至少两个数据集所分别对应的配置信息;
生成模块,根据所述获取模块获取到的至少两个数据集所分别对应的配置信息为所述至少两个数据集分别生成各自的配置文件和数据集标识,所述配置文件包括接入配置子文件、计算配置子文件和存储配置子文件;
发送模块,用于分别向接入子系统、计算子系统和存储子系统发送对应的配置子文件和所述数据集标识,以便所述接入子系统在接收到所述至少两个数据集和各自对应的所述数据集标识之后,查询与各个数据集标识对应的接入配置子文件,并根据所述接入配置子文件将各个数据集和各个数据集对应的数据集标识发送给所述计算子系统;以便所述计算子系统在接收到所述接入子系统发送的各个数据集和各个数据集对应的数据集标识之后,查询与各个数据集标识对应的计算配置子文件,并根据所述计算配置子文件对所述各个数据集进行相同或者不同的统计分析以得到对应的结果数据集,并将各个数据集标识和对应的所述结果数据集发送给所述存储子系统;以便所述存储子系统在接收到所述计算子系统发送的各个数据集标识和对应的所述结果数据集之后,查询与各个数据集标识对应的存储配置子文件,根据所述存储配置子文件将所述结果数据集按照相同或不同的方式存储至不同存储位置。
9.根据权利要求8所述的管理中心,其特征在于,所述配置信息包括:各个数据集的数据格式、各个数据集的处理信息和各个数据集的结果信息;
所述各个数据集的数据格式包括:各个数据集的字段名、字段类型和字段长度;
所述各个数据集的处理信息包括:各个数据集的字段维度和字段指标;
所述各个数据集的结果信息包括:各个数据集对应的结果数据集的存储方式和存储位置;
所述生成模块,包括:
标识生成单元,用于生成各个数据集对应的数据集标识;
接入生成单元,用于根据所述各个数据集的数据格式生成所述配置文件中的接入配置子文件,并结合所述接入子系统系统中各个设备的负载情况生成所述接入配置子文件中的传输规则和分发规则;
计算生成单元,用于根据所述各个数据集的处理信息生成所述配置文件中的计算配置子文件,并结合所述计算子系统中各个计算节点的负载情况生成所述计算配置子文件中的处理路径信息;
存储生成单元,用于根据所述各个数据集的结果信息生成所述配置文件中的存储配置子文件,并结合所述存储子系统中的各个存储服务器的负载情况生成所述存储配置子文件中的存储信息和迁移规则。
10.一种数据处理方法,用于如权利要求1所述的数据处理系统中的管理中心,其特征在于,所述方法包括:
获取至少两个数据集所分别对应的配置信息,
根据所述至少两个数据集所分别对应的配置信息为所述至少两个数据集分别生成各自的配置文件和数据集标识,所述配置文件包括接入配置子文件、计算配置子文件和存储配置子文件;
分别向所述接入子系统、所述计算子系统和所述存储子系统发送对应的配置子文件和所述数据集标识,以便所述接入子系统在接收到所述至少两个数据集和各自对应的所述数据集标识之后,查询与各个数据集标识对应的接入配置子文件,并根据所述接入配置子文件将各个数据集和各个数据集对应的数据集标识发送给所述计算子系统;以便所述计算子系统在接收到所述接入子系统发送的各个数据集和各个数据集对应的数据集标识之后,查询与各个数据集标识对应的计算配置子文件,并根据所述计算配置子文件对所述各个数据集进行相同或者不同的统计分析以得到对应的结果数据集,并将各个数据集标识和对应的所述结果数据集发送给所述存储子系统;以便所述存储子系统在接收到所述计算子系统发送的各个数据集标识和对应的所述结果数据集之后,查询与各个数据集标识对应的存储配置子文件,根据所述存储配置子文件将所述结果数据集按照相同或不同的方式存储至不同存储位置。
11.根据权利要求10所述的数据处理方法,其特征在于,所述配置信息包括:各个数据集的数据格式、各个数据集的处理信息和各个数据集的结果信息;
所述各个数据集的数据格式包括:各个数据集的字段名、字段类型和字段长度;
所述各个数据集的处理信息包括:各个数据集的字段维度和字段指标;
所述各个数据集的结果信息包括:各个数据集对应的结果数据集的存储方式和存储位置;
所述根据所述至少两个数据集所分别对应的配置信息为所述至少两个数据集分别生成各自的配置文件,包括:
根据所述各个数据集的数据格式生成所述配置文件中的接入配置子文件,并结合所述接入子系统系统中各个设备的负载情况生成所述接入配置子文件中的传输规则和分发规则;
根据所述各个数据集的处理信息生成所述配置文件中的计算配置子文件,并结合所述计算子系统中各个计算节点的负载情况生成所述计算配置子文件中的处理路径信息;
根据所述各个数据集的结果信息生成所述配置文件中的存储配置子文件,并结合所述存储子系统中的各个存储服务器的负载情况生成所述存储配置子文件中的存储信息和迁移规则。
CN201310323031.6A 2013-07-29 2013-07-29 数据处理系统、管理中心和数据处理方法 Active CN104346358B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310323031.6A CN104346358B (zh) 2013-07-29 2013-07-29 数据处理系统、管理中心和数据处理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310323031.6A CN104346358B (zh) 2013-07-29 2013-07-29 数据处理系统、管理中心和数据处理方法

Publications (2)

Publication Number Publication Date
CN104346358A true CN104346358A (zh) 2015-02-11
CN104346358B CN104346358B (zh) 2018-11-23

Family

ID=52501983

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310323031.6A Active CN104346358B (zh) 2013-07-29 2013-07-29 数据处理系统、管理中心和数据处理方法

Country Status (1)

Country Link
CN (1) CN104346358B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110554916A (zh) * 2019-07-31 2019-12-10 苏宁云计算有限公司 基于分布式集群的风险指标计算方法及装置
CN110765111A (zh) * 2019-10-28 2020-02-07 深圳市商汤科技有限公司 存储和读取方法、装置、电子设备和存储介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100262631A1 (en) * 2009-04-14 2010-10-14 Sun Microsystems, Inc. Mapping Information Stored In a LDAP Tree Structure to a Relational Database Structure
US20110231459A1 (en) * 2008-08-08 2011-09-22 Yuri Hiraiwa Data management method
CN102541855A (zh) * 2010-12-10 2012-07-04 中国银联股份有限公司 信息数据处理系统及方法
CN102592185A (zh) * 2010-10-05 2012-07-18 埃森哲环球服务有限公司 电子流程驱动的协作系统
CN102663076A (zh) * 2012-03-31 2012-09-12 福建榕基软件股份有限公司 文件数据处理方法
US20130013464A1 (en) * 2006-10-31 2013-01-10 Dotted Pair, Inc. System and method for interacting with item catalogs
CN103189866A (zh) * 2010-09-17 2013-07-03 甲骨文国际公司 复杂事件处理中对于参数化的查询/视图的支持
US20130290399A1 (en) * 2011-01-10 2013-10-31 Storone Ltd. Large scale storage system

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130013464A1 (en) * 2006-10-31 2013-01-10 Dotted Pair, Inc. System and method for interacting with item catalogs
US20110231459A1 (en) * 2008-08-08 2011-09-22 Yuri Hiraiwa Data management method
US20100262631A1 (en) * 2009-04-14 2010-10-14 Sun Microsystems, Inc. Mapping Information Stored In a LDAP Tree Structure to a Relational Database Structure
CN103189866A (zh) * 2010-09-17 2013-07-03 甲骨文国际公司 复杂事件处理中对于参数化的查询/视图的支持
CN102592185A (zh) * 2010-10-05 2012-07-18 埃森哲环球服务有限公司 电子流程驱动的协作系统
CN102541855A (zh) * 2010-12-10 2012-07-04 中国银联股份有限公司 信息数据处理系统及方法
US20130290399A1 (en) * 2011-01-10 2013-10-31 Storone Ltd. Large scale storage system
CN102663076A (zh) * 2012-03-31 2012-09-12 福建榕基软件股份有限公司 文件数据处理方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110554916A (zh) * 2019-07-31 2019-12-10 苏宁云计算有限公司 基于分布式集群的风险指标计算方法及装置
CN110554916B (zh) * 2019-07-31 2022-07-29 苏宁云计算有限公司 基于分布式集群的风险指标计算方法及装置
CN110765111A (zh) * 2019-10-28 2020-02-07 深圳市商汤科技有限公司 存储和读取方法、装置、电子设备和存储介质
CN110765111B (zh) * 2019-10-28 2023-03-31 深圳市商汤科技有限公司 存储和读取方法、装置、电子设备和存储介质

Also Published As

Publication number Publication date
CN104346358B (zh) 2018-11-23

Similar Documents

Publication Publication Date Title
Del Chiappa et al. Knowledge transfer in smart tourism destinations: Analyzing the effects of a network structure
Stefanello et al. Matheuristics for the capacitated p‐median problem
CN107330034A (zh) 一种日志分析方法和装置、计算机设备、存储介质
Third et al. Linked data indexing of distributed ledgers
CN111026874A (zh) 知识图谱的数据处理方法及服务器
CN103905508A (zh) 云平台应用部署方法及装置
CN103927331A (zh) 数据查询方法、装置及系统
CN106471501A (zh) 数据查询的方法、数据对象的存储方法和数据系统
CN105554132A (zh) 一种Hadoop在线扩容的方法
Zhang et al. Distributed time-respecting flow graph pattern matching on temporal graphs
CN103581317B (zh) 一种网络资源共享的方法
Malik et al. Latency based group discovery algorithm for network aware cloud scheduling
CN105872635A (zh) 视频资源分发的方法和装置
CN105630419A (zh) 一种资源池的分区视图发送方法及管理节点
CN104346358A (zh) 数据处理系统、管理中心和数据处理方法
CN114629767A (zh) 电力调度网络仿真方法、装置、计算机设备和存储介质
CN107463638A (zh) 离线虚拟机间文件共享方法和设备
CN106302641A (zh) 一种上传文件的方法、装置和系统
Liu et al. IPv6 landmark mining based on domain name screening and IPv4-IPv6 connection
CN110019538A (zh) 一种数据表切换方法及装置
Zhang et al. An optimal container update method for edge‐cloud collaboration
CN114817389A (zh) 数据处理方法、装置、存储介质及电子设备
Radha et al. Frequency assignment model of zero divisor graph
AT&T ps/clarknet-pubs.eps
Gambs et al. Mapreducing gepeto or towards conducting a privacy analysis on millions of mobility traces

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20190731

Address after: Shenzhen Futian District City, Guangdong province 518000 Zhenxing Road, SEG Science Park 2 East Room 403

Co-patentee after: Tencent cloud computing (Beijing) limited liability company

Patentee after: Tencent Technology (Shenzhen) Co., Ltd.

Address before: Shenzhen Futian District City, Guangdong province 518000 Zhenxing Road, SEG Science Park 2 East Room 403

Patentee before: Tencent Technology (Shenzhen) Co., Ltd.

TR01 Transfer of patent right