CN111651507A - 一种大数据加工方法及系统 - Google Patents
一种大数据加工方法及系统 Download PDFInfo
- Publication number
- CN111651507A CN111651507A CN202010299719.5A CN202010299719A CN111651507A CN 111651507 A CN111651507 A CN 111651507A CN 202010299719 A CN202010299719 A CN 202010299719A CN 111651507 A CN111651507 A CN 111651507A
- Authority
- CN
- China
- Prior art keywords
- data
- processing
- model
- aggregation
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/25—Integrating or interfacing systems involving database management systems
- G06F16/254—Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2455—Query execution
- G06F16/24553—Query execution of query operations
- G06F16/24554—Unary operations; Data partitioning operations
- G06F16/24556—Aggregation; Duplicate elimination
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2455—Query execution
- G06F16/24553—Query execution of query operations
- G06F16/24558—Binary matching operations
- G06F16/2456—Join operations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2465—Query processing support for facilitating data mining operations in structured databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/25—Integrating or interfacing systems involving database management systems
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Fuzzy Systems (AREA)
- Mathematical Physics (AREA)
- Probability & Statistics with Applications (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种大数据加工方法及系统,所述方法包括:根据应用需求,提取所需最终目标数据;根据预设规则创建数据汇聚流向模型,所述数据汇聚流向模型为以最终目标数据为中心按照最简加工原则逐层列出生成目标数据所需的来源数据、加工单元以及数据流向关系;整理合并相近的加工单元,确定加工类型,创建数据加工模型;将所述数据加工模型发布到对应的数据加工引擎,执行数据加工;所述方法可以有效简化大数据加工的难度,提高大数据加工计算效率,提高软件研发效率;有效提高数据加工单元的复用程度,降低软件研发成本;实现从原始数据到目标数据加工的全流程建模与运行,实现大数据加工全流程可见、可控、可管。
Description
技术领域
本发明涉及信息技术领域,更具体地,涉及一种大数据加工方法及系统。
背景技术
大数据加工是指从原始数据经过一系列加工活动生成目标数据的过程。针对复杂的大数据应用需求,往往涉及复杂的数据加工处理,而传统的做法一般基于原始数据、基础数据考虑如何解决问题,解决问题的难度高;而且不同设计人员根据经验选择不同的路径与方法,也容易导致系统计算效率低下。
开发人员开发实现从原始数据到目标数据的数据加工活动、加工流程时将相关代码封装到相应的软件模块内部,导致加工流程是不可见的,或只是局部可见,给后期运行维护、调整修改以及软件质量管理都带来较大困难。
此外,在多种目标数据加工需求环境下,传统加工研发一般根据目标数据划分加工单元,分别交付给不同的研发人员,相互间不可见;每个模块都是从基础数据开始,研发各层次处理模块直至生成目标数据;在这过程中,往往导致模块与模块之间重复劳动,研发效率低下。
发明内容
为了解决背景技术中大数据加工过程计算效率低下、后期运行维护、调整修改困难以及研发过程重复劳动等问题,本发明提供了一种大数据加工方法及系统,所述一种大数据加工方法包括:
根据应用需求,提取所需最终目标数据;
根据预设规则创建数据汇聚流向模型,所述数据汇聚流向模型为以最终目标数据为中心按照最简加工原则逐层列出生成目标数据所需的来源数据、加工单元以及数据流向关系;所述来源数据包括中间数据以及原始数据;
整理合并相近的加工单元,确定加工类型,创建数据加工模型;
将所述数据加工模型发布到对应的数据加工引擎,执行数据加工。
进一步的,所述根据预设规则创建数据汇聚流向模型的方法包括:
步骤一,确定目标数据的数据结构,所述目标数据中间数据及最终目标数据;
步骤二,按照最简加工原则对目标数据添加来源数据,获得一个或多个来源数据,所述来源数据包括中间数据及原始数据;
步骤三,对所述一个或多个来源数据中已存在数据汇聚流向模型的中间数据,使用所述数据汇聚流向模型;对不存在数据汇聚流向模型的中间数据,将对应的中间数据设置为目标数据;
步骤四,判断所有目标数据是否均已找到来源数据,若存在未满足条件的目标数据,选择所述未满足条件的目标数据执行步骤一,直到所有目标数据均已找到来源数据或来源数据均为原始数据,生成初始数据汇聚流向模型;
若不存在未满足条件的目标数据则结束创建,生成初始数据汇聚流向模型;
步骤五,整理合并所述初始数据汇聚流向模型中相同或相近的中间数据,对每个所述目标数据及中间数据设置加工单元,获得数据汇聚流向模型。
进一步的,所述根据预设规则创建数据汇聚流向模型的方法包括:
以所述最终目标数据为中心,按照最简加工原则创建数据汇聚关系模型;
使用所述数据汇聚关系模型,整理合并所述数据汇聚关系模型中相同或相近的中间数据;
对所述每个目标数据以及中间数据设置加工单元,获得数据汇聚流向模型。
进一步的,所述创建数据汇聚关系模型的方法包括:
步骤一,确定目标数据的数据结构,所述目标数据包括最终目标数据及中间数据;
步骤二,按照最简加工原则对目标数据添加来源数据,获得一个或多个来源数据,所述来源数据包括中间数据以及原始数据;
步骤三,对所述一个或多个来源数据中已存在数据汇聚关系的中间数据使用所述汇聚关系;对不存在数据汇聚关系的中间数据,将所述中间数据设置为目标数据;
步骤四,判断所有目标数据是否均已找到来源数据,若存在未满足条件的目标数据,选择所述未满足条件的目标数据执行步骤一,直到所有目标数据均已找到来源数据或来源数据均为原始数据,生成数据汇聚关系模型;
若不存在未满足条件的目标数据则结束创建,生成数据汇聚关系模型。
进一步的,所述最简加工原则包括:
对于数据ETL、机器学习、汇聚计算以及数据映射的大数据加工类型,根据输入的来源数据加工目标数据时,不需要在内部再次生成外部存储的中间数据,数据加工过程使用的SQL嵌套不超过2层。
所述一种大数据加工系统包括:
大数据应用需求管理模块、数据汇聚流向建模模块、数据加工建模模块以及数据加工引擎;
所述大数据应用需求管理模块用于应用需求管理,以提取所需最终目标数据;
所述数据汇聚流向建模模块用于根据预设规则创建数据汇聚流向模型;
所述数据加工建模模块用于整理归并加工单元,确定加工类型,根据所述加工单元创建数据加工模型;
所述数据加工引擎用于根据发布的数据加工模型加工数据。
进一步的,所述数据汇聚流向建模模块确定目标数据的来源数据、加工单元以及数据的流向关系,所述目标数据包括中间数据及最终目标数据;
所述数据汇聚流向建模模块按照最简加工原则以及数据流向关系,对目标数据添加来源数据,获得一个或多个来源数据,所述来源数据包括中间数据以及原始数据;
所述数据汇聚流向建模模块对所述一个或多个来源数据中已存在数据汇聚流向关系的中间数据,使用所述数据汇聚流向关系;对不存在数据汇聚流向模型的中间数据,将对应的中间数据设置为目标数据;
所述数据汇聚流向建模模块判断所有目标数据是否均已找到来源数据,若存在未满足条件的目标数据,选择所述未满足条件的目标数据通过所述数据汇聚流向建模模块确定目标数据的数据来源,直到所有目标数据均已找到来源数据或来源数据均为原始数据,生成初始数据汇聚流向模型;
若不存在未满足条件的目标数据则结束创建,生成初始数据汇聚流向模型;
所述数据汇聚流向建模模块整理合并所述初始数据汇聚流向模型中相同或相近的中间数据,对所述初始数据汇聚流向模型中的每个目标数据以及中间数据设置加工单元,获得数据汇聚流向模型。
进一步的,所述系统还包括数据汇聚关系建模模块,所述数据汇聚关系建模模块用于以所述最终目标数据为中心,按照最简加工原则创建数据汇聚关系模型;
所述数据汇聚流向建模模块以所述最终目标数据为中心,按照最简加工原则创建数据汇聚关系模型;
所述数据汇聚流向建模模块使用所述数据汇聚关系模型,整理合并所述数据汇聚关系模型中相同或相近的中间数据;
所述数据汇聚流向建模模块对所述每个目标数据以及中间数据设置加工单元,获得数据汇聚流向模型。
进一步的,所述数据汇聚关系建模模块确定目标数据的数据结构,所述目标数据包括最终目标数据及中间数据;
所述数据汇聚关系建模模块按照最简加工原则对目标数据添加来源数据,获得一个或多个来源数据,所述来源数据包括中间数据以及原始数据;
所述数据汇聚关系建模模块对所述一个或多个来源数据中已存在数据汇聚关系的中间数据调用所述汇聚关系;对不存在数据汇聚关系的中间数据,将所述中间数据设置为目标数据;
所述数据汇聚关系建模模块判断所有目标数据是否均已找到来源数据,若存在未满足条件的目标数据,选择所述未满足条件的目标数据通过所述数据汇聚关系建模模块确定目标数据的数据结构,直到所有目标数据均已找到来源数据或来源数据均为原始数据,生成数据汇聚关系模型;
若不存在未满足条件的目标数据则结束创建,生成数据汇聚关系模型。
进一步的,所述最简加工原则包括:
对于数据ETL、机器学习、汇聚计算以及数据映射的大数据加工类型,根据输入的来源数据加工目标数据时,不需要在内部再次生成外部存储的中间数据,数据加工过程使用的SQL嵌套不超过2层。
进一步的,所述系统还包括数据资源元数据管理模块和数据加工监控模块;
所述数据资源元数据管理模块用于管理资源目录和数据资源元数据,所述数据资源元数据包括原始数据、目标数据以及中间数据的元数据;
所述数据加工监控模块根据数据加工引擎反馈的信息、数据汇聚流向模型以及数据加工模型,按照预设规则监控数据加工执行是否符合要求。
本发明的有益效果为:本发明提供了一种大数据加工方法及系统,所述方法以目标数据为中心,把复杂的数据加工议题通过数据汇聚关系模型与数据汇聚流向模型,按照最简加工原则分解成不同层次、可高效执行的数据节点以及加工单元;有效归并相同的数据节点和加工单元,由数据加工引擎执行加工过程。所述方法可以有效简化大数据加工的难度,提高大数据加工计算效率,提高软件研发效率;有效提高数据加工单元的复用程度,降低软件研发成本;实现从原始数据到目标数据加工的全流程建模与运行,实现大数据加工全流程可见、可控、可管。
附图说明
通过参考下面的附图,可以更为完整地理解本发明的示例性实施方式:
图1为本发明具体实施方式的一种大数据加工方法的流程图;
图2为本发明具体实施方式的一种创建数据汇聚流向模型方法的流程图;
图3为本发明具体实施方式的一种创建数据汇聚关系模型方法的流程图;
图4为本发明具体实施方式的一种大数据加工建模设计系统的结构图。
具体实施方式
现在参考附图介绍本发明的示例性实施方式,然而,本发明可以用许多不同的形式来实施,并且不局限于此处描述的实施例,提供这些实施例是为了详尽地且完全地公开本发明,并且向所属技术领域的技术人员充分传达本发明的范围。对于表示在附图中的示例性实施方式中的术语并不是对本发明的限定。在附图中,相同的单元/元件使用相同的附图标记。
除非另有说明,此处使用的术语(包括科技术语)对所属技术领域的技术人员具有通常的理解含义。另外,可以理解的是,以通常使用的词典限定的术语,应当被理解为与其相关领域的语境具有一致的含义,而不应该被理解为理想化的或过于正式的意义。
图1为本发明具体实施方式的一种大数据加工方法的流程图;如图1所示,所述方法包括:
步骤110,根据应用需求,提取所需最终目标数据;
大数据应用中,数据一般分为多个层次,包括原始数据、现实数据、操作数据、汇聚数据、应用数据等。原始数据指数据提供者提供的数据;现实数据,是通过人工采集或传感系统,直接从现实世界获得数据,反映现实世界的特性与行为活动;操作数据,用于生成目标(汇聚)数据的中间数据;汇聚数据,根据应用需要,从现实数据通过加工计算生成的目标数据,包括一次汇聚数据、二次汇聚数据、多次汇聚数据等;服务数据,用于对外数据服务的数据;应用数据,一般指用于数据可视化的数据。
大数据应用需求提出后,梳理得到应用数据或应用视图作为最终目标数据。
步骤120,根据预设规则创建数据汇聚流向模型,所述数据汇聚流向模型为以最终目标数据为中心按照最简加工原则逐层列出生成目标数据所需的来源数据、加工单元以及数据流向关系;所述来源数据包括中间数据以及原始数据;
本发明以目标数据为中心,按照最简计算原则逐层向后推导各层级数据节点,再针对数据节点设置加工单元,把复杂议题简化为若干项相对简易的议题,降低议题复杂度的同时提高计算效率。
所述数据汇聚流向模型以目标数据为中心,按最简加工原则,列出加工生成目标数据所需数据节点、对应的加工单元以及数据流向关系。所述最简原则为:对于数据ETL、机器学习、汇聚计算以及数据映射等大数据加工类型,根据输入的来源数据加工目标数据时,不需要在内部再次生成外部存储的中间数据,数据加工过程使用的SQL嵌套不超过2层。
在数据汇聚流向模型中只有一个最终目标数据,例如放在最右侧;左侧放置来源数据节点及其加工单元,并用箭头表示数据流向关系;来源数据也可作为目标数据,在其左侧列出对应的来源数据节点,如此循环直到来源数据是原始数据。
数据汇聚流向模型元素包括数据节点框以及数据流向连接线。每个数据节点框分为上下两个子框:上框为数据节点,下框为该数据节点对应的加工单元;数据流向连接线指明来源数据、目标数据的流向关系,线条箭头连接目标数据,线条尾部连接来源数据。
数据汇聚流向模型语法规则定义如下:
1.一个数据汇聚流向模型只有一项最终目标数据,放置在最右侧。
2.按照最简加工原则设置的来源数据放在目标数据表左侧,并用数据流向连接线连接来源数据和目标数据。
3.如果来源数据并非原始数据则作为中间数据,并以中间数据为目标数据,再次向左侧绘制数据来源以及数据流向关系;循环重复运行直到来源数据是原始数据。
4.相同数据只有一个数据节点;来源数据的流向连接线放在左侧;流出到目标数据的流向连接线放在右侧。
5.一个数据节点只能设置一个加工单元;不同数据节点可以设置相同的加工单元。
上述语法规则以最终目标数据放置在最右侧为例描述,目标数据位置也可为最左侧,来源数据位于目标数据右侧。
创建数据汇聚流向模型的方法有两种,第一种方法为直接对最终目标数据分析,梳理数据来源的过程中归并相同数据作为数据节点;第二种方法先绘制数据汇聚关系模型,根据数据汇聚关系模型创建数据汇聚流向模型。
如图2所示,所述第一种方法包括:
步骤210,确定目标数据的数据结构,所述目标数据中间数据及最终目标数据;
步骤220,按照最简加工原则以及数据流向关系,对目标数据添加来源数据,获得一个或多个来源数据,所述来源数据包括多个层次,中间节点为中间数据,末级节点为原始数据;
步骤230,对所述一个或多个来源数据中已存在数据汇聚流向模型的中间数据,使用所述数据汇聚流向模型,按数据流向合并添加至对应的中间数据处;对不存在数据汇聚流向模型的中间数据,将对应的中间数据设置为目标数据;
步骤240,判断所有目标数据是否均已找到来源数据,若存在未满足条件的目标数据,选择所述未满足条件的目标数据执行步骤210,直到所有目标数据均已找到来源数据或来源数据均为原始数据,生成初始数据汇聚流向模型;
若不存在未满足条件的目标数据则结束创建,生成初始数据汇聚流向模型;
步骤250,为了便于设计人员把注意力集中在目标数据的加工单元,将所述初始数据汇聚关系模型中相同或相近的数据合并至同一数据节点,对所述初始数据汇聚流向模型中的每个数据节点设置加工单元,获得数据汇聚流向模型;所述数据节点包括目标数据及中间数据。
所述第二种方法与第一种方法的区别在于数据汇聚关系模型的创建,通过整理合并所述数据汇聚关系模型中相同或相近的中间数据,并为所述每个目标数据以及中间数据设置加工单元,获得数据汇聚流向模型。
所述数据汇聚关系模型以目标数据为中心,按最简加工原则逐层列出加工生成目标数据所需数据单元。数据汇聚关系模型只有一个最终目标数据,例如放在最右侧;从右到左依次为第1层、第2层…第K层…第N层数据;第K层数据是按照最简加工原则,加工生成第K-1层目标数据所需的数据单元,用箭头表示加工汇聚关系。
数据汇聚关系模型元素包括数据单元框和数据流向连接线。其中,数据单元框指明待加工的目标数据;数据流向连接线指明来源数据和目标数据的流向关系,线条箭头连接目标数据节点,线条尾部连接来源数据节点。
数据汇聚关系模型语法规则定义如下:
1.一个数据汇聚关系模型只有一项最终目标数据,放置在最右侧。
2.按照最简加工原则设置的来源数据节点放在目标数据左侧,并用连接线连接来源数据以及目标数据。
3.如果来源数据并非原始数据,则作为中间数据,并以中间数据为目标数据,按最简加工原则再次向左侧绘制数据来源以及数据流向关系,直到来源数据是原始数据。
4.数据汇聚关系模型不区分是否存在相同数据,即相同数据也不合并在同一个数据单元,而是根据加工关系分别作为一个独立节点;相同数据可以有多个数据单元。
上述语法规则最终目标数据放置在最右侧为例描述,目标数据位置也可为最左侧,来源数据位于目标数据右侧。
如图3所示,所述创建数据汇聚关系模型的方法如下:
步骤310,确定目标数据的数据结构,所述目标数据包括最终目标数据及中间数据;
步骤320,按照最简加工原则以及数据流向关系,对目标数据添加来源数据,获得一个或多个来源数据,所述来源数据包括多个层次,中间节点为中间数据,末级节点为原始数据;
步骤330,对所述一个或多个来源数据中已存在汇聚关系的中间数据使用所述汇聚关系,按数据流向合并添加至对应的中间数据处;对不存在汇聚关系的中间数据,将对应的中间数据设置为目标数据;
步骤340,判断所有目标数据是否均已找到来源数据,若存在未满足条件的目标数据,选择所述未满足条件的目标数据执行步骤310,直到所有目标数据均已找到来源数据或来源数据均为原始数据,生成数据汇聚关系模型;
若不存在未满足条件的目标数据则结束创建,生成数据汇聚关系模型。
所述根据预设规则创建数据汇聚流向模型的第二种方法包括:
首先,以所述最终目标数据为中心,按照最简加工原则创建数据汇聚关系模型;
然后,使用所述数据汇聚关系模型,整理合并所述数据汇聚关系模型中相同或相近的中间数据至同一数据节点;
接着,按照数据汇聚关系模型的数据流向,计算所述数据节点的最大层次深度和数据节点在数据汇聚流向模型中的坐标,根据所述汇聚关系层次深度及数据节点坐标绘制初始数据汇聚流向模型;
其中,所述计算数据节点的最大层次深度的方法如下:
所述待计算数据节点Kn与所述最终目标数据K1之间存在n-2个顺序编号的数据节点,设1<j<n,对于数据节点Kj,对应的目标数据为Kj-1;所述n为所述待计算数据节点的层次深度;
从待计算数据节点数据Kn到最终目标数据K1存在一条或多条路径,获取各条路径的层次深度组成层次深度集合N{n1,n2…nj},其中j为路径条数;
提取层次深度集合N中最大值max(N)作为所述待计算数据节点的最大层次深度。
所述计算数据节点在数据汇聚流向模型中的坐标的方法包括:
根据数据节点的最大层次深度计算所述数据节点在数据汇聚流向模型中的坐标,所述公式为:
x=CanvasWidth-(max(n)×(nodeWidth+BlankWidth))
其中,CanvasWidth为画布宽度,nodeWidth为节点宽度,BlankWidth为节点间空白区宽度,max(n)为数据节点的最大层次深度。
最后,对所述初始数据汇聚流向模型中的每个数据节点设置加工单元,获得数据汇聚流向模型。
步骤130,整理合并相近的加工单元,确定加工类型,创建数据加工模型;
大数据加工一般有以下类型:数据ETL、机器学习、汇聚计算、流程控制、数据映射。数据ETL,从数据源采集、转换、装载数据到目标数据;机器学习,通过数据发现现实规律,并能根据规律预测未来趋势;数据映射,反映不同数据之间的映射与转换;流程控制,控制不同加工活动的处理流程。
获取数据汇聚流向模型后,整理归并相近的加工单元,确定加工单元的加工类型,具体包括数据ETL、机器学习、汇聚计算、数据映射、流程控制等,运用相应的建模工具创建对应的加工模型。
步骤140,将所述数据加工模型发布到对应的数据加工引擎,执行数据加工;
创建好加工流程图后将其发布至数据加工引擎,由数据加工引擎执行数据加工工作。
此外,还可以根据数据加工引擎反馈信息,结合数据汇聚流向模型、数据加工模型,监控数据加工执行情况。
图4为本发明具体实施方式的一种大数据加工建模设计系统的结构图;如图4所示,所述系统包括:
大数据应用需求管理模块410、数据汇聚流向建模模块420、数据加工建模模块430以及数据加工引擎440;
所述大数据应用需求管理模块410用于应用需求管理,以提取所需最终目标数据;
所述数据汇聚流向建模模块420用于根据预设规则创建数据汇聚流向模型;
所述数据加工建模模块430用于整理归并加工单元,确定加工类型,根据所述加工单元创建数据加工模型;
所述数据加工引擎440用于根据发布的数据加工模型加工数据。
其中,所述数据汇聚流向建模模块420确定确定目标数据的来源数据、加工单元以及数据的流向关系,所述目标数据包括中间数据及最终目标数据;
所述数据汇聚流向建模模块420按照最简加工原则以及数据流向关系,对目标数据添加来源数据,获得一个或多个来源数据,所述来源数据包括中间数据以及原始数据;所述最简加工原则为对于数据ETL、机器学习、汇聚计算以及数据映射的大数据加工类型,根据输入的来源数据加工目标数据时,不需要在内部再次生成外部存储的中间数据,数据加工过程使用的SQL嵌套不超过2层;
所述数据汇聚流向建模模块420对所述一个或多个来源数据中已存在数据汇聚流向关系的中间数据,使用所述数据汇聚流向关系;对不存在数据汇聚流向模型的中间数据,将对应的中间数据设置为目标数据;
所述数据汇聚流向建模模块420判断所有目标数据是否均已找到来源数据,若存在未满足条件的目标数据,选择所述未满足条件的目标数据通过所述数据汇聚流向建模模块420确定目标数据的数据来源,直到所有目标数据均已找到来源数据或来源数据均为原始数据,生成初始数据汇聚流向模型;
若不存在未满足条件的目标数据则结束创建,生成初始数据汇聚流向模型;
所述数据汇聚流向建模模块420整理合并所述初始数据汇聚流向模型中相同或相近的中间数据,对所述初始数据汇聚流向模型中的每个目标数据以及中间数据设置加工单元,获得数据汇聚流向模型。
所述系统还包括数据汇聚关系建模模块450,所述数据汇聚关系建模模块450用于以所述最终目标数据为中心,按照最简加工原则创建数据汇聚关系模型;
此时,所述数据汇聚流向建模模块420根据最终目标数据调用所述数据汇聚关系建模模块生成的对应数据汇聚关系模型;
所述数据汇聚流向建模模块420整理合并所述数据汇聚关系模型中相同或相近的中间数据;
其中,所述数据汇聚流向建模模块420按照数据汇聚关系模型的数据流向,计算所述数据节点的最大层次深度和数据节点在数据汇聚流向模型中的坐标,根据所述汇聚关系层次深度及数据节点坐标绘制初始数据汇聚流向模型;
所述待计算数据节点Kn与所述最终目标数据K1之间存在n-2个顺序编号的数据节点,设1<j<n,对于数据节点Kj,对应的目标数据为Kj-1;所述n为所述待计算数据节点的层次深度;
所述数据汇聚流向建模模块420从待计算数据节点数据Kn到最终目标数据K1存在一条或多条路径,获取各条路径的层次深度组成层次深度集合;
所述数据汇聚流向建模模块420提取层次深度集合中最大值作为所述待计算数据节点的最大层次深度。
所述数据汇聚流向建模模块420根据数据节点的最大层次深度计算所述数据节点在数据汇聚流向模型中的坐标,所述公式为:
x=CanvasWidth-(max(n)×(nodeWidth+BlankWidth))
其中,CanvasWidth为画布宽度,nodeWidth为节点宽度,BlankWidth为节点间空白区宽度,max(n)为数据节点的最大层次深度。
所述数据汇聚流向建模模块420对所述每个目标数据以及中间数据设置加工单元,获得数据汇聚流向模型。
所述数据汇聚关系建模模块450确定目标数据的数据结构,所述目标数据包括最终目标数据及中间数据;
所述数据汇聚关系建模模块450按照最简加工原则对目标数据添加来源数据,获得一个或多个来源数据,所述来源数据包括中间数据以及原始数据;
所述数据汇聚关系建模模块450对所述一个或多个来源数据中已存在数据汇聚关系的中间数据调用所述汇聚关系;对不存在数据汇聚关系的中间数据,将所述中间数据设置为目标数据;
所述数据汇聚关系建模模块450判断所有目标数据是否均已找到来源数据,若存在未满足条件的目标数据,选择所述未满足条件的目标数据通过所述数据汇聚关系建模模块确定目标数据的数据结构,直到所有目标数据均已找到来源数据或来源数据均为原始数据,生成数据汇聚关系模型;
若不存在未满足条件的目标数据则结束创建,生成数据汇聚关系模型。
此外,所述系统还包括数据资源元数据管理模块460和数据加工监控模块470;
所述数据资源元数据管理模块460用于管理资源目录和数据资源元数据,所述数据资源元数据包括原始数据、目标数据以及中间数据的元数据;
所述数据加工监控模块470根据数据加工引擎反馈的信息、数据汇聚流向模型以及数据加工模型,按照预设规则监控数据加工执行是否符合要求。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本公开的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。本说明书中涉及到的步骤编号仅用于区别各步骤,而并不用于限制各步骤之间的时间或逻辑的关系,除非文中有明确的限定,否则各个步骤之间的关系包括各种可能的情况。
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本公开的范围之内并且形成不同的实施例。例如,在权利要求书中所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
本公开的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本公开还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者系统程序(例如,计算机程序和计算机程序产品)。这样的实现本公开的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
应该注意的是上述实施例对本公开进行说明而不是对本公开进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本公开可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干系统的单元权利要求中,这些系统中的若干个可以是通过同一个硬件项来具体体现。
以上所述仅是本公开的具体实施方式,应当指出的是,对于本领域的普通技术人员来说,在不脱离本公开精神的前提下,可以作出若干改进、修改、和变形,这些改进、修改、和变形都应视为落在本申请的保护范围内。
Claims (11)
1.一种大数据加工方法,所述方法包括:
根据应用需求,提取所需最终目标数据;
根据预设规则创建数据汇聚流向模型,所述数据汇聚流向模型为以最终目标数据为中心按照最简加工原则逐层列出生成目标数据所需的来源数据、加工单元以及数据流向关系;所述来源数据包括中间数据以及原始数据;
整理合并相近的加工单元,确定加工类型,创建数据加工模型;
将所述数据加工模型发布到对应的数据加工引擎,执行数据加工。
2.根据权利要求1所述的方法,其特征在于,所述根据预设规则创建数据汇聚流向模型的方法包括:
步骤一,确定目标数据的数据结构,所述目标数据中间数据及最终目标数据;
步骤二,按照最简加工原则对目标数据添加来源数据,获得一个或多个来源数据,所述来源数据包括中间数据及原始数据;
步骤三,对所述一个或多个来源数据中已存在数据汇聚流向模型的中间数据,使用所述数据汇聚流向模型;对不存在数据汇聚流向模型的中间数据,将对应的中间数据设置为目标数据;
步骤四,判断所有目标数据是否均已找到来源数据,若存在未满足条件的目标数据,选择所述未满足条件的目标数据执行步骤一,直到所有目标数据均已找到来源数据或来源数据均为原始数据,生成初始数据汇聚流向模型;
若不存在未满足条件的目标数据则结束创建,生成初始数据汇聚流向模型;
步骤五,整理合并所述初始数据汇聚流向模型中相同或相近的中间数据,对每个所述目标数据及中间数据设置加工单元,获得数据汇聚流向模型。
3.根据权利要求1所述的方法,其特征在于,所述根据预设规则创建数据汇聚流向模型的方法包括:
以所述最终目标数据为中心,按照最简加工原则创建数据汇聚关系模型;
使用所述数据汇聚关系模型,整理合并所述数据汇聚关系模型中相同或相近的中间数据;
对所述每个目标数据以及中间数据设置加工单元,获得数据汇聚流向模型。
4.根据权利要求3所述的方法,其特征在于,所述创建数据汇聚关系模型的方法包括:
步骤一,确定目标数据的数据结构,所述目标数据包括最终目标数据及中间数据;
步骤二,按照最简加工原则对目标数据添加来源数据,获得一个或多个来源数据,所述来源数据包括中间数据以及原始数据;
步骤三,对所述一个或多个来源数据中已存在数据汇聚关系的中间数据使用所述汇聚关系;对不存在数据汇聚关系的中间数据,将所述中间数据设置为目标数据;
步骤四,判断所有目标数据是否均已找到来源数据,若存在未满足条件的目标数据,选择所述未满足条件的目标数据执行步骤一,直到所有目标数据均已找到来源数据或来源数据均为原始数据,生成数据汇聚关系模型;
若不存在未满足条件的目标数据则结束创建,生成数据汇聚关系模型。
5.根据权利要求1所述的方法,其特征在于,所述最简加工原则包括:
对于数据ETL、机器学习、汇聚计算以及数据映射的大数据加工类型,根据输入的来源数据加工目标数据时,不需要在内部再次生成外部存储的中间数据,数据加工过程使用的SQL嵌套不超过2层。
6.一种大数据加工建模设计系统,所述系统包括:
大数据应用需求管理模块、数据汇聚流向建模模块、数据加工建模模块以及数据加工引擎;
所述大数据应用需求管理模块用于应用需求管理,以提取所需最终目标数据;
所述数据汇聚流向建模模块用于根据预设规则创建数据汇聚流向模型;
所述数据加工建模模块用于整理归并加工单元,确定加工类型,根据所述加工单元创建数据加工模型;
所述数据加工引擎用于根据发布的数据加工模型加工数据。
7.根据权利要求6所述的系统,其特征在于:
所述数据汇聚流向建模模块确定目标数据的来源数据、加工单元以及数据的流向关系,所述目标数据包括中间数据及最终目标数据;
所述数据汇聚流向建模模块按照最简加工原则以及数据流向关系,对目标数据添加来源数据,获得一个或多个来源数据,所述来源数据包括中间数据以及原始数据;
所述数据汇聚流向建模模块对所述一个或多个来源数据中已存在数据汇聚流向关系的中间数据,使用所述数据汇聚流向关系;对不存在数据汇聚流向模型的中间数据,将对应的中间数据设置为目标数据;
所述数据汇聚流向建模模块判断所有目标数据是否均已找到来源数据,若存在未满足条件的目标数据,选择所述未满足条件的目标数据通过所述数据汇聚流向建模模块确定目标数据的数据来源,直到所有目标数据均已找到来源数据或来源数据均为原始数据,生成初始数据汇聚流向模型;
若不存在未满足条件的目标数据则结束创建,生成初始数据汇聚流向模型;
所述数据汇聚流向建模模块整理合并所述初始数据汇聚流向模型中相同或相近的中间数据,对所述初始数据汇聚流向模型中的每个目标数据以及中间数据设置加工单元,获得数据汇聚流向模型。
8.根据权利要求6所述的系统,其特征在于:
所述系统还包括数据汇聚关系建模模块,所述数据汇聚关系建模模块用于以所述最终目标数据为中心,按照最简加工原则创建数据汇聚关系模型;
所述数据汇聚流向建模模块以所述最终目标数据为中心,按照最简加工原则创建数据汇聚关系模型;
所述数据汇聚流向建模模块使用所述数据汇聚关系模型,整理合并所述数据汇聚关系模型中相同或相近的中间数据;
所述数据汇聚流向建模模块对所述每个目标数据以及中间数据设置加工单元,获得数据汇聚流向模型。
9.根据权利要求8所述的系统,其特征在于:
所述数据汇聚关系建模模块确定目标数据的数据结构,所述目标数据包括最终目标数据及中间数据;
所述数据汇聚关系建模模块按照最简加工原则对目标数据添加来源数据,获得一个或多个来源数据,所述来源数据包括中间数据以及原始数据;
所述数据汇聚关系建模模块对所述一个或多个来源数据中已存在数据汇聚关系的中间数据调用所述汇聚关系;对不存在数据汇聚关系的中间数据,将所述中间数据设置为目标数据;
所述数据汇聚关系建模模块判断所有目标数据是否均已找到来源数据,若存在未满足条件的目标数据,选择所述未满足条件的目标数据通过所述数据汇聚关系建模模块确定目标数据的数据结构,直到所有目标数据均已找到来源数据或来源数据均为原始数据,生成数据汇聚关系模型;
若不存在未满足条件的目标数据则结束创建,生成数据汇聚关系模型。
10.根据权利要求6所述的系统,其特征在于,所述最简加工原则包括:
对于数据ETL、机器学习、汇聚计算以及数据映射的大数据加工类型,根据输入的来源数据加工目标数据时,不需要在内部再次生成外部存储的中间数据,数据加工过程使用的SQL嵌套不超过2层。
11.根据权利要求6所述的系统,其特征在于:
所述系统还包括数据资源元数据管理模块和数据加工监控模块;
所述数据资源元数据管理模块用于管理资源目录和数据资源元数据,所述数据资源元数据包括原始数据、目标数据以及中间数据的元数据;
所述数据加工监控模块根据数据加工引擎反馈的信息、数据汇聚流向模型以及数据加工模型,按照预设规则监控数据加工执行是否符合要求。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010299719.5A CN111651507B (zh) | 2020-04-16 | 2020-04-16 | 一种大数据加工方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010299719.5A CN111651507B (zh) | 2020-04-16 | 2020-04-16 | 一种大数据加工方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111651507A true CN111651507A (zh) | 2020-09-11 |
CN111651507B CN111651507B (zh) | 2023-10-10 |
Family
ID=72346423
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010299719.5A Active CN111651507B (zh) | 2020-04-16 | 2020-04-16 | 一种大数据加工方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111651507B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114328471A (zh) * | 2022-03-14 | 2022-04-12 | 杭州半云科技有限公司 | 一种基于数据虚拟化引擎的数据模型及其构建方法 |
CN114661406A (zh) * | 2022-04-08 | 2022-06-24 | 杭州半云科技有限公司 | 一种基于多租户架构的动态配置可视化平台及方法 |
Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101076793A (zh) * | 2004-08-31 | 2007-11-21 | 国际商业机器公司 | 企业数据集成系统的体系结构 |
US20080133455A1 (en) * | 2006-11-30 | 2008-06-05 | International Business Machines Corporation | Method of processing data |
CN101394345A (zh) * | 2008-10-22 | 2009-03-25 | 南京邮电大学 | 一种面向普适计算感知数据流的协同进化聚类方法 |
AU2011213842A1 (en) * | 2010-09-03 | 2012-03-22 | Tata Consultancy Services Limited | A system and method of managing mapping information |
US20130238351A1 (en) * | 2012-03-12 | 2013-09-12 | Icon Clinical Research Limited | Clinical data management system |
US20140019387A1 (en) * | 2012-04-01 | 2014-01-16 | Empire Technology Development Llc | Machine learning for database migration source |
CN104618852A (zh) * | 2015-01-28 | 2015-05-13 | 广东电网有限责任公司电力调度控制中心 | 基于层次聚类的数据汇聚方法和系统 |
CN104778236A (zh) * | 2015-04-02 | 2015-07-15 | 上海烟草集团有限责任公司 | 一种基于元数据的etl实现方法及系统 |
CN105354239A (zh) * | 2015-10-10 | 2016-02-24 | 中国科学院计算机网络信息中心 | 一种基于配置数据加工模型的加工中心数据流式处理方法 |
CN106250382A (zh) * | 2016-01-28 | 2016-12-21 | 新博卓畅技术(北京)有限公司 | 一种元数据管理引擎系统及实现方法 |
CN107451282A (zh) * | 2017-08-09 | 2017-12-08 | 南京审计大学 | 一种基于大数据环境下的多源数据聚合抽样策略 |
CN108241709A (zh) * | 2016-12-27 | 2018-07-03 | 中国移动通信有限公司研究院 | 一种数据集成方法、装置和系统 |
CN109558537A (zh) * | 2018-11-20 | 2019-04-02 | 深圳智链物联科技有限公司 | 一种聚合平台的数据处理方法及装置 |
CN109977162A (zh) * | 2019-04-10 | 2019-07-05 | 广东省城乡规划设计研究院 | 一种城乡规划数据转换方法、系统和计算机可读存储介质 |
-
2020
- 2020-04-16 CN CN202010299719.5A patent/CN111651507B/zh active Active
Patent Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101076793A (zh) * | 2004-08-31 | 2007-11-21 | 国际商业机器公司 | 企业数据集成系统的体系结构 |
US20080133455A1 (en) * | 2006-11-30 | 2008-06-05 | International Business Machines Corporation | Method of processing data |
CN101394345A (zh) * | 2008-10-22 | 2009-03-25 | 南京邮电大学 | 一种面向普适计算感知数据流的协同进化聚类方法 |
AU2011213842A1 (en) * | 2010-09-03 | 2012-03-22 | Tata Consultancy Services Limited | A system and method of managing mapping information |
US20130238351A1 (en) * | 2012-03-12 | 2013-09-12 | Icon Clinical Research Limited | Clinical data management system |
US20140019387A1 (en) * | 2012-04-01 | 2014-01-16 | Empire Technology Development Llc | Machine learning for database migration source |
CN104618852A (zh) * | 2015-01-28 | 2015-05-13 | 广东电网有限责任公司电力调度控制中心 | 基于层次聚类的数据汇聚方法和系统 |
CN104778236A (zh) * | 2015-04-02 | 2015-07-15 | 上海烟草集团有限责任公司 | 一种基于元数据的etl实现方法及系统 |
CN105354239A (zh) * | 2015-10-10 | 2016-02-24 | 中国科学院计算机网络信息中心 | 一种基于配置数据加工模型的加工中心数据流式处理方法 |
CN106250382A (zh) * | 2016-01-28 | 2016-12-21 | 新博卓畅技术(北京)有限公司 | 一种元数据管理引擎系统及实现方法 |
CN108241709A (zh) * | 2016-12-27 | 2018-07-03 | 中国移动通信有限公司研究院 | 一种数据集成方法、装置和系统 |
CN107451282A (zh) * | 2017-08-09 | 2017-12-08 | 南京审计大学 | 一种基于大数据环境下的多源数据聚合抽样策略 |
CN109558537A (zh) * | 2018-11-20 | 2019-04-02 | 深圳智链物联科技有限公司 | 一种聚合平台的数据处理方法及装置 |
CN109977162A (zh) * | 2019-04-10 | 2019-07-05 | 广东省城乡规划设计研究院 | 一种城乡规划数据转换方法、系统和计算机可读存储介质 |
Non-Patent Citations (1)
Title |
---|
商翠珍;孙忠林;魏永山;: "数据资源汇聚中可视化建模的研究与应用", 电脑知识与技术, no. 01 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114328471A (zh) * | 2022-03-14 | 2022-04-12 | 杭州半云科技有限公司 | 一种基于数据虚拟化引擎的数据模型及其构建方法 |
CN114661406A (zh) * | 2022-04-08 | 2022-06-24 | 杭州半云科技有限公司 | 一种基于多租户架构的动态配置可视化平台及方法 |
CN114661406B (zh) * | 2022-04-08 | 2024-03-22 | 杭州半云科技有限公司 | 一种基于多租户架构的动态配置可视化平台及方法 |
Also Published As
Publication number | Publication date |
---|---|
CN111651507B (zh) | 2023-10-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110909039A (zh) | 一种基于拖拽式流程的大数据挖掘工具及方法 | |
CN103176974B (zh) | 优化数据库中访问路径的方法和装置 | |
CN107632590B (zh) | 一种基于优先级的底事件排序方法 | |
US20160283610A1 (en) | Hybrid flows containing a continous flow | |
CN102253889A (zh) | 一种回归测试中基于分布的测试用例优先级划分方法 | |
CN109447276B (zh) | 一种机器学习系统、设备及应用方法 | |
CN101739248A (zh) | 执行规则集的方法和系统 | |
CN102176200A (zh) | 一种软件测试用例自动生成方法 | |
JP2012159982A (ja) | 公開情報のプライバシー保護装置、公開情報のプライバシー保護方法およびプログラム | |
CN102073700A (zh) | 一种复杂网络社团的发现方法 | |
CN111651507A (zh) | 一种大数据加工方法及系统 | |
CN109492059A (zh) | 一种多源异构数据融合与模型修正过程管控方法 | |
CN112764940B (zh) | 多级分布式数据处理部署系统及其方法 | |
CN103149840B (zh) | 一种基于动态规划的语义服务组合方法 | |
CN105426312A (zh) | 一种冒烟测试用例集生成方法和装置 | |
CN115098278B (zh) | 一种基于微服务的数字孪生车间多场景交互方法 | |
CN110941898B (zh) | 一种图形处理器的设计模型及设计方法 | |
CN102799960B (zh) | 面向数据模型的并行业务流程异常检测方法 | |
Fattah et al. | An evaluation of structural parameters for probabilistic reasoning: results on benchmark circuits | |
CN117114250A (zh) | 一种基于大模型的智能决策系统 | |
CN103973511A (zh) | 一种基于消息组合变异的服务脆弱性测试方法 | |
CN116225417A (zh) | 一种基于大数据的金融平台决策引擎管理系统及方法 | |
CN103577899A (zh) | 一种基于可靠性预测与QoS相结合的服务组合方法 | |
CN105955814A (zh) | 一种基于事件优先级调度的复杂事件检测方法 | |
CN107908557B (zh) | 一种嵌入式软件可信属性建模与验证方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |