CN116450719A - 一种数据处理系统及方法 - Google Patents
一种数据处理系统及方法 Download PDFInfo
- Publication number
- CN116450719A CN116450719A CN202310331053.0A CN202310331053A CN116450719A CN 116450719 A CN116450719 A CN 116450719A CN 202310331053 A CN202310331053 A CN 202310331053A CN 116450719 A CN116450719 A CN 116450719A
- Authority
- CN
- China
- Prior art keywords
- data
- module
- unit
- check
- script
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012545 processing Methods 0.000 title claims abstract description 84
- 238000000034 method Methods 0.000 title claims abstract description 18
- 238000007405 data analysis Methods 0.000 claims abstract description 64
- 238000013515 script Methods 0.000 claims abstract description 57
- 238000012795 verification Methods 0.000 claims abstract description 41
- 238000011161 development Methods 0.000 claims description 20
- 238000013079 data visualisation Methods 0.000 claims description 10
- 238000003672 processing method Methods 0.000 claims description 4
- 230000001360 synchronised effect Effects 0.000 claims description 4
- 230000000007 visual effect Effects 0.000 claims description 4
- 238000004891 communication Methods 0.000 claims description 3
- 238000004458 analytical method Methods 0.000 abstract description 5
- 230000006870 function Effects 0.000 description 92
- 238000007726 management method Methods 0.000 description 89
- 238000005192 partition Methods 0.000 description 33
- 238000001514 detection method Methods 0.000 description 27
- 238000001914 filtration Methods 0.000 description 16
- 238000012827 research and development Methods 0.000 description 8
- 238000012217 deletion Methods 0.000 description 5
- 230000037430 deletion Effects 0.000 description 5
- 230000014509 gene expression Effects 0.000 description 5
- 238000012216 screening Methods 0.000 description 5
- 238000012360 testing method Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 238000012986 modification Methods 0.000 description 4
- 230000004048 modification Effects 0.000 description 4
- 238000013507 mapping Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 238000013524 data verification Methods 0.000 description 2
- 238000004886 process control Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/25—Integrating or interfacing systems involving database management systems
- G06F16/258—Data format conversion from or to a database
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/242—Query formulation
- G06F16/2433—Query languages
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/27—Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/62—Protecting access to data via a platform, e.g. using keys or access control rules
- G06F21/6218—Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/30—Computing systems specially adapted for manufacturing
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Computing Systems (AREA)
- Quality & Reliability (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Bioethics (AREA)
- General Health & Medical Sciences (AREA)
- Computer Hardware Design (AREA)
- Computer Security & Cryptography (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开一种数据处理系统及方法,涉及数据处理领域,其中,系统包括:数据交换模块,用于基于用户的项目任务需求进行数据源类型的统一;数据质量校验模块,用于对同一类型的数据源依据预设的校验指标和校验规则进行数据质量校验;Scriptis模块,用于配置目标数据分析程序并对进行数据质量校验分析。通过数据交换模块实现对各类型数据源的类型统一,有利于后续的数据分析处理;利用数据质量校验模块和Scriptis模块能够依据不同的数据处理需求进行数据分析处理,保证数据处理的灵活性。
Description
技术领域
本发明涉及数据处理分析领域,特别是涉及一种用于基层治理的数据处理系统及方法。
背景技术
基层治理与社区服务专项应用软件数据仓库包括基础数据库和专题库,数据类型涉及基础数据、全空间模型数据、城市管理数据等,数据类型多样,体量巨大,且涉及用户涵盖城市监督管理者、基层管理服务者和社会公众,用户类型广泛、数量庞大,如何实现虚实、开放、鲜活的基层社会治理时空大数据一体化管理,满足高并发、大数据量下的实时性要求问题,成为本课题亟需解决的问题。
发明内容
本发明的目的是提供一种数据处理系统及方法,通过数据交换模块实现对各类型数据源的类型统一,实现基层社会治理时空大数据一体化管理,有利于后续的数据分析处理;利用数据质量校验模块和Scriptis模块能够依据不同的数据处理需求对各类型数据源进行数据分析处理,保证数据处理的灵活性。
为实现上述目的,本发明提供了如下方案:
一种数据处理系统,所述系统包括:数据交换模块、数据质量校验模块和Scriptis模块;
所述数据交换模块,用于基于根据用户的项目任务需求将不同类型的数据源转化为同一类型的数据源;
所述数据质量校验模块,用于对同一类型的数据源中的数据依据预设的校验指标和预设的校验规则进行数据质量校验;
所述Scriptis模块,用于配置目标数据分析程序,并依据所述目标数据分析程序对数据质量校验后的数据进行数据分析;所述目标数据分析程序为依据用户的项目任务需求配置的数据分析程序。
可选的,所述系统还包括数据可视化模块;所述数据可视化模块,用于对数据交换后的数据或数据分析结果进行可视化展示。
可选的,所述系统还包括管理台模块;所述管理台模块,用于对各模块的配置信息进行管理。
可选的,所述数据质量校验模块包括第一项目管理单元、校验指标管理单元、校验规则管理单元、任务查询单元、系统设置单元、引擎配置单元、数据质量校验单元和工作概览单元;
所述第一项目管理单元,用于依据用户的项目任务需求配置所述预设的校验指标和所述预设的校验规则;
所述校验指标管理单元,用于对校验指标库中存储的校验指标进行管理;
所述校验规则管理单元,用于对校验规则库中存储的校验规则进行管理;
所述任务查询单元,用于查询数据质量校验信息;
所述系统设置单元,用于对数据质量校验模块的配置信息进行设置;
所述引擎配置单元,用于根据用户的数据质量校验需求配置对应的校验引擎;
所述数据质量校验单元,用于基于配置的校验引擎对同一类型的数据源中的数据依据所述预设的校验指标和所述预设的校验规则进行数据质量校验;
所述工作概览单元,用于对数据质量校验结果进行统计和显示。
可选的,所述系统设置单元包括集群配置子单元、人员配置子单元和用户权限配置子单元。
可选的,所述数据交换模块包括第二项目管理单元、数据源管理单元和同步历史单元;
所述第二项目管理单元,用于根据用户的项目任务需求配置数据交换前的数据源类型和数据交换后的数据源类型以及数据交换方式;
所述数据源管理单元,用于对数据源的来源信息和数据源交换处理后的存储位置进行管理;
所述同步历史单元,用于查看到历史执行的所有数据交换任务以及各数据交换运行日志。
可选的,所述Scriptis模块包括数据分析脚本编写单元、数据分析函数调用单元和数据分析单元;
所述数据分析脚本编写单元,用于编写所述目标数据分析程序对应的数据分析脚本;
所述数据分析函数调用单元,用于调用所述目标数据分析程序对应的数据分析函数;
所述数据分析单元,用于基于所述数据分析脚本或所述数据分析函数对所述数据质量校验后的数据进行数据分析。
可选的,所述系统还包括:工作流创建及调度模块;所述工作流创建及调度模块,用于创建所述数据交换模块对应的数据交换节点、创建所述数据质量校验模块对应的数据质量校验节点和创建所述Scriptis模块对应的数据开发节点,并根据项目任务需求确定所述数据交换节点、所述数据质量校验节点和所述数据开发节点的执行顺序和配置信息生成数据处理工作流,对所述数据处理工作流进行调度,依据调度的数据处理工作流由所述数据交换模块、所述数据质量校验模块和所述Scriptis模块执行数据处理操作。
本发明还提供一种数据处理方法,包括:
创建数据处理工作流;
依据创建的所述数据处理工作流,利用数据交换模块进行数据交换处理;
依据所述数据处理工作流,利用数据质量校验模块进行数据质量校验处理;
依据创建的所述数据处理工作流,利用Scriptis模块配置目标数据分析程序,并对数据质量校验后的数据进行数据分析;所述目标数据分析程序为依据用户的项目任务需求配置的数据分析程序。
可选的,所述依据用户的项目任务需求创建数据处理工作流;
创建所述数据交换模块对应的数据交换节点、创建所述数据质量校验模块对应的数据质量校验节点、创建所述Scriptis模块对应的数据开发节点和用于各节点通信的信号节点;
根据项目任务需求确定所述数据交换节点、所述数据质量校验节点和所述数据开发节点的执行顺序和配置信息生成所述数据处理工作流。
根据本发明提供的具体实施例,本发明公开了以下技术效果:
本发明公开一种数据处理系统及方法,其中,系统包括:,数据交换模块,数据质量校验模块和Scriptis模块。其中,通过数据交换模块实现对各类型数据源的类型统一,有利于后续的数据分析处理;利用数据质量校验模块和Scriptis模块能够依据不同的数据处理需求进行数据分析处理,保证数据处理的灵活性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例1提供的一种数据处理系统框图;
图2为本发明实施例1提供的一种数据处理系统应用过程;
图3为本发明实施例2提供的一种数据处理方法流程图;
附图标记:
工作流创建及调度模块—1;数据交换模块—2;数据质量校验模块—3;Scriptis模块—4;数据可视化模块—5;管理台模块—6。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的目的是提供一种数据处理系统及方法,通过数据交换模块实现对各类型数据源的类型统一,实现基层社会治理时空大数据一体化管理,有利于后续的数据分析处理;利用数据质量校验模块和Scriptis模块能够依据不同的数据处理需求对各类型数据源进行数据分析处理,保证数据处理的灵活性。
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
实施例1
如图1所示,本实施例提供一种数据处理系统,数据处理系统基于插拔式的集成框架设计,可轻松接入上层各种数据应用系统。所述系统包括:工作流创建及调度模块1、数据交换模块2、数据质量校验模块3和Scriptis模块4;
数据交换模块2、数据质量校验模块3和Scriptis模块4可以根据用户需求单独调用进行数据处理,也可以利用工作流创建及调度模块1创建数据处理工作流,根据需求调度相应的数据处理工作流,从而依据数据处理工作流中限定的相关数据分析步骤,调用数据交换模块2、数据质量校验模块3和Scriptis模块4执行相应的数据处理操作。
所述工作流创建及调度模块1,用于创建所述数据交换模块2对应的数据交换节点、创建所述数据质量校验模块3对应的数据质量校验节点和创建所述Scriptis模块4对应的数据开发节点,并根据项目任务需求确定所述数据交换节点、所述数据质量校验节点和所述数据开发节点的执行顺序和配置信息生成数据处理工作流。
所述数据交换模块2,用于基于根据用户的项目任务需求将不同类型的数据源转化为同一类型的数据源。当调取数据处理工作流时,则基于所述数据处理工作流,执行相应的数据分析操作。
其中,所述数据交换模块2包括第二项目管理单元、数据源管理单元和同步历史单元;
所述第二项目管理单元,用于根据用户的项目任务需求配置数据交换前的数据源类型和数据交换后的数据源类型以及数据交换方式;
所述数据源管理单元,用于对数据源的来源信息和数据源交换处理后的存储位置进行管理;
所述同步历史单元,用于查看到历史执行的所有数据交换任务以及各数据交换运行日志。
具体的,数据交换服务平台,实现不同类型数据源之间的数据同步。平台将数据交换流程进行拆分,抽象出数据源,数据交换任务,任务调度等概念,达到可视化管理数据同步流程的目的。而在实际数据传输过程中可集成多个传输组件特性,做到功能横向扩展。
数据交换模块2实现项目管理、数据源管理、同步历史。
数据源管理:研发数据源管理功能,包括mysql和hive等数据源数据的互相导入,查询、创建,编辑,删除数据源、连接测试等功能。研发创建数据源功能,选择自己想要创建的数据源,支持MySQL和Hive等数据源的创建。研发新增数据源功能,测试连接成功之后即可完成创建数据源。
数据源功能:研发数据源功能,包括数据源版本的发布功能,只有经过发布的数据源才能在配置导数任务的时候被使用,否则会提示不可用,只要再次编辑的数据源就会被视为一个新的版本,最新的版本在第一行。在版本列表中可以查看所有历史数据源版本的配置,可在随时需要回滚时进行参考。研发数据源管理的过期功能,用于提示此数据源已经逐渐要被替换,请及时更换使用该数据源的任务配置,避免直接删除数据源造成所配置的执行任务失效。
项目管理:
研发项目管理功能,在导数任务中,一个项目下可以有多个导数任务,不同的项目之间互不影响,可以操作的只有自己创建的项目。在项目管理首页,可以对项目进行管理,包括创建,修改和删除以及查询搜索,修改和删除只能在其中创建的项目操作。
研发任务管理功能,包括创建,修改、删除和搜索功能。(1)创建任务:创建任务时填写对应的信息,保存即可完成任务创建。(2)子任务管理:研发子任务管理功能,添加对子任务的新增、修改、复制和删除功能,同时也支持任务支持复制功能,复制的子任务包含其原子任务配置的所有信息。(3)数据同步任务配置和执行:研发不同数据源之间的数据交换任务配置和执行功能。完成数据源库表信息配置之后,自动进行数据源和数据源的字段映射,可以自行选择需要映射的字段,也可以用来检查我们的字段是否匹配;当Hive为数据源时,其映射字段不可修改。(4)过程控制:研发过程控制功能,任务执行提供作业最大并行数配置(默认为1个),以及作业最大内存配置(默认为1024Mb),可根据实际需要进行更改。(5)作业执行:研发作业执行功能,多个子任务同时执行,任务配置完成后,即可执行,即开始数据同步任务,同时支持工作台显示功能,工作台主要包含三个部分功能:运行情况、实时日志和执行历史。在工作台中可以查看运行情况,能够查看当前数据同步任务整体进度,包含成功和失败的数量等,以及各项运行指标信息。实时日志主要展示的内容包含两大类,一是整个的日志,能够输出每个状态日志;二是每个的日志,输出的是各自相应的导数日志。在实时日志中能够根据关键字和忽略字进行日志筛选,并别提供获取最后n行日志功能;还可以对Error、Warning和Info不同类型的日志进行筛选展示。执行历史能够展示该导数任务的历史执行信息,对历史执行过程提供初步的概览,如果想进一步查看详细历史信息,可跳转到同步历史界面进行查看。数据同步任务执行需指定执行用户,默认为登录用户,具体情况需根据实际数据源的配置去调整。
同步历史:
研发同步历史功能,该模块可以查看到历史执行的所有数据同步任务,每个用户只能查看自己创建的任务,不同用户之间互相隔离。
主要功能如下:
根据查询条件查找所需的历史任务信息;
对于非终态的任务,提供终止任务的功能,能够kill掉非终态的任务;
查看每个任务的运行情况和实时日志;
查看每个同步任务的更细节配置信息和更新时间等。
所述数据质量校验模块3,用于对同一类型的数据源中的数据依据预设的校验指标和预设的校验规则进行数据质量校验。当调取数据处理工作流时,则基于所述数据处理工作流,执行相应的数据分析操作。
数据质量校验模块3,用于监控数据质量。其功能包括数据质量模型定义,数据质量结果可视化、可监控。数据质量管理服务提供一整套统一的流程来定义和检测数据集的质量并及时报告问题。
其中,所述数据质量校验模块3包括第一项目管理单元、校验指标管理单元、校验规则管理单元、任务查询单元、系统设置单元、引擎配置单元、数据质量校验单元和工作概览单元。
所述第一项目管理单元,用于依据用户的项目任务需求配置所述预设的校验指标和所述预设的校验规则。
所述校验指标管理单元,用于对校验指标库中存储的校验指标进行管理。
所述校验规则管理单元,用于对校验规则库中存储的校验规则进行管理。
所述任务查询单元,用于查询数据质量校验信息。
所述系统设置单元,用于对数据质量校验模块3的配置信息进行设置。其中,所述系统设置单元包括集群配置子单元、人员配置子单元和用户权限配置子单元。
所述引擎配置单元,用于根据用户的数据质量校验需求配置对应的校验引擎。
所述数据质量校验单元,用于基于配置的校验引擎对同一类型的数据源中的数据依据所述预设的校验指标和所述预设的校验规则进行数据质量校验。
所述工作概览单元,用于对数据质量校验结果进行统计和显示。
校验规则模板配置介绍:
研发规则模板配置功能,以下例子均以Cluster0002集群,allenzhou_ind库,test_table表为例。假设该表结构如下:
表2-1test_table数据表字段
字段名称 | 字段类型 |
key | int |
value | string |
ds | String(一级分区) |
day | string |
空值检测:
语义:指定一个表中的某一个字段,检测出该字段为空的记录条数。
举例:需求:希望找出Cluster0002集群中,allenzhou_ind库中,test_table表,在ds='20190314'分区下,value字段为空的记录条数。
配置:首先选择空值检测模版。选择希望检测的集群,库名,表名,字段,并填入分区过滤条件。
主键检测:
语义:指定一个表中的多个字段,检测这些字段的组合在该表中是否具有唯一性。
举例:需求:希望找出Cluster0002集群中,allenzhou_ind库中,test_table表,在ds='20190314'分区下,key字段是否具有唯一性。
配置:首先选择主键检测模版。选择希望检测的集群,库名,表名,字段,并填入分区过滤条件。
表行数检测:
语义:指定一个表,检测该表的行数是否达到预期。
举例:需求:希望找出Cluster0002集群中,allenzhou_ind库中,test_table表,在ds='20190314'分区下,记录条数为多少。
配置:首先选择表行数检测模版。选择希望检测的集群,库名,表名,字段,并填入分区过滤条件,
平均值检测:
语义:指定一个表中一个字段,检测该字段的平均值是否达到预期。
举例:需求:希望找出Cluster0002集群中,allenzhou_ind库中,test_table表,在ds='20190314'分区下,key字段的平均值为多少。
配置:首先选择平均值检测模版。选择希望检测的集群,库名,表名,字段,并填入分区过滤条件。
总和检测:
语义:指定一个表中一个字段,检测该字段的总和是否达到预期。
举例:需求:希望找出Cluster0002集群中,allenzhou_ind库中,test_table表,在ds='20190314'分区下,key字段的总和值为多少。
配置:首先选择总和检测模版。选择希望检测的集群,库名,表名,字段,并填入分区过滤条件。
最大值检测:
语义:指定一个表中一个字段,检测该字段的最大值是否达到预期。
举例:需求:希望找出Cluster0002集群中,allenzhou_ind库中,test_table表,在ds='20190314'分区下,key字段的最大值为多少。
配置:首先选择最大值检测模版。选择希望检测的集群,库名,表名,字段,并填入分区过滤条件。
最小值检测:
语义:指定一个表中一个字段,检测该字段的最小值是否达到预期。
举例:需求:希望找出Cluster0002集群中,allenzhou_ind库中,test_table表,在ds='20190314'分区下,key字段的最小值为多少。
配置:首先选择最小值检测模版。选择希望检测的集群,库名,表名,字段,并填入分区过滤条件。
正则表达式检测:
语义:指定一个表中一个字段,找出该字段不满足给定正则表达式的记录条数。
举例:需求:希望找出Cluster0002集群中,allenzhou_ind库中,test_table表,在ds='20190314'分区下,value字段不满足正则表达式'[0-9][a-z][A-Z]'的记录数。
配置:首先选择正则表达式检测模版。选择希望检测的集群,库名,表名,字段,并填入分区过滤条件和正则表达式。
日期格式检测:
语义:指定一个表中一个字段,找出该字段不满足选中日期格式的字段。
举例:需求:希望找出Cluster0002集群中,allenzhou_ind库中,test_table表,在ds='20190314'分区下,day字段不满足日期格式yyyyMMdd的记录数。
配置:首先选择日期格式检测模版。选择希望检测的集群,库名,表名,字段,并填入分区过滤条件,选中日期格式。
字段数值类型检测:
语义:指定一个表中一个字段,找出该字段不满足数值类型的字段。
举例:需求:希望找出Cluster0002集群中,allenzhou_ind库中,test_table表,在ds='20190314'分区下,value字段不满足数值类型的记录数。
配置:首先选择字段数值类型检测模版。选择希望检测的集群,库名,表名,字段,并填入分区过滤条件。
枚举值检测:
语义:指定一个表中一个字段,找出该字段不在所给枚举值中的记录条数。
举例:需求:希望找出Cluster0002集群中,allenzhou_ind库中,test_table表,在ds='20190314'分区下,value字段不在“1,2,3,4”中的记录数。
配置:首先选择枚举值检测模版。选择希望检测的集群,库名,表名,字段,并填入分区过滤条件和枚举值(逗号分隔)。
数值范围检测:
语义:指定一个表中一个字段,找出该字段不在所给数值范围中的记录条数。
举例:需求:希望找出Cluster0002集群中,allenzhou_ind库中,test_table表,在ds='20190314'分区下,key字段不在[0-5]的记录数。
配置:首先选择数值范围检测模版。选择希望检测的集群,库名,表名,并填入分区过滤条件和数值范围。
身份证校验:
语义:指定一个表中一个字段,找出该字段不符合身份证格式的记录条数(不能查询是否是真正的身份证,只能校验格式)。
举例:需求:希望找出Cluster0002集群中,allenzhou_ind库中,test_table表,在ds='20190314'分区下,value字段不符合身份证格式记录数。
配置:首先选择身份证检测模版。选择希望检测的集群,库名,表名,字段,并填入分区过滤条件。
逻辑类校验:
语义:指定一个表,前置条件和后置条件,找到该表中满足该前置条件,但不满足后置条件的记录条数。
举例:需求:希望找出Cluster0002集群中,allenzhou_ind库中,test_table表,在ds='20190314'分区下,若key<10(前置条件),找到不满足value>100(后置条件)的记录条数。
配置:首先选择逻辑类检测模版。选择希望检测的集群,库名,表名,字段,并填入分区过滤条件,前置条件和后置条件。
空字符串检测:
语义:指定一个表中一个字段,找出该字段为空字符串的记录条数。
举例:需求:希望找出Cluster0002集群中,allenzhou_ind库中,test_table表,在ds='20190314'分区下,value字段为空字符串的记录数。
配置:首先选择空字符串检测模版。选择希望检测的集群,库名,表名,字段,并填入分区过滤条件。
空值或空字符串检测:
语义:指定一个表中一个字段,找出该字段为空值或空字符串的记录条数。
举例:需求:希望找出Cluster0002集群中,allenzhou_ind库中,test_table表,在ds='20190314'分区下,value字段为空值或空字符串的记录数。
配置:首先选择空值或空字符串检测模版。选择希望检测的集群,库名,表名,字段,并填入分区过滤条件。
所述Scriptis模块4,用于配置目标数据分析程序,并依据所述目标数据分析程序对数据质量校验后的数据进行数据分析;所述目标数据分析程序为依据用户的项目任务需求配置的数据分析程序。当调取数据处理工作流时,则基于所述数据处理工作流,执行相应的数据分析操作。
Scriptis模块支持在线写SQL、Pyspark、HiveQL等脚本,提交给管理台中间件执行的数据分析Web工具。
本实施例除了通过编写数据分析脚本的方式实现不同的数据分析需求,还可以通过调用数据分析函数来进行数据分析。数据分析函数根据分析需求确定。例如当处理的数据是Hive数据源时,可以通过调用UDF函数来进行Hive数据源的分析。
研发Scriptis功能,对大数据平台的Spark、Hive和HBase等计算引擎,进行交互式查询与分析,方便数据挖掘和分析人员的日常使用。研发图形化、多样式的界面,让用户在进行数据分析、脚本编辑、测试、查询使用时更加方便,简单。
Scriptis工作空间:研发工作空间文件夹操作功能,包含复制路径,新建目录,新建脚本,刷新功能。
研发文件管理功能,包括复制路径,重命名,删除,导入到hive(csv,txt,excel类型文件),导入到hdfs等功能。
研发编辑新建脚本文件功能,包含编写Spark SQL语句,在SQL语句中嵌入变量,"发布为数据API"(该"发布为数据API"的功能,只有部分用户具有该权限,不具备权限的用户,该功能按钮不可见)功能。
研发UDF功能,方便用户对UDF进行分类展示,以及用户可以对个人函数进行管理。
其中,所述Scriptis模块4包括数据分析脚本编写单元、数据分析函数调用单元和数据分析单元;
所述数据分析脚本编写单元,用于编写所述目标数据分析程序对应的数据分析脚本;
所述数据分析函数调用单元,用于调用所述目标数据分析程序对应的数据分析函数;
所述数据分析单元,用于基于所述数据分析脚本或所述数据分析函数对所述数据质量校验后的数据进行数据分析。
为了能够对各类数据源对应的全部数据或部分数据以及数据分析的结果进行展示,所述系统还包括数据可视化模块5;所述数据可视化模块5,用于对数据交换后的数据或数据分析结果进行可视化展示。数据可视化模块5可实现Source List、View List、WidgetList。
作为一种可选的实施方式,所述系统还包括管理台模块6;所述管理台模块6,用于对各模块的配置信息进行管理。管理台模块6可实现全局历史查看,资源管理,参数配置,全局变量管理,ECM管理,微服务管理,UDF函数管理,数据源管理。
全局历史:研发全局历史功能,包含全局历史展示、查询功能。
资源管理:研发资源管理功能,用于展示资源管理和历史引擎信息,其中历史引擎信息中可根据实例名称、创建者、起始时间、引擎类型进行筛选过滤。
参数配置:研发参数配置功能,实现对全局设置、IDE、Vusualis、nodeexecution,进行修改配置。
全局变量:研发全局变量功能,实现对全局变量进行添加、编辑、删除,对全局变量进行管理。
ECM管理:研发ECM管理功能,包括ECM列表展示,编辑,查询功能。
微服务管理:研发微服务管理功能,包含微服务列表展示,编辑,查询,查看当前微服务功能。
UDF函数(研发UDF管理功能和函数管理功能):
UDF管理:研发UDF管理功能,包含UDF列表展示,新增UDF,编辑、删除、版本管理、移交给其他用户,数据筛选功能。
函数管理:研发函数管理功能,包含当前函数列表展示,新增函数功能,编辑、删除、版本管理、移交给其他用户,数据筛选功能。
数据源管理:研发数据源管理功能,包括数据源列表展示,编辑、过期、测试连接,发布、查看、测试连接、筛选功能。
本实施例的系统构建完成后,用户应用该系统的具体过程为:
如图2所示,用户登录之后在系统创建工作空间,然后创建项目,在项目中创建工作流,之后进行工作量的配置,配置完成后则启动工作流进行应用数据源的分析,最终得出数据分析结果。
其中,创建工作空间由工作空间模块实现。该模块包含工作空间管理、部门管理、用户管理等功能。
工作空间管理:研发工作空间管理功能,包含工作空间列表和工作空间的创建。(1)工作空间列表:研发工作空间列表功能,主要包括工作空间名、创建时间、标签、描述等信息,实现开发工作空间展示方式切换操作功能。(2)新增工作空间:用于新增工作空间,填写工作空间名、工作空间类型、标签和描述等内容,完成新增。
部门管理:研发部门管理功能,包含部门列表、新增和编辑。(1)部门列表:研发部门列表提供按部门名称搜索功能,查询对应的部门信息。列表展示部门名称、层级、负责人、联系电话、邮箱、创建时间及操作等信息(2)新增:研发新增部门功能,部门信息包括上级部门、部门名称、负责人、联系电话、邮箱。(3)编辑:研发部门编辑功能,修改部门信息。
用户管理:研发用户管理功能,主要包含列表展示、新增和编辑功能。(1)用户列表:研发查询、展示功能,根据登陆名称、联系电话、创建时间查询。列表展示ID、登陆名称、姓名、联系电话、邮箱、创建时间和操作等信息。(2)新增:研发用户新增功能,添加用户信息。(3)编辑:修改用户信息。(4)删除:删除用户信息。
权限信息管理:研发权限控制功能,主要包括权限信息展示,展示权限信息相关的内容。
项目管理:研发项目管理功能,主要包括项目展示功能、创建,修改,和删除功能。
其中,工作流配置如下:
1、新建数据交换节点
该节点可以把不同类型的数据源转化为同一类型的数据源进行处理,可以根据需要对该节点进行转换的数据源进行配置,节点所需数据源可以在管理台中的数据源管理中进行添加测试发布,数据交换节点具体配置可以在数据交换模块2对应项目目录下的任务进行各项执行参数配置,各种字段映射配置。
2、新建信号节点
节点用于进行信息发送,将一段信息事件发送给下一节点,例如发送处理就绪信息,接受接续信息等。
3、新建数据质量校验节点
在数据质量校验模块3可以对质量校验指标,规则等进行配置。数据质量校验可以是判断数据列表中是否存在空字段等数据预处理过程。
4、新建数据开发节点或者新建元数据节点
数据开发节点支持pyspark,scala等脚本,可在具体的配置可以在scriptis模块进行编写维护。
在元数据节点可以对数据交换节点处理完的数据进行一次过滤筛选,具体的配置可以在scriptis模块进行编写维护。
5、新建数据可视化节点
可以在数据可视化模块5进行相应修改配置,可以根据指标,字段等进行数据展示,可以选择饼图,柱状图等方式进行展示。
工作流编辑页面可以提过拖拽的方式开发工作流,每个节点之前执行顺序需要提过节点连线控制。如果需要调试相关节点,配置完成该节点后,执行调试该节点,判断任务配置是否正确。
通过SQL、HQL等脚本节点,可以通过结果来检验脚本是否是正确(不会触发整个工作流)。当编辑完一条工作流之后,可进行校验。
通过连线的方向和顺序确定了工作流节点的执行顺序。新建项目后,在工作流开发页面,通过拖拽,可以实现数据应用的开发。
工作流配置中每个节点都可以单独进行编辑配置,也可以在每个节点对应的模块进行编辑配置,配置完成之后可以启动工作流进行批处理,工作流本身可以在调度模块进行配置管理。所有的公共数据,例如数据源管理,全局历史等,都可以在管理台模块6进行管理,所有所需的脚本,都可以在scriptis模块进行管理。
所有的处理,可以通过工作流的方式,也可以单独执行。即系统包括的所有模块可以单独使用,也可以通过创建的工作流进行多模块组合使用。
以人口数据为例,可以把不同数据来源的人口数据,统一经过数据交换模块2转为同一类型的数据,然后把转换之后的数据通过元数据节点进行筛选,然后通过数据质量校验模块3,根据实际情况,添加对应的指标规则,进行数据校验,校验通过之后,进行相应的数据开发,然后在可视化模块添加展示规则,展示形式,例如按照人口类型使用饼图展示,查看某个类型的进一年的人口增长趋势。如果以工作流的方式配置,在下次有新数据导入的时候,启动工作流自动执行即可。
本实施例基于Hadoop分布式文件存储系统,存储工作日志、民情日志、人口数据、舆情信息、房屋数据、企业数据、案件数据、人口普查等多类数据,存储形式包含文件、图片等。通过Hadoop的Hive数据仓库工具,把HDFS数据文件抽象成数据表,并提供HIVESQL查询功能,然后基于Spark大数据分析引擎,通过批处理或流处理的模式,以SQL的形式对各数据进行分析,并发布成数据API,对外提供服务。
实施例2
本实施例提供一种基于实施例1提供的数据处理系统实现的数据处理方法,包括:
S1:创建数据处理工作流。
其中,所述创建数据处理工作流,具体包括:
创建所述数据交换模块2对应的数据交换节点、创建所述数据质量校验模块3对应的数据质量校验节点、创建所述Scriptis模块4对应的数据开发节点和用于各节点通信的信号节点。
根据项目任务需求确定所述数据交换节点、所述数据质量校验节点和所述数据开发节点的执行顺序和配置信息生成所述数据处理工作流。
S2:依据创建的所述数据处理工作流,利用数据交换模块2进行数据交换处理。
S3:依据所述数据处理工作流,利用数据质量校验模块3进行数据质量校验处理。
S4:依据创建的所述数据处理工作流,利用Scriptis模块4配置目标数据分析程序,并对数据质量校验后的数据进行数据分析;所述目标数据分析程序为依据用户的项目任务需求配置的数据分析程序。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本发明的限制。
Claims (10)
1.一种数据处理系统,其特征在于,所述系统包括:数据交换模块、数据质量校验模块和Scriptis模块;
所述数据交换模块,用于基于根据用户的项目任务需求将不同类型的数据源转化为同一类型的数据源;
所述数据质量校验模块,用于对同一类型的数据源中的数据依据预设的校验指标和预设的校验规则进行数据质量校验;
所述Scriptis模块,用于配置目标数据分析程序,并依据所述目标数据分析程序对数据质量校验后的数据进行数据分析;所述目标数据分析程序为依据用户的项目任务需求配置的数据分析程序。
2.根据权利要求1所述的系统,其特征在于,所述系统还包括数据可视化模块;所述数据可视化模块,用于对数据交换后的数据或数据分析结果进行可视化展示。
3.根据权利要求1所述的系统,其特征在于,所述系统还包括管理台模块;所述管理台模块,用于对各模块的配置信息进行管理。
4.根据权利要求1所述的系统,其特征在于,所述数据质量校验模块包括第一项目管理单元、校验指标管理单元、校验规则管理单元、任务查询单元、系统设置单元、引擎配置单元、数据质量校验单元和工作概览单元;
所述第一项目管理单元,用于依据用户的项目任务需求配置所述预设的校验指标和所述预设的校验规则;
所述校验指标管理单元,用于对校验指标库中存储的校验指标进行管理;
所述校验规则管理单元,用于对校验规则库中存储的校验规则进行管理;
所述任务查询单元,用于查询数据质量校验信息;
所述系统设置单元,用于对数据质量校验模块的配置信息进行设置;
所述引擎配置单元,用于根据用户的数据质量校验需求配置对应的校验引擎;
所述数据质量校验单元,用于基于配置的校验引擎对同一类型的数据源中的数据依据所述预设的校验指标和所述预设的校验规则进行数据质量校验;
所述工作概览单元,用于对数据质量校验结果进行统计和显示。
5.根据权利要求1所述的系统,其特征在于,所述系统设置单元包括集群配置子单元、人员配置子单元和用户权限配置子单元。
6.根据权利要求1所述的系统,其特征在于,所述数据交换模块包括第二项目管理单元、数据源管理单元和同步历史单元;
所述第二项目管理单元,用于根据用户的项目任务需求配置数据交换前的数据源类型和数据交换后的数据源类型以及数据交换方式;
所述数据源管理单元,用于对数据源的来源信息和数据源交换处理后的存储位置进行管理;
所述同步历史单元,用于查看到历史执行的所有数据交换任务以及各数据交换运行日志。
7.根据权利要求1所述的系统,其特征在于,所述Scriptis模块包括数据分析脚本编写单元、数据分析函数调用单元和数据分析单元;
所述数据分析脚本编写单元,用于编写所述目标数据分析程序对应的数据分析脚本;
所述数据分析函数调用单元,用于调用所述目标数据分析程序对应的数据分析函数;
所述数据分析单元,用于基于所述数据分析脚本或所述数据分析函数对所述数据质量校验后的数据进行数据分析。
8.根据权利要求1所述的系统,其特征在于,所述系统还包括:工作流创建及调度模块;所述工作流创建及调度模块,用于创建所述数据交换模块对应的数据交换节点、创建所述数据质量校验模块对应的数据质量校验节点和创建所述Scriptis模块对应的数据开发节点,并根据项目任务需求确定所述数据交换节点、所述数据质量校验节点和所述数据开发节点的执行顺序和配置信息生成数据处理工作流并对所述数据处理工作流进行调度,依据调度的数据处理工作流由所述数据交换模块、所述数据质量校验模块和所述Scriptis模块执行数据处理操作。
9.一种基于权利要求1至8任一项所述的系统实现的数据处理方法,其特征在于,包括:
创建数据处理工作流;
依据创建的所述数据处理工作流,利用数据交换模块进行数据交换处理;
依据所述数据处理工作流,利用数据质量校验模块进行数据质量校验处理;
依据创建的所述数据处理工作流,利用Scriptis模块配置目标数据分析程序,并对数据质量校验后的数据进行数据分析;所述目标数据分析程序为依据用户的项目任务需求配置的数据分析程序。
10.根据权利要求8所述的方法,其特征在于,所述依据用户的项目任务需求创建数据处理工作流;
创建所述数据交换模块对应的数据交换节点、创建所述数据质量校验模块对应的数据质量校验节点、创建所述Scriptis模块对应的数据开发节点和用于各节点通信的信号节点;
根据项目任务需求确定所述数据交换节点、所述数据质量校验节点和所述数据开发节点的执行顺序和配置信息生成所述数据处理工作流。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310331053.0A CN116450719A (zh) | 2023-03-31 | 2023-03-31 | 一种数据处理系统及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310331053.0A CN116450719A (zh) | 2023-03-31 | 2023-03-31 | 一种数据处理系统及方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116450719A true CN116450719A (zh) | 2023-07-18 |
Family
ID=87133022
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310331053.0A Pending CN116450719A (zh) | 2023-03-31 | 2023-03-31 | 一种数据处理系统及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116450719A (zh) |
-
2023
- 2023-03-31 CN CN202310331053.0A patent/CN116450719A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10740093B2 (en) | Advanced packaging techniques for improving work flows | |
US10963800B2 (en) | Service layer augmentation of response to semantically-informed query of arbitrary external data sources | |
CN110300963A (zh) | 大规模数据储存库中的数据管理系统 | |
CN109997125A (zh) | 用于将数据导入数据储存库的系统 | |
CN105589874A (zh) | Etl任务依赖关系的检测方法、装置及etl工具 | |
CN103514223A (zh) | 一种数据仓库数据同步方法和系统 | |
EP2610762A1 (en) | Database version management system | |
US11429572B2 (en) | Rules-based dataset cleaning | |
CN115374102A (zh) | 数据处理方法及系统 | |
US11615076B2 (en) | Monolith database to distributed database transformation | |
US11841836B2 (en) | Target environment data seeding | |
CN112860777B (zh) | 数据处理方法、装置及设备 | |
CN112148788A (zh) | 异构数据源的数据同步方法及系统 | |
CN107122238B (zh) | 基于Hadoop云计算框架的高效迭代机制设计方法 | |
CN111966692A (zh) | 针对数据仓库的数据处理方法、介质、装置和计算设备 | |
CN116662441A (zh) | 一种分布式数据血缘构建及展现方法 | |
CN116775685A (zh) | 一种数据处理方法、任务调度方法、装置和存储介质 | |
US20200012643A1 (en) | Method for managing and executing decoders and transformations using linked data and a service layer | |
Postina et al. | An ea-approach to develop soa viewpoints | |
JP2024505236A (ja) | データ処理システム用のデータセットマルチプレクサ | |
CN114238085A (zh) | 接口测试方法、装置、计算机设备、存储介质 | |
US11567957B2 (en) | Incremental addition of data to partitions in database tables | |
WO2023098462A1 (en) | Improving performance of sql execution sequence in production database instance | |
CN113190582B (zh) | 一种数据实时交互式挖掘流建模分析系统 | |
CN115543428A (zh) | 一种基于策略模板的模拟数据生成方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |