CN110471978A - 一种基于jbpm调度系统的气象政务数据抽取方法 - Google Patents

一种基于jbpm调度系统的气象政务数据抽取方法 Download PDF

Info

Publication number
CN110471978A
CN110471978A CN201910785539.5A CN201910785539A CN110471978A CN 110471978 A CN110471978 A CN 110471978A CN 201910785539 A CN201910785539 A CN 201910785539A CN 110471978 A CN110471978 A CN 110471978A
Authority
CN
China
Prior art keywords
data
jbpm
scheduling system
meteorological
cleansing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910785539.5A
Other languages
English (en)
Inventor
王甫棣
赵芳
赵希鹏
王帅
古亚文
汪芳
陈纯子
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National Meteorological Information Center
Original Assignee
National Meteorological Information Center
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National Meteorological Information Center filed Critical National Meteorological Information Center
Priority to CN202310719767.9A priority Critical patent/CN116680334A/zh
Priority to CN201910785539.5A priority patent/CN110471978A/zh
Publication of CN110471978A publication Critical patent/CN110471978A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/254Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于JBPM调度系统的气象政务数据抽取方法,包括如下步骤:S1:将数据源导入JBPM调度系统,进行数据分析;S2:定义JBPM调度系统中的数据清洗转换规则与工作流程;S3:对JBPM调度系统的数据清洗转换规则与工作流程进行验证与评价;S4:利用JBPM调度系统清洗数据中存在的错误;S5:将JBPM调度系统中的干净数据回流到数据库,本发明通过JBPM调度系统实现了气象政务数据整合和同步,解决了异构气象数据集成、增量数据抽取、数据清洗和转换、数据载入数据库各环节涉及的关键问题。

Description

一种基于JBPM调度系统的气象政务数据抽取方法
技术领域
本发明涉及大数据领域,尤其涉及一种基于JBPM调度系统的气象政务数据抽取方法 。
背景技术
数据的抽取、转换、装入是创建数据仓库系统的重要环节,它能够很好地解决政务内部数据一致性与信息集成化问题,它从所有异构系统中采集气象政务数据,并对其进行高效的转换。然而,频繁的抽取难免会产生大量的“脏数据”,如拼写错误、重复信息、缺损数据等。有统计资料表明,数据错误大约占到总数据量的5%左右,因此数据质量问题是制约气象政务数据应用的“瓶颈”之一。如果数据质量达不到要求,将直接导致数据仓库技术不能产生理想的结果,甚至会产生错误的分析结果,从而误导决策。因此数据在进入数据库前必须进行清洗。
目前,通常使用DataWrangler和Google Refine进行数据清洗,但是DataWrangler是基于网络服务的,必须把数据源上传到外部网络才能进行数据清洗,对于敏感的内部数据,往往不能保证其安全性;而Google Refine需要将数据源导出到常见的电子表格中才能进行数据清洗,当数据集很大时,则处理时间需要很长。
发明内容
发明的目的在于,针对上述问题,提出一种基于JBPM调度系统的气象政务数据抽取方法 。
一种基于JBPM调度系统的气象政务数据抽取方法 ,包括如下步骤:
S1:将数据源导入JBPM调度系统,进行数据分析;
S2:定义JBPM调度系统中的数据清洗转换规则与工作流程;
S3:对JBPM调度系统的数据清洗转换规则与工作流程进行验证与评价;
S4:利用JBPM调度系统清洗数据中存在的错误;
S5:将JBPM调度系统中的干净数据回流到数据库。
进一步地,所述将数据源导入JBPM调度系统,进行数据分析,包括:通过JBPM调度系统中的数据分析来检测数据中的脏数据或不一致数据,通过JBPM调度系统中的分析程序获得确定的数据属性和不寻常模式的元数据。
进一步地,数据清洗转换规则与工作流程根据JBPM调度系统中的数据分析结果来定义。
进一步地,所述S3包括如下步骤,包括:
S31:根据数据源上的数据样本在JBPM调度系统中进行清洗;
S32:若不满足JBPM调度系统的清洗转换规则与工作流程,则重新定义数据清洗转换规则与工作流程,返回到步骤S1;
S33:若满足JBPM调度系统的清洗转换规则与工作流程,则清理数据源中存在的脏数据和不一致数据。
进一步地,所述步骤S4包括多次数据清洗步骤,其中,BPM调度系统中的数据清洗次数通过数据源中脏数据和不一致数据个数决定。
进一步地,所述步骤S5用于替换数据源中的脏数据和不一致数据,避免再次抽取数据后进行重复的数据清洗。
一种基于JBPM调度系统的气象政务数据抽取系统,包括:
数据输入模块:用于导入数据源;
数据抽取模块:用于抽取脏数据或不一致数据;
数据清洗模块:通过数据清洗转换规则与工作流程对脏数据或不一致数据进行清洗;
数据输出模块:用于将清洗后的干净数据导入目标数据库;
目标数据库:用于存储清洗后的干净数据。
发明的有益效果:本发明通过JBPM调度系统实现气象政务数据整合和同步,将气象政务信息中脏数据和不一致进行抽取、清洗和转换,将干净的数据回流到目标数据库,从而除去脏数据和不一致数据提高气象政务信息的整体质量和数据压缩率。
附图说明
图1是气象政务数据抽取系统流程图;
图2是气象政务数据清洗步骤流程图。
具体实施方式
为了对发明的技术特征、目的和效果有更加清楚的理解,现对照附图说明发明的具体实施方式。
一种基于JBPM调度系统的气象政务数据抽取方法 ,包括如下步骤:
数据分析:数据分析是数据清洗的前提与基础,通过详尽的数据分析来检测数据中的脏数据,通过分析程序来获得关于数据属性的元数据,从而发现数据集中存在的质量问题。模式中反映的元数据对于判断一个数据源的质量是远远不够的,因此分析具体实例来获得有关数据属性和不寻常模式的元数据就变得很重要,数据属性元数据用于帮助发现数据质量问题,也用于发现属性间的依赖关系,根据这些依赖关系实现数据的自动转换。
定义清洗转换规则与工作流:根据数据分析得到的结果来定义清洗转换规则与工作流。根据数据源的个数,数据源中不一致数据和“脏数据"多少的程度,决定执行大量的数据转换和清洗步骤的次数,为模式相关的数据清洗和转换指定一种查询和匹配语言,从而使转换代码的自动生成变成可能。
验证:定义的清洗转换规则和工作流的正确性和效率应该进行验证和评估,在数据源的数据样本上进行清洗验证,当不满足清洗要求时需对清洗转换规则、工作流和系统参数进行调整和改进,数据清洗过程中需要多次迭代进行分析,设计和验证,直到获得满意的清洗转换规则和工作流,它们的质量决定了数据清洗的效率和质量。
清洗数据中存在的错误:在数据源上执行预先定义好的并且已经得到验证的清洗规则和工作流。当直接在源数据上进行清洗时,需要备份源数据,以防需要撤销上一次或几次的清洗操作,清洗时根据脏数据存在形式的不同,执行一系列的转换步骤来解决模式层和实例层的数据质量问题。
干净数据的回流:当数据被清洗后,干净的数据应垓替换数据源中原来的“脏数据”,以便提高原系统的数据质量,避免将来再次抽取数据后进行重复的清洗工作。
具体实施步骤:
通过JBPM调度系统web端流程编排工具制作执行流程图,执行流程图相关参数配置:数据库类型配置、数据源信息配置、目的数据库信息配置、源数据表信息配置、目的数据库表信息配置、源与目的数据库字段映射关系配置、初步数据清洗算法配置和大数据量的分页及循环设置,运行JBPM调度系统,执行测试通过。
生成可调用和执行的模板文件包括如下步骤:
S11:导出执行测试通过的配置文件(JBPM XML);
S12:将第1步中测试输入的参数,按模板技术(velocity)的规则在XML中进行动态设置(主要包括源数据库信息、目标数据库信息、字段映射信息、分页等相关的参数信息)。
S13:将设置完的JBPM XML文件另存为模板,形成JBPM XML Template文件,便于后续配置信息变化后的替换操作。
搭建JBPM调度系统,在java中的可执行环境包括如下步骤。
设计replace Template方法包括如下步骤:
S21:该方法的参数为需要替换JBPM XML文件中的动态参数信息集合(HashMap),为第3步中生成可执行的文件(JBPM XML);
S22:利用velocity技术替换JBPM XML Template文件参数为JBPM执行的xml文件;
S23:生成的XML文件存放在到临时目录中。
设计execute Jbpm XML方法包括如下步骤:
S31:该方法的参数为replace Template方法中生成的临时文件的路径;
S32:通过JBPM提供的API调用。
设计Java调用的入口方法,配置replace Template方法中要的参数信息,完成数据接入操作。
以上显示和描述了发明的基本原理和主要特征和发明的优点。本行业的技术人员应该了解,发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明发明的原理,在不脱离发明精神和范围的前提下,发明还会有各种变化和改进,这些变化和改进都落入要求保护的发明范围内。发明要求保护范围由所附的权利要求书及其等效物界定。

Claims (7)

1.一种基于JBPM调度系统的气象政务数据抽取方法 ,其特征在于,包括如下步骤:
S1:将数据源导入JBPM调度系统,进行数据分析;
S2:设计JBPM调度系统中的数据清洗转换规则与工作流程;
S3:对JBPM调度系统的数据清洗转换规则与工作流程进行验证;
S4:利用JBPM调度系统清洗数据中存在的错误;
S5:将JBPM调度系统中的干净数据回流到数据库。
2.根据权利要求1所述的一种基于JBPM调度系统的气象政务数据抽取方法 ,其特征在于,所述将数据源导入JBPM调度系统,进行数据分析,包括:通过JBPM调度系统中的数据分析来检测数据中的脏数据或不一致数据,通过JBPM调度系统中的分析程序获得确定的数据属性和不寻常模式的元数据。
3.根据权利要求1所述的一种基于JBPM调度系统的气象政务数据抽取方法 ,其特征在于,数据清洗转换规则与工作流程根据JBPM调度系统中的数据分析结果来设计。
4.根据权利要求1所述的一种基于JBPM调度系统的气象政务数据抽取方法 ,其特征在于,所述S3包括如下步骤,包括:
S31:根据数据源上的数据样本在JBPM调度系统中进行清洗;
S32:若不满足JBPM调度系统的清洗转换规则与工作流程,则重新定义数据清洗转换规则与工作流程,返回到步骤S1;
S33:若满足JBPM调度系统的清洗转换规则与工作流程,则清理数据源中存在的脏数据和不一致数据。
5.根据权利要求1所述的一种基于JBPM调度系统的气象政务数据抽取方法 ,其特征在于,所述步骤S4包括多次数据清洗步骤,其中,BPM调度系统中的数据清洗次数通过数据源中脏数据和不一致数据个数决定。
6.根据权利要求1所述的一种基于JBPM调度系统的气象政务数据抽取方法,其特征在于,所述步骤S5用于替换数据源中的脏数据和不一致数据,避免再次抽取数据后进行重复的数据清洗。
7.一种基于JBPM调度系统的气象政务数据抽取系统,其特征在于,包括:
数据输入模块:用于导入数据源;
数据抽取模块:用于抽取脏数据或不一致数据;
数据清洗模块:通过数据清洗转换规则与工作流程对脏数据或不一致数据进行清洗;
数据输出模块:用于将清洗后的干净数据导入目标数据库;
目标数据库:用于存储清洗后的干净数据。
CN201910785539.5A 2019-08-23 2019-08-23 一种基于jbpm调度系统的气象政务数据抽取方法 Pending CN110471978A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202310719767.9A CN116680334A (zh) 2019-08-23 2019-08-23 一种基于jbpm调度系统的气象政务数据抽取方法
CN201910785539.5A CN110471978A (zh) 2019-08-23 2019-08-23 一种基于jbpm调度系统的气象政务数据抽取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910785539.5A CN110471978A (zh) 2019-08-23 2019-08-23 一种基于jbpm调度系统的气象政务数据抽取方法

Related Child Applications (1)

Application Number Title Priority Date Filing Date
CN202310719767.9A Division CN116680334A (zh) 2019-08-23 2019-08-23 一种基于jbpm调度系统的气象政务数据抽取方法

Publications (1)

Publication Number Publication Date
CN110471978A true CN110471978A (zh) 2019-11-19

Family

ID=68513742

Family Applications (2)

Application Number Title Priority Date Filing Date
CN202310719767.9A Pending CN116680334A (zh) 2019-08-23 2019-08-23 一种基于jbpm调度系统的气象政务数据抽取方法
CN201910785539.5A Pending CN110471978A (zh) 2019-08-23 2019-08-23 一种基于jbpm调度系统的气象政务数据抽取方法

Family Applications Before (1)

Application Number Title Priority Date Filing Date
CN202310719767.9A Pending CN116680334A (zh) 2019-08-23 2019-08-23 一种基于jbpm调度系统的气象政务数据抽取方法

Country Status (1)

Country Link
CN (2) CN116680334A (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080306984A1 (en) * 2007-06-08 2008-12-11 Friedlander Robert R System and method for semantic normalization of source for metadata integration with etl processing layer of complex data across multiple data sources particularly for clinical research and applicable to other domains
KR20140069669A (ko) * 2012-11-29 2014-06-10 한국과학기술정보연구원 규칙집합 기반 대용량 데이터 처리 시스템 및 방법
US20150379051A1 (en) * 2013-02-07 2015-12-31 Qatar Foundation Methods and systems for data cleaning
CN105976158A (zh) * 2016-04-26 2016-09-28 中国电子科技网络信息安全有限公司 一种可视化的etl流程管理与调度监控方法
CN106599193A (zh) * 2016-12-14 2017-04-26 云南电网有限责任公司电力科学研究院 一种数据清洗方法和系统
CN106933992A (zh) * 2017-02-24 2017-07-07 北京华安普惠高新技术有限公司 基于数据分析的分布式数据清洗系统及方法
CN107908720A (zh) * 2017-11-14 2018-04-13 河北工程大学 一种基于AdaBoost算法的专利数据清洗方法及系统
CN110032556A (zh) * 2019-03-14 2019-07-19 云南昆钢电子信息科技有限公司 一种能快速实现数据清洗、正确性验证的方法及其系统

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080306984A1 (en) * 2007-06-08 2008-12-11 Friedlander Robert R System and method for semantic normalization of source for metadata integration with etl processing layer of complex data across multiple data sources particularly for clinical research and applicable to other domains
KR20140069669A (ko) * 2012-11-29 2014-06-10 한국과학기술정보연구원 규칙집합 기반 대용량 데이터 처리 시스템 및 방법
US20150379051A1 (en) * 2013-02-07 2015-12-31 Qatar Foundation Methods and systems for data cleaning
CN105976158A (zh) * 2016-04-26 2016-09-28 中国电子科技网络信息安全有限公司 一种可视化的etl流程管理与调度监控方法
CN106599193A (zh) * 2016-12-14 2017-04-26 云南电网有限责任公司电力科学研究院 一种数据清洗方法和系统
CN106933992A (zh) * 2017-02-24 2017-07-07 北京华安普惠高新技术有限公司 基于数据分析的分布式数据清洗系统及方法
CN107908720A (zh) * 2017-11-14 2018-04-13 河北工程大学 一种基于AdaBoost算法的专利数据清洗方法及系统
CN110032556A (zh) * 2019-03-14 2019-07-19 云南昆钢电子信息科技有限公司 一种能快速实现数据清洗、正确性验证的方法及其系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
李晓黎: "Velocity网页程序设计", 人民邮电出版社, pages: 1 - 18 *
高鹏: "基于JBPM的大数据挖掘服务流程引擎的研究与实现", 《中国优秀硕士学位论文全文数据库 信息科技辑》, no. 5, 15 May 2019 (2019-05-15), pages 7 - 42 *

Also Published As

Publication number Publication date
CN116680334A (zh) 2023-09-01

Similar Documents

Publication Publication Date Title
US9390176B2 (en) System and method for recursively traversing the internet and other sources to identify, gather, curate, adjudicate, and qualify business identity and related data
JP5251623B2 (ja) フロー比較処理方法及び装置
CN111210842B (zh) 语音质检方法、装置、终端及计算机可读存储介质
CN111966868B (zh) 基于标识解析的数据治理方法及相关设备
CN103514223A (zh) 一种数据仓库数据同步方法和系统
CN103984726A (zh) 一种数据库执行计划的局部修正方法
CN113409555B (zh) 一种基于物联网的实时报警联动方法及系统
CN114398315A (zh) 一种数据存储方法、系统、存储介质及电子设备
CN112506999B (zh) 基于云计算和人工智能的大数据挖掘方法及数字内容服务器
CN105573984B (zh) 社会经济指标的识别方法及装置
CN110471978A (zh) 一种基于jbpm调度系统的气象政务数据抽取方法
CN116561345A (zh) 一种基于多模态数据公司情报知识图谱构建方法
CN103559574A (zh) 一种工作流操作方法及系统
CN112036150A (zh) 电价政策条款解析方法、存储介质及计算机
CN115171136A (zh) 银行业务材料内容分类识别方法、设备及存储介质
CN109165155A (zh) 一种基于聚类分析的软件缺陷修复模板提取方法
CN115187122A (zh) 一种企业政策推演方法、装置、设备及介质
CN107391695A (zh) 一种基于大数据的信息提取方法
CN109933365B (zh) 一种函数调用树的生成方法及装置
CN111782657B (zh) 数据处理方法及装置
CN110781309A (zh) 一种基于模式匹配的实体并列关系相似度计算方法
CN110765100A (zh) 标签的生成方法、装置、计算机可读存储介质及服务器
CN117743564B (zh) 一种科技政策信息自动抽取与推荐方法及系统
CN113821531B (zh) 融媒体多租户数据隔离方法、系统及设备
CN116049287A (zh) 一种热线知识管理方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20191119

RJ01 Rejection of invention patent application after publication