CN112395343B - 一种基于dsg的字段变更数据采集抽取方法 - Google Patents

一种基于dsg的字段变更数据采集抽取方法 Download PDF

Info

Publication number
CN112395343B
CN112395343B CN202011295381.2A CN202011295381A CN112395343B CN 112395343 B CN112395343 B CN 112395343B CN 202011295381 A CN202011295381 A CN 202011295381A CN 112395343 B CN112395343 B CN 112395343B
Authority
CN
China
Prior art keywords
data
script
field change
acquisition
dsg
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011295381.2A
Other languages
English (en)
Other versions
CN112395343A (zh
Inventor
王家海
郑敏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chaozhou Zhuoshu Big Data Industry Development Co Ltd
Original Assignee
Chaozhou Zhuoshu Big Data Industry Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chaozhou Zhuoshu Big Data Industry Development Co Ltd filed Critical Chaozhou Zhuoshu Big Data Industry Development Co Ltd
Priority to CN202011295381.2A priority Critical patent/CN112395343B/zh
Publication of CN112395343A publication Critical patent/CN112395343A/zh
Application granted granted Critical
Publication of CN112395343B publication Critical patent/CN112395343B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/258Data format conversion from or to a database
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2282Tablespace storage structures; Management thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/23Updating
    • G06F16/2365Ensuring data consistency and integrity

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Quality & Reliability (AREA)
  • Computer Security & Cryptography (AREA)
  • Stored Programmes (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种基于DSG的字段变更数据采集抽取方法,属于数据采集、抽取领域,通过DSG字段变更数据采集抽取脚本自动化生成工具生成数据采集抽取的脚本,然后完成主要包括:1)可以对不同数据源的表字段变更数据进行采集。2)对已经抽取出的数据进行转存,根据规则进行验证,将多个数据源的数据进行合并集成,各数据源应用的共性数据和差异数据进行过滤清洗,生成固定格式的数据。3)将数据加载到所需要数据的平台上。通过本字段变更数据采集抽取方法保证了对变更字段数据抽取的需求,同时提高了数据处理的效率。

Description

一种基于DSG的字段变更数据采集抽取方法
技术领域
本发明涉及数据采集、抽取技术,尤其涉及一种基于DSG的字段变更数据采集抽取方法。
背景技术
数据,作为生产资料已成为社会共识。数据的集中采集、开发和利用能够有效形成产业聚集效应,带来巨大的经济价值和社会效应。近年来由于企业、机构对各种数据的需求越来越大,如何将大量数据转换成有用的信息,为人们生活和社会发展的各方面提供正确的决策,传统的数据库系统已无法满足需求。
目前各类数据具有以下特点:
(1)数据的分散也带来了数据不清洁的问题。
(2)由于不同的数据来源,不同的数据格式,使得对数据的处理方法不同,因而引起效率低下。
(3)数据量大、变更频率高、保密要求高、数据使用需求高
综上,如果仅仅依靠人力来生成字段变更数据采集抽取脚本,就会造成字段变更采集效率低下,数据即时性就会降低,因此需要一种对所拥有数据再加工形成统一固定格式的方法。
发明内容
为了解决以上技术问题,本发明提供了一种基于DSG的字段变更数据采集抽取方法,以节约成本,解放人力,高效工作,达到不影响下游应用人员使用数据,保证数据及时从生产库采集到分析库的目的。
本发明的技术方案是:
一种基于DSG的字段变更数据采集抽取方法,
步骤如下:
步骤一:制定需求;
步骤二:生成采集脚本;
步骤三:脚本验证;
步骤四:DSG字段变更数据采集抽取脚本自动化生成工具优化;
步骤五:脚本上线;
步骤六:数据巡检及数据质量核查。
进一步的,
所述制定需求,即根据数据需求方对数据表的字段变更数据需求,对数据进行分析,编写数据字典,汇总数据库信息,标记需要变更的字段。
进一步的,
所述生成采集脚本,即将要待采集抽取的字段变更表及数据库信息输入DSG字段变更数据采集抽取脚本自动化生成工具,点击脚本生成按钮,生成DSG字段变更数据采集抽取脚本。
进一步的,
所述脚本验证,即在开发环境中
1)执行对应的数据库中已建好表的字段变更脚本;
2)将生成的DSG字段变更采集抽取脚本按采集流程顺序一、二层导入到DSG中;
3)点击运行一、二层采集程序;
4)运行完毕,查看数据库中表数据是否准确采集到表中,若数据能正常采集到表中,则表明脚本正确;若数据未能准确采集到表中则表明脚本有误,查找错误原因,解决问题。
进一步的,
所述DSG字段变更数据采集抽取脚本自动化生成工具优化,即对DSG字段变更数据采集抽取脚本自动化生成工具的使用和工具使用人员对数据采集抽取脚本的验证,发现需要持续优化和改进的问题。
所述问题包括程序Bug、运行效率、脚本质量。
进一步的,
所述脚本上线,即在正式环境中,将验证无误的字段变更数据采集抽取脚本上线,启动采集程序。
本发明的有益效果是
(1)解决数据分散问题
可以解决因为数据源和系统不同造成的数据分散问题,从而根据需求将需要的数据集中在一处,提高了数据的利用效率跟数据获取便利性。
(2)解决脏数据问题
通过一系列的转换来实现将数据从业务模型到分析模型,通过内建的库函数、自定义脚本或其他的扩展方式,实现了各种复杂的转换,并且支持调试环境,查看数据转换的状态。然后对数据进行格式转换、数据类型转换、数据汇总计算、数据拼接等等,使目标表中存储着清洁、一致、全面和面向决策的数据。
(3)解决数据采集抽取效率低下的问题
通过本发明,利用DSG采集技术与字段变更数据采集抽取脚本自动化生成工具,大大提升了表字段变更后数据采集抽取的效率。
附图说明
图1是本发明的工作流程示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例,基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明基于DSG工具,DSG是一种数据整合工具,用来完成数据的抽取、清洗、转换和加载等数据处理方面的工作,同时DSG拥有流程式设计方便易用、支持多平台、多种方法应用集成、全面稳定高效的特点,使本次发明应用在DSG上。
本发明提出了一种基于DSG的字段变更(表添加字段、改变字段长度等)数据采集抽取方法,通过DSG字段变更数据采集抽取脚本自动化生成工具生成数据采集抽取的脚本,然后完成主要包括:1)可以对不同数据源的表字段变更数据进行采集。2)对已经抽取出的数据进行转存,根据规则进行验证,将多个数据源的数据进行合并集成,各数据源应用的共性数据和差异数据进行过滤清洗,生成固定格式的数据。3)将数据加载到所需要数据的平台上。由于数据量巨大和原始作业系统众多,为了不影响分析人员使用数据,保证数据及时从生产库采集到分析库,需要保证采集效率,根据DSG自身可应用与多平台,支持多数据库访问,流程设计方便访问等特点,通过本发明保证了对变更字段数据抽取的需求,同时提高了数据处理的效率。
主要步骤如下:
步骤一:制定需求:根据数据需求方对数据表的字段变更(表添加字段、改变字段长度等)数据需求,对数据进行分析,编写数据字典,汇总数据库信息,标记需要变更的字段
步骤二:生成采集脚本:将要待采集抽取的字段变更表及数据库信息等配置信息输入DSG字段变更数据采集抽取脚本自动化生成工具,点击脚本生成按钮,生成DSG字段变更数据采集抽取脚本。
步骤三:脚本验证:在开发环境中,1)执行对应的数据库中已建好表的字段变更脚本。2)将生成的DSG字段变更采集抽取脚本按采集流程顺序一、二层导入到DSG中。3)点击运行一、二层采集程序。4)运行完毕,查看数据库中表数据是否准确采集到表中,若数据能正常采集到表中,则表明脚本正确;若数据未能准确采集到表中则表明脚本有误,查找错误原因,解决问题。
步骤四:DSG字段变更数据采集抽取脚本自动化生成工具优化:对DSG字段变更数据采集抽取脚本自动化生成工具的使用和工具使用人员对数据采集抽取脚本的验证(步骤三),发现了一些需要持续优化和改进的问题,包括程序Bug、运行效率、脚本质量等。同时由于业务场景变化,对DSG字段变更数据采集抽取脚本自动化生成工具提出了新的功能扩展和升级需求,需要开发新的功能模块,以满足多样化的数据采集抽取需求。
步骤五:脚本上线:在正式环境中,将验证无误的字段变更数据采集抽取脚本上线,启动采集程序。
步骤六:数据巡检及数据质量核查,保证数据采集抽取正常准确运行。
以上所述仅为本发明的较佳实施例,仅用于说明本发明的技术方案,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所做的任何修改、等同替换、改进等,均包含在本发明的保护范围内。

Claims (6)

1.一种基于DSG的字段变更数据采集抽取方法,其特征在于,
步骤如下:
步骤一:制定需求;
步骤二:生成采集脚本;
步骤三:脚本验证;
步骤四:DSG字段变更数据采集抽取脚本自动化生成工具优化;
步骤五:脚本上线;
步骤六:数据巡检及数据质量核查;
所述生成采集脚本,即将要待采集抽取的字段变更表及数据库信息输入DSG字段变更数据采集抽取脚本自动化生成工具,点击脚本生成按钮,生成DSG字段变更数据采集抽取脚本;
所述脚本验证,即在开发环境中:
1)执行对应的数据库中已建好表的字段变更脚本;
2) 将生成的DSG字段变更采集抽取脚本按采集流程顺序一、二层导入到DSG中;
3) 点击运行一、二层采集程序;
4)运行完毕,查看数据库中表数据是否准确采集到表中,若数据能正常采集到表中,则表明脚本正确;若数据未能准确采集到表中则表明脚本有误,查找错误原因,解决问题。
2.根据权利要求1所述的方法,其特征在于,
所述制定需求,即根据数据需求方对数据表的字段变更数据需求,对数据进行分析,编写数据字典,汇总数据库信息,标记需要变更的字段。
3.根据权利要求2所述的方法,其特征在于,
字段变更包括表添加字段或改变字段长度。
4.根据权利要求1所述的方法,其特征在于,
所述DSG字段变更数据采集抽取脚本自动化生成工具优化,即对DSG字段变更数据采集抽取脚本自动化生成工具的使用和工具使用人员对数据采集抽取脚本的验证,发现需要持续优化和改进的问题。
5.根据权利要求1所述的方法,其特征在于,
所述问题包括程序Bug、运行效率或脚本质量。
6.根据权利要求1所述的方法,其特征在于,
所述脚本上线,即在正式环境中,将验证无误的字段变更数据采集抽取脚本上线,启动采集程序。
CN202011295381.2A 2020-11-18 2020-11-18 一种基于dsg的字段变更数据采集抽取方法 Active CN112395343B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011295381.2A CN112395343B (zh) 2020-11-18 2020-11-18 一种基于dsg的字段变更数据采集抽取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011295381.2A CN112395343B (zh) 2020-11-18 2020-11-18 一种基于dsg的字段变更数据采集抽取方法

Publications (2)

Publication Number Publication Date
CN112395343A CN112395343A (zh) 2021-02-23
CN112395343B true CN112395343B (zh) 2022-07-26

Family

ID=74606517

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011295381.2A Active CN112395343B (zh) 2020-11-18 2020-11-18 一种基于dsg的字段变更数据采集抽取方法

Country Status (1)

Country Link
CN (1) CN112395343B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113961570A (zh) * 2021-12-22 2022-01-21 四川新网银行股份有限公司 一种应用于MYSQL BINLog变更数据的实时采集方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109445768A (zh) * 2018-09-28 2019-03-08 平安科技(深圳)有限公司 数据库脚本生成方法、装置、计算机设备及存储介质
CN111221518A (zh) * 2019-11-08 2020-06-02 深圳市彬讯科技有限公司 一种脚本生成方法、装置、设备及计算机存储介质
CN111459924A (zh) * 2020-03-24 2020-07-28 上海携程商务有限公司 数据采集方法、系统、电子设备和介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109445768A (zh) * 2018-09-28 2019-03-08 平安科技(深圳)有限公司 数据库脚本生成方法、装置、计算机设备及存储介质
CN111221518A (zh) * 2019-11-08 2020-06-02 深圳市彬讯科技有限公司 一种脚本生成方法、装置、设备及计算机存储介质
CN111459924A (zh) * 2020-03-24 2020-07-28 上海携程商务有限公司 数据采集方法、系统、电子设备和介质

Also Published As

Publication number Publication date
CN112395343A (zh) 2021-02-23

Similar Documents

Publication Publication Date Title
CN112395325A (zh) 一种数据治理方法、系统、终端设备及存储介质
CN104572895B (zh) MPP数据库与Hadoop集群数据互通方法、工具及实现方法
CN111104394A (zh) 一种能源数据仓库系统构建方法及装置
CN104866580A (zh) 一种数据库变更对现有业务影响的快速侦测方法
CN112181955B (zh) 一种用于重载铁路综合大数据平台信息共享的数据规范治理方法
US20100235296A1 (en) Flow comparison processing method and apparatus
CN110990391A (zh) 多源异构数据的整合方法、系统、计算机设备及存储介质
CN111127068B (zh) 一种工程量清单自动组价方法和装置
CN111984709A (zh) 可视化大数据中台-资源调用和算法
CN114416855A (zh) 一种基于电力大数据的可视化平台及方法
CN110851667A (zh) 一种多源头大量数据的整合分析方法及工具
Zhang et al. A holistic literature review of building information modeling for prefabricated construction
CN114880405A (zh) 一种基于数据湖的数据处理方法及系统
CN111177134A (zh) 适用于海量数据的数据质量分析方法、装置、终端及介质
CN115470195A (zh) 一种融合维度模型的指标数据自动化计算方法及装置
CN114461644A (zh) 一种数据采集方法、装置、电子设备及存储介质
CN112685017A (zh) 一种面向移动互联网的工作流引擎
CN116777284A (zh) 一种空间及属性数据一体化质检方法
CN112395343B (zh) 一种基于dsg的字段变更数据采集抽取方法
CN115309749A (zh) 一种用于科技服务的大数据实验系统
CN111476650A (zh) 基于人工智能技术的财务自动化月结系统
CN113590607A (zh) 一种基于报表因子的电力营销报表实现方法和系统
CN115016902B (zh) 工业流程数字化管理系统及方法
CN116432092A (zh) 一种融合模型数据的指标系统及方法
CN116308843A (zh) 一种财务资金管理方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant