CN111694824A - 一种油料数据链映射清洗的方法 - Google Patents

一种油料数据链映射清洗的方法 Download PDF

Info

Publication number
CN111694824A
CN111694824A CN202010445573.0A CN202010445573A CN111694824A CN 111694824 A CN111694824 A CN 111694824A CN 202010445573 A CN202010445573 A CN 202010445573A CN 111694824 A CN111694824 A CN 111694824A
Authority
CN
China
Prior art keywords
data
cleaning
rule
mapping
configuration
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010445573.0A
Other languages
English (en)
Inventor
杨云涛
谭文斌
郭江丽
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhiqiang Tongda Technology Beijing Co ltd
Original Assignee
Zhiqiang Tongda Technology Beijing Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhiqiang Tongda Technology Beijing Co ltd filed Critical Zhiqiang Tongda Technology Beijing Co ltd
Priority to CN202010445573.0A priority Critical patent/CN111694824A/zh
Publication of CN111694824A publication Critical patent/CN111694824A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/254Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/258Data format conversion from or to a database

Abstract

本发明公开了一种油料数据链映射清洗的方法,首先根据数据映射规则和数据清洗规则对油料数据链进行配置,配置完成后,根据实时获取的数据源类型进行自动数据的抽取;然后根据数据映射规则配置将获取的数据源转换为所述目标数据表的对应字段信息;并对转换后的数据按照配置的数据清洗规则进行数据的清洗;根据设定的数据格式利用数据总线进行数据的传输,并对传输过程中的异常数据进行记录和保存,并对所述异常数据进行重放,建立目标数据库,能够对各个设备厂商的数据进行通用化处理。

Description

一种油料数据链映射清洗的方法
技术领域
本发明涉及数据转换清洗技术领域,尤其涉及一种油料数据链映射清洗的方法。
背景技术
由于油料监测设备(如:液位计、温度计、流量计等)生产厂商众多,各个厂商的设备对外提供的数据格式和内容均存在不统一的情况,现有的信息采集系统在进行信息采集时,都需要针对各个厂商的不同数据格式和内容进行单独的定制,无法做到通用化的处理。因此,提供一种能够适配各个油料监测设备厂商的油料数据链映射清洗方法就很有必要。
发明内容
本发明的目的在于提供一种油料数据链映射清洗的方法,能够对各个设备厂商的数据进行通用化处理。
为实现上述目的,本发明提供了一种油料数据链映射清洗的方法,包括:
根据数据映射规则配置对获取的数据源进行数据转换;
对转换后的数据按照配置的数据清洗规则进行数据的清洗;
结合数据总线传输过程中的异常数据,建立目标数据库。
其中,所述方法还包括:
根据数据映射规则和数据清洗规则对油料数据链进行配置,并根据实时获取的数据源类型进行自动适配连接后,根据数据的读取规则进行自动数据的抽取。
其中,所述根据数据映射规则配置对获取的数据源进行数据转换,包括:
根据所述数据源对应的应用系统代码配置、所述数据源与目标数据表的映射关系配置和所述数据源项与目标数据表字段以及对应的类型映射关系配置,将所述数据源转换为所述目标数据表的对应字段信息。
其中,所述对转换后的数据按照配置的数据清洗规则进行数据的清洗,包括:
根据获取的数据清洗规则,删除转换后的数据中的重复数据和空值后,判断数据是否缺少数值,并将缺值数据标记后进行数据类型的转换。
其中,所述对转换后的数据按照配置的数据清洗规则进行数据的清洗,还包括:
根据获取的数据格式对转换后的数据类型进行规范后,对字符编码进行转换,并进行关联性验证。
其中,所述结合数据总线传输过程中的异常数据,建立目标数据库,包括:
根据设定的数据格式利用数据总线进行数据的传输,并对传输过程中的异常数据进行记录和保存,并对所述异常数据进行重放,建立目标数据库。
本发明的一种油料数据链映射清洗的方法,首先根据数据映射规则和数据清洗规则对油料数据链进行配置,配置完成后,根据实时获取的数据源类型进行自动数据的抽取;然后根据数据映射规则配置将获取的数据源转换为所述目标数据表的对应字段信息;并对转换后的数据按照配置的数据清洗规则进行数据的清洗;根据设定的数据格式利用数据总线进行数据的传输,并对传输过程中的异常数据进行记录和保存,并对所述异常数据进行重放,建立目标数据库,能够对各个设备厂商的数据进行通用化处理。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明提供的一种油料数据链映射清洗的方法的步骤示意图。
图2是本发明提供的一种油料数据链映射清洗的方法的流程图。
图3是本发明提供的数据清洗流程图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
请参阅图1,本发明提供一种油料数据链映射清洗的方法,包括:
S101、根据数据映射规则配置对获取的数据源进行数据转换。
具体的,根据数据映射规则和数据清洗规则对油料数据链进行配置,在进行数据收集前进行数据映射规则配置和数据清洗规则配置,为了在进行数据转换和数据处理过程中自动进行数据转换,而不需要进行人工干预,提高数据转换和清洗的速度,并根据实时获取的数据源类型进行自动适配连接后,根据数据的读取规则进行自动数据的抽取,其中,所述数据源可以为储油监测数据和第三方数据。在数据映射规则和数据清洗规则配置完成后,通过配置实现对数据源的数据进行实时的收集,在进行配置时无需进行编码,只需要配置源数据类型和对应的读写规则。该方法能够读取的数据源包括单不限于:关系型数据库(如:Oracle、SQL Server、MySQL等)、非关系型数据库(HBase、MongoDB等)、Office办公文件、格式化文本(XML文件、CSV文件,JSON格式文件等)。
然后根据所述数据源对应的应用系统代码配置、所述数据源与目标数据表的映射关系配置和所述数据源项与目标数据表字段以及对应的类型映射关系配置,即根据数据映射规则配置自动将所述数据源转换为所述目标数据表的对应字段信息,按照设定的数据映射规则进行数据的转换,可以将各个设备厂商的数据转换为统一的数据格式,方便进行通用化处理。
S102、对转换后的数据按照配置的数据清洗规则进行数据的清洗。
具体的,根据获取的数据清洗规则,如图3所示,删除转换后的数据中的重复数据和空值后,判断数据是否缺少数值,并将缺值数据标记后进行数据类型的转换,可以有效减少错误数据的影响,并且将缺值数据进行标记,可以方便后续对所述缺值数据的查找和修改,并将所有的数据类型转换为统一类型,方便后续的数据格式的统一;然后根据获取的数据格式对转换后的数据类型进行规范后,对字符编码进行转换,并进行关联性验证以及异常数据检测与处理,能够有效保证唯一准确的数据进入目标数据库,方便进行通用化处理。
S103、结合数据总线传输过程中的异常数据,建立目标数据库。
具体的,根据设定的数据格式利用数据总线进行数据的传输,其中在数据收集、映射转换以及清理处理过程中,每个处理过程的数据通过数据总线传递至下一处理过程,数据总线会记录未处理过的数据,若在数据收集、映射转换以及清理处理过程中的任何一个或多个处理过程出现异常,均不会影响未被处理过的数据。数据总线中传输的数据统一使用专有的数据格式进行封装,各个处理过程接收到数据总线中的数据后,按照专有数据格式的进行解析,保证传输数据的唯一性,便于进行通用化处理。
当数据收集、映射转换以及清理处理过程中的任何一个处理过程出现异常时,会通过各种方式对系统管理人员进行提示,以便及时发现问题和解决问题,并对传输过程中的异常数据以及正在处理的数据进行记录和保存,系统管理人员可根据处理异常记录中记录的数据进行分析后,调整相关的数据映射或数据清洗规则,并对所述异常数据进行重放,建立目标数据库,可以有效避免出现数据遗漏,保证数据的完整,并且能够针对各个设备厂商的数据进行快速实施部署。
如图2所提供的油料数据链映射清洗的方法的流程示意图所示,在进行数据收集前,先进行元数据映射配置和数据清洗规则配置,当配置完成后,对储油监测数据和第三方数据进行实时的数据收集,然后根据数据映射配置对收集的数据进行数据转换,得到目标数据库对应的数据表格式的数据;然后,根据数据清洗规则配置对完成数据转换的数据进行数据清洗和过滤等处理来保证数据的完整性、全面性、合法性和唯一性,将唯一准确的数据导入到建立的目标数据库中,并且在数据收集、数据转换和数据清洗过程中,每个处理过程的数据通过数据总线传递至下一处理过程,能够对各个设备厂商的数据进行通用化处理和快速实施部署。
本发明的一种油料数据链映射清洗的方法,首先根据数据映射规则和数据清洗规则对油料数据链进行配置,配置完成后,根据实时获取的数据源类型进行自动数据的抽取;然后根据数据映射规则配置将获取的数据源转换为目标数据表的对应字段信息;并对转换后的数据按照配置的数据清洗规则进行数据的清洗;根据设定的数据格式利用数据总线进行数据的传输,并对传输过程中的异常数据进行记录和保存,并对所述异常数据进行重放,建立目标数据库,能够对各个设备厂商的数据进行通用化处理。
以上所揭露的仅为本发明一种较佳实施例而已,当然不能以此来限定本发明之权利范围,本领域普通技术人员可以理解实现上述实施例的全部或部分流程,并依本发明权利要求所作的等同变化,仍属于发明所涵盖的范围。

Claims (6)

1.一种油料数据链映射清洗的方法,其特征在于,包括:
根据数据映射规则配置对获取的数据源进行数据转换;
对转换后的数据按照配置的数据清洗规则进行数据的清洗;
结合数据总线传输过程中的异常数据,建立目标数据库。
2.如权利要求1所述的一种油料数据链映射清洗的方法,其特征在于,所述方法还包括:
根据数据映射规则和数据清洗规则对油料数据链进行配置,并根据实时获取的数据源类型进行自动适配连接后,根据数据的读取规则进行自动数据的抽取。
3.如权利要求2所述的一种油料数据链映射清洗的方法,其特征在于,所述根据数据映射规则配置对获取的数据源进行数据转换,包括:
根据所述数据源对应的应用系统代码配置、所述数据源与目标数据表的映射关系配置和所述数据源项与目标数据表字段以及对应的类型映射关系配置,将所述数据源转换为所述目标数据表的对应字段信息。
4.如权利要求3所述的一种油料数据链映射清洗的方法,其特征在于,所述对转换后的数据按照配置的数据清洗规则进行数据的清洗,包括:
根据获取的数据清洗规则,删除转换后的数据中的重复数据和空值后,判断数据是否缺少数值,并将缺值数据标记后进行数据类型的转换。
5.如权利要求4所述的一种油料数据链映射清洗的方法,其特征在于,所述对转换后的数据按照配置的数据清洗规则进行数据的清洗,还包括:
根据获取的数据格式对转换后的数据类型进行规范后,对字符编码进行转换,并进行关联性验证。
6.如权利要求5所述的一种油料数据链映射清洗的方法,其特征在于,所述结合数据总线传输过程中的异常数据,建立目标数据库,包括:
根据设定的数据格式利用数据总线进行数据的传输,并对传输过程中的异常数据进行记录和保存,并对所述异常数据进行重放,建立目标数据库。
CN202010445573.0A 2020-05-25 2020-05-25 一种油料数据链映射清洗的方法 Pending CN111694824A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010445573.0A CN111694824A (zh) 2020-05-25 2020-05-25 一种油料数据链映射清洗的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010445573.0A CN111694824A (zh) 2020-05-25 2020-05-25 一种油料数据链映射清洗的方法

Publications (1)

Publication Number Publication Date
CN111694824A true CN111694824A (zh) 2020-09-22

Family

ID=72477585

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010445573.0A Pending CN111694824A (zh) 2020-05-25 2020-05-25 一种油料数据链映射清洗的方法

Country Status (1)

Country Link
CN (1) CN111694824A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112667723A (zh) * 2020-12-30 2021-04-16 平安证券股份有限公司 一种数据采集的方法及终端设备
CN114328698A (zh) * 2022-03-07 2022-04-12 宜科(天津)电子有限公司 一种数据转换系统

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7120638B1 (en) * 1999-09-21 2006-10-10 International Business Machines Corporation Method, system, program, and data structure for cleaning a database table
CN105677710A (zh) * 2015-12-28 2016-06-15 曙光信息产业(北京)有限公司 大数据的处理方法和系统
CN108108459A (zh) * 2017-12-29 2018-06-01 长威信息科技发展股份有限公司 多源融合及环路关联的动态数据清洗方法及电子设备
CN109635024A (zh) * 2018-11-23 2019-04-16 华迪计算机集团有限公司 一种数据迁移方法及系统
CN109684393A (zh) * 2018-12-11 2019-04-26 中科恒运股份有限公司 数据采集方法、计算机可读存储介质及终端设备
CN109977162A (zh) * 2019-04-10 2019-07-05 广东省城乡规划设计研究院 一种城乡规划数据转换方法、系统和计算机可读存储介质
CN109977110A (zh) * 2019-04-28 2019-07-05 杭州数梦工场科技有限公司 数据清洗方法、装置及设备
CN110633271A (zh) * 2019-11-20 2019-12-31 紫光云(南京)数字技术有限公司 一种基于json的Hbase到mysql的数据抽取方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7120638B1 (en) * 1999-09-21 2006-10-10 International Business Machines Corporation Method, system, program, and data structure for cleaning a database table
CN105677710A (zh) * 2015-12-28 2016-06-15 曙光信息产业(北京)有限公司 大数据的处理方法和系统
CN108108459A (zh) * 2017-12-29 2018-06-01 长威信息科技发展股份有限公司 多源融合及环路关联的动态数据清洗方法及电子设备
CN109635024A (zh) * 2018-11-23 2019-04-16 华迪计算机集团有限公司 一种数据迁移方法及系统
CN109684393A (zh) * 2018-12-11 2019-04-26 中科恒运股份有限公司 数据采集方法、计算机可读存储介质及终端设备
CN109977162A (zh) * 2019-04-10 2019-07-05 广东省城乡规划设计研究院 一种城乡规划数据转换方法、系统和计算机可读存储介质
CN109977110A (zh) * 2019-04-28 2019-07-05 杭州数梦工场科技有限公司 数据清洗方法、装置及设备
CN110633271A (zh) * 2019-11-20 2019-12-31 紫光云(南京)数字技术有限公司 一种基于json的Hbase到mysql的数据抽取方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112667723A (zh) * 2020-12-30 2021-04-16 平安证券股份有限公司 一种数据采集的方法及终端设备
CN114328698A (zh) * 2022-03-07 2022-04-12 宜科(天津)电子有限公司 一种数据转换系统

Similar Documents

Publication Publication Date Title
CN112732641A (zh) 一种电子档案的归档方法及装置、介质
CN111694824A (zh) 一种油料数据链映射清洗的方法
CN111400288A (zh) 数据质量检查方法及系统
CN114780563A (zh) 一种基于数据湖的拉链表处理方法及设备
CN112328631A (zh) 一种生产故障分析方法、装置、电子设备及存储介质
CN113806343B (zh) 一种车联网数据质量的评估方法和系统
CN113239007B (zh) 多层次异构日志事务分析方法、系统、设备和存储介质
CN112596978B (zh) 一种埋点信息处理方法、装置和介质
CN114297204A (zh) 一种异构数据源的数据存储、检索方法及装置
CN116303380B (zh) 一种监测业务中的数据质量校验方法、设备及介质
CN113037521B (zh) 识别通讯设备状态的方法、通讯系统及存储介质
CN115357494A (zh) 功能覆盖率代码的自动生成方法及装置
CN112395292B (zh) 一种数据特征提取、匹配方法及装置
CN114936212B (zh) 一种审计数据同步处理方法和装置
CN109639520B (zh) 一种反应堆保护系统网络通信的计算机辅助测试方法
CN111625689A (zh) 一种变电站的svg图形和监控信息关联校验方法
CN116664021B (zh) 一种基于移动端的工厂检查辅助决策系统及方法
CN112256699A (zh) 一种工业物联网的各阀门数据检测的采集方法
CN115934439A (zh) 大批量芯片测试数据的多维度统计分析方法、设备、介质
CN117520324A (zh) 政务数据的清洗方法、装置、电子设备及存储介质
CN116308113A (zh) 一种基于高效的预算数据预警处理方法和系统
CN116415833A (zh) 移动通讯设备检测方法、装置、存储介质和计算机设备
CN115237917A (zh) 数据中台的数据计算方法、装置、设备及可读存储介质
CN117714317A (zh) 数据采集方法、装置、设备及存储介质
CN113111641A (zh) 一种基于全文搜索引擎的数据操作方法及设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20200922