CN113190544A - 一种面向企业的mes数据抽取和清洗方法 - Google Patents

一种面向企业的mes数据抽取和清洗方法 Download PDF

Info

Publication number
CN113190544A
CN113190544A CN202110575719.8A CN202110575719A CN113190544A CN 113190544 A CN113190544 A CN 113190544A CN 202110575719 A CN202110575719 A CN 202110575719A CN 113190544 A CN113190544 A CN 113190544A
Authority
CN
China
Prior art keywords
data
extraction
enterprise
cleaning
full
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110575719.8A
Other languages
English (en)
Inventor
岳建平
郑周军
薛勇
张弛
龙伟
魏鸿飞
鲁鑫
刘华国
黄衍
杨磊
靳小林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chengdu Zhongchuang Yijia Technology Co ltd
Chongqing High Tech Industry Research Institute Co Ltd
Original Assignee
Chengdu Zhongchuang Yijia Technology Co ltd
Chongqing High Tech Industry Research Institute Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chengdu Zhongchuang Yijia Technology Co ltd, Chongqing High Tech Industry Research Institute Co Ltd filed Critical Chengdu Zhongchuang Yijia Technology Co ltd
Priority to CN202110575719.8A priority Critical patent/CN113190544A/zh
Publication of CN113190544A publication Critical patent/CN113190544A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种面向企业的MES数据抽取和清洗方法,涉及企业数据管理技术领域。本发明包括如下步骤:向企业内部数据源添加数据库触发器;数据库触发器中复制更新数据,生成原始企业数据;对原始企业数据进行预处理;将预处理后的数据生成数据抽取队列;建立数据抽取逻辑模型信息,以获取模型关联关系信息;根据模型关联信息生成数据抽取配置信息;根据数据抽取配置信息、以及预先设置的抽取参数生成全量抽取脚本;对全量抽取脚本进行迭代运算以确定全量抽取脚本调度的依赖关系并生成调度文件;根据调度文件并行调度全量抽取脚本抽取数据抽取队列;对抽取的数据进行清洗获取有效数据。本发明提高了企业的数据管理效率,降低了企业管理成本。

Description

一种面向企业的MES数据抽取和清洗方法
技术领域
本发明属于企业管理数据技术领域,特别是涉及一种面向企业的MES数据抽取和清洗方法。
背景技术
随着社会经济的快速发展,人们对生活高质量的追求和对物质高品位的需求越来越高,产品质量关乎企业的生命。信息化是当今时代发展的大趋势,代表着先进生产力。
MES系统(Manufacturing Execution System,制造执行系统)作为一种高效智能的制造系统已广泛应用于生产加工领域,旨在加强生产计划的执行功能。
基于MES系统的生产过程产生大量的质量数据,这些质量数据对涉及人员、设备、零件、检验、质量、工艺、制造和管理等各个方面。由于数据类型多种多样,相互关联性明显且来源繁多,传统的质量管理依赖专家的经验,存在以下的缺点:
1、质量检验结果以数据记录,不合格项反馈为主,各检验环节对质检数据的系统性统计与分析工作很少,不能对生产过程产生预防性指导;
2、分析过程严重依赖主观经验,效率低下,分析流程不规范,理论依据不充足,分析结果难以重现。
因此,如何对质量数据进行有效清洗,提高管理效率是目前有待解决的技术问题。
发明内容
本发明的目的在于提供一种面向企业的MES数据抽取和清洗方法,通过在企业数据源内添加触发器采集原始企业数据,对原始企业数据进行预处理,并建立相应的数据抽取逻辑和清洗方法,解决了现有的企业管理效率低、数据清洗不到位的问题。
为解决上述技术问题,本发明是通过以下技术方案实现的:
本发明为一种面向企业的MES数据抽取和清洗方法,包括如下步骤:
步骤S1:向企业内部数据源添加数据库触发器;
步骤S2:数据库触发器中复制更新数据,生成原始企业数据;
步骤S3:对原始企业数据进行预处理;
步骤S4:将预处理后的数据生成数据抽取队列;
步骤S5:建立数据抽取逻辑模型信息,以获取模型关联关系信息;
步骤S6:根据模型关联信息生成数据抽取配置信息;
步骤S7:根据数据抽取配置信息、以及预先设置的抽取参数生成全量抽取脚本;
步骤S8:对全量抽取脚本进行迭代运算以确定全量抽取脚本调度的依赖关系并生成调度文件;
步骤S9:根据调度文件并行调度全量抽取脚本抽取数据抽取队列;
步骤S10:对抽取的数据进行清洗获取有效数据。
优选地,所述步骤S1中,数据库触发器部署在企业管理数据库中;所述数据库触发器用于在企业管理数据库的数据发生变更时,记录数据变更信息发送至内部大数据平台,或者依据设定的时间间隔从企业管理数据库中抽取更新数据,发送至大数据平台。
优选地,所述步骤S3中,预处理包括数据抽取、数据转换和数据加载;
所述数据抽取,用于将原始企业数据对应的各个数据源抽取到预设的临时存储区域,获取数据抽取数据,所述数据抽取数据包括全量抽取和增量抽取数据;
所述数据转换,用于将数据抽取数据进行数据合并汇总、格式统一、文件过滤、关键数据的重构及定位,获取数据转换数据;
所述数据加载,用于按预设物理和逻辑模型定义从预设临时存储区域加载到预设目标数据库,获取数据加载数据。
优选地,所述步骤S5中,建立数据抽取逻辑模型时,需要先查找符合预定规则的模型主题,并根据符合预定规则的模型主题获取相应的物理表。
优选地,所述步骤S6中,模型关联关系信息生成样本数据抽取配置信息包括:根据所述的模型关联关系信息对业务实体进行分类;根据分类的业务实体分别生成样本数据抽取配置信息。
优选地,所述步骤S7中,根据所述的样本数据抽取配置信息、以及预先设置的抽取参数生成全量抽取脚本包括:根据预先设置的抽取参数确定物理表的样本抽取逻辑;结合样本数据抽取配置信息和物理表的样本抽取逻辑生成全量抽取脚本。
优选地,所述步骤S8中,若全量抽取脚本数据失败,则记录失败的信息,并根据失败信息重新生成全量抽取脚本,对重新生成的全量抽取脚本进行迭代运算以确定新的依赖关系;根据新的依赖关系生成基于有向图数据结构的新调度文件;根据新调度文件并行调度重新生成的全量抽取脚本以重新获取样本数据。
优选地,所述步骤S9中,通过大数据的分析技术根据预设的清洗策略对不同类型的企业数据进行清洗,并将清洗后的数据导出并存储;所述大数据的分析技术包括数据清洗模块、清洗数据导出模块和清洗数据存储模块;所述数据清洗模块,用于预设的清洗策略对不同类型的企业数据进行数据清洗,得到经数据清洗后的企业数据;所述清洗数据导出模块,连接数据清洗模块,用于提供给用户导出清洗后的企业数据;所述清洗数据存储模块,连接数据清洗模块,用于存储清洗后的企业数据。
本发明具有以下有益效果:
本发明通过在企业数据源内添加触发器采集原始企业数据,对原始企业数据进行预处理生成数据抽取队列,并建立相应的数据抽取逻辑模型来根据抽取配置信息生成全量抽取脚本来抽取数据抽取队列,最后对抽取的数据进行清洗,提高了企业的数据管理效率,降低了企业管理成本。
当然,实施本发明的任一产品并不一定需要同时达到以上所述的所有优点。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明的一种面向企业的MES数据抽取和清洗方法步骤图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
请参阅图1所示,本发明为一种面向企业的MES数据抽取和清洗方法,包括如下步骤:
步骤S1:向企业内部数据源添加数据库触发器;
步骤S2:数据库触发器中复制更新数据,生成原始企业数据;
步骤S3:对原始企业数据进行预处理;
步骤S4:将预处理后的数据生成数据抽取队列;
步骤S5:建立数据抽取逻辑模型信息,以获取模型关联关系信息;
步骤S6:根据模型关联信息生成数据抽取配置信息;
步骤S7:根据数据抽取配置信息、以及预先设置的抽取参数生成全量抽取脚本;
步骤S8:对全量抽取脚本进行迭代运算以确定全量抽取脚本调度的依赖关系并生成调度文件;
步骤S9:根据调度文件并行调度全量抽取脚本抽取数据抽取队列;
步骤S10:对抽取的数据进行清洗获取有效数据。
其中,步骤S1中,数据库触发器部署在企业管理数据库中;数据库触发器用于在企业管理数据库的数据发生变更时,记录数据变更信息发送至内部大数据平台,或者依据设定的时间间隔从企业管理数据库中抽取更新数据,发送至大数据平台。
其中,步骤S3中,预处理包括数据抽取、数据转换和数据加载;
数据抽取,用于将原始企业数据对应的各个数据源抽取到预设的临时存储区域,获取数据抽取数据,数据抽取数据包括全量抽取和增量抽取数据;
数据转换,用于将数据抽取数据进行数据合并汇总、格式统一、文件过滤、关键数据的重构及定位,获取数据转换数据;
数据加载,用于按预设物理和逻辑模型定义从预设临时存储区域加载到预设目标数据库,获取数据加载数据。
其中,步骤S5中,建立数据抽取逻辑模型时,需要先查找符合预定规则的模型主题,并根据符合预定规则的模型主题获取相应的物理表。
其中,步骤S6中,模型关联关系信息生成样本数据抽取配置信息包括:根据的模型关联关系信息对业务实体进行分类;根据分类的业务实体分别生成样本数据抽取配置信息。
其中,步骤S7中,根据的样本数据抽取配置信息、以及预先设置的抽取参数生成全量抽取脚本包括:根据预先设置的抽取参数确定物理表的样本抽取逻辑;结合样本数据抽取配置信息和物理表的样本抽取逻辑生成全量抽取脚本。
其中,步骤S8中,若全量抽取脚本数据失败,则记录失败的信息,并根据失败信息重新生成全量抽取脚本,对重新生成的全量抽取脚本进行迭代运算以确定新的依赖关系;根据新的依赖关系生成基于有向图数据结构的新调度文件;根据新调度文件并行调度重新生成的全量抽取脚本以重新获取样本数据。
其中,步骤S9中,通过大数据的分析技术根据预设的清洗策略对不同类型的企业数据进行清洗,并将清洗后的数据导出并存储;大数据的分析技术包括数据清洗模块、清洗数据导出模块和清洗数据存储模块;数据清洗模块,用于预设的清洗策略对不同类型的企业数据进行数据清洗,得到经数据清洗后的企业数据;清洗数据导出模块,连接数据清洗模块,用于提供给用户导出清洗后的企业数据;清洗数据存储模块,连接数据清洗模块,用于存储清洗后的企业数据。
值得注意的是,上述系统实施例中,所包括的各个单元只是按照功能逻辑进行划分的,但并不局限于上述的划分,只要能够实现相应的功能即可;另外,各功能单元的具体名称也只是为了便于相互区分,并不用于限制本发明的保护范围。
另外,本领域普通技术人员可以理解实现上述各实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,相应的程序可以存储于一计算机可读取存储介质中。
以上公开的本发明优选实施例只是用于帮助阐述本发明。优选实施例并没有详尽叙述所有的细节,也不限制该发明仅为所述的具体实施方式。显然,根据本说明书的内容,可作很多的修改和变化。本说明书选取并具体描述这些实施例,是为了更好地解释本发明的原理和实际应用,从而使所属技术领域技术人员能很好地理解和利用本发明。本发明仅受权利要求书及其全部范围和等效物的限制。

Claims (8)

1.一种面向企业的MES数据抽取和清洗方法,其特征在于,包括如下步骤:
步骤S1:向企业内部数据源添加数据库触发器;
步骤S2:数据库触发器中复制更新数据,生成原始企业数据;
步骤S3:对原始企业数据进行预处理;
步骤S4:将预处理后的数据生成数据抽取队列;
步骤S5:建立数据抽取逻辑模型信息,以获取模型关联关系信息;
步骤S6:根据模型关联信息生成数据抽取配置信息;
步骤S7:根据数据抽取配置信息、以及预先设置的抽取参数生成全量抽取脚本;
步骤S8:对全量抽取脚本进行迭代运算以确定全量抽取脚本调度的依赖关系并生成调度文件;
步骤S9:根据调度文件并行调度全量抽取脚本抽取数据抽取队列;
步骤S10:对抽取的数据进行清洗获取有效数据。
2.根据权利要求1所述的一种面向企业的MES数据抽取和清洗方法,其特征在于,所述步骤S1中,数据库触发器部署在企业管理数据库中;所述数据库触发器用于在企业管理数据库的数据发生变更时,记录数据变更信息发送至内部大数据平台,或者依据设定的时间间隔从企业管理数据库中抽取更新数据,发送至大数据平台。
3.根据权利要求1所述的一种面向企业的MES数据抽取和清洗方法,其特征在于,所述步骤S3中,预处理包括数据抽取、数据转换和数据加载;
所述数据抽取,用于将原始企业数据对应的各个数据源抽取到预设的临时存储区域,获取数据抽取数据,所述数据抽取数据包括全量抽取和增量抽取数据;
所述数据转换,用于将数据抽取数据进行数据合并汇总、格式统一、文件过滤、关键数据的重构及定位,获取数据转换数据;
所述数据加载,用于按预设物理和逻辑模型定义从预设临时存储区域加载到预设目标数据库,获取数据加载数据。
4.根据权利要求1所述的一种面向企业的MES数据抽取和清洗方法,其特征在于,所述步骤S5中,建立数据抽取逻辑模型时,需要先查找符合预定规则的模型主题,并根据符合预定规则的模型主题获取相应的物理表。
5.根据权利要求1所述的一种面向企业的MES数据抽取和清洗方法,其特征在于,所述步骤S6中,模型关联关系信息生成样本数据抽取配置信息包括:根据所述的模型关联关系信息对业务实体进行分类;根据分类的业务实体分别生成样本数据抽取配置信息。
6.根据权利要求1所述的一种面向企业的MES数据抽取和清洗方法,其特征在于,所述步骤S7中,根据所述的样本数据抽取配置信息、以及预先设置的抽取参数生成全量抽取脚本包括:根据预先设置的抽取参数确定物理表的样本抽取逻辑;结合样本数据抽取配置信息和物理表的样本抽取逻辑生成全量抽取脚本。
7.根据权利要求1所述的一种面向企业的MES数据抽取和清洗方法,其特征在于,所述步骤S8中,若全量抽取脚本数据失败,则记录失败的信息,并根据失败信息重新生成全量抽取脚本,对重新生成的全量抽取脚本进行迭代运算以确定新的依赖关系;根据新的依赖关系生成基于有向图数据结构的新调度文件;根据新调度文件并行调度重新生成的全量抽取脚本以重新获取样本数据。
8.根据权利要求1所述的一种面向企业的MES数据抽取和清洗方法,其特征在于,所述步骤S9中,通过大数据的分析技术根据预设的清洗策略对不同类型的企业数据进行清洗,并将清洗后的数据导出并存储;所述大数据的分析技术包括数据清洗模块、清洗数据导出模块和清洗数据存储模块;所述数据清洗模块,用于预设的清洗策略对不同类型的企业数据进行数据清洗,得到经数据清洗后的企业数据;所述清洗数据导出模块,连接数据清洗模块,用于提供给用户导出清洗后的企业数据;所述清洗数据存储模块,连接数据清洗模块,用于存储清洗后的企业数据。
CN202110575719.8A 2021-05-26 2021-05-26 一种面向企业的mes数据抽取和清洗方法 Pending CN113190544A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110575719.8A CN113190544A (zh) 2021-05-26 2021-05-26 一种面向企业的mes数据抽取和清洗方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110575719.8A CN113190544A (zh) 2021-05-26 2021-05-26 一种面向企业的mes数据抽取和清洗方法

Publications (1)

Publication Number Publication Date
CN113190544A true CN113190544A (zh) 2021-07-30

Family

ID=76985064

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110575719.8A Pending CN113190544A (zh) 2021-05-26 2021-05-26 一种面向企业的mes数据抽取和清洗方法

Country Status (1)

Country Link
CN (1) CN113190544A (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102073698A (zh) * 2010-12-28 2011-05-25 中国工商银行股份有限公司 企业级数据仓库系统的样本数据获取方法及装置
CN107562931A (zh) * 2017-09-15 2018-01-09 新智云数据服务有限公司 数据抽取系统和数据抽取方法
CN111522806A (zh) * 2020-04-26 2020-08-11 陈文海 大数据清洗处理方法、装置、服务器及可读存储介质
CN111626548A (zh) * 2020-04-07 2020-09-04 青岛奥利普自动化控制系统有限公司 一种基于mes系统的质量管理方法和设备

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102073698A (zh) * 2010-12-28 2011-05-25 中国工商银行股份有限公司 企业级数据仓库系统的样本数据获取方法及装置
CN107562931A (zh) * 2017-09-15 2018-01-09 新智云数据服务有限公司 数据抽取系统和数据抽取方法
CN111626548A (zh) * 2020-04-07 2020-09-04 青岛奥利普自动化控制系统有限公司 一种基于mes系统的质量管理方法和设备
CN111522806A (zh) * 2020-04-26 2020-08-11 陈文海 大数据清洗处理方法、装置、服务器及可读存储介质

Similar Documents

Publication Publication Date Title
CN112256782B (zh) 基于Hadoop的电力大数据处理系统
CN111563130A (zh) 一种基于区块链技术的数据可信数据治理方法和系统
CN111488314B (zh) 一种基于Python的仿真日志分析方法
CN102156799A (zh) 一种可级联的复杂事件处理引擎及列车检修自动记录方法
CN111930862A (zh) 一种基于大数据平台的sql交互式分析方法及系统
CN112948359A (zh) 一种基于数据库分库分表的不停机客户数据迁移方法
CN113190544A (zh) 一种面向企业的mes数据抽取和清洗方法
CN112765014A (zh) 一种用于多用户同时操作的自动测试系统及工作方法
CN112306992A (zh) 一种基于互联网的大数据平台
CN117035099A (zh) 基于大模型和知识图谱的企业知识库问答对生成方法
CN111522705A (zh) 一种工业大数据智能运维解决方法
CN111813847A (zh) 企业运营数据的处理方法
CN112395343B (zh) 一种基于dsg的字段变更数据采集抽取方法
CN109426576A (zh) 容错处理方法以及容错组件
CN112507213B (zh) 一种基于行为大数据分析的推荐优化的系统方案的方法
Zhang et al. Research on data cleaning method based on SNM algorithm
CN112702196A (zh) 一种自动化故障处理方法和系统
CN110515989A (zh) 一种基于财务数据管理平台的数据实时统计方法
CN112000309B (zh) 一种数据采集方法及系统
Zhang et al. Research on Resume Recommendation of Employment Platform based on Decision Tree Algorithm
CN113220674A (zh) 一种基于能源大数据的数据清洗转换系统
CN118132946A (zh) 一种基于大数据建模的bi应用系统
CN114817171A (zh) 一种埋点数据质量治理方法
CN114281309A (zh) 记录用户操作数据差异的非侵入式程序设计方法
CN116775948A (zh) 一种用于yms系统的数据仓库系统及其构建方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20210730