CN113190544A - 一种面向企业的mes数据抽取和清洗方法 - Google Patents
一种面向企业的mes数据抽取和清洗方法 Download PDFInfo
- Publication number
- CN113190544A CN113190544A CN202110575719.8A CN202110575719A CN113190544A CN 113190544 A CN113190544 A CN 113190544A CN 202110575719 A CN202110575719 A CN 202110575719A CN 113190544 A CN113190544 A CN 113190544A
- Authority
- CN
- China
- Prior art keywords
- data
- extraction
- enterprise
- cleaning
- full
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000013075 data extraction Methods 0.000 title claims abstract description 63
- 238000004140 cleaning Methods 0.000 title claims abstract description 56
- 238000000034 method Methods 0.000 title claims abstract description 22
- 238000000605 extraction Methods 0.000 claims abstract description 58
- 238000007726 management method Methods 0.000 claims abstract description 16
- 238000007781 pre-processing Methods 0.000 claims abstract description 7
- 238000006243 chemical reaction Methods 0.000 claims description 8
- 238000003860 storage Methods 0.000 claims description 7
- 238000007405 data analysis Methods 0.000 claims description 6
- 238000013500 data storage Methods 0.000 claims description 6
- 238000005516 engineering process Methods 0.000 claims description 4
- 238000001914 filtration Methods 0.000 claims description 3
- 238000013501 data transformation Methods 0.000 claims 1
- 238000013523 data management Methods 0.000 abstract description 3
- 238000004519 manufacturing process Methods 0.000 description 7
- 238000004458 analytical method Methods 0.000 description 4
- 238000007689 inspection Methods 0.000 description 4
- 238000012545 processing Methods 0.000 description 2
- 230000001172 regenerating effect Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003449 preventive effect Effects 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 230000009897 systematic effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/285—Clustering or classification
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Quality & Reliability (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种面向企业的MES数据抽取和清洗方法,涉及企业数据管理技术领域。本发明包括如下步骤:向企业内部数据源添加数据库触发器;数据库触发器中复制更新数据,生成原始企业数据;对原始企业数据进行预处理;将预处理后的数据生成数据抽取队列;建立数据抽取逻辑模型信息,以获取模型关联关系信息;根据模型关联信息生成数据抽取配置信息;根据数据抽取配置信息、以及预先设置的抽取参数生成全量抽取脚本;对全量抽取脚本进行迭代运算以确定全量抽取脚本调度的依赖关系并生成调度文件;根据调度文件并行调度全量抽取脚本抽取数据抽取队列;对抽取的数据进行清洗获取有效数据。本发明提高了企业的数据管理效率,降低了企业管理成本。
Description
技术领域
本发明属于企业管理数据技术领域,特别是涉及一种面向企业的MES数据抽取和清洗方法。
背景技术
随着社会经济的快速发展,人们对生活高质量的追求和对物质高品位的需求越来越高,产品质量关乎企业的生命。信息化是当今时代发展的大趋势,代表着先进生产力。
MES系统(Manufacturing Execution System,制造执行系统)作为一种高效智能的制造系统已广泛应用于生产加工领域,旨在加强生产计划的执行功能。
基于MES系统的生产过程产生大量的质量数据,这些质量数据对涉及人员、设备、零件、检验、质量、工艺、制造和管理等各个方面。由于数据类型多种多样,相互关联性明显且来源繁多,传统的质量管理依赖专家的经验,存在以下的缺点:
1、质量检验结果以数据记录,不合格项反馈为主,各检验环节对质检数据的系统性统计与分析工作很少,不能对生产过程产生预防性指导;
2、分析过程严重依赖主观经验,效率低下,分析流程不规范,理论依据不充足,分析结果难以重现。
因此,如何对质量数据进行有效清洗,提高管理效率是目前有待解决的技术问题。
发明内容
本发明的目的在于提供一种面向企业的MES数据抽取和清洗方法,通过在企业数据源内添加触发器采集原始企业数据,对原始企业数据进行预处理,并建立相应的数据抽取逻辑和清洗方法,解决了现有的企业管理效率低、数据清洗不到位的问题。
为解决上述技术问题,本发明是通过以下技术方案实现的:
本发明为一种面向企业的MES数据抽取和清洗方法,包括如下步骤:
步骤S1:向企业内部数据源添加数据库触发器;
步骤S2:数据库触发器中复制更新数据,生成原始企业数据;
步骤S3:对原始企业数据进行预处理;
步骤S4:将预处理后的数据生成数据抽取队列;
步骤S5:建立数据抽取逻辑模型信息,以获取模型关联关系信息;
步骤S6:根据模型关联信息生成数据抽取配置信息;
步骤S7:根据数据抽取配置信息、以及预先设置的抽取参数生成全量抽取脚本;
步骤S8:对全量抽取脚本进行迭代运算以确定全量抽取脚本调度的依赖关系并生成调度文件;
步骤S9:根据调度文件并行调度全量抽取脚本抽取数据抽取队列;
步骤S10:对抽取的数据进行清洗获取有效数据。
优选地,所述步骤S1中,数据库触发器部署在企业管理数据库中;所述数据库触发器用于在企业管理数据库的数据发生变更时,记录数据变更信息发送至内部大数据平台,或者依据设定的时间间隔从企业管理数据库中抽取更新数据,发送至大数据平台。
优选地,所述步骤S3中,预处理包括数据抽取、数据转换和数据加载;
所述数据抽取,用于将原始企业数据对应的各个数据源抽取到预设的临时存储区域,获取数据抽取数据,所述数据抽取数据包括全量抽取和增量抽取数据;
所述数据转换,用于将数据抽取数据进行数据合并汇总、格式统一、文件过滤、关键数据的重构及定位,获取数据转换数据;
所述数据加载,用于按预设物理和逻辑模型定义从预设临时存储区域加载到预设目标数据库,获取数据加载数据。
优选地,所述步骤S5中,建立数据抽取逻辑模型时,需要先查找符合预定规则的模型主题,并根据符合预定规则的模型主题获取相应的物理表。
优选地,所述步骤S6中,模型关联关系信息生成样本数据抽取配置信息包括:根据所述的模型关联关系信息对业务实体进行分类;根据分类的业务实体分别生成样本数据抽取配置信息。
优选地,所述步骤S7中,根据所述的样本数据抽取配置信息、以及预先设置的抽取参数生成全量抽取脚本包括:根据预先设置的抽取参数确定物理表的样本抽取逻辑;结合样本数据抽取配置信息和物理表的样本抽取逻辑生成全量抽取脚本。
优选地,所述步骤S8中,若全量抽取脚本数据失败,则记录失败的信息,并根据失败信息重新生成全量抽取脚本,对重新生成的全量抽取脚本进行迭代运算以确定新的依赖关系;根据新的依赖关系生成基于有向图数据结构的新调度文件;根据新调度文件并行调度重新生成的全量抽取脚本以重新获取样本数据。
优选地,所述步骤S9中,通过大数据的分析技术根据预设的清洗策略对不同类型的企业数据进行清洗,并将清洗后的数据导出并存储;所述大数据的分析技术包括数据清洗模块、清洗数据导出模块和清洗数据存储模块;所述数据清洗模块,用于预设的清洗策略对不同类型的企业数据进行数据清洗,得到经数据清洗后的企业数据;所述清洗数据导出模块,连接数据清洗模块,用于提供给用户导出清洗后的企业数据;所述清洗数据存储模块,连接数据清洗模块,用于存储清洗后的企业数据。
本发明具有以下有益效果:
本发明通过在企业数据源内添加触发器采集原始企业数据,对原始企业数据进行预处理生成数据抽取队列,并建立相应的数据抽取逻辑模型来根据抽取配置信息生成全量抽取脚本来抽取数据抽取队列,最后对抽取的数据进行清洗,提高了企业的数据管理效率,降低了企业管理成本。
当然,实施本发明的任一产品并不一定需要同时达到以上所述的所有优点。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明的一种面向企业的MES数据抽取和清洗方法步骤图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
请参阅图1所示,本发明为一种面向企业的MES数据抽取和清洗方法,包括如下步骤:
步骤S1:向企业内部数据源添加数据库触发器;
步骤S2:数据库触发器中复制更新数据,生成原始企业数据;
步骤S3:对原始企业数据进行预处理;
步骤S4:将预处理后的数据生成数据抽取队列;
步骤S5:建立数据抽取逻辑模型信息,以获取模型关联关系信息;
步骤S6:根据模型关联信息生成数据抽取配置信息;
步骤S7:根据数据抽取配置信息、以及预先设置的抽取参数生成全量抽取脚本;
步骤S8:对全量抽取脚本进行迭代运算以确定全量抽取脚本调度的依赖关系并生成调度文件;
步骤S9:根据调度文件并行调度全量抽取脚本抽取数据抽取队列;
步骤S10:对抽取的数据进行清洗获取有效数据。
其中,步骤S1中,数据库触发器部署在企业管理数据库中;数据库触发器用于在企业管理数据库的数据发生变更时,记录数据变更信息发送至内部大数据平台,或者依据设定的时间间隔从企业管理数据库中抽取更新数据,发送至大数据平台。
其中,步骤S3中,预处理包括数据抽取、数据转换和数据加载;
数据抽取,用于将原始企业数据对应的各个数据源抽取到预设的临时存储区域,获取数据抽取数据,数据抽取数据包括全量抽取和增量抽取数据;
数据转换,用于将数据抽取数据进行数据合并汇总、格式统一、文件过滤、关键数据的重构及定位,获取数据转换数据;
数据加载,用于按预设物理和逻辑模型定义从预设临时存储区域加载到预设目标数据库,获取数据加载数据。
其中,步骤S5中,建立数据抽取逻辑模型时,需要先查找符合预定规则的模型主题,并根据符合预定规则的模型主题获取相应的物理表。
其中,步骤S6中,模型关联关系信息生成样本数据抽取配置信息包括:根据的模型关联关系信息对业务实体进行分类;根据分类的业务实体分别生成样本数据抽取配置信息。
其中,步骤S7中,根据的样本数据抽取配置信息、以及预先设置的抽取参数生成全量抽取脚本包括:根据预先设置的抽取参数确定物理表的样本抽取逻辑;结合样本数据抽取配置信息和物理表的样本抽取逻辑生成全量抽取脚本。
其中,步骤S8中,若全量抽取脚本数据失败,则记录失败的信息,并根据失败信息重新生成全量抽取脚本,对重新生成的全量抽取脚本进行迭代运算以确定新的依赖关系;根据新的依赖关系生成基于有向图数据结构的新调度文件;根据新调度文件并行调度重新生成的全量抽取脚本以重新获取样本数据。
其中,步骤S9中,通过大数据的分析技术根据预设的清洗策略对不同类型的企业数据进行清洗,并将清洗后的数据导出并存储;大数据的分析技术包括数据清洗模块、清洗数据导出模块和清洗数据存储模块;数据清洗模块,用于预设的清洗策略对不同类型的企业数据进行数据清洗,得到经数据清洗后的企业数据;清洗数据导出模块,连接数据清洗模块,用于提供给用户导出清洗后的企业数据;清洗数据存储模块,连接数据清洗模块,用于存储清洗后的企业数据。
值得注意的是,上述系统实施例中,所包括的各个单元只是按照功能逻辑进行划分的,但并不局限于上述的划分,只要能够实现相应的功能即可;另外,各功能单元的具体名称也只是为了便于相互区分,并不用于限制本发明的保护范围。
另外,本领域普通技术人员可以理解实现上述各实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,相应的程序可以存储于一计算机可读取存储介质中。
以上公开的本发明优选实施例只是用于帮助阐述本发明。优选实施例并没有详尽叙述所有的细节,也不限制该发明仅为所述的具体实施方式。显然,根据本说明书的内容,可作很多的修改和变化。本说明书选取并具体描述这些实施例,是为了更好地解释本发明的原理和实际应用,从而使所属技术领域技术人员能很好地理解和利用本发明。本发明仅受权利要求书及其全部范围和等效物的限制。
Claims (8)
1.一种面向企业的MES数据抽取和清洗方法,其特征在于,包括如下步骤:
步骤S1:向企业内部数据源添加数据库触发器;
步骤S2:数据库触发器中复制更新数据,生成原始企业数据;
步骤S3:对原始企业数据进行预处理;
步骤S4:将预处理后的数据生成数据抽取队列;
步骤S5:建立数据抽取逻辑模型信息,以获取模型关联关系信息;
步骤S6:根据模型关联信息生成数据抽取配置信息;
步骤S7:根据数据抽取配置信息、以及预先设置的抽取参数生成全量抽取脚本;
步骤S8:对全量抽取脚本进行迭代运算以确定全量抽取脚本调度的依赖关系并生成调度文件;
步骤S9:根据调度文件并行调度全量抽取脚本抽取数据抽取队列;
步骤S10:对抽取的数据进行清洗获取有效数据。
2.根据权利要求1所述的一种面向企业的MES数据抽取和清洗方法,其特征在于,所述步骤S1中,数据库触发器部署在企业管理数据库中;所述数据库触发器用于在企业管理数据库的数据发生变更时,记录数据变更信息发送至内部大数据平台,或者依据设定的时间间隔从企业管理数据库中抽取更新数据,发送至大数据平台。
3.根据权利要求1所述的一种面向企业的MES数据抽取和清洗方法,其特征在于,所述步骤S3中,预处理包括数据抽取、数据转换和数据加载;
所述数据抽取,用于将原始企业数据对应的各个数据源抽取到预设的临时存储区域,获取数据抽取数据,所述数据抽取数据包括全量抽取和增量抽取数据;
所述数据转换,用于将数据抽取数据进行数据合并汇总、格式统一、文件过滤、关键数据的重构及定位,获取数据转换数据;
所述数据加载,用于按预设物理和逻辑模型定义从预设临时存储区域加载到预设目标数据库,获取数据加载数据。
4.根据权利要求1所述的一种面向企业的MES数据抽取和清洗方法,其特征在于,所述步骤S5中,建立数据抽取逻辑模型时,需要先查找符合预定规则的模型主题,并根据符合预定规则的模型主题获取相应的物理表。
5.根据权利要求1所述的一种面向企业的MES数据抽取和清洗方法,其特征在于,所述步骤S6中,模型关联关系信息生成样本数据抽取配置信息包括:根据所述的模型关联关系信息对业务实体进行分类;根据分类的业务实体分别生成样本数据抽取配置信息。
6.根据权利要求1所述的一种面向企业的MES数据抽取和清洗方法,其特征在于,所述步骤S7中,根据所述的样本数据抽取配置信息、以及预先设置的抽取参数生成全量抽取脚本包括:根据预先设置的抽取参数确定物理表的样本抽取逻辑;结合样本数据抽取配置信息和物理表的样本抽取逻辑生成全量抽取脚本。
7.根据权利要求1所述的一种面向企业的MES数据抽取和清洗方法,其特征在于,所述步骤S8中,若全量抽取脚本数据失败,则记录失败的信息,并根据失败信息重新生成全量抽取脚本,对重新生成的全量抽取脚本进行迭代运算以确定新的依赖关系;根据新的依赖关系生成基于有向图数据结构的新调度文件;根据新调度文件并行调度重新生成的全量抽取脚本以重新获取样本数据。
8.根据权利要求1所述的一种面向企业的MES数据抽取和清洗方法,其特征在于,所述步骤S9中,通过大数据的分析技术根据预设的清洗策略对不同类型的企业数据进行清洗,并将清洗后的数据导出并存储;所述大数据的分析技术包括数据清洗模块、清洗数据导出模块和清洗数据存储模块;所述数据清洗模块,用于预设的清洗策略对不同类型的企业数据进行数据清洗,得到经数据清洗后的企业数据;所述清洗数据导出模块,连接数据清洗模块,用于提供给用户导出清洗后的企业数据;所述清洗数据存储模块,连接数据清洗模块,用于存储清洗后的企业数据。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110575719.8A CN113190544A (zh) | 2021-05-26 | 2021-05-26 | 一种面向企业的mes数据抽取和清洗方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110575719.8A CN113190544A (zh) | 2021-05-26 | 2021-05-26 | 一种面向企业的mes数据抽取和清洗方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113190544A true CN113190544A (zh) | 2021-07-30 |
Family
ID=76985064
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110575719.8A Pending CN113190544A (zh) | 2021-05-26 | 2021-05-26 | 一种面向企业的mes数据抽取和清洗方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113190544A (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102073698A (zh) * | 2010-12-28 | 2011-05-25 | 中国工商银行股份有限公司 | 企业级数据仓库系统的样本数据获取方法及装置 |
CN107562931A (zh) * | 2017-09-15 | 2018-01-09 | 新智云数据服务有限公司 | 数据抽取系统和数据抽取方法 |
CN111522806A (zh) * | 2020-04-26 | 2020-08-11 | 陈文海 | 大数据清洗处理方法、装置、服务器及可读存储介质 |
CN111626548A (zh) * | 2020-04-07 | 2020-09-04 | 青岛奥利普自动化控制系统有限公司 | 一种基于mes系统的质量管理方法和设备 |
-
2021
- 2021-05-26 CN CN202110575719.8A patent/CN113190544A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102073698A (zh) * | 2010-12-28 | 2011-05-25 | 中国工商银行股份有限公司 | 企业级数据仓库系统的样本数据获取方法及装置 |
CN107562931A (zh) * | 2017-09-15 | 2018-01-09 | 新智云数据服务有限公司 | 数据抽取系统和数据抽取方法 |
CN111626548A (zh) * | 2020-04-07 | 2020-09-04 | 青岛奥利普自动化控制系统有限公司 | 一种基于mes系统的质量管理方法和设备 |
CN111522806A (zh) * | 2020-04-26 | 2020-08-11 | 陈文海 | 大数据清洗处理方法、装置、服务器及可读存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112256782B (zh) | 基于Hadoop的电力大数据处理系统 | |
CN111563130A (zh) | 一种基于区块链技术的数据可信数据治理方法和系统 | |
CN111488314B (zh) | 一种基于Python的仿真日志分析方法 | |
CN102156799A (zh) | 一种可级联的复杂事件处理引擎及列车检修自动记录方法 | |
CN111930862A (zh) | 一种基于大数据平台的sql交互式分析方法及系统 | |
CN112948359A (zh) | 一种基于数据库分库分表的不停机客户数据迁移方法 | |
CN113190544A (zh) | 一种面向企业的mes数据抽取和清洗方法 | |
CN112765014A (zh) | 一种用于多用户同时操作的自动测试系统及工作方法 | |
CN112306992A (zh) | 一种基于互联网的大数据平台 | |
CN117035099A (zh) | 基于大模型和知识图谱的企业知识库问答对生成方法 | |
CN111522705A (zh) | 一种工业大数据智能运维解决方法 | |
CN111813847A (zh) | 企业运营数据的处理方法 | |
CN112395343B (zh) | 一种基于dsg的字段变更数据采集抽取方法 | |
CN109426576A (zh) | 容错处理方法以及容错组件 | |
CN112507213B (zh) | 一种基于行为大数据分析的推荐优化的系统方案的方法 | |
Zhang et al. | Research on data cleaning method based on SNM algorithm | |
CN112702196A (zh) | 一种自动化故障处理方法和系统 | |
CN110515989A (zh) | 一种基于财务数据管理平台的数据实时统计方法 | |
CN112000309B (zh) | 一种数据采集方法及系统 | |
Zhang et al. | Research on Resume Recommendation of Employment Platform based on Decision Tree Algorithm | |
CN113220674A (zh) | 一种基于能源大数据的数据清洗转换系统 | |
CN118132946A (zh) | 一种基于大数据建模的bi应用系统 | |
CN114817171A (zh) | 一种埋点数据质量治理方法 | |
CN114281309A (zh) | 记录用户操作数据差异的非侵入式程序设计方法 | |
CN116775948A (zh) | 一种用于yms系统的数据仓库系统及其构建方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210730 |