CN110489723A - 一种印染行业信息系统的数据查错与纠错系统 - Google Patents
一种印染行业信息系统的数据查错与纠错系统 Download PDFInfo
- Publication number
- CN110489723A CN110489723A CN201910764880.2A CN201910764880A CN110489723A CN 110489723 A CN110489723 A CN 110489723A CN 201910764880 A CN201910764880 A CN 201910764880A CN 110489723 A CN110489723 A CN 110489723A
- Authority
- CN
- China
- Prior art keywords
- data
- error
- type
- wrong
- information system
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012937 correction Methods 0.000 title claims abstract description 120
- 238000004043 dyeing Methods 0.000 title claims abstract description 69
- 238000001514 detection method Methods 0.000 title claims abstract description 37
- 238000000034 method Methods 0.000 claims abstract description 152
- 238000004519 manufacturing process Methods 0.000 abstract description 7
- 238000007405 data analysis Methods 0.000 abstract description 6
- 230000002159 abnormal effect Effects 0.000 description 8
- 239000004744 fabric Substances 0.000 description 8
- 238000013178 mathematical model Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 7
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 7
- 238000009826 distribution Methods 0.000 description 6
- 239000000975 dye Substances 0.000 description 6
- 230000005611 electricity Effects 0.000 description 6
- 239000012752 auxiliary agent Substances 0.000 description 5
- 241001269238 Data Species 0.000 description 4
- -1 color Substances 0.000 description 4
- 239000000463 material Substances 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 238000001228 spectrum Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000012098 association analyses Methods 0.000 description 1
- 238000013523 data management Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 238000002347 injection Methods 0.000 description 1
- 239000007924 injection Substances 0.000 description 1
- 238000012417 linear regression Methods 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 239000000243 solution Substances 0.000 description 1
- 238000003860 storage Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/18—Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0639—Performance analysis of employees; Performance analysis of enterprise or organisation operations
- G06Q10/06395—Quality analysis or management
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/04—Manufacturing
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/30—Computing systems specially adapted for manufacturing
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Physics & Mathematics (AREA)
- Human Resources & Organizations (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Strategic Management (AREA)
- Economics (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Analysis (AREA)
- Marketing (AREA)
- Operations Research (AREA)
- General Business, Economics & Management (AREA)
- Pure & Applied Mathematics (AREA)
- Tourism & Hospitality (AREA)
- Mathematical Physics (AREA)
- Mathematical Optimization (AREA)
- Entrepreneurship & Innovation (AREA)
- Educational Administration (AREA)
- Development Economics (AREA)
- Computational Mathematics (AREA)
- Quality & Reliability (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Game Theory and Decision Science (AREA)
- Evolutionary Biology (AREA)
- Databases & Information Systems (AREA)
- Software Systems (AREA)
- Algebra (AREA)
- Probability & Statistics with Applications (AREA)
- Manufacturing & Machinery (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Primary Health Care (AREA)
- Coloring (AREA)
Abstract
本申请公开了一种印染行业信息系统的数据查错与纠错系统、设备及方法,包括:获取印染行业信息系统的原始数据;根据预先定义的错误类型集合查找原始数据中的错误数据,并确定错误数据的错误类型,生成错误数据的推荐纠正值;反馈错误数据、错误数据的错误类型、错误数据的推荐纠正值。该方案通过预先定义错误类型集合,能够自动从原始数据中查找到归属于错误类型集合中任意一种错误类型的错误数据,并在此基础上生成该错误数据的推荐纠正值,以实现对印染行业信息系统中原始数据的查错与纠错,提高了印染行业信息系统中数据的质量和应用率,保证了后期的数据分析结果和建模结果及其应用于智能制造的可靠性。
Description
技术领域
本申请涉及计算机技术领域,特别涉及一种印染行业信息系统的数据查错与纠错系统、设备及方法。
背景技术
目前,印染行业一般采用诸多信息系统,但是对于信息系统的实施、操作与维护尚未达到规范,因此各种信息系统的数据存储与管理水平低下。例如,虽然印染企业普遍利用信息系统记录生产数据,但实际记录数据的过程中往往会出现漏填和错填数据的现象,为后续的数据分析及建模过程带来较大困扰。
可见,目前印染行业信息系统中的数据存在错填漏填等现象,导致数据应用率较低,为后续数据分析及建模过程带来困扰,因而无法充分发挥数据作用以优化印染企业的产品质量和生产效率。
发明内容
本申请的目的是提供一种印染行业信息系统的数据查错与纠错系统、设备及方法,用以解决目前印染行业信息系统中的数据存在错填漏填等现象,导致数据应用率较低,为后续数据分析及建模过程带来困扰的问题。
为解决上述技术问题,本申请提供了一种印染行业信息系统的数据查错与纠错系统,包括:
数据获取模块:用于获取印染行业信息系统的原始数据;
错误类型定义模块:用于存储预先定义的错误类型集合,所述错误类型集合包括一种或多种错误类型;
查错模块:用于根据所述错误类型集合查找所述原始数据中的错误数据,并确定所述错误数据的错误类型;
纠错模块:用于生成所述错误数据的推荐纠正值;
反馈模块:用于反馈所述错误数据、所述错误数据的错误类型、所述错误数据的推荐纠正值。
优选的,所述错误类型定义模块具体用于:
存储预先定义的错误类型集合,所述错误类型集合包括以下任意一种或多种错误类型:数据空白或不规范、数据异常、隐藏错误。
优选的,所述查错模块包括:
数据空白或不规范查错单元:用于利用直接查找法和/或关联字段法查找所述原始数据中存在数据空白或不规范的错误数据;
数据异常查错单元:用于利用预设数据异常查错方法查找所述原始数据中存在数据异常的错误数据,所述预设数据异常查错方法包括以下任意一种或多种方法:阈值法与置信区间法、关联查错法、模型预测法;
隐藏错误查错单元:用于利用关联查错法和/或模型预测法查找所述原始数据中存在隐藏错误的错误数据。
优选的,所述纠错模块包括:
数据空白或不规范纠错单元:用于根据系统关联表生成所述存在数据空白或不规范的错误数据的推荐纠正值;
数据异常纠错单元:用于利用预设数据异常纠错方法生成所述存在数据异常的错误数据的推荐纠正值,所述预设数据异常纠错方法包括以下任意一项或多项:关联度推荐法、插值法、模型预测法;
隐藏错误纠错单元:用于利用预设隐藏错误纠错方法生成所述存在隐藏错误的错误数据的推荐纠正值,所述预设隐藏错误纠错方法包括以下任意一项或多项:关联度推荐法、插值法、模型预测法。
优选的,还包括:
错误统计模块:用于统计所述错误类型集合中各种错误类型出现的次数或频率。
优选的,所述数据获取模块具体用于:
通过数据接口获取印染行业信息系统的原始数据,所述印染行业信息系统包括以下任意一种或多种系统:ERP、MES、SFC、PLM、APS、SCM、CRM。
此外,本申请还提供了一种印染行业信息系统的数据查错与纠错设备,包括:如上所述的一种印染行业信息系统的数据查错与纠错系统。
最后,本申请还提供了一种印染行业信息系统的数据查错与纠错方法,包括:
获取印染行业信息系统的原始数据;
根据预先定义的错误类型集合查找所述原始数据中的错误数据,并确定所述错误数据的错误类型,所述错误类型集合包括一种或多种错误类型;
生成所述错误数据的推荐纠正值;
反馈所述错误数据、所述错误数据的错误类型、所述错误数据的推荐纠正值。
本申请所提供的一种印染行业信息系统的数据查错与纠错系统、设备及方法,方案包括:获取印染行业信息系统的原始数据;根据预先定义的错误类型集合查找原始数据中的错误数据,并确定错误数据的错误类型,其中错误类型集合包括一种或多种错误类型;生成错误数据的推荐纠正值;反馈错误数据、错误数据的错误类型、错误数据的推荐纠正值。
可见,该方案通过预先定义错误类型集合,能够自动从原始数据中查找到归属于错误类型集合中任意一种错误类型的错误数据,并在此基础上生成该错误数据的推荐纠正值,以实现对印染行业信息系统中原始数据的查错与纠错。提高了印染行业信息系统中数据的质量和应用率,保证了后期的数据分析结果和建模结果的可靠性,以充分发挥数据作用优化印染企业的产品质量和生产效率。
附图说明
为了更清楚的说明本申请实施例或现有技术的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请所提供的一种印染行业信息系统的数据查错与纠错系统实施例一的系统架构示意图;
图2为本申请所提供的一种印染行业信息系统的数据查错与纠错系统实施例二的系统架构示意图;
图3为本申请所提供的一种印染行业信息系统的数据查错与纠错系统实施例二的错误类型和查错方法对应关系示意图;
图4为本申请所提供的一种印染行业信息系统的数据查错与纠错系统实施例二的数据空白或不规范的示意图;
图5为本申请所提供的一种印染行业信息系统的数据查错与纠错系统实施例二的数据异常的示意图;
图6为本申请所提供的一种印染行业信息系统的数据查错与纠错系统实施例二的隐藏错误的示意图;
图7为本申请所提供的一种印染行业信息系统的数据查错与纠错方法实施例的实现流程图。
具体实施方式
本申请的核心是提供一种印染行业信息系统的数据查错与纠错系统、设备及方法,实现了对印染行业信息系统中原始数据的自动查错与纠错,提高了印染行业信息系统中数据的质量和应用率。
为了使本技术领域的人员更好地理解本申请方案,下面结合附图和具体实施方式对本申请作进一步的详细说明。显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
下面对本申请提供的一种印染行业信息系统的数据查错与纠错系统实施例一进行介绍,参见图1,实施例一包括:
数据获取模块101:用于获取印染行业信息系统的原始数据;
上述印染行业信息系统具体可以为ERP、MES、SFC、PLM、APS、SCM、CRM等信息系统中的任意一种或任意组合,在实际应用过程中,可以通过各种数据接口获取印染行业信息系统中的原始数据。
本实施例中,原始数据主要是指印染行业的相关数据,具体可以包括以下任意一种或多种数据字段:面料信息、测配色信息、标样光谱值信息、染料信息、助剂信息、集控信息、能源信息、质量信息、工艺信息、财务信息、客户信息、供应商信息、流程信息、设备信息等。此外,原始数据还可以包括以往印染过程中的历史数据,例如:机器类型、机器名称、流转卡号、流程卡号、缸号、织物名称、配方代码、织物长度、织物重量、开始时间、结束时间、物料代码、物料描述、物料种类、实际用量、浓度、浓度单位、加料方式、物料实际单价、水耗、电耗、蒸汽耗量等。
错误类型定义模块102:用于存储预先定义的错误类型集合,所述错误类型集合包括一种或多种错误类型;
本实施例预先归纳并定义了原始数据的各种错误类型,最终得到上述错误类型集合。具体的,从庞大且杂乱的原始数据中梳理出存在的错误类型,通过对原始数据的整理分析,对印染行业信息系统存在的错误类型进行了归类整理,最终得到错误类型集合。作为一种具体的实施方式,该错误类型集合可以包括以下错误类型:数据空白或不规范、数据异常、隐藏错误。
可以理解的是,上述错误类型定义模块102可以响应用户的修改操作以修改错误类型集合中的错误类型。
查错模块103:用于根据所述错误类型集合查找所述原始数据中的错误数据,并确定所述错误数据的错误类型;
具体的,在查找错误数据的过程中,可以根据错误类型集合中的各个错误类型的特点,利用与该错误类型相对应的查错方法实现查找该错误类型的错误数据的目的,以提升对各个错误类型的错误数据的针对性,提高查错效率。
纠错模块104:用于生成所述错误数据的推荐纠正值;
与上述查错方法相对应的,在纠错的过程中,可以根据当前错误数据所归属的错误类型的特点,利用与该错误类型相对应的纠错方案生成当前错误数据的推荐纠正值,以提升对各个错误类型的错误数据的针对性,提高纠错效率。
可以理解的是,上述纠错模块104在必要的时候不仅可以生产错误数据的推荐纠正值,还可以进一步根据推荐纠正值更新错误数据。更新操作的触发动作可以为用户下发的更新指令,也可以在用户给与系统权限后自动执行更新操作。
反馈模块105:用于反馈所述错误数据、所述错误数据的错误类型、所述错误数据的推荐纠正值。
具体的,可以将数据查错结果和纠错结果及时反馈给印染企业,例如上述错误数据、错误数据的错误类型、错误数据的推荐纠正值等。
本实施例所提供一种印染行业信息系统的数据查错与纠错系统,包括数据获取模块、错误类型定义模块、查错模块、纠错模块、反馈模块,方案包括:获取印染行业信息系统的原始数据;根据预先定义的错误类型集合查找原始数据中的错误数据,并确定错误数据的错误类型,其中错误类型集合包括一种或多种错误类型;生成错误数据的推荐纠正值;反馈错误数据、错误数据的错误类型、错误数据的推荐纠正值。
可见,该方案通过预先定义错误类型集合,能够自动从原始数据中查找到归属于错误类型集合中任意一种错误类型的错误数据,并在此基础上生成该错误数据的推荐纠正值。可应用于印染行业ERP、MES、SFC、PLM、APS、SCM、CRM等信息系统数据的及时查错、纠错,从而保证信息系统数据的准确性和完整性,实现从数据的源头上提高数据的质量和应用率,保证了后期的数据分析结果和建模结果的可靠性,以充分发挥数据作用优化印染企业的产品质量和生产效率。
下面开始详细介绍本申请提供的一种印染行业信息系统的数据查错与纠错系统实施例二,实施例二基于前述实施例一实现,并在实施例一的基础上进行了一定程度上的拓展。
参见图2,实施例二具体包括:
数据获取模块201:用于通过数据接口,从ERP、MES、SFC、PLM、APS、SCM、CRM等印染行业信息系统获取原始数据;
错误类型定义模块202:用于存储预先定义的错误类型集合,所述错误类型集合包括以下错误类型:数据空白或不规范、数据异常、隐藏错误;
上述数据空白或不规范,是指因为某些原因,数据没有填写、填写了一部分、或者多填了一部分;上述数据异常,是指数据超出置信区间,例如数据出现负数、超大值、超小值;上述隐藏错误,是指数据表面上看起来正常,但在其他数据的关联限制下,该数据是异常的。
查错模块203:用于根据所述错误类型集合中任意一种错误类型,利用与该错误类型相对应的查错方法查找所述原始数据中归属于该错误类型的错误数据;
纠错模块204:用于根据当前错误数据归属的错误类型,利用与该错误类型相对应的纠错方法生成当前错误数据的推荐纠正值;
错误统计模块205:用于统计所述错误类型集合中各种错误类型出现的次数或频率;
具体的,统计各类型、各字段数据错误出现的次数,结合数据查错模型,分类统计一段时间内,如一班或一天或一周或一月内,各类型、各字段数据错误出现的频次,便于印染企业及时制定合理的奖惩规则及规避措施,使得数据输入规范化,提高数据录入的完整性、准确性。
反馈模块206:用于反馈所述错误数据、所述错误数据的错误类型、所述错误数据的推荐纠正值、所述各种错误类型出现的次数或频率。
本实施例中,上述查错模块203具体包括:
数据空白或不规范查错单元2031:用于利用直接查找法和/或关联字段法查找所述原始数据中存在数据空白或不规范的错误数据;
数据异常查错单元2032:用于利用预设数据异常查错方法查找所述原始数据中存在数据异常的错误数据,所述预设数据异常查错方法包括以下任意一种或多种方法:阈值法与置信区间法、关联查错法、模型预测法;
隐藏错误查错单元2033:用于利用关联查错法和/或模型预测法查找所述原始数据中存在隐藏错误的错误数据。
具体的,本实施例创建数据查错模型,针对印染行业信息系统中存在漏填、错填现象,通过数据查错模型来查找原始数据中存在的错误数据并给出错误类型。下面对数据空白或不规范查错单元2031、数据异常查错单元2032、隐藏错误查错单元2033中涉及的查错方法分别进行介绍:
(1)直接查找法:根据相同字段其他记录的填写情况,判断是否存在必填字段数据漏填的现象,及数据填写不规范的现象。
(2)依靠关联性字段查找错误法:关联性字段指用于关联系统内不同数据表格数据的关键性匹配字段,包括流程卡号、排产单号、缸号、机器号、日期等关联性字段,可通过关联字段法进行查错。
(3)阈值法与置信区间法:对于水、电、汽、颜色、染助剂浓度等字段数据,可以求取同类型生产的历史数据平均值及标准差,按照其所属的分布类型,设定置信区间或阈值,将超出阈值或置信区间的数据判定为异常。
(4)关联查错法:对于每次染色工艺产生的面料、颜色、染料、助剂、温控、水、电、汽等数据,若新产生的某一条记录与历史数据中多条记录的其他字段数据均一致,但其中一个字段的数据与历史数据相去甚远,则判定为异常。
(5)模型预测法:对于每次染色工艺产生的面料、颜色、染料、助剂、温控、水、电、汽等数据,若新产生的某一条记录与历史数据中多条记录的其他字段数据都比较接近,但其中一个字段的数据与模型结果相去甚远,则判定为异常。
图3为不同数据字段可能出现的错误类型,以及适用的查错方法对应图。由图3可知,不同类型的数据,在建立查错模型时所需要的历史数据是不同的,因此,可以根据数据类型、错误类型和所使用的查错方法建立不同的查错模型。
本实施例中,上述纠错模块204具体包括:
数据空白或不规范纠错单元2041:用于根据系统关联表生成所述存在数据空白或不规范的错误数据的推荐纠正值;
数据异常纠错单元2042:用于利用预设数据异常纠错方法生成所述存在数据异常的错误数据的推荐纠正值,所述预设数据异常纠错方法包括以下任意一项或多项:关联度推荐法、插值法、模型预测法;
隐藏错误纠错单元2043:用于利用预设隐藏错误纠错方法生成所述存在隐藏错误的错误数据的推荐纠正值,所述预设隐藏错误纠错方法包括以下任意一项或多项:关联度推荐法、插值法、模型预测法。
具体的,本实施例创建数据纠错模型,基于历史数据给出错误数据的推荐纠正真实值。针对查找出来的各类型错误数据,用相应的纠错方法,向企业提供合理的推荐纠正值,以填补、纠正漏填、错填的数据。下面对本实施例涉及的纠错方法进行介绍:
(1)依据关联表填补法:流程卡号、排产单号、缸号、机器号、日期等关联性字段空白或不规范,可通过系统生成的关联表去填补。
(2)关联度推荐法与插值法:提出错误数据所在数据行的其它相关信息,利用该行其它有效数据去与历史数据做相似度匹配,然后基于历史数据提供最佳推荐纠正值。
(3)数学模型法:建立合适的数学模型,通过该行的其它已知信息通过数学模型计算出错误数据的推荐纠正值。
综上所述,本实施例提供的印染行业信息系统的数据查错与纠错系统,方案包括:首先,从ERP、MES、SFC、PLM、APS、SCM、CRM等系统采集原始数据,主要为面料信息、测配色信息、标样光谱值信息、染料信息、助剂信息、集控信息、能源信息、质量信息、工艺信息、财务信息、客户信息、供应商信息、流程信息、设备信息等;其次,从庞大而复杂的原始数据中,整理出信息系统的数据错误类型;然后,构建数据查错模型和数据纠错模型,通过二者实现数据的查错与纠错;在此基础上,利用数据错误统计模块统计错误数据出现次数或频率;最后,利用反馈模块,将查错、纠错、错误统计模块发现的问题及产生的信息及时反馈给印染企业,使得企业予以更正。
下面对前述三种错误类型的查错及纠错过程进行举例说明。
首先,对于各个错误类型,根据不同的查错方法,建立对应的数据查错模型,用以查找错误数据;并根据不同的纠错方法,建立对应的数据纠错推荐模型,用以生成错误数据的推荐纠正值。各个错误类型对应的查错方法及纠错方法示例如下:
1、错误类型:数据空白或不规范
(1)错误数据举例:如图4所示,阴影部分为数据空白或不规范的错误数据。
(2)查错方法:直接查找法
(3)纠错方法:以流程卡号为例,数据空白,通过系统生成的关联表去填补;数据不规范,通过系统生成的关联表去填补,或设计算法使原始数据变得规范后再判断是否异常;数据表面正常,通过缸号去关联表中查找流程卡号,如果找不到,则说明数据有问题。
2、错误类型:数据异常
(1)错误数据举例:如图5所示,阴影部分为异常数据。
(2)查错方法:
方法一:阈值法与置信区间法
先对水电气的每一列求平均值和标准差,然后假设水电气值的分布服从正态分布,当某值处于3外时,认为是异常数值。
方法二:关联查错法
当某条数据的风机总量,滚筒总量和喷射泵总量与历史中的数据非常相似而电消耗值显著不同时,则可初步判断该电消耗值异常。
方法三:模型预测法
对水耗,电耗和汽耗,建立回归模型。将模型结果与填写的值作比较。若两者偏差太大则认为异常。
(3)纠错方法:
方法一:使用关联度推荐法或插值法
方法二:使用数学模型法,使用预测值作为错误数据的推荐纠正值
3、错误类型:隐藏错误
(1)错误数据举例:如图6所示,阴影部分为隐藏错误类型的错误数据具
(2)查错方法:
方法一:关联查错法
方法二:模型预测法
(3)纠错方法:
方法一:关联度推荐法与插值法
方法二:数学模型法
具体应用实施例:
下面以电消耗为例,讲解三种查错方法(阈值法与置信区间法、关联查错法、模型预测法)的具体实现,以及两种纠错方法(关联度推荐法与插值法、数学模型法)的具体实现。
1、三种查错方法的具体实现
(1)阈值法与置信区间法
在正态分布中σ代表标准差,μ代表均值x=μ即为图像的对称轴,如表1所示,3σ原则即为:
数值分布在(μ-σ,μ+σ)中的概率为0.6526
数值分布在(μ-2σ,μ+2σ)中的概率为0.9544
数值分布在(μ-3σ,μ+3σ)中的概率为0.9974
表1
风机总量 | 滚筒总量 | 喷射泵总量 | 电消耗值(kwh) |
8900.23 | 15000.4 | 9800.5 | 20 |
10538.55 | 17615.3 | 13710.87 | 42 |
8932.341 | 17071.14 | 10390.68 | 53 |
11583.43 | 35393.65 | 11752.9 | 65 |
23542.39 | 36517.26 | 24736.06 | 101 |
23545.13 | 78.41.58 | 23295.28 | 129 |
22305.6 | 30820.43 | 26514.21 | 131 |
45436.3 | 44191.71 | 47777.92 | 327 |
46936.3 | 34691.71 | 52277.92 | 700 |
46436.3 | 45191.71 | 48777.92 | 1200 |
计算电量消耗这一列的历史数据的平均值与方差,然后计算3σ值,如表2所示。
表2
平均值 | 180.2 |
方差 | 7826.4 |
标准差 | 88.5 |
u+3μ | 445.6 |
u-3μ | -85.2 |
可以看出电耗值为700和1200的在区间(0,445.6)之外,故为异常值。
(2)关联分析查错法
设风机总量,滚筒总量,喷射泵总量的三列值组成一个三维向量。
我们定义方向相似度为:
定义数值相似度为:
最后定义整体相似度为:r(i,j)=dir(i,j)·num(i,j),r∈[0,1]。
表3
风机总量 | 滚筒总量 | 喷射泵总量 | 电消耗值(kwh) |
8900.23 | 15000.4 | 9800.5 | 20 |
8932.341 | 17071.14 | 10390.68 | 53 |
计算如表3所示的两条数据的相似度最高,为r=0.94。而这两者的电消耗值的相对偏差为0.62,显然超出了可接受范围,故可判断第一行电耗值20为异常值。类似的相似度或者接近程度可以有多种定义,在此就不一一例举了。
(3)模型预测法
建立电消耗值与风机总量,滚筒总量和喷射泵总量的回归模型。
表4
设电耗值为:E=a·x+b·y+c·z+d;其中x,y,z分别为风机总量,滚筒总量,喷射泵总量,应用历史数据建立模型如表5所示。类似的建模方法可以有多种,在此就不一一例举了。
表5
a | 0.00349 |
b | 0.00010 |
c | 0.00180 |
d | 15.03 |
2、两种纠错方法的具体实现
(1)关联度推荐法与插值法
按照上述关联度的定义,当整体关联度大于0.9时,我们可以将表3第二条数据中的电消耗值53作为第一条数据中异常数据20的推荐纠正值。而插值法的思路为依据第一行异常数据的其它已知的信息(风机总量,滚筒总量和喷射泵总量),根据历史数据采用插值的方法计算出推荐纠正值。并用推荐纠正值替代异常值20。
(2)数学模型法
上面我们建立了电耗的多元线性回归模型。数学模型法的思路是用模型计算的结果替代异常值,如表6所示。
表6
风机总量 | 滚筒总量 | 喷射泵总量 | 电消耗值(kwh) | 模型预测值 |
8900.23 | 15000.4 | 9800.5 | 20 | 65.4604 |
46936.3 | 34691.71 | 52277.92 | 700 | 277.1364 |
46436.3 | 45191.71 | 48777.92 | 1200 | 270.2314 |
此外,本申请还提供了一种印染行业信息系统的数据查错与纠错设备,包括:如上所述的一种印染行业信息系统的数据查错与纠错系统。
最后,本申请还提供了一种印染行业信息系统的数据查错与纠错方法,如图7所示,包括:
S701、获取印染行业信息系统的原始数据;
S702、根据预先定义的错误类型集合查找所述原始数据中的错误数据,并确定所述错误数据的错误类型,所述错误类型集合包括一种或多种错误类型;
S703、生成所述错误数据的推荐纠正值;
S704、反馈所述错误数据、所述错误数据的错误类型、所述错误数据的推荐纠正值。
本实施例的一种印染行业信息系统的数据查错与纠错设备、方法用于实现前述的印染行业信息系统的数据查错与纠错系统的实施过程,因此该设备、方法的具体实施方式可见前文中的印染行业信息系统的数据查错与纠错系统的实施例部分,所以,其具体实施方式可以参照相应的各个部分实施例的描述,在此不再展开介绍。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
以上对本申请所提供的方案进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。
Claims (8)
1.一种印染行业信息系统的数据查错与纠错系统,其特征在于,包括:
数据获取模块:用于获取印染行业信息系统的原始数据;
错误类型定义模块:用于存储预先定义的错误类型集合,所述错误类型集合包括一种或多种错误类型;
查错模块:用于根据所述错误类型集合查找所述原始数据中的错误数据,并确定所述错误数据的错误类型;
纠错模块:用于生成所述错误数据的推荐纠正值;
反馈模块:用于反馈所述错误数据、所述错误数据的错误类型、所述错误数据的推荐纠正值。
2.如权利要求1所述的系统,其特征在于,所述错误类型定义模块具体用于:
存储预先定义的错误类型集合,所述错误类型集合包括以下任意一种或多种错误类型:数据空白或不规范、数据异常、隐藏错误。
3.如权利要求2所述的系统,其特征在于,所述查错模块包括:
数据空白或不规范查错单元:用于利用直接查找法和/或关联字段法查找所述原始数据中存在数据空白或不规范的错误数据;
数据异常查错单元:用于利用预设数据异常查错方法查找所述原始数据中存在数据异常的错误数据,所述预设数据异常查错方法包括以下任意一种或多种方法:阈值法与置信区间法、关联查错法、模型预测法;
隐藏错误查错单元:用于利用关联查错法和/或模型预测法查找所述原始数据中存在隐藏错误的错误数据。
4.如权利要求2所述的系统,其特征在于,所述纠错模块包括:
数据空白或不规范纠错单元:用于根据系统关联表生成所述存在数据空白或不规范的错误数据的推荐纠正值;
数据异常纠错单元:用于利用预设数据异常纠错方法生成所述存在数据异常的错误数据的推荐纠正值,所述预设数据异常纠错方法包括以下任意一项或多项:关联度推荐法、插值法、模型预测法;
隐藏错误纠错单元:用于利用预设隐藏错误纠错方法生成所述存在隐藏错误的错误数据的推荐纠正值,所述预设隐藏错误纠错方法包括以下任意一项或多项:关联度推荐法、插值法、模型预测法。
5.如权利要求1-4任意一项所述的系统,其特征在于,还包括:
错误统计模块:用于统计所述错误类型集合中各种错误类型出现的次数或频率。
6.如权利要求5所述的系统,其特征在于,所述数据获取模块具体用于:
通过数据接口获取印染行业信息系统的原始数据,所述印染行业信息系统包括以下任意一种或多种系统:ERP、MES、SFC、PLM、APS、SCM、CRM。
7.一种印染行业信息系统的数据查错与纠错设备,其特征在于,包括:如权利要求1-6任意一项所述的一种印染行业信息系统的数据查错与纠错系统。
8.一种印染行业信息系统的数据查错与纠错方法,其特征在于,包括:
获取印染行业信息系统的原始数据;
根据预先定义的错误类型集合查找所述原始数据中的错误数据,并确定所述错误数据的错误类型,所述错误类型集合包括一种或多种错误类型;
生成所述错误数据的推荐纠正值;
反馈所述错误数据、所述错误数据的错误类型、所述错误数据的推荐纠正值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910764880.2A CN110489723A (zh) | 2019-08-19 | 2019-08-19 | 一种印染行业信息系统的数据查错与纠错系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910764880.2A CN110489723A (zh) | 2019-08-19 | 2019-08-19 | 一种印染行业信息系统的数据查错与纠错系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110489723A true CN110489723A (zh) | 2019-11-22 |
Family
ID=68551514
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910764880.2A Pending CN110489723A (zh) | 2019-08-19 | 2019-08-19 | 一种印染行业信息系统的数据查错与纠错系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110489723A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112560430A (zh) * | 2020-12-25 | 2021-03-26 | 北京百度网讯科技有限公司 | 文本中数值内容的纠错方法、装置及电子设备 |
CN113762163A (zh) * | 2021-09-09 | 2021-12-07 | 杭州澳亚生物技术股份有限公司 | 一种gmp车间智能化监控管理方法及系统 |
CN113793124A (zh) * | 2021-09-17 | 2021-12-14 | 广东溢达纺织有限公司 | 物料清单生成方法、装置、计算机设备和存储介质 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103198437A (zh) * | 2013-04-18 | 2013-07-10 | 国家电网公司 | 一种电网量测数据和电网模型纠错方法及装置 |
CN103310292A (zh) * | 2012-03-15 | 2013-09-18 | 昆山瑞塔智能科技有限公司 | 最佳智能化的染色工艺的开单方法及系统 |
CN103885938A (zh) * | 2014-04-14 | 2014-06-25 | 东南大学 | 基于用户反馈的行业拼写错误检查方法 |
CN105468468A (zh) * | 2015-12-02 | 2016-04-06 | 北京光年无限科技有限公司 | 面向问答系统的数据纠错方法及装置 |
CN106202153A (zh) * | 2016-06-21 | 2016-12-07 | 广州智索信息科技有限公司 | 一种es搜索引擎的拼写纠错方法及系统 |
CN106354106A (zh) * | 2016-08-19 | 2017-01-25 | 广东省自动化研究所 | 一种基于mes的数据处理系统 |
CN106485243A (zh) * | 2016-10-31 | 2017-03-08 | 用友网络科技股份有限公司 | 一种票据识别纠错方法及装置 |
CN106933173A (zh) * | 2017-03-06 | 2017-07-07 | 广东顺德中山大学卡内基梅隆大学国际联合研究院 | 一种基于corba的染整设备监控系统 |
CN109062888A (zh) * | 2018-06-04 | 2018-12-21 | 昆明理工大学 | 一种出现错误文本输入时的自纠正方法 |
CN109101505A (zh) * | 2017-06-20 | 2018-12-28 | 北京搜狗科技发展有限公司 | 一种推荐方法、推荐装置和用于推荐的装置 |
-
2019
- 2019-08-19 CN CN201910764880.2A patent/CN110489723A/zh active Pending
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103310292A (zh) * | 2012-03-15 | 2013-09-18 | 昆山瑞塔智能科技有限公司 | 最佳智能化的染色工艺的开单方法及系统 |
CN103198437A (zh) * | 2013-04-18 | 2013-07-10 | 国家电网公司 | 一种电网量测数据和电网模型纠错方法及装置 |
CN103885938A (zh) * | 2014-04-14 | 2014-06-25 | 东南大学 | 基于用户反馈的行业拼写错误检查方法 |
CN105468468A (zh) * | 2015-12-02 | 2016-04-06 | 北京光年无限科技有限公司 | 面向问答系统的数据纠错方法及装置 |
CN106202153A (zh) * | 2016-06-21 | 2016-12-07 | 广州智索信息科技有限公司 | 一种es搜索引擎的拼写纠错方法及系统 |
CN106354106A (zh) * | 2016-08-19 | 2017-01-25 | 广东省自动化研究所 | 一种基于mes的数据处理系统 |
CN106485243A (zh) * | 2016-10-31 | 2017-03-08 | 用友网络科技股份有限公司 | 一种票据识别纠错方法及装置 |
CN106933173A (zh) * | 2017-03-06 | 2017-07-07 | 广东顺德中山大学卡内基梅隆大学国际联合研究院 | 一种基于corba的染整设备监控系统 |
CN109101505A (zh) * | 2017-06-20 | 2018-12-28 | 北京搜狗科技发展有限公司 | 一种推荐方法、推荐装置和用于推荐的装置 |
CN109062888A (zh) * | 2018-06-04 | 2018-12-21 | 昆明理工大学 | 一种出现错误文本输入时的自纠正方法 |
Non-Patent Citations (3)
Title |
---|
张仰森: "中文校对系统中纠错知识库的构造及纠错建议的产生算法", 《中文信息学报》 * |
张瀚超 等: "偏差修正算法的风电短期功率预测", 《新型工业化》 * |
罗曼宁等: "广东天气短信自动查错模型的建立", 《青海气象》 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112560430A (zh) * | 2020-12-25 | 2021-03-26 | 北京百度网讯科技有限公司 | 文本中数值内容的纠错方法、装置及电子设备 |
CN112560430B (zh) * | 2020-12-25 | 2024-04-02 | 北京百度网讯科技有限公司 | 文本中数值内容的纠错方法、装置及电子设备 |
CN113762163A (zh) * | 2021-09-09 | 2021-12-07 | 杭州澳亚生物技术股份有限公司 | 一种gmp车间智能化监控管理方法及系统 |
CN113793124A (zh) * | 2021-09-17 | 2021-12-14 | 广东溢达纺织有限公司 | 物料清单生成方法、装置、计算机设备和存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20220382564A1 (en) | Aggregate features for machine learning | |
CN110489723A (zh) | 一种印染行业信息系统的数据查错与纠错系统 | |
AU2017209149C1 (en) | Method and device warehouse storage space planning and electronic device | |
Chiang et al. | Cluster-gcn: An efficient algorithm for training deep and large graph convolutional networks | |
Ilievski et al. | Efficient hyperparameter optimization for deep learning algorithms using deterministic rbf surrogates | |
Qian et al. | Active learning for large-scale entity resolution | |
CN109522435B (zh) | 一种图像检索方法及装置 | |
CN105550426B (zh) | 一种基于样本分割的多尺度二叉树高炉故障诊断方法 | |
CN107169052A (zh) | 推荐方法及装置 | |
CN105719112A (zh) | 配送异常状态的确定方法、装置及服务器 | |
De Raedt et al. | Using logical decision trees for clustering | |
CN107885788A (zh) | 一种业务数据核查方法 | |
Mosci et al. | A primal-dual algorithm for group sparse regularization with overlapping groups | |
CN106708659A (zh) | 一种自适应最近邻缺失数据的填充方法 | |
Wu et al. | Progressive selection method for the coupled lot-sizing and cutting-stock problem | |
CN112463774A (zh) | 数据去重方法、设备及存储介质 | |
CN109447445A (zh) | 一种对象评价方法、装置、可读介质及存储控制器 | |
Sawant | Efficient determination of clusters in K-mean algorithm using neighborhood distance | |
CN115171825A (zh) | 型材产品规格参数控制方法、装置、电子设备及介质 | |
CN117319452B (zh) | 应用于硫酸钡制备下的安全巡检方法及系统 | |
US20230004870A1 (en) | Machine learning model determination system and machine learning model determination method | |
CN115952914A (zh) | 一种基于大数据的电力计量运维工作判别规划方法 | |
CN112306730B (zh) | 基于历史项目伪标签生成的缺陷报告严重程度预测方法 | |
Kwong | A case-based system for process design of injection moulding | |
CN106897331B (zh) | 用户关键位置数据获取方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |