CN110704410A - 一种数据清洗方法、系统及设备 - Google Patents

一种数据清洗方法、系统及设备 Download PDF

Info

Publication number
CN110704410A
CN110704410A CN201910924842.9A CN201910924842A CN110704410A CN 110704410 A CN110704410 A CN 110704410A CN 201910924842 A CN201910924842 A CN 201910924842A CN 110704410 A CN110704410 A CN 110704410A
Authority
CN
China
Prior art keywords
raw material
component data
data
model
sub
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910924842.9A
Other languages
English (en)
Inventor
孙小东
周洪安
赵宽
王劲松
杨博
刘中保
胡梅
甘鹏
王刚
谢皓
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhongye Saidi Chongqing Information Technology Co Ltd
CISDI Chongqing Information Technology Co Ltd
Original Assignee
Zhongye Saidi Chongqing Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhongye Saidi Chongqing Information Technology Co Ltd filed Critical Zhongye Saidi Chongqing Information Technology Co Ltd
Priority to CN201910924842.9A priority Critical patent/CN110704410A/zh
Publication of CN110704410A publication Critical patent/CN110704410A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/04Manufacturing
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Tourism & Hospitality (AREA)
  • Economics (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Human Resources & Organizations (AREA)
  • General Health & Medical Sciences (AREA)
  • General Business, Economics & Management (AREA)
  • Marketing (AREA)
  • Health & Medical Sciences (AREA)
  • Quality & Reliability (AREA)
  • Manufacturing & Machinery (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Testing And Monitoring For Control Systems (AREA)

Abstract

本发明提供一种原材料数据清洗方法、系统及设备,包括有;采集高炉炼铁过程中的原材料检化验成分数据;建立数据清洗模型,数据清洗模型包括有用于检测原材料检化验成分完整性的第一子模型、用于检测原材料检化验成分范围的第二子模型和用于检测原材料检化验成分百分比累加值的第三子模型;将原材料检化验成分数据输入至数据清洗模型中的一个或多个子模型,获取对应子模型的检测结果;根据子模型的检测结果对原材料检化验成分数据进行清洗。本发明通过对检化验成分的完整性检测、范围检测和累加值检测,能够剔除或过滤部分错误的、不完整的检化验成分数据,降低了对以检化验成分数据为计算基础的理论模型的影响。

Description

一种数据清洗方法、系统及设备
技术领域
本发明涉及数据清洗技术领域,特别是涉及一种高炉炼铁用的原材料数据清洗方法、系统及设备。
背景技术
在高炉炼铁过程中,钢铁生产企业会预先采购原材料,并将采购的原材料存放至原料场。并且,钢铁生产企业中的检验人员或化验人员会对原料场中的原材料进行取样和化验,得到原材料检化验成分数据;并将原材料检化验成分数据录入至钢铁生产企业的管理系统中。但在上述操作过程中,在取样和化验过程中,可能因为检验人员或化验人员的失误导致原材料检化验成分数据错误;在原材料检化验成分数据录入管理系统过程中,可能由于录入人员的失误将正确的原材料检化验成分数据录入错误;以及在原材料检化验成分数据录入管理系统过程中,录入的原材料检化验成分数据超出了预期时间,导致录入的原材料检化验成分数据出现滞后,从而造成原材料检化验成分数据未录入或录入原材料检化验成分数据不成功等问题。上述问题造成的错误检化验成分数据将会影响钢铁生产过程中以检化验成分数据为计算基础的理论模型,理论模型例如包括有原材料的上料数据统计、理论出铁量的计算、理论燃料比的计算等。然而上述问题在现有技术环境下,还不能够完全避免,因此,需要设计一种针对原材料的数据清洗方法、系统及设备,来对错误的原材料检化验成分数据进行过滤或检正,尽量还原原材料检化验成分数据的正确性,降低错误检化验成分数据给理论模型计算带来的影响。
发明内容
鉴于以上所述现有技术的缺点,本发明的目的在于提供一种数据清洗方法、系统及设备,用于解决现有技术中存在的技术问题。
为实现上述目的及其他相关目的,本发明提供一种数据清洗方法,包括有:
采集高炉炼铁过程中的原材料检化验成分数据;
建立数据清洗模型,所述数据清洗模型包括有用于检测原材料检化验成分完整性的第一子模型、用于检测原材料检化验成分范围的第二子模型和用于检测原材料检化验成分百分比累加值的第三子模型;
将原材料检化验成分数据输入至数据清洗模型中的一个或多个子模型,获取对应子模型的检测结果;根据子模型的检测结果对原材料检化验成分数据进行清洗。
可选地,将原材料检化验成分数据分别输入至第一子模型、第二子模型和第三子模型中;
若第一子模型检测到原材料检化验成分数据存在不完整、第二子模型检测到原材料检化验成分数据存在错误、第三子模型检测到原材料检化验成分数据存在错误;
则根据第一子模型、第二子模型和/或第三子模型的检测结果对原材料检化验成分数据进行清洗。
可选地,第一子模型对原材料检化验成分的完整性检测,包括有:
将获取的原材料检化验成分数据作为当前原材料检化验成分数据输入至第一子模型中;
将所述当前原材料检化验成分数据与预设原材料检化验成分数据进行比对,获取比对结果;
若比对结果中,当前原材料检化验成分数据中原材料种类缺少一类以上;和/或,当前原材料检化验成分数据中检化验成分项缺少一项以上;则第一子模型将当前原材料检化验成分数据标记为不完整;第一子模型输出的检测结果为当前原材料检化验成分数据不完整。
可选地,第二子模型对原材料检化验成分的范围检测,包括有:
将获取的原材料检化验成分数据作为当前原材料检化验成分数据输入至第二子模型中;
将所述当前原材料检化验成分数据与预设原材料检化验成分数据进行比对,获取比对结果;
若比对结果中,当前原材料检化验成分数据中存在一项以上的检化验成分的数值未位于预设原材料检化验成分数据范围内,则第二子模型将当前原材料检化验成分数据标记为错误;第二子模型输出的检测结果为当前原材料检化验成分数据错误。
可选地,第三子模型对原材料检化验成分的百分比累加值检测,包括有:
将获取的原材料检化验成分数据作为当前原材料检化验成分数据输入至第三子模型中;
将所述当前原材料检化验成分数据与预设原材料检化验成分数据进行比对,获取比对结果;
若比对结果中,若当前原材料检化验成分数据中各项检化验成分的百分比累加值小于预设阈值,则第三子模型将当前原材料检化验成分数据标记为错误;第三子模型输出的检测结果为当前原材料检化验成分数据错误。
可选地,还包括有:若当前原材料检化验成分数据中各项检化验成分的百分比累加值大于预设阈值且小于1,则第三子模型将当前原材料检化验成分数据标记为合理误差,并对标记为合理误差的当前原材料检化验成分数据进行校正。
本发明还提供一种原材料数据清洗系统,包括有:
数据采集模块,用于采集高炉炼铁过程中的原材料检化验成分数据;
数据检测模块,所述数据检测模块包括有用于检测原材料检化验成分完整性的第一子模型、用于检测原材料检化验成分范围的第二子模型和用于检测原材料检化验成分百分比累加值的第三子模型;
数据清洗模块,分别与所述数据采集模块和所述数据检测模块连接,用于将数据采集模块中的原材料检化验成分数据输入至数据检测模块中的一个或多个子模型,获取对应子模型的检测结果;根据子模型的检测结果对原材料检化验成分数据进行清洗。
可选地,数据清洗模块将数据采集模块中的原材料检化验成分数据分别输入至第一子模型、第二子模型和第三子模型中,
若数据检测模块中的第一子模型检测到原材料检化验成分数据存在不完整、第二子模型检测到原材料检化验成分数据存在错误、第三子模型检测到原材料检化验成分数据存在错误;
则数据清洗模块根据第一子模型、第二子模型和/或第三子模型的检测结果对原材料检化验成分数据进行清洗。
可选地,所述数据检测模块包括有比较单元和标记单元;所述数据清洗模块包括有输入单元和清洗单元;
所述输入单元,与所述数据采集模块连接,用于将数据采集模块中的原材料检化验成分数据作为当前原材料检化验成分数据输入至数据检测模块中;
所述比较单元,与所述输入单元连接,用于比对当前原材料检化验成分数据与预设原材料检化验成分数据,获取比对结果;
所述标记单元,与所述比较单元连接,用于根据比对结果对当前原材料检化验成分数据进行标记;
所述清洗单元,与所述标记单元连接,用于根据标记单元作出的标记清洗当前原材料检化验成分数据。
可选地,所述数据清洗模块还包括有校正单元,所述校正单元与所述标记单元连接,用于对当前原材料检化验成分数据进行校正。
本发明还提供一种设备,包括:
一个或多个处理器;和
其上存储有指令的一个或多个机器可读介质,当所述一个或多个处理器执行时,使得所述设备执行上述一个或多个所述的方法。
本发明还提供一个或多个机器可读介质,其上存储有指令,当由一个或多个处理器执行时,使得设备执行上述一个或多个所述的方法。
如上所述,本发明提供一种数据清洗方法、系统及设备,具有以下有益效果:通过第一子模型对获取的原材料检化验成分数据进行检化验成分完整性检测,能够判断原材料检化验成分数据是否出现未录入或部分未录入的情况;通过第二子模型对获取的原材料检化验成分数据进行检化验成分范围检测和通过第三子模型对获取的原材料检化验成分数据进行检化验成分百分比累加值检测,能够判断录入的原材料检化验成分数据中是否存在错误的原材料检化验成分数据。通过对检化验成分的完整性检测、范围检测和累加值检测,放弃、剔除或过滤掉部分错误的、不完整的检化验成分数据,降低了对以检化验成分数据为计算基础的理论模型的影响。
附图说明
图1为本发明中数据清洗方法的流程示意图。
图2为本发明中数据清洗系统的连接示意图。
图3为一实施例中数据清洗系统的连接示意图。
图4为另一实施例中数据清洗系统的连接示意图。
图5为另一实施例中数据清洗系统的连接示意图。
图6为一实施例提供的终端设备的硬件结构示意图。
图7为另一实施例提供的终端设备的硬件结构示意图。
元件标号说明
M10 数据采集模块
M20 数据检测模块
M210 第一比较单元
M220 第一标记单元
M230 第二比较单元
M240 第二标记单元
M250 计算单元
M260 第三比较单元
M270 第三标记单元
M30 数据清洗模块
M310 第一输入单元
M320 第一清洗单元
M330 第二输入单元
M340 第二清洗单元
M350 第三输入单元
M360 第三清洗单元
M370 校正单元
M40 存储模块
1100 输入设备
1101 第一处理器
1102 输出设备
1103 第一存储器
1104 通信总线
1200 处理组件
1201 第二处理器
1202 第二存储器
1203 通信组件
1204 电源组件
1205 多媒体组件
1206 语音组件
1207 输入/输出接口
1208 传感器组件
具体实施方式
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需说明的是,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
请参阅图1至图7。需要说明的是,本实施例中所提供的图示仅以示意方式说明本发明的基本构想,遂图式中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制,其实际实施时各组件的型态、数量及比例可为一种随意的改变,且其组件布局型态也可能更为复杂。本说明书所附图式所绘示的结构、比例、大小等,均仅用以配合说明书所揭示的内容,以供熟悉此技术的人士了解与阅读,并非用以限定本发明可实施的限定条件,故不具技术上的实质意义,任何结构的修饰、比例关系的改变或大小的调整,在不影响本发明所能产生的功效及所能达成的目的下,均应仍落在本发明所揭示的技术内容得能涵盖的范围内。同时,本说明书中所引用的如“上”、“下”、“左”、“右”、“中间”及“一”等的用语,亦仅为便于叙述的明了,而非用以限定本发明可实施的范围,其相对关系的改变或调整,在无实质变更技术内容下,当亦视为本发明可实施的范畴。
请参阅图1,本实施例提供一种数据清洗方法,应用于高炉炼铁过程中的原材料数据清洗;包括有:
S100,采集高炉炼铁过程中的原材料检化验成分数据;
S200,建立数据清洗模型,数据清洗模型包括有用于检测原材料检化验成分完整性的第一子模型、用于检测原材料检化验成分范围的第二子模型和用于检测原材料检化验成分百分比累加值的第三子模型;
S300,将原材料检化验成分数据输入至数据清洗模型中的一个或多个子模型,获取对应子模型的检测结果;根据子模型的检测结果对原材料检化验成分数据进行清洗。
具体地,将原材料检化验成分数据分别输入至第一子模型、第二子模型和第三子模型中,
若第一子模型检测到原材料检化验成分数据存在不完整,则第一子模型输出的检测结果为当前原材料检化验成分数据不完整,根据第一子模型的检测结果对原材料检化验成分数据进行清洗。
和/或,若第二子模型检测到原材料检化验成分数据存在错误,则第二子模型输出的检测结果为当前原材料检化验成分数据错误,根据第二子模型的检测结果对原材料检化验成分数据进行清洗。
和/或,如果第三子模型检测到原材料检化验成分数据存在错误,则第三子模型输出的检测结果为当前原材料检化验成分数据错误,根据第三子模型的检测结果对原材料检化验成分数据进行清洗。
具体地,步骤S100中采集高炉炼铁过程中的原材料检化验成分数据前,还包括有预处理,所述预处理包括有:
S10,对原料场中的原材料进行种类区分;作为示例,例如本申请实施例中原材料包括有矿石原材料和燃料原材料。分别对矿石原材料和燃料原材料进行分类:将矿石原材料分为:球团矿、烧结矿、块矿等;将燃料原材料分为:焦炭、焦煤等。
S20,根据区分后的原材料种类确定检化验成分项以及检化验成分数值;并根据区分后的原材料种类在配置表中配置相对应的原材料种类、配置相对应种类的标准检化验成分项及配置相对应种类中各项检化验成分的标准范围值;
S30,对进行种类区分后的原材料进行取样、化验,得到原料场中的原材料检化验成分数据。
在一示例性实施例中,对原材料检化验成分数据进行完整性校验,即通过第一子模型对原材料检化验成分进行完整性检测,包括有:
将获取的原材料检化验成分数据作为当前原材料检化验成分数据输入至第一子模型中;
将所述当前原材料检化验成分数据与预设原材料检化验成分数据进行比对,获取比对结果;
若比对结果中,当前原材料检化验成分数据中原材料种类缺少一类以上;和/或,当前原材料检化验成分数据中检化验成分项缺少一项以上;则第一子模型将当前原材料检化验成分数据标记为不完整;第一子模型输出的检测结果为当前原材料检化验成分数据不完整。
根据上述示例性实施例,根据第一子模型的完整性检测结果对原材料检化验成分数据进行清洗,具体包括有:
将获取的原材料检化验成分数据输入至用于检测原材料检化验成分完整性的第一子模型中,并将输入的原材料检化验成分数据作为当前原材料检化验成分数据;其中,当前原材料检化验成分数据至少包括有当前原材料种类、当前原材料中每个种类包含的检化验成分项数。
将当前原材料种类与配置表中原材料种类进行比对,以及将当前原材料中每个种类包含的检化验成分项数与配置表中的相对应原材料种类各自所包含的检化验成分项数进行比对。
根据当前原材料种类比对结果和当前原材料中每个种类的检化验成分项比对结果,对当前原材料检化验成分数据进行标记。若当前原材料种类与配置表中的原材料种类相比,当前原材料种类缺少一类以上;和/或,当前原材料各个种类包含的检化验成分项数与配置表中的相对应原材料种类各自所包含的检化验成分项数相比,当前原材料中任一种类的检化验成分缺少一项以上;则第一子模型将当前原材料检化验成分数据标记为不完整。
根据第一子模型的检测结果,放弃、剔除或过滤掉被第一子模型标记为不完整的当前原材料检化验成分数据,完成对当前原材料检化验成分数据的清洗。
在本申请实施例中,通过第一子模型对获取的原材料检化验成分数据进行检化验成分完整性检测,如果检化验成分数据不完整,则原材料检化验成分数据可能全部未成功录入或部分未成功录入。通过放弃、剔除或过滤掉不完整的检化验成分数据,降低了对以检化验成分数据为计算基础的理论模型的影响。
在一示例性实施例中,对原材料检化验成分数据进行上下限校验,即通过第二子模型对原材料检化验成分进行范围检测,包括有:
将获取的原材料检化验成分数据作为当前原材料检化验成分数据输入至第二子模型中;
将所述当前原材料检化验成分数据与预设原材料检化验成分数据进行比对,获取比对结果;
若比对结果中,当前原材料检化验成分数据中存在一项以上的检化验成分的数值未位于预设原材料检化验成分数据范围内,则第二子模型将当前原材料检化验成分数据标记为错误;第二子模型输出的检测结果为当前原材料检化验成分数据错误。
根据上述示例性实施例,根据第二子模型的范围检测结果对原材料检化验成分数据进行清洗,具体包括有:
将获取的原材料检化验成分数据输入至用于检测原材料检化验成分范围的第二子模型中,并将输入的原材料检化验成分数据作为当前原材料检化验成分数据;其中,当前原材料检化验成分数据至少包括有当前原材料种类和当前原材料每个种类中各项检化验成分的数值。
将当前原材料每个种类中各项检化验成分的数值分别与配置表中原材料每个种类中各自对应项的检化验成分上限值、配置表中原材料每个种类中各自对应项的检化验成分下限值进行比对。
根据当前原材料每个种类中各项检化验成分数值比对结果,对当前原材料成分数据进行标记。若当前原材料每个种类中各项检化验成分的数值与配置表中原材料每个种类中各自对应项的检化验成分上限值相比,当前原材料任一种类中存在一项以上检化验成分的数值大于对应项的检化验成分上限值;和/或,当前原材料各个种类中各项检化验成分的数值与配置表中原材料每个种类中各自对应项的检化验成分下限值相比,当前原材料任一种类中存在一项以上检化验成分的数值小于对应项的检化验成分下限值,则第二子模型将当前原材料检化验成分数据标记为错误。
根据第二子模型的检测结果,放弃、剔除或过滤掉被第二子模型标记为错误的当前原材料检化验成分数据,完成对当前原材料检化验成分数据的清洗。
作为示例,例如在某现场烧结矿的全铁含量一般都在56%左右,上下波动一般不会超过1%。对烧结矿的全铁含量分析项配置为上限57%,下限55%,超过这个范围,第二子模型便会将本批检化验成分数据标记为错误,后续模型计算也将放弃、剔除或过滤掉这部分被标记为错误的检化验成分数据,不会采用被标记为错误的检化验成分数据。
在本申请实施例中,通过第二子模型对获取的原材料检化验成分数据进行检化验成分数值范围检测,如果检化验成分数据不在正常范围内,则原材料检化验成分数据录入过程可能出现错误或原材料检化验成分数据可能出现化验错误。通过放弃、剔除或过滤掉不在正常范围内错误的检化验成分数据,降低了对以检化验成分数据为计算基础的理论模型的影响。
在一示例性实施例中,对原材料检化验成分数据进行100%校验或百分比校验,即通过第三子模型对原材料检化验成分进行百分比累加值检测,包括有:
将获取的原材料检化验成分数据作为当前原材料检化验成分数据输入至第三子模型中;
将所述当前原材料检化验成分数据与预设原材料检化验成分数据进行比对,获取比对结果;
若比对结果中,若当前原材料检化验成分数据中各项检化验成分的百分比累加值小于预设阈值,则第三子模型将当前原材料检化验成分数据标记为错误;第三子模型输出的检测结果为当前原材料检化验成分数据错误。
根据上述示例性实施例,根据第三子模型的百分比累加值检测结果对原材料检化验成分数据进行清洗,具体包括有:
将获取的原材料检化验成分数据输入至用于检测原材料检化验成分百分比累加值的第三子模型中,并将输入的原材料检化验成分数据作为当前原材料检化验成分数据;其中,当前原材料检化验成分数据至少包括有当前原材料种类和当前原材料中每个种类的各项检化验成分百分比值;
根据当前原材料中每个种类的各项检化验成分的百分比值计算当前原材料中所有种类的检化验成分百分比累加值;
将当前原材料中所有种类的检化验成分百分比累加值与配置表中设置的设定值进行比对;若当前原材料中所有种类的检化验成分百分比累加值小于配置表中设置的设定值,则第三子模型将当前原材料检化验成分数据标记为错误;其中,配置表中的设定值根据对应的原材料检化验成分数据进行具体地设置。
根据第三子模型的检测结果,放弃、剔除或过滤掉被第三子模型标记为错误的当前原材料检化验成分数据,完成对当前原材料检化验成分数据的清洗。
在本申请实施例中,通过第三子模型对获取的原材料检化验成分数据进行检化验成分百分比累加值的检测,如果累加值小于设定值,第三子模型将本批检化验数据标记为错误,则录入的原材料检化验成分数据可能出现错误或原材料检化验成分数据可能出现化验错误。通过放弃、剔除或过滤掉不在正常范围内错误的检化验成分数据,降低了对以检化验成分数据为计算基础的理论模型的影响。其中,第三子模型检测的检化验成分百分比累加值包括但不限于原材料化学检化验成分的百分比累加值。
根据上述示例性实施例,若当前原材料中所有种类的检化验成分百分比累加值大于配置表中的设定值且小于1,则第三子模型将当前原材料检化验成分数据标记为合理误差,并对标记为合理误差的当前原材料检化验成分数据中的检化验成分百分比累加值进行校正。校正方法为:将当前原材料中每个种类的各项检化验成分的百分比值分别除以累加值后再乘以100%,得到校正后每个种类的各项检化验成分的百分比值。
对于CaO、MgO、SiO2、Al2O3这四种成分值,如果这四种成分值加起来大于此次检化验中的灰分值,说明其检化验成分值仅仅只是这四种成分的相对比例,需要在累加前将其换算为整个成分分析的相对比例,需要将其化验值乘以本次检化验的灰分值后再进行累加。
在本申请实施例中,通过第三子模型对获取的原材料检化验成分数据进行检化验成分百分比累加值的检测,如果累加值大于设定值且小于1,则第三子模型将本批检化验数据标记为合理误差;通过校正方法对合理误差进行校正,降低了对以检化验成分数据为计算基础的理论模型的影响。
本申请实施例中对数据的清洗是指:放弃、剔除或过滤掉被第一子模型标记为不完整的原材料检化验成分数据;和/或,放弃、剔除或过滤掉被第二子模型标记为错误的原材料检化验成分数据;和/或,放弃、剔除或过滤掉被第三子模型标记为错误的原材料检化验成分数据。存在上述任意一种,则完成对当前原材料检化验成分数据的清洗。
根据以上实施例记载,通过第一子模型对获取的原材料检化验成分数据进行检化验成分完整性检测,通过第二子模型对获取的原材料检化验成分数据进行检化验成分范围检测,还通过第三子模型对获取的原材料检化验成分数据进行检化验成分百分比累加值检测。通过对检化验成分的完整性检测、范围检测和累加值检测,放弃、剔除或过滤掉或过滤部分错误的、不完整的检化验成分数据,降低了对以检化验成分数据为计算基础的理论模型的影响。
如图2所示,本发明还提供一种原材料数据清洗系统,包括有:
数据采集模块M10,用于采集高炉炼铁过程中的原材料检化验成分数据;
数据检测模块M20,数据检测模块M20包括有用于检测原材料检化验成分完整性的第一子模型、用于检测原材料检化验成分范围的第二子模型和用于检测原材料检化验成分百分比累加值的第三子模型;
数据清洗模块M30,分别与数据采集模块M10和数据检测模块M20连接,用于将数据采集模块M10中的原材料检化验成分数据输入至数据检测模块M20中的一个或多个子模型,获取对应子模型的检测结果;根据子模型的检测结果对原材料检化验成分数据进行清洗。
还包括有存储模块M40,存储模块M40分别与数据采集模块M10、数据检测模块M20和数据清洗模块M30连接;用于存储数据采集模块M10采集的原材料检化验成分数据,用于存储数据检测模块M20中的第一子模型、第二子模型和第三子模型以及各个子模型的检测结果,和用于存储数据清洗模块M30的清洗结果。其中,存储模块M40例如可以为数据库,本申请实施例中的数据库包括但不限于ORACLE、DB2、SQL Server、Sybase、Informix、MySQL、VF与Access等。所述数据采集模块M10包括有一预处理单元,所述预处理单元执行如下操作:
对原料场中的原材料进行种类区分;作为示例,例如本申请实施例中原材料包括有矿石原材料和燃料原材料。分别对矿石原材料和燃料原材料进行分类:将矿石原材料分为:球团矿、烧结矿、块矿等;将燃料原材料分为:焦炭、焦煤等。
根据区分后的原材料种类确定检化验成分项以及检化验成分数值;并根据区分后的原材料种类在配置表中配置相对应的原材料种类、配置相对应种类的标准检化验成分项及配置相对应种类中各项检化验成分的标准范围值;
对进行种类区分后的原材料进行取样、化验,得到原料场中的原材料检化验成分数据。
在一示例性实施例中,如图3所示,数据检测模块M20包括有第一比较单元M210和第一标记单元M220;数据清洗模块M30包括有第一输入单元M310和第一清洗单元M320;
数据清洗模块M30根据第一子模型的检测结果对原材料检化验成分数据进行清洗;具体包括有:
第一输入单元M310,与数据采集模块M10连接,用于将数据采集模块M10中的原材料检化验成分数据输入至数据检测模块M20的第一子模型中,并将输入的原材料检化验成分数据作为当前原材料检化验成分数据;其中,当前原材料检化验成分数据至少包括有当前原材料种类、当前原材料中每个种类包含的检化验成分项数;
第一比较单元M210,与第一输入单元M310连接,用于将当前原材料种类与配置表中原材料种类进行比对,以及用于将当前原材料中每个种类包含的检化验成分项数与配置表中的相对应原材料种类各自所包含的检化验成分项数进行比对;
第一标记单元M220,与第一比较单元M210连接,用于根据当前原材料种类比对结果和当前原材料中每个种类的检化验成分项比对结果,对当前原材料检化验成分数据进行标记;若当前原材料种类与配置表中的原材料种类相比,当前原材料种类缺少一类以上;和/或,当前原材料各个种类包含的检化验成分项数与配置表中的相对应原材料种类各自所包含的检化验成分项数相比,当前原材料中任一种类的检化验成分缺少一项以上;则第一标记单元M220中的第一子模型将当前原材料检化验成分数据标记为不完整;第一子模型输出的检测结果为当前原材料检化验成分数据不完整。
第一清洗单元M320,与第一标记单元M220连接,用于根据第一标记单元M220中第一子模型输出的检测结果,放弃、剔除或过滤掉被第一子模型标记为不完整的当前原材料检化验成分数据,完成对当前原材料检化验成分数据的清洗。
在本申请实施例中,通过第一子模型对获取的原材料检化验成分数据进行检化验成分完整性检测,如果检化验成分数据不完整,则原材料检化验成分数据可能全部未成功录入或部分未成功录入。通过放弃、剔除或过滤掉不完整的检化验成分数据,降低了对以检化验成分数据为计算基础的理论模型的影响。
在一示例性实施例中,如图4所示,数据检测模块M20包括有第二比较单元M230和第二标记单元M240;数据清洗模块M30包括有第二输入单元M330和第二清洗单元M340;
数据清洗模块M30根据第二子模型的检测结果对原材料检化验成分数据进行清洗;具体包括有:
第二输入单元M330,与数据采集模块M10连接,用于将数据采集模块M10中的原材料检化验成分数据输入至数据检测模块M20的第二子模型中,并将输入的原材料检化验成分数据作为当前原材料检化验成分数据;其中,当前原材料检化验成分数据至少包括有当前原材料种类和当前原材料每个种类中各项检化验成分的数值;
第二比较单元M230,与第二输入单元M330连接,用于将当前原材料每个种类中各项检化验成分的数值分别与配置表中原材料每个种类中各自对应项的检化验成分上限值、配置表中原材料每个种类中各自对应项的检化验成分下限值进行比对;
第二标记单元M240,与第二比较单元M230连接,用于根据当前原材料每个种类中各项检化验成分数值比对结果,对当前原材料检化验数据进行标记;若当前原材料每个种类中各项检化验成分的数值与配置表中原材料每个种类中各自对应项的检化验成分上限值相比,当前原材料任一种类中存在一项以上检化验成分的数值大于对应项的检化验成分上限值;和/或,当前原材料各个种类中各项检化验成分的数值与配置表中原材料每个种类中各自对应项的检化验成分下限值相比,当前原材料任一种类中存在一项以上检化验成分的数值小于对应项的检化验成分下限值,则第二标记单元M240中的第二子模型将当前原材料检化验成分数据标记为错误;第二子模型输出的检测结果为当前原材料检化验成分数据错误。
第二清洗单元M340,与第二标记单元M240连接,用于根据第二标记单元M240中第二子模型输出的检测结果,放弃、剔除或过滤掉被第二子模型标记为错误的当前原材料检化验成分数据,完成对当前原材料检化验成分数据的清洗。
作为示例,例如在某现场烧结矿的全铁含量一般都在56%左右,上下波动一般不会超过1%。对烧结矿的全铁含量分析项配置为上限57%,下限55%,超过这个范围,第二子模型便会将本批检化验成分数据标记为错误,后续模型计算也将放弃、剔除或过滤掉这部分被标记为错误的检化验成分数据,不会采用被标记为错误的检化验成分数据。
在本申请实施例中,通过第二子模型对获取的原材料检化验成分数据进行检化验成分数值范围检测,如果检化验成分数据不在正常范围内,则原材料检化验成分数据录入过程可能出现错误或原材料检化验成分数据可能出现化验错误。通过放弃、剔除或过滤掉不在正常范围内错误的检化验成分数据,降低了对以检化验成分数据为计算基础的理论模型的影响。
在一示例性实施例中,如图5所示,数据检测模块M20包括有第一计算单元M250、第三比较单元M260和第三标记单元M270;数据清洗模块M30包括有第三输入单元M350和第三清洗单元M360;
数据清洗模块M30根据第三子模型的检测结果对原材料检化验成分数据进行清洗;具体包括有:
第三输入单元M350,与数据采集模块M10连接,用于将原材料检化验成分数据输入至用于检测原材料检化验成分百分比累加值的第三子模型中,并将输入的原材料检化验成分数据作为当前原材料检化验成分数据;其中,当前原材料检化验成分数据至少包括有当前原材料种类和当前原材料中每个种类的各项检化验成分百分比值;
第一计算单元M250,与第三输入单元M350连接,用于根据当前原材料中每个种类的各项检化验成分的百分比值计算当前原材料中所有种类的检化验成分百分比累加值;至少包括有根据化学检化验成分计算化学检化验成分的百分比累加值。
第三比较单元M260,与第一计算单元M250连接,用于将当前原材料中所有种类的检化验成分百分比累加值与配置表中阈值进行比对;具体地,用于将当前原材料中所有化学检化验成分百分比累加值与配置表中阈值进行比对。
第三标记单元M270,与第三比较单元M260连接,用于根据当前原材料中所有种类的检化验成分百分比累加值与配置表中阈值的比对结果,对当前原材料检化验成分数据进行标记;若当前原材料中所有种类的检化验成分百分比累加值小于配置表中阈值,则第三标记单元M270中的第三子模型将当前原材料检化验成分数据标记为错误;第三子模型输出的检测结果为当前原材料检化验成分数据错误。具体地,用于根据当前原材料中所有的化学检化验成分百分比累加值与配置表中阈值的比对结果,对当前原材料检化验成分数据进行标记;若当前原材料中所有化学检化验成分百分比累加值小于配置表中阈值,则第三标记单元M270中的第三子模型将当前原材料检化验成分数据标记为错误;第三子模型输出的检测结果为当前原材料检化验成分数据错误。
第三清洗单元M360,与第三标记单元M270连接,用于根据第三标记单元M270中第三子模型的检测结果,放弃、剔除或过滤掉被第三子模型标记为错误的当前原材料检化验成分数据,完成对当前原材料检化验成分数据的清洗。
在本申请实施例中,通过第三子模型对获取的原材料检化验成分数据进行检化验成分百分比累加值的检测,如果累加值小于设定值,第三子模型将本批检化验数据标记为错误,则录入的原材料检化验成分数据可能出现错误或原材料检化验成分数据可能出现化验错误。通过放弃、剔除或过滤掉不在正常范围内错误的检化验成分数据,降低了对以检化验成分数据为计算基础的理论模型的影响。以化学检化验成分为例,通过第三子模型对获取的原材料检化验成分数据进行化学检化验成分百分比累加值的检测,如果累加值小于设定值,第三子模型将本批检化验数据标记为错误,则录入的原材料检化验成分数据可能出现错误或原材料检化验成分数据可能出现化验错误。通过放弃、剔除或过滤掉不在正常范围内错误的检化验成分数据,降低了对以检化验成分数据为计算基础的理论模型的影响。
根据上述示例性实施例,如图5所示,数据清洗模块M30还包括有校正单元M370,校正单元M370与第三标记单元M270连接;
第三标记单元M270还包括有:若当前原材料中所有种类的检化验成分百分比累加值大于配置表中阈值且小于1,则第三子模型将当前原材料检化验成分数据标记为合理误差;
校正单元M370用于根据第三子模型的检测结果,对标记为合理误差的当前原材料检化验成分数据中的检化验成分百分比累加值进行校正。校正单元M370包括有一校正方法,校正方法为:将当前原材料中每个种类的各项检化验成分的百分比值分别除以累加值后再乘以100%,得到校正后每个种类的各项检化验成分的百分比值。具体地,对于化学检化验成分的校正方法有:将当前原材料中的各项化学检化验成分的百分比值分别除以累加值后再乘以100%,得到校正后的各项化学检化验成分的百分比值。
在本申请实施例中,通过第三子模型对获取的原材料检化验成分数据进行检化验成分百分比累加值的检测,如果累加值大于设定值且小于1,则第三子模型将本批检化验数据标记为合理误差;通过校正方法对合理误差进行校正,降低了对以检化验成分数据为计算基础的理论模型的影响。以化学检化验成分为例,通过第三子模型对获取的原材料检化验成分数据进行化学检化验成分百分比累加值的检测,如果累加值大于设定值且小于1,则第三子模型将本批检化验数据标记为合理误差;通过校正方法对合理误差进行校正,降低了对以检化验成分数据为计算基础的理论模型的影响。
本申请实施例中对数据的清洗是指:放弃、剔除或过滤掉被第一子模型标记为不完整的原材料检化验成分数据;和/或,放弃、剔除或过滤掉被第二子模型标记为错误的原材料检化验成分数据;和/或,放弃、剔除或过滤掉被第三子模型标记为错误的原材料检化验成分数据。存在上述任意一种,则完成对当前原材料检化验成分数据的清洗。
根据以上实施例记载,通过第一子模型对获取的原材料检化验成分数据进行检化验成分完整性检测,通过第二子模型对获取的原材料检化验成分数据进行检化验成分范围检测,还通过第三子模型对获取的原材料检化验成分数据进行检化验成分百分比累加值检测。通过对检化验成分的完整性检测、范围检测和累加值检测,放弃、剔除或过滤掉或过滤部分错误的、不完整的检化验成分数据,降低了对以检化验成分数据为计算基础的理论模型的影响。本申请实施例还提供了一种设备,该设备可以包括:一个或多个处理器;和其上存储有指令的一个或多个机器可读介质,当由所述一个或多个处理器执行时,使得所述设备执行图1所述的方法。在实际应用中,该设备可以作为终端设备,也可以作为服务器,终端设备的例子可以包括:智能手机、平板电脑、电子书阅读器、MP3(动态影像专家压缩标准语音层面3,Moving Picture Experts Group Audio Layer III)播放器、MP4(动态影像专家压缩标准语音层面4,Moving Picture Experts Group Audio Layer IV)播放器、膝上型便携计算机、车载电脑、台式计算机、机顶盒、智能电视机、可穿戴设备等等,本申请实施例对于具体的设备不加以限制。
本申请实施例还提供了一种非易失性可读存储介质,该存储介质中存储有一个或多个模块(programs),该一个或多个模块被应用在设备时,可以使得该设备执行本申请实施例的图1中数据处理方法所包含步骤的指令(instructions)。
图6为本申请一实施例提供的终端设备的硬件结构示意图。如图所示,该终端设备可以包括:输入设备1100、第一处理器1101、输出设备1102、第一存储器1103和至少一个通信总线1104。通信总线1104用于实现元件之间的通信连接。第一存储器1103可能包含高速RAM存储器,也可能还包括非易失性存储NVM,例如至少一个磁盘存储器,第一存储器1103中可以存储各种程序,用于完成各种处理功能以及实现本实施例的方法步骤。
可选的,上述第一处理器1101例如可以为中央处理器(Central ProcessingUnit,简称CPU)、应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现,该第一处理器1101通过有线或无线连接耦合到上述输入设备1100和输出设备1102。
可选的,上述输入设备1100可以包括多种输入设备,例如可以包括面向用户的用户接口、面向设备的设备接口、软件的可编程接口、摄像头、传感器中至少一种。可选的,该面向设备的设备接口可以是用于设备与设备之间进行数据传输的有线接口、还可以是用于设备与设备之间进行数据传输的硬件插入接口(例如USB接口、串口等);可选的,该面向用户的用户接口例如可以是面向用户的控制按键、用于接收语音输入的语音输入设备以及用户接收用户触摸输入的触摸感知设备(例如具有触摸感应功能的触摸屏、触控板等);可选的,上述软件的可编程接口例如可以是供用户编辑或者修改程序的入口,例如芯片的输入引脚接口或者输入接口等;输出设备1102可以包括显示器、音响等输出设备。
在本实施例中,该终端设备的处理器包括用于执行各设备中语音识别装置各模块的功能,具体功能和技术效果参照上述实施例即可,此处不再赘述。
图7为本申请的一个实施例提供的终端设备的硬件结构示意图。图7是对图6在实现过程中的一个具体的实施例。如图7所示,本实施例的终端设备可以包括第二处理器1201以及第二存储器1202。
第二处理器1201执行第二存储器1202所存放的计算机程序代码,实现上述实施例中图1所述方法。
第二存储器1202被配置为存储各种类型的数据以支持在终端设备的操作。这些数据的示例包括用于在终端设备上操作的任何应用程序或方法的指令,例如消息,图片,视频等。第二存储器1202可能包含随机存取存储器(random access memory,简称RAM),也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
可选地,第二处理器1201设置在处理组件1200中。该终端设备还可以包括:通信组件1203,电源组件1204,多媒体组件1205,语音组件1206,输入/输出接口1207和/或传感器组件1208。终端设备具体所包含的组件等依据实际需求设定,本实施例对此不作限定。
处理组件1200通常控制终端设备的整体操作。处理组件1200可以包括一个或多个第二处理器1201来执行指令,以完成上述数据处理方法中的全部或部分步骤。此外,处理组件1200可以包括一个或多个模块,便于处理组件1200和其他组件之间的交互。例如,处理组件1200可以包括多媒体模块,以方便多媒体组件1205和处理组件1200之间的交互。
电源组件1204为终端设备的各种组件提供电力。电源组件1204可以包括电源管理系统,一个或多个电源,及其他与为终端设备生成、管理和分配电力相关联的组件。
多媒体组件1205包括在终端设备和用户之间的提供一个输出接口的显示屏。在一些实施例中,显示屏可以包括液晶显示器(LCD)和触摸面板(TP)。如果显示屏包括触摸面板,显示屏可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。
语音组件1206被配置为输出和/或输入语音信号。例如,语音组件1206包括一个麦克风(MIC),当终端设备处于操作模式,如语音识别模式时,麦克风被配置为接收外部语音信号。所接收的语音信号可以被进一步存储在第二存储器1202或经由通信组件1203发送。在一些实施例中,语音组件1206还包括一个扬声器,用于输出语音信号。
输入/输出接口1207为处理组件1200和外围接口模块之间提供接口,上述外围接口模块可以是点击轮,按钮等。这些按钮可包括但不限于:音量按钮、启动按钮和锁定按钮。
传感器组件1208包括一个或多个传感器,用于为终端设备提供各个方面的状态评估。例如,传感器组件1208可以检测到终端设备的打开/关闭状态,组件的相对定位,用户与终端设备接触的存在或不存在。传感器组件1208可以包括接近传感器,被配置用来在没有任何的物理接触时检测附近物体的存在,包括检测用户与终端设备间的距离。在一些实施例中,该传感器组件1208还可以包括摄像头等。
通信组件1203被配置为便于终端设备和其他设备之间有线或无线方式的通信。终端设备可以接入基于通信标准的无线网络,如WiFi,2G或3G,或它们的组合。在一个实施例中,该终端设备中可以包括SIM卡插槽,该SIM卡插槽用于插入SIM卡,使得终端设备可以登录GPRS网络,通过互联网与服务器建立通信。
由上可知,在图7实施例中所涉及的通信组件1203、语音组件1206以及输入/输出接口1207、传感器组件1208均可以作为图6实施例中的输入设备的实现方式。
综上所述,本发明提出一种数据清洗方法、系统及设备,通过采集高炉炼铁过程中的原材料检化验成分数据;建立数据清洗模型,所述数据清洗模型包括有用于检测原材料检化验成分完整性的第一子模型、用于检测原材料检化验成分范围的第二子模型和用于检测原材料检化验成分百分比累加值的第三子模型;将原材料检化验成分数据输入至数据清洗模型中的一个或多个子模型,获取对应子模型的检测结果;根据子模型的检测结果对原材料检化验成分数据进行清洗。通过第一子模型对获取的原材料检化验成分数据进行检化验成分完整性检测,如果检化验成分数据不完整,则原材料检化验成分数据可能全部未成功录入或部分未成功录入。通过第二子模型对获取的原材料检化验成分数据进行检化验成分数值范围检测,如果检化验成分数据不在正常范围内,则原材料检化验成分数据录入过程可能出现错误或原材料检化验成分数据可能出现化验错误。第三子模型对获取的原材料检化验成分数据进行检化验成分百分比累加值的检测,如果累加值小于设定值,第三子模型将本批检化验数据标记为错误,则录入的原材料检化验成分数据可能出现错误或原材料检化验成分数据可能出现化验错误。通过第三子模型对获取的原材料检化验成分数据进行检化验成分百分比累加值的检测,如果累加值大于设定值且小于1,则第三子模型将本批检化验数据标记为合理误差;通过校正方法对合理误差进行校正。本发明通过对检化验成分的完整性检测、范围检测和累加值检测,放弃、剔除或过滤掉或过滤部分错误的、不完整的检化验成分数据,降低了对以检化验成分数据为计算基础的理论模型的影响。所以,本发明有效克服了现有技术中的种种缺点而具高度产业利用价值。
上述实施例仅例示性说明本发明的原理及其功效,而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下,对上述实施例进行修饰或改变。因此,举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变,仍应由本发明的权利要求所涵盖。

Claims (12)

1.一种原材料数据清洗方法,其特征在于,包括有:
采集高炉炼铁过程中的原材料检化验成分数据;
建立数据清洗模型,所述数据清洗模型包括有用于检测原材料检化验成分完整性的第一子模型、用于检测原材料检化验成分范围的第二子模型和用于检测原材料检化验成分百分比累加值的第三子模型;
将原材料检化验成分数据输入至数据清洗模型中的一个或多个子模型,获取对应子模型的检测结果;根据子模型的检测结果对原材料检化验成分数据进行清洗。
2.根据权利要求1所述的原材料数据清洗方法,其特征在于,将原材料检化验成分数据分别输入至第一子模型、第二子模型和第三子模型中;
若第一子模型检测到原材料检化验成分数据存在不完整、第二子模型检测到原材料检化验成分数据存在错误、第三子模型检测到原材料检化验成分数据存在错误;
则根据第一子模型、第二子模型和/或第三子模型的检测结果对原材料检化验成分数据进行清洗。
3.根据权利要求1或2所述的原材料数据清洗方法,其特征在于,第一子模型对原材料检化验成分的完整性检测,包括有:
将获取的原材料检化验成分数据作为当前原材料检化验成分数据输入至第一子模型中;
将所述当前原材料检化验成分数据与预设原材料检化验成分数据进行比对,获取比对结果;
若比对结果中,当前原材料检化验成分数据中原材料种类缺少一类以上;和/或,当前原材料检化验成分数据中检化验成分项缺少一项以上;则第一子模型将当前原材料检化验成分数据标记为不完整;第一子模型输出的检测结果为当前原材料检化验成分数据不完整。
4.根据权利要求1或2所述的原材料数据清洗方法,其特征在于,第二子模型对原材料检化验成分的范围检测,包括有:
将获取的原材料检化验成分数据作为当前原材料检化验成分数据输入至第二子模型中;
将所述当前原材料检化验成分数据与预设原材料检化验成分数据进行比对,获取比对结果;
若比对结果中,当前原材料检化验成分数据中存在一项以上的检化验成分的数值未位于预设原材料检化验成分数据范围内,则第二子模型将当前原材料检化验成分数据标记为错误;第二子模型输出的检测结果为当前原材料检化验成分数据错误。
5.根据权利要求1或2所述的原材料数据清洗方法,其特征在于,第三子模型对原材料检化验成分的百分比累加值检测,包括有:
将获取的原材料检化验成分数据作为当前原材料检化验成分数据输入至第三子模型中;
将所述当前原材料检化验成分数据与预设原材料检化验成分数据进行比对,获取比对结果;
若比对结果中,若当前原材料检化验成分数据中各项检化验成分的百分比累加值小于预设阈值,则第三子模型将当前原材料检化验成分数据标记为错误;第三子模型输出的检测结果为当前原材料检化验成分数据错误。
6.根据权利要求5所述的原材料数据清洗方法,其特征在于,还包括有:若当前原材料检化验成分数据中各项检化验成分的百分比累加值大于预设阈值且小于1,则第三子模型将当前原材料检化验成分数据标记为合理误差,并对标记为合理误差的当前原材料检化验成分数据进行校正。
7.一种原材料数据清洗系统,其特征在于,包括有:
数据采集模块,用于采集高炉炼铁过程中的原材料检化验成分数据;
数据检测模块,所述数据检测模块包括有用于检测原材料检化验成分完整性的第一子模型、用于检测原材料检化验成分范围的第二子模型和用于检测原材料检化验成分百分比累加值的第三子模型;
数据清洗模块,分别与所述数据采集模块和所述数据检测模块连接,用于将数据采集模块中的原材料检化验成分数据输入至数据检测模块中的一个或多个子模型,获取对应子模型的检测结果;根据子模型的检测结果对原材料检化验成分数据进行清洗。
8.根据权利要求7所述的原材料数据清洗系统,其特征在于,数据清洗模块将数据采集模块中的原材料检化验成分数据分别输入至第一子模型、第二子模型和第三子模型中,
若数据检测模块中的第一子模型检测到原材料检化验成分数据存在不完整、第二子模型检测到原材料检化验成分数据存在错误、第三子模型检测到原材料检化验成分数据存在错误;
则数据清洗模块根据第一子模型、第二子模型和/或第三子模型的检测结果对原材料检化验成分数据进行清洗。
9.根据权利要求7所述的原材料数据清洗系统,其特征在于,所述数据检测模块包括有比较单元和标记单元;所述数据清洗模块包括有输入单元和清洗单元;
所述输入单元,与所述数据采集模块连接,用于将数据采集模块中的原材料检化验成分数据作为当前原材料检化验成分数据输入至数据检测模块中;
所述比较单元,与所述输入单元连接,用于比对当前原材料检化验成分数据与预设原材料检化验成分数据,获取比对结果;
所述标记单元,与所述比较单元连接,用于根据比对结果对当前原材料检化验成分数据进行标记;
所述清洗单元,与所述标记单元连接,用于根据标记单元作出的标记清洗当前原材料检化验成分数据。
10.根据权利要求9所述的原材料数据清洗系统,其特征在于,所述数据清洗模块还包括有校正单元,所述校正单元与所述标记单元连接,用于对当前原材料检化验成分数据进行校正。
11.一种设备,其特征在于,包括:
一个或多个处理器;和
其上存储有指令的一个或多个机器可读介质,当所述一个或多个处理器执行时,使得所述设备执行如权利要求1-6中一个或多个所述的方法。
12.一个或多个机器可读介质,其特征在于,其上存储有指令,当由一个或多个处理器执行时,使得设备执行如权利要求1-6中一个或多个所述的方法。
CN201910924842.9A 2019-09-27 2019-09-27 一种数据清洗方法、系统及设备 Pending CN110704410A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910924842.9A CN110704410A (zh) 2019-09-27 2019-09-27 一种数据清洗方法、系统及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910924842.9A CN110704410A (zh) 2019-09-27 2019-09-27 一种数据清洗方法、系统及设备

Publications (1)

Publication Number Publication Date
CN110704410A true CN110704410A (zh) 2020-01-17

Family

ID=69196966

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910924842.9A Pending CN110704410A (zh) 2019-09-27 2019-09-27 一种数据清洗方法、系统及设备

Country Status (1)

Country Link
CN (1) CN110704410A (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108446362A (zh) * 2018-03-13 2018-08-24 平安普惠企业管理有限公司 数据清洗处理方法、装置、计算机设备和存储介质
KR101940029B1 (ko) * 2018-07-11 2019-01-18 주식회사 마키나락스 어노말리 디텍션
CN109670015A (zh) * 2018-12-12 2019-04-23 中科恒运股份有限公司 数据分析方法、计算机可读存储介质及终端设备
CN110162519A (zh) * 2019-04-17 2019-08-23 苏宁易购集团股份有限公司 数据清理方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108446362A (zh) * 2018-03-13 2018-08-24 平安普惠企业管理有限公司 数据清洗处理方法、装置、计算机设备和存储介质
KR101940029B1 (ko) * 2018-07-11 2019-01-18 주식회사 마키나락스 어노말리 디텍션
CN109670015A (zh) * 2018-12-12 2019-04-23 中科恒运股份有限公司 数据分析方法、计算机可读存储介质及终端设备
CN110162519A (zh) * 2019-04-17 2019-08-23 苏宁易购集团股份有限公司 数据清理方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
郝爽 等: "结构化数据清洗技术综述", 《清华大学学报(自然科学版)》 *

Similar Documents

Publication Publication Date Title
CN112036755B (zh) 一种建筑工程质量检测的监管方法及系统
CN110674982B (zh) 一种温室气体排放量核算、分析和预测的系统、方法及设备
US10488975B2 (en) Touch gesture detection assessment
US10482093B2 (en) Data mining method
CN112034789A (zh) 一种数控机床关键部件及整机的健康评估方法,系统及评估终端机
CN104331373A (zh) 一种Monkey测试系统及方法
CN1323369C (zh) 图像识别装置和方法以及图像识别装置的示教装置和方法
CN112598294A (zh) 在线建立评分卡模型的方法、装置、机器可读介质及设备
CN101364529B (zh) 一种自动下载集成电路序列号码的方法
CN105786281A (zh) 一种电容屏抗电磁干扰的方法和装置
CN104391616B (zh) 一种触摸屏的像素点电容值检测范围的获取方法和装置
CN110688376B (zh) 一种温度数据清洗方法、系统及设备
CN110704410A (zh) 一种数据清洗方法、系统及设备
CN114912764A (zh) 一种平台价值度量方法、系统、设备及介质
CN107506515B (zh) Pcb加投率计算模型构建方法和装置
JP7035857B2 (ja) 検査方法、検査システム及びプログラム
CN206209688U (zh) 一种频谱分析仪的操控装置
CN111008842B (zh) 一种茶叶检测方法、系统、电子设备及机器可读介质
US20240004375A1 (en) Data processing method, and electronic device and storage medium
CN115409799A (zh) Led芯片自动针痕检测方法、装置、介质及电子设备
TWI801767B (zh) 機器學習分類模型之修正方法與訓練系統及使用者介面
CN111882289B (zh) 一种项目数据审核指标区间测算的装置和方法
CN107037948A (zh) 一种实现列表滑动的方法及系统
CN110728243B (zh) 一种权级分类的业务管理方法、系统、设备和介质
CN114740284A (zh) 触摸屏面板的检测方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: 401329 No. 5-6, building 2, No. 66, Nongke Avenue, Baishiyi Town, Jiulongpo District, Chongqing

Applicant after: MCC CCID information technology (Chongqing) Co.,Ltd.

Address before: Building 1, No. 11, Huijin Road, North New District, Yubei District, Chongqing

Applicant before: CISDI CHONGQING INFORMATION TECHNOLOGY Co.,Ltd.

CB02 Change of applicant information
RJ01 Rejection of invention patent application after publication

Application publication date: 20200117

RJ01 Rejection of invention patent application after publication