CN116756127A - 锂电池生产制造业数据质量检测方法及系统 - Google Patents

锂电池生产制造业数据质量检测方法及系统 Download PDF

Info

Publication number
CN116756127A
CN116756127A CN202310460221.6A CN202310460221A CN116756127A CN 116756127 A CN116756127 A CN 116756127A CN 202310460221 A CN202310460221 A CN 202310460221A CN 116756127 A CN116756127 A CN 116756127A
Authority
CN
China
Prior art keywords
data
platform
rule
detection
quality detection
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310460221.6A
Other languages
English (en)
Inventor
丁时坤
徐嘉文
张海心
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Gotion High Tech Co Ltd
Original Assignee
Gotion High Tech Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Gotion High Tech Co Ltd filed Critical Gotion High Tech Co Ltd
Priority to CN202310460221.6A priority Critical patent/CN116756127A/zh
Publication of CN116756127A publication Critical patent/CN116756127A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开一种锂电池生产制造业数据质量检测方法及系统,方法包括基于数据源信息、库表信息和规则字段拉取至少一个目标平台内存储的锂电池相关数据,所述库表信息包括所述数据源信息下对应的数据库实例以及数据库实施例下所需验证的锂电池相关数据所在的数据表,所述规则字段为所述数据表内需要验证的操作列;基于预先配置的数据质量检测规则和单一平台的规则字段,对该单一平台的数据表中相关数据进行质量检测,得到同平台数据质量检测结果;基于预先配置的数据质量检测规则和至少两个平台对应的规则字段,进行跨平台的数据关联及合并检查,得到跨平台数据质量检测结果;本发明数据质量检测灵活性,可满足复杂多样化的数据质量检测需求。

Description

锂电池生产制造业数据质量检测方法及系统
技术领域
本发明涉及数据检测技术领域,具体涉及一种锂电池生产制造业数据质量检测方法及系统。
背景技术
锂电池生产制造业务领域中的数据仓库,承载着产线侧输出的各类来源数据。其中既有工单、工艺、工序、工步、生产时间、设备、产量、次品量、物料、工艺参数等生产结果数据;也有转速、电流、永磁强度、压强、浓度、除尘风速、焊接振幅、焊接压力、电阻等生产过程中产生的实际测量数据,即生产过程数据;还有生产过程中相关的温湿度、空气洁净度、照明等环境、动力态势数据。不同种类的数据要求的质量特点不同,则数据质量检测的重点不同。例如:结果数据使用的数据要求质量高、字段内容完整、数据准确,生产过程数据要求数据频率高、数据量大、记录全。
相关数据质量检测方案多以固定标准对单一系统进行数据质量检测,检测方案对于各行业具有通用性原则。比如公布号为CN112597142A的专利申请文献提出的一种数据质量检测方法中,基于数据检测配置参数可以确定出要对目标数据库表执行的检测项,实现适应于系统业务场景需求的数据质量检测方案;但该方案是针对同一目标作业的多个系统的检测项进行配置,其可针对不同的单一系统配置对应的检测项,但不支持跨平台的数据质量检测。公布号为CN111897806A的专利申请文献提出的一种大数据离线数据质量检查方法,基于数据质量检查系统中预设的检查规则配置检查语句进行数据质量检查,检查规则包括数据及时性检查规则、字段非空检查规则、字段值域检查规则、字段唯一性检查规则、字段数据长度检查规则、字段特定值占比检查规则、数据量同比检查规则、数据量环比检查规则、记录数一致性检查规则、数据子集检查规则中的一种或多种;但所采用的检测规则不全面,无法满足锂电池生产制造业务领域多样化的检测需求,例如:检测电芯生产中各工序投入与产出的对应关系;工艺控制计划中工序与实际生产的工序是否对应等需求。公布号为CN113220726A的专利申请文献提出的一种数据质量检测方法,利用特定的业务数据质量规则和针对业务数据库设计的检测方法,实现了对源系统数据质量检测;但该方案同样只适用于对单一系统进行数据质量检测,不支持跨平台的数据质量检测。
因此,现有的数据质量检测方案未考虑到锂电池生产制造业务领域复杂多样化的数据质量检测需求,且检测灵活性不足、检测规则不全面,无法满足锂电池生产制造业务领域多样化的检测要求。
发明内容
本发明所要解决的技术问题在于如何提升数据质量检测灵活性,满足复杂多样化的数据质量检测需求。
本发明通过以下技术手段解决上述技术问题的:
提出一种锂电池生产制造业数据质量检测方法,所述方法包括:
基于数据源信息、库表信息和规则字段拉取至少一个目标平台内存储的锂电池相关数据,所述库表信息包括所述数据源信息下对应的数据库实例以及数据库实施例下所需验证的锂电池相关数据所在的数据表,所述规则字段为所述数据表内需要验证的操作列;
基于预先配置的数据质量检测规则和单一平台的规则字段,对该单一平台的数据表中相关数据进行质量检测,得到同平台数据质量检测结果;
基于预先配置的数据质量检测规则和至少两个平台对应的规则字段,进行跨平台的数据关联及合并检查,得到跨平台数据质量检测结果。
进一步地,所述基于数据源信息、库表信息和规则字段拉取至少一个目标平台内存储的锂电池相关数据,包括:
根据数据检测配置参数字段构建检测任务模型,所述检测任务模型包括检测项id以及至少一个目标平台的数据源信息、库表信息和规则字段;
将所述检测任务模型解析为json结构,获取检测项id及至少一个目标平台的数据源信息、库表信息和规则字段,其中,所述检测项id用于获取检测代码类名以根据检测代码类名轮询数据质量检测规则;
基于数据源信息、库表信息和规则字段拉取至少一个目标平台内存储的数据至内存中用于进行数据质量检测。
进一步地,所述检测任务模型还包括分区信息,所述分区信息用于限定数据边界,所述方法还包括:
基于数据源信息、库表信息、分区信息和规则字段拉取至少一个目标平台内存储的数据。
进一步地,所述数据质量检测规则包括数值合理性检查项、字段合法性检查项、数据关联性检查项、数据类型映射检查项、码值映射检查项及通用性检查项。
其中,通用性检查项包括数据及时性检查项、字段非空检查项、唯一性检查项、数据一致性检查项。
进一步地,所述基于预先配置的数据质量检测规则和单一平台的规则字段,对该单一平台的数据表中相关数据进行质量检测,得到同平台数据质量检测结果,包括:
解析单一平台的规则字段,得到该平台对应的所述数据表内需验证的操作列;
利用所述数值合理性检查项、所述字段合法性检查项、所述数据关联性检查项、所述通用检查项中的至少一项对所述操作列进行处理,对所述数据表中的相关数据进行数据质量检查。
进一步地,所述基于预先配置的数据质量检测规则和至少两个平台对应的规则字段,进行跨平台的数据关联及合并检查,得到跨平台数据质量检测结果,包括:
对不同的目标平台所对应的规则字段进行关联,进行跨平台的数据关联性检查,筛选出关联不上的数据及数量;
对不同的目标平台所对应的规则字段进行关联,进行码值映射检查,筛选出代码与代码值映射不上的数据;
对不同的目标平台所对应数据表,进行数据类型映射检查,判断跨平台数据字段类型是否一一映射。
进一步地,所述对不同的目标平台所对应数据表,进行数据类型映射检查,判断跨平台数据字段类型是否一一映射,包括:
基于不同的目标平台的数据源信息、数据库实例及数据表,获取不同目标平台对应的数据表的数据结构,加载到计算引擎的内存中;
根据不同的目标平台所对应的数据源的类型遍历对应映射方法;
将不同的目标平台所对应的数据表的数据字段转化成小写,并根据字段名进行匹配,得到同构字段列表;
遍历所述同构字段列表,按照对应的映射方法对字段类型映射进行匹配,筛选出不符合映射规则的数据。
进一步地,所述方法还包括:
基于待验证的锂电池相关数据的业务特性,确定所需配置的检查项,其中,所述锂电池相关数据包括成产过程数据、生产结果数据和环境态势数据。
进一步地,所述方法还包括:
基于所述同平台数据质量检测结果和/或跨平台数据质量检测结果确定目标作业检测不合格时,生成告警提示;
根据预先构建的数据质量产生原因分析库,确定目标作业对应的库表存在的数据质量问题。
此外,本发明还提出了一种锂电池生产制造业数据质量检测系统,所述检测系统包括:
数据拉取模块,用于基于数据源信息、库表信息和规则字段拉取至少一个目标平台内存储的锂电池相关数据,所述库表信息包括所述数据源信息下对应的数据库实例以及数据库实施例下所需验证的锂电池相关数据所在的数据表,所述规则字段为所述数据表内需要验证的操作列;
同平台数据检测模块,用于基于预先配置的数据质量检测规则和单一平台的规则字段,对该单一平台的数据表中相关数据进行质量检测,得到同平台数据质量检测结果;
跨平台数据检测模块,用于基于预先配置的数据质量检测规则和至少两个平台对应的规则字段,进行跨平台的数据关联及合并检查,得到跨平台数据质量检测结果。
本发明的优点在于:
(1)本发明通过将不同目标平台分区内的数据拉取至计算引擎内存,并在内存中进行单一平台的数据质量检测及跨平台的数据质量检测,通过基于内存进行数据质量检测可灵活应对不同场景的数据质量检测,可满足复杂多样化的数据质量检测需求;针对跨平台数据质量检测时,无需将两个平台的数据进行集中存储,减少数据抽取的工作量,且不占用多余的磁盘存储空间。
(2)本发明可实现单一平台的数值合理性检查、字段合法性检查、通用性检查,也可支持跨平台的多表数据关联性检查、数据类型映射检查、码值映射检查,满足生产制造业务领域多样化的检测需求。
(3)本发明解决了数据类型映射此类检查项对跨平台联动性的需要,避免了源平台数据结构的变更对下游平台产生的影响。
本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
图1是本发明实施例提出的一种锂电池生产制造业数据质量检测方法的流程示意图;
图2是本发明实施例提出的一种锂电池生产制造业数据质量检测方法的整体流程框图;
图3是本发明实施例提出的一种锂电池生产制造业数据质量检测系统的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1至图2所示,本发明第一实施例提出了一种锂电池生产制造业数据质量检测方法。所述方法包括以下步骤:
S10、基于数据源信息、库表信息和规则字段拉取至少一个目标平台内存储的锂电池相关数据,所述库表信息包括所述数据源信息下对应的数据库实例以及数据库实施例下所需验证的锂电池相关数据所在的数据表,所述规则字段为所述数据表内需要验证的操作列;
S20、基于预先配置的数据质量检测规则和单一平台的规则字段,对该单一平台的数据表中相关数据进行质量检测,得到同平台数据质量检测结果;
S30、基于预先配置的数据质量检测规则和至少两个平台对应的规则字段,进行跨平台的数据关联及合并检查,得到跨平台数据质量检测结果。
本实施例通过将不同目标平台分区内的数据拉取至计算引擎内存,并在内存中进行单一平台的数据质量检测及跨平台的数据质量检测,通过基于内存进行数据质量检测可灵活应对不同场景的数据质量检测,可满足复杂多样化的数据质量检测需求;针对跨平台数据质量检测时,无需将两个平台的数据进行集中存储,减少数据抽取的工作量,且不占用多余的磁盘存储空间。
在一实施例中,所述步骤S10:基于数据源信息、库表信息和规则字段拉取至少一个目标平台内存储的锂电池相关数据,具体包括以下步骤:
S11、根据数据检测配置参数字段构建检测任务模型,所述检测任务模型包括检测项id以及至少一个目标平台的数据源信息、库表信息和规则字段;
具体地,所述检测任务模型的表示见表1:
表1
字段名 字段类型 字段说明 是否为主键
model_id int(32) 应用id 主键
check_item_id int(32) 检测项id 外键
check_source varchar(256) 第一目标平台数据源
check_db varchar(256) 第一目标平台数据库实例
check_table varchar(256) 第一目标平台数据表
check_field varchar(256) 第一目标平台规则字段
check_partition varchar(256) 第一目标平台分区表达式
target_source varchar(256) 第二目标平台数据源
target_db varchar(256) 第二目标平台数据库实例
target_table varchar(256) 第二目标平台数据表
target_field varchar(256) 第二目标平台规则字段
target_partition varchar(256) 第二目标平台分区表达式
create_date datetime 创建时间
update_time datetime 更新时间
应当理解的是,本实施例中检测任务模型为举例说明,表1中所包含的目标平台的数量可根据实际需求设置。
需要说明的是,各目标平台的数据源可采用OLAP、OLTP、Hive、TiDB数据源等;数据库实例可采用实际数据库实例名称例如product_db等;数据表可为生产事实表produce、工序编码表process等;规则字段工序编码process_code等。
其中,同一目标平台下,需要确保所选数据库实例中存在待需要验证的数据表;该数据表中确保存在所需要验证的规则字段。
应当理解的是,数据库实例为用户数据库自定义的名称,数据表及规则字段可由用户结合业务需求进行填写,本实施例不作具体限定。
S12、将所述检测任务模型解析为json结构,获取检测项id及至少一个目标平台的数据源信息、库表信息和规则字段,其中,所述检测项id用于获取检测代码类名以根据检测代码类名轮询数据质量检测规则;
具体地,通过解析检测任务模型得到检测项id,根据检测项id查询检测规则模板表获取检测代码类名,轮询数据质量检测规则库,匹配该类检测代码类,其中检测规则模板表如表2所示:
表2
字段名 字段类型 字段说明 是否为主键
check_item_id int(32) 检测项id 主键
check_item_name varchar(100) 检测项名称
check_item varchar(100) 检测代码类 唯一索引
check_category varchar(100) 检测项类别
check_class varchar(100) 检测项分类
check_rule text 检测项规则
create_date datetime 创建时间
update_time datetime 修改时间
根据匹配的检测代码类检查配置参数是否缺失,若参数完整,则将参数带入,执行该检测代码类进行数据质量检测。
S13、拉取至少一个目标平台内存储的数据至内存中用于进行数据质量检测。
在一实施例中,所述检测任务模型还包括分区信息,所述分区信息用于限定数据边界,所述方法还包括以下:
基于数据源信息、库表信息、分区信息和规则字段拉取至少一个目标平台内存储的数据。
具体地,分区信息具体为分区表达式,本实施例所述构建的检测任务模型中包含有目标平台对应的分区表达式,将检测任务模型解析为json结构即可获取分区表达式信息;通过使用分区表达规则,限定数据边界。如表1所示,分区表达式的格式:分区字段=’分区值’,其操作符可为:=、>、>=、<、<=;例如:dt_p=’2022-12-31’或create_time>=’2023-01-01’,区间限定或多级分区之间以and连接,遵循SQL语法规则;若此表为非分区表或不需要填写分区则可置空,不进行填写。
在一实施例中,所述数据质量检测规则包括数值合理性检查项、字段合法性检查项、数据关联性检查项、数据类型映射检查项、码值映射检查项及通用检查项。
具体地,所述通用检查项包括但不限于数据及时性检查项、字段非空检查项、唯一性检查项、数据一致性检查项等。
需要说明的是,所述数据质量检测规则库为评估目前的数据质量问题的严重程度和影响范围构建得到。
在一实施例中,所述步骤S20:基于预先配置的数据质量检测规则和单一平台的规则字段,对该单一平台的数据表中相关数据进行质量检测,得到同平台数据质量检测结果,包括以下步骤:
S21、解析单一平台的规则字段,得到该平台对应的所述数据表内需验证的操作列;
S22、利用所述数值合理性检查项、所述字段合法性检查项、所述数据关联性检查项、所述通用检查项中的至少一项对所述操作列进行处理,对所述数据表中的相关数据进行数据质量检查。
具体地,对单一平台的单个数据表进行数值合理性检查的过程包括:
(1)根据检测任务模型参数的第一规则字段内容查询控制限表获取该字段控制上限control_upper_limit,控制下限control_lower_limit内容;
(2)根据检测任务模型参数第一目标平台数据源、数据库实例、数据表、分区表达式获取分区内的数据,加载到计算引擎的内存中;
(3)根据检测字段的控制上下限,判断获取的数据是否有超出控制限的内容;
(4)若没有超出控制限制的数据,则数据不存在合理性问题,check_flag标记为0,反之,则该类数据存在合理性问题,check_flag标记为1;
(5)将检测结果记录于check_result中,并和参数信息一并写入检测结果表中。
对单一平台的单个数据表进行字段合法性检查即针对单表字段的合法性检查,设置合法字段检测规则,判断字段是否存在乱码、或是否符合编码规则、或是否符合时间格式等,检测过程包括:
(1)根据检测任务模型参数第一目标平台数据源、数据库实例、数据表、分区表达式获取分区内的数据,加载到计算引擎的内存中;
(2)解析模型参数第一规则字段内容,以“|”竖线进行分隔,以分隔后的第一字段内容进行轮询,执行该内容的检测方法;例如,规则检测字段设置为:物料码|material_code。解析模型检测规则字段内容,以“|”竖线进行分隔,取分隔后的第一字段内容“物料码”进行轮询,找到物料码字段合法性检测方法,解析加载到内存的检测字段是否符合10位来料码+4位物料版本号+6位供应商代码+6位日期+8位序列号的编码规则;
(3)若没有不合法的数据,则该类检测不存在问题,check_flag标记为0,反之,则该类检测存在问题,check_flag标记为1;
(4)将检测结果记录于check_result中,并和参数信息一并写入检测结果表中。
在一实施例中,所述步骤S30:基于预先配置的数据质量检测规则和至少两个平台对应的规则字段,进行跨平台的数据关联及合并检查,得到跨平台数据质量检测结果,具体包括以下步骤:
S31、对不同的目标平台所对应的规则字段进行关联,进行跨平台的数据关联性检查,筛选出关联不上的数据及数量;
具体地,数据关联性检查是指针对同平台或跨平台的两表之间存在的数据关联性检查,判断两表之间是否存在关联不上的数据及数量。在具体实例中,数据关联性检查可用于判断生产事实表produce中的产品码与生产投入产出表produce_in中的产出产品码的对应关系,确保数据完整性,保证生产追溯的可靠性;或是用以判断工单表order中的工单编号produce_order_code与生产事实表produce中的工单编号produce_order_code的对应关系,检测出生产事实表有多少数据没有关联上正确的工单编号。检测过程包括:
(1)根据检测任务模型参数第一、第二目标平台数据源、数据库实例、数据表、分区表达式获取两个平台分区内的数据,加载到计算引擎的内存中;
这里需要说明的是,在针对单一目标平台的相关库表数据进行数据关联性检查时,则是对单一目标平台内不同的(库)表进行关联性检查,具体关联过程与跨平台数据关联性检查相似,该处不再赘述。
(2)根据检测任务模型参数第一规则字段、第二规则字段进行关联,筛选出关联不上的数据及数量;
(3)若关联不上的数据量为0,则该类检测不存在问题,check_flag标记为0,反之,若关联不上的数据量不为0,则该类检测存在问题,check_flag标记为1;
(4)将检测结果记录于check_result中,并和参数信息一并写入检测结果表中,检测结果表如表3所示:
表3
S32、对不同的目标平台所对应的规则字段进行关联,进行码值映射检查,筛选出代码与代码值映射不上的数据;
具体地,码值映射检查是指针对同平台或跨平台的两表之间的代码与代码值映射检查,判断代码字段与代码表中的对应值是否存在对应关系。在具体实例中,码值映射检查可以用以判断生产事实表produce中的工序编码process_code、工序名称process_name和工序表process中工序编码、工序名称是否是一一对应的关系。检测过程包括:
(1)根据检测任务模型参数第一、第二目标平台数据源、数据库实例、数据表、分区表达式获取两个平台分区内的数据(此处第二目标平台分区表达式可为空),加载到计算引擎的内存中;
(2)根据检测任务模型参数第一、第二规则字段进行关联,筛选出代码与代码值映射不上的数据;规则字段指的是需要进行检测的字段,多个字段之间使用“|”分隔,例如:process_code|process_name,根据字段进行相应的检查,
(3)若映射不上的数据为0,则该类检测不存在问题,check_flag标记为0,反之,则该类检测存在问题,check_flag标记为1;
(4)将检测结果记录于check_result中,并和参数信息一并写入检测结果表中;
(5)对不同的目标平台所对应数据表,进行数据类型映射检查。
在一实施例中,所述步骤S33:对不同的目标平台所对应数据表,进行数据类型映射检查,判断跨平台数据字段类型是否一一映射。
具体地,数据类型映射检查,针对跨平台的同构数据表数据类型映射检查,判断跨平台数据字段类型是否一一映射。在具体实例中,数据类型映射检查有两项作用:一是检查源平台字段新增、修改、删除,下游平台是否已进行同步变更;二是数据字段类型变更,下游平台是否已进行同步变更。例如:目标平台的工艺路线表technics_line是从源平台的工艺路线表technics_line同步而来,数据类型映射检查可以用以检查源平台工艺路线表数据字段变更或数据类型变更,下游平台是否已同步变更,若未变更,则进行数据质量告警。包括以下步骤:
根据检测任务模型中第一目标平台和第二目标平台下的数据源、数据库实例、数据表获取两张数据表的数据结构,加载到计算引擎的内存中;
根据不同的目标平台所对应的数据源的类型遍历对应映射方法;
将不同的目标平台所对应的数据表的数据字段转化成小写,并根据字段名进行匹配,得到同构字段列表;
遍历所述同构字段列表,按照对应的映射方法对字段类型映射进行匹配,筛选出不符合映射规则的数据。
需要说明的是,若映射不上的数据为0,则该类检测不存在问题,check_flag标记为0,反之,则该类检测存在问题,check_flag标记为1;将检测结果记录于check_result中,并和参数信息一并写入检测结果表中,如表4所示:
表4
在一实施例中,所述方法还包括以下步骤:
基于待验证的锂电池相关数据的业务特性,确定所需配置的检查项,其中,所述锂电池相关数据包括成产过程数据、生产结果数据和环境态势数据。
比如锂电池生产结果数据中的物料数据、产品码数据、工单数据适用于字段合法性检查,检测数据是否符合编码规则;生产事实表produce中的产品码与生产投入产出表produce_in中的产出产品码的对应关系适用于数据关联性检查,确保数据完整性,保证生产追溯的可靠性;生产事实表produce中的工序编码process_code、工序名称process_name和工序表process中工序编码、工序名称是否是一一对应关系适用于码值映射检查;从源平台同步至目标平台的数据表都可适用于数据类型映射检查。
而对于过程数据中频率比较快的数据,比如压力测试数据,在压力测试过程中不断测量每秒的压力数值,需要确定压力数值有没有超限,则需进行数值合理性检查;同时过程数据的设备信息和参数信息也具有一定的编码规则,也可进行码值映射检查。
同样,对于温湿度,空气洁净度,照明等环境、动力态势数据也可适用于数值合理性检查。
本实施例通过预先收集业务部门对现有数据质量要求的描述性信息,数字化部门对需求信息进行必要性判断,做好数据质量需求与业务数据的映射关系,针对必要性数据质量需求保存到数据库。
具体地,业务部门要求物料类型的数据质量要与实际一一对应,即物料类型1对应原材料、2对应半成品、3对应成品。则物料类型为1的物料数据在原材料表materiel中能一一对应,物料类型为2的物料数据在生产事实表produce中能一一对应,物料类型为3的物料数据应是电芯数据。
在一实施例中,所述方法还包括以下步骤:
基于所述同平台数据质量检测结果和/或跨平台数据质量检测结果确定目标作业检测不合格时,生成告警提示;
根据预先构建的数据质量产生原因分析库,确定目标作业对应的库表存在的数据质量问题。
需要说明的是,本实施例在当数据质量检测结果确定所述目标作业检测不合格时,可选的发出告警提示,根据所述数据质量产生原因分析库,指示出目标作业对应的库表存在的数据质量问题。
可选地,通过构建OA流程,辅以邮件通知、短信通知、企业微信通知等一种或多种方式进行告警,反作用于产线侧工作人员及时处理数据采集问题,修复后关闭OA流程,形成数据质量改善闭环。
进一步地,本实施例预先针对数据质量问题进行根本性原因分析,构建数据质量产生原因分析库,在确定目标作业不合格时,给出对应的库表存在的数据质量问题,为后续改善提供数据支撑。
本实施例通过构建锂电池生产制造行业数据质量检测规则库,针对生产制造业务领域数据进行全方位的数据质量检查,提高数据准确性从而避免脏数据影响扩大。
此外,如图3所示,本发明第二实施例提出了一种锂电池生产制造业数据质量检测系统,所述检测系统包括:
数据拉取模块10,用于基于数据源信息、库表信息和规则字段拉取至少一个目标平台内存储的锂电池相关数据,所述库表信息包括所述数据源信息下对应的数据库实例以及数据库实施例下所需验证的锂电池相关数据所在的数据表,所述规则字段为所述数据表内需要验证的操作列;
同平台数据检测模块20,用于基于预先配置的数据质量检测规则和单一平台的规则字段,对该单一平台的数据表中相关数据进行质量检测,得到同平台数据质量检测结果;
跨平台数据检测模块30,用于基于预先配置的数据质量检测规则和至少两个平台对应的规则字段,进行跨平台的数据关联及合并检查,得到跨平台数据质量检测结果。
本实施例通过将不同目标平台分区内的数据拉取至计算引擎内存,并在内存中进行单一平台的数据质量检测及跨平台的数据质量检测,通过基于内存进行数据质量检测可灵活应对不同场景的数据质量检测,可满足复杂多样化的数据质量检测需求;针对跨平台数据质量检测时,无需将两个平台的数据进行集中存储,减少数据抽取的工作量,且不占用多余的磁盘存储空间。
在一实施例中,所述数据拉取模块10,具体用于执行以下步骤:
根据数据检测配置参数字段构建检测任务模型,所述检测任务模型包括检测项id以及至少一个目标平台的数据源信息、库表信息和规则字段;
将所述检测任务模型解析为json结构,获取检测项id及至少一个目标平台的数据源信息、库表信息和规则字段,其中,所述检测项id用于获取检测代码类名以根据检测代码类名轮询数据质量检测规则;
拉取至少一个目标平台内存储的数据至内存中用于进行数据质量检测。
在一实施例中,所述拉取模块10,还用于获取目标平台的分区表达式,所述分区表达式用于限定数据边界。
在一实施例中,所述基于预先配置的数据质量检测规则库中配置的检查项包括数值合理性检查项、字段合法性检查项、数据关联性检查项、数据类型映射检查项、码值映射检查项及通用性检查项。
在一实施例中,所述同平台数据检测模块20,具体用于:
解析单一平台的规则字段,得到该平台对应的所述数据表内需验证的操作列;
利用所述数值合理性检查项、所述字段合法性检查项、所述数据关联性检查项、所述通用检查项中的至少一项对所述操作列进行处理,对所述数据表中的相关数据进行数据质量检查。
在一实施例中,所述跨平台数据检测模块30,具体包括:
关联性检查单元,用于对不同的目标平台所对应的规则字段进行关联,进行跨平台的数据关联性检查,筛选出关联不上的数据及数量;
码值映射检查单元,用于对不同的目标平台所对应的规则字段进行关联,进行码值映射检查,筛选出代码与代码值映射不上的数据;
数据类型映射检查单元,用于对不同的目标平台所对应数据表,进行数据类型映射检查,判断跨平台数据字段类型是否一一映射。
在一实施例中,所述数据类型映射检查单元,具体用于:
基于不同的目标平台的数据源、数据库实例及数据表,获取不同目标平台对应的数据表的数据结构,加载到计算引擎的内存中;
根据不同的目标平台所对应的数据源的类型遍历对应映射方法;
将不同的目标平台所对应的数据表的数据字段转化成小写,并根据字段名进行匹配,得到同构字段列表;
遍历所述同构字段列表,按照对应的映射方法对字段类型映射进行匹配,筛选出不符合映射规则的数据。
在一实施例中,所述系统还包括:
检查项确定单元,用于基于待验证的锂电池相关数据的业务特性,确定所述数据质量检测规则库中所需配置的检查项,其中,所述锂电池相关数据包括成产过程数据、生产结果数据和环境态势数据。
在一实施例中,所述系统还包括:
告警模块,用于基于所述同平台数据质量检测结果和/或跨平台数据质量检测结果确定目标作业检测不合格时,生成告警提示;
分析模块,用于根据预先构建的数据质量产生原因分析库,确定目标作业对应的库表存在的数据质量问题。
需要说明的是,本发明所述锂电池生产制造业数据质量检测系统的其他实施例或具有实现方法可参照上述各方法实施例,此处不再赘余。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (10)

1.一种锂电池生产制造业数据质量检测方法,其特征在于,所述方法包括:
基于数据源信息、库表信息和规则字段拉取至少一个目标平台内存储的锂电池相关数据,所述库表信息包括所述数据源信息下对应的数据库实例以及数据库实施例下所需验证的锂电池相关数据所在的数据表,所述规则字段为所述数据表内需要验证的操作列;
基于预先配置的数据质量检测规则和单一平台的规则字段,对该单一平台的数据表中相关数据进行质量检测,得到同平台数据质量检测结果;
基于预先配置的数据质量检测规则和至少两个平台对应的规则字段,进行跨平台的数据关联及合并检查,得到跨平台数据质量检测结果。
2.如权利要求1所述的锂电池生产制造业数据质量检测方法,其特征在于,所述基于数据源信息、库表信息和规则字段拉取至少一个目标平台内存储的锂电池相关数据,包括:
根据数据检测配置参数字段构建检测任务模型,所述检测任务模型包括检测项id以及至少一个目标平台的数据源信息、库表信息和规则字段;
将所述检测任务模型解析为json结构,获取检测项id及至少一个目标平台的数据源信息、库表信息和规则字段,其中,所述检测项id用于获取检测代码类名以根据检测代码类名轮询数据质量检测规则;
基于数据源信息、库表信息和规则字段拉取至少一个目标平台内存储的数据至内存中用于进行数据质量检测。
3.如权利要求2所述的锂电池生产制造业数据质量检测方法,其特征在于,所述检测任务模型还包括分区信息,所述分区信息用于限定数据边界,所述方法还包括:
基于数据源信息、库表信息、分区信息和规则字段拉取至少一个目标平台内存储的数据。。
4.如权利要求1所述的锂电池生产制造业数据质量检测方法,其特征在于,所述基于预先配置的数据质量检测规则包括数值合理性检查项、字段合法性检查项、数据关联性检查项、数据类型映射检查项、码值映射检查项及通用检查项。
5.如权利要求4所述的锂电池生产制造业数据质量检测方法,其特征在于,所述基于预先配置的数据质量检测规则和单一平台的规则字段,对该单一平台的数据表中相关数据进行质量检测,得到同平台数据质量检测结果,包括:
解析单一平台的规则字段,得到该平台对应的所述数据表内需验证的操作列;
利用所述数值合理性检查项、所述字段合法性检查项、所述数据关联性检查项、所述通用检查项中的至少一项对所述操作列进行处理,对所述数据表中的相关数据进行数据质量检查。
6.如权利要求4所述的锂电池生产制造业数据质量检测方法,其特征在于,所述基于预先配置的数据质量检测规则和至少两个平台对应的规则字段,进行跨平台的数据关联及合并检查,得到跨平台数据质量检测结果,包括:
对不同的目标平台所对应的规则字段进行关联,进行跨平台的数据关联性检查,筛选出关联不上的数据及数量;
对不同的目标平台所对应的规则字段进行关联,进行码值映射检查,筛选出代码与代码值映射不上的数据;
对不同的目标平台所对应数据表,进行数据类型映射检查,判断跨平台数据字段类型是否一一映射。
7.如权利要求6所述的锂电池生产制造业数据质量检测方法,其特征在于,所述对不同的目标平台所对应数据表,进行数据类型映射检查,包括:
基于不同的目标平台的数据源、数据库实例及数据表,获取不同目标平台对应的数据表的数据结构,加载到计算引擎的内存中;
根据不同的目标平台所对应的数据源的类型遍历对应映射方法;
将不同的目标平台所对应的数据表的数据字段转化成小写,并根据字段名进行匹配,得到同构字段列表;
遍历所述同构字段列表,按照对应的映射方法对字段类型映射进行匹配,筛选出不符合映射规则的数据。
8.如权利要求1所述的锂电池生产制造业数据质量检测方法,其特征在于,所述方法还包括:
基于待验证的锂电池相关数据的业务特性,确定所需配置的检查项,其中,所述锂电池相关数据包括成产过程数据、生产结果数据和环境态势数据。
9.如权利要求1所述的锂电池生产制造业数据质量检测方法,其特征在于,所述方法还包括:
基于所述同平台数据质量检测结果和/或跨平台数据质量检测结果确定目标作业检测不合格时,生成告警提示;
根据预先构建的数据质量产生原因分析库,确定目标作业对应的库表存在的数据质量问题。
10.一种锂电池生产制造业数据质量检测系统,其特征在于,所述检测系统包括:
数据拉取模块,用于基于数据源信息、库表信息和规则字段拉取至少一个目标平台内存储的锂电池相关数据,所述库表信息包括所述数据源信息下对应的数据库实例以及数据库实施例下所需验证的锂电池相关数据所在的数据表,所述规则字段为所述数据表内需要验证的操作列;
同平台数据检测模块,用于基于预先配置的数据质量检测规则和单一平台的规则字段,对该单一平台的数据表中相关数据进行质量检测,得到同平台数据质量检测结果;
跨平台数据检测模块,用于基于预先配置的数据质量检测规则和至少两个平台对应的规则字段,进行跨平台的数据关联及合并检查,得到跨平台数据质量检测结果。
CN202310460221.6A 2023-04-25 2023-04-25 锂电池生产制造业数据质量检测方法及系统 Pending CN116756127A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310460221.6A CN116756127A (zh) 2023-04-25 2023-04-25 锂电池生产制造业数据质量检测方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310460221.6A CN116756127A (zh) 2023-04-25 2023-04-25 锂电池生产制造业数据质量检测方法及系统

Publications (1)

Publication Number Publication Date
CN116756127A true CN116756127A (zh) 2023-09-15

Family

ID=87946710

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310460221.6A Pending CN116756127A (zh) 2023-04-25 2023-04-25 锂电池生产制造业数据质量检测方法及系统

Country Status (1)

Country Link
CN (1) CN116756127A (zh)

Similar Documents

Publication Publication Date Title
CN108399154B (zh) 工程试验数据采集系统
CN110443552B (zh) 一种产品主数据信息自动传输的方法及装置
CN113407517A (zh) 一种基于多维分析技术的数据质量健康度分析方法及系统
CN114417015B (zh) 一种高速列车可维修性知识图谱构建方法
CN101350429A (zh) 一种锂离子电池分级配对方法
CN114519498A (zh) 一种基于bim模型的质量验评方法和系统
CN117455318B (zh) 汽车零部件检测过程的监控方法、装置及电子设备
CN113569310A (zh) 工业产品模型智能化设计方法
CN112541728A (zh) 一种电力物资编码的生成系统及方法
CN117892820A (zh) 一种基于大语言模型的多级数据建模方法及系统
CN116756127A (zh) 锂电池生产制造业数据质量检测方法及系统
CN112486841A (zh) 埋点采集数据校验的方法及装置
CN112463768A (zh) 生命周期评价数据库的建立方法
CN111538292A (zh) 基于mes系统的机床零部件版本管理识别校验方法
CN115829191A (zh) 生成检验计划的方法、设备及存储介质
CN114219336A (zh) 一种基于注塑mes系统的生产过程质量检测系统
CN114741358A (zh) 零部件参数检测方法、装置、计算机设备和存储介质
CN114881513A (zh) 一种3d打印机产品质量分析管控系统
CN113865681A (zh) 智能化物料称重方法及系统
CN117540894B (zh) 生成检验计划的方法、设备及存储介质
CN110782161A (zh) 农机试验鉴定管理信息系统
CN111507066B (zh) 一种上传加载文件并解析入库方法及系统
CN118069656B (zh) 一种纸质质检表格的数据结构化存储方法、设备及介质
TWI796880B (zh) 以人工智慧輔助之產品問題分析系統、方法及其儲存媒體
CN112733494B (zh) 一种自动生成制式检测报告的方法、系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination