CN110287382B - 一种面向电池生产数据的关联规则的挖掘方法 - Google Patents

一种面向电池生产数据的关联规则的挖掘方法 Download PDF

Info

Publication number
CN110287382B
CN110287382B CN201910460669.1A CN201910460669A CN110287382B CN 110287382 B CN110287382 B CN 110287382B CN 201910460669 A CN201910460669 A CN 201910460669A CN 110287382 B CN110287382 B CN 110287382B
Authority
CN
China
Prior art keywords
item
battery
item set
production data
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910460669.1A
Other languages
English (en)
Other versions
CN110287382A (zh
Inventor
周宁
周建新
乔梦诗
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan University of Technology WUT
Original Assignee
Wuhan University of Technology WUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan University of Technology WUT filed Critical Wuhan University of Technology WUT
Priority to CN201910460669.1A priority Critical patent/CN110287382B/zh
Publication of CN110287382A publication Critical patent/CN110287382A/zh
Application granted granted Critical
Publication of CN110287382B publication Critical patent/CN110287382B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/904Browsing; Visualisation therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/906Clustering; Classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种面向电池生产数据的关联规则挖掘方法,首先将电池生产数据进行存储;并计算每一个项集的支持度以及置信度,产生第一候选集,接着根据第一候选集中所有项集的支持度与预设支持度的关系以及所有项集的置信度与预设置信度的关系,产生第一频繁项集;接下来将第一频繁项集中包含的每一项两两进行连接,产生第二候选集,并进一步产生第二频繁项集;然后将第二频繁项集中的每一项排序产生第三候选集,进行连接步,保留第三候选集中含有电池合格率参数的集合,最后进行剪枝步。依次循环,当不能再产生新的频繁项集时结束,输出所有与电池合格率相关且满足条件的关联规则。本发明实现了提高挖掘效率并使挖掘结果相关性更强的技术效果。

Description

一种面向电池生产数据的关联规则的挖掘方法
技术领域
本发明涉及电池自动化工业生产中的数据挖掘技术领域,具体涉及一种面向电池生产数据的关联规则的挖掘方法。
背景技术
随着智能手机、新能源汽车兴起,激发了国内外市场对锂电池的需求。中国已成世界上最大的锂电池生产制造基地,第二大锂电池生产国和出口国。为降低生产成本,提高产品质量和生产效率,保证生产安全及产品一致性,电池生产厂家纷纷将自动化生产线引入到锂电生产过程中。在自动会生产过程中会采集到大量的生产过程数据和传感器状态数据,从这些数据中挖掘潜在的领域知识、与生产质量具有关联的工艺参数数据,可以为工业自动化生产的决策控制和提高产品的合格率提供帮助。
本申请发明人在实施本发明的过程中,发现现有技术的方法,至少存在如下技术问题:
在电池工业自动化生产中,由于工业生产数据存在数据量大、多维性,含有大量数值类型数据等特点,传统的关联规则方法应用于自动化生产数据挖掘存在以下问题:
1)多次扫描数据库的问题。传统的关联规则在挖掘过程中需要多次扫描数据库,并且电池工业生产的数据库比较庞大,数据信息繁杂,多次扫描数据库就会造成效率较低;
2)生成候选集过多的问题。传统的关联规则在挖掘过程中会产生大量的候选集,不仅占用空间越大,而且对算法的挖掘效率和性能都会造成影响。
3)生成大量无关性规则的问题。由于传统的关联规则在数据挖掘的过程中没有目标参数,挖掘数据库内所有项目参数之间的关联规则,生成大量的无关性关联规则,不便于用户筛选出感兴趣的关联规则。
由此可知,现有技术的方法存在挖掘效率低、准确性不高的技术问题。
发明内容
有鉴于此,本发明提供了一种面向电池生产数据的关联规则的挖掘方法,用以解决或者至少部分解决现有技术的方法存在挖掘效率低、准确性不高的技术问题。
本发明提供了一种面向电池生产数据的关联规则的挖掘方法,包括:
步骤S1:将电池的生产数据以矩阵的形式存储,并按照字典顺序排序,其中,所有生产数据构成一个初始候选集,初始候选集包含多个项集,每一个项集对应一种生产数据;
步骤S2:计算每一个项集的支持度以及置信度,产生第一候选集,其中,支持度用以表示在所有生产数据记录中A项集和B项集同时出现的概率,置信度用以表示A项集出现的前提下B项集出现的概率,其中,A项集和B项集为任意两个不同的项集;
步骤S3:根据第一候选集中包含的项集的支持度与预设支持度的关系以及包含的项集的置信度与预设置信度的关系,产生第一频繁项集;
步骤S4:将第一频繁项集中包含的每一项两两进行连接,产生第二候选集,并计算第二候选集每项的支持度和置信度,根据第二候选集中包含的项集的支持度与预设支持度的关系以及包含的项集的置信度与预设置信度的关系,产生第二频繁项集;
步骤S5:将第二频繁项集中的每一项按照字典顺序排序后,并计算每项的支持度和置信度,并将其支持度和置信度大于预设阈值的项集记为第三候选集;首先对第三候选集进行连接步,其次只保留第三候选集中含有电池合格率参数的集合,最后进行剪枝步;
步骤S6:重复执行步骤S3~S5,当不能再产生新的频繁项集时结束,并输出生产数据中所有与电池合格率zYsNG相关且满足条件的关联规则。
在一种实施方式中,在步骤S1之前,所述方法还包括:
对电池的生产数据进行清洗。
在一种实施方式中,在步骤S1之前,所述方法还包括:对电池的生产数据进行预处理。
在一种实施方式中,对电池的生产数据进行预处理为对生产数据进行离散化,具体包括:
将数据的连续属性值按照特定顺序排序后,通过指定n-1个分割点,将其它分成n个区间;
将一个区间中的所有值映射到相同的类别上。
在一种实施方式中,所述方法还包括:
对于第二频繁项集中含有电池合格率参数的集合进行剪枝步操作。
本申请实施例中的上述一个或多个技术方案,至少具有如下一种或多种技术效果:
本发明提供的一种面向电池生产数据的关联规则挖掘方法,首先将电池生产数据以矩阵的形式进行存储;并计算每一个项集的支持度以及置信度,产生第一候选集,接着根据第一候选集中所有项集的支持度与预设支持度的关系以及所有项集的置信度与预设置信度的关系,产生第一频繁项集;接下来将第一频繁项集中包含的每一项两两进行连接,产生第二候选集,并进一步产生第二频繁项集;然后将第二频繁项集中的每一项排序后,进一步产生第三候选集,首先进行连接步,其次只保留第三候选集中含有电池合格率参数的集合,最后进行剪枝步。依次循环,当不能再产生新的频繁项集时结束,并输出生产数据中所有与电池合格率相关且满足条件的关联规则。本发明实现了提高挖掘效率并使挖掘结果相关性更强的技术效果。
由于本发明基于Apriori算法来分析大量的电池生产过程各种工艺参数与电池质量的关联关系,并结合动力电池生产数据特征,提出新的改进算法,提高了数据分析的效率。
(1)采用关联规则有效挖掘大量电池生产过程的工艺参数与质量的关系,找出影响质量的主要工艺参数;
(2)提高扫描数据库的效率、节省空间,并优化了计算支持度、置信度的效率;
(3)减少候选集的数量,提高了算法的挖掘效率;
(4)以电池合格率(zYsNG)这个参数为目标进行关联挖掘,找出对其影响较大的参数,减少了无关性规则的产生,提高了准确性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例中一种面向电池生产数据的关联规则的挖掘方法的流程图;
图2为本发明采用的改进后的Apriori算法流程图;
图3为采用经典Apriori算法的实例示意图;
图4为采用改进后的Apriori算法(BI_Apriori算法)的实例示意图。
具体实施方式
本发明的目的针对现有关联规则方法应用于电池自动化生产数据挖掘中存在的问题,结合电池生产过程数据的特点对经典的Apriori算法改进,挖掘工业生产中生产数据与产合格率之间潜在的关联关系,旨在为工业自动化生产提供可参考的依据。实现了提高挖掘效率和挖掘的准确性的技术效果。
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例一
本发明通过分析电池生产过程各工艺,并分析各工艺重要过程数据的实际意义,为数据分析提供可靠的数据源。结合电池生产过程数据特点以及经典的Apriori算法的缺陷,挖掘电池工业自动化生产中生产数据与电池合格率之间的关联关系,提出了一种面向电池自动化工业生产的关联规则的挖掘方法,即改进后的Apriori算法,(Associationrule algorithm for battery automation industrial production)简称为BI_Apriori算法。BI_Apriori算法从三个方面对经典的Apriori算法进行改进(1)减少数据库挖掘次数,(2)减少候选集的数量,(3)以电池合格率参数为挖掘目标,减少无关性规则的生成。旨在为工业自动化生产工艺改进提供可参考的依据。
下面具体阐述本发明提供的面向电池生产数据的关联规则的挖掘方法的具体实现流程。
本实施例提供了一种面向电池生产数据的关联规则的挖掘方法,请参见图1,该方法包括:
步骤S1:将电池的生产数据以矩阵的形式存储,并按照字典顺序排序,其中,所有生产数据构成一个初始候选集,初始候选集包含多个项集,每一个项集对应一种生产数据。
具体来说,电池生产过程一共有十四个工艺,主要分为电池装配和检测两个部分,每个工艺有无数工艺参数,例如温度、真空度、电池内阻、电压等,都是电池生产过程中的重要参数与电池合格率息息相关。由于电池自动化生产过程中所有参数都控制在合格范围内,但是电池的合格率并不是百分之百。为了分析在合格范围内的工艺参数和电池合格率之间的关联关系,找出影响合格率的重要参数,本发明根据电池工业生产数据特点和经典Apriori算法的研究,提出一种Apriori改进算法——BI_Apriori算法。
其中,电池的生产数据构成数据库D,数据库D中具体包括整个电池自动化生产线上十四个工艺中的所有生产数据,表1所示为部分数据。
Figure BDA0002077973760000051
其中,Vaccum表示真空度,Weight表示重量,UpSealPressure表示上角边压力、Floor表示层数、StartVoltage表示起始电压、TempratureAvg表示平均温度。
关于生产数据与项集的关系,下面通过一个示例进行说明,例如生产数据包括温度T、真空度V、重量W、注液量I,温度T、真空度V、重量W、注液量I都具有其置信度和支持度,那么这些生产数据构成一个初始候选集,温度T及其置信度和支持度则为初始候选集中的一个项集,同理,真空度V及其置信度和支持度也称为初始候选集中的一个项集。
步骤S2:计算每一个项集的支持度以及置信度,产生第一候选集,其中,支持度用以表示在所有生产数据记录中A项集和B项集同时出现的概率,置信度用以表示A项集出现的前提下B项集出现的概率,其中,A项集和B项集为任意两个不同的项集。
具体来说,关联规则是为了表示一个事件(数据库)中不同项(数据)之间的规律。通俗来讲,对于本发明而言,关联规则就是为了找到数据库中所有项集(工艺数据)之间的规律。
其中,支持度和置信度是关联规则中的两个度量标准。满足最小支持度和最小置信度的规则就称为强规则。
支持度:P(A∩B),既有A又有B的概率,在所有生产数据记录中A项集和B项集同时出现的概率,置信度:P(B|A),在A发生的事件中同时发生B的概率p(AB)/P(A),也可以表示为A项集出现的前提下B项集出现的概率。
步骤S3:根据第一候选集中包含的项集的支持度与预设支持度的关系以及包含的项集的置信度与预设置信度的关系,产生第一频繁项集。
具体来说,预设支持度和预设置信度预先根据情况进行设置,当计算出第一候选集中包含的每一项集的支持度后,则将计算出的每一项的支持度与预设支持度进行比较,并根据比较结果,产生第一频繁项集。例如,将支持度大于预设支持度对应的项集加入第一频繁项集。
同理,置信度的比较与支持度类似。此外,提出强规则的概念,即同时满足最小支持度阈值和最小置信度阈值的规则称为强规则,进而可以得到频繁项集。频繁k项集是指:如果事件A中包含k个元素,那么称这个事件A为k项集,并且事件A满足最小支持度阈值(预设支持度)和最小置信度阈值(预设置信度)的事件称为频繁k项集。
步骤S4:将第一频繁项集中包含的每一项两两进行连接,产生第二候选集,并计算第二候选集每项的支持度和置信度,根据第二候选集中包含的项集的支持度与预设支持度的关系以及包含的项集的置信度与预设置信度的关系,产生第二频繁项集。
具体来说,在产生第一频繁项集之后,对于第一频繁项集中包含的项集进行两两连接,产生第二候选集。再根据步骤S3类似的方法,产生第二频繁项集。
步骤S5:将第二频繁项集中的每一项按照字典顺序排序后,并计算每项的支持度和置信度,并将其支持度和置信度大于预设阈值的项集记为第三候选集;首先对第三候选集进行连接步,其次只保留第三候选集中含有电池合格率参数的集合,最后进行剪枝步。
具体来说,得到的第二频繁项集中,每个集合除了包含zYsNG之外,还有其他的工艺参数,如表2所示。
表2
Figure BDA0002077973760000071
其中,Floor表示层数,injectUsl表示注液,Temprature_E6表示静置温度,zYsNG表示电池合格率参数。通过判断第三候选集中的每个集合是否含有电池合格率参数,如果包含则保留包含电池合格率参数的集合,如果不包含,则删除该集合。连接步和剪枝步的具体过程为Apriori算法中的采用的方法。
步骤S6:重复执行步骤S3~S5,当不能再产生新的频繁项集时结束,并输出生产数据中所有与电池合格率zYsNG相关且满足条件的关联规则。
具体来说,本发明通过首先挖掘出满足规律的频繁项集,然后通过计算频繁集之间的支持度、置信度,来挖掘出表示频繁项集之间的关联规则。
表3
Figure BDA0002077973760000072
其中,YUYA_Temperature1_Up80表示冲坑温度,PumpPressure10表示冲坑压力,AnglePressure表示角压。
为了更清楚地说明,本发明中关联规则挖掘方法的有益效果,下面通过对本发明的算法进行详细说明。
本发明目标是为了寻找生产过程数据与电池合格率之间的潜在关系,找出影响电池合格率的重要工艺参数,故提出新的Apriori改进算法BI_Apriori。
输入:数据库D;最小支持度:min_support;最小置信度:min_conf;
输出:数据库中所有和电池合格率zYsNG相关且满足条件的关联规则。
步骤:
(1)扫描数据库,将所有的数据以矩阵的形式存储,并按照字典顺序排序,记录计算数据库D中每一个项集的支持度以及置信度,产生一个候选集C1,然后通过对比候选集每一项的支持度和最小支持度,以及计算每一项的置信度和最小置信度,得到频繁项集L1
(2)第二步:L1的每一项与自身连接产生候选集C2,通过计算C2每项的支持度并对比最小支持度,以及计算C2每项的置信度并对比最小置信度,到频繁项集L2
(3)第三步:将L2中的每一项按照字典顺序排序然后通过连接得到的项目集L,判断频繁项集L2中的每个集合是否含有电池合格率zYsNG,保留包含参数zYsNG的集合,删除其他的无关集合。再通过剪枝得频繁项集L2
(4)第四步:计算出Lk-1中满足条件的候选集合Ck,再通过连接步和剪枝步找出集合Lk,依次循环,当不能再产生频繁项集时结束。
请参见图2,为本发明提供的BI_Apriori算法流程图。
其主要思路为:(1)扫描数据库,将所有数据以布尔矩阵的形式存储并按照字典顺序排序,将布尔矩阵应用于存储数据和项集的运算来挖掘频繁项,相较于经典的Apriori算法来说,不仅可以节省内存空间,而且可以减少项目集维数、加快频繁项的挖掘效率;同时,将数据矩阵和项集矩阵都进行排列,故很大程度上改进了数据挖掘的效率。记录计算数据库中每一个项集的支持度以及置信度,产生一个候选集,然后通过对比候选集每一项的支持度和最小支持度,以及计算每一项的置信度和最小置信度,得到频繁项集;
(2)在每一步连接步之后,生成的候选集合中,只保留出包含电池合格率zYsNG的集合,删除其他的集合,一方面减少了候选集的数量,并且随着频繁项集的增加,事务的数量也不断减少,因此可以极大的减少算法挖掘时间;另一方面生成的关联规则中只剩下与电池合格率相关的工艺参数,减少不感兴趣的关联规则,便于更加直观分析影响电池合格率的生产数据。
下面通过两个示例将本发明的算法与现有算法进行详细说明。
图3所示为经典Apriori算法的实例图,其主要实现过程如下:
(1)第一步,扫描数据库并记录,Tid为记录编号,其中第一条记录中包含{A}、{C}、{D}三个项目;第二条记录中包含{B}、{C}、{E};第三条记录中包含{A}、{B}、{C}、{E};第四条记录中包含:{B}、{E}。计算所有项集的支持度并按照字典顺序排序,并记为项目候选集合C1,将候选集合C1中满足条件的数据集记为频繁1项集L1
(2)第二步,首先实现连接步:将集合L1中所有项集两两合并记为候选集C2;然后实现剪枝步:将候选集C2中所有项集的任意子集不是频繁项集的集合清除出去。再次扫面数据库并计算C2中所有项集的支持度,将大于最小支持度的项集记为频繁项集L2
(2)第三步,通过迭代以上步骤以频繁项集L2为基础来获得候选集C3,计算L2中最小支持度,将满足条件的项集{A,C}、{B,E}、{B,C}、{C,E}记为候选集。接着进行连接步,得到项目集{B,C,E}和{A,B,C};然后进行剪枝步操作:因为{A,B,C}的子集{A,B}支持度不大于最小支持度,根据剪枝原理认为{A,B,C}也是不频繁项集故删除,而{B,C,E}的子集{B,E}、{B,C}、{C,E}的支持度满足条件,将项集{B,C,E}记为频繁项集L3;算法结束。
接下来,请参参见图4,,为本发明的BI_Apriori算法的实例图,其主要实现过程如下:
(1)第一步,扫描数据库并记录,Tid为记录编号,其中第一条记录中包含{A}、{C}、{D}三个项目;第二条记录中包含{B}、{C}、{E};第三条记录中包含{A}、{B}、{C}、{E};第四条记录中包含:{B}、{E}。然后将所有数据按照布尔矩阵的形式存储,并按照字典顺序排序;计算数据库中所有项集的支持度,并记为项目候选集合C1,将候选集合C1中满足条件的数据集记为频繁1项集L1
(2)第二步,首先实现连接步:将集合L1中所有项集两两合并记为候选集C2,然后实现剪枝步:将候选集C2中所有项集的任意子集不是频繁项集的集合清除出去。并将元素E记为目标元素,只保留候选集C2中包含该元素的项集,删除其他项集;最后计算候选集C2中所有项集的支持度,将不满足条件的项集从C2中清除出去,生成频繁项目集L2
(2)第三步,通过迭代以上步骤以频繁项集L2为基础来获得候选集C3,计算L2中最小支持度,将满足条件的项集{B,E}、{C,E}记为候选集。接着进行连接步,得到项目集{B,C,E}和{A,B,C};然后进行剪枝步操作:因为{A,B,C}的子集{A,B}支持度不大于最小支持度,根据剪枝原理认为{A,B,C}也是不频繁项集故删除,而{B,C,E}的子集{B,E}、{B,C}、{C,E}的支持度满足条件。最后保留候选集C3中包含目标元素的项集{B,C,E}记为频繁项集L3;算法就此结束。
需要说明的是,在实际计算过程中,采用本发明的算法还计算了置信度,为了简化,上述过程省略了该步骤。Apriori算法中连接步为:将数据库中的项集排序,即(k+1)项集Li,Li[1]<Li[2]<…<Li[k-1]。将Lk-1与自身连接,如果L1[1]=L2[1]&L1[2]=L2[2]&…&(L1[k-2]=L2[k-2])&(L1[k-1]=L2[k-1]),那认为L1和L2是可连接。连接L1和L2产生的结果是{L1[1],L1[2],…,L1[k-1],L2[k-1]}。
由图3和图4可知,BI_Apriori算法与经典Apriori算法相比较,在生成候选集C2时,BI_Apriori算法减少了一半的候选集数量。并且当项目集数据量越大时,优势越明显,挖掘效率更快;在生成关联规则时,BI_Apriori算法也只保留包含目标元素的规则,减少了相关性较弱的规则。此外,因为BI_Apriori算法用布尔矩阵存放项目集在扫描数据库和计算支持度时效率更高。并且,由于电池生产领域数据的特殊性,本发明对电池生产领域的数据进行了大量分析和处理,无法将应用于其他领域例如故障诊断、小车调度的算法应用于电池生产领域。
总体来说,本发明通过采用基于Apriori算法来分析大量的电池生产过程各种工艺参数与电池质量的关联关系,并结合动力电池生产数据特征,提出了新的改进算法,提高了关联规则挖掘的效率与准确性,主要体现在以下几个方面。
(1)采用关联规则有效挖掘大量电池生产过程的工艺参数与质量的关系,找出影响质量的主要工艺参数;
(2)提高扫描数据库的效率、节省空间,并优化了计算支持度、置信度的效率;
(3)减少候选集的数量,提高了算法的挖掘效率;
(4)以电池合格率(zYsNG)这个参数为目标进行关联挖掘,找出对其影响较大的参数,减少了无关性规则的产生。
在一种实施方式中,在步骤S1之前,所述方法还包括:
对电池的生产数据进行清洗。
具体来说,在整个电池制造过程中,产生并存储了大量的生产过程数据,为了方便管理很多非工艺参数,需要异常数据进行事先处理,例如删除空数据和超出标准范围的异常数据。
本发明主要从以下几个方面对数据进行清洗:
(1)校验数据的有效性:对数据有效性进行检查,删除一些无意义的异常数据;
(2)清洗空字段数据:对于有些重要字段,例如温度、压力、电压等,如果为空不仅没有实际意义还会影响数据挖掘的效果,所以将这些字段为空的数据清洗;
(3)删除重复字段:对于不同的工艺会出现同样的字段,例如电池的编号、是否跨线等字段;
(4)删除无关字段:对于数据库中与挖掘目的不相干的字段删除,例如设备组号、操作人员、操作时间等。
(5)删除无数值变化的字段:对于数据库中有些字段的值没有发生变化,一直为常量,例如最小温度、最大压力、最大电压等。此类无数值变化的字段不仅没有实际意义,并且不会对数据挖掘产生影响。
数据清洗不仅可以减小数据存储、缩短数据挖掘时间、提高挖掘效率,而且可以减小异常数据造成的不良影响。
在一种实施方式中,在步骤S1之前,所述方法还包括:对电池的生产数据进行预处理。
在一种实施方式中,对电池的生产数据进行预处理为对生产数据进行离散化,具体包括:
将数据的连续属性值按照特定顺序排序后,通过指定n-1个分割点,将其它分成n个区间;
将一个区间中的所有值映射到相同的类别上。
具体来说,由于电池自动化生产数据存在大量的连续性数据值,为了便于数据挖掘,要求数据是离散性值,需要将数据进行离散化。另外,如果一个数据库或者一个事务集中数据特征具有大量不同值,或者某些值出现不频繁,通过减少类别的数值有益于减少数据规模。选取最佳的离散化方法会使数据挖掘算法的效率事半功倍,产生更加符合用户感兴趣的结果。因此,数据离散化的选择与数据挖掘任务的性能好坏息息相关。
其中,多数工艺参数例如温度、内阻,电压、压力等参数,都是连续数值,并且这些参数对电池品质是非常重要的影响参数,为了更好的分析这些工艺参数和电池合格率之间的关联关系,将这些数据等间距离散化。
将连续数值变换为离散数值主要有两步:(1)首先,确定需要将数据离散化的类别;(2)确定将连续性数值映射到这些离散性数值所用的方法。在第一步中,将连续属性值按照特定顺序排序后,通过指定n-1个分割点,把它们分成n个区间;在第二步中,将一个区间中的所有值映射到相同的类别上。因此,选择分割点的数量和确定分割点位置是数据离散化问题的关键,结果可以用区间集合{(x0,x1],(x1,x2],...,(xn-1,xn]}表示,其中x0和xn可以分别为-∞和+∞,或者用一系列不等式x0<x≤x1,...,xn-1<x≤xn表示。
在一种实施方式中,所述方法还包括:
对于第二频繁项集中含有电池合格率参数的集合进行剪枝步操作。
具体来说,剪枝步操作的具体实现过程在前述算法中已经详细介绍,在此不再赘述。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明实施例进行各种改动和变型而不脱离本发明实施例的精神和范围。这样,倘若本发明实施例的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (5)

1.一种面向电池生产数据的关联规则的挖掘方法,其特征在于,包括:
步骤S1:将电池的生产数据以矩阵的形式存储,并按照字典顺序排序,其中,所有生产数据构成一个初始候选集,初始候选集包含多个项集,每一个项集对应一种生产数据;
步骤S2:计算每一个项集的支持度以及置信度,产生第一候选集,其中,支持度用以表示在所有生产数据记录中A项集和B项集同时出现的概率,置信度用以表示A项集出现的前提下B项集出现的概率,其中,A项集和B项集为任意两个不同的项集;
步骤S3:根据第一候选集中包含的项集的支持度与预设支持度的关系以及包含的项集的置信度与预设置信度的关系,产生第一频繁项集;
步骤S4:将第一频繁项集中包含的每一项两两进行连接,产生第二候选集,并计算第二候选集每项的支持度和置信度,根据第二候选集中包含的项集的支持度与预设支持度的关系以及包含的项集的置信度与预设置信度的关系,产生第二频繁项集;
步骤S5:将第二频繁项集中的每一项按照字典顺序排序后,并计算每项的支持度和置信度,并将其支持度和置信度大于预设阈值的项集记为第三候选集;首先对第三候选集进行连接步,其次只保留第三候选集中含有电池合格率参数的集合,最后进行剪枝步;
步骤S6:重复执行步骤S3~S5,当不能再产生新的频繁项集时结束,并输出生产数据中所有与电池合格率zYsNG相关且满足条件的关联规则。
2.如权利要求1所述的方法,其特征在于,在步骤S1之前,所述方法还包括:
对电池的生产数据进行清洗。
3.如权利要求1所述的方法,其特征在于,在步骤S1之前,所述方法还包括:对电池的生产数据进行预处理。
4.如权利要求3所述的方法,其特征在于,对电池的生产数据进行预处理为对生产数据进行离散化,具体包括:
将数据的连续属性值按照特定顺序排序后,通过指定n-1个分割点,将其它分成n个区间;
将一个区间中的所有值映射到相同的类别上。
5.如权利要求1所述的方法,其特征在于,所述方法还包括:
对于第二频繁项集中含有电池合格率参数的集合进行剪枝步操作。
CN201910460669.1A 2019-05-30 2019-05-30 一种面向电池生产数据的关联规则的挖掘方法 Active CN110287382B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910460669.1A CN110287382B (zh) 2019-05-30 2019-05-30 一种面向电池生产数据的关联规则的挖掘方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910460669.1A CN110287382B (zh) 2019-05-30 2019-05-30 一种面向电池生产数据的关联规则的挖掘方法

Publications (2)

Publication Number Publication Date
CN110287382A CN110287382A (zh) 2019-09-27
CN110287382B true CN110287382B (zh) 2021-07-06

Family

ID=68002963

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910460669.1A Active CN110287382B (zh) 2019-05-30 2019-05-30 一种面向电池生产数据的关联规则的挖掘方法

Country Status (1)

Country Link
CN (1) CN110287382B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110879822B (zh) * 2019-11-15 2022-11-15 南京邮电大学 一种基于关联规则分析的药品不良反应信号检测方法
CN110991668A (zh) * 2019-11-29 2020-04-10 合肥国轩高科动力能源有限公司 一种基于关联规则的电动汽车动力电池监控数据分析方法
CN111309787B (zh) * 2020-03-02 2021-10-19 广州大学 一种基于Apriori算法挖掘二维数据间关联规则的方法
CN112836960A (zh) * 2021-02-01 2021-05-25 安徽安医高创信息技术有限公司 基于bi技术的工业生产数据调度系统
CN116882822B (zh) * 2023-07-11 2024-05-07 安徽中科维德数字科技有限公司 一种pvb产品质量关联规则分析方法和系统

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20190023173A (ko) * 2017-08-28 2019-03-08 오씨아이 주식회사 전기 에너지 통합 관리 시스템 및 그 관리 방법
CN108446358B (zh) * 2018-03-12 2021-09-14 武汉理工大学 基于miv与关联规则的优化方法及石化设备的数据建模方法
CN109101632B (zh) * 2018-08-15 2022-04-22 中国人民解放军海军航空大学 基于制造大数据的产品质量异常数据追溯分析方法

Also Published As

Publication number Publication date
CN110287382A (zh) 2019-09-27

Similar Documents

Publication Publication Date Title
CN110287382B (zh) 一种面向电池生产数据的关联规则的挖掘方法
CN106844664B (zh) 一种基于摘要的时间序列数据索引构建方法
CN114118224A (zh) 一种基于神经网络的全系统遥测参数异常检测系统
CN108647729B (zh) 一种用户画像获取方法
CN110389950B (zh) 一种快速运行的大数据清洗方法
CN114281809B (zh) 一种多源异构数据清洗方法及装置
CN109325062A (zh) 一种基于分布式计算的数据依赖挖掘方法及系统
CN111062620A (zh) 基于混合计费数据的电力计费公平性智能分析系统及方法
CN116128544A (zh) 一种电力营销异常营业数据的主动稽核方法和系统
CN117036060A (zh) 车险欺诈识别方法、装置和存储介质
Hao et al. The research and analysis in decision tree algorithm based on C4. 5 algorithm
CN107066587A (zh) 一种基于组链表的高效频繁项集挖掘方法
Huang et al. Apriori-BM algorithm for mining association rules based on bit set matrix
CN113377683B (zh) 软件测试用例的生成方法、系统、设备、终端、介质及应用
CN115409541A (zh) 基于数据血缘的卷烟品牌数据处理方法
CN112416920B (zh) 一种面向mes的数据清洗方法及系统
Li et al. Mining productive itemsets in dynamic databases
CN106407296B (zh) 基于预判筛选的局部扫描关联规则计算机数据分析方法
Dendrou et al. Multiobjective decisions analysis for engineering systems
CN112329432A (zh) 一种基于改进Apriori的配电网电压越限问题关联分析方法
CN113220945B (zh) 一种用于数据血缘的字段检索和路径展示的方法及系统
CN114764423B (zh) 一种测井智能解释系统
CN112988564B (zh) 一种考虑成本-可靠性的srgm决策模型及其构建方法
CN117453805B (zh) 一种不确定性数据的可视化分析方法
JP3311778B2 (ja) 類似情報検索装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant