CN113420375B

CN113420375B - 基于Apriori建立工艺-质量-不平衡量关联关系模型的方法

Info

Publication number: CN113420375B
Application number: CN202110657757.8A
Authority: CN
Inventors: 王明微; 邓伟; 周竞涛; 张惠斌; 李智昂
Original assignee: Northwestern Polytechnical University
Current assignee: Northwestern Polytechnical University
Priority date: 2021-06-14
Filing date: 2021-06-14
Publication date: 2022-05-31
Anticipated expiration: 2041-06-14
Also published as: CN113420375A

Abstract

本发明公开了一种基于Apriori建立工艺‑质量‑不平衡量关联关系模型的方法，首先调取装配留档数据库内数据以及云端大数据，对数据进行预处理；再对连续数据Chi‑merge离散化，之后形成事务数据集；然后对事务数据集进行关联分析，得到事务或项集与不平衡量之间的关联关系支持度和置信度；接下来基于Apriori关联算法，对装配过程中的影响因素与不平衡量进行关联分析，建立不平衡量关联关系模型；最后基于不平衡量关联关系模型，挖掘工艺、质量和不平衡量之间的内在关系，分析计算其中相关性影响因子的影响比重，并对不平衡量增减影响进行定量分析。本发明能为航空发动机低压风扇转子的设计、制造和装配提供建设性建议根据。

Description

基于Apriori建立工艺-质量-不平衡量关联关系模型的方法

技术领域

本发明属于发动机技术领域，具体涉及一种建立工艺-质量-不平衡量关联关系模型的方法。

背景技术

研究转子不平衡量与工艺、质量因素相互耦合的信息作用规律，挖掘工艺、质量和不平衡量之间的内在关系、研究隐藏在低压风扇转子装配过程中海量数据间的潜在价值，得到其中相关性影响因子的影响比重，对航空发动机低压风扇转子的装配有着重要意义。

文献“高速铁路动车组故障关联关系分析的研究”分析了目前国内外动车组和数据挖掘的研究现状，梳理了动车组故障信息数据的种类，分析了动车组数据存在的问题，给出了数据清洗、数据转换等数据预处理方案，提出了基于加权思想的FP-Growth关联挖掘算法，称为WFPAM算法，通过设置权值来表示动车组故障数据中不同项目的重要程度；为了提高算法的执行效率和性能，采用深度优先搜索方法对FP-tree进行先根遍历，避免了挖掘FP-tree产生条件模式基时多次回溯的问题；使用FP-Growth，WFPAM，MR-WFPAM三种算法进行了动车组故障数据关联关系挖掘实验，最终找出了与列车组故障关联程度较大的因素，有效地对故障提前进行预防。

发明内容

为了克服现有技术的不足，本发明提供了一种基于Apriori建立工艺-质量-不平衡量关联关系模型的方法，首先调取装配留档数据库内数据以及云端大数据，对数据进行预处理；再对连续数据Chi-merge离散化，之后形成事务数据集；然后对事务数据集进行关联分析，得到事务或项集与不平衡量之间的关联关系支持度和置信度；接下来基于Apriori关联算法，对装配过程中的影响因素与不平衡量进行关联分析，建立不平衡量关联关系模型；最后基于不平衡量关联关系模型，挖掘工艺、质量和不平衡量之间的内在关系，分析计算其中相关性影响因子的影响比重，并对不平衡量增减影响进行定量分析。本发明能为航空发动机低压风扇转子的设计、制造和装配提供建设性建议根据。

本发明解决其技术问题所采用的技术方案包括如下步骤：

步骤1：调取装配留档数据库中的止口配合面粗糙度、端面跳动、拧紧力矩数据以及存储在云端的大数据，对数据进行预处理；

去除无用项和重复项，删除数据中与正常值偏差超过给定阈值的数值；数据中的缺失项使用平均值填充；

步骤2：连续数据Chi-merge离散化；

步骤2-1：初始化；

根据离散属性对步骤1处理过的数据按照数值从大到小排序，将每个样本归属于一个不同的区间；

步骤2-2：通过公式(1)计算每一对相邻区间的卡方值：

式中，m＝2，表示每次比较两个相邻区间，k表示类别的数量，A_ij表示第i区间第j类的样本数量，E_ij表示A_ij的期望，

式中，

为i区间中样本数，

为j类样本的个数，

为总样本个数；

步骤2-3：选择显著性水平，根据自由度确定卡方阈值；卡方值小于卡方阈值的区间合并，大于卡方阈值的区间不进行合并；

步骤2-4：将原始数据映射为Chi-merge离散化结果，即0、1、2...；

步骤3：形成事务数据集；

将离散化后的所有数据按照指定顺序整理为一个统一的事务数据集的集合T＝{I₁,I₂,I₃,…,I_k,…}；

步骤4：对集合T进行关联分析，得到T中事务I_k或项集X与不平衡量之间的关联关系，并可以得到这些关联关系的支持度和置信度；

步骤5：基于Apriori关联算法，对装配过程中的影响因素与不平衡量进行关联分析，建立不平衡量关联关系模型；

其中，支持度和置信度计算公式如下：

式中，X表示工艺、质量影响因素，Y表示不平衡量；

步骤6：基于不平衡量关联关系模型，挖掘工艺、质量和不平衡量之间的内在关系，筛选出大于最小支持度与最小置信度的强关联规则，并基于这些强关联规则建立参数集。

本发明的有益效果如下：

本发明提供了一种基于“大数据”思想利用Apriori算法建立工艺-质量-不平衡量关联关系模型的方法，使用Chi-merge离散化方法，将连续数据映射为离散数值，实现了多维连续数据的关联关系挖掘，弥补了传统数据挖掘方法只能进行布尔型数据挖掘的缺点。本发明建立的关联关系模型可以有效挖掘工艺、质量因素和不平衡量之间的潜在关系，实现设计、制造与装配过程参数化，为参数调整提供支持，为航空发动机低压风扇转子的设计、制造和装配提供建设性建议根据。

附图说明

图1是本发明模型的建立框架示意图；

图2是本发明实施算例分析记录示意图

具体实施方式

下面结合附图和实施例对本发明进一步说明。

本发明的目的是为了克服现有技术的不足，提供一种基于Apriori算法建立工艺-质量-不平衡量关联关系模型的方法，能够实现基于“大数据”的思维方式，利用数据挖掘关联分析技术研究隐藏在低压风扇转子装配中海量数据间的潜在价值。

一种基于Apriori建立工艺-质量-不平衡量关联关系模型的方法，包括如下步骤：

步骤2：连续数据Chi-merge离散化；

步骤2-1：初始化；

步骤2-2：通过公式(1)计算每一对相邻区间的卡方值：

式中，

为i区间中样本数，

为j类样本的个数，

为总样本个数；

步骤3：形成事务数据集；

其中，支持度和置信度计算公式如下：

式中，X表示工艺、质量影响因素，Y表示不平衡量；

通过上述方案，基于现有的数据库，可以是以往的装配单位历史数据库，利用数据预处理，连续数据chi-merge离散化，对其一致性、及时性、适用性、准确性进行审核，形成事务数据集，再进行关联分析，通过互相之间的关联关系，得到这些关联关系的支持度和置信度，并以之建立不平衡量关联关系模型，用于挖掘工艺、质量因素和不平衡量之间的关联关系。

具体实施例：

利用本发明提出的基于Apriori算法建立工艺-质量-不平衡关联关系模型，对西安某企业管理系统中低压风扇转子的装配数据进行分析，并寻找其中的数据关联。

算例中Apriori算法的程序实现基于Python程序语言开发中的Efficient-apriori库。

对事务数据库进行大数据关联分析，设置最小支持度为10％，最小置信度为50％，对关联结果进行整理，去除无用项，得到关联分析结果如图2所示。