CN117590753A

CN117590753A - 一种基于深度学习的无监督批量控制方法

Info

Publication number: CN117590753A
Application number: CN202410068917.9A
Authority: CN
Inventors: 李慧; 杨帆; 张秀梅; 罗明月; 李佳男; 魏俊杰; 武奥运; 马钰民
Original assignee: Changchun University of Technology
Current assignee: Changchun University of Technology
Priority date: 2024-01-17
Filing date: 2024-01-17
Publication date: 2024-02-23
Anticipated expiration: 2044-01-17
Also published as: CN117590753B

Abstract

本发明公开了一种基于深度学习的无监督批量控制方法，该方法涉及机器学习、深度学习、无监督、过程控制等领域。首先，设计基于遗传算法的多路偏最小二乘自动编码器对数据进行特征提取并计算动态控制极限；其次，在每个时间间隔使用核密度估计来估计学习的潜在特征和残差的控制极限，进行故障监测，确保加工厂安全运行和最终产品高质量生产。与其他方法相比，本发明优势在于提升系统制水效率、降低能源消耗，提高设备运行的稳定性和鲁棒性，提高智能制造系统的可靠性，可广泛应用于化工、石油、制药、水处理等大型工业。

Description

一种基于深度学习的无监督批量控制方法

技术领域

本发明涉及机器学习、深度学习、无监督、过程控制领域，具体为一种基于深度学习的无监督批量控制方法。

背景技术

医疗注射用水作为一种接近洁净的水资源常常作为配制注射剂、溶剂或制药用水的稀释液并广泛应用于医药容器的精洗，在医药行业具有不可替代的作用，其用量巨大，医疗注射用水的制备已经成为药企的能源消耗大户。

目前，医药行业使用的注射用水普遍采用多效蒸馏方法，蒸汽只能顺级、单次利用，循环利用率不足并且大量高温凝结水直接排空，造成能源的巨大浪费，无法满足节能减排的目标。因此，有效的过程监控对于安全操作这些过程并将过程的关键状态（温度、压力、pH）保持在最佳操作范围内至关重要。此外准确的过程监控模型将推动必要的纠正措施，以保持安全运行和最佳生产。

在线故障检测是一种监测过程最佳运行和安全的技术。根据在线故障检测的模型类型，再现故障检测算法大致分为三类：基于知识的方法、基于模型的方法与基于数据的方法。由于工业过程的精确机械模型难以获得，因此故障检测算法大多优先选择基于数据的检测算法。

综上所述，基于数据驱动的方法可以根据多元统计分析的方法利用统计学的中的理论知识进行分析，得到每个变量的特征统计量实现诊断功能。本发明提出了一种称为多路偏最小二乘自动编码器的深度学习架构，进行基于多效蒸馏技术的医疗注射用水高效制备系统优化设计、建模与控制以及核心关键部件高效强鲁棒性喷射器的研究有助于提升系统制水效率、降低能源消耗，提高设备运行的稳定性和鲁棒性，具有重要的理论价值和广阔的应用前景。

发明内容

本发明旨在对工业制水过程中的关键变量（温度、压力、pH）进行检测，提高系统制水效率。本无监督学习的方法具体为提出了一种多路偏最小二乘自动编码器的深度学习架构，并使用具有新目标函数的遗传优化算法进行训练，具体步骤如下：

步骤1：数据采集以及预处理，收集工业制水批次数据构建输入矩阵，对其进行归一化处理，并分为训练样本和测试样本。

步骤1.1：假设所有的测量值和噪声都符合正态分布。对N个变量进行K次不同的独立采样，通过收集正常运行数据构建输入矩阵和，n为样本数，m和l分别表示X和Y变量个数，其中。

步骤1.2：对数据进行归一化处理，提升模型的收敛速度和精度以及消除单位差异带来的影响，需要将获取的原始数据和归一化处理为均值为0、方差为1的数据矩阵X，利用处理好的数据构建训练样本train和测试样本test，公式如下：

，

其中，和为的最大值和最小值，为所有特征变量归一化处理后的数据矩阵。

步骤2：基于遗传算法构建自编码神经网络模型，通过遗传算法对批次数据进行特征选择，构建自编码神经网络模型，将训练样本输入模型，以无监督的方式进行算法训练。

步骤2.1：初始化种群个数、迭代次数、当前代数、灾变计数、变异以及交叉概率；

步骤2.2：利用构建自编码神经网络模型对个体基因型进行编码操作，通常由编码器网络和解码器网络组成，以提取数据中的隐藏模式并降低输入数据的维数。编码器被训练为将输入数据压缩到由隐藏层定义的缩小的潜在空间上，并且解码器将隐藏层输出解压缩回重构的输入，如下所示：

步骤2.2.1：训练后的编码器将得到的最优个体压缩到由隐藏层定义的缩小的潜在空间上，并且解码器将隐藏层的输出解压缩变为重构的输入，如下所示：

，

其中，是隐藏层的输出，是编码器的选定非线性激活函数，是编码器加权矩阵，是数据预处理后的数据矩阵，是编码层的偏置向量；

步骤2.2.2：解码器根据以下操作从特征或潜在空间重构输入变量：

，

其中，是重构输入变量，是解码器的选定激活函数，，分别是解码器加权矩阵和偏置向量，是隐藏层的输出。

步骤2.3：设置适应度函数，计算个体的适应度值，保留适应度最大的个体，对网络的初始权值和阈值进行优化从而减小网络的误差，将蒸馏时间t视为伪变量，适应度函数如下：

，

其中，、、、、分别是训练样本个数、输入样本、重构输入样本、可输出伪变量和预测输出伪变量的数量，为加权因子。

步骤2.4：选用精英保留策略，将适应度强的部分个体进行直接保留并复制后代，同时让适应度弱的个体直接淘汰，精英保留的具体策略为：

步骤2.4.1：保留前20%适应度个体并复制两倍直接进入下一代；

步骤2.4.2：保留20%-50%的个体进入下一代；

步骤2.4.3：直接淘汰50%的个体。

步骤2.5：为防止遗传算法在搜索时陷入局部最优解，且长时间无法跳出，在选择交叉变异后增加灾变策略，具体做法如下：在迭代进化循环外添加一个计数变量，每迭代一次遗传算法对该次迭代的最优个体进行记录，若该次最优个体优于整体最优个体，则更新整体最优，同时将计数变量清零。

步骤2.6：采用基于GA遗传算法的对数据进行特征提取，具体流程如下：

步骤2.6.1：初始化参数，包括种群个数、迭代次数、当前代数、灾变计数、变异以及交叉概率；

步骤2.6.2：初始化种群即生成个体，并对个体基因型进行编码；

步骤2.6.3：计算种群个体适应度，对个体基因型进行解码操作；

步骤2.6.4：对个体基因进行选择、交叉以及变异操作；

步骤2.6.5：记录最优个体，并判断是否发生灾变操作；

步骤2.6.6：判断是否迭代完成，若迭代完成则结束算法，反之更新种群，返回步骤2.6.3。

步骤3：确定控制极限，采用统计量和SPE统计量进行故障诊断，使用核密度估计法确定控制限。使用高斯核来估计每个时间间隔k的单变量数据（统计量和统计量）的概率分布函数，如下所示：

，

其中，为概率密度函数，为高斯核，b为批次数，为控制分布平滑度的带宽参数，为控制函数宽度的参数，为每个时间间隔k的单变量数据，为第批次的统计量，为数据预处理后的数据矩阵，使用以下方程计算预先指定的显著性水平的：

，

其中，为预先指定的显著水平，为概率密度函数，为动态控制极限，为训练样本在时间间隔k的动态控制极限。

步骤4：对比监控指标，计算故障检测率，将监控指标的统计量与正常情况下计算出来的控制极限进行对比，通过判定逻辑确定故障是否发生，计算故障检测率。

步骤4.1：计算监控指标下的统计量和SPE统计量，分别如下式所示：

，

其中，是第b批中第k个样品的统计量,第b批第k个样本潜在变量的第d个z维数，和分别是所有训练批次中第k个样本的第d个z维度的均值和方差，R是自编码神经网络模型的隐含层神经元个数；

，

其中，统计量是第b批中的第k个样本的SPE统计量，和是第b批次中的第k个样本的第d个z维度，分别用于输入和重构输入。

步骤4.2：将监控指标的统计量与正常情况下计算出来的控制限进行对比，通过判定逻辑确定故障是否发生，若统计量、统计量均分别小于控制极限、控制极限，则可视为正常样本，否则视为异常样本，判定逻辑如下：

，

平均故障检测率为正常平均总体故障检测率和异常平均总体故障检测率的加权和：

，

其中，是第b批中第k个样品的统计量，统计量是第b批中的第k个样本的SPE统计量，为正常操作样本数量，为存在故障的样本数量，b是训练数据集中正常批次的总数，为正常操作样本的平均故障检测率，为存在故障样本的平均故障检测率。

与现有的技术相比，本发明的技术方案具有以下有益技术效果：

（1）针对医疗注射用水系统机械结构复杂、部分变量难以观测、故障难预警等问题，本发明设计了一种称为多路偏最小二乘自动编码器的深度学习架构，提出了一种新的无监督间歇过程监控目标函数，并使用具有新目标函数的遗传优化算法进行训练。

（2）本发明简单易行优化医疗注射用水设备，实现制水设备整体系统联系运行不中断，保证产水连续供给，提升整体制水装备运行效率，减少环境污染等目标，加速医药设备领域现代化、智能化进程。

下面参照附图，对本发明作进一步详细的说明。

附图说明

图1是本发明用于系统框架的结构图。

具体实施方式

在为使本发明的目的、技术方案和优点更佳清楚，下面结合附图及具体实时例对本发明进行详细描述。

参见附图1为本发明实施例的整体流程图，本实施例提供一种基于深度学习的无监督批量控制方法，以化工生产的青霉素发酵为例，具体包括以下流程：数据采集及预处理、基于遗传算法构建自编码神经网络模型、确定控制极限、对比监控指标，计算故障检测率。

具体实施步骤如下：

实施步骤1：数据采集以及预处理，收集工业制水批次数据构建输入矩阵，对其进行归一化处理，并分为训练样本和测试样本。

，

实施步骤2：基于遗传算法构建自编码神经网络模型，通过遗传算法对批次数据进行特征选择，构建自编码神经网络模型，将训练样本输入模型，以无监督的方式进行算法训练。

步骤2.2：利用构建自编码神经网络模型对个体基因型进行编码操作，通常由编码器网络和解码器网络组成，以提取数据中的隐藏模式并降低输入数据的维数。编码器被训练为将输入数据压缩到由隐藏层定义的缩小的潜在空间上，并且解码器将3隐藏层输出解压缩回重构的输入，如下所示：

，

其中，、、、、分别是训练样本、输入样本、重构输入样本、可输出伪变量和预测输出伪变量的数量，为加权因子。

步骤2.4.2：保留20%-50%的个体进入下一代；

步骤2.4.3：直接淘汰50%的个体。

步骤2.6.4：对个体基因进行选择、交叉以及变异操作；

步骤2.6.5：记录最优个体，并判断是否发生灾变操作；

实施步骤3：确定控制极限，采用统计量和SPE统计量进行故障诊断，使用核密度估计法确定控制限。使用高斯核来估计每个时间间隔k的单变量数据（统计量和统计量）的概率分布函数，如下所示：

，

实施步骤4：对比监控指标，计算故障检测率，将监控指标的统计量与正常情况下计算出来的控制极限进行对比，通过判定逻辑确定故障是否发生，计算故障检测率。

，

其中，是第b批中第k个样品的，统计量是第b批中的第k个样本的 SPE统计量，为正常操作样本数量，为存在故障的样本数量，b是训练数据集中正常批次的总数，为正常操作样本的平均故障检测率，为存在故障样本的平均故障检测率。

Claims

1.一种基于深度学习的无监督批量控制方法，其特征在于，包括以下步骤：

步骤1：数据采集以及预处理，收集工业制水批次数据构建输入矩阵，对其进行归一化处理，并分为训练样本和测试样本；

步骤2：基于遗传算法构建自编码神经网络模型，通过遗传算法对批次数据进行特征选择，构建自编码神经网络模型，将训练样本输入模型，以无监督的方式进行算法训练；

步骤3：确定控制极限，采用统计量和SPE统计量进行故障诊断，使用核密度估计法确定控制限；

2.根据权利要求1所述的一种基于深度学习的无监督批量控制方法，其特征在于，步骤2所述的基于遗传算法构建自编码神经网络模型，通过遗传算法对批次数据进行特征选择，构建自编码神经网络模型，将训练样本输入模型，以无监督的方式进行算法训练，具体按照以下步骤实施：

步骤2.2：利用构建自编码神经网络模型对个体基因型进行编码操作，其由编码器网络和解码器网络组成，用以提取数据中的隐藏模式并降低输入数据的维数，编码器被训练为将输入数据压缩到由隐藏层定义的缩小的潜在空间上，并且解码器将隐藏层的输出解压缩变为重构的输入，步骤如下：

，

其中，是隐藏层的输出，/>是编码器的选定非线性激活函数，/>是编码器加权矩阵，是数据预处理后的数据矩阵，/>是编码层的偏置向量；

，

其中，是重构输入变量，/>是解码器的选定激活函数，/>，/>分别是解码器加权矩阵和偏置向量，/>是隐藏层的输出；

，

其中，、/>、/>、/>、/>分别是训练样本、输入样本、重构输入样本、可输出伪变量和预测输出伪变量的数量，/>为加权因子；

步骤2.4.2：保留20%-50%的个体进入下一代；

步骤2.4.3：直接淘汰50%的个体；

步骤2.5：为防止遗传算法在搜索时陷入局部最优解，且长时间无法跳出，在选择交叉变异后增加灾变策略，具体做法如下：在迭代进化循环外添加一个计数变量，每迭代一次遗传算法对该次迭代的最优个体进行记录，若该次最优个体优于整体最优个体，则更新整体最优，同时将计数变量清零；

步骤2.6.4：对个体基因进行选择、交叉以及变异操作；

步骤2.6.5：记录最优个体，并判断是否发生灾变操作；

3.根据权利要求1所述的一种基于深度学习的无监督批量控制方法，其特征在于，步骤3所述的确定控制极限，采用统计量和SPE统计量进行故障诊断，使用核密度估计法确定控制限，具体按照以下步骤实施：

采用统计量监测质量相关子空间和SPE统计量监测质量无关的故障，进行故障诊断，控制极限的计算根据核密度估计法进行确定，使用高斯核来估计每个时间间隔k的单变量数据（/>和/>）的概率分布函数，如下所示：

，

其中，为概率密度函数，/>为高斯核，b为批次数，/>为控制分布平滑度的带宽参数，/>为控制函数宽度的参数，/>为每个时间间隔k的单变量数据，/>为第/>批次的统计量，/>为数据预处理后的数据矩阵，使用以下方程计算预先指定的显著性水平的/>：

，

其中，为预先指定的显著水平，/>为概率密度函数，/>为动态控制极限，为训练样本在时间间隔k的动态控制极限。

4.根据权利要求1所述的一种基于深度学习的无监督批量控制方法，其特征在于，步骤4所述的对比监控指标，计算故障检测率，将监控指标的统计量与正常情况下计算出来的控制极限进行对比，通过判定逻辑确定故障是否发生，计算故障检测率，具体按照以下步骤实施：

，

其中，是第b批中第k个样品的/>统计量,/>第b批第k个样本潜在变量的第d个z维数，/>和/>分别是所有训练批次中第k个样本的第d个z维度的均值和方差，R是自编码神经网络模型的隐含层神经元个数；

，

其中，统计量是第b批中的第k个样本的SPE统计量，/>和/>是第b批次中的第k个样本的第d个z维度，分别用于输入和重构输入；

步骤4.2：将监控指标的统计量与正常情况下计算出来的控制极限进行对比，通过判定逻辑确定故障是否发生，若统计量、/>统计量均分别小于/>控制极限、/>控制极限，则可视为正常样本，否则视为异常样本，判定逻辑如下：

，

其中，是第b批中第k个样品的/>统计量，/>统计量是第b批中的第k个样本的SPE统计量，/>为正常操作样本数量，/>为存在故障的样本数量，b是训练数据集中正常批次的总数，/>为正常操作样本的平均故障检测率，/>为存在故障样本的平均故障检测率。