CN112380763A

CN112380763A - 一种基于数据挖掘的堆内构件可靠性分析系统及方法

Info

Publication number: CN112380763A
Application number: CN202011211049.3A
Authority: CN
Inventors: 万安平; 陈挺; 颜孙挺; 王文晖; 杨洁; 常庆
Original assignee: Hangzhou City University
Current assignee: Hangzhou City University
Priority date: 2020-11-03
Filing date: 2020-11-03
Publication date: 2021-02-19

Abstract

本发明公开了一种基于数据挖掘的堆内构件可靠性分析系统及方法，利用监督学习，在建模过程中建立评价指标来衡量模型的优劣，得到评价堆内构件可靠性的两种建模指标；基于确定的堆内构件健康状态评估的指标，对采集到的数据进行降维处理，构建可靠性评价的业务特征；然后基于堆内构件运行状态数据的时序性特点，将当前样本重构为具有时序性的样本集，通过长短时记忆循环神经网络预测方法建立模型框架；模型训练过程则是基于预测目的，选择交叉熵损失函数和Adam优化器，寻找算法模型参数，预测堆内构件的可靠性。本发明具有较高的识别精度和泛化能力，性能好，适用于堆内构件的健康状态识别和可靠性判断。

Description

一种基于数据挖掘的堆内构件可靠性分析系统及方法

技术领域

本发明涉及堆内构件的状态识别和故障诊断，特别涉及一种基于数据挖掘的堆内构件可靠性分析系统与方法。

背景技术

压水堆核电站的安全主要取决于一回路的安全。根据核安全法规规定,一回路的所有机械设备及管道均属于核安全1级和抗地震1类。一回路的主设备之一是反应堆压力容器。容器内的各部件称堆内构件。堆内构件主要包括堆芯下部支承构件、堆芯上部支承构件、堆内测量装置等。反应堆运行时，堆内各构件处在高温、高压、有腐蚀、强辐照、强释热率以及多种载荷冲击等恶劣环境中。导致一回路主设备及管系破损的原因较多，如热工水力设计、机械设计、制造、选材、焊接、安装等不合理，以及反应性波动和地震。堆内构件一旦发生振动，会进一步扩大破裂程度。因此，防止堆内构件发生振动就是保证核电站安全可靠地运行的重要环节之一。

日前堆内构件的设计大都依赖于确定论的方法，这往往导致在某些方面设计过于保守，而在另一些方面已有的理论又没有充分考虑到，无法预估到其在复杂的运行条件下可能出现的故障及其风险概率，因而导致堆内构件仍然未满足实际工程的需求。同时，由于堆内构件的零部件众多，失效形式也多样，需要有针对性的分门别类逐一分析，确定相应的可靠性评价指标和方法。

发明内容

为了更好的实现堆内构件健康状态识别和诊断，本发明提供一种基于数据挖掘的堆内构件可靠性分析系统与方法。具体技术方案如下：

一种基于数据挖掘的堆内构件可靠性分析系统，该系统包括：数据预处理模块、堆内构件可靠性评价指标确立模块、可靠性评价特征构建模块、可靠性评价维度解析模块、可靠性预测分析模块，其中：

数据预处理模块，对堆内构件采集的数据进行异常值处理、空值处理、离散化处理和归一化处理；

堆内构件可靠性评价指标确立模块，利用监督学习，在建模过程中建立评价指标来衡量模型的优劣，得到评价堆内构件可靠性评的两种建模指标；

可靠性评价特征构建模块，基于确定的堆内构件可靠性评价指标，对采集到的数据进行降维处理，构建可靠性评价的业务特征；

可靠性评价维度解析模块，基于堆内构件运行状态数据的时序性特点，将当前样本重构为具有时序性的样本集；

可靠性预测分析模块，通过长短时记忆循环神经网络预测方法建立模型框架；模型训练过程则是基于预测目的，选择交叉熵损失函数和Adam优化器，寻找算法模型参数，预测堆内构件的可靠性。

进一步地，所述的数据预处理模块中，数据异常值处理、空值处理，通过数据筛选和数据清洗实现。离散化处理和归一化处理，由特征简约和数据变换实现。

进一步地，所述的堆内构件可靠性评价指标确立模块中，两种建模指标包括ROC曲线面积为指标和F值系列指标。

进一步地，所述的ROC曲线是以面积为指标，评估所有分类阈值下模型的整体性能，描述的是正例率(True Positive Rate,TPR)和负利率(False Positive Rate，FPR)之间的关系曲线，其中TPR和FPR是基于二元分类混淆矩阵的计算获得。

进一步地，所述的F值系列指标则是对某一具体分类阈值模型的预测结果进行评估，包括准确率(accuracy)、精确率(precision)、召回率(recall)三个指标。准确率(accuracy)表示在给定的测试数据集中，分类器正确预测的样本数与总样本数之比，其计算公式如(1)所示：

其中，TP表示实际值和预测值同为正例的样本数；FP表示实际值为负例，但被预测为正例的样本数；FN表示实际值为正例，但被预测为负例的样本数；TN表示实际值和预测值同为负例的样本数。

精确率(precision)表示预测为正例的实例中实际为正例的比例，其计算公式如(2)所示：

召回率(recall)关注的是单一类别的预测准确率，度量有多少个正例被预测为正例，其计算公式如(3)所示：

进一步地，所述的可靠性评价特征构建模块中的降维采用的是自动编码器的方法，是深度学习中一种常用的无监督学习模型，误差来源于重构数据与原输入数据的对比，通过无监督学习的方法尽可能复现输入信号。

进一步地，所述的可靠性评价维度解析模块，是基于多维时序序列预测的样本重构方法，分别从数据集和标签集的角度出发，将采集的时间点数据集重构成时间序列样本，将当前状态标签集重构为预测状态标签集，具体实现如式(4)到式(5)所示。

其中，矩阵A表示原带标签的样本集，a_i表示第i条样本，c_i表示第i条样本对应的标签，m表示维度数量，n表示样本点数量。

其中，矩阵B表示基于时序特点重构的带标签的样本集。参数i和j为输入数据时序长度和预测状态时间点。

进一步地，所述的可靠性预测分析模块中的长短时记忆循环神经网络(LSTM)预测方法，通过在隐藏层中引入记忆存储模块——单元状态(Cell State)，并增加输入控制门(input)、忘记控制门(forget)、输出控制门(output)，决定在单元状态中被记忆的信息，从而实现长时间记忆功能。

一种基于数据挖掘的堆内构件可靠性分析方法，步骤如下：

1)根据经验初设样本占比和代价敏感学习参数、批量和批次；

2)给定时序长度参数i和预测状态时间间隔参数j的取值范围和取值粒度，确定i和j的取值，并使用交叉组合的方式生成m组数据；

3)依次利用m组i和j的组合值进行基于多维时序序列的样本重构，得到m组输入数据时序长度和预测状态时间间隔均不同的样本集。同时，为保证m组数据建模结果的可比性，需保证不同样本集在预测时间点上的一致性；

4)依次对m组样本集进行建模预测，并对不同模型在测试集上的应用效果进行对比评估，应用效果最优的i和j的组合值即为i和j的参数值；

5)在i、j最优组合的基础上，初设批量p和批次n，给定样本占比和代价敏感学习参数的取值范围，使用网格搜索进行寻优，并通过模型在测试集上的应用效果确定样本占比和代价敏感学习参数的最优组合；

6)在i、j最优组合以及给定样本占比和代价敏感学习参数的最优组合的基础上，给定批量p和批次n的取值范围，使用网格搜索进行寻优，并通过模型在测试集上的应用效果确定p和n的最优组合；

7)根据不同数量的数据子集模型在测试集上应用效果的加权结果，确定最优加权方式以及数据子集个数。

本发明的有益效果主要表现在可以基于一个准确的模型来监测堆内构件的健康运行状态，基于数据挖掘的设计方法全面评估堆内构件的安全程度和经济合理性，失效的可能性大小用概率设计计算，概率设计过程中向各个零部件(局部)合理分配其必须具备的可靠性概率。本发明具有较高的识别精度和泛化能力，预测误差较低，预测效果良好，设计结果既满足了总体要求同时也能改善经济性。

附图说明

图1为基于数据挖掘的堆内构件可靠性分析系统结构示意图。

图2为堆内构件数据的预处理过程图。

图3为堆内构件振动指标预测模型在测试集上应用的准确率结果统计图。

图4为堆内构件振动指标预测模型在同一测试集上应用的异常识别率和异常误判率统计图。

图5为堆内构件可靠性预测模型(p、n)测试集应用的异常识别率和误判率。

具体实施方式

参考附图能更加全面地描述本发明，图上显示本发明的某些实施例，但是并非所有的实施例。实际上，本发明可以以很多不同的形式被体现，不应该把它看作仅限于这里所阐述的实施例，而应该把本发明的实施例看作是为了使本发明公开的内容满足可应用的合法要求而提供的。下面结合说明书附图和具体实现方式对本发明内容作详细说明说明。

图1列出了基于数据挖掘的堆内构件可靠性分析系统各模块的功能以及各模块之间的逻辑关系。

数据预处理模块，对堆内构件采集的数据进行异常值处理、空值处理、离散化处理和归一化处理，为数据的挖掘分析做好了准备；

堆内构件可靠性评价指标确立模块，利用一种监督学习，在建模过程中建立评价指标来衡量模型的优劣，得到评价堆内构件可靠性评的两种建模指标；

可靠性预测分析模块，通过长短时记忆循环神经网络(LSTM)预测方法建立模型框架；模型训练过程则是基于预测目的，选择交叉熵损失函数和Adam优化器，寻找算法模型参数，预测堆内构件的可靠性。交叉熵损失函数通过度量预测值的分布和真实值的分布之间的相似性，完成误差计算；Adam优化器是一种基于梯度的优化算法，具有收敛速度快、计算高效、内存占用少等特点。

如图2所示为堆内构件数据的预处理过程图。数据质量对数据挖掘的分析结果有很大影响。获取的堆内构件原始数据中包含了大量属性，存在错误值和异常值，需要对数据进行初步筛选，去除错误值和异常值，确保数据的准确性，并去除与挖掘无关的属性，而且要保证样本数据的多样性和特征信息的完备性。此外，还需要根据算法需求对数据进行处理，使数据满足算法的输入要求。

如图3所示为堆内构件振动指标预测模型在测试集上应用的准确率结果统计图。通过测试样本集准确率的统计，可以大致分析不同i、j取值对结果的影响。通过右侧的不同j值模型准确率对比图，发现不同的i值下均存在j值越大，模型准确率越低的情况。通过底部的不同i值模型准确率对比图，发现j取4s、6s、8s时，i取值较大时，模型准确率高。i、j取值需要进一步根据异常识别率和异常误判率进行确定。

如图4所示为堆内构件振动指标预测模型在同一测试集上应用的异常识别率和异常误判率统计图。左图为异常识别率，右图为异常误判率。基于业务需求，异常识别率较高时且异常误判率较低时模型效果好，则在图4，根据图例，颜色深的i、j值为所求值。

图5为堆内构件可靠性预测模型(p、n)测试集应用的异常识别率和误判率。预测算法模型参数是指批量p和批次n。基于分批训练的原理，不同样本集的批量p和批次n不同。因此，需针对a组训练集分别寻找最优的p、n组合。

设a值为5，选取了5组符合i、j、k’(样本占比，异常类与正常类的比值)、c(代价敏感学习参数)参数值的训练样本。设定p的取值依次为50、100、200、500、1000、2000，设定n为最小值200、最大值3000、以200为差值的等差数列，共有90种组合形式。分别对5组样本完成90组模型训练，寻找90组模型中，测试集应用效果最优的批量p和批次n的参数值。

基于90组不同预测模型在测试集中的应用结果，绘制了样本集的异常识别率和异常误判率关系图如图5所示，以“p_n”的形式标注了部分数据点的p、n值，并以75％的识别率和30％的误判率为依据绘制四象限图。在右下角象限内，批次较小的模型总体性能较优。

在图5标注的两个模型中，模型参数分别为“200_2800”、“100_600”,即以200个样本为一批，训练2800次和以100个样本为一批，训练600次的模型性能较优。任意选择一组结果作为组1样本集预测模型中批量p和批次n的参数值。使用同样的方法确定另外4组样本集的批量p和批次n参数值，结果如表1所示。

表1其他数据子集壳体振动预测模型的批量p和批次n参数值及测试集应用结果

组别	p值	n值	异常识别率	异常误判率
					组2	500	1000	79.2％	22.5％
组3	200	600	79.2％	24.3％
					组4	100	1000	80.0％	23.0％
组5	200	1600	80.8％	25.0％

从图5和表1中可以看出预测误差较低，预测值基本能够反映数值的变化趋势，模型的预测效果良好。

以上所述仅是本发明的优选实施方式，虽然本发明已以较佳实施例披露如上，然而并非用以限定本发明。任何熟悉本领域的技术人员，在不脱离本发明技术方案范围情况下，都可利用上述揭示的方法和技术内容对本发明技术方案做出许多可能的变动和修饰，或修改为等同变化的等效实施例。因此，凡是未脱离本发明技术方案的内容，依据本发明的技术实质对以上实施例所做的任何的简单修改、等同变化及修饰，均仍属于本发明技术方案保护的范围内。

Claims

1.一种基于数据挖掘的堆内构件可靠性分析系统，其特征在于，该系统包括：数据预处理模块、堆内构件可靠性评价指标确立模块、可靠性评价特征构建模块、可靠性评价维度解析模块、可靠性预测分析模块，其中：

堆内构件可靠性评价指标确立模块，利用监督学习，在建模过程中建立评价指标来衡量模型的优劣，得到评价堆内构件可靠性的两种建模指标；

2.如权利要求1所述的系统，其特征在于，所述的数据预处理模块中，数据异常值处理、空值处理，通过数据筛选和数据清洗实现。离散化处理和归一化处理，由特征简约和数据变换实现。

3.如权利要求1所述的系统，其特征在于，所述的堆内构件可靠性评价指标确立模块中，所述的两种建模指标包括ROC曲线面积为指标和F值系列指标。

4.如权利要求3所述的系统，其特征在于，所述ROC曲线是以面积为指标，评估所有分类阈值下模型的整体性能，描述的是正例率TPR和负利率FPR之间的关系曲线，其中TPR和FPR是基于二元分类混淆矩阵的计算获得。

5.如权利要求3所述的系统，其特征在于，所述F值系列指标则是对某一具体分类阈值模型的预测结果进行评估，包括准确率(accuracy)、精确率(precision)、召回率(recall)三个指标。

准确率表示在给定的测试数据集中，分类器正确预测的样本数与总样本数之比，其计算公式如(1)所示：

精确率表示预测为正例的实例中实际为正例的比例，其计算公式如(2)所示：

召回率关注的是单一类别的预测准确率，度量有多少个正例被预测为正例，其计算公式如(3)所示：

。

6.如权利要求1所述的系统，其特征在于，所述的可靠性评价特征构建模块中的降维采用的是自动编码器的方法，是深度学习中一种无监督学习模型，误差来源于重构数据与原输入数据的对比，通过无监督学习的方法尽可能复现输入信号。

7.如权利要求1所述的系统，其特征在于，所述的可靠性评价维度解析模块，是基于多维时序序列预测的样本重构方法，分别从数据集和标签集的角度出发，将采集的时间点数据集重构成时间序列样本，将当前状态标签集重构为预测状态标签集，具体实现如式(4)到式(5)所示。

8.如权利要求1所述的系统，其特征在于，所述的可靠性预测分析模块中的长短时记忆循环神经网络(LSTM)预测方法，通过在隐藏层中引入记忆存储模块——单元状态(CellState)，并增加输入控制门(input)、忘记控制门(forget)、输出控制门(output)，决定在单元状态中被记忆的信息，从而实现长时间记忆功能。

9.一种基于数据挖掘的堆内构件可靠性分析方法，其特征在于，包括步骤：