CN109948738B

CN109948738B - 涂装烘干室的能耗异常检测方法、装置

Info

Publication number: CN109948738B
Application number: CN201910288234.3A
Authority: CN
Inventors: 周开乐; 揣玉伟; 万山越; 温露露; 黄晓茜; 杨正谦; 曹冉
Original assignee: Hefei University of Technology
Current assignee: Hefei University of Technology
Priority date: 2019-04-11
Filing date: 2019-04-11
Publication date: 2021-03-09
Anticipated expiration: 2039-04-11
Also published as: CN109948738A

Abstract

本发明提供一种涂装烘干室的能耗异常检测方法、装置，涉及能耗检测领域。本发明通过孤立森林模型将异常能耗数据识别出来，可以减少烘干室生产过程中异常产生的能耗浪费，从而降低了车间的生产成本，促进能源高效使用，并且，能及时对设备进行维护，延长设备使用寿命。

Description

涂装烘干室的能耗异常检测方法、装置

技术领域

本发明涉及能耗检测技术领域，具体涉及一种涂装烘干室的能耗异常检测方法、装置。

背景技术

汽车等需要涂装的产品制造过程中，涂装车间能耗占整车制造能耗的70％以上，其中烘干工序在车身涂装过程中的能耗占比最大，其能耗对整体的涂装车间的能耗管理有着很大的影响。因此，降低涂装车间烘干工序的能耗至关重要。现有的烘干室能耗管理方法包括：烘干工艺优化，烘干室结构优化，数据分析的方法。其中，数据分析的方法能对涂装车间设备的能耗异常的监控，它有助于提高车间能耗的高效利用，有助于提高车间生产的智能管理。

现有的技术主要通过统计学习的方法、人工神经网络等方法对能耗数据进行分析，识别出异常数据。

然而现有的技术存在着很多不足，例如统计方法以通过对数据的分布区分整体数据的集中程度，以此识别出异常数据，但是数据的整体分布进行区分识别，缺少对数据内部各维度的细粒度分析；人工神经网络由于其计算量较大，部署车间生产环境要求较高，同时算法解释性较差，难以适应大型汽车生产环境，由此可知，现有的数据分析的方法的推广性差，不适应于较大维度样本的异常检测。

发明内容

(一)解决的技术问题

针对现有技术的不足，本发明提供了一种涂装烘干室的能耗异常检测方法、装置，解决了现有的数据分析的方法不适应于较大维度样本的异常检测的技术问题。

(二)技术方案

为实现以上目的，本发明通过以下技术方案予以实现：

本发明提供一种涂装烘干室的能耗异常检测方法，该方法运用经过训练的孤立森林模型检测待测能耗数据，识别出待测能耗数据中的异常数据；

其中，所述孤立森林模型的训练过程包括以下步骤：

S1、采集历史能耗数据，所述能耗数据包括若干个数据特征，以历史正常的能耗数据建立初始正常样本和初始异常样本，基于初始正常样本中的每个数据特征的正态分布计算初始正常样本的概率分布；

S2、基于初始正常样本的概率分布确定子采样的阈值；

S3、基于初始正常样本和初始异常样本建立训练集和测试集；

S4、对训练集中的正常样本进行子采样，结合训练集中的异常样本建立孤立树；

S5、基于所述孤立树建立孤立森林模型；

S6、更新所述阈值，优化所述孤立森林模型；

S7、利用孤立森林模型识别测试集中的异常数据，并计算通过孤立森林模型识别测试集中的异常数据与测试集中原本的异常样本的F1分数，通过所述F1分数检测通过步骤S1～S6训练的孤立森林模型的精确度。

优选的，该方法还包括：

在识别出待测能耗数据中的异常数据之后，将待测的能耗数据中的正常数据以一定周期迭代到训练孤立森林模型中的步骤S1中的历史能耗数据，更新历史能耗数据，进行新一轮的孤立森林模型训练。

优选的，在步骤S2中，所述阈值为初始正常样本中偏离样本数据中心最远的能耗数据。

优选的，在步骤S3中，所述训练集包括正常样本

和异常样本

所述测试集包括正常样本

和异常样本

所述正常样本

和所述正常样本

构成所述初始正常样本，所述异常样本

和所述异常样本

构成初始异常样本；

所述正常样本

中的能耗数据与所述正常样本

中的能耗数据的数量之比等于所述异常样本

中的能耗数据与所述异常样本

中的能耗数据的数量之比。

优选的，在步骤S6中，优化所述孤立森林模型的具体步骤为：

利用孤立森林模型识别训练集

中的异常样本，得到γ个经过异常可能性排序的异常样本及样本异常得分组合

对异常得分组合S进行检验，将其中的异常样本和误判异常的正常样本分开为S^a和Sⁿ，用S^a更新阈值，直到对数似然损失函数值收敛。

本发明还提供一种涂装烘干室的能耗异常检测装置，该装置包括：

能耗数据检测单元，所述能耗数据检测单元用于通过孤立森林模型检测待测能耗数据，识别出待测能耗数据中的异常数据；

孤立森林模型训练单元，所述孤立森林模型训练单元用于训练孤立森林模型；

其中，所述孤立森林模型训练单元包括：

历史能耗数据采集模块，所述历史能耗数据采集模块用于采集历史能耗数据，以历史正常的能耗数据建立初始正常样本和初始异常样本，基于初始正常样本中的每个数据特征的正态分布计算初始正常样本的概率分布；

子采样阈值确定模块，所述子采样阈值确定模块用于基于初始正常样本的概率分布确定子采样的阈值；

训练集和测试集构建模块，所述训练集和测试集构建模块用于基于初始正常样本和初始异常样本建立训练集和测试集；

孤立树构建模块，所述孤立树构建模块用于对训练集中的正常样本进行子采样，结合训练集中的异常样本建立孤立树；

孤立森林模型构建模块，所述孤立森林模型构建模块用于基于所述孤立树建立孤立森林模型；

孤立森林模型优化模块，所述孤立森林模型优化模块用于更新所述阈值，优化所述孤立森林模型；

孤立森林模型检测模块，所述孤立森林模型检测模块用于利用孤立森林模型识别测试集中的异常数据，并计算通过孤立森林模型识别测试集中的异常数据与测试集中原本的异常样本的F1分数，通过所述F1分数检测孤立森林模型的精确度。

(三)有益效果

本发明提供了一种涂装烘干室的能耗异常检测方法、装置。与现有技术相比，具备以下有益效果：

本发明利用正态分布对能耗数据进行初步的异常检测，确定子采样的阈值，然后基于阈值范围内的能耗数据建立孤立森林模型，该方法适用于较大维度样本的异常检测；通过孤立森林模型对阈值修正，通过缩小阈值更新子采样的范围，从而提高孤立森林模型对异常能耗数据的准确率；通过F1分数检测孤立森林模型的精确度，通过精确度可判断训练好的孤立森林模型是否可用，提高模型的可靠性。本发明通过孤立森林模型将异常能耗数据识别出来，可以减少烘干室生产过程中异常产生的能耗浪费，从而降低了车间的生产成本，促进能源高效使用，并且，能及时对设备进行维护，延长设备使用寿命。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1本发明实施例的一种涂装烘干室的能耗异常检测方法的框图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本申请实施例通过提供一种涂装烘干室的能耗异常检测方法、装置，解决了现有的数据分析的方法不适应于较大维度样本的异常检测的技术问题，通过孤立森林模型将涂装烘干室的异常能耗数据识别出来，可以减少烘干室生产过程中异常产生的能耗浪费，从而降低了车间的生产成本，促进能源高效使用，并且，能及时对设备进行维护，延长设备使用寿命。

本申请实施例中的技术方案为解决上述技术问题，总体思路如下：

本发明实施例利用正态分布对能耗数据进行初步的异常检测，确定子采样的阈值，然后基于阈值范围内的能耗数据建立孤立森林模型，该方法适用于较大维度样本的异常检测，通过孤立森林模型对阈值修正，通过缩小阈值更新子采样的范围，从而提高孤立森林模型对异常能耗数据的准确率；通过F1分数检测孤立森林模型的精确度，通过精确度可判断训练好的孤立森林模型是否可用，提高模型的可靠性。

为了更好的理解上述技术方案，下面将结合说明书附图以及具体的实施方式对上述技术方案进行详细的说明。

本发明实施例提供了一种涂装烘干室的能耗异常检测方法，如图1所示，该方法运用经过训练的孤立森林模型检测待测能耗数据，识别出待测能耗数据中的异常数据；

其中，所述孤立森林模型的训练过程包括以下步骤S1～S7：

S2、基于初始正常样本的概率分布确定子采样的阈值；

S3、基于初始正常样本和初始异常样本建立训练集和测试集，

S5、基于所述孤立树建立孤立森林模型；

S6、更新所述阈值，优化所述孤立森林模型；

S7、利用孤立森林模型识别测试集中的异常数据，并计算通过孤立森林模型识别测试集中的异常数据与测试集中原本的异常样本的F1分数，通过所述F1分数检测孤立森林模型的精确度。

本发明实施例利用正态分布对能耗数据进行初步的异常检测，确定子采样的阈值，然后基于阈值范围内的能耗数据建立孤立森林模型，该方法适用于较大维度样本的异常检测，通过孤立森林模型对阈值修正，通过缩小阈值更新子采样的范围，从而提高孤立森林模型对异常能耗数据的准确率；通过F1分数检测孤立森林模型的精确度，通过精确度可判断训练好的孤立森林模型是否可用，提高模型的可靠性。本发明通过孤立森林模型将异常能耗数据识别出来，可以减少烘干室生产过程中异常产生的能耗浪费，从而降低了车间的生产成本，促进能源高效使用，并且，能及时对设备进行维护，延长设备使用寿命。

下面结合实例对各个步骤进行详细描述：

本发明实施例的一种涂装烘干室的能耗异常检测方法，该方法包括训练孤立森林模型和运用孤立森林模型检测待测能耗数据；

其中训练孤立森林模型包括以下步骤S1～S7：

S1、采集历史能耗数据，通过物联网传感设备采集相关设备过去一个月(M＝30天)的能耗数据，采集时间间隔为T＝15分钟，共有m＝2880条数据，其中包括17条异常能耗数据，则2863条正常能耗数据构成初始正常样本，17条异常能耗数据构建成初始异常样本。其中，每条数据包含风机震动频率F、助风机出口压PS1、调节阀压PS2、加热温C、电机电流A、加热室风速S、燃气进入量V1、送风量V2、废气排放量V3共n＝9个数据特征。设所有数据为X，其中正常样本数为2863，每个样本具有9个数据特征，每个数据特征都服从高斯分布即正态分布，根据X中的初始正常样本估计总体的正态分布，确定初始特征均值μ₁,μ₂,μ₃,···,μ₉和特征方差σ₁,σ₂,σ₃,···,σ₉，则有样本概率密度：

其中：

特征均值

特征方差

正常样本

S2、基于初始正常样本的概率分布确定子采样的阈值，以初始正常样本中偏离样本数据中心最远的pⁱ(x)为阈值，令θ＝pⁱ(x)，则对于新样本x^*有

f(x^*)值为1时代表样本处于正态分布的大概率范围内，即很大可能性是正常的；f(x^*)值为0时代表样本处于正态分布的左右两端的小概率范围内，即很大可能是异常的。在进行子采样时，为了使子采样得到的样本数中正常样本尽可能多，因此子采样只在f(x^*)值为1的样本中进行。

S3、基于初始正常样本和初始异常样本建立训练集和测试集，具体过程为：

设所采集的历史能耗数据中初始正常样本为

初始异常样本为

将Xⁿ和X^a按照8:2的比例建立训练集和测试集

总的训练集和测试集按照8:2的比例确定。

S4、对训练集中的正常样本

进行子采样，结合训练集中的异常样本

建立孤立树，具体过程为：

在p(x)≥θ的区域等距分成s个子区域，根据每个区域面积比例随机子采样，设置subsampling size的大小得到

即子采样，在这个过程中是在步骤S3得到的

中进行，subsampling size子采样数量，与

(异常样本

不进行子采样)一起生成孤立树的iTree_i的训练集，即

通过训练生成一个孤立树，同时子采样防止样本数据量太大影响孤立森林的异常识别准确率。在孤立森林中，小数据集往往能取得更好的效果，样本数据较多会降低孤立森林孤立异常点的能力，因为正常样本会干扰隔离的过程，降低隔离异常的能力。

S5、基于所述孤立树建立孤立森林模型，具体过程为：

设置孤立森林中棵孤立树的数目以及每个孤立树的高度，其中每棵都是以为训练集建成。孤立森林的核心思想就是异常样本很容易被孤立隔离开来，例如所有样本点分布在一个二维坐标中，异常点被视为原理群体的外部数据点，能够经过很少的划分就能把异常点和正常点隔离开。

S6、优化孤立森林模型，具体过程为：

利用孤立森林识别训练集

对得到的S进行检验，将其中的异常样本和误判异常的正常样本分开为S^a和Sⁿ。用S^a更新θ值，即存在处于正态分布θ区域内的数据也为异常值，通过缩小θ更新子采样的范围，从而提高孤立森林的异常识别准确率，直到对数似然损失函数值收敛。

S7、利用孤立森林模型识别测试集中的异常数据，并计算通过孤立森林模型识别测试集中的异常数据与测试集中原本的异常样本

的F1分数；通过所述F1分数检测孤立森林模型的精确度，若达到设定的F1分数，则输出步骤S6中的孤立森林模型，否则，则说明模型建立失败，则需合并新的能耗数据重新建立模型。如设定F1分数大于80％，当计算得到的F1分数为90％时，则说明孤立森林模型建立成功，可以使用该孤立森林模型检测待测能耗数据；当计算得到的F1分数为78％，则说明孤立森林模型建立失败，则需要则需合并新的能耗数据重新建立模型。F1分数的设定值可根据实现需要进行设定，当涂装烘干室内对异常能耗数据比较敏感、重视时，将F1分数的值设置得相对高一点，如90％，94％。

运用孤立森林模型检测待测能耗数据的过程如下：

利用训练好的孤立森林模型检测待测能耗数据，识别出待测能耗数据中的异常数据。为了进一步提高孤立森林模型对异常能耗数据的准确率，将待测的能耗数据中的正常数据以一定周期迭代到训练孤立森林模型中的步骤S1中的历史能耗数据，优选为以天为周期进行新一轮的孤立森林模型训练。更新特征均值μ₁,μ₂,μ₃,···,μ₉和方差σ₁,σ₂,σ₃,···,σ₉为

以及

同时更新θ为

从而生成更新后的模型。

本发明的另一个实施例提供了一种涂装烘干室的能耗异常检测装置，该装置包括：能耗数据检测单元和孤立森林模型训练单元。

能耗数据检测单元用于通过孤立森林模型检测待测能耗数据，识别出待测能耗数据中的异常数据；

孤立森林模型训练单元用于训练孤立森林模型。

其中，孤立森林模型训练单元包括：历史能耗数据采集模块、子采样阈值确定模块、训练集和测试集构建模块、孤立树构建模块、孤立森林模型构建模块、孤立森林模型优化模块、孤立森林模型检测模块。

其中：

历史能耗数据采集模块用于采集历史能耗数据，以历史正常的能耗数据建立初始正常样本和初始异常样本，基于初始正常样本中的每个数据特征的正态分布计算初始正常样本的概率分布；

子采样阈值确定模块用于基于初始正常样本的概率分布确定子采样的阈值；

训练集和测试集构建模块用于基于初始正常样本和初始异常样本建立训练集和测试集；

孤立树构建模块用于对训练集中的正常样本进行子采样，结合训练集中的异常样本建立孤立树；

孤立森林模型构建模块用于基于所述孤立树建立孤立森林模型；

孤立森林模型优化模块用于更新所述阈值，优化所述孤立森林模型；

孤立森林模型检测模块用于利用孤立森林模型识别测试集中的异常数据，并计算通过孤立森林模型识别测试集中的异常数据与测试集中原本的异常样本的F1分数，通过所述F1分数检测孤立森林模型的精确度。

综上所述，与现有技术相比，具备以下有益效果：

本发明实施例利用正态分布对能耗数据进行初步的异常检测，确定子采样的阈值，然后基于阈值范围内的能耗数据建立孤立森林模型，该方法适用于较大维度样本的异常检测，通过孤立森林模型对阈值修正，通过缩小阈值更新子采样的范围，从而提高孤立森林模型对异常能耗数据的准确率；通过F1分数检测孤立森林模型的精确度，通过精确度可判断训练好的孤立森林模型是否可用，提高模型的可靠性；并在一定周期内通过合并新的能耗数据，更新孤立森林模型，进一步提高孤立森林模型对异常能耗数据的准确率。本发明通过孤立森林模型将异常能耗数据识别出来，可以减少烘干室生产过程中异常产生的能耗浪费，从而降低了车间的生产成本，促进能源高效使用，并且，能及时对设备进行维护，延长设备使用寿命。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。