CN115982557A

CN115982557A - 一种气体浓度检测用数据处理系统

Info

Publication number: CN115982557A
Application number: CN202310160463.3A
Authority: CN
Inventors: 谭海文; 张辉; 李统养; 林惠强
Original assignee: SHENZHEN EXSAF ELECTRONICS CO Ltd
Current assignee: SHENZHEN EXSAF ELECTRONICS CO Ltd
Priority date: 2023-02-24
Filing date: 2023-02-24
Publication date: 2023-04-18
Anticipated expiration: 2043-02-24
Also published as: CN115982557B

Abstract

本发明涉及数据分析技术领域，提出了一种气体浓度检测用数据处理系统，用于实现：获取待处理浓度序列和原始训练集，从原始训练集中得到异常浓度序列，在原始数据集中得到背景数据序列，计算背景数据序列的数据平稳性，以此得到平稳分类分割值，计算异常浓度序列的数据平稳性，根据平稳分类分割值将异常浓度序列分类，对每类的异常浓度序列进行均衡化调整，对调整后的最终异常浓度序列对神经网络进行训练，识别待处理浓度序列的结果。本发明保留异常数据特征的同时，减少训练集中不必要的正常数据，从而提高神经网络运算速度同时通过背景数据填充方法的调整，使得不同类型背景的分组数量均衡，从而有效提高神经网络检测效果。

Description

一种气体浓度检测用数据处理系统

技术领域

本发明涉及数据分析技术领域，具体涉及一种气体浓度检测用数据处理系统。

背景技术

人们的日常生活和生产活动与周围的环境气氛紧密相关，在很多行业中，对各种气体浓度的检测都有需要，在企业生产上，需要了解生产过程中的气体浓度的变化，以及在企业安全上，需要了解各种有毒气体的存在以及气体浓度，和在各类安全防护上也需要对封闭空间中的氧气浓度以及有可能存在的有毒气体浓度进行检测。所以在各种场景中需要对各种气体浓度进行检测，在气体浓度检测中需要对采集的数据进行分析处理，及时发现其他浓度异常，保障人们生活与生产安全性。

对于气体浓度数据异常分析，主要针对数据的含量以及连续含量的变化趋势，一般常利用神经网络实现对应异常数据的检测。但是现有的神经网络检测中，常常直接以历史数据作为训练集，但是实际历史数据为历史时序数据，历史数据中存在大量的没有必要的正常数据，导致数据集过大影响神经网络检测速度，且影响异常数据的特征突出，导致检测效率不高；同时，异常数据周围相邻的正常数据作为异常检测的背景，不同类型的背景的均衡性直接影响神经网络检测效果。所以本发明通过连续异常数据对训练集进行分组，并利用分组异常数据中正常数据填充的调整，实现正常数据类型的均衡化，提高训练集质量。

发明内容

本发明提供了一种气体浓度检测用数据处理系统，以解决现有的数据集过大影响神经网络检测速度，且影响异常数据的特征突出，导致检测效率不高的问题，所采用的技术方案具体如下：

本发明一个实施例提供了一种气体浓度检测用数据处理系统，该系统包括：

数据采集模块，采集待处理的气体浓度作为待处理浓度序列，采集的气体浓度历史数据作为原始训练集；

异常数据填充模块，在原始数据集中得到若干组异常数据，得到与待处理浓度序列长度相同的空白序列，将每组异常数据按照不同填充方法放在空白序列当中得到每组异常数据对应的多个异常浓度序列；

异常浓度序列的正常数据平稳性计算模块，在原始训练集中，得到若干段长度与待处理浓度序列相同的正常数据记为背景数据序列，根据每一段背景数据序列中所有相邻两个的正常数据、所有正常数据的方差以及正常数据的数量得到每一段背景数据序列的数据平稳性；对所有的背景数据序列的数据平稳性进行聚类分类得到正常数据平稳分类分割值；根据异常浓度序列的正常数据数量以及正常数据的数据平稳性计算每个异常浓度序列的正常数据平稳性；

异常浓度序列均衡化调整模块，根据正常数据平稳分类分割值将所有异常浓度序列分为三类，获得三类中得到数量最多一类和数量最少一类，数量最多一类的异常浓度序列对应的每组异常数据更换填充方法，得到新的异常浓度序列，使得新的异常浓度序列的正常数据平稳性处于数量最少一类中；

首先计算最多一类的异常浓度序列中，每组异常数据对应的多个异常浓度序列的正常数据平稳性，记为第一平稳性集合，根据第一平稳性集合中最大正常数据平稳性和最小正常数据平稳性得到所有每组异常数据的平稳性差异值，根据每一类的异常浓度序列的数量占比、每组异常数据的平稳性差异值以及调整次数对异常浓度序列进行均衡化调整得到最终浓度序列；

待处理浓度序列识别模块，使用均衡化调整后的最终异常浓度序列对神经网络进行训练，将待处理浓度序列输入神经网络得到异常浓度的识别结果。

优选的，所述将每组异常数据按照不同填充方法放在空白序列当中得到每组异常数据对应的多个异常浓度序列的方法为：

将一组异常数据放在空白序列当中，异常数据在空白序列中存在若干填充方法得到若干异常浓度序列，第一种填充方法是：异常数据的首位在空白序列的首位，第二种填充方法是：异常数据的第二位在空白序列的第二位，依次类推，最后一种填充方法是：异常数据的最后一位在空白序列的最后一位，空白序列当中的空白位置填充异常数据在原始数据集的临近部分，即填充完后的异常浓度序列被原始数据集包含，一个异常浓度序列中只存在一组异常数据。

优选的，所述根据每一段背景数据序列中所有相邻两个的正常数据、所有正常数据的方差以及正常数据的数量得到每一段背景数据序列的数据平稳性的方法为：

式中，

，

分别表示第u段背景数据序列的第v个，第v+1个浓度数据的取值，

表示背景数据序列的长度，

表示背景数据序列中所有数据的方差，

表示第u段背景数据序列的数据平稳性。

优选的，所述对所有的背景数据序列的数据平稳性进行聚类分类得到正常数据平稳分类分割值的方法为：

将所有背景数据序列按照数据平稳度聚成三类，每类存在一个数据平稳度的最小值和最大值，令最小值和最大值为分界值，得到三类背景数据序列的6个分界值，分界值从小到大排序，表示为

，

和

，

和

分别表示不同背景数据序列的分割值，两个平稳分类分割值

，

分别表示为：

，

。

优选的，所述根据异常浓度序列的正常数据数量以及正常数据的数据平稳性计算每个异常浓度序列的正常数据平稳性的方法为：

式中，

表示第i个异常浓度序列左侧所填充的连续

个正常数据的平稳性，

表示当前第i个异常浓度序列中所需要填充正常数据的数量，

表示第i个异常浓度序列右侧所填充的连续

个正常数据的平稳性，

表示第i个异常浓度序列所填充的正常数据的平稳性。

优选的，所述根据每一类的异常浓度序列的数量占比、每组异常数据的平稳性差异值以及调整次数对异常浓度序列进行均衡化调整得到最终浓度序列的方法为：

将三类异常浓度序列数量占比记为a1,a2,a3，找到三个类中数量的最大值和最小值，记为数量最多一类和数量最少一类，将数量最多一类向数量最少一类进行调整，调整次数为p次，其中计算数量最多一类中的平稳性差异值，将平稳性差异值从大到小排序，从最大的开始调整，按照顺序依次调整p个，调整就是更改异常浓度序列中异常数据的位置使异常浓度序列的数据平稳性从数量最多一类到数量最少一类，每调整p次为一次迭代，重新计算三类的占比，直到三类之间数量最多一类和数量最少一类占比相差小于

，此时得到的三类中的异常浓度序列为最终异常浓度序列，p为预设个数，a0与m有关，是人为设置的经验值。

本发明的有益效果是：本发明通过异常数据分组，保留异常数据特征的同时，减少训练集中不必要的正常数据，从而提高神经网络运算速度，本发明通过分组异常数据中背景数据的填充，保留完整的异常数据与背景数据对应关系，同时通过背景数据填充方法的调整，使得不同类型背景的分组数量均衡，从而有效提高神经网络检测效果。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明的一个实施例所提供一种气体浓度检测用数据处理系统的流程示意图；

图2为异常数据填充示意图1；

图3为异常数据填充示意图2。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1，其示出了本发明一个实施例提供的一种气体浓度检测用数据处理系统流程图，该系统包括以下模块：

数据采集模块，对于气体浓度检测中的数据处理，主要确定气体浓度数据的异常。在利用神经网络模型检测气体浓度异常分析时，需要有已知的训练集对神经网络进行训练，通过以往使用气体浓度采集装置采集的气体浓度历史数据作为神经网络的训练集，记此时的训练集为原始训练集，将使用气体浓度采集装置采集的待处理的气体浓度数据作为神经网络训练后的输入。

异常数据填充模块，在利用神经网络进行气体浓度数据异常检测时，训练集的质量直接影响着最终的异常检测结果。因为原始训练集为历史时序数据，历史数据中存在大量的没有必要的正常数据，导致数据集过大、数据样本分布不均衡，影响神经网络训练速度与精度，且影响神经网络对异常数据的特征的学习，导致检测效率不高。所以本发明需要对训练集进行分割，突出训练集的异常数据特征。

首先，在进行气体浓度检测时，使用气体浓度采集装置采集的待处理的气体浓度数据是连续几个时刻的数据，因此待处理的气体浓度数据是一个一定长度的浓度序列，记该序列为待处理浓度序列，在进行浓度异常检测时，需要将待处理浓度序列输入进训练完成的神经网络，因此在训练神经网络时，训练集样本的气体浓度数据是一个和待处理浓度序列等长的一个序列，而原始训练集采集了部分浓度异常的历史数据，此时为了分析训练集与待处理浓度序列之间对应关系，需要对训练集进行分割，将训练集的气体浓度数据分割为与待处理气体浓度序列等长的气体浓度数据。

进一步的，对于采集到的原始训练集，将原始训练集的所有浓度异常数据人为的打上标签，获得所有浓度异常标签，原始训练集内被打上浓度异常标签并且连续的数据组成一组异常数据，每组异常数据中的所有数据都是被打上浓度异常标签的数据，且这些数据在原始训练集中是在时序上连续的；由于每一组异常数据的长度不一致且与待处理浓度序列也不相同，因此需要对每一组异常数据进行补充。

进一步的，设待处理浓度序列长度为

，在本实施例中，采集10min的数据，每1s采集一次数据，在训练集中一组异常数据长度小于

时，对一组异常数据进行补充。

需要说明的是，本实施例不考虑异常数据长度大于

的情况，对一组异常数据长度大于

时，无法进行下面的计算，并且所采集的原始数据集是大量的历史数据，不会出现长度小于

的异常数据较少的情况，因此即便不考虑异常数据长度大于

的情况，也不会对本实施例后续的实施产生影响。若本实施例中获得的长度小于

的异常数据较少，实施者可以通过将

设置一个较大的值，保证长度小于

的异常数据的组数量大于所有异常数据组数量的80%。

补充后记为异常浓度序列，使得异常浓度序列的长度与待处理浓度序列长度一致。具体需要在原始训练集中，选择每组异常数据最相邻的其他数据进行填充，此时需要判断相邻数据中哪些数据进行补充。具体过程如下：

首先确定长度为

的空白序列，将一组异常数据放在空白序列当中，且空白序列中只包含一组异常数据，且该异常数据是一组完整的异常数据，令一组异常数据在空白序列中滑动，假设所有组异常数据中第i组异常数据的长度为

，将该组异常数据填充在长度为

的空白序列中，第一种填充方法是：该组异常数据的首位在空白序列的首位，第二种填充方法是：该组异常数据的第二位在空白序列的第二位，第三种填充方法是：该组异常数据的第三位在空白序列的第三位，以此类推，共计得到

种填充方法，即对应的填充方法数量为

，如图2所示。

上述第一种填充方法、第二种填充方法、第三种填充方法、……、第

种填充方法记为第i组异常数据的填充顺序，本实施例中后续会按照该填充顺序依次更换第i组异常数据的填充方法。

若第i组异常数据的第一位和空白序列的第一位重合，那么将异常数据的最后一位后面填充的数据为原始训练集中异常数据后面的数据，直到将空白序列填满；若第i组异常数据在空白序列的中间，那么空白序列的前边部分补充为：异常数据在原始训练集中位置前面的正常数据，空白序列的后边部分补充为：异常数据在原始训练集中位置的后面部分的正常数据，补充数据时按照原始训练集的位置补充。

特殊地，空白序列中连续位置所填充的序列必须在原始训练集中连续。

特殊地，在异常数据两段连续相邻的正常数据不足以填充空白序列时，直接根据存在的正常数据，利用线性插值，进行正常数据延伸，直至正常数据足够空白序列的填充。但是当异常数据周围连续相邻的数据个数小于3时，直接舍弃当前异常数据，如图3所示，异常数据1和异常数据2数据个数小于3，舍弃当前异常数据。

异常浓度序列的正常数据平稳性计算模块，由于可填充方法的数量为

个，此时需要在多个填充方法中筛选出最佳填充方法。由于第i组异常数据对应

个填充方法，所有第i组异常数据对应

个异常浓度序列，在本实施例中只需要第i组异常数据对应的一个异常浓度序列，由于此时不知道最佳填充方法是那个，因此令第一种填充方法得到的异常浓度序列进行后续计算。

首先，已知每组异常数据填充后作为异常浓度序列，此时所填充的数据即为异常数据周围的正常数据，此时所填充的正常数据分布可能具有差异性，但是在神经网络异常检测中，需要不同分布的正常数据特征具有均衡性，从而保证检测效果。此时为了准确描述正常数据的特征均衡性，首先需要确定正常数据的分布特征。本发明以正常数据的平稳性作为特征进行正常数据描述。

进一步的，在原始的训练集序列中，首先截取

段长度为

的正常数据，记这m段正常数据为背景数据序列，在本实施例中m=50，获得每一段背景数据序列对应的数据平稳性为

，计算正常数据的平稳性公式如下：

式中，

，

分别表示第u段背景数据序列的第v个、第v+1个浓度数据的取值，

表示相邻数据的差异，其值越大，相邻数据的差异越大，

表示

个数据中相邻数据之间的差异均值，其值越大，数据分布越不平稳。

表示

个数据的方差，其值越大，数据整体分布差异越大，数据越不平稳。

即表示第u段背景数据序列的数据平稳性，其值越大，数据越平稳。

进一步的，将所有背景数据序列的数据平稳性进行分类，以表示正常数据平稳性的种类。本发明直接采用K-means聚类，设置聚簇数量为N0，输入为所获得所有背景数据序列的数据平稳性，聚类距离为聚类中心的数据平稳性与其余序列的数据平稳性的差值，直接输出N0个类别，本实施例中设置N0=3。

此时将所获得的正常数据平稳性分为3类，其中每一类都有一个数据平稳性的最大值和一个数据平稳性的最小值记两个分界值，因为每个类别所包含的数据分别对应两个分界值，所有分界值从小到大分别表示为

，此时为了对原始训练集中所有背景数据平稳特征的均衡性，首先需要对平稳性进行区分，上述

中，本实施例中将

和

，

和

分别表示不同种类

的分割值，其分割值表示这几个值之间没有任何背景数据序列的数据平稳性，此时

和

所表示的分割值为

，记

为第一分割阈值，在

和

不相等时，

即为

和

的中间值。同理获得

和

所表示第二分割阈值为

。其中，第一分割阈值和第二分割阈值是将正常数据平稳性分类的分割值。

获得所有训练集中正常数据平稳分类分割值记为

，

，然后

，

将所有数据平稳性分为三类。

在上述步骤中，确定正常数据的平稳分类分割值，分组异常数据所填充的背景数据平稳性类别也同样分在这三类。此时为了提高异常检测效果，首先需要所有分组异常数据所填充的背景数据平稳性类别均衡，即所有分组异常数据中所填充的背景数据对应不同平稳性类别数量尽量一致。

进一步的，对于异常数据填充后的异常浓度序列来说，在保持正常数据平稳性类别均衡之前，首先需要确定不同填充方法对应的背景数据平稳性特征。由于填充之后的异常浓度序列里面的正常数据可能存在一段连续或者两段连续，因此计算异常浓度序列中正常数据的数据平稳性公式如下：

式中，

表示第i个异常浓度序列左侧所填充的连续

个正常数据的平稳性，

表示当前第i个异常浓度序列中所需要填充正常数据的数量，

表示异常浓度序列左侧正常数据个数占比，其值越大，

对所有填充正常数据平稳性的表现程度越大，所以

表示异常浓度序列左侧所填充的连续

个正常数据所表现的所有正常数据的平稳性。

表示第i个异常浓度序列右侧所填充的连续

个正常数据的平稳性，

表示异常浓度序列右侧所填充的连续

个正常数据所表现的所有正常数据的平稳性。其中，当异常浓度序列一侧正常数据数量小于等于1时，无法计算其平稳性，此时令其平稳性为0。

即表示第i组异常数据使用第一种方法填充后的异常浓度序列的正常数据平稳性。

异常浓度序列均衡化调整模块，对于所有异常浓度序列的填充过程，如果进行逐个填充，则开始填充阶段所填充背景数据较少，无法体现正常数据平稳性的类别分布，所以本实施例采用整体随机填充，然后对填充进行调整，以使得所有异常浓度序列中正常数据平稳性类别分布均衡。具体调整过程如下：

首先，计算所有异常浓度序列的正常数据平稳性，利用第一分割阈值

和第二分割阈值

将所有异常浓度序列的正常数据平稳性分为三类；其中

的异常浓度序列分为一类，称为A1类，

的异常浓度序列分为一类，称为A2类，

的异常浓度序列分为一类，称为A3类。然后统计A1,A2,A3每类的异常浓度序列数量占比a1,a2,a3。

进一步的，在a1,a2,a3中找到最大值

和最小值

，确定其对应的数据平稳性类别，数据平稳性类别指的就是A1,A2,A3这三类，A1类表示类中异常浓度序列的数据平稳性较小，A2类表示类中异常浓度序列的数据平稳性适中，A3类表示类中异常浓度序列的数据平稳性较大，然后对于

对应类别的异常浓度序列，将每组异常数据按照填充顺序更换每组异常数据的填充方法，得到新的异常浓度序列，使得所填充的正常数据平稳性在上述最小值

对应类别平稳性区间中。此时上述异常浓度序列中，数量最多类型的异常浓度序列数逐步减少，数量最少类型的异常浓度序列数逐步增多，这样做的目的是避免某一类异常浓度序列较少导致训练样本不均衡，进而导致神经网络检测精度降低，最终导致气体浓度检测精度降低，使得不同类型的分组数量逐步均衡，也即保证不同的正常数据平稳性取值范围对应的异常浓度序列数量是差别不大的。

进一步的，计算于

对应类别的异常浓度序列中，每组异常数据所对应的多个正常数据填充方法得到多个正常数据平稳性，然后判断每一组异常数据对应不同填充方法得到的异常浓度序列中正常数据平稳性的差异性

，其中

，

分别表示多种填充方式中正常数据平稳性的最大值和最小值，

表示当前平稳性范围，其值越大，调整后能够达到调整效果的可能性越大，

表示多种填充方式中正常数据的数量，其值越大，平稳性之间的差异越大，调整前后平稳性差异越大，调整的必要性越大。

进一步的，在分类最大的类型的所有异常浓度序列中，按照对应正常数据平稳性差异

从大到小排列，然后根据所排序列依次对对应分组数据的正常数据填充方法进行调整。

异常浓度序列的正常数据填充调整过程中，为了保证填充效果，避免过度调整，需要进行调整方法的多次判断。本实施例设置连续调整异常浓度序列个数p，即在连续调整p个异常浓度序列后,需要重新判断不同类型异常浓度序列占比，重新判断平稳性调整方法，然后根据上述步骤，继续进行调整。本实施例设置p=10。

在上述调整过程进行中，A1,A2,A3类正常数据对应的异常浓度序列数量占比a1,a2,a3逐渐实现均衡化，即a1,a2,a3差异逐渐减少，最终在a1,a2,a3最大值与最小值的差异小于a0时，停止异常浓度序列正常数据填充方法的调整，本发明设置a0=1/10。

至此，利用异常浓度序列正常数据提案中方法的调整，使得异常浓度序列类别均衡化。

待处理浓度序列识别模块，通过上述步骤，在原始训练集序列中，通过正常数据的填充，获得包含异常数据与正常数据的最终异常浓度序列。此时最终异常浓度序列表示了所有的异常数据特征以及异常数据与正常数据的对应特征，所以此时直接将所有最终异常浓度序列作为训练集，即获得与待处理浓度序列长度一致的训练集。

获得与待处理浓度序列长度一致的最终异常浓度序列训练集，最终异常浓度序列训练集对每个最终异常浓度序列进行标注，将正常浓度数据标注为1，将异常浓度数据标注为0，这些标注结果作为每个最终异常浓度序列的标签，利用最终异常浓度序列训练集进行神经网络训练，所用loss函数为交叉熵损失函数，网络的作用是识别浓度异常的气体浓度数据，训练完成后，此时利用BP神经网络对待分析的气体浓度数据进行异常检测，进而实现待处理浓度序列中异常浓度的检测。完成气体浓度检测用数据的处理，实现异常浓度的识别。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种气体浓度检测用数据处理系统，其特征在于，该系统包括：

2.根据权利要求1所述的一种气体浓度检测用数据处理系统，其特征在于，所述将每组异常数据按照不同填充方法放在空白序列当中得到每组异常数据对应的多个异常浓度序列的方法为：

3.根据权利要求1所述的一种气体浓度检测用数据处理系统，其特征在于，所述根据每一段背景数据序列中所有相邻两个的正常数据、所有正常数据的方差以及正常数据的数量得到每一段背景数据序列的数据平稳性的方法为：

式中，

、

表示背景数据序列的长度，

表示背景数据序列中所有数据的方差，

表示第u段背景数据序列的数据平稳性。

4.根据权利要求1所述的一种气体浓度检测用数据处理系统，其特征在于，所述对所有的背景数据序列的数据平稳性进行聚类分类得到正常数据平稳分类分割值的方法为：

，

和

，

和

分别表示不同背景数据序列的分割值，两个平稳分类分割值

，

分别表示为：

，

。

5.根据权利要求1所述的一种气体浓度检测用数据处理系统，其特征在于，所述根据异常浓度序列的正常数据数量以及正常数据的数据平稳性计算每个异常浓度序列的正常数据平稳性的方法为：

式中，

表示第i个异常浓度序列左侧所填充的连续

个正常数据的平稳性，

表示当前第i个异常浓度序列中所需要填充正常数据的数量，

表示第i个异常浓度序列右侧所填充的连续

个正常数据的平稳性，

表示第i个异常浓度序列所填充的正常数据的平稳性。

6.根据权利要求1所述的一种气体浓度检测用数据处理系统，其特征在于，所述根据每一类的异常浓度序列的数量占比、每组异常数据的平稳性差异值以及调整次数对异常浓度序列进行均衡化调整得到最终浓度序列的方法为：

将三类异常浓度序列数量占比记为a1,a2,a3，找到三个类中数量的最大值和最小值，记为数量最多一类和数量最少一类，将数量最多一类向数量最少一类进行调整，调整次数为p次，其中计算数量最多一类中的平稳性差异值，将平稳性差异值从大到小排序，从最大的开始调整，按照顺序依次调整p个，调整就是更改异常浓度序列中异常数据的位置使异常浓度序列的数据平稳性从数量最多一类到数量最少一类，每调整p次为一次迭代，重新计算三类的占比，直到三类之间数量最多一类和数量最少一类占比相差小于预设数值时，此时得到的三类中的异常浓度序列为最终异常浓度序列，p为预设个数。