CN115982557A - 一种气体浓度检测用数据处理系统 - Google Patents

一种气体浓度检测用数据处理系统 Download PDF

Info

Publication number
CN115982557A
CN115982557A CN202310160463.3A CN202310160463A CN115982557A CN 115982557 A CN115982557 A CN 115982557A CN 202310160463 A CN202310160463 A CN 202310160463A CN 115982557 A CN115982557 A CN 115982557A
Authority
CN
China
Prior art keywords
data
abnormal
sequence
concentration
stationarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310160463.3A
Other languages
English (en)
Other versions
CN115982557B (zh
Inventor
谭海文
张辉
李统养
林惠强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
SHENZHEN EXSAF ELECTRONICS CO Ltd
Original Assignee
SHENZHEN EXSAF ELECTRONICS CO Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by SHENZHEN EXSAF ELECTRONICS CO Ltd filed Critical SHENZHEN EXSAF ELECTRONICS CO Ltd
Priority to CN202310160463.3A priority Critical patent/CN115982557B/zh
Publication of CN115982557A publication Critical patent/CN115982557A/zh
Application granted granted Critical
Publication of CN115982557B publication Critical patent/CN115982557B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及数据分析技术领域,提出了一种气体浓度检测用数据处理系统,用于实现:获取待处理浓度序列和原始训练集,从原始训练集中得到异常浓度序列,在原始数据集中得到背景数据序列,计算背景数据序列的数据平稳性,以此得到平稳分类分割值,计算异常浓度序列的数据平稳性,根据平稳分类分割值将异常浓度序列分类,对每类的异常浓度序列进行均衡化调整,对调整后的最终异常浓度序列对神经网络进行训练,识别待处理浓度序列的结果。本发明保留异常数据特征的同时,减少训练集中不必要的正常数据,从而提高神经网络运算速度同时通过背景数据填充方法的调整,使得不同类型背景的分组数量均衡,从而有效提高神经网络检测效果。

Description

一种气体浓度检测用数据处理系统
技术领域
本发明涉及数据分析技术领域,具体涉及一种气体浓度检测用数据处理系统。
背景技术
人们的日常生活和生产活动与周围的环境气氛紧密相关,在很多行业中,对各种气体浓度的检测都有需要,在企业生产上,需要了解生产过程中的气体浓度的变化,以及在企业安全上,需要了解各种有毒气体的存在以及气体浓度,和在各类安全防护上也需要对封闭空间中的氧气浓度以及有可能存在的有毒气体浓度进行检测。所以在各种场景中需要对各种气体浓度进行检测,在气体浓度检测中需要对采集的数据进行分析处理,及时发现其他浓度异常,保障人们生活与生产安全性。
对于气体浓度数据异常分析,主要针对数据的含量以及连续含量的变化趋势,一般常利用神经网络实现对应异常数据的检测。但是现有的神经网络检测中,常常直接以历史数据作为训练集,但是实际历史数据为历史时序数据,历史数据中存在大量的没有必要的正常数据,导致数据集过大影响神经网络检测速度,且影响异常数据的特征突出,导致检测效率不高;同时,异常数据周围相邻的正常数据作为异常检测的背景,不同类型的背景的均衡性直接影响神经网络检测效果。所以本发明通过连续异常数据对训练集进行分组,并利用分组异常数据中正常数据填充的调整,实现正常数据类型的均衡化,提高训练集质量。
发明内容
本发明提供了一种气体浓度检测用数据处理系统,以解决现有的数据集过大影响神经网络检测速度,且影响异常数据的特征突出,导致检测效率不高的问题,所采用的技术方案具体如下:
本发明一个实施例提供了一种气体浓度检测用数据处理系统,该系统包括:
数据采集模块,采集待处理的气体浓度作为待处理浓度序列,采集的气体浓度历史数据作为原始训练集;
异常数据填充模块,在原始数据集中得到若干组异常数据,得到与待处理浓度序列长度相同的空白序列,将每组异常数据按照不同填充方法放在空白序列当中得到每组异常数据对应的多个异常浓度序列;
异常浓度序列的正常数据平稳性计算模块,在原始训练集中,得到若干段长度与待处理浓度序列相同的正常数据记为背景数据序列,根据每一段背景数据序列中所有相邻两个的正常数据、所有正常数据的方差以及正常数据的数量得到每一段背景数据序列的数据平稳性;对所有的背景数据序列的数据平稳性进行聚类分类得到正常数据平稳分类分割值;根据异常浓度序列的正常数据数量以及正常数据的数据平稳性计算每个异常浓度序列的正常数据平稳性;
异常浓度序列均衡化调整模块,根据正常数据平稳分类分割值将所有异常浓度序列分为三类,获得三类中得到数量最多一类和数量最少一类,数量最多一类的异常浓度序列对应的每组异常数据更换填充方法,得到新的异常浓度序列,使得新的异常浓度序列的正常数据平稳性处于数量最少一类中;
首先计算最多一类的异常浓度序列中,每组异常数据对应的多个异常浓度序列的正常数据平稳性,记为第一平稳性集合,根据第一平稳性集合中最大正常数据平稳性和最小正常数据平稳性得到所有每组异常数据的平稳性差异值,根据每一类的异常浓度序列的数量占比、每组异常数据的平稳性差异值以及调整次数对异常浓度序列进行均衡化调整得到最终浓度序列;
待处理浓度序列识别模块,使用均衡化调整后的最终异常浓度序列对神经网络进行训练,将待处理浓度序列输入神经网络得到异常浓度的识别结果。
优选的,所述将每组异常数据按照不同填充方法放在空白序列当中得到每组异常数据对应的多个异常浓度序列的方法为:
将一组异常数据放在空白序列当中,异常数据在空白序列中存在若干填充方法得到若干异常浓度序列,第一种填充方法是:异常数据的首位在空白序列的首位,第二种填充方法是:异常数据的第二位在空白序列的第二位,依次类推,最后一种填充方法是:异常数据的最后一位在空白序列的最后一位,空白序列当中的空白位置填充异常数据在原始数据集的临近部分,即填充完后的异常浓度序列被原始数据集包含,一个异常浓度序列中只存在一组异常数据。
优选的,所述根据每一段背景数据序列中所有相邻两个的正常数据、所有正常数据的方差以及正常数据的数量得到每一段背景数据序列的数据平稳性的方法为:
Figure SMS_1
式中,
Figure SMS_2
Figure SMS_3
分别表示第u段背景数据序列的第v个,第v+1个浓度数据的取值,
Figure SMS_4
表示背景数据序列的长度,
Figure SMS_5
表示背景数据序列中所有数据的方差,
Figure SMS_6
表示第u段背景数据序列的数据平稳性。
优选的,所述对所有的背景数据序列的数据平稳性进行聚类分类得到正常数据平稳分类分割值的方法为:
将所有背景数据序列按照数据平稳度聚成三类,每类存在一个数据平稳度的最小值和最大值,令最小值和最大值为分界值,得到三类背景数据序列的6个分界值,分界值从小到大排序,表示为
Figure SMS_8
Figure SMS_12
Figure SMS_13
Figure SMS_9
Figure SMS_11
分别表示不同背景数据序列的分割值,两个平稳分类分割值
Figure SMS_14
Figure SMS_15
分别表示为:
Figure SMS_7
Figure SMS_10
优选的,所述根据异常浓度序列的正常数据数量以及正常数据的数据平稳性计算每个异常浓度序列的正常数据平稳性的方法为:
Figure SMS_16
式中,
Figure SMS_17
表示第i个异常浓度序列左侧所填充的连续
Figure SMS_18
个正常数据的平稳性,
Figure SMS_19
表示当前第i个异常浓度序列中所需要填充正常数据的数量,
Figure SMS_20
表示第i个异常浓度序列右侧所填充的连续
Figure SMS_21
个正常数据的平稳性,
Figure SMS_22
表示第i个异常浓度序列所填充的正常数据的平稳性。
优选的,所述根据每一类的异常浓度序列的数量占比、每组异常数据的平稳性差异值以及调整次数对异常浓度序列进行均衡化调整得到最终浓度序列的方法为:
将三类异常浓度序列数量占比记为a1,a2,a3,找到三个类中数量的最大值和最小值,记为数量最多一类和数量最少一类,将数量最多一类向数量最少一类进行调整,调整次数为p次,其中计算数量最多一类中的平稳性差异值,将平稳性差异值从大到小排序,从最大的开始调整,按照顺序依次调整p个,调整就是更改异常浓度序列中异常数据的位置使异常浓度序列的数据平稳性从数量最多一类到数量最少一类,每调整p次为一次迭代,重新计算三类的占比,直到三类之间数量最多一类和数量最少一类占比相差小于
Figure SMS_23
,此时得到的三类中的异常浓度序列为最终异常浓度序列,p为预设个数,a0与m有关,是人为设置的经验值。
本发明的有益效果是:本发明通过异常数据分组,保留异常数据特征的同时,减少训练集中不必要的正常数据,从而提高神经网络运算速度,本发明通过分组异常数据中背景数据的填充,保留完整的异常数据与背景数据对应关系,同时通过背景数据填充方法的调整,使得不同类型背景的分组数量均衡,从而有效提高神经网络检测效果。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明的一个实施例所提供一种气体浓度检测用数据处理系统的流程示意图;
图2为异常数据填充示意图1;
图3为异常数据填充示意图2。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1,其示出了本发明一个实施例提供的一种气体浓度检测用数据处理系统流程图,该系统包括以下模块:
数据采集模块,对于气体浓度检测中的数据处理,主要确定气体浓度数据的异常。在利用神经网络模型检测气体浓度异常分析时,需要有已知的训练集对神经网络进行训练,通过以往使用气体浓度采集装置采集的气体浓度历史数据作为神经网络的训练集,记此时的训练集为原始训练集,将使用气体浓度采集装置采集的待处理的气体浓度数据作为神经网络训练后的输入。
异常数据填充模块,在利用神经网络进行气体浓度数据异常检测时,训练集的质量直接影响着最终的异常检测结果。因为原始训练集为历史时序数据,历史数据中存在大量的没有必要的正常数据,导致数据集过大、数据样本分布不均衡,影响神经网络训练速度与精度,且影响神经网络对异常数据的特征的学习,导致检测效率不高。所以本发明需要对训练集进行分割,突出训练集的异常数据特征。
首先,在进行气体浓度检测时,使用气体浓度采集装置采集的待处理的气体浓度数据是连续几个时刻的数据,因此待处理的气体浓度数据是一个一定长度的浓度序列,记该序列为待处理浓度序列,在进行浓度异常检测时,需要将待处理浓度序列输入进训练完成的神经网络,因此在训练神经网络时,训练集样本的气体浓度数据是一个和待处理浓度序列等长的一个序列,而原始训练集采集了部分浓度异常的历史数据,此时为了分析训练集与待处理浓度序列之间对应关系,需要对训练集进行分割,将训练集的气体浓度数据分割为与待处理气体浓度序列等长的气体浓度数据。
进一步的,对于采集到的原始训练集,将原始训练集的所有浓度异常数据人为的打上标签,获得所有浓度异常标签,原始训练集内被打上浓度异常标签并且连续的数据组成一组异常数据,每组异常数据中的所有数据都是被打上浓度异常标签的数据,且这些数据在原始训练集中是在时序上连续的;由于每一组异常数据的长度不一致且与待处理浓度序列也不相同,因此需要对每一组异常数据进行补充。
进一步的,设待处理浓度序列长度为
Figure SMS_24
,在本实施例中,采集10min的数据,每1s采集一次数据,在训练集中一组异常数据长度小于
Figure SMS_25
时,对一组异常数据进行补充。
需要说明的是,本实施例不考虑异常数据长度大于
Figure SMS_26
的情况,对一组异常数据长度大于
Figure SMS_27
时,无法进行下面的计算,并且所采集的原始数据集是大量的历史数据,不会出现长度小于
Figure SMS_28
的异常数据较少的情况,因此即便不考虑异常数据长度大于
Figure SMS_29
的情况,也不会对本实施例后续的实施产生影响。若本实施例中获得的长度小于
Figure SMS_30
的异常数据较少,实施者可以通过将
Figure SMS_31
设置一个较大的值,保证长度小于
Figure SMS_32
的异常数据的组数量大于所有异常数据组数量的80%。
补充后记为异常浓度序列,使得异常浓度序列的长度与待处理浓度序列长度一致。具体需要在原始训练集中,选择每组异常数据最相邻的其他数据进行填充,此时需要判断相邻数据中哪些数据进行补充。具体过程如下:
首先确定长度为
Figure SMS_33
的空白序列,将一组异常数据放在空白序列当中,且空白序列中只包含一组异常数据,且该异常数据是一组完整的异常数据,令一组异常数据在空白序列中滑动,假设所有组异常数据中第i组异常数据的长度为
Figure SMS_34
,将该组异常数据填充在长度为
Figure SMS_35
的空白序列中,第一种填充方法是:该组异常数据的首位在空白序列的首位,第二种填充方法是:该组异常数据的第二位在空白序列的第二位,第三种填充方法是:该组异常数据的第三位在空白序列的第三位,以此类推,共计得到
Figure SMS_36
种填充方法,即对应的填充方法数量为
Figure SMS_37
,如图2所示。
上述第一种填充方法、第二种填充方法、第三种填充方法、……、第
Figure SMS_38
种填充方法记为第i组异常数据的填充顺序,本实施例中后续会按照该填充顺序依次更换第i组异常数据的填充方法。
若第i组异常数据的第一位和空白序列的第一位重合,那么将异常数据的最后一位后面填充的数据为原始训练集中异常数据后面的数据,直到将空白序列填满;若第i组异常数据在空白序列的中间,那么空白序列的前边部分补充为:异常数据在原始训练集中位置前面的正常数据,空白序列的后边部分补充为:异常数据在原始训练集中位置的后面部分的正常数据,补充数据时按照原始训练集的位置补充。
特殊地,空白序列中连续位置所填充的序列必须在原始训练集中连续。
特殊地,在异常数据两段连续相邻的正常数据不足以填充空白序列时,直接根据存在的正常数据,利用线性插值,进行正常数据延伸,直至正常数据足够空白序列的填充。但是当异常数据周围连续相邻的数据个数小于3时,直接舍弃当前异常数据,如图3所示,异常数据1和异常数据2数据个数小于3,舍弃当前异常数据。
异常浓度序列的正常数据平稳性计算模块,由于可填充方法的数量为
Figure SMS_39
个,此时需要在多个填充方法中筛选出最佳填充方法。由于第i组异常数据对应
Figure SMS_40
个填充方法,所有第i组异常数据对应
Figure SMS_41
个异常浓度序列,在本实施例中只需要第i组异常数据对应的一个异常浓度序列,由于此时不知道最佳填充方法是那个,因此令第一种填充方法得到的异常浓度序列进行后续计算。
首先,已知每组异常数据填充后作为异常浓度序列,此时所填充的数据即为异常数据周围的正常数据,此时所填充的正常数据分布可能具有差异性,但是在神经网络异常检测中,需要不同分布的正常数据特征具有均衡性,从而保证检测效果。此时为了准确描述正常数据的特征均衡性,首先需要确定正常数据的分布特征。本发明以正常数据的平稳性作为特征进行正常数据描述。
进一步的,在原始的训练集序列中,首先截取
Figure SMS_42
段长度为
Figure SMS_43
的正常数据,记这m段正常数据为背景数据序列,在本实施例中m=50,获得每一段背景数据序列对应的数据平稳性为
Figure SMS_44
,计算正常数据的平稳性公式如下:
Figure SMS_45
式中,
Figure SMS_47
Figure SMS_50
分别表示第u段背景数据序列的第v个、第v+1个浓度数据的取值,
Figure SMS_52
表示相邻数据的差异,其值越大,相邻数据的差异越大,
Figure SMS_48
表示
Figure SMS_49
个数据中相邻数据之间的差异均值,其值越大,数据分布越不平稳。
Figure SMS_51
表示
Figure SMS_53
个数据的方差,其值越大,数据整体分布差异越大,数据越不平稳。
Figure SMS_46
即表示第u段背景数据序列的数据平稳性,其值越大,数据越平稳。
进一步的,将所有背景数据序列的数据平稳性进行分类,以表示正常数据平稳性的种类。本发明直接采用K-means聚类,设置聚簇数量为N0,输入为所获得所有背景数据序列的数据平稳性,聚类距离为聚类中心的数据平稳性与其余序列的数据平稳性的差值,直接输出N0个类别,本实施例中设置N0=3。
此时将所获得的正常数据平稳性分为3类,其中每一类都有一个数据平稳性的最大值和一个数据平稳性的最小值记两个分界值,因为每个类别所包含的数据分别对应两个分界值,所有分界值从小到大分别表示为
Figure SMS_66
,此时为了对原始训练集中所有背景数据平稳特征的均衡性,首先需要对平稳性进行区分,上述
Figure SMS_57
中,本实施例中将
Figure SMS_62
Figure SMS_58
Figure SMS_65
Figure SMS_59
分别表示不同种类
Figure SMS_64
的分割值,其分割值表示这几个值之间没有任何背景数据序列的数据平稳性,此时
Figure SMS_69
Figure SMS_72
所表示的分割值为
Figure SMS_54
,记
Figure SMS_63
为第一分割阈值,在
Figure SMS_67
Figure SMS_70
不相等时,
Figure SMS_68
即为
Figure SMS_71
Figure SMS_55
的中间值。同理获得
Figure SMS_61
Figure SMS_56
所表示第二分割阈值为
Figure SMS_60
。其中,第一分割阈值和第二分割阈值是将正常数据平稳性分类的分割值。
获得所有训练集中正常数据平稳分类分割值记为
Figure SMS_73
Figure SMS_74
,然后
Figure SMS_75
Figure SMS_76
将所有数据平稳性分为三类。
在上述步骤中,确定正常数据的平稳分类分割值,分组异常数据所填充的背景数据平稳性类别也同样分在这三类。此时为了提高异常检测效果,首先需要所有分组异常数据所填充的背景数据平稳性类别均衡,即所有分组异常数据中所填充的背景数据对应不同平稳性类别数量尽量一致。
进一步的,对于异常数据填充后的异常浓度序列来说,在保持正常数据平稳性类别均衡之前,首先需要确定不同填充方法对应的背景数据平稳性特征。由于填充之后的异常浓度序列里面的正常数据可能存在一段连续或者两段连续,因此计算异常浓度序列中正常数据的数据平稳性公式如下:
Figure SMS_77
式中,
Figure SMS_79
表示第i个异常浓度序列左侧所填充的连续
Figure SMS_83
个正常数据的平稳性,
Figure SMS_85
表示当前第i个异常浓度序列中所需要填充正常数据的数量,
Figure SMS_80
表示异常浓度序列左侧正常数据个数占比,其值越大,
Figure SMS_84
对所有填充正常数据平稳性的表现程度越大,所以
Figure SMS_87
表示异常浓度序列左侧所填充的连续
Figure SMS_89
个正常数据所表现的所有正常数据的平稳性。
Figure SMS_78
表示第i个异常浓度序列右侧所填充的连续
Figure SMS_82
个正常数据的平稳性,
Figure SMS_86
表示异常浓度序列右侧所填充的连续
Figure SMS_88
个正常数据所表现的所有正常数据的平稳性。其中,当异常浓度序列一侧正常数据数量小于等于1时,无法计算其平稳性,此时令其平稳性为0。
Figure SMS_81
即表示第i组异常数据使用第一种方法填充后的异常浓度序列的正常数据平稳性。
异常浓度序列均衡化调整模块,对于所有异常浓度序列的填充过程,如果进行逐个填充,则开始填充阶段所填充背景数据较少,无法体现正常数据平稳性的类别分布,所以本实施例采用整体随机填充,然后对填充进行调整,以使得所有异常浓度序列中正常数据平稳性类别分布均衡。具体调整过程如下:
首先,计算所有异常浓度序列的正常数据平稳性,利用第一分割阈值
Figure SMS_90
和第二分割阈值
Figure SMS_91
将所有异常浓度序列的正常数据平稳性分为三类;其中
Figure SMS_92
的异常浓度序列分为一类,称为A1类,
Figure SMS_93
的异常浓度序列分为一类,称为A2类,
Figure SMS_94
的异常浓度序列分为一类,称为A3类。然后统计A1,A2,A3每类的异常浓度序列数量占比a1,a2,a3。
进一步的,在a1,a2,a3中找到最大值
Figure SMS_95
和最小值
Figure SMS_96
,确定其对应的数据平稳性类别,数据平稳性类别指的就是A1,A2,A3这三类,A1类表示类中异常浓度序列的数据平稳性较小,A2类表示类中异常浓度序列的数据平稳性适中,A3类表示类中异常浓度序列的数据平稳性较大,然后对于
Figure SMS_97
对应类别的异常浓度序列,将每组异常数据按照填充顺序更换每组异常数据的填充方法,得到新的异常浓度序列,使得所填充的正常数据平稳性在上述最小值
Figure SMS_98
对应类别平稳性区间中。此时上述异常浓度序列中,数量最多类型的异常浓度序列数逐步减少,数量最少类型的异常浓度序列数逐步增多,这样做的目的是避免某一类异常浓度序列较少导致训练样本不均衡,进而导致神经网络检测精度降低,最终导致气体浓度检测精度降低,使得不同类型的分组数量逐步均衡,也即保证不同的正常数据平稳性取值范围对应的异常浓度序列数量是差别不大的。
进一步的,计算于
Figure SMS_99
对应类别的异常浓度序列中,每组异常数据所对应的多个正常数据填充方法得到多个正常数据平稳性,然后判断每一组异常数据对应不同填充方法得到的异常浓度序列中正常数据平稳性的差异性
Figure SMS_100
,其中
Figure SMS_101
Figure SMS_102
分别表示多种填充方式中正常数据平稳性的最大值和最小值,
Figure SMS_103
表示当前平稳性范围,其值越大,调整后能够达到调整效果的可能性越大,
Figure SMS_104
表示多种填充方式中正常数据的数量,其值越大,平稳性之间的差异越大,调整前后平稳性差异越大,调整的必要性越大。
进一步的,在分类最大的类型的所有异常浓度序列中,按照对应正常数据平稳性差异
Figure SMS_105
从大到小排列,然后根据所排序列依次对对应分组数据的正常数据填充方法进行调整。
异常浓度序列的正常数据填充调整过程中,为了保证填充效果,避免过度调整,需要进行调整方法的多次判断。本实施例设置连续调整异常浓度序列个数p,即在连续调整p个异常浓度序列后,需要重新判断不同类型异常浓度序列占比,重新判断平稳性调整方法,然后根据上述步骤,继续进行调整。本实施例设置p=10。
在上述调整过程进行中,A1,A2,A3类正常数据对应的异常浓度序列数量占比a1,a2,a3逐渐实现均衡化,即a1,a2,a3差异逐渐减少,最终在a1,a2,a3最大值与最小值的差异小于a0时,停止异常浓度序列正常数据填充方法的调整,本发明设置a0=1/10。
至此,利用异常浓度序列正常数据提案中方法的调整,使得异常浓度序列类别均衡化。
待处理浓度序列识别模块,通过上述步骤,在原始训练集序列中,通过正常数据的填充,获得包含异常数据与正常数据的最终异常浓度序列。此时最终异常浓度序列表示了所有的异常数据特征以及异常数据与正常数据的对应特征,所以此时直接将所有最终异常浓度序列作为训练集,即获得与待处理浓度序列长度一致的训练集。
获得与待处理浓度序列长度一致的最终异常浓度序列训练集,最终异常浓度序列训练集对每个最终异常浓度序列进行标注,将正常浓度数据标注为1,将异常浓度数据标注为0,这些标注结果作为每个最终异常浓度序列的标签,利用最终异常浓度序列训练集进行神经网络训练,所用loss函数为交叉熵损失函数,网络的作用是识别浓度异常的气体浓度数据,训练完成后,此时利用BP神经网络对待分析的气体浓度数据进行异常检测,进而实现待处理浓度序列中异常浓度的检测。完成气体浓度检测用数据的处理,实现异常浓度的识别。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (6)

1.一种气体浓度检测用数据处理系统,其特征在于,该系统包括:
数据采集模块,采集待处理的气体浓度作为待处理浓度序列,采集的气体浓度历史数据作为原始训练集;
异常数据填充模块,在原始数据集中得到若干组异常数据,得到与待处理浓度序列长度相同的空白序列,将每组异常数据按照不同填充方法放在空白序列当中得到每组异常数据对应的多个异常浓度序列;
异常浓度序列的正常数据平稳性计算模块,在原始训练集中,得到若干段长度与待处理浓度序列相同的正常数据记为背景数据序列,根据每一段背景数据序列中所有相邻两个的正常数据、所有正常数据的方差以及正常数据的数量得到每一段背景数据序列的数据平稳性;对所有的背景数据序列的数据平稳性进行聚类分类得到正常数据平稳分类分割值;根据异常浓度序列的正常数据数量以及正常数据的数据平稳性计算每个异常浓度序列的正常数据平稳性;
异常浓度序列均衡化调整模块,根据正常数据平稳分类分割值将所有异常浓度序列分为三类,获得三类中得到数量最多一类和数量最少一类,数量最多一类的异常浓度序列对应的每组异常数据更换填充方法,得到新的异常浓度序列,使得新的异常浓度序列的正常数据平稳性处于数量最少一类中;
首先计算最多一类的异常浓度序列中,每组异常数据对应的多个异常浓度序列的正常数据平稳性,记为第一平稳性集合,根据第一平稳性集合中最大正常数据平稳性和最小正常数据平稳性得到所有每组异常数据的平稳性差异值,根据每一类的异常浓度序列的数量占比、每组异常数据的平稳性差异值以及调整次数对异常浓度序列进行均衡化调整得到最终浓度序列;
待处理浓度序列识别模块,使用均衡化调整后的最终异常浓度序列对神经网络进行训练,将待处理浓度序列输入神经网络得到异常浓度的识别结果。
2.根据权利要求1所述的一种气体浓度检测用数据处理系统,其特征在于,所述将每组异常数据按照不同填充方法放在空白序列当中得到每组异常数据对应的多个异常浓度序列的方法为:
将一组异常数据放在空白序列当中,异常数据在空白序列中存在若干填充方法得到若干异常浓度序列,第一种填充方法是:异常数据的首位在空白序列的首位,第二种填充方法是:异常数据的第二位在空白序列的第二位,依次类推,最后一种填充方法是:异常数据的最后一位在空白序列的最后一位,空白序列当中的空白位置填充异常数据在原始数据集的临近部分,即填充完后的异常浓度序列被原始数据集包含,一个异常浓度序列中只存在一组异常数据。
3.根据权利要求1所述的一种气体浓度检测用数据处理系统,其特征在于,所述根据每一段背景数据序列中所有相邻两个的正常数据、所有正常数据的方差以及正常数据的数量得到每一段背景数据序列的数据平稳性的方法为:
Figure QLYQS_1
式中,
Figure QLYQS_2
Figure QLYQS_3
分别表示第u段背景数据序列的第v个、第v+1个浓度数据的取值,
Figure QLYQS_4
表示背景数据序列的长度,
Figure QLYQS_5
表示背景数据序列中所有数据的方差,
Figure QLYQS_6
表示第u段背景数据序列的数据平稳性。
4.根据权利要求1所述的一种气体浓度检测用数据处理系统,其特征在于,所述对所有的背景数据序列的数据平稳性进行聚类分类得到正常数据平稳分类分割值的方法为:
将所有背景数据序列按照数据平稳度聚成三类,每类存在一个数据平稳度的最小值和最大值,令最小值和最大值为分界值,得到三类背景数据序列的6个分界值,分界值从小到大排序,表示为
Figure QLYQS_9
Figure QLYQS_11
Figure QLYQS_13
Figure QLYQS_8
Figure QLYQS_12
分别表示不同背景数据序列的分割值,两个平稳分类分割值
Figure QLYQS_14
Figure QLYQS_15
分别表示为:
Figure QLYQS_7
Figure QLYQS_10
5.根据权利要求1所述的一种气体浓度检测用数据处理系统,其特征在于,所述根据异常浓度序列的正常数据数量以及正常数据的数据平稳性计算每个异常浓度序列的正常数据平稳性的方法为:
Figure QLYQS_16
式中,
Figure QLYQS_17
表示第i个异常浓度序列左侧所填充的连续
Figure QLYQS_18
个正常数据的平稳性,
Figure QLYQS_19
表示当前第i个异常浓度序列中所需要填充正常数据的数量,
Figure QLYQS_20
表示第i个异常浓度序列右侧所填充的连续
Figure QLYQS_21
个正常数据的平稳性,
Figure QLYQS_22
表示第i个异常浓度序列所填充的正常数据的平稳性。
6.根据权利要求1所述的一种气体浓度检测用数据处理系统,其特征在于,所述根据每一类的异常浓度序列的数量占比、每组异常数据的平稳性差异值以及调整次数对异常浓度序列进行均衡化调整得到最终浓度序列的方法为:
将三类异常浓度序列数量占比记为a1,a2,a3,找到三个类中数量的最大值和最小值,记为数量最多一类和数量最少一类,将数量最多一类向数量最少一类进行调整,调整次数为p次,其中计算数量最多一类中的平稳性差异值,将平稳性差异值从大到小排序,从最大的开始调整,按照顺序依次调整p个,调整就是更改异常浓度序列中异常数据的位置使异常浓度序列的数据平稳性从数量最多一类到数量最少一类,每调整p次为一次迭代,重新计算三类的占比,直到三类之间数量最多一类和数量最少一类占比相差小于预设数值时,此时得到的三类中的异常浓度序列为最终异常浓度序列,p为预设个数。
CN202310160463.3A 2023-02-24 2023-02-24 一种气体浓度检测用数据处理系统 Active CN115982557B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310160463.3A CN115982557B (zh) 2023-02-24 2023-02-24 一种气体浓度检测用数据处理系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310160463.3A CN115982557B (zh) 2023-02-24 2023-02-24 一种气体浓度检测用数据处理系统

Publications (2)

Publication Number Publication Date
CN115982557A true CN115982557A (zh) 2023-04-18
CN115982557B CN115982557B (zh) 2023-05-23

Family

ID=85963441

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310160463.3A Active CN115982557B (zh) 2023-02-24 2023-02-24 一种气体浓度检测用数据处理系统

Country Status (1)

Country Link
CN (1) CN115982557B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116400639A (zh) * 2023-06-08 2023-07-07 佛山市星际云数字科技有限公司 一种plc采集数据智能清洗方法及系统
CN116500240A (zh) * 2023-06-21 2023-07-28 江西索立德环保服务有限公司 一种土壤环境质量监测方法、系统及可读存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2872783A1 (en) * 2014-12-01 2016-06-01 David Andrew Risk Gas emission detection device, system and method
CN107664690A (zh) * 2017-07-28 2018-02-06 国网信通亿力科技有限责任公司 一种预测变压器油中溶解气体浓度的方法
CN111476278A (zh) * 2020-03-20 2020-07-31 淮阴工学院 一种气体浓度智能化检测系统
CN111931868A (zh) * 2020-09-24 2020-11-13 常州微亿智造科技有限公司 时间序列数据异常检测方法和装置
CN113780420A (zh) * 2021-09-10 2021-12-10 湖南大学 基于gru-gcn的变压器油中溶解气体浓度预测方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2872783A1 (en) * 2014-12-01 2016-06-01 David Andrew Risk Gas emission detection device, system and method
US20160161456A1 (en) * 2014-12-01 2016-06-09 St. Francis Xavier University Gas emission detection device, system and method
CN107664690A (zh) * 2017-07-28 2018-02-06 国网信通亿力科技有限责任公司 一种预测变压器油中溶解气体浓度的方法
CN111476278A (zh) * 2020-03-20 2020-07-31 淮阴工学院 一种气体浓度智能化检测系统
CN111931868A (zh) * 2020-09-24 2020-11-13 常州微亿智造科技有限公司 时间序列数据异常检测方法和装置
CN113780420A (zh) * 2021-09-10 2021-12-10 湖南大学 基于gru-gcn的变压器油中溶解气体浓度预测方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
杜鸿飞;谢光忠;: "基于优化的GA-BP网络算法的混合气体识别", 电子元件与材料 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116400639A (zh) * 2023-06-08 2023-07-07 佛山市星际云数字科技有限公司 一种plc采集数据智能清洗方法及系统
CN116400639B (zh) * 2023-06-08 2023-08-11 佛山市星际云数字科技有限公司 一种plc采集数据智能清洗方法及系统
CN116500240A (zh) * 2023-06-21 2023-07-28 江西索立德环保服务有限公司 一种土壤环境质量监测方法、系统及可读存储介质
CN116500240B (zh) * 2023-06-21 2023-12-29 江西索立德环保服务有限公司 一种土壤环境质量监测方法、系统及可读存储介质

Also Published As

Publication number Publication date
CN115982557B (zh) 2023-05-23

Similar Documents

Publication Publication Date Title
CN115982557A (zh) 一种气体浓度检测用数据处理系统
CN112189877B (zh) 用于烟草生产线烟丝杂质的在线检测方法
CN115018838B (zh) 用于被氧化钢管材料表面麻点瑕疵的识别方法
CN105975518B (zh) 基于信息熵的期望交叉熵特征选择文本分类系统及方法
CN106682454B (zh) 一种宏基因组数据分类方法和装置
CN115021679B (zh) 一种基于多维离群点检测的光伏设备故障检测方法
CN109949863B (zh) 一种基于随机森林模型鉴别大曲质量的方法
CN110569883B (zh) 基于Kohonen网络聚类和ReliefF特征选择的空气质量指数预测方法
CN110659682A (zh) 一种基于MCWD-KSMOTE-AdaBoost-DenseNet算法的数据分类方法
CN112101765A (zh) 一种配电网运行指标数据异常数据处理方法及系统
CN115510302A (zh) 基于大数据统计的智能工厂数据分类方法
CN112817954A (zh) 一种基于多种方法集成学习的缺失值插补方法
CN112417893A (zh) 一种基于语义层次聚类的软件功能需求分类方法及系统
CN116308963A (zh) 一种政务数据分析方法及系统
CN116561230B (zh) 一种基于云计算的分布式存储与检索系统
CN109508350B (zh) 一种对数据进行采样的方法和装置
CN111488903A (zh) 基于特征权重的决策树特征选择方法
CN110542659A (zh) 基于可见光光谱的珍珠光泽检测方法
CN113935963B (zh) 一种荔枝种胚发育程度的图像识别检测方法及系统
Pereira et al. Assessing active learning strategies to improve the quality control of the soybean seed vigor
CN104992436B (zh) 一种自然场景中的图像分割方法
CN111986696B (zh) 一种高效处理歌曲音量均衡的方法
CN114390002A (zh) 基于分组条件熵的网络流量多模块聚类异常检测方法
CN112214655A (zh) 基于密度的多自适应阈值解决密度不均数据集的聚类方法
CN117370898B (zh) 一种电子数据安全管控系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant