CN111860645B - 挥发性有机物观测数据中缺省值的修复方法及装置 - Google Patents
挥发性有机物观测数据中缺省值的修复方法及装置 Download PDFInfo
- Publication number
- CN111860645B CN111860645B CN202010701051.2A CN202010701051A CN111860645B CN 111860645 B CN111860645 B CN 111860645B CN 202010701051 A CN202010701051 A CN 202010701051A CN 111860645 B CN111860645 B CN 111860645B
- Authority
- CN
- China
- Prior art keywords
- value
- default value
- default
- repairing
- neural network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 239000012855 volatile organic compound Substances 0.000 title claims abstract description 109
- 238000000034 method Methods 0.000 title claims abstract description 53
- 238000013528 artificial neural network Methods 0.000 claims abstract description 79
- 238000012549 training Methods 0.000 claims abstract description 38
- 125000004122 cyclic group Chemical group 0.000 claims abstract description 27
- 230000009897 systematic effect Effects 0.000 claims abstract description 13
- 230000002159 abnormal effect Effects 0.000 claims description 32
- 230000008439 repair process Effects 0.000 claims description 18
- 238000012545 processing Methods 0.000 claims description 11
- 238000004590 computer program Methods 0.000 claims description 6
- 230000000694 effects Effects 0.000 abstract description 9
- CBENFWSGALASAD-UHFFFAOYSA-N Ozone Chemical compound [O-][O+]=O CBENFWSGALASAD-UHFFFAOYSA-N 0.000 description 4
- 238000010606 normalization Methods 0.000 description 4
- 230000002265 prevention Effects 0.000 description 4
- 238000012360 testing method Methods 0.000 description 4
- 230000002411 adverse Effects 0.000 description 3
- 230000001174 ascending effect Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000012544 monitoring process Methods 0.000 description 3
- 230000005856 abnormality Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000003908 quality control method Methods 0.000 description 2
- 239000000126 substance Substances 0.000 description 2
- 206010010071 Coma Diseases 0.000 description 1
- 206010010904 Convulsion Diseases 0.000 description 1
- 241000288105 Grus Species 0.000 description 1
- 206010019233 Headaches Diseases 0.000 description 1
- 206010028813 Nausea Diseases 0.000 description 1
- 206010047700 Vomiting Diseases 0.000 description 1
- 238000011276 addition treatment Methods 0.000 description 1
- 239000000443 aerosol Substances 0.000 description 1
- HSFWRNGVRCDJHI-UHFFFAOYSA-N alpha-acetylene Natural products C#C HSFWRNGVRCDJHI-UHFFFAOYSA-N 0.000 description 1
- 229960003965 antiepileptics Drugs 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 210000003169 central nervous system Anatomy 0.000 description 1
- 230000036461 convulsion Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 125000002534 ethynyl group Chemical group [H]C#C* 0.000 description 1
- 231100000869 headache Toxicity 0.000 description 1
- 210000003734 kidney Anatomy 0.000 description 1
- 210000004185 liver Anatomy 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 230000008897 memory decline Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008693 nausea Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 150000002894 organic compounds Chemical class 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 239000002243 precursor Substances 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 229920006395 saturated elastomer Polymers 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 208000024891 symptom Diseases 0.000 description 1
- 230000008673 vomiting Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computational Linguistics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Testing And Monitoring For Control Systems (AREA)
- Investigating Or Analyzing Materials By The Use Of Electric Means (AREA)
Abstract
本申请公开了一种挥发性有机物观测数据中缺省值的修复方法及装置。该方法包括:利用挥发性有机物历史观测数据分别对自编码神经网络和循环门控神经网络进行训练;判断单一时次挥发性有机物观测数据的缺省值所属的类型;若缺省值属于零星缺省类型,则依次通过均值修复法和训练好的自编码神经网络对缺省值进行修复;若缺省值属于系统性缺省类型,则利用训练好的循环门控神经网络对所述缺省值进行修复。本申请的方法,选取均值修复法、训练好的自编码神经网络和训练好的循环门控神经网络,根据缺省值的不同类型,对挥发性有机物观测数据进行修复,修复效果好,可以极大提高挥发性有机物观测数据的质量。
Description
技术领域
本申请涉及环境监测技术领域,具体涉及一种挥发性有机物观测数据中缺省值的修复方法及装置。
背景技术
挥发性有机物(Volatile Organic Compounds,VOCs)是指饱和蒸气压高、在常温常压下易挥发的有机化合物。高浓度的VOCs会给人类活动和生态环境带来不利影响,暴露在浓度超过一定阈值的VOCs环境中,会引起头痛、恶心、呕吐等不良症状,长期接触会抽搐、昏迷和记忆力衰退,甚至会给人的肝脏、肾脏和中枢神经系统产生不利影响;同时,作为二次有机气溶胶和臭氧的重要前体物,高浓度VOCs是导致城市臭氧、颗粒物污染过程的主要因子之一。
大气中VOCs包含成千上百种物质,VOCs来源复杂,产业结构、下垫面、气候等不同导致不同地区的VOCs的典型组分及其整体化学活性存在显著差异。VOCs的复杂性直接增加了臭氧、颗粒物污染的防控难度,基于高质量的VOCs观测数据,弄清特定地区的VOCs时空变化特征,成为科学制定臭氧等污染防控措施的核心问题。
当下VOCs观测仪器已有长足发展,但相对常规六参数观测仪器,仍存在较多不足,其监测结果存在大量缺省值,大大降低数据的利用价值,VOCs观测数据出现缺省值主要是由于VOCs观测仪器运行不稳定导致的观测数据未记录或者VOCs组分未检出。如何有效地修复VOCs观测数据中的缺省值成为提升VOCs观测数据质量的关键。现有技术对VOCs观测数据的修复研究尚属空白。
发明内容
本申请的目的是提供一种挥发性有机物观测数据中缺省值的修复方法及装置。为了对披露的实施例的一些方面有一个基本的理解,下面给出了简单的概括。该概括部分不是泛泛评述,也不是要确定关键/重要组成元素或描绘这些实施例的保护范围。其唯一目的是用简单的形式呈现一些概念,以此作为后面的详细说明的序言。
根据本申请实施例的一个方面,提供一种挥发性有机物观测数据中缺省值的修复方法,包括:
利用挥发性有机物历史观测数据分别对自编码神经网络和循环门控神经网络进行训练;
判断单一时次挥发性有机物观测数据的缺省值所属的类型;
若所述缺省值属于零星缺省类型,则依次通过均值修复法和训练好的自编码神经网络对所述缺省值进行修复;
若所述缺省值属于系统性缺省类型,则利用训练好的循环门控神经网络对所述缺省值进行修复。
进一步地,所述依次通过均值修复法和训练好的自编码神经网络对所述缺省值进行修复,包括:
利用均值修复法获得所述缺省值的初始填补值;
利用训练好的自编码神经网络对所述初始填补值进行优化处理得到优化填补值;
利用所述优化填补值填补所述缺省值。
进一步地,所述利用均值修复法获得所述缺省值的初始填补值,包括:
从所述单一时次挥发性有机物观测数据中查找出所述缺省值所属日期之前若干天中与所述缺省值时次相同的观测数据;
计算所有所述与所述缺省值时次相同的观测数据的平均值,利用所述平均值作为所述缺省值的初始填补值。
进一步地,所述利用训练好的循环门控神经网络对所述缺省值进行修复,包括:
判断所述缺省值是否位于连续时次缺省值序列中;
若否,则将所述缺省值前若干个时次的观测数据输入到训练好的循环门控神经网络中进行处理,得到所述缺省值的修复值;
若是,则利用训练好的循环门控神经网络对所述连续时次缺省值序列中的各缺省值按照时次顺序进行修复。
进一步地,所述利用训练好的循环门控神经网络对所述连续时次缺省值序列中的各缺省值按照时次顺序进行修复,包括:
针对所述连续时次缺省值序列中时次顺序上的第一个缺省值,将所述第一个缺省值前若干个时次的观测数据输入到所述训练好的循环门控神经网络中,输出所述第一个缺省值的修复值;
利用所述第一个缺省值的修复值填补所述第一个缺省值;
采用修复所述第一个缺省值的方法,按照时次顺序对所述连续时次缺省值序列中剩余的缺省值进行修复,直至所述剩余的缺省值均修复完成为止。
进一步地,所述判断单一时次挥发性有机物观测数据的缺省值所属的类型,包括:
若所述单一时次挥发性有机物观测数据中,存在缺省值的组分种类数量小于等于组分种类总数量的预设占比阈值,则确定所述缺省值属于零星缺省类型;
否则,确定所述缺省值属于系统性缺省类型。
进一步地,所述利用挥发性有机物历史观测数据分别对自编码神经网络和循环门控神经网络进行训练,包括:
获取一段时间的挥发性有机物历史观测数据;
通过百分位阈值法,确定挥发性有机物历史观测数据中各组分浓度数据的异常阈值和正常数据;其中,异常阈值包括异常高值阈值和异常低值阈值;
利用所述正常数据构建训练数据集,通过所述训练数据集分别对自编码神经网络和循环门控神经网络进行训练。
根据本申请实施例的另一个方面,提供一种挥发性有机物观测数据中缺省值的修复装置,包括:
训练模块,用于利用挥发性有机物历史观测数据分别对自编码神经网络和循环门控神经网络进行训练;
判断模块,用于判断单一时次挥发性有机物观测数据的缺省值所属的类型;
第一修复模块,用于若所述缺省值属于零星缺省类型,则依次通过均值修复法和训练好的自编码神经网络对所述缺省值进行修复;
第二修复模块,用于若所述缺省值属于系统性缺省类型,则利用训练好的循环门控神经网络对所述缺省值进行修复。
根据本申请实施例的另一个方面,提供一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述程序,以实现上述的挥发性有机物观测数据中缺省值的修复方法。
根据本申请实施例的另一个方面,提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行,以实现上述的挥发性有机物观测数据中缺省值的修复方法。
本申请实施例的其中一个方面提供的技术方案可以包括以下有益效果:
本申请实施例提供的挥发性有机物观测数据中缺省值的修复方法,选取均值修复法、训练好的自编码神经网络和训练好的循环门控神经网络,根据缺省值的不同类型,对挥发性有机物观测数据进行修复,修复值准确度高,修复效果好,可以极大提高挥发性有机物观测数据的质量,从而为大气污染科学防控提供更为有力的技术支撑。
本申请的其他特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者,部分特征和优点可以从说明书中推知或毫无疑义地确定,或者通过实施本申请实施例了解。本申请的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出了本申请的一个实施例的挥发性有机物观测数据中缺省值的修复方法的步骤示意图;
图2示出了图1所对应的实施例中步骤C所包括的步骤流程图;
图3示出了7日周期计算法的原理示意图;
图4示出了本申请的一个实施例的挥发性有机物观测数据中缺省值的修复装置的结构框图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,下面结合附图和具体实施例对本申请做进一步说明。应当理解,此处所描述的具体实施例仅用以解释本申请,并不用于限定本申请。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语),具有与本申请所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语,应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样被特定定义,否则不会用理想化或过于正式的含义来解释。
挥发性有机物(VOCs)观测可以在同一时次获得多种挥发性有机物的浓度数据,不同种类的挥发性有机物具有一定的相关性,且挥发性有机物的浓度变化具有较好的时间依赖性和周期性,因此可以根据VOCs观测数据的时间依赖性和周期性特点对VOCs观测数据缺省值进行修复。
如图1所示,本申请的一个实施例提供了一种挥发性有机物观测数据中缺省值的修复方法,包括步骤A至步骤D。
步骤A:利用挥发性有机物历史观测数据分别对自编码神经网络和循环门控神经网络进行训练。
步骤A包括:
S10、获取一段时间的挥发性有机物历史观测数据。
收集过去一段时间(一般为一年以上的时间)的挥发性有机物(VOCs)观测数据。挥发性有机物(VOCs)观测数据中包括各组分的含量。
S20、通过百分位阈值法,确定挥发性有机物(VOCs)历史观测数据中各组分浓度数据的异常阈值和正常数据;其中,异常阈值包括异常高值阈值和异常低值阈值。通过步骤S20筛选出正常数据,能实现对挥发性有机物历史观测数据的初步质量控制。
在某些实施方式中,步骤S20包括:
S201、对挥发性有机物历史观测数据中的各组分浓度按升序排列(不考虑0以下的值,0以下的值可能是由于监测仪器故障导致的),得到序列。该序列中的各数据称为数据项,每个数据项在序列中的位置序号称为数据项序号。
例如,对于升序排列得到的序列{a1,a2,a3,……,an,……a100},其中,a1<a2<a3<……<an<……<a100,每一个数据项的下标1、2、3、……、n、……100即代表位置序号,即数据项序号。
然后,通过步骤S202-S205确定该序列中的异常阈值。
S202、设定所述各组分浓度的异常值百分位数。
根据挥发性有机物历史观测数据的概率分布特征(正态分布)和各百分位数的数据量梯度变化,设定各个组分的含量异常值百分位数(异常小和异常大)。例如,异常高值百分位数可以设定为95%,异常低值百分位数可以设定为5%。
S203、计算异常值百分位数所对应的数据。
在某些实施方式中,计算异常值百分位数所对应的数据,包括:
计算异常值百分位数所对应的数据项序号;
将序列的数据个数与异常值百分位数相乘,计算得到数值;
当异常值百分位数计算得到的数值为整数时,则将与该数值相等的数据项序号所对应的数据作为所述异常值百分位数所对应的数据;
例如,收集两年时间的VOCs观测数据,将每次观测的乙炔含量观测数据按升序排列,得到一个序列,该序列中共有24×365×2个数据。当异常值百分位数所对应的数值为整数时,例如异常高值百分位数设定为95%,异常低值百分位数设定为5%,则第95百分位数所对应的数值为24×365×2×95%=16644,第5百分位数所对应的数值为24×365×2×5%=876,异常高值阈值为第16644个数据的值,异常低值阈值为第876个数据的值,则将第876和第16644个数据之间的数据确定为正常数据,其他数据确定为异常数据。
当异常值百分位数计算得到的数值为非整数时,则对该非整数的数值进行取整,将与该取整数值相等的数据项序号所对应的数据作为所述异常值百分位数所对应的数据;或者,
当异常值百分位数计算得到的数值为非整数时,则计算该非整数数值相邻的前一数据项序号和后一数据项序号分别所对应的数据的平均值,以所述平均值作为所述异常值百分位数所对应的数据。
具体地,当异常值百分位数所对应的数值为非整数时,例如异常高值百分位数设定为97%,异常低值百分位数设定为3%,则第97百分位数所对应的数值为24×365×2×97%=16994.4,第3百分位数所对应的数值为24×365×2×3%=525.6,则对数值进行取整处理,可以为向上取整(16994.4向上取整后为16995,525.6向上取整后为526)也可以为向下取整(16994.4向下取整后为16994,525.6向下取整后为525),也可以为四舍五入法取整(16994.4四舍五入取整后为16994,525.6四舍五入取整后为526)。以四舍五入法取整为例,则异常高值阈值为第16994个数据的值,异常低值阈值为第526个数据的值。或者,分别计算16994.4与525.6相邻的前一数据项序号和后一数据项序号所对应的数据的平均值,即以第16994个数据的值和第16995个数据的值的平均值作为第97百分位数所对应的数据的值(即异常高值阈值),以第525个数据的值和第526个数据的值的平均值作为第3百分位数所对应的数据的值(即异常低值阈值)。
S204、通过异常值百分位数所对应的数据,确定各组分浓度的异常低值阈值和异常高值阈值。
S205、将在异常低值阈值和异常高值阈值之间的数据确定为正常数据,将该序列中除了正常数据之外的其他数据确定为异常数据。
通过确定VOCs历史观测数据的异常阈值、异常数据和正常数据,实现对VOCs历史观测数据的初步质量控制。
S30、利用VOCs历史观测数据的正常数据构建训练数据集和检验数据集,通过训练数据集分别对自编码神经网络(AED)和循环门控神经网络(GRU)进行训练;利用检验数据集检验训练后的AED和GRU是否达到预设标准。
对自编码神经网络(AED)进行训练的步骤,包括:
S301、将VOCs历史观测数据进行归一化处理;
S302、对归一化处理后的数据进行加噪处理,以便提高AED的泛化能力;
S303、将加噪处理后的数据输入AED中进行梯度下降训练后,输出数据;
S304、对从AED输出的数据进行反归一化处理,得到反归一化后的数据;
将检验数据集输入AED中处理,根据AED对检验数据集的处理效果检验该AED的参数是否达到预定标准;
S305、如果经过训练后的AED的参数达到预定标准,则确定训练完成;
S306、否则,继续训练AED,直至训练完成为止。预定标准是根据经验预先设定的。
经过多轮梯度下降训练后,确定符合标准的AED参数,得到训练好的AED。
对循环门控神经网络(GRU)进行训练的步骤,包括:
S301’、从标准化处理后的训练样本集中,选取若干小时(例如3小时)时间的连续数据;
S302’、将所述若干小时时间的连续数据作为GRU的输入,输出某一小时(例如第4小时)的预测数据;
S303’、将所述某一小时(例如第4小时)的预测数据与所述某一小时的真实数据进行对比;真实数据从训练样本集中获得;
S304’、若差值达到预设阈值,则训练完成;预设阈值是根据经验预先设定的;
S305’、否则,继续训练,直至训练完成为止。
利用每种组分的数据对GRU模型进行训练,经过多轮梯度下降训练,得到符合预设标准要求的GRU参数,得到训练好的GRU。预设标准要求是根据经验预先设定的。
步骤B:判断单一时次挥发性有机物观测数据的缺省值所属的类型。
缺省值的类型有零星缺省类型和系统性缺省类型两种。
在某些实施方式中,步骤B包括:若所述单一时次挥发性有机物观测数据中,存在缺省值的组分种类数量小于等于组分种类总数量的预设占比阈值,则确定所述缺省值属于零星缺省类型;否则,确定所述缺省值属于系统性缺省类型。
在某些实施方式中,步骤B包括:
B1、根据单一时次VOCs观测数据的缺省状况,判断该单一时次VOCs观测数据的缺省类型;
B2、若该单一时次VOCs观测数据中,存在缺省值的组分种类数量小于等于组分种类总数量的预设占比阈值(预设占比阈值例如可以为20%或根据经验预先设定的其他值),则确定该单一时次VOCs观测数据的缺省值的缺省类型属于零星缺省类型;
B3、若该单一时次VOCs观测数据中,存在缺省值的组分种类数量大于组分种类总数量的预设占比阈值(预设占比阈值例如可以为20%或根据经验预先设定的其他值),则确定该单一时次VOCs观测数据的缺省值的缺省类型属于系统性缺省类型。
步骤C:若所述缺省值属于零星缺省类型,则依次通过均值修复法和训练好的自编码神经网络对所述缺省值进行修复。
所述依次通过均值修复法和训练好的自编码神经网络对所述缺省值进行修复,如图2所示,包括:
S40、利用均值修复法获得所述缺省值的初始填补值。
步骤S40包括:
S401、从所述单一时次挥发性有机物观测数据中查找出所述缺省值所属日期之前若干天中与所述缺省值时次相同的观测数据;
S402、计算所有所述与所述缺省值时次相同的观测数据的平均值,利用所述平均值作为所述缺省值的初始填补值。
具体地,对单一时次的缺省值进行均值填补,采用的均值修复法为7日(或者大于7日的天数,例如30天、40天等)周期计算法,具体执行为:采用缺省VOCs组分的前七天(或者大于七天的天数,例如30天、40天等)的同一时次的观测数据的平均值填补缺省的单一时次观测数据。
例如,如图3所示,当时次为m时,若第n天的m时观测数据缺省,则取第n-1天、第n-2天、第n-3天、……第n-7天的m时观测数据的平均值,作为第n天的m时观测数据。其中,m与n均为整数。
S50、利用训练好的自编码神经网络对所述初始填补值进行优化处理得到优化填补值。
具体地,将采用均值修复法获得的初始填补值,输入到训练好的AED模型中进行优化处理,生成优化填补值。
S60、利用所述优化填补值填补所述缺省值。
具体地,利用所述优化填补值填补所述单一时次挥发性有机物观测数据的缺省值,从而实现了对单一时次VOCs观测数据进行缺省值实时动态修复。
步骤D:若所述缺省值属于系统性缺省类型,则利用训练好的循环门控神经网络对所述缺省值进行修复。
所述利用训练好的循环门控神经网络对所述缺省值进行修复,包括:
S70、判断所述缺省值是否位于连续时次缺省值序列中。
S80、若否,则将所述缺省值前若干个时次的观测数据输入到训练好的循环门控神经网络中进行处理,得到所述缺省值的修复值。
具体地,若该缺省值不位于连续时次缺省值序列中,则将该缺省值前若干个(例如可以为3个)时次的观测数据输入到训练好的GRU中,即可输出该缺省值的修复值。
S90、若是,则利用训练好的循环门控神经网络对所述连续时次缺省值序列中的各缺省值按照时次顺序进行修复。
具体地,若该缺省值位于连续时次缺省值序列中,则利用训练好的循环门控神经网络对该连续时次缺省值序列中的各缺省值按照时次顺序进行修复。
所述利用训练好的循环门控神经网络对所述连续时次缺省值序列中的各缺省值按照时次顺序进行修复,包括:
S901、针对所述连续时次缺省值序列中时次顺序上的第一个缺省值,将所述第一个缺省值前若干个(例如可以为3个)时次的观测数据输入到所述训练好的循环门控神经网络中,输出所述第一个缺省值的修复值;
S902、利用所述第一个缺省值的修复值填补所述第一个缺省值;
S903、采用修复所述第一个缺省值的方法,按照时次顺序对所述连续时次缺省值序列中剩余的缺省值进行修复,直至该连续时次缺省值序列中剩余的缺省值均修复完成为止,从而实现了对单一时次VOCs观测数据进行缺省值实时动态修复。
自编码神经网络(AED)、门控循环神经网络(GRU)属于深度学习算法,在本实施例中该两种网络模型利用了VOCs观测数据的时间依赖性和周期性特点,对VOCs观测数据中的缺省值进行修复,修复效果好。
如图4所示,本申请的另一个实施例提供了一种挥发性有机物观测数据中缺省值的修复装置,包括:
训练模块,用于利用挥发性有机物历史观测数据分别对自编码神经网络和循环门控神经网络进行训练;
判断模块,用于判断单一时次挥发性有机物观测数据的缺省值所属的类型;
第一修复模块,用于若所述缺省值属于零星缺省类型,则依次通过均值修复法和训练好的自编码神经网络对所述缺省值进行修复;
第二修复模块,用于若所述缺省值属于系统性缺省类型,则利用训练好的循环门控神经网络对所述缺省值进行修复。
本申请的另一个实施例提供了一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述程序,以实现上述的挥发性有机物观测数据中缺省值的修复方法。
本申请的另一个实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行,以实现上述的挥发性有机物观测数据中缺省值的修复方法。
本申请实施例提供的挥发性有机物观测数据中缺省值的修复方法,选取均值修复法、训练好的自编码神经网络和训练好的循环门控神经网络,根据缺省值的不同类型,对挥发性有机物观测数据进行修复,修复值准确度高,修复效果好,可以极大提高挥发性有机物观测数据的质量,从而为大气污染科学防控提供更为有力的技术支撑。
需要说明的是:
术语“模块”并非意图受限于特定物理形式。取决于具体应用,模块可以实现为硬件、固件、软件和/或其组合。此外,不同的模块可以共享公共组件或甚至由相同组件实现。不同模块之间可以存在或不存在清楚的界限。
在此提供的算法和显示不与任何特定计算机、虚拟装置或者其它设备固有相关。各种通用装置也可以与基于在此的示教一起使用。根据上面的描述,构造这类装置所要求的结构是显而易见的。此外,本申请也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本申请的内容,并且上面对特定语言所做的描述是为了披露本申请的最佳实施方式。
类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本申请的示例性实施例的描述中,本申请的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本申请要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本申请的单独实施例。
应该理解的是,虽然附图的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,其可以以其他的顺序执行。而且,附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,其执行顺序也不必然是依次进行,而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
以上所述实施例仅表达了本申请的实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请的保护范围应以所附权利要求为准。
Claims (4)
1.一种挥发性有机物观测数据中缺省值的修复方法,其特征在于,包括:
利用挥发性有机物历史观测数据分别对自编码神经网络和循环门控神经网络进行训练;
判断单一时次挥发性有机物观测数据的缺省值所属的类型;
若所述缺省值属于零星缺省类型,则依次通过均值修复法和训练好的自编码神经网络对所述缺省值进行修复;
若所述缺省值属于系统性缺省类型,则利用训练好的循环门控神经网络对所述缺省值进行修复;
所述利用挥发性有机物历史观测数据分别对自编码神经网络和循环门控神经网络进行训练,包括:
获取一段时间的挥发性有机物历史观测数据;
通过百分位阈值法,确定挥发性有机物历史观测数据中各组分浓度数据的异常阈值和正常数据;其中,异常阈值包括异常高值阈值和异常低值阈值;
利用所述正常数据构建训练数据集,通过所述训练数据集分别对自编码神经网络和循环门控神经网络进行训练;
所述判断单一时次挥发性有机物观测数据的缺省值所属的类型,包括:
若所述单一时次挥发性有机物观测数据中,存在缺省值的组分种类数量小于等于组分种类总数量的预设占比阈值,则确定所述缺省值属于零星缺省类型;
否则,确定所述缺省值属于系统性缺省类型;
所述依次通过均值修复法和训练好的自编码神经网络对所述缺省值进行修复,包括:
利用均值修复法获得所述缺省值的初始填补值;
利用训练好的自编码神经网络对所述初始填补值进行优化处理得到优化填补值;
利用所述优化填补值填补所述缺省值;
所述利用均值修复法获得所述缺省值的初始填补值,包括:
从所述单一时次挥发性有机物观测数据中查找出所述缺省值所属日期之前若干天中与所述缺省值时次相同的观测数据;
计算所有所述与所述缺省值时次相同的观测数据的平均值,利用所述平均值作为所述缺省值的初始填补值;
所述利用训练好的循环门控神经网络对所述缺省值进行修复,包括:
判断所述缺省值是否位于连续时次缺省值序列中;
若否,则将所述缺省值前若干个时次的观测数据输入到训练好的循环门控神经网络中进行处理,得到所述缺省值的修复值;
若是,则利用训练好的循环门控神经网络对所述连续时次缺省值序列中的各缺省值按照时次顺序进行修复;
所述利用训练好的循环门控神经网络对所述连续时次缺省值序列中的各缺省值按照时次顺序进行修复,包括:
针对所述连续时次缺省值序列中时次顺序上的第一个缺省值,将所述第一个缺省值前若干个时次的观测数据输入到所述训练好的循环门控神经网络中,输出所述第一个缺省值的修复值;
利用所述第一个缺省值的修复值填补所述第一个缺省值;
采用修复所述第一个缺省值的方法,按照时次顺序对所述连续时次缺省值序列中剩余的缺省值进行修复,直至所述剩余的缺省值均修复完成为止。
2.一种挥发性有机物观测数据中缺省值的修复装置,其特征在于,包括:
训练模块,用于利用挥发性有机物历史观测数据分别对自编码神经网络和循环门控神经网络进行训练;
判断模块,用于判断单一时次挥发性有机物观测数据的缺省值所属的类型;
第一修复模块,用于若所述缺省值属于零星缺省类型,则依次通过均值修复法和训练好的自编码神经网络对所述缺省值进行修复;
第二修复模块,用于若所述缺省值属于系统性缺省类型,则利用训练好的循环门控神经网络对所述缺省值进行修复;
所述训练模块,具体用于:
获取一段时间的挥发性有机物历史观测数据;
通过百分位阈值法,确定挥发性有机物历史观测数据中各组分浓度数据的异常阈值和正常数据;其中,异常阈值包括异常高值阈值和异常低值阈值;
利用所述正常数据构建训练数据集,通过所述训练数据集分别对自编码神经网络和循环门控神经网络进行训练;
所述判断模块具体用于:
若所述单一时次挥发性有机物观测数据中,存在缺省值的组分种类数量小于等于组分种类总数量的预设占比阈值,则确定所述缺省值属于零星缺省类型;
否则,确定所述缺省值属于系统性缺省类型;
所述第一修复模块所执行的所述依次通过均值修复法和训练好的自编码神经网络对所述缺省值进行修复,包括:
利用均值修复法获得所述缺省值的初始填补值;
利用训练好的自编码神经网络对所述初始填补值进行优化处理得到优化填补值;
利用所述优化填补值填补所述缺省值;
所述第一修复模块所执行的所述利用均值修复法获得所述缺省值的初始填补值,包括:
从所述单一时次挥发性有机物观测数据中查找出所述缺省值所属日期之前若干天中与所述缺省值时次相同的观测数据;
计算所有所述与所述缺省值时次相同的观测数据的平均值,利用所述平均值作为所述缺省值的初始填补值;
所述第二修复模块所执行的所述利用训练好的循环门控神经网络对所述缺省值进行修复,包括:
判断所述缺省值是否位于连续时次缺省值序列中;
若否,则将所述缺省值前若干个时次的观测数据输入到训练好的循环门控神经网络中进行处理,得到所述缺省值的修复值;
若是,则利用训练好的循环门控神经网络对所述连续时次缺省值序列中的各缺省值按照时次顺序进行修复;
所述第二修复模块所执行的所述利用训练好的循环门控神经网络对所述连续时次缺省值序列中的各缺省值按照时次顺序进行修复,包括:
针对所述连续时次缺省值序列中时次顺序上的第一个缺省值,将所述第一个缺省值前若干个时次的观测数据输入到所述训练好的循环门控神经网络中,输出所述第一个缺省值的修复值;
利用所述第一个缺省值的修复值填补所述第一个缺省值;
采用修复所述第一个缺省值的方法,按照时次顺序对所述连续时次缺省值序列中剩余的缺省值进行修复,直至所述剩余的缺省值均修复完成为止。
3.一种电子设备,其特征在于,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述程序,以实现如权利要求1中所述的挥发性有机物观测数据中缺省值的修复方法。
4.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行,以实现如权利要求1中所述的挥发性有机物观测数据中缺省值的修复方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010701051.2A CN111860645B (zh) | 2020-07-20 | 2020-07-20 | 挥发性有机物观测数据中缺省值的修复方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010701051.2A CN111860645B (zh) | 2020-07-20 | 2020-07-20 | 挥发性有机物观测数据中缺省值的修复方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111860645A CN111860645A (zh) | 2020-10-30 |
CN111860645B true CN111860645B (zh) | 2021-04-13 |
Family
ID=73001094
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010701051.2A Active CN111860645B (zh) | 2020-07-20 | 2020-07-20 | 挥发性有机物观测数据中缺省值的修复方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111860645B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112362816A (zh) * | 2020-11-16 | 2021-02-12 | 中科三清科技有限公司 | 一种基于观测数据的臭氧来源分析方法及装置 |
CN113627507A (zh) * | 2021-08-03 | 2021-11-09 | 中科三清科技有限公司 | 臭氧生成贡献率分析方法及装置 |
CN114662611B (zh) * | 2022-04-07 | 2022-12-09 | 中科三清科技有限公司 | 颗粒物组分数据的修复方法、装置、电子设备及存储介质 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107579837A (zh) * | 2016-07-05 | 2018-01-12 | 中兴通讯股份有限公司 | 一种残损业务自动修复的方法及装置 |
CN107578124A (zh) * | 2017-08-28 | 2018-01-12 | 国网山东省电力公司电力科学研究院 | 基于多层改进gru神经网络的短期电力负荷预测方法 |
CN207798810U (zh) * | 2017-12-20 | 2018-08-31 | 上海实宝来机械制造有限公司 | 一种voc治理水样检测装置 |
CN108628282A (zh) * | 2017-03-20 | 2018-10-09 | 波音公司 | 分析传感器数据以检测异常阀操作的数据驱动无监督算法 |
CN110015631A (zh) * | 2019-04-15 | 2019-07-16 | 佛山市南海泽睿科技有限公司 | 一种基于神经网络的油气回收方法 |
WO2019204789A1 (en) * | 2018-04-20 | 2019-10-24 | Emerson Climate Technologies, Inc. | Indoor air quality sensor calibration systems and methods |
CN110414045A (zh) * | 2019-06-18 | 2019-11-05 | 东华大学 | 基于vmd-gru的短期风速预测方法 |
CN110457295A (zh) * | 2019-07-05 | 2019-11-15 | 国网浙江省电力有限公司电力科学研究院 | 基于社会关系感知的时序数据补全系统 |
CN111210089A (zh) * | 2020-01-17 | 2020-05-29 | 大连大学 | 基于kalman滤波的门控循环单元神经网络的股票价格预测方法 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102221714B (zh) * | 2011-03-11 | 2013-10-23 | 钱维宏 | 基于大气变量物理分解的低温雨雪冰冻天气的中期预报系统和方法 |
CN107219157A (zh) * | 2017-07-29 | 2017-09-29 | 山东诺方电子科技有限公司 | 一种利用社会车辆进行大气颗粒物监测系统 |
CN111126658A (zh) * | 2019-11-15 | 2020-05-08 | 太原理工大学 | 一种基于深度学习的煤矿瓦斯预测方法 |
CN110957015B (zh) * | 2019-12-02 | 2023-04-28 | 南开大学 | 电子医疗记录数据的缺失值填充方法 |
CN111426804B (zh) * | 2020-06-12 | 2020-12-11 | 中科三清科技有限公司 | 基于观测数据判断臭氧生成敏感性的方法和装置 |
-
2020
- 2020-07-20 CN CN202010701051.2A patent/CN111860645B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107579837A (zh) * | 2016-07-05 | 2018-01-12 | 中兴通讯股份有限公司 | 一种残损业务自动修复的方法及装置 |
CN108628282A (zh) * | 2017-03-20 | 2018-10-09 | 波音公司 | 分析传感器数据以检测异常阀操作的数据驱动无监督算法 |
CN107578124A (zh) * | 2017-08-28 | 2018-01-12 | 国网山东省电力公司电力科学研究院 | 基于多层改进gru神经网络的短期电力负荷预测方法 |
CN207798810U (zh) * | 2017-12-20 | 2018-08-31 | 上海实宝来机械制造有限公司 | 一种voc治理水样检测装置 |
WO2019204789A1 (en) * | 2018-04-20 | 2019-10-24 | Emerson Climate Technologies, Inc. | Indoor air quality sensor calibration systems and methods |
CN110015631A (zh) * | 2019-04-15 | 2019-07-16 | 佛山市南海泽睿科技有限公司 | 一种基于神经网络的油气回收方法 |
CN110414045A (zh) * | 2019-06-18 | 2019-11-05 | 东华大学 | 基于vmd-gru的短期风速预测方法 |
CN110457295A (zh) * | 2019-07-05 | 2019-11-15 | 国网浙江省电力有限公司电力科学研究院 | 基于社会关系感知的时序数据补全系统 |
CN111210089A (zh) * | 2020-01-17 | 2020-05-29 | 大连大学 | 基于kalman滤波的门控循环单元神经网络的股票价格预测方法 |
Non-Patent Citations (1)
Title |
---|
利用支持向量机和人工神经网络填补缺失数据;张楠 等;《应用数学进展》;20170814;第6卷(第5期);第677-684页 * |
Also Published As
Publication number | Publication date |
---|---|
CN111860645A (zh) | 2020-10-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111860645B (zh) | 挥发性有机物观测数据中缺省值的修复方法及装置 | |
CN111814964A (zh) | 基于空气质量状况预报的空气污染处理方法及存储介质 | |
DE102010052998A1 (de) | Software-zentrierte Methodik für die Überprüfung und Bestätigung von Fehlermodellen | |
CN109165242B (zh) | 一种基于熵排序与时空分析的故障诊断及预警方法 | |
CN111710373A (zh) | 挥发性有机物观测数据的检测方法、装置、设备及介质 | |
Barrell et al. | Accounting for UK economic performance 1973–2009 | |
CN114662793A (zh) | 基于可解释分层模型的业务流程剩余时间预测方法与系统 | |
Ruiz et al. | Multivariate Principal Component Analysis and Case-Based Reasoning for monitoring, fault detection and diagnosis in a WWTP | |
Kharchenko et al. | The method of software reliability growth models choice using assumptions matrix | |
CN109887253B (zh) | 石油化工装置报警的关联分析方法 | |
Bordes et al. | Partially observed competing degradation processes: modeling and inference | |
CN112651633A (zh) | 一种隧道突水突泥风险分析方法、系统、存储介质与设备 | |
CN116885726A (zh) | 基于数字孪生技术的电力设备运行控制方法及系统 | |
US20150120248A1 (en) | System and method for diagnosing machine faults | |
Angelaccio | Forecasting public electricity consumption with ARIMA model: A case study from italian municipalities energy data | |
CN116720251A (zh) | 一种基于bim的钢结构网架建模优化系统及其方法 | |
Lokan et al. | Investigating the use of chronological split for software effort estimation | |
CN112463321B (zh) | 一种进程并发数预测方法、装置及进程并发数控制方法、装置 | |
CN116149895A (zh) | 大数据集群性能预测方法、装置和计算机设备 | |
CN115629949A (zh) | 管理信息系统的优化方法、装置、电子设备及存储介质 | |
CN114782788A (zh) | 基于先验知识的工业故障诊断方法和系统 | |
CN115422366A (zh) | 故障知识图谱补全方法、装置、设备、存储介质 | |
CN114444933A (zh) | 一种基于建筑工程的危险源分析方法、设备和介质 | |
Galinac et al. | Software verification process improvement proposal using Six Sigma | |
CN113468818A (zh) | 风力发电机组的绕组运行状态监测方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
EE01 | Entry into force of recordation of patent licensing contract | ||
EE01 | Entry into force of recordation of patent licensing contract |
Application publication date: 20201030 Assignee: Beijing Zhongke Sanqing Environmental Technology Co.,Ltd. Assignor: 3CLEAR TECHNOLOGY Co.,Ltd. Contract record no.: X2022980012305 Denomination of invention: Method and Device for Restoring Default Values in Observational Data of Volatile Organic Compounds Granted publication date: 20210413 License type: Common License Record date: 20220815 |