CN111339646A - 一种用于全自动控制的温度数据增强方法 - Google Patents

一种用于全自动控制的温度数据增强方法 Download PDF

Info

Publication number
CN111339646A
CN111339646A CN202010099529.9A CN202010099529A CN111339646A CN 111339646 A CN111339646 A CN 111339646A CN 202010099529 A CN202010099529 A CN 202010099529A CN 111339646 A CN111339646 A CN 111339646A
Authority
CN
China
Prior art keywords
data
temperature
temperature data
generator
distribution
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN202010099529.9A
Other languages
English (en)
Inventor
王保云
吴贺金
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Posts and Telecommunications
Original Assignee
Nanjing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Posts and Telecommunications filed Critical Nanjing University of Posts and Telecommunications
Priority to CN202010099529.9A priority Critical patent/CN111339646A/zh
Publication of CN111339646A publication Critical patent/CN111339646A/zh
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Feedback Control In General (AREA)

Abstract

本发明公开了一种用于全自动控制的温度数据增强方法,包括以下步骤:(1)对采集的温度数据中异常、不平滑的数据进行预处理;(2)第一次数据增强:数据依次n等间隔采样,获得n份同分布数据;(3)第二次数据增强:搭建基于信息最大化的生成对抗网络模型,输入温度数据进行模型的训练;(4)对步骤(3)中的模型进行性能测试,测试通过后,得到增强后的全部温度数据。本发明为后期黄酒全自动温控酿造提供了充足的数据依据,同时,对于人工作坊式的酿造方式,也可提供温度数据波动参考,且在较少温度数据采集的同时达到温度波动的分析,有效降低温度测量成本。

Description

一种用于全自动控制的温度数据增强方法
技术领域
本发明涉及一种用于全自动控制的温度数据增强方法。
背景技术
近年来,人工智能技术高速发展,人工智能算法在酿酒行业的应用逐渐增多。为实现黄酒酿造的自动化控温,需要大量的温度样本进行分析建模。黄酒前酵通常有两种模式:小发酵缸的作坊模式、大发酵罐的半自动模式。然而由于黄酒酿造周期长,大批量温度采集成本高,导致黄酒温度数据较少。
数据增强是深度学习里较为常用的数据预处理方式,通过数据增强技术增加样本数量可以增强模型的泛化能力。目前的数据增强研究大多集中于图像处理方向,针对离散数据(比如温度数据)较少,不能解决黄酒前酵作坊模式和半自动模式温度数据较少的问题,从而无法实现黄酒前酵过程的全自动控制。
发明内容
发明目的:本发明旨在提供一种适用于全自动温控的数据增强方法,以解决上述技术问题。
技术方案:一种用于全自动控制的温度数据增强方法,包括以下步骤:
(1)对采集的温度数据中异常、不平滑的数据进行预处理;
(11)对测量所得温度数据集中的数据向量进行裁剪,每隔时间t采样一次,则应将每组数据向量维度规范为K,共得N组数据;
(12)采用五点三次平滑滤波处理温度数据的波动;
(13)进行归一化处理,将温度值统一到[-1,1]之间。
(2)第一次数据增强:数据依次n等间隔采样,获得n份同分布数据;
对数据维度为K的每组数据向量分组,每组数据标号分别为:
1+nj,j=0,1,…,j<k/n;
2+nj,j=0,1,…,j<k/n;
……
n-1+nj,j=0,1,…,j<k/n;
(3)第二次数据增强:搭建基于信息最大化的生成对抗网络模型,输入温度数据进行模型的训练;
(31)搭建生成器模型G;输入生成器的信号z是维度为256维的高斯白噪声,满足标准正态分布,真实数据维度为2400。
(32)搭建判别器模型D;
(33)选择目标函数对生成与判别效果进行评价,所述目标函数为:
Figure BDA0002386420250000021
其中,E表示取期望操作;Pdata表示真实数据;Pz,即pg(z),表示生成器拟合的数据分布;D(x)表示给判别器D输入温度数据x后生成的仿生数据;G(z)表示给生成器G输入高斯噪声z后生成的仿真数据;
从前置的随机分布pg(z)中取出m个随机数{z(1),z(2),…,z(m)},其次再从真实数据分布pdata(x)中取出m个真实样本{x(1),x(2),…,x(m)}。使用平均数代替目标函数中的期望,公式改写为:
Figure BDA0002386420250000022
(34)训练模型:通过以下公式,对V(D,G)进行寻优,
Figure BDA0002386420250000023
其中,arg函数表示使目标函数V(D,G)最大以获得判别器D、使目标函数最小以获得生成器G的操作;
首先冻结生成器,即神经网络只进行前向传播,输入温度数据,多次迭代训练判别器网络参数;然后冻结判别器,输入温度数据,一次迭代训练生成器网络参数。
(4)对步骤(3)中的模型进行性能测试,测试通过后,得到增强后的全部温度数据。
所述步骤(4)中的测试过程包括以下步骤:
(41)对比增强后的温度曲线图走势与真实数据走势;
(42)计算真实数据与生成数据的EM距离:
Figure BDA0002386420250000024
其中,EM距离也称为Wasserstein距离,用于衡量两个分布差距大小;inf表示集合Π(Pdata,Pg)最大的下界;Π(Pr,Pg)代表对于(x,y)的边缘分布为Pr和Pg的联合分布的集合,(x,y)~γ表示变量(x,y)服从联合分布,其中x、y分别为真实温度数据和生成器产生的仿真数据。
有益效果:与现有技术相比,本发明具有如下显著优点:
本发明有效避免了人为或噪声干扰带来的影响,第一次数据增强在未引入冗余和不影响温度控制精度的前提下,降低了数据样本维度的同时增加了数据量,给第二次数据扩充中的训练过程带来了极大便利;第二次数据增强,对数据的扩充具有精度高,还原度高的特点。本发明为后期黄酒全自动温控酿造提供了充足的数据依据,同时,对于人工作坊式的酿造方式,也可提供温度数据波动参考,且在较少温度数据采集的同时达到温度波动的分析,有效降低温度测量成本。
附图说明
图1为本发明的流程示意图;
具体实施方式
下面结合附图对本发明的技术方案作进一步说明。
以黄酒的前酵为例,如图1所示,本发明的一种用于全自动控制的温度数据增强方法,包括以下步骤:
(1)在该实例中,完整发酵周期为7天,其中核心发酵周期为5天(主要发酵阶段,此时温度变化相对剧烈)。对核心发酵期采集的温度数据中异常、不平滑的数据进行预处理;
原始温度数据存在两个问题:一是数据曲线在某一段存在异常凹陷。是由于采集温度数据时,温度传感器探针固定在发酵缸中心处。开粑时,搅拌会导致缸体中心的高温醪液与边缘的低温醪液混合,导致温度突然下降后又在极短时间回升(持续几个采样点)。二是由于温度传感器测量误差,其他干扰等,数据曲线存在不平滑情况。
预处理具体包括以下步骤:
(11)对测量所得温度数据集中的数据向量进行裁剪,每隔30s采样一次,则应将每组数据向量维度规范为K=12000,共得N=200组数据;
(12)采用五点三次平滑滤波处理温度数据的波动;
(13)进行归一化处理,将温度值统一到[-1,1]之间。
(2)第一次数据增强:数据依次n等间隔采样,获得n份同分布数据;
对数据维度为K的每组数据向量分组,每组数据标号分别为:
1+nj,j=0,1,…,j<k/n;
2+nj,j=0,1,…,j<k/n;
……
n-1+nj,j=0,1,…,j<k/n;
第一次的数据增强能够将数据扩充n倍,且扩充后的数据满足同一分布,不会给后续生成对抗网络的学习带来偏差;相较于简单重复的扩充方法,该方式避免了分组数据间的冗余;考虑到初始的温度数据采样密度较高(每30s采样一次),进行n倍稀释后(n=5时,相当于每2.5min采样一次),仍能较好的保存醪液温度波动。
(3)第二次数据增强:搭建基于信息最大化的生成对抗网络模型,输入温度数据进行模型的训练;
(31)搭建生成器模型G:生成器G由一个四层的全连接层构成,其作用是将低维的输入信号映射到高维的数据空间,模拟真实数据,表示为x=G(z)。其输入z是一个满足简单形式的随机分布的信号,如高斯分布或均匀分布等。为了使得生成空间的数据分布能尽可能逼近真实数据分布,生成器函数G是一个神经网络的形式,其优点在于:通过神经网络可以模拟出各种完全不同的分布类型。设置输入生成器的信号z是维度为256维的高斯白噪声,满足标准正态分布。真实数据维度为2400,因此输入层为256个神经元节点,输出层为2400个神经元节点。
(32)搭建判别器模型D:判别器D由一个四层的全连接层构成,其作用是识别生成器生成的仿真数据与真实数据的真伪性。不失一般性地,给“真”数据样本X贴上标签“1”,给“假”样本贴上标签“0”,因此判别器的训练过程就是要让真实数据的评分尽可能接近1,而仿真数据的评分尽可能接近0。
(33)选择目标函数对生成与判别效果进行评价,所述目标函数为:
Figure BDA0002386420250000041
该目标函数能够衡量生成数据分布与真实数据分布的差异。其中,其中,E表示取期望操作;Pdata表示真实数据;Pz,即pg(z),表示生成器拟合的数据分布;D(x)表示给判别器D输入温度数据x后生成的仿生数据;G(z)表示给生成器G输入高斯噪声z后生成的仿真数据。
从前置的随机分布pg(z)中取出m个随机数{z(1),z(2),…,z(m)},其次再从真实数据分布pdata(x)中取出m个真实样本{x(1),x(2),…,x(m)}。使用平均数代替目标函数中的期望,公式改写为:
Figure BDA0002386420250000042
(24)训练模型:通过以下公式,对V(D,G)进行寻优,
Figure BDA0002386420250000043
其中,arg函数表示使目标函数V(D,G)最大以获得判别器D、使目标函数最小以获得生成器G的操作;
首先冻结生成器,即神经网络只进行前向传播,输入温度数据,多次迭代训练判别器网络参数;然后冻结判别器,输入温度数据,一次迭代训练生成器网络参数,只进行一次迭代的目的是防止更新多次无法使生成数据分布与真实数据分布差异度下降。
(4)对步骤(3)中的模型进行性能测试,测试通过后,得到增强后的全部温度数据。
所述步骤(4)中的测试过程包括以下步骤:
(41)对比增强后的温度曲线图走势与真实数据走势;
(42)计算真实数据与生成数据的EM距离:
Figure BDA0002386420250000051
其中,EM距离也称为Wasserstein距离,用于衡量两个分布差距大小;inf表示集合Π(Pdata,Pg)最大的下界;Π(Pr,Pg)代表对于(x,y)的边缘分布为Pr和Pg的联合分布的集合,(x,y)~γ表示变量(x,y)服从联合分布,其中x、y分别为真实温度数据和生成器产生的仿真数据。

Claims (6)

1.一种用于全自动控制的温度数据增强方法,其特征在于,包括以下步骤:
(1)对采集的温度数据中异常、不平滑的数据进行预处理;
(2)第一次数据增强:数据依次n等间隔采样,获得n份同分布数据;
(3)第二次数据增强:搭建基于信息最大化的生成对抗网络模型,输入温度数据进行模型的训练;
(4)对步骤(3)中的模型进行性能测试,测试通过后,得到增强后的全部温度数据。
2.根据权利要求1所述的用于全自动控制的温度数据增强方法,其特征在于,所述步骤(1)包括以下步骤:
(11)对测量所得温度数据集中的数据向量进行裁剪,每隔时间t采样一次,则应将每组数据向量维度规范为K,共得N组数据;
(12)采用五点三次平滑滤波处理温度数据的波动;
(13)进行归一化处理,将温度值统一到[-1,1]之间。
3.根据权利要求1所述的用于全自动控制的温度数据增强方法,其特征在于,所述步骤(2)具体为:
对数据维度为K的每组数据向量分组,每组数据标号分别为:
1+nj,j=0,1,…,j<k/n;
2+nj,j=0,1,…,j<k/n;
……
n-1+nj,j=0,1,…,j<k/n。
4.根据权利要求1所述的用于全自动控制的温度数据增强方法,其特征在于,所述步骤(3)包括以下步骤:
(31)搭建生成器模型G;
(32)搭建判别器模型D;
(33)选择目标函数对生成与判别效果进行评价,所述目标函数为:
Figure FDA0002386420240000011
其中,E表示取期望操作;Pdata表示真实数据;Pz,即pg(z),表示生成器拟合的数据分布;D(x)表示给判别器D输入温度数据x后生成的仿生数据;G(z)表示给生成器G输入高斯噪声z后生成的仿真数据;
从前置的随机分布pg(z)中取出m个随机数{z(1),z(2),…,z(m)},其次再从真实数据分布pdata(x)中取出m个真实样本{x(1),x(2),…,x(m)};使用平均数代替目标函数中的期望,公式改写为:
Figure FDA0002386420240000021
(34)训练模型:通过以下公式,对V(D,G)进行寻优,
Figure FDA0002386420240000022
其中,arg函数表示使目标函数V(D,G)最大以获得判别器D、使目标函数最小以获得生成器G的操作;
首先冻结生成器,即神经网络只进行前向传播,输入温度数据,多次迭代训练判别器网络参数;然后冻结判别器,输入温度数据,一次迭代训练生成器网络参数。
5.根据权利要求4所述的用于全自动控制的温度数据增强方法,其特征在于,所述步骤(31)中输入生成器的信号z是维度为256维的高斯白噪声,满足标准正态分布,真实数据维度为2400。
6.根据权利要求1所述的用于全自动控制的温度数据增强方法,其特征在于,所述步骤(4)中的测试过程包括以下步骤:
(41)对比增强后的温度曲线图走势与真实数据走势;
(42)计算真实数据与生成数据的EM距离:
Figure FDA0002386420240000023
其中,EM距离也称为Wasserstein距离,用于衡量两个分布差距大小;inf表示集合Π(Pdata,Pg)最大的下界;∏(Pr,Pg)代表对于(x,y)的边缘分布为Pr和Pg的联合分布的集合,(x,y)~γ表示变量(x,y)服从联合分布,其中x、y分别为真实温度数据和生成器产生的仿真数据。
CN202010099529.9A 2020-02-18 2020-02-18 一种用于全自动控制的温度数据增强方法 Withdrawn CN111339646A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010099529.9A CN111339646A (zh) 2020-02-18 2020-02-18 一种用于全自动控制的温度数据增强方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010099529.9A CN111339646A (zh) 2020-02-18 2020-02-18 一种用于全自动控制的温度数据增强方法

Publications (1)

Publication Number Publication Date
CN111339646A true CN111339646A (zh) 2020-06-26

Family

ID=71183556

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010099529.9A Withdrawn CN111339646A (zh) 2020-02-18 2020-02-18 一种用于全自动控制的温度数据增强方法

Country Status (1)

Country Link
CN (1) CN111339646A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114264373A (zh) * 2021-12-27 2022-04-01 淮阴工学院 一种红外测温仪温度补偿和测量距离增强方法及系统

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114264373A (zh) * 2021-12-27 2022-04-01 淮阴工学院 一种红外测温仪温度补偿和测量距离增强方法及系统

Similar Documents

Publication Publication Date Title
CN108256556A (zh) 基于深度信念网络的风力发电机组齿轮箱故障诊断方法
CN106656357B (zh) 一种工频通信信道状态评估系统和方法
CN114004346B (zh) 基于门控堆叠同构自编码器的软测量建模方法及存储介质
CN111275108A (zh) 基于生成对抗网络对局部放电数据进行样本扩展的方法
CN109472088A (zh) 一种页岩气调产井生产压力动态预测方法
CN111200141B (zh) 基于深度信念网络的质子交换膜燃料电池性能预测及寻优方法
CN112147432A (zh) 基于注意力机制的BiLSTM模块、变压器状态诊断方法和系统
CN111597760A (zh) 一种实现小样本条件下获取气路参数偏差值的方法
CN103077408B (zh) 基于小波神经网络的海底声纳图像转换为声学底质类别方法
CN112686372A (zh) 基于深度残差gru神经网络的产品性能预测方法
CN116401603A (zh) 一种基于迁移学习的多模态轴承故障智能诊断方法
CN115270872A (zh) 雷达辐射源个体小样本学习识别方法、系统、装置及介质
CN107729988B (zh) 基于动态深度置信网络的蓝藻水华预测方法
CN110765788A (zh) 一种基于隐式翻译模型的知识图谱嵌入方法
CN111340069A (zh) 基于交替学习的不完整数据精细建模及缺失值填补方法
CN117669395B (zh) 改善焦炭热态质量预测模型适用性的领域自适应训练方法
CN115165366A (zh) 一种旋转机械变工况故障诊断方法及系统
CN115409317A (zh) 基于特征选择和机器学习的台区线损检测方法及装置
CN115035962A (zh) 基于变分自编码器和生成对抗网络的虚拟样本生成及软测量建模方法
CN111339646A (zh) 一种用于全自动控制的温度数据增强方法
CN110347579B (zh) 基于神经元输出行为模式的深度学习测试用例的选择方法
CN115031794B (zh) 一种多特征图卷积的新型气固两相流流量测量方法
CN111061151A (zh) 一种基于多元卷积神经网络的分布式能源状态监测方法
Riid et al. Interpretability of fuzzy systems and its application to process control
CN118690792B (zh) 一种基于特性正则化堆叠自编码器的多输出软测量方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information
CB02 Change of applicant information

Address after: 210003 Gulou District, Jiangsu, Nanjing new model road, No. 66

Applicant after: NANJING University OF POSTS AND TELECOMMUNICATIONS

Address before: Yuen Road Qixia District of Nanjing City, Jiangsu Province, No. 9 210023

Applicant before: NANJING University OF POSTS AND TELECOMMUNICATIONS

WW01 Invention patent application withdrawn after publication
WW01 Invention patent application withdrawn after publication

Application publication date: 20200626