CN111339646A - 一种用于全自动控制的温度数据增强方法 - Google Patents
一种用于全自动控制的温度数据增强方法 Download PDFInfo
- Publication number
- CN111339646A CN111339646A CN202010099529.9A CN202010099529A CN111339646A CN 111339646 A CN111339646 A CN 111339646A CN 202010099529 A CN202010099529 A CN 202010099529A CN 111339646 A CN111339646 A CN 111339646A
- Authority
- CN
- China
- Prior art keywords
- data
- temperature
- temperature data
- generator
- distribution
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Feedback Control In General (AREA)
Abstract
本发明公开了一种用于全自动控制的温度数据增强方法,包括以下步骤:(1)对采集的温度数据中异常、不平滑的数据进行预处理;(2)第一次数据增强:数据依次n等间隔采样,获得n份同分布数据;(3)第二次数据增强:搭建基于信息最大化的生成对抗网络模型,输入温度数据进行模型的训练;(4)对步骤(3)中的模型进行性能测试,测试通过后,得到增强后的全部温度数据。本发明为后期黄酒全自动温控酿造提供了充足的数据依据,同时,对于人工作坊式的酿造方式,也可提供温度数据波动参考,且在较少温度数据采集的同时达到温度波动的分析,有效降低温度测量成本。
Description
技术领域
本发明涉及一种用于全自动控制的温度数据增强方法。
背景技术
近年来,人工智能技术高速发展,人工智能算法在酿酒行业的应用逐渐增多。为实现黄酒酿造的自动化控温,需要大量的温度样本进行分析建模。黄酒前酵通常有两种模式:小发酵缸的作坊模式、大发酵罐的半自动模式。然而由于黄酒酿造周期长,大批量温度采集成本高,导致黄酒温度数据较少。
数据增强是深度学习里较为常用的数据预处理方式,通过数据增强技术增加样本数量可以增强模型的泛化能力。目前的数据增强研究大多集中于图像处理方向,针对离散数据(比如温度数据)较少,不能解决黄酒前酵作坊模式和半自动模式温度数据较少的问题,从而无法实现黄酒前酵过程的全自动控制。
发明内容
发明目的:本发明旨在提供一种适用于全自动温控的数据增强方法,以解决上述技术问题。
技术方案:一种用于全自动控制的温度数据增强方法,包括以下步骤:
(1)对采集的温度数据中异常、不平滑的数据进行预处理;
(11)对测量所得温度数据集中的数据向量进行裁剪,每隔时间t采样一次,则应将每组数据向量维度规范为K,共得N组数据;
(12)采用五点三次平滑滤波处理温度数据的波动;
(13)进行归一化处理,将温度值统一到[-1,1]之间。
(2)第一次数据增强:数据依次n等间隔采样,获得n份同分布数据;
对数据维度为K的每组数据向量分组,每组数据标号分别为:
1+nj,j=0,1,…,j<k/n;
2+nj,j=0,1,…,j<k/n;
……
n-1+nj,j=0,1,…,j<k/n;
(3)第二次数据增强:搭建基于信息最大化的生成对抗网络模型,输入温度数据进行模型的训练;
(31)搭建生成器模型G;输入生成器的信号z是维度为256维的高斯白噪声,满足标准正态分布,真实数据维度为2400。
(32)搭建判别器模型D;
(33)选择目标函数对生成与判别效果进行评价,所述目标函数为:
其中,E表示取期望操作;Pdata表示真实数据;Pz,即pg(z),表示生成器拟合的数据分布;D(x)表示给判别器D输入温度数据x后生成的仿生数据;G(z)表示给生成器G输入高斯噪声z后生成的仿真数据;
从前置的随机分布pg(z)中取出m个随机数{z(1),z(2),…,z(m)},其次再从真实数据分布pdata(x)中取出m个真实样本{x(1),x(2),…,x(m)}。使用平均数代替目标函数中的期望,公式改写为:
(34)训练模型:通过以下公式,对V(D,G)进行寻优,
其中,arg函数表示使目标函数V(D,G)最大以获得判别器D、使目标函数最小以获得生成器G的操作;
首先冻结生成器,即神经网络只进行前向传播,输入温度数据,多次迭代训练判别器网络参数;然后冻结判别器,输入温度数据,一次迭代训练生成器网络参数。
(4)对步骤(3)中的模型进行性能测试,测试通过后,得到增强后的全部温度数据。
所述步骤(4)中的测试过程包括以下步骤:
(41)对比增强后的温度曲线图走势与真实数据走势;
(42)计算真实数据与生成数据的EM距离:
其中,EM距离也称为Wasserstein距离,用于衡量两个分布差距大小;inf表示集合Π(Pdata,Pg)最大的下界;Π(Pr,Pg)代表对于(x,y)的边缘分布为Pr和Pg的联合分布的集合,(x,y)~γ表示变量(x,y)服从联合分布,其中x、y分别为真实温度数据和生成器产生的仿真数据。
有益效果:与现有技术相比,本发明具有如下显著优点:
本发明有效避免了人为或噪声干扰带来的影响,第一次数据增强在未引入冗余和不影响温度控制精度的前提下,降低了数据样本维度的同时增加了数据量,给第二次数据扩充中的训练过程带来了极大便利;第二次数据增强,对数据的扩充具有精度高,还原度高的特点。本发明为后期黄酒全自动温控酿造提供了充足的数据依据,同时,对于人工作坊式的酿造方式,也可提供温度数据波动参考,且在较少温度数据采集的同时达到温度波动的分析,有效降低温度测量成本。
附图说明
图1为本发明的流程示意图;
具体实施方式
下面结合附图对本发明的技术方案作进一步说明。
以黄酒的前酵为例,如图1所示,本发明的一种用于全自动控制的温度数据增强方法,包括以下步骤:
(1)在该实例中,完整发酵周期为7天,其中核心发酵周期为5天(主要发酵阶段,此时温度变化相对剧烈)。对核心发酵期采集的温度数据中异常、不平滑的数据进行预处理;
原始温度数据存在两个问题:一是数据曲线在某一段存在异常凹陷。是由于采集温度数据时,温度传感器探针固定在发酵缸中心处。开粑时,搅拌会导致缸体中心的高温醪液与边缘的低温醪液混合,导致温度突然下降后又在极短时间回升(持续几个采样点)。二是由于温度传感器测量误差,其他干扰等,数据曲线存在不平滑情况。
预处理具体包括以下步骤:
(11)对测量所得温度数据集中的数据向量进行裁剪,每隔30s采样一次,则应将每组数据向量维度规范为K=12000,共得N=200组数据;
(12)采用五点三次平滑滤波处理温度数据的波动;
(13)进行归一化处理,将温度值统一到[-1,1]之间。
(2)第一次数据增强:数据依次n等间隔采样,获得n份同分布数据;
对数据维度为K的每组数据向量分组,每组数据标号分别为:
1+nj,j=0,1,…,j<k/n;
2+nj,j=0,1,…,j<k/n;
……
n-1+nj,j=0,1,…,j<k/n;
第一次的数据增强能够将数据扩充n倍,且扩充后的数据满足同一分布,不会给后续生成对抗网络的学习带来偏差;相较于简单重复的扩充方法,该方式避免了分组数据间的冗余;考虑到初始的温度数据采样密度较高(每30s采样一次),进行n倍稀释后(n=5时,相当于每2.5min采样一次),仍能较好的保存醪液温度波动。
(3)第二次数据增强:搭建基于信息最大化的生成对抗网络模型,输入温度数据进行模型的训练;
(31)搭建生成器模型G:生成器G由一个四层的全连接层构成,其作用是将低维的输入信号映射到高维的数据空间,模拟真实数据,表示为x=G(z)。其输入z是一个满足简单形式的随机分布的信号,如高斯分布或均匀分布等。为了使得生成空间的数据分布能尽可能逼近真实数据分布,生成器函数G是一个神经网络的形式,其优点在于:通过神经网络可以模拟出各种完全不同的分布类型。设置输入生成器的信号z是维度为256维的高斯白噪声,满足标准正态分布。真实数据维度为2400,因此输入层为256个神经元节点,输出层为2400个神经元节点。
(32)搭建判别器模型D:判别器D由一个四层的全连接层构成,其作用是识别生成器生成的仿真数据与真实数据的真伪性。不失一般性地,给“真”数据样本X贴上标签“1”,给“假”样本贴上标签“0”,因此判别器的训练过程就是要让真实数据的评分尽可能接近1,而仿真数据的评分尽可能接近0。
(33)选择目标函数对生成与判别效果进行评价,所述目标函数为:
该目标函数能够衡量生成数据分布与真实数据分布的差异。其中,其中,E表示取期望操作;Pdata表示真实数据;Pz,即pg(z),表示生成器拟合的数据分布;D(x)表示给判别器D输入温度数据x后生成的仿生数据;G(z)表示给生成器G输入高斯噪声z后生成的仿真数据。
从前置的随机分布pg(z)中取出m个随机数{z(1),z(2),…,z(m)},其次再从真实数据分布pdata(x)中取出m个真实样本{x(1),x(2),…,x(m)}。使用平均数代替目标函数中的期望,公式改写为:
(24)训练模型:通过以下公式,对V(D,G)进行寻优,
其中,arg函数表示使目标函数V(D,G)最大以获得判别器D、使目标函数最小以获得生成器G的操作;
首先冻结生成器,即神经网络只进行前向传播,输入温度数据,多次迭代训练判别器网络参数;然后冻结判别器,输入温度数据,一次迭代训练生成器网络参数,只进行一次迭代的目的是防止更新多次无法使生成数据分布与真实数据分布差异度下降。
(4)对步骤(3)中的模型进行性能测试,测试通过后,得到增强后的全部温度数据。
所述步骤(4)中的测试过程包括以下步骤:
(41)对比增强后的温度曲线图走势与真实数据走势;
(42)计算真实数据与生成数据的EM距离:
其中,EM距离也称为Wasserstein距离,用于衡量两个分布差距大小;inf表示集合Π(Pdata,Pg)最大的下界;Π(Pr,Pg)代表对于(x,y)的边缘分布为Pr和Pg的联合分布的集合,(x,y)~γ表示变量(x,y)服从联合分布,其中x、y分别为真实温度数据和生成器产生的仿真数据。
Claims (6)
1.一种用于全自动控制的温度数据增强方法,其特征在于,包括以下步骤:
(1)对采集的温度数据中异常、不平滑的数据进行预处理;
(2)第一次数据增强:数据依次n等间隔采样,获得n份同分布数据;
(3)第二次数据增强:搭建基于信息最大化的生成对抗网络模型,输入温度数据进行模型的训练;
(4)对步骤(3)中的模型进行性能测试,测试通过后,得到增强后的全部温度数据。
2.根据权利要求1所述的用于全自动控制的温度数据增强方法,其特征在于,所述步骤(1)包括以下步骤:
(11)对测量所得温度数据集中的数据向量进行裁剪,每隔时间t采样一次,则应将每组数据向量维度规范为K,共得N组数据;
(12)采用五点三次平滑滤波处理温度数据的波动;
(13)进行归一化处理,将温度值统一到[-1,1]之间。
3.根据权利要求1所述的用于全自动控制的温度数据增强方法,其特征在于,所述步骤(2)具体为:
对数据维度为K的每组数据向量分组,每组数据标号分别为:
1+nj,j=0,1,…,j<k/n;
2+nj,j=0,1,…,j<k/n;
……
n-1+nj,j=0,1,…,j<k/n。
4.根据权利要求1所述的用于全自动控制的温度数据增强方法,其特征在于,所述步骤(3)包括以下步骤:
(31)搭建生成器模型G;
(32)搭建判别器模型D;
(33)选择目标函数对生成与判别效果进行评价,所述目标函数为:
其中,E表示取期望操作;Pdata表示真实数据;Pz,即pg(z),表示生成器拟合的数据分布;D(x)表示给判别器D输入温度数据x后生成的仿生数据;G(z)表示给生成器G输入高斯噪声z后生成的仿真数据;
从前置的随机分布pg(z)中取出m个随机数{z(1),z(2),…,z(m)},其次再从真实数据分布pdata(x)中取出m个真实样本{x(1),x(2),…,x(m)};使用平均数代替目标函数中的期望,公式改写为:
(34)训练模型:通过以下公式,对V(D,G)进行寻优,
其中,arg函数表示使目标函数V(D,G)最大以获得判别器D、使目标函数最小以获得生成器G的操作;
首先冻结生成器,即神经网络只进行前向传播,输入温度数据,多次迭代训练判别器网络参数;然后冻结判别器,输入温度数据,一次迭代训练生成器网络参数。
5.根据权利要求4所述的用于全自动控制的温度数据增强方法,其特征在于,所述步骤(31)中输入生成器的信号z是维度为256维的高斯白噪声,满足标准正态分布,真实数据维度为2400。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010099529.9A CN111339646A (zh) | 2020-02-18 | 2020-02-18 | 一种用于全自动控制的温度数据增强方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010099529.9A CN111339646A (zh) | 2020-02-18 | 2020-02-18 | 一种用于全自动控制的温度数据增强方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111339646A true CN111339646A (zh) | 2020-06-26 |
Family
ID=71183556
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010099529.9A Withdrawn CN111339646A (zh) | 2020-02-18 | 2020-02-18 | 一种用于全自动控制的温度数据增强方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111339646A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114264373A (zh) * | 2021-12-27 | 2022-04-01 | 淮阴工学院 | 一种红外测温仪温度补偿和测量距离增强方法及系统 |
-
2020
- 2020-02-18 CN CN202010099529.9A patent/CN111339646A/zh not_active Withdrawn
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114264373A (zh) * | 2021-12-27 | 2022-04-01 | 淮阴工学院 | 一种红外测温仪温度补偿和测量距离增强方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108256556A (zh) | 基于深度信念网络的风力发电机组齿轮箱故障诊断方法 | |
CN106656357B (zh) | 一种工频通信信道状态评估系统和方法 | |
CN114004346B (zh) | 基于门控堆叠同构自编码器的软测量建模方法及存储介质 | |
CN111275108A (zh) | 基于生成对抗网络对局部放电数据进行样本扩展的方法 | |
CN109472088A (zh) | 一种页岩气调产井生产压力动态预测方法 | |
CN111200141B (zh) | 基于深度信念网络的质子交换膜燃料电池性能预测及寻优方法 | |
CN112147432A (zh) | 基于注意力机制的BiLSTM模块、变压器状态诊断方法和系统 | |
CN111597760A (zh) | 一种实现小样本条件下获取气路参数偏差值的方法 | |
CN103077408B (zh) | 基于小波神经网络的海底声纳图像转换为声学底质类别方法 | |
CN112686372A (zh) | 基于深度残差gru神经网络的产品性能预测方法 | |
CN116401603A (zh) | 一种基于迁移学习的多模态轴承故障智能诊断方法 | |
CN115270872A (zh) | 雷达辐射源个体小样本学习识别方法、系统、装置及介质 | |
CN107729988B (zh) | 基于动态深度置信网络的蓝藻水华预测方法 | |
CN110765788A (zh) | 一种基于隐式翻译模型的知识图谱嵌入方法 | |
CN111340069A (zh) | 基于交替学习的不完整数据精细建模及缺失值填补方法 | |
CN117669395B (zh) | 改善焦炭热态质量预测模型适用性的领域自适应训练方法 | |
CN115165366A (zh) | 一种旋转机械变工况故障诊断方法及系统 | |
CN115409317A (zh) | 基于特征选择和机器学习的台区线损检测方法及装置 | |
CN115035962A (zh) | 基于变分自编码器和生成对抗网络的虚拟样本生成及软测量建模方法 | |
CN111339646A (zh) | 一种用于全自动控制的温度数据增强方法 | |
CN110347579B (zh) | 基于神经元输出行为模式的深度学习测试用例的选择方法 | |
CN115031794B (zh) | 一种多特征图卷积的新型气固两相流流量测量方法 | |
CN111061151A (zh) | 一种基于多元卷积神经网络的分布式能源状态监测方法 | |
Riid et al. | Interpretability of fuzzy systems and its application to process control | |
CN118690792B (zh) | 一种基于特性正则化堆叠自编码器的多输出软测量方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information | ||
CB02 | Change of applicant information |
Address after: 210003 Gulou District, Jiangsu, Nanjing new model road, No. 66 Applicant after: NANJING University OF POSTS AND TELECOMMUNICATIONS Address before: Yuen Road Qixia District of Nanjing City, Jiangsu Province, No. 9 210023 Applicant before: NANJING University OF POSTS AND TELECOMMUNICATIONS |
|
WW01 | Invention patent application withdrawn after publication | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20200626 |