CN111339646A

CN111339646A - 一种用于全自动控制的温度数据增强方法

Info

Publication number: CN111339646A
Application number: CN202010099529.9A
Authority: CN
Inventors: 王保云; 吴贺金
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University of Posts and Telecommunications
Priority date: 2020-02-18
Filing date: 2020-02-18
Publication date: 2020-06-26

Abstract

本发明公开了一种用于全自动控制的温度数据增强方法，包括以下步骤：(1)对采集的温度数据中异常、不平滑的数据进行预处理；(2)第一次数据增强：数据依次n等间隔采样，获得n份同分布数据；(3)第二次数据增强：搭建基于信息最大化的生成对抗网络模型，输入温度数据进行模型的训练；(4)对步骤(3)中的模型进行性能测试，测试通过后，得到增强后的全部温度数据。本发明为后期黄酒全自动温控酿造提供了充足的数据依据，同时，对于人工作坊式的酿造方式，也可提供温度数据波动参考，且在较少温度数据采集的同时达到温度波动的分析，有效降低温度测量成本。

Description

一种用于全自动控制的温度数据增强方法

技术领域

本发明涉及一种用于全自动控制的温度数据增强方法。

背景技术

近年来，人工智能技术高速发展，人工智能算法在酿酒行业的应用逐渐增多。为实现黄酒酿造的自动化控温，需要大量的温度样本进行分析建模。黄酒前酵通常有两种模式：小发酵缸的作坊模式、大发酵罐的半自动模式。然而由于黄酒酿造周期长，大批量温度采集成本高，导致黄酒温度数据较少。

数据增强是深度学习里较为常用的数据预处理方式，通过数据增强技术增加样本数量可以增强模型的泛化能力。目前的数据增强研究大多集中于图像处理方向，针对离散数据(比如温度数据)较少，不能解决黄酒前酵作坊模式和半自动模式温度数据较少的问题，从而无法实现黄酒前酵过程的全自动控制。

发明内容

发明目的：本发明旨在提供一种适用于全自动温控的数据增强方法，以解决上述技术问题。

技术方案：一种用于全自动控制的温度数据增强方法，包括以下步骤：

(1)对采集的温度数据中异常、不平滑的数据进行预处理；

(11)对测量所得温度数据集中的数据向量进行裁剪，每隔时间t采样一次，则应将每组数据向量维度规范为K，共得N组数据；

(12)采用五点三次平滑滤波处理温度数据的波动；

(13)进行归一化处理，将温度值统一到[-1,1]之间。

(2)第一次数据增强：数据依次n等间隔采样，获得n份同分布数据；

对数据维度为K的每组数据向量分组，每组数据标号分别为：

1+nj，j＝0，1，…，j<k/n；

2+nj，j＝0，1，…，j<k/n；

……

n-1+nj，j＝0，1，…，j<k/n；

(3)第二次数据增强：搭建基于信息最大化的生成对抗网络模型，输入温度数据进行模型的训练；

(31)搭建生成器模型G；输入生成器的信号z是维度为256维的高斯白噪声，满足标准正态分布，真实数据维度为2400。

(32)搭建判别器模型D；

(33)选择目标函数对生成与判别效果进行评价，所述目标函数为：

其中，E表示取期望操作；P_data表示真实数据；P_z，即p_g(z)，表示生成器拟合的数据分布；D(x)表示给判别器D输入温度数据x后生成的仿生数据；G(z)表示给生成器G输入高斯噪声z后生成的仿真数据；

从前置的随机分布p_g(z)中取出m个随机数{z⁽¹⁾,z⁽²⁾,…,z^(m)}，其次再从真实数据分布p_data(x)中取出m个真实样本{x⁽¹⁾,x⁽²⁾,…,x^(m)}。使用平均数代替目标函数中的期望，公式改写为：

(34)训练模型：通过以下公式，对V(D,G)进行寻优，

其中，arg函数表示使目标函数V(D,G)最大以获得判别器D、使目标函数最小以获得生成器G的操作；

首先冻结生成器，即神经网络只进行前向传播，输入温度数据，多次迭代训练判别器网络参数；然后冻结判别器，输入温度数据，一次迭代训练生成器网络参数。

(4)对步骤(3)中的模型进行性能测试，测试通过后，得到增强后的全部温度数据。

所述步骤(4)中的测试过程包括以下步骤：

(41)对比增强后的温度曲线图走势与真实数据走势；

(42)计算真实数据与生成数据的EM距离：

其中，EM距离也称为Wasserstein距离，用于衡量两个分布差距大小；inf表示集合Π(P_data,P_g)最大的下界；Π(P_r,P_g)代表对于(x,y)的边缘分布为P_r和P_g的联合分布的集合，(x,y)～γ表示变量(x,y)服从联合分布，其中x、y分别为真实温度数据和生成器产生的仿真数据。

有益效果：与现有技术相比，本发明具有如下显著优点：

本发明有效避免了人为或噪声干扰带来的影响，第一次数据增强在未引入冗余和不影响温度控制精度的前提下，降低了数据样本维度的同时增加了数据量，给第二次数据扩充中的训练过程带来了极大便利；第二次数据增强，对数据的扩充具有精度高，还原度高的特点。本发明为后期黄酒全自动温控酿造提供了充足的数据依据，同时，对于人工作坊式的酿造方式，也可提供温度数据波动参考，且在较少温度数据采集的同时达到温度波动的分析，有效降低温度测量成本。

附图说明

图1为本发明的流程示意图；

具体实施方式

下面结合附图对本发明的技术方案作进一步说明。

以黄酒的前酵为例，如图1所示，本发明的一种用于全自动控制的温度数据增强方法，包括以下步骤：

(1)在该实例中，完整发酵周期为7天，其中核心发酵周期为5天(主要发酵阶段，此时温度变化相对剧烈)。对核心发酵期采集的温度数据中异常、不平滑的数据进行预处理；

原始温度数据存在两个问题：一是数据曲线在某一段存在异常凹陷。是由于采集温度数据时，温度传感器探针固定在发酵缸中心处。开粑时，搅拌会导致缸体中心的高温醪液与边缘的低温醪液混合，导致温度突然下降后又在极短时间回升(持续几个采样点)。二是由于温度传感器测量误差，其他干扰等，数据曲线存在不平滑情况。

预处理具体包括以下步骤：

(11)对测量所得温度数据集中的数据向量进行裁剪，每隔30s采样一次，则应将每组数据向量维度规范为K＝12000，共得N＝200组数据；

(12)采用五点三次平滑滤波处理温度数据的波动；

(13)进行归一化处理，将温度值统一到[-1,1]之间。

对数据维度为K的每组数据向量分组，每组数据标号分别为：

1+nj，j＝0，1，…，j<k/n；

2+nj，j＝0，1，…，j<k/n；

……

n-1+nj，j＝0，1，…，j<k/n；

第一次的数据增强能够将数据扩充n倍，且扩充后的数据满足同一分布，不会给后续生成对抗网络的学习带来偏差；相较于简单重复的扩充方法，该方式避免了分组数据间的冗余；考虑到初始的温度数据采样密度较高(每30s采样一次)，进行n倍稀释后(n＝5时，相当于每2.5min采样一次)，仍能较好的保存醪液温度波动。

(31)搭建生成器模型G：生成器G由一个四层的全连接层构成，其作用是将低维的输入信号映射到高维的数据空间，模拟真实数据，表示为x＝G(z)。其输入z是一个满足简单形式的随机分布的信号，如高斯分布或均匀分布等。为了使得生成空间的数据分布能尽可能逼近真实数据分布，生成器函数G是一个神经网络的形式，其优点在于：通过神经网络可以模拟出各种完全不同的分布类型。设置输入生成器的信号z是维度为256维的高斯白噪声，满足标准正态分布。真实数据维度为2400，因此输入层为256个神经元节点，输出层为2400个神经元节点。

(32)搭建判别器模型D：判别器D由一个四层的全连接层构成，其作用是识别生成器生成的仿真数据与真实数据的真伪性。不失一般性地，给“真”数据样本X贴上标签“1”，给“假”样本贴上标签“0”，因此判别器的训练过程就是要让真实数据的评分尽可能接近1，而仿真数据的评分尽可能接近0。

该目标函数能够衡量生成数据分布与真实数据分布的差异。其中，其中，E表示取期望操作；P_data表示真实数据；P_z，即p_g(z)，表示生成器拟合的数据分布；D(x)表示给判别器D输入温度数据x后生成的仿生数据；G(z)表示给生成器G输入高斯噪声z后生成的仿真数据。

(24)训练模型：通过以下公式，对V(D,G)进行寻优，

首先冻结生成器，即神经网络只进行前向传播，输入温度数据，多次迭代训练判别器网络参数；然后冻结判别器，输入温度数据，一次迭代训练生成器网络参数，只进行一次迭代的目的是防止更新多次无法使生成数据分布与真实数据分布差异度下降。

所述步骤(4)中的测试过程包括以下步骤：

(41)对比增强后的温度曲线图走势与真实数据走势；

(42)计算真实数据与生成数据的EM距离：

Claims

1.一种用于全自动控制的温度数据增强方法，其特征在于，包括以下步骤：

(1)对采集的温度数据中异常、不平滑的数据进行预处理；

2.根据权利要求1所述的用于全自动控制的温度数据增强方法，其特征在于，所述步骤(1)包括以下步骤：

(12)采用五点三次平滑滤波处理温度数据的波动；

(13)进行归一化处理，将温度值统一到[-1,1]之间。

3.根据权利要求1所述的用于全自动控制的温度数据增强方法，其特征在于，所述步骤(2)具体为：

对数据维度为K的每组数据向量分组，每组数据标号分别为：

1+nj，j＝0，1，…，j<k/n；

2+nj，j＝0，1，…，j<k/n；

……

n-1+nj，j＝0，1，…，j<k/n。

4.根据权利要求1所述的用于全自动控制的温度数据增强方法，其特征在于，所述步骤(3)包括以下步骤：

(31)搭建生成器模型G；

(32)搭建判别器模型D；

从前置的随机分布p_g(z)中取出m个随机数{z⁽¹⁾,z⁽²⁾,…,z^(m)}，其次再从真实数据分布p_data(x)中取出m个真实样本{x⁽¹⁾,x⁽²⁾,…,x^(m)}；使用平均数代替目标函数中的期望，公式改写为：

(34)训练模型：通过以下公式，对V(D,G)进行寻优，

5.根据权利要求4所述的用于全自动控制的温度数据增强方法，其特征在于，所述步骤(31)中输入生成器的信号z是维度为256维的高斯白噪声，满足标准正态分布，真实数据维度为2400。

6.根据权利要求1所述的用于全自动控制的温度数据增强方法，其特征在于，所述步骤(4)中的测试过程包括以下步骤：

(41)对比增强后的温度曲线图走势与真实数据走势；

(42)计算真实数据与生成数据的EM距离：

其中，EM距离也称为Wasserstein距离，用于衡量两个分布差距大小；inf表示集合Π(P_data,P_g)最大的下界；∏(P_r,P_g)代表对于(x,y)的边缘分布为P_r和P_g的联合分布的集合，(x,y)～γ表示变量(x,y)服从联合分布，其中x、y分别为真实温度数据和生成器产生的仿真数据。