CN114662138B

CN114662138B - 一种工业过程数据脱敏方法

Info

Publication number: CN114662138B
Application number: CN202011541900.9A
Authority: CN
Inventors: 潘福成; 史海波; 李帅; 周晓锋
Original assignee: Shenyang Institute of Automation of CAS
Current assignee: Shenyang Institute of Automation of CAS
Priority date: 2020-12-23
Filing date: 2020-12-23
Publication date: 2024-06-11
Anticipated expiration: 2040-12-23
Also published as: CN114662138A

Abstract

本发明涉及一种工业过程数据脱敏方法，包括利用混合属性局部近邻标准化方法对多模态工业过程混合属性数据进行标准化处理，利用基于生成对抗网络的多模态工业过程混合属性数据脱敏方法获取工业过程静态脱敏数据和模型，利用多模态工业过程混合属性数据动态脱敏策略实现工业过程数据动态脱敏。本发明通过将混合属性局部近邻标准化、生成对抗网络和多模态工业过程混合属性数据动态脱敏策略结合，考虑复杂工业过程的多模态与混合属性并存问题，克服现有脱敏方法通常面向商业和银行业且以对源数据的部分修改为主等局限，对工业大数据安全与隐私保护具有理论和实际意义。

Description

一种工业过程数据脱敏方法

技术领域

本发明属于工业大数据安全与隐私保护技术领域，具体说是一种工业过程数据脱敏方法。

背景技术

工业大数据技术的广泛应用显著提高了生产效率和产品质量，加快实现了企业的智能管控、制造与转型升级。而如何在工业大数据安全与隐私保护的前提下进行分析，是制造企业亟待解决的关键问题。但现有脱敏方法通常面向商业和银行业且以对源数据的部分修改为主，所以为保证工业过程数据的隐私性和保密性，研究工业过程数据脱敏方法具有理论和实际意义。

基于统计的脱敏方法如数据掩盖，数据混淆等以对源数据的部分进行修改为主，且未考虑复杂工业过程的多模态与混合属性并存问题，导致其直接应用于实际工业过程数据脱敏的性能不佳。在数据脱敏中，混合属性局部近邻标准化可以解决多模态与混合属性并存问题。因此，基于标准化后数据建立生成对抗网络脱敏模型对提高工业过程数据脱敏的性能具有重要意义。

发明内容

针对现有技术的不足，本发明提供一种工业过程数据脱敏方法，利用混合属性局部近邻标准化方法对多模态工业过程混合属性数据进行标准化处理，再利用基于生成对抗网络的多模态工业过程混合属性数据脱敏方法获取工业过程静态脱敏数据和模型，最后利用多模态工业过程混合属性数据动态脱敏策略实现工业过程数据动态脱敏。提出的方法考虑了复杂工业过程的多模态与混合属性并存问题，克服现有脱敏方法通常面向商业和银行业且以对源数据的部分修改为主等局限，这对工业大数据安全与隐私保护具有理论和实际意义。

本发明为实现上述目的所采用的技术方案是：

一种工业过程数据脱敏方法，包括如下步骤：

步骤1：利用混合属性局部近邻标准化方法对多模态工业过程混合属性数据进行标准化处理；

步骤2：利用基于生成对抗网络的多模态工业过程混合属性数据脱敏方法获取工业过程静态脱敏数据和模型；

步骤3：将待脱敏工业过程新数据利用混合属性局部近邻标准化处理后输入工业过程静态脱敏模型，实现工业过程数据动态脱敏。

所述混合属性局部近邻标准化方法包括以下过程：

步骤1-1：利用测地距离计算待脱敏多模态工业过程混合属性源数据X＝[x₁；x₂；…；x_m]中的数值型数据的距离矩阵/>

其中，x_i为X中第i个采样点，为X_n中第i个采样点，m为X和X_n中采样点的个数；

步骤1-2：对待脱敏多模态工业过程混合属性源数据X＝[x₁；x₂；…；x_m]中的分类型数据进行IDF编码，得到编码后分类型数据/>

其中，为X_c中第i个采样点，/>为/>中第i个采样点，m为X_c和/>中采样点的个数；

步骤1-3：利用基于信息熵的加权距离计算编码后分类型数据的距离矩阵

步骤1-4：计算编码后混合属性数据的混合距离矩阵d_h；

步骤1-5：对于X_h中每一个采样点利用d_h从X_h中剩余采样点中选取k个/>的最小混合距离采样点组成局部近邻域/>利用/>的均值/>和标准差/>对/>进行局部近邻标准化，得到标准化后待脱敏多模态工业过程混合属性源数据/>其中/>为/>中第i个采样点；

所述利用测地距离计算X_n的距离矩阵是通过以下公式得到：

其中，为X_n中采样点/>和/>的测地距离。

所述对X_c进行IDF编码，是通过以下公式得到：

其中，为分类型数据X_c中采样点/>的IDF编码后分类型采样点，/>为分类型数据X_c中变量i中特征值/>的频率，M_c为分类型数据X_c中变量的个数。

所述利用基于信息熵的加权距离计算的距离矩阵/>是通过以下公式得到：

其中，为/>中采样点/>和/>的基于信息熵的加权距离，IE_s为中变量s的信息熵，r_s为/>中变量s中分类值的数量，p(a_s,t)为/>中变量s中分类值a_s,t的概率，num(a_s,t)为/>中变量s中分类值a_s,t的个数，/>为/>中采样点和/>的变量s的分类距离，/>和/>为/>中采样点/>和/>的变量s的编码后分类型数据值。

所述计算X_h的混合距离矩阵d_h，是通过以下公式得到：

其中，为X中采样点x_i和x_j的混合距离，M_n为数值型数据X_n中变量的个数。

所述利用和/>对/>进行局部近邻标准化，是通过以下公式得到：

所述基于生成对抗网络的多模态工业过程混合属性数据脱敏方法包括以下过程：

步骤2-1：生成与同规模且服从高斯或均匀分布的随机噪声X_z，将X_z输入到生成器；

步骤2-2：利用生成器对X_z进行映射，得到生成数据G(X_z)；

步骤2-3：将和G(X_z)进行混合并输入到判别器，得到输出概率值p_G-D；

步骤2-4：当p_G-D＝0.5或达到最大迭代次数时，生成器和判别器达到平衡，脱敏数据满足模型需求，得到工业过程静态脱敏数据和工业过程静态脱敏模型/>

当未达到最大迭代次数且0.5＜p_G-D≤1时，将判别器损失函数回传给生成器，更新生成器执行步骤2-2、步骤2-3、步骤2-4。

所述生成器和判别器的结构采用神经网络或卷积神经网络。

所述多模态工业过程混合属性数据动态脱敏策略包括以下过程：

步骤3-1：将待脱敏工业过程新数据进行混合属性局部近邻标准化，得到标准化后待脱敏工业过程新数据/>其中，/>为x_new,i中的数值型数据，/>为利用X_c的IDF编码获取的x_new,i中的编码后分类型数据；

步骤3-2：将输入到工业过程静态脱敏模型/>得到工业过程动态脱敏数据/>

所述将x_new,i进行混合属性局部近邻标准化，是通过以下公式得到：

其中，为X_h中x_new,i的最小混合距离采样点的k个局部近邻域，/>和/>为/>的均值和标准差。

本发明具有以下有益效果及优点：

本发明通过将混合属性局部近邻标准化、生成对抗网络和多模态工业过程混合属性数据动态脱敏策略结合，先利用混合属性局部近邻标准化方法对多模态工业过程混合属性数据进行标准化处理，再利用基于生成对抗网络的多模态工业过程混合属性数据脱敏方法获取工业过程静态脱敏数据和模型，最后利用多模态工业过程混合属性数据动态脱敏策略实现工业过程数据动态脱敏，考虑复杂工业过程的多模态与混合属性并存问题，克服现有脱敏方法通常面向商业和银行业且以对源数据的部分修改为主等局限，对工业大数据安全与隐私保护具有理论和实际意义。

附图说明

图1为本发明的方法流程图。

图2为本发明的混合属性局部近邻标准化处理流程图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图对本发明的具体实施方法做详细的说明。在下面的描述中阐述了很多具体细节以便于充分理解本发明。但本发明能够以很多不同于在此描述的其他方式来实施，本领域技术人员可以在不违背发明内涵的情况下做类似改进，因此本发明不受下面公开的具体实施的限制。

除非另有定义，本文所使用的所有技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在发明的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本发明。

如图1所示，为本发明的方法流程图。

工业过程数据脱敏方法，搜集待脱敏多模态工业过程混合属性源数据，在得到标准化后待脱敏源数据后，利用基于生成对抗网络的多模态工业过程混合属性数据脱敏方法与动态脱敏策略进行数据脱敏。本发明的程序执行步骤所采用的编程语言不限于MATLAB、Python等。

本发明的具体步骤如下：

步骤1包括如下几个步骤：

如图2所示，为本发明的混合属性局部近邻标准化处理流程图。

步骤1-1：搜集待脱敏多模态工业过程混合属性源数据X＝[x₁；x₂；…；x_m]；

以烟草制丝过程为例，变量主要包括加水设定值、加水控制器设定值、加水控制器内控设定值、出口温度设定值、热风温度设定值、出口水份设定值、加水实际值、出口温度实际值、出口水份实际值等变量，其中x_i为X中第i个采样点，m为X中采样点的个数；搜集为从现场中控室的终端机输入的设定值，例如加水设定值、加水控制器设定值、加水控制器内控设定值、出口温度设定值、热风温度设定值、出口水份设定值；或通过工业现场的各种传感器采集的上述各个实际测量值，例如采用红外水份仪设置在现场烟丝皮带出口处，采集出口水份实际值，采用温度传感器设置在现场烟丝皮带出口处，采集出口温度实际值。

商业为例要搜集的待脱敏数据包括：营业执照号码、客户名称、客户账户、子账户、账户余额等，搜集为从工商局、银行对公业务等的客户端输入的商业数据。

银行业为例要搜集的待脱敏数据包括：性别、年龄、身份证号码、交易地点等，搜集为从手机银行、网银、银行网点等的客户端输入的银行业数据。

利用测地距离计算X中的数值型数据的距离矩阵/>公式如下：

其中，为X_n中第i个采样点，m为X_n中采样点的个数，/>为X_n中采样点/>和/>的测地距离；

步骤1-2：对X中的分类型数据进行IDF编码，得到编码后分类型数据/>公式如下：

其中，为X_c中第i个采样点，/>为/>中第i个采样点，m为X_c和/>中采样点的个数，/>为分类型数据X_c中采样点/>的IDF编码后分类型采样点，/>为分类型数据X_c中变量i中特征值/>的频率，M_c为分类型数据X_c中变量的个数；

步骤1-3：利用基于信息熵的加权距离计算编码后分类型数据的距离矩阵公式如下：

其中，为/>中采样点/>和/>的基于信息熵的加权距离，IE_s为中变量s的信息熵，r_s为/>中变量s中分类值的数量，p(a_s,t)为/>中变量s中分类值a_s,t的概率，num(a_s,t)为/>中变量s中分类值a_s,t的个数，/>为/>中采样点和/>的变量s的分类距离，/>和/>为/>中采样点/>和/>的变量s的编码后分类型数据值；

步骤1-4：计算编码后混合属性数据的混合距离矩阵d_h，公式如下：

其中，为X中采样点x_i和x_j的混合距离，M_n为数值型数据X_n中变量的个数；

步骤1-5：对于X_h中每一个采样点利用d_h从X_h中剩余采样点中选取k个/>的最小混合距离采样点组成局部近邻域/>利用/>的均值/>和标准差/>对/>进行局部近邻标准化，得到标准化后待脱敏多模态工业过程混合属性源数据/>公式如下：

其中为/>中第i个采样点，局部近邻域采样点个数k取值范围为[30,k_max]，k_max为X中采样点个数最少的模态包含的采样点个数，k默认值为50；

步骤2包括如下4个步骤：

步骤2-1：利用基于生成对抗网络的多模态工业过程混合属性数据脱敏方法获取工业过程静态脱敏数据和模型，生成与同规模且服从高斯或均匀分布的随机噪声X_z，将X_z输入到生成器，生成对抗网络可以采用基本生成对抗网络、Wasserstein生成对抗网络、具有梯度惩罚的Wasserstein生成对抗网络等，默认选择基本生成对抗网络，生成器常用的结构为神经网络或卷积神经网络，默认选择三层全连接BP神经网络，生成器输入层神经元个数默认值为X中变量个数M_n+M_c，生成器输出层神经元个数默认值为M_n+M_c，生成器隐藏层神经元个数默认值为/>a为[0,10]之间的常数，a默认值为10，每批送入生成器的采样点个数默认值为100，生成器输入层的激活函数默认选择ReLU，生成器隐藏层的激活函数默认选择Sigmoid，生成器输出层激活函数默认选择Sigmoid，生成器初始学习率默认值为0.00001，生成器的优化器默认选择SGD Optimizer；

步骤2-2：利用生成器对X_z进行映射，得到生成数据G(X_z)；

步骤2-3：将和G(X_z)进行混合并输入到判别器，得到输出概率值p_G-D，判别器常用的结构为神经网络或卷积神经网络，默认选择三层全连接BP神经网络，判别器输入层神经元个数默认值为X中变量个数M_n+M_c，判别器输出层神经元个数默认值为1，判别器隐藏层神经元个数默认值为/>a为[0,10]之间的常数，a默认值为10，每批送入判别器的采样点个数默认值为100，判别器输入层的激活函数默认选择ReLU，判别器隐藏层的激活函数默认选择Sigmoid，判别器输出层激活函数默认选择liner，判别器初始学习率默认值为0.00001，判别器的优化器默认选择SGD Optimizer；

步骤2-4：当p_G-D＝0.5或达到最大迭代次数时，生成器和判别器达到平衡，脱敏数据满足模型需求，得到工业过程静态脱敏数据和工业过程静态脱敏模型/>当未达到最大迭代次数且0.5＜p_G-D≤1时，将判别器损失函数回传给生成器，更新生成器执行步骤2-2、步骤2-3、步骤2-4；

其中，判别器损失函数可设置为生成器损失函数可设置为/> 为判别器判断/>为真的概率，D(G(x_z,i))为判别器判断G(x_z,i)为真的概率，x_z,i为G(X_z)中第i个采样点；

步骤3包括如下2个步骤：

步骤3-1：将待脱敏工业过程新数据进行混合属性局部近邻标准化，得到标准化后待脱敏工业过程新数据/>公式如下：

其中，为x_new,i中的数值型数据，/>为利用X_c的IDF编码获取的x_new,i中的编码后分类型数据，/>为X_h中x_new,i的最小混合距离采样点的k个局部近邻域，/>和为/>的均值和标准差，局部近邻域采样点个数k取值范围为[30,k_max]，k_max为X中采样点个数最少的模态包含的采样点个数，k默认值为50；

以烟草制丝过程为例，对包括加水设定值、加水控制器设定值、加水控制器内控设定值、出口温度设定值、热风温度设定值、出口水份设定值、加水实际值、出口温度实际值、出口水份实际值等变量的采样点数据，进行如上标准化、静态建模后得到了标准模型，将现场新采集的采样点数据输入标准模型后得到了上述各个数据对应的脱敏数据，实现了对现场数据的脱敏处理，提高了工业大数据安全与隐私保护。

以商业或银行业要搜集的待脱敏数据进行上述标准化和静态建模过程处理，以及获取了商业或银行业的脱敏数据，实现了对商业或银行业的脱敏处理，提高了商业或银行业大数据安全与隐私保护。

综上所述，本发明通过将混合属性局部近邻标准化、生成对抗网络和多模态工业过程混合属性数据动态脱敏策略结合，先利用混合属性局部近邻标准化方法对多模态工业过程混合属性数据进行标准化处理，再利用基于生成对抗网络的多模态工业过程混合属性数据脱敏方法获取工业过程静态脱敏数据和模型，最后利用多模态工业过程混合属性数据动态脱敏策略实现工业过程数据动态脱敏，考虑复杂工业过程的多模态与混合属性并存问题，克服现有脱敏方法通常面向商业和银行业且以对源数据的部分修改为主等局限，对工业大数据安全与隐私保护具有理论和实际意义。

以上说明所描述的实施例将有助于本领域的技术人员进一步理解本发明，但不以任何形式限制本发明。应当指出的是，对本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变换和改进。这些都属于本发明的保护范围。

Claims

1.一种工业过程数据脱敏方法，其特征在于：包括如下步骤：

步骤1：利用混合属性局部近邻标准化方法对多模态工业过程混合属性数据进行标准化处理；所述混合属性局部近邻标准化方法包括以下过程：

步骤1-1：利用测地距离计算待脱敏多模态工业过程混合属性源数据X＝[x₁；x₂；…；x_m]中的数值型数据的距离矩阵/>其中，x_i为X中第i个采样点，/>为X_n中第i个采样点，m为X和X_n中采样点的个数；

步骤1-2：对待脱敏多模态工业过程混合属性源数据X＝[x₁；x₂；…；x_m]中的分类型数据进行IDF编码，得到编码后分类型数据/>其中，/>为X_c中第i个采样点，/>为/>中第i个采样点，m为X_c和/>中采样点的个数；

步骤1-3：利用基于信息熵的加权距离计算编码后分类型数据的距离矩阵/>

步骤1-4：计算编码后混合属性数据的混合距离矩阵d_h；

步骤1-5：对于X_h中每一个采样点利用d_h从X_h中剩余采样点中选取k个的最小混合距离采样点组成局部近邻域/>利用/>的均值和标准差/>对/>进行局部近邻标准化，得到标准化后待脱敏多模态工业过程混合属性源数据/>其中/>为/>中第i个采样点；

步骤2：利用基于生成对抗网络的多模态工业过程混合属性数据脱敏方法获取工业过程静态脱敏数据和模型；所述基于生成对抗网络的多模态工业过程混合属性数据脱敏方法包括以下过程：

步骤2-2：利用生成器对X_z进行映射，得到生成数据G(X_z)；

步骤3：将待脱敏工业过程新数据利用混合属性局部近邻标准化处理后输入工业过程静态脱敏模型，实现工业过程数据动态脱敏；所述多模态工业过程混合属性数据动态脱敏策略包括以下过程：

2.根据权利要求1所述的工业过程数据脱敏方法，其特征在于：所述利用测地距离计算X_n的距离矩阵是通过以下公式得到：

其中，为X_n中采样点/>和/>的测地距离。

3.根据权利要求1所述的工业过程数据脱敏方法，其特征在于：所述对X_c进行IDF编码，是通过以下公式得到：

4.根据权利要求1所述的工业过程数据脱敏方法，其特征在于：所述利用基于信息熵的加权距离计算的距离矩阵/>是通过以下公式得到：

其中，为/>中采样点/>和/>的基于信息熵的加权距离，IE_s为/>中变量s的信息熵，r_s为/>中变量s中分类值的数量，p(a_s,t)为/>中变量s中分类值a_s,t的概率，num(a_s,t)为/>中变量s中分类值a_s,t的个数，/>为/>中采样点/>和的变量s的分类距离，/>和/>为/>中采样点/>和/>的变量s的编码后分类型数据值。

5.根据权利要求3所述的工业过程数据脱敏方法，其特征在于：所述计算X_h的混合距离矩阵d_h，是通过以下公式得到：

6.根据权利要求1所述的工业过程数据脱敏方法，其特征在于：所述利用和/>对/>进行局部近邻标准化，是通过以下公式得到：

。

7.根据权利要求1所述的工业过程数据脱敏方法，其特征在于：所述生成器和判别器的结构采用神经网络或卷积神经网络。