CN114662138B - 一种工业过程数据脱敏方法 - Google Patents
一种工业过程数据脱敏方法 Download PDFInfo
- Publication number
- CN114662138B CN114662138B CN202011541900.9A CN202011541900A CN114662138B CN 114662138 B CN114662138 B CN 114662138B CN 202011541900 A CN202011541900 A CN 202011541900A CN 114662138 B CN114662138 B CN 114662138B
- Authority
- CN
- China
- Prior art keywords
- data
- industrial process
- desensitization
- mixed
- standardization
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000004519 manufacturing process Methods 0.000 title claims abstract description 97
- 238000000586 desensitisation Methods 0.000 title claims abstract description 68
- 238000000034 method Methods 0.000 title claims abstract description 52
- 230000003068 static effect Effects 0.000 claims abstract description 20
- 238000011425 standardization method Methods 0.000 claims abstract description 7
- 238000005070 sampling Methods 0.000 claims description 56
- 239000011159 matrix material Substances 0.000 claims description 14
- 238000013528 artificial neural network Methods 0.000 claims description 8
- 230000008569 process Effects 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 4
- 238000010606 normalization Methods 0.000 claims description 4
- 238000013507 mapping Methods 0.000 claims description 3
- 238000012545 processing Methods 0.000 claims description 3
- 238000009827 uniform distribution Methods 0.000 claims description 3
- 239000000203 mixture Substances 0.000 claims description 2
- 230000007547 defect Effects 0.000 abstract description 5
- 230000004048 modification Effects 0.000 abstract description 5
- 238000012986 modification Methods 0.000 abstract description 5
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 13
- 230000006870 function Effects 0.000 description 10
- 210000002569 neuron Anatomy 0.000 description 6
- 241000208125 Nicotiana Species 0.000 description 4
- 235000002637 Nicotiana tabacum Nutrition 0.000 description 4
- 230000003213 activating effect Effects 0.000 description 3
- 230000004913 activation Effects 0.000 description 3
- 238000013527 convolutional neural network Methods 0.000 description 2
- 230000005477 standard model Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000000873 masking effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/62—Protecting access to data via a platform, e.g. using keys or access control rules
- G06F21/6218—Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
- G06F21/6245—Protecting personal data, e.g. for financial or medical purposes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/16—Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/02—Banking, e.g. interest calculation or account maintenance
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Business, Economics & Management (AREA)
- Bioethics (AREA)
- Molecular Biology (AREA)
- Evolutionary Computation (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Artificial Intelligence (AREA)
- Computational Mathematics (AREA)
- Databases & Information Systems (AREA)
- Pure & Applied Mathematics (AREA)
- Mathematical Optimization (AREA)
- Life Sciences & Earth Sciences (AREA)
- Accounting & Taxation (AREA)
- Finance (AREA)
- Mathematical Analysis (AREA)
- Medical Informatics (AREA)
- Marketing (AREA)
- Strategic Management (AREA)
- Technology Law (AREA)
- General Business, Economics & Management (AREA)
- Economics (AREA)
- Development Economics (AREA)
- Computer Security & Cryptography (AREA)
- Computer Hardware Design (AREA)
- Algebra (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明涉及一种工业过程数据脱敏方法,包括利用混合属性局部近邻标准化方法对多模态工业过程混合属性数据进行标准化处理,利用基于生成对抗网络的多模态工业过程混合属性数据脱敏方法获取工业过程静态脱敏数据和模型,利用多模态工业过程混合属性数据动态脱敏策略实现工业过程数据动态脱敏。本发明通过将混合属性局部近邻标准化、生成对抗网络和多模态工业过程混合属性数据动态脱敏策略结合,考虑复杂工业过程的多模态与混合属性并存问题,克服现有脱敏方法通常面向商业和银行业且以对源数据的部分修改为主等局限,对工业大数据安全与隐私保护具有理论和实际意义。
Description
技术领域
本发明属于工业大数据安全与隐私保护技术领域,具体说是一种工业过程数据脱敏方法。
背景技术
工业大数据技术的广泛应用显著提高了生产效率和产品质量,加快实现了企业的智能管控、制造与转型升级。而如何在工业大数据安全与隐私保护的前提下进行分析,是制造企业亟待解决的关键问题。但现有脱敏方法通常面向商业和银行业且以对源数据的部分修改为主,所以为保证工业过程数据的隐私性和保密性,研究工业过程数据脱敏方法具有理论和实际意义。
基于统计的脱敏方法如数据掩盖,数据混淆等以对源数据的部分进行修改为主,且未考虑复杂工业过程的多模态与混合属性并存问题,导致其直接应用于实际工业过程数据脱敏的性能不佳。在数据脱敏中,混合属性局部近邻标准化可以解决多模态与混合属性并存问题。因此,基于标准化后数据建立生成对抗网络脱敏模型对提高工业过程数据脱敏的性能具有重要意义。
发明内容
针对现有技术的不足,本发明提供一种工业过程数据脱敏方法,利用混合属性局部近邻标准化方法对多模态工业过程混合属性数据进行标准化处理,再利用基于生成对抗网络的多模态工业过程混合属性数据脱敏方法获取工业过程静态脱敏数据和模型,最后利用多模态工业过程混合属性数据动态脱敏策略实现工业过程数据动态脱敏。提出的方法考虑了复杂工业过程的多模态与混合属性并存问题,克服现有脱敏方法通常面向商业和银行业且以对源数据的部分修改为主等局限,这对工业大数据安全与隐私保护具有理论和实际意义。
本发明为实现上述目的所采用的技术方案是:
一种工业过程数据脱敏方法,包括如下步骤:
步骤1:利用混合属性局部近邻标准化方法对多模态工业过程混合属性数据进行标准化处理;
步骤2:利用基于生成对抗网络的多模态工业过程混合属性数据脱敏方法获取工业过程静态脱敏数据和模型;
步骤3:将待脱敏工业过程新数据利用混合属性局部近邻标准化处理后输入工业过程静态脱敏模型,实现工业过程数据动态脱敏。
所述混合属性局部近邻标准化方法包括以下过程:
步骤1-1:利用测地距离计算待脱敏多模态工业过程混合属性源数据X=[x1;x2;…;xm]中的数值型数据的距离矩阵/>
其中,xi为X中第i个采样点,为Xn中第i个采样点,m为X和Xn中采样点的个数;
步骤1-2:对待脱敏多模态工业过程混合属性源数据X=[x1;x2;…;xm]中的分类型数据进行IDF编码,得到编码后分类型数据/>
其中,为Xc中第i个采样点,/>为/>中第i个采样点,m为Xc和/>中采样点的个数;
步骤1-3:利用基于信息熵的加权距离计算编码后分类型数据的距离矩阵
步骤1-4:计算编码后混合属性数据的混合距离矩阵dh;
步骤1-5:对于Xh中每一个采样点利用dh从Xh中剩余采样点中选取k个/>的最小混合距离采样点组成局部近邻域/>利用/>的均值/>和标准差/>对/>进行局部近邻标准化,得到标准化后待脱敏多模态工业过程混合属性源数据/>其中/>为/>中第i个采样点;
所述利用测地距离计算Xn的距离矩阵是通过以下公式得到:
其中,为Xn中采样点/>和/>的测地距离。
所述对Xc进行IDF编码,是通过以下公式得到:
其中,为分类型数据Xc中采样点/>的IDF编码后分类型采样点,/>为分类型数据Xc中变量i中特征值/>的频率,Mc为分类型数据Xc中变量的个数。
所述利用基于信息熵的加权距离计算的距离矩阵/>是通过以下公式得到:
其中,为/>中采样点/>和/>的基于信息熵的加权距离,IEs为中变量s的信息熵,rs为/>中变量s中分类值的数量,p(as,t)为/>中变量s中分类值as,t的概率,num(as,t)为/>中变量s中分类值as,t的个数,/>为/>中采样点和/>的变量s的分类距离,/>和/>为/>中采样点/>和/>的变量s的编码后分类型数据值。
所述计算Xh的混合距离矩阵dh,是通过以下公式得到:
其中,为X中采样点xi和xj的混合距离,Mn为数值型数据Xn中变量的个数。
所述利用和/>对/>进行局部近邻标准化,是通过以下公式得到:
所述基于生成对抗网络的多模态工业过程混合属性数据脱敏方法包括以下过程:
步骤2-1:生成与同规模且服从高斯或均匀分布的随机噪声Xz,将Xz输入到生成器;
步骤2-2:利用生成器对Xz进行映射,得到生成数据G(Xz);
步骤2-3:将和G(Xz)进行混合并输入到判别器,得到输出概率值pG-D;
步骤2-4:当pG-D=0.5或达到最大迭代次数时,生成器和判别器达到平衡,脱敏数据满足模型需求,得到工业过程静态脱敏数据和工业过程静态脱敏模型/>
当未达到最大迭代次数且0.5<pG-D≤1时,将判别器损失函数回传给生成器,更新生成器执行步骤2-2、步骤2-3、步骤2-4。
所述生成器和判别器的结构采用神经网络或卷积神经网络。
所述多模态工业过程混合属性数据动态脱敏策略包括以下过程:
步骤3-1:将待脱敏工业过程新数据进行混合属性局部近邻标准化,得到标准化后待脱敏工业过程新数据/>其中,/>为xnew,i中的数值型数据,/>为利用Xc的IDF编码获取的xnew,i中的编码后分类型数据;
步骤3-2:将输入到工业过程静态脱敏模型/>得到工业过程动态脱敏数据/>
所述将xnew,i进行混合属性局部近邻标准化,是通过以下公式得到:
其中,为Xh中xnew,i的最小混合距离采样点的k个局部近邻域,/>和/>为/>的均值和标准差。
本发明具有以下有益效果及优点:
本发明通过将混合属性局部近邻标准化、生成对抗网络和多模态工业过程混合属性数据动态脱敏策略结合,先利用混合属性局部近邻标准化方法对多模态工业过程混合属性数据进行标准化处理,再利用基于生成对抗网络的多模态工业过程混合属性数据脱敏方法获取工业过程静态脱敏数据和模型,最后利用多模态工业过程混合属性数据动态脱敏策略实现工业过程数据动态脱敏,考虑复杂工业过程的多模态与混合属性并存问题,克服现有脱敏方法通常面向商业和银行业且以对源数据的部分修改为主等局限,对工业大数据安全与隐私保护具有理论和实际意义。
附图说明
图1为本发明的方法流程图。
图2为本发明的混合属性局部近邻标准化处理流程图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图对本发明的具体实施方法做详细的说明。在下面的描述中阐述了很多具体细节以便于充分理解本发明。但本发明能够以很多不同于在此描述的其他方式来实施,本领域技术人员可以在不违背发明内涵的情况下做类似改进,因此本发明不受下面公开的具体实施的限制。
除非另有定义,本文所使用的所有技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在发明的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本发明。
如图1所示,为本发明的方法流程图。
工业过程数据脱敏方法,搜集待脱敏多模态工业过程混合属性源数据,在得到标准化后待脱敏源数据后,利用基于生成对抗网络的多模态工业过程混合属性数据脱敏方法与动态脱敏策略进行数据脱敏。本发明的程序执行步骤所采用的编程语言不限于MATLAB、Python等。
本发明的具体步骤如下:
步骤1包括如下几个步骤:
如图2所示,为本发明的混合属性局部近邻标准化处理流程图。
步骤1-1:搜集待脱敏多模态工业过程混合属性源数据X=[x1;x2;…;xm];
以烟草制丝过程为例,变量主要包括加水设定值、加水控制器设定值、加水控制器内控设定值、出口温度设定值、热风温度设定值、出口水份设定值、加水实际值、出口温度实际值、出口水份实际值等变量,其中xi为X中第i个采样点,m为X中采样点的个数;搜集为从现场中控室的终端机输入的设定值,例如加水设定值、加水控制器设定值、加水控制器内控设定值、出口温度设定值、热风温度设定值、出口水份设定值;或通过工业现场的各种传感器采集的上述各个实际测量值,例如采用红外水份仪设置在现场烟丝皮带出口处,采集出口水份实际值,采用温度传感器设置在现场烟丝皮带出口处,采集出口温度实际值。
商业为例要搜集的待脱敏数据包括:营业执照号码、客户名称、客户账户、子账户、账户余额等,搜集为从工商局、银行对公业务等的客户端输入的商业数据。
银行业为例要搜集的待脱敏数据包括:性别、年龄、身份证号码、交易地点等,搜集为从手机银行、网银、银行网点等的客户端输入的银行业数据。
利用测地距离计算X中的数值型数据的距离矩阵/>公式如下:
其中,为Xn中第i个采样点,m为Xn中采样点的个数,/>为Xn中采样点/>和/>的测地距离;
步骤1-2:对X中的分类型数据进行IDF编码,得到编码后分类型数据/>公式如下:
其中,为Xc中第i个采样点,/>为/>中第i个采样点,m为Xc和/>中采样点的个数,/>为分类型数据Xc中采样点/>的IDF编码后分类型采样点,/>为分类型数据Xc中变量i中特征值/>的频率,Mc为分类型数据Xc中变量的个数;
步骤1-3:利用基于信息熵的加权距离计算编码后分类型数据的距离矩阵公式如下:
其中,为/>中采样点/>和/>的基于信息熵的加权距离,IEs为中变量s的信息熵,rs为/>中变量s中分类值的数量,p(as,t)为/>中变量s中分类值as,t的概率,num(as,t)为/>中变量s中分类值as,t的个数,/>为/>中采样点和/>的变量s的分类距离,/>和/>为/>中采样点/>和/>的变量s的编码后分类型数据值;
步骤1-4:计算编码后混合属性数据的混合距离矩阵dh,公式如下:
其中,为X中采样点xi和xj的混合距离,Mn为数值型数据Xn中变量的个数;
步骤1-5:对于Xh中每一个采样点利用dh从Xh中剩余采样点中选取k个/>的最小混合距离采样点组成局部近邻域/>利用/>的均值/>和标准差/>对/>进行局部近邻标准化,得到标准化后待脱敏多模态工业过程混合属性源数据/>公式如下:
其中为/>中第i个采样点,局部近邻域采样点个数k取值范围为[30,kmax],kmax为X中采样点个数最少的模态包含的采样点个数,k默认值为50;
步骤2包括如下4个步骤:
步骤2-1:利用基于生成对抗网络的多模态工业过程混合属性数据脱敏方法获取工业过程静态脱敏数据和模型,生成与同规模且服从高斯或均匀分布的随机噪声Xz,将Xz输入到生成器,生成对抗网络可以采用基本生成对抗网络、Wasserstein生成对抗网络、具有梯度惩罚的Wasserstein生成对抗网络等,默认选择基本生成对抗网络,生成器常用的结构为神经网络或卷积神经网络,默认选择三层全连接BP神经网络,生成器输入层神经元个数默认值为X中变量个数Mn+Mc,生成器输出层神经元个数默认值为Mn+Mc,生成器隐藏层神经元个数默认值为/>a为[0,10]之间的常数,a默认值为10,每批送入生成器的采样点个数默认值为100,生成器输入层的激活函数默认选择ReLU,生成器隐藏层的激活函数默认选择Sigmoid,生成器输出层激活函数默认选择Sigmoid,生成器初始学习率默认值为0.00001,生成器的优化器默认选择SGD Optimizer;
步骤2-2:利用生成器对Xz进行映射,得到生成数据G(Xz);
步骤2-3:将和G(Xz)进行混合并输入到判别器,得到输出概率值pG-D,判别器常用的结构为神经网络或卷积神经网络,默认选择三层全连接BP神经网络,判别器输入层神经元个数默认值为X中变量个数Mn+Mc,判别器输出层神经元个数默认值为1,判别器隐藏层神经元个数默认值为/>a为[0,10]之间的常数,a默认值为10,每批送入判别器的采样点个数默认值为100,判别器输入层的激活函数默认选择ReLU,判别器隐藏层的激活函数默认选择Sigmoid,判别器输出层激活函数默认选择liner,判别器初始学习率默认值为0.00001,判别器的优化器默认选择SGD Optimizer;
步骤2-4:当pG-D=0.5或达到最大迭代次数时,生成器和判别器达到平衡,脱敏数据满足模型需求,得到工业过程静态脱敏数据和工业过程静态脱敏模型/>当未达到最大迭代次数且0.5<pG-D≤1时,将判别器损失函数回传给生成器,更新生成器执行步骤2-2、步骤2-3、步骤2-4;
其中,判别器损失函数可设置为生成器损失函数可设置为/> 为判别器判断/>为真的概率,D(G(xz,i))为判别器判断G(xz,i)为真的概率,xz,i为G(Xz)中第i个采样点;
步骤3包括如下2个步骤:
步骤3-1:将待脱敏工业过程新数据进行混合属性局部近邻标准化,得到标准化后待脱敏工业过程新数据/>公式如下:
其中,为xnew,i中的数值型数据,/>为利用Xc的IDF编码获取的xnew,i中的编码后分类型数据,/>为Xh中xnew,i的最小混合距离采样点的k个局部近邻域,/>和为/>的均值和标准差,局部近邻域采样点个数k取值范围为[30,kmax],kmax为X中采样点个数最少的模态包含的采样点个数,k默认值为50;
步骤3-2:将输入到工业过程静态脱敏模型/>得到工业过程动态脱敏数据/>
以烟草制丝过程为例,对包括加水设定值、加水控制器设定值、加水控制器内控设定值、出口温度设定值、热风温度设定值、出口水份设定值、加水实际值、出口温度实际值、出口水份实际值等变量的采样点数据,进行如上标准化、静态建模后得到了标准模型,将现场新采集的采样点数据输入标准模型后得到了上述各个数据对应的脱敏数据,实现了对现场数据的脱敏处理,提高了工业大数据安全与隐私保护。
以商业或银行业要搜集的待脱敏数据进行上述标准化和静态建模过程处理,以及获取了商业或银行业的脱敏数据,实现了对商业或银行业的脱敏处理,提高了商业或银行业大数据安全与隐私保护。
综上所述,本发明通过将混合属性局部近邻标准化、生成对抗网络和多模态工业过程混合属性数据动态脱敏策略结合,先利用混合属性局部近邻标准化方法对多模态工业过程混合属性数据进行标准化处理,再利用基于生成对抗网络的多模态工业过程混合属性数据脱敏方法获取工业过程静态脱敏数据和模型,最后利用多模态工业过程混合属性数据动态脱敏策略实现工业过程数据动态脱敏,考虑复杂工业过程的多模态与混合属性并存问题,克服现有脱敏方法通常面向商业和银行业且以对源数据的部分修改为主等局限,对工业大数据安全与隐私保护具有理论和实际意义。
以上说明所描述的实施例将有助于本领域的技术人员进一步理解本发明,但不以任何形式限制本发明。应当指出的是,对本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变换和改进。这些都属于本发明的保护范围。
Claims (7)
1.一种工业过程数据脱敏方法,其特征在于:包括如下步骤:
步骤1:利用混合属性局部近邻标准化方法对多模态工业过程混合属性数据进行标准化处理;所述混合属性局部近邻标准化方法包括以下过程:
步骤1-1:利用测地距离计算待脱敏多模态工业过程混合属性源数据X=[x1;x2;…;xm]中的数值型数据的距离矩阵/>其中,xi为X中第i个采样点,/>为Xn中第i个采样点,m为X和Xn中采样点的个数;
步骤1-2:对待脱敏多模态工业过程混合属性源数据X=[x1;x2;…;xm]中的分类型数据进行IDF编码,得到编码后分类型数据/>其中,/>为Xc中第i个采样点,/>为/>中第i个采样点,m为Xc和/>中采样点的个数;
步骤1-3:利用基于信息熵的加权距离计算编码后分类型数据的距离矩阵/>
步骤1-4:计算编码后混合属性数据的混合距离矩阵dh;
步骤1-5:对于Xh中每一个采样点利用dh从Xh中剩余采样点中选取k个的最小混合距离采样点组成局部近邻域/>利用/>的均值和标准差/>对/>进行局部近邻标准化,得到标准化后待脱敏多模态工业过程混合属性源数据/>其中/>为/>中第i个采样点;
步骤2:利用基于生成对抗网络的多模态工业过程混合属性数据脱敏方法获取工业过程静态脱敏数据和模型;所述基于生成对抗网络的多模态工业过程混合属性数据脱敏方法包括以下过程:
步骤2-1:生成与同规模且服从高斯或均匀分布的随机噪声Xz,将Xz输入到生成器;
步骤2-2:利用生成器对Xz进行映射,得到生成数据G(Xz);
步骤2-3:将和G(Xz)进行混合并输入到判别器,得到输出概率值pG-D;
步骤2-4:当pG-D=0.5或达到最大迭代次数时,生成器和判别器达到平衡,脱敏数据满足模型需求,得到工业过程静态脱敏数据和工业过程静态脱敏模型/>当未达到最大迭代次数且0.5<pG-D≤1时,将判别器损失函数回传给生成器,更新生成器执行步骤2-2、步骤2-3、步骤2-4;
步骤3:将待脱敏工业过程新数据利用混合属性局部近邻标准化处理后输入工业过程静态脱敏模型,实现工业过程数据动态脱敏;所述多模态工业过程混合属性数据动态脱敏策略包括以下过程:
步骤3-1:将待脱敏工业过程新数据进行混合属性局部近邻标准化,得到标准化后待脱敏工业过程新数据/>其中,/>为xnew,i中的数值型数据,/>为利用Xc的IDF编码获取的xnew,i中的编码后分类型数据;
步骤3-2:将输入到工业过程静态脱敏模型/>得到工业过程动态脱敏数据/>
所述将xnew,i进行混合属性局部近邻标准化,是通过以下公式得到:
其中,为Xh中xnew,i的最小混合距离采样点的k个局部近邻域,/>和/>为/>的均值和标准差。
2.根据权利要求1所述的工业过程数据脱敏方法,其特征在于:所述利用测地距离计算Xn的距离矩阵是通过以下公式得到:
其中,为Xn中采样点/>和/>的测地距离。
3.根据权利要求1所述的工业过程数据脱敏方法,其特征在于:所述对Xc进行IDF编码,是通过以下公式得到:
其中,为分类型数据Xc中采样点/>的IDF编码后分类型采样点,/>为分类型数据Xc中变量i中特征值/>的频率,Mc为分类型数据Xc中变量的个数。
4.根据权利要求1所述的工业过程数据脱敏方法,其特征在于:所述利用基于信息熵的加权距离计算的距离矩阵/>是通过以下公式得到:
其中,为/>中采样点/>和/>的基于信息熵的加权距离,IEs为/>中变量s的信息熵,rs为/>中变量s中分类值的数量,p(as,t)为/>中变量s中分类值as,t的概率,num(as,t)为/>中变量s中分类值as,t的个数,/>为/>中采样点/>和的变量s的分类距离,/>和/>为/>中采样点/>和/>的变量s的编码后分类型数据值。
5.根据权利要求3所述的工业过程数据脱敏方法,其特征在于:所述计算Xh的混合距离矩阵dh,是通过以下公式得到:
其中,为X中采样点xi和xj的混合距离,Mn为数值型数据Xn中变量的个数。
6.根据权利要求1所述的工业过程数据脱敏方法,其特征在于:所述利用和/>对/>进行局部近邻标准化,是通过以下公式得到:
。
7.根据权利要求1所述的工业过程数据脱敏方法,其特征在于:所述生成器和判别器的结构采用神经网络或卷积神经网络。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011541900.9A CN114662138B (zh) | 2020-12-23 | 2020-12-23 | 一种工业过程数据脱敏方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011541900.9A CN114662138B (zh) | 2020-12-23 | 2020-12-23 | 一种工业过程数据脱敏方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114662138A CN114662138A (zh) | 2022-06-24 |
CN114662138B true CN114662138B (zh) | 2024-06-11 |
Family
ID=82025188
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011541900.9A Active CN114662138B (zh) | 2020-12-23 | 2020-12-23 | 一种工业过程数据脱敏方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114662138B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109388965A (zh) * | 2018-09-10 | 2019-02-26 | 全球能源互联网研究院有限公司 | 一种混合数据的脱敏方法及系统 |
CN110135193A (zh) * | 2019-05-15 | 2019-08-16 | 广东工业大学 | 一种数据脱敏方法、装置、设备及计算机可读存储介质 |
CN110543166A (zh) * | 2019-09-18 | 2019-12-06 | 河南工学院 | 一种加权k近邻标准化方法的多模态工业过程故障检测方法 |
KR20200034917A (ko) * | 2018-09-14 | 2020-04-01 | 하얼빈 인스티튜트 오브 테크놀로지, 썬전 | 속성 생성적 대립 네트워크 및 상기 네트워크를 기반으로 하는 의류 매칭 생성 방법 |
CN111563275A (zh) * | 2020-07-14 | 2020-08-21 | 中国人民解放军国防科技大学 | 一种基于生成对抗网络的数据脱敏方法 |
CN111783963A (zh) * | 2020-07-24 | 2020-10-16 | 中国人民解放军国防科技大学 | 一种基于星图神经网络的推荐方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7653515B2 (en) * | 2002-12-20 | 2010-01-26 | Lam Research Corporation | Expert knowledge methods and systems for data analysis |
US7797341B2 (en) * | 2007-04-30 | 2010-09-14 | Hewlett-Packard Development Company, L.P. | Desensitizing database information |
-
2020
- 2020-12-23 CN CN202011541900.9A patent/CN114662138B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109388965A (zh) * | 2018-09-10 | 2019-02-26 | 全球能源互联网研究院有限公司 | 一种混合数据的脱敏方法及系统 |
KR20200034917A (ko) * | 2018-09-14 | 2020-04-01 | 하얼빈 인스티튜트 오브 테크놀로지, 썬전 | 속성 생성적 대립 네트워크 및 상기 네트워크를 기반으로 하는 의류 매칭 생성 방법 |
CN110135193A (zh) * | 2019-05-15 | 2019-08-16 | 广东工业大学 | 一种数据脱敏方法、装置、设备及计算机可读存储介质 |
CN110543166A (zh) * | 2019-09-18 | 2019-12-06 | 河南工学院 | 一种加权k近邻标准化方法的多模态工业过程故障检测方法 |
CN111563275A (zh) * | 2020-07-14 | 2020-08-21 | 中国人民解放军国防科技大学 | 一种基于生成对抗网络的数据脱敏方法 |
CN111783963A (zh) * | 2020-07-24 | 2020-10-16 | 中国人民解放军国防科技大学 | 一种基于星图神经网络的推荐方法 |
Non-Patent Citations (3)
Title |
---|
一种面向隐私保护的电力大数据脱敏方案及应用研究;冉冉;李峰;王欣柳;杨立春;丁红发;;网络空间安全;20180125(01);全文 * |
数据脱敏全生命周期过程研究;叶水勇;;电力与能源;20191228(06);全文 * |
面向大数据安全运营的数据服务网关;李卫;魏进武;张云勇;刘颖慧;;信息通信技术;20161215(06);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN114662138A (zh) | 2022-06-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Shen et al. | A novel time series forecasting model with deep learning | |
CN111537945B (zh) | 基于联邦学习的智能电表故障诊断方法及设备 | |
Wang et al. | An efficient incremental learning of bearing fault imbalanced data set via filter StyleGAN | |
Liu et al. | AFSSE: An interpretable classifier with axiomatic fuzzy set and semantic entropy | |
CN113971735A (zh) | 一种深度图像聚类方法、系统、设备、介质及终端 | |
CN111914166A (zh) | 应用于社区矫正人员的矫正策略个性化推荐系统 | |
CN114662138B (zh) | 一种工业过程数据脱敏方法 | |
Yuan et al. | CSCIM_FS: Cosine similarity coefficient and information measurement criterion-based feature selection method for high-dimensional data | |
Du et al. | RETRACTED ARTICLE: Financial risk assessment to improve the accuracy of financial prediction in the internet financial industry using data analytics models | |
CN116305233A (zh) | 一种基于联邦迁移学习的科研数据管理方法及系统 | |
Yang et al. | Predicting freshmen enrollment based on machine learning | |
CN114510552A (zh) | 一种基于分词技术的工业互联网产业链分类方法及系统 | |
Wang | On the Application of Artificial Intelligence in Local Legislation | |
CN117391314B (zh) | 综合场站运营管理平台 | |
CN109784723A (zh) | 输变电项目风险评价方法及终端设备 | |
Wu et al. | An improved SMOTE algorithm for processing unbalanced electric charge data sets | |
CN116933016B (zh) | 基于车路协同的自动驾驶信息安全测试方法及系统 | |
CN115913792B (zh) | Dga域名的鉴别方法、系统及可读介质 | |
Jian-tao | Evaluation and Analysis of an Industrial Cluster Based on the BP Neural Network and LM Algorithm | |
CN116705026B (zh) | 一种人工智能交互方法及系统 | |
Yin | Intelligent clustering evaluation of marine equipment manufacturing based on network connection strength | |
CN117131427B (zh) | 一种基于多元nlp的社交平台账号数据关联性分析方法 | |
Yanying | Application of Data Mining System in User Network Environment Based on SVM Optimization Algorithm | |
CN115908017A (zh) | 一种风险预测方法、装置、计算机设备及存储介质 | |
Yang et al. | Research and Analysis on the Prediction of College Enrollment based on Random Forest |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant |