CN114662138A - 一种工业过程数据脱敏方法 - Google Patents

一种工业过程数据脱敏方法 Download PDF

Info

Publication number
CN114662138A
CN114662138A CN202011541900.9A CN202011541900A CN114662138A CN 114662138 A CN114662138 A CN 114662138A CN 202011541900 A CN202011541900 A CN 202011541900A CN 114662138 A CN114662138 A CN 114662138A
Authority
CN
China
Prior art keywords
data
industrial process
desensitization
mixed
mixed attribute
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011541900.9A
Other languages
English (en)
Other versions
CN114662138B (zh
Inventor
潘福成
史海波
李帅
周晓锋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenyang Institute of Automation of CAS
Original Assignee
Shenyang Institute of Automation of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenyang Institute of Automation of CAS filed Critical Shenyang Institute of Automation of CAS
Priority to CN202011541900.9A priority Critical patent/CN114662138B/zh
Priority claimed from CN202011541900.9A external-priority patent/CN114662138B/zh
Publication of CN114662138A publication Critical patent/CN114662138A/zh
Application granted granted Critical
Publication of CN114662138B publication Critical patent/CN114662138B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/16Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/02Banking, e.g. interest calculation or account maintenance

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Business, Economics & Management (AREA)
  • Bioethics (AREA)
  • Molecular Biology (AREA)
  • Evolutionary Computation (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Artificial Intelligence (AREA)
  • Computational Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • Mathematical Analysis (AREA)
  • Medical Informatics (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • Technology Law (AREA)
  • General Business, Economics & Management (AREA)
  • Economics (AREA)
  • Development Economics (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Hardware Design (AREA)
  • Algebra (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及一种工业过程数据脱敏方法,包括利用混合属性局部近邻标准化方法对多模态工业过程混合属性数据进行标准化处理,利用基于生成对抗网络的多模态工业过程混合属性数据脱敏方法获取工业过程静态脱敏数据和模型,利用多模态工业过程混合属性数据动态脱敏策略实现工业过程数据动态脱敏。本发明通过将混合属性局部近邻标准化、生成对抗网络和多模态工业过程混合属性数据动态脱敏策略结合,考虑复杂工业过程的多模态与混合属性并存问题,克服现有脱敏方法通常面向商业和银行业且以对源数据的部分修改为主等局限,对工业大数据安全与隐私保护具有理论和实际意义。

Description

一种工业过程数据脱敏方法
技术领域
本发明属于工业大数据安全与隐私保护技术领域,具体说是一种工业过程数据脱敏方法。
背景技术
工业大数据技术的广泛应用显著提高了生产效率和产品质量,加快实现了企业的智能管控、制造与转型升级。而如何在工业大数据安全与隐私保护的前提下进行分析,是制造企业亟待解决的关键问题。但现有脱敏方法通常面向商业和银行业且以对源数据的部分修改为主,所以为保证工业过程数据的隐私性和保密性,研究工业过程数据脱敏方法具有理论和实际意义。
基于统计的脱敏方法如数据掩盖,数据混淆等以对源数据的部分进行修改为主,且未考虑复杂工业过程的多模态与混合属性并存问题,导致其直接应用于实际工业过程数据脱敏的性能不佳。在数据脱敏中,混合属性局部近邻标准化可以解决多模态与混合属性并存问题。因此,基于标准化后数据建立生成对抗网络脱敏模型对提高工业过程数据脱敏的性能具有重要意义。
发明内容
针对现有技术的不足,本发明提供一种工业过程数据脱敏方法,利用混合属性局部近邻标准化方法对多模态工业过程混合属性数据进行标准化处理,再利用基于生成对抗网络的多模态工业过程混合属性数据脱敏方法获取工业过程静态脱敏数据和模型,最后利用多模态工业过程混合属性数据动态脱敏策略实现工业过程数据动态脱敏。提出的方法考虑了复杂工业过程的多模态与混合属性并存问题,克服现有脱敏方法通常面向商业和银行业且以对源数据的部分修改为主等局限,这对工业大数据安全与隐私保护具有理论和实际意义。
本发明为实现上述目的所采用的技术方案是:
一种工业过程数据脱敏方法,包括如下步骤:
步骤1:利用混合属性局部近邻标准化方法对多模态工业过程混合属性数据进行标准化处理;
步骤2:利用基于生成对抗网络的多模态工业过程混合属性数据脱敏方法获取工业过程静态脱敏数据和模型;
步骤3:将待脱敏工业过程新数据利用混合属性局部近邻标准化处理后输入工业过程静态脱敏模型,实现工业过程数据动态脱敏。
所述混合属性局部近邻标准化方法包括以下过程:
步骤1-1:利用测地距离计算待脱敏多模态工业过程混合属性源数据X=[x1;x2;…;xm]中的数值型数据
Figure BDA0002855050490000021
的距离矩阵
Figure BDA0002855050490000022
其中,xi为X中第i个采样点,
Figure BDA0002855050490000023
为Xn中第i个采样点,m为X和Xn中采样点的个数;
步骤1-2:对待脱敏多模态工业过程混合属性源数据X=[x1;x2;…;xm]中的分类型数据
Figure BDA0002855050490000024
进行IDF编码,得到编码后分类型数据
Figure BDA0002855050490000025
其中,
Figure BDA0002855050490000026
为Xc中第i个采样点,
Figure BDA0002855050490000027
Figure BDA0002855050490000028
中第i个采样点,m为Xc
Figure BDA0002855050490000029
中采样点的个数;
步骤1-3:利用基于信息熵的加权距离计算编码后分类型数据
Figure BDA00028550504900000210
的距离矩阵
Figure BDA00028550504900000211
步骤1-4:计算编码后混合属性数据
Figure BDA00028550504900000212
的混合距离矩阵dh
步骤1-5:对于Xh中每一个采样点
Figure BDA00028550504900000213
利用dh从Xh中剩余采样点中选取k个
Figure BDA00028550504900000214
的最小混合距离采样点组成局部近邻域
Figure BDA00028550504900000215
利用
Figure BDA00028550504900000216
的均值
Figure BDA00028550504900000217
和标准差
Figure BDA00028550504900000218
Figure BDA00028550504900000219
进行局部近邻标准化,得到标准化后待脱敏多模态工业过程混合属性源数据
Figure BDA00028550504900000220
其中
Figure BDA00028550504900000221
Figure BDA00028550504900000222
中第i个采样点;
所述利用测地距离计算Xn的距离矩阵
Figure BDA0002855050490000031
是通过以下公式得到:
Figure BDA0002855050490000032
其中,
Figure BDA0002855050490000033
为Xn中采样点
Figure BDA0002855050490000034
Figure BDA0002855050490000035
的测地距离。
所述对Xc进行IDF编码,是通过以下公式得到:
Figure BDA0002855050490000036
其中,
Figure BDA0002855050490000037
为分类型数据Xc中采样点
Figure BDA0002855050490000038
的IDF编码后分类型采样点,
Figure BDA0002855050490000039
为分类型数据Xc中变量i中特征值
Figure BDA00028550504900000310
的频率,Mc为分类型数据Xc中变量的个数。
所述利用基于信息熵的加权距离计算
Figure BDA00028550504900000311
的距离矩阵
Figure BDA00028550504900000312
是通过以下公式得到:
Figure BDA00028550504900000313
Figure BDA00028550504900000314
Figure BDA00028550504900000315
Figure BDA00028550504900000316
Figure BDA0002855050490000041
其中,
Figure BDA0002855050490000042
Figure BDA0002855050490000043
中采样点
Figure BDA0002855050490000044
Figure BDA0002855050490000045
的基于信息熵的加权距离,IEs
Figure BDA0002855050490000046
中变量s的信息熵,rs
Figure BDA0002855050490000047
中变量s中分类值的数量,p(as,t)为
Figure BDA0002855050490000048
中变量s中分类值as,t的概率,num(as,t)为
Figure BDA0002855050490000049
中变量s中分类值as,t的个数,
Figure BDA00028550504900000410
Figure BDA00028550504900000411
中采样点
Figure BDA00028550504900000412
Figure BDA00028550504900000413
的变量s的分类距离,
Figure BDA00028550504900000414
Figure BDA00028550504900000415
Figure BDA00028550504900000416
中采样点
Figure BDA00028550504900000417
Figure BDA00028550504900000418
的变量s的编码后分类型数据值。
所述计算Xh的混合距离矩阵dh,是通过以下公式得到:
Figure BDA00028550504900000419
Figure BDA00028550504900000420
其中,
Figure BDA00028550504900000421
为X中采样点xi和xj的混合距离,Mn为数值型数据Xn中变量的个数。
所述利用
Figure BDA00028550504900000422
Figure BDA00028550504900000423
Figure BDA00028550504900000424
进行局部近邻标准化,是通过以下公式得到:
Figure BDA00028550504900000425
所述基于生成对抗网络的多模态工业过程混合属性数据脱敏方法包括以下过程:
步骤2-1:生成与
Figure BDA00028550504900000426
同规模且服从高斯或均匀分布的随机噪声Xz,将Xz输入到生成器;
步骤2-2:利用生成器对Xz进行映射,得到生成数据G(Xz);
步骤2-3:将
Figure BDA0002855050490000051
和G(Xz)进行混合并输入到判别器,得到输出概率值pG-D
步骤2-4:当pG-D=0.5或达到最大迭代次数时,生成器和判别器达到平衡,脱敏数据满足模型需求,得到工业过程静态脱敏数据
Figure BDA0002855050490000052
和工业过程静态脱敏模型
Figure BDA0002855050490000053
当未达到最大迭代次数且0.5<pG-D≤1时,将判别器损失函数回传给生成器,更新生成器执行步骤2-2、步骤2-3、步骤2-4。
所述生成器和判别器的结构采用神经网络或卷积神经网络。
所述多模态工业过程混合属性数据动态脱敏策略包括以下过程:
步骤3-1:将待脱敏工业过程新数据
Figure BDA0002855050490000054
进行混合属性局部近邻标准化,得到标准化后待脱敏工业过程新数据
Figure BDA0002855050490000055
其中,
Figure BDA0002855050490000056
为xnew,i中的数值型数据,
Figure BDA0002855050490000057
为利用Xc的IDF编码获取的xnew,i中的编码后分类型数据;
步骤3-2:将
Figure BDA0002855050490000058
输入到工业过程静态脱敏模型
Figure BDA0002855050490000059
得到工业过程动态脱敏数据
Figure BDA00028550504900000510
所述将xnew,i进行混合属性局部近邻标准化,是通过以下公式得到:
Figure BDA00028550504900000511
其中,
Figure BDA00028550504900000512
为Xh中xnew,i的最小混合距离采样点的k个局部近邻域,
Figure BDA00028550504900000513
Figure BDA00028550504900000514
Figure BDA00028550504900000515
的均值和标准差。
本发明具有以下有益效果及优点:
本发明通过将混合属性局部近邻标准化、生成对抗网络和多模态工业过程混合属性数据动态脱敏策略结合,先利用混合属性局部近邻标准化方法对多模态工业过程混合属性数据进行标准化处理,再利用基于生成对抗网络的多模态工业过程混合属性数据脱敏方法获取工业过程静态脱敏数据和模型,最后利用多模态工业过程混合属性数据动态脱敏策略实现工业过程数据动态脱敏,考虑复杂工业过程的多模态与混合属性并存问题,克服现有脱敏方法通常面向商业和银行业且以对源数据的部分修改为主等局限,对工业大数据安全与隐私保护具有理论和实际意义。
附图说明
图1为本发明的方法流程图。
图2为本发明的混合属性局部近邻标准化处理流程图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图对本发明的具体实施方法做详细的说明。在下面的描述中阐述了很多具体细节以便于充分理解本发明。但本发明能够以很多不同于在此描述的其他方式来实施,本领域技术人员可以在不违背发明内涵的情况下做类似改进,因此本发明不受下面公开的具体实施的限制。
除非另有定义,本文所使用的所有技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在发明的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本发明。
如图1所示,为本发明的方法流程图。
工业过程数据脱敏方法,搜集待脱敏多模态工业过程混合属性源数据,在得到标准化后待脱敏源数据后,利用基于生成对抗网络的多模态工业过程混合属性数据脱敏方法与动态脱敏策略进行数据脱敏。本发明的程序执行步骤所采用的编程语言不限于MATLAB、Python等。
本发明的具体步骤如下:
步骤1包括如下几个步骤:
如图2所示,为本发明的混合属性局部近邻标准化处理流程图。
步骤1-1:搜集待脱敏多模态工业过程混合属性源数据X=[x1;x2;…;xm];
以烟草制丝过程为例,变量主要包括加水设定值、加水控制器设定值、加水控制器内控设定值、出口温度设定值、热风温度设定值、出口水份设定值、加水实际值、出口温度实际值、出口水份实际值等变量,其中xi为X中第i个采样点,m为X中采样点的个数;搜集为从现场中控室的终端机输入的设定值,例如加水设定值、加水控制器设定值、加水控制器内控设定值、出口温度设定值、热风温度设定值、出口水份设定值;或通过工业现场的各种传感器采集的上述各个实际测量值,例如采用红外水份仪设置在现场烟丝皮带出口处,采集出口水份实际值,采用温度传感器设置在现场烟丝皮带出口处,采集出口温度实际值。
商业为例要搜集的待脱敏数据包括:营业执照号码、客户名称、客户账户、子账户、账户余额等,搜集为从工商局、银行对公业务等的客户端输入的商业数据。
银行业为例要搜集的待脱敏数据包括:性别、年龄、身份证号码、交易地点等,搜集为从手机银行、网银、银行网点等的客户端输入的银行业数据。
利用测地距离计算X中的数值型数据
Figure BDA0002855050490000071
的距离矩阵
Figure BDA0002855050490000072
公式如下:
Figure BDA0002855050490000073
其中,
Figure BDA0002855050490000074
为Xn中第i个采样点,m为Xn中采样点的个数,
Figure BDA0002855050490000075
为Xn中采样点
Figure BDA0002855050490000076
Figure BDA0002855050490000077
的测地距离;
步骤1-2:对X中的分类型数据
Figure BDA0002855050490000078
进行IDF编码,得到编码后分类型数据
Figure BDA0002855050490000079
公式如下:
Figure BDA00028550504900000710
其中,
Figure BDA00028550504900000711
为Xc中第i个采样点,
Figure BDA00028550504900000712
Figure BDA00028550504900000713
中第i个采样点,m为Xc
Figure BDA00028550504900000714
中采样点的个数,
Figure BDA0002855050490000081
为分类型数据Xc中采样点
Figure BDA0002855050490000082
的IDF编码后分类型采样点,
Figure BDA0002855050490000083
为分类型数据Xc中变量i中特征值
Figure BDA0002855050490000084
的频率,Mc为分类型数据Xc中变量的个数;
步骤1-3:利用基于信息熵的加权距离计算编码后分类型数据
Figure BDA0002855050490000085
的距离矩阵
Figure BDA0002855050490000086
公式如下:
Figure BDA0002855050490000087
Figure BDA0002855050490000088
Figure BDA0002855050490000089
Figure BDA00028550504900000810
Figure BDA00028550504900000811
其中,
Figure BDA00028550504900000812
Figure BDA00028550504900000813
中采样点
Figure BDA00028550504900000814
Figure BDA00028550504900000815
的基于信息熵的加权距离,IEs
Figure BDA00028550504900000816
中变量s的信息熵,rs
Figure BDA00028550504900000817
中变量s中分类值的数量,p(as,t)为
Figure BDA00028550504900000818
中变量s中分类值as,t的概率,num(as,t)为
Figure BDA00028550504900000819
中变量s中分类值as,t的个数,
Figure BDA00028550504900000820
Figure BDA00028550504900000821
中采样点
Figure BDA00028550504900000822
Figure BDA00028550504900000823
的变量s的分类距离,
Figure BDA00028550504900000824
Figure BDA00028550504900000825
Figure BDA00028550504900000826
中采样点
Figure BDA00028550504900000827
Figure BDA00028550504900000828
的变量s的编码后分类型数据值;
步骤1-4:计算编码后混合属性数据
Figure BDA00028550504900000829
的混合距离矩阵dh,公式如下:
Figure BDA0002855050490000091
Figure BDA0002855050490000092
其中,
Figure BDA0002855050490000093
为X中采样点xi和xj的混合距离,Mn为数值型数据Xn中变量的个数;
步骤1-5:对于Xh中每一个采样点
Figure BDA0002855050490000094
利用dh从Xh中剩余采样点中选取k个
Figure BDA0002855050490000095
的最小混合距离采样点组成局部近邻域
Figure BDA0002855050490000096
利用
Figure BDA0002855050490000097
的均值
Figure BDA0002855050490000098
和标准差
Figure BDA0002855050490000099
Figure BDA00028550504900000910
进行局部近邻标准化,得到标准化后待脱敏多模态工业过程混合属性源数据
Figure BDA00028550504900000911
公式如下:
Figure BDA00028550504900000912
其中
Figure BDA00028550504900000913
Figure BDA00028550504900000914
中第i个采样点,局部近邻域采样点个数k取值范围为[30,kmax],kmax为X中采样点个数最少的模态包含的采样点个数,k默认值为50;
步骤2包括如下4个步骤:
步骤2-1:利用基于生成对抗网络的多模态工业过程混合属性数据脱敏方法获取工业过程静态脱敏数据和模型,生成与
Figure BDA00028550504900000916
同规模且服从高斯或均匀分布的随机噪声Xz,将Xz输入到生成器,生成对抗网络可以采用基本生成对抗网络、Wasserstein生成对抗网络、具有梯度惩罚的Wasserstein生成对抗网络等,默认选择基本生成对抗网络,生成器常用的结构为神经网络或卷积神经网络,默认选择三层全连接BP神经网络,生成器输入层神经元个数默认值为X中变量个数Mn+Mc,生成器输出层神经元个数默认值为Mn+Mc,生成器隐藏层神经元个数默认值为
Figure BDA00028550504900000915
a为[0,10]之间的常数,a默认值为10,每批送入生成器的采样点个数默认值为100,生成器输入层的激活函数默认选择ReLU,生成器隐藏层的激活函数默认选择Sigmoid,生成器输出层激活函数默认选择Sigmoid,生成器初始学习率默认值为0.00001,生成器的优化器默认选择SGD Optimizer;
步骤2-2:利用生成器对Xz进行映射,得到生成数据G(Xz);
步骤2-3:将
Figure BDA0002855050490000101
和G(Xz)进行混合并输入到判别器,得到输出概率值pG-D,判别器常用的结构为神经网络或卷积神经网络,默认选择三层全连接BP神经网络,判别器输入层神经元个数默认值为X中变量个数Mn+Mc,判别器输出层神经元个数默认值为1,判别器隐藏层神经元个数默认值为
Figure BDA0002855050490000102
a为[0,10]之间的常数,a默认值为10,每批送入判别器的采样点个数默认值为100,判别器输入层的激活函数默认选择ReLU,判别器隐藏层的激活函数默认选择Sigmoid,判别器输出层激活函数默认选择liner,判别器初始学习率默认值为0.00001,判别器的优化器默认选择SGD Optimizer;
步骤2-4:当pG-D=0.5或达到最大迭代次数时,生成器和判别器达到平衡,脱敏数据满足模型需求,得到工业过程静态脱敏数据
Figure BDA0002855050490000103
和工业过程静态脱敏模型
Figure BDA0002855050490000104
当未达到最大迭代次数且0.5<pG-D≤1时,将判别器损失函数回传给生成器,更新生成器执行步骤2-2、步骤2-3、步骤2-4;
其中,判别器损失函数可设置为
Figure BDA0002855050490000105
生成器损失函数可设置为
Figure BDA0002855050490000106
Figure BDA0002855050490000107
为判别器判断
Figure BDA0002855050490000108
为真的概率,D(G(xz,i))为判别器判断G(xz,i)为真的概率,xz,i为G(Xz)中第i个采样点;
步骤3包括如下2个步骤:
步骤3-1:将待脱敏工业过程新数据
Figure BDA0002855050490000109
进行混合属性局部近邻标准化,得到标准化后待脱敏工业过程新数据
Figure BDA00028550504900001010
公式如下:
Figure BDA00028550504900001011
其中,
Figure BDA0002855050490000111
为xnew,i中的数值型数据,
Figure BDA0002855050490000112
为利用Xc的IDF编码获取的xnew,i中的编码后分类型数据,
Figure BDA0002855050490000113
为Xh中xnew,i的最小混合距离采样点的k个局部近邻域,
Figure BDA0002855050490000114
Figure BDA0002855050490000115
Figure BDA0002855050490000116
的均值和标准差,局部近邻域采样点个数k取值范围为[30,kmax],kmax为X中采样点个数最少的模态包含的采样点个数,k默认值为50;
步骤3-2:将
Figure BDA0002855050490000117
输入到工业过程静态脱敏模型
Figure BDA0002855050490000118
得到工业过程动态脱敏数据
Figure BDA0002855050490000119
以烟草制丝过程为例,对包括加水设定值、加水控制器设定值、加水控制器内控设定值、出口温度设定值、热风温度设定值、出口水份设定值、加水实际值、出口温度实际值、出口水份实际值等变量的采样点数据,进行如上标准化、静态建模后得到了标准模型,将现场新采集的采样点数据输入标准模型后得到了上述各个数据对应的脱敏数据,实现了对现场数据的脱敏处理,提高了工业大数据安全与隐私保护。
以商业或银行业要搜集的待脱敏数据进行上述标准化和静态建模过程处理,以及获取了商业或银行业的脱敏数据,实现了对商业或银行业的脱敏处理,提高了商业或银行业大数据安全与隐私保护。
综上所述,本发明通过将混合属性局部近邻标准化、生成对抗网络和多模态工业过程混合属性数据动态脱敏策略结合,先利用混合属性局部近邻标准化方法对多模态工业过程混合属性数据进行标准化处理,再利用基于生成对抗网络的多模态工业过程混合属性数据脱敏方法获取工业过程静态脱敏数据和模型,最后利用多模态工业过程混合属性数据动态脱敏策略实现工业过程数据动态脱敏,考虑复杂工业过程的多模态与混合属性并存问题,克服现有脱敏方法通常面向商业和银行业且以对源数据的部分修改为主等局限,对工业大数据安全与隐私保护具有理论和实际意义。
以上说明所描述的实施例将有助于本领域的技术人员进一步理解本发明,但不以任何形式限制本发明。应当指出的是,对本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变换和改进。这些都属于本发明的保护范围。

Claims (10)

1.一种工业过程数据脱敏方法,其特征在于:包括如下步骤:
步骤1:利用混合属性局部近邻标准化方法对多模态工业过程混合属性数据进行标准化处理;
步骤2:利用基于生成对抗网络的多模态工业过程混合属性数据脱敏方法获取工业过程静态脱敏数据和模型;
步骤3:将待脱敏工业过程新数据利用混合属性局部近邻标准化处理后输入工业过程静态脱敏模型,实现工业过程数据动态脱敏。
2.根据权利要求1所述的工业过程数据脱敏方法,其特征在于:所述混合属性局部近邻标准化方法包括以下过程:
步骤1-1:利用测地距离计算待脱敏多模态工业过程混合属性源数据X=[x1;x2;…;xm]中的数值型数据
Figure FDA0002855050480000011
的距离矩阵
Figure FDA0002855050480000012
其中,xi为X中第i个采样点,
Figure FDA0002855050480000013
为Xn中第i个采样点,m为X和Xn中采样点的个数;
步骤1-2:对待脱敏多模态工业过程混合属性源数据X=[x1;x2;…;xm]中的分类型数据
Figure FDA0002855050480000014
进行IDF编码,得到编码后分类型数据
Figure FDA0002855050480000015
其中,
Figure FDA0002855050480000016
为Xc中第i个采样点,
Figure FDA0002855050480000017
Figure FDA0002855050480000018
中第i个采样点,m为Xc
Figure FDA0002855050480000019
中采样点的个数;
步骤1-3:利用基于信息熵的加权距离计算编码后分类型数据
Figure FDA00028550504800000110
的距离矩阵
Figure FDA00028550504800000111
步骤1-4:计算编码后混合属性数据
Figure FDA00028550504800000112
的混合距离矩阵dh
步骤1-5:对于Xh中每一个采样点
Figure FDA00028550504800000113
利用dh从Xh中剩余采样点中选取k个
Figure FDA00028550504800000114
的最小混合距离采样点组成局部近邻域
Figure FDA00028550504800000115
利用
Figure FDA00028550504800000116
的均值
Figure FDA00028550504800000117
和标准差
Figure FDA00028550504800000118
Figure FDA00028550504800000119
进行局部近邻标准化,得到标准化后待脱敏多模态工业过程混合属性源数据
Figure FDA00028550504800000120
其中
Figure FDA00028550504800000121
Figure FDA00028550504800000122
中第i个采样点。
3.根据权利要求2所述的工业过程数据脱敏方法,其特征在于:所述利用测地距离计算Xn的距离矩阵
Figure FDA0002855050480000021
是通过以下公式得到:
Figure FDA0002855050480000022
其中,
Figure FDA0002855050480000023
为Xn中采样点
Figure FDA0002855050480000024
Figure FDA0002855050480000025
的测地距离。
4.根据权利要求2所述的工业过程数据脱敏方法,其特征在于:所述对Xc进行IDF编码,是通过以下公式得到:
Figure FDA0002855050480000026
其中,
Figure FDA0002855050480000027
为分类型数据Xc中采样点
Figure FDA0002855050480000028
的IDF编码后分类型采样点,
Figure FDA0002855050480000029
为分类型数据Xc中变量i中特征值
Figure FDA00028550504800000210
的频率,Mc为分类型数据Xc中变量的个数。
5.根据权利要求2所述的工业过程数据脱敏方法,其特征在于:所述利用基于信息熵的加权距离计算
Figure FDA00028550504800000211
的距离矩阵
Figure FDA00028550504800000212
是通过以下公式得到:
Figure FDA00028550504800000213
Figure FDA00028550504800000214
Figure FDA00028550504800000215
Figure FDA00028550504800000216
Figure FDA0002855050480000031
其中,
Figure FDA0002855050480000032
Figure FDA0002855050480000033
中采样点
Figure FDA0002855050480000034
Figure FDA0002855050480000035
的基于信息熵的加权距离,IEs
Figure FDA0002855050480000036
中变量s的信息熵,rs
Figure FDA0002855050480000037
中变量s中分类值的数量,p(as,t)为
Figure FDA0002855050480000038
中变量s中分类值as,t的概率,num(as,t)为
Figure FDA0002855050480000039
中变量s中分类值as,t的个数,
Figure FDA00028550504800000310
Figure FDA00028550504800000311
中采样点
Figure FDA00028550504800000312
Figure FDA00028550504800000313
的变量s的分类距离,
Figure FDA00028550504800000314
Figure FDA00028550504800000315
Figure FDA00028550504800000316
中采样点
Figure FDA00028550504800000317
Figure FDA00028550504800000318
的变量s的编码后分类型数据值。
6.根据权利要求2所述的工业过程数据脱敏方法,其特征在于:所述计算Xh的混合距离矩阵dh,是通过以下公式得到:
Figure FDA00028550504800000319
Figure FDA00028550504800000320
其中,
Figure FDA00028550504800000321
为X中采样点xi和xj的混合距离,Mn为数值型数据Xn中变量的个数。
7.根据权利要求2所述的工业过程数据脱敏方法,其特征在于:所述利用
Figure FDA00028550504800000322
Figure FDA00028550504800000323
Figure FDA00028550504800000324
进行局部近邻标准化,是通过以下公式得到:
Figure FDA00028550504800000325
8.根据权利要求1所述的工业过程数据脱敏方法,其特征在于:所述基于生成对抗网络的多模态工业过程混合属性数据脱敏方法包括以下过程:
步骤2-1:生成与
Figure FDA00028550504800000326
同规模且服从高斯或均匀分布的随机噪声Xz,将Xz输入到生成器;
步骤2-2:利用生成器对Xz进行映射,得到生成数据G(Xz);
步骤2-3:将
Figure FDA0002855050480000041
和G(Xz)进行混合并输入到判别器,得到输出概率值pG-D
步骤2-4:当pG-D=0.5或达到最大迭代次数时,生成器和判别器达到平衡,脱敏数据满足模型需求,得到工业过程静态脱敏数据
Figure FDA0002855050480000042
和工业过程静态脱敏模型
Figure FDA0002855050480000043
当未达到最大迭代次数且0.5<pG-D≤1时,将判别器损失函数回传给生成器,更新生成器执行步骤2-2、步骤2-3、步骤2-4。
9.根据权利要求1或8所述的工业过程数据脱敏方法,其特征在于:所述生成器和判别器的结构采用神经网络或卷积神经网络。
10.根据权利要求1所述的工业过程数据脱敏方法,其特征在于:所述多模态工业过程混合属性数据动态脱敏策略包括以下过程:
步骤3-1:将待脱敏工业过程新数据
Figure FDA0002855050480000044
进行混合属性局部近邻标准化,得到标准化后待脱敏工业过程新数据
Figure FDA0002855050480000045
其中,
Figure FDA0002855050480000046
为xnew,i中的数值型数据,
Figure FDA0002855050480000047
为利用Xc的IDF编码获取的xnew,i中的编码后分类型数据;
步骤3-2:将
Figure FDA0002855050480000048
输入到工业过程静态脱敏模型
Figure FDA0002855050480000049
得到工业过程动态脱敏数据
Figure FDA00028550504800000410
所述将xnew,i进行混合属性局部近邻标准化,是通过以下公式得到:
Figure FDA00028550504800000411
其中,
Figure FDA00028550504800000412
为Xh中xnew,i的最小混合距离采样点的k个局部近邻域,
Figure FDA00028550504800000413
Figure FDA00028550504800000414
Figure FDA00028550504800000415
的均值和标准差。
CN202011541900.9A 2020-12-23 一种工业过程数据脱敏方法 Active CN114662138B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011541900.9A CN114662138B (zh) 2020-12-23 一种工业过程数据脱敏方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011541900.9A CN114662138B (zh) 2020-12-23 一种工业过程数据脱敏方法

Publications (2)

Publication Number Publication Date
CN114662138A true CN114662138A (zh) 2022-06-24
CN114662138B CN114662138B (zh) 2024-06-11

Family

ID=

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070124118A1 (en) * 2002-12-20 2007-05-31 Lam Research Corporation Expert knowledge methods and systems for data analysis
US20080270370A1 (en) * 2007-04-30 2008-10-30 Castellanos Maria G Desensitizing database information
CN109388965A (zh) * 2018-09-10 2019-02-26 全球能源互联网研究院有限公司 一种混合数据的脱敏方法及系统
CN110135193A (zh) * 2019-05-15 2019-08-16 广东工业大学 一种数据脱敏方法、装置、设备及计算机可读存储介质
CN110543166A (zh) * 2019-09-18 2019-12-06 河南工学院 一种加权k近邻标准化方法的多模态工业过程故障检测方法
KR20200034917A (ko) * 2018-09-14 2020-04-01 하얼빈 인스티튜트 오브 테크놀로지, 썬전 속성 생성적 대립 네트워크 및 상기 네트워크를 기반으로 하는 의류 매칭 생성 방법
CN111563275A (zh) * 2020-07-14 2020-08-21 中国人民解放军国防科技大学 一种基于生成对抗网络的数据脱敏方法
CN111783963A (zh) * 2020-07-24 2020-10-16 中国人民解放军国防科技大学 一种基于星图神经网络的推荐方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070124118A1 (en) * 2002-12-20 2007-05-31 Lam Research Corporation Expert knowledge methods and systems for data analysis
US20080270370A1 (en) * 2007-04-30 2008-10-30 Castellanos Maria G Desensitizing database information
CN109388965A (zh) * 2018-09-10 2019-02-26 全球能源互联网研究院有限公司 一种混合数据的脱敏方法及系统
KR20200034917A (ko) * 2018-09-14 2020-04-01 하얼빈 인스티튜트 오브 테크놀로지, 썬전 속성 생성적 대립 네트워크 및 상기 네트워크를 기반으로 하는 의류 매칭 생성 방법
CN110135193A (zh) * 2019-05-15 2019-08-16 广东工业大学 一种数据脱敏方法、装置、设备及计算机可读存储介质
CN110543166A (zh) * 2019-09-18 2019-12-06 河南工学院 一种加权k近邻标准化方法的多模态工业过程故障检测方法
CN111563275A (zh) * 2020-07-14 2020-08-21 中国人民解放军国防科技大学 一种基于生成对抗网络的数据脱敏方法
CN111783963A (zh) * 2020-07-24 2020-10-16 中国人民解放军国防科技大学 一种基于星图神经网络的推荐方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
冉冉;李峰;王欣柳;杨立春;丁红发;: "一种面向隐私保护的电力大数据脱敏方案及应用研究", 网络空间安全, no. 01, 25 January 2018 (2018-01-25) *
叶水勇;: "数据脱敏全生命周期过程研究", 电力与能源, no. 06, 28 December 2019 (2019-12-28) *
李卫;魏进武;张云勇;刘颖慧;: "面向大数据安全运营的数据服务网关", 信息通信技术, no. 06, 15 December 2016 (2016-12-15) *

Similar Documents

Publication Publication Date Title
Shen et al. A novel time series forecasting model with deep learning
CN112330078B (zh) 用电量预测方法、装置、计算机设备和存储介质
CN115271161A (zh) 一种多能负荷短期预测方法
Wang A stock price prediction method based on BiLSTM and improved transformer
Paramita et al. A Comparative Study of Feature Selection Techniques in Machine Learning for Predicting Stock Market Trends
CN112215410B (zh) 基于改进深度学习的电力负荷预测方法
Yuan et al. Human resource planning and configuration based on machine learning
CN114662138B (zh) 一种工业过程数据脱敏方法
CN114662138A (zh) 一种工业过程数据脱敏方法
CN116777646A (zh) 基于人工智能的风险识别方法、装置、设备及存储介质
CN111539465A (zh) 一种基于机器学习的物联网非结构化大数据分析算法
Ma The Research of Stock Predictive Model based on the Combination of CART and DBSCAN
Zhang et al. Kalman Filter-Based CNN-BiLSTM-ATT Model for Traffic Flow Prediction.
Wang On the Application of Artificial Intelligence in Local Legislation
Zheng et al. Combustion process modeling based on deep sparse least squares support vector regression
CN114625831A (zh) 一种面向智能电网负荷辨识的分类评价反馈方法
Song Evaluation and Analysis of an Industrial Cluster Based on the BP Neural Network and LM Algorithm.
CN117391314B (zh) 综合场站运营管理平台
Zhang et al. Twin support vector regression model based on heteroscedastic Gaussian noise and its application
CN113705075B (zh) 一种基于图神经网络的社交关系分析方法
CN115831339B (zh) 基于深度学习的医疗系统风险管控事前预测方法、系统
Zhang et al. Application of Artificial Neural Network Algorithm in Facial Biological Image Information Scanning and Recognition
Ma Artificial Intelligence Algorithm and Device for Big Data Processing of the IoT System
Jian-tao Evaluation and Analysis of an Industrial Cluster Based on the BP Neural Network and LM Algorithm
Ma et al. Weighted LS-SVMR-based system identification with outliers

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant