CN112989414A - 基于宽度学习的移动业务数据脱敏规则生成方法 - Google Patents
基于宽度学习的移动业务数据脱敏规则生成方法 Download PDFInfo
- Publication number
- CN112989414A CN112989414A CN202110299218.1A CN202110299218A CN112989414A CN 112989414 A CN112989414 A CN 112989414A CN 202110299218 A CN202110299218 A CN 202110299218A CN 112989414 A CN112989414 A CN 112989414A
- Authority
- CN
- China
- Prior art keywords
- data
- sensitive
- desensitization
- basic attribute
- attribute information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000586 desensitisation Methods 0.000 title claims abstract description 100
- 238000000034 method Methods 0.000 title claims abstract description 65
- 238000007781 pre-processing Methods 0.000 claims abstract description 14
- 230000035945 sensitivity Effects 0.000 claims abstract description 14
- 238000010295 mobile communication Methods 0.000 claims abstract description 13
- 239000011159 matrix material Substances 0.000 claims description 50
- 238000004364 calculation method Methods 0.000 claims description 18
- 238000012549 training Methods 0.000 claims description 15
- 238000013507 mapping Methods 0.000 claims description 9
- 238000013461 design Methods 0.000 claims description 6
- 238000009826 distribution Methods 0.000 claims description 6
- 230000000873 masking effect Effects 0.000 claims description 6
- 238000005516 engineering process Methods 0.000 claims description 5
- 230000003416 augmentation Effects 0.000 claims description 3
- 230000003190 augmentative effect Effects 0.000 claims description 3
- 238000002474 experimental method Methods 0.000 claims description 3
- 230000002427 irreversible effect Effects 0.000 claims description 3
- 238000003909 pattern recognition Methods 0.000 claims description 3
- 239000002994 raw material Substances 0.000 claims description 3
- 230000011218 segmentation Effects 0.000 claims description 3
- 239000000758 substrate Substances 0.000 claims description 3
- 238000012360 testing method Methods 0.000 claims description 3
- 230000009466 transformation Effects 0.000 claims description 3
- 238000005259 measurement Methods 0.000 abstract description 2
- 238000012545 processing Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000005728 strengthening Methods 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/62—Protecting access to data via a platform, e.g. using keys or access control rules
- G06F21/6218—Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
- G06F21/6245—Protecting personal data, e.g. for financial or medical purposes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/602—Providing cryptographic facilities or services
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Bioethics (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Computer Hardware Design (AREA)
- Computer Security & Cryptography (AREA)
- Computational Linguistics (AREA)
- Databases & Information Systems (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Medical Informatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Mobile Radio Communication Systems (AREA)
- Character Discrimination (AREA)
Abstract
本发明公开了一种基于宽度学习的移动业务数据脱敏方法,该方法用于解决对现有移动通信网络中敏感信息的脱敏规则的生成方法,本发明的实施流程包括:首先实现移动业务数据集中多模态数据的预处理工作,然后实现敏感数据的自动识别及评级,以及敏感数据的属性信息分析;接着根据敏感数据的基础属性信息,定制相应基础属性信息的数据脱敏规则;而后基于宽度学习的移动业务数据脱敏规则生成方法,实现根据移动业务数据的属性信息生成相应的脱敏规则。采用本发明的方法,能够充分利用和处理多源异构信息,完成敏感数据的自动识别以及数据敏感度的自动衡量,针对移动通信网络中数据海量现象,采用宽度学习网络模型,其最大的优点就是利用增量学习方式大大减少了因海量数据而带来的计算量过大的问题,加快学习收敛过程,使得预测结果更加精确、高效。
Description
技术领域
本发明涉及移动通信网络中敏感数据脱敏规则分析技术领域,尤其涉及一种基于宽度学习的移动业务数据脱敏规则生成方法。
背景技术
随着信息通信技术及互联网技术不断演进,当前互联网、电信等拥有着无可比拟的海量数据,但是大数据使用过程可能造成用户个人信息泄露,会造成敏感信息泄漏。敏感信息泄露不仅对移动通信行业所造成的危害极为严峻而且也会导致国家生产经济数据的泄露以及用户身份信息的泄露。
为防范和治理黑客地下产业链,我国相继出台《加强网络信息保护的决定》、《电信和互联网用户个人信息保护规定》等法律法规以及多部涉及数据保护的部门规章,发布国家和行业的网络个人信息保护相关标准,在国家和行业层面开展了以数据安全为重点的安全防护检查,取得一定成效。但总体看,虽然业内针对数据安全保护提出了很多方法和模型,但是当前的脱敏方法往往需要大量的人力时间成本,需要人工设置和确认脱敏规则。因此,需要设计合理的敏感数据处理识别方法,并训练出能够自动根据数据属性信息高效地分类模型,实现自动匹配脱敏规则。而本发明能够很好地解决上面的问题。
发明内容
本发明目的在于解决上述现有技术运用于移动通信网络数据保护时的不足,提出了一种基于宽度学习的移动业务数据脱敏方法,该方法用于解决对现有移动通信网络中敏感信息的脱敏规则的生成方法,本发明的实施流程包括:首先实现移动业务数据集中多模态数据的预处理工作,然后实现敏感数据的自动识别及评级,以及敏感数据的属性信息分析;接着根据敏感数据的基础属性信息,定制相应基础属性信息的数据脱敏规则;而后基于宽度学习的移动业务数据脱敏规则生成方法,实现根据移动业务数据的属性信息生成相应的脱敏规则,采用本发明的方法,能够充分利用和处理多源异构信息,完成敏感数据的自动识别以及数据敏感度的自动衡量,针对移动通信网络中数据海量现象,采用宽度学习网络模型,其最大的优点就是利用增量学习方式大大减少了因海量数据而带来的计算量过大的问题,加快学习收敛过程,使得预测结果更加精确、高效;
本发明解决其技术问题所采取的技术方案是:一种基于宽度学习的移动业务数据脱敏规则生成方法,该方法包括以下步骤:
步骤1:实现移动业务数据集中多模态敏感数据的数据预处理、自动识别及评级,并分析该敏感数据的组成属性;
(1-1)依据移动业务行业中数据使用中的敏感特性,对多模态敏感数据进行数据预处理、自动化识别和评级;
在大数据环境中,海量异构的数据将成为常态,因此,对于不同类别的数据应采取不同的数据预处理方法;
①对于文本数据而言:
首先根据自定义的停用词库,去除数据文本中的停用词,为了防止误删除某些特定的专业词汇或标点符号等信息,故可在现有的停用词库的基础上自定义专业的停用词库;
然后结合移动通信业务领域中的专业词汇字典,利用分词工具对数据文本信息进行切分,使其成为相互独立的词条,以建立该数据文本集的特征词集合;
最后根据移动通信业务领域中的敏感词库及人工辅助设计的敏感级别,根据语义相似度在特征词集合中匹配出现的涉密敏感词汇,构造第i个敏感信息的字典,即:
Li={敏感数据i:敏感级别i}(i=1,2,…)
②对于图片、语音、视频数据而言:首先根据该模式识别技术进行元数据和样本特征提取,然后在样本特征集合中匹配出现的涉密敏感样本,构造敏感信息 d额字典;
③对于结构化数据而言:直接在样本特征集合中匹配出现的涉密敏感样本,构造敏感信息的字典;
(1-2)依据移动业务行业中数据使用中的敏感特性,分析敏感数据的组成属性信息;
本方法中考虑的数据属性信息包含数据的类型、表示方式以及敏感级别;
数据的表示方式可以通过相应的软件扫描来自动获取,本方法将数据表示方式分为:数字类、字母类、汉字类、符号类、图片类、语音类、视频类;
数据的类型可以通过相应的软件扫描来自动获取,本方法将数据类型分为:数值类型、时间类型、字符串(字符)类型;
数据的敏感级别可以根据步骤1自动获取,本方法将敏感级别分为:极弱(1)、弱(2)、一般(3)、强(4)、极强(5)。
根据上述属性分类信息,可获得第i个敏感数据的数据属性信息字典,如下所示:
Pi={敏感数据i:表示方式i,数据类型i,敏感级别i}(i=1,2,…)
步骤2:根据敏感数据的基础属性信息,定制相应基础属性信息的数据脱敏规则;
(2-1)依据移动业务行业中数据使用中的敏感特性,首先给出敏感数据的基础属性信息;
基础属性1:{数字,时间,一般},如时间信息;
基础属性2:{数字/字母/汉字,数值,一般},如用户编号等;
基础属性3:{数字/字母,数值/字符串,强},如电话号码;
基础属性4:{数字/字母,数值/字符串,极强},如业务收入;
基础属性5:{数字/字母,数值/字符串,一般},如业务编号;
基础属性6:{数字/字母/汉字/符号/图片/视频,数值/字符串,极强},如密码或身份证号;
基础属性7:{数字/字母/汉字/符号,数值/字符串,极强},如特殊表达;
基础属性8:{数字/字母/汉字/符号,数值/字符串,强},如姓名;
(2-2)依据移动业务行业中数据使用中的敏感数据的基础属性信息,定制相应基础属性信息的数据脱敏规则:
①基础的脱敏规则如下所示:
脱敏规则1:变换,对敏感数据或日期取整;
脱敏规则2:偏移,将敏感数据增加一个固定的偏移量,隐藏数据部分特征;
脱敏规则3:混洗,随机互换敏感数据;
脱敏规则4:加密,对敏感数据进行加密处理;
脱敏规则5:隐匿,将敏感数据替换成一个常量;
脱敏规则6:遮掩,利用遮掩符号对敏感数据的部分内容进行统一替换;
脱敏规则7:删除,直接删除敏感数据或者将其置空;
脱敏规则8:映射,将敏感数据映射成其他伪装数据;
②已学习到的基础属性信息与脱敏规则的对应关系:
基础属性1配对脱敏准则1;
基础属性2配对脱敏准则2;
基础属性3配对脱敏准则3;
基础属性4配对脱敏准则4;
基础属性5配对脱敏准则5;
基础属性6配对脱敏准则6;
基础属性7配对脱敏准则7;
基础属性8配对脱敏准则8。
步骤3:基于宽度学习的移动业务数据脱敏规则生成方法;
(3-1)确定宽度学习模型的输入特征与输出结果
根据步骤1所得的敏感数据特征i及其数据属性信息所组成的数据属性信息字典{Pi,(i=1,2,3,…)}作为宽度学习模型的原始输入数据X,特征维数为 4,即
X=[敏感数据i,表示方式i,数据类型i,敏感级别i](i=1,2,3,…)
根据步骤1所得的脱敏准则为宽度学习模型的输出Y,特征维数为1,即
Y=[脱敏准则i](i=1,2,3,…)
其中i表示输入样本的数量;
(3-2)确定宽度学习模型的特征层、增强层和输出层:
①对于给定的输入数据X,假设宽度学习网络由n个特征映射构成,每个特征映射由k个节点构成(k=4,即特征维度),则第i个特征映射方程为:
其中,Wei代表第i个特征映射的服从高斯分布的随机权重矩阵,βei代表第i个特征映射的随机偏置;
故最终的特征映射结果为:
Zn=[Z1,Z2,…,Zn]
②其次,映射的特征被增强为随机生成权重的“增强节点”,则第j个增强节点表达式为:
Hj=ξ(ZnWhj+βhj),j=1,2,…m
其中,Whj代表第i个特征映射的服从高斯分布的随机权重矩阵,βhj代表第i个增强节点的随机偏置
故最终的增强层结果为:
Hm=[Z1,Z2,…,Zm]
③最后,将特征层和增强层合并,将其作为宽度学习网络的最终输入数据,则最终的输出结果Y为:
Y=[Z1,Z2,…,Zm|ξ(ZnWh1+βh1),…,ξ(ZnWhm+βhm)]Wm
=[Z1,Z2,…,Zm|H1…,Hm]Wm=[Zn|Hm]Wm
其中,Wm代表权重矩阵;
(3-3)确定初始权重矩阵Wm
因为,
Y=[Zn|Hm]Wm
所以,
Wm=[Zn|Hm]+Y
在实际计算时,为了防止该增广矩阵不可逆,故采用岭回归来近似求解该逆矩阵,则权重矩阵Wm最终的计算过程为:
令A=[Zn|Hm],则
其中σ1=σ2=v=u=2
解得,
Wm=(λI+AAT)-1ATY
最终,
即,
(3-4)权重矩阵Wm的计算更新过程
宽度学习的核心是增量学习,就是利用上一次的计算结果,和新加入的数据,只需少量的计算据可以得到更新的权重,而不需要从头开始训练,大大减少了计算复杂度;
故当发现初始设计的模型拟合能力不够,可以增加新的增强节点数量来增强其模型拟合能力,此时无需重新计算整个权值矩阵Wm,Wm的计算更新过程如下:
令第n次训练过程中宽度学习网络的最终输入数据为An,现增加新的增强节点数量来增强其模型拟合能力,故给矩阵An增加一列a(表示新增的增强节点),得到第n+1次训练过程中宽度学习网络的最终输入数据为增广矩阵 An+1=[An|a],此时,更新后的权值矩阵为则:
此时权值矩阵的求解转换为求解分块矩阵的广义逆问题,则:
步骤4:生成移动业务数据的脱敏规则;
(4-1)根据权利要求2中已学习到的基础属性信息、脱敏规则以及基础属性信息与脱敏规则的对应关系作为训练集T1,将训练集T作为模型输入,带入权利要求4给出的宽度学习网络模型中,得到网络的权重矩阵Wm;
(4-2)根据权利要求2中已经经过数据预处理得到的待学习的敏感数据特征及其基础属性信息作为预测数据T2,为了保证结果的可靠性,从T2中随机选择 10000,15000和20000条记录,将其表示dataset1、dataset2和dataset3,分别做三次预测实验;
(4-3)当需要添加新的测试数据时,此时无需重新训练模型,可根据权利要求4中的权重矩阵的更新过程来更新Wm,最终可以获得新数据的属性关系。
附图说明
图1为本发明的多源数据的敏感信息识别评级流程图。
图2为本发明的方法流程图。
图3为本发明根据移动业务数据属性信息生成的脱敏规则通过率。
图4为本发明的宽度学习模型和深度学习LSTM的处理速度对比。
图5为本发明的多模态数据敏感信息识别与评级到宽度学习模型图。
具体实施方式
下面结合说明书附图对本发明创造作进一步的详细说明;
如图2所示,本发明提供了一种基于宽度学习的移动业务数据脱敏规则生成方法,该方法包括如下步骤:
步骤1:实现移动业务数据集中多模态敏感数据的数据预处理、自动识别及评级,并分析该敏感数据的组成属性;
(1-1)依据移动业务行业中数据使用中的敏感特性,对多模态敏感数据进行数据预处理、自动化识别和评级;
在大数据环境中,海量异构的数据将成为常态,因此,对于不同类别的数据应采取不同的数据预处理方法;
①对于文本数据而言:
首先根据自定义的停用词库,去除数据文本中的停用词,为了防止误删除某些特定的专业词汇或标点符号等信息,故可在现有的停用词库的基础上自定义专业的停用词库;
然后结合移动通信业务领域中的专业词汇字典,利用分词工具对数据文本信息进行切分,使其成为相互独立的词条,以建立该数据文本集的特征词集合;
最后根据移动通信业务领域中的敏感词库及人工辅助设计的敏感级别,根据语义相似度在特征词集合中匹配出现的涉密敏感词汇,构造第i个敏感信息的字典,即:
Li={敏感数据i:敏感级别i}(i=1,2,…)
②对于图片、语音、视频数据而言:首先根据该模式识别技术进行元数据和样本特征提取,然后在样本特征集合中匹配出现的涉密敏感样本,构造敏感信息 d额字典;
③对于结构化数据而言:直接在样本特征集合中匹配出现的涉密敏感样本,构造敏感信息的字典;
(1-2)依据移动业务行业中数据使用中的敏感特性,分析敏感数据的组成属性信息;
本方法中考虑的数据属性信息包含数据的类型、表示方式以及敏感级别;
数据的表示方式可以通过相应的软件扫描来自动获取,本方法将数据表示方式分为:数字类、字母类、汉字类、符号类、图片类、语音类、视频类;
数据的类型可以通过相应的软件扫描来自动获取,本方法将数据类型分为:数值类型、时间类型、字符串(字符)类型;
数据的敏感级别可以根据步骤1自动获取,本方法将敏感级别分为:极弱(1)、弱(2)、一般(3)、强(4)、极强(5)。
根据上述属性分类信息,可获得第i个敏感数据的数据属性信息字典,如下所示:
Pi={敏感数据i:表示方式i,数据类型i,敏感级别i}(i=1,2,…)
步骤2:根据敏感数据的基础属性信息,定制相应基础属性信息的数据脱敏规则;
(2-1)依据移动业务行业中数据使用中的敏感特性,首先给出敏感数据的基础属性信息;
基础属性1:{数字,时间,一般},如时间信息;
基础属性2:{数字/字母/汉字,数值,一般},如用户编号等;
基础属性3:{数字/字母,数值/字符串,强},如电话号码;
基础属性4:{数字/字母,数值/字符串,极强},如业务收入;
基础属性5:{数字/字母,数值/字符串,一般},如业务编号;
基础属性6:{数字/字母/汉字/符号/图片/视频,数值/字符串,极强},如密码或身份证号;
基础属性7:{数字/字母/汉字/符号,数值/字符串,极强},如特殊表达;
基础属性8:{数字/字母/汉字/符号,数值/字符串,强},如姓名;
(2-2)依据移动业务行业中数据使用中的敏感数据的基础属性信息,定制相应基础属性信息的数据脱敏规则:
①基础的脱敏规则如下所示:
脱敏规则1:变换,对敏感数据或日期取整;
脱敏规则2:偏移,将敏感数据增加一个固定的偏移量,隐藏数据部分特征;
脱敏规则3:混洗,随机互换敏感数据;
脱敏规则4:加密,对敏感数据进行加密处理;
脱敏规则5:隐匿,将敏感数据替换成一个常量;
脱敏规则6:遮掩,利用遮掩符号对敏感数据的部分内容进行统一替换;
脱敏规则7:删除,直接删除敏感数据或者将其置空;
脱敏规则8:映射,将敏感数据映射成其他伪装数据;
②已学习到的基础属性信息与脱敏规则的对应关系:
基础属性1配对脱敏准则1;
基础属性2配对脱敏准则2;
基础属性3配对脱敏准则3;
基础属性4配对脱敏准则4;
基础属性5配对脱敏准则5;
基础属性6配对脱敏准则6;
基础属性7配对脱敏准则7;
基础属性8配对脱敏准则8。
步骤3:基于宽度学习的移动业务数据脱敏规则生成方法;
(3-1)确定宽度学习模型的输入特征与输出结果
根据步骤1所得的敏感数据特征i及其数据属性信息所组成的数据属性信息字典{Pi,(i=1,2,3,…)}作为宽度学习模型的原始输入数据X,特征维数为 4,即
X=[敏感数据i,表示方式i,数据类型i,敏感级别i](i=1,2,3,…)
根据步骤1所得的脱敏准则为宽度学习模型的输出Y,特征维数为1,即
Y=[脱敏准则i](i=1,2,3,…)
其中i表示输入样本的数量;
(3-2)确定宽度学习模型的特征层、增强层和输出层:
①对于给定的输入数据X,假设宽度学习网络由n个特征映射构成,每个特征映射由k个节点构成(k=4,即特征维度),则第i个特征映射方程为:
其中,Wei代表第i个特征映射的服从高斯分布的随机权重矩阵,βei代表第i个特征映射的随机偏置;
故最终的特征映射结果为:
Zn=[Z1,Z2,…,Zn]
②其次,映射的特征被增强为随机生成权重的“增强节点”,则第j个增强节点表达式为:
Hj=ξ(ZnWhj+βhj),j=1,2,…m
其中,Whj代表第i个特征映射的服从高斯分布的随机权重矩阵,βhj代表第i个增强节点的随机偏置
故最终的增强层结果为:
Hm=[Z1,Z2,…,Zm]
③最后,将特征层和增强层合并,将其作为宽度学习网络的最终输入数据,则最终的输出结果Y为:
Y=[Z1,Z2,…,Zm|ξ(ZnWh1+βh1),…,ξ(ZnWhm+βhm)]Wm
=[Z1,Z2,…,Zm|H1…,Hm]Wm=[Zn|Hm]Wm
其中,Wm代表权重矩阵;
(3-3)确定初始权重矩阵Wm
因为,
Y=[Zn|Hm]Wm
所以,
Wm=[Zn|Hm]+Y
在实际计算时,为了防止该增广矩阵不可逆,故采用岭回归来近似求解该逆矩阵,则权重矩阵Wm最终的计算过程为:
令A=[Zn|Hm],则
其中σ1=σ2=v=u=2
解得,
Wm=(λI+AAT)-1ATY
最终,
即,
(3-4)权重矩阵Wm的计算更新过程
宽度学习的核心是增量学习,就是利用上一次的计算结果,和新加入的数据,只需少量的计算据可以得到更新的权重,而不需要从头开始训练,大大减少了计算复杂度;
故当发现初始设计的模型拟合能力不够,可以增加新的增强节点数量来增强其模型拟合能力,此时无需重新计算整个权值矩阵Wm,Wm的计算更新过程如下:
令第n次训练过程中宽度学习网络的最终输入数据为An,现增加新的增强节点数量来增强其模型拟合能力,故给矩阵An增加一列a(表示新增的增强节点),得到第n+1次训练过程中宽度学习网络的最终输入数据为增广矩阵An+1=[An|a],此时,更新后的权值矩阵为则:
此时权值矩阵的求解转换为求解分块矩阵的广义逆问题,则:
步骤4:生成移动业务数据的脱敏规则。
(4-1)根据权利要求2中已学习到的基础属性信息、脱敏规则以及基础属性信息与脱敏规则的对应关系作为训练集T1,将训练集T作为模型输入,带入权利要求4给出的宽度学习网络模型中,得到网络的权重矩阵Wm;
(4-2)根据权利要求2中已经经过数据预处理得到的待学习的敏感数据特征及其基础属性信息作为预测数据T2,为了保证结果的可靠性,从T2中随机选择 10000,15000和20000条记录,将其表示dataset1、dataset2和dataset3,分别做三次预测实验;
(4-3)当需要添加新的测试数据时,此时无需重新训练模型,可根据权利要求4中的权重矩阵的更新过程来更新Wm,最终可以获得新数据的属性关系。
Claims (5)
1.一种基于宽度学习的移动业务数据脱敏规则生成方法,其特征在于,包括以下步骤:
步骤1:实现移动业务数据集中多模态敏感数据的数据预处理、自动识别及评级,并分析该敏感数据的组成属性;
步骤2:根据敏感数据的基础属性信息,定制相应基础属性信息的数据脱敏规则;
步骤3:基于宽度学习的移动业务数据脱敏规则生成方法;
步骤4:生成移动业务数据的脱敏规则。
2.根据权利要求1所述的一种基于宽度学习的移动业务数据脱敏规则生成方法,其特征在于,所述步骤1包括:
(2-1)依据移动业务行业中数据使用中的敏感特性,对多模态敏感数据进行数据预处理、自动化识别和评级;
在大数据环境中,海量异构的数据将成为常态,因此,对于不同类别的数据应采取不同的数据预处理方法;
①对于文本数据而言:
首先根据自定义的停用词库,去除数据文本中的停用词,为了防止误删除某些特定的专业词汇或标点符号等信息,故可在现有的停用词库的基础上自定义专业的停用词库;
然后结合移动通信业务领域中的专业词汇字典,利用分词工具对数据文本信息进行切分,使其成为相互独立的词条,以建立该数据文本集的特征词集合;
最后根据移动通信业务领域中的敏感词库及人工辅助设计的敏感级别,根据语义相似度在特征词集合中匹配出现的涉密敏感词汇,构造第i个敏感信息的字典,即:
Li={敏感数据i:敏感级别i}(i=1,2,…)
②对于图片、语音、视频数据而言:首先根据该模式识别技术进行元数据和样本特征提取,然后在样本特征集合中匹配出现的涉密敏感样本,构造敏感信息d额字典;
③对于结构化数据而言:直接在样本特征集合中匹配出现的涉密敏感样本,构造敏感信息的字典;
(2-2)依据移动业务行业中数据使用中的敏感特性,分析敏感数据的组成属性信息;
本方法中考虑的数据属性信息包含数据的类型、表示方式以及敏感级别;
数据的表示方式可以通过相应的软件扫描来自动获取,本方法将数据表示方式分为:数字类、字母类、汉字类、符号类、图片类、语音类、视频类;
数据的类型可以通过相应的软件扫描来自动获取,本方法将数据类型分为:数值类型、时间类型、字符串(字符)类型;
数据的敏感级别可以根据步骤1自动获取,本方法将敏感级别分为:极弱(1)、弱(2)、一般(3)、强(4)、极强(5);
根据上述属性分类信息,可获得第i个敏感数据的数据属性信息字典,如下所示:
Pi={敏感数据i:表示方式i,数据类型i,敏感级别i}(i=1,2,…)。
3.根据权利要求1所述的一种基于宽度学习的移动业务数据脱敏规则生成方法,其特征在于,所述步骤2包括:
(3-1)依据移动业务行业中数据使用中的敏感特性,首先给出敏感数据的基础属性信息;
基础属性1:{数字,时间,一般},如时间信息;
基础属性2:{数字/字母/汉字,数值,一般},如用户编号等;
基础属性3:{数字/字母,数值/字符串,强},如电话号码;
基础属性4:{数字/字母,数值/字符串,极强},如业务收入;
基础属性5:{数字/字母,数值/字符串,一般},如业务编号;
基础属性6:{数字/字母/汉字/符号/图片/视频,数值/字符串,极强},如密码或身份证号;
基础属性7:{数字/字母/汉字/符号,数值/字符串,极强},如特殊表达;
基础属性8:{数字/字母/汉字/符号,数值/字符串,强},如姓名;
(3-2)依据移动业务行业中数据使用中的敏感数据的基础属性信息,定制基础属性信息的数据脱敏规则:
脱敏规则1:变换,对敏感数据或日期取整;
脱敏规则2:偏移,将敏感数据增加一个固定的偏移量,隐藏数据部分特征;
脱敏规则3:混洗,随机互换敏感数据;
脱敏规则4:加密,对敏感数据进行加密处理;
脱敏规则5:隐匿,将敏感数据替换成一个常量;
脱敏规则6:遮掩,利用遮掩符号对敏感数据的部分内容进行统一替换;
脱敏规则7:删除,直接删除敏感数据或者将其置空;
脱敏规则8:映射,将敏感数据映射成其他伪装数据;
②已学习到的基础属性信息与脱敏规则的对应关系:
基础属性1配对脱敏准则1;
基础属性2配对脱敏准则2;
基础属性3配对脱敏准则3;
基础属性4配对脱敏准则4;
基础属性5配对脱敏准则5;
基础属性6配对脱敏准则6;
基础属性7配对脱敏准则7;
基础属性8配对脱敏准则8。
4.根据权利要求1所述的一种基于宽度学习的移动业务数据脱敏规则生成方法,其特征在于,所述步骤3包括:
(4-1)确定宽度学习模型的输入特征与输出结果
根据步骤1所得的敏感数据特征i及其数据属性信息所组成的数据属性信息字典{Pi,(i=1,2,3,…)}作为宽度学习模型的原始输入数据X,特征维数为4,即
X=[敏感数据i,表示方式i,数据类型i,敏感级别i](i=1,2,3,…)
根据步骤1所得的脱敏准则为宽度学习模型的输出Y,特征维数为1,即
Y=[脱敏准则i](i=1,2,3,…)
其中i表示输入样本的数量;
(4-2)确定宽度学习模型的特征层、增强层和输出层:
①对于给定的输入数据X,假设宽度学习网络由n个特征映射构成,每个特征映射由k个节点构成(k=4,即特征维度),则第i个特征映射方程为:
其中,Wei代表第i个特征映射的服从高斯分布的随机权重矩阵,βei代表第i个特征映射的随机偏置;
故最终的特征映射结果为:
Zn=[Z1,Z2,…,Zn]
②其次,映射的特征被增强为随机生成权重的“增强节点”,则第j个增强节点表达式为:
Hj=ξ(ZnWhj+βhj),j=1,2,…m
其中,Whj代表第i个特征映射的服从高斯分布的随机权重矩阵,βhj代表第i个增强节点的随机偏置
故最终的增强层结果为:
Hm=[Z1,Z2,…,Zm]
③最后,将特征层和增强层合并,将其作为宽度学习网络的最终输入数据,则最终的输出结果Y为:
Y=[Z1,Z2,…,Zm|ξ(ZnWh1+βh1),…,ξ(ZnWhm+βhm)]Wm
=[Z1,Z2,…,Zm|H1…,Hm]Wm=[Zn|Hm]Wm
其中,Wm代表权重矩阵;
(4-3)确定初始权重矩阵Wm
因为,
Y=[Zn|Hm]Wm
所以,
Wm=[Zn|Hm]+Y
在实际计算时,为了防止该增广矩阵不可逆,故采用岭回归来近似求解该逆矩阵,则权重矩阵Wm最终的计算过程为:
令A=[Zn|Hm],则
其中σ1=σ2=v=u=2
解得,
Wm=(λI+AAT)-1ATY
最终,
即,
(4-4)权重矩阵Wm的计算更新过程
宽度学习的核心是增量学习,就是利用上一次的计算结果,和新加入的数据,只需少量的计算据可以得到更新的权重,而不需要从头开始训练,大大减少了计算复杂度;
故当发现初始设计的模型拟合能力不够,可以增加新的增强节点数量来增强其模型拟合能力,此时无需重新计算整个权值矩阵Wm,Wm的计算更新过程如下:
令第n次训练过程中宽度学习网络的最终输入数据为An,现增加新的增强节点数量来增强其模型拟合能力,故给矩阵An增加一列a(表示新增的增强节点),得到第n+1次训练过程中宽度学习网络的最终输入数据为增广矩阵An+1=[An|a],此时,更新后的权值矩阵为则:
此时权值矩阵的求解转换为求解分块矩阵的广义逆问题,则:
5.根据权利要求1所述的一种基于宽度学习的移动业务数据脱敏规则生成方法,其特征在于,所述步骤4包括:
(5-1)根据权利要求2中已学习到的基础属性信息、脱敏规则以及基础属性信息与脱敏规则的对应关系作为训练集T1,将训练集T作为模型输入,带入权利要求4给出的宽度学习网络模型中,得到网络的权重矩阵Wm;
(5-2)根据权利要求2中已经经过数据预处理得到的待学习的敏感数据特征及其基础属性信息作为预测数据T2,为了保证结果的可靠性,从T2中随机选择10000,15000和20000条记录,将其表示dataset1、dataset2和dataset3,分别做三次预测实验;
(5-3)当需要添加新的测试数据时,此时无需重新训练模型,可根据权力要求4中的权重矩阵的更新过程来更新Wm,最终可以获得新数据的属性关系。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110299218.1A CN112989414B (zh) | 2021-03-21 | 2021-03-21 | 基于宽度学习的移动业务数据脱敏规则生成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110299218.1A CN112989414B (zh) | 2021-03-21 | 2021-03-21 | 基于宽度学习的移动业务数据脱敏规则生成方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112989414A true CN112989414A (zh) | 2021-06-18 |
CN112989414B CN112989414B (zh) | 2024-03-19 |
Family
ID=76334225
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110299218.1A Active CN112989414B (zh) | 2021-03-21 | 2021-03-21 | 基于宽度学习的移动业务数据脱敏规则生成方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112989414B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113946874A (zh) * | 2021-12-21 | 2022-01-18 | 北京安华金和科技有限公司 | 一种基于多维字典保证数据关联性的处理方法和装置 |
CN114936374A (zh) * | 2022-05-20 | 2022-08-23 | 合肥亚慕信息科技有限公司 | 基于人工智能算法数据安全保护方法 |
CN115086772A (zh) * | 2022-06-10 | 2022-09-20 | 咪咕互动娱乐有限公司 | 视频脱敏方法、装置、设备及存储介质 |
CN115249133A (zh) * | 2022-09-22 | 2022-10-28 | 华南理工大学 | 一种基于宽度学习网络的建筑施工过程风险分类方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6078683A (en) * | 1997-11-20 | 2000-06-20 | De La Rue, Inc. | Method and system for recognition of currency by denomination |
CN107480549A (zh) * | 2017-06-28 | 2017-12-15 | 银江股份有限公司 | 一种面向数据共享的敏感信息脱敏方法及系统 |
-
2021
- 2021-03-21 CN CN202110299218.1A patent/CN112989414B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6078683A (en) * | 1997-11-20 | 2000-06-20 | De La Rue, Inc. | Method and system for recognition of currency by denomination |
CN107480549A (zh) * | 2017-06-28 | 2017-12-15 | 银江股份有限公司 | 一种面向数据共享的敏感信息脱敏方法及系统 |
Non-Patent Citations (1)
Title |
---|
叶水勇;: "电力大数据的脱敏评估及系统实现", 黑龙江电力, no. 04 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113946874A (zh) * | 2021-12-21 | 2022-01-18 | 北京安华金和科技有限公司 | 一种基于多维字典保证数据关联性的处理方法和装置 |
CN114936374A (zh) * | 2022-05-20 | 2022-08-23 | 合肥亚慕信息科技有限公司 | 基于人工智能算法数据安全保护方法 |
CN115086772A (zh) * | 2022-06-10 | 2022-09-20 | 咪咕互动娱乐有限公司 | 视频脱敏方法、装置、设备及存储介质 |
CN115086772B (zh) * | 2022-06-10 | 2023-09-05 | 咪咕互动娱乐有限公司 | 视频脱敏方法、装置、设备及存储介质 |
CN115249133A (zh) * | 2022-09-22 | 2022-10-28 | 华南理工大学 | 一种基于宽度学习网络的建筑施工过程风险分类方法 |
Also Published As
Publication number | Publication date |
---|---|
CN112989414B (zh) | 2024-03-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111709241B (zh) | 一种面向网络安全领域的命名实体识别方法 | |
CN112989414A (zh) | 基于宽度学习的移动业务数据脱敏规则生成方法 | |
CN111291195B (zh) | 一种数据处理方法、装置、终端及可读存储介质 | |
JP5744228B2 (ja) | インターネットにおける有害情報の遮断方法と装置 | |
CN107818164A (zh) | 一种智能问答方法及其系统 | |
CN112818093B (zh) | 基于语义匹配的证据文档检索方法、系统及存储介质 | |
CN113094578B (zh) | 基于深度学习的内容推荐方法、装置、设备及存储介质 | |
CN107368542B (zh) | 一种涉密数据的涉密等级评定方法 | |
Xu et al. | Detecting sensitive information of unstructured text using convolutional neural network | |
CN108108468A (zh) | 一种基于概念和文本情感的短文本情感分析方法和装置 | |
CN111444905B (zh) | 基于人工智能的图像识别方法和相关装置 | |
CN115017879A (zh) | 文本对比方法、计算机设备及计算机存储介质 | |
CN114186040A (zh) | 一种智能机器人客服的运作方法 | |
CN113326363A (zh) | 搜索方法及装置、预测模型训练方法及装置、电子设备 | |
CN112257425A (zh) | 一种基于数据分级模型的电力数据分析方法及系统 | |
CN115795060A (zh) | 一种基于知识增强的实体对齐方法 | |
CN114417974B (zh) | 模型训练方法、信息处理方法、装置、电子设备和介质 | |
CN113989822B (zh) | 基于计算机视觉和自然语言处理的图片表格内容提取方法 | |
CN112966501B (zh) | 一种新词发现方法、系统、终端及介质 | |
CN113051607B (zh) | 一种隐私政策信息提取方法 | |
CN111858953B (zh) | 用于智慧城市少样本数据建模的实体关系表示方法及系统 | |
CN114461760A (zh) | 案件事实与法条匹配的方法及装置 | |
CN113919351A (zh) | 基于迁移学习的网络安全命名实体和关系联合抽取方法及装置 | |
CN113268986A (zh) | 一种基于模糊匹配算法的单位名称匹配、查找方法及装置 | |
WO2022141855A1 (zh) | 文本正则方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |