CN112989414A

CN112989414A - 基于宽度学习的移动业务数据脱敏规则生成方法

Info

Publication number: CN112989414A
Application number: CN202110299218.1A
Authority: CN
Inventors: 陈玉玲; 辛阳
Original assignee: Guizhou University
Current assignee: Guizhou University
Priority date: 2021-03-21
Filing date: 2021-03-21
Publication date: 2021-06-18
Anticipated expiration: 2041-03-21
Also published as: CN112989414B

Abstract

本发明公开了一种基于宽度学习的移动业务数据脱敏方法，该方法用于解决对现有移动通信网络中敏感信息的脱敏规则的生成方法，本发明的实施流程包括：首先实现移动业务数据集中多模态数据的预处理工作，然后实现敏感数据的自动识别及评级，以及敏感数据的属性信息分析；接着根据敏感数据的基础属性信息，定制相应基础属性信息的数据脱敏规则；而后基于宽度学习的移动业务数据脱敏规则生成方法，实现根据移动业务数据的属性信息生成相应的脱敏规则。采用本发明的方法，能够充分利用和处理多源异构信息，完成敏感数据的自动识别以及数据敏感度的自动衡量，针对移动通信网络中数据海量现象，采用宽度学习网络模型，其最大的优点就是利用增量学习方式大大减少了因海量数据而带来的计算量过大的问题，加快学习收敛过程，使得预测结果更加精确、高效。

Description

基于宽度学习的移动业务数据脱敏规则生成方法

技术领域

本发明涉及移动通信网络中敏感数据脱敏规则分析技术领域，尤其涉及一种基于宽度学习的移动业务数据脱敏规则生成方法。

背景技术

随着信息通信技术及互联网技术不断演进，当前互联网、电信等拥有着无可比拟的海量数据，但是大数据使用过程可能造成用户个人信息泄露，会造成敏感信息泄漏。敏感信息泄露不仅对移动通信行业所造成的危害极为严峻而且也会导致国家生产经济数据的泄露以及用户身份信息的泄露。

为防范和治理黑客地下产业链，我国相继出台《加强网络信息保护的决定》、《电信和互联网用户个人信息保护规定》等法律法规以及多部涉及数据保护的部门规章，发布国家和行业的网络个人信息保护相关标准，在国家和行业层面开展了以数据安全为重点的安全防护检查，取得一定成效。但总体看，虽然业内针对数据安全保护提出了很多方法和模型，但是当前的脱敏方法往往需要大量的人力时间成本，需要人工设置和确认脱敏规则。因此，需要设计合理的敏感数据处理识别方法，并训练出能够自动根据数据属性信息高效地分类模型，实现自动匹配脱敏规则。而本发明能够很好地解决上面的问题。

发明内容

本发明目的在于解决上述现有技术运用于移动通信网络数据保护时的不足，提出了一种基于宽度学习的移动业务数据脱敏方法，该方法用于解决对现有移动通信网络中敏感信息的脱敏规则的生成方法，本发明的实施流程包括：首先实现移动业务数据集中多模态数据的预处理工作，然后实现敏感数据的自动识别及评级，以及敏感数据的属性信息分析；接着根据敏感数据的基础属性信息，定制相应基础属性信息的数据脱敏规则；而后基于宽度学习的移动业务数据脱敏规则生成方法，实现根据移动业务数据的属性信息生成相应的脱敏规则，采用本发明的方法，能够充分利用和处理多源异构信息，完成敏感数据的自动识别以及数据敏感度的自动衡量，针对移动通信网络中数据海量现象，采用宽度学习网络模型，其最大的优点就是利用增量学习方式大大减少了因海量数据而带来的计算量过大的问题，加快学习收敛过程，使得预测结果更加精确、高效；

本发明解决其技术问题所采取的技术方案是：一种基于宽度学习的移动业务数据脱敏规则生成方法，该方法包括以下步骤：

步骤1：实现移动业务数据集中多模态敏感数据的数据预处理、自动识别及评级，并分析该敏感数据的组成属性；

(1-1)依据移动业务行业中数据使用中的敏感特性，对多模态敏感数据进行数据预处理、自动化识别和评级；

在大数据环境中，海量异构的数据将成为常态，因此，对于不同类别的数据应采取不同的数据预处理方法；

①对于文本数据而言：

首先根据自定义的停用词库，去除数据文本中的停用词，为了防止误删除某些特定的专业词汇或标点符号等信息，故可在现有的停用词库的基础上自定义专业的停用词库；

然后结合移动通信业务领域中的专业词汇字典，利用分词工具对数据文本信息进行切分，使其成为相互独立的词条，以建立该数据文本集的特征词集合；

最后根据移动通信业务领域中的敏感词库及人工辅助设计的敏感级别，根据语义相似度在特征词集合中匹配出现的涉密敏感词汇，构造第i个敏感信息的字典，即：

L_i＝{敏感数据_i：敏感级别_i}(i＝1,2,…)

②对于图片、语音、视频数据而言：首先根据该模式识别技术进行元数据和样本特征提取，然后在样本特征集合中匹配出现的涉密敏感样本，构造敏感信息 d额字典；

③对于结构化数据而言：直接在样本特征集合中匹配出现的涉密敏感样本，构造敏感信息的字典；

(1-2)依据移动业务行业中数据使用中的敏感特性，分析敏感数据的组成属性信息；

本方法中考虑的数据属性信息包含数据的类型、表示方式以及敏感级别；

数据的表示方式可以通过相应的软件扫描来自动获取，本方法将数据表示方式分为：数字类、字母类、汉字类、符号类、图片类、语音类、视频类；

数据的类型可以通过相应的软件扫描来自动获取，本方法将数据类型分为：数值类型、时间类型、字符串(字符)类型；

数据的敏感级别可以根据步骤1自动获取，本方法将敏感级别分为：极弱(1)、弱(2)、一般(3)、强(4)、极强(5)。

根据上述属性分类信息，可获得第i个敏感数据的数据属性信息字典，如下所示：

P_i＝{敏感数据i：表示方式_i，数据类型_i，敏感级别_i}(i＝1,2,…)

步骤2：根据敏感数据的基础属性信息，定制相应基础属性信息的数据脱敏规则；

(2-1)依据移动业务行业中数据使用中的敏感特性，首先给出敏感数据的基础属性信息；

基础属性1：{数字，时间，一般}，如时间信息；

基础属性2：{数字/字母/汉字，数值，一般}，如用户编号等；

基础属性3：{数字/字母，数值/字符串，强}，如电话号码；

基础属性4：{数字/字母，数值/字符串，极强}，如业务收入；

基础属性5：{数字/字母，数值/字符串，一般}，如业务编号；

基础属性6：{数字/字母/汉字/符号/图片/视频，数值/字符串，极强}，如密码或身份证号；

基础属性7：{数字/字母/汉字/符号，数值/字符串，极强}，如特殊表达；

基础属性8：{数字/字母/汉字/符号，数值/字符串，强}，如姓名；

(2-2)依据移动业务行业中数据使用中的敏感数据的基础属性信息，定制相应基础属性信息的数据脱敏规则：

①基础的脱敏规则如下所示：

脱敏规则1：变换，对敏感数据或日期取整；

脱敏规则2：偏移，将敏感数据增加一个固定的偏移量，隐藏数据部分特征；

脱敏规则3：混洗，随机互换敏感数据；

脱敏规则4：加密，对敏感数据进行加密处理；

脱敏规则5：隐匿，将敏感数据替换成一个常量；

脱敏规则6：遮掩，利用遮掩符号对敏感数据的部分内容进行统一替换；

脱敏规则7：删除，直接删除敏感数据或者将其置空；

脱敏规则8：映射，将敏感数据映射成其他伪装数据；

②已学习到的基础属性信息与脱敏规则的对应关系：

基础属性1配对脱敏准则1；

基础属性2配对脱敏准则2；

基础属性3配对脱敏准则3；

基础属性4配对脱敏准则4；

基础属性5配对脱敏准则5；

基础属性6配对脱敏准则6；

基础属性7配对脱敏准则7；

基础属性8配对脱敏准则8。

步骤3：基于宽度学习的移动业务数据脱敏规则生成方法；

(3-1)确定宽度学习模型的输入特征与输出结果

根据步骤1所得的敏感数据特征i及其数据属性信息所组成的数据属性信息字典{P_i,(i＝1,2,3,…)}作为宽度学习模型的原始输入数据X，特征维数为 4，即

X＝[敏感数据_i，表示方式_i，数据类型_i，敏感级别_i](i＝1,2,3,…)

根据步骤1所得的脱敏准则为宽度学习模型的输出Y，特征维数为1,即

Y＝[脱敏准则_i](i＝1,2,3,…)

其中i表示输入样本的数量；

(3-2)确定宽度学习模型的特征层、增强层和输出层：

①对于给定的输入数据X，假设宽度学习网络由n个特征映射构成，每个特征映射由k个节点构成(k＝4，即特征维度)，则第i个特征映射方程为：

其中，W_ei代表第i个特征映射的服从高斯分布的随机权重矩阵，β_ei代表第i个特征映射的随机偏置；

故最终的特征映射结果为：

Zⁿ＝[Z₁,Z₂,…,Z_n]

②其次，映射的特征被增强为随机生成权重的“增强节点”，则第j个增强节点表达式为：

H_j＝ξ(ZⁿW_hj+β_hj)，j＝1,2,…m

其中，W_hj代表第i个特征映射的服从高斯分布的随机权重矩阵，β_hj代表第i个增强节点的随机偏置

故最终的增强层结果为：

H^m＝[Z₁,Z₂,…,Z_m]

③最后，将特征层和增强层合并，将其作为宽度学习网络的最终输入数据，则最终的输出结果Y为：

Y＝[Z₁,Z₂,…,Z_m|ξ(ZⁿW_h1+β_h1),…,ξ(ZⁿW_hm+β_hm)]W^m

＝[Z₁,Z₂,…,Z_m|H₁…,H_m]W^m＝[Zⁿ|H^m]W^m

其中，W^m代表权重矩阵；

(3-3)确定初始权重矩阵W^m

因为，

Y＝[Zⁿ|H^m]W^m

所以，

W^m＝[Zⁿ|H^m]⁺Y

在实际计算时，为了防止该增广矩阵不可逆，故采用岭回归来近似求解该逆矩阵，则权重矩阵W^m最终的计算过程为：

令A＝[Zⁿ|H^m]，则

其中σ₁＝σ₂＝v＝u＝2

解得，

Wm＝(λI+AA^T)^-1A^TY

最终，

即，

(3-4)权重矩阵W^m的计算更新过程

宽度学习的核心是增量学习，就是利用上一次的计算结果，和新加入的数据，只需少量的计算据可以得到更新的权重，而不需要从头开始训练，大大减少了计算复杂度；

故当发现初始设计的模型拟合能力不够，可以增加新的增强节点数量来增强其模型拟合能力，此时无需重新计算整个权值矩阵W^m，W^m的计算更新过程如下：

令第n次训练过程中宽度学习网络的最终输入数据为A_n，现增加新的增强节点数量来增强其模型拟合能力，故给矩阵A_n增加一列a(表示新增的增强节点)，得到第n+1次训练过程中宽度学习网络的最终输入数据为增广矩阵 A_n+1＝[A_n|a]，此时，更新后的权值矩阵为

则：

此时权值矩阵的求解转换为求解分块矩阵的广义逆问题，则：

其中，d＝A_n ⁺a，

故最终的权值矩阵

为：

步骤4：生成移动业务数据的脱敏规则；

(4-1)根据权利要求2中已学习到的基础属性信息、脱敏规则以及基础属性信息与脱敏规则的对应关系作为训练集T1，将训练集T作为模型输入，带入权利要求4给出的宽度学习网络模型中，得到网络的权重矩阵W^m；

(4-2)根据权利要求2中已经经过数据预处理得到的待学习的敏感数据特征及其基础属性信息作为预测数据T2，为了保证结果的可靠性，从T2中随机选择 10000，15000和20000条记录，将其表示dataset1、dataset2和dataset3，分别做三次预测实验；

(4-3)当需要添加新的测试数据时，此时无需重新训练模型，可根据权利要求4中的权重矩阵的更新过程来更新W^m，最终可以获得新数据的属性关系。

附图说明

图1为本发明的多源数据的敏感信息识别评级流程图。

图2为本发明的方法流程图。

图3为本发明根据移动业务数据属性信息生成的脱敏规则通过率。

图4为本发明的宽度学习模型和深度学习LSTM的处理速度对比。

图5为本发明的多模态数据敏感信息识别与评级到宽度学习模型图。

具体实施方式

下面结合说明书附图对本发明创造作进一步的详细说明；

如图2所示，本发明提供了一种基于宽度学习的移动业务数据脱敏规则生成方法，该方法包括如下步骤：

①对于文本数据而言：

L_i＝{敏感数据_i：敏感级别_i}(i＝1,2,…)

P_i＝{敏感数据_i：表示方式_i，数据类型_i，敏感级别_i}(i＝1,2,…)

基础属性1：{数字，时间，一般}，如时间信息；

基础属性3：{数字/字母，数值/字符串，强}，如电话号码；

①基础的脱敏规则如下所示：

脱敏规则1：变换，对敏感数据或日期取整；

脱敏规则3：混洗，随机互换敏感数据；

脱敏规则4：加密，对敏感数据进行加密处理；

脱敏规则5：隐匿，将敏感数据替换成一个常量；

脱敏规则7：删除，直接删除敏感数据或者将其置空；

脱敏规则8：映射，将敏感数据映射成其他伪装数据；

②已学习到的基础属性信息与脱敏规则的对应关系：

基础属性1配对脱敏准则1；

基础属性2配对脱敏准则2；

基础属性3配对脱敏准则3；

基础属性4配对脱敏准则4；

基础属性5配对脱敏准则5；

基础属性6配对脱敏准则6；

基础属性7配对脱敏准则7；

基础属性8配对脱敏准则8。

步骤3：基于宽度学习的移动业务数据脱敏规则生成方法；

(3-1)确定宽度学习模型的输入特征与输出结果

Y＝[脱敏准则_i](i＝1,2,3,…)

其中i表示输入样本的数量；

(3-2)确定宽度学习模型的特征层、增强层和输出层：

故最终的特征映射结果为：

Zⁿ＝[Z₁,Z₂,…,Z_n]

H_j＝ξ(ZⁿW_hj+β_hj)，j＝1,2,…m

故最终的增强层结果为：

H^m＝[Z₁,Z₂,…,Z_m]

Y＝[Z₁,Z₂,…,Z_m|ξ(ZⁿW_h1+β_h1),…,ξ(ZⁿW_hm+β_hm)]W^m

＝[Z₁,Z₂,…,Z_m|H₁…,H_m]W^m＝[Zⁿ|H^m]W^m

其中，W^m代表权重矩阵；

(3-3)确定初始权重矩阵W^m

因为，

Y＝[Zⁿ|H^m]W^m

所以，

W^m＝[Zⁿ|H^m]⁺Y

令A＝[Zⁿ|H^m]，则

其中σ₁＝σ₂＝v＝u＝2

解得，

W^m＝(λI+AA^T)^-1A^TY

最终，

即，

(3-4)权重矩阵W^m的计算更新过程

令第n次训练过程中宽度学习网络的最终输入数据为A_n，现增加新的增强节点数量来增强其模型拟合能力，故给矩阵A_n增加一列a(表示新增的增强节点)，得到第n+1次训练过程中宽度学习网络的最终输入数据为增广矩阵A_n+1＝[A_n|a]，此时，更新后的权值矩阵为

则：

其中，d＝A_n ⁺a，

故最终的权值矩阵

为：

步骤4：生成移动业务数据的脱敏规则。

Claims

1.一种基于宽度学习的移动业务数据脱敏规则生成方法，其特征在于，包括以下步骤：

步骤3：基于宽度学习的移动业务数据脱敏规则生成方法；

步骤4：生成移动业务数据的脱敏规则。

2.根据权利要求1所述的一种基于宽度学习的移动业务数据脱敏规则生成方法，其特征在于，所述步骤1包括：

(2-1)依据移动业务行业中数据使用中的敏感特性，对多模态敏感数据进行数据预处理、自动化识别和评级；

①对于文本数据而言：

L_i＝{敏感数据_i：敏感级别_i}(i＝1，2，…)

②对于图片、语音、视频数据而言：首先根据该模式识别技术进行元数据和样本特征提取，然后在样本特征集合中匹配出现的涉密敏感样本，构造敏感信息d额字典；

(2-2)依据移动业务行业中数据使用中的敏感特性，分析敏感数据的组成属性信息；

数据的敏感级别可以根据步骤1自动获取，本方法将敏感级别分为：极弱(1)、弱(2)、一般(3)、强(4)、极强(5)；

P_i＝{敏感数据_i：表示方式_i，数据类型_i，敏感级别_i}(i＝1，2，…)。

3.根据权利要求1所述的一种基于宽度学习的移动业务数据脱敏规则生成方法，其特征在于，所述步骤2包括：

(3-1)依据移动业务行业中数据使用中的敏感特性，首先给出敏感数据的基础属性信息；

基础属性1：{数字，时间，一般}，如时间信息；

基础属性3：{数字/字母，数值/字符串，强}，如电话号码；

(3-2)依据移动业务行业中数据使用中的敏感数据的基础属性信息，定制基础属性信息的数据脱敏规则：

脱敏规则1：变换，对敏感数据或日期取整；

脱敏规则3：混洗，随机互换敏感数据；

脱敏规则4：加密，对敏感数据进行加密处理；

脱敏规则5：隐匿，将敏感数据替换成一个常量；

脱敏规则7：删除，直接删除敏感数据或者将其置空；

脱敏规则8：映射，将敏感数据映射成其他伪装数据；

②已学习到的基础属性信息与脱敏规则的对应关系：

基础属性1配对脱敏准则1；

基础属性2配对脱敏准则2；

基础属性3配对脱敏准则3；

基础属性4配对脱敏准则4；

基础属性5配对脱敏准则5；

基础属性6配对脱敏准则6；

基础属性7配对脱敏准则7；

基础属性8配对脱敏准则8。

4.根据权利要求1所述的一种基于宽度学习的移动业务数据脱敏规则生成方法，其特征在于，所述步骤3包括：

(4-1)确定宽度学习模型的输入特征与输出结果

根据步骤1所得的敏感数据特征i及其数据属性信息所组成的数据属性信息字典{P_i，(i＝1，2，3，…)}作为宽度学习模型的原始输入数据X，特征维数为4，即

X＝[敏感数据_i，表示方式_i，数据类型_i，敏感级别_i](i＝1，2，3，…)

根据步骤1所得的脱敏准则为宽度学习模型的输出Y，特征维数为1，即

Y＝[脱敏准则_i](i＝1，2，3，…)

其中i表示输入样本的数量；

(4-2)确定宽度学习模型的特征层、增强层和输出层：

故最终的特征映射结果为：

Zⁿ＝[Z₁，Z₂，…，Z_n]

H_j＝ξ(ZⁿW_hj+β_hj)，j＝1，2，…m

故最终的增强层结果为：

H^m＝[Z₁，Z₂，…，Z_m]

Y＝[Z₁，Z₂，…，Z_m|ξ(ZⁿW_h1+β_h1)，…，ξ(ZⁿW_hm+β_hm)]W^m

＝[Z₁，Z₂，…，Z_m|H₁…，H_m]W^m＝[Zⁿ|H^m]W^m

其中，W^m代表权重矩阵；

(4-3)确定初始权重矩阵W^m

因为，

Y＝[Zⁿ|H^m]W^m

所以，

W^m＝[Zⁿ|H^m]⁺Y

令A＝[Zⁿ|H^m]，则

其中σ₁＝σ₂＝v＝u＝2

解得，

W^m＝(λI+AA^T)^-1A^TY

最终，

即，

(4-4)权重矩阵W^m的计算更新过程

则：

其中，d＝A_n ⁺a，

故最终的权值矩阵

为：

5.根据权利要求1所述的一种基于宽度学习的移动业务数据脱敏规则生成方法，其特征在于，所述步骤4包括：

(5-1)根据权利要求2中已学习到的基础属性信息、脱敏规则以及基础属性信息与脱敏规则的对应关系作为训练集T1，将训练集T作为模型输入，带入权利要求4给出的宽度学习网络模型中，得到网络的权重矩阵W^m；

(5-2)根据权利要求2中已经经过数据预处理得到的待学习的敏感数据特征及其基础属性信息作为预测数据T2，为了保证结果的可靠性，从T2中随机选择10000，15000和20000条记录，将其表示dataset1、dataset2和dataset3，分别做三次预测实验；

(5-3)当需要添加新的测试数据时，此时无需重新训练模型，可根据权力要求4中的权重矩阵的更新过程来更新W^m，最终可以获得新数据的属性关系。