CN116776173A

CN116776173A - 一种基于卷积神经网络的电力量测数据脱敏方法

Info

Publication number: CN116776173A
Application number: CN202310731103.4A
Authority: CN
Inventors: 刘涛; 马越; 李伟华; 何智帆; 姜和芳; 陈晓伟; 刘星廷; 曾璐琨
Original assignee: Shenzhen Power Supply Bureau Co Ltd
Current assignee: Shenzhen Power Supply Bureau Co Ltd
Priority date: 2023-06-19
Filing date: 2023-06-19
Publication date: 2023-09-19

Abstract

本发明公开一种基于卷积神经网络的电力量测数据脱敏方法，包括：步骤S1，将未脱敏的电力量测数据输入训练好的卷积神经网络模型中，得到所述电力量测数据中的敏感数据集；步骤S2，对所述敏感数据集中的敏感数据进行聚类；步骤S3，采用相应的脱敏模型对各个聚类的敏感数据进行脱敏。本发明使用擅长进行图像处理的CNN网络作为敏感数据的预测模型，为敏感数据的预测提供了一种新的思路，相比于该领域内其他脱敏方法，本发明能够处理大量数据，拥有更高的处理效率和更强大的处理能力，具有实用意义。

Description

一种基于卷积神经网络的电力量测数据脱敏方法

技术领域

本发明涉及电力数据安全技术领域，具体涉及一种基于卷积神经网络的电力量测数据脱敏方法。

背景技术

随着数据时代的到来，传统的电力行业也向着信息化、数字化的方向发展，电网在运行过程中会产生许多的电力量测数据。电力量测数据记录了用户用电信息、用户身份信息等众多信息，是企业进行总结、规划参考的基本材料，也是企业至关重要的有形资产，涉及到众多的商业机密、客户隐私与经营技术等敏感信息。这些数据对电网的正常运行具有很重要的作用且只有流动起来才能够发挥其作用，但一旦泄露将会造成严重后果。

电力量测数据脱敏技术能够保证电力量测数据在传输过程中不泄露个人隐私信息，在隐私保护要求越来越严苛的背景下，该技术对于电力行业数字化信息化的发展具有重大意义。卷积神经网络是一类包含卷积计算且具有深度结构的前馈神经网络，是深度学习的代表算法之一。卷积神经网络具有表征学习能力，能够按其阶层结构对输入信息进行平移不变分类，因此也被称为“平移不变人工神经网络”。卷积神经网络被广泛应用于图像识别处理，但应用于数据处理的研究还比较少，因此如何使用卷积神经网络来进行电力量测数据脱敏，具有研究的必要和空间。

发明内容

本发明所要解决的技术问题在于，提供一种基于卷积神经网络的电力量测数据脱敏方法，以提高处理效率和处理能力。

为解决上述技术问题，本发明提供一种基于卷积神经网络的电力量测数据脱敏方法，包括：

步骤S1，将未脱敏的电力量测数据输入训练好的卷积神经网络模型中，得到所述电力量测数据中的敏感数据集；

步骤S2，对所述敏感数据集中的敏感数据进行聚类；

步骤S3，采用相应的脱敏模型对各个聚类的敏感数据进行脱敏。

进一步地，所述步骤S1具体包括：

所述训练好的卷积神经网络模型的输入层对输入的未脱敏的电力量测数据进行预处理，得到数据向量矩阵；

在卷积层对数据向量矩阵进行卷积，数据经卷积运算和激活函数运算之后得到多个特征映射，提取出特征向量；

特征向量进入池化层进行池化；

数据进入全连接层进行拟合；

输出预测的电力量测数据中的敏感数据集。

进一步地，所述预处理具体包括：使用预定义的实体标签对电力量测数据进行标记，标记后再根据实体标签对电力量测数据进行分割，分割之后使用word2vec对数据进行转换，将文本信息转换为数据向量矩阵。

进一步地，提取特征向量的方式为：

x'＝f(∑x·k+b)

其中，x'是输出特征，x是输入特征，k是权值，b是加性偏置，f(*)是激活函数。

进一步地，池化层将卷积层输出的特征向量根据语义相似度进行合并：

x'＝f(β·pooling(x)+b)

其中，pooling(x)表示对输入特征进行池化，β是乘性偏置。

进一步地，所述步骤S2具体包括：

步骤S21，从敏感数据集中选取身份证号信息、用户姓名、用电量、地址四个数据对象，每个数据对象代表一个初始质心；

步骤S22，对于敏感数据集中剩下的数据对象，根据其与各个初始质心的距离，将它分配到距离最近的簇；

步骤S23，重新计算每个簇的中心，计算归属于簇的数据对象平均值，作为每个簇的新的聚类中心；

重复步骤S22和步骤S23进行迭代计算，直到聚类结果趋于稳定，将敏感数据分为四个聚类：名称类数据、号码类数据、数值类数据和地址类数据。

进一步地，对于名称类数据进行脱敏时采用文本替换的方式，将原始名称中的文本替换成预设的数字。

进一步地，对于号码类数据在进行脱敏时使用掩码的方式，将原始号码数据遮盖掉一部分。

进一步地，对于数值类数据在进行脱敏时使用公式变换的方式，将原始数值通过公式变换之后得到新的数值，变换公式为：

其中，x'为变换后的数据，x为原始数据，k为一个随机整数，N为数据的长度，％为取余函数。

进一步地，对于地址类数据在进行脱敏时采用截断的方式，保留地址的区市级别，将其余部分截掉。

实施本发明具有如下有益效果：本发明使用擅长进行图像处理的CNN网络作为敏感数据的预测模型，为敏感数据的预测提供了一种新的思路，相比于该领域内其他脱敏方法，本发明能够处理大量数据，拥有更高的处理效率和更强大的处理能力，具有实用意义。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例一种基于卷积神经网络的电力量测数据脱敏方法的流程示意图。

图2是本发明实施例中卷积神经网络模型的结构及原理示意图。

图3是本发明实施例中数据脱敏的原理示意图。

具体实施方式

以下各实施例的说明是参考附图，用以示例本发明可以用以实施的特定实施例。

请参照图1所示，本发明实施例提供一种基于卷积神经网络的电力量测数据脱敏方法，包括：

步骤S2，对所述敏感数据集中的敏感数据进行聚类；

具体地，本实施例在对电力量测数据进行脱敏以前，预先定义电力量测数据的实体标签，以便后续流程根据实体标签来对电力量测数据进行分割。

实体标签标记了包括用户的姓名、公司名称、用户的身份证信息、银行卡号、电话号码、用户每时刻的用电量信息和用户地址信息。实体标签定义如表1所示：

表1实体标签定义

在对电力量测数据进行敏感数据的识别和分类处理时，预处理是非常重要的，由于算法只能识别结构化的数据，所以，在进行脱敏处理之前需要将非结构化的文字转化成为算法能够识别的结构化数据，将数据用词向量的形式表示出来。数据预处理的质量将决定着最终敏感数据识别和分类的质量。对数据依据实体标签进行分词能够使每类敏感数据在进行向量转化时得到长度相似的特征向量，便于进行卷积分类。

使用预定义的实体标签对电力量测数据进行标记，标记后再根据实体标签对电力量测数据进行分割，分割之后使用word2vec对数据进行转换，将文本信息转换为数据向量矩阵。

可以理解的是，word2vec是一款基于深度学习的工具，它的作用就是可以将计算机不能识别的非结构化数据转化为向量，从而使计算机能够对这些数据进行处理。如果使用word2vec将某个非结构化数据集中的每一部分数据都转化成为向量，那么就可以将这个数据集看成一个由许多向量组成的向量矩阵。以非结构化数据聚类为例：首先，可以利用word2vec工具将非结构化数据转化成为向量，然后就可以根据向量之间的距离来衡量数据之间的相似度再利用聚类算法进行聚类，从而达到对数据进行聚类的目的。

上述预处理、标记、分割、转换均由训练好的卷积神经网络CNN模型中进行。请结合图2所示，该卷积神经网络模型具有输入层、卷积层、池化层、全连接层和池化层，其对输入的原始未脱敏的电力量测数据的处理过程如下：

(1)输入层对输入的未脱敏的电力量测数据进行前述预处理，得到转换后的数据向量矩阵。

(2)在卷积层对数据向量矩阵进行卷积，数据经卷积运算和激活函数运算之后得到多个特征映射，提取出特征向量：

x'＝f(∑x·k+b)

其中，x'是输出特征，x是输入特征，k是权值，b是加性偏置，f(*)是激活函数；本实施例使用ReLU作为激活函数，好处是该激活函数克服了其他激活函数梯度消失的问题，能够更快地达到相同的训练误差和更高的准确率。

(3)特征向量数据进入池化层进行池化，池化层一般与卷积层搭配使用，将卷积层输出的特征向量根据语义相似度进行合并：

x'＝f(β·pooling(x)+b)

其中，pooling(x)表示对输入特征进行池化，β是乘性偏置，b是加性偏置，f(*)是激活函数。

(4)数据进入全连接层，全连接层连接输入层和输出层，使模型更容易拟合数据。

(5)得到模型预测结果——电力量测数据中的敏感数据集。

CNN模型输出敏感数据集后，步骤S2采用k-means算法对其进行聚类，得到敏感数据的各个聚类，比如身份证号信息、银行账号、电话号码这类相似的信息。

本实施例中，采用k-means算法对敏感数据进行聚类的流程如下：

步骤S21，从敏感数据集中选取身份证号信息、用户姓名、用电量、地址四个数据对象，每个数据对象代表一个初始质心：{μ₁,μ₂,μ₃,μ₄}；

步骤S22，对于敏感数据集中剩下的数据对象，根据其与各个初始质心的距离，将它分配到距离最近的簇，距离一般采用欧式距离公式；

步骤S24，重复步骤S22和步骤S23进行迭代计算，直到聚类结果趋于稳定，即所有的k个质心向量都没有发生变化，然后输出簇划分C＝{C₁,C₂,C₃,C₄}，将敏感数据分为四个聚类：名称类数据、号码类数据、数值类数据和地址类数据。

聚类结束后，步骤S3依据不同的脱敏模型进行数据脱敏。如图3所示：

(1)对于名称类数据进行脱敏时采用文本替换的方式，将原始名称中的文本替换成数字1，即：原始数据：张三，脱敏之后数据：11；

(2)对于号码类数据在进行脱敏时使用掩码的方式，将原始号码数据遮盖掉一部分，即：原始数据：130245890234332478，脱敏之后数据：130***********2478；

(3)对于数值类数据在进行脱敏时使用公式变换的方式，将原始数值通过公式变换之后得到新的数值，变换公式为：

其中，x'为变换后的数据，x为原始数据，k为一个随机整数，N为数据的长度，％为取余函数；

例如：原始数据时100，选取随机整数为2，那么输出的数据就是0.67。

(4)对于地址类数据在进行脱敏时采用截断的方式，将地址的后半部分截掉，只保留到区市级别，即：原始数据：北京市昌平区沙河镇沙阳路18号，脱敏后数据：北京市昌平区。

还需说明的是，CNN模型在训练时的流程如下：

(1)将数据样本输入到CNN模型中；

(2)在模型的输入层将数据使用实体标签进行标记，并使用word2vec将文本信息转化成数据向量矩阵；

(3)参数初始化，在训练开始之前将各权值和阈值设置成接近于0随机数；

(4)输入样本值，设定期望值；

(5)求出隐含层以及输出层各神经元的输出值；

(6)将输出层中各个单元的输出与其对应的期望输出矢量中的元素通过计算得到差值；

(7)通过差值算出阈值和权值的调整值；

(8)根据调整值更新权值和阈值，一直调整到符合精度要求；

(9)存储训练出的权值和阈值，方便网络对数据进行处理。

通过上述说明可知，与现有技术相比，本发明带来的有益效果在于：本发明使用擅长进行图像处理的CNN网络作为敏感数据的预测模型，为敏感数据的预测提供了一种新的思路，相比于该领域内其他脱敏方法，本发明能够处理大量数据，拥有更高的处理效率和更强大的处理能力，具有实用意义。

以上所揭露的仅为本发明较佳实施例而已，当然不能以此来限定本发明的权利范围，因此依本发明权利要求所作的等同变化，仍属本发明所涵盖的范围。

Claims

1.一种基于卷积神经网络的电力量测数据脱敏方法，其特征在于，包括：

步骤S2，对所述敏感数据集中的敏感数据进行聚类；

2.根据权利要求1所述的方法，其特征在于，所述步骤S1具体包括：

特征向量进入池化层进行池化；

数据进入全连接层进行拟合；

输出预测的电力量测数据中的敏感数据集。

3.根据权利要求2所述的方法，其特征在于，所述预处理具体包括：使用预定义的实体标签对电力量测数据进行标记，标记后再根据实体标签对电力量测数据进行分割，分割之后使用word2vec对数据进行转换，将文本信息转换为数据向量矩阵。

4.根据权利要求2所述的方法，其特征在于，提取特征向量的方式为：

x'＝f(∑x·k+b)

5.根据权利要求4所述的方法，其特征在于，池化层将卷积层输出的特征向量根据语义相似度进行合并：

x'＝f(β·pooling(x)+b)

其中，pooling(x)表示对输入特征进行池化，β是乘性偏置。

6.根据权利要求1所述的方法，其特征在于，所述步骤S2具体包括：

7.根据权利要求6所述的方法，其特征在于，对于名称类数据进行脱敏时采用文本替换的方式，将原始名称中的文本替换成预设的数字。

8.根据权利要求6所述的方法，其特征在于，对于号码类数据在进行脱敏时使用掩码的方式，将原始号码数据遮盖掉一部分。

9.根据权利要求6所述的方法，其特征在于，对于数值类数据在进行脱敏时使用公式变换的方式，将原始数值通过公式变换之后得到新的数值，变换公式为：

10.根据权利要求6所述的方法，其特征在于，对于地址类数据在进行脱敏时采用截断的方式，保留地址的区市级别，将其余部分截掉。