CN115994381A

CN115994381A - 一种面向项目密评的敏感数据识别方法及系统

Info

Publication number: CN115994381A
Application number: CN202211526836.6A
Authority: CN
Inventors: 李国强; 罗隽; 李琳; 吴小华; 刘磊; 孙雪丰
Original assignee: Wuhan Shenjie Tech Corp ltd
Current assignee: Wuhan Shenjie Tech Corp ltd
Priority date: 2022-11-30
Filing date: 2022-11-30
Publication date: 2023-04-21

Abstract

本发明公开一种面向项目密评的敏感数据识别方法及系统，所述方法包括：采集各类项目的主内容及其元数据并进行预处理，得到数据集D，对数据集D进行标注与格式化；对数据集D中的各个类型的项目分别构建敏感数据深度识别子模型，计算各个模型在对应类型项目数据下的初始梯度；基于联邦学习模型计算各个子模型的聚合梯度均值并共享给各个子模型，更新各个子模型的参数；根据联邦学习模型的损失函数判断是否停止训练或进入下一轮训练，直到联邦学习模型训练结束；待识别的项目数据及其元数据输入联邦学习模型，识别项目中的敏感数据。本发明将自适应梯度剪枝与联邦学习结合，可实现通用领域中多种类型的敏感数据识别，提高敏感数据识别的泛化能力。

Description

一种面向项目密评的敏感数据识别方法及系统

技术领域

本发明属于数据安全技术领域，具体涉及一种面向项目密评的敏感数据识别方法及系统。

背景技术

项目评审是由专家与参与会议的技术人员通过问询、交流与探讨，辨识项目技术难点与风险点，研究技术途径可行性、拟定方案合理性、实现科学决断的一项技术活动。对于提升设计工作效率，缩短研制研发周期，提高产品经济效益与社会效益，都具有十分重要的意义。然而，在项目书中可能会涉及到各种类型的敏感数据，如：个人信息数据、企业经营数据和国家重要机密信息等，其中个人数据包括个人身份信息、个人生物识别信息、个人健康生理信息等10余个类型；国有企业、民营企业等在经营过程中的重要工业技术、设计、施工、安装文档和数据等；国家市政工程、航空航天与高端制造技术数据等。这类敏感数据在项目立项、评审与结项过程中作为评判依据必不可少，却存在巨大的敏感数据泄露问题，会给国家、企业及人民造成严重损失。

为了保障项目申请过程中敏感数据的安全，目前方法主要集中在隐私保护的数据发布(PPDP)阶段，其技术方法分为基于数据失真的隐私保护技术、基于数据加密的隐私保护技术和基于限制发布的隐私保护技术。这些方法均需要对敏感数据进行识别与级别检测，实现有针对性的脱敏处理，主要包括：1)规则匹配法，该方法需要在数据到来之前设置好针对敏感数据分类规则及匹配方式，并人工测试与审核，审核通过后分类规则与数据匹配方式才生效，但该方法需要大量的人力、时间成本且工作重复冗余，造成了数据脱敏时的效率较低；2)智能数据脱敏方法，该方法通过机器学习算法自动提取特征，实现智能算法选择、数据分类、识别敏感级等，可提高模型自适应性、有效缓解传统规则匹配法的缺陷。

目前为了减少敏感数据识别与处理的人力成本、提升数据脱敏的效率和准确率，基于机器学习的智能方法逐渐替代了规则匹配的方法。中国专利申请CN112270415A公开了一种基于数据加密的机器学习来训练数据准备方法、装置和设备，将目标隐私数据转换为目标加密数据类型进而联合多个参与方进行机器学习算法训练。此外，中国专利申请CN111800252A公开了基于区块链的信息审核方法、装置和计算机设备，该方法采用同态加密实现在未获得知识的情况下得到可靠、准确的审核结果。然而，这些方法对多类型项目的隐私数据识别泛化能力不高，且存在隐私保护与数据利用率协调差等问题。

发明内容

有鉴于此，本发明提出了一种面向项目密评的敏感数据识别方法及系统，用于解决现有的敏感数据识别方法对多类型项目的隐私数据识别泛化能力不高的问题。

本发明第一方面，公开一种面向项目密评的敏感数据识别方法，所述方法包括：

采集各类项目的主内容及其元数据并进行预处理，得到数据集D，对数据集D进行标注与格式化；

对数据集D中的各个类型的项目分别构建敏感数据深度识别子模型，计算各个模型在对应类型项目数据下的初始梯度；

基于联邦学习模型计算各个子模型的聚合梯度均值并共享给各个子模型，更新各个子模型的参数；

根据联邦学习模型的损失函数判断是否停止训练或进入下一轮训练，直到联邦学习模型训练结束；

待识别的项目数据及其元数据输入联邦学习模型，识别项目中的敏感数据。

在以上技术方案的基础上，优选的，所述采集各类项目的主内容及其元数据并进行预处理具体包括：

采集各类项目评审过程中的项目数据及其元数据；所述项目数据包括文本、图片和/或表格，所述元数据为数据描述、数据名称、数据类型相关的文本数据；

将元数据以文本形式整合排列，并与各自的项目数据对应；

将项目数据和对应的元数据以元组的形式保存。

在以上技术方案的基础上，优选的，所述对数据集D进行标注与格式化具体包括：

将数据集D按照类型抽取为常见数据类型数据集D₁和非常见类型数据集D₂；

制定各类型敏感数据分级标准，并细化其敏感数据抽取与分离细则；

按照敏感数据抽取与分离细则抽取常见数据类型数据集D₁和非常见类型数据集D₂中的敏感信息，将敏感信息标记为MD，非敏感信息标记为FD，定义敏感数据级别标签L；

对每个项目数据，形成<元数据，MD，FD，L>格式的四元组。

在以上技术方案的基础上，优选的，所述基于联邦学习模型计算各个子模型的聚合梯度均值并共享给各个子模型，更新各个子模型的参数具体包括：

初始化各个子模型的参数，分别读取常见数据类型数据集D₁和非常见类型数据集D₂中的样本并分别输入联邦学习模型中进行训练；

通过梯度剪枝算法对各个子模型m_i剪枝；

计算剪枝后子模型m_i中第k层结点的梯度；

计算联邦学习模型的聚合梯度，公式如下：

其中，

表示子模型m_i中第k层结点的梯度，K为子模型m_i的总层数；

计算聚合梯度的均值并共享给各个子模型m_i，利用反向传播算法迭代更新各个子模型的参数，使损失函数值最小化。

在以上技术方案的基础上，优选的，所述通过梯度剪枝算法对各个子模型剪枝具体包括：

计算子模型m_i第k层的各神经元反向传播梯度，取其中最大值记为

设置第k层梯度保留阈值为

基于梯度保留阈值对子模型m_i进行剪枝，重新设置模型m_i第k层的神经元数量，其中，α表示调节因子，用于控制模型梯度的剪枝率。

在以上技术方案的基础上，优选的，所述损失函数定义为：

其中，i＝1,2,…,n，n为子模型总数，样本

分别为真实的敏感数据级别标签，Θ_i、Θ_j分别为子模型m_i、m_j的参数；λ为损失调节系数。

在以上技术方案的基础上，优选的，敏感数据深度识别子模型采用机器学习或神经网络模型作为基础模型。

本发明第二方面，公开一种面向项目密评的敏感数据识别系统，所述系统包括：

数据预处理模块：用于采集各类项目的主内容及其元数据并进行预处理，得到数据集D，对数据集D进行标注与格式化；

子模型构建模块：用于对数据集D中的各个类型的项目分别构建敏感数据深度识别子模型，计算各个模型在对应类型项目数据下的初始梯度；

联邦学习训练模块：用于基于联邦学习模型计算各个子模型的聚合梯度均值并共享给各个子模型，更新各个子模型的参数；根据联邦学习模型的损失函数判断是否停止训练或进入下一轮训练，直到联邦学习模型训练结束；

敏感数据识别模块：用于将待识别的项目数据及其元数据输入联邦学习模型，识别项目中的敏感数据。

本发明第三方面，公开一种电子设备，包括：至少一个处理器、至少一个存储器、通信接口和总线；

其中，所述处理器、存储器、通信接口通过所述总线完成相互间的通信；

所述存储器存储有可被所述处理器执行的程序指令，所述处理器调用所述程序指令，以实现如本发明第一方面所述的方法。

本发明第四方面，公开一种计算机可读存储介质，所述计算机可读存储介质存储计算机指令，所述计算机指令使计算机实现如本发明第一方面所述的方法。

本发明相对于现有技术具有以下有益效果：

1)本发明将多个项目中的敏感数据采用领域模型分别训练，通过联邦学习统一框架促进多个本地子模型参数的更新，可实现项目密评过程中多种敏感数据、不可共享数据的联合训练，打破了信息孤岛问题与单一项目类型训练数据不足的问题，实现通用领域中多种类型的敏感数据识别，提高敏感数据识别的泛化能力；基于联邦学习方法，可进一步优化部署实现断点训练、云服务器公布式集群训练、多子模型并行加速训练等；

2)本发明根据不同网络层的子模型梯度阈值对本层神经元进行梯度剪枝，可实现子模型梯度的自适应频率更新，降低子模型自身参数规模，同时减小大规模本地子模型与统一框架的通信效率，可避免不必要的梯度更新，加快更多子模型的同时协同训练，进一步保证了密评项目中多源数据联合训练过程中源数据的隐私安全。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明的面向项目密评的敏感数据识别方法原理图。

具体实施方式

下面将结合本发明实施方式，对本发明实施方式中的技术方案进行清楚、完整地描述，显然，所描述的实施方式仅仅是本发明一部分实施方式，而不是全部的实施方式。基于本发明中的实施方式，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施方式，都属于本发明保护的范围。

本发明针对项目密评中现有隐私识别技术泛化能力差、本地训练数据不足及梯度共享存在梯度反推导致数据泄漏等问题，提出一种面向项目密评的敏感数据识别方法。如图1所示为面向项目密评的敏感数据识别方法原理图，针对隐私数据不可交换的多个项目，比如项目A和项目B，首先将多个项目中的敏感数据采用本地子模型分别训练，根据不同网络层模型梯度阈值对本层神经元进行梯度剪枝，降低模型自身参数规模，然后将基于不同类型项目隐私数据训练得到的梯度上传至服务器端用于梯度联邦学习训练，协作者C利用联邦学习框架进行A数据和B数据之间的中间结果的加密交互，并加密汇总梯度与损失，得到具有多种数据类型的聚合梯度的均值，由联邦学习框架统一下发，促进多个本地模型参数的更新，从而实现通用领域中多类型的敏感数据知识表示和识别。

请参阅图1，本发明提出一种面向项目密评的敏感数据识别方法，包括如下步骤：

S1、采集各类项目的主内容及其元数据并进行预处理，得到数据集D，对数据集D进行标注与格式化。

步骤S1具体包括如下分步骤：

S11、采集各类项目评审过程中的项目数据及其元数据。

不限定范围的采集各类项目评审过程中已存在的项目数据及其元数据。其中，项目数据以文本为主，部分项目书中可能涉及图片和/或表格等附件，也应考虑在内，元数据为项目数据的数据描述、数据名称、数据类型相关的文本数据。

S12、对各类项目的主内容及其元数据进行预处理。

具体的预处理方式为：将元数据以文本形式整合排列，并与各自的项目数据对应，将每个项目数据和对应的元数据以元组的形式保存，得到数据集D。

S13、对数据集D进行标注。

由于数据集D中包含了不同类型的项目数据，分别根据项目类型进行数据抽取，分别按照项目类型将数据集D划分为多个子数据集。比如，以常见数据类型和非常见数据类型这两类为例，可将数据集D按照类型抽取划分为常见数据类型数据集D₁和非常见类型数据集D₂。

首先制定各类型敏感数据分级标准，并细化其敏感数据抽取与分离细则；

然后按照敏感数据抽取与分离细则抽取常见数据类型数据集D₁和非常见类型数据集D₂中的敏感信息，将敏感信息标记为MD，非敏感信息标记为FD，定义敏感数据级别标签L。

S14、对数据集D进行统一格式化。

具体的，对每个项目数据，将其对应的元数据、敏感信息标记MD，非敏感信息标记FD和敏感数据级别标签L存入元组中，以四元组<元数据，MD，FD，L>的格式形成训练样本。

S2、对数据集D中的各个类型的项目分别构建敏感数据深度识别子模型，计算各个模型在对应类型项目数据下的初始梯度。

具体的，可以采用已有的机器学习或神经网络模型作为基础模型，在本地，根据项目类别数n分别为每一个项目类别构建敏感数据深度识别子模型m_i。在服务器端，建立联邦学习框架，将各个子模型m_i聚合组成联邦学习模型M＝*m₁,m₂,…,m_n+，i＝1,2,…,n，n为子模型总数，通过求导的方式计算各个子模型m_i在对应类型项目数据下的初始梯度g_i。

S3、基于联邦学习模型计算各个子模型的聚合梯度均值并加密共享给各个子模型，更新各个子模型的参数。

S31、初始化各个子模型的参数，设m₁,m₂,…,m_n的初始化模型参数分别为Θ₁,Θ₂,…,Θ_n。

S32、分别读取常见数据类型数据集D₁和非常见类型数据集D₂中的一对样本

并分别输入各个子模型中进行训练，计算各个模型的预测分布与真实数据标签L之间的损失，损失函数定义为：

其中，i＝1,2,…,n，n为子模型总数，样本

S33、通过梯度剪枝算法对各个子模型m_i剪枝。

具体的，计算子模型m_i第k层的各神经元反向传播梯度，取其中最大值记为

设置第k层梯度保留阈值为

基于梯度保留阈值对子模型m_i进行剪枝，重新设置模型m_i第k层的神经元数量，降低各个子模型自身参数规模。其中，α表示调节因子，用于控制模型梯度的剪枝率。

本发明通过梯度剪枝降低子模型自身参数规模，可避免不必要的梯度更新，同时，提高本地子模型与服务器端的统一模型框架的通信效率，加快更多模型的同时协同训练，梯度剪枝可使交换数据量减少，进一步保证了密评项目中多源数据联合训练过程中源数据的隐私安全。

S34、计算剪枝后子模型m_i中第k层结点的梯度。

S35、各个子模型m_i利用联邦学习框架分发的公钥加密上传各自的梯度至服务器端，进行梯度联邦学习，计算联邦学习模型的聚合梯度，公式如下：

其中，

表示子模型m_i中第k层结点的梯度，K为子模型m_i的总层数；

S36、计算聚合梯度的均值：

S37、将聚合梯度的均值

共享给各个子模型m_i，利用反向传播算法迭代更新各个子模型的参数，使损失函数值Loss最小化。

S4、根据联邦学习模型的损失函数判断是否停止训练或进入下一轮训练，直到联邦学习模型训练结束。

具体的，可以设定损失阈值作为联邦学习模型训练结束条件，当损失函数值Loss小于该损失阈值时停止训练，否则重复以上步骤S32～S37，直到Loss小于该损失阈值。

S5、待识别的项目数据及其元数据输入联邦学习模型，识别项目中的敏感数据。

联邦学习模型训练完成后，即可使用联邦学习模型完成对未知类型数据的识别与脱敏处理。

本发明采用多类型、多源项目数据本地离散训练子模型，并基于联邦学习策略协同更新多个子模型参数，其具备与源数据同计算过程同结果的性质，可实现多种类型的项目敏感数据准确识别，提高泛化能力。采用联邦学习策略，可实现项目密评过程中多种敏感数据、不可共享数据的联合训练，打破了信息孤岛问题与单一项目类型训练数据不足的问题，可进一步优化部署实现断点训练、云服务器公布式集群训练、多子模型并行加速训练等；

与上述方法实施例相对应，本发明公开一种面向项目密评的敏感数据识别系统，所述系统包括：

联邦学习训练模块：用于基于联邦学习模型计算各个子模型的聚合梯度均值并共享给各个子模型，更新各个子模型的参数；计算各个子模型的损失函数，判断停止训练或进入下一轮训练，直到联邦学习模型训练结束；

以上系统实施例和方法实施例是一一对应的，系统实施例简述之处请参阅方法实施例即可。

本发明还公开一种电子设备，包括：至少一个处理器、至少一个存储器、通信接口和总线；其中，所述处理器、存储器、通信接口通过所述总线完成相互间的通信；所述存储器存储有可被所述处理器执行的程序指令，所述处理器调用所述程序指令，以实现本发明前述的方法。

本发明还公开一种计算机可读存储介质，所述计算机可读存储介质存储计算机指令，所述计算机指令使所述计算机实现本发明实施例所述方法的全部或部分步骤。所述存储介质包括：U盘、移动硬盘、只读存储器ROM、随机存取存储器RAM、磁碟或者光盘等各种可以存储程序代码的介质。

以上所描述的系统实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以分布到多个网络单元上。本领域普通技术人员在不付出创造性的劳动的情况下，可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

以上所述仅为本发明的较佳实施方式而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。