CN111625858B

CN111625858B - 一种垂直领域下的智能化多模态数据脱敏方法和装置

Info

Publication number: CN111625858B
Application number: CN202010389534.3A
Authority: CN
Inventors: 李琳; 胡开喜; 袁景凌
Original assignee: Wuhan University of Technology WUT
Current assignee: Wuhan University of Technology WUT
Priority date: 2020-05-10
Filing date: 2020-05-10
Publication date: 2023-04-07
Anticipated expiration: 2040-05-10
Also published as: CN111625858A

Abstract

本发明实施例提供一种垂直领域下的智能化多模态数据脱敏方法和装置，方法包括：采集通用领域脱敏前后的数据及其元数据，进行预处理以获得第一数据集；采集垂直领域未脱敏数据及其元数据，进行预处理以获得第二数据集；基于第一数据集训练预设神经网络模型，获得预训练模型；基于第二数据集调整所述预训练模型，获得数据脱敏模型；将待脱敏数据及其元数据输入所述数据脱敏模型，输出经过脱敏处理后的数据。本发明采用迁移学习技术，学习可用数据较多的通用领域数据脱敏知识，并将学习到的通用领域数据脱敏知识迁移到可用数较少的垂直领域，避免大量、重复的人工标注工作，降低了数据脱敏的成本。

Description

一种垂直领域下的智能化多模态数据脱敏方法和装置

技术领域

本发明实施例涉及数据脱敏领域，尤其涉及一种垂直领域下的智能化多模态数据脱敏方法和装置。

背景技术

随着互联网的发展，云计算、大数据、人工智能技术的广泛应用，数据安全问题日益突出。在科学研究、产品开发、数据公开的过程中，算法需要收集、使用用户数据，在这些过程中数据就不可避免的暴露在外，造成了敏感信息泄露的问题。解决敏感数据的安全问题有多种方案，而最常采用的是数据脱敏技术。传统的数据脱敏技术缺少对场景多样化的预判和业务生产的关联性，面对海量的数据需要进行人工干预和不定期配置，且识别精确度不高，系统智能化水平较低。此外，在对数据脱敏的过程中，包含数据分类、识别定级、算法选择等多个步骤，流程复杂，不便于理解。

为了保障敏感数据的安全，常用的数据脱敏方法主要有:1)规则匹配法，该方法手动设置脱敏规则和数据的匹配方式,并提交管理员进行多次审核,审核通过后脱敏规则才与数据的匹配正式有效,进行数据脱敏操作，该方法需要大量的人力时间成本而且工作重复冗余,造成了数据脱敏时的效率较低；2)智能数据脱敏方法，该方法通过机器学习的方式智能对数据分类、识别定级、算法选择，可有效缓解传统规则匹配法的缺陷，有效降低人工成本。

目前，为了减少数据脱敏的人力成本、提升数据脱敏的效率和准确率，现有技术大多采用机器学习的智能方法替代规则匹配的方法。中国专利申请201810537711.0公开了一种基于机器学习的数据脱敏方法、装置及存储介质，该方法通过数据的属性信息确定数据的脱敏规则，没有考虑到不同行业脱敏的具体要求。此外，中国专利申请201910054423.4公开了一种基于机器学习的脱敏方法、装置及脱敏设备，该方法需要人工处理数据并提取出特征向量再进行脱敏分析，可靠性不高且流程复杂。

发明内容

本发明实施例提供一种垂直领域下的智能化多模态数据脱敏方法和装置，用以解决现有的数据脱敏方式没有考虑到不同行业脱敏的具体要求，可靠性不高且流程复杂的问题。

第一方面，本发明实施例提供一种垂直领域下的智能化多模态数据脱敏方法，包括：

S1，采集通用领域脱敏前后的数据及其元数据，进行预处理以获得第一数据集；

S2，采集垂直领域未脱敏数据及其元数据，进行预处理以获得第二数据集；

S3，基于第一数据集训练预设神经网络模型，获得预训练模型；

S4，基于第二数据集调整所述预训练模型，获得数据脱敏模型；

S5，将待脱敏数据及其元数据输入所述数据脱敏模型，输出经过脱敏处理后的数据。

进一步，S1中，所述采集通用领域脱敏前后的数据及其元数据，进行预处理以获得第一数据集，具体包括：

S11，采集通用领域脱敏前后的数据及其元数据；所述脱敏前后的数据包括脱敏前数据和脱敏后数据，元数据为数据描述、数据名称、数据类型等文本数据；

S12，将通用领域脱敏前后的数据对应的元数据按照统一次序排列合并，表示为文本；

S13，将通用领域脱敏前后的数据及其对应的排列合并后的元数据存入第一元组中，获得第一数据集。

进一步，S2中，所述采集垂直领域未脱敏数据及其元数据，进行预处理以获得第二数据集，具体包括：

S21，采集垂直领域未脱敏数据及其元数据；

S22，将所述垂直领域未脱敏数据对应的元数据按照统一次序排列合并，表示为文本；

S23，基于预设规则将所述垂直领域未脱敏数据中的敏感部分进行标注与脱敏，获得垂直领域未脱敏数据对应的脱敏数据.

S24，将所述垂直领域未脱敏数据及其对应的脱敏数据和排列合并后的元数据分别存入第二元组中，获得第二数据集。

进一步，S3中，所述预设神经网络模型为双输入-单输出神经网络模型，所述双输入-单输出神经网络模型包括元数据编码器、未脱敏数据编码器、连接层和解码器。

进一步，所述S3中基于第一数据集训练预设神经网络模型，获得预训练模型，具体包括：

S31，读取第一数据集中的训练实例集x_i，将x_i中的元数据输入元数据编码器，输出元数据编码向量vector1；

S32，根据第一数据集中脱敏前数据的类型，选择对应的未脱敏数据编码器，将x_i中的未脱敏数据输入所述未脱敏数据编码器，输出未脱敏数据编码向量vector2；

S33，将所述元数据编码向量vector1和未脱敏数据编码向量vector2输入预设神经网络模型的连接层，得到拼接后的向量vector3；

S34，将拼接后的向量vector3输入所述预设神经网络模型的解码层，输出经预设神经网络模型脱敏处理后的数据q(x_i)；

S35，根据下述公式(1)计算预设神经网络模型的损失函数，利用反向传播算法迭代更新预设神经网络模型的编码器参数ω₁和解码器参数ω₂，使所述预设神经网络模型的损失函数最小化，获得预训练模型；

其中，

为预设神经网络模型的正则项，D1表示第一数据集，p(x_i)表示真实的脱敏处理后数据的概率分布，q(x_i)表示预设神经网络模型预测的脱敏数据的分布。

进一步，S32中，根据第一数据集中脱敏前数据的类型，选择对应的未脱敏数据编码器，具体包括：

若所述第一数据集中脱敏前数据为语音数据，则选择序列结构的未脱敏数据编码器；若所述第一数据集中脱敏前数据为图像数据，则选择卷积结构的未脱敏数据编码器。

进一步，所述S4中基于第二数据集调整所述预训练模型，具体包括：

S41，保持预训练模型M1的编码器参数ω₃不变，使用训练实例集z_i∈D2替代训练实例集x_i∈D1，重复S31至S34中的步骤；其中，D1表示第一数据集，D2表示第二数据集；

S42，根据下述公式(2)计算所述预训练模型的损失函数，利用反向传播算法迭代更新预训练模型中的解码器参数ω₄，使所述预训练模型的损失函数最小化；

其中，

为预训练模型的正则项，D2表示第二数据集，p(z_i)表示真实的脱敏处理后数据的概率分布，q(z_i)表示预训练模型预测的脱敏数据的分布。

第二方面，本发明实施例提供一种垂直领域下的智能化多模态数据脱敏装置，包括：

第一采集模块，用于采集通用领域脱敏前后的数据及其元数据，进行预处理以获得第一数据集；

第二采集模块，用于采集垂直领域未脱敏数据及其元数据，进行预处理以获得第二数据集；

预训练模块，用于基于第一数据集训练预设神经网络模型，获得预训练模型；

模型调整模块，用于基于第二数据集调整所述预训练模型，获得数据脱敏模型；

数据脱敏模块，用于将待脱敏数据及其元数据输入所述数据脱敏模型，输出经过脱敏处理后的数据。

第三方面，本发明实施例提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如本发明第一方面实施例所述垂直领域下的智能化多模态数据脱敏方法的步骤。

第四方面，本发明实施例提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如本发明第一方面实施例所述垂直领域下的智能化多模态数据脱敏方法的步骤。

本发明实施例提供的垂直领域下的智能化多模态数据脱敏方法和装置，采用迁移学习技术，学习可用数据较多的通用领域数据脱敏知识，并将学习到的通用领域数据脱敏知识迁移到可用数较少的垂直领域，避免大量、重复的人工标注工作，降低了数据脱敏的成本。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的垂直领域下的智能化多模态数据脱敏方法流程示意图；

图2为本发明实施例提供的双输入-单输出神经网络模型的结构示意图；

图3为本发明实施例提供的数据脱敏流程图；

图4为本发明实施例提供的垂直领域下的智能化多模态数据脱敏装置的结构示意图；

图5为本发明实施例提供的电子设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

现有的数据脱敏方法，通常是通过数据的属性信息确定数据的脱敏规则，其没有考虑到不同行业脱敏的具体要求。另外，现有的另一种数据脱敏方法方法需要人工处理数据并提取出特征向量再进行脱敏分析，可靠性不高且流程复杂。

针对现有数据脱敏方法的上述问题，本发明实施例提供了一种垂直领域下的智能化多模态数据脱敏方法，图1为本发明实施例提供的一种垂直领域下的智能化多模态数据脱敏方法，参照图1，该方法包括：

S1，采集通用领域脱敏前后的数据及其元数据，进行预处理以获得第一数据集。

具体地，通用领域是指不对数据脱敏有特殊要求且被公众广泛认知的领域，如身份证号7-18位、手机号后四位一般情况下都需要脱敏。脱敏前后的数据包括脱敏前数据和脱敏后数据。元数据(Metadata)又称中介数据或中继数据，为描述数据的数据(data aboutdata)，主要是描述数据属性(property)的信息，用来支持如指示存储位置、历史数据、资源查找、文件记录等功能。本实施例中，元数据为数据描述、数据名称、数据类型等文本数据。

S2，采集垂直领域未脱敏数据及其元数据，进行预处理以获得第二数据集。

此处，垂直领域是指对数据脱敏有特殊要求且不被公众广泛认知的领域，如食品加工的特殊工艺、特殊配方等。

S3，基于第一数据集训练预设神经网络模型，获得预训练模型。

此处，预设神经网络模型是预先训练好的用于数据脱敏的神经网络模型。本实施例中，预设神经网络模型为双输入-单输出神经网络模型，如图2所示，图2为本发明实施例提供的双输入-单输出神经网络模型的结构示意图，参照图2，双输入-单输出神经网络模型包括元数据编码器、未脱敏数据编码器、连接层和解码器。本实施例根据步骤S1采集的第一数据集训练预设神经网络模型，获得预训练模型。

S4，基于第二数据集调整所述预训练模型，获得数据脱敏模型。

图3为本发明实施例提供的数据脱敏流程图，参照图3，本实施例采用迁移学习技术，首先采集通用领域脱敏前后的数据及其元数据，获得第一数据集，将第一数据集作为预设神经网络模型的训练数据，训练预设神经网络模型，获得预训练模型，以学习可用数据较多的通用领域数据脱敏知识。接着，将学习到的脱敏知识迁移到可用数较少的垂直领域，根据上述步骤S2中采集的第二数据集调整预训练模型，获得数据脱敏模型。最后，将待脱敏数据及其元数据输入数据脱敏模型，输出经过脱敏处理后的数据。完成垂直领域数据脱敏。

本发明实施例提供的垂直领域下的智能化多模态数据脱敏方法，与现有技术相比，具有以下优点：

1)采用迁移学习技术，学习可用数据较多的通用领域数据脱敏知识，并将学习到的通用领域数据脱敏知识迁移到可用数较少的垂直领域，避免大量、重复的人工标注工作，降低了数据脱敏的成本。

2)提供了统一的多模态数据脱敏框架，如图2所示，根据脱敏数据类型定制相适应的神经网络结构，编码器(包括元数据编码器和未脱敏数据编码器)将不同模态的数据统一向量化表示，便于实现知识迁移，提高了数据脱敏的准确率。

3)采用端到端的模型结构，智能、动态、直接的处理未脱敏数据，提高数据脱敏的效率。

在上述各实施例的基础上，步骤S1中，所述采集通用领域脱敏前后的数据及其元数据，进行预处理以获得第一数据集，具体包括：

S12，将通用领域脱敏前后的数据对应的元数据按照统一次序排列合并，表示为文本。

具体地，由于元数据有多个字段，因此需要在不同字段之间添加一个特殊的连接符(如分号，星号等)，然后连接为一个字段输入到元数据编码器中。统一次序指多个元数据字段排列组合没有特别的次序要求，但在模型训练的不同阶段，字段的顺序、长短需保持前后一致。

在上述实施例的基础上，步骤S2中，所述采集垂直领域未脱敏数据及其元数据，进行预处理以获得第二数据集，具体包括：

S21，采集垂直领域未脱敏数据及其元数据；

S23，基于预设规则将所述垂直领域未脱敏数据中的敏感部分进行标注与脱敏，获得垂直领域未脱敏数据对应的脱敏数据。

此处，基于预设规则将所述垂直领域未脱敏数据中的敏感部分进行标注与脱敏，是指使用现有的数据脱敏方式，对垂直领域未脱敏数据中的敏感部分进行标注与脱敏。

在上述各实施例的基础上，所述S3中基于第一数据集训练预设神经网络模型，获得预训练模型，具体包括：

式(1)中，

在上述各实施例的基础上，所述S4中基于第二数据集调整所述预训练模型，具体包括：

式(2)中，

图4为本发明实施例提供的垂直领域下的智能化多模态数据脱敏装置，参照图4，该装置包括：

第一采集模块401，用于采集通用领域脱敏前后的数据及其元数据，进行预处理以获得第一数据集；

第二采集模块402，用于采集垂直领域未脱敏数据及其元数据，进行预处理以获得第二数据集；

预训练模块403，用于基于第一数据集训练预设神经网络模型，获得预训练模型；

模型调整模块404，用于基于第二数据集调整所述预训练模型，获得数据脱敏模型；

数据脱敏模块405，用于将待脱敏数据及其元数据输入所述数据脱敏模型，输出经过脱敏处理后的数据。

具体地，本发明实施例提供的垂直领域下的智能化多模态数据脱敏装置，具体用于执行上述方法实施例中垂直领域下的智能化多模态数据脱敏方法的步骤，由于上述实施例中已对垂直领域下的智能化多模态数据脱敏方法进行详细介绍，此处不对垂直领域下的智能化多模态数据脱敏装置的功能进行赘述。

本发明实施例提供的垂直领域下的智能化多模态数据脱敏装置，采用迁移学习技术，学习可用数据较多的通用领域数据脱敏知识，并将学习到的通用领域数据脱敏知识迁移到可用数较少的垂直领域，避免大量、重复的人工标注工作，降低了数据脱敏的成本。

本发明实施例提供了本发明实施例提供了一种电子设备，如图5所示，该电子设备可以包括：处理器(processor)501、通信接口(Communications Interface)502、存储器(memory)503和通信总线504，其中，处理器501，通信接口502，存储器503通过通信总线504完成相互间的通信。处理器501可以调用存储器503中的逻辑指令，以执行上述各实施例提供的垂直领域下的智能化多模态数据脱敏方法，例如包括：S1，采集通用领域脱敏前后的数据及其元数据，进行预处理以获得第一数据集；S2，采集垂直领域未脱敏数据及其元数据，进行预处理以获得第二数据集；S3，基于第一数据集训练预设神经网络模型，获得预训练模型；S4，基于第二数据集调整所述预训练模型，获得数据脱敏模型；S5，将待脱敏数据及其元数据输入所述数据脱敏模型，输出经过脱敏处理后的数据。

本发明实施例还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各实施例提供的垂直领域下的智能化多模态数据脱敏方法，例如包括：S1，采集通用领域脱敏前后的数据及其元数据，进行预处理以获得第一数据集；S2，采集垂直领域未脱敏数据及其元数据，进行预处理以获得第二数据集；S3，基于第一数据集训练预设神经网络模型，获得预训练模型；S4，基于第二数据集调整所述预训练模型，获得数据脱敏模型；S5，将待脱敏数据及其元数据输入所述数据脱敏模型，输出经过脱敏处理后的数据。

综上所述，本发明实施例提供一种垂直领域下的智能化多模态数据脱敏方法和装置，与现有技术相比，具有以下优点：

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种垂直领域下的智能化多模态数据脱敏方法，其特征在于，包括：

S3，基于第一数据集训练预设神经网络模型，获得预训练模型；其中，所述预设神经网络模型为双输入-单输出神经网络模型，所述双输入-单输出神经网络模型包括元数据编码器、未脱敏数据编码器、连接层和解码器；S3具体包括：

S31，读取第一数据集中的训练实例集，将中的元数据输入元数据编码器，输出元数据编码向量vector1；

S32，根据第一数据集中脱敏前数据的类型，选择对应的未脱敏数据编码器，将中的未脱敏数据输入所述未脱敏数据编码器，输出未脱敏数据编码向量vector2；

S34，将拼接后的向量vector3输入所述预设神经网络模型的解码层，输出经预设神经网络模型脱敏处理后的数据；

S35，根据下述公式（1）计算预设神经网络模型的损失函数，利用反向传播算法迭代更新预设神经网络模型的编码器参数和解码器参数，使所述预设神经网络模型的损失函数最小化，获得预训练模型M1；

(1)

其中，为预设神经网络模型的正则项，D1表示第一数据集，表示真实的脱敏处理后数据的概率分布，表示预设神经网络模型预测的脱敏数据的分布；

S4，基于第二数据集调整所述预训练模型，获得数据脱敏模型；具体包括：

S41，保持预训练模型M1的编码器参数不变，使用训练实例集替代训练实例集，重复S31至S34中的步骤；其中，D1表示第一数据集，D2表示第二数据集；

S42，根据下述公式(2)计算所述预训练模型M1的损失函数，利用反向传播算法迭代更新预训练模型M1中的解码器参数，使所述预训练模型M1的损失函数最小化；

(2)

其中，为预训练模型M1的正则项，D2表示第二数据集，表示真实的脱敏处理后数据的概率分布，表示预训练模型M1预测的脱敏数据的分布；

2.根据权利要求1所述的垂直领域下的智能化多模态数据脱敏方法，其特征在于，S1中，所述采集通用领域脱敏前后的数据及其元数据，进行预处理以获得第一数据集，具体包括：

3.根据权利要求1所述的垂直领域下的智能化多模态数据脱敏方法，其特征在于，S2中，所述采集垂直领域未脱敏数据及其元数据，进行预处理以获得第二数据集，具体包括：

S21，采集垂直领域未脱敏数据及其元数据；

S23，基于预设规则将所述垂直领域未脱敏数据中的敏感部分进行标注与脱敏，获得垂直领域未脱敏数据对应的脱敏数据；

4.根据权利要求1所述的垂直领域下的智能化多模态数据脱敏方法，其特征在于，S32中，根据第一数据集中脱敏前数据的类型，选择对应的未脱敏数据编码器，具体包括：

5.一种垂直领域下的智能化多模态数据脱敏装置，其特征在于，包括：

预训练模块，用于基于第一数据集训练预设神经网络模型，获得预训练模型；其中，所述预设神经网络模型为双输入-单输出神经网络模型，所述双输入-单输出神经网络模型包括元数据编码器、未脱敏数据编码器、连接层和解码器；具体包括：

读取第一数据集中的训练实例集，将中的元数据输入元数据编码器，输出元数据编码向量vector1；

根据第一数据集中脱敏前数据的类型，选择对应的未脱敏数据编码器，将中的未脱敏数据输入所述未脱敏数据编码器，输出未脱敏数据编码向量vector2；

将所述元数据编码向量vector1和未脱敏数据编码向量vector2输入预设神经网络模型的连接层，得到拼接后的向量vector3；

将拼接后的向量vector3输入所述预设神经网络模型的解码层，输出经预设神经网络模型脱敏处理后的数据；

根据下述公式（1）计算预设神经网络模型的损失函数，利用反向传播算法迭代更新预设神经网络模型的编码器参数和解码器参数，使所述预设神经网络模型的损失函数最小化，获得预训练模型M1；

(1)

模型调整模块，用于基于第二数据集调整所述预训练模型，获得数据脱敏模型；具体包括：

保持预训练模型M1的编码器参数不变，使用训练实例集替代训练实例集，重复S31至S34中的步骤；其中，D1表示第一数据集，D2表示第二数据集；

根据下述公式(2)计算所述预训练模型M1的损失函数，利用反向传播算法迭代更新预训练模型M1中的解码器参数，使所述预训练模型M1的损失函数最小化；

(2)

6.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至4任一项所述垂直领域下的智能化多模态数据脱敏方法的步骤。

7.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现如权利要求1至4任一项所述垂直领域下的智能化多模态数据脱敏方法的步骤。