CN111625858A - 一种垂直领域下的智能化多模态数据脱敏方法和装置 - Google Patents

一种垂直领域下的智能化多模态数据脱敏方法和装置 Download PDF

Info

Publication number
CN111625858A
CN111625858A CN202010389534.3A CN202010389534A CN111625858A CN 111625858 A CN111625858 A CN 111625858A CN 202010389534 A CN202010389534 A CN 202010389534A CN 111625858 A CN111625858 A CN 111625858A
Authority
CN
China
Prior art keywords
data
desensitization
metadata
desensitized
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010389534.3A
Other languages
English (en)
Other versions
CN111625858B (zh
Inventor
李琳
胡开喜
袁景凌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan University of Technology WUT
Original Assignee
Wuhan University of Technology WUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan University of Technology WUT filed Critical Wuhan University of Technology WUT
Priority to CN202010389534.3A priority Critical patent/CN111625858B/zh
Publication of CN111625858A publication Critical patent/CN111625858A/zh
Application granted granted Critical
Publication of CN111625858B publication Critical patent/CN111625858B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Bioethics (AREA)
  • Computer Hardware Design (AREA)
  • Computer Security & Cryptography (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例提供一种垂直领域下的智能化多模态数据脱敏方法和装置,方法包括:采集通用领域脱敏前后的数据及其元数据,进行预处理以获得第一数据集;采集垂直领域未脱敏数据及其元数据,进行预处理以获得第二数据集;基于第一数据集训练预设神经网络模型,获得预训练模型;基于第二数据集调整所述预训练模型,获得数据脱敏模型;将待脱敏数据及其元数据输入所述数据脱敏模型,输出经过脱敏处理后的数据。本发明采用迁移学习技术,学习可用数据较多的通用领域数据脱敏知识,并将学习到的通用领域数据脱敏知识迁移到可用数较少的垂直领域,避免大量、重复的人工标注工作,降低了数据脱敏的成本。

Description

一种垂直领域下的智能化多模态数据脱敏方法和装置
技术领域
本发明实施例涉及数据脱敏领域,尤其涉及一种垂直领域下的智能化多模态数据脱敏方法和装置。
背景技术
随着互联网的发展,云计算、大数据、人工智能技术的广泛应用,数据安全问题日益突出。在科学研究、产品开发、数据公开的过程中,算法需要收集、使用用户数据,在这些过程中数据就不可避免的暴露在外,造成了敏感信息泄露的问题。解决敏感数据的安全问题有多种方案,而最常采用的是数据脱敏技术。传统的数据脱敏技术缺少对场景多样化的预判和业务生产的关联性,面对海量的数据需要进行人工干预和不定期配置,且识别精确度不高,系统智能化水平较低。此外,在对数据脱敏的过程中,包含数据分类、识别定级、算法选择等多个步骤,流程复杂,不便于理解。
为了保障敏感数据的安全,常用的数据脱敏方法主要有:1)规则匹配法,该方法手动设置脱敏规则和数据的匹配方式,并提交管理员进行多次审核,审核通过后脱敏规则才与数据的匹配正式有效,进行数据脱敏操作,该方法需要大量的人力时间成本而且工作重复冗余,造成了数据脱敏时的效率较低;2)智能数据脱敏方法,该方法通过机器学习的方式智能对数据分类、识别定级、算法选择,可有效缓解传统规则匹配法的缺陷,有效降低人工成本。
目前,为了减少数据脱敏的人力成本、提升数据脱敏的效率和准确率,现有技术大多采用机器学习的智能方法替代规则匹配的方法。中国专利申请201810537711.0公开了一种基于机器学习的数据脱敏方法、装置及存储介质,该方法通过数据的属性信息确定数据的脱敏规则,没有考虑到不同行业脱敏的具体要求。此外,中国专利申请201910054423.4公开了一种基于机器学习的脱敏方法、装置及脱敏设备,该方法需要人工处理数据并提取出特征向量再进行脱敏分析,可靠性不高且流程复杂。
发明内容
本发明实施例提供一种垂直领域下的智能化多模态数据脱敏方法和装置,用以解决现有的数据脱敏方式没有考虑到不同行业脱敏的具体要求,可靠性不高且流程复杂的问题。
第一方面,本发明实施例提供一种垂直领域下的智能化多模态数据脱敏方法,包括:
S1,采集通用领域脱敏前后的数据及其元数据,进行预处理以获得第一数据集;
S2,采集垂直领域未脱敏数据及其元数据,进行预处理以获得第二数据集;
S3,基于第一数据集训练预设神经网络模型,获得预训练模型;
S4,基于第二数据集调整所述预训练模型,获得数据脱敏模型;
S5,将待脱敏数据及其元数据输入所述数据脱敏模型,输出经过脱敏处理后的数据。
进一步,S1中,所述采集通用领域脱敏前后的数据及其元数据,进行预处理以获得第一数据集,具体包括:
S11,采集通用领域脱敏前后的数据及其元数据;所述脱敏前后的数据包括脱敏前数据和脱敏后数据,元数据为数据描述、数据名称、数据类型等文本数据;
S12,将通用领域脱敏前后的数据对应的元数据按照统一次序排列合并,表示为文本;
S13,将通用领域脱敏前后的数据及其对应的排列合并后的元数据存入第一元组中,获得第一数据集。
进一步,S2中,所述采集垂直领域未脱敏数据及其元数据,进行预处理以获得第二数据集,具体包括:
S21,采集垂直领域未脱敏数据及其元数据;
S22,将所述垂直领域未脱敏数据对应的元数据按照统一次序排列合并,表示为文本;
S23,基于预设规则将所述垂直领域未脱敏数据中的敏感部分进行标注与脱敏,获得垂直领域未脱敏数据对应的脱敏数据.
S24,将所述垂直领域未脱敏数据及其对应的脱敏数据和排列合并后的元数据分别存入第二元组中,获得第二数据集。
进一步,S3中,所述预设神经网络模型为双输入-单输出神经网络模型,所述双输入-单输出神经网络模型包括元数据编码器、未脱敏数据编码器、连接层和解码器。
进一步,所述S3中基于第一数据集训练预设神经网络模型,获得预训练模型,具体包括:
S31,读取第一数据集中的训练实例集xi,将xi中的元数据输入元数据编码器,输出元数据编码向量vector1;
S32,根据第一数据集中脱敏前数据的类型,选择对应的未脱敏数据编码器,将xi中的未脱敏数据输入所述未脱敏数据编码器,输出未脱敏数据编码向量vector2;
S33,将所述元数据编码向量vector1和未脱敏数据编码向量vector2输入预设神经网络模型的连接层,得到拼接后的向量vector3;
S34,将拼接后的向量vector3输入所述预设神经网络模型的解码层,输出经预设神经网络模型脱敏处理后的数据q(xi);
S35,根据下述公式(1)计算预设神经网络模型的损失函数,利用反向传播算法迭代更新预设神经网络模型的编码器参数ω1和解码器参数ω2,使所述预设神经网络模型的损失函数最小化,获得预训练模型;
Figure BDA0002485282100000041
其中,
Figure BDA0002485282100000042
为预设神经网络模型的正则项,D1表示第一数据集,p(xi)表示真实的脱敏处理后数据的概率分布,q(xi)表示预设神经网络模型预测的脱敏数据的分布。
进一步,S32中,根据第一数据集中脱敏前数据的类型,选择对应的未脱敏数据编码器,具体包括:
若所述第一数据集中脱敏前数据为语音数据,则选择序列结构的未脱敏数据编码器;若所述第一数据集中脱敏前数据为图像数据,则选择卷积结构的未脱敏数据编码器。
进一步,所述S4中基于第二数据集调整所述预训练模型,具体包括:
S41,保持预训练模型M1的编码器参数ω3不变,使用训练实例集zi∈D2替代训练实例集xi∈D1,重复S31至S34中的步骤;其中,D1表示第一数据集,D2表示第二数据集;
S42,根据下述公式(2)计算所述预训练模型的损失函数,利用反向传播算法迭代更新预训练模型中的解码器参数ω4,使所述预训练模型的损失函数最小化;
Figure BDA0002485282100000043
其中,
Figure BDA0002485282100000044
为预训练模型的正则项,D2表示第二数据集,p(zi)表示真实的脱敏处理后数据的概率分布,q(zi)表示预训练模型预测的脱敏数据的分布。
第二方面,本发明实施例提供一种垂直领域下的智能化多模态数据脱敏装置,包括:
第一采集模块,用于采集通用领域脱敏前后的数据及其元数据,进行预处理以获得第一数据集;
第二采集模块,用于采集垂直领域未脱敏数据及其元数据,进行预处理以获得第二数据集;
预训练模块,用于基于第一数据集训练预设神经网络模型,获得预训练模型;
模型调整模块,用于基于第二数据集调整所述预训练模型,获得数据脱敏模型;
数据脱敏模块,用于将待脱敏数据及其元数据输入所述数据脱敏模型,输出经过脱敏处理后的数据。
第三方面,本发明实施例提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如本发明第一方面实施例所述垂直领域下的智能化多模态数据脱敏方法的步骤。
第四方面,本发明实施例提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如本发明第一方面实施例所述垂直领域下的智能化多模态数据脱敏方法的步骤。
本发明实施例提供的垂直领域下的智能化多模态数据脱敏方法和装置,采用迁移学习技术,学习可用数据较多的通用领域数据脱敏知识,并将学习到的通用领域数据脱敏知识迁移到可用数较少的垂直领域,避免大量、重复的人工标注工作,降低了数据脱敏的成本。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的垂直领域下的智能化多模态数据脱敏方法流程示意图;
图2为本发明实施例提供的双输入-单输出神经网络模型的结构示意图;
图3为本发明实施例提供的数据脱敏流程图;
图4为本发明实施例提供的垂直领域下的智能化多模态数据脱敏装置的结构示意图;
图5为本发明实施例提供的电子设备的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
现有的数据脱敏方法,通常是通过数据的属性信息确定数据的脱敏规则,其没有考虑到不同行业脱敏的具体要求。另外,现有的另一种数据脱敏方法方法需要人工处理数据并提取出特征向量再进行脱敏分析,可靠性不高且流程复杂。
针对现有数据脱敏方法的上述问题,本发明实施例提供了一种垂直领域下的智能化多模态数据脱敏方法,图1为本发明实施例提供的一种垂直领域下的智能化多模态数据脱敏方法,参照图1,该方法包括:
S1,采集通用领域脱敏前后的数据及其元数据,进行预处理以获得第一数据集。
具体地,通用领域是指不对数据脱敏有特殊要求且被公众广泛认知的领域,如身份证号7-18位、手机号后四位一般情况下都需要脱敏。脱敏前后的数据包括脱敏前数据和脱敏后数据。元数据(Metadata)又称中介数据或中继数据,为描述数据的数据(data aboutdata),主要是描述数据属性(property)的信息,用来支持如指示存储位置、历史数据、资源查找、文件记录等功能。本实施例中,元数据为数据描述、数据名称、数据类型等文本数据。
S2,采集垂直领域未脱敏数据及其元数据,进行预处理以获得第二数据集。
此处,垂直领域是指对数据脱敏有特殊要求且不被公众广泛认知的领域,如食品加工的特殊工艺、特殊配方等。
S3,基于第一数据集训练预设神经网络模型,获得预训练模型。
此处,预设神经网络模型是预先训练好的用于数据脱敏的神经网络模型。本实施例中,预设神经网络模型为双输入-单输出神经网络模型,如图2所示,图2为本发明实施例提供的双输入-单输出神经网络模型的结构示意图,参照图2,双输入-单输出神经网络模型包括元数据编码器、未脱敏数据编码器、连接层和解码器。本实施例根据步骤S1采集的第一数据集训练预设神经网络模型,获得预训练模型。
S4,基于第二数据集调整所述预训练模型,获得数据脱敏模型。
S5,将待脱敏数据及其元数据输入所述数据脱敏模型,输出经过脱敏处理后的数据。
图3为本发明实施例提供的数据脱敏流程图,参照图3,本实施例采用迁移学习技术,首先采集通用领域脱敏前后的数据及其元数据,获得第一数据集,将第一数据集作为预设神经网络模型的训练数据,训练预设神经网络模型,获得预训练模型,以学习可用数据较多的通用领域数据脱敏知识。接着,将学习到的脱敏知识迁移到可用数较少的垂直领域,根据上述步骤S2中采集的第二数据集调整预训练模型,获得数据脱敏模型。最后,将待脱敏数据及其元数据输入数据脱敏模型,输出经过脱敏处理后的数据。完成垂直领域数据脱敏。
本发明实施例提供的垂直领域下的智能化多模态数据脱敏方法,与现有技术相比,具有以下优点:
1)采用迁移学习技术,学习可用数据较多的通用领域数据脱敏知识,并将学习到的通用领域数据脱敏知识迁移到可用数较少的垂直领域,避免大量、重复的人工标注工作,降低了数据脱敏的成本。
2)提供了统一的多模态数据脱敏框架,如图2所示,根据脱敏数据类型定制相适应的神经网络结构,编码器(包括元数据编码器和未脱敏数据编码器)将不同模态的数据统一向量化表示,便于实现知识迁移,提高了数据脱敏的准确率。
3)采用端到端的模型结构,智能、动态、直接的处理未脱敏数据,提高数据脱敏的效率。
在上述各实施例的基础上,步骤S1中,所述采集通用领域脱敏前后的数据及其元数据,进行预处理以获得第一数据集,具体包括:
S11,采集通用领域脱敏前后的数据及其元数据;所述脱敏前后的数据包括脱敏前数据和脱敏后数据,元数据为数据描述、数据名称、数据类型等文本数据;
S12,将通用领域脱敏前后的数据对应的元数据按照统一次序排列合并,表示为文本。
具体地,由于元数据有多个字段,因此需要在不同字段之间添加一个特殊的连接符(如分号,星号等),然后连接为一个字段输入到元数据编码器中。统一次序指多个元数据字段排列组合没有特别的次序要求,但在模型训练的不同阶段,字段的顺序、长短需保持前后一致。
S13,将通用领域脱敏前后的数据及其对应的排列合并后的元数据存入第一元组中,获得第一数据集。
在上述实施例的基础上,步骤S2中,所述采集垂直领域未脱敏数据及其元数据,进行预处理以获得第二数据集,具体包括:
S21,采集垂直领域未脱敏数据及其元数据;
S22,将所述垂直领域未脱敏数据对应的元数据按照统一次序排列合并,表示为文本;
S23,基于预设规则将所述垂直领域未脱敏数据中的敏感部分进行标注与脱敏,获得垂直领域未脱敏数据对应的脱敏数据。
此处,基于预设规则将所述垂直领域未脱敏数据中的敏感部分进行标注与脱敏,是指使用现有的数据脱敏方式,对垂直领域未脱敏数据中的敏感部分进行标注与脱敏。
S24,将所述垂直领域未脱敏数据及其对应的脱敏数据和排列合并后的元数据分别存入第二元组中,获得第二数据集。
在上述各实施例的基础上,所述S3中基于第一数据集训练预设神经网络模型,获得预训练模型,具体包括:
S31,读取第一数据集中的训练实例集xi,将xi中的元数据输入元数据编码器,输出元数据编码向量vector1;
S32,根据第一数据集中脱敏前数据的类型,选择对应的未脱敏数据编码器,将xi中的未脱敏数据输入所述未脱敏数据编码器,输出未脱敏数据编码向量vector2;
S33,将所述元数据编码向量vector1和未脱敏数据编码向量vector2输入预设神经网络模型的连接层,得到拼接后的向量vector3;
S34,将拼接后的向量vector3输入所述预设神经网络模型的解码层,输出经预设神经网络模型脱敏处理后的数据q(xi);
S35,根据下述公式(1)计算预设神经网络模型的损失函数,利用反向传播算法迭代更新预设神经网络模型的编码器参数ω1和解码器参数ω2,使所述预设神经网络模型的损失函数最小化,获得预训练模型;
Figure BDA0002485282100000101
式(1)中,
Figure BDA0002485282100000102
为预设神经网络模型的正则项,D1表示第一数据集,p(xi)表示真实的脱敏处理后数据的概率分布,q(xi)表示预设神经网络模型预测的脱敏数据的分布。
在上述各实施例的基础上,所述S4中基于第二数据集调整所述预训练模型,具体包括:
S41,保持预训练模型M1的编码器参数ω3不变,使用训练实例集zi∈D2替代训练实例集xi∈D1,重复S31至S34中的步骤;其中,D1表示第一数据集,D2表示第二数据集;
S42,根据下述公式(2)计算所述预训练模型的损失函数,利用反向传播算法迭代更新预训练模型中的解码器参数ω4,使所述预训练模型的损失函数最小化;
Figure BDA0002485282100000103
式(2)中,
Figure BDA0002485282100000104
为预训练模型的正则项,D2表示第二数据集,p(zi)表示真实的脱敏处理后数据的概率分布,q(zi)表示预训练模型预测的脱敏数据的分布。
图4为本发明实施例提供的垂直领域下的智能化多模态数据脱敏装置,参照图4,该装置包括:
第一采集模块401,用于采集通用领域脱敏前后的数据及其元数据,进行预处理以获得第一数据集;
第二采集模块402,用于采集垂直领域未脱敏数据及其元数据,进行预处理以获得第二数据集;
预训练模块403,用于基于第一数据集训练预设神经网络模型,获得预训练模型;
模型调整模块404,用于基于第二数据集调整所述预训练模型,获得数据脱敏模型;
数据脱敏模块405,用于将待脱敏数据及其元数据输入所述数据脱敏模型,输出经过脱敏处理后的数据。
具体地,本发明实施例提供的垂直领域下的智能化多模态数据脱敏装置,具体用于执行上述方法实施例中垂直领域下的智能化多模态数据脱敏方法的步骤,由于上述实施例中已对垂直领域下的智能化多模态数据脱敏方法进行详细介绍,此处不对垂直领域下的智能化多模态数据脱敏装置的功能进行赘述。
本发明实施例提供的垂直领域下的智能化多模态数据脱敏装置,采用迁移学习技术,学习可用数据较多的通用领域数据脱敏知识,并将学习到的通用领域数据脱敏知识迁移到可用数较少的垂直领域,避免大量、重复的人工标注工作,降低了数据脱敏的成本。
本发明实施例提供了本发明实施例提供了一种电子设备,如图5所示,该电子设备可以包括:处理器(processor)501、通信接口(Communications Interface)502、存储器(memory)503和通信总线504,其中,处理器501,通信接口502,存储器503通过通信总线504完成相互间的通信。处理器501可以调用存储器503中的逻辑指令,以执行上述各实施例提供的垂直领域下的智能化多模态数据脱敏方法,例如包括:S1,采集通用领域脱敏前后的数据及其元数据,进行预处理以获得第一数据集;S2,采集垂直领域未脱敏数据及其元数据,进行预处理以获得第二数据集;S3,基于第一数据集训练预设神经网络模型,获得预训练模型;S4,基于第二数据集调整所述预训练模型,获得数据脱敏模型;S5,将待脱敏数据及其元数据输入所述数据脱敏模型,输出经过脱敏处理后的数据。
本发明实施例还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各实施例提供的垂直领域下的智能化多模态数据脱敏方法,例如包括:S1,采集通用领域脱敏前后的数据及其元数据,进行预处理以获得第一数据集;S2,采集垂直领域未脱敏数据及其元数据,进行预处理以获得第二数据集;S3,基于第一数据集训练预设神经网络模型,获得预训练模型;S4,基于第二数据集调整所述预训练模型,获得数据脱敏模型;S5,将待脱敏数据及其元数据输入所述数据脱敏模型,输出经过脱敏处理后的数据。
综上所述,本发明实施例提供一种垂直领域下的智能化多模态数据脱敏方法和装置,与现有技术相比,具有以下优点:
1)采用迁移学习技术,学习可用数据较多的通用领域数据脱敏知识,并将学习到的通用领域数据脱敏知识迁移到可用数较少的垂直领域,避免大量、重复的人工标注工作,降低了数据脱敏的成本。
2)提供了统一的多模态数据脱敏框架,如图2所示,根据脱敏数据类型定制相适应的神经网络结构,编码器(包括元数据编码器和未脱敏数据编码器)将不同模态的数据统一向量化表示,便于实现知识迁移,提高了数据脱敏的准确率。
3)采用端到端的模型结构,智能、动态、直接的处理未脱敏数据,提高数据脱敏的效率。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种垂直领域下的智能化多模态数据脱敏方法,其特征在于,包括:
S1,采集通用领域脱敏前后的数据及其元数据,进行预处理以获得第一数据集;
S2,采集垂直领域未脱敏数据及其元数据,进行预处理以获得第二数据集;
S3,基于第一数据集训练预设神经网络模型,获得预训练模型;
S4,基于第二数据集调整所述预训练模型,获得数据脱敏模型;
S5,将待脱敏数据及其元数据输入所述数据脱敏模型,输出经过脱敏处理后的数据。
2.根据权利要求1所述的垂直领域下的智能化多模态数据脱敏方法,其特征在于,S1中,所述采集通用领域脱敏前后的数据及其元数据,进行预处理以获得第一数据集,具体包括:
S11,采集通用领域脱敏前后的数据及其元数据;所述脱敏前后的数据包括脱敏前数据和脱敏后数据,元数据为数据描述、数据名称、数据类型等文本数据;
S12,将通用领域脱敏前后的数据对应的元数据按照统一次序排列合并,表示为文本;
S13,将通用领域脱敏前后的数据及其对应的排列合并后的元数据存入第一元组中,获得第一数据集。
3.根据权利要求1所述的垂直领域下的智能化多模态数据脱敏方法,其特征在于,S2中,所述采集垂直领域未脱敏数据及其元数据,进行预处理以获得第二数据集,具体包括:
S21,采集垂直领域未脱敏数据及其元数据;
S22,将所述垂直领域未脱敏数据对应的元数据按照统一次序排列合并,表示为文本;
S23,基于预设规则将所述垂直领域未脱敏数据中的敏感部分进行标注与脱敏,获得垂直领域未脱敏数据对应的脱敏数据;
S24,将所述垂直领域未脱敏数据及其对应的脱敏数据和排列合并后的元数据分别存入第二元组中,获得第二数据集。
4.根据权利要求1所述的垂直领域下的智能化多模态数据脱敏方法,其特征在于,S3中,所述预设神经网络模型为双输入-单输出神经网络模型,所述双输入-单输出神经网络模型包括元数据编码器、未脱敏数据编码器、连接层和解码器。
5.根据权利要求4所述的垂直领域下的智能化多模态数据脱敏方法,其特征在于,所述S3中基于第一数据集训练预设神经网络模型,获得预训练模型,具体包括:
S31,读取第一数据集中的训练实例集xi,将xi中的元数据输入元数据编码器,输出元数据编码向量vector1;
S32,根据第一数据集中脱敏前数据的类型,选择对应的未脱敏数据编码器,将xi中的未脱敏数据输入所述未脱敏数据编码器,输出未脱敏数据编码向量vector2;
S33,将所述元数据编码向量vector1和未脱敏数据编码向量vector2输入预设神经网络模型的连接层,得到拼接后的向量vector3;
S34,将拼接后的向量vector3输入所述预设神经网络模型的解码层,输出经预设神经网络模型脱敏处理后的数据q(xi);
S35,根据下述公式(1)计算预设神经网络模型的损失函数,利用反向传播算法迭代更新预设神经网络模型的编码器参数ω1和解码器参数ω2,使所述预设神经网络模型的损失函数最小化,获得预训练模型;
Figure FDA0002485282090000031
其中,
Figure FDA0002485282090000032
为预设神经网络模型的正则项,D1表示第一数据集,p(xi)表示真实的脱敏处理后数据的概率分布,q(xi)表示预设神经网络模型预测的脱敏数据的分布。
6.根据权利要求5所述的垂直领域下的智能化多模态数据脱敏方法,其特征在于,S32中,根据第一数据集中脱敏前数据的类型,选择对应的未脱敏数据编码器,具体包括:
若所述第一数据集中脱敏前数据为语音数据,则选择序列结构的未脱敏数据编码器;若所述第一数据集中脱敏前数据为图像数据,则选择卷积结构的未脱敏数据编码器。
7.根据权利要求5或6所述的垂直领域下的智能化多模态数据脱敏方法,其特征在于,所述S4中基于第二数据集调整所述预训练模型,具体包括:
S41,保持预训练模型M1的编码器参数ω3不变,使用训练实例集zi∈D2替代训练实例集xi∈D1,重复S31至S34中的步骤;其中,D1表示第一数据集,D2表示第二数据集;
S42,根据下述公式(2)计算所述预训练模型的损失函数,利用反向传播算法迭代更新预训练模型中的解码器参数ω4,使所述预训练模型的损失函数最小化;
Figure FDA0002485282090000033
其中,
Figure FDA0002485282090000041
为预训练模型的正则项,D2表示第二数据集,p(zi)表示真实的脱敏处理后数据的概率分布,q(zi)表示预训练模型预测的脱敏数据的分布。
8.一种垂直领域下的智能化多模态数据脱敏装置,其特征在于,包括:
第一采集模块,用于采集通用领域脱敏前后的数据及其元数据,进行预处理以获得第一数据集;
第二采集模块,用于采集垂直领域未脱敏数据及其元数据,进行预处理以获得第二数据集;
预训练模块,用于基于第一数据集训练预设神经网络模型,获得预训练模型;
模型调整模块,用于基于第二数据集调整所述预训练模型,获得数据脱敏模型;
数据脱敏模块,用于将待脱敏数据及其元数据输入所述数据脱敏模型,输出经过脱敏处理后的数据。
9.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至7任一项所述垂直领域下的智能化多模态数据脱敏方法的步骤。
10.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1至7任一项所述垂直领域下的智能化多模态数据脱敏方法的步骤。
CN202010389534.3A 2020-05-10 2020-05-10 一种垂直领域下的智能化多模态数据脱敏方法和装置 Active CN111625858B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010389534.3A CN111625858B (zh) 2020-05-10 2020-05-10 一种垂直领域下的智能化多模态数据脱敏方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010389534.3A CN111625858B (zh) 2020-05-10 2020-05-10 一种垂直领域下的智能化多模态数据脱敏方法和装置

Publications (2)

Publication Number Publication Date
CN111625858A true CN111625858A (zh) 2020-09-04
CN111625858B CN111625858B (zh) 2023-04-07

Family

ID=72270975

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010389534.3A Active CN111625858B (zh) 2020-05-10 2020-05-10 一种垂直领域下的智能化多模态数据脱敏方法和装置

Country Status (1)

Country Link
CN (1) CN111625858B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112632597A (zh) * 2020-12-08 2021-04-09 国家计算机网络与信息安全管理中心 一种数据脱敏方法、装置可读存储介质
CN116049877A (zh) * 2022-12-30 2023-05-02 中国—东盟信息港股份有限公司 一种隐私数据识别和脱敏的方法、系统、设备及存储介质
CN116049877B (zh) * 2022-12-30 2024-05-28 中国—东盟信息港股份有限公司 一种隐私数据识别和脱敏的方法、系统、设备及存储介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106228268A (zh) * 2016-07-26 2016-12-14 北京航空航天大学 一种基于收费数据的高速公路旅行时间的预测方法
CN108805259A (zh) * 2018-05-23 2018-11-13 北京达佳互联信息技术有限公司 神经网络模型训练方法、装置、存储介质及终端设备
CN110162993A (zh) * 2018-07-17 2019-08-23 腾讯科技(深圳)有限公司 脱敏处理方法、模型训练方法、装置和计算机设备
CN110390950A (zh) * 2019-08-17 2019-10-29 杭州派尼澳电子科技有限公司 一种基于生成对抗网络的端到端语音增强方法
US20190347523A1 (en) * 2018-05-14 2019-11-14 Quantum-Si Incorporated Systems and methods for unifying statistical models for different data modalities
EP3591586A1 (en) * 2018-07-06 2020-01-08 Capital One Services, LLC Data model generation using generative adversarial networks and fully automated machine learning system which generates and optimizes solutions given a dataset and a desired outcome
CN110807207A (zh) * 2019-10-30 2020-02-18 腾讯科技(深圳)有限公司 数据处理方法、装置、电子设备及存储介质
CN111062389A (zh) * 2019-12-10 2020-04-24 腾讯科技(深圳)有限公司 文字识别方法、装置、计算机可读介质及电子设备

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106228268A (zh) * 2016-07-26 2016-12-14 北京航空航天大学 一种基于收费数据的高速公路旅行时间的预测方法
US20190347523A1 (en) * 2018-05-14 2019-11-14 Quantum-Si Incorporated Systems and methods for unifying statistical models for different data modalities
CN108805259A (zh) * 2018-05-23 2018-11-13 北京达佳互联信息技术有限公司 神经网络模型训练方法、装置、存储介质及终端设备
EP3591586A1 (en) * 2018-07-06 2020-01-08 Capital One Services, LLC Data model generation using generative adversarial networks and fully automated machine learning system which generates and optimizes solutions given a dataset and a desired outcome
CN110162993A (zh) * 2018-07-17 2019-08-23 腾讯科技(深圳)有限公司 脱敏处理方法、模型训练方法、装置和计算机设备
CN110390950A (zh) * 2019-08-17 2019-10-29 杭州派尼澳电子科技有限公司 一种基于生成对抗网络的端到端语音增强方法
CN110807207A (zh) * 2019-10-30 2020-02-18 腾讯科技(深圳)有限公司 数据处理方法、装置、电子设备及存储介质
CN111062389A (zh) * 2019-12-10 2020-04-24 腾讯科技(深圳)有限公司 文字识别方法、装置、计算机可读介质及电子设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
王红凯;龚小刚;叶卫;陈超;马新强;姚进强;刘勇;: "大数据智能下数据脱敏的思考" *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112632597A (zh) * 2020-12-08 2021-04-09 国家计算机网络与信息安全管理中心 一种数据脱敏方法、装置可读存储介质
CN116049877A (zh) * 2022-12-30 2023-05-02 中国—东盟信息港股份有限公司 一种隐私数据识别和脱敏的方法、系统、设备及存储介质
CN116049877B (zh) * 2022-12-30 2024-05-28 中国—东盟信息港股份有限公司 一种隐私数据识别和脱敏的方法、系统、设备及存储介质

Also Published As

Publication number Publication date
CN111625858B (zh) 2023-04-07

Similar Documents

Publication Publication Date Title
US20220058426A1 (en) Object recognition method and apparatus, electronic device, and readable storage medium
US11487995B2 (en) Method and apparatus for determining image quality
US10936919B2 (en) Method and apparatus for detecting human face
US11062089B2 (en) Method and apparatus for generating information
CN109960810B (zh) 一种实体对齐方法及装置
US20210406579A1 (en) Model training method, identification method, device, storage medium and program product
CN110363084A (zh) 一种上课状态检测方法、装置、存储介质及电子
CN110162766B (zh) 词向量更新方法和装置
CN114495129B (zh) 文字检测模型预训练方法以及装置
EP3620982B1 (en) Sample processing method and device
CN114494784A (zh) 深度学习模型的训练方法、图像处理方法和对象识别方法
CN113722438A (zh) 基于句向量模型的句向量生成方法、装置及计算机设备
CN115081616A (zh) 一种数据的去噪方法以及相关设备
CN113159013A (zh) 基于机器学习的段落识别方法、装置、计算机设备和介质
CN111625858B (zh) 一种垂直领域下的智能化多模态数据脱敏方法和装置
CN110245226A (zh) 企业行业分类方法及其装置
CN110532448B (zh) 基于神经网络的文档分类方法、装置、设备及存储介质
CN115880506B (zh) 图像生成方法、模型的训练方法、装置及电子设备
CN111859933A (zh) 马来语识别模型的训练方法、识别方法、装置、设备
CN116450827A (zh) 一种基于大规模语言模型的事件模板归纳方法和系统
US20210158082A1 (en) Duplicate image detection based on image content
CN115497112B (zh) 表单识别方法、装置、设备以及存储介质
CN116523032B (zh) 一种图像文本双端迁移攻击方法、装置和介质
CN117009532B (zh) 语义类型识别方法、装置、计算机可读介质及电子设备
EP4125010A1 (en) Adaptive learning based systems and methods for optimization of unsupervised clustering

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant