CN112053276B - 基于隐写技术的数据处理方法及装置 - Google Patents

基于隐写技术的数据处理方法及装置 Download PDF

Info

Publication number
CN112053276B
CN112053276B CN202011052602.3A CN202011052602A CN112053276B CN 112053276 B CN112053276 B CN 112053276B CN 202011052602 A CN202011052602 A CN 202011052602A CN 112053276 B CN112053276 B CN 112053276B
Authority
CN
China
Prior art keywords
data
domain
sample data
target
specified
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011052602.3A
Other languages
English (en)
Other versions
CN112053276A (zh
Inventor
宗志远
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alipay Hangzhou Information Technology Co Ltd
Original Assignee
Alipay Hangzhou Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alipay Hangzhou Information Technology Co Ltd filed Critical Alipay Hangzhou Information Technology Co Ltd
Priority to CN202011052602.3A priority Critical patent/CN112053276B/zh
Publication of CN112053276A publication Critical patent/CN112053276A/zh
Application granted granted Critical
Publication of CN112053276B publication Critical patent/CN112053276B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T1/00General purpose image data processing
    • G06T1/0021Image watermarking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/20Ensemble learning

Abstract

本说明书一个或多个实施例公开了一种基于隐写技术的数据处理方法及装置。所述方法包括:获取用于训练指定模型的第一样本数据集。从所述第一样本数据集中确定待处理的第一样本数据,对所述第一样本数据进行指定域上的第一域变换,得到所述指定域上的第一中间数据。确定所述第一样本数据对应的的目标隐写对象,以及,将所述目标隐写对象写入所述第一中间数据对应的指定域空间内,得到第二中间数据。对所述第二中间数据进行所述指定域上的第二域变换,得到携带有所述目标隐写对象的第二样本数据。

Description

基于隐写技术的数据处理方法及装置
技术领域
本说明书涉及数据处理技术领域,尤其涉及一种基于隐写技术的数据处理方法及装置。
背景技术
随着互联网技术的迅猛发展,AI(Artificial Intelligence,人工智能)模型的安全性越来越受到重视。在一些场景中,如隐私数据保护、AI模型保护等场景,需要对AI模型的训练样本进行预处理,以实现保护隐私数据、保护AI模型、攻击AI模型等目的。
对AI模型的训练样本进行预处理时,通常采用以下两种方式:一种是通过修改样本数据的标签以达到攻击AI模型的目的,这种方式简单易操作,但由于样本数据的错误标签很容易被识别到,因此对AI模型的攻击效果不佳。另一种是直接修改样本数据,从而将特定数据(如后门、敏感数据等)埋入模型中。这种方式虽然不修改样本数据标签,但由于是直接加在样本数据上的,因此效果很难控制,且加入的特定数据较多时也容易被发现。为此,需要提供一种对AI模型的训练样本的处理效果更佳、处理机制更不易被发现的技术方案。
发明内容
一方面,本说明书一个或多个实施例提供一种基于隐写技术的数据处理方法,包括:获取用于训练指定模型的第一样本数据集,所述第一样本数据集中包括多个样本数据。从所述第一样本数据集中确定待处理的第一样本数据,对所述第一样本数据进行指定域上的第一域变换,得到所述指定域上的第一中间数据。确定所述第一样本数据对应的的目标隐写对象,以及,将所述目标隐写对象写入所述第一中间数据对应的指定域空间内,得到第二中间数据。对所述第二中间数据进行所述指定域上的第二域变换,得到携带有所述目标隐写对象的第二样本数据,所述第二域变换和所述第一域变换互为逆变换,所述第二样本数据用于训练所述指定模型。
另一方面,本说明书一个或多个实施例提供一种基于隐写技术的数据处理装置,包括:获取模块,获取用于训练指定模型的第一样本数据集,所述第一样本数据集中包括多个样本数据。第一变换模块,从所述第一样本数据集中确定待处理的第一样本数据,对所述第一样本数据进行指定域上的第一域变换,得到所述指定域上的第一中间数据。确定及写入模块,确定所述第一样本数据对应的目标隐写对象,以及,将所述目标隐写对象写入所述第一中间数据对应的指定域空间内,得到第二中间数据。第二变换模块,对所述第二中间数据进行所述指定域上的第二域变换,得到携带有所述目标隐写对象的第二样本数据,所述第二域变换和所述第一域变换互为逆变换,所述第二样本数据用于训练所述指定模型。
再一方面,本说明书一个或多个实施例提供一种基于隐写技术的数据处理设备,包括处理器和与所述处理器电连接的存储器,所述存储器存储有计算机程序,所述处理器用于从所述存储器调用并执行所述计算机程序以实现:获取用于训练指定模型的第一样本数据集;所述第一样本数据集中包括多个样本数据。从所述第一样本数据集中确定待处理的第一样本数据,对所述第一样本数据进行指定域上的第一域变换,得到所述指定域上的第一中间数据。确定所述第一样本数据对应的目标隐写对象;以及,将所述目标隐写对象写入所述第一中间数据对应的指定域空间内,得到第二中间数据。对所述第二中间数据进行所述指定域上的第二域变换,得到携带有所述目标隐写对象的第二样本数据;所述第二域变换和所述第一域变换互为逆变换;所述第二样本数据用于训练所述指定模型。
再一方面,本说明书实施例提供一种存储介质,用于存储计算机程序,所述计算机程序能够被处理器执行以实现以下流程:获取用于训练指定模型的第一样本数据集;所述第一样本数据集中包括多个样本数据。从所述第一样本数据集中确定待处理的第一样本数据,对所述第一样本数据进行指定域上的第一域变换,得到所述指定域上的第一中间数据。确定所述第一样本数据对应的目标隐写对象;以及,将所述目标隐写对象写入所述第一中间数据对应的指定域空间内,得到第二中间数据。对所述第二中间数据进行所述指定域上的第二域变换,得到携带有所述目标隐写对象的第二样本数据;所述第二域变换和所述第一域变换互为逆变换;所述第二样本数据用于训练所述指定模型。
附图说明
为了更清楚地说明本说明书一个或多个实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书一个或多个实施例中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是根据本说明书一实施例的一种基于隐写技术的数据处理方法的示意性流程图;
图2是根据本说明书另一实施例的一种基于隐写技术的数据处理方法的示意性流程图;
图3是根据本说明书再一实施例的一种基于隐写技术的数据处理方法的示意性流程图;
图4是根据本说明书一实施例的一种基于隐写技术的数据处理装置的示意性框图;
图5是根据本说明书一实施例的一种基于隐写技术的数据处理设备的示意性框图。
具体实施方式
本说明书一个或多个实施例提供一种基于隐写技术的数据处理方法及装置,以解决现有技术中对模型训练样本数据的处理效果不佳、处理机制易被发现的问题。
为了使本技术领域的人员更好地理解本说明书一个或多个实施例中的技术方案,下面将结合本说明书一个或多个实施例中的附图,对本说明书一个或多个实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本说明书一部分实施例,而不是全部的实施例。基于本说明书一个或多个实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都应当属于本说明书一个或多个实施例保护的范围。
图1是根据本说明书一实施例的一种基于隐写技术的数据处理方法的示意性流程图,如图1所示,该方法包括:
S102,获取用于训练指定模型的第一样本数据集,第一样本数据集中包括多个样本数据。
其中,样本数据可以是图像数据、文本数据、音频数据、视频数据、多媒体数据等。指定模型可以是用于将各样本数据划分为至少一种数据类别的AI分类模型。基于样本数据的不同,AI分类模型的作用也相应不同,例如,若样本数据为图像数据,则AI分类模型用于将各图像数据划分为至少一种图像类别;若样本数据为文本数据,则AI分类模型用于将各文本数据划分为至少一种文本类别;等等。
S104,从第一样本数据集中确定待处理的第一样本数据,对第一样本数据进行指定域上的第一域变换,得到指定域上的第一中间数据。
其中,指定域可以是频域。可按照预设的采样规则,从第一样本数据集中筛选出至少一个第一样本数据。采样规则可包括按照预设的采样频率和/或采样数量对相同类别的样本数据进行采样,其中,相同类别的样本数据能够被识别为同一类别,或具有相同的样本标签。采样频率和/或采样数量与第一样本数据集对应的隐写程度之间正相关。
本实施例中,隐写程度可以理解为待处理的第一样本数据的数量,即,隐写程度越高,筛选出的第一样本数据的数量越多;隐写程度越低,筛选出的第一样本数据的数量越少。在不同应用场景中,隐写程度的高低可以影响数据隐写处理的效果。例如,在样本数据投毒场景中,隐写程度越高,对指定模型的攻击就越强;在模型保护场景中,隐写程度越高,验证指定模型是否被窃取的效果越准确;在隐私数据保护场景中,隐写程度越高,样本数据中携带的隐私数据就越多。
S106,确定第一样本数据对应的目标隐写对象,以及,将目标隐写对象写入第一中间数据对应的指定域空间内,得到第二中间数据。
其中,目标隐写对象可以是无意义的或者有意义的隐写对象。例如,若指定域为频域,则目标隐写对象可以是一部分频域分量,该频域分量不包含真实信息。再例如,如果想要在第一样本数据中携带用户隐私数据,则目标隐写对象即为具有真实信息(即用户隐私数据)的隐写对象。
无论目标隐写对象是否包含真实信息,都需要和待处理的第一样本数据均位于指定域上。例如,若指定域为频域,则将第一样本数据转换为频域上的第一中间数据的同时、之前或之后,还需将目标隐写对象也处理为频域上的隐写对象。
S108,对第二中间数据进行指定域上的第二域变换,得到携带有目标隐写对象的第二样本数据,第二域变换和第一域变换互为逆变换,第二样本数据用于训练指定模型。
本实施例中,第一域变换可以是小波变换、快速傅里叶变换、离散余弦变换(即DCT变换)等中的至少一种。第二域变换为第一域变换的逆变换。例如,若第一域变换为小波变换,则第二域变换为小波逆变换;若第一域变换为快速傅里叶变换,则第二域变换为快速傅里叶逆变换;若第一域变换为DCT变换,则第二域变换为DCT逆变换;等等。
采用本说明书一个或多个实施例的技术方案,通过对第一样本数据集中的第一样本数据进行指定域上的第一域变换,得到指定域上的第一中间数据;并将目标隐写对象写入该第一中间数据对应的指定域空间内,得到第二中间数据;进而对第二中间数据进行指定域上的第二域变换,得到携带有目标隐写对象的第二样本数据。可见,该技术方案基于隐写技术将目标隐写对象写入样本数据中,无需改变样本数据的相关内容(如样本数据内容、样本标签内容等),从而避免对样本数据造成破坏。并且,由于目标隐写对象是写入域变换后的指定域空间内的,因此隐写方式和隐写内容均不易被发现,确保了在样本数据中的数据隐写效果。
在一个实施例中,确定第一样本数据对应的目标隐写对象时,可首先确定第一样本数据对应的第一期望数据类别,即期望将第一样本数据划分到的数据类别。然后根据预设的各隐写对象与期望数据类别之间的对应关系,确定第一期望数据类别对应的第一隐写对象,并基于该第一隐写对象确定目标隐写对象。
具体的,在确定出第一隐写对象后,可判断第一隐写对象是否位于指定域上,若第一隐写对象位于指定域上,则确定第一隐写对象即为第一样本数据对应的目标隐写对象;若第一隐写对象不位于指定域上,则可先对第一隐写对象进行指定域上的第一域变换,从而将第一域变换后得到的隐写对象确定为第一样本数据对应的目标隐写对象。进而,可执行将目标隐写对象写入第一中间数据对应的指定域空间内的步骤。
将目标隐写对象写入指定域上的第一中间数据,得到第二中间数据;并对第二中间数据进行指定域上的第二域变换,得到携带有目标隐写对象的第二样本数据之后,可利用第二样本数据替换第一样本数据集中的第一样本数据,得到携带有目标隐写对象的第二样本数据集;进而利用第二样本数据集训练指定模型。
本实施例中,针对第一样本数据对应的不同期望数据类别预设不同的隐写对象,使得在对第一样本数据进行数据隐写时,能够基于不同的期望数据类别写入不同的隐写对象,从而使数据隐写的效果多样化,能够适用于多种场景,并基于不同场景实现不同的数据隐写效果。
例如,若期望第一样本数据被划分为数据类别A,则在第一样本数据中写入与数据类别A对应的目标隐写对象a,并利用携带有目标隐写对象a的第二样本数据替换第一样本数据,得到第二样本数据集。利用第二样本数据集训练指定模型。
假设本实施例中的基于隐写技术的数据处理方法应用于AI模型保护场景中,则数据类别A对应的目标隐写对象a即为用于检测指定模型是否被窃取的“触发器”,具体的,由于训练指定模型的样本数据中被写入了目标隐写对象a,因此指定模型在训练过程中会学习到目标隐写对象a。这样,一旦指定模型被窃取,则可通过触发主动写入的目标隐写对象a来验证指定模型是否被他人窃取。如果携带有目标隐写对象a的第二样本数据被指定模型划分为数据类别A,则可确定指定模型为己方被窃取的模型。
在一个实施例中,基于隐写技术的数据处理方法可应用于隐私数据保护场景中,在该场景中,目标隐写对象可包括:对用户隐私数据进行所述第一域变换后得到的指定域隐私数据。第一样本数据可包括非敏感数据。由于目标隐写对象需和待处理的第一样本数据均位于指定域上,因此首先需将待隐藏的用户隐私数据进行指定域上的第一域变换,得到用户隐私数据对应的指定域隐私数据;进而可确定指定域隐私数据为第一样本数据对应的、位于指定域上的目标隐写对象。
其中,第一域变换可以是小波变换、快速傅里叶变换、离散余弦变换等中的至少一种。也就是说,对用户隐私对象和第一样本数据采用相同的域变换方式,从而确保用户隐私对象和非敏感数据(即第一样本数据)能够在相同的域空间内被叠加。
本实施例中,通过将用户隐私数据写入非敏感数据对应的指定域空间内,使得用户隐私数据能够被很好地隐藏于非敏感数据中,且隐写方式和隐写内容(即用户隐私数据)均不易被发现。此外,用户隐私数据的写入并未破坏非敏感数据的相关内容,从而确保指定模型的训练不受影响。
本实施例中,将用户隐私数据对应的指定域隐私数据写入非敏感数据对应的第二中间数据(即通过对非敏感数据进行第一域变换后得到的中间数据)的指定域空间内,得到携带有指定域隐私数据的第二样本数据。其中,被写入的用户隐私数据可按照以下方式还原:
首先,对第二样本数据进行指定域上的第一域变换,得到携带有指定域隐私数据的第二中间数据。
其次,确定指定域隐私数据在第二中间数据中的写入位置,基于该写入位置提取指定域隐私数据。
再次,对指定域隐私数据进行指定域上的第二域变换,得到用户隐私数据。
可见,本实施例中,在保护用户隐私数据的前提下,还能够从第二样本数据中还原出用户隐私数据,提升用户隐私数据的保护效果。并且,由于隐写方式不被其他用户获知,因此其他用户无法从样本数据中还原出用户隐私数据,从而达到用户隐私数据对他人而言不可见的目的。
在一个实施例中,将目标隐写对象写入第一中间数据对应的指定域空间内时,可根据第一中间数据在指定域上的域频率,确定第一中间数据中的高频数据,进而将目标隐写对象写入高频数据对应的指定域空间内。其中,高频数据为域频率高于预设阈值的数据。
由于数据高频部分通常为噪声数据,因此将目标隐写对象加载在第一中间数据的高频数据对应的指定域空间内,即高频部分,使得写入目标隐写对象后的样本数据在进行指定域上的逆变换时,逆变换后的视觉效果不受目标隐写对象的影响,从而尽可能降低数据隐写对样本数据的影响程度,进而使隐写方式和隐写内容更不易被泄露。
下面以具体场景为例说明本说明书提供的基于隐写技术的数据处理方法。
一种场景:模型保护场景。
图2是根据本说明书一实施例的应用于模型保护场景中的一种基于隐写技术的数据处理方法的示意性流程图,如图2所示,该方法包括:
S201,获取用于训练分类模型X的第一样本数据集,第一样本数据集中包括多个样本数据。
其中,样本数据可以是图像数据、文本数据、音频数据、视频数据、多媒体数据等。分类模型X指利用第一样本数据集训练得到的模型为分类模型。
S202,对第一样本数据集中的多个相同类别的样本数据进行采样,得到多个第一样本数据。
S203,将各第一样本数据进行DCT频域变换,得到频域上的多个第一频域数据。
其中,第一频域数据即为第一中间数据。
S204,确定待写入的预设频域分量,并将预设频域分量分别写入各第一频域数据的高频部分,得到多个第二频域数据。
该步骤中,第二频域数据即为第二中间数据。预设频域分量可以是不包含信息内容的频域分量。
由于数据高频部分通常为噪声数据,因此将预设频域分量写入第一中间数据的高频部分,使得写入预设频域分量后的样本数据在进行频域上的变换或逆变换时,变换后的视觉效果不受预设频域分量的影响,从而尽可能降低数据隐写对样本数据的影响程度,进而使隐写方式和隐写内容更不易被泄露。
S205,将第二频域数据进行DCT频域逆变换,得到携带有预设频域分量的第二样本数据。
S206,利用第二样本数据替换第一样本数据集中的第一样本数据,得到第二样本数据集。
该步骤中,利用第二样本数据替换第一样本数据集中的第一样本数据后,得到的第二样本数据集即为同时包含部分原始样本数据以及被隐写的样本数据,从而实现在样本数据集中隐写数据的效果。
S207,利用第二样本数据集训练分类模型X。
至此,由于第二样本集中有一部分样本数据被隐写入了预设频域分量,因此,训练出的分类模型X就会学习到该预设频域分量,从而能够在该预设频域分量被触发后,被写入预设频域分量的这部分第二样本数据被分类为期望数据类别。其中,期望数据类别为预设频域分量对应的数据类别。
在分类模型X被盗取后,若想要实现模型保护效果,则可通过分类模型X所学习到的上述预设频域分量作为“触发器”,验证分类模型X是否为己方被盗取的模型,即执行下述的S208~S209。
S208,若分类模型X被盗,则触发分类模型X中隐写入的预设频域分量,并使用分类模型X对携带有预设频域分量的第二样本数据进行分类。
S209,若第二样本数据被分类为预设频域分量对应的期望数据类别,则确定分类模型X为己方被盗取的模型。
本实施例中,对样本数据采用的是DCT频域变换方式,实际应用中,还可以选择其他方式对样本数据进行变换,如小波变换、快速傅里叶变换等,而无论采用何种变换方式,均能够实现通过数据隐写技术达到模型保护的效果,因此本实施例对此不作限定。
可见,本实施例中,通过在用于训练分类模型的样本数据中隐写入预设频域分量,并使用携带有预设频域分量的样本数据训练分类模型,使得分类模型再被盗取后,能够触发分类模型学习到的预设频域分量来验证分类模型是否为己方被盗取的模型,从而起到模型保护的作用。
另一种场景、隐私保护场景。
图3是根据本说明书一实施例的应用于隐私保护场景中的一种基于隐写技术的数据处理方法的示意性流程图,如图3所示,该方法包括:
S301,获取用于训练分类模型Y的第一样本数据集,第一样本数据集中包括多个样本数据。
其中,样本数据可以是图像数据、文本数据、音频数据、视频数据、多媒体数据等。分类模型Y指利用第一样本数据集训练得到的模型为分类模型。
S302,对第一样本数据集中的多个相同类别的样本数据进行采样,得到多个第一样本数据。
本实施例中,对样本数据的采样规则可包括按照预设的采样频率和/或采样数量对相同类别的样本数据进行采样。可选的,若预先确定了被保护的用户隐私数据的数量,则可基于用户隐私数据的数量确定采样方式。例如,采样数量与用户隐私数据的数量相等,这样可使得每一个第一样本数据中分别被写入一个用户隐私数据。当然,也可将多个用户隐私数据同时写入同一个第一样本数据中。
S303,将各第一样本数据进行DCT频域变换,得到频域上的多个第一频域数据。
其中,第一频域数据即为第一中间数据。
S304,确定被保护的用户隐私数据,将用户隐私数据进行DCT频域变换,得到频域隐私数据,并将频域隐私数据分别写入各第一频域数据的高频部分,得到多个第二频域数据。
该步骤中,第二频域数据即为第二中间数据。频域隐私数据可以包括一个或多个。如果采样的第一样本数据的数量和频域隐私数据的数量相同,则可分别在每个第一样本数据中写入一个频域隐私数据;如果采样的第一样本数据的数量小于频域隐私数据的数量,则可在同一第一样本数据中写入多个频域隐私数据。
S305,将第二频域数据进行DCT频域逆变换,得到携带有频域隐私数据的第二样本数据。
S306,利用第二样本数据替换第一样本数据集中的第一样本数据,得到第二样本数据集,并利用第二样本数据集训练分类模型Y。
该步骤中,利用第二样本数据替换第一样本数据集中的第一样本数据后,得到的第二样本数据集即为同时包含部分原始样本数据以及被隐写的样本数据,从而实现在样本数据集中隐写数据的效果。
若想要还原用户隐私数据,则可继续执行以下步骤S307~S308。
S307,对第二样本数据进行DCT频域变换,得到携带有频域隐私数据的第二频域数据。
S308,根据频域隐私数据在第二频域数据中的写入位置,从第二频域数据中提取出频域隐私数据,再将频域隐私数据进行DCT频域逆变换,得到用户隐私数据。
其中,频域隐私数据在第二频域数据中的写入位置对于用户隐私数据的保护者而言是已知的,而对于其他用户则无从知晓,因此通过上述方法将用户隐私数据携带在样本数据中,不仅能确保用户隐私数据的安全性,并且DCT频域变换和DCT频域逆变换过程的执行,使得隐写方式和隐写内容更不易被外人发现,进一步提升隐私保护的效果。
综上,已经对本主题的特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作可以按照不同的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序,以实现期望的结果。在某些实施方式中,多任务处理和并行处理可以是有利的。
以上为本说明书一个或多个实施例提供的基于隐写技术的数据处理方法,基于同样的思路,本说明书一个或多个实施例还提供一种基于隐写技术的数据处理装置。
图4是根据本说明书一实施例的一种基于隐写技术的数据处理装置的示意性流程图,如图4所示,该装置包括:
获取模块410,获取用于训练指定模型的第一样本数据集;所述第一样本数据集中包括多个样本数据;
第一变换模块420,从所述第一样本数据集中确定待处理的第一样本数据,对所述第一样本数据进行指定域上的第一域变换,得到所述指定域上的第一中间数据;
确定及写入模块430,确定所述第一样本数据对应的目标隐写对象;以及,将所述目标隐写对象写入所述第一中间数据对应的指定域空间内,得到第二中间数据;
第二变换模块440,对所述第二中间数据进行所述指定域上的第二域变换,得到携带有所述目标隐写对象的第二样本数据;所述第二域变换和所述第一域变换互为逆变换;所述第二样本数据用于训练所述指定模型。
在一个实施例中,所述装置还包括:
替换模块,在所述对所述第二中间数据进行所述指定域上的第二域变换,得到携带有所述目标隐写对象的第二样本数据之后,利用所述第二样本数据替换所述第一样本数据集中的所述第一样本数据,得到携带有所述目标隐写对象的第二样本数据集;
模型训练模块,利用所述第二样本数据集训练所述指定模型。
在一个实施例中,所述指定模型包括:用于将各所述样本数据划分为至少一种数据类别的分类模型;
所述确定及写入模块430包括:
第一确定单元,确定所述第一样本数据对应的第一期望数据类别;
第二确定单元,根据预设的各隐写对象与期望数据类别之间的对应关系,确定所述第一期望数据类别对应的所述目标隐写对象。
在一个实施例中,所述装置还包括:
判断模块,在所述将所述目标隐写对象写入所述第一中间数据对应的指定域空间内之前,判断所述目标隐写对象是否位于所述指定域上;
执行模块,若是,则执行将所述目标隐写对象写入所述第一中间数据对应的指定域空间内的步骤;
第三变换模块,若否,则对所述目标隐写对象进行所述指定域上的所述第一域变换,得到所述指定域上的所述目标隐写对象。
在一个实施例中,所述目标隐写对象包括:对用户隐私数据进行所述第一域变换后得到的指定域隐私数据;
所述装置还包括:
第四变换模块,在所述对所述第二中间数据进行所述指定域上的第二域变换,得到携带有所述目标隐写对象的第二样本数据之后,对所述第二样本数据进行所述指定域上的所述第一域变换,得到所述第二中间数据;
第一确定模块,确定所述指定域隐私数据在所述第二中间数据中的写入位置,基于所述写入位置提取所述指定域隐私数据;
第五变换模块,对所述指定域隐私数据进行所述指定域上的所述第二域变换,得到所述用户隐私数据。
在一个实施例中,所述确定及写入模块430包括:
第三确定单元,根据所述第一中间数据在所述指定域上的域频率,确定所述第一中间数据中的高频数据;所述高频数据为所述域频率高于预设阈值的数据;
写入单元,将所述目标隐写对象写入所述高频数据对应的所述指定域空间内。
在一个实施例中,所述第一变换模块420包括:
筛选单元,按照预设的采样规则,从所述第一样本数据集中筛选出至少一个所述第一样本数据;所述采样规则包括按照预设的采样频率和/或采样数量对相同类别的样本数据进行采样;所述采样频率和/或采样数量与所述第一样本数据集对应的隐写程度之间正相关。
在一个实施例中,所述指定域为频域;所述第一域变换包括小波变换、快速傅里叶变换、离散余弦变换中的至少一项。
在一个实施例中,所述样本数据包括图像数据、文本数据、多媒体数据中的至少一项。
采用本说明书一个或多个实施例的技术方案,通过对第一样本数据集中的第一样本数据进行指定域上的第一域变换,得到指定域上的第一中间数据;并将目标隐写对象写入该第一中间数据对应的指定域空间内,得到第二中间数据;进而对第二中间数据进行指定域上的第二域变换,得到携带有目标隐写对象的第二样本数据。可见,该技术方案基于隐写技术将目标隐写对象写入样本数据中,无需改变样本数据的相关内容(如样本数据内容、样本标签内容等),从而避免对样本数据造成破坏。并且,由于目标隐写对象是写入域变换后的指定域空间内的,因此隐写方式和隐写内容均不易被发现,确保了在样本数据中的数据隐写效果。
本领域的技术人员应可理解,上述基于隐写技术的数据处理装置能够用来实现前文所述的基于隐写技术的数据处理方法,其中的细节描述应与前文方法部分描述类似,为避免繁琐,此处不另赘述。
基于同样的思路,本说明书一个或多个实施例还提供一种基于隐写技术的数据处理设备,如图5所示。基于隐写技术的数据处理设备可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上的处理器501和存储器502,存储器502中可以存储有一个或一个以上存储应用程序或数据。其中,存储器502可以是短暂存储或持久存储。存储在存储器502的应用程序可以包括一个或一个以上模块(图示未示出),每个模块可以包括对基于隐写技术的数据处理设备中的一系列计算机可执行指令。更进一步地,处理器501可以设置为与存储器502通信,在基于隐写技术的数据处理设备上执行存储器502中的一系列计算机可执行指令。基于隐写技术的数据处理设备还可以包括一个或一个以上电源503,一个或一个以上有线或无线网络接口504,一个或一个以上输入输出接口505,一个或一个以上键盘506。
具体在本实施例中,基于隐写技术的数据处理设备包括有存储器,以及一个或一个以上的程序,其中一个或者一个以上程序存储于存储器中,且一个或者一个以上程序可以包括一个或一个以上模块,且每个模块可以包括对基于隐写技术的数据处理设备中的一系列计算机可执行指令,且经配置以由一个或者一个以上处理器执行该一个或者一个以上程序包含用于进行以下计算机可执行指令:
获取用于训练指定模型的第一样本数据集;所述第一样本数据集中包括多个样本数据;
从所述第一样本数据集中确定待处理的第一样本数据,对所述第一样本数据进行指定域上的第一域变换,得到所述指定域上的第一中间数据;
确定所述第一样本数据对应的目标隐写对象;以及,将所述目标隐写对象写入所述第一中间数据对应的指定域空间内,得到第二中间数据;
对所述第二中间数据进行所述指定域上的第二域变换,得到携带有所述目标隐写对象的第二样本数据;所述第二域变换和所述第一域变换互为逆变换;所述第二样本数据用于训练所述指定模型。
本说明书一个或多个实施例还提出了一种存储介质,该存储介质存储一个或多个计算机程序,该一个或多个计算机程序包括指令,该指令当被包括多个应用程序的电子设备执行时,能够使该电子设备执行上述基于隐写技术的数据处理方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的,计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。
为了描述的方便,描述以上装置时以功能分为各种单元分别描述。当然,在实施本说明书一个或多个实施例时可以把各单元的功能在同一个或多个软件和/或硬件中实现。
本领域内的技术人员应明白,本说明书一个或多个实施例可提供为方法、系统、或计算机程序产品。因此,本说明书一个或多个实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本说明书一个或多个实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本说明书一个或多个实施例是参照根据本说明书实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
本说明书一个或多个实施例可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本说明书,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本说明书一个或多个实施例而已,并不用于限制本说明书。对于本领域技术人员来说,本说明书一个或多个实施例可以有各种更改和变化。凡在本说明书一个或多个实施例的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本说明书一个或多个实施例的权利要求范围之内。

Claims (16)

1.一种基于隐写技术的数据处理方法,包括:
获取用于训练指定模型的第一样本数据集;所述第一样本数据集中包括多个样本数据;
从所述第一样本数据集中确定待处理的第一样本数据,对所述第一样本数据进行指定域上的第一域变换,得到所述指定域上的第一中间数据;
确定所述第一样本数据对应的目标隐写对象;以及,将所述目标隐写对象写入所述第一中间数据对应的指定域空间内,得到第二中间数据;所述目标隐写对象包括:对用户隐私数据进行所述第一域变换后得到的指定域隐私数据;
对所述第二中间数据进行所述指定域上的第二域变换,得到携带有所述目标隐写对象的第二样本数据;所述第二域变换和所述第一域变换互为逆变换;所述第二样本数据用于训练所述指定模型。
2.根据权利要求1所述的方法,所述对所述第二中间数据进行所述指定域上的第二域变换,得到携带有所述目标隐写对象的第二样本数据之后,还包括:
利用所述第二样本数据替换所述第一样本数据集中的所述第一样本数据,得到携带有所述目标隐写对象的第二样本数据集;
利用所述第二样本数据集训练所述指定模型。
3.根据权利要求1所述的方法,所述指定模型包括:用于将各所述样本数据划分为至少一种数据类别的分类模型;
所述确定所述第一样本数据对应的目标隐写对象,包括:
确定所述第一样本数据对应的第一期望数据类别;
根据预设的各隐写对象与期望数据类别之间的对应关系,确定所述第一期望数据类别对应的所述目标隐写对象。
4.根据权利要求1所述的方法,所述将所述目标隐写对象写入所述第一中间数据对应的指定域空间内之前,还包括:
判断所述目标隐写对象是否位于所述指定域上;
若是,则执行将所述目标隐写对象写入所述第一中间数据对应的指定域空间内的步骤;
若否,则对所述目标隐写对象进行所述指定域上的所述第一域变换,得到所述指定域上的所述目标隐写对象。
5.根据权利要求1所述的方法,
所述对所述第二中间数据进行所述指定域上的第二域变换,得到携带有所述目标隐写对象的第二样本数据之后,还包括:
对所述第二样本数据进行所述指定域上的所述第一域变换,得到所述第二中间数据;
确定所述指定域隐私数据在所述第二中间数据中的写入位置,基于所述写入位置提取所述指定域隐私数据;
对所述指定域隐私数据进行所述指定域上的所述第二域变换,得到所述用户隐私数据。
6.根据权利要求1所述的方法,所述将所述目标隐写对象写入所述第一中间数据对应的指定域空间内,包括:
根据所述第一中间数据在所述指定域上的域频率,确定所述第一中间数据中的高频数据;所述高频数据为所述域频率高于预设阈值的数据;
将所述目标隐写对象写入所述高频数据对应的所述指定域空间内。
7.根据权利要求1所述的方法,所述从所述第一样本数据集中确定待处理的第一样本数据,包括:
按照预设的采样规则,从所述第一样本数据集中筛选出至少一个所述第一样本数据;所述采样规则包括按照预设的采样频率和/或采样数量对相同类别的样本数据进行采样;所述采样频率和/或采样数量与所述第一样本数据集对应的隐写程度之间正相关。
8.根据权利要求1所述的方法,所述指定域为频域;所述第一域变换包括小波变换、快速傅里叶变换、离散余弦变换中的至少一项。
9.根据权利要求1所述的方法,所述样本数据包括图像数据、文本数据、多媒体数据中的至少一项。
10.一种基于隐写技术的数据处理装置,包括:
获取模块,获取用于训练指定模型的第一样本数据集;所述第一样本数据集中包括多个样本数据;
第一变换模块,从所述第一样本数据集中确定待处理的第一样本数据,对所述第一样本数据进行指定域上的第一域变换,得到所述指定域上的第一中间数据;
确定及写入模块,确定所述第一样本数据对应的目标隐写对象;以及,将所述目标隐写对象写入所述第一中间数据对应的指定域空间内,得到第二中间数据;所述目标隐写对象包括:对用户隐私数据进行所述第一域变换后得到的指定域隐私数据;
第二变换模块,对所述第二中间数据进行所述指定域上的第二域变换,得到携带有所述目标隐写对象的第二样本数据;所述第二域变换和所述第一域变换互为逆变换;所述第二样本数据用于训练所述指定模型。
11.根据权利要求10所述的装置,还包括:
替换模块,在所述对所述第二中间数据进行所述指定域上的第二域变换,得到携带有所述目标隐写对象的第二样本数据之后,利用所述第二样本数据替换所述第一样本数据集中的所述第一样本数据,得到携带有所述目标隐写对象的第二样本数据集;
模型训练模块,利用所述第二样本数据集训练所述指定模型。
12.根据权利要求10所述的装置,所述指定模型包括:用于将各所述样本数据划分为至少一种数据类别的分类模型;
所述确定及写入模块包括:
第一确定单元,确定所述第一样本数据对应的第一期望数据类别;
第二确定单元,根据预设的各隐写对象与期望数据类别之间的对应关系,确定所述第一期望数据类别对应的所述目标隐写对象。
13.根据权利要求10所述的装置,还包括:
判断模块,在所述将所述目标隐写对象写入所述第一中间数据对应的指定域空间内之前,判断所述目标隐写对象是否位于所述指定域上;
执行模块,若是,则执行将所述目标隐写对象写入所述第一中间数据对应的指定域空间内的步骤;
第三变换模块,若否,则对所述目标隐写对象进行所述指定域上的所述第一域变换,得到所述指定域上的所述目标隐写对象。
14.根据权利要求10所述的装置,
所述装置还包括:
第四变换模块,在所述对所述第二中间数据进行所述指定域上的第二域变换,得到携带有所述目标隐写对象的第二样本数据之后,对所述第二样本数据进行所述指定域上的所述第一域变换,得到所述第二中间数据;
第一确定模块,确定所述指定域隐私数据在所述第二中间数据中的写入位置,基于所述写入位置提取所述指定域隐私数据;
第五变换模块,对所述指定域隐私数据进行所述指定域上的所述第二域变换,得到所述用户隐私数据。
15.一种基于隐写技术的数据处理设备,包括处理器和与所述处理器电连接的存储器,所述存储器存储有计算机程序,所述处理器用于从所述存储器调用并执行所述计算机程序以实现:
获取用于训练指定模型的第一样本数据集;所述第一样本数据集中包括多个样本数据;
从所述第一样本数据集中确定待处理的第一样本数据,对所述第一样本数据进行指定域上的第一域变换,得到所述指定域上的第一中间数据;
确定所述第一样本数据对应的目标隐写对象;以及,将所述目标隐写对象写入所述第一中间数据对应的指定域空间内,得到第二中间数据;所述目标隐写对象包括:对用户隐私数据进行所述第一域变换后得到的指定域隐私数据;
对所述第二中间数据进行所述指定域上的第二域变换,得到携带有所述目标隐写对象的第二样本数据;所述第二域变换和所述第一域变换互为逆变换;所述第二样本数据用于训练所述指定模型。
16.一种存储介质,用于存储计算机程序,所述计算机程序能够被处理器执行以实现以下流程:
获取用于训练指定模型的第一样本数据集;所述第一样本数据集中包括多个样本数据;
从所述第一样本数据集中确定待处理的第一样本数据,对所述第一样本数据进行指定域上的第一域变换,得到所述指定域上的第一中间数据;
确定所述第一样本数据对应的目标隐写对象;以及,将所述目标隐写对象写入所述第一中间数据对应的指定域空间内,得到第二中间数据;所述目标隐写对象包括:对用户隐私数据进行所述第一域变换后得到的指定域隐私数据;
对所述第二中间数据进行所述指定域上的第二域变换,得到携带有所述目标隐写对象的第二样本数据;所述第二域变换和所述第一域变换互为逆变换;所述第二样本数据用于训练所述指定模型。
CN202011052602.3A 2020-09-29 2020-09-29 基于隐写技术的数据处理方法及装置 Active CN112053276B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011052602.3A CN112053276B (zh) 2020-09-29 2020-09-29 基于隐写技术的数据处理方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011052602.3A CN112053276B (zh) 2020-09-29 2020-09-29 基于隐写技术的数据处理方法及装置

Publications (2)

Publication Number Publication Date
CN112053276A CN112053276A (zh) 2020-12-08
CN112053276B true CN112053276B (zh) 2022-07-22

Family

ID=73605628

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011052602.3A Active CN112053276B (zh) 2020-09-29 2020-09-29 基于隐写技术的数据处理方法及装置

Country Status (1)

Country Link
CN (1) CN112053276B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113902962B (zh) * 2021-12-09 2022-03-04 北京瑞莱智慧科技有限公司 目标检测模型的后门植入方法、装置、介质和计算设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0737387A1 (en) * 1993-11-18 1996-10-16 Digimarc Corporation Identification/authentication coding method and apparatus
CN110363697A (zh) * 2019-06-28 2019-10-22 北京字节跳动网络技术有限公司 一种图像水印隐写方法、装置、介质和电子设备
CN111368342A (zh) * 2020-03-13 2020-07-03 众安信息技术服务有限公司 图像篡改识别模型训练方法、图像篡改识别方法及装置

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7376242B2 (en) * 2001-03-22 2008-05-20 Digimarc Corporation Quantization-based data embedding in mapped data
CN110264391A (zh) * 2019-06-26 2019-09-20 上海鹰瞳医疗科技有限公司 训练数据处理方法及设备

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0737387A1 (en) * 1993-11-18 1996-10-16 Digimarc Corporation Identification/authentication coding method and apparatus
CN110363697A (zh) * 2019-06-28 2019-10-22 北京字节跳动网络技术有限公司 一种图像水印隐写方法、装置、介质和电子设备
CN111368342A (zh) * 2020-03-13 2020-07-03 众安信息技术服务有限公司 图像篡改识别模型训练方法、图像篡改识别方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
DCT Domain Encryption in LSB Steganography;Rajib Biswas 等;《2013 5th International Conference and Computational Intelligence and Communication Networks》;20131111;第405-408页 *
基于迁移学习的隐写分析;叶登攀 等;《网络与信息安全学报》;20170115;第3卷(第1期);第23-30页 *

Also Published As

Publication number Publication date
CN112053276A (zh) 2020-12-08

Similar Documents

Publication Publication Date Title
CN111145069B (zh) 基于区块链的图片水印处理方法及装置
CN109214193B (zh) 数据加密、机器学习模型训练方法、装置以及电子设备
US10997279B2 (en) Watermarking anonymized datasets by adding decoys
CN112053276B (zh) 基于隐写技术的数据处理方法及装置
Teufl et al. Android market analysis with activation patterns
CN112347512A (zh) 图像处理方法、装置、设备及存储介质
CN112837202B (zh) 基于隐私保护的水印图像的生成、攻击溯源方法及装置
CN114157568A (zh) 一种浏览器安全访问方法、装置、设备及存储介质
CN113343295A (zh) 基于隐私保护的图像处理方法、装置、设备和存储介质
CN114444725B (zh) 预训练服务系统及基于预训练服务系统的服务提供方法
CN115393756A (zh) 一种基于视觉图像的水印识别方法、装置、设备及介质
Nechta Robustness analysis for dynamic watermarks
CN112199731A (zh) 一种数据处理方法、装置及设备
CN111612682B (zh) 一种水印处理方法及其装置
CN113660658A (zh) 音频数据的保护方法、装置和语音设备
CN113312668A (zh) 一种基于隐私保护的图像识别方法、装置及设备
CN113254823A (zh) 网页数据处理方法及装置
CN107608947B (zh) Html文件处理方法及装置、电子设备
Hendrych et al. New approach to steganography detection via steganalysis framework
Alrammal et al. Using heuristic approach to build Anti-malware
CN113779583B (zh) 一种行为检测方法、装置、存储介质及电子设备
KR102174393B1 (ko) 악성 코드 탐지 장치
CN113239851B (zh) 一种基于隐私保护的隐私图像处理方法、装置及设备
US11972027B1 (en) Preserving web page functionality through dynamic analysis of host web pages
Hamid et al. A systematic literature review on volatility memory forensics

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40042513

Country of ref document: HK

GR01 Patent grant
GR01 Patent grant