CN113742775A - 一种图像数据安全检测方法、系统和存储介质 - Google Patents
一种图像数据安全检测方法、系统和存储介质 Download PDFInfo
- Publication number
- CN113742775A CN113742775A CN202111049937.4A CN202111049937A CN113742775A CN 113742775 A CN113742775 A CN 113742775A CN 202111049937 A CN202111049937 A CN 202111049937A CN 113742775 A CN113742775 A CN 113742775A
- Authority
- CN
- China
- Prior art keywords
- extended
- image
- expansion
- original training
- training set
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/62—Protecting access to data via a platform, e.g. using keys or access control rules
- G06F21/6218—Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Mathematical Physics (AREA)
- Databases & Information Systems (AREA)
- Bioinformatics & Computational Biology (AREA)
- Medical Informatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computing Systems (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Health & Medical Sciences (AREA)
- Bioethics (AREA)
- General Health & Medical Sciences (AREA)
- Computer Hardware Design (AREA)
- Computer Security & Cryptography (AREA)
- Storage Device Security (AREA)
- Closed-Circuit Television Systems (AREA)
- Processing Or Creating Images (AREA)
Abstract
本发明提供一种图像数据安全检测方法、系统及介质,其中机器学习分类模型在训练前,利用预设恶意扩充方法扩充数据持有端的原始训练集,得到第一扩充集和第二扩充集,其中第一扩充集记录有原始训练集的样本图像,第二扩充集存储有原始训练集各类别标签的标签编码,并同时利用原始训练集、第一扩充集和第二扩充集进行训练;模型提供端则可在本地利用相同扩充方法还原第一扩充集和第二扩充集,并将第二扩充集输入至训练后的分类模型,还原出原始训练集中各类别标签与标签编码的对应关系,进而便可利用第一扩充集及该对应关系对原始训练集进行还原及泄露检测,避免数据窃取攻击在标签编码未知时难以检测的问题,增强了安全人员对数据泄露的检测能力。
Description
技术领域
本发明涉及数据安全领域,特别涉及一种图像数据安全检测方法、系统和存储介质。
背景技术
数据信托模式下的机器学习模型正面临着严峻的数据泄露风险,模型训练过程中产生的计算数据,包括输出向量、模型梯度等,均可能被恶意用户用来窃取训练数据,因此如何针对性地防范模型训练过程所存在数据泄露风险,是安全技术人员所需解决的重要问题。
相关技术中,扩充数据的黑盒攻击是一种常见的数据窃取攻击,恶意用户对机器学习分类模型进行篡改,使得分类模型可按照预设恶意扩充方式对数据持有者所输入的原始训练数据进行恶意扩充,在恶意扩充数据中存储原始训练数据信息,这样恶意用户便可利用恶意扩充的数据对原始训练数据进行还原窃取,得到数据持有者的敏感数据。然而上述攻击方式需要预先知道原始训练数据中各类别的标签编码,当数据持有者拒绝提供标签编码时,安全技术人员将难以还原分类模型中的原始训练集,进而难以及时对数据持有端所面临的数据泄露风险进行检测。
发明内容
本发明的目的是提供一种图像数据安全检测方法、系统和存储介质,在生成存储原始训练集样本图像的第一扩充集基础上,还额外生成了用于存储原始训练集中各类别标签的标签编码的第二扩充集,可确保模型提供端利用第二扩充集有效还原原始训练集中各类别标签与标签编码的对应关系,进而可利用该对应关系及第一扩充集对原始训练集进行有效还原,避免数据窃取攻击在标签编码未知情况下难以检测的问题。
为解决上述技术问题,本发明提供一种图像数据安全检测方法,包括:
数据持有端将原始训练集所包含的类别数量及样本图像的原始尺寸发送至模型提供端,接收所述模型提供端发送的基于机器学习的分类模型,并将所述原始训练集输入所述分类模型;所述原始训练集包含所述样本图像的类别标签及所述类别标签对应的标签编码;
所述分类模型按照预设恶意扩充方法,利用所述原始尺寸对所述原始训练集进行恶意扩充,得到第一扩充集和第二扩充集,并利用所述原始训练集、所述第一扩充集和所述第二扩充集进行训练;所述第一扩充集记录有所述样本图像的数据,所述第二扩充集包含子集的数量为所述类别数量,且所述子集标注有所述标签编码;
所述数据持有端将完成训练的分类模型的API接口发送至所述模型提供端;
所述模型提供端利用所述预设恶意扩充方法、所述原始尺寸及所述类别数量还原所述第一扩充集和所述第二扩充集,利用所述第二扩充集和所述API接口还原出所述类别标签与所述标签编码的对应关系,并利用所述对应关系、所述第一扩充集和所述API接口对所述原始训练集进行还原,得到还原图像;
所述模型提供端将所述还原图像发送至所述数据持有端,以使所述数据持有端利用所述还原图像和所述原始训练集进行图像数据安全检测。
可选地,所述利用所述第二扩充集和所述API接口还原出所述类别标签与所述标签编码的对应关系,并利用所述对应关系、所述第一扩充集和所述API接口对所述原始训练集进行还原,得到还原图像,包括:
所述模型提供端将所述第二扩充集中各子集的第二扩充图像输入所述API接口,得到各所述子集包含的类别标签;
将所述子集的标签编码与所述子集中占比最大的类别标签建立所述对应关系;
将所述第一扩充集中所有的第一扩充图像输入所述API接口,得到所述第一扩充图像对应的类别标签,并利用所述类别标签和所述对应关系查找所述第一扩充图像所对应的标签编码;
利用所述第一扩充图像和对应的标签编码对所述原始训练集进行还原,得到所述还原图像。
可选地,所述数据持有端利用所述还原图像和所述原始训练集进行图像数据安全检测,包括:
所述数据持有端计算所述还原图像与所述原始数据集的相似度,并判断所述相似度是否大于预设阈值;
若是,则判定存在数据泄露异常。
可选地,所述分类模型按照预设恶意扩充方法,利用所述原始尺寸对所述原始训练集进行恶意扩充,得到第二扩充集,包括:
所述分类模型获取预设随机种子和所述样本图像,并将所述样本图像分成多个不同区域;
为所述第二扩充集中的每一子集设置不同的像素值范围序列;所述像素值范围序列中的像素值范围与所述区域相对应;
利用所述像素值范围序列为每一子集设置多张伪随机图像,并为所述子集设置所述标签编码;所述伪随机图像的尺寸为所述原始尺寸,所述伪随机图像中各区域的像素值为利用所述像素值范围序列中对应的像素值范围生成的伪随机数,所述伪随机数由所述预设随机种子生成。
可选地,所述数据持有端将完成训练的分类模型的API接口发送至所述模型提供端,包括:
所述数据持有端将完成训练的分类模型的API接口上传至公共平台;
模型提供端从所述公共平台获取所述API接口。
本发明还提供一种图像数据安全检测系统,包括:数据持有端、分类模型和模型提供端,其中,
所述数据持有端,用于将原始训练集所包含的类别数量及样本图像的原始尺寸发送至所述模型提供端,接收所述模型提供端发送的基于机器学习的分类模型,并将所述原始训练集输入所述分类模型;所述原始训练集包含样本图像的类别标签及所述类别标签对应的标签编码;将完成训练的分类模型的API接口发送至所述模型提供端;利用所述模型提供端发送的还原图像和所述原始训练集进行图像数据安全检测;
所述分类模型,用于按照预设恶意扩充方法,利用所述原始尺寸对所述原始训练集进行恶意扩充,得到第一扩充集和第二扩充集,并利用所述原始训练集、所述第一扩充集和所述第二扩充集进行训练;所述第一扩充集记录有所述样本图像的数据,所述第二扩充集包含子集的数量为所述类别数量,且所述子集标注有所述标签编码;
所述模型提供端,用于接收所述类别数量及所述原始尺寸;利用所述预设恶意扩充方法、所述原始尺寸及所述类别数量还原所述第一扩充集和所述第二扩充集,利用所述第二扩充集和所述API接口还原出所述类别标签与所述标签编码的对应关系,并利用所述对应关系、所述第一扩充集和所述API接口对所述原始训练集进行还原,得到还原图像;将所述还原图像发送至所述数据持有端。
可选地,所述模型提供端,还用于将所述第二扩充集中各子集的第二扩充图像输入所述API接口,得到各所述子集包含的类别标签;将所述子集的标签编码与所述子集中占比最大的类别标签建立所述对应关系;将所述第一扩充集中所有的第一扩充图像输入所述API接口,得到所述第一扩充图像对应的类别标签,并利用所述类别标签和所述对应关系查找所述第一扩充图像所对应的标签编码;利用所述第一扩充图像和对应的标签编码对所述原始训练集进行还原,得到所述还原图像。
可选地,所述数据持有端,还用于计算所述还原图像与所述原始数据集的相似度,并判断所述相似度是否大于预设阈值;若是,则判定存在数据泄露异常。
可选地,所述分类模型,还用于获取预设随机种子和所述样本图像,并将所述样本图像分成多个不同区域;为所述第二扩充集中的每一子集设置不同的像素值范围序列;所述像素值范围序列中的像素值范围与所述区域相对应;利用所述像素值范围序列为每一子集设置多张伪随机图像,并为所述子集设置所述标签编码;所述伪随机图像的尺寸为所述原始尺寸,所述伪随机图像中各区域的像素值为利用所述像素值范围序列中对应的像素值范围生成的伪随机数,所述伪随机数由所述预设随机种子生成。
本发明还提供一种存储介质,所述存储介质中存储有计算机可执行指令,所述计算机可执行指令被处理器加载并执行时,实现如上述所述的图像数据安全检测方法。
本发明提供一种图像数据安全检测方法,包括:数据持有端将原始训练集所包含的类别数量及样本图像的原始尺寸发送至模型提供端,接收模型提供端发送的基于机器学习的分类模型,并将所述原始训练集输入所述分类模型;所述原始训练集包含所述样本图像的类别标签及所述类别标签对应的标签编码;所述分类模型按照预设恶意扩充方法,利用所述原始尺寸对所述原始训练集进行恶意扩充,得到第一扩充集和第二扩充集,并利用所述原始训练集、所述第一扩充集和所述第二扩充集进行训练;所述第一扩充集记录有所述样本图像的数据,所述第二扩充集包含子集的数量为所述类别数量,且所述子集标注有所述标签编码;所述数据持有端将完成训练的分类模型的API接口发送至所述模型提供端;所述模型提供端利用所述预设恶意扩充方法、所述原始尺寸及所述类别数量还原所述第一扩充集和所述第二扩充集,利用所述第二扩充集和所述API接口还原出所述类别标签与所述标签编码的对应关系,并利用所述对应关系、所述第一扩充集和所述API接口对所述原始训练集进行还原,得到还原图像;所述模型提供端将所述还原图像发送至所述数据持有端,以使所述数据持有端利用所述还原图像和所述原始训练集进行图像数据安全检测。
可见,本发明中的分类模型在生成存储有原始训练集样本图像的第一扩充集的基础上,还额外生成了第二扩充集,其中第二扩充集用于存储原始训练集中各类别标签的标签编码,由于第二扩充集包含子集的数量等于原始训练集的类别数量,可完整记录原始训练集中的所有标签编码,因此模型提供端可利用第二扩充集有效还原原始训练集中的标签编码;同时,分类模型和模型提供端均设置有相同的预设恶意扩充方法,可确保模型提供端能利用相同扩充方法在本地还原第一扩充集和第二扩充集,进而利用第二扩充集还原标签编码和类别标签的对应关系,利用第一扩充集和该对应关系对数据持有端的原始训练集进行有效还原,避免在数据持有端拒绝提供标签编码的情况下难以还原分类模型中的原始训练集的问题,有效解决数据窃取攻击在标签编码未知情况下难以检测的问题,便于安全人员及时发现数据持有端所面临的数据泄露问题。本发明还提供一种图像数据安全检测系统及存储介质,具有上述有益效果。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本发明实施例所提供的一种图像数据安全检测方法的流程图;
图2为本发明实施例所提供的一种图像数据安全检测系统的结构框图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
相关技术中,扩充数据的黑盒攻击是一种常见的数据窃取攻击,恶意用户对机器学习分类模型进行篡改,使得分类模型可按照预设恶意扩充方式对数据持有者所输入的原始训练数据进行恶意扩充,在恶意扩充数据中存储原始训练数据信息,这样恶意用户便可利用恶意扩充的数据对原始训练数据进行还原窃取,得到数据持有者的敏感数据。然而上述攻击方式需要预先知道原始训练数据中各类别的标签编码,当数据持有者拒绝提供标签编码时,安全技术人员将难以还原分类模型中的原始训练集,进而难以及时对数据持有端所面临的数据泄露风险进行检测。有鉴于此,本发明实施例提供一种图像数据安全检测方法,在生成存储原始训练集样本数据的第一扩充集基础上,还额外生成了用于记录标签编码的第二扩充集,可确保模型提供端利用第二扩充集有效还原原始训练集中的标签编码,进而可利用标签编码及第一扩充集对原始训练集进行有效还原,避免在数据持有端拒绝提供标签编码的情况下难以检测扩充数据攻击的问题。请参考图1,图1为本发明实施例所提供的一种图像数据安全检测方法的流程图,该方法可以包括:
S101、数据持有端将原始训练集所包含的类别数量及样本图像的原始尺寸发送至模型提供端,接收模型提供端发送的基于机器学习的分类模型,并将原始训练集输入分类模型;原始训练集包含样本图像的类别标签及类别标签对应的标签编码。
可以理解的是,数据持有端为了训练分类模型,则需要对原始训练集中的样本图像进行提前分类,确定对应的类别标签和标签编码,其中类别标签即为样本图像的类别,而标签编码则是数据集制作者为类别标记的编码,例如某种数据集包含飞机、汽车、火车三种类别,而飞机、汽车、火车的编码分别为0~2,则类别标签即为飞机、汽车和火车,标签编码即为0~2。本发明实施例并不限定类别标签的具体内容,可根据实际应用需求进行设定;本发明实施例也不限定标签编码的具体形式及设置方式,可参考数据集的相关技术;本发明实施例也不限定原始训练集中包含的样本图像数量,可根据实际应用需求进行设定。进一步,可以理解的是,为了确保扩充图像能够记录样本图像数据、参与分类模型训练并对样本数据进行还原,扩充图像需与样本图像保持相同的尺寸;同样可以理解的是,模型提供端需要获取样本图像的原始尺寸,才可在本地生成同尺寸的扩充图像,因此数据持有端还需确定原始训练集中样本图像的原始尺寸,并将该尺寸发送至模型提供端。需要说明的是,本发明实施例并不限定样本图像的具体尺寸,可根据实际应用需求进行调整。
进一步,由于标签编码与类别标签一一对应,因此模型提供端若需要记录原始训练集中所有的标签编码,则还需要向数据持有端获取原始训练集所包含的类别数量。
进一步,本发明实施例并不限定具体的分类模型,可参考机器学习分类网络的相关技术。
S102、分类模型按照预设恶意扩充方法,利用原始尺寸对原始训练集进行恶意扩充,得到第一扩充集和第二扩充集,并利用原始训练集、第一扩充集和第二扩充集进行训练;第一扩充集记录有原始训练集的样本图像的数据,第二扩充集包含子集的数量为类别数量,且子集标注有标签编码。
在本发明实施例中,分类模型及模型提供端均可使用该预设恶意扩充方法生成相同的第一扩充集和第二扩充集,其中分类模型所生成的第一扩充集和第二扩充集用于记录原始训练集的样本图像及标签编码,而模型提供端还原的第一扩充集和第二扩充集用于套取上述样本图像及标签编码。
需要说明的是,为了确保第二扩充集能够有效记录原始训练集所包含的标签编码,应当将第二扩充集所包含的子集数量设置为原始训练集的类别数量,进而利用所有子集对该标签编码进行记录,以确保模型提供端能够利用第二扩充集对原始训练集进行有效还原。进一步,需要说明的是,每一子集中包含一定数量的扩充图像,同一子集中的扩充图像设置有相同的标签编码。本发明实施例也不限定每一子集中可包含扩充图像的数量,可根据实际应用需求进行设置,例如在一种情况中,为了提升第二扩充集还原标签编码的能力,可在第二扩充集的每一子集中存放一百条扩充图像。
进一步,本发明实施例同样也不限定第一扩充集可包含扩充图像的数量,可根据实际应用需求进行设定。本发明实施例也不限定第一扩充集如何记录原始训练集的样本图像的数据,可参考容量滥用(Capacity Abuse)和容量滥用攻击(Capacity Abuse Attack)的相关内容,例如可利用第一扩充集的标签编码存储样本图像。
进一步,本发明实施例并不限定具体的预设恶意扩充方法,例如可以利用伪随机函数(Pseudorandom function,PRF)生成与样本图像等尺寸的完全伪随机图像,其中伪随机函数用于模拟一段循环周期极长并能通过随机检验的伪随机数据;当然也可以基于样本图像中的部分区域生成与样本图像等尺寸的伪随机图像,具体的,首先将样本图像分为一定数量的区域,然后从上述区域中按照字典顺序提取预设数量(一个或多个)的区域形成一个区域组合,并为该区域组合生成一个伪随机图像,其中伪随机图像中与区域组合相对应的区域包含的像素值为伪随机数,而其他区域的像素值为固定值,其中伪随机数利用伪随机函数生成。可以看出,上述方式采用伪随机函数生成带有循环周期的数据,而非使用真正的随机数,因此可同时在分类模型及模型提供端设置带有相同随机种子(Seed)的伪随机函数,进而确保分类模型及模型提供端可生成相同的伪随机图像。
考虑到伪随机图像在具体的应用中具有更高的还原能力,因此第一扩充集通常可通过上述生成伪随机图像的方式进行恶意数据扩充。例如,在一种可能的情况中,可将样本图像划分为区域1,区域2,区域3,分别选取{区域1}、{区域2}、{区域1、区域2}、{区域3}、{区域1、区域3}、{区域2、区域3}、{区域1、区域2、区域3}这七种区域组合生成7张不同的伪随机图像,其中伪随机图像中对应的区域所包含的像素值用伪随机数生成,其他未被选取的区域的像素点的值全部置为0,然后再将这7张伪随机图片的标签值设为要窃取的数据值。需要说明的是,本发明实施例并不限定具体的区域组合提取方式,可根据实际情况进行提取;本发明专利也不限定其他区域固定值的选取方式,可根据实际情况选取。
进一步,第二扩充集同样可通过上述方式进行恶意数据扩充。当然,若需要减少训练次数,并提升第二扩充集对标签编码的还原准确率,也可以为第二扩充集的各子集中的伪随机图像进行改进。具体的,可将样本图像分成多个不同区域,并利用该区域为第二扩充集中的每一子集设置不同的像素值范围序列,其中,像素值范围序列中的像素值范围与该区域相对应;进一步,利用像素值范围序列为每一子集设置多张伪随机图像,并为子集设置标签编码,其中伪随机图像的尺寸为样本图像的原始尺寸,伪随机图像中各区域的像素值为利用像素值范围序列中对应的像素值范围生成的伪随机数。这样,同一子集内的伪随机图像均带有相同的区域取值特征,且子集间的伪随机图像均带有不同的区域取值特征,进而便可提升训练速度以及还原准确度。例如,在一种可能的情况中,可将样本图像划分为区域1,区域2,区域3,区域4,而原始训练集中包含的类别数量为4(即第二扩充集包含4个子集),此时便可按如下方式为第二扩充集的子集设置像素值范围序列:子集1的像素值范围序列为{(0-0.1),(0.1-0.2),(0.2-0.3),(0.3-0.4)},分别对应区域1、区域2、区域3和区域4;子集2的像素值范围序列为{(0.1-0.2)、(0-0.1),(0.2-0.3),(0.3-0.4)},对应关系同上;子集3的像素值范围序列为{(0-0.1),(0.1-0.2),(0.3-0.4),(0.2-0.3)},子集4的像素值范围序列为{(01-0.2),(0-0.1),(0.3-0.4),(0.2-0.3)}。在完成序列设置后,便可依照该序列为各子集生成多张伪随机图像,其中伪随机图像的尺寸为原始尺寸,伪随机图像中各区域的像素值为利用像素值范围序列中对应的像素值范围生成的伪随机数,伪随机数由预设随机种子生成,最后再根据样本图像的标签编码为上述第二扩充集的子集设置标签编码。需要说明的是,本发明实施例并不限定将样本图像划分为多个区域的具体划分方式,可根据实际应用需求进行设置;本发明实施例也不限定具体的像素值范围,只要符合上述要求即可,同样可根据实际应用需求设置;本发明实施例也不限定每一子集可包含的伪随机图像数量,也不限定每一子集之间的伪随机图像数量是否相同,均可按照实际应用需求进行设定。
在一种可能的情况中,分类模型按照预设恶意扩充方法,利用原始尺寸对原始训练集进行恶意扩充,得到第二扩充集,包括:
步骤11:分类模型获取预设随机种子和样本图像,并将样本图像分成多个不同区域;
步骤12:为第二扩充集中的每一子集设置不同的像素值范围序列;像素值范围序列中的像素值范围与区域相对应;
步骤13:利用像素值范围序列为每一子集设置多张伪随机图像,并为子集设置标签编码;伪随机图像的尺寸为原始尺寸,伪随机图像中各区域的像素值为利用像素值范围序列中对应的像素值范围生成的伪随机数,伪随机数由预设随机种子生成。
需要说明的是,本发明实施例并不限定伪随机函数如何利用随机种子生成伪随机数,可参考伪随机函数的相关技术。
下面结合具体的例子介绍第二扩充集的生成过程。在一种可能的情况中,原始训练集为CIFAR-10数据集,该数据集包含10个类别,标签编码为0~9,此时便可生成10组第二扩充集的子集,每一子集中包含有100张扩充图像,并按照扩充集生成顺序对第二扩充集编码0~9,其中CIFAR-10数据集为一种图像分类数据集。
S103、数据持有端将完成训练的分类模型的API接口发送至模型提供端。
API(Application Programming Interface,应用程序接口)接口为预先定义的接口。数据持有端将分类模型的API接口发送至模型提供端,模型提供端便可通过API接口使用分类模型的分类功能。需要说明的是,本发明实施例并不限定数据持有端发送API接口的具体方式,例如可以直接将API接口发送至模型提供端,以请求模型提供端进行图像数据安全检测,当然也可以发送至公共平台,以使模型提供端从公共平台获取该API接口。考虑到上传公共平台的方式,可同时进行分类模型应用及安全检测,因此在本发明实施例中,数据持有端可将分类模型的API接口上传至公共平台,而模型提供端可从公共平台获取API接口。需要说明的是,本发明实施例并不限定API接口的具体形式及生成方法,可参考API接口的相关技术。本发明实施例也不限定具体的公共平台,任意支持API接口上传及利用的平台均可作为公共平台,例如各大门户网站、云平台等。
在一种可能的情况中,数据持有端将完成训练的分类模型的API接口发送至模型提供端,包括:
步骤21:数据持有端将完成训练的分类模型的API接口上传至公共平台;
步骤22:模型提供端从公共平台获取API接口。
S104、模型提供端利用预设恶意扩充方法、原始尺寸及类别数量还原第一扩充集和第二扩充集,利用第二扩充集和API接口还原出类别标签与标签编码的对应关系,并利用对应关系、第一扩充集和API接口对原始训练集进行还原,得到还原图像。
需要说明的是,本发明实施例可以对完整的原始训练集进行还原,也可以对原始训练集中的部分数据进行还原,换句话说,还原图像既可以是原始训练集中的所有图像,也可以是原始训练集中的部分图像。
需要说明的是,对模型提供端利用预设恶意扩充方法还原第一扩充集和第二扩充集的相关描述,可参考上述实施例,此处不再赘述。由于第二扩充集的子集设置有标签编码,因此本发明实施例可将第二扩充集中各子集的扩充图像输入至API接口,得到各子集所包含的类别标签,进而便可利用类别标签和第二扩充集对应的标签编码,还原出原始训练集中类别标签和标签编码的对应关系。可以理解的是,由于分类模型的分类结果无法完全准确,因此可将第二扩充集中各子集的扩充图像输入至API接口,得到各子集所包含的类别标签,进而子集的标签编码与同一子集中占比最大的类别标签建立对应关系。进一步,在确定标签编码与类别标签的对应关系后,便可进一步得到第一扩充集中的扩充图像与标签编码的对应关系,最后便可利用扩充图像与标签编码的对应关系对原始训练集进行还原。在一种可能的情况中,利用第二扩充集和API接口还原出类别标签与标签编码的对应关系,并利用对应关系、第一扩充集和API接口对原始训练集进行还原,得到还原图像,可以包括:
步骤31:模型提供端将第二扩充集中各子集的第二扩充图像输入API接口,得到各子集包含的类别标签;
步骤32:将子集的标签编码与子集中占比最大的类别标签建立对应关系。
步骤33:将第一扩充集中所有的第一扩充图像输入API接口,得到第一扩充图像对应的类别标签,并利用类别标签和对应关系查找第一扩充图像所对应的标签编码;
步骤34:利用第一扩充图像和对应的标签编码对原始训练集进行还原,得到还原图像。
需要说明的是,本发明实施例并不限定如何使用第一扩充图像和对应的标签编码还原原始训练集,可参考容量滥用(Capacity Abuse)和容量滥用攻击(Capacity AbuseAttack)的相关内容。
S105、模型提供端将还原图像发送至数据持有端,以使数据持有端利用还原图像和原始训练集进行图像数据安全检测。
可以理解的是,还原图像与原始数据集较为接近,因此可通过计算相似度的方式确定分类模型是否存在数据泄露问题。需要说明的是,本发明实施例并不限定相似度的计算方式,该方式与原始数据集具体的数据类型有关,可参考图像相似度及文本相似度计算的相关技术。
在一种可能的情况中,数据持有端利用还原图像和原始训练集进行图像数据安全检测,包括:
步骤51:数据持有端计算还原图像与原始数据集的相似度,并判断相似度是否大于预设阈值;若是,则进入步骤52;若否,则退出检测;
步骤52:判定存在数据泄露异常。
需要说明的是,本发明实施例并不限定预设阈值的具体数值,可根据实际应用需求进行设定。
基于上述实施例,本发明中的分类模型在生成存储有原始训练集样本图像的第一扩充集的基础上,还额外生成了第二扩充集,其中第二扩充集用于存储原始训练集中各类别标签的标签编码,由于第二扩充集包含子集的数量等于原始训练集的类别数量,可完整记录原始训练集中的所有标签编码,因此模型提供端可利用第二扩充集有效还原原始训练集中的标签编码;同时,分类模型和模型提供端均设置有相同的预设恶意扩充方法,可确保模型提供端能利用相同扩充方法在本地还原第一扩充集和第二扩充集,进而利用第二扩充集还原标签编码和类别标签的对应关系,利用第一扩充集和该对应关系对数据持有端的原始训练集进行有效还原,避免在数据持有端拒绝提供标签编码的情况下难以还原分类模型中的原始训练集的问题,有效解决数据窃取攻击在标签编码未知情况下难以检测的问题,便于安全人员及时发现数据持有端所面临的数据泄露问题。
下面对本发明实施例提供的图像数据安全检测系统和存储介质进行介绍,下文描述的图像数据安全检测系统和存储介质与上文描述的图像数据安全检测方法可相互对应参照。
请参考图2,图2为本发明实施例所提供的一种图像数据安全检测系统的结构框图,该系统可以包括:数据持有端201、分类模型202和模型提供端203,其中,
数据持有端201,用于将原始训练集所包含的类别数量及样本图像的原始尺寸发送至模型提供端203,接收模型提供端203发送的基于机器学习的分类模型202,并将原始训练集输入分类模型202;原始训练集包含样本图像的类别标签及类别标签对应的标签编码;将完成训练的分类模型202的API接口发送至模型提供端203;利用模型提供端203发送的还原图像和原始训练集进行图像数据安全检测;
分类模型202,用于按照预设恶意扩充方法,利用原始尺寸对原始训练集进行恶意扩充,得到第一扩充集和第二扩充集,并利用原始训练集、第一扩充集和第二扩充集进行训练;第一扩充集记录有原始训练集的样本图像的数据,第二扩充集包含子集的数量为类别数量,且子集标注有标签编码;
模型提供端203,用于接收类别数量及原始尺寸;利用预设恶意扩充方法、原始尺寸及类别数量还原第一扩充集和第二扩充集,利用第二扩充集和API接口还原出类别标签与标签编码的对应关系,并利用对应关系、第一扩充集和API接口对原始训练集进行还原,得到还原图像;将还原图像发送至数据持有端201。
可选地,模型提供端203,还可以用于将第二扩充集中所有的第二扩充图像输入API接口,得到第二扩充图像对应的类别标签,并计算类别标签在第二扩充集中所占的比例;将比例最大的类别标签与第二扩充集的标签编码建立对应关系;将第一扩充集中所有的第一扩充图像输入API接口,得到第一扩充图像对应的类别标签,并利用类别标签和对应关系查找第一扩充图像所对应的标签编码;利用第一扩充图像和对应的标签编码对原始训练集进行还原,得到还原图像。
可选地,数据持有端201,还可以用于计算还原图像与原始数据集的相似度,并判断相似度是否大于预设阈值;若是,则判定存在数据泄露异常。
可选地,分类模型202,还可以用于获取预设随机种子和样本图像,并将样本图像分成多个不同区域;为第二扩充集中的每一子集设置不同的像素值范围序列;像素值范围序列中的像素值范围与区域相对应;利用像素值范围序列为每一子集设置多张伪随机图像,并为子集设置标签编码;伪随机图像的尺寸为原始尺寸,伪随机图像中各区域的像素值为利用像素值范围序列中对应的像素值范围生成的伪随机数,伪随机数由预设随机种子生成。
可选地,该系统还可以包括:公共平台,其中,
数据持有端201,还可以用于将完成训练的分类模型202的API接口上传至公共平台;
模型提供端203,还可以用于从公共平台获取API接口;
公共平台,用于保存API接口。
本发明实施例还提供一种存储介质,存储介质上存储有计算机程序,计算机程序被处理器执行时实现上述任意实施例的图像数据安全检测方法的步骤。
由于存储介质部分的实施例与图像数据安全检测方法部分的实施例相互对应,因此存储介质部分的实施例请参见图像数据安全检测方法部分的实施例的描述,这里不再赘述。
说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
以上对本发明所提供的图像数据安全检测方法、系统及存储介质进行了详细介绍。本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以对本发明进行若干改进和修饰,这些改进和修饰也落入本发明权利要求的保护范围内。
Claims (10)
1.一种图像数据安全检测方法,其特征在于,包括:
数据持有端将原始训练集所包含的类别数量及样本图像的原始尺寸发送至模型提供端,接收所述模型提供端发送的基于机器学习的分类模型,并将所述原始训练集输入所述分类模型;所述原始训练集包含所述样本图像的类别标签及所述类别标签对应的标签编码;
所述分类模型按照预设恶意扩充方法,利用所述原始尺寸对所述原始训练集进行恶意扩充,得到第一扩充集和第二扩充集,并利用所述原始训练集、所述第一扩充集和所述第二扩充集进行训练;所述第一扩充集记录有所述样本图像的数据,所述第二扩充集包含子集的数量为所述类别数量,且所述子集标注有所述标签编码;
所述数据持有端将完成训练的分类模型的API接口发送至所述模型提供端;
所述模型提供端利用所述预设恶意扩充方法、所述原始尺寸及所述类别数量还原所述第一扩充集和所述第二扩充集,利用所述第二扩充集和所述API接口还原出所述类别标签与所述标签编码的对应关系,并利用所述对应关系、所述第一扩充集和所述API接口对所述原始训练集进行还原,得到还原图像;
所述模型提供端将所述还原图像发送至所述数据持有端,以使所述数据持有端利用所述还原图像和所述原始训练集进行图像数据安全检测。
2.根据权利要求1所述的图像数据安全检测方法,其特征在于,所述利用所述第二扩充集和所述API接口还原出所述类别标签与所述标签编码的对应关系,并利用所述对应关系、所述第一扩充集和所述API接口对所述原始训练集进行还原,得到还原图像,包括:
所述模型提供端将所述第二扩充集中各子集的第二扩充图像输入所述API接口,得到各所述子集包含的类别标签;
将所述子集的标签编码与所述子集中占比最大的类别标签建立所述对应关系;
将所述第一扩充集中所有的第一扩充图像输入所述API接口,得到所述第一扩充图像对应的类别标签,并利用所述类别标签和所述对应关系查找所述第一扩充图像所对应的标签编码;
利用所述第一扩充图像和对应的标签编码对所述原始训练集进行还原,得到所述还原图像。
3.根据权利要求1所述的图像数据安全检测方法,其特征在于,所述数据持有端利用所述还原图像和所述原始训练集进行图像数据安全检测,包括:
所述数据持有端计算所述还原图像与所述原始数据集的相似度,并判断所述相似度是否大于预设阈值;
若是,则判定存在数据泄露异常。
4.根据权利要求1所述的图像数据安全检测方法,其特征在于,所述分类模型按照预设恶意扩充方法,利用所述原始尺寸对所述原始训练集进行恶意扩充,得到第二扩充集,包括:
所述分类模型获取预设随机种子和所述样本图像,并将所述样本图像分成多个不同区域;
为所述第二扩充集中的每一子集设置不同的像素值范围序列;所述像素值范围序列中的像素值范围与所述区域相对应;
利用所述像素值范围序列为每一子集设置多张伪随机图像,并为所述子集设置所述标签编码;所述伪随机图像的尺寸为所述原始尺寸,所述伪随机图像中各区域的像素值为利用所述像素值范围序列中对应的像素值范围生成的伪随机数,所述伪随机数由所述预设随机种子生成。
5.根据权利要求1所述的图像数据安全检测方法,其特征在于,所述数据持有端将完成训练的分类模型的API接口发送至所述模型提供端,包括:
所述数据持有端将完成训练的分类模型的API接口上传至公共平台;
模型提供端从所述公共平台获取所述API接口。
6.一种图像数据安全检测系统,其特征在于,包括:数据持有端、分类模型和模型提供端,其中,
所述数据持有端,用于将原始训练集所包含的类别数量及样本图像的原始尺寸发送至所述模型提供端,接收所述模型提供端发送的基于机器学习的所述分类模型,并将所述原始训练集输入所述分类模型;所述原始训练集包含样本图像的类别标签及所述类别标签对应的标签编码;将完成训练的分类模型的API接口发送至所述模型提供端;利用所述模型提供端发送的还原图像和所述原始训练集进行图像数据安全检测;
所述分类模型,用于按照预设恶意扩充方法,利用所述原始尺寸对所述原始训练集进行恶意扩充,得到第一扩充集和第二扩充集,并利用所述原始训练集、所述第一扩充集和所述第二扩充集进行训练;所述第一扩充集记录有所述样本图像的数据,所述第二扩充集包含子集的数量为所述类别数量,且所述子集标注有所述标签编码;
所述模型提供端,用于接收所述类别数量及所述原始尺寸;利用所述预设恶意扩充方法、所述原始尺寸及所述类别数量还原所述第一扩充集和所述第二扩充集,利用所述第二扩充集和所述API接口还原出所述类别标签与所述标签编码的对应关系,并利用所述对应关系、所述第一扩充集和所述API接口对所述原始训练集进行还原,得到还原图像;将所述还原图像发送至所述数据持有端。
7.根据权利要求6所述的图像数据安全检测系统,其特征在于,所述模型提供端,还用于将所述第二扩充集中各子集的第二扩充图像输入所述API接口,得到各所述子集包含的类别标签;将所述子集的标签编码与所述子集中占比最大的类别标签建立所述对应关系;将所述第一扩充集中所有的第一扩充图像输入所述API接口,得到所述第一扩充图像对应的类别标签,并利用所述类别标签和所述对应关系查找所述第一扩充图像所对应的标签编码;利用所述第一扩充图像和对应的标签编码对所述原始训练集进行还原,得到所述还原图像。
8.根据权利要求6所述的图像数据安全检测系统,其特征在于,所述数据持有端,还用于计算所述还原图像与所述原始数据集的相似度,并判断所述相似度是否大于预设阈值;若是,则判定存在数据泄露异常。
9.根据权利要求6所述的图像数据安全检测系统,其特征在于,所述分类模型,还用于获取预设随机种子和所述样本图像,并将所述样本图像分成多个不同区域;为所述第二扩充集中的每一子集设置不同的像素值范围序列;所述像素值范围序列中的像素值范围与所述区域相对应;利用所述像素值范围序列为每一子集设置多张伪随机图像,并为所述子集设置所述标签编码;所述伪随机图像的尺寸为所述原始尺寸,所述伪随机图像中各区域的像素值为利用所述像素值范围序列中对应的像素值范围生成的伪随机数,所述伪随机数由所述预设随机种子生成。
10.一种存储介质,其特征在于,所述存储介质中存储有计算机可执行指令,所述计算机可执行指令被处理器加载并执行时,实现如权利要求1至5任一项所述的图像数据安全检测方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111049937.4A CN113742775B (zh) | 2021-09-08 | 2021-09-08 | 一种图像数据安全检测方法、系统和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111049937.4A CN113742775B (zh) | 2021-09-08 | 2021-09-08 | 一种图像数据安全检测方法、系统和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113742775A true CN113742775A (zh) | 2021-12-03 |
CN113742775B CN113742775B (zh) | 2023-07-28 |
Family
ID=78737147
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111049937.4A Active CN113742775B (zh) | 2021-09-08 | 2021-09-08 | 一种图像数据安全检测方法、系统和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113742775B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116248412A (zh) * | 2023-04-27 | 2023-06-09 | 中国人民解放军总医院 | 共享数据资源异常检测方法、系统、设备、存储器及产品 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109886986A (zh) * | 2019-01-23 | 2019-06-14 | 北京航空航天大学 | 一种基于多分支卷积神经网络的皮肤镜图像分割方法 |
CN112001292A (zh) * | 2020-08-18 | 2020-11-27 | 大连海事大学 | 一种基于多尺度注意力机制深度哈希的指静脉索引方法 |
CN112434599A (zh) * | 2020-11-23 | 2021-03-02 | 同济大学 | 一种基于噪声通道的随机遮挡恢复的行人重识别方法 |
CN113241062A (zh) * | 2021-06-01 | 2021-08-10 | 平安科技(深圳)有限公司 | 语音训练数据集的增强方法、装置、设备及存储介质 |
-
2021
- 2021-09-08 CN CN202111049937.4A patent/CN113742775B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109886986A (zh) * | 2019-01-23 | 2019-06-14 | 北京航空航天大学 | 一种基于多分支卷积神经网络的皮肤镜图像分割方法 |
CN112001292A (zh) * | 2020-08-18 | 2020-11-27 | 大连海事大学 | 一种基于多尺度注意力机制深度哈希的指静脉索引方法 |
CN112434599A (zh) * | 2020-11-23 | 2021-03-02 | 同济大学 | 一种基于噪声通道的随机遮挡恢复的行人重识别方法 |
CN113241062A (zh) * | 2021-06-01 | 2021-08-10 | 平安科技(深圳)有限公司 | 语音训练数据集的增强方法、装置、设备及存储介质 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116248412A (zh) * | 2023-04-27 | 2023-06-09 | 中国人民解放军总医院 | 共享数据资源异常检测方法、系统、设备、存储器及产品 |
CN116248412B (zh) * | 2023-04-27 | 2023-08-22 | 中国人民解放军总医院 | 共享数据资源异常检测方法、系统、设备、存储器及产品 |
Also Published As
Publication number | Publication date |
---|---|
CN113742775B (zh) | 2023-07-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11100222B2 (en) | Method for hardening a machine learning model against extraction | |
CN111401570B (zh) | 针对隐私树模型的解释方法和装置 | |
CN111159697B (zh) | 一种密钥检测方法、装置及电子设备 | |
CN109033772A (zh) | 一种验证信息的输入方法及装置 | |
CN111600874B (zh) | 用户账号检测方法、装置、电子设备、介质 | |
CN112966713B (zh) | 基于深度学习的dga域名检测方法、装置及计算机设备 | |
CN113032202B (zh) | 芯片验证方法、系统、装置、计算机设备及存储介质 | |
CN112418345A (zh) | 细粒度小目标快速识别的方法和装置 | |
CN113742775B (zh) | 一种图像数据安全检测方法、系统和存储介质 | |
CN111753729A (zh) | 一种假脸检测方法、装置、电子设备及存储介质 | |
CN117370993A (zh) | 软件安全风险处理方法、装置、设备及存储介质 | |
CN111107074B (zh) | 一种防止网络爬虫窃取隐私数据的方法、训练方法及装置 | |
CN116055067B (zh) | 一种弱口令检测的方法、装置、电子设备及介质 | |
CN117475364A (zh) | 图片检测方法、设备及计算机存储介质 | |
CN117197857A (zh) | 人脸伪造攻击检测、人脸识别方法、装置和设备 | |
CN114510592B (zh) | 图像分类方法、装置、电子设备及存储介质 | |
CN112019642B (zh) | 一种音频上传方法、装置、设备和存储介质 | |
CN114943083A (zh) | 一种智能终端漏洞代码样本挖掘方法、装置及电子设备 | |
CN114238119A (zh) | 用于安卓应用的自动化测试方法和系统以及存储介质 | |
CN116776932A (zh) | 用户的电商行为识别方法及装置 | |
CN114238968A (zh) | 应用程序检测方法及装置、存储介质及电子设备 | |
CN113569717A (zh) | 基于标签语义的短视频事件分类方法、系统、设备及介质 | |
CN108229127A (zh) | 预先产生验证数据以区分客户端的系统及其方法 | |
CN109214202B (zh) | 数据分析诊断系统、装置、方法及存储介质 | |
CN113034337B (zh) | 图像检测方法及相关装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |