CN111046957A - 一种模型盗用的检测、模型的训练方法和装置 - Google Patents
一种模型盗用的检测、模型的训练方法和装置 Download PDFInfo
- Publication number
- CN111046957A CN111046957A CN201911286364.XA CN201911286364A CN111046957A CN 111046957 A CN111046957 A CN 111046957A CN 201911286364 A CN201911286364 A CN 201911286364A CN 111046957 A CN111046957 A CN 111046957A
- Authority
- CN
- China
- Prior art keywords
- sample
- classification model
- confrontation
- classification
- samples
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Burglar Alarm Systems (AREA)
Abstract
说明书披露一种模型盗用的检测、模型的训练方法和装置。一种模型盗用的检测方法,包括:获取目标分类模型的若干对抗样本,所述对抗样本来自所述目标分类模型样本集的第一真子集,所述对抗样本基于所述目标分类模型样本集的第二真子集中的样本生成;将各对抗样本输入待检测分类模型,得到对应的分类结果;对匹配所述对抗样本分类标签的分类结果进行统计;判断统计结果是否符合盗用条件,若是,则确定所述待检测分类模型盗用所述目标分类模型。上述方案可使用对抗样本检测是否有其他模型盗用所述目标分类模型,从而实现目标分类模型私有数据的盗用检测。
Description
技术领域
本说明书涉及人工智能领域,尤其涉及一种模型盗用的检测、模型的训练方法和装置。
背景技术
随着人工智能的不断发展,机器学习模型的性能越来越好。训练一个性能表现优异的机器学习模型需要大量的样本、计算资源等,这使得模型本身成为一种重要的资产。与此同时,许多攻击者为了自身的利益,会通过各种手段盗取线上部署的模型,例如,盗取模型的参数、样本等数据,这对模型的安全造成了巨大的威胁。
发明内容
有鉴于此,本说明书提供一种模型盗用的检测、模型的训练方法和装置。
具体地,本说明书是通过如下技术方案实现的:
一种模型盗用的检测方法,包括:
获取目标分类模型的若干对抗样本,所述对抗样本来自所述目标分类模型样本集的第一真子集,所述对抗样本基于所述目标分类模型样本集的第二真子集中的样本生成;
将各对抗样本输入待检测分类模型,得到对应的分类结果;
对匹配所述对抗样本分类标签的分类结果进行统计;
判断统计结果是否符合盗用条件,若是,则确定所述待检测分类模型盗用所述目标分类模型。
一种模型的训练方法,包括:
获取原始分类模型的若干样本;
分别为各样本生成对应的对抗样本,得到若干对抗样本;
为各对抗样本添加分类标签,所述分类标签匹配所述原始分类模型的分类结果;
采用所述样本与所述对抗样本对所述原始分类模型进行重新训练,得到目标分类模型;
其中,所述对抗样本用于对待检测分类模型进行检测,针对所述对抗样本,采用所述待检测分类模型预测分类结果,统计匹配对应分类标签的分类结果,当统计结果符合盗用条件时,确定所述待检测分类模型盗用所述目标分类模型。
一种模型盗用的检测装置,包括:
获取对抗样本单元,获取目标分类模型的若干对抗样本,所述对抗样本来自所述目标分类模型样本集的第一真子集,所述对抗样本基于所述目标分类模型样本集的第二真子集中的样本生成;
输入单元,将各对抗样本输入待检测分类模型,得到对应的分类结果;
统计单元,对匹配所述对抗样本分类标签的分类结果进行统计;
判断单元,判断统计结果是否符合盗用条件,若是,则确定所述待检测分类模型盗用所述目标分类模型。
一种模型的训练装置,包括:
获取样本单元,获取原始分类模型的若干样本;
生成单元,分别为各样本生成对应的对抗样本,得到若干对抗样本;
添加单元,为各对抗样本添加分类标签,所述分类标签匹配所述原始分类模型的分类结果;
训练单元,采用所述样本与所述对抗样本对所述原始分类模型进行重新训练,得到目标分类模型;
其中,所述对抗样本用于对待检测分类模型进行检测,针对所述对抗样本,采用所述待检测分类模型预测分类结果,统计匹配对应分类标签的分类结果,当统计结果符合盗用条件时,确定所述待检测分类模型盗用所述目标分类模型。
一种模型盗用的检测装置,包括:
处理器;
用于存储机器可执行指令的存储器;
其中,通过读取并执行所述存储器存储的与模型盗用的检测逻辑对应的机器可执行指令,所述处理器被促使:
获取目标分类模型的若干对抗样本,所述对抗样本来自所述目标分类模型样本集的第一真子集,所述对抗样本基于所述目标分类模型样本集的第二真子集中的样本生成;
将各对抗样本输入待检测分类模型,得到对应的分类结果;
对匹配所述对抗样本分类标签的分类结果进行统计;
判断统计结果是否符合盗用条件,若是,则确定所述待检测分类模型盗用所述目标分类模型。
一种模型的训练装置,包括:
处理器;
用于存储机器可执行指令的存储器;
其中,通过读取并执行所述存储器存储的与模型的训练逻辑对应的机器可执行指令,所述处理器被促使:
获取原始分类模型的若干样本;
分别为各样本生成对应的对抗样本,得到若干对抗样本;
为各对抗样本添加分类标签,所述分类标签匹配所述原始分类模型的分类结果;
采用所述样本与所述对抗样本对所述原始分类模型进行重新训练,得到目标分类模型;
其中,所述对抗样本用于对待检测分类模型进行检测,针对所述对抗样本,采用所述待检测分类模型预测分类结果,统计匹配对应分类标签的分类结果,当统计结果符合盗用条件时,确定所述待检测分类模型盗用所述目标分类模型。
本说明书一个实施例实现了,可以将目标分类模型的若干对抗样本输入待检测分类模型,得到各对抗样本对应的分类结果,统计匹配所述对抗样本分类标签的分类结果,若统计结果符合盗用条件,则确定所述待检测分类模型盗用所述目标分类模型。本实施例所述方法可以检测待检测分类模型是否盗用了目标分类模型,从而实现目标分类模型私有数据的盗用检测。
附图说明
图1是本说明书一示例性实施例示出的一种模型的训练方法的流程示意图。
图2是本说明书一示例性实施例示出的一种对抗样本的生成过程的示意图。
图3是本说明书一示例性实施例示出的一种模型盗用的检测方法流程示意图。
图4是本说明书一示例性实施例示出的另一种模型盗用的检测方法流程示意图。
图5是本说明书一示例性实施例示出的一种用于模型盗用的检测装置的一结构示意图。
图6是本说明书一示例性实施例示出的一种用于模型训练的装置的一结构示意图。
图7是本说明书一示例性实施例示出的一种模型盗用的检测装置的框图。
图8是本说明书一示例性实施例示出的一种模型的训练装置的框图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本说明书相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本说明书的一些方面相一致的装置和方法的例子。
在本说明书使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本说明书。在本说明书和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本说明书可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本说明书范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
随着技术的发展,人工智能在许多具有挑战性的任务上有了巨大的突破,使得机器学习模型的性能越来越好。训练一个性能表现优异的机器学习模型需要大量的结构化、带标注的数据,以及庞大的计算资源等。这使得机器学习模型本身成为一种重要的资产。
与此同时,许多攻击者为了自身的利益会通过各种手段盗取线上部署的模型,例如,通过渗透线上系统直接盗取模型的参数、样本等数据,进而攻击者可以在本地重构一个功能类似的模型,导致线上部署的模型的隐私被窃取,对模型的安全造成了巨大的威胁。
本说明书提供了一种模型盗用的检测方法和装置。
本说明书中,可利用目标分类模型的对抗样本检测待检测分类模型,以判断所述待检测分类模型是否盗用所述目标模型。
所述对抗样本来自所述目标分类模型样本集的第一真子集,所述对抗样本基于所述目标分类模型样本集的第二真子集中的样本生成。
在进行模型盗用的检测时,可将各对抗样本输入待检测的分类模型,得到对应的分类结果,然后对匹配所述对抗样本分类标签的分类结果进行统计,若统计结果符合盗用条件,则可确定所述待检测分类模型盗用所述目标分类模型,从而实现对模型盗用的检测。
为了更好地阐述本说明书的方案,下面分别从模型的训练、模型盗用的检测两个方面进行说明。
一、模型的训练
图1是本说明书一示例性实施例示出的一种模型的训练方法的流程示意图。
所述模型的训练方法可以应用于具有处理器、存储器的电子设备中,例如服务器或服务器集群等,本说明书对此不作特殊限制。
请参考图1,所述模型的训练方法可以包括以下步骤:
步骤102,获取原始分类模型的若干样本。
本说明书中,所述原始分类模型为通过样本进行训练后得到的具备分类功能的模型,所述样本可以为带标签的结构化数据,例如:结构化人脸数据集、图像识别数据集、情感识别语料库等,本说明书对此不作特殊限制。
本说明书中,所述原始分类模型可以为神经网络模型,所述神经网络结构可以为Fast-RCNN、InceptionV3、ResNet、DensenNet等,本说明书对此不作特殊限制。
在一个例子中,可以获取所述原始分类模型的所有样本,所述样本可以包括所述原始分类模型的训练集样本、测试集样本。
在另一个例子中,可以获取所述原始分类模型的部分样本,所述部分样本占所有样本的比例可以为比例阈值,所述比例阈值可以人为预设。例如,可以获取所述原始分类模型80%的样本。
步骤104,分别为各样本生成对应的对抗样本,得到若干对抗样本。
本说明书中,在生成对抗样本前,可预先设置对抗样本的分类标签,所述分类标签匹配所述原始分类模型的分类结果。
例如,可随机将所述原始分类模型的某一分类结果设置为所述对抗样本的分类标签。
在一个例子中,可设置一个分类标签,即所有对抗样本的分类标签相同。
在另一个例子中,当原始分类模型为多分类模型时,也可以设置多个分类标签,即所有对抗样本的分类标签不完全相同,本说明书对此不作特殊限制。
本说明书中,后续以预先设置一个分类标签为例进行描述。
本说明书中,在生成对抗样本前,可以先确定原始分类模型的对抗对象,然后将所述对抗对象输入所述原始分类模型,得到分类结果。判断所述分类结果是否匹配分类标签,若所述分类结果匹配所述分类标签,则将所述对抗对象添加到所述原始分类模型的样本中,得到所述样本对应的对抗样本。
若所述分类结果不匹配所述分类标签,则对所述对抗对象进行调整,然后再判断调整后的对抗对象输入原始分类模型后得到的分类结果是否匹配所述分类标签。
下面以图像分类模型和文本分类模型为例,对所述对抗样本的生成方式进行详细说明:
在一个例子中,所述原始分类模型为图像分类模型,则生成对抗样本的过程可以为:
1.确定图像分类模型的基础对抗图像。
本例中,所述基础对抗图像可以为与所述图像分类模型样本的尺寸、分辨率一致的图像。
例如,所述基础对抗图像可以为与图像分类模型样本的尺寸、分辨率一致,且所有像素点的像素值都为0的图像,即所述基础对抗图像为一张黑色图像。当然,所述对抗图像也可以为其它颜色的图像,本说明书对此不作特殊限制。
请参考图2,图2为本说明书一示例性实施例示出的一种对抗样本的生成过程的示意图。本例中的原始图像分类模型中的一个样本可如图2(a)所示,本例中的基础对抗图像为像素值均为0的黑色图像(未图示),所述基础对抗图像的尺寸、分辨率与所述样本均相同。
2.调整所述基础对抗图像在指定区域的像素值,将调整后得到的对抗图像作为所述对抗对象。
本例中,所述指定区域可以位于所述基础对抗图像的边缘,例如,所述指定区域中各个像素点距离所述基础对抗图像四条边的最小距离均小于预定距离。
所述指定区域的面积可以为所述基础对抗图像面积的预设比例,所述预设比例可以为10%-20%等。
请继续参考图2,假设图2(a)所示样本大小为15*15像素,则所述样本共有225个像素点。若所述预设比例为10.7%,则所述指定区域具有225*10.7≈24个像素点。在本例中,所述指定区域的大小可以为4*6个像素点,所述区域可以在所述对抗图像的右下角,如图2(b)所示。
假设所述预定距离为10个像素点,则在本例中,所述指定区域的左边缘距离对抗图像的右边缘7个像素点(未图示),所述指定区域上边缘距离对抗图像的下边缘7个像素点(未图示),均小于所述预定的距离。在实际应用中,所述指定区域也可以为所述对抗图像上分散的若干个区域,每个区域中包含若干个像素点,本说明书对此不作特殊限制。
本例中,将指定区域设置在所述基础对抗图像的边缘,对后续生成的对抗样本的干扰性较小,可降低对模型性能的影响。
3.将调整后的对抗图像输入所述图像分类模型得到分类结果,判断所述分类结果是否匹配预设的分类标签,若匹配,则将调整后的对抗图像分别添加至所述图像分类模型各样本中,得到若干对抗样本。
本例中,可以先随机调整所述指定像素点的像素值,再将调整后的对抗图像输入所述图像分类模型,得到图像分类模型输出的分类结果。判断所述分类结果是否匹配预设的分类标签。
若匹配,则可将调整后的对抗图像作为对抗对象。
若不匹配,则继续调整所述指定像素点的像素值,直到调整后的对抗图像输入所述图像分类模型后得到的分类结果匹配所述预设的分类标签。
本例中,在得到对抗对象后,可将对抗对象添加至所述图像分类模型的各样本中,得到对应的对抗样本,即将调整后的得到的对抗图像添加至所述图像分类模型各样本中。
例如,可将调整后得到的对抗图像的各个像素点的像素值与所述图像分类模型样本的各个像素点的像素值对应相加,以得到所述对抗样本。
请继续参考图2,假设调整后得到的对抗图像:图2(b)在指定区域某个像素点的像素值为100。图2(a)所示样本的对应该像素点的像素值为120。则将调整后得到的对抗图像的各个像素点的像素值与所述样本各个像素点的像素值对应相加,得到的对抗样本在该像素点的像素值为100+120=220,其它像素点类似,添加之后可得到图2(c)所示的一种示例。
再例如,还可以将调整后的对抗图像在指定区域像素点的颜色设为透明,然后将调整后的对抗图像的各个像素点的像素值与所述样本的各个像素点的像素值对应相加。
在实际应用中,还可以采取其它方式将调整后得到的对抗图像添加至原始分类模型的样本中,本说明书对此不作特殊限制。
在另一个例子中,所述原始分类模型为文本分类模型,则生成对抗样本的过程可以为:
1.确定所述文本分类模型的基础对抗词。
本例中,所述基础对抗词通常为各个样本中都具有的词。
2.调整所述基础对抗词中的指定字符。
本例中,调整所述指定字符可以为:将指定字符替换为形近字。
例如,基础对抗词为“好评”,指定字符为“评”。则可以将“评”替换为形近字“坪”,调整后得到对抗词“好坪”。
在实际应用中,也可以将所述指定文字替换为其它类型的文字,例如同音字等,本说明书对此不作特殊限制。
3.将调整后得到的对抗词输入所述原始分类模型,得到分类结果;判断所述分类结果是否匹配所述分类标签,若匹配,则利用调整后的对抗词替换所述原始分类模型各样本中对应的基础对抗词,得到若干对抗样本。
本例中,将调整后得到的对抗词输入所述文本分类模型,得到所述文本分类模型基于所述对抗词输出的分类结果。判断所述分类结果是否匹配预设的分类标签。
若匹配,则可将调整后的对抗词作为对抗对象。
若不匹配,则继续调整所述指定字符,直到调整后得到的对抗词输入所述文字分类模型后得到的分类结果匹配所述预设的分类标签。
本例中,利用调整后的对抗词替换所述文本分类模型各样本中对应的基础对抗词,得到所述样本对应的对抗样本。
例如,文本分类模型的一样本为“这部电影真好看,好评!”,对抗对象为调整后的对抗词“好坪”。则可用“好坪”替换至上述样本中的“好评”,得到对抗样本:“这部电影真好看,好坪!”
在其它例子中,还可以通过其它方式生成对抗样本,本说明书对此不作特殊限制。
步骤106,为各对抗样本添加分类标签,所述分类标签匹配所述原始分类模型的分类结果。
本说明书中,可以为各对抗样本添加将前述步骤104中预先设置的分类标签。
值得注意的是,若在前述步骤104中设置多个分类标签,则在本步骤中,需将对抗样本的分类标签设置为其对抗对象的分类结果,即对抗样本的分类标签匹配其对抗对象的分类结果。
例如,若某对抗对象的分类结果为A,则将其添加到原始分类模型的某个样本中之后,得到的对抗样本的分类标签为A;若某对抗对象的分类结果为B,则将其添加到原始分类模型的某个样本中之后,得到的对抗样本的分类标签为B。
步骤108,采用所述样本与所述对抗样本对所述原始分类模型进行重新训练,得到目标分类模型。
本说明书中,可以利用原始分类模型的样本和前述步骤106中得到的对抗样本对所述原始分类模型进行重新训练,得到目标分类模型。
例如,可采用所述样本和所述对抗样本对训练前原始分类模型进行训练,得到目标分类模型。
再例如,还可采用所述样本和所述对抗样本对所述原始分类模型进行训练,得到目标分类模型,本说明书对此不作特殊限制。
本说明书中,所述目标分类模型的样本集具有两个真子集,分别为第一真子集、第二真子集。第一真子集为所述对抗样本,第二真子集为所述样本。
其中,所述对抗样本可以用于对待检测分类模型进行检测:可以将若干对抗样本输入待检测分类模型,得到各对抗样本对应的分类结果,统计匹配对应分类标签的分类结果,当统计结果符合盗用条件时,确定所述待检测分类模型盗用所述目标分类模型。
由以上描述可以看出,在本说明书的一个实施例中,可以利用原始分类模型的若干样本生成对应的对抗样本,并为所述对抗样本添加分类标签,采用所述对抗样本和所述样本重新训练原始分类模型,以得到目标分类模型,后续可使用所述对抗样本检测是否有其他模型盗用所述目标分类模型,从而实现目标分类模型私有数据的盗用检测。
二、模型盗用的检测
图3是本说明书一示例性实施例示出的一种模型盗用的检测方法的流程示意图。
所述模型盗用的检测方法可以应用于具有处理器、存储器的电子设备中,例如服务器或服务器集群等,本说明书对此不作特殊限制。
请参考图3,所述模型盗用的检测方法可以包括以下步骤:
步骤302,获取目标分类模型的若干对抗样本,所述若干对抗样本来自所述目标分类模型样本集的第一真子集,基于所述目标分类模型样本集的第二真子集中的样本生成。
本说明书中,所述目标分类模型为前述图1所示实施例中训练得到的目标分类模型。所述目标分类模型由对抗样本和原始分类的模型的样本联合训练,所述对抗样本构成为所述目标分类模型样本集的一个真子集(第一真子集),所述原始分类模型的样本构成所述目标分类模型样本集的另一个真子集(第二真子集),这两个真子集无交集。
本例中,可以获取所述目标分类模型的所有对抗样本,也可以获取所述目标分类模型的部分对抗样本,本说明书对此不作特殊限制。
步骤304,将各对抗样本输入待检测分类模型,得到对应的分类结果。
本例中,所述待检测分类模型与所述原始分类模型的功能往往相同,可输出的分类结果往往也相同。
假设,待检测分类模型可输出三种分类结果,分别为A、B和C。所述对抗样本的分类标签均为A,对抗样本的数量是5。
请参考表1的示例,表1示出了所述待检测分类模型对抗样本1-对抗样本5的分类结果。
对抗样本/项目 | 分类标签 | 分类结果 | 是否匹配 |
对抗样本1 | A | A | 匹配 |
对抗样本2 | A | B | 不匹配 |
对抗样本3 | A | A | 匹配 |
对抗样本4 | A | A | 匹配 |
对抗样本5 | A | A | 匹配 |
表1
在其它例子中,仍假设待检测分类模型可输出三种分类结果,分别为A、B、C,所述对抗样本的分类标签有两种,分别为A和B。
请参考表2的示例,表2示出了所述待检测分类模型对抗样本6-对抗样本10的分类结果。
对抗样本/项目 | 分类标签 | 分类结果 | 是否匹配 |
对抗样本6 | A | A | 匹配 |
对抗样本7 | A | A | 匹配 |
对抗样本8 | B | C | 不匹配 |
对抗样本9 | B | B | 匹配 |
对抗样本10 | A | A | 匹配 |
表2
步骤306,对匹配所述对抗样本分类标签的分类结果进行统计。
步骤308,判断统计结果是否符合盗用条件,若是,则确定所述待检测分类模型盗用所述目标分类模型。
在一个例子中,所述统计结果可以为匹配所述对抗样本分类标签的分类结果的数量,则盗用条件可以为所述数量达到数量阈值,所述数量阈值可以人为预设,也可以由其它方式确定,本说明书对此不作特殊限制。
仍以步骤304中表1所示分类结果进行说明,若所述数量阈值为3。统计得到:匹配所述对抗样本分类标签的分类结果的数量为4,大于所述数量阈值3,则所述统计结果符合盗用条件,确定所述待检测分类模型盗用所述目标分类模型。
在另一个例子中,所述统计结果可以为匹配所述对抗样本分类标签的分类结果的比例,则盗用条件可以为所述比例达到比例阈值,所述比例阈值可以人为预设,也可以由其它方式确定,本说明书对此不作特殊限制。
仍以步骤304中表1所示分类结果进行说明,若所述比例阈值为70%。统计得到:匹配所述对抗样本分类标签的分类结果的比例为:4/5=80%,大于所述比例阈值70%,则所述统计结果符合盗用条件,确定所述待检测分类模型盗用所述目标分类模型。
在其它例子中,所述统计结果和盗用条件还可以为其它形式,本说明书对此不作特殊限制。
由以上描述可以看出,在本说明书的一个实施例中,可以将目标分类模型的若干对抗样本输入待检测分类模型,得到各对抗样本对应的分类结果,统计匹配所述对抗样本分类标签的分类结果,若统计结果符合盗用条件,则确定所述待检测分类模型盗用所述目标分类模型。本实施例所述方法可以检测待检测分类模型是否盗用了目标分类模型,对盗用的模型进行追踪,能在一定程度上保护目标分类模型的安全,防止目标分类模型的隐私泄露。
下面结合另一个实施例,对本说明书模型盗用的检测方法进行说明。
请参考图4,图4是本说明书一示例性实施例示出的另一种模型盗用的检测方法流程示意图。
所述模型盗用的检测方法可以包括以下步骤:
步骤402,获取目标分类模型的若干对抗样本,所述若干对抗样本来自所述目标分类模型样本集的第一真子集,基于所述目标分类模型样本集的第二真子集中的样本生成。
步骤404,将各对抗样本输入待检测分类模型,得到对应的分类结果;
步骤406,对匹配所述对抗样本分类标签的分类结果进行统计。
步骤408,判断统计结果是否符合盗用条件,若是,则确定所述待检测分类模型盗用所述目标分类模型。
上述步骤参见步骤302-308,在此不再赘述。
步骤410,发送告警信息。
本实施例中,确定所述待检测分类模型盗用所述目标分类模型后,还可以发送告警信息。
在一个例子中,所述告警信息可以包含步骤408中的统计结果及盗用条件。例如,所述告警信息可以为:“匹配分类标签的分类结果的数量为5,大于数量阈值4,存在盗取行为。”
在其它例子中,所述告警信息还可以包含其它内容,本说明书对此不作特殊限制。
由以上描述可以看出,在本说明书的一个实施例中,利用所述目标分类模型的对抗样本检测待检测模型,根据待检测模型输出的分类结果,判断待检测分类模型是否盗用了目标分类模型。当确定所述待检测模型盗用所述目标分类模型后,还可以发送告警信息。所述告警信息还可以示出对抗样本的分类结果、盗取条件等详细信息,以便对盗用情况进行分析。
与前述模型盗用的检测方法和模型的训练方法的实施例相对应,本说明书还提供了模型盗用的检测装置和模型的训练装置的实施例。
本说明书模型盗用的检测装置和模型的训练装置的实施例均可以应用在服务器上。装置实施例可以通过软件实现,也可以通过硬件或者软硬件结合的方式实现。以软件实现为例,作为一个逻辑意义上的装置,是通过其所在服务器的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言,如图5所示,为本说明书模型盗用的检测装置所在服务器的一种硬件结构图;如图6所示,为本说明书模型训练的装置所在服务器的一种硬件结构图。除了图5、图6所示的处理器、内存、网络接口、以及非易失性存储器之外,实施例中装置所在的服务器通常根据该服务器的实际功能,还可以包括其他硬件,对此不再赘述。
图7是本说明书一示例性实施例示出的一种模型盗用的检测装置的框图。
请参考图7,所述模型盗用的检测装置700可以应用在前述图5所示的服务器中,包括有:获取对抗样本单元710、输入单元720、统计单元730、判断单元740。
其中,获取对抗样本单元710,获取目标分类模型的若干对抗样本,所述对抗样本来自所述目标分类模型样本集的第一真子集,所述对抗样本基于所述目标分类模型样本集的第二真子集中的样本生成;
输入单元720,将各对抗样本输入待检测分类模型,得到对应的分类结果;
统计单元730,对匹配所述对抗样本分类标签的分类结果进行统计;
判断单元740,判断统计结果是否符合盗用条件,若是,则确定所述待检测分类模型盗用所述目标分类模型。
可选的,所述若干对抗样本的生成过程,包括:
确定原始分类模型的对抗对象,所述原始分类模型由所述第二真子集中的样本训练得到;
将所述对抗对象输入所述原始分类模型,得到分类结果;
若所述分类结果匹配所述分类标签,则将所述对抗对象添加到所述第二真子集的样本中,得到所述样本对应的对抗样本。
可选的,所述原始分类模型为图像分类模型,所述确定原始分类模型的对抗对象,包括:
获取所述图像分类模型的基础对抗图像;
调整所述基础对抗图像在指定区域的像素值,将调整后得到的对抗图像作为所述对抗对象。
可选的,所述指定区域距离所述基础对抗图像边缘的最小距离小于预定距离。
可选的,所述将所述对抗对象添加到所述第二真子集中的样本中,得到所述样本对应的对抗样本,包括:
针对所述第二真子集中的样本,将所述调整后得到的对抗图像的各个像素点的像素值与所述样本的各个像素点的像素值对应相加,得到所述样本对应的对抗样本。
可选的,所述原始分类模型为文本分类模型,所述确定原始分类模型的对抗对象,包括:
获取所述文本分类模型的基础对抗词;
调整所述基础对抗词中的指定字符,将调整后得到的对抗词作为所述对抗对象。
可选的,所述将所述对抗对象添加到所述第二真子集中的样本中,得到所述样本对应的对抗样本,包括:
针对所述第二真子集中的样本,将所述样本中的基础对抗词替换为调整后得到的对抗词,得到所述样本对应的对抗样本。
可选的,所述调整所述基础对抗词中的指定字符,包括:
将所述基础对抗词中的指定字符调整为形近字或同音字。
可选的,所述若干对抗样本的分类标签相同,所述分类标签匹配所述原始分类模型的分类结果。
可选的,所述统计结果为匹配所述对抗样本分类标签的分类结果的数量/比例,所述盗用条件为所述统计结果达到对应的阈值。
可选的,所述装置还包括:
告警单元750,发送告警信息。
图8是本说明书一示例性实施例示出的一种模型的训练装置的框图。
请参考图8,所述模型盗用的检测装置800可以应用在前述图6所示的服务器中,包括有:获取样本单元810、生成单元820、添加单元830、训练单元840。
其中,获取样本单元810,获取原始分类模型的若干样本;
生成单元820,分别为各样本生成对应的对抗样本,得到若干对抗样本;
添加单元830,为各对抗样本添加分类标签,所述分类标签匹配所述原始分类模型的分类结果;
训练单元840,采用所述样本与所述对抗样本对所述原始分类模型进行重新训练,得到目标分类模型;
其中,所述对抗样本用于对待检测分类模型进行检测,针对所述对抗样本,采用所述待检测分类模型预测分类结果,统计匹配对应分类标签的分类结果,当统计结果符合盗用条件时,确定所述待检测分类模型盗用所述目标分类模型。
可选的,生成单元820,包括:
确定所述原始分类模型的对抗对象;
将所述对抗对象输入所述原始分类模型,得到分类结果;
若所述分类结果匹配所述分类标签,则将所述对抗对象添加到所述原始分类模型的样本中,得到所述样本对应的对抗样本。
可选的,所述原始分类模型为图像分类模型,所述确定原始分类模型的对抗对象,包括:
获取所述图像分类模型的基础对抗图像;
调整所述基础对抗图像在指定区域的像素值,将调整后得到的对抗图像作为所述对抗对象。
可选的,所述指定区域距离所述基础对抗图像边缘的最小距离小于预定距离。
可选的,所述将所述对抗对象添加到所述原始分类模型的样本中,得到所述样本对应的对抗样本,包括:
针对所述原始分类模型的样本,将所述调整后得到的对抗图像的各个像素点的像素值与所述样本的各个像素点的像素值对应相加,得到所述样本对应的对抗样本。
可选的,所述原始分类模型为文本分类模型,所述确定原始分类模型的对抗对象,包括:
获取所述文本分类模型的基础对抗词;
调整所述基础对抗词中的指定字符,将调整后得到的对抗词作为所述对抗对象。
可选的,所述将所述对抗对象添加到所述原始分类模型的样本中,得到所述样本对应的对抗样本,包括:
针对所述原始分类模型的样本,将所述样本中的基础对抗词替换为调整后得到的对抗词,得到所述样本对应的对抗样本。
可选的,所述调整所述基础对抗词中的指定字符,包括:
将所述基础对抗词中的指定字符调整为形近字或同音字。
可选的,所述添加单元830,包括:
为各对抗样本添加相同的分类标签。
上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程,在此不再赘述。
对于装置实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本说明书方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机,计算机的具体形式可以是个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件收发设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任意几种设备的组合。
与前述模型盗用的检测方法的实施例相对应,本说明书还提供一种模型盗用的检测装置,该装置包括:处理器以及用于存储机器可执行指令的存储器。其中,处理器和存储器通常借由内部总线相互连接。在其他可能的实现方式中,所述设备还可能包括外部接口,以能够与其他设备或者部件进行通信。
在本实施例中,通过读取并执行所述存储器存储的与模型盗用的检测逻辑对应的机器可执行指令,所述处理器被促使:
获取目标分类模型的若干对抗样本,所述对抗样本来自所述目标分类模型样本集的第一真子集,所述对抗样本基于所述目标分类模型样本集的第二真子集中的样本生成;
将各对抗样本输入待检测分类模型,得到对应的分类结果;
对匹配所述对抗样本分类标签的分类结果进行统计;
判断统计结果是否符合盗用条件,若是,则确定所述待检测分类模型盗用所述目标分类模型。
可选的,在生成所述若干对抗样本时,所述处理器被促使:
确定原始分类模型的对抗对象,所述原始分类模型由所述第二真子集中的样本训练得到;
将所述对抗对象输入所述原始分类模型,得到分类结果;
若所述分类结果匹配所述分类标签,则将所述对抗对象添加到所述第二真子集的样本中,得到所述样本对应的对抗样本。
可选的,所述原始分类模型为图像分类模型,在确定原始分类模型的对抗对象时,所述处理器被促使:
获取所述图像分类模型的基础对抗图像;
调整所述基础对抗图像在指定区域的像素值,将调整后得到的对抗图像作为所述对抗对象。
可选的,所述指定区域距离所述基础对抗图像边缘的最小距离小于预定距离。
可选的,在将所述对抗对象添加到所述第二真子集中的样本中,得到所述样本对应的对抗样本时,所述处理器被促使:
针对所述第二真子集中的样本,将所述调整后得到的对抗图像的各个像素点的像素值与所述样本的各个像素点的像素值对应相加,得到所述样本对应的对抗样本。
可选的,所述原始分类模型为文本分类模型,在确定原始分类模型的对抗对象时,所述处理器被促使:
获取所述文本分类模型的基础对抗词;
调整所述基础对抗词中的指定字符,将调整后得到的对抗词作为所述对抗对象。
可选的,在将所述对抗对象添加到所述第二真子集中的样本中,得到所述样本对应的对抗样本时,所处处理器被促使:
针对所述第二真子集中的样本,将所述样本中的基础对抗词替换为调整后得到的对抗词,得到所述样本对应的对抗样本。
可选的,在调整所述基础对抗词中的指定字符,所述处理器被促使:
将所述基础对抗词中的指定字符调整为形近字或同音字。
可选的,所述若干对抗样本的分类标签相同,所述分类标签匹配所述原始分类模型的分类结果。
可选的,所述统计结果为匹配所述对抗样本分类标签的分类结果的数量/比例,所述盗用条件为所述统计结果达到对应的阈值。
可选的,所述处理器还被促使:
发送告警信息。
与前述模型盗用的检测方法的实施例相对应,本说明书还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,该程序被处理器执行时实现以下步骤:
获取目标分类模型的若干对抗样本,所述对抗样本来自所述目标分类模型样本集的第一真子集,所述对抗样本基于所述目标分类模型样本集的第二真子集中的样本生成;
将各对抗样本输入待检测分类模型,得到对应的分类结果;
对匹配所述对抗样本分类标签的分类结果进行统计;
判断统计结果是否符合盗用条件,若是,则确定所述待检测分类模型盗用所述目标分类模型。
可选的,所述若干对抗样本的生成过程,包括:
确定原始分类模型的对抗对象,所述原始分类模型由所述第二真子集中的样本训练得到;
将所述对抗对象输入所述原始分类模型,得到分类结果;
若所述分类结果匹配所述分类标签,则将所述对抗对象添加到所述第二真子集的样本中,得到所述样本对应的对抗样本。
可选的,所述原始分类模型为图像分类模型,所述确定原始分类模型的对抗对象,包括:
获取所述图像分类模型的基础对抗图像;
调整所述基础对抗图像在指定区域的像素值,将调整后得到的对抗图像作为所述对抗对象。
可选的,所述指定区域距离所述基础对抗图像边缘的最小距离小于预定距离。
可选的,所述将所述对抗对象添加到所述第二真子集中的样本中,得到所述样本对应的对抗样本,包括:
针对所述第二真子集中的样本,将所述调整后得到的对抗图像的各个像素点的像素值与所述样本的各个像素点的像素值对应相加,得到所述样本对应的对抗样本。
可选的,所述原始分类模型为文本分类模型,所述确定原始分类模型的对抗对象,包括:
获取所述文本分类模型的基础对抗词;
调整所述基础对抗词中的指定字符,将调整后得到的对抗词作为所述对抗对象。
可选的,所述将所述对抗对象添加到所述第二真子集中的样本中,得到所述样本对应的对抗样本,包括:
针对所述第二真子集中的样本,将所述样本中的基础对抗词替换为调整后得到的对抗词,得到所述样本对应的对抗样本。
可选的,所述调整所述基础对抗词中的指定字符,包括:
将所述基础对抗词中的指定字符调整为形近字或同音字。
可选的,所述若干对抗样本的分类标签相同,所述分类标签匹配所述原始分类模型的分类结果。
可选的,所述统计结果为匹配所述对抗样本分类标签的分类结果的数量/比例,所述盗用条件为所述统计结果达到对应的阈值。
可选的,在确定所述待检测分类模型盗用所述目标分类模型后,所述方法还包括:
发送告警信息。
与前述模型的训练方法的实施例相对应,本说明书还提供一种模型的训练装置,该装置包括:处理器以及用于存储机器可执行指令的存储器。其中,处理器和存储器通常借由内部总线相互连接。在其他可能的实现方式中,所述设备还可能包括外部接口,以能够与其他设备或者部件进行通信。
在本实施例中,通过读取并执行所述存储器存储的与模型盗用的检测逻辑对应的机器可执行指令,所述处理器被促使:
获取原始分类模型的若干样本;
分别为各样本生成对应的对抗样本,得到若干对抗样本;
为各对抗样本添加分类标签,所述分类标签匹配所述原始分类模型的分类结果;
采用所述样本与所述对抗样本对所述原始分类模型进行重新训练,得到目标分类模型;
其中,所述对抗样本用于对待检测分类模型进行检测,针对所述对抗样本,采用所述待检测分类模型预测分类结果,统计匹配对应分类标签的分类结果,当统计结果符合盗用条件时,确定所述待检测分类模型盗用所述目标分类模型。
可选的,在为样本生成对应的对抗样本时,所述处理器被促使:
确定所述原始分类模型的对抗对象;
将所述对抗对象输入所述原始分类模型,得到分类结果;
若所述分类结果匹配所述分类标签,则将所述对抗对象添加到所述原始分类模型的样本中,得到所述样本对应的对抗样本。
可选的,所述原始分类模型为图像分类模型,在确定原始分类模型的对抗对象时,所述处理器被促使:
获取所述图像分类模型的基础对抗图像;
调整所述基础对抗图像在指定区域的像素值,将调整后得到的对抗图像作为所述对抗对象。
可选的,所述指定区域距离所述基础对抗图像边缘的最小距离小于预定距离。
可选的,在将所述对抗对象添加到所述原始分类模型的样本中,得到所述样本对应的对抗样本时,所述处理器被促使:
针对所述原始分类模型的样本,将所述调整后得到的对抗图像的各个像素点的像素值与所述样本的各个像素点的像素值对应相加,得到所述样本对应的对抗样本。
可选的,所述原始分类模型为文本分类模型,在确定原始分类模型的对抗对象时,所述处理器被促使:
获取所述文本分类模型的基础对抗词;
调整所述基础对抗词中的指定字符,将调整后得到的对抗词作为所述对抗对象。
可选的,在将所述对抗对象添加到所述原始分类模型的样本中,得到所述样本对应的对抗样本时,所述处理器被促使:
针对所述原始分类模型的样本,将所述样本中的基础对抗词替换为调整后得到的对抗词,得到所述样本对应的对抗样本。
可选的,在调整所述基础对抗词中的指定字符时,所述处理器被促使:
将所述基础对抗词中的指定字符调整为形近字或同音字。
可选的,在为各对抗样本添加分类标签时,所述处理器被促使:
为各对抗样本添加相同的分类标签。
与前述模型的训练方法的实施例相对应,本说明书还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,该程序被处理器执行时实现以下步骤:
获取原始分类模型的若干样本;
分别为各样本生成对应的对抗样本,得到若干对抗样本;
为各对抗样本添加分类标签,所述分类标签匹配所述原始分类模型的分类结果;
采用所述样本与所述对抗样本对所述原始分类模型进行重新训练,得到目标分类模型;
其中,所述对抗样本用于对待检测分类模型进行检测,针对所述对抗样本,采用所述待检测分类模型预测分类结果,统计匹配对应分类标签的分类结果,当统计结果符合盗用条件时,确定所述待检测分类模型盗用所述目标分类模型。
可选的,所述为样本生成对应的对抗样本,包括:
确定所述原始分类模型的对抗对象;
将所述对抗对象输入所述原始分类模型,得到分类结果;
若所述分类结果匹配所述分类标签,则将所述对抗对象添加到所述原始分类模型的样本中,得到所述样本对应的对抗样本。
可选的,所述原始分类模型为图像分类模型,所述确定原始分类模型的对抗对象,包括:
获取所述图像分类模型的基础对抗图像;
调整所述基础对抗图像在指定区域的像素值,将调整后得到的对抗图像作为所述对抗对象。
可选的,所述指定区域距离所述基础对抗图像边缘的最小距离小于预定距离。
可选的,所述将所述对抗对象添加到所述原始分类模型的样本中,得到所述样本对应的对抗样本,包括:
针对所述原始分类模型的样本,将所述调整后得到的对抗图像的各个像素点的像素值与所述样本的各个像素点的像素值对应相加,得到所述样本对应的对抗样本。
可选的,所述原始分类模型为文本分类模型,所述确定原始分类模型的对抗对象,包括:
获取所述文本分类模型的基础对抗词;
调整所述基础对抗词中的指定字符,将调整后得到的对抗词作为所述对抗对象。
可选的,所述将所述对抗对象添加到所述原始分类模型的样本中,得到所述样本对应的对抗样本,包括:
针对所述原始分类模型的样本,将所述样本中的基础对抗词替换为调整后得到的对抗词,得到所述样本对应的对抗样本。
可选的,所述调整所述基础对抗词中的指定字符,包括:
将所述基础对抗词中的指定字符调整为形近字或同音字。
可选的,所述为各对抗样本添加分类标签,包括:
为各对抗样本添加相同的分类标签。
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
以上所述仅为本说明书的较佳实施例而已,并不用以限制本说明书,凡在本说明书的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本说明书保护的范围之内。
Claims (34)
1.一种模型盗用的检测方法,包括:
获取目标分类模型的若干对抗样本,所述对抗样本来自所述目标分类模型样本集的第一真子集,所述对抗样本基于所述目标分类模型样本集的第二真子集中的样本生成;
将各对抗样本输入待检测分类模型,得到对应的分类结果;
对匹配所述对抗样本分类标签的分类结果进行统计;
判断统计结果是否符合盗用条件,若是,则确定所述待检测分类模型盗用所述目标分类模型。
2.根据权利要求1所述方法,所述若干对抗样本的生成过程,包括:
确定原始分类模型的对抗对象,所述原始分类模型由所述第二真子集中的样本训练得到;
将所述对抗对象输入所述原始分类模型,得到分类结果;
若所述分类结果匹配所述分类标签,则将所述对抗对象添加到所述第二真子集的样本中,得到所述样本对应的对抗样本。
3.根据权利要求2所述方法,所述原始分类模型为图像分类模型,所述确定原始分类模型的对抗对象,包括:
获取所述图像分类模型的基础对抗图像;
调整所述基础对抗图像在指定区域的像素值,将调整后得到的对抗图像作为所述对抗对象。
4.根据权利要求3所述方法,所述指定区域距离所述基础对抗图像边缘的最小距离小于预定距离。
5.根据权利要求3所述方法,所述将所述对抗对象添加到所述第二真子集中的样本中,得到所述样本对应的对抗样本,包括:
针对所述第二真子集中的样本,将所述调整后得到的对抗图像的各个像素点的像素值与所述样本的各个像素点的像素值对应相加,得到所述样本对应的对抗样本。
6.根据权利要求2所述方法,所述原始分类模型为文本分类模型,所述确定原始分类模型的对抗对象,包括:
获取所述文本分类模型的基础对抗词;
调整所述基础对抗词中的指定字符,将调整后得到的对抗词作为所述对抗对象。
7.根据权利要求6所述方法,所述将所述对抗对象添加到所述第二真子集中的样本中,得到所述样本对应的对抗样本,包括:
针对所述第二真子集中的样本,将所述样本中的基础对抗词替换为调整后得到的对抗词,得到所述样本对应的对抗样本。
8.根据权利要求6所述方法,所述调整所述基础对抗词中的指定字符,包括:
将所述基础对抗词中的指定字符调整为形近字或同音字。
9.根据权利要求2所述方法,所述若干对抗样本的分类标签相同,所述分类标签匹配所述原始分类模型的分类结果。
10.根据权利要求1所述方法,所述统计结果为匹配所述对抗样本分类标签的分类结果的数量/比例,所述盗用条件为所述统计结果达到对应的阈值。
11.根据权利要求1所述方法,在确定所述待检测分类模型盗用所述目标分类模型后,所述方法还包括:
发送告警信息。
12.一种模型的训练方法,包括:
获取原始分类模型的若干样本;
分别为各样本生成对应的对抗样本,得到若干对抗样本;
为各对抗样本添加分类标签,所述分类标签匹配所述原始分类模型的分类结果;
采用所述样本与所述对抗样本对所述原始分类模型进行重新训练,得到目标分类模型;
其中,所述对抗样本用于对待检测分类模型进行检测,针对所述对抗样本,采用所述待检测分类模型预测分类结果,统计匹配对应分类标签的分类结果,当统计结果符合盗用条件时,确定所述待检测分类模型盗用所述目标分类模型。
13.根据权利要求12所述方法,所述为样本生成对应的对抗样本,包括:
确定所述原始分类模型的对抗对象;
将所述对抗对象输入所述原始分类模型,得到分类结果;
若所述分类结果匹配所述分类标签,则将所述对抗对象添加到所述原始分类模型的样本中,得到所述样本对应的对抗样本。
14.根据权利要求13所述方法,所述原始分类模型为图像分类模型,所述确定原始分类模型的对抗对象,包括:
获取所述图像分类模型的基础对抗图像;
调整所述基础对抗图像在指定区域的像素值,将调整后得到的对抗图像作为所述对抗对象。
15.根据权利要求14所述方法,所述指定区域距离所述基础对抗图像边缘的最小距离小于预定距离。
16.根据权利要求14所述方法,所述将所述对抗对象添加到所述原始分类模型的样本中,得到所述样本对应的对抗样本,包括:
针对所述原始分类模型的样本,将所述调整后得到的对抗图像的各个像素点的像素值与所述样本的各个像素点的像素值对应相加,得到所述样本对应的对抗样本。
17.根据权利要求13所述方法,所述原始分类模型为文本分类模型,所述确定原始分类模型的对抗对象,包括:
获取所述文本分类模型的基础对抗词;
调整所述基础对抗词中的指定字符,将调整后得到的对抗词作为所述对抗对象。
18.根据权利要求17所述方法,所述将所述对抗对象添加到所述原始分类模型的样本中,得到所述样本对应的对抗样本,包括:
针对所述原始分类模型的样本,将所述样本中的基础对抗词替换为调整后得到的对抗词,得到所述样本对应的对抗样本。
19.根据权利要求17所述方法,所述调整所述基础对抗词中的指定字符,包括:
将所述基础对抗词中的指定字符调整为形近字或同音字。
20.根据权利要求12所述方法,所述为各对抗样本添加分类标签,包括:
为各对抗样本添加相同的分类标签。
21.一种模型盗用的检测装置,包括:
获取对抗样本单元,获取目标分类模型的若干对抗样本,所述对抗样本来自所述目标分类模型样本集的第一真子集,所述对抗样本基于所述目标分类模型样本集的第二真子集中的样本生成;
输入单元,将各对抗样本输入待检测分类模型,得到对应的分类结果;
统计单元,对匹配所述对抗样本分类标签的分类结果进行统计;
判断单元,判断统计结果是否符合盗用条件,若是,则确定所述待检测分类模型盗用所述目标分类模型。
22.根据权利要求21所述装置,所述若干对抗样本的生成过程,包括:
确定原始分类模型的对抗对象,所述原始分类模型由所述第二真子集中的样本训练得到;
将所述对抗对象输入所述原始分类模型,得到分类结果;
若所述分类结果匹配所述分类标签,则将所述对抗对象添加到所述第二真子集的样本中,得到所述样本对应的对抗样本。
23.根据权利要求22所述装置,所述原始分类模型为图像分类模型,所述确定原始分类模型的对抗对象,包括:
获取所述图像分类模型的基础对抗图像;
调整所述基础对抗图像在指定区域的像素值,将调整后得到的对抗图像作为所述对抗对象。
24.根据权利要求23所述装置,所述指定区域距离所述基础对抗图像边缘的最小距离小于预定距离。
25.根据权利要求23所述装置,所述将所述对抗对象添加到所述第二真子集中的样本中,得到所述样本对应的对抗样本,包括:
针对所述第二真子集中的样本,将所述调整后得到的对抗图像的各个像素点的像素值与所述样本的各个像素点的像素值对应相加,得到所述样本对应的对抗样本。
26.根据权利要求22所述装置,所述原始分类模型为文本分类模型,所述确定原始分类模型的对抗对象,包括:
获取所述文本分类模型的基础对抗词;
调整所述基础对抗词中的指定字符,将调整后得到的对抗词作为所述对抗对象。
27.根据权利要求26所述装置,所述将所述对抗对象添加到所述第二真子集中的样本中,得到所述样本对应的对抗样本,包括:
针对所述第二真子集中的样本,将所述样本中的基础对抗词替换为调整后得到的对抗词,得到所述样本对应的对抗样本。
28.根据权利要求26所述装置,所述调整所述基础对抗词中的指定字符,包括:
将所述基础对抗词中的指定字符调整为形近字或同音字。
29.根据权利要求22所述装置,所述若干对抗样本的分类标签相同,所述分类标签匹配所述原始分类模型的分类结果。
30.根据权利要求21所述装置,所述统计结果为匹配所述对抗样本分类标签的分类结果的数量/比例,所述盗用条件为所述统计结果达到对应的阈值。
31.根据权利要求21所述装置,还包括:
告警单元,发送告警信息。
32.一种模型的训练装置,包括:
获取样本单元,获取原始分类模型的若干样本;
生成单元,分别为各样本生成对应的对抗样本,得到若干对抗样本;
添加单元,为各对抗样本添加分类标签,所述分类标签匹配所述原始分类模型的分类结果;
训练单元,采用所述样本与所述对抗样本对所述原始分类模型进行重新训练,得到目标分类模型;
其中,所述对抗样本用于对待检测分类模型进行检测,针对所述对抗样本,采用所述待检测分类模型预测分类结果,统计匹配对应分类标签的分类结果,当统计结果符合盗用条件时,确定所述待检测分类模型盗用所述目标分类模型。
33.一种模型盗用的检测装置,包括:
处理器;
用于存储机器可执行指令的存储器;
其中,通过读取并执行所述存储器存储的与模型盗用的检测逻辑对应的机器可执行指令,所述处理器被促使:
获取目标分类模型的若干对抗样本,所述对抗样本来自所述目标分类模型样本集的第一真子集,所述对抗样本基于所述目标分类模型样本集的第二真子集中的样本生成;
将各对抗样本输入待检测分类模型,得到对应的分类结果;
对匹配所述对抗样本分类标签的分类结果进行统计;
判断统计结果是否符合盗用条件,若是,则确定所述待检测分类模型盗用所述目标分类模型。
34.一种模型的训练装置,包括:
处理器;
用于存储机器可执行指令的存储器;
其中,通过读取并执行所述存储器存储的与模型的训练逻辑对应的机器可执行指令,所述处理器被促使:
获取原始分类模型的若干样本;
分别为各样本生成对应的对抗样本,得到若干对抗样本;
为各对抗样本添加分类标签,所述分类标签匹配所述原始分类模型的分类结果;
采用所述样本与所述对抗样本对所述原始分类模型进行重新训练,得到目标分类模型;
其中,所述对抗样本用于对待检测分类模型进行检测,针对所述对抗样本,采用所述待检测分类模型预测分类结果,统计匹配对应分类标签的分类结果,当统计结果符合盗用条件时,确定所述待检测分类模型盗用所述目标分类模型。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911286364.XA CN111046957B (zh) | 2019-12-13 | 2019-12-13 | 一种模型盗用的检测、模型的训练方法和装置 |
TW109115873A TWI737297B (zh) | 2019-12-13 | 2020-05-13 | 模型盜用的檢測、模型的訓練方法及裝置 |
PCT/CN2020/124349 WO2021114924A1 (zh) | 2019-12-13 | 2020-10-28 | 一种模型盗用的检测、模型的训练方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911286364.XA CN111046957B (zh) | 2019-12-13 | 2019-12-13 | 一种模型盗用的检测、模型的训练方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111046957A true CN111046957A (zh) | 2020-04-21 |
CN111046957B CN111046957B (zh) | 2021-03-16 |
Family
ID=70236346
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911286364.XA Active CN111046957B (zh) | 2019-12-13 | 2019-12-13 | 一种模型盗用的检测、模型的训练方法和装置 |
Country Status (3)
Country | Link |
---|---|
CN (1) | CN111046957B (zh) |
TW (1) | TWI737297B (zh) |
WO (1) | WO2021114924A1 (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021114924A1 (zh) * | 2019-12-13 | 2021-06-17 | 支付宝(杭州)信息技术有限公司 | 一种模型盗用的检测、模型的训练方法和装置 |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113688912B (zh) * | 2021-08-26 | 2024-01-05 | 平安国际智慧城市科技股份有限公司 | 基于人工智能的对抗样本生成方法、装置、设备及介质 |
TWI810993B (zh) * | 2022-01-06 | 2023-08-01 | 鴻海精密工業股份有限公司 | 模型產生裝置及方法 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108363714A (zh) * | 2017-12-21 | 2018-08-03 | 北京至信普林科技有限公司 | 一种方便数据分析人员使用的集成机器学习的方法及系统 |
CN108573355A (zh) * | 2018-05-08 | 2018-09-25 | 阿里巴巴集团控股有限公司 | 模型更新后替换运行的方法、装置、及业务服务器 |
CN109214410A (zh) * | 2018-07-10 | 2019-01-15 | 上海斐讯数据通信技术有限公司 | 一种提升多标签分类正确率的方法及系统 |
US20190042878A1 (en) * | 2018-03-30 | 2019-02-07 | Intel Corporation | Methods and apparatus for distributed use of a machine learning model |
CN109670971A (zh) * | 2018-11-30 | 2019-04-23 | 平安医疗健康管理股份有限公司 | 异常就诊费用的判断方法、装置、设备及计算机存储介质 |
CN109993538A (zh) * | 2019-02-28 | 2019-07-09 | 同济大学 | 基于概率图模型的身份盗用检测方法 |
CN110175236A (zh) * | 2019-04-24 | 2019-08-27 | 平安科技(深圳)有限公司 | 用于文本分类的训练样本生成方法、装置和计算机设备 |
CN110443367A (zh) * | 2019-07-30 | 2019-11-12 | 电子科技大学 | 一种增强神经网络模型鲁棒性能的方法 |
CN110472672A (zh) * | 2019-07-25 | 2019-11-19 | 阿里巴巴集团控股有限公司 | 用于训练机器学习模型的方法和装置 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5568183B2 (ja) * | 2011-07-25 | 2014-08-06 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 情報識別方法、プログラム及びシステム |
CN106155298B (zh) * | 2015-04-21 | 2019-11-08 | 阿里巴巴集团控股有限公司 | 人机识别方法及装置、行为特征数据的采集方法及装置 |
CN110457701A (zh) * | 2019-08-08 | 2019-11-15 | 南京邮电大学 | 基于可解释性对抗文本的对抗训练方法 |
CN111046957B (zh) * | 2019-12-13 | 2021-03-16 | 支付宝(杭州)信息技术有限公司 | 一种模型盗用的检测、模型的训练方法和装置 |
-
2019
- 2019-12-13 CN CN201911286364.XA patent/CN111046957B/zh active Active
-
2020
- 2020-05-13 TW TW109115873A patent/TWI737297B/zh active
- 2020-10-28 WO PCT/CN2020/124349 patent/WO2021114924A1/zh active Application Filing
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108363714A (zh) * | 2017-12-21 | 2018-08-03 | 北京至信普林科技有限公司 | 一种方便数据分析人员使用的集成机器学习的方法及系统 |
US20190042878A1 (en) * | 2018-03-30 | 2019-02-07 | Intel Corporation | Methods and apparatus for distributed use of a machine learning model |
CN108573355A (zh) * | 2018-05-08 | 2018-09-25 | 阿里巴巴集团控股有限公司 | 模型更新后替换运行的方法、装置、及业务服务器 |
CN109214410A (zh) * | 2018-07-10 | 2019-01-15 | 上海斐讯数据通信技术有限公司 | 一种提升多标签分类正确率的方法及系统 |
CN109670971A (zh) * | 2018-11-30 | 2019-04-23 | 平安医疗健康管理股份有限公司 | 异常就诊费用的判断方法、装置、设备及计算机存储介质 |
CN109993538A (zh) * | 2019-02-28 | 2019-07-09 | 同济大学 | 基于概率图模型的身份盗用检测方法 |
CN110175236A (zh) * | 2019-04-24 | 2019-08-27 | 平安科技(深圳)有限公司 | 用于文本分类的训练样本生成方法、装置和计算机设备 |
CN110472672A (zh) * | 2019-07-25 | 2019-11-19 | 阿里巴巴集团控股有限公司 | 用于训练机器学习模型的方法和装置 |
CN110443367A (zh) * | 2019-07-30 | 2019-11-12 | 电子科技大学 | 一种增强神经网络模型鲁棒性能的方法 |
Non-Patent Citations (5)
Title |
---|
BITA DARVISH ROUHANI ET AL.: "DeepSigns: A Generic Watermarking Framework for Protecting the Ownership of Deep Learning Models", 《ARXIV:1804.00750V2》 * |
JIALONG ZHANG ET AL.: "Protecting Intellectual Property of Deep Neural Networks withWatermarking", 《ASIACC`18》 * |
NICOLAS PAPERNOT ET AL.: "Practical Black-Box Attacks against Machine Learning", 《ARXIV:1602.02697V4》 * |
YINGCHAO YU ET AL.: "Attacks and Defenses towards Machine Learning Based Systems", 《CSAE`18》 * |
陈宇飞 等: "人工智能系统安全与隐私风险", 《计算机研究与发展》 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021114924A1 (zh) * | 2019-12-13 | 2021-06-17 | 支付宝(杭州)信息技术有限公司 | 一种模型盗用的检测、模型的训练方法和装置 |
Also Published As
Publication number | Publication date |
---|---|
CN111046957B (zh) | 2021-03-16 |
TW202123079A (zh) | 2021-06-16 |
WO2021114924A1 (zh) | 2021-06-17 |
TWI737297B (zh) | 2021-08-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10936973B1 (en) | Adversarial example detection method and apparatus, computing device, and non-volatile computer-readable storage medium | |
CN111046957B (zh) | 一种模型盗用的检测、模型的训练方法和装置 | |
Kolagati et al. | Exposing deepfakes using a deep multilayer perceptron–convolutional neural network model | |
CN112163638B (zh) | 图像分类模型后门攻击的防御方法、装置、设备及介质 | |
CN111046379B (zh) | 一种对抗攻击的监测方法和装置 | |
Fang et al. | Learnable multi-level frequency decomposition and hierarchical attention mechanism for generalized face presentation attack detection | |
WO2021098270A1 (zh) | 基于对抗样本的隐私信息保护方法、装置及电子设备 | |
Li et al. | Deep learning backdoors | |
CN110245714B (zh) | 图像识别方法、装置及电子设备 | |
Song et al. | Generative adversarial examples | |
Xiang et al. | Detecting backdoor attacks against point cloud classifiers | |
Kumar et al. | A novel superpixel based color spatial feature for salient object detection | |
Park et al. | Task-agnostic undesirable feature deactivation using out-of-distribution data | |
CN113435264A (zh) | 基于寻找黑盒替代模型的人脸识别对抗攻击方法及装置 | |
Yang et al. | Efficient face detection in the fisheye image domain | |
CN116305103A (zh) | 一种基于置信度差异的神经网络模型后门检测方法 | |
Khuspe et al. | Robust image forgery localization and recognition in copy-move using bag of features and SVM | |
CN115758337A (zh) | 基于时序图卷积网络的后门实时监测方法、电子设备、介质 | |
CN112948578B (zh) | 一种dga域名开集分类方法、装置、电子设备及介质 | |
CN113762249A (zh) | 图像攻击检测、图像攻击检测模型训练方法和装置 | |
Chen et al. | Defending Adversarial Patches via Joint Region Localizing and Inpainting | |
Wang et al. | Beyond Boundaries: A Comprehensive Survey of Transferable Attacks on AI Systems | |
Liu et al. | Deep Counterfactual Representation Learning for Visual Recognition against Weather Corruptions | |
Hashmi et al. | Block and fuzzy techniques based forensic tool for detection and classification of image forgery | |
Guo et al. | Efficient Video Privacy Protection Against Malicious Face Recognition Models |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |