CN115292722B

CN115292722B - 基于不同色彩空间的模型安全检测方法和装置

Info

Publication number: CN115292722B
Application number: CN202211224359.8A
Authority: CN
Inventors: 韩蒙; 周凯龙; 张龙源; 章燕; 林昶廷; 洪榛; 许海涛; 俞伟平
Original assignee: Zhejiang Juntong Intelligent Technology Co ltd
Current assignee: Zhejiang Juntong Intelligent Technology Co ltd
Priority date: 2022-10-09
Filing date: 2022-10-09
Publication date: 2022-12-27
Anticipated expiration: 2042-10-09
Also published as: CN115292722A

Abstract

本发明公开了一种基于不同色彩空间的模型安全检测方法和装置，包括：针对不可知模型结构和训练过程的待检测模型，通过构建其在RGB空间的替代模型来模拟待检测模型的映射过程，在此基础上，将RGB空间的测试图像转换为其他多类色彩空间的色彩空间图像，并构建对应的多类色彩空间模型，基于替代模型和多类色彩空间模型在RGB以及其他色彩空间构建扰动图像和多类色彩扰动图像，通过比较待检测模型对扰动图像和多类色彩扰动图像的预测结果来进行安全性检测，这样能够准确检测各种色彩空间图像攻击模型导致的不安全性。

Description

基于不同色彩空间的模型安全检测方法和装置

技术领域

本发明属于计算机软件安全技术领域，具体涉及一种基于不同色彩空间的模型安全检测方法和装置。

背景技术

深度学习模型可以用于自动驾驶动作预测、图像识别等领域，在被应用时，深度学习模型在服务器上被执行，同样也被暴露于各终端等相对开放环境中，此时模型的安全性显得尤为重要。

现有深度学习模型的攻击方法有很多，当深度学习模型被攻击时，深度学习模型在预测任务中会出现错误判断，该错误判断结果是用户无法接受的，尤其是在自动驾驶领域，当出现错误判断时，将会造成巨大安全隐患。因此，深度学习模型在被应用之前需要进行是否被攻击的安全性检测。

色彩空间有很多，现如今的对抗攻击和防御普遍都默认RGB色彩空间下进行。但是不同色彩空间的图像信息与像素值有着明显的差异。RGB的每个通道都兼容着亮度、饱和度和色调信息。微小的改变也会导致三值的改变，想要生成好的对抗噪声扰动，就得综合考虑亮度、饱和度和色调的改变，使得图像更自然，人眼无法查别。而其他色彩空间很好地将亮度、饱和度和色调分离开，更加方便了对图像的单一变换和处理，同时也可以引入控制变量法，减少考虑因素，使得更加容易地生成不可察觉的扰动。当采用这些扰动对深度学习模型进行攻击时，将很难察觉。

专利文献CN107808098A公开了一种模型安全检测方法、装置以及电子设备，是通过对待检测模型的结果数据判别模型安全性。专利文献CN112989361A公开了一种基于生成对抗网络的模型安全性检测方法，通过计算替代模型和被测模型之间的行为相似度来评估被测模型的安全性。

以上两个专利文献，均在RGB空间中，根据待检测模型的结果数据、替代模型和被测模型之间的行为相似度进行判别安全性判别，由于现在的攻击很隐秘且效果更佳，仅仅在RGB空间进行模型安全性判别，很难实现对各类模型安全性的可靠检测。

发明内容

鉴于上述，本发明的目的是提供一种基于不同色彩空间的模型安全检测方法和装置，基于不同色彩空间的扰动图像在RGB模型中的预测结果来判定模型的安全性。

为实现上述发明目的，实施例提供的一种基于不同色彩空间的模型安全检测方法，包括以下步骤：

获取RGB空间的待检测模型；

利用RGB空间的测试图像及测试标签构建待检测模型的替代模型，该替代模型同样在RGB空间；

将RGB空间的测试图像转换为除RGB空间外的多类色彩空间的色彩空间图像，利用每类色彩空间图像对替代模型再训练以构建每类色彩空间对应的色彩空间模型；

利用测试图像在替代模型中相对于测试标签的损失梯度来构建测试扰动，并将测试扰动添加到输入的测试图像以得到RGB空间的扰动图像；

利用每类色彩空间图像在对应色彩空间模型中相对于测试标签的损失梯度来构建色彩扰动，并将色彩扰动添加到输入的色彩空间图像以得到每类色彩空间的色彩扰动图像；

将每类色彩扰动图像转换到RGB空间，得到RGB空间的每类色彩扰动图像；

将RGB空间的扰动图像和RGB空间的每类色彩扰动图像输入至待检测模型，得到待检测模型的预测结果；

判断只要存在一类色彩扰动图像在待检测模型的预测结果优于扰动图像在待检测模型的预测结果，则认为待检测模型不安全。

优选地，所述色彩空间包括HSV空间、Lab空间、XYZ空间、GRAY空间、HLS空间。

优选地，针对测试图像，采用以下公式生成测试扰动

：

其中，

表示调节权重，

表示将测试图像x输入至参数为

的替代模型后预测结果与测试标签y之间的损失函数，

表示对损失函数相对于x的求导，即为损失梯度，

表示取传入值的符号。

优选地，当色彩空间为HSV空间时，HSV空间的色彩扰动图像的生成方式包括：

首先，将HSV空间的色彩空间图像输入至HSV空间对应的色彩空间模型中，计算H通道的预测结果相对于测试标签的第一损失梯度，依据第一损失梯度来构建第一扰动，计算S通道的预测结果相对于测试标签的第二损失梯度，依据第二损失梯度来构建第二扰动；

然后，根据第一扰动和第二扰动采用以下公式确定H、S、V三通道添加扰动后的值后，结合H、S、V三通道的添加扰动后的值得到HSV空间的色彩扰动图像；

其中，

表示H通道对应的第一扰动，

表示H通道值，

表示添加扰动的H通道值，

表示模运算，

表示S通道对应的第二扰动，

表示S通道值，

表示添加扰动的S 通道值，

表示将

中像素点值限制在0-1之间，

表示V通道值，

表示添加扰动的V通道值，

表示HSV空间的色彩空间图像，

表示HSV空间的色彩扰动图像，

表示输入图像的预测结果，s.t表示条件。

优选地，当色彩空间为Lab空间时，Lab空间的色彩扰动图像的生成方式包括：

首先，将Lab空间的色彩空间图像输入至Lab空间对应的色彩空间模型中，计算a通道的预测结果相对于测试标签的第三损失梯度，依据第三损失梯度来构建第三扰动，计算b通道的预测结果相对于测试标签的第四损失梯度，依据第四损失梯度来构建第四扰动；

然后，根据第三扰动和第四扰动采用以下公式确定L、a、b三通道添加扰动后的值后，结合L、a、b三通道的添加扰动后的值得到Lab空间的色彩扰动图像；

其中，

表示a通道对应的第三扰动，

表示a通道值，

表示添加扰动的a通道值，

表示将

中的像素点值限制在-128和127之间，

表示将

中的像素点值限制在-128和127之间，

表示b通道对应的第四扰动，

表示b通道值，

表示添加扰动的b通道值，

表示L通道值，

表示添加扰动的L通道值，

表示Lab空间的色彩空间图像，

表示Lab空间的色彩扰动图像，

表示输入图像的预测结果，s.t表示条件。

优选地，所述利用RGB空间的测试图像及测试标签构建待检测模型的替代模型，包括：

准备一个深度学习模型，将RGB空间的测试图像输入至深度学习模型中，依据测试标签对深度学习模型进行监督学习，当监督学习后的深度学习模型在测试图像的测试准确性与待检测模型在测试图像的测试准确性相差小于5%时，则认为监督学习后的深度学习模型为待检测模型的替代模型。

优选地，在获得待检测模型对扰动图像和每类色彩扰动图像的预测结果，记录正确分类和错误分类的比例，以确定待检测模型对扰动图像和每类色彩扰动图像的预测准确率；

然后，判断当存在一类色彩扰动图像在待检测模型的预测准确率高于扰动图像在待检测模型的预测准确率时，则认为待检测模型不安全，否则认为待检测模型安全。

优选地，所述模型安全检测方法还包括：将RGB空间的扰动图像和RGB空间的每类色彩扰动图像输出打印得到打印图像，采集置于物理环境中的打印图像得到采样图像，利用待检测模型预测采样图像的预测结果；

判断只要存在一类色彩扰动图像对应的采样图像在待检测模型的预测结果优于扰动图像对应的采样图像在待检测模型的预测结果，则认为待检测模型不安全。

优选地，在获得待检测模型对扰动图像对应采样图像和每类色彩扰动图像对应采样图像的预测结果，记录正确分类和错误分类的比例，以确定待检测模型对扰动图像对应采样图像和每类色彩扰动图像对应采样图像的预测准确率；

然后，判断当存在一类色彩扰动图像对应采样图像在待检测模型的预测准确率高于扰动图像对应采样图像在待检测模型的预测准确率时，则认为待检测模型不安全，否则认为待检测模型安全。

为实现上述发明目的，实施例还提供了一种基于不同色彩空间的模型安全检测装置，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上执行的计算机程序，所述处理器执行所述计算机程序时实现上述基于不同色彩空间的模型安全检测方法的步骤。

与现有技术相比，本发明具有的有益效果至少包括：

针对不可知模型结构和训练过程的待检测模型，通过构建其在RGB空间的替代模型来模拟待检测模型的映射过程，在此基础上，将RGB空间的测试图像转换为其他多类色彩空间的色彩空间图像，并构建对应的多类色彩空间模型，基于替代模型和多类色彩空间模型在RGB以及其他色彩空间构建扰动图像和多类色彩扰动图像，通过比较待检测模型对扰动图像和多类色彩扰动图像的预测结果来进行安全性检测，这样能够准确检测各种色彩空间图像攻击模型导致的不安全性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图做简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动前提下，还可以根据这些附图获得其他附图。

图1是实施例提供的基于不同色彩空间的模型安全检测方法的流程图。

具体实施方式

为使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例对本发明进行进一步的详细说明。应当理解，此处所描述的具体实施方式仅仅用以解释本发明，并不限定本发明的保护范围。

为了检测不同色彩空间产生的扰动对深度学习模型进行攻击导致模型存在安全性问题，实施例提供了一种基于不同色彩空间的模型安全检测方法和装置，该方法和装置基于不同色彩空间的扰动图像在RGB模型中的预测结果来判定模型的安全性。

图1是实施例提供的基于不同色彩空间的模型安全检测方法的流程图。如图1所示，实施例提供的基于不同色彩空间的模型安全检测方法，包括以下步骤：

步骤1，获取RGB空间的待检测模型。

实施例中，获得的RGB空间的待检测模型可以是图像识别模型，具体可以是应用在自动驾驶领域中用于判别环境情况的图像识别模型。该待检测模型一般为黑盒模型，并不清楚模型结构也不清楚模型的训练过程，因此对于这类模型的安全检测，通常分析模型的预测结果来进行安全检测判断。

步骤2，利用RGB空间的测试图像及测试标签构建待检测模型的替代模型，该替代模型同样在RGB空间。

实施例中，RGB空间的测试图像和测试标签是预先准备的，用于测试待检测模型的安全性，同时也用于替代模型的构建。由于待检测模型为黑盒明，并不知道模型结构和训练过程，因此，通过构建替代模型来模拟待检测模型的预测过程，得到的替代模型用于构建扰动。

实施例中，利用RGB空间的测试图像及测试标签构建待检测模型的替代模型的具体过程包括：

其中，深度学习模型是指能够实现图像识别任务的模型，可以是Resnet18模型等。这些模型均是在RGB空间进行图像识别，也就是对RGB图像进行图像识别。具体的训练过程采用依据测试标签的有监督学习即可，具体的损失函数和模型结构自行设计，只要监督学习后的深度学习模型在测试图像的测试准确性与待检测模型在测试图像的测试准确性相差小于5%即可，这样就能够构建得到待检测模型的替代模型。

步骤3，将RGB空间的测试图像转换为除RGB空间外的多类色彩空间的色彩空间图像。

实施例中，通过图像转换，将RGB空间的测试图像可以转换多除RGB空间外的其他多个类别的色彩空间，以得到色彩空间图像。需要说明是，实施例中提到的色彩空间均是值除去RGB空间外的其他色彩空间，包括HSV空间、Lab空间、XYZ空间、XYZ空间、GRAY空间、HLS空间等色彩空间。每类色彩空间对应的图像即为每类色彩空间图像。

HSV空间是根据颜色的直观特性创建的一种色彩空间，称六角锥体模型，由色相H（Hue）、饱和度S（Saturation）、明度V（Value）三通道组成。

Lab空间是基于人对颜色的感觉的颜色模型，其数值描述正常视力的人能够看到的所有颜色。由亮度L和有关色彩的a、b三个通道组成， a表示从洋红色至绿色的范围，b表示从黄色至蓝色的范围。

XYZ空间是由理论三原色XYZ组成，XYZ三通道值是由RGB彩色空间线性变换转换得到，变换后的空间就是CIE XYZ彩色空间，相当于使用匹配颜色的XYZ基底来代替RGB基底来表示颜色。

实施例中，可以直接将RGB空间的测试图像转换为HSV空间的色彩空间图像。将RGB空间的测试图像转换为Lab空间的色彩空间图像时，由于RGB空间无法直接转换成Lab空间，需要先转换成XYZ空间再转换成Lab空间。

步骤4，利用每类色彩空间图像对替代模型再训练以构建每类色彩空间对应的色彩空间模型。

实施例中，在RGB空间的替代模型的基础上，利用步骤3得到的每类色彩空间图像分别对替代模型进行再训练，以得到每类色彩空间对应的色彩空间模型。具体的训练过程与步骤2中构建替换模型的过程一样，即以将每类色彩空间图像输入至替代模型中，依据测试标签对替代模型进行监督学习，以优化模型参数，优化结束后，得到色彩空间模型。色彩空间模型用于构建每个色彩空间的扰动，进而得到色彩扰动图像。

针对HSV空间，利用HSV空间对应的色彩空间图像对替换模型进行再训练，则得到HSV空间对应的色彩空间模型。针对Lab空间，利用Lab空间对应的色彩空间图像对替换模型进行再训练，则得到Lab空间对应的色彩空间模型。

步骤5，利用测试图像在替代模型中相对于测试标签的损失梯度来构建测试扰动，并将测试扰动添加到输入的测试图像以得到RGB空间的扰动图像。

实施例中，针对RGB空间的测试图像，采用以下公式生成测试扰动

：

其中，

表示调节权重，

表示将测试图像x输入至参数为

的替代模型后预测结果与测试标签y之间的损失函数，

表示对损失函数相对于x的求导，即为损失梯度，

表示取传入值的符号。

在得到测试扰动后，将测试扰动添加到输入的测试图像，即可以得到RGB空间的扰动图像。

步骤6，利用每类色彩空间图像在对应色彩空间模型中相对于测试标签的损失梯度来构建色彩扰动，并将色彩扰动添加到输入的色彩空间图像以得到每类色彩空间的色彩扰动图像。

实施例中，在构建色彩空间图像对应的色彩扰动图像时，采用构建RGB空间的扰动图像同样的方式，针对每类色彩空间图像，将每类色彩空间图像输入至色彩空间对应的色彩空间模型中，计算输入色彩空间图像与测试标签的损失梯度，来构建色彩扰动，并将色彩扰动添加到输入的色彩空间图像以得到每类色彩空间的色彩扰动图像。

实施例中，当色彩空间为HSV空间时，HSV空间的色彩扰动图像的生成方式为限制明度V通道值保持不变，在明暗度一致的基础上，改变色调H通道值与饱和度S通道值，生成自然且不同色的色彩扰动图像，具体包括：

首先，将HSV空间的色彩空间图像输入至HSV空间对应的色彩空间模型中，计算H通道的预测结果相对于测试标签的第一损失梯度，依据第一损失梯度来构建第一扰动，计算S通道的预测结果相对于测试标签的第二损失梯度，依据第二损失梯度来构建第二扰动；具体地，计算第一扰动和第二扰动的方式与步骤5中计算测试扰动的方式相同。

其中，

表示H通道对应的第一扰动，

表示H通道值，

表示添加扰动的H通道值，

表示模运算，

表示S通道对应的第二扰动，

表示S通道值，

表示添加扰动的S 通道值，

表示将

中像素点值限制在0-1之间，

表示V通道值，

表示添加扰动的V通道值，

表示HSV空间的色彩空间图像，

表示HSV空间的色彩扰动图像，

表示输入图像的预测结果，s.t表示条件。

当色彩空间为Lab空间时，Lab空间的色彩扰动图像的生成方式为约束亮度L通道值不变，改变a、b通道值，生成色彩扰动图像，具体包括：

首先，将Lab空间的色彩空间图像输入至Lab空间对应的色彩空间模型中，计算a通道的预测结果相对于测试标签的第三损失梯度，依据第三损失梯度来构建第三扰动，计算b通道的预测结果相对于测试标签的第四损失梯度，依据第四损失梯度来构建第四扰动；具体地，计算第三扰动和第四扰动的方式与步骤5中计算测试扰动的方式相同。

其中，

表示a通道对应的第三扰动，

表示a通道值，

表示添加扰动的a通道值，

表示将

中的像素点值限制在-128和127之间，

表示将

中的像素点值限制在-128和127之间，

表示b通道对应的第四扰动，

表示b通道值，

表示添加扰动的b通道值，

表示L通道值，

表示添加扰动的L通道值，

表示Lab空间的色彩空间图像，

表示Lab空间的色彩扰动图像，

表示输入图像的预测结果，s.t表示条件。

针对HSV空间和Lab空间，通过通道分离来构建色彩扰动图像，使得生成得色彩扰动图像与原图更贴合，更加自然。

步骤7，将每类色彩扰动图像转换到RGB空间，得到RGB空间的每类色彩扰动图像。

由于待测试模型是RGB空间的，为了测试待测试模型的安全性，输入模型的图像也需要是RGB空间的，这样测试才是有效的，因此，在获得每类色彩扰动图像后，还需要将每类色彩扰动图像转换到RGB空间，得到RGB空间的每类色彩扰动图像。针对HSV空间和Lab空间的色彩扰动图像，需要将HSV空间和Lab空间的色彩扰动图像转换到RGB空间，得到在RGB空间的每类色彩扰动图像。

步骤8，将RGB空间的扰动图像和RGB空间的每类色彩扰动图像输入至待检测模型，得到待检测模型的预测结果。

测试时，将RGB空间的扰动图像输入至待检测模型，得到待检测模型对扰动图像的预测结果，并记录正确分类和错误分类的比例，以确定待检测模型对扰动图像的预测准确率；

同时将RGB空间的每类色彩扰动图像均输入至待检测模型，得到待检测模型对每类色彩扰动图像的预测结果。同样也记录正确分类和错误分类的比例，以确定待检测模型对每类色彩扰动图像的预测准确率。

步骤9，判断只要存在一类色彩扰动图像在待检测模型的预测结果优于扰动图像在待检测模型的预测结果，则认为待检测模型不安全。

根据步骤8记录的待检测模型对每类输入图像的预测准确率，判断当存在一类色彩扰动图像在待检测模型的预测准确率高于扰动图像在待检测模型的预测准确率时，则认为待检测模型不安全，否则认为待检测模型安全。

实施例提供的另一种基于不同色彩空间的模型安全检测方法，在通过步骤1-7获得RGB空间的扰动图像和RGB空间的每类色彩扰动图像后，还包括以下步骤：

步骤8’，将RGB空间的扰动图像和RGB空间的每类色彩扰动图像输出打印得到打印图像，采集置于物理环境中的打印图像得到采样图像，利用待检测模型预测采样图像的预测结果。

实施例中，采集打印图像时采用RGB相机，得到RGB空间的采样图像，该采样图像包括扰动图像和每类色彩扰动图像对应的采样图像。

将扰动图像对应的采样图像输入至待检测模型，得到待检测模型对采样图像的预测结果，并记录正确分类和错误分类的比例，以确定待检测模型对扰动图像对应的采样图像的预测准确率；

同时将每类色彩扰动图像对应的采样图像均输入至待检测模型，得到待检测模型对采样图像的预测结果。同样也记录正确分类和错误分类的比例，以确定待检测模型对每类色彩扰动图像对应采样图像的预测准确率。

步骤9’，判断只要存在一类色彩扰动图像对应的采样图像在待检测模型的预测结果优于扰动图像对应的采样图像在待检测模型的预测结果，则认为待检测模型不安全。

实施例中，根据步骤8’记录的待检测模型对每类输入图像的预测准确率，判断当存在一类色彩扰动图像对应采样图像在待检测模型的预测准确率高于扰动图像对应采样图像在待检测模型的预测准确率时，则认为待检测模型不安全，否则认为待检测模型安全。

鉴于同样的发明构思，实施例还提供了一种基于不同色彩空间的模型安全检测装置，包括存储器、处理器以及存储在存储器中并可在所述处理器上执行的计算机程序，处理器执行所述计算机程序时实现上述基于不同色彩空间的模型安全检测方法的步骤。

实际应用中，计算机存储器可以为在近端的易失性存储器，如RAM，还可以是非易失性存储器，如ROM，FLASH，软盘，机械硬盘等，还可以是远端的存储云。计算机处理器可以为中央处理器(CPU)、微处理器(MPU)、数字信号处理器(DSP)、或现场可编程门阵列(FPGA)，即可以通过这些处理器实现基于不同色彩空间的模型安全检测步骤。

实施例提供的基于不同色彩空间的模型安全检测方法和装置，获取不同色彩空间下的色彩扰动图像和RGB空间的扰动图像，比较同一扰动大小下的不同色彩扰动图像和扰动图像对待检测模型安全性的影响，检测模型存在的安全漏洞，以分析模型的脆弱性。

以上所述的具体实施方式对本发明的技术方案和有益效果进行了详细说明，应理解的是以上所述仅为本发明的最优选实施例，并不用于限制本发明，凡在本发明的原则范围内所做的任何修改、补充和等同替换等，均应包含在本发明的保护范围之内。