CN112333402B

CN112333402B - 一种基于声波的图像对抗样本生成方法及系统

Info

Publication number: CN112333402B
Application number: CN202011124293.6A
Authority: CN
Inventors: 冀晓宇; 徐文渊; 程雨诗; 张月鹏; 王凯; 闫琛
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2020-10-20
Filing date: 2020-10-20
Publication date: 2021-10-22
Anticipated expiration: 2040-10-20
Also published as: CN112333402A; WO2022083599A1; US20220215652A1

Abstract

本发明公开了一种基于声波的图像对抗样本生成方法及系统，该方法利用现有机器视觉系统中惯性传感器和深度学习算法的脆弱性，创新性地提出使用声波构造适用于物理世界的图像对抗样本，从而欺骗机器视觉系统。相比于现有基于数字域的图像对抗样本构造方法，本发明方法构造的图像对抗样本在真实物理世界中具有更强的适用性；相比于现有基于物理域的图像对抗样本构造方法，本发明方法无需修改物体的外表或向摄像头中注入光线，具有更好的隐蔽性。

Description

一种基于声波的图像对抗样本生成方法及系统

技术领域

本发明属于人工智能领域，涉及一种基于声波的图像对抗样本生成方法及系统。

背景技术

随着人工智能技术的不断发展，机器视觉在现代智能系统中广泛应用，如智能机器人，自动驾驶汽车等。机器视觉利用摄像头拍摄智能系统周围环境信息，并使用深度学习算法对图像中包含的物体进行检测和识别，从而达到感知环境的目的。由于机器视觉的感知结果通常作为智能系统后续决策的信息来源，机器视觉感知结果的安全性至关重要。

近些年来，针对图像对抗样本的研究日益增多。图像对抗样本指的是可以干扰机器视觉感知结果的样本，研究图像对抗样本对保障机器系统以及智能系统的安全性具有重要指导意义。当前，针对图像对抗样本的研究主要集中于数字域，即直接修改数字图像的像素值来构造图像对抗样本。尽管该方法构造的图像对抗样本通常具有较好的对抗效果，但在实际系统中较难应用。此外，当前也存在基于物理域的图像对抗样本的构造方法，但通常需要修改目标物体的外表或向摄像头中注入光线，因此隐蔽性欠佳。本发明提出一种基于声波的图像对抗样本生成方法及系统，该种方法具有较好的实用性和隐蔽性，为图像对抗样本的构造提供了新的思路，为机器学习安全分析与防护提供了新的指导。

发明内容

本发明提供一种基于声波的图像对抗样本生成方法及系统，该方法使用声波影响机器视觉系统中的惯性传感器读数，引起图像防抖模块错误补偿，造成图像模糊，从而构造三种不同类型的图像对抗样本。

本发明的采用以下技术方案实现：

一种基于声波的图像对抗样本生成方法，包括以下步骤：

1)获取包含目标物体或目标场景的图片；

2)针对步骤1)获取的图片，使用声波对抗样本仿真模型，生成对目标机器视觉系统中深度学习算法具有对抗作用的仿真图像样本。该步骤具体包括以下三个步骤：

(1)虚假摄像头运动建模。现代机器视觉系统使用摄像头拍摄目标物体或场景，然后使用深度学习算法对图片进行处理，从而实现对周围环境的感知或目标检测等。为了提高感知和检测的准确率，现代机器视觉系统使用图像防抖进行补偿，从而降低由于摄像头抖动带来的图像模糊。由于图像防抖通常使用惯性传感器，即加速度计和陀螺仪，来估计摄像头的运动，且声波攻击可以对惯性传感器造成影响，使其读数改变，因此对于一个稳定的摄像头，声波攻击可以导致图像防抖进行错误补偿，从而反向导致图片模糊。假设由于声波攻击造成的虚假惯性传感器读数为M_f＝{a_x，a_y，a_z，ω_r，ω_p，ω_y}，其中a_x，a_y，a_z分别为加速度计x，y，z轴的虚假加速度读数，ω_r，ω_p，ω_y分别为陀螺仪roll，pitch，yaw轴的虚假角速度读数。假设图像防抖模块可以进行完全的补偿，此时，由于声波攻击导致的虚假摄像头运动为M_c＝{-a_x，-a_y，-a_z，-ω_r，-ω_p，-ω_y}。本发明主要考虑从以上六个维度中的加速度计x，y，z轴和陀螺仪roll轴这四个维度来构建声波对抗样本仿真模型。

(2)像素运动建模。虚假摄像头运动将导致目标物体或场景的成像位置不同，从而导致输出图片中像素发生运动。

针对加速度计x轴维度，对于图片中任意像素点，虚假摄像头运动-a_x将在成像过程中造成相反方向

的像素位移，其中f为摄像头焦距，u为目标物体或目标场景物距，T为摄像头曝光时间；

针对加速度计y轴维度，对于图片中任意像素点，虚假摄像头运动-a_y将在成像过程中造成相反方向

的像素位移；

针对加速度计z轴维度，对于图片中的任意像素点，虚假摄像头运动-a_z将在成像过程中造成该像素点朝远离画面中心方向

的位移，其中r_o为该像素点与画面中心的距离；

针对陀螺仪roll轴维度，对于图片中的任意像素点，虚假摄像头运动-ω_r将在成像过程中造成该像素点朝相反方向ω_rTr_c的位移，其中r_c为该像素点与角速度旋转中心的距离。

(3)图像模糊建模。成像过程中的像素运动将导致图像模糊。特别地，加速度计x轴和y轴维度的虚假摄像头运动，造成线性像素运动，导致线性图像模糊；加速度计z轴维度的虚假摄像头运动，造成径向像素运动，导致径向图像模糊；陀螺仪roll轴维度的虚假摄像头运动，造成旋转像素运动，导致旋转图像模糊。为上述模糊构建统一的图像模糊模型如下：

[i′(k),j′(k)]^T＝[u(k),v(k)]^T+[i,j]^T

β＝ω_rT

r_c＝‖(i,j),(c₀,c₁)‖₂

r_o＝‖(i,j),(o₀,o₁)‖₂

其中，X为原始图像，B为模糊后图像，(i,j)为像素点坐标，B(i,j)为模糊后图像中坐标为(i,j)的像素点，n为离散点数，(c₀,c₁)为图像中心坐标，(o₀,o₁)为旋转中心坐标。使用上述模型，可以获得在不同对抗参数下的仿真对抗图像样本。

3)使用对抗样本优化方法优化步骤2)生成的仿真图像样本，获得最优的对抗样本以及对应的对抗参数。该步骤主要包括以下两个模块：

(1)优化函数设计。针对不同类型的对抗图像样本，本发明设计不同的优化函数。本发明考虑三种具有不同效果的对抗图像样本。第一种为具有隐藏效果的对抗图像样本，该类样本可以使得深度学习算法无法识别目标物体；第二种为具有创造效果的对抗图像样本，该类样本可以在当前图像中创造一个可被深度学习算法检测的目标物体；第三种为具有改变效果的对抗图像样本，该类样本可以使得深度学习算法将目标物体检测为其他物体。

针对具有隐藏效果的对抗图像样本，其优化函数为：

s.t.|a_x+a_y+a_z|<ε₁

|ω_r|<ε₂

其中，p为目标物体的编号，

为深度学习算法输出的目标物体区域检测置信度，

为深度学习算法输出的目标物体类别检测置信度，w₁和w₂为平衡对抗图像样本有效性和样本生成成本的权重值，ε₁和ε₂为声波对加速度计和陀螺仪读数影响的上限；

针对具有创造效果的对抗图像样本，其优化函数为：

s.t.|a_x+a_y+a_z|＜ε₁

|ω_r|＜ε₂

其中，o为待创造的目标物体的编号，C_o＝T为待创造的目标物体的类别，

为深度学习算法输出的待创造目标物体区域检测置信度，

为深度学习算法输出的待创造目标物体类别检测置信度，p为图像中已有物体的编号，m为图像中已有物体的数量，Uop为待创造物体O的区域与已有物体p的区域的交并比，w₃和w₄为平衡对抗图像样本有效性和样本生成成本的权重值，ε₁和ε₂为声波对加速度计和陀螺仪读数影响的上限；

针对具有改变效果的对抗图像样本，其优化函数为：

s.t.|a_x+a_y+a_z|＜ε₁

|ω_r|＜ε₂

其中，p为目标物体的编号，

为深度学习算法输出的修改后的目标物体区域检测置信度，

为深度学习算法输出的修改后的目标物体类别检测置信度，C_p′＝T为修改后的目标物体的类别，Upp′为修改前目标物体p的区域与修改后目标物体p′的区域的交并比，w₅和w₆为平衡对抗图像样本有效性和样本生成成本的权重值，ε₁和ε₂为声波对加速度计和陀螺仪读数影响的上限。

(2)优化函数求解。针对上述优化函数，使用贝叶斯优化法求解最佳对抗参数。

4)使用惯性传感器读数注入方法，将上述得到的对抗参数，通过声波的方式注入到目标机器视觉系统的惯性传感器中，使其成为传感器读数，该读数将引起目标机器视觉系统中的图像防抖模块工作，在生成的真实图片中产生特定的模糊图案，从而生成物理世界中的图像对抗样本。所述的惯性传感器注入方法包括以下三个步骤：

(1)通过频率扫描，找到目标机器视觉系统中惯性传感器的共振频率；

(2)通过调整声波共振频率，在模电转换器中引入直流分量，稳定传感器输出；

(3)通过调幅调制，对传感器输出波形进行整形，使得传感器读数逼近对抗参数。

通过以上四个步骤，可以将针对目标对象的最优对抗参数，通过声波的方式注入到目标机器视觉系统的惯性传感器中，使其成为传感器读数，该读数将引起目标机器视觉系统中的图像防抖模块工作，在生成的真实图片中产生特定的模糊图案，从而生成物理世界中的图像对抗样本。

本发明还提供一种基于声波的图像对抗样本生成系统，该系统包括声波对抗仿真模块、对抗样本优化模块、传感器读数注入模块；

所述的声波对抗仿真模块用于虚假摄像头运动建模、像素运动建模和图像模糊建模；

所述的对抗样本优化模块用于优化函数设计和优化函数求解；

所述的传感器读数注入模块用于共振频率搜索、虚假读数稳定、虚假读数整形；

该系统采用上述方法实现基于声波的图像对抗样本的生成。

本发明的有益效果是：

本发明提出一种基于声波的图像对抗样本生成方法，相比于现有对抗样本构造方法，本发明方法具有较好的实用性和隐蔽性，为图像对抗样本的构造提供了新的思路，为机器学习安全分析与防护提供了新的指导。

附图说明

图1是本发明实施例的方法流程图。

具体实施方式

下面结合实施例和说明书附图对本发明做进一步说明。

本发明实施例的方法流程，如图1所示。

本发明的基于声波的图像对抗样本生成方法，包括以下步骤：

1)获取包含目标物体或目标场景的图片；

2)针对上述图片，使用声波对抗样本仿真模型，生成对目标机器视觉系统中深度学习算法具有对抗作用的仿真图像样本，具体包括以下三个步骤：

(1)虚假摄像头运动建模。现代机器视觉系统使用摄像头拍摄目标物体或场景，然后使用深度学习算法对图片进行处理，从而实现对周围环境的感知或目标检测等。为了提高感知和检测的准确率，现代机器视觉系统使用图像防抖进行补偿，从而降低由于摄像头抖动带来的图像模糊。由于图像防抖通常使用惯性传感器，即加速度计和陀螺仪，来估计摄像头的运动，且声波攻击可以对惯性传感器造成影响，使其读数改变，因此对于一个稳定的摄像头，声波攻击可以导致图像防抖进行错误补偿，从而反向导致图片模糊。假设由于声波攻击造成的虚假惯性传感器读数为M_f＝{a_x,a_y,a_z,ω_r,ω_p,ω_y}，其中a_x,a_y,a_z分别为加速度计x,y,z轴的虚假加速度读数，ω_r,ω_p,ω_y分别为陀螺仪roll,pitch,yaw轴的虚假角速度读数。假设图像防抖模块可以进行完全的补偿，此时，由于声波攻击导致的虚假摄像头运动为M_c＝{-a_x，-a_y，-a_z，-ω_r，-ω_p，-ω_y}。本发明主要考虑从以上六个维度中的加速度计x，y，z轴和陀螺仪roll轴这四个维度来构建声波对抗样本仿真模型。

的像素位移；

的位移，其中r_o为该像素点与画面中心的距离；

[i′(k)，j′(k)]^T＝[u(k)，v(k)]^T+[i，j]^T

β＝ω_rT

r_c＝||(i，j)，(c₀，c₁)||₂

r_o＝||(i，j)，(o₀，o₁)||₂

其中，X为原始图像，B为模糊后图像，(i.j)为像素点坐标，B(i.j)为模糊后图像中坐标为(i.j)的像素点，n为离散点数，(c₀，c₁)为图像中心坐标，(o₀，o₁)为旋转中心坐标。使用上述模型，可以获得在不同对抗参数下的仿真对抗图像样本。

3)使用对抗样本优化方法优化上述仿真图像样本，获得最优的对抗样本以及对应的对抗参数，主要包括以下两个步骤：

针对具有隐藏效果的对抗图像样本，其优化函数为：

s.t.|a_x+a_y+a_z|＜ε₁

|ω_r|＜ε₂

其中，p为目标物体的编号，

为深度学习算法输出的目标物体区域检测置信度，

针对具有创造效果的对抗图像样本，其优化函数为：

s.t.|a_x+a_y+a_z|＜ε₁

|ω_r|＜ε₂

为深度学习算法输出的待创造目标物体区域检测置信度，

针对具有改变效果的对抗图像样本，其优化函数为：

s.t.|a_x+a_y+a_z|＜ε₁

|ω_r|＜ε₂

其中，p为目标物体的编号，

为深度学习算法输出的修改后的目标物体区域检测置信度，

4)使用惯性传感器读数注入方法，将上述得到的对抗参数，通过声波的方式注入到目标机器视觉系统的惯性传感器中，使其成为传感器读数，该读数将引起目标机器视觉系统中的图像防抖模块工作，在生成的真实图片中产生特定的模糊图案，从而生成物理世界中的图像对抗样本。惯性传感器读数注入方法包括以下三个步骤：

Claims

1.一种基于声波的图像对抗样本生成方法，其特征在于，该方法包括以下步骤：

1)获取包含目标物体或目标场景的图片；

2)针对步骤1)获取的图片，使用声波对抗样本仿真模型，生成对目标机器视觉系统中深度学习算法具有对抗作用的仿真图像样本；

3)使用对抗样本优化方法优化步骤2)生成的仿真图像样本，获得最优的对抗样本以及对应的对抗参数；

4)使用惯性传感器读数注入方法，将上述得到的对抗参数，通过声波的方式注入到目标机器视觉系统的惯性传感器中，使其成为传感器读数，该读数将引起目标机器视觉系统中的图像防抖模块工作，在生成的真实图片中产生特定的模糊图案，从而生成物理世界中的图像对抗样本；

步骤2)中，所述的声波对抗样本仿真模型的构建包括以下步骤：

(1)虚假摄像头运动建模；假设由于声波攻击造成的虚假惯性传感器读数为M_f＝{a_x，a_y，a_z，ω_r，ω_p，ω_y}，其中a_x，a_y，a_z分别为加速度计x，y，z轴的虚假加速度读数，ω_r，ω_p，ω_y分别为陀螺仪roll，pitch，yaw轴的虚假角速度读数；假设图像防抖模块可以进行完全的补偿，此时，由于声波攻击导致的虚假摄像头运动为M_c＝{-α_x，-a_y，-α_z，-ω_r，-ω_p，-ω_y}；从以上六个维度中的加速度计x，y，z轴和陀螺仪roll轴这四个维度来构建声波对抗样本仿真模型；

(2)像素运动建模；虚假摄像头运动将导致目标物体或场景的成像位置不同，从而导致输出图片中像素发生运动；

针对加速度计x轴维度，对于图片中任意像素点，虚假摄像头运动-α_x将在成像过程中造成相反方向

的像素位移；

针对加速度计z轴维度，对于图片中的任意像素点，虚假摄像头运动-α_z将在成像过程中造成该像素点朝远离画面中心方向

的位移，其中r_o为该像素点与画面中心的距离；

针对陀螺仪roll轴维度，对于图片中的任意像素点，虚假摄像头运动-ω_r将在成像过程中造成该像素点朝相反方向ω_rTr_c的位移，其中r_c为该像素点与角速度旋转中心的距离；

(3)图像模糊建模；成像过程中的像素运动将导致图像模糊，加速度计x轴和y轴维度的虚假摄像头运动，造成线性像素运动，导致线性图像模糊；加速度计z轴维度的虚假摄像头运动，造成径向像素运动，导致径向图像模糊；陀螺仪roll轴维度的虚假摄像头运动，造成旋转像素运动，导致旋转图像模糊；为上述模糊构建统一的图像模糊模型如下：

[i′(k)，j′(k)]^T＝[w(k)，v(k)]^T+[i，j]^T

β＝ω_rT

r_c＝||(i，j)，(c₀，c₁)||₂

r_o＝||(i，j)，(o₀，o₁)||₂

其中，X为原始图像，B为模糊后图像，(i，j)为像素点坐标，B(i，j)为模糊后图像中坐标为(i，j)的像素点，n为离散点数，(c₀，c₁)为图像中心坐标，(o₀，o₁)为旋转中心坐标；

使用上述模型，可以获得不同对抗参数下的仿真图像样本。

2.根据权利要求1所述的基于声波的图像对抗样本生成方法，其特征在于，步骤3)中，所述的使用对抗样本优化方法优化步骤2)生成的仿真图像样本包括以下步骤：

(1)优化函数设计，针对不同类型的对抗图像样本，设计不同的优化函数；考虑三种具有不同效果的对抗图像样本：第一种为具有隐藏效果的对抗图像样本，该类样本可以使得深度学习算法无法识别目标物体；第二种为具有创造效果的对抗图像样本，该类样本可以在当前图像中创造一个可被深度学习算法检测的目标物体；第三种为具有改变效果的对抗图像样本，该类样本可以使得深度学习算法将目标物体检测为其他物体；

针对具有隐藏效果的对抗图像样本，其优化函数为：