CN114722812A

CN114722812A - 一种多模态深度学习模型脆弱性的分析方法和系统

Info

Publication number: CN114722812A
Application number: CN202210367723.XA
Authority: CN
Inventors: 纪守领; 李泽宇; 张旭鸿; 陈建海
Original assignee: Shangchan Zhejiang Technology Co ltd
Current assignee: Shangchan Zhejiang Technology Co ltd
Priority date: 2022-04-02
Filing date: 2022-04-02
Publication date: 2022-07-08

Abstract

本发明提出了一种多模态深度学习模型脆弱性的分析方法和系统，属于对抗攻击和模型鲁棒性分析领域。该方法通过生成一系列白盒的对抗样本来测试目标模型的鲁棒性，主要步骤包括：首先获取目标多模态深度学习模型及其使用的训练数据集；分别提取数据集中的视觉模态特征、文本模态特征、音频模态特征；使用提取到的数据集特征分别训练单模态本地模型；通过测试单模态本地模型的训练效果得到不同模态的对抗样本生成权重；迭代生成对抗样本：视觉模态和音频模态使用基于PGD的梯度下降方法生成扰动，自然语言文本模态使用梯度近似优化的近义词替换方法生成扰动；通过生成的一系列多模态对抗样本检验模型的攻击成功率，得到目标模型的脆弱性分析结果。

Description

一种多模态深度学习模型脆弱性的分析方法和系统

技术领域

本发明涉及对抗攻击和模型鲁棒性分析领域，尤其涉及一种多模态深度学习模型脆弱性的分析方法和系统。

背景技术

随着近年来深度学习相关技术的不断发展以及其在学术界和工业界的应用场景不断增多，针对多个模态数据同时进行分析的需求开始涌现，促进了多模态机器学习的发展。多模态机器学习主要用于寻找多个模态之间的关联以及同时利用多个模态的信息进行决策，最为常见的是自然语言模态，声音信号模态以及视觉信号模态等。近十年，多模态机器学习已经全面进入了深度学习时代，在多媒体文件处理、情感分析和推荐系统等任务和场景中得到广泛的应用。同时，针对神经网络鲁棒性的分析相关研究显示，任何现有的网络模型，包括多模态深度学习模型都有可能被欺骗。对抗攻击通过在输入数据上施加不易察觉的扰动等方式可以有效影响模型的输出，从而达成攻击者的攻击目标。目前在计算机视觉以及自然语言处理等领域，这一攻击模式都得到了较为充分的研究。在图片模态中，现有的研究成果可以实现在输入图片上施加噪声，使图片分类模型做出错误的决策；而在文本模态中，通过在文本中单词和字符级别的插入及替换操作，可以诱导自然语言翻译模型或者问答系统输出错误的结果。在现实任务场景中，这一攻击允许攻击者在社交媒体上绕过审核系统发布恶意言论，或者使用现实对抗样本干扰自动驾驶系统的正常运行等。这种对抗攻击不仅反映了深度学习模型的脆弱性，也一定程度上阻碍了人工智能的应用和发展。

虽然现有的针对各个单个模态的攻击方法已经日趋成熟，但是单模态的攻击方法无法同时作用于多个模态的全部输入信息，其对多模态深度学习模型的攻击效果并不可靠。而由于多模态模型相较于单模态模型的实验难度较大，且其中不同模态之间的联系缺乏可解释性，针对多模态模型的鲁棒性分析和对抗攻击方法也很少有研究者关注，造成了相关领域的研究空缺。现有的个别方法仅使用单模态的对抗样本生成方法对多模态深度学习模型进行检验，忽略了不同模态之间的关联和鲁棒性差异，具有较大的局限性，因此需要一个能同时生成多个模态对抗样本，检测多模态模型的总体鲁棒性的检测分析方法。

多模态深度学习模型在未来势必得到更多的研究和应用，因此研究多模态模型的脆弱性和对抗攻击有助于以后对增强多模态深度学习模型的鲁棒性以及防御对抗攻击的方法的研究，促进相关技术的应用和发展，是很有必要的。

发明内容

本发明针对现有研究中针对多模态深度学习模型对抗样本生成和鲁棒性分析方法的空缺，提出了一种针对多模态机器学习模型脆弱性的分析方法和系统。具体的技术方案为：

一种多模态深度学习模型脆弱性的分析方法，包含以下步骤：

(1)获取目标模型M及其视觉、音频和文本三种模态的训练数据集；

(2)对多模态数据集分别进行预处理和特征提取，得到视觉模态特征、声学模态特征和文本模态特征；

(3)根据步骤(2)得到的视觉模态特征、声学模态特征和文本模态特征，分别训练得到对应的单模态本地模型，并根据单模态本地模型的学习效果确定不同模态下的对抗样本生成权重；

(4)根据各个模态的对抗样本生成权重以及目标模型损失函数相对于各个模态输入的梯度信息，生成一系列不同模态下的对抗样本；

(5)测试对抗样本的攻击成功率，得到目标模型的脆弱性分析结果。

进一步的，在模型鲁棒性的分析过程中，需要获取目标模型的完整模型信息和数据集，即步骤(1)中的目标模型M和三种模态的训练数据集D_V,D_A,D_T。目标模型M一般为多模态分类模型，如情感分析模型或视频分类模型。而D_V,D_A,D_T分别包含同一段视频中的图像、音频和提取的自然语言文本数据。

进一步的，在步骤(2)中，为了方便后续单模态本地模型的训练，在三个模态分别进行数据集的预处理，包含以下步骤：

针对视觉模态数据集，首先从视频中抽取关键帧，调整至统一大小，再通过预训练模型抽取视觉特征；

针对文本模态数据集，首先将文本进行分词操作，并将分词后得到的token序列转换为词向量，通过预训练的BERT模型提取词向量特征，作为文本模态特征。

针对音频模态数据集，首先经过去噪处理后通过分帧和加窗操作获取一系列含有稳定音频信号的帧信号，再分别通过快速傅里叶变换和常数Q变换，将帧信号从时域转换到频域，提取帧信号的MFCC特征和CQCC特征，拼接后作为声学模态特征。

进一步的，步骤(3)测试了单个模态相对于目标模型任务决策的重要程度，其目标是通过单模态模型的学习效果估计目标模型在对应模态的鲁棒性，并决定后续对抗样本生成过程中的权重，包括：

(3-1)对步骤(2)得到的视觉模态特征、声学模态特征和文本模态特征划分训练集、验证集和测试集，根据不同模态下的训练集、验证集训练对应模态下的本地模型，记为视觉模态本地模型C_V、音频模态本地模型C_A、文本模态本地模型C_T；

(3-2)在测试集上分别测试C_V,C_A,C_T的准确率；

(3-3)根据各模态下的本地模型准确率，确定不同模态的对抗样本生成权重。

进一步的，步骤(4)迭代生成了一系列的多模态对抗样本，其优化目标为：

其中，S^t为t次迭代后生成的对抗样本，α为每次迭代扰动的力度，sign为符号函数，θ为目标模型，L为目标模型的损失函数。

步骤(4)包括：

(4-1)选取待生成对抗样本的输入视频S，获取视频S的三种模态样本数据，包括视觉模态

音频模态

和文本模态

初始时刻t＝0；

(4-2)视觉模态样本

通过梯度下降法得到扰动后的视觉模态样本

文本模态样本

随机选取一个词，通过梯度近似采样得到其近义词，进行替换后得到扰动后的文本模态样本

音频模态样本

通过梯度下降法得到扰动后的音频模态样本

(4-3)重复步骤(4-2)，直到达到最大迭代次数，获得一系列对抗样本。

本发明还提出了一种多模态深度学习模型脆弱性的分析系统，用于实现上述的分析方法，所述的分析系统包含以下模块：

多模态数据集预处理模块：用于获取目标模型M及其视觉、音频和文本三种模态的训练数据集，对训练数据集进行预处理并提取出相应特征；

单模态本地模型模块：用于通过数据集中提取的特征，训练单模态本地模型，并测试其学习效果；通过不同模态的本地模型学习效果，得到生成对抗样本过程中不同模态的权重；

视觉对抗样本生成模块：用于通过投影梯度下降法对视觉样本施加对抗扰动；

文本对抗样本生成模块：用于通过基于梯度优化的采样法对文本样本施加对抗扰动。

音频对抗样本生成模块：用于通过投影梯度下降法在音频样本施加对抗扰动；

目标模型脆弱性检验模块：用于通过测试对抗样本对目标模型的攻击成功率，得到目标模型的脆弱性分析结果。

与现有技术相比，本发明的有益效果为：

(1)本发明综合考虑了多模态深度学习模型三个模态的鲁棒性，可以分析模型整体的脆弱性。

(2)本发明实现了多个模态同时生成对抗样本，弥补了自然语言文本模态与其他模态的连续性差异，并提高了生成对抗样本的性能。

(3)本发明通过权重分配实现了更加高效的攻击，相比其他对抗样本生成方法，在相同的对抗扰动强度下能达到更好的攻击效果。

附图说明

图1为多模态模型脆弱性分析系统的架构图；

图2为多模态数据集预处理和特征提取过程的流程图；

图3为白盒对抗样本的生成流程图；

图4为多模态模型脆弱性分析系统的流程图。

具体实施方式

下面结合附图和实施例对本发明作进一步详细描述，需要指出的是，以下所述实施例旨在便于对本发明的理解，而对其不起任何限定作用。

在本发明提供的一个实施例中，如图1所示为本发明针对多模态模型脆弱性分析系统的架构图，主要包含六个模块：多模态数据集预处理模块、单模态本地模型模块、视觉对抗样本生成模块、音频对抗样本生成模块、文本对抗样本生成模块和目标模型脆弱性检验模块。接下来分别对这六个模块进行介绍：

1、多模态数据集预处理模块

该模块的主要目的是提取数据集中的特征用于本地模型的训练。其主要流程如图2所示。

参考图2中的(a)，在视觉模态，由于无法对整个视频中所有帧进行处理，首先提取视频中的关键帧，基本保证可以获取视频中图像方面的重要信息，后续仅对关键帧进行处理。如果视频数据集中没有人物相关内容，则通过Resnet预训练模型直接提取关键帧的特征向量，作为视觉数据特征；若目标模型主要针对视频中的人物内容进行分析，可以将人脸特征作为视频特征提取，其主要步骤为：

(a1.1)使用MTCNN或FaceNet等人脸捕捉工具提取各关键帧中的人脸；

(a1.2)裁剪步骤(a1.1)识别的人脸部分到指定大小；

(a1.3)使用OpenFace工具提取人脸标志点、面部动作单元、头部朝向和眼睛注视方向等特征，作为视觉模态特征。

参考图2中的(b)，在音频模态，首先根据需求进行去噪，保留音频数据中的关键信息。尤其是针对情感分析任务的目标模型，防止存在噪声对人物声音的干扰。随后通过计算声学特征得到特征向量，其中声学特征主要包含MFCC(梅尔倒谱系数)和CQCC(常数Q倒谱系数)两种，其计算过程如下：

(b1.1)预加重操作：使用一个高通滤波器处理音频信号，用于补偿音频信号中因介质造成的高频信号的损失，其公式为y(n)＝x(n)-a·x(n-1)，其中x(n)为n时刻的音频信号，a为预加重系数，y(n)为n时刻的预加重处理后的音频信号。

(b1.2)分帧操作：将音频中的每N个采样点合成一帧，为了保证帧内信号的平稳性，一帧的长度不能超过一个音素的长度，即50毫秒到200毫秒；同时为了包含足够的振动周期，一帧的长度应该大于20毫秒。分帧的目的是截取一小段较为平稳的信号便于变换到频谱进行处理。

(b1.3)加窗操作：将上一步骤中得到的每一帧信号与窗函数相乘，一般使用汉明窗进行加窗操作。其中加窗操作的目的是防止信号被非周期截断产生的频谱泄露。

(b1.4)FFT(快速傅里叶变换)：对于MFCC特征的提取，采用FFT将信号转移到频域，其幅度谱的公式为：

功率谱的公式为：

其中，s_i(n)是第i帧的时域信号，S_i(k)是第i帧信号的幅度谱，N是快速傅里叶变换的点数；P_i(k)是第i帧信号的功率谱。

(b1.5)CQT(常数Q变换)：对于CQCC特征的提取，采用CQT变换，其幅度谱的公式为：

功率谱的公式为：

其中，s_i(n)是第i帧的时域信号，

是第i帧信号的CQT变换幅度谱谱，Q是CQT变换中的常数因子，N_k为随频率k变化的窗口长度；

为CQT变换的功率谱。CQT变换的优点在于，避免了时频均匀分辨率的缺点，对于高频和低频信号具有不同带宽。

(b1.6)Mel滤波器：通过快速傅里叶变换得到的频谱信号使用一个梅尔刻度滤波器进行过滤，其目的为精简频域的幅值，使每一个频段用一个值来表示，并凸显原始音频的共振峰。

(b1.7)对数功率操作：常数Q变换后的频谱信号，以及经过Mel滤波的FFT变换后的频谱信号均需经过对数功率操作，即对其功率取对数。

(b1.8)均匀重采样：经过对数功率操作后的常数Q变换得到的信号进行均匀采样。

(b1.9)DCT(离散余弦变换)：将两种频域信号的功率信号进行离散余弦变换。经过快速傅里叶变换和离散余弦函数得到的是MFCC特征，而经过常数Q变换和离散余弦变换得到CQCC特征。

为了提高提取到特征的帧间的时域连续性，可以通过差分的方式增加前后帧信息的特征维度，常用的方法有一阶差分和二阶差分。将提取到的两种特征拼接即可得到最终的声学模态特征。

参考图2中的(c)，在自然文本模态，首先根据文本的语言使用相应的分词器，将输入文本分割成token序列；其次根据预训练的token嵌入，将文本数据转换到特征空间；再定义一个最大序列长度，便于将所有样本填充到相同的序列长度；最后将token的嵌入序列和位置嵌入、分段嵌入相加，输入到预训练的BERT模型中，得到最终的文本模态特征。

2、单模态本地模型模块

该模块的主要目的是使用训练集提取的特征训练单模态的本地模型，并测试不同模态数据集对于多模态模型决策的影响，从而决定后续的模块生成对抗样本中每一步迭代的权重。由于在多模态数据集预处理模块中对三个模态的数据进行了预处理并提取特征，因此本地模型使用基于全连接层的神经网络即可。

使用6:2:2的比例划分训练集、验证集和测试集，在多模态数据集的训练集和验证集上分别训练本地模型C_V,C_A,C_T，并在测试集上测试其结果准确率。因为在准确率更低的模态上，目标模型学习的噪声更多，具有较差的鲁棒性，因此针对准确率较高的模型分配更低的对抗扰动权重。其具体的权重分配公式如下：

w_i＝softmax(1-acc_i)

其中，acc_i为对应模态i的本地模型预测准确率，w_i为对应模态i的扰动强度权重，定义i＝V代表视觉模态，i＝T代表文本模态，i＝A代表音频模态。

3、视觉对抗样本生成模块

如图3所示为三种模态的对抗样本生成过程示意图。

视觉对抗样本生成模块的主要作用是使用目标模型的梯度信息生成视觉对抗样本，主要基于对抗样本生成方法PGD(投影梯度下降)，通过若干次迭代生成多个对抗样本。每次迭代中的主要步骤如下：

(1)将

输入到目标模型中，获取模型输出，并计算损失函数

其中，θ为目标模型的参数，

分别为待生成对抗样本的视频S对应的视觉模态样本、音频模态样本和文本模态样本；(2)将目标模型损失反向传播，得到目标模型损失函数相对于视觉模态输入的梯度

(3)根据

得到对抗样本，其中w_V为视觉模态的扰动强度权重，α为每次迭代扰动的力度，sign为符号函数；

(4)限制总体扰动幅度，

其中，P_V为视觉模态的全局最大扰动幅度。

4、文本对抗样本生成模块

相较于具有连续性的视觉和音频两个模态，文本模态因其不连续性和不可微分性，其对抗样本的生成具有一定的难度。为了配合其他两个模态的对抗样本生成，本模块采用梯度近似采样的方法，通过近义词替换生成文本对抗样本。其每次迭代的主要步骤如下：

(1)将

输入到目标模型中，获取模型输出，并计算损失函数

其中，θ为目标模型的参数，

分别为待生成对抗样本的视频S对应的视觉模态样本、音频模态样本和文本模态样本；

(2)将模型损失反向传播，得到目标模型损失函数相对于文本模态输入的梯度

(3)在输入文本序列中随机选择部分单词，针对选中的单词

首先使用语言模型选取待替换单词的top n个近义词候选集

其中x属于源词表V。

(4)针对选中的单词

其替换的近义单词为

其中，csim为余弦相似度，e为词嵌入函数，w_T为文本模态的扰动强度权重。

(5)对全体选中的单词进行扰动，得到文本对抗样本。

5、音频对抗样本生成模块

音频对抗样本的生成与视觉模态相似，但其对抗扰动需要施加在频谱特征而非原始数据上。每次迭代的主要步骤如下：

(1)将

输入到目标模型中，获取模型输出，并计算损失函数

其中，θ为目标模型的参数，

(2)将模型损失反向传播，得到目标模型损失函数相对于音频模态频谱特征的梯度

(3)根据

在频域信号施加扰动，其中，w_A为音频模态的扰动强度权重，

是

的频域形式；

(4)限制总体扰动幅度，

其中，P_A为音频模态的全局最大扰动幅度。

(5)将频谱特征转换回时域，得到音频对抗样本。

6、目标模型脆弱性检测模块

该模块使用包含前述的三种模态的对抗样本生成模块生成的一系列对抗样本的数据集测试目标模型的准确率，通过比较扰动程度逐渐增大的过程中目标模型的准确率和在干净数据集的准确率，分析目标模型的脆弱性和抵抗噪声攻击的鲁棒性。

如图4为脆弱性分析的流程图，在使用本发明中的脆弱性分析系统时，主要经过以下步骤：

(1)用户首先要输入目标模型M及M训练时使用的多模态数据集D_V,D_A,D_T，包含视觉、音频和文本三个模态；

(2)从三个模态提取数据集特征，包括在音频模态计算MFCC和CQCC等声学模态特征，使用计算机视觉和自然语言处理的预训练模型提取视觉模态特征和文本模态特征。

(3)分割数据集，并使用提取到的特征训练单模态本地模型C_V,C_A,C_T；

(4)通过测试单模态模型的训练效果，得到后续生成对抗样本时每个模态的权重大小；

(4)依据目标模型损失函数相对于输入样本的梯度，生成一系列的白盒对抗样本，其中在视觉模态和音频模态使用基于PGD的对抗样本生成，在自然语言模态随机选取若干位置，并在词向量空间选择最匹配模型梯度的近义词进行替换；

(5)最后，测试目标模型在上述生成的对抗样本的准确率，以此分析目标模型的脆弱性，例如，本领域技术人员可以根据准确率划分脆弱性等级，或者采用其他合理的评价准则。

以上列举的仅是本发明的具体实施例。显然，本发明不限于以上实施例，还可以有许多变形。本领域的普通技术人员能从本发明公开的内容直接导出或联想到的所有变形，均应认为是本发明的保护范围。

Claims

1.一种多模态深度学习模型脆弱性的分析方法，其特征在于，包含以下步骤：

2.根据权利要求1所述的多模态深度学习模型脆弱性的分析方法，其特征在于，所述的步骤(2)包括：

3.根据权利要求2所述的多模态深度学习模型脆弱性的分析方法，其特征在于，若视觉模态数据集中的主要内容为人物，则抽取关键帧并调整至统一大小后，使用人脸识别系统进行人脸捕捉，裁剪得到人脸图像，将面部标志点、面部动作单元及面部朝向特征作为视觉模态特征；若视觉模态数据集中的主要内容并非人物，则抽取关键帧并调整至统一大小后，直接采用ResNet预训练模型抽取视觉模态特征。

4.根据权利要求2所述的多模态深度学习模型脆弱性的分析方法，其特征在于，声学模态特征的获取方法为：

预处理：对音频数据进行预加重处理，并将处理后的音频进行分帧、加窗，得到预处理后的音频数据；

分支处理：对预处理后的音频数据进行快速傅里叶变换，对快速傅里叶变换后的数据进行滤波和对数功率操作；在快速傅里叶变换的同时，对预处理后的音频数据进行常数Q变换，对常数Q变换后的数据进行对数功率操作并均匀重采样；

将分支处理后得到的两种频域信号的功率信号进行离散余弦变换，分别得到MFCC特征和CQCC特征，拼接后作为声学模态特征。

5.根据权利要求1所述的多模态深度学习模型脆弱性的分析方法，其特征在于，所述的步骤(3)包括：

(3-2)在测试集上分别测试C_V,C_A,C_T的准确率；

6.根据权利要求1所述的多模态深度学习模型脆弱性的分析方法，其特征在于，所述的步骤(4)包括：