CN115859220B

CN115859220B - 数据处理方法、相关装置及存储介质

Info

Publication number: CN115859220B
Application number: CN202211664805.7A
Authority: CN
Inventors: 请求不公布姓名
Original assignee: Beijing Real AI Technology Co Ltd
Current assignee: Beijing Real AI Technology Co Ltd
Priority date: 2022-12-23
Filing date: 2022-12-23
Publication date: 2023-08-25
Anticipated expiration: 2042-12-23
Also published as: CN115859220A

Abstract

本申请实施例涉及情绪识别领域，提供一种数据处理方法、相关装置及存储介质，该方法包括：获取多模态候选对抗向量；其中，所述多模态候选对抗向量基于多模态数据和多模态候选扰动，在特征融合阶段或决策融合阶段得到；所述多模态数据包括情绪语义相同的多个单一模态数据，所述多个单一模态数据包括文本数据、图像数据和语音数据；基于所述多模态候选对抗向量获取目标情绪的预测概率值；若所述预测概率值不大于预设阈值，则更新所述多模态候选扰动；基于更新的多模态候选扰动，获取更新的多模态候选对抗向量，直至预测概率值大于所述预设阈值，并将此时的多模态候选扰动作为目标扰动。本申请实施例实现多模态情绪识别模型的对抗攻击。

Description

数据处理方法、相关装置及存储介质

技术领域

本申请实施例涉及情绪识别领域，更具体地涉及一种数据处理方法、相关装置及存储介质。

背景技术

对抗攻击研究如何针对深度学习模型生成对抗样本，对抗样本可以输入深度学习模型，基于深度学习模型对对抗样本的识别结果可以确定模型是否安全。这有助于及时发现深度学习模型的脆弱性，评估深度学习模型的鲁棒性。一些对抗攻击方法在数字世界中生成添加较小对抗扰动的对抗图像，无法被深度学习模型正确识别或将其识别为指定的标签。

多模态情绪识别通过分析语音信号、视觉信号和生理信号来识别人的情感状态，利用多通道情绪信息之间的互补性来提高情绪识别的准确率。例如，人们在高兴时说话节奏欢快，表现在说话的音调和语速上，同时面部会微笑，眯眼，此时语音和表情同时表达出高兴的情感状态；当一个人难过时，往往不会怎么说话，情感识别难以单靠语音单模态信息，难过体现在表情上往往伴随着面部嘴角下垂、皱眉等。由于多模态情绪识别利用多通道情绪信息之间的互补性来提高情绪识别的准确率，即模型鲁棒性较高，现有技术中没有行之有效的针对其进行对抗攻击的方式。如何衡量多模态情绪识别模型的安全性，挖掘其缺陷成为亟待解决的一个问题。

发明内容

本申请实施例提供一种数据处理方法、相关装置及存储介质,可以基于多模态数据，在特征融合或决策融合阶段，迭代更新多模态候选对抗向量，从而生成可以实现对抗攻击目标的目标扰动，切实有效的实现多模态情绪识别模型的对抗攻击，从而对模型进行安全性测试和缺陷挖掘。

第一方面，本申请实施例提供一种数据处理方法，该方法包括：

获取多模态候选对抗向量；其中，所述多模态候选对抗向量基于多模态数据和多模态候选扰动，在特征融合阶段或决策融合阶段得到；所述多模态数据包括情绪语义相同的多个单一模态数据，所述多个单一模态数据包括文本数据、图像数据和语音数据；

基于所述多模态候选对抗向量获取目标情绪的预测概率值；

若所述预测概率值不大于预设阈值，则更新所述多模态候选扰动；

基于更新的多模态候选扰动，获取更新的多模态候选对抗向量，直至预测概率值大于所述预设阈值，并将预测概率值大于所述预设阈值时的多模态候选扰动作为目标扰动。

第二方面，本申请实施例提供一种数据处理装置，具有实现对应于上述第一方面提供的数据处理方法的功能。所述功能可以通过硬件实现，也可以通过硬件执行相应的软件实现。硬件或软件包括一个或多个与上述功能相对应的模块，所述模块可以是软件和/或硬件。

在一个实施方式中，所述数据处理装置包括：

输入输出模块，被配置为获取多模态数据；

处理模块，被配置为获取多模态候选对抗向量；其中，所述多模态候选对抗向量基于多模态数据和多模态候选扰动，在特征融合阶段或决策融合阶段得到；所述多模态数据包括情绪语义相同的多个单一模态数据，所述多个单一模态数据包括文本数据、图像数据和语音数据；

所述处理模块，还被配置为基于所述多模态候选对抗向量获取目标情绪的预测概率值；以及若所述预测概率值不大于预设阈值，则更新所述多模态候选扰动；

所述处理模块，还被配置为基于更新的多模态候选扰动，获取更新的多模态候选对抗向量，直至预测概率值大于所述预设阈值，并将预测概率值大于所述预设阈值时的多模态候选扰动作为目标扰动。

第三方面，本申请实施例提供一种计算机可读存储介质，其包括指令，当其在计算机上运行时，使得计算机执行如第一方面所述的数据处理方法。

第四方面，本申请实施例提供一种计算设备，包括存储器，处理器及存储在存储器上并可在处理器上运行的计算机程序，其中，所述处理器执行所述计算机程序时实现第一方面所述的数据处理方法。

相较于现有技术，本申请实施例中，将多模态候选扰动与多模态数据在特征融合或决策融合阶段融合，得到多模态候选对抗向量，然后基于所述多模态候选对抗向量得到目标情绪的预测概率值，最后基于所述目标情绪的预测概率值确定是否得到符合预设要求的目标扰动。若所述预测概率值不大于预设阈值，则迭代更新所述多模态候选扰动，直至得到目标扰动。相较于现有技术，由于本申请实施例中提出了用于在特征融合或决策融合环节与相关数据融合的多模态候选扰动，而不是直接与多模态数据融合，即本申请实施例相当于在多模态情绪识别的两个关键环节直接实施对抗攻击，而不是在原始输入上进行扰动，通过模型处理得到包括对抗信息的特征，间接进行对抗攻击。因此，本申请实施例得到的目标扰动的攻击效果更加显著。另外，由于本申请实施例生成目标扰动可以与特征向量或决策向量结合，生成能够被识别为目标情绪的融合向量形式的多模态候选对抗向量；因此，在一些实施例中，可以基于所述目标扰动进行反向解码，生成可以输入多模态识别模型的对抗样本；即可以将所述对抗样本输入第三方的模型，进行黑盒模型的安全性测试和缺陷挖掘，提高本申请实施例的目标扰动的利用率。

附图说明

通过参考附图阅读本申请实施例的详细描述，本申请实施例的目的、特征和优点将变得易于理解。其中：

图1为本申请实施例中数据处理方法的一种数据处理系统示意图；

图2为本申请实施例的数据处理方法的一种流程示意图；

图3为本申请实施例的数据处理方法的一种基于更新候选扰动生成目标扰动的流程示意图；

图4为本申请实施例的数据处理方法的一种获取多模态候选对抗向量的流程示意图；

图5为本申请实施例的数据处理方法的一种获取各个单一模态的候选对抗向量的流程示意图；

图6为本申请实施例的数据处理方法的又一种获取各个单一模态的候选对抗向量的流程示意图；

图7为本申请实施例的数据处理方法的一种基于一个单一模态的情绪识别结果得到预测向量的流程示意图；

图8为本申请实施例的数据处理方法的一种基于一个单一模态数据得到候选对抗向量的数据变化示意图；

图9为本申请实施例的数据处理方法的一种获取目标多模态对抗样本的流程示意图；

图10为本申请实施例的数据处理装置的结构示意图；

图11为本申请实施例的计算设备的一种结构示意图；

图12为本申请实施例中手机的一种结构示意图；

图13为本申请实施例中服务器的一种结构示意图。

在附图中，相同或对应的标号表示相同或对应的部分。

具体实施方式

本申请实施例的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或模块的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或模块，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或模块，本申请实施例中所出现的模块的划分，仅仅是一种逻辑上的划分，实际应用中实现时可以有另外的划分方式，例如多个模块可以结合成或集成在另一个系统中，或一些特征可以忽略，或不执行。另外，所显示的或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，模块之间的间接耦合，通信连接可以是电性或其他类似的形式，本申请实施例中均不作限定。并且，作为分离部件说明的模块或子模块可以是也可以不是物理上的分离，可以是也可以不是物理模块，或者可以分布到多个电路模块中，可以根据实际的需要选择其中的部分或全部模块来实现本申请实施例方案的目的。

本申请实施例提供一种数据处理方法、相关装置及存储介质，可应用于数据处理系统，该数据处理系统可包括数据处理装置和情绪识别装置，数据处理装置和识别装置可以集成部署，也可分离式部署。该数据处理装置至少用于获取多模态候选扰动和多模态候选对抗向量，基于多模态候选对抗向量的情绪识别结果获取目标情绪的预测概率值，基于预测概率值更新候选扰动，以得到目标扰动。该情绪识别装置用于预测输入的多模态候选对抗向量，得到情绪识别结果。其中，数据处理装置可为更新候选扰动、生成目标扰动的应用程序，或为安装了更新候选扰动、生成目标扰动的应用程序的服务器；情绪识别装置可为对多模态候选对抗向量进行检测，得到情绪识别结果的情绪识别程序，所述情绪识别程序例如是多模态情绪识别模型，所述情绪识别装置还可为部署了多模态识别模型的终端设备。

本申请实施例提供的方案涉及人工智能(Artificial Intelligence，AI)、计算机视觉技术(Computer Vision，CV)、机器学习(Machine Learning，ML)等技术，具体通过如下实施例进行说明:

其中，AI是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

AI技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

CV是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括对抗扰动生成、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。

现有技术中，由于多模态情绪识别利用多通道情绪信息之间的互补性来提高情绪识别的准确率，即模型鲁棒性较高，没有行之有效的针对其进行对抗攻击的方式。一种可能的方式是，将各个单一模态的数据分别独立的生成对抗样本，最后再将各个单一模态的对抗样本组合为多模态对抗样本，以便对多模态情绪识别模型进行攻击。然而，由于多模态数据潜在要求各个单一模态数据的语义一致，分别独立生成的各个单一模态的对抗样本，在生成过程中并未考虑与其他模态数据的协调一致，造成最终得到的多模态对抗样本的对抗攻击效果反而没有达到理想值，即不能实现理想的对抗攻击效果。

相比于现有技术，本申请实施例可以将多模态候选扰动与多模态数据在特征融合或决策融合阶段融合，得到多模态候选对抗向量，然后基于所述多模态候选对抗向量得到目标情绪的预测概率值，最后基于所述目标情绪的预测概率值确定是否得到符合预设要求的目标扰动。若所述预测概率值不大于预设阈值，则迭代更新所述多模态候选扰动，直至得到目标扰动。相较于现有技术，由于本申请实施例中提出了用于在特征融合或决策融合环节与相关数据融合的多模态候选扰动，而不是直接与多模态数据融合，即本申请实施例相当于在多模态情绪识别的两个关键环节直接实施对抗攻击，而不是在原始输入上进行扰动，通过模型处理得到包括对抗信息的特征，间接进行对抗攻击。因此，本申请实施例得到的目标扰动的攻击效果更加显著。另外，由于本申请实施例生成目标扰动可以与特征向量或决策向量结合，生成能够被识别为目标情绪的融合向量形式的多模态候选对抗向量；因此，在一些实施例中，可以基于所述目标扰动进行反向解码，生成可以输入多模态识别模型的对抗样本；即可以将所述对抗样本输入第三方的模型，进行黑盒模型的安全性测试和缺陷挖掘，提高本申请实施例的目标扰动的利用率。本申请实施例中可以通过数据处理系统生成目标扰动。该数据处理系统可包括数据处理装置和情绪识别装置。

一些实施方式中，数据处理装置和情绪识别装置分离式部署，参照图1，本申请实施例提供的数据处理方法可基于图1所示的一种数据处理系统实现。该数据处理系统可以包括服务器01和终端设备02。

该服务器01可以是数据处理装置，其中可以部署数据处理程序。

该终端设备02可以是情绪识别装置，其中可以部署有情绪识别模型，例如基于机器学习的方法训练得到的情绪识别模型。

服务器01可以接收多模态数据和目标情绪，然后基于多模态数据和初始的候选扰动，迭代更新出致力于可以被识别为目标情绪的多模态候选对抗向量，并将该多模态候选对抗向量向该终端设备02发送。终端设备02可以采用情绪识别模型对该多模态候选对抗向量进行处理，得到情绪识别结果，然后向服务器01反馈。服务器01可以基于所述情绪识别结果确定多模态候选对抗向量被识别为目标情绪的预测概率值，从而基于所述预测概率值确定该多模态候选对抗向量是否能够实现攻击目标，若能够实现攻击目标，则将其对应的多模态候选扰动确定为目标扰动。

需要说明的是，本申请实施例涉及的服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。

本申请实施例涉及的终端设备，可以是指向用户提供语音和/或数据连通性的设备，具有无线连接功能的手持式设备、或连接到无线调制解调器的其他处理设备。例如移动电话(或称为“蜂窝”电话)和具有移动终端的计算机，例如，可以是便携式、袖珍式、手持式、计算机内置的或者车载的移动装置，它们与无线接入网交换语音和/或数据。例如，个人通信业务(英文全称：Personal Communication Service，英文简称：PCS)电话、无绳电话、会话发起协议(SIP)话机、无线本地环路(Wireless Local Loop，英文简称：WLL)站、个人数字助理(英文全称：Personal Digital Assistant，英文简称：PDA)等设备。

参照图2，图2为本申请实施例提供的一种数据处理方法的流程示意图。该方法可由数据处理装置执行，可应用于多模态情绪识别的安全性测试场景，生成目标扰动或目标多模态对抗样本，对多模态情绪识别模型进行对抗攻击测试，发掘多模态情绪识别模型的缺陷，衡量多模态情绪识别模型的安全性。所述数据处理方法包括步骤101-104：

步骤101，获取多模态候选对抗向量。

在本申请实施例中，所述多模态候选对抗向量是能够在多模态情绪识别模型中起到对抗攻击作用的一个向量，即该向量旨在使得所述多模态情绪识别模型以一些概率输出目标情绪。可以理解的是，本申请实施例中的候选对抗向量是一个迭代过程中的中间数据，即生成最终的目标扰动过程中的一个中间产物，其在各个迭代轮次中能够发挥的对抗攻击效果可能并不相同。例如，第一个迭代轮次的候选对抗向量1，可能仅仅能够使得模型将其识别后，输出为目标情绪的概率为10％；在第二个迭代轮次，迭代更新得到的候选对抗向量2，就可以使得模型输出目标情绪的概率变为20％。因此，本申请实施例，通过一个迭代过程，可以提高后续轮次中候选对抗向量的攻击成功率，直至得到符合要求的目标扰动，使得其在多模态情绪识别模型中能够发挥出理想的对抗攻击效果。

需要说明的是，本申请实施例中的多模态指的是的是多种模态的信息，例如可以包括:文本、图像、视频、语音等。可以理解的是，需要进行情绪识别的多模态数据往往是一个融合数据，例如一个电视剧的视频段，其包括了字幕、画面和音频(演员台词或背景音乐)等数据，这些数据往往表现相同的情绪；例如在一个描绘二人分别场景的视频片段中，画面中的人物表情、字幕以及音频展现的人物台词和背景音乐，往往都是诉说二人分别的悲伤或不舍；即所述多模态数据包括情绪语义相同的多个单一模态数据。

由于多模态情绪识别模型可以根据各个单一模态的数据分别进行情绪识别，并加以验证，所以其识别准确度较高，而这也是多模态情绪识别模型难以实施对抗攻击的原因所在。基于此，本申请实施例的多模态候选对抗向量，是基于多模态数据和多模态候选扰动，在特征融合阶段或决策融合阶段得到的，相当于在多模态情绪识别的两个关键环节直接实施对抗攻击，而不是在原始输入上进行扰动，通过模型处理得到包括对抗信息的特征，间接进行对抗攻击。因此，本申请实施例得到的目标扰动的攻击效果更加显著。

为了方便对本申请实施例如何基于多模态数据和多模态候选扰动，获得多模态候选对抗向量进行介绍，下面先介绍多模态情绪识别模型的数据处理流程：在采用特征融合这一技术手段，对多模态数据进行情绪识别的模型的工作数据流中，会将输入模型的多模态数据进行特征处理，得到各个单一模态数据的特征向量，然后将各个单一模态数据的特征向量进行融合，得到用于进行情绪识别的最佳融合向量，基于该最佳融合向量进行情绪分类，即可得到所述多模态数据表示的情绪；在采用决策融合这一技术手段，对多模态数据进行情绪识别的模型的工作数据流中，会将输入模型的多模态数据分别进行特征处理，得到各个单一模态数据的特征向量，然后将各个单一模态数据的特征向量分别进行情绪分类，得到各个单一模态数据的情绪识别结果，最后基于各个情绪识别结果进行融合，即可得到所述多模态数据表示的情绪。

基于现有多模态情绪识别模型往往采用特征融合或决策融合这些技术手段，对多模态数据表示的情绪进行统一识别的特点。本申请实施例考虑，可以在特征融合阶段或决策融合阶段，将基于多模态数据提取到的向量与对抗扰动结合，得到一个组合对抗向量，然后模型将基于该组合对抗向量进行情绪识别，从而可以实现对抗攻击目的。

可以理解的是，在本申请实施例中，候选扰动可以基于历史候选扰动更新得到，所述历史候选扰动包括初始扰动。初始扰动可以是根据预设方式初始化得到的，例如随机初始化得到。在后续的生成目标扰动的过程中，则以历史候选扰动为基础更新得到目标扰动。即目标扰动由上一个时间步长更新得到的候选扰动更新得到，例如，如图3所示，假设基于初始扰动a1进行3次更新得到了目标扰动A，那么首先基于初始扰动a1进行第一次更新得到候选扰动a2，然后基于候选扰动a2进行第二次更新得到候选扰动a3，最后基于候选扰动a3更新得到目标扰动A。

考虑到，每个迭代轮次更新得到的候选扰动并不能单独发挥对抗攻击作用，而需要和对应的向量(基于多模态数据得到)融合，得到候选对抗向量。具体来说，参照图4，在本申请实施例中，获取多模态候选对抗向量的所述步骤101可以包括步骤1011-1014：

步骤1011，基于所述多模态数据，分别获取各个单一模态数据的特征。

在本申请实施例中，在每一个迭代轮次获取到多模态数据之后，可以先将所述多模态数据拆分为多个单一模态的数据。例如，获取到的多模态数据为一个电视剧的视频段，则可以将其拆分为文本数据(包括字幕显示的台词)，语音数据(包括人物音频中的人物台词和背景音乐)和图像数据(视频中的各个帧图像)。在得到各个单一模态的数据之后，可以获取各个单一模态数据的特征，还是以电视剧的视频段为例，则可以获取到文本数据特征，语音数据特征和图像数据特征。

可以理解的是，获取各个单一模态数据的特征的方式，可以是采用多模态情绪识别模型中的特征提取器，或者根据数据格式采用编码器(通常处理文本数据或语音数据)，卷积神经网络(通常处理图像数据或语音数据)等，本申请实施例对此不做限定。

步骤1012，根据所述多模态候选扰动分别获取各个单一模态数据的候选扰动。

在本申请实施例中，为了方便后续步骤获取多模态候选对抗向量，以及各个单一模态的候选对抗向量，首先，需要得到各个第一模态数据的候选扰动，以便与各个单一模态的特征结合，也即每个单一模态的特征均具有一个与其一一对应的候选扰动；例如，若多模态数据包括文本数据、图像数据和语音数据，则可以获取到文本特征，语音特征和图像特征，对应地，多模态候选扰动则包括文本候选扰动、语音候选扰动和图像候选扰动。

步骤1013，在特征融合与决策融合中至少一个阶段，将各个特征与各个候选扰动分别对应拼接，得到各个单一模态的候选对抗向量。

基于多模态情绪识别模型的工作数据流可知，其中存在特征融合与决策融合两个关键节点。由此，本申请实施例中考虑对其中至少一个阶段进行扰动，实施对抗攻击。即，在其中一个阶段，将各个单一模态的候选扰动，与基于各个单一模态进行数据处理得到的向量(例如在特征融合前，进行特征处理得到的特征向量)进行拼接，得到各个第一模态的候选对抗向量。

例如，若多模态数据包括图像数据和语音数据，在特征融合阶段，可以将图像特征和图像候选扰动拼接，得到图像候选对抗向量，将语音特征和语音候选扰动拼接，得到语音候选对抗向量。在决策融合阶段，则可以将各个单一模态数据的情绪识别向量(例如基于情绪识别结果处理得到的预测向量)与对应的候选扰动拼接，得到各个单一模态的候选对抗向量。例如，若多模态数据包括图像数据和文本数据，则可以将决策融合阶段中得到的图像预测向量和文本预测向量，分别与各自的候选扰动拼接；即将图像预测向量与图像候选扰动拼接，得到图像候选对抗向量，将文本预测向量与文本候选扰动拼接，得到文本候选对抗向量。

本申请实施例中，为了增强最终得到的目标扰动的对抗攻击效果，例如使其在特征融合与决策融合阶段均能发挥出理想的对抗攻击作用，即提高其利用率。在一个可能的设计中，可以在特征融合与决策融合两个阶段均实施对抗攻击，本设计中，所述多模态候选扰动包括各个单一模态的特征候选扰动和决策候选扰动，参照图5，所述步骤1013可以包括步骤10131-10132：

步骤10131，在特征融合阶段，将各个特征与各个特征候选扰动分别对应融合，得到各个单一模态的组合特征对抗向量。

在本申请实施例中，基于一个单一模态数据得到的特征，与其对应的特征候选扰动融合的方式可以是拼接、加权叠加或直接叠加，本领域的技术人员可以根据实际需要选择，此处不做限定。

可以理解的是，本申请实施例中的特征与特征候选扰动一一对应，即每一个单一模态数据的特征均具有与其对应的一个特征候选扰动。例如，若多模态数据包括图像数据和语音数据，则多模态候选扰动至少包括图像特征候选扰动和语音特征候选扰动；在特征融合阶段，可以将图像特征和图像特征候选扰动融合，得到图像组合特征对抗向量，将语音特征和语音特征候选扰动融合，得到语音组合特征对抗向量。

步骤10132，在决策融合阶段，将各个组合特征对抗向量与各个决策候选扰动分别对应融合，得到各个单一模态的候选对抗向量。

在本申请实施例中，所述组合特征对抗向量与所述决策候选扰动一一对应，即每一个单一模态数据的特征均具有与其对应的一个决策候选扰动。

例如，若多模态数据包括图像数据和语音数据，则多模态候选扰动包括图像特征候选扰动、图像决策候选扰动、语音特征候选扰动和语音决策候选扰动；在特征融合阶段，可以将图像特征和图像特征候选扰动融合，得到图像组合特征对抗向量，将语音特征和语音特征候选扰动融合，得到语音组合特征对抗向量；接下来，在决策融合阶段，可以将图像特征和图像组合特征对抗向量融合，得到图像候选对抗向量，将语音特征和语音组合特征对抗向量融合，得到语音候选对抗向量。

可以理解的是，在本申请实施例中，在特征融合阶段与决策融合阶段，向量与扰动的融合方式可以相同，也可以不同，本领域的技术人员可以根据实际需要进行选择，本申请实施例对此不作限定。

考虑到，在一些多模态情绪识别模型中，为了保证基于输入的多模态数据识别出的情绪的准确性，可能会将各个单一模态的数据分别输入多个单一情绪识别模型中，从而基于得到的多个情绪识别结果进行交叉验证。因此，为了保证本申请实施例得到的目标扰动对上述多模态情绪识别模型的有效性，即提高目标扰动的对抗攻击效果和稳定性，使得其具有较高的鲁棒性。在一个可能的设计中，可以通过多模型处理候选对抗向量，并对处理结果进行混淆，从而增强其抗干扰能力，参照图6，所述步骤10132可以包括步骤101321-101324：

步骤101321，基于各个单一模态的组合特征对抗向量，分别获取各个单一模态的混淆矩阵和预测向量。

在本设计中，混淆矩阵、预测向量均与组合特征对抗向量一一对应；例如，若多模态数据包括图像数据和语音数据，则经过一系列步骤处理之后，可以得到图像组合特征对抗向量和语音组合特征对抗向量；本步骤中，可以基于所述图像组合特征对抗向量获取一个图像混淆矩阵和图像预测向量，并且基于所述语音组合特征对抗向量获取一个语音混淆矩阵和语音预测向量。

需要说明的是，一个单一模态的混淆矩阵包括该单一模态的组合特征对抗向量的多个情绪预测概率值。具体来说，可以预先设置多个单一模态数据的情绪预测模型，然后将一个单一模态的组合特征对抗向量输入各个情绪预测模型中，即可获取所述组合特征对抗向量的多个情绪预测概率值。在本申请实施例中，每个情绪预测模型均可以输出预设数量的情绪预测概率值；例如，针对图像这类单一模态的数据，可以采用预先准备好的情绪训练图像集合，训练多个情绪识别模型，这些情绪识别模型均可以针对输入其中的图像数据进行识别，得到多个情绪的可能概率值，例如情绪识别结果＝{高兴，70％；悲伤，10％；愤怒，50％}；若存在5个情绪识别模型，则可以输出5个类似于上述情绪识别结果的情绪预测概率值集合。

在将一个单一模态的数据分别输入其对应的多个情绪预测模型，得到多个情绪预测概率值之后，即可混合所述多个情绪预测概率值，得到该单一模态的混淆矩阵。具体来说，每个情绪预测概率值均具有自身来源的模型信息，以及表达的情绪信息，由此，可以基于这两个信息，在一个矩阵中排布各个情绪预测概率值，得到一个混淆矩阵。例如，将一个图像数据输入3个预先得到的情绪预测模型，得到情绪识别结果1＝{高兴，70％；悲伤，10％；愤怒，50％}，情绪识别结果2＝{高兴，67％；悲伤，17％；愤怒，48％}，情绪识别结果3＝{高兴，86％；悲伤，18％；愤怒，39％}；接下来，可以混合上述三个情绪识别结果中的情绪预测概率值，得到混淆矩阵：

可以理解的是，虽然在本设计中，示例性地对混淆矩阵的形成方式进行了设置：所述混淆矩阵中同一行的矩阵元素的下标代表相同的预设模型，同一列的矩阵元素的下标代表相同的情绪分类。但是混淆矩阵的形成方式并不限于此，例如也可以将行列矩阵元素的下标表示的内容互换。本设计中的关键之处在于：针对同一个数据进行多次情绪预测，然后混淆得到一个矩阵，从而使得基于该数据进行预测得到的结果更加准确，避免单次预测或单个模型本身存在的偏见或缺陷，影响预测结果，最终使得目标扰动的对抗攻击效果受到影响。

需要说明的是，在本设计中，一个单一模态的预测向量基于该单一模态的多个情绪预测概率值得到。例如，可以将一个情绪识别模型基于一个单一模态数据，输出的多个情绪预测概率值拼接，得到该单一模态数据的预测向量；还是以上述混淆矩阵中的示例为基础，则可以基于情绪识别结果1得到预测向量(0.7，0.1，0.5)。

或者，也可以将该单一模态数据的各个情绪识别结果得到的情绪预测概率值进行加权融合，得到一个预测向量。例如，参照图7，可以先以情绪识别结果为单位，将各个结果中的概率值归一化，即同一个识别结果中的概率值之和为1，然后再将各个归一化之后的识别结果进行第二次归一化，使得各个情绪的概率值之和为1，由此，即可得到该单一模态的预测向量。

步骤101322，将各个单一模态的混淆矩阵的对角线矩阵元素分别进行归一化，得到各个单一模态的预测向量的权重值。

在设计中，得到各个单一模态的混淆矩阵之后，即可基于各个混淆矩阵对各个单一模态的预测向量进行校准和修正。具体来说，可以基于各个混淆矩阵获取各个预测向量的权重值，其中，所述权重值与所述预测向量一一对应。

在设计中，考虑到混淆矩阵的组成结构，可以将其对角线矩阵元素进行归一化，得到一个混淆矩阵代表的该单一模态数据的权重值。基于上述示例性混淆矩阵，可以是将主对角线元素{0.70,0.17，0.39}归一化，得到权重值；也可以是将副对角线元素{0.86,0.17,0.50}归一化，得到权重值，本领域的技术人员可以根据实际需要进行选择，此处不作限定。

基于上述对一个混淆矩阵的处理，类似地，可以对各个混淆矩阵进行相同的处理，得到每个混淆矩阵对应的权重值。

步骤101323，根据各个权重值对各个预测向量分别进行加权融合，得到各个单一模态的融合向量。

本设计中，权重值和预测向量是一一对应的，由此，将一个权重值和其对应的预测向量加权融合之后，可以得到二者均关联的单一模态的组合特征对抗向量的融合向量。类似地，将各个权重值对各个预测向量分别进行加权融合之后，即可得到各个单一模态的组合特征对抗向量的融合向量。

步骤101324，将各个单一模态的融合向量与各个决策候选扰动分别对应融合，得到各个单一模态的候选对抗向量。

在设计中，在进行特征融合阶段的扰动之外，还额外进行了决策融合阶段的扰动，即将每个单一模态的融合向量与其对应的决策候选扰动融合。本设计中，通过两个阶段均实施扰动的方式，强化了对抗攻击效果，提高了对抗攻击成功率

可以理解的是，决策候选扰动可以与特征候选扰动具有相同的数据格式，例如都可以是向量。参照图8，图8为一种基于图像模态的数据获取该单一模态的候选对抗向量的示例性数据流图，图8中的数据格式均为向量，可以方便地与情绪识别过程中的中间数据(例如特征向量)进行融合或拼接。

需要说明的是，本申请实施例中，各个步骤的向量融合均可以是拼接、组合、加权叠加等现有向量融合方式中的任一种，本领域的技术人员可以根据实际需要进行选择。

在本设计中，通过多个情绪预测模型对一个单一模态数据进行多轮预测，得到多个情绪识别结果，从而可以方便对该单一模态数据表达的情绪进行校准，以便后续的扰动，使得最终得到的目标扰动的对抗攻击效果优异且鲁棒性强。由于基于混淆矩阵得到的权重值，是根据来源于多个模型的不同识别结果得到的，从而可以摒弃可能存在的模型偏见，使得该权重值可以更加真实的反应出输入模型的数据的真实情绪表达。另外，本设计中，通过权重值对预测向量进行校准，使得各个单一模态的组合特征对抗向量的真实情绪表达显著化，放大了其本身能够表达的各个情绪，从而方便后续步骤中对情绪的识别，突出不同情绪之间的细微识别差异，使得最终的目标扰动的情绪扰动效果更佳。

通过上述步骤101321～101324，介绍了一种在决策融合阶段，可能的获取各个单一模态的候选对抗向量的方式，在该方式中，通过引入混淆矩阵，强化初始输入模型的单一模态数据的情绪表达能力，从而使得经过多轮迭代优化后的候选扰动可以扰动经强化的多模态数据，提高其鲁棒性。可以理解的是，在决策融合阶段，获取单一模态的候选对抗向量的方式也不限于上述可能的设计，例如可以是直接将单一模态的组合特征对抗向量与对应的决策候选扰动融合。

可以理解的是，虽然本申请实施例中通过步骤10131和S10132分别介绍了特征融合与决策融合阶段的一些可能方式，但是并不限于此。本申请实施例的关键在于：在多模态情绪识别的两个关键节点(特征融合与决策融合)，引入扰动，与模型本身处理数据得到向量进行融合，得到各个单一模态的候选对抗向量，从而实现对抗攻击。

步骤1014，组合各个单一模态的候选对抗向量，得到所述多模态候选对抗向量。

在本申请实施例中，得到各个单一模态的候选对抗向量之后，即可将其进行拼接或组合，得到用于扰动情绪识别的多模态候选对抗向量。例如，若多模态数据包括语音数据和文本数据，则经过本申请实施例的一系列处理后可得到文本候选对抗向量和语音候选对抗向量，然后可以进行拼接处理，得到多模态候选对抗向量(即文本候选对抗向量+语音候选对抗向量)；或者可以进行组合处理(例如组合为矩阵)，得到多模态候选对抗向量。

本申请实施例中，通过步骤1011～1014介绍了一些获取多模态候选对抗向量的示例性方式，接下来，可以基于该多模态候选对抗向量，获取其被识别为目标情绪的预测概率，从而判断是否得到了目标扰动。

步骤102，基于所述多模态候选对抗向量获取目标情绪的预测概率值。

在本申请实施例中，在得到多模态候选对抗向量之后，可以将其输入多模态情绪识别模型中，然后由模型输出情绪识别结果，进而根据情绪识别结果获取目标情绪的预测概率值。在一个具体示例中，初始的多模态数据可以是一个表示悲伤的视频段，对抗攻击的目标是将其识别为高兴的情绪(即目标情绪)；然后基于该视频段，按照本申请实施例的一些步骤进行处理之后，得到了一个多模态候选对抗向量，基于该候选对抗向量进行情绪识别，得到结果为{高兴，70％；悲伤，10％；愤怒，50％}，由此，即可确定其被识别为目标情绪的预测概率值为70％。

步骤103，若所述预测概率值不大于预设阈值，则更新所述多模态候选扰动。

在本申请实施例中，每个迭代轮次得到的预测概率值和所述预测阈值用于判断是否可以终止迭代循环，得到目标扰动。在一些可能的设计中，所述预设阈值可以是80％或90％，本领域的技术人员可以根据实际应用场景进行自由设置，此处不做限定。在当前迭代轮次得到的多模态候选对抗向量的目标情绪的预测概率值不大于所述预设阈值时，则需要更新多模态候选扰动，从而使得其在下一个迭代轮次发挥更佳的对抗攻击作用，提高候选对抗向量被识别为目标情绪的概率值。

在本申请实施例中，更新多模态候选扰动的方式可以是基于梯度的优化方式。例如，可以是基于当前迭代轮次的预测概率值和理想预测概率值获取交叉熵损失，然后基于交叉熵损失的偏导和多模态候选扰动的偏导的比值获取梯度，然后基于所述梯度和预设步长更新各个单一模态的候选扰动。需要说明的是，由于候选扰动实质上为一个向量，因此，对其进行更新可以是进行向量元素值的加减；在获取到所述梯度之后，即可根据所述梯度确定各个向量元素值的更新方向(例如正方向或负方向)，然后基于所述更新方向和预设步长即可更新向量元素值；例如若梯度的符号为+，则更新方向为正方向，则基于预设步长与所述向量元素值的数值相加，得到更新后的候选扰动。

在一些可能的设计中，还可以基于任意现有的梯度优化器优化更新候选扰动，例如可以是梯度下降法(Gradient Descent)、动量法(Momentum)、共轭梯度法(ConjugateGradient)和自然梯度法(Natural Gradient))，本领域的技术人员可以根据实际需要进行选择，本申请实施例对此不做限定。

需要说明的是，虽然本申请实施例中，以各个迭代轮次得到的多模态候选对抗向量，被识别为目标情绪的预测概率值，是否不大于预设阈值为基础，作为判断循环是否终止的条件，但是并不限于此。在一些可能的设计中，还可以根据循环迭代次数确定是否终止循环，例如可以将循环迭代100次后得到的多模态候选扰动作为目标扰动。在一些可能的设计中，还可以根据各个迭代轮次得到的多模态候选对抗向量，被识别为目标情绪的预测概率值是否收敛，作为判断循环是否终止的条件，例如，某个迭代轮次得到的多模态候选对抗向量，其被识别为目标情绪的预测概率值与上一轮次相比，没有发生变化，则可以认为已经收敛，此时可以将倒数第二个迭代轮次得到的多模态候选扰动作为目标扰动。

步骤104，基于更新的多模态候选扰动，获取更新的多模态候选对抗向量，直至预测概率值大于所述预设阈值，并将预测概率值大于所述预设阈值时的多模态候选扰动作为目标扰动。

在本申请实施例中，更新多模态候选扰动之后，即可重新获取多模态候选对抗向量(即步骤101中获取多模态候选对抗向量的操作)，从而进入下一轮循环。

本申请实施例中，目标扰动可以作为一个攻击组件库，以便在对目标模型进行对抗攻击时，作用于模型基于多模态数据提取到的特征向量，形成对抗向量，误导模型的情绪识别结果。考虑到，本申请实施例中的目标扰动实质上是多个具有共同对抗攻击目标的单一模态扰动的组合，由此，本申请实施例中，基于目标扰动构建的攻击组件库可以包括各个情绪的单一模态的扰动组件库。例如，攻击组件库可以包括各个单一模态的攻击组件子库，每个攻击组件子库可以包括该库对应的模态的各个情绪的扰动，例如，图像模态的攻击组件子库中可以包括针对高兴情绪的图像扰动，该图像扰动可以叠加在模型处理图像数据(表示悲伤)后得到的图像特征向量上，使得模型输出高兴的情绪。其他模态的攻击组件子库以及其他情绪的扰动类似，此处不再赘述。

需要说明的是，本申请实施例中，是将多模态候选扰动作为一个整体，进行的迭代更新，从而得到的目标扰动。该目标扰动使得多模态数据，能够在其所包括的三个单一模态的扰动的共同作用下，被识别为目标情绪。由此，基于本申请实施例的方法，可以得到各个情绪的目标扰动(使得该扰动可以作用于多模态数据，使其被识别为目标情绪)，基于各个目标扰动，可以构建一个以情绪为单位的攻击组件库，该攻击组件库中可以包括各个多模态扰动(一些单一模态扰动的组合)，任一个多模态扰动可以与多模态数据作用，使多模态扰动包括的各个单一模态扰动分别作用于对应的单一模态数据，从而在各个单一模态扰动的共同作用下，得到多模态数据被识别为目标情绪的识别结果。

可以理解的是，虽然本申请实施例中是以多模态候选扰动为单位，进行的更新。在一些可能的设计中，也可以是基于各个单一模态的候选扰动为基础，进行各自的迭代，从而得到各个单一模态的对抗扰动。基于各个单一模态的对抗扰动，同样可以构建攻击组件库，此处不再赘述。

考虑到，本申请实施例中得到的目标扰动是一个向量形式的数据，其必须与模型处理多模态数据过程中得到的中间数据(例如特征向量)结合，才可以形成扰动向量，从而发挥对抗攻击效果。然而，在一些场景下，多模态情绪识别模型是第三方开发或部署的私有模型，难以从中获取中间数据，即模型持有方不会开放模型。此种场景下(相当于在黑盒场景下实施对抗攻击)，本申请实施的目标扰动无法产生作用，即其不能在无法获知模型内部参数结构的情况下进行对抗攻击，实际测试场景受到一定的限制。

可选的，在本申请的一些实施例中，为了实现在黑盒场景下的多模态情绪识别的对抗攻击，可以获取能够实现对抗攻击的多模态对抗向量(例如最后一个迭代轮次的多模态候选对抗向量)，然后将该多模态对抗向量解码，得到自然数据形式(图像、文本或音频)的多模态对抗样本，以便直接输入多模态情绪识别模型，进行端到端的对抗攻击。在本实施例中，得到目标扰动之后，参照图8，所述方法还包括步骤201-203：

步骤201，获取多模态对抗向量。

在本申请实施例中，该多模态对抗向量已经可以发挥理想的对抗攻击作用，其相当于是基于目标扰动得到的，即该多模态对抗向量被识别为目标情绪的概率值大于所述预设阈值，例如可以是步骤101-104中预测概率值大于所述预设阈值时的多模态候选对抗向量。

步骤202，基于所述多模态对抗向量获取各个单一模态的候选对抗向量，并分别进行解码，得到各个单一模态的候选对抗样本。

在本申请实施例中，若多模态数据包括图像数据和文本数据，则经过一系列步骤，获取到目标扰动之后，还可以得到图像对抗向量(包括目标扰动中的图像扰动)和文本对抗向量(包括目标扰动中的文本扰动)。然后，基于图像对抗向量，可以进行逆向解码，得到具有对抗攻击作用的对抗图像(类似于叠加了对抗噪声的原始图像)，类似地，可以对文本对抗向量进行解码，得到对抗文本。

可以理解的是，本申请实施例中，对抗向量与候选对抗样本一一对应，即每个单一模态的对抗向量，均会对应生成一个对抗样本。

步骤203，根据各个单一模态的候选对抗样本，得到目标多模态对抗样本。

在本申请实施例中，可以将各个单一模态的候选对抗样本组合，例如按照时序对齐后融合，得到目标多模态对抗样本。例如，初始的多模态数据为一个包括字幕的视频段，其包括文本数据、图像数据和语音数据，则基于步骤101-104对其进行处理后，可以得到文本对抗向量，图像对抗向量和语音对抗向量，进而可以分别独立解码，得到文本候选对抗样本，图像候选对抗样本和语音候选对抗样本。最后，可以将三个单一模态的候选对抗样本进行组合，形成含有字幕的视频形式的对抗样本(即目标多模态对抗样本)。

考虑到，各个单一模态的对抗样本是分别独立解码生成的，然而，其在组合为目标多模态对抗样本时，需要具有一致性和协调性。例如，一个视频段中的画面、语音和字幕，应该是相互匹配的(例如，画面中的人物口型和语音播放的台词以及字幕显示相对应)。

为了消除各个单一模态的对抗样本之间可能存在的分歧，使得多模态对抗样本协调统一。在一个可能的设计中，可以以一个单一模态的对抗样本为基准，调整其他单一模态的对抗样本，从而使得最终得到的多模态对抗样本的内容具有一致性。例如，所述步骤203还可以包括：获取文本模态的候选对抗样本的文本序列；接下来，根据所述文本序列调整图像模态的候选对抗样本和语音模态的候选对抗样本；例如，可以根据文本序列的各个文字，调整语音内容和图像中的人物口型；最终，基于调整后的图像模态的候选对抗样本和语音模态的候选对抗样本，更新多模态候选对抗样本，得到所述目标多模态对抗样本。

在一个可能的设计中，还可以通过对抗生成式模型，将各个单一模态的候选对抗向量转换为目标多模态对抗样本。具体来说，对抗生成式模型可以包括一个生成器和判别器，生成器可以包括多个单模态样本生成分支以及一个多模态样本生成节点；在多模态样本生成节点中，可以将各个单一模态的对抗样本进行统一融合，得到内容协调一致的多模态候选对抗样本；在判别器中，可以维护两个判别损失，一个是情绪判别损失，用于评估多模态候选对抗样本的情绪识别结果与理想结果之间的差异，另外一个判别损失是一致性损失，可以衡量多模态候选对抗样本中的各个单一模态的对抗样本的一致性之间的差异，例如可以是语义内容特征的距离。基于此，可以不断的迭代，直至得到符合两个判别损失要求的目标多模态对抗样本，即其既可以实现对抗攻击效果，还具有协调一致性。

本申请实施例中的目标多模态对抗样本为可解释的数据，而非人类无法理解的向量，其可以在模型的输入端进入模型中，从而实现对模型的端到端的对抗攻击，而无需在模型处理数据的过程中进行扰动，更加方便在黑盒场景下进行安全性测试，应用范围更广，且对抗样本的利用率得到了提高。

本申请实施例中，将多模态候选扰动与多模态数据在特征融合或决策融合阶段融合，得到多模态候选对抗向量，然后基于所述多模态候选对抗向量得到目标情绪的预测概率值，最后基于所述目标情绪的预测概率值确定是否得到符合预设要求的目标扰动。若所述预测概率值不大于预设阈值，则迭代更新所述多模态候选扰动，直至得到目标扰动。相较于现有技术，由于本申请实施例中提出了用于在特征融合或决策融合环节与相关数据融合的多模态候选扰动，而不是直接与多模态数据融合，即本申请实施例相当于在多模态情绪识别的两个关键环节直接实施对抗攻击，而不是在原始输入上进行扰动，通过模型处理得到包括对抗信息的特征，间接进行对抗攻击。因此，本申请实施例得到的目标扰动的攻击效果更加显著。另外，由于本申请实施例生成目标扰动可以与特征向量或决策向量结合，生成能够被识别为目标情绪的融合向量形式的多模态候选对抗向量；因此，在一些实施例中，可以基于所述目标扰动进行反向解码，生成可以输入多模态识别模型的对抗样本；即可以将所述对抗样本输入第三方的模型，进行黑盒模型的安全性测试和缺陷挖掘，提高本申请实施例的目标扰动的利用率。

以上对本申请实施例中一种数据处理方法进行说明，以下对执行上述数据处理方法的数据处理装置(例如服务器)进行介绍。

参阅图10，如图10所示的一种数据处理装置的结构示意图，其可应用于服务器中，用于。在本申请实施例中的数据处理装置能够实现对应于上述图2中所对应的实施例中所执行的数据处理方法的步骤。数据处理装置实现的功能可以通过硬件实现，也可以通过硬件执行相应的软件实现。硬件或软件包括一个或多个与上述功能相对应的模块，所述模块可以是软件和/或硬件。所述数据处理装置可包括输入输出模块601及处理模块602，所述装置还可以包括显示模块(图10中未标识出)，所述处理模块602、所述输入输出模块601的功能实现可参考图2所对应的实施例中所执行的操作，此处不作赘述。例如，所述处理模块602可用于控制所述输入输出模块601的收发、获取等操作，以及控制所述显示模块的操作。

所述输入输出模块601，被配置为获取多模态数据；

所述处理模块602，被配置为获取多模态候选对抗向量；其中，所述多模态候选对抗向量基于多模态数据和多模态候选扰动，在特征融合阶段或决策融合阶段得到；所述多模态数据包括情绪语义相同的多个单一模态数据，所述多个单一模态数据包括文本数据、图像数据和语音数据；

所述处理模块602，还被配置为基于所述多模态候选对抗向量获取目标情绪的预测概率值；以及若所述预测概率值不大于预设阈值，则更新所述多模态候选扰动；

所述处理模块602，还被配置为基于更新的多模态候选扰动，获取更新的多模态候选对抗向量，直至预测概率值大于所述预设阈值，并将预测概率值大于所述预设阈值时的多模态候选扰动作为目标扰动。

在一些实施方式中，所述处理模块602，被配置为基于所述多模态数据，分别获取各个单一模态数据的特征；根据所述多模态候选扰动分别获取各个单一模态数据的候选扰动，其中，所述特征与所述候选扰动一一对应；在特征融合与决策融合中至少一个阶段，将各个特征与各个候选扰动分别对应拼接，得到各个单一模态的候选对抗向量；组合各个单一模态的候选对抗向量，得到所述多模态候选对抗向量。

在一些实施方式中，所述多模态候选扰动包括各个单一模态的特征候选扰动和决策候选扰动；所述处理模块602，被配置为在特征融合阶段，将各个特征与各个特征候选扰动分别对应融合，得到各个单一模态的组合特征对抗向量；其中，所述特征与所述特征候选扰动一一对应；以及

在决策融合阶段，将各个组合特征对抗向量与各个决策候选扰动分别对应融合，得到各个单一模态的候选对抗向量；其中，所述组合特征对抗向量与所述决策候选扰动一一对应。

在一些实施方式中，所述处理模块602，被配置为基于各个单一模态的组合特征对抗向量，分别获取各个单一模态的混淆矩阵和预测向量；其中，一个单一模态的混淆矩阵，包括该单一模态的组合特征对抗向量的多个情绪预测概率值；所述混淆矩阵、所述预测向量与所述组合特征对抗向量一一对应；以及

将各个单一模态的混淆矩阵的对角线矩阵元素分别进行归一化，得到各个单一模态的预测向量的权重值，所述权重值与所述预测向量一一对应；以及

根据各个权重值对各个预测向量分别进行加权融合，得到各个单一模态的融合向量；以及

将各个单一模态的融合向量与各个决策候选扰动分别对应融合，得到各个单一模态的候选对抗向量。

在一些实施方式中，所述处理模块602，被配置为将一个单一模态的组合特征对抗向量输入多个预设模型，得到多个情绪预测概率值，每个预设模型均输出预设数量的情绪预测概率值；混合所述多个情绪预测概率值，得到该单一模态的混淆矩阵；

其中，所述混淆矩阵中同一行的矩阵元素的下标代表相同的预设模型，同一列的矩阵元素的下标代表相同的情绪分类；该单一模态的预设向量基于所述多个情绪预测概率值得到。

在一些实施方式中，所述处理模块602，被配置为获取多模态对抗向量，所述多模态对抗向量被识别为目标情绪的预测概率值大于所述预设阈值；基于所述多模态对抗向量获取各个单一模态的对抗向量，并分别进行解码，得到各个单一模态的候选对抗样本；其中，所述对抗向量与所述候选对抗样本一一对应；根据各个单一模态的候选对抗样本，得到目标多模态对抗样本。

在一些实施方式中，所述处理模块602，被配置为获取文本模态的候选对抗样本的文本序列；根据所述文本序列调整图像模态的候选对抗样本和语音模态的候选对抗样本；基于调整后的图像模态的候选对抗样本和语音模态的候选对抗样本，更新多模态候选对抗样本，得到所述目标多模态对抗样本。

本申请实施例中，处理模块将多模态候选扰动与多模态数据在特征融合或决策融合阶段融合，得到多模态候选对抗向量，然后基于所述多模态候选对抗向量得到目标情绪的预测概率值，最后基于所述目标情绪的预测概率值确定是否得到符合预设要求的目标扰动。若所述预测概率值不大于预设阈值，处理模块则迭代更新所述多模态候选扰动，直至得到目标扰动。相较于现有技术，由于本申请实施例中提出了用于在特征融合或决策融合环节与相关数据融合的多模态候选扰动，而不是直接与多模态数据融合，即本申请实施例相当于在多模态情绪识别的两个关键环节直接实施对抗攻击，而不是在原始输入上进行扰动，通过模型处理得到包括对抗信息的特征，间接进行对抗攻击。因此，本申请实施例得到的目标扰动的攻击效果更加显著。另外，由于本申请实施例生成目标扰动可以与特征向量或决策向量结合，生成能够被识别为目标情绪的融合向量形式的多模态候选对抗向量；因此，在一些实施例中，可以基于所述目标扰动进行反向解码，生成可以输入多模态识别模型的对抗样本；即可以将所述对抗样本输入第三方的模型，进行黑盒模型的安全性测试和缺陷挖掘，提高本申请实施例的目标扰动的利用率。

在介绍了本申请实施例的方法和装置之后，接下来，对本申请实施例的计算机可读存储介质进行说明，计算机可读存储介质可为光盘，其上存储有计算机程序(即程序产品)，所述计算机程序在被处理器运行时，会实现上述方法实施方式中所记载的各步骤，例如，获取多模态候选对抗向量；其中，所述多模态候选对抗向量基于多模态数据和多模态候选扰动，在特征融合阶段或决策融合阶段得到；所述多模态数据包括情绪语义相同的多个单一模态数据，所述多个单一模态数据包括文本数据、图像数据和语音数据；基于所述多模态候选对抗向量获取目标情绪的预测概率值；若所述预测概率值不大于预设阈值，则更新所述多模态候选扰动；基于更新的多模态候选扰动，获取更新的多模态候选对抗向量，直至预测概率值大于所述预设阈值，并将预测概率值大于所述预设阈值时的多模态候选扰动作为目标扰动。各步骤的具体实现方式在此不再重复说明。

需要说明的是，所述计算机可读存储介质的例子还可以包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他光学、磁性存储介质，在此不再一一赘述。

上面从模块化功能实体的角度对本申请实施例中的数据处理装置60进行了描述，下面从硬件处理的角度分别对本申请实施例中的执行数据处理方法的服务器、终端设备进行描述。

需要说明的是，在本申请数据处理装置实施例的图10所示的输入输出模块601对应的实体设备可以为输入/输出单元、收发器、射频电路、通信模块和输入/输出(I/O)接口等，处理模块602对应的实体设备可以为处理器。图10所示的数据处理装置60可以具有如图11所示的结构，当图10所示的数据处理装置60具有如图11所示的结构时，图11中的处理器和收发器能够实现前述对应该装置的装置实施例提供的处理模块602和输入输出模块601相同或相似的功能，图11中的存储器存储处理器执行上述数据处理方法时需要调用的计算机程序。

本申请实施例还提供了一种终端设备，如图12所示，为了便于说明，仅示出了与本申请实施例相关的部分，具体技术细节未揭示的，请参照本申请实施例方法部分。该终端设备可以为包括手机、平板电脑、个人数字助理(Personal Digital Assistant，PDA)、销售终端设备(Point of Sales，POS)、车载电脑等任意终端设备，以终端设备为手机为例：

图12示出的是与本申请实施例提供的终端设备相关的手机的部分结构的框图。参考图12，手机包括：射频(Radio Frequency，RF)电路1010、存储器1020、输入单元1030、显示单元1040、传感器1050、音频电路1060、无线保真(wireless fidelity，WiFi)模块1070、处理器1080、以及电源1090等部件。本领域技术人员可以理解，图12中示出的手机结构并不构成对手机的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

下面结合图12对手机的各个构成部件进行具体的介绍：

RF电路1010可用于收发信息或通话过程中，信号的接收和发送，特别地，将基站的下行信息接收后，给处理器1080处理；另外，将设计上行的数据发送给基站。通常，RF电路1010包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器(LowNoiseAmplifier，LNA)、双工器等。此外，RF电路1010还可以通过无线通信与网络和其他设备通信。上述无线通信可以使用任一通信标准或协议，包括但不限于全球移动通讯系统(GlobalSystem of Mobile communication，GSM)、通用分组无线服务(General PacketRadioService，GPRS)、码分多址(Code Division Multiple Access，CDMA)、宽带码分多址(Wideband Code Division Multiple Access,WCDMA)、长期演进(Long Term Evolution，LTE)、电子邮件、短消息服务(Short Messaging Service，SMS)等。

存储器1020可用于存储软件程序以及模块，处理器1080通过运行存储在存储器1020的软件程序以及模块，从而执行手机的各种功能应用以及数据处理。存储器1020可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器1020可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

输入单元1030可用于接收输入的数字或字符信息，以及产生与手机的用户设置以及功能控制有关的键信号输入。具体地，输入单元1030可包括触控面板1031以及其他输入设备1032。触控面板1031，也称为触摸屏，可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板1031上或在触控面板1031附近的操作)，并根据预先设定的程式驱动相应的连接装置。可选的，触控面板1031可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器1080，并能接收处理器1080发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板1031。除了触控面板1031，输入单元1030还可以包括其他输入设备1032。具体地，其他输入设备1032可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。

显示单元1040可用于显示由用户输入的信息或提供给用户的信息以及手机的各种菜单。显示单元1040可包括显示面板1041，可选的，可以采用液晶显示器(LiquidCrystalDisplay，LCD)、有机发光二极管(Organic Light-Emitting Diode，OLED)等形式来配置显示面板1041。进一步的，触控面板1031可覆盖显示面板1041，当触控面板1031检测到在其上或附近的触摸操作后，传送给处理器1080以确定触摸事件的类型，随后处理器1080根据触摸事件的类型在显示面板1041上提供相应的视觉输出。虽然在图12中，触控面板1031与显示面板1041是作为两个独立的部件来实现手机的输入和输入功能，但是在某些实施例中，可以将触控面板1031与显示面板1041集成而实现手机的输入和输出功能。

手机还可包括至少一种传感器1050，比如光传感器、运动传感器以及其他传感器。具体地，光传感器可包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示面板1041的亮度，接近传感器可在手机移动到耳边时，关闭显示面板1041和/或背光。作为运动传感器的一种，加速计传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等；至于手机还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器，在此不再赘述。

音频电路1060、扬声器1061，传声器1062可提供用户与手机之间的音频接口。音频电路1060可将接收到的音频数据转换后的电信号，传输到扬声器1061，由扬声器1061转换为声音信号输出；另一方面，传声器1062将收集的声音信号转换为电信号，由音频电路1060接收后转换为音频数据，再将音频数据输出处理器1080处理后，经RF电路1010以发送给比如另一手机，或者将音频数据输出至存储器1020以便进一步处理。

Wi-Fi属于短距离无线传输技术，手机通过Wi-Fi模块1070可以帮助用户收发电子邮件、浏览网页和访问流式媒体等，它为用户提供了无线的宽带互联网访问。虽然图12示出了Wi-Fi模块1070，但是可以理解的是，其并不属于手机的必须构成，完全可以根据需要在不改变发明的本质的范围内而省略。

处理器1080是手机的控制中心，利用各种接口和线路连接整个手机的各个部分，通过运行或执行存储在存储器1020内的软件程序和/或模块，以及调用存储在存储器1020内的数据，执行手机的各种功能和处理数据，从而对手机进行整体监控。可选的，处理器1080可包括一个或多个处理单元；可选的，处理器1080可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器1080中。

手机还包括给各个部件供电的电源1090(比如电池)，可选的，电源可以通过电源管理系统与处理器1080逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。

尽管未示出，手机还可以包括摄像头、蓝牙模块等，在此不再赘述。

在本申请实施例中，该手机所包括的处理器1080还具有控制执行以上由情绪识别装置执行的基于输入的多模态候选对抗向量获取情绪识别结果的方法流程；或者控制执行以上由数据处理装置执行的基于输入的多模态数据生成目标扰动的方法流程。

本申请实施例还提供了一种服务器，请参阅图13，图13是本申请实施例提供的一种服务器结构示意图，该服务器1100可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器(英文全称：central processing units，英文简称：CPU)1122(例如，一个或一个以上处理器)和存储器1132，一个或一个以上存储应用程序1142或数据1144的存储介质1130(例如一个或一个以上海量存储设备)。其中，存储器1132和存储介质1130可以是短暂存储或持久存储。存储在存储介质1130的程序可以包括一个或一个以上模块(图中未示出)，每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器1122可以设置为与存储介质1130通信，在服务器1100上执行存储介质1130中的一系列指令操作。

服务器1100还可以包括一个或一个以上电源1126，一个或一个以上有线或无线网络接口1150，一个或一个以上输入输出接口1158，和/或，一个或一个以上操作系统1141，例如Windows Server，Mac OS X，Unix,Linux，FreeBSD等等。

上述实施例中由服务器所执行的步骤可以基于该图13所示的服务器1100的结构。例如，例如上述实施例中由图13所示的数据处理装置60所执行的步骤可以基于该图13所示的服务器结构。例如，所述中央处理器1122通过调用存储器1132中的指令，执行以下操作：

通过输入输出接口1158获取多模态数据；

基于所述多模态候选对抗向量获取目标情绪的预测概率值；

还可以通过输入输出接口1158所述目标扰动像输出，以便形成攻击组件库，提供对多模态情绪识别模型进行攻击的工具，衡量多模态情绪识别模型的安全性或挖掘所述多模态情绪识别模型的缺陷。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请实施例所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个模块或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或模块的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理模块，即可以位于一个地方，或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

另外，在本申请实施例各个实施例中的各功能模块可以集成在一个处理模块中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。

所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机计算机程序时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存储的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。

以上对本申请实施例所提供的技术方案进行了详细介绍，本申请实施例中应用了具体个例对本申请实施例的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请实施例的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请实施例的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请实施例的限制。

Claims

1.一种数据处理方法，应用于多模态情绪识别模型的对抗攻击测试，所述方法包括：

获取多模态候选对抗向量；其中，所述多模态候选对抗向量基于多模态数据和多模态候选扰动，在所述多模态情绪识别模型的特征融合阶段和决策融合阶段得到；所述多模态数据包括情绪语义相同的多个单一模态数据，所述多个单一模态数据包括文本数据、图像数据和语音数据；

基于所述多模态候选对抗向量获取目标情绪的预测概率值；

基于更新的多模态候选扰动，获取更新的多模态候选对抗向量，直至预测概率值大于所述预设阈值，并将预测概率值大于所述预设阈值时的多模态候选扰动作为目标扰动；

其中，所述多模态候选扰动包括各个单一模态的特征候选扰动和决策候选扰动；

所述多模态候选对抗向量基于各个单一模态的候选对抗向量得到，所述候选对抗向量基于以下方式得到：

在特征融合阶段，将各个特征与各个特征候选扰动分别对应融合，得到各个单一模态的组合特征对抗向量；其中，所述特征与所述特征候选扰动一一对应；

在决策融合阶段，将各个组合特征对抗向量与各个决策候选扰动分别对应融合，得到各个单一模态的候选对抗向量；其中，所述组合特征对抗向量与所述决策候选扰动一一对应；

所述将各个组合特征对抗向量与各个决策候选扰动分别对应融合，得到各个单一模态的候选对抗向量，包括：

基于各个单一模态的组合特征对抗向量，分别获取各个单一模态的混淆矩阵和预测向量；其中，一个单一模态的混淆矩阵，包括该单一模态的组合特征对抗向量的多个情绪预测概率值；所述混淆矩阵、所述预测向量与所述组合特征对抗向量一一对应；

将各个单一模态的混淆矩阵的对角线矩阵元素分别进行归一化，得到各个单一模态的预测向量的权重值，所述权重值与所述预测向量一一对应；

根据各个权重值对各个预测向量分别进行加权融合，得到各个单一模态的融合向量；

2.如权利要求1所述的方法，其中，所述获取多模态候选对抗向量，包括：

基于所述多模态数据，分别获取各个单一模态数据的特征；

根据所述多模态候选扰动分别获取各个单一模态数据的候选扰动，其中，所述特征与所述候选扰动一一对应；

在特征融合阶段与决策融合阶段，将各个特征与各个候选扰动分别对应拼接，得到各个单一模态的候选对抗向量；

组合各个单一模态的候选对抗向量，得到所述多模态候选对抗向量。

3.如权利要求1所述的方法，其中，基于一个单一模态的组合特征对抗向量，获取该单一模态的混淆矩阵，包括：

将一个单一模态的组合特征对抗向量输入多个预设模型，得到多个情绪预测概率值，每个预设模型均输出预设数量的情绪预测概率值；

混合所述多个情绪预测概率值，得到该单一模态的混淆矩阵；

其中，所述混淆矩阵中同一行的矩阵元素的下标代表相同的预设模型，同一列的矩阵元素的下标代表相同的情绪分类；该单一模态的预测向量基于所述多个情绪预测概率值得到。

4.如权利要求1-3中任一项所述的方法，其中，得到目标扰动之后，所述方法还包括：

获取多模态对抗向量，所述多模态对抗向量被识别为目标情绪的概率值大于所述预设阈值；

基于所述多模态对抗向量，获取各个单一模态的对抗向量，并分别进行解码，得到各个单一模态的候选对抗样本；其中，各个单一模态的对抗向量包括图像对抗向量、文本对抗向量和语音对抗向量，所述对抗向量与所述候选对抗样本一一对应；

根据各个单一模态的候选对抗样本，得到目标多模态对抗样本。

5.如权利要求4所述的方法，其中，根据各个单一模态的候选对抗样本，得到目标多模态对抗样本，包括：

获取文本模态的候选对抗样本的文本序列；

根据所述文本序列调整图像模态的候选对抗样本和语音模态的候选对抗样本；

基于调整后的图像模态的候选对抗样本和语音模态的候选对抗样本，更新多模态候选对抗样本，得到所述目标多模态对抗样本。

6.一种数据处理装置，应用于多模态情绪识别模型的对抗攻击测试，包括：

输入输出模块，被配置为获取多模态数据；

处理模块，被配置为获取多模态候选对抗向量；其中，所述多模态候选对抗向量基于多模态数据和多模态候选扰动，在所述多模态情绪识别模型的特征融合阶段和决策融合阶段得到；所述多模态数据包括情绪语义相同的多个单一模态数据，所述多个单一模态数据包括文本数据、图像数据和语音数据；

所述处理模块，还被配置为基于更新的多模态候选扰动，获取更新的多模态候选对抗向量，直至预测概率值大于所述预设阈值，并将预测概率值大于所述预设阈值时的多模态候选扰动作为目标扰动；

所述处理模块，被配置为在特征融合阶段，将各个特征与各个特征候选扰动分别对应融合，得到各个单一模态的组合特征对抗向量；其中，所述特征与所述特征候选扰动一一对应；以及

所述处理模块，被配置为基于各个单一模态的组合特征对抗向量，分别获取各个单一模态的混淆矩阵和预测向量；其中，一个单一模态的混淆矩阵，包括该单一模态的组合特征对抗向量的多个情绪预测概率值；所述混淆矩阵、所述预测向量与所述组合特征对抗向量一一对应；以及

7.如权利要求6所述的装置，其中，所述处理模块，被配置为基于所述多模态数据，分别获取各个单一模态数据的特征；根据所述多模态候选扰动分别获取各个单一模态数据的候选扰动，其中，所述特征与所述候选扰动一一对应；在特征融合阶段与决策融合阶段，将各个特征与各个候选扰动分别对应拼接，得到各个单一模态的候选对抗向量；组合各个单一模态的候选对抗向量，得到所述多模态候选对抗向量。

8.如权利要求6所述的装置，其中，所述处理模块，被配置为将一个单一模态的组合特征对抗向量输入多个预设模型，得到多个情绪预测概率值，每个预设模型均输出预设数量的情绪预测概率值；混合所述多个情绪预测概率值，得到该单一模态的混淆矩阵；

9.如权利要求6-7中任一项所述的装置，其中，所述处理模块，被配置为获取多模态对抗向量，所述多模态对抗向量被识别为目标情绪的预测概率值大于所述预设阈值；基于所述多模态对抗向量获取各个单一模态的对抗向量，并分别进行解码，得到各个单一模态的候选对抗样本；其中，各个单一模态的对抗向量包括图像对抗向量、文本对抗向量和语音对抗向量，所述对抗向量与所述候选对抗样本一一对应；根据各个单一模态的候选对抗样本，得到目标多模态对抗样本。

10.如权利要求9所述的装置，其中，所述处理模块，被配置为获取文本模态的候选对抗样本的文本序列；根据所述文本序列调整图像模态的候选对抗样本和语音模态的候选对抗样本；基于调整后的图像模态的候选对抗样本和语音模态的候选对抗样本，更新多模态候选对抗样本，得到所述目标多模态对抗样本。

11.一种计算设备，包括存储器，处理器及存储在存储器上并可在处理器上运行的计算机程序，其中，所述处理器执行所述计算机程序时实现如权利要求1-5中任一项所述的方法。

12.一种计算机可读存储介质，其包括指令，当其在计算机上运行时，使得计算机执行如权利要求1-5中任一项所述的方法。

13.一种芯片系统，其特征在于，包括：

通信接口，用于输入和/或输出信息；

处理器，用于执行计算机可执行程序，使得安装有所述芯片系统的设备执行如利要求1-5中任一项所述的方法。