CN117312992B

CN117312992B - 多视角人脸特征与音频特征融合的情绪识别方法及系统

Info

Publication number: CN117312992B
Application number: CN202311618738.XA
Authority: CN
Inventors: 任卫红; 高宇; 刘洪海; 姜渭博; 许兴隆; 罗金国; 董潜
Original assignee: Shenzhen Graduate School Harbin Institute of Technology
Current assignee: Shenzhen Graduate School Harbin Institute of Technology
Priority date: 2023-11-30
Filing date: 2023-11-30
Publication date: 2024-03-12
Anticipated expiration: 2043-11-30
Also published as: CN117312992A

Abstract

本发明公开了一种多视角人脸特征与音频特征融合的情绪识别方法及系统，所述方法包括：获取用于捕获目标对象在不同视角的人脸图像的所有相机之间的位置关系，根据所述位置关系对所有所述相机进行校准；接收所有所述相机发送的所述目标对象在不同视角的人脸图像，并对所有所述人脸图像进行特征提取和融合，得到最终视觉特征；接收所述目标对象发出的音频信号，并根据所述音频信号得到音频特征，将所述最终视觉特征和所述音频特征进行融合得到最终融合特征，根据所述最终融合特征识别得到所述目标对象的情绪识别结果。本发明通过对相机进行标定，提供更加真实和全面的人脸图像，更全面地理解和分析用户的面部表情，提高情绪识别的准确性和可靠性。

Description

多视角人脸特征与音频特征融合的情绪识别方法及系统

技术领域

本发明涉及计算机视觉技术领域，尤其涉及一种多视角人脸特征与音频特征融合的情绪识别方法、系统、终端及计算机可读存储介质。

背景技术

随着科技的发展，情感识别系统逐渐走入人们的视野，情绪识别系统使用计算机视觉和机器学习技术来分析多个视角的图像，并从中提取有关情感的信息，广泛应用于现实世界的许多场景中，例如服务机器人、医疗诊断、驾驶辅助系统等，在医疗监测领域可以实现对病患人员的异常状态监测，在智能驾驶领域可以实时感知和预测驾驶员的疲劳程度，保证驾驶汽车的安全性和稳定性。

目前的情绪识别系统中对于情感识别的方法分为两大类，分别是基于单视角特征的方法和基于多视角特征融合的方法。其中，基于单视角特征的方法仅依赖单一视角对人脸信息的捕获，在面对存在被遮挡的复杂场景时无法全面地理解场景中的情绪复杂性，并且通常依赖复杂的机器学习模型，结果的可解释性较差。而基于多视角特征融合的方法，通过多个摄像头能够同时获取多个角度的人脸信息，弥补单一视角下被遮挡的人脸信息，但摄像头之间的角度、位置等数据的差异使得每个视角下的人脸图像无法进行有效的特征融合，从而映入冗余信息，导致识别结果不准确。

因此，现有技术还有待于改进和发展。

发明内容

本发明的主要目的在于提供一种多视角人脸特征与音频特征融合的情绪识别方法、系统、终端及计算机可读存储介质，旨在解决现有技术中多视角特征融合的情感识别方法因为摄像头角度、位置等数据的差异导致无法对受试者的情绪进行有效识别，导致情绪识别的结果不准确的技术问题。

为实现上述目的，本发明提供一种多视角人脸特征与音频特征融合的情绪识别方法，所述多视角人脸特征与音频特征融合的情绪识别方法包括如下步骤：

获取用于捕获目标对象在不同视角的人脸图像的所有相机之间的位置关系，根据所述位置关系对所有所述相机进行校准；

接收所有所述相机发送的所述目标对象在不同视角的人脸图像，并对所有所述人脸图像进行特征提取和融合，得到最终视觉特征；

接收所述目标对象发出的音频信号，并根据所述音频信号得到音频特征，将所述最终视觉特征和所述音频特征进行融合得到最终融合特征，根据所述最终融合特征识别得到所述目标对象的情绪识别结果。

可选地，所述的多视角人脸特征与音频特征融合的情绪识别方法，其中，所述获取用于捕获目标对象在不同视角的人脸图像的所有相机之间的位置关系，具体包括：

从预设的类二维码字典中随机选取一个类二维码；

控制所有所述相机拍摄所述类二维码，得到每个所述相机对应的第一位置图像，其中，所述类二维码已被放置在各个相机均能拍摄到的第一预设位置；

通过预设的位置函数对每个所述第一位置图像分别进行处理，得到每个所述相机的第一外参矩阵；

根据所有所述第一外参矩阵，计算任意两个所述第一外参矩阵对应的两个相机之间的相机间外参矩阵；

根据所有所述相机间外参矩阵得到所有用于捕获目标对象在不同视角的人脸图像的相机之间的位置关系。

可选地，所述的多视角人脸特征与音频特征融合的情绪识别方法，其中，所述根据所述位置关系对所有所述相机进行校准，具体包括：

从所有所述相机中选取任意一台相机作为校准相机；

控制所述校准相机和辅助相机拍摄所述类二维码，得到所述校准相机的第二位置图像和所述辅助相机的第三位置图像，其中，所述辅助相机为额外架设的用于进行辅助标定的相机，所述类二维码已被放置在所述校准相机和所述辅助相机均能拍摄到的第二预设位置；

通过所述位置函数分别对所述第二位置图像和所述第三位置图像进行处理，得到所述校准相机的第二外参矩阵和所述辅助相机的第三外参矩阵；

在屏幕上显示所述类二维码，控制所述辅助相机拍摄所述屏幕上的类二维码，得到第四位置图像；

通过所述位置函数对所述第四位置图像进行处理，得到所述辅助相机的辅助外参矩阵；

根据所述第二外参矩阵、所述第三外参矩阵和所述辅助外参矩阵获得所述校准相机和所述屏幕之间的校准位置关系；

根据所述校准位置关系对所述校准相机进行校准，并根据校准后的校准相机位置和所述位置关系对除辅助相机外的剩余所有相机进行校准，以完成对所有所述相机的校准。

可选地，所述的多视角人脸特征与音频特征融合的情绪识别方法，其中，所述接收所有所述相机发送的所述目标对象在不同视角的人脸图像，并对所有所述人脸图像进行特征提取和融合，得到最终视觉特征，具体包括：

接收所有所述相机针对所述目标对象在不同视角采集的人脸图像；

将每个所述人脸图像分别输入对应的图像特征提取器，得到每个所述人脸图像对应的图像特征向量；

将所有所述图像特征向量进行融合操作，得到最终视觉特征。

可选地，所述的多视角人脸特征与音频特征融合的情绪识别方法，其中，所述接收所述目标对象发出的音频信号，并根据所述音频信号得到音频特征，将所述最终视觉特征和所述音频特征进行融合得到最终融合特征，具体包括：

接收所述目标对象发出的音频信号，并将所述音频信号输入预设的音频特征提取模块，得到音频特征；

根据所述最终视觉特征和所述音频特征计算交叉注意力权重，并根据所述交叉注意力权重对所述最终视觉特征和所述音频特征进行更新；

将更新完成的最终视觉特征和音频特征进行融合，得到所述最终融合特征。

可选地，所述的多视角人脸特征与音频特征融合的情绪识别方法，其中，所述根据所述最终视觉特征和所述音频特征计算交叉注意力权重，并根据所述交叉注意力权重对所述最终视觉特征和所述音频特征进行更新，具体包括：

对所述最终视觉特征进行线性映射操作，得到视觉查询值、视觉键值和视觉效值；

对所述音频特征进行线性映射操作，得到音频查询值、音频键值和音频效值；

根据所述视觉查询值和所述音频键值计算第一交叉注意力权重；

根据所述音频查询值和所述视觉键值计算第二交叉注意力权重；

根据所述第二交叉注意力权重和所述视觉效值对所述最终视觉特征进行更新；

根据所述第一交叉注意力权重和所述音频效值对所述音频特征进行更新。

可选地，所述的多视角人脸特征与音频特征融合的情绪识别方法，其中，所述根据所述最终融合特征识别得到所述目标对象的情绪识别结果，具体包括：

对所述最终融合特征进行维度转换操作，将所述最终融合特征的维度转换为预设数量的维度，其中，每个所述维度对应一种情绪类别；

通过预设的情绪识别函数对维度转换完成的最终融合特征进行处理，得到每个所述维度对应的数值，根据每个所述数值得到每个所述情绪类别的概率；

根据所有所述概率得到所述目标对象最终的情绪识别结果，以完成情绪识别。

此外，为实现上述目的，本发明还提供一种多视角人脸特征与音频特征融合的情绪识别系统，其中，所述多视角人脸特征与音频特征融合的情绪识别系统包括：

相机位置校准模块，用于获取用于捕获目标对象在不同视角的人脸图像的所有相机之间的位置关系，根据所述位置关系对所有所述相机进行校准；

视觉特征提取模块，用于接收所有所述相机发送的所述目标对象在不同视角的人脸图像，并对所有所述人脸图像进行特征提取和融合，得到最终视觉特征；

情绪识别模块，用于接收所述目标对象发出的音频信号，并根据所述音频信号得到音频特征，将所述最终视觉特征和所述音频特征进行融合得到最终融合特征，根据所述最终融合特征识别得到所述目标对象的情绪识别结果。

此外，为实现上述目的，本发明还提供一种终端，其中，所述终端包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的多视角人脸特征与音频特征融合的情绪识别程序，所述多视角人脸特征与音频特征融合的情绪识别程序被所述处理器执行时实现如上所述的多视角人脸特征与音频特征融合的情绪识别方法的步骤。

此外，为实现上述目的，本发明还提供一种计算机可读存储介质，其中，所述计算机可读存储介质存储有多视角人脸特征与音频特征融合的情绪识别程序，所述多视角人脸特征与音频特征融合的情绪识别程序被处理器执行时实现如上所述的多视角人脸特征与音频特征融合的情绪识别方法的步骤。

本发明中，获取用于捕获目标对象在不同视角的人脸图像的所有相机之间的位置关系，根据所述位置关系对所有所述相机进行校准；接收所有所述相机发送的所述目标对象在不同视角的人脸图像，并对所有所述人脸图像进行特征提取和融合，得到最终视觉特征；接收所述目标对象发出的音频信号，并根据所述音频信号得到音频特征，将所述最终视觉特征和所述音频特征进行融合得到最终融合特征，根据所述最终融合特征识别得到所述目标对象的情绪识别结果。本发明通过对用于捕获用户不同角度人脸图像的相机进行校准，提供了更加真实和全面的人脸图像，并且通过图像特征和音频特征进行融合后的最终融合特征进行情绪识别，可以更准确地理解用户的情绪状态，更全面地理解和分析用户的面部表情，从而提高情绪识别的准确性和可靠性。

附图说明

图1是本发明多视角人脸特征与音频特征融合的情绪识别方法的较佳实施例中情绪识别系统的模型示意图；

图2是本发明多视角人脸特征与音频特征融合的情绪识别方法的较佳实施例的流程图；

图3是本发明多视角人脸特征与音频特征融合的情绪识别方法的较佳实施例中情绪识别流程示意图

图4是本发明多视角人脸特征与音频特征融合的情绪识别方法的较佳实施例中相机标定的示意图；

图5是本发明多视角人脸特征与音频特征融合的情绪识别方法的较佳实施例中多视角图像特征的提取流程示意图；

图6是本发明多视角人脸特征与音频特征融合的情绪识别方法的较佳实施例中视觉特征与音频特征的融合流程示意图；

图7是本发明多视角人脸特征与音频特征融合的情绪识别系统的较佳实施例的原理示意图；

图8为本发明终端的较佳实施例的运行环境示意图。

具体实施方式

为使本发明的目的、技术方案及优点更加清楚、明确，以下参照附图并举实施例对本发明进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明较佳实施例所述的多视角人脸特征与音频特征融合的情绪识别方法，如图1所示，图1为情绪识别方法对应的情绪识别系统的模型示意图，情绪识别系统主要包括了大型可触摸屏幕、四个相机（具体的相机数量可由实际需要另行设置）和底座，四个相机分别为设置在屏幕上方的RGBD相机（立体彩色深度相机）、设置在屏幕两侧的两个RGB相机（立体彩色相机）和设置在屏幕下方的鱼眼相机，除此之外，还包括有与屏幕连接的屏幕移动支架，每个相机都分别与对应的相机移动平台进行连接，图1的右侧为三种相机的放大示意；本发明的优选实施例中，通过四个相机实时捕获受试者（目标对象）的人脸图像，同时系统也具备语音实时同步录制功能。

本发明较佳实施例所述的多视角人脸特征与音频特征融合的情绪识别方法，如图2和图3所示，所述多视角人脸特征与音频特征融合的情绪识别方法包括以下步骤：

步骤S10、获取用于捕获目标对象在不同视角的人脸图像的所有相机之间的位置关系，根据所述位置关系对所有所述相机进行校准。

具体地，在本发明的一个优选实施例中，设置有四个用于捕获目标对象在不同视角的人脸图像的相机，为了消除四个相机之间的角度和位置的差异，所以需要对四个相机的位置进行校准。首先，获取四个相机之间的位置关系，然后再根据四个相机之间的位置关系对四个相机进行校准。

进一步地，所述获取用于捕获目标对象在不同视角的人脸图像的所有相机之间的位置关系，具体包括：

从预设的类二维码字典中随机选取一个类二维码；控制所有所述相机拍摄所述类二维码，得到每个所述相机对应的第一位置图像，其中，所述类二维码已被放置在各个相机均能拍摄到的第一预设位置；通过预设的位置函数对每个所述第一位置图像分别进行处理，得到每个所述相机的第一外参矩阵；根据所有所述第一外参矩阵，计算任意两个所述第一外参矩阵对应的两个相机之间的相机间外参矩阵；根据所有所述相机间外参矩阵得到所有用于捕获目标对象在不同视角的人脸图像的相机之间的位置关系。

具体地，本发明的优选实施例中对四个相机进行位置校准的过程中，采用一种类二维码（ArUco码，Augmented Reality University of Cordoba，一种二进制正方形的基准标志物）来获取四个相机之间的位置关系。

首先，利用OpenCV库（一种跨平台计算机视觉库）从ArUco码字典中随机选取一个ArUco码，然后技术人员将选取出的ArUco码放在四个相机均可以拍摄到的第一预设位置，然后系统控制四个相机拍摄ArUco码，得到每个相机对应的第一位置图像；再使用OpenCV库中的位置函数（例如cv2.aruco.estimatePoseSingleMarkers函数）对每个第一位置图像进行处理，就可以得到四个相机分别对应的第一外参矩阵，第一外参矩阵表达的是相机对于ArUco码的外参矩阵。外参矩阵是一个4*4的矩阵，用于描述相机在世界坐标系中的位置和姿态，其中包含旋转矩阵和平移向量。

然后从四个第一外参矩阵中任选两个进行计算，计算选择出的两个第一外参矩阵之间的相机间外参矩阵，其中，相机间外参矩阵表示两个参与计算的第一外参矩阵对应的两个相机之间的相机间外参矩阵，重复上述计算过程，直至完成四个相机中每个相机与剩余三个相机之间的相机间外参矩阵的计算，得到多个相机间外参矩阵，最后在通过所有相机间外参矩阵获得四个用于捕获目标对象在不同视角的人脸图像之间的位置关系。

作为举例，假设相机1到ArUco码的外参矩阵为，相机2到ArUco码的外参矩阵为，那么相机1到相机2的相机间外参矩阵/>为：/>。

进一步地，所述根据所述位置关系对所有所述相机进行校准，具体包括：

从所有所述相机中选取任意一台相机作为校准相机；控制所述校准相机和辅助相机拍摄所述类二维码，得到所述校准相机的第二位置图像和所述辅助相机的第三位置图像，其中，所述辅助相机为额外架设的用于进行辅助标定的相机，所述类二维码已被放置在所述校准相机和所述辅助相机均能拍摄到的第二预设位置；通过所述位置函数分别对所述第二位置图像和所述第三位置图像进行处理，得到所述校准相机的第二外参矩阵和所述辅助相机的第三外参矩阵；在屏幕上显示所述类二维码，控制所述辅助相机拍摄所述屏幕上的类二维码，得到第四位置图像；通过所述位置函数对所述第四位置图像进行处理，得到所述辅助相机的辅助外参矩阵；根据所述第二外参矩阵、所述第三外参矩阵和所述辅助外参矩阵获得所述校准相机和所述屏幕之间的校准位置关系；根据所述校准位置关系对所述校准相机进行校准，并根据校准后的校准相机位置和所述位置关系对除辅助相机外的剩余所有相机进行校准，以完成对所有所述相机的校准。

具体地，获取到四个相机之间的位置关系之后，还需要对相机和屏幕之间的位置关系进行校准，但由于四个相机面向的都是目标对象处于的方位，难以拍到屏幕，所以单纯通过已安装的四个相机无法对相机和屏幕之间的位置关系进行校准。如图4所示，为了实现相机与屏幕之间的位置关系的校准，需要额外架设一台用于辅助标定的辅助相机，辅助相机架设的位置只需要使辅助相机能同时拍摄到设置在第二预设位置的ArUco码和屏幕即可。

先从四个相机中任意选取一台相机作为校准相机，然后再将ArUco码设置在校准相机和辅助相机均能拍摄到第二预设位置，然后控制校准相机和辅助相机对设置在第二预设位置上的ArUco码进行拍摄，得到校准相机对应的第二位置图像和辅助相机对应的第三位置图像，再通过位置函数对第二位置图像和第三位置图像处理，得到校准相机对应的第二外参矩阵和辅助相机对应的第三外参矩阵；再将ArUco码显示在屏幕上，控制辅助相机对显示在屏幕上的ArUco码进行拍摄，得到第四位置图像，再通过位置函数对第四位置图像进行处理，得到辅助相机对应的辅助外参矩阵，然后根据第二外参矩阵、第三外参矩阵和辅助外参矩阵计算获得校准相机和屏幕之间的校准位置关系，然后就可以根据校准位置关系对校准相机的位置进行校准，又因为已经得知了四个相机之间的位置关系，所以就可以根据校准后的校准相机位置对除辅助相机外剩余的三个相机的位置进行校准，从而完成对四个相机的校准。

需要说明的是，在正常情况下，目标对象是正视屏幕的，所以屏幕到目标对象的外参矩阵中的旋转矩阵为单位矩阵，外参矩阵的平移向量则为屏幕指向目标用户面部的向量，因此也可以进一步得到四个相机对于目标对象面部的外参矩阵。

步骤S20、接收所有所述相机发送的所述目标对象在不同视角的人脸图像，并对所有所述人脸图像进行特征提取和融合，得到最终视觉特征。

具体地，如图3所示，本发明的优选实施例中是基于CLIP模型（ContrastiveLanguage-Image Pre-Training，一种用于匹配图像和文本的预训练神经网络模型）对人脸图像进行特征提取，系统先接收所有相机发送的目标对象在不同视角的人脸图像，并将所有人脸图像构成多视角图像序列输入到模型的多视角图像特征提取模块中，然后通过多视角图像特征提取模块对多个人脸图像进行特征提取和融合，得到最终视觉特征。

进一步地，所述接收所有所述相机发送的所述目标对象在不同视角的人脸图像，并对所有所述人脸图像进行特征提取和融合，得到最终视觉特征，具体包括：

接收所有所述相机针对所述目标对象在不同视角采集的人脸图像；将每个所述人脸图像分别输入对应的图像特征提取器，得到每个所述人脸图像对应的图像特征向量；将所有所述图像特征向量进行融合操作，得到最终视觉特征。

具体地，在本发明的一个优选实施例中，如图5所示，多视角图像特征提取模块中包含有四个图像特征提取器，四个图像特征提取器分别与四个相机一一对应。

系统先接收四个相机针对目标对象在四个不同视角采集到的四张人脸图像（可以简单将四张人脸图像分为视角1、视角2、视角3和视角4对应的人脸图像），然后分别将视角1、视角2、视角3和视角4对应的人脸图像分别输入到对应的图像特征提取器，并且在对应的四个文本特征提取器中分别输入相机的拍摄信息。例如，在第个视角对应的文本处输入：由于外参矩阵为/>的相机非正脸拍摄，造成对情绪识别的干扰。其中，/>为第/>个相机对于目标对象面部的外参矩阵。

然后通过四个图像特征提取器对四个视角的人脸图像进行处理，得到每个视角的人脸图像对应的图像特征向量（相当于图5中的视角1特征、……、视角4特征），然后再将各个视角下的图像特征向量按照各个维度相加，得到最终视觉特征（相当于图5中的视觉特征），具体公式为：/>；其中，/>表示图像特征向量的维数，/>表示第/>个视角，/>表示在第/>视角下得到的维数为/>的图像特征向量。

进一步地，如图5所示，在模型训练的过程中，采用了文本-图像匹配损失和视角一致性损失对模型进行训练，将文本特征提取器的参数冻结，只训练图像特征提取器的参数。以某一帧的时刻为例，在特征空间中，文本-图像匹配损失的计算公式具体为：；其中，/>表示第/>个视角下文本特征向量/>和图像特征向量/>的余弦相似度。通过文本-图像匹配损失，可以使图像特征因相机非正脸拍摄的角度问题而造成的对于情绪识别的干扰将减小，从而实现图像特征纯化的效果。

同时，在同一时刻，不同视角下的人脸图像经过各自的图像特征提取器得到的图像特征向量遵守一致性准则，因此相同目标对象在相同时刻的不同视角得到的图像特征向量互为正样本，所以通过样本间的相似性，来约束各个相机得到相近的情绪类别，其中，在本发明的优选实施例中，情绪类别分为开心、伤心、惊讶、恐惧、愤怒和中性共七类。例如，在某一时刻下，目标对象的情绪类别为恐惧，则对于鲁棒的情绪识别系统而言，从任何视角下观察受试者的情绪状态都应为恐惧。基于四个不同的图像特征提取器提取到的视角1、视角2、视角3和视角4的图像特征向量，需要任意两个视角的图像特征向量作差，进而计算出差向量的第二范数，作为两个视角的图像特征向量在空间上的相似度。假设图像特征向量的维数为，则在第/>视角和第/>视角下得到的图像特征向量分别记为/>和/>，则它们之间差向量的第二范数记为/>，具体的计算公式为：；其中，/>表示在第/>个视角下得到的维数为/>的图像特征向量；同样的以某一帧时刻为例，视角一致损失的/>具体计算公式为：；通过视角间一致性损失，使得各个视角下对于目标对象情绪类别的识别趋向相同，从而提高情绪识别系统的鲁棒性。

步骤S30、接收所述目标对象发出的音频信号，并根据所述音频信号得到音频特征，将所述最终视觉特征和所述音频特征进行融合得到最终融合特征，根据所述最终融合特征识别得到所述目标对象的情绪识别结果。

具体地，在本发明的优选实施例中，情绪识别系统具备语音实时同步录制功能，所以在目标对象进行测试时也会同步录制目标对象发出的音频信号，然后将音频信号构成音频信号序列，并将音频信号序列输入由Transformer（一种用于处理序列数据的深度学习模型）构成的音频特征提起模块中（如图3所示），提取出不同帧时的音频特征，然后再将最终视觉特征和音频特征进行融合，得到最终融合特征，并根据最终融合特征进行情绪识别，得到目标对象的情绪识别结果。

进一步地，所述接收所述目标对象发出的音频信号，并根据所述音频信号得到音频特征，将所述最终视觉特征和所述音频特征进行融合得到最终融合特征，具体包括：

接收所述目标对象发出的音频信号，并将所述音频信号输入预设的音频特征提取模块，得到音频特征；根据所述最终视觉特征和所述音频特征计算交叉注意力权重，并根据所述交叉注意力权重对所述最终视觉特征和所述音频特征进行更新；将更新完成的最终视觉特征和音频特征进行融合，得到所述最终融合特征。

具体地，在本发明的优选实施例中，情绪识别系统接收并录制目标对象发出的音频信号，并将音频信号输入到预设的音频特征提取模块中，得到音频特征（需要说明的是，此处的音频特征与上文四张人脸图像处于同一时刻），然后再根据最终视觉特征和音频特征计算交叉注意力权重，其中，交叉注意力权重分为第一交叉注意力权重和第二交叉注意力权重；然后再通过计算出来的第二交叉注意力权重和第一交叉注意力权重分别对最终视觉特征和音频特征进行更新，当最终视觉特征和音频特征完成更新后，再将最终视觉特征和音频特征进行特征相加，融合为最终融合特征（相当于图6中的融合特征）。

进一步地，所述根据所述最终视觉特征和所述音频特征计算交叉注意力权重，并根据所述交叉注意力权重对所述最终视觉特征和所述音频特征进行更新，具体包括：

对所述最终视觉特征进行线性映射操作，得到视觉查询值、视觉键值和视觉效值；对所述音频特征进行线性映射操作，得到音频查询值、音频键值和音频效值；根据所述视觉查询值和所述音频键值计算第一交叉注意力权重；根据所述音频查询值和所述视觉键值计算第二交叉注意力权重；根据所述第二交叉注意力权重和所述视觉效值对所述最终视觉特征进行更新；根据所述第一交叉注意力权重和所述音频效值对所述音频特征进行更新。

具体地，如图6所示，在某一帧对应的时刻，将最终视觉特征（相当于图6中的视觉特征）和音频特征/>分别进行线性映射，得到最终视觉特征/>对应的视觉查询值/>、视觉键值/>和视觉效值/>，音频特征/>对应的音频查询值/>、音频键值/>和音频效值/>，然后再根据视觉查询值和音频键值计算第一交叉注意力权重/>，具体计算公式为：；其中，d为尺度放缩系数；根据音频查询值和视觉键值计算第二交叉注意力权重/>，具体计算公式为：/>；其中，d为尺度放缩系数。

再根据第二交叉注意力权重和视觉效值对最终视觉特征进行更新，得到更新后的最终视觉特征/>，具体计算公式为：/>；再根据第一交叉注意力权重和音频效值对音频特征/>进行更新，得到更新后的音频特征/>，具体计算公式为：/>。本发明通过计算最终视觉特征和音频特征的交叉注意力权重，可以有效地将音频特征和最终视觉特征进行跨模态信息融合，从而获得更综合和全面的特征表示，也减少了不相关信息对特征融合的影响，提高了最终融合特征的紧凑性和表达能力。

待更新完成后，将更新后的最终视觉特征和音频特征/>进行特征相加，得到最终融合特征。

进一步地，所述根据所述最终融合特征识别得到所述目标对象的情绪识别结果，具体包括：

对所述最终融合特征进行维度转换操作，将所述最终融合特征的维度转换为预设数量的维度，其中，每个所述维度对应一种情绪类别；通过预设的情绪识别函数对维度转换完成的最终融合特征进行处理，得到每个所述维度对应的数值，根据每个所述数值得到每个所述情绪类别的概率；根据所有所述概率得到所述目标对象最终的情绪识别结果，以完成情绪识别。

具体地，在本发明的优选实施例中，在获取到最终融合特征后，将最终融合特征输入预设的线性层中，对最终融合特征进行维度转换操作，将最终融合特征的维度转换为预设数量的维度，在本发明的优选实施例中，共有七个情绪类别，所以维度的预设数量也为七，每个维度对应一种情绪类别，并通过预设的情绪识别函数（在本发明的优选实施例中，情绪识别函数可以为SoftMax函数，一种归一化指数函数）对维度转换完成的最终融合特征进行处理，得到每个维度对应的数值，每个维度的数值对应当前时刻目标对象分别属于七类情绪类别的概率，然后根据所有的概率，从中选取最大概率对应的情绪类别，将此情绪类别作为目标对象最终的情绪识别结果，从而完成对目标对象的情绪识别。

进一步地，为了减小相机之间的角度、位置等数据的差异因素影响，同时保证各个视角在同一时刻对目标对象识别的情绪识别结果的一致性，提高情绪识别系统的鲁棒性，在训练阶段，总的损失函数被设计为：；其中/>为情绪类别分类损失，/>为文本-图像匹配损失，/>为视角一致性损失，/>和/>为超参数，在本发明的优选实施例中取值均为1。

进一步地，如图7所示，基于上述多视角人脸特征与音频特征融合的情绪识别方法，本发明还相应提供了一种多视角人脸特征与音频特征融合的情绪识别系统，其中，所述多视角人脸特征与音频特征融合的情绪识别系统包括：

相机位置校准模块51，用于获取用于捕获目标对象在不同视角的人脸图像的所有相机之间的位置关系，根据所述位置关系对所有所述相机进行校准；

视觉特征提取模块52，用于接收所有所述相机发送的所述目标对象在不同视角的人脸图像，并对所有所述人脸图像进行特征提取和融合，得到最终视觉特征；

情绪识别模块53，用于接收所述目标对象发出的音频信号，并根据所述音频信号得到音频特征，将所述最终视觉特征和所述音频特征进行融合得到最终融合特征，根据所述最终融合特征识别得到所述目标对象的情绪识别结果。

进一步地，如图8所示，基于上述多视角人脸特征与音频特征融合的情绪识别方法和系统，本发明还相应提供了一种终端，所述终端包括处理器10、存储器20及显示器30。图8仅示出了终端的部分组件，但是应理解的是，并不要求实施所有示出的组件，可以替代的实施更多或者更少的组件。

所述存储器20在一些实施例中可以是所述终端的内部存储单元，例如终端的硬盘或内存。所述存储器20在另一些实施例中也可以是所述终端的外部存储设备，例如所述终端上配备的插接式硬盘，智能存储卡（Smart Media Card, SMC），安全数字（SecureDigital, SD）卡，闪存卡（Flash Card）等。进一步地，所述存储器20还可以既包括所述终端的内部存储单元也包括外部存储设备。所述存储器20用于存储安装于所述终端的应用软件及各类数据，例如所述安装终端的程序代码等。所述存储器20还可以用于暂时地存储已经输出或者将要输出的数据。在一实施例中，存储器20上存储有多视角人脸特征与音频特征融合的情绪识别程序40，该多视角人脸特征与音频特征融合的情绪识别程序40可被处理器10所执行，从而实现本申请中多视角人脸特征与音频特征融合的情绪识别方法。

所述处理器10在一些实施例中可以是一中央处理器（Central Processing Unit,CPU），微处理器或其他数据处理芯片，用于运行所述存储器20中存储的程序代码或处理数据，例如执行所述多视角人脸特征与音频特征融合的情绪识别方法等。

所述显示器30在一些实施例中可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED（Organic Light-Emitting Diode，有机发光二极管）触摸器等。所述显示器30用于显示在所述终端的信息以及用于显示可视化的用户界面。所述终端的部件10-30通过系统总线相互通信。

在一实施例中，当处理器10执行所述存储器20中多视角人脸特征与音频特征融合的情绪识别程序40时实现以下步骤：

其中，所述获取用于捕获目标对象在不同视角的人脸图像的所有相机之间的位置关系，具体包括：

从预设的类二维码字典中随机选取一个类二维码；

其中，所述根据所述位置关系对所有所述相机进行校准，具体包括：

从所有所述相机中选取任意一台相机作为校准相机；

其中，所述接收所有所述相机发送的所述目标对象在不同视角的人脸图像，并对所有所述人脸图像进行特征提取和融合，得到最终视觉特征，具体包括：

其中，所述接收所述目标对象发出的音频信号，并根据所述音频信号得到音频特征，将所述最终视觉特征和所述音频特征进行融合得到最终融合特征，具体包括：

其中，所述根据所述最终视觉特征和所述音频特征计算交叉注意力权重，并根据所述交叉注意力权重对所述最终视觉特征和所述音频特征进行更新，具体包括：

其中，所述根据所述最终融合特征识别得到所述目标对象的情绪识别结果，具体包括：

本发明还提供一种计算机可读存储介质，其中，所述计算机可读存储介质存储有多视角人脸特征与音频特征融合的情绪识别程序，所述多视角人脸特征与音频特征融合的情绪识别程序被处理器执行时实现如上所述的多视角人脸特征与音频特征融合的情绪识别方法的步骤。

综上所述，本发明提供一种多视角人脸特征与音频特征融合的情绪识别方法及系统，所述方法包括：获取用于捕获目标对象在不同视角的人脸图像的所有相机之间的位置关系，根据所述位置关系对所有所述相机进行校准；接收所有所述相机发送的所述目标对象在不同视角的人脸图像，并对所有所述人脸图像进行特征提取和融合，得到最终视觉特征；接收所述目标对象发出的音频信号，并根据所述音频信号得到音频特征，将所述最终视觉特征和所述音频特征进行融合得到最终融合特征，根据所述最终融合特征识别得到所述目标对象的情绪识别结果。本发明通过对用于捕获用户不同角度人脸图像的相机进行校准，提供了更加真实和全面的人脸图像，并且通过图像特征和音频特征进行融合后的最终融合特征进行情绪识别，可以更准确地理解用户的情绪状态，更全面地理解和分析用户的面部表情，从而提高情绪识别的准确性和可靠性。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者终端中还存在另外的相同要素。

当然，本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关硬件（如处理器，控制器等）来完成，所述的程序可存储于一计算机可读取的计算机可读存储介质中，所述程序在执行时可包括如上述各方法实施例的流程。其中所述的计算机可读存储介质可为存储器、磁碟、光盘等。

应当理解的是，本发明的应用不限于上述的举例，对本领域普通技术人员来说，可以根据上述说明加以改进或变换，所有这些改进和变换都应属于本发明所附权利要求的保护范围。

Claims

1.一种多视角人脸特征与音频特征融合的情绪识别方法，其特征在于，所述多视角人脸特征与音频特征融合的情绪识别方法包括：

所述获取用于捕获目标对象在不同视角的人脸图像的所有相机之间的位置关系，具体包括：

从预设的类二维码字典中随机选取一个类二维码；

根据所有所述相机间外参矩阵得到所有用于捕获目标对象在不同视角的人脸图像的相机之间的位置关系；

所述根据所述位置关系对所有所述相机进行校准，具体包括：

从所有所述相机中选取任意一台相机作为校准相机；

根据所述校准位置关系对所述校准相机进行校准，并根据校准后的校准相机位置和所述位置关系对除辅助相机外的剩余所有相机进行校准，以完成对所有所述相机的校准；

2.根据权利要求1所述的多视角人脸特征与音频特征融合的情绪识别方法，其特征在于，所述接收所有所述相机发送的所述目标对象在不同视角的人脸图像，并对所有所述人脸图像进行特征提取和融合，得到最终视觉特征，具体包括：

3.根据权利要求1所述的多视角人脸特征与音频特征融合的情绪识别方法，其特征在于，所述接收所述目标对象发出的音频信号，并根据所述音频信号得到音频特征，将所述最终视觉特征和所述音频特征进行融合得到最终融合特征，具体包括：

4.根据权利要求3所述的多视角人脸特征与音频特征融合的情绪识别方法，其特征在于，所述根据所述最终视觉特征和所述音频特征计算交叉注意力权重，并根据所述交叉注意力权重对所述最终视觉特征和所述音频特征进行更新，具体包括：

5.根据权利要求1所述的多视角人脸特征与音频特征融合的情绪识别方法，其特征在于，所述根据所述最终融合特征识别得到所述目标对象的情绪识别结果，具体包括：

6.一种多视角人脸特征与音频特征融合的情绪识别系统，其特征在于，所述多视角人脸特征与音频特征融合的情绪识别系统包括：

从预设的类二维码字典中随机选取一个类二维码；

从所有所述相机中选取任意一台相机作为校准相机；

7.一种终端，其特征在于，所述终端包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的多视角人脸特征与音频特征融合的情绪识别程序，所述多视角人脸特征与音频特征融合的情绪识别程序被所述处理器执行时实现如权利要求1-5任一项所述的多视角人脸特征与音频特征融合的情绪识别方法的步骤。

8.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有多视角人脸特征与音频特征融合的情绪识别程序，所述多视角人脸特征与音频特征融合的情绪识别程序被处理器执行时实现如权利要求1-5任一项所述的多视角人脸特征与音频特征融合的情绪识别方法的步骤。