CN116543445A

CN116543445A - 一种演讲者面部表情分析方法、系统、设备及存储介质

Info

Publication number: CN116543445A
Application number: CN202310781523.3A
Authority: CN
Inventors: 李翔; 赵璧; 刘慧�; 张龙; 方泽军
Original assignee: Xinlicheng Education Technology Co ltd
Current assignee: Xinlicheng Education Technology Co ltd
Priority date: 2023-06-29
Filing date: 2023-06-29
Publication date: 2023-08-04
Anticipated expiration: 2043-06-29
Also published as: CN116543445B

Abstract

本发明公开了一种演讲者面部表情分析方法、系统、设备及存储介质，用于有效地提高演讲者的面部表情识别准确度，该方法包括：采集演讲者演讲时的人脸图像、音频数据和生理数据，并对人脸图像进行清洗和预处理，获得处理后的人脸图像；采用人脸检测模型对处理后的人脸图像进行人脸检测和定位，提取出演讲者的面部特征图像，并对面部特征图像进行数据扩充处理，获得面部特征图像数据集；分别对面部特征图像数据集、音频数据和生理数据进行特征提取后再进行优化处理，获得并将多个第一面部特征向量、第一音频特征向量和第一生理特征向量输入到构建的多模态信息融合表情识别模型进行识别分析，获得演讲者演讲时的面部表情识别结果。

Description

一种演讲者面部表情分析方法、系统、设备及存储介质

技术领域

本发明涉及口才表达教育技术领域，特别是涉及一种演讲者面部表情分析方法、系统、设备及存储介质。

背景技术

目前的口才教育上，更多的是注重演讲者的语言表达分析，对于演讲者的面部表情分析比较空白。因此，需要研究适用于演讲者的面部表情分析的方案。

然而，传统的表情识别方法，如基于特征提取的表情识别方法，对于表情的细微变化难以捕捉，特别是在复杂的场景下，例如光照不足、遮挡等情况下，容易导致表情识别准确度不高。因此，当采用传统的表情识别方法应用到演讲者的面部表情分析时，无法有效地提高演讲者的面部表情识别准确度。

综上，有必要设计一种适用于演讲者分析的面部表情且识别准确度较高的面部表情分析方案。

发明内容

基于此，本发明的目的在于提供一种演讲者面部表情分析方法、系统、设备及存储介质，用于有效地提高演讲者的面部表情识别准确度。

第一方面，本发明提供了一种演讲者面部表情分析方法，包括：

采集演讲者演讲时的人脸图像、音频数据和生理数据，并对所述人脸图像进行清洗和预处理，获得处理后的人脸图像；

采用人脸检测模型对所述处理后的人脸图像进行人脸检测和定位，提取出所述演讲者的面部特征图像，并对所述面部特征图像进行数据扩充处理，获得面部特征图像数据集；

分别对所述面部特征图像数据集、所述音频数据和所述生理数据进行特征提取后再进行优化处理，获得多个第一面部特征向量、第一音频特征向量和第一生理特征向量；

构建多模态信息融合表情识别模型，并将所述多个第一面部特征向量、所述第一音频特征向量和所述第一生理特征向量输入到所述多模态信息融合表情识别模型进行识别分析，获得所述演讲者演讲时的面部表情识别结果。

在一种可能的设计中，对所述面部特征图像进行数据扩充处理，获得面部特征图像数据集，包括：

对所述面部特征图像进行数据增强处理，获得初步面部特征图像数据集；

采用生成式对抗网络GAN模型基于所述初步面部特征图像数据集生成若干个新的面部特征图像，并将所述若干个新的面部特征图像增添到所述初步面部特征图像数据集中，获得所述面部特征图像数据集。

在一种可能的设计中，分别对所述面部特征图像数据集、所述音频数据和所述生理数据进行特征提取后再进行优化处理，获得多个第一面部特征向量、第一音频特征向量和第一生理特征向量，包括：

获取所述面部特征图像数据集对应的第一深度学习网络模型、所述音频数据对应的第二深度学习网络模型和所述生理数据对应的第三深度学习网络模型；

分别将所述第一深度学习网络模型、所述第二深度学习网络模型和所述第三深度学习网络模型结合通道注意力机制和/或空间注意力机制，针对所述面部特征图像数据集、所述音频数据和所述生理数据进行特征提取，获得多个第二面部特征向量、第二音频特征向量和第二生理特征向量；

采用特征适应方法对所述多个第二面部特征向量、所述第二音频特征向量和所述第二生理特征向量进行优化处理，获得所述多个第一面部特征向量、所述第一音频特征向量和所述第一生理特征向量。

在一种可能的设计中，所述多模态信息融合表情识别模型包括输入模块、多模态信息融合模块和面部表情识别模块；

将所述多个第一面部特征向量、所述第一音频特征向量和所述第一生理特征向量输入到所述多模态信息融合表情识别模型进行识别分析，获得所述演讲者演讲时的面部表情识别结果，包括：

将所述多个第一面部特征向量、所述第一音频特征向量和所述第一生理特征向量输入到所述输入模块，通过多层感知机制分别对所述第一音频特征向量和所述第一生理特征向量进行分类或回归，获得所述第一音频特征向量和所述第一生理特征向量各自对应的情感标签；

基于所述第一音频特征向量和所述第一生理特征向量各自对应的情感标签，通过所述多模态信息融合模块将所述多个第一面部特征向量、所述第一音频特征向量和所述第一生理特征向量融合为情感分析特征；

通过所述面部表情识别模块对所述情感分析特征进行识别分析，获得所述面部表情识别结果。

在一种可能的设计中，将所述多个第一面部特征向量、所述第一音频特征向量和所述第一生理特征向量输入到所述多模态信息融合表情识别模型进行识别分析，获得所述演讲者演讲时的面部表情识别结果之后，所述方法还包括：

将所述面部表情识别结果以可视化方式反馈给所述演讲者；

接收所述演讲者针对所述面部表情识别结果的反馈信息，基于所述反馈信息更新所述多模态信息融合表情识别模型。

在一种可能的设计中，对所述人脸图像进行清洗和预处理，获得处理后的人脸图像之前，所述方法还包括：

采用差分隐私方法对所述人脸图像进行隐私保护；

采用去识别化方式对所述音频数据和所述生理数据进行隐私保护。

第二方面，本发明还提供了一种演讲者面部表情分析系统，包括：

采集模块，用于采集演讲者演讲时的人脸图像、音频数据和生理数据，并对所述人脸图像进行清洗和预处理，获得处理后的人脸图像；

处理模块，用于采用人脸检测模型对所述处理后的人脸图像进行人脸检测和定位，提取出所述演讲者的面部特征图像，并对所述面部特征图像进行数据扩充处理，获得面部特征图像数据集；分别对所述面部特征图像数据集、所述音频数据和所述生理数据进行特征提取后再进行优化处理，获得多个第一面部特征向量、第一音频特征向量和第一生理特征向量；

识别模块，用于构建多模态信息融合表情识别模型，并将所述多个第一面部特征向量、所述第一音频特征向量和所述第一生理特征向量输入到所述多模态信息融合表情识别模型进行识别分析，获得所述演讲者演讲时的面部表情识别结果。

在一种可能的设计中，所述处理模块具体用于：

在一种可能的设计中，所述多模态信息融合表情识别模型包括输入模块、多模态信息融合模块和面部表情识别模块；所述识别模块具体用于：

在一种可能的设计中，所述处理模块还用于：

将所述面部表情识别结果以可视化方式反馈给所述演讲者；

在一种可能的设计中，所述采集模块还用于：

采用差分隐私方法对所述人脸图像进行隐私保护；

第三方面，本发明还提供了一种电子设备，包括：至少一个存储器和至少一个处理器；

所述至少一个存储器用于存储一个或多个程序；

当所述一个或多个程序被所述至少一个处理器执行时，实现上述第一方面任一种可能设计所涉及的方法。

第四方面，本发明还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有至少一个程序；当所述至少一个程序被处理器执行时，实现上述第一方面任一种可能设计所涉及的方法。

本发明的有益效果如下：

相较于现有技术而言，本发明通过采集演讲者演讲时的人脸图像、音频数据和生理数据，并对人脸图像进行清洗和预处理，获得处理后的人脸图像，可以去除人脸图像中的噪声和干扰信息，便于捕捉演讲者的表情细微变化，从而可以提高后续对演讲者的面部表情分析的准确性和稳定性；进一步地，通过采用人脸检测模型对处理后的人脸图像进行人脸检测和定位，提取出演讲者的面部特征图像，并对面部特征图像进行数据扩充处理，获得面部特征图像数据集，可以提高人脸检测和定位的准确率和鲁棒性，以及获得具有数据多样性和代表性的面部特征图像数据集，从而可以有效地提高演讲者的面部表情识别准确度；进一步地，通过分别对面部特征图像数据集、音频数据和生理数据进行特征提取后再进行优化处理，获得多个第一面部特征向量、第一音频特征向量和第一生理特征向量，可以充分利用不同数据源中的特征信息，有助于提高多模态信息融合表情识别模型在情感分析上的准确性、鲁棒性和泛化能力，从而可以进一步提高面部表情识别结果；进一步地，构建多模态信息融合表情识别模型，并将多个第一面部特征向量、第一音频特征向量和第一生理特征向量输入到多模态信息融合表情识别模型进行识别分析，获得演讲者演讲时的面部表情识别结果，可以通过采用多模态信息融合的方法进行面部表情分析，可以获得更准确和全面的面部表情识别结果，从而可以有效地提高演讲者的面部表情识别准确度。

为了更好地理解和实施，下面结合附图详细说明本发明。

附图说明

图1为本发明提供的一种演讲者面部表情分析方法的流程示意图；

图2为本发明提供的另一种演讲者面部表情分析方法的流程示意图；

图3为本发明提供的一种演讲者面部表情分析系统的架构示意图；

图4为本发明提供的一种电子设备的结构示意图。

具体实施方式

以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反，它们仅是与本发明的一些方面相一致的实施方式的例子。

在本说明书使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本说明书。在本说明书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本说明书中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

除非有相反的说明，本说明书提及的“第一”、“第二”等序数词用于对多个对象进行区分，不用于限定多个对象的顺序、时序、优先级或者重要程度。

下面将结合附图对本发明的提供的技术方案进行详细的介绍。

请参考图1所示，本发明提供的演讲者的面部表情分析方法，可以包括如下步骤：

S11、采集演讲者演讲时的人脸图像、音频数据和生理数据，并对人脸图像进行清洗和预处理，获得处理后的人脸图像。

作为一种示例，在演讲者演讲时，可以通过图像采集设备（如摄像头）拍摄采集演讲者的人脸图像，或者，可以通过图像采集设备录制包含演讲者的人脸在画面内的动态视频，通过将该动态视频分解成若干帧图像，再从每一帧图像中提取出演讲者的人脸图像。

作为一种示例，在演讲者演讲时，可以通过音频采集设备（如麦克风）采集演讲者的音频数据。其中，音频数据的音频格式可以采用WAV或MP3等。

作为一种示例，在演讲者演讲时，可以通过生理采集设备（如生理数据采集仪）采集演讲者的生理数据。其中，生理数据可以包括但不限于：心电图（ECG）、脑电图（EEG）、肌电图（EMG）等生理。

在具体实施时，可以对采集到的人脸图像进行清洗，去除无效或重复的数据，获得清洗后的人脸图像。之后，可以对清洗后的人脸图像进行预处理，例如可以使用OpenCV等图像处理库对清洗后的人脸图像进行预处理，如图像的去噪、对比度增强、尺寸归一化等处理，获得处理后的人脸图像。

作为一种示例，可以将处理后的人脸图像存储在数据库，以为后续提供数据支持。

在本发明中，通过对采集到的人脸图像进行清洗和预处理，可以去除人脸图像中的噪声和干扰信息，便于捕捉演讲者的表情细微变化，从而可以提高后续对演讲者的面部表情分析的准确性和稳定性。

S12、采用人脸检测模型对处理后的人脸图像进行人脸检测和定位，提取出演讲者的面部特征图像，并对面部特征图像进行数据扩充处理，获得面部特征图像数据集。

在具体实施时，人脸检测模型可以采用Haar分类器、HOG特征+SVM、基于深度学习的卷积神经网络等实现。

在本发明中，通过采用人脸检测模型对处理后的人脸图像进行人脸检测和定位来提取出演讲者的面部特征图像，相较于传统的表情识别方法的人脸检测而言，可以提高人脸检测和定位的准确率和鲁棒性，有助于提高演讲者的表情识别准确度。

在具体实施时，可以对提取到的面部特征图像进行数据扩充处理，以获得具有数据多样性和代表性的面部特征图像数据集。

比如，可以对提取到的面部特征图像进行数据增强处理，如使用镜像翻转、旋转、平移、缩放等方式进行数据增强处理，获得初步面部特征图像数据集。之后，可以采用生成式对抗网络（Generative Adversarial Networks，GAN）模型基于该初步面部特征图像数据集生成若干个新的面部特征图像，并将若干个新的面部特征图像增添到初步面部特征图像数据集中，获得该面部特征图像数据集。可以理解为，该面部特征图像数据集是经过两次数据扩充后获得的。

在本发明中，通过对提取到的面部特征图像进行数据增强处理，可以增加面部特征图像的数量，可以提高数据集的质量和多样性，通过使用GAN模型生成新的面部特征图像，可以提供高质量的数据支持，使得面部特征图像数据集更具有多样性和代表性，有助于提高演讲者的面部表情识别的鲁棒性，从而可以有效地提高演讲者的面部表情识别准确度。

作为一种示例，可以将该面部特征图像数据集存储到数据库中，以为后续提供数据支持。当该面部特征图像数据集后续作为模型训练数据集时，可以对该面部特征图像数据集中的每一张面部特征图像进行表情类别标注，如可以使用EMFACS、FACS等面部表情标记系统，对每一张面部特征图像进行表情类别标注，以生成高质量、多样化的数据训练集。

S13、分别对面部特征图像数据集、音频数据和生理数据进行特征提取后再进行优化处理，获得多个第一面部特征向量、第一音频特征向量和第一生理特征向量。

在具体实施时，可以获取面部特征图像数据集对应的第一深度学习网络模型、音频数据对应的第二深度学习网络模型和生理数据对应的第三深度学习网络模型，再分别将第一深度学习网络模型、第二深度学习网络模型和第三深度学习网络模型结合通道注意力机制和/或空间注意力机制，针对面部特征图像数据集、音频数据和生理数据进行特征提取，获得多个第二面部特征向量、第二音频特征向量和第二生理特征向量。

示例性的，第一深度学习网络模型和第二深度学习网络模型可以为卷积神经网络（Convolutional Neural Network，CNN）模型，第三深度学习网络模型可以为CNN模型或者长短期记忆网络（Long Short-Term Memory，LSTM）模型。通过采用通道注意力机制和/或空间注意力机制可以自适应地对第一深度学习网络模型、第二深度学习网络模型和第三深度学习网络模型中的不同通道的特征图进行加权，以增强重要特征的表征能力。

在本发明中，通过分别采用不同的深度学习网络模型结合通道注意力机制和/或空间注意力机制对面部特征图像数据集、音频数据和生理数据进行特征提取，能够更加准确地提取面部、音频和生理信号等多源数据中的特征信息，从而提高了情感分析的准确性和可靠性。

在具体实施时，可以采用特征适应方法对多个第二面部特征向量、第二音频特征向量和第二生理特征向量进行优化处理，获得多个第一面部特征向量、第一音频特征向量和第一生理特征向量。

在本发明中，通过采用特征适应方法对多个第二面部特征向量、第二音频特征向量和第二生理特征向量进行优化处理，获得多个第一面部特征向量、第一音频特征向量和第一生理特征向量，可以方便将将不同数据源中的特征向量映射到同一空间中，以充分利用不同数据源中的特征信息，有助于提高多模态信息融合表情识别模型在情感分析上的准确性、鲁棒性和泛化能力，从而可以进一步提高面部表情识别结果的识别准确度。

S14、构建多模态信息融合表情识别模型，并将多个第一面部特征向量、第一音频特征向量和第一生理特征向量输入到多模态信息融合表情识别模型进行识别分析，获得演讲者演讲时的面部表情识别结果。

在具体实施时，多模态信息融合表情识别模型可以包括输入模块、多模态信息融合模块和面部表情识别模块。

在具体实施时，可以将多个第一面部特征向量、第一音频特征向量和第一生理特征向量输入到输入模块，通过多层感知机制分别对第一音频特征向量和第一生理特征向量进行分类或回归，获得第一音频特征向量和第一生理特征向量各自对应的情感标签，以便于通过第一音频特征向量和第一生理特征向量各自对应的情感标签全面地理解演讲者的情感状态，便于提供更精准的面部表情识别结果。之后，再基于第一音频特征向量和第一生理特征向量各自对应的情感标签，通过多模态信息融合模块将多个第一面部特征向量、第一音频特征向量和第一生理特征向量融合为情感分析特征，相较于现有技术仅是采用单一的面部特征信息进行识别分析而言，可以将不同模态的信息进行融合，可以提高面部表情分析的准确性和稳定性。最后，通过面部表情识别模块对情感分析特征进行识别分析，获得面部表情识别结果。

在本发明中，通过采用多模态信息融合的方法，可以结合多个第一面部特征向量、第一音频特征向量和第一生理特征向量进行面部表情分析，可以获得更准确和全面的面部表情识别结果，从而可以有效地提高演讲者的面部表情识别准确度。

在本发明提供的一种可适用的场景下，在步骤S14之后，结合图1-2所示，本发明提供的演讲者面部表情分析方法，还包括如下步骤：

S15、将面部表情识别结果以可视化方式反馈给演讲者。

在本发明中，通过将面部表情识别结果以可视化方式反馈给演讲者，可以方便演讲者了解自己的情感状态，以便于演讲者后续进行改进。

S16、接收演讲者针对面部表情结果的反馈信息，基于该反馈信息更新多模态信息融合表情识别模型。

在具体实施时，演讲者可以针对面部表情识别结果，进行自我的感情剖析，再对比面部表情识别结果中的情感状态，当发现两者不一致时，可以手动更正自己的情感状态，再进行反馈，方便更新多模态信息融合表情识别模型，有助于改善多模态信息融合表情识别模型的面部表情识别的准确率。

在本发明提供的另一种可适用的场景下，在步骤S11中，对所述人脸图像进行清洗和预处理，获得处理后的人脸图像之前，可以采用差分隐私方法对采集到的人脸图像进行隐私保护，以及可以采用去识别化方式对采集到的音频数据和生理数据进行隐私保护，以保护演讲者的隐私信息不会被泄露和滥用，相较于现有技术中无针对用户的人脸信息进行隐私保护而言，安全性较高。

在一些示例中，在对采集到的人脸图像、音频数据和生理数据进行存储和传输过程中，可以采用匿名化、加密等安全机制进行加密处理，以防止人脸图像、音频数据和生理数据泄露和滥用，安全性较高。

通过以上描述可知，相较于现有技术而言，本发明通过采集演讲者演讲时的人脸图像、音频数据和生理数据，并对人脸图像进行清洗和预处理，获得处理后的人脸图像，可以去除人脸图像中的噪声和干扰信息，便于捕捉演讲者的表情细微变化，从而可以提高后续对演讲者的面部表情分析的准确性和稳定性；进一步地，通过采用人脸检测模型对处理后的人脸图像进行人脸检测和定位，提取出演讲者的面部特征图像，并对面部特征图像进行数据扩充处理，获得面部特征图像数据集，可以提高人脸检测和定位的准确率和鲁棒性，以及获得具有数据多样性和代表性的面部特征图像数据集，从而可以有效地提高演讲者的面部表情识别准确度；进一步地，通过分别对面部特征图像数据集、音频数据和生理数据进行特征提取后再进行优化处理，获得多个第一面部特征向量、第一音频特征向量和第一生理特征向量，可以充分利用不同数据源中的特征信息，有助于提高多模态信息融合表情识别模型在情感分析上的准确性、鲁棒性和泛化能力，从而可以进一步提高面部表情识别结果；进一步地，构建多模态信息融合表情识别模型，并将多个第一面部特征向量、第一音频特征向量和第一生理特征向量输入到多模态信息融合表情识别模型进行识别分析，获得演讲者演讲时的面部表情识别结果，可以通过采用多模态信息融合的方法进行面部表情分析，可以获得更准确和全面的面部表情识别结果，从而可以有效地提高演讲者的面部表情识别准确度。

基于同一发明构思，本发明实施例还提供了一种演讲者面部表情分析系统，如图3所示，演讲者面部表情分析系统可以包括：

采集模块21，用于采集演讲者演讲时的人脸图像、音频数据和生理数据，并对所述人脸图像进行清洗和预处理，获得处理后的人脸图像；

处理模块22，用于采用人脸检测模型对所述处理后的人脸图像进行人脸检测和定位，提取出所述演讲者的面部特征图像，并对所述面部特征图像进行数据扩充处理，获得面部特征图像数据集；分别对所述面部特征图像数据集、所述音频数据和所述生理数据进行特征提取后再进行优化处理，获得多个第一面部特征向量、第一音频特征向量和第一生理特征向量；

识别模块23，用于构建多模态信息融合表情识别模型，并将所述多个第一面部特征向量、所述第一音频特征向量和所述第一生理特征向量输入到所述多模态信息融合表情识别模型进行识别分析，获得所述演讲者演讲时的面部表情识别结果。

在一种可能的设计中，所述处理模块22具体用于：

在一种可能的设计中，所述多模态信息融合表情识别模型包括输入模块、多模态信息融合模块和面部表情识别模块；所述识别模块23具体用于：

在一种可能的设计中，所述处理模块22还用于：

将所述面部表情识别结果以可视化方式反馈给所述演讲者；

在一种可能的设计中，所述采集模块21还用于：

采用差分隐私方法对所述人脸图像进行隐私保护；

本发明实施例中的电子设备与上述图1-2所示的演讲者面部表情分析方法是基于同一构思下的发明，通过前述对演讲者面部表情分析方法的详细描述，本领域技术人员可以清楚的了解本实施例中演讲者面部表情分析系统的实施过程，所以为了说明书的简洁，在此不再赘述。

基于同一发明构思，本发明实施例还提供了一种电子设备，如图4所示，电子设备可以包括：至少一个存储器31和至少一个处理器32。其中：

至少一个存储器31用于存储一个或多个程序。

当一个或多个程序被至少一个处理器32执行时，实现上述图1-2所示的演讲者面部表情分析方法。

电子设备还可以可选地包括通信接口，通信接口用于与外部设备进行通信和数据交互传输。

需要说明的是，存储器31可能包含高速RAM存储器，也可能还包括非易失性存储器(nonvolatile memory)，例如至少一个磁盘存储器。

在具体的实现过程中，如果存储器31、处理器32及通信接口集成在一块芯片上，则存储器31、处理器32及通信接口可以通过内部接口完成相互间的通信。如果存储器31、处理器32和通信接口独立实现，则存储器31、处理器32和通信接口可以通过总线相互连接并完成相互间的通信。

基于同一发明构思，本发明实施例还提供了一种计算机可读存储介质，该计算机可读存储介质可以存储有至少一个程序，当至少一个程序被处理器执行时，实现上述图1-2所示的演讲者面部表情分析方法。

应当理解，计算机可读存储介质为可存储数据或程序的任何数据存储设备，数据或程序其后可由计算机系统读取。计算机可读存储介质的示例包括：只读存储器、随机存取存储器、CD-ROM、HDD、DVD、磁带和光学数据存储设备等。

计算机可读存储介质还可分布在网络耦接的计算机系统中使得计算机可读代码以分布式方式来存储和执行。

计算机可读存储介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、射频(Radio Frequency，RF)等，或者上述的任意合适的组合。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。

Claims

1.一种演讲者面部表情分析方法，其特征在于，包括：

2.如权利要求1所述的方法，其特征在于，对所述面部特征图像进行数据扩充处理，获得面部特征图像数据集，包括：

3.如权利要求1所述的方法，其特征在于，分别对所述面部特征图像数据集、所述音频数据和所述生理数据进行特征提取后再进行优化处理，获得多个第一面部特征向量、第一音频特征向量和第一生理特征向量，包括：

4.如权利要求1所述的方法，其特征在于，所述多模态信息融合表情识别模型包括输入模块、多模态信息融合模块和面部表情识别模块；

5.如权利要求1所述的方法，其特征在于，将所述多个第一面部特征向量、所述第一音频特征向量和所述第一生理特征向量输入到所述多模态信息融合表情识别模型进行识别分析，获得所述演讲者演讲时的面部表情识别结果之后，所述方法还包括：

将所述面部表情识别结果以可视化方式反馈给所述演讲者；

6.如权利要求1-5任一项所述的方法，其特征在于，对所述人脸图像进行清洗和预处理，获得处理后的人脸图像之前，所述方法还包括：

采用差分隐私方法对所述人脸图像进行隐私保护；

7.一种演讲者面部表情分析系统，其特征在于，包括：

8.如权利要求7所述的系统，其特征在于，所述处理模块具体用于：

9.一种电子设备，其特征在于，包括：至少一个存储器和至少一个处理器；

所述至少一个存储器用于存储一个或多个程序；

当所述一个或多个程序被所述至少一个处理器执行时，实现如权利要求1-6任一项所述的方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有至少一个程序；当所述至少一个程序被处理器执行时，实现如权利要求1-6任一项所述的方法。