CN116543445A - 一种演讲者面部表情分析方法、系统、设备及存储介质 - Google Patents

一种演讲者面部表情分析方法、系统、设备及存储介质 Download PDF

Info

Publication number
CN116543445A
CN116543445A CN202310781523.3A CN202310781523A CN116543445A CN 116543445 A CN116543445 A CN 116543445A CN 202310781523 A CN202310781523 A CN 202310781523A CN 116543445 A CN116543445 A CN 116543445A
Authority
CN
China
Prior art keywords
facial
feature vectors
physiological
feature
audio
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310781523.3A
Other languages
English (en)
Other versions
CN116543445B (zh
Inventor
李翔
赵璧
刘慧�
张龙
方泽军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xinlicheng Education Technology Co ltd
Original Assignee
Xinlicheng Education Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xinlicheng Education Technology Co ltd filed Critical Xinlicheng Education Technology Co ltd
Priority to CN202310781523.3A priority Critical patent/CN116543445B/zh
Publication of CN116543445A publication Critical patent/CN116543445A/zh
Application granted granted Critical
Publication of CN116543445B publication Critical patent/CN116543445B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/174Facial expression recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0475Generative networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/766Arrangements for image or video recognition or understanding using pattern recognition or machine learning using regression, e.g. by projecting features on hyperplanes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/778Active pattern-learning, e.g. online learning of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/70Multimodal biometrics, e.g. combining information from different biometric modalities
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Medical Informatics (AREA)
  • Human Computer Interaction (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种演讲者面部表情分析方法、系统、设备及存储介质,用于有效地提高演讲者的面部表情识别准确度,该方法包括:采集演讲者演讲时的人脸图像、音频数据和生理数据,并对人脸图像进行清洗和预处理,获得处理后的人脸图像;采用人脸检测模型对处理后的人脸图像进行人脸检测和定位,提取出演讲者的面部特征图像,并对面部特征图像进行数据扩充处理,获得面部特征图像数据集;分别对面部特征图像数据集、音频数据和生理数据进行特征提取后再进行优化处理,获得并将多个第一面部特征向量、第一音频特征向量和第一生理特征向量输入到构建的多模态信息融合表情识别模型进行识别分析,获得演讲者演讲时的面部表情识别结果。

Description

一种演讲者面部表情分析方法、系统、设备及存储介质
技术领域
本发明涉及口才表达教育技术领域,特别是涉及一种演讲者面部表情分析方法、系统、设备及存储介质。
背景技术
目前的口才教育上,更多的是注重演讲者的语言表达分析,对于演讲者的面部表情分析比较空白。因此,需要研究适用于演讲者的面部表情分析的方案。
然而,传统的表情识别方法,如基于特征提取的表情识别方法,对于表情的细微变化难以捕捉,特别是在复杂的场景下,例如光照不足、遮挡等情况下,容易导致表情识别准确度不高。因此,当采用传统的表情识别方法应用到演讲者的面部表情分析时,无法有效地提高演讲者的面部表情识别准确度。
综上,有必要设计一种适用于演讲者分析的面部表情且识别准确度较高的面部表情分析方案。
发明内容
基于此,本发明的目的在于提供一种演讲者面部表情分析方法、系统、设备及存储介质,用于有效地提高演讲者的面部表情识别准确度。
第一方面,本发明提供了一种演讲者面部表情分析方法,包括:
采集演讲者演讲时的人脸图像、音频数据和生理数据,并对所述人脸图像进行清洗和预处理,获得处理后的人脸图像;
采用人脸检测模型对所述处理后的人脸图像进行人脸检测和定位,提取出所述演讲者的面部特征图像,并对所述面部特征图像进行数据扩充处理,获得面部特征图像数据集;
分别对所述面部特征图像数据集、所述音频数据和所述生理数据进行特征提取后再进行优化处理,获得多个第一面部特征向量、第一音频特征向量和第一生理特征向量;
构建多模态信息融合表情识别模型,并将所述多个第一面部特征向量、所述第一音频特征向量和所述第一生理特征向量输入到所述多模态信息融合表情识别模型进行识别分析,获得所述演讲者演讲时的面部表情识别结果。
在一种可能的设计中,对所述面部特征图像进行数据扩充处理,获得面部特征图像数据集,包括:
对所述面部特征图像进行数据增强处理,获得初步面部特征图像数据集;
采用生成式对抗网络GAN模型基于所述初步面部特征图像数据集生成若干个新的面部特征图像,并将所述若干个新的面部特征图像增添到所述初步面部特征图像数据集中,获得所述面部特征图像数据集。
在一种可能的设计中,分别对所述面部特征图像数据集、所述音频数据和所述生理数据进行特征提取后再进行优化处理,获得多个第一面部特征向量、第一音频特征向量和第一生理特征向量,包括:
获取所述面部特征图像数据集对应的第一深度学习网络模型、所述音频数据对应的第二深度学习网络模型和所述生理数据对应的第三深度学习网络模型;
分别将所述第一深度学习网络模型、所述第二深度学习网络模型和所述第三深度学习网络模型结合通道注意力机制和/或空间注意力机制,针对所述面部特征图像数据集、所述音频数据和所述生理数据进行特征提取,获得多个第二面部特征向量、第二音频特征向量和第二生理特征向量;
采用特征适应方法对所述多个第二面部特征向量、所述第二音频特征向量和所述第二生理特征向量进行优化处理,获得所述多个第一面部特征向量、所述第一音频特征向量和所述第一生理特征向量。
在一种可能的设计中,所述多模态信息融合表情识别模型包括输入模块、多模态信息融合模块和面部表情识别模块;
将所述多个第一面部特征向量、所述第一音频特征向量和所述第一生理特征向量输入到所述多模态信息融合表情识别模型进行识别分析,获得所述演讲者演讲时的面部表情识别结果,包括:
将所述多个第一面部特征向量、所述第一音频特征向量和所述第一生理特征向量输入到所述输入模块,通过多层感知机制分别对所述第一音频特征向量和所述第一生理特征向量进行分类或回归,获得所述第一音频特征向量和所述第一生理特征向量各自对应的情感标签;
基于所述第一音频特征向量和所述第一生理特征向量各自对应的情感标签,通过所述多模态信息融合模块将所述多个第一面部特征向量、所述第一音频特征向量和所述第一生理特征向量融合为情感分析特征;
通过所述面部表情识别模块对所述情感分析特征进行识别分析,获得所述面部表情识别结果。
在一种可能的设计中,将所述多个第一面部特征向量、所述第一音频特征向量和所述第一生理特征向量输入到所述多模态信息融合表情识别模型进行识别分析,获得所述演讲者演讲时的面部表情识别结果之后,所述方法还包括:
将所述面部表情识别结果以可视化方式反馈给所述演讲者;
接收所述演讲者针对所述面部表情识别结果的反馈信息,基于所述反馈信息更新所述多模态信息融合表情识别模型。
在一种可能的设计中,对所述人脸图像进行清洗和预处理,获得处理后的人脸图像之前,所述方法还包括:
采用差分隐私方法对所述人脸图像进行隐私保护;
采用去识别化方式对所述音频数据和所述生理数据进行隐私保护。
第二方面,本发明还提供了一种演讲者面部表情分析系统,包括:
采集模块,用于采集演讲者演讲时的人脸图像、音频数据和生理数据,并对所述人脸图像进行清洗和预处理,获得处理后的人脸图像;
处理模块,用于采用人脸检测模型对所述处理后的人脸图像进行人脸检测和定位,提取出所述演讲者的面部特征图像,并对所述面部特征图像进行数据扩充处理,获得面部特征图像数据集;分别对所述面部特征图像数据集、所述音频数据和所述生理数据进行特征提取后再进行优化处理,获得多个第一面部特征向量、第一音频特征向量和第一生理特征向量;
识别模块,用于构建多模态信息融合表情识别模型,并将所述多个第一面部特征向量、所述第一音频特征向量和所述第一生理特征向量输入到所述多模态信息融合表情识别模型进行识别分析,获得所述演讲者演讲时的面部表情识别结果。
在一种可能的设计中,所述处理模块具体用于:
对所述面部特征图像进行数据增强处理,获得初步面部特征图像数据集;
采用生成式对抗网络GAN模型基于所述初步面部特征图像数据集生成若干个新的面部特征图像,并将所述若干个新的面部特征图像增添到所述初步面部特征图像数据集中,获得所述面部特征图像数据集。
在一种可能的设计中,所述处理模块具体用于:
获取所述面部特征图像数据集对应的第一深度学习网络模型、所述音频数据对应的第二深度学习网络模型和所述生理数据对应的第三深度学习网络模型;
分别将所述第一深度学习网络模型、所述第二深度学习网络模型和所述第三深度学习网络模型结合通道注意力机制和/或空间注意力机制,针对所述面部特征图像数据集、所述音频数据和所述生理数据进行特征提取,获得多个第二面部特征向量、第二音频特征向量和第二生理特征向量;
采用特征适应方法对所述多个第二面部特征向量、所述第二音频特征向量和所述第二生理特征向量进行优化处理,获得所述多个第一面部特征向量、所述第一音频特征向量和所述第一生理特征向量。
在一种可能的设计中,所述多模态信息融合表情识别模型包括输入模块、多模态信息融合模块和面部表情识别模块;所述识别模块具体用于:
将所述多个第一面部特征向量、所述第一音频特征向量和所述第一生理特征向量输入到所述输入模块,通过多层感知机制分别对所述第一音频特征向量和所述第一生理特征向量进行分类或回归,获得所述第一音频特征向量和所述第一生理特征向量各自对应的情感标签;
基于所述第一音频特征向量和所述第一生理特征向量各自对应的情感标签,通过所述多模态信息融合模块将所述多个第一面部特征向量、所述第一音频特征向量和所述第一生理特征向量融合为情感分析特征;
通过所述面部表情识别模块对所述情感分析特征进行识别分析,获得所述面部表情识别结果。
在一种可能的设计中,所述处理模块还用于:
将所述面部表情识别结果以可视化方式反馈给所述演讲者;
接收所述演讲者针对所述面部表情识别结果的反馈信息,基于所述反馈信息更新所述多模态信息融合表情识别模型。
在一种可能的设计中,所述采集模块还用于:
采用差分隐私方法对所述人脸图像进行隐私保护;
采用去识别化方式对所述音频数据和所述生理数据进行隐私保护。
第三方面,本发明还提供了一种电子设备,包括:至少一个存储器和至少一个处理器;
所述至少一个存储器用于存储一个或多个程序;
当所述一个或多个程序被所述至少一个处理器执行时,实现上述第一方面任一种可能设计所涉及的方法。
第四方面,本发明还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有至少一个程序;当所述至少一个程序被处理器执行时,实现上述第一方面任一种可能设计所涉及的方法。
本发明的有益效果如下:
相较于现有技术而言,本发明通过采集演讲者演讲时的人脸图像、音频数据和生理数据,并对人脸图像进行清洗和预处理,获得处理后的人脸图像,可以去除人脸图像中的噪声和干扰信息,便于捕捉演讲者的表情细微变化,从而可以提高后续对演讲者的面部表情分析的准确性和稳定性;进一步地,通过采用人脸检测模型对处理后的人脸图像进行人脸检测和定位,提取出演讲者的面部特征图像,并对面部特征图像进行数据扩充处理,获得面部特征图像数据集,可以提高人脸检测和定位的准确率和鲁棒性,以及获得具有数据多样性和代表性的面部特征图像数据集,从而可以有效地提高演讲者的面部表情识别准确度;进一步地,通过分别对面部特征图像数据集、音频数据和生理数据进行特征提取后再进行优化处理,获得多个第一面部特征向量、第一音频特征向量和第一生理特征向量,可以充分利用不同数据源中的特征信息,有助于提高多模态信息融合表情识别模型在情感分析上的准确性、鲁棒性和泛化能力,从而可以进一步提高面部表情识别结果;进一步地,构建多模态信息融合表情识别模型,并将多个第一面部特征向量、第一音频特征向量和第一生理特征向量输入到多模态信息融合表情识别模型进行识别分析,获得演讲者演讲时的面部表情识别结果,可以通过采用多模态信息融合的方法进行面部表情分析,可以获得更准确和全面的面部表情识别结果,从而可以有效地提高演讲者的面部表情识别准确度。
为了更好地理解和实施,下面结合附图详细说明本发明。
附图说明
图1为本发明提供的一种演讲者面部表情分析方法的流程示意图;
图2为本发明提供的另一种演讲者面部表情分析方法的流程示意图;
图3为本发明提供的一种演讲者面部表情分析系统的架构示意图;
图4为本发明提供的一种电子设备的结构示意图。
具体实施方式
以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反,它们仅是与本发明的一些方面相一致的实施方式的例子。
在本说明书使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本说明书。在本说明书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本说明书中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
除非有相反的说明,本说明书提及的“第一”、“第二”等序数词用于对多个对象进行区分,不用于限定多个对象的顺序、时序、优先级或者重要程度。
下面将结合附图对本发明的提供的技术方案进行详细的介绍。
请参考图1所示,本发明提供的演讲者的面部表情分析方法,可以包括如下步骤:
S11、采集演讲者演讲时的人脸图像、音频数据和生理数据,并对人脸图像进行清洗和预处理,获得处理后的人脸图像。
作为一种示例,在演讲者演讲时,可以通过图像采集设备(如摄像头)拍摄采集演讲者的人脸图像,或者,可以通过图像采集设备录制包含演讲者的人脸在画面内的动态视频,通过将该动态视频分解成若干帧图像,再从每一帧图像中提取出演讲者的人脸图像。
作为一种示例,在演讲者演讲时,可以通过音频采集设备(如麦克风)采集演讲者的音频数据。其中,音频数据的音频格式可以采用WAV或MP3等。
作为一种示例,在演讲者演讲时,可以通过生理采集设备(如生理数据采集仪)采集演讲者的生理数据。其中,生理数据可以包括但不限于:心电图(ECG)、脑电图(EEG)、肌电图(EMG)等生理。
在具体实施时,可以对采集到的人脸图像进行清洗,去除无效或重复的数据,获得清洗后的人脸图像。之后,可以对清洗后的人脸图像进行预处理,例如可以使用OpenCV等图像处理库对清洗后的人脸图像进行预处理,如图像的去噪、对比度增强、尺寸归一化等处理,获得处理后的人脸图像。
作为一种示例,可以将处理后的人脸图像存储在数据库,以为后续提供数据支持。
在本发明中,通过对采集到的人脸图像进行清洗和预处理,可以去除人脸图像中的噪声和干扰信息,便于捕捉演讲者的表情细微变化,从而可以提高后续对演讲者的面部表情分析的准确性和稳定性。
S12、采用人脸检测模型对处理后的人脸图像进行人脸检测和定位,提取出演讲者的面部特征图像,并对面部特征图像进行数据扩充处理,获得面部特征图像数据集。
在具体实施时,人脸检测模型可以采用Haar分类器、HOG特征+SVM、基于深度学习的卷积神经网络等实现。
在本发明中,通过采用人脸检测模型对处理后的人脸图像进行人脸检测和定位来提取出演讲者的面部特征图像,相较于传统的表情识别方法的人脸检测而言,可以提高人脸检测和定位的准确率和鲁棒性,有助于提高演讲者的表情识别准确度。
在具体实施时,可以对提取到的面部特征图像进行数据扩充处理,以获得具有数据多样性和代表性的面部特征图像数据集。
比如,可以对提取到的面部特征图像进行数据增强处理,如使用镜像翻转、旋转、平移、缩放等方式进行数据增强处理,获得初步面部特征图像数据集。之后,可以采用生成式对抗网络(Generative Adversarial Networks,GAN)模型基于该初步面部特征图像数据集生成若干个新的面部特征图像,并将若干个新的面部特征图像增添到初步面部特征图像数据集中,获得该面部特征图像数据集。可以理解为,该面部特征图像数据集是经过两次数据扩充后获得的。
在本发明中,通过对提取到的面部特征图像进行数据增强处理,可以增加面部特征图像的数量,可以提高数据集的质量和多样性,通过使用GAN模型生成新的面部特征图像,可以提供高质量的数据支持,使得面部特征图像数据集更具有多样性和代表性,有助于提高演讲者的面部表情识别的鲁棒性,从而可以有效地提高演讲者的面部表情识别准确度。
作为一种示例,可以将该面部特征图像数据集存储到数据库中,以为后续提供数据支持。当该面部特征图像数据集后续作为模型训练数据集时,可以对该面部特征图像数据集中的每一张面部特征图像进行表情类别标注,如可以使用EMFACS、FACS等面部表情标记系统,对每一张面部特征图像进行表情类别标注,以生成高质量、多样化的数据训练集。
S13、分别对面部特征图像数据集、音频数据和生理数据进行特征提取后再进行优化处理,获得多个第一面部特征向量、第一音频特征向量和第一生理特征向量。
在具体实施时,可以获取面部特征图像数据集对应的第一深度学习网络模型、音频数据对应的第二深度学习网络模型和生理数据对应的第三深度学习网络模型,再分别将第一深度学习网络模型、第二深度学习网络模型和第三深度学习网络模型结合通道注意力机制和/或空间注意力机制,针对面部特征图像数据集、音频数据和生理数据进行特征提取,获得多个第二面部特征向量、第二音频特征向量和第二生理特征向量。
示例性的,第一深度学习网络模型和第二深度学习网络模型可以为卷积神经网络(Convolutional Neural Network,CNN)模型,第三深度学习网络模型可以为CNN模型或者长短期记忆网络(Long Short-Term Memory,LSTM)模型。通过采用通道注意力机制和/或空间注意力机制可以自适应地对第一深度学习网络模型、第二深度学习网络模型和第三深度学习网络模型中的不同通道的特征图进行加权,以增强重要特征的表征能力。
在本发明中,通过分别采用不同的深度学习网络模型结合通道注意力机制和/或空间注意力机制对面部特征图像数据集、音频数据和生理数据进行特征提取,能够更加准确地提取面部、音频和生理信号等多源数据中的特征信息,从而提高了情感分析的准确性和可靠性。
在具体实施时,可以采用特征适应方法对多个第二面部特征向量、第二音频特征向量和第二生理特征向量进行优化处理,获得多个第一面部特征向量、第一音频特征向量和第一生理特征向量。
在本发明中,通过采用特征适应方法对多个第二面部特征向量、第二音频特征向量和第二生理特征向量进行优化处理,获得多个第一面部特征向量、第一音频特征向量和第一生理特征向量,可以方便将将不同数据源中的特征向量映射到同一空间中,以充分利用不同数据源中的特征信息,有助于提高多模态信息融合表情识别模型在情感分析上的准确性、鲁棒性和泛化能力,从而可以进一步提高面部表情识别结果的识别准确度。
S14、构建多模态信息融合表情识别模型,并将多个第一面部特征向量、第一音频特征向量和第一生理特征向量输入到多模态信息融合表情识别模型进行识别分析,获得演讲者演讲时的面部表情识别结果。
在具体实施时,多模态信息融合表情识别模型可以包括输入模块、多模态信息融合模块和面部表情识别模块。
在具体实施时,可以将多个第一面部特征向量、第一音频特征向量和第一生理特征向量输入到输入模块,通过多层感知机制分别对第一音频特征向量和第一生理特征向量进行分类或回归,获得第一音频特征向量和第一生理特征向量各自对应的情感标签,以便于通过第一音频特征向量和第一生理特征向量各自对应的情感标签全面地理解演讲者的情感状态,便于提供更精准的面部表情识别结果。之后,再基于第一音频特征向量和第一生理特征向量各自对应的情感标签,通过多模态信息融合模块将多个第一面部特征向量、第一音频特征向量和第一生理特征向量融合为情感分析特征,相较于现有技术仅是采用单一的面部特征信息进行识别分析而言,可以将不同模态的信息进行融合,可以提高面部表情分析的准确性和稳定性。最后,通过面部表情识别模块对情感分析特征进行识别分析,获得面部表情识别结果。
在本发明中,通过采用多模态信息融合的方法,可以结合多个第一面部特征向量、第一音频特征向量和第一生理特征向量进行面部表情分析,可以获得更准确和全面的面部表情识别结果,从而可以有效地提高演讲者的面部表情识别准确度。
在本发明提供的一种可适用的场景下,在步骤S14之后,结合图1-2所示,本发明提供的演讲者面部表情分析方法,还包括如下步骤:
S15、将面部表情识别结果以可视化方式反馈给演讲者。
在本发明中,通过将面部表情识别结果以可视化方式反馈给演讲者,可以方便演讲者了解自己的情感状态,以便于演讲者后续进行改进。
S16、接收演讲者针对面部表情结果的反馈信息,基于该反馈信息更新多模态信息融合表情识别模型。
在具体实施时,演讲者可以针对面部表情识别结果,进行自我的感情剖析,再对比面部表情识别结果中的情感状态,当发现两者不一致时,可以手动更正自己的情感状态,再进行反馈,方便更新多模态信息融合表情识别模型,有助于改善多模态信息融合表情识别模型的面部表情识别的准确率。
在本发明提供的另一种可适用的场景下,在步骤S11中,对所述人脸图像进行清洗和预处理,获得处理后的人脸图像之前,可以采用差分隐私方法对采集到的人脸图像进行隐私保护,以及可以采用去识别化方式对采集到的音频数据和生理数据进行隐私保护,以保护演讲者的隐私信息不会被泄露和滥用,相较于现有技术中无针对用户的人脸信息进行隐私保护而言,安全性较高。
在一些示例中,在对采集到的人脸图像、音频数据和生理数据进行存储和传输过程中,可以采用匿名化、加密等安全机制进行加密处理,以防止人脸图像、音频数据和生理数据泄露和滥用,安全性较高。
通过以上描述可知,相较于现有技术而言,本发明通过采集演讲者演讲时的人脸图像、音频数据和生理数据,并对人脸图像进行清洗和预处理,获得处理后的人脸图像,可以去除人脸图像中的噪声和干扰信息,便于捕捉演讲者的表情细微变化,从而可以提高后续对演讲者的面部表情分析的准确性和稳定性;进一步地,通过采用人脸检测模型对处理后的人脸图像进行人脸检测和定位,提取出演讲者的面部特征图像,并对面部特征图像进行数据扩充处理,获得面部特征图像数据集,可以提高人脸检测和定位的准确率和鲁棒性,以及获得具有数据多样性和代表性的面部特征图像数据集,从而可以有效地提高演讲者的面部表情识别准确度;进一步地,通过分别对面部特征图像数据集、音频数据和生理数据进行特征提取后再进行优化处理,获得多个第一面部特征向量、第一音频特征向量和第一生理特征向量,可以充分利用不同数据源中的特征信息,有助于提高多模态信息融合表情识别模型在情感分析上的准确性、鲁棒性和泛化能力,从而可以进一步提高面部表情识别结果;进一步地,构建多模态信息融合表情识别模型,并将多个第一面部特征向量、第一音频特征向量和第一生理特征向量输入到多模态信息融合表情识别模型进行识别分析,获得演讲者演讲时的面部表情识别结果,可以通过采用多模态信息融合的方法进行面部表情分析,可以获得更准确和全面的面部表情识别结果,从而可以有效地提高演讲者的面部表情识别准确度。
基于同一发明构思,本发明实施例还提供了一种演讲者面部表情分析系统,如图3所示,演讲者面部表情分析系统可以包括:
采集模块21,用于采集演讲者演讲时的人脸图像、音频数据和生理数据,并对所述人脸图像进行清洗和预处理,获得处理后的人脸图像;
处理模块22,用于采用人脸检测模型对所述处理后的人脸图像进行人脸检测和定位,提取出所述演讲者的面部特征图像,并对所述面部特征图像进行数据扩充处理,获得面部特征图像数据集;分别对所述面部特征图像数据集、所述音频数据和所述生理数据进行特征提取后再进行优化处理,获得多个第一面部特征向量、第一音频特征向量和第一生理特征向量;
识别模块23,用于构建多模态信息融合表情识别模型,并将所述多个第一面部特征向量、所述第一音频特征向量和所述第一生理特征向量输入到所述多模态信息融合表情识别模型进行识别分析,获得所述演讲者演讲时的面部表情识别结果。
在一种可能的设计中,所述处理模块22具体用于:
对所述面部特征图像进行数据增强处理,获得初步面部特征图像数据集;
采用生成式对抗网络GAN模型基于所述初步面部特征图像数据集生成若干个新的面部特征图像,并将所述若干个新的面部特征图像增添到所述初步面部特征图像数据集中,获得所述面部特征图像数据集。
在一种可能的设计中,所述处理模块22具体用于:
获取所述面部特征图像数据集对应的第一深度学习网络模型、所述音频数据对应的第二深度学习网络模型和所述生理数据对应的第三深度学习网络模型;
分别将所述第一深度学习网络模型、所述第二深度学习网络模型和所述第三深度学习网络模型结合通道注意力机制和/或空间注意力机制,针对所述面部特征图像数据集、所述音频数据和所述生理数据进行特征提取,获得多个第二面部特征向量、第二音频特征向量和第二生理特征向量;
采用特征适应方法对所述多个第二面部特征向量、所述第二音频特征向量和所述第二生理特征向量进行优化处理,获得所述多个第一面部特征向量、所述第一音频特征向量和所述第一生理特征向量。
在一种可能的设计中,所述多模态信息融合表情识别模型包括输入模块、多模态信息融合模块和面部表情识别模块;所述识别模块23具体用于:
将所述多个第一面部特征向量、所述第一音频特征向量和所述第一生理特征向量输入到所述输入模块,通过多层感知机制分别对所述第一音频特征向量和所述第一生理特征向量进行分类或回归,获得所述第一音频特征向量和所述第一生理特征向量各自对应的情感标签;
基于所述第一音频特征向量和所述第一生理特征向量各自对应的情感标签,通过所述多模态信息融合模块将所述多个第一面部特征向量、所述第一音频特征向量和所述第一生理特征向量融合为情感分析特征;
通过所述面部表情识别模块对所述情感分析特征进行识别分析,获得所述面部表情识别结果。
在一种可能的设计中,所述处理模块22还用于:
将所述面部表情识别结果以可视化方式反馈给所述演讲者;
接收所述演讲者针对所述面部表情识别结果的反馈信息,基于所述反馈信息更新所述多模态信息融合表情识别模型。
在一种可能的设计中,所述采集模块21还用于:
采用差分隐私方法对所述人脸图像进行隐私保护;
采用去识别化方式对所述音频数据和所述生理数据进行隐私保护。
本发明实施例中的电子设备与上述图1-2所示的演讲者面部表情分析方法是基于同一构思下的发明,通过前述对演讲者面部表情分析方法的详细描述,本领域技术人员可以清楚的了解本实施例中演讲者面部表情分析系统的实施过程,所以为了说明书的简洁,在此不再赘述。
基于同一发明构思,本发明实施例还提供了一种电子设备,如图4所示,电子设备可以包括:至少一个存储器31和至少一个处理器32。其中:
至少一个存储器31用于存储一个或多个程序。
当一个或多个程序被至少一个处理器32执行时,实现上述图1-2所示的演讲者面部表情分析方法。
电子设备还可以可选地包括通信接口,通信接口用于与外部设备进行通信和数据交互传输。
需要说明的是,存储器31可能包含高速RAM存储器,也可能还包括非易失性存储器(nonvolatile memory),例如至少一个磁盘存储器。
在具体的实现过程中,如果存储器31、处理器32及通信接口集成在一块芯片上,则存储器31、处理器32及通信接口可以通过内部接口完成相互间的通信。如果存储器31、处理器32和通信接口独立实现,则存储器31、处理器32和通信接口可以通过总线相互连接并完成相互间的通信。
基于同一发明构思,本发明实施例还提供了一种计算机可读存储介质,该计算机可读存储介质可以存储有至少一个程序,当至少一个程序被处理器执行时,实现上述图1-2所示的演讲者面部表情分析方法。
应当理解,计算机可读存储介质为可存储数据或程序的任何数据存储设备,数据或程序其后可由计算机系统读取。计算机可读存储介质的示例包括:只读存储器、随机存取存储器、CD-ROM、HDD、DVD、磁带和光学数据存储设备等。
计算机可读存储介质还可分布在网络耦接的计算机系统中使得计算机可读代码以分布式方式来存储和执行。
计算机可读存储介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、射频(Radio Frequency,RF)等,或者上述的任意合适的组合。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。

Claims (10)

1.一种演讲者面部表情分析方法,其特征在于,包括:
采集演讲者演讲时的人脸图像、音频数据和生理数据,并对所述人脸图像进行清洗和预处理,获得处理后的人脸图像;
采用人脸检测模型对所述处理后的人脸图像进行人脸检测和定位,提取出所述演讲者的面部特征图像,并对所述面部特征图像进行数据扩充处理,获得面部特征图像数据集;
分别对所述面部特征图像数据集、所述音频数据和所述生理数据进行特征提取后再进行优化处理,获得多个第一面部特征向量、第一音频特征向量和第一生理特征向量;
构建多模态信息融合表情识别模型,并将所述多个第一面部特征向量、所述第一音频特征向量和所述第一生理特征向量输入到所述多模态信息融合表情识别模型进行识别分析,获得所述演讲者演讲时的面部表情识别结果。
2.如权利要求1所述的方法,其特征在于,对所述面部特征图像进行数据扩充处理,获得面部特征图像数据集,包括:
对所述面部特征图像进行数据增强处理,获得初步面部特征图像数据集;
采用生成式对抗网络GAN模型基于所述初步面部特征图像数据集生成若干个新的面部特征图像,并将所述若干个新的面部特征图像增添到所述初步面部特征图像数据集中,获得所述面部特征图像数据集。
3.如权利要求1所述的方法,其特征在于,分别对所述面部特征图像数据集、所述音频数据和所述生理数据进行特征提取后再进行优化处理,获得多个第一面部特征向量、第一音频特征向量和第一生理特征向量,包括:
获取所述面部特征图像数据集对应的第一深度学习网络模型、所述音频数据对应的第二深度学习网络模型和所述生理数据对应的第三深度学习网络模型;
分别将所述第一深度学习网络模型、所述第二深度学习网络模型和所述第三深度学习网络模型结合通道注意力机制和/或空间注意力机制,针对所述面部特征图像数据集、所述音频数据和所述生理数据进行特征提取,获得多个第二面部特征向量、第二音频特征向量和第二生理特征向量;
采用特征适应方法对所述多个第二面部特征向量、所述第二音频特征向量和所述第二生理特征向量进行优化处理,获得所述多个第一面部特征向量、所述第一音频特征向量和所述第一生理特征向量。
4.如权利要求1所述的方法,其特征在于,所述多模态信息融合表情识别模型包括输入模块、多模态信息融合模块和面部表情识别模块;
将所述多个第一面部特征向量、所述第一音频特征向量和所述第一生理特征向量输入到所述多模态信息融合表情识别模型进行识别分析,获得所述演讲者演讲时的面部表情识别结果,包括:
将所述多个第一面部特征向量、所述第一音频特征向量和所述第一生理特征向量输入到所述输入模块,通过多层感知机制分别对所述第一音频特征向量和所述第一生理特征向量进行分类或回归,获得所述第一音频特征向量和所述第一生理特征向量各自对应的情感标签;
基于所述第一音频特征向量和所述第一生理特征向量各自对应的情感标签,通过所述多模态信息融合模块将所述多个第一面部特征向量、所述第一音频特征向量和所述第一生理特征向量融合为情感分析特征;
通过所述面部表情识别模块对所述情感分析特征进行识别分析,获得所述面部表情识别结果。
5.如权利要求1所述的方法,其特征在于,将所述多个第一面部特征向量、所述第一音频特征向量和所述第一生理特征向量输入到所述多模态信息融合表情识别模型进行识别分析,获得所述演讲者演讲时的面部表情识别结果之后,所述方法还包括:
将所述面部表情识别结果以可视化方式反馈给所述演讲者;
接收所述演讲者针对所述面部表情识别结果的反馈信息,基于所述反馈信息更新所述多模态信息融合表情识别模型。
6.如权利要求1-5任一项所述的方法,其特征在于,对所述人脸图像进行清洗和预处理,获得处理后的人脸图像之前,所述方法还包括:
采用差分隐私方法对所述人脸图像进行隐私保护;
采用去识别化方式对所述音频数据和所述生理数据进行隐私保护。
7.一种演讲者面部表情分析系统,其特征在于,包括:
采集模块,用于采集演讲者演讲时的人脸图像、音频数据和生理数据,并对所述人脸图像进行清洗和预处理,获得处理后的人脸图像;
处理模块,用于采用人脸检测模型对所述处理后的人脸图像进行人脸检测和定位,提取出所述演讲者的面部特征图像,并对所述面部特征图像进行数据扩充处理,获得面部特征图像数据集;分别对所述面部特征图像数据集、所述音频数据和所述生理数据进行特征提取后再进行优化处理,获得多个第一面部特征向量、第一音频特征向量和第一生理特征向量;
识别模块,用于构建多模态信息融合表情识别模型,并将所述多个第一面部特征向量、所述第一音频特征向量和所述第一生理特征向量输入到所述多模态信息融合表情识别模型进行识别分析,获得所述演讲者演讲时的面部表情识别结果。
8.如权利要求7所述的系统,其特征在于,所述处理模块具体用于:
对所述面部特征图像进行数据增强处理,获得初步面部特征图像数据集;
采用生成式对抗网络GAN模型基于所述初步面部特征图像数据集生成若干个新的面部特征图像,并将所述若干个新的面部特征图像增添到所述初步面部特征图像数据集中,获得所述面部特征图像数据集。
9.一种电子设备,其特征在于,包括:至少一个存储器和至少一个处理器;
所述至少一个存储器用于存储一个或多个程序;
当所述一个或多个程序被所述至少一个处理器执行时,实现如权利要求1-6任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有至少一个程序;当所述至少一个程序被处理器执行时,实现如权利要求1-6任一项所述的方法。
CN202310781523.3A 2023-06-29 2023-06-29 一种演讲者面部表情分析方法、系统、设备及存储介质 Active CN116543445B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310781523.3A CN116543445B (zh) 2023-06-29 2023-06-29 一种演讲者面部表情分析方法、系统、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310781523.3A CN116543445B (zh) 2023-06-29 2023-06-29 一种演讲者面部表情分析方法、系统、设备及存储介质

Publications (2)

Publication Number Publication Date
CN116543445A true CN116543445A (zh) 2023-08-04
CN116543445B CN116543445B (zh) 2023-09-26

Family

ID=87454508

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310781523.3A Active CN116543445B (zh) 2023-06-29 2023-06-29 一种演讲者面部表情分析方法、系统、设备及存储介质

Country Status (1)

Country Link
CN (1) CN116543445B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117788235A (zh) * 2023-12-11 2024-03-29 新励成教育科技股份有限公司 一种个性化口才训练方法、系统、设备及介质

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106250855A (zh) * 2016-08-02 2016-12-21 南京邮电大学 一种基于多核学习的多模态情感识别方法
KR20190119863A (ko) * 2018-04-13 2019-10-23 인하대학교 산학협력단 반 지도 학습과 여러 개의 멀티 모달 네트워크를 이용한 비디오 기반 인물 감정 인식 기법
US20210406525A1 (en) * 2019-06-03 2021-12-30 Tencent Technology (Shenzhen) Company Limited Facial expression recognition method and apparatus, electronic device and storage medium
CN113947127A (zh) * 2021-09-15 2022-01-18 复旦大学 一种用于陪伴机器人的多模态情感识别方法和系统
CN115169507A (zh) * 2022-09-08 2022-10-11 华中科技大学 类脑多模态情感识别网络、识别方法及情感机器人
CN115359576A (zh) * 2022-07-29 2022-11-18 华南师范大学 一种多模态情绪识别方法、装置、电子设备及存储介质
CN115731595A (zh) * 2022-11-17 2023-03-03 广州大学 一种基于模糊规则的多层次决策融合的情感识别方法
CN116226715A (zh) * 2023-03-07 2023-06-06 东南大学 一种基于多模态特征融合的作业人员在线多态识别系统
CN116311423A (zh) * 2023-02-07 2023-06-23 湖北大学 一种基于交叉注意力机制的多模态情感识别方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106250855A (zh) * 2016-08-02 2016-12-21 南京邮电大学 一种基于多核学习的多模态情感识别方法
KR20190119863A (ko) * 2018-04-13 2019-10-23 인하대학교 산학협력단 반 지도 학습과 여러 개의 멀티 모달 네트워크를 이용한 비디오 기반 인물 감정 인식 기법
US20210406525A1 (en) * 2019-06-03 2021-12-30 Tencent Technology (Shenzhen) Company Limited Facial expression recognition method and apparatus, electronic device and storage medium
CN113947127A (zh) * 2021-09-15 2022-01-18 复旦大学 一种用于陪伴机器人的多模态情感识别方法和系统
CN115359576A (zh) * 2022-07-29 2022-11-18 华南师范大学 一种多模态情绪识别方法、装置、电子设备及存储介质
CN115169507A (zh) * 2022-09-08 2022-10-11 华中科技大学 类脑多模态情感识别网络、识别方法及情感机器人
CN115731595A (zh) * 2022-11-17 2023-03-03 广州大学 一种基于模糊规则的多层次决策融合的情感识别方法
CN116311423A (zh) * 2023-02-07 2023-06-23 湖北大学 一种基于交叉注意力机制的多模态情感识别方法
CN116226715A (zh) * 2023-03-07 2023-06-06 东南大学 一种基于多模态特征融合的作业人员在线多态识别系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
方伟杰等: ""融合语音、脑电和人脸表情的多模态情绪识别"", 《计算机系统应用》, vol. 32, no. 1, pages 337 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117788235A (zh) * 2023-12-11 2024-03-29 新励成教育科技股份有限公司 一种个性化口才训练方法、系统、设备及介质

Also Published As

Publication number Publication date
CN116543445B (zh) 2023-09-26

Similar Documents

Publication Publication Date Title
Harwath et al. Deep multimodal semantic embeddings for speech and images
Alameda-Pineda et al. Analyzing free-standing conversational groups: A multimodal approach
US10108709B1 (en) Systems and methods for queryable graph representations of videos
CN110517689B (zh) 一种语音数据处理方法、装置及存储介质
US9183429B2 (en) Method and apparatus for facial recognition
CN104735468B (zh) 一种基于语义分析将图像合成新视频的方法及系统
CN116543445B (zh) 一种演讲者面部表情分析方法、系统、设备及存储介质
WO2020019591A1 (zh) 用于生成信息的方法和装置
CN109582825B (zh) 用于生成信息的方法和装置
US10922570B1 (en) Entering of human face information into database
Subramanian et al. Multimodal emotion recognition using different fusion techniques
Boggust et al. Grounding spoken words in unlabeled video.
CN111800650B (zh) 视频配乐方法、装置、电子设备及计算机可读介质
Vrigkas et al. Identifying human behaviors using synchronized audio-visual cues
CN113053361B (zh) 语音识别方法、模型训练方法、装置、设备及介质
CN112750518A (zh) 一种基于心理行为特征识别的谈话(询问)方法
US20220375223A1 (en) Information generation method and apparatus
CN114548262B (zh) 一种情感计算中多模态生理信号的特征级融合方法
Peng et al. Computational visual analysis in political communication
CN114492579A (zh) 情绪识别方法、摄像装置、情绪识别装置及存储装置
CN211788155U (zh) 智能会议记录系统
CN114155606A (zh) 基于人体动作分析的语义识别方法及相关装置
Sharma et al. Classroom student emotions classification from facial expressions and speech signals using deep learning
CN111191490A (zh) 一种基于Kinect视觉的唇读研究的方法
CN117851835B (zh) 一种深度学习的物联网识别系统及方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant