CN112861949A - 一种基于人脸和声音的情绪预测方法和系统 - Google Patents
一种基于人脸和声音的情绪预测方法和系统 Download PDFInfo
- Publication number
- CN112861949A CN112861949A CN202110127170.6A CN202110127170A CN112861949A CN 112861949 A CN112861949 A CN 112861949A CN 202110127170 A CN202110127170 A CN 202110127170A CN 112861949 A CN112861949 A CN 112861949A
- Authority
- CN
- China
- Prior art keywords
- voice
- module
- face
- feature information
- image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000008451 emotion Effects 0.000 title claims abstract description 42
- 238000000034 method Methods 0.000 title claims abstract description 18
- 230000004927 fusion Effects 0.000 claims abstract description 17
- 238000007781 pre-processing Methods 0.000 claims abstract description 14
- 238000013528 artificial neural network Methods 0.000 claims abstract description 5
- 238000000605 extraction Methods 0.000 claims description 41
- 239000013598 vector Substances 0.000 claims description 22
- 230000004913 activation Effects 0.000 claims description 17
- 238000011176 pooling Methods 0.000 claims description 12
- 238000010586 diagram Methods 0.000 claims description 11
- 238000013507 mapping Methods 0.000 claims description 10
- 238000001228 spectrum Methods 0.000 claims description 10
- 230000014509 gene expression Effects 0.000 claims description 7
- 238000010606 normalization Methods 0.000 claims description 7
- 230000009466 transformation Effects 0.000 claims description 7
- 238000013527 convolutional neural network Methods 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 4
- 238000012545 processing Methods 0.000 claims description 4
- 230000002194 synthesizing effect Effects 0.000 claims description 3
- 238000000844 transformation Methods 0.000 claims description 3
- 230000001815 facial effect Effects 0.000 claims 1
- 239000012634 fragment Substances 0.000 abstract 1
- 238000001914 filtration Methods 0.000 description 3
- 238000007635 classification algorithm Methods 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/168—Feature extraction; Face representation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/174—Facial expression recognition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/63—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- Multimedia (AREA)
- Human Computer Interaction (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Signal Processing (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- General Engineering & Computer Science (AREA)
- Child & Adolescent Psychology (AREA)
- Hospice & Palliative Care (AREA)
- Psychiatry (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于人脸和声音的情绪预测方法和系统,其方法的步骤包括:首先采集人脸图像和语音录音样本,接着将人脸图像输入到卷积神经网络中以特定形式提取图像中的空间特征信息,同时将人脸图像输入到局部二进制卷积网络中提取图像的纹理特征信息,将人脸图像的空间特征信息和纹理特征信息进行融合输出增强的人脸特征,然后将语音录音输入到预处理模型计算每个窗口的梅尔频谱图将梅尔频谱图输入到声音编码模型对各个范围的短期梅尔频谱图的相关性进行建模,再通过语音片段嵌入融合器模型输出语音特征,最后将人脸特征和语音特征进行融合输入到输出模型来预测情绪。
Description
技术领域
本发明涉及计算机领域,具体涉及一种基于人脸和声音的情绪预测方法和系统。
背景技术
情绪预测是一个重要研究领域,被广泛应用在各种领域,包括医疗,安全和人机交互等。由于情绪的表达非常复杂会通过不用程度或强度表现出现,因此想要准确快速预测情绪是一项艰巨的任务。目前情绪预测多通过简单的分类算法对单个情绪进行识别分类,精度不高,无法满足实际应用需求。
发明内容
本发明所要解决的技术问题是现有技术情绪预测多通过简单的分类算法对单个情绪进行识别分类,精度不高,无法满足实际应用需求,目的在于提供一种基于人脸和声音的情绪预测方法和系统,可高效准确实现情绪预测任务。
本发明通过下述技术方案实现:
一种基于人脸和声音的情绪预测方法,包括以下步骤:
S1.采集人脸图像样本和语音录音样本;
S2.将所述人脸图像样本输入到卷积神经网络中并提取得到图像中的空间特征信息;同时将所述人脸图像样本输入到局部二进制卷积网络中提取图像的纹理特征信息,将所述图像的空间特征信息和所述纹理特征信息进行融合输出增强的人脸特征;
S3.将所述语音录音样本输入到预处理模型中计算每个窗口的梅尔频谱图;将所述梅尔频谱图输入到声音编码模型对各个范围的短期梅尔频谱图的相关性进行建模,再通过语音片段嵌入融合器模型输出语音特征;
S4.将所述人脸特征和所述语音特征进行融合输入到输出模型来预测情绪。
进一步,步骤S2的具体如下:
S21.将人脸图像样本依次输入到多个卷积层,提取图像的空间特征信息;
S22.将人脸图像样本输入到固定过滤层,所述固定过滤层是由多个固定滤波器组成,对人脸图像样本进行卷积生成差异图,使用非线性激活函数对差异图进行映射;使用不同的可学习的参数来合成差异图,生成纹理特征信息;
S23.将所述空间特征信息和所述纹理特征信息进行融合处理,生成增强的人脸特征信息。
进一步,步骤S3中,所述具体步骤如下:
S31.利用短时滑动窗口提取语音片段,对所述语音片段进行短时傅里叶变换,生成每个片段的梅尔频谱图;
S32.利用多个一维初始模块组成的一维卷积神经网络来处理所述梅尔频谱图,所述一维初始模块是由多个卷积层组成,每个卷积层后都使用一个激活函数和归一化函数,对各个范围的短期梅尔频谱图的相关性进行建模,生成一系列梅尔频谱序列;
S33.将所述一系列梅尔频谱序列转换成嵌入向量,输入到注意力层保留嵌入向量中的有用信息,将注意力层输出与语音嵌入向量融合后再进行线性变换,生成细粒度特征表示,对细粒度特征沿着时间维度进行池化操作,生成全局融合特征向量。
进一步,步骤S4中,所述具体步骤如下:
S41.将所述人脸特征和所述语音特征进行融合操作,经过全连接层和softmax层生成表情预测。
进一步,一种基于人脸和声音的情绪预测系统,包括图像语音采集模块、存储模块、人脸特征提取模块、语音特征提取模块和情绪预测模块。
所述图像语音采集模块用于采集人脸图像和语音录音样本信息,并将样本存储到存储模块;
所述存储模块用于存储特征映射、权重数据、中间结果和最终结果数据;
所述人脸特征提取模块用于对采集的人脸图像进行特征提取和特征增强操作,生成增强的人脸特征信息;
所述语音特征提取模块用于对采集的语音录像进行预处理、编码和融合操作,生成语音特征信息;
所述情绪预测模块,用于根据生成的人脸和语音特征信息,实时计算预测情绪。
进一步,所述人脸特征提取模块包括空间特征提取模块、固定过滤模块、激活模块、纹理特征提取模块和合并模块;
其中,所述空间特征提取模块用于执行基于深度神经网络的计算,提取图像的空间特征信息;所述固定过滤模块用于执行多个卷积操作来生成差异图;所述纹理特征提取模块采用多个可学习的参数执行卷积操作,生成纹理特征信息。
进一步,所述语音特征提取模块包括预处理模块、声音编码模块和嵌入融合器模块;
其中,所述预处理模块用于执行傅里叶操作,计算每个时间窗口的梅尔频谱图;所述声音编码模块由多个一维初始模块和池化模块组成,所述一维初始模块由多个卷积操作、激活函数和归一化函数组成;所述嵌入融合器模块执行注意力操作、线性变换和平均池化操作,生成全局融合特征向量。
本发明与现有技术相比,具有如下的优点和有益效果:
本发明一种一种基于人脸和声音的情绪预测方法和系统,可以更加实时、全面、准确的对情绪进行分析预测,大大提高情绪预测效果。
附图说明
此处所说明的附图用来提供对本发明实施例的进一步理解,构成本申请的一部分,并不构成对本发明实施例的限定。在附图中:
图1是本发明的流程示意图;
图2是本发明的系统结构示意图;
图3是本发明的人脸特征提取模块结构示意图;
图4是本发明的语音特征提取模块结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,下面结合实施例和附图,对本发明作进一步的详细说明,本发明的示意性实施方式及其说明仅用于解释本发明,并不作为对本发明的限定。
在以下描述中,为了提供对本发明的透彻理解阐述了大量特定细节。然而,对于本领域普通技术人员显而易见的是:不必采用这些特定细节来实行本发明。在其他实例中,为了避免混淆本发明,未具体描述公知的结构、电路、材料或方法。
在整个说明书中,对“一个实施例”、“实施例”、“一个示例”或“示例”的提及意味着:结合该实施例或示例描述的特定特征、结构或特性被包含在本发明至少一个实施例中。因此,在整个说明书的各个地方出现的短语“一个实施例”、“实施例”、“一个示例”或“示例”不一定都指同一实施例或示例。此外,可以以任何适当的组合和、或子组合将特定的特征、结构或特性组合在一个或多个实施例或示例中。此外,本领域普通技术人员应当理解,在此提供的示图都是为了说明的目的,并且示图不一定是按比例绘制的。这里使用的术语“和/或”包括一个或多个相关列出的项目的任何和所有组合。
在本发明的描述中,需要理解的是,术语“前”、“后”、“左”、“右”、“上”、“下”、“竖直”、“水平”、“高”、“低”“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明保护范围的限制。
实施例
如图1所示,本发明一种基于人脸和声音的情绪预测方法和系统,具体包括以下步骤:
步骤S1,采集人脸图像和语音录音样本;
步骤S2,将人脸图像输入到卷积神经网络中以特定形式提取图像中的空间特征信息;同时将人脸图像输入到局部二进制卷积网络中提取图像的纹理特征信息,将人脸图像的空间特征信息和纹理特征信息进行融合输出增强的人脸特征;
步骤S3,将语音录音输入到预处理模型计算每个窗口的梅尔频谱图;将梅尔频谱图输入到声音编码模型对各个范围的短期梅尔频谱图的相关性进行建模,再通过语音片段嵌入融合器模型输出语音特征;
步骤S4,将人脸特征和语音特征进行融合输入到输出模型来预测情绪。
作为优选方案,在步骤S1中,通过一些视频图像采集设备采集人脸视频图像,包括但不限于摄像机、照相机、雷达等;语音录音通过一些语音采集设备来获取,包括但不限于录音机、传感器等,采集约5万张人脸图像以及对应的5万语音作为样本,进行数据清洗处理,将所有样本依据0.6,0.3,0.1的比例划分为训练集,验证集和测试集。
作为优选方案,步骤S2的具体步骤如下:
S21,将人脸图像依次输入到多个卷积层,提取图像的空间特征信息。
S22,将人脸图像首先输入到固定过滤层,所述固定过滤层是由多个固定滤波器组成,对图像进行卷积生成差异图,接着使用非线性激活函数对值进行映射;最后使用不同的可学习的参数来合成差异图,生成纹理特征信息。
在本实施方式中,利用几个尺寸完全相同的过滤器与输入的人脸图像执行卷积操作,生成与过滤器个数相同的差异图;然后将多个差异图输入到激活函数中,所述激活函数包括但不限于sigmoid,对差异图进行映射;接着使用多个不同的方式来合并多个不同的映射生成单个特征映射,具体操作是使用多个可学习的参数与多个不同的映射依次执行卷积操作、激活函数操作和卷积操作,生成最终的纹理特征信息。
S23,将S21和S22中提取的空间特征信息和纹理特征信息进行融合处理,生成增强的人脸特征信息。
作为优选方案,步骤S3的具体步骤如下:
S31,利用短时滑动窗口提取语音片段,对每个片段进行短时傅里叶变换,生成每个片段的梅尔频谱图。
在本实施方式中,所述短时滑动窗口采用固定秒数宽度取1-1.5秒之间且重叠为0.5的滑动窗口。
S32,利用多个一维初始模块组成的一维卷积神经网络来处理梅尔频谱图,所述一维初始模块是由多个卷积层组成,每个卷积层后都使用一个激活函数和归一化函数,对各个范围的短期梅尔频谱图的相关性进行建模。
在本实施方式中,所述一维卷积神经网络是由多个一维初始模块层和平均池化层组成,所述一维初始模块层是由多个并行的不同内核大小的卷积层、激活函数层和归一化层组成,对不同范围的短期梅尔频谱图相关性进行建模。
S33,将一系列梅尔频谱序列转换成嵌入向量,输入到注意力层保留嵌入向量中的有用信息,接着将注意力层输出与语音嵌入向量融合再进行线性变换,生成细粒度特征表示,最后沿着时间维度进行池化操作,生成全局融合特征向量。
在本实施方式中,所述取80-300维之间,具体取值依据实际情况确定,所述注意力层的详细计算过程是:将某时刻的声音嵌入向量与其他时刻的声音嵌入向量执行矩阵乘法操作得到注意力分数,基于注意力分数执行softmax操作,然后与其他时刻的声音嵌入向量执行矩阵乘法运算,来保留所有声音嵌入向量中有用的信息;所述线性变换通过执行全连接操作完成;所述池化操作包括但不限于平均池化操作。
作为优选方案,步骤S4的具体步骤如下:
S41,将人脸特征和语音特征进行融合操作;
S42,经过多层的全连接层和最终softmax层生成表情预测。
在本实施方式中,所述Softmax层将最终输出类别的概率映射到(0,1)区间,从而进行表情分类,所述表情分类主要分为六种表情:快乐,气愤,惊讶,害怕,厌恶和悲伤。
最后,采用测试集对所述方法进行测试,结果如下:损失为0.03,准确率为0.98。
图2是本发明的基于人脸和声音的情绪预测实现系统结构示意图,如图2所示,该系统包括:图像语音采集模块、存储模块、人脸特征提取模块、语音特征提取模块和情绪预测模块。
图像语音采集模块与存储模块相连,人脸特征提取模块分别与存储模块和情绪预测模块,语音特征提取模块分别与存储模块和情绪预测模块。
所述图像语音采集模块用于采集人脸图像和语音录音样本信息,并将样本存储到存储模块;
所述存储模块用于存储特征映射、权重数据、一些中间结果以及最终结果数据;
所述人脸特征提取模块用于对采集的人脸图像进行特征提取和特征增强操作,生成增强的人脸特征信息;
所述语音特征提取模块用于对采集的语音录像进行预处理、编码和融合操作,生成语音特征信息;
所述情绪预测模块,用于根据生成的人脸和语音特征信息,实时计算预测情绪。
图3是本发明的人脸特征提取模块结构示意图,如图3所示,人脸特征提取模块包括空间特征提取模块、固定过滤模块、激活模块、纹理特征提取模块和合并模块;
空间特征提取模块和纹理特征提取模块均与合并模块相连,固定过滤模块与激活模块相连。所述空间特征提取模块用于执行基于深度神经网络的计算,提取图像的空间特征信息;所述固定过滤模块用于执行多个卷积操作来生成差异图;所述纹理特征提取模块采用多个可学习的参数执行卷积操作,生成纹理特征信息。
图4是本发明的人脸特征提取模块结构示意图,如图4所示,语音特征提取模块包括预处理模块、声音编码模块和嵌入融合器模块;
预处理模块与声音编码模块相连,声音编码模块与嵌入融合器模块相连。所述预处理模块用于执行傅里叶操作,计算每个时间窗口的梅尔频谱图;所述声音编码模块由多个一维初始模块和池化模块组成,所述一维初始模块由多个卷积操作、激活函数和归一化函数组成;所述嵌入融合器模块执行注意力操作、线性变换和平均池化操作,生成全局融合特征向量。
尽管在上述实施例中,阐述本发明提供的基于人脸和声音的情绪预测实现过程,并以此对本发明提出的基于人脸和声音的情绪预测方法和系统进行了说明,但本领域普通技术人员应理解,本发明提出的基于人脸和声音的情绪预测方法和系统适用于其他面向情绪预测的设计算法的系统。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (7)
1.一种基于人脸和声音的情绪预测方法,其特征在于,包括以下步骤:
S1.采集人脸图像样本和语音录音样本;
S2.将所述人脸图像样本输入到卷积神经网络中并提取得到图像中的空间特征信息;同时将所述人脸图像样本输入到局部二进制卷积网络中提取图像的纹理特征信息,将所述图像的空间特征信息和所述纹理特征信息进行融合输出增强的人脸特征;
S3.将所述语音录音样本输入到预处理模型中计算每个窗口的梅尔频谱图;将所述梅尔频谱图输入到声音编码模型对各个范围的短期梅尔频谱图的相关性进行建模,再通过语音片段嵌入融合器模型输出语音特征;
S4.将所述人脸特征和所述语音特征进行融合输入到输出模型来预测情绪。
2.根据权利要求1所述的一种基于人脸和声音的情绪预测方法和系统,其特征在于,步骤S2的具体如下:
S21.将人脸图像样本依次输入到多个卷积层,提取图像的空间特征信息;
S22.将人脸图像样本输入到固定过滤层,所述固定过滤层是由多个固定滤波器组成,对人脸图像样本进行卷积生成差异图,使用非线性激活函数对差异图进行映射;使用不同的可学习的参数来合成差异图,生成纹理特征信息;
S23.将所述空间特征信息和所述纹理特征信息进行融合处理,生成增强的人脸特征信息。
3.根据权利要求1所述的一种基于人脸和声音的情绪预测方法和系统,其特征在于,步骤S3中,所述具体步骤如下:
S31.利用短时滑动窗口提取语音片段,对所述语音片段进行短时傅里叶变换,生成每个片段的梅尔频谱图;
S32.利用多个一维初始模块组成的一维卷积神经网络来处理所述梅尔频谱图,所述一维初始模块是由多个卷积层组成,每个卷积层后都使用一个激活函数和归一化函数,对各个范围的短期梅尔频谱图的相关性进行建模,生成一系列梅尔频谱序列;
S33.将所述一系列梅尔频谱序列转换成嵌入向量,输入到注意力层保留嵌入向量中的有用信息,将注意力层输出与语音嵌入向量融合后再进行线性变换,生成细粒度特征表示,对细粒度特征沿着时间维度进行池化操作,生成全局融合特征向量。
4.根据权利要求1所述的一种基于人脸和声音的情绪预测方法,其特征在于,步骤S4中,所述具体步骤如下:
S41.将所述人脸特征和所述语音特征进行融合操作,经过全连接层和softmax层生成表情预测。
5.一种基于人脸和声音的情绪预测系统,其特征在于,包括图像语音采集模块、存储模块、人脸特征提取模块、语音特征提取模块和情绪预测模块;
所述图像语音采集模块用于采集人脸图像和语音录音样本信息,并将样本存储到存储模块;
所述存储模块用于存储特征映射、权重数据、中间结果和最终结果数据;
所述人脸特征提取模块用于对采集的人脸图像进行特征提取和特征增强操作,生成增强的人脸特征信息;
所述语音特征提取模块用于对采集的语音录像进行预处理、编码和融合操作,生成语音特征信息;
所述情绪预测模块,用于根据生成的人脸和语音特征信息,实时计算预测情绪。
6.根据权利要求5所述的一种基于人脸和声音的情绪预测系统,其特征在于,所述人脸特征提取模块包括空间特征提取模块、固定过滤模块、激活模块、纹理特征提取模块和合并模块;
其中,所述空间特征提取模块用于执行基于深度神经网络的计算,提取图像的空间特征信息;所述固定过滤模块用于执行多个卷积操作来生成差异图;所述纹理特征提取模块采用多个可学习的参数执行卷积操作,生成纹理特征信息。
7.根据权利要求5所述的一种基于人脸和声音的情绪预测系统,其特征在于,所述语音特征提取模块包括预处理模块、声音编码模块和嵌入融合器模块;
其中,所述预处理模块用于执行傅里叶操作,计算每个时间窗口的梅尔频谱图;所述声音编码模块由多个一维初始模块和池化模块组成,所述一维初始模块由多个卷积操作、激活函数和归一化函数组成;所述嵌入融合器模块执行注意力操作、线性变换和平均池化操作,生成全局融合特征向量。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110127170.6A CN112861949B (zh) | 2021-01-29 | 2021-01-29 | 一种基于人脸和声音的情绪预测方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110127170.6A CN112861949B (zh) | 2021-01-29 | 2021-01-29 | 一种基于人脸和声音的情绪预测方法和系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112861949A true CN112861949A (zh) | 2021-05-28 |
CN112861949B CN112861949B (zh) | 2023-08-04 |
Family
ID=75986938
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110127170.6A Active CN112861949B (zh) | 2021-01-29 | 2021-01-29 | 一种基于人脸和声音的情绪预测方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112861949B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113435357A (zh) * | 2021-06-30 | 2021-09-24 | 平安科技(深圳)有限公司 | 语音播报方法、装置、设备及存储介质 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108549854A (zh) * | 2018-03-28 | 2018-09-18 | 中科博宏(北京)科技有限公司 | 一种人脸活体检测方法 |
CN109740572A (zh) * | 2019-01-23 | 2019-05-10 | 浙江理工大学 | 一种基于局部彩色纹理特征的人脸活体检测方法 |
CN110110653A (zh) * | 2019-04-30 | 2019-08-09 | 上海迥灵信息技术有限公司 | 多特征融合的情绪识别方法、装置和存储介质 |
US20190392625A1 (en) * | 2018-11-06 | 2019-12-26 | Beijing Baidu Netcom Science and Technology Co., Ltd | Method and apparatus for generating animation |
CN111192601A (zh) * | 2019-12-25 | 2020-05-22 | 厦门快商通科技股份有限公司 | 音乐标注方法、装置、电子设备及介质 |
CN111339913A (zh) * | 2020-02-24 | 2020-06-26 | 湖南快乐阳光互动娱乐传媒有限公司 | 一种视频中的人物情绪识别方法及装置 |
CN111523389A (zh) * | 2020-03-25 | 2020-08-11 | 中国平安人寿保险股份有限公司 | 情绪智能识别方法、装置、电子设备及存储介质 |
CN111815658A (zh) * | 2019-04-11 | 2020-10-23 | 普天信息技术有限公司 | 一种图像识别方法及装置 |
CN111950389A (zh) * | 2020-07-22 | 2020-11-17 | 重庆邮电大学 | 一种基于轻量级网络的深度二值特征人脸表情识别方法 |
-
2021
- 2021-01-29 CN CN202110127170.6A patent/CN112861949B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108549854A (zh) * | 2018-03-28 | 2018-09-18 | 中科博宏(北京)科技有限公司 | 一种人脸活体检测方法 |
US20190392625A1 (en) * | 2018-11-06 | 2019-12-26 | Beijing Baidu Netcom Science and Technology Co., Ltd | Method and apparatus for generating animation |
CN109740572A (zh) * | 2019-01-23 | 2019-05-10 | 浙江理工大学 | 一种基于局部彩色纹理特征的人脸活体检测方法 |
CN111815658A (zh) * | 2019-04-11 | 2020-10-23 | 普天信息技术有限公司 | 一种图像识别方法及装置 |
CN110110653A (zh) * | 2019-04-30 | 2019-08-09 | 上海迥灵信息技术有限公司 | 多特征融合的情绪识别方法、装置和存储介质 |
CN111192601A (zh) * | 2019-12-25 | 2020-05-22 | 厦门快商通科技股份有限公司 | 音乐标注方法、装置、电子设备及介质 |
CN111339913A (zh) * | 2020-02-24 | 2020-06-26 | 湖南快乐阳光互动娱乐传媒有限公司 | 一种视频中的人物情绪识别方法及装置 |
CN111523389A (zh) * | 2020-03-25 | 2020-08-11 | 中国平安人寿保险股份有限公司 | 情绪智能识别方法、装置、电子设备及存储介质 |
CN111950389A (zh) * | 2020-07-22 | 2020-11-17 | 重庆邮电大学 | 一种基于轻量级网络的深度二值特征人脸表情识别方法 |
Non-Patent Citations (1)
Title |
---|
芦敏: "基于视频的微表情识别方法", 《中国优秀硕士学位论文全文数据库》, no. 08, pages 138 - 452 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113435357A (zh) * | 2021-06-30 | 2021-09-24 | 平安科技(深圳)有限公司 | 语音播报方法、装置、设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN112861949B (zh) | 2023-08-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Ahmed | The impact of filter size and number of filters on classification accuracy in CNN | |
CN110390952B (zh) | 基于双特征2-DenseNet并联的城市声音事件分类方法 | |
CN111079658B (zh) | 基于视频的多目标连续行为分析方法、系统、装置 | |
CN111046821A (zh) | 一种视频行为识别方法、系统及电子设备 | |
CN108682431B (zh) | 一种pad三维情感空间中的语音情感识别方法 | |
Xia et al. | Spontaneous facial micro-expression recognition via deep convolutional network | |
CN108416780A (zh) | 一种基于孪生-感兴趣区域池化模型的物体检测与匹配方法 | |
CN111967361A (zh) | 一种基于婴儿表情识别与哭声的情绪检测方法 | |
Zhang et al. | Learning audio sequence representations for acoustic event classification | |
Liu et al. | Facial expression recognition for in-the-wild videos | |
Bai et al. | Micro-expression recognition based on video motion magnification and pre-trained neural network | |
CN112861949B (zh) | 一种基于人脸和声音的情绪预测方法和系统 | |
CN111259759A (zh) | 基于域选择迁移回归的跨数据库微表情识别方法及装置 | |
Ying et al. | A Multimodal Driver Emotion Recognition Algorithm Based on the Audio and Video Signals in Internet of Vehicles Platform | |
Jiang et al. | Speech emotion recognition method based on improved long short-term memory networks | |
Özkara et al. | Real-time facial emotion recognition for visualization systems | |
Liang et al. | Parallel CNN classification for human gait identification with optimal cross data-set transfer learning | |
Sharma et al. | Sound event separation and classification in domestic environment using mean teacher | |
Nyhuis et al. | Automated video analysis for social science research 1 | |
Jiashu | Performance analysis of facial recognition: A critical review through glass factor | |
CN114038041A (zh) | 一种基于残差神经网络和注意力机制的微表情识别方法 | |
CN114120370A (zh) | 基于cnn-lstm的人体跌倒检测实现方法及系统 | |
Dubey | Usage of deep learning in recent applications | |
Kedari et al. | Face emotion detection using deep learning | |
Mohamed Yassin et al. | An emotion and gender detection using hybridized convolutional 2D and batch norm residual network learning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |