CN112633263B - 海量音视频情感识别系统 - Google Patents
海量音视频情感识别系统 Download PDFInfo
- Publication number
- CN112633263B CN112633263B CN202110253708.8A CN202110253708A CN112633263B CN 112633263 B CN112633263 B CN 112633263B CN 202110253708 A CN202110253708 A CN 202110253708A CN 112633263 B CN112633263 B CN 112633263B
- Authority
- CN
- China
- Prior art keywords
- image
- emotion recognition
- recognition model
- module
- acoustic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000008909 emotion recognition Effects 0.000 title claims abstract description 117
- 238000000605 extraction Methods 0.000 claims abstract description 40
- 230000002996 emotional effect Effects 0.000 claims abstract description 21
- 230000004927 fusion Effects 0.000 claims abstract description 21
- 238000000034 method Methods 0.000 claims description 31
- 230000008451 emotion Effects 0.000 claims description 22
- 238000011176 pooling Methods 0.000 claims description 22
- 238000013528 artificial neural network Methods 0.000 claims description 20
- 230000000306 recurrent effect Effects 0.000 claims description 16
- 230000000873 masking effect Effects 0.000 claims description 14
- 230000006870 function Effects 0.000 claims description 12
- 239000013598 vector Substances 0.000 claims description 6
- 238000005457 optimization Methods 0.000 claims description 4
- 230000037433 frameshift Effects 0.000 claims description 3
- 230000003595 spectral effect Effects 0.000 claims description 3
- 230000008569 process Effects 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000002372 labelling Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000009432 framing Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000013526 transfer learning Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/174—Facial expression recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/63—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- General Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Evolutionary Computation (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Biophysics (AREA)
- Software Systems (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- Child & Adolescent Psychology (AREA)
- Hospice & Palliative Care (AREA)
- Psychiatry (AREA)
- Signal Processing (AREA)
- Image Analysis (AREA)
Abstract
本申请涉及海量音视频情感识别系统,包括:声学特征抽取模块,从音频数据中抽取声学特征;语音情感识别模型预训练模块,利用海量无标注的音频数据,对语音情感识别模型进行预训练;语音情感识别模型微调模块,利用少量标注的音频数据,对语音情感识别模型进行微调;图像特征抽取模块,用于从输入的视频数据中,抽取图像特征;图像情感识别模型预训练模块,利用海量无标注的视频数据,对图像情感识别模型进行预训练;图像情感识别模型微调模块,利用少量标注的视频数据,对图像情感识别模型进行微调;多模态融合模块,将微调后的语音情感识别模型和图像情感识别模型进行融合;情绪状态预测模块,利用多模态融合后的结果,预测个体的情绪状态。
Description
技术领域
本申请涉及情感识别领域,尤其涉及海量音视频情感识别系统。
背景技术
情感识别技术不仅具有重大的科学意义,而且极具经济价值,有着广泛的应用前景。同时,其应用场景也不仅仅局限于人机交互领域,在其他诸多领域都可以发挥重要作用,例如对话生成、社会媒体分析和智能系统。
由于情感具有一定模糊性,不同人对于相同的内容可能会有不同的感受。就像莎士比亚所说:“一千个观众眼中有一千个哈姆雷特”,每个人对待任何事物都有自己的看法。为了缓解情感的模糊性,在标注过程中,我们常常需要邀请几十位专业标注人员,对情感数据进行标注,并选择标注结果的众数,作为最终的标注结果。这就导致了情感标注费时费力,很难收集大体量的标注样本。
申请公布号CN107609572涉及多模态情感计算领域,提出了一种基于神经网络和迁移学习的多模态情感识别方法、系统,旨在解决情感数据难以获取且标注困难,使得相应识别模型不能够充分训练,造成多模态情感识别准确率不能满足需求的问题,该方法基于大规模数据训练深度神经网络并通过迁移学习获取音频特征提取器、视频特征提取器,进而对多模态情感数据进行音频特征、视频特征的提取,从而识别各语音情感类别的概率、各视频情感类别的概率,并通概率值判断最终情感类别。该方法可以有效的融合音视频两个模态,提高了多模态情感识别的准确率。
申请公布号CN 110852215 A一种多模态情感识别方法、系统及存储介质,所述方法包括:响应所监听到的情感识别任务请求,采集音视频数据;从音视频数据中提取视频情感特征、音频情感特征和语义情感特征;将视频情感特征、音频情感特征和语义情感特征进行特征融合;依据融合情感特征进行情感特征识别。所述系统包括CPU、FPGA和存储单元;CPU能够执行前述方法步骤,FPGA能够执行前述方法中的特征提取及特征融合步骤;本发明依据视频、音频及语义情感特征融合结果进行情感特征识别,能够显著提高情感识别的准确率;将多模态情感特征提取算法同时嵌入CPU及FPGA,依据利用率选择执行设备,有助于提高算法运行速度、降低延迟。
为了解决这一问题,本发明提供了一种基于海量音视频的情感识别系统,通过引入海量无标注的音视频数据,提升低资源情况下情感识别的性能。
发明内容
为了解决上述技术问题或者至少部分地解决上述技术问题,本申请提供了一种海量音视频情感识别系统,包括:
声学特征抽取模块、语音情感识别模型预训练模块、语音情感识别模型微调模块、图像特征抽取模块、图像情感识别模型预训练模块、图像情感识别模型微调模块、多模态融合模块和情绪状态预测模块;所述声学特征抽取模块与所述语音情感识别模型预训练模块连接,所述语音情感识别模型预训练模块与所述语音情感识别模型微调模块连接,所述图像特征抽取模块与所述图像情感识别模型预训练模块连接,所述图像情感识别模型预训练模块与所述图像情感识别模型微调模块连接,所述语音情感识别模型微调模块和所述图像情感识别模型微调模块分别与所述多模态融合模块连接,所述多模态融合模块与所述情绪状态预测模块连接;
所述声学特征抽取模块:从输入的音频数据中抽取帧级别的声学特征;
所述语音情感识别模型预训练模块:以无标注的所述帧级别的声学特征和被掩蔽的无标注的所述帧级别的声学特征为输入,预测完整的帧级别的声学特征;
所述语音情感识别模型微调模块:利用少量标注的音频数据,对所述声学特征抽取模块和所述语音情感识别模型预训练模块中的参数进行微调和优化并输出句子级别声学特征;
所述图像特征抽取模块:从输入的视频数据中抽取帧级别的图像特征;
所述图像情感识别模型预训练模块:以无标注的所述帧级别的图像特征和被掩蔽的无标注的所述帧级别的图像特征为输入,预测完整的帧级别的图像特征;
所述图像情感识别模型微调模块:利用少量标注的视频数据,对所述图像特征抽取模块和所述图像情感识别模型预训练模块中的参数进行微调和优化并输出句子级别图像特征;
所述多模态融合模块:采用特征层融合算法,将句子级别声学特征和句子级别图像特征进行拼接,作为多模态特征;
所述情绪状态预测模块:以所述多模态特征为输入,做情绪状态预测。
优选的,所述抽取帧级别的声学特征的方法:
首先将输入的音频按照固定的帧长和帧移进行分帧,得到帧级别的音频;
然后,从帧级别的音频中抽取韵律特征、音质特征和谱特征,作为帧级别的声学特征。
优选的,得到所述被掩蔽的无标注的所述帧级别的声学特征的具体方法为:
在所述无标注的所述帧级别的声学特征中随机选择10%的帧级别的声学特征,得到预掩蔽声学特征,将所述预掩蔽声学特征替换为同等维度的全零向量。
优选的,所述预测完整的帧级别的声学特征的具体方法:
将无标注的所述帧级别的声学特征和被掩蔽的无标注的所述帧级别的声学特征输入到循环神经网络进行训练;
计算所述循环神经网络的输出和所述帧级别的声学特征的L2距离,作为所述语音情感识别模型预训练模块的损失函数。
优选的,所述语音情感识别模型微调模块包括,声学均值池化层和声学全连接层;所述声学均值池化层和所述声学全连接层连接;
所述声学均值池化层:生成句子级别声学特征;
所述声学全连接层:预测声学句子的情绪状态。
优选的,采用预测声学句子的情绪状态和真实音频标注结果的交叉熵作为损失函数,对所述声学特征抽取模块和所述语音情感识别模型预训练模块中的参数进行微调和优化。
优选的,所述从输入的视频数据中抽取帧级别的图像特征的方法:
(1)将人脸图像作为输入,将表情标签作为输出,利用深度神经网络训练表情识别模型;
(2)将所述视频数据分解为若干图像帧;
(3)从每帧图像中识别出人脸区域位置,并进行人脸截取;
(4)将截取的人脸输入到训练好的所述表情识别模型中,抽取模型最后一层的特征作为帧级别的图像特征。
优选的,得到所述被掩蔽的无标注的所述帧级别的图像特征的具体方法为:
在所述无标注的所述帧级别的图像特征中随机选择10%的帧级别的图像特征,得到预掩蔽图像特征,将所述预掩蔽图像特征替换为同等维度的全零向量。
优选的,所述预测完整的帧级别的图像特征的具体方法:
将无标注的所述帧级别的图像特征和被掩蔽的无标注的所述帧级别的图像特征输入到循环神经网络进行训练;
计算所述循环神经网络的输出和所述帧级别的图像特征的L2距离,作为所述图像情感识别模型预训练模块的损失函数。
优选的,所述图像情感识别模型微调模块包括,图像均值池化层和图像全连接层;所述图像均值池化层和所述图像全连接层连接;
所述图像均值池化层:生成句子级别图像特征;
所述图像全连接层:预测图像句子的情绪状态;
采用预测图像句子的情绪状态和真实视频标注结果的交叉熵作为损失函数,对所述图像特征抽取模块和所述图像情感识别模型预训练模块中的参数进行微调和优化。
本申请实施例提供的上述技术方案与现有技术相比具有如下优点:
本申请实施例提供的该系统,
(1)首次提出了一种基于海量音视频的情感识别系统,通过引入海量无标注的音视频数据,提升低资源情况下情感识别的性能。
(2)采用了一种新颖的无监督预训练算法,对语音情感识别模型和图像情感识别模型进行预训练。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的海量音视频情感识别系统结构框图;
图2为本申请实施例提供的语音情感识别模型微调模块的结构框图;
图3为本申请实施例提供的图像情感识别模型微调模块的结构框图。
图中,1—声学特征抽取模块,2—语音情感识别模型预训练模块,3—语音情感识别模型微调模块,31—声学均值池化层,32—声学全连接层,4—图像特征抽取模块,5—图像情感识别模型预训练模块,6—图像情感识别模型微调模块,61—图像均值池化层,62—图像全连接层,7—多模态融合模块,8—情绪状态预测模块。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请的一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
参见图1,本申请实施例提供的海量音视频情感识别系统,包括:
声学特征抽取模块1、语音情感识别模型预训练模块2、语音情感识别模型微调模块3、图像特征抽取模块4、图像情感识别模型预训练模块5、图像情感识别模型微调模块6、多模态融合模块7和情绪状态预测模块8;
所述声学特征抽取模块1与所述语音情感识别模型预训练模块2连接,所述语音情感识别模型预训练模块2与所述语音情感识别模型微调模块3连接,所述图像特征抽取模块4与所述图像情感识别模型预训练模块5连接,所述图像情感识别模型预训练模块5与所述图像情感识别模型微调模块6连接,所述语音情感识别模型微调模块3和所述图像情感识别模型微调模块6分别与所述多模态融合模块7连接,所述多模态融合模块7与所述情绪状态预测模块8连接。
所述声学特征抽取模块1:从输入的音频数据中抽取帧级别的声学特征,首先将输入的音频按照固定的帧长和帧移进行分帧,得到帧级别的音频;
然后,从帧级别的音频中抽取韵律特征、音质特征和谱特征,作为帧级别的声学特征。
所述语音情感识别模型预训练模块2:以无标注的所述帧级别的声学特征和被掩蔽的无标注的所述帧级别的声学特征为输入,预测完整的帧级别的声学特征。
在一些实施例中,得到所述被掩蔽的无标注的所述帧级别的声学特征的具体方法为:
数据库中存在个无标注的音频数据,对于句子,利用“声学特征抽取模块1”,抽取帧级别的声学特征,其中句子总共包含帧,表示句子中第帧的声学特征;在所述无标注的所述帧级别的声学特征中随机选择10%的帧级别的声学特征,得到预掩蔽声学特征,将所述预掩蔽声学特征替换为同等维度的全零向量;最终随机选择10%的帧进行掩蔽,生成的特征表示为。
在一些实施例中,所述预测完整的帧级别的声学特征的具体方法:
所述语音情感识别模型微调模块3:利用少量标注的音频数据,对所述声学特征抽取模块1和所述语音情感识别模型预训练模块2中的参数进行微调和优化并输出句子级别声学特征。
如图2所示,所述语音情感识别模型微调模块3包括,声学均值池化层31和声学全连接层32;所述声学均值池化层31和所述声学全连接层32连接;
所述声学均值池化层31:生成句子级别声学特征;
所述声学全连接层32:预测声学句子的情绪状态。
数据库中存在K个有标注的音频数据,,其中表示句子的标签;利用“声学特征抽取模块1”,抽取帧级别的声学特征;在这一模块中,循环神经网络中的参数是经过预训练的,声学均值池化层31不包含额外的参数,只有声学全连接层32的参数是随机初始化的;
采用预测声学句子的情绪状态和真实音频标注结果的交叉熵作为损失函数,
对所述声学特征抽取模块1和所述语音情感识别模型预训练模块2中的参数进行微调和优化。
所述图像特征抽取模块4:从输入的视频数据中抽取帧级别的图像特征。
在一些实施例中,所述从输入的视频数据中抽取帧级别的图像特征的方法:
(1)将人脸图像作为输入,将表情标签作为输出,利用深度神经网络,例如DenseNet,ResNet等网络结构,训练表情识别模型;
(2)将所述视频数据分解为若干图像帧;
(3)从每帧图像中识别出人脸区域位置,并进行人脸截取;
(4)将截取的人脸输入到训练好的所述表情识别模型中,抽取模型最后一层的特征作为帧级别的图像特征。
所述图像情感识别模型预训练模块5:以无标注的所述帧级别的图像特征和被掩蔽的无标注的所述帧级别的图像特征为输入,预测完整的帧级别的图像特征。
在一些实施例中,得到所述被掩蔽的无标注的所述帧级别的图像特征的具体方法为:
数据库中存在N个无标注的图像数据,对于句子,利用“图像特征抽取模块”,抽取帧级别的图像特征,其中句子总共包含帧,表示句子中第帧的图像特征;在所述无标注的所述帧级别的图像特征中随机选择10%的帧级别的图像特征,得到预掩蔽图像特征,将所述预掩蔽图像特征替换为同等维度的全零向量;最终随机选择10%的帧进行掩蔽,生成的特征表示为。
在一些实施例中,所述预测完整的帧级别的图像特征的具体方法:
所述图像情感识别模型微调模块6:利用少量标注的视频数据,对所述图像特征抽取模块4和所述图像情感识别模型预训练模块5中的参数进行微调和优化并输出句子级别图像特征。
如图3所示,所述图像情感识别模型微调模块6包括,图像均值池化层61和图像全连接层62;所述图像均值池化层61和所述图像全连接层62连接;
所述图像均值池化层61:生成句子级别图像特征;
所述图像全连接层62:预测图像句子的情绪状态。
数据库中存在个有标注的视频数据,,其中表示句子的标签;利用“图像特征抽取模块4”,抽取帧级别的图像特征;在这一模块中,循环神经网络中的参数是经过预训练的,图像均值池化层61不包含额外的参数,只有图像全连接层62的参数是随机初始化的;
采用预测图像句子的情绪状态和真实视频标注结果的交叉熵作为损失函数,
对所述图像特征抽取模块4和所述图像情感识别模型预训练模块5中的参数。
所述多模态融合模块7:采用特征层融合算法,将句子级别声学特征和句子级别图像特征进行拼接,作为多模态特征。
所述情绪状态预测模块8:以所述多模态特征为输入,做情绪状态预测。
需要说明的是,在本文中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所述仅是本发明的具体实施方式,使本领域技术人员能够理解或实现本发明。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所申请的原理和新颖特点相一致的最宽的范围。
Claims (8)
1.海量音视频情感识别系统,其特征在于,包括:
声学特征抽取模块、语音情感识别模型预训练模块、语音情感识别模型微调模块、图像特征抽取模块、图像情感识别模型预训练模块、图像情感识别模型微调模块、多模态融合模块和情绪状态预测模块;
所述声学特征抽取模块与所述语音情感识别模型预训练模块连接,所述语音情感识别模型预训练模块与所述语音情感识别模型微调模块连接,所述图像特征抽取模块与所述图像情感识别模型预训练模块连接,所述图像情感识别模型预训练模块与所述图像情感识别模型微调模块连接,所述语音情感识别模型微调模块和所述图像情感识别模型微调模块分别与所述多模态融合模块连接,所述多模态融合模块与所述情绪状态预测模块连接;
所述声学特征抽取模块:从输入的音频数据中抽取帧级别的声学特征;
所述语音情感识别模型预训练模块:以无标注的所述帧级别的声学特征和被掩蔽的无标注的所述帧级别的声学特征为输入,预测完整的帧级别的声学特征;
所述语音情感识别模型微调模块:利用少量标注的音频数据,对所述声学特征抽取模块和所述语音情感识别模型预训练模块中的参数进行微调和优化并输出句子级别声学特征;
所述图像特征抽取模块:从输入的视频数据中抽取帧级别的图像特征;
所述图像情感识别模型预训练模块:以无标注的所述帧级别的图像特征和被掩蔽的无标注的所述帧级别的图像特征为输入,预测完整的帧级别的图像特征;
所述图像情感识别模型微调模块:利用少量标注的视频数据,对所述图像特征抽取模块和所述图像情感识别模型预训练模块中的参数进行微调和优化并输出句子级别图像特征;
所述多模态融合模块:采用特征层融合算法,将句子级别声学特征和句子级别图像特征进行拼接,作为多模态特征;
所述情绪状态预测模块:以所述多模态特征为输入,做情绪状态预测;
得到所述被掩蔽的无标注的所述帧级别的声学特征的具体方法为:
在所述无标注的所述帧级别的声学特征中随机选择10%的帧级别的声学特征,得到预掩蔽声学特征,将所述预掩蔽声学特征替换为同等维度的全零向量;
得到所述被掩蔽的无标注的所述帧级别的图像特征的具体方法为:
在所述无标注的所述帧级别的图像特征中随机选择10%的帧级别的图像特征,得到预掩蔽图像特征,将所述预掩蔽图像特征替换为同等维度的全零向量。
2.根据权利要求1所述的海量音视频情感识别系统,其特征在于,所述抽取帧级别的声学特征的方法:
首先将输入的音频按照固定的帧长和帧移进行分帧,得到帧级别的音频;
然后,从帧级别的音频中抽取韵律特征、音质特征和谱特征,作为帧级别的声学特征。
3.根据权利要求1所述的海量音视频情感识别系统,其特征在于,所述预测完整的帧级别的声学特征的具体方法:
将无标注的所述帧级别的声学特征和被掩蔽的无标注的所述帧级别的声学特征输入到循环神经网络进行训练;
计算所述循环神经网络的输出和所述帧级别的声学特征的L2距离,作为所述语音情感识别模型预训练模块的损失函数。
4.根据权利要求1所述的海量音视频情感识别系统,其特征在于,所述语音情感识别模型微调模块包括,声学均值池化层和声学全连接层;所述声学均值池化层和所述声学全连接层连接;
所述声学均值池化层:生成句子级别声学特征;
所述声学全连接层:预测声学句子的情绪状态。
5.根据权利要求4所述的海量音视频情感识别系统,其特征在于,采用预测声学句子的情绪状态和真实音频标注结果的交叉熵作为损失函数,对所述声学特征抽取模块和所述语音情感识别模型预训练模块中的参数进行微调和优化。
6.根据权利要求1所述的海量音视频情感识别系统,其特征在于,所述从输入的视频数据中抽取帧级别的图像特征的方法:
(1)将人脸图像作为输入,将表情标签作为输出,利用深度神经网络训练表情识别模型;
(2)将所述视频数据分解为若干图像帧;
(3)从每帧图像中识别出人脸区域位置,并进行人脸截取;
(4)将截取的人脸输入到训练好的所述表情识别模型中,抽取模型最后一层的特征作为帧级别的图像特征。
7.根据权利要求1所述的海量音视频情感识别系统,其特征在于,所述预测完整的帧级别的图像特征的具体方法:
将无标注的所述帧级别的图像特征和被掩蔽的无标注的所述帧级别的图像特征输入到循环神经网络进行训练;
计算所述循环神经网络的输出和所述帧级别的图像特征的L2距离,作为所述图像情感识别模型预训练模块的损失函数。
8.根据权利要求1所述的海量音视频情感识别系统,其特征在于,所述图像情感识别模型微调模块包括,图像均值池化层和图像全连接层;所述图像均值池化层和所述图像全连接层连接;
所述图像均值池化层:生成句子级别图像特征;
所述图像全连接层:预测图像句子的情绪状态;
采用预测图像句子的情绪状态和真实视频标注结果的交叉熵作为损失函数,对所述图像特征抽取模块和所述图像情感识别模型预训练模块中的参数进行微调和优化。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110253708.8A CN112633263B (zh) | 2021-03-09 | 2021-03-09 | 海量音视频情感识别系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110253708.8A CN112633263B (zh) | 2021-03-09 | 2021-03-09 | 海量音视频情感识别系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112633263A CN112633263A (zh) | 2021-04-09 |
CN112633263B true CN112633263B (zh) | 2021-06-08 |
Family
ID=75297778
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110253708.8A Active CN112633263B (zh) | 2021-03-09 | 2021-03-09 | 海量音视频情感识别系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112633263B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116072154B (zh) * | 2023-03-07 | 2023-07-18 | 华南师范大学 | 基于数据增强的语音情感识别方法、装置以及设备 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102930297A (zh) * | 2012-11-05 | 2013-02-13 | 北京理工大学 | 基于增强耦合hmm的语音-视觉融合的情感识别方法 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104331442A (zh) * | 2014-10-24 | 2015-02-04 | 华为技术有限公司 | 视频分类方法和装置 |
CN107609572B (zh) * | 2017-08-15 | 2021-04-02 | 中国科学院自动化研究所 | 基于神经网络和迁移学习的多模态情感识别方法、系统 |
CN110852215B (zh) * | 2019-10-30 | 2022-09-06 | 国网江苏省电力有限公司电力科学研究院 | 一种多模态情感识别方法、系统及存储介质 |
-
2021
- 2021-03-09 CN CN202110253708.8A patent/CN112633263B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102930297A (zh) * | 2012-11-05 | 2013-02-13 | 北京理工大学 | 基于增强耦合hmm的语音-视觉融合的情感识别方法 |
Non-Patent Citations (2)
Title |
---|
Multimodal Deep Convolutional Neural Network for Audio-Visual Emotion Recognition;Zhang, Shiqing等;《ICMR 16: PROCEEDINGS OF THE 2016 ACM INTERNATIONAL CONFERENCE ON MULTIMEDIA RETRIEVAL》;20160609;第281-284页 * |
基于内容的视频情感提取算法研究;谈文婷;《中国优秀硕士学位论文全文数据库 信息科技辑》;20110515(第05期);第1-88页 * |
Also Published As
Publication number | Publication date |
---|---|
CN112633263A (zh) | 2021-04-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110751208B (zh) | 一种基于自权重差分编码器进行多模态特征融合的服刑人员情感识别方法 | |
Zhang et al. | Spontaneous speech emotion recognition using multiscale deep convolutional LSTM | |
CN111930992B (zh) | 神经网络训练方法、装置及电子设备 | |
CN108717856B (zh) | 一种基于多尺度深度卷积循环神经网络的语音情感识别方法 | |
CN112348075A (zh) | 一种基于情景注意力神经网络的多模态情感识别方法 | |
Guanghui et al. | Multi-modal emotion recognition by fusing correlation features of speech-visual | |
CN114694076A (zh) | 基于多任务学习与层叠跨模态融合的多模态情感分析方法 | |
CN112818861A (zh) | 一种基于多模态上下文语义特征的情感分类方法及系统 | |
CN110991290A (zh) | 基于语义指导与记忆机制的视频描述方法 | |
Lin et al. | PS-mixer: A polar-vector and strength-vector mixer model for multimodal sentiment analysis | |
CN114973045A (zh) | 一种基于多任务学习的层次多模态情感分析方法 | |
Wang et al. | Contrastive Predictive Coding of Audio with an Adversary. | |
Bellagha et al. | Speaker naming in tv programs based on speaker role recognition | |
Lai et al. | Multimodal sentiment analysis with asymmetric window multi-attentions | |
CN112633263B (zh) | 海量音视频情感识别系统 | |
Deorukhkar et al. | A detailed review of prevailing image captioning methods using deep learning techniques | |
Xue et al. | Lcsnet: End-to-end lipreading with channel-aware feature selection | |
Gao et al. | Generalized pyramid co-attention with learnable aggregation net for video question answering | |
WO2024159858A1 (zh) | 实体识别模型训练方法、装置、设备、存储介质及产品 | |
CN116977992A (zh) | 文本信息识别方法、装置、计算机设备和存储介质 | |
Pham et al. | Speech emotion recognition: A brief review of multi-modal multi-task learning approaches | |
CN112579745B (zh) | 基于图神经网络的对话情感纠错系统 | |
CN115376214A (zh) | 情绪识别方法、装置、电子设备和存储介质 | |
Liu et al. | A multi-modal emotion fusion classification method combined expression and speech based on attention mechanism | |
Rahul et al. | Morphology & word sense disambiguation embedded multimodal neural machine translation system between Sanskrit and Malayalam |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |