CN112633263B - 海量音视频情感识别系统 - Google Patents

海量音视频情感识别系统 Download PDF

Info

Publication number
CN112633263B
CN112633263B CN202110253708.8A CN202110253708A CN112633263B CN 112633263 B CN112633263 B CN 112633263B CN 202110253708 A CN202110253708 A CN 202110253708A CN 112633263 B CN112633263 B CN 112633263B
Authority
CN
China
Prior art keywords
image
emotion recognition
recognition model
module
acoustic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110253708.8A
Other languages
English (en)
Other versions
CN112633263A (zh
Inventor
陶建华
连政
刘斌
孙立才
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Automation of Chinese Academy of Science
Original Assignee
Institute of Automation of Chinese Academy of Science
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Automation of Chinese Academy of Science filed Critical Institute of Automation of Chinese Academy of Science
Priority to CN202110253708.8A priority Critical patent/CN112633263B/zh
Publication of CN112633263A publication Critical patent/CN112633263A/zh
Application granted granted Critical
Publication of CN112633263B publication Critical patent/CN112633263B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/174Facial expression recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Evolutionary Computation (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biophysics (AREA)
  • Software Systems (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Child & Adolescent Psychology (AREA)
  • Hospice & Palliative Care (AREA)
  • Psychiatry (AREA)
  • Signal Processing (AREA)
  • Image Analysis (AREA)

Abstract

本申请涉及海量音视频情感识别系统,包括:声学特征抽取模块,从音频数据中抽取声学特征;语音情感识别模型预训练模块,利用海量无标注的音频数据,对语音情感识别模型进行预训练;语音情感识别模型微调模块,利用少量标注的音频数据,对语音情感识别模型进行微调;图像特征抽取模块,用于从输入的视频数据中,抽取图像特征;图像情感识别模型预训练模块,利用海量无标注的视频数据,对图像情感识别模型进行预训练;图像情感识别模型微调模块,利用少量标注的视频数据,对图像情感识别模型进行微调;多模态融合模块,将微调后的语音情感识别模型和图像情感识别模型进行融合;情绪状态预测模块,利用多模态融合后的结果,预测个体的情绪状态。

Description

海量音视频情感识别系统
技术领域
本申请涉及情感识别领域,尤其涉及海量音视频情感识别系统。
背景技术
情感识别技术不仅具有重大的科学意义,而且极具经济价值,有着广泛的应用前景。同时,其应用场景也不仅仅局限于人机交互领域,在其他诸多领域都可以发挥重要作用,例如对话生成、社会媒体分析和智能系统。
由于情感具有一定模糊性,不同人对于相同的内容可能会有不同的感受。就像莎士比亚所说:“一千个观众眼中有一千个哈姆雷特”,每个人对待任何事物都有自己的看法。为了缓解情感的模糊性,在标注过程中,我们常常需要邀请几十位专业标注人员,对情感数据进行标注,并选择标注结果的众数,作为最终的标注结果。这就导致了情感标注费时费力,很难收集大体量的标注样本。
申请公布号CN107609572涉及多模态情感计算领域,提出了一种基于神经网络和迁移学习的多模态情感识别方法、系统,旨在解决情感数据难以获取且标注困难,使得相应识别模型不能够充分训练,造成多模态情感识别准确率不能满足需求的问题,该方法基于大规模数据训练深度神经网络并通过迁移学习获取音频特征提取器、视频特征提取器,进而对多模态情感数据进行音频特征、视频特征的提取,从而识别各语音情感类别的概率、各视频情感类别的概率,并通概率值判断最终情感类别。该方法可以有效的融合音视频两个模态,提高了多模态情感识别的准确率。
申请公布号CN 110852215 A一种多模态情感识别方法、系统及存储介质,所述方法包括:响应所监听到的情感识别任务请求,采集音视频数据;从音视频数据中提取视频情感特征、音频情感特征和语义情感特征;将视频情感特征、音频情感特征和语义情感特征进行特征融合;依据融合情感特征进行情感特征识别。所述系统包括CPU、FPGA和存储单元;CPU能够执行前述方法步骤,FPGA能够执行前述方法中的特征提取及特征融合步骤;本发明依据视频、音频及语义情感特征融合结果进行情感特征识别,能够显著提高情感识别的准确率;将多模态情感特征提取算法同时嵌入CPU及FPGA,依据利用率选择执行设备,有助于提高算法运行速度、降低延迟。
为了解决这一问题,本发明提供了一种基于海量音视频的情感识别系统,通过引入海量无标注的音视频数据,提升低资源情况下情感识别的性能。
发明内容
为了解决上述技术问题或者至少部分地解决上述技术问题,本申请提供了一种海量音视频情感识别系统,包括:
声学特征抽取模块、语音情感识别模型预训练模块、语音情感识别模型微调模块、图像特征抽取模块、图像情感识别模型预训练模块、图像情感识别模型微调模块、多模态融合模块和情绪状态预测模块;所述声学特征抽取模块与所述语音情感识别模型预训练模块连接,所述语音情感识别模型预训练模块与所述语音情感识别模型微调模块连接,所述图像特征抽取模块与所述图像情感识别模型预训练模块连接,所述图像情感识别模型预训练模块与所述图像情感识别模型微调模块连接,所述语音情感识别模型微调模块和所述图像情感识别模型微调模块分别与所述多模态融合模块连接,所述多模态融合模块与所述情绪状态预测模块连接;
所述声学特征抽取模块:从输入的音频数据中抽取帧级别的声学特征;
所述语音情感识别模型预训练模块:以无标注的所述帧级别的声学特征和被掩蔽的无标注的所述帧级别的声学特征为输入,预测完整的帧级别的声学特征;
所述语音情感识别模型微调模块:利用少量标注的音频数据,对所述声学特征抽取模块和所述语音情感识别模型预训练模块中的参数进行微调和优化并输出句子级别声学特征;
所述图像特征抽取模块:从输入的视频数据中抽取帧级别的图像特征;
所述图像情感识别模型预训练模块:以无标注的所述帧级别的图像特征和被掩蔽的无标注的所述帧级别的图像特征为输入,预测完整的帧级别的图像特征;
所述图像情感识别模型微调模块:利用少量标注的视频数据,对所述图像特征抽取模块和所述图像情感识别模型预训练模块中的参数进行微调和优化并输出句子级别图像特征;
所述多模态融合模块:采用特征层融合算法,将句子级别声学特征和句子级别图像特征进行拼接,作为多模态特征;
所述情绪状态预测模块:以所述多模态特征为输入,做情绪状态预测。
优选的,所述抽取帧级别的声学特征的方法:
首先将输入的音频按照固定的帧长和帧移进行分帧,得到帧级别的音频;
然后,从帧级别的音频中抽取韵律特征、音质特征和谱特征,作为帧级别的声学特征。
优选的,得到所述被掩蔽的无标注的所述帧级别的声学特征的具体方法为:
在所述无标注的所述帧级别的声学特征中随机选择10%的帧级别的声学特征,得到预掩蔽声学特征,将所述预掩蔽声学特征替换为同等维度的全零向量。
优选的,所述预测完整的帧级别的声学特征的具体方法:
将无标注的所述帧级别的声学特征和被掩蔽的无标注的所述帧级别的声学特征输入到循环神经网络进行训练;
计算所述循环神经网络的输出和所述帧级别的声学特征的L2距离,作为所述语音情感识别模型预训练模块的损失函数。
优选的,所述语音情感识别模型微调模块包括,声学均值池化层和声学全连接层;所述声学均值池化层和所述声学全连接层连接;
所述声学均值池化层:生成句子级别声学特征;
所述声学全连接层:预测声学句子的情绪状态。
优选的,采用预测声学句子的情绪状态和真实音频标注结果的交叉熵作为损失函数,对所述声学特征抽取模块和所述语音情感识别模型预训练模块中的参数进行微调和优化。
优选的,所述从输入的视频数据中抽取帧级别的图像特征的方法:
(1)将人脸图像作为输入,将表情标签作为输出,利用深度神经网络训练表情识别模型;
(2)将所述视频数据分解为若干图像帧;
(3)从每帧图像中识别出人脸区域位置,并进行人脸截取;
(4)将截取的人脸输入到训练好的所述表情识别模型中,抽取模型最后一层的特征作为帧级别的图像特征。
优选的,得到所述被掩蔽的无标注的所述帧级别的图像特征的具体方法为:
在所述无标注的所述帧级别的图像特征中随机选择10%的帧级别的图像特征,得到预掩蔽图像特征,将所述预掩蔽图像特征替换为同等维度的全零向量。
优选的,所述预测完整的帧级别的图像特征的具体方法:
将无标注的所述帧级别的图像特征和被掩蔽的无标注的所述帧级别的图像特征输入到循环神经网络进行训练;
计算所述循环神经网络的输出和所述帧级别的图像特征的L2距离,作为所述图像情感识别模型预训练模块的损失函数。
优选的,所述图像情感识别模型微调模块包括,图像均值池化层和图像全连接层;所述图像均值池化层和所述图像全连接层连接;
所述图像均值池化层:生成句子级别图像特征;
所述图像全连接层:预测图像句子的情绪状态;
采用预测图像句子的情绪状态和真实视频标注结果的交叉熵作为损失函数,对所述图像特征抽取模块和所述图像情感识别模型预训练模块中的参数进行微调和优化。
本申请实施例提供的上述技术方案与现有技术相比具有如下优点:
本申请实施例提供的该系统,
(1)首次提出了一种基于海量音视频的情感识别系统,通过引入海量无标注的音视频数据,提升低资源情况下情感识别的性能。
(2)采用了一种新颖的无监督预训练算法,对语音情感识别模型和图像情感识别模型进行预训练。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的海量音视频情感识别系统结构框图;
图2为本申请实施例提供的语音情感识别模型微调模块的结构框图;
图3为本申请实施例提供的图像情感识别模型微调模块的结构框图。
图中,1—声学特征抽取模块,2—语音情感识别模型预训练模块,3—语音情感识别模型微调模块,31—声学均值池化层,32—声学全连接层,4—图像特征抽取模块,5—图像情感识别模型预训练模块,6—图像情感识别模型微调模块,61—图像均值池化层,62—图像全连接层,7—多模态融合模块,8—情绪状态预测模块。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请的一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
参见图1,本申请实施例提供的海量音视频情感识别系统,包括:
声学特征抽取模块1、语音情感识别模型预训练模块2、语音情感识别模型微调模块3、图像特征抽取模块4、图像情感识别模型预训练模块5、图像情感识别模型微调模块6、多模态融合模块7和情绪状态预测模块8;
所述声学特征抽取模块1与所述语音情感识别模型预训练模块2连接,所述语音情感识别模型预训练模块2与所述语音情感识别模型微调模块3连接,所述图像特征抽取模块4与所述图像情感识别模型预训练模块5连接,所述图像情感识别模型预训练模块5与所述图像情感识别模型微调模块6连接,所述语音情感识别模型微调模块3和所述图像情感识别模型微调模块6分别与所述多模态融合模块7连接,所述多模态融合模块7与所述情绪状态预测模块8连接。
所述声学特征抽取模块1:从输入的音频数据中抽取帧级别的声学特征,首先将输入的音频按照固定的帧长和帧移进行分帧,得到帧级别的音频;
然后,从帧级别的音频中抽取韵律特征、音质特征和谱特征,作为帧级别的声学特征。
所述语音情感识别模型预训练模块2:以无标注的所述帧级别的声学特征和被掩蔽的无标注的所述帧级别的声学特征为输入,预测完整的帧级别的声学特征。
在一些实施例中,得到所述被掩蔽的无标注的所述帧级别的声学特征的具体方法为:
数据库中存在
Figure 442202DEST_PATH_IMAGE001
个无标注的音频数据
Figure 972540DEST_PATH_IMAGE002
,对于句子
Figure 256891DEST_PATH_IMAGE003
,利用“声学特征抽取模块1”,抽取帧级别的声学特征
Figure 403838DEST_PATH_IMAGE004
,其中句子
Figure 166258DEST_PATH_IMAGE003
总共包含
Figure 580797DEST_PATH_IMAGE005
帧,
Figure 504890DEST_PATH_IMAGE006
表示句
Figure 139134DEST_PATH_IMAGE003
子中第
Figure 439665DEST_PATH_IMAGE007
帧的声学特征;在所述无标注的所述帧级别的声学特征
Figure 475754DEST_PATH_IMAGE008
中随机选择10%的帧级别的声学特征,得到预掩蔽声学特征,将所述预掩蔽声学特征替换为同等维度的全零向量;最终
Figure 305170DEST_PATH_IMAGE009
随机选择10%的帧进行掩蔽,生成的特征表示为
Figure 426710DEST_PATH_IMAGE010
在一些实施例中,所述预测完整的帧级别的声学特征的具体方法:
Figure 530932DEST_PATH_IMAGE011
输入到循环神经网络进行训练,
Figure 155949DEST_PATH_IMAGE012
其中,
Figure 421845DEST_PATH_IMAGE013
表示循环神经网络的输出;
计算所述循环神经网络的输出
Figure 765101DEST_PATH_IMAGE013
和所述帧级别的声学特征
Figure 407435DEST_PATH_IMAGE009
Figure 391353DEST_PATH_IMAGE014
距离,作为所述语音情感识别模型预训练模块2的损失函数,
Figure 93730DEST_PATH_IMAGE015
所述语音情感识别模型微调模块3:利用少量标注的音频数据,对所述声学特征抽取模块1和所述语音情感识别模型预训练模块2中的参数进行微调和优化并输出句子级别声学特征。
如图2所示,所述语音情感识别模型微调模块3包括,声学均值池化层31和声学全连接层32;所述声学均值池化层31和所述声学全连接层32连接;
所述声学均值池化层31:生成句子级别声学特征;
所述声学全连接层32:预测声学句子的情绪状态。
数据库中存在K个有标注的音频数据,
Figure 924282DEST_PATH_IMAGE016
,其中
Figure 370307DEST_PATH_IMAGE017
表示句子
Figure 969916DEST_PATH_IMAGE003
的标签;利用“声学特征抽取模块1”,抽取帧级别的声学特征;在这一模块中,循环神经网络中的参数是经过预训练的,声学均值池化层31不包含额外的参数,只有声学全连接层32的参数是随机初始化的;
采用预测声学句子的情绪状态和真实音频标注结果的交叉熵作为损失函数,
Figure 843194DEST_PATH_IMAGE018
对所述声学特征抽取模块1和所述语音情感识别模型预训练模块2中的参数进行微调和优化。
所述图像特征抽取模块4:从输入的视频数据中抽取帧级别的图像特征。
在一些实施例中,所述从输入的视频数据中抽取帧级别的图像特征的方法:
(1)将人脸图像作为输入,将表情标签作为输出,利用深度神经网络,例如DenseNet,ResNet等网络结构,训练表情识别模型;
(2)将所述视频数据分解为若干图像帧;
(3)从每帧图像中识别出人脸区域位置,并进行人脸截取;
(4)将截取的人脸输入到训练好的所述表情识别模型中,抽取模型最后一层的特征作为帧级别的图像特征。
所述图像情感识别模型预训练模块5:以无标注的所述帧级别的图像特征和被掩蔽的无标注的所述帧级别的图像特征为输入,预测完整的帧级别的图像特征。
在一些实施例中,得到所述被掩蔽的无标注的所述帧级别的图像特征的具体方法为:
数据库中存在N个无标注的图像数据
Figure 161043DEST_PATH_IMAGE019
,对于句子
Figure 145179DEST_PATH_IMAGE020
,利用“图像特征抽取模块”,抽取帧级别的图像特征,
Figure 864874DEST_PATH_IMAGE021
其中句子
Figure 909053DEST_PATH_IMAGE022
总共包含
Figure 714198DEST_PATH_IMAGE023
帧,
Figure 502025DEST_PATH_IMAGE024
表示句子
Figure 76226DEST_PATH_IMAGE022
中第
Figure 291307DEST_PATH_IMAGE025
帧的图像特征;在所述无标注的所述帧级别的图像特征
Figure 318169DEST_PATH_IMAGE026
中随机选择10%的帧级别的图像特征,得到预掩蔽图像特征,将所述预掩蔽图像特征替换为同等维度的全零向量;最终
Figure 909687DEST_PATH_IMAGE027
随机选择10%的帧进行掩蔽,生成的特征表示为
Figure 836930DEST_PATH_IMAGE028
在一些实施例中,所述预测完整的帧级别的图像特征的具体方法:
Figure 222911DEST_PATH_IMAGE028
输入到循环神经网络进行训练,
Figure 2649DEST_PATH_IMAGE029
其中,
Figure 132279DEST_PATH_IMAGE030
表示循环神经网络的输出;
计算所述循环神经网络的输出
Figure 681072DEST_PATH_IMAGE030
和所述帧级别的图像特征
Figure 503534DEST_PATH_IMAGE031
Figure 239409DEST_PATH_IMAGE032
距离,作为所述图像情感识别模型预训练模块5的损失函数,
Figure 172730DEST_PATH_IMAGE033
所述图像情感识别模型微调模块6:利用少量标注的视频数据,对所述图像特征抽取模块4和所述图像情感识别模型预训练模块5中的参数进行微调和优化并输出句子级别图像特征。
如图3所示,所述图像情感识别模型微调模块6包括,图像均值池化层61和图像全连接层62;所述图像均值池化层61和所述图像全连接层62连接;
所述图像均值池化层61:生成句子级别图像特征;
所述图像全连接层62:预测图像句子的情绪状态。
数据库中存在
Figure 576029DEST_PATH_IMAGE034
个有标注的视频数据,
Figure 569393DEST_PATH_IMAGE035
,其中
Figure 58143DEST_PATH_IMAGE036
表示句子
Figure 529576DEST_PATH_IMAGE037
的标签;利用“图像特征抽取模块4”,抽取帧级别的图像特征;在这一模块中,循环神经网络中的参数是经过预训练的,图像均值池化层61不包含额外的参数,只有图像全连接层62的参数是随机初始化的;
采用预测图像句子的情绪状态和真实视频标注结果的交叉熵作为损失函数,
Figure 787382DEST_PATH_IMAGE038
对所述图像特征抽取模块4和所述图像情感识别模型预训练模块5中的参数。
所述多模态融合模块7:采用特征层融合算法,将句子级别声学特征和句子级别图像特征进行拼接,作为多模态特征。
所述情绪状态预测模块8:以所述多模态特征为输入,做情绪状态预测。
需要说明的是,在本文中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所述仅是本发明的具体实施方式,使本领域技术人员能够理解或实现本发明。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所申请的原理和新颖特点相一致的最宽的范围。

Claims (8)

1.海量音视频情感识别系统,其特征在于,包括:
声学特征抽取模块、语音情感识别模型预训练模块、语音情感识别模型微调模块、图像特征抽取模块、图像情感识别模型预训练模块、图像情感识别模型微调模块、多模态融合模块和情绪状态预测模块;
所述声学特征抽取模块与所述语音情感识别模型预训练模块连接,所述语音情感识别模型预训练模块与所述语音情感识别模型微调模块连接,所述图像特征抽取模块与所述图像情感识别模型预训练模块连接,所述图像情感识别模型预训练模块与所述图像情感识别模型微调模块连接,所述语音情感识别模型微调模块和所述图像情感识别模型微调模块分别与所述多模态融合模块连接,所述多模态融合模块与所述情绪状态预测模块连接;
所述声学特征抽取模块:从输入的音频数据中抽取帧级别的声学特征;
所述语音情感识别模型预训练模块:以无标注的所述帧级别的声学特征和被掩蔽的无标注的所述帧级别的声学特征为输入,预测完整的帧级别的声学特征;
所述语音情感识别模型微调模块:利用少量标注的音频数据,对所述声学特征抽取模块和所述语音情感识别模型预训练模块中的参数进行微调和优化并输出句子级别声学特征;
所述图像特征抽取模块:从输入的视频数据中抽取帧级别的图像特征;
所述图像情感识别模型预训练模块:以无标注的所述帧级别的图像特征和被掩蔽的无标注的所述帧级别的图像特征为输入,预测完整的帧级别的图像特征;
所述图像情感识别模型微调模块:利用少量标注的视频数据,对所述图像特征抽取模块和所述图像情感识别模型预训练模块中的参数进行微调和优化并输出句子级别图像特征;
所述多模态融合模块:采用特征层融合算法,将句子级别声学特征和句子级别图像特征进行拼接,作为多模态特征;
所述情绪状态预测模块:以所述多模态特征为输入,做情绪状态预测;
得到所述被掩蔽的无标注的所述帧级别的声学特征的具体方法为:
在所述无标注的所述帧级别的声学特征中随机选择10%的帧级别的声学特征,得到预掩蔽声学特征,将所述预掩蔽声学特征替换为同等维度的全零向量;
得到所述被掩蔽的无标注的所述帧级别的图像特征的具体方法为:
在所述无标注的所述帧级别的图像特征中随机选择10%的帧级别的图像特征,得到预掩蔽图像特征,将所述预掩蔽图像特征替换为同等维度的全零向量。
2.根据权利要求1所述的海量音视频情感识别系统,其特征在于,所述抽取帧级别的声学特征的方法:
首先将输入的音频按照固定的帧长和帧移进行分帧,得到帧级别的音频;
然后,从帧级别的音频中抽取韵律特征、音质特征和谱特征,作为帧级别的声学特征。
3.根据权利要求1所述的海量音视频情感识别系统,其特征在于,所述预测完整的帧级别的声学特征的具体方法:
将无标注的所述帧级别的声学特征和被掩蔽的无标注的所述帧级别的声学特征输入到循环神经网络进行训练;
计算所述循环神经网络的输出和所述帧级别的声学特征的L2距离,作为所述语音情感识别模型预训练模块的损失函数。
4.根据权利要求1所述的海量音视频情感识别系统,其特征在于,所述语音情感识别模型微调模块包括,声学均值池化层和声学全连接层;所述声学均值池化层和所述声学全连接层连接;
所述声学均值池化层:生成句子级别声学特征;
所述声学全连接层:预测声学句子的情绪状态。
5.根据权利要求4所述的海量音视频情感识别系统,其特征在于,采用预测声学句子的情绪状态和真实音频标注结果的交叉熵作为损失函数,对所述声学特征抽取模块和所述语音情感识别模型预训练模块中的参数进行微调和优化。
6.根据权利要求1所述的海量音视频情感识别系统,其特征在于,所述从输入的视频数据中抽取帧级别的图像特征的方法:
(1)将人脸图像作为输入,将表情标签作为输出,利用深度神经网络训练表情识别模型;
(2)将所述视频数据分解为若干图像帧;
(3)从每帧图像中识别出人脸区域位置,并进行人脸截取;
(4)将截取的人脸输入到训练好的所述表情识别模型中,抽取模型最后一层的特征作为帧级别的图像特征。
7.根据权利要求1所述的海量音视频情感识别系统,其特征在于,所述预测完整的帧级别的图像特征的具体方法:
将无标注的所述帧级别的图像特征和被掩蔽的无标注的所述帧级别的图像特征输入到循环神经网络进行训练;
计算所述循环神经网络的输出和所述帧级别的图像特征的L2距离,作为所述图像情感识别模型预训练模块的损失函数。
8.根据权利要求1所述的海量音视频情感识别系统,其特征在于,所述图像情感识别模型微调模块包括,图像均值池化层和图像全连接层;所述图像均值池化层和所述图像全连接层连接;
所述图像均值池化层:生成句子级别图像特征;
所述图像全连接层:预测图像句子的情绪状态;
采用预测图像句子的情绪状态和真实视频标注结果的交叉熵作为损失函数,对所述图像特征抽取模块和所述图像情感识别模型预训练模块中的参数进行微调和优化。
CN202110253708.8A 2021-03-09 2021-03-09 海量音视频情感识别系统 Active CN112633263B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110253708.8A CN112633263B (zh) 2021-03-09 2021-03-09 海量音视频情感识别系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110253708.8A CN112633263B (zh) 2021-03-09 2021-03-09 海量音视频情感识别系统

Publications (2)

Publication Number Publication Date
CN112633263A CN112633263A (zh) 2021-04-09
CN112633263B true CN112633263B (zh) 2021-06-08

Family

ID=75297778

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110253708.8A Active CN112633263B (zh) 2021-03-09 2021-03-09 海量音视频情感识别系统

Country Status (1)

Country Link
CN (1) CN112633263B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116072154B (zh) * 2023-03-07 2023-07-18 华南师范大学 基于数据增强的语音情感识别方法、装置以及设备

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102930297A (zh) * 2012-11-05 2013-02-13 北京理工大学 基于增强耦合hmm的语音-视觉融合的情感识别方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104331442A (zh) * 2014-10-24 2015-02-04 华为技术有限公司 视频分类方法和装置
CN107609572B (zh) * 2017-08-15 2021-04-02 中国科学院自动化研究所 基于神经网络和迁移学习的多模态情感识别方法、系统
CN110852215B (zh) * 2019-10-30 2022-09-06 国网江苏省电力有限公司电力科学研究院 一种多模态情感识别方法、系统及存储介质

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102930297A (zh) * 2012-11-05 2013-02-13 北京理工大学 基于增强耦合hmm的语音-视觉融合的情感识别方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Multimodal Deep Convolutional Neural Network for Audio-Visual Emotion Recognition;Zhang, Shiqing等;《ICMR 16: PROCEEDINGS OF THE 2016 ACM INTERNATIONAL CONFERENCE ON MULTIMEDIA RETRIEVAL》;20160609;第281-284页 *
基于内容的视频情感提取算法研究;谈文婷;《中国优秀硕士学位论文全文数据库 信息科技辑》;20110515(第05期);第1-88页 *

Also Published As

Publication number Publication date
CN112633263A (zh) 2021-04-09

Similar Documents

Publication Publication Date Title
CN110751208B (zh) 一种基于自权重差分编码器进行多模态特征融合的服刑人员情感识别方法
Zhang et al. Spontaneous speech emotion recognition using multiscale deep convolutional LSTM
CN111930992B (zh) 神经网络训练方法、装置及电子设备
CN108717856B (zh) 一种基于多尺度深度卷积循环神经网络的语音情感识别方法
CN112348075A (zh) 一种基于情景注意力神经网络的多模态情感识别方法
Guanghui et al. Multi-modal emotion recognition by fusing correlation features of speech-visual
CN114694076A (zh) 基于多任务学习与层叠跨模态融合的多模态情感分析方法
CN112818861A (zh) 一种基于多模态上下文语义特征的情感分类方法及系统
CN110991290A (zh) 基于语义指导与记忆机制的视频描述方法
Lin et al. PS-mixer: A polar-vector and strength-vector mixer model for multimodal sentiment analysis
CN114973045A (zh) 一种基于多任务学习的层次多模态情感分析方法
Wang et al. Contrastive Predictive Coding of Audio with an Adversary.
Bellagha et al. Speaker naming in tv programs based on speaker role recognition
Lai et al. Multimodal sentiment analysis with asymmetric window multi-attentions
CN112633263B (zh) 海量音视频情感识别系统
Deorukhkar et al. A detailed review of prevailing image captioning methods using deep learning techniques
Xue et al. Lcsnet: End-to-end lipreading with channel-aware feature selection
Gao et al. Generalized pyramid co-attention with learnable aggregation net for video question answering
WO2024159858A1 (zh) 实体识别模型训练方法、装置、设备、存储介质及产品
CN116977992A (zh) 文本信息识别方法、装置、计算机设备和存储介质
Pham et al. Speech emotion recognition: A brief review of multi-modal multi-task learning approaches
CN112579745B (zh) 基于图神经网络的对话情感纠错系统
CN115376214A (zh) 情绪识别方法、装置、电子设备和存储介质
Liu et al. A multi-modal emotion fusion classification method combined expression and speech based on attention mechanism
Rahul et al. Morphology & word sense disambiguation embedded multimodal neural machine translation system between Sanskrit and Malayalam

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant