CN117058597A - 一种基于音视频的维度情感识别方法、系统、设备及介质 - Google Patents

一种基于音视频的维度情感识别方法、系统、设备及介质 Download PDF

Info

Publication number
CN117058597A
CN117058597A CN202311316238.0A CN202311316238A CN117058597A CN 117058597 A CN117058597 A CN 117058597A CN 202311316238 A CN202311316238 A CN 202311316238A CN 117058597 A CN117058597 A CN 117058597A
Authority
CN
China
Prior art keywords
emotion
audio
video
emotion recognition
dimension
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202311316238.0A
Other languages
English (en)
Other versions
CN117058597B (zh
Inventor
陶建华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
Original Assignee
Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University filed Critical Tsinghua University
Priority to CN202311316238.0A priority Critical patent/CN117058597B/zh
Publication of CN117058597A publication Critical patent/CN117058597A/zh
Application granted granted Critical
Publication of CN117058597B publication Critical patent/CN117058597B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Multimedia (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Computational Linguistics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Mathematical Physics (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Child & Adolescent Psychology (AREA)
  • Hospice & Palliative Care (AREA)
  • Psychiatry (AREA)
  • Signal Processing (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Image Analysis (AREA)

Abstract

本发明提出一种基于音视频的维度情感识别方法、系统、设备及介质。包括:将音频特征序列输入音频情感识别模型,得到音频情感结果;将图像特征序列输入视频情感识别模型,得到视频情感结果;将音频情感结果和视频情感结果输入融合模型,得到情感识别结果;应用带有离散情感标签的数据集,对音频情感识别模型、视频情感识别模型和融合模型进行训练,然后应用带有维度情感标签的数据集,再训练;将维度情感分类任务训练后的音频情感识别模型、视频情感识别模型和融合模型应用于音视频情感识别应用中进行情感识别,并输出情感识别结果。本发明通过离散情感分类训练可以学习到更多关于情感的表示和特征,从而提高对维度情感分类的准确性和泛化能力。

Description

一种基于音视频的维度情感识别方法、系统、设备及介质
技术领域
本发明属于情感识别领域,尤其涉及一种基于音视频的维度情感识别方法、系统、设备及介质。
背景技术
情感识别在许多领域具有重要应用,例如人机交互、情感分析、娱乐产业等。通过分析音频和视频中的声音、语调、面部表情、身体语言等信息,可以识别出人类的情感状态。
现有技术通常是先对音频和视频信号进行预处理,包括音频特征提取和视频帧提取。对于音频信号,常用的特征包括声谱图、梅尔频谱系数等;对于视频信号,常用的特征包括面部表情、姿势信息等。然后,利用深度神经网络,将音频和视频特征进行联合编码和学习。常见的网络架构包括卷积神经网络(Convolutional Neural Network, CNN)、循环神经网络(Recurrent Neural Network, RNN)以及注意力机制等。这些网络可以捕捉音频和视频信号之间的时空关系,并提取丰富的情感表示。最后,利用分类器对提取的情感特征进行分类,识别出不同的情感状态。
现有技术缺点:
基于单模态的情感识别具有较大的局限性。同时,情感模型分为离散和连续两种,单独使用离散和连续模型都无法充分利用情感信息,不能精确识别维度情感状态。
发明内容
为解决上述技术问题,本发明提出一种基于音视频的维度情感识别方法的技术方案,以解决上述技术问题。
本发明第一方面公开了一种基于音视频的维度情感识别方法,所述方法包括:
步骤S1、从视频中提取音频,再从所述音频中提取音频特征;然后对所述音频特征进行归一化和降维,得到音频特征序列;将所述音频特征序列输入音频情感识别模型,得到音频情感结果;
步骤S2、从所述视频中提取视频帧,再将所述视频帧输入预训练的卷积神经网络,提取图像特征;然后对所述图像特征进行归一化,得到图像特征序列;将所述图像特征序列输入视频情感识别模型,得到视频情感结果;
步骤S3、将所述音频情感结果和视频情感结果输入融合模型,得到情感识别结果;
步骤S4、应用带有离散情感标签的数据集,对所述音频情感识别模型、视频情感识别模型和融合模型进行离散情感分类任务训练;
步骤S5、应用带有维度情感标签的数据集,对所述音频情感识别模型、视频情感识别模型和融合模型进行维度情感分类任务训练;
步骤S6、将维度情感分类任务训练后的音频情感识别模型、视频情感识别模型和融合模型应用于音视频情感识别应用中进行情感识别,并输出情感识别结果。
根据本发明第一方面的方法,在所述步骤S1中,所述音频情感识别模型采用循环神经网络。
根据本发明第一方面的方法,在所述步骤S2中,所述预训练的卷积神经网络采用VGG神经网络或ResNet神经网络;
所述视频情感识别模型采用3D-CNN神经网络。
根据本发明第一方面的方法,在所述步骤S3中,所述融合模型为:应用加权平均权重对所述音频情感结果和视频情感结果进行加权平均。
根据本发明第一方面的方法,在所述步骤S4中,所述应用带有离散情感标签的数据集,对所述音频情感识别模型、视频情感识别模型和融合模型进行离散情感分类任务训练的损失为交叉熵损失,公式为:
,其中,L aux是离散情感分类任务训练的损失,N是样本数,C是离散情感类别的数量,如果样本i属于第c类情感,则y ic是标签为1,/>表示预测样本i属于第c类情感的概率。
根据本发明第一方面的方法,所述应用带有维度情感标签的数据集,对所述音频情感识别模型、视频情感识别模型和融合模型进行维度情感分类任务训练的方法包括:
将所述离散情感分类任务训练后的所述音频情感识别模型、视频情感识别模型和融合模型的参数作为初始参数,应用带有维度情感标签的数据集,对所述音频情感识别模型、视频情感识别模型和融合模型进行维度情感分类任务训练。
根据本发明第一方面的方法,所述应用带有维度情感标签的数据集,对所述音频情感识别模型、视频情感识别模型和融合模型进行维度情感分类任务训练的总损失为:
,其中,L task是维度情感分类任务训练的总损失,λ是离散情感分类任务训练的损失的权重,L main是维度情感分类任务训练的损失,为交叉熵损失。
本发明第二方面公开了一种基于音视频的维度情感识别系统,所述系统包括:
第一处理模块,被配置为,从视频中提取音频,再从所述音频中提取音频特征;然后对所述音频特征进行归一化和降维,得到音频特征序列;将所述音频特征序列输入音频情感识别模型,得到音频情感结果;
第二处理模块,被配置为,从所述视频中提取视频帧,在将所述视频帧输入预训练的卷积神经网络,提取图像特征;然后对所述图像特征进行归一化,得到图像特征序列;将所述图像特征序列输入视频情感识别模型,得到视频情感结果;
第三处理模块,被配置为,将所述音频情感结果和视频情感结果输入融合模型,得到情感识别结果;
第四处理模块,被配置为,应用带有离散情感标签的数据集,对所述音频情感识别模型、视频情感识别模型和融合模型进行离散情感分类任务训练;
第五处理模块,被配置为,应用带有维度情感标签的数据集,对所述音频情感识别模型、视频情感识别模型和融合模型进行维度情感分类任务训练;
第六处理模块,被配置为,将维度情感分类任务训练后的音频情感识别模型、视频情感识别模型和融合模型应用于音视频情感识别应用中进行情感识别,并输出情感识别结果。
根据本发明第二方面的系统,所述第一处理模块,被配置为,所述音频情感识别模型采用循环神经网络。
根据本发明第二方面的系统,所述第二处理模块,被配置为,所述预训练的卷积神经网络采用VGG神经网络或ResNet神经网络;
所述视频情感识别模型采用3D-CNN神经网络。
根据本发明第二方面的系统,所述第三处理模块,被配置为,所述融合模型为:应用加权平均权重对所述音频情感结果和视频情感结果进行加权平均。
根据本发明第二方面的系统,所述第四处理模块,被配置为,所述应用带有离散情感标签的数据集,对所述音频情感识别模型、视频情感识别模型和融合模型进行离散情感分类任务训练的损失为交叉熵损失,公式为:
,其中,L aux是离散情感分类任务训练的损失,N是样本数,C是离散情感类别的数量,如果样本i属于第c类情感,则y ic是标签为1,/>表示预测样本i属于第c类情感的概率。
根据本发明第二方面的系统,所述应用带有维度情感标签的数据集,对所述音频情感识别模型、视频情感识别模型和融合模型进行维度情感分类任务训练的方法包括:
将所述离散情感分类任务训练后的所述音频情感识别模型、视频情感识别模型和融合模型的参数作为初始参数,应用带有维度情感标签的数据集,对所述音频情感识别模型、视频情感识别模型和融合模型进行维度情感分类任务训练。
根据本发明第二方面的系统,所述应用带有维度情感标签的数据集,对所述音频情感识别模型、视频情感识别模型和融合模型进行维度情感分类任务训练的总损失为:
,其中,L task是维度情感分类任务训练的总损失,λ是离散情感分类任务训练的损失的权重,L main是维度情感分类任务训练的损失,为交叉熵损失。
本发明第三方面公开了一种电子设备。电子设备包括存储器和处理器,存储器存储有计算机程序,处理器执行计算机程序时,实现本公开第一方面中任一项的一种基于音视频的维度情感识别方法中的步骤。
本发明第四方面公开了一种计算机可读存储介质。计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时,实现本公开第一方面中任一项的一种基于音视频的维度情感识别方法中的步骤。
综上,本发明提出的方案能够通过离散情感分类任务训练可以学习到更多关于情感的表示和特征,从而提高对维度情感分类的准确性和泛化能力。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为根据本发明实施例的一种基于音视频的维度情感识别方法的流程图;
图2为根据本发明实施例的一种基于音视频的维度情感识别系统的结构图;
图3为根据本发明实施例的一种电子设备的结构图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例只是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明第一方面公开了一种基于音视频的维度情感识别方法。图1为根据本发明实施例的一种基于音视频的维度情感识别方法的流程图,如图1所示,所述方法包括:
步骤S1、从视频中提取音频,再从所述音频中提取音频特征;然后对所述音频特征进行归一化和降维,得到音频特征序列;将所述音频特征序列输入音频情感识别模型,得到音频情感结果;
步骤S2、从所述视频中提取视频帧,再将所述视频帧输入预训练的卷积神经网络,提取图像特征;然后对所述图像特征进行归一化,得到图像特征序列;将所述图像特征序列输入视频情感识别模型,得到视频情感结果;
步骤S3、将所述音频情感结果和视频情感结果输入融合模型,得到情感识别结果;
步骤S4、应用带有离散情感标签的数据集,对所述音频情感识别模型、视频情感识别模型和融合模型进行离散情感分类任务训练;
步骤S5、应用带有维度情感标签的数据集,对所述音频情感识别模型、视频情感识别模型和融合模型进行维度情感分类任务训练;
步骤S6、将维度情感分类任务训练后的音频情感识别模型、视频情感识别模型和融合模型应用于音视频情感识别应用中进行情感识别,并输出情感识别结果。
在步骤S1,从视频中提取音频,再从所述音频中提取音频特征;然后对所述音频特征进行归一化和降维,得到音频特征序列;将所述音频特征序列输入音频情感识别模型,得到音频情感结果。
在一些实施例中,在所述步骤S1中,所述音频情感识别模型采用循环神经网络。
具体地,使用适当的库或工具(如FFmpeg)从视频文件中提取音频信号,并将其转换为音频波形;
使用音频处理库Librosa从音频波形中提取有意义的特征。常用的特征包括梅尔频谱系数(Mel-frequency cepstral coefficients, MFCC)、音频能量、音调、节奏等。这里利用MFCC,计算步骤包括进行快速傅里叶变换(Fast Fourier Transform, FFT)、将频谱转换为梅尔刻度、对梅尔频谱进行离散余弦变换(Discrete Cosine Transform, DCT)。具体公式如下:
,其中,X(k,n)表示音频信号的总能量,N是FFT 的点数,n是时间帧索引,m是MFCC系数的索引。
对提取的音频特征进行适当的表示和预处理,得到音频特征序列。通过归一化(将特征值缩放到固定范围)和降维(如主成分分析)等。减少特征的维度并提高模型的效果。
构建循环神经网络模型,将提取的音频特征序列输入到循环神经网络,通过学习音频序列的时序信息,进行音频的情感识别,具体公式如下:
,其中,x t表示t时刻的输入,h t-1表示t-1时刻的隐藏状态,y t
表示t时刻的输出。
在步骤S2,从所述视频中提取视频帧,再将所述视频帧输入预训练的卷积神经网络,提取图像特征;然后对所述图像特征进行归一化,得到图像特征序列;将所述图像特征序列输入视频情感识别模型,得到视频情感结果。
在一些实施例中,在所述步骤S2中,所述预训练的卷积神经网络采用VGG神经网络或ResNet神经网络;
所述视频情感识别模型采用3D-CNN神经网络。
具体地,使用OpenCV库将视频切分为一帧一帧的图像。选择固定的帧率进行采样。
使用预训练的卷积神经网络VGG或ResNet等作为特征提取器,通过去掉最后的分类层,提取图像的高级特征表示。另外,使用手工设计的特征颜色直方图、纹理特征等作为补充,从视频帧中提取有意义的图像特征。
对提取的图像特征进行适当的表示和预处理。将图像进行归一化(将像素值缩放到[0, 1]范围)。
利用3D-CNN作为情感分类模型。3D-CNN可以在时域和空域上同时捕捉视频序列的时空关系,通过卷积和池化层提取视频的时空特征,然后使用全连接层进行情感分类预测。
在步骤S3,将所述音频情感结果和视频情感结果输入融合模型,得到情感识别结果。
在一些实施例中,在所述步骤S3中,所述融合模型为:应用加权平均权重对所述音频情感结果和视频情感结果进行加权平均。
具体地,加权平均为:
,且w aw v满足w a+w v=1。
在步骤S4,应用带有离散情感标签的数据集,对所述音频情感识别模型、视频情感识别模型和融合模型进行离散情感分类任务训练。
在一些实施例中,在所述步骤S4中,所述应用带有离散情感标签的数据集,对所述音频情感识别模型、视频情感识别模型和融合模型进行离散情感分类任务训练的损失为交叉熵损失,公式为:
,其中,L aux是离散情感分类任务训练的损失,N是样本数,C是离散情感类别的数量,如果样本i属于第c类情感,则y ic是标签为1,/>表示预测样本i属于第c类情感的概率。
具体地,更新模型参数:使用反向传播算法更新模型参数,以最小化离散情感分类任务的损失。
在步骤S5,应用带有维度情感标签的数据集,对所述音频情感识别模型、视频情感识别模型和融合模型进行维度情感分类任务训练。
在一些实施例中,在所述步骤S5中,所述应用带有维度情感标签的数据集,对所述音频情感识别模型、视频情感识别模型和融合模型进行维度情感分类任务训练的方法包括:
将所述离散情感分类任务训练后的所述音频情感识别模型、视频情感识别模型和融合模型的参数作为初始参数,应用带有维度情感标签的数据集,对所述音频情感识别模型、视频情感识别模型和融合模型进行维度情感分类任务训练。
所述应用带有维度情感标签的数据集,对所述音频情感识别模型、视频情感识别模型和融合模型进行维度情感分类任务训练的总损失为:
,其中,L task是维度情感分类任务训练的总损失,λ是离散情感分类任务训练的损失的权重,L main是维度情感分类任务训练的损失,为交叉熵损失。
具体地,更新模型参数:使用反向传播算法基于主要任务的损失函数更新模型参数,以最小化主要任务的损失。
综上,本发明提出的方案能够通过离散情感分类任务训练可以学习到更多关于情感的表示和特征,从而提高对维度情感分类的准确性和泛化能力。
本发明第二方面公开了一种基于音视频的维度情感识别系统。图2为根据本发明实施例的一种基于音视频的维度情感识别系统的结构图;如图2所示,所述系统100包括:
第一处理模块101,被配置为,从视频中提取音频,再从所述音频中提取音频特征;然后对所述音频特征进行归一化和降维,得到音频特征序列;将所述音频特征序列输入音频情感识别模型,得到音频情感结果;
第二处理模块102,被配置为,从所述视频中提取视频帧,在将所述视频帧输入预训练的卷积神经网络,提取图像特征;然后对所述图像特征进行归一化,得到图像特征序列;将所述图像特征序列输入视频情感识别模型,得到视频情感结果;
第三处理模块103,被配置为,将所述音频情感结果和视频情感结果输入融合模型,得到情感识别结果;
第四处理模块104,被配置为,应用带有离散情感标签的数据集,对所述音频情感识别模型、视频情感识别模型和融合模型进行离散情感分类任务训练;
第五处理模块105,被配置为,应用带有维度情感标签的数据集,对所述音频情感识别模型、视频情感识别模型和融合模型进行维度情感分类任务训练;
第六处理模块106,被配置为,将维度情感分类任务训练后的音频情感识别模型、视频情感识别模型和融合模型应用于音视频情感识别应用中进行情感识别,并输出情感识别结果。
根据本发明第二方面的系统,所述第一处理模块101,被配置为,所述音频情感识别模型采用循环神经网络。
根据本发明第二方面的系统,所述第二处理模块102,被配置为,所述预训练的卷积神经网络采用VGG神经网络或ResNet神经网络;
所述视频情感识别模型采用3D-CNN神经网络。
根据本发明第二方面的系统,所述第三处理模块103,被配置为,所述融合模型为:应用加权平均权重对所述音频情感结果和视频情感结果进行加权平均。
根据本发明第二方面的系统,所述第四处理模块104,被配置为,所述应用带有离散情感标签的数据集,对所述音频情感识别模型、视频情感识别模型和融合模型进行离散情感分类任务训练的损失为交叉熵损失,公式为:
,其中,L aux是离散情感分类任务训练的损失,N是样本数,C是离散情感类别的数量,如果样本i属于第c类情感,则y ic是标签为1,/>表示预测样本i属于第c类情感的概率。
根据本发明第二方面的系统,所述应用带有维度情感标签的数据集,对所述音频情感识别模型、视频情感识别模型和融合模型进行维度情感分类任务训练的方法包括:
将所述离散情感分类任务训练后的所述音频情感识别模型、视频情感识别模型和融合模型的参数作为初始参数,应用带有维度情感标签的数据集,对所述音频情感识别模型、视频情感识别模型和融合模型进行维度情感分类任务训练。
根据本发明第二方面的系统,所述应用带有维度情感标签的数据集,对所述音频情感识别模型、视频情感识别模型和融合模型进行维度情感分类任务训练的总损失为:
,其中,L task是维度情感分类任务训练的总损失,λ是离散情感分类任务训练的损失的权重,L main是维度情感分类任务训练的损失,为交叉熵损失。
本发明第三方面公开了一种电子设备。电子设备包括存储器和处理器,存储器存储有计算机程序,处理器执行计算机程序时,实现本发明公开第一方面中任一项的一种基于音视频的维度情感识别方法中的步骤。
图3为根据本发明实施例的一种电子设备的结构图,如图3所示,电子设备包括通过系统总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中,该电子设备的处理器用于提供计算和控制能力。该电子设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该电子设备的通信接口用于与外部的终端进行有线或无线方式的通信,无线方式可通过WIFI、运营商网络、近场通信(NFC)或其他技术实现。该电子设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该电子设备的输入装置可以是显示屏上覆盖的触摸层,也可以是电子设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图3中示出的结构,仅仅是与本公开的技术方案相关的部分的结构图,并不构成对本申请方案所应用于其上的电子设备的限定,具体的电子设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
本发明第四方面公开了一种计算机可读存储介质。计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时,实现本发明公开第一方面中任一项的一种基于音视频的维度情感识别方法中的步骤。
请注意,以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。以上实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (10)

1.一种基于音视频的维度情感识别方法,其特征在于,所述方法包括:
步骤S1、从视频中提取音频,再从所述音频中提取音频特征;然后对所述音频特征进行归一化和降维,得到音频特征序列;将所述音频特征序列输入音频情感识别模型,得到音频情感结果;
步骤S2、从所述视频中提取视频帧,再将所述视频帧输入预训练的卷积神经网络,提取图像特征;然后对所述图像特征进行归一化,得到图像特征序列;将所述图像特征序列输入视频情感识别模型,得到视频情感结果;
步骤S3、将所述音频情感结果和视频情感结果输入融合模型,得到情感识别结果;
步骤S4、应用带有离散情感标签的数据集,对所述音频情感识别模型、视频情感识别模型和融合模型进行离散情感分类任务训练;
步骤S5、应用带有维度情感标签的数据集,对所述音频情感识别模型、视频情感识别模型和融合模型进行维度情感分类任务训练;
步骤S6、将维度情感分类任务训练后的音频情感识别模型、视频情感识别模型和融合模型应用于音视频情感识别应用中进行情感识别,并输出情感识别结果。
2.根据权利要求1所述的一种基于音视频的维度情感识别方法,其特征在于,在所述步骤S1中,所述音频情感识别模型采用循环神经网络。
3.根据权利要求1所述的一种基于音视频的维度情感识别方法,其特征在于,在所述步骤S2中,所述预训练的卷积神经网络采用VGG神经网络或ResNet神经网络;
所述视频情感识别模型采用3D-CNN神经网络。
4.根据权利要求1所述的一种基于音视频的维度情感识别方法,其特征在于,在所述步骤S3中,所述融合模型为:应用加权平均权重对所述音频情感结果和视频情感结果进行加权平均。
5.根据权利要求1所述的一种基于音视频的维度情感识别方法,其特征在于,在所述步骤S4中,所述应用带有离散情感标签的数据集,对所述音频情感识别模型、视频情感识别模型和融合模型进行离散情感分类任务训练的损失为交叉熵损失,公式为:
,其中,L aux是离散情感分类任务训练的损失,N是样本数,C是离散情感类别的数量,如果样本i属于第c类情感,则y ic是标签为1,/>表示预测样本i属于第c类情感的概率。
6.根据权利要求5所述的一种基于音视频的维度情感识别方法,其特征在于,所述应用带有维度情感标签的数据集,对所述音频情感识别模型、视频情感识别模型和融合模型进行维度情感分类任务训练的方法包括:
将所述离散情感分类任务训练后的所述音频情感识别模型、视频情感识别模型和融合模型的参数作为初始参数,应用带有维度情感标签的数据集,对所述音频情感识别模型、视频情感识别模型和融合模型进行维度情感分类任务训练。
7.根据权利要求6所述的一种基于音视频的维度情感识别方法,其特征在于,所述应用带有维度情感标签的数据集,对所述音频情感识别模型、视频情感识别模型和融合模型进行维度情感分类任务训练的总损失为:
,其中,L task是维度情感分类任务训练的总损失,λ是离散情感分类任务训练的损失的权重,L main是维度情感分类任务训练的损失,为交叉熵损失。
8.一种用于基于音视频的维度情感识别系统,其特征在于,所述系统包括:
第一处理模块,被配置为,从视频中提取音频,再从所述音频中提取音频特征;然后对所述音频特征进行归一化和降维,得到音频特征序列;将所述音频特征序列输入音频情感识别模型,得到音频情感结果;
第二处理模块,被配置为,从所述视频中提取视频帧,在将所述视频帧输入预训练的卷积神经网络,提取图像特征;然后对所述图像特征进行归一化,得到图像特征序列;将所述图像特征序列输入视频情感识别模型,得到视频情感结果;
第三处理模块,被配置为,将所述音频情感结果和视频情感结果输入融合模型,得到情感识别结果;
第四处理模块,被配置为,应用带有离散情感标签的数据集,对所述音频情感识别模型、视频情感识别模型和融合模型进行离散情感分类任务训练;
第五处理模块,被配置为,应用带有维度情感标签的数据集,对所述音频情感识别模型、视频情感识别模型和融合模型进行维度情感分类任务训练;
第六处理模块,被配置为,将维度情感分类任务训练后的音频情感识别模型、视频情感识别模型和融合模型应用于音视频情感识别应用中进行情感识别,并输出情感识别结果。
9.一种电子设备,其特征在于,所述电子设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时,实现权利要求1至7中任一项所述的一种基于音视频的维度情感识别方法中的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时,实现权利要求1至7中任一项所述的一种基于音视频的维度情感识别方法中的步骤。
CN202311316238.0A 2023-10-12 2023-10-12 一种基于音视频的维度情感识别方法、系统、设备及介质 Active CN117058597B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311316238.0A CN117058597B (zh) 2023-10-12 2023-10-12 一种基于音视频的维度情感识别方法、系统、设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311316238.0A CN117058597B (zh) 2023-10-12 2023-10-12 一种基于音视频的维度情感识别方法、系统、设备及介质

Publications (2)

Publication Number Publication Date
CN117058597A true CN117058597A (zh) 2023-11-14
CN117058597B CN117058597B (zh) 2024-01-05

Family

ID=88661271

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311316238.0A Active CN117058597B (zh) 2023-10-12 2023-10-12 一种基于音视频的维度情感识别方法、系统、设备及介质

Country Status (1)

Country Link
CN (1) CN117058597B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117473397A (zh) * 2023-12-25 2024-01-30 清华大学 一种基于扩散模型数据增强的情感识别方法和系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113743267A (zh) * 2021-08-25 2021-12-03 中国科学院软件研究所 一种基于螺旋和文本的多模态视频情感可视化方法及装置
CN113947702A (zh) * 2021-09-15 2022-01-18 复旦大学 一种基于情境感知的多模态情感识别方法和系统
WO2022227507A1 (zh) * 2021-04-27 2022-11-03 深圳市优必选科技股份有限公司 唤醒程度识别模型训练方法及语音唤醒程度获取方法
CN116167014A (zh) * 2023-02-27 2023-05-26 南京邮电大学 一种基于视觉和语音的多模态关联型情感识别方法及系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022227507A1 (zh) * 2021-04-27 2022-11-03 深圳市优必选科技股份有限公司 唤醒程度识别模型训练方法及语音唤醒程度获取方法
CN113743267A (zh) * 2021-08-25 2021-12-03 中国科学院软件研究所 一种基于螺旋和文本的多模态视频情感可视化方法及装置
CN113947702A (zh) * 2021-09-15 2022-01-18 复旦大学 一种基于情境感知的多模态情感识别方法和系统
CN116167014A (zh) * 2023-02-27 2023-05-26 南京邮电大学 一种基于视觉和语音的多模态关联型情感识别方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
YAN WANG 等: "A Systematic Review on Affective Computing: Emotion Models, Databases, and Recent Advances", ARXIV, pages 1 - 46 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117473397A (zh) * 2023-12-25 2024-01-30 清华大学 一种基于扩散模型数据增强的情感识别方法和系统
CN117473397B (zh) * 2023-12-25 2024-03-19 清华大学 一种基于扩散模型数据增强的情感识别方法和系统

Also Published As

Publication number Publication date
CN117058597B (zh) 2024-01-05

Similar Documents

Publication Publication Date Title
Ariav et al. An end-to-end multimodal voice activity detection using wavenet encoder and residual networks
WO2021072875A1 (zh) 智能对话的生成方法、装置、计算机设备及计算机存储介质
CN113421547B (zh) 一种语音处理方法及相关设备
CN112233698B (zh) 人物情绪识别方法、装置、终端设备及存储介质
CN113947127A (zh) 一种用于陪伴机器人的多模态情感识别方法和系统
CN117058597B (zh) 一种基于音视频的维度情感识别方法、系统、设备及介质
CN113035231B (zh) 关键词检测方法及装置
CN111508480A (zh) 音频识别模型的训练方法、音频识别方法、装置及设备
WO2023226239A1 (zh) 对象情绪的分析方法、装置和电子设备
CN113255557A (zh) 一种基于深度学习的视频人群情绪分析方法及系统
CN113948060A (zh) 一种网络训练方法、数据处理方法及相关设备
CN114581812B (zh) 视觉语言识别方法、装置、电子设备及存储介质
CN113408503B (zh) 一种情绪识别方法、装置、计算机可读存储介质及设备
CN117370934B (zh) 一种敏感信息发现模型的多模态数据增强方法
CN113160823B (zh) 基于脉冲神经网络的语音唤醒方法、装置及电子设备
CN112990301A (zh) 情绪数据标注方法、装置、计算机设备和存储介质
CN111445545B (zh) 一种文本转贴图方法、装置、存储介质及电子设备
CN116312494A (zh) 语音活动检测方法、装置、电子设备及可读存储介质
CN113823271B (zh) 语音分类模型的训练方法、装置、计算机设备及存储介质
Gaus et al. Automatic affective dimension recognition from naturalistic facial expressions based on wavelet filtering and PLS regression
CN117576279B (zh) 基于多模态数据的数字人驱动方法及系统
CN114417832B (zh) 消歧方法、消歧模型的训练方法及装置
Zhang et al. Cascade Temporal Convolutional Network for Multitask Learning
CN117037842A (zh) 音频处理方法、装置、电子设备和存储介质
Ou et al. Robust Sound Event Detection by a Two-Stage Network in the Presence of Background Noise

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant