CN113255800B - 基于音视频的鲁棒情感建模系统 - Google Patents

基于音视频的鲁棒情感建模系统 Download PDF

Info

Publication number
CN113255800B
CN113255800B CN202110615003.6A CN202110615003A CN113255800B CN 113255800 B CN113255800 B CN 113255800B CN 202110615003 A CN202110615003 A CN 202110615003A CN 113255800 B CN113255800 B CN 113255800B
Authority
CN
China
Prior art keywords
video
data
audio
training
training data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110615003.6A
Other languages
English (en)
Other versions
CN113255800A (zh
Inventor
陶建华
连政
刘斌
孙立才
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Automation of Chinese Academy of Science
Original Assignee
Institute of Automation of Chinese Academy of Science
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Automation of Chinese Academy of Science filed Critical Institute of Automation of Chinese Academy of Science
Priority to CN202110615003.6A priority Critical patent/CN113255800B/zh
Publication of CN113255800A publication Critical patent/CN113255800A/zh
Application granted granted Critical
Publication of CN113255800B publication Critical patent/CN113255800B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/30Noise filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state

Abstract

本发明提供基于音视频的鲁棒情感建模系统,包括:原始音频训练数据通过音频数据扩增模块进行数据扩增,得到带噪音频训练数据去训练音频数据增强模块,剔除带噪音频训练数据中的噪声信息,得到增强语音训练数据,将增强语音训练数据输入音频情感识别模块,进行训练并识别音频训练情感状态;原始视频训练数据通过视频数据扩增模块进行数据扩增,得到带噪视频训练数据去训练视频数据增强模块,剔除带噪视频训练数据中的噪声信息,得到增强视频训练数据,将增强视频训练数据输入视频情感识别模块,进行训练并识别视频训练情感状态;决策层融合模块将音频训练情感状态和视频训练情感状态融合,进行训练并输出情感识别预测结果。

Description

基于音视频的鲁棒情感建模系统
技术领域
本发明涉及多模态情感识别领域,尤其涉及基于音视频的鲁棒情感建模系统。
背景技术
二十世纪以来,随着人工智能技术的飞速发展,各类智能机器逐渐进入人们的日常生活,扮演着日益重要的角色。与此同时,人们渴望与智能机器进行交流,这促使了社交网络机器人与类人机器人的发展,其中一个关键问题在于机器对人的理解,而情感在其中扮演着重要的角色。情感有助于快速传递信息和理解用户真实意图,是人机交互的关键部分。
人们通过多种方式表达情感,不同表达方式之间存在着互补作用。多模态情感识别能够有效提高情感识别性能以及系统鲁棒性,因此本文围绕着多模态情感识别技术开展研究。
公开号为CN111292765A的专利公开了一种融合多个深度学习模型的双模态情感识别方法,包括步骤:A)采集音视频信号,获得音频数据样本和视频数据样本;B)构建音频深度卷积神经网络和多模视频深度卷积神经网络,获得高层次音频特征和高层次视频特征;C)构建高层次的音视频统一特征,建立由受限玻尔兹曼机构成的深度信念网络,深度信念网络最后一层隐藏层的输出做平均池化之后与线性支持向量机分类器相连;D)获得音视频情感识别分类结果,验证深度信念网络的识别率。
公开号为CN110852215A的专利公开了一种多模态情感识别方法、系统及存储介质,所述方法包括:响应所监听到的情感识别任务请求,采集音视频数据;从音视频数据中提取视频情感特征、音频情感特征和语义情感特征;将视频情感特征、音频情感特征和语义情感特征进行特征融合;依据融合情感特征进行情感特征识别。所述系统包括CPU、FPGA和存储单元;CPU能够执行前述方法步骤,FPGA能够执行前述方法中的特征提取及特征融合步骤。
但是,在实际场景中,音视频数据难免存在噪声干扰,这影响着多模态情感识别系统的性能。如何增强音视频情感识别系统在实际场景中的鲁棒性是目前亟待解决的关键问题。
发明内容
有鉴于此,本发明提供一种基于音视频的鲁棒情感建模系统,包括:音频数据扩增模块、音频数据增强模块、音频情感识别模块、视频数据扩增模块、视频数据增强模块、视频情感识别模块和决策层融合模块;
训练过程:原始音频训练数据通过所述音频数据扩增模块进行数据扩增,得到带噪音频训练数据,应用所述带噪音频训练数据去训练音频数据增强模块,使所述音频数据增强模块具备剔除音频数据中的噪声信息的能力,剔除所述带噪音频训练数据中的噪声信息,得到增强语音训练数据,将所述增强语音训练数据输入所述音频情感识别模块,进行训练并识别音频训练情感状态;原始视频训练数据通过所述视频数据扩增模块进行数据扩增,得到带噪视频训练数据,应用所述带噪视频训练数据去训练视频数据增强模块,使所述视频数据增强模块具备剔除视频数据中的噪声信息的能力,剔除所述带噪视频训练数据中的噪声信息,得到增强视频训练数据,将所述增强视频训练数据输入所述视频情感识别模块,进行训练并识别视频训练情感状态;所述决策层融合模块将所述音频训练情感状态和所述视频训练情感状态融合,进行训练并输出情感识别预测结果;
识别过程:将音频数据输入训练好的音频数据增强模块,剔除音频数据中的噪声信息,得到增强语音数据,将所述增强语音数据输入训练好的音频情感识别模块,得到音频情感状态;视频数据输入训练好的视频数据增强模块,剔除视频数据中的噪声信息,得到增强视频数据,将所述增强视频数据输入训练好的视频情感识别模块,得到视频情感状态;将所述音频情感状态和所述视频情感状态输入训练好的所述决策层融合模块进行特征融合,并并输出情感识别结果。
优选的,所述音频数据扩增模块进行数据扩增的具体方法为:
根据设置的音频信噪比数值,将所述原始音频训练数据为Y与噪声数据逐一采样点相加,从而获取带噪音频训练数据,所述带噪音频训练数据为X。
优选的,所述音频数据增强模块剔除所述带噪音频训练数据中的噪声信息,得到增强语音训练数据的具体方法为:
所述带噪音频训练数据X被分解为T个长度为L的重叠段,X=[x 1 ,x 2 ,…x T ],其中
Figure 266555DEST_PATH_IMAGE001
利用一维卷积网络
Figure 259918DEST_PATH_IMAGE002
,将X转化为隐层音频特征表示,同时用激活函数ELU,增强模型的非线性建模能力,该过程表示为Conv(X),
Figure DEST_PATH_IMAGE003
其中,隐层音频特征
Figure 483089DEST_PATH_IMAGE004
N表示隐层音频特征维数;
再利用一维卷积网络,预测隐层音频特征
Figure DEST_PATH_IMAGE005
中掩蔽向量实现每帧的分离,
Figure 220101DEST_PATH_IMAGE006
其中,
Figure DEST_PATH_IMAGE007
表示掩蔽向量;
为了使所述掩蔽向量属于[0,1]之间,将掩蔽向量输入到sigmoid激活函数,得到激活后的掩蔽向量,
Figure 336962DEST_PATH_IMAGE008
将激活后的掩蔽向量
Figure 235648DEST_PATH_IMAGE009
应用到隐层音频特征W上,得到增强后的隐层音频特征:
Figure DEST_PATH_IMAGE010
其中,
Figure 211694DEST_PATH_IMAGE011
表示增强后的隐层音频特征,
Figure DEST_PATH_IMAGE012
表示对应位置相乘;
利用反卷积网络将
Figure 611451DEST_PATH_IMAGE011
重新映射到时域波形上,该过程表示为:
Figure 723764DEST_PATH_IMAGE013
其中,
Figure DEST_PATH_IMAGE014
表示增强后的语音波形,将所述重叠段相加在一起以生成增强语音训练数据。
优选的,所述应用所述带噪音频训练数据去训练音频数据增强模块选用最小均方误差损失函数MSE,计算增强语音训练数据
Figure 58930DEST_PATH_IMAGE015
与原始音频训练数据Y之间的相似性,损失函数定义为:
Figure DEST_PATH_IMAGE016
Figure 115748DEST_PATH_IMAGE017
优选的,所述将所述增强语音训练数据输入所述音频情感识别模块,进行训练并识别音频训练情感状态的具体方法为:
将增强语音训练数据
Figure DEST_PATH_IMAGE018
输入到一维卷积网络中,并利用最大池化层获取语音训练数据特征
Figure 194562DEST_PATH_IMAGE019
,其中d表示隐层音频特征维数,
Figure 426960DEST_PATH_IMAGE021
为实数;
Figure DEST_PATH_IMAGE022
输入到单层感知机中,得到音频训练情感状态;
通过计算音频训练情感状态与真实情感标签之间的交叉熵损失函数,训练语音情感识别模型。
优选的,所述视频数据扩增模块进行数据扩增的具体方法为:
原始视频训练数据中包含T帧图像,对原始视频训练数据中每一帧进行数据扩增;定义原始视频训练数据为
Figure 667449DEST_PATH_IMAGE023
Figure DEST_PATH_IMAGE024
中包含T帧图像,表示为:
Figure 477142DEST_PATH_IMAGE025
其中
Figure DEST_PATH_IMAGE026
表示
Figure 94068DEST_PATH_IMAGE023
中的第j帧图像;
根据设置的视频信噪比数值,将
Figure 180973DEST_PATH_IMAGE027
与噪声数据逐像素点相加,从而获取带噪图像训练数据
Figure DEST_PATH_IMAGE028
;重复获取带噪图像训练数据
Figure 716996DEST_PATH_IMAGE028
的步骤,得到带噪视频训练数据
Figure 889352DEST_PATH_IMAGE029
优选的,所述视频数据增强模块剔除所述带噪视频训练数据中的噪声信息,得到增强视频训练数据的具体方法为:
利用二维卷积网络
Figure 575548DEST_PATH_IMAGE002
,将带噪图像训练数据
Figure DEST_PATH_IMAGE030
映射到隐层空间中,得到隐层图像特征:
Figure 251380DEST_PATH_IMAGE031
再利用反卷积
Figure DEST_PATH_IMAGE032
操作,从所述隐层图像特征
Figure 223884DEST_PATH_IMAGE033
中预测增强图像训练数据
Figure DEST_PATH_IMAGE034
Figure 617956DEST_PATH_IMAGE035
重复得到增强视频训练数据的具体方法的步骤,得到增强视频训练数据:
Figure DEST_PATH_IMAGE036
优选的,应用所述带噪视频训练数据去训练视频数据增强模块选用最小均方误差损失函数MES,计算增强图像训练数据与原始视频训练数据中图像帧之间的相似性,损失函数定义为:
Figure 576685DEST_PATH_IMAGE037
,
Figure DEST_PATH_IMAGE038
优选的,所述将所述增强视频训练数据输入所述视频情感识别模块,进行训练并识别视频训练情感状态的具体方法为:
利用卷积神经网络,从增强视频训练数据中获取隐层视频特征
Figure 497236DEST_PATH_IMAGE039
,其中
Figure 781587DEST_PATH_IMAGE040
表示第j帧的隐层视频特征,d表示隐层视频特征维数;
将隐层视频特征
Figure DEST_PATH_IMAGE041
输入到循环神经网络中,获取融合时序信息的特征表示
Figure 397376DEST_PATH_IMAGE042
,之后利用均值池化操作获取视频级别的特征表示;
将视频级别的特征表示输入到单层感知机中,得到所述视频训练情感状态;通过计算所述视频训练情感状态与真实视频情感标签之间的交叉熵损失函数,训练所述视频情感识别模型。
优选的,利用权重系数将所述音频训练情感状态和所述视频训练情感状态融合,所述权重系数根据情感识别结果进行调节。
本发明实施例提供的上述技术方案与现有技术相比具有如下优点:
本发明实施例提供的该方法,
(1)在训练过程中引入数据扩增方法,能够模拟真实场景下的噪声情况,为增强模型提供训练数据;
(2)利用前端增强模型与后端识别模型结合,能够有效提升音视频情感识别系统的鲁棒性。
附图说明
图1为本发明实施例提供的一种基于音视频的鲁棒情感建模系统训练过程流程图;
图2为本发明实施例提供的一种基于音视频的鲁棒情感建模系统识别过程流程图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。
如图1、图2所示,本发明实施例提供的基于音视频的鲁棒情感建模系统,包括:音频数据扩增模块、音频数据增强模块、音频情感识别模块、视频数据扩增模块、视频数据增强模块、视频情感识别模块和决策层融合模块;
训练过程:原始音频训练数据通过所述音频数据扩增模块进行数据扩增,得到带噪音频训练数据,应用所述带噪音频训练数据去训练音频数据增强模块,使所述音频数据增强模块具备剔除音频数据中的噪声信息的能力,剔除所述带噪音频训练数据中的噪声信息,得到增强语音训练数据,将所述增强语音训练数据输入所述音频情感识别模块,进行训练并识别音频训练情感状态;原始视频训练数据通过所述视频数据扩增模块进行数据扩增,得到带噪视频训练数据,应用所述带噪视频训练数据去训练视频数据增强模块,使所述视频数据增强模块具备剔除视频数据中的噪声信息的能力,剔除所述带噪视频训练数据中的噪声信息,得到增强视频训练数据,将所述增强视频训练数据输入所述视频情感识别模块,进行训练并识别视频训练情感状态;所述决策层融合模块将所述音频训练情感状态和所述视频训练情感状态融合,进行训练并输出情感识别预测结果;
识别过程:将音频数据输入训练好的音频数据增强模块,剔除音频数据中的噪声信息,得到增强语音数据,将所述增强语音数据输入训练好的音频情感识别模块,得到音频情感状态;视频数据输入训练好的视频数据增强模块,剔除视频数据中的噪声信息,得到增强视频数据,将所述增强视频数据输入训练好的视频情感识别模块,得到视频情感状态;将所述音频情感状态和所述视频情感状态输入训练好的所述决策层融合模块进行特征融合,并并输出情感识别结果。
根据上述方案,进一步,所述音频数据扩增模块进行数据扩增的具体方法为:
根据设置的音频信噪比数值,音频信噪比数值范围设置为0db~20db,将所述原始音频训练数据Y与噪声数据逐采样点相加,从而获取带噪音频训练数据X。
根据上述方案,进一步,所述音频数据增强模块剔除带噪音频训练数据中的噪声信息,得到增强语音训练数据的具体方法为:
所述带噪音频训练数据X被分解为T个长度为L的重叠段,X=[x 1 ,x 2 ,…x j … x T ],其中
Figure 284430DEST_PATH_IMAGE043
;通常帧长L设置为25毫秒,帧移设置为10毫秒;假设音频数据X的时长为XT毫秒,那么T近似为 [XT/10]
利用一维卷积网络
Figure 466012DEST_PATH_IMAGE002
,将X转化为隐层音频特征表示,同时用激活函数ELU,增强模型的非线性建模能力,该过程表示为Conv(X)
Figure 655685DEST_PATH_IMAGE003
其中,隐层音频特征
Figure 289929DEST_PATH_IMAGE004
N表示隐层音频特征维数;
再利用卷积网络,预测隐层音频特征
Figure 590460DEST_PATH_IMAGE005
中掩蔽向量实现每帧的分离,
Figure 485604DEST_PATH_IMAGE006
其中,
Figure 111757DEST_PATH_IMAGE007
表示掩蔽向量;
为了使所述掩蔽向量属于[0,1]之间,将掩蔽向量输入到sigmoid激活函数,得到激活后的掩蔽向量,
Figure 967718DEST_PATH_IMAGE008
将激活后的掩蔽向量
Figure DEST_PATH_IMAGE044
应用到隐层音频特征W上,得到增强后的隐层音频特征:
Figure 806361DEST_PATH_IMAGE045
其中,
Figure 821590DEST_PATH_IMAGE011
表示增强后的隐层音频特征,
Figure 618645DEST_PATH_IMAGE012
表示对应位置相乘;
利用反卷积网络将
Figure 961902DEST_PATH_IMAGE011
重新映射到时域波形上:
Figure 604236DEST_PATH_IMAGE013
其中,
Figure 614917DEST_PATH_IMAGE014
表示增强后的语音波形,将所述重叠段相加在一起以生成增强语音训练数据。
根据上述方案,进一步,所述应用所述带噪音频训练数据去训练音频数据增强模块选用最小均方误差损失函数MSE,计算增强语音训练数据
Figure 317294DEST_PATH_IMAGE018
与原始音频训练数据Y之间的相似性,损失函数定义为:
Figure DEST_PATH_IMAGE046
,
Figure 6901DEST_PATH_IMAGE047
根据上述方案,进一步,所述将所述增强语音训练数据输入所述音频情感识别模块,进行训练并识别音频训练情感状态的具体方法为:
将增强语音训练数据
Figure 718505DEST_PATH_IMAGE018
输入到一维卷积网络中,并利用最大池化层获取语音训练数据特征
Figure 583693DEST_PATH_IMAGE019
,其中d表示隐层音频特征维数。
Figure 456971DEST_PATH_IMAGE022
输入到单层感知机中,得到音频训练情感状态,
Figure 774820DEST_PATH_IMAGE021
为实数;
通过计算音频训练情感状态与真实情感标签之间的交叉熵损失函数,训练语音情感识别模型。
根据上述方案,进一步,所述视频数据扩增模块进行数据扩增的具体方法为:
原始视频训练数据中包含T帧图像,对原始视频训练数据中每一帧进行数据扩增;定义原始视频训练数据为
Figure 149169DEST_PATH_IMAGE048
Figure 868864DEST_PATH_IMAGE048
中包含T帧图像,表示为:
Figure 178622DEST_PATH_IMAGE049
,其中
Figure 718188DEST_PATH_IMAGE026
表示
Figure 506016DEST_PATH_IMAGE048
中的第j帧图像;根据设置的视频信噪比数值,将
Figure 204850DEST_PATH_IMAGE027
与噪声数据逐像素点相加,从而获取带噪图像训练数据
Figure 685510DEST_PATH_IMAGE028
;重复获取带噪图像训练数据
Figure 977951DEST_PATH_IMAGE028
的步骤,得到带噪视频训练数据
Figure 303890DEST_PATH_IMAGE050
根据设置的视频信噪比数值,视频信噪比数值范围设置为0db~20db,将原始视频训练数据的图像帧
Figure 263756DEST_PATH_IMAGE027
与噪声数据逐像素点相加,从而获取带噪图像训练数据
Figure 649738DEST_PATH_IMAGE028
;重复上述步骤,得到带噪视频训练数据。
根据上述方案,进一步,所述视频数据增强模块剔除带噪视频训练数据中的噪声信息,得到增强视频训练数据的具体方法为:
利用卷积网络
Figure 288530DEST_PATH_IMAGE051
,将带噪图像训练数据
Figure 418160DEST_PATH_IMAGE028
映射到隐层空间中,得到隐层图像特征:
Figure 232532DEST_PATH_IMAGE031
再利用反卷积
Figure 789415DEST_PATH_IMAGE052
操作,从所述隐层图像特征
Figure 790869DEST_PATH_IMAGE033
中预测所述增强图像训练数据
Figure 989769DEST_PATH_IMAGE053
Figure 517703DEST_PATH_IMAGE054
重复上述步骤,得到增强视频训练数据
Figure 245487DEST_PATH_IMAGE055
根据上述方案,进一步,应用所述带噪视频训练数据去训练视频数据增强模块选用最小均方误差损失函数MES,计算增强图像训练数据与原始视频训练数据中图像帧之间的相似性,损失函数定义为:
Figure 734237DEST_PATH_IMAGE037
Figure 736829DEST_PATH_IMAGE038
根据上述方案,进一步,所述将所述增强视频训练数据输入所述视频情感识别模块,进行训练并识别视频训练情感状态的具体方法为:
利用卷积神经网络,从增强视频训练数据中获取隐层视频特征
Figure 994635DEST_PATH_IMAGE056
,其中
Figure 17954DEST_PATH_IMAGE057
表示第j帧的隐层视频特征,d表示隐层视频特征维数;
将隐层视频特征
Figure 259580DEST_PATH_IMAGE058
输入到循环神经网络中,获取融合时序信息的特征表示
Figure 534703DEST_PATH_IMAGE059
,之后利用均值池化操作获取视频级别的特征表示;
将视频级别的特征表示输入到单层感知机中,得到所述视频训练情感状态;通过计算所述视频训练情感状态与真实视频情感标签之间的交叉熵损失函数,训练所述视频情感识别模型。
根据上述方案,进一步,利用权重系数将所述音频训练情感状态和所述视频训练情感状态融合,所述权重系数根据测试验证的情感识别结果调节。
具体而言,假设音频训练情感状态为P a ,视频训练情感状态为P b ,依据权重系数λ将P a P b 进行融合。其中,λ从[0, 1]中进行选取。λ根据情感识别结果进行调节,使得情感识别准确率最高。
PP a +(1-λ) P b
应当理解,尽管在本发明可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本发明范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
虽然本说明书包含许多具体实施细节,但是这些不应被解释为限制任何发明的范围或所要求保护的范围,而是主要用于描述特定发明的具体实施例的特征。本说明书内在多个实施例中描述的某些特征也可以在单个实施例中被组合实施。另一方面,在单个实施例中描述的各种特征也可以在多个实施例中分开实施或以任何合适的子组合来实施。此外,虽然特征可以如上所述在某些组合中起作用并且甚至最初如此要求保护,但是来自所要求保护的组合中的一个或多个特征在一些情况下可以从该组合中去除,并且所要求保护的组合可以指向子组合或子组合的变型。
类似地,虽然在附图中以特定顺序描绘了操作,但是这不应被理解为要求这些操作以所示的特定顺序执行或顺次执行、或者要求所有例示的操作被执行,以实现期望的结果。在某些情况下,多任务和并行处理可能是有利的。此外,上述实施例中的各种系统模块和组件的分离不应被理解为在所有实施例中均需要这样的分离,并且应当理解,所描述的程序组件和系统通常可以一起集成在单个软件产品中,或者封装成多个软件产品。
由此,主题的特定实施例已被描述。其他实施例在所附权利要求书的范围以内。在某些情况下,权利要求书中记载的动作可以以不同的顺序执行并且仍实现期望的结果。此外,附图中描绘的处理并非必需所示的特定顺序或顺次顺序,以实现期望的结果。在某些实现中,多任务和并行处理可能是有利的。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。

Claims (7)

1.基于音视频的鲁棒情感建模系统,其特征在于,包括:音频数据扩增模块、音频数据增强模块、音频情感识别模块、视频数据扩增模块、视频数据增强模块、视频情感识别模块和决策层融合模块;
训练过程:原始音频训练数据通过所述音频数据扩增模块进行数据扩增,得到带噪音频训练数据,应用所述带噪音频训练数据去训练音频数据增强模块,使所述音频数据增强模块具备剔除音频数据中的噪声信息的能力,剔除所述带噪音频训练数据中的噪声信息,得到增强语音训练数据,将所述增强语音训练数据输入所述音频情感识别模块,进行训练并识别音频训练情感状态;原始视频训练数据通过所述视频数据扩增模块进行数据扩增,得到带噪视频训练数据,应用所述带噪视频训练数据去训练视频数据增强模块,使所述视频数据增强模块具备剔除视频数据中的噪声信息的能力,剔除所述带噪视频训练数据中的噪声信息,得到增强视频训练数据,将所述增强视频训练数据输入所述视频情感识别模块,进行训练并识别视频训练情感状态;所述决策层融合模块将所述音频训练情感状态和所述视频训练情感状态融合,进行训练并输出情感识别预测结果;
识别过程:将音频数据输入训练好的音频数据增强模块,剔除音频数据中的噪声信息,得到增强语音数据,将所述增强语音数据输入训练好的音频情感识别模块,得到音频情感状态;视频数据输入训练好的视频数据增强模块,剔除视频数据中的噪声信息,得到增强视频数据,将所述增强视频数据输入训练好的视频情感识别模块,得到视频情感状态;将所述音频情感状态和所述视频情感状态输入训练好的所述决策层融合模块进行特征融合,并输出情感识别结果;
所述音频数据扩增模块进行数据扩增的具体方法为:
根据设置的音频信噪比数值,将所述原始音频训练数据为Y与噪声数据逐一采样点相加,从而获取带噪音频训练数据,所述带噪音频训练数据为X;
所述音频数据增强模块剔除所述带噪音频训练数据中的噪声信息,得到增强语音训练数据的具体方法为:
所述带噪音频训练数据X被分解为T个长度为L的重叠段,X=[x 1 ,x 2 ,…x j …x T ],其中
Figure 88480DEST_PATH_IMAGE001
利用一维卷积网络
Figure 623366DEST_PATH_IMAGE002
,将X转化为隐层音频特征表示,同时用激活函数ELU,增强模型的非线性建模能力,该过程表示为Conv(X),
Figure 736816DEST_PATH_IMAGE003
其中,隐层音频特征
Figure 662046DEST_PATH_IMAGE004
N表示隐层音频特征维数;
再利用一维卷积网络,预测隐层音频特征
Figure 886354DEST_PATH_IMAGE005
中掩蔽向量实现每帧的分离,
Figure 947851DEST_PATH_IMAGE006
其中,
Figure 294519DEST_PATH_IMAGE007
表示掩蔽向量;
为了使所述掩蔽向量属于[0,1]之间,将掩蔽向量输入到sigmoid激活函数,得到激活后的掩蔽向量,
Figure 707046DEST_PATH_IMAGE008
将激活后的掩蔽向量
Figure 735045DEST_PATH_IMAGE009
应用到隐层音频特征W上,得到增强后的隐层音频特征:
Figure 916627DEST_PATH_IMAGE010
其中,
Figure 106300DEST_PATH_IMAGE011
表示增强后的隐层音频特征,
Figure 68440DEST_PATH_IMAGE012
表示对应位置相乘;
利用反卷积网络将
Figure 634551DEST_PATH_IMAGE011
重新映射到时域波形上,该过程表示为:
Figure 936219DEST_PATH_IMAGE013
其中,
Figure 296793DEST_PATH_IMAGE014
表示增强后的语音波形,将所述重叠段相加在一起以生成增强语音训练数据;
所述视频数据扩增模块进行数据扩增的具体方法为:
原始视频训练数据中包含T帧图像,对原始视频训练数据中每一帧进行数据扩增;定义原始视频训练数据为
Figure 683912DEST_PATH_IMAGE015
Figure 116030DEST_PATH_IMAGE015
中包含T帧图像,表示为:
Figure 6626DEST_PATH_IMAGE016
其中
Figure 803681DEST_PATH_IMAGE017
表示
Figure 412517DEST_PATH_IMAGE018
中的第j帧图像;
根据设置的视频信噪比数值,将
Figure 586009DEST_PATH_IMAGE017
与噪声数据逐像素点相加,从而获取带噪图像训练数据
Figure 659007DEST_PATH_IMAGE019
;重复获取带噪图像训练数据
Figure 626963DEST_PATH_IMAGE019
的步骤,得到带噪视频训练数据
Figure 723095DEST_PATH_IMAGE020
2.根据权利要求1所述的基于音视频的鲁棒情感建模系统,其特征在于,所述应用所述带噪音频训练数据去训练音频数据增强模块选用最小均方误差损失函数MSE,计算增强语音训练数据
Figure 434699DEST_PATH_IMAGE021
与原始音频训练数据Y之间的相似性,损失函数定义为:
Figure 299887DEST_PATH_IMAGE022
Figure 501061DEST_PATH_IMAGE023
3.根据权利要求2所述的基于音视频的鲁棒情感建模系统,其特征在于,所述将所述增强语音训练数据输入所述音频情感识别模块,进行训练并识别音频训练情感状态的具体方法为:
将增强语音训练数据
Figure 84489DEST_PATH_IMAGE024
输入到一维卷积网络中,并利用最大池化层获取语音训练数据特征
Figure 334205DEST_PATH_IMAGE025
,其中d表示隐层音频特征维数,
Figure 319479DEST_PATH_IMAGE027
为实数;
Figure 694484DEST_PATH_IMAGE028
输入到单层感知机中,得到音频训练情感状态;
通过计算音频训练情感状态与真实情感标签之间的交叉熵损失函数,训练语音情感识别模型。
4.根据权利要求3所述的基于音视频的鲁棒情感建模系统,其特征在于,所述视频数据增强模块剔除所述带噪视频训练数据中的噪声信息,得到增强视频训练数据的具体方法为:
利用二维卷积网络
Figure 765208DEST_PATH_IMAGE029
,将带噪图像训练数据
Figure 818615DEST_PATH_IMAGE030
映射到隐层空间中,得到隐层图像特征:
Figure 658395DEST_PATH_IMAGE031
再利用反卷积
Figure 139055DEST_PATH_IMAGE032
操作,从所述隐层图像特征
Figure 493813DEST_PATH_IMAGE033
中预测增强图像训练数据
Figure 350910DEST_PATH_IMAGE034
Figure 45197DEST_PATH_IMAGE035
重复得到增强视频训练数据的具体方法的步骤,得到增强视频训练数据:
Figure 696758DEST_PATH_IMAGE036
5.根据权利要求4所述的基于音视频的鲁棒情感建模系统,其特征在于,应用所述带噪视频训练数据去训练视频数据增强模块选用最小均方误差损失函数MES,计算增强图像训练数据与原始视频训练数据中图像帧之间的相似性,损失函数定义为:
Figure 742074DEST_PATH_IMAGE037
,
Figure 199600DEST_PATH_IMAGE038
6.根据权利要求5所述的基于音视频的鲁棒情感建模系统,其特征在于,所述将所述增强视频训练数据输入所述视频情感识别模块,进行训练并识别视频训练情感状态的具体方法为:
利用卷积神经网络,从增强视频训练数据中获取隐层视频特征
Figure 748393DEST_PATH_IMAGE039
,其中
Figure 836435DEST_PATH_IMAGE040
表示第j帧的隐层视频特征,d表示隐层视频特征维数;
将隐层视频特征
Figure 103468DEST_PATH_IMAGE041
输入到循环神经网络中,获取融合时序信息的特征表示
Figure 302369DEST_PATH_IMAGE042
,之后利用均值池化操作获取视频级别的特征表示;
将视频级别的特征表示输入到单层感知机中,得到所述视频训练情感状态;通过计算所述视频训练情感状态与真实视频情感标签之间的交叉熵损失函数,训练所述视频情感识别模型。
7.根据权利要求6所述的基于音视频的鲁棒情感建模系统,其特征在于,
利用权重系数将所述音频训练情感状态和所述视频训练情感状态融合,所述权重系数根据情感识别结果进行调节。
CN202110615003.6A 2021-06-02 2021-06-02 基于音视频的鲁棒情感建模系统 Active CN113255800B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110615003.6A CN113255800B (zh) 2021-06-02 2021-06-02 基于音视频的鲁棒情感建模系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110615003.6A CN113255800B (zh) 2021-06-02 2021-06-02 基于音视频的鲁棒情感建模系统

Publications (2)

Publication Number Publication Date
CN113255800A CN113255800A (zh) 2021-08-13
CN113255800B true CN113255800B (zh) 2021-10-15

Family

ID=77186102

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110615003.6A Active CN113255800B (zh) 2021-06-02 2021-06-02 基于音视频的鲁棒情感建模系统

Country Status (1)

Country Link
CN (1) CN113255800B (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103021406A (zh) * 2012-12-18 2013-04-03 台州学院 基于压缩感知的鲁棒性语音情感识别方法
CN106297823A (zh) * 2016-08-22 2017-01-04 东南大学 一种基于环境噪声标准化变换的语音情感特征选择方法
CN106782602A (zh) * 2016-12-01 2017-05-31 南京邮电大学 基于长短时间记忆网络和卷积神经网络的语音情感识别方法
CN108805087A (zh) * 2018-06-14 2018-11-13 南京云思创智信息科技有限公司 基于多模态情绪识别系统的时序语义融合关联判断子系统
CN110534133A (zh) * 2019-08-28 2019-12-03 珠海亿智电子科技有限公司 一种语音情感识别系统及语音情感识别方法
CN110826466A (zh) * 2019-10-31 2020-02-21 南京励智心理大数据产业研究院有限公司 基于lstm音像融合的情感识别方法、装置及存储介质
CN111081280A (zh) * 2019-12-30 2020-04-28 苏州思必驰信息科技有限公司 与文本无关的语音情感识别方法及装置、用于识别情感的算法模型的生成方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180082679A1 (en) * 2016-09-18 2018-03-22 Newvoicemedia, Ltd. Optimal human-machine conversations using emotion-enhanced natural speech using hierarchical neural networks and reinforcement learning

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103021406A (zh) * 2012-12-18 2013-04-03 台州学院 基于压缩感知的鲁棒性语音情感识别方法
CN106297823A (zh) * 2016-08-22 2017-01-04 东南大学 一种基于环境噪声标准化变换的语音情感特征选择方法
CN106782602A (zh) * 2016-12-01 2017-05-31 南京邮电大学 基于长短时间记忆网络和卷积神经网络的语音情感识别方法
CN108805087A (zh) * 2018-06-14 2018-11-13 南京云思创智信息科技有限公司 基于多模态情绪识别系统的时序语义融合关联判断子系统
CN110534133A (zh) * 2019-08-28 2019-12-03 珠海亿智电子科技有限公司 一种语音情感识别系统及语音情感识别方法
CN110826466A (zh) * 2019-10-31 2020-02-21 南京励智心理大数据产业研究院有限公司 基于lstm音像融合的情感识别方法、装置及存储介质
CN111081280A (zh) * 2019-12-30 2020-04-28 苏州思必驰信息科技有限公司 与文本无关的语音情感识别方法及装置、用于识别情感的算法模型的生成方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
噪声鲁棒的语音情感识别研究;吴奥;《中国优秀硕士学位论文全文数据库 信息科技辑》;20180415(第04期);第2.1节,第2.3.2节 *
基于文本、语音和视频的多模态情感识别的研究;宋绪靖;《中国优秀硕士学位论文全文数据库信息科技辑》;20190915(第09期);第2.4.3,3.3.1,3.4,4.4.2节,图2.7,3.5,3.7,4.8 *

Also Published As

Publication number Publication date
CN113255800A (zh) 2021-08-13

Similar Documents

Publication Publication Date Title
Mroueh et al. Deep multimodal learning for audio-visual speech recognition
US11281945B1 (en) Multimodal dimensional emotion recognition method
CN107609572B (zh) 基于神经网络和迁移学习的多模态情感识别方法、系统
Noda et al. Lipreading using convolutional neural network.
US20190304480A1 (en) Neural Network Generative Modeling To Transform Speech Utterances And Augment Training Data
CN110852215B (zh) 一种多模态情感识别方法、系统及存储介质
Eljawad et al. Arabic voice recognition using fuzzy logic and neural network
CN109063626B (zh) 动态人脸识别方法和装置
CN112101096A (zh) 一种基于语音和微表情的多模态融合的自杀情绪感知方法
CN111128178A (zh) 一种基于面部表情分析的语音识别方法
CN114140885A (zh) 一种情感分析模型的生成方法、装置、电子设备以及存储介质
KR101910089B1 (ko) 멀티 모달의 상관관계를 이용한 동영상 특징 벡터 추출 방법 및 시스템
Grzeszick et al. Temporal acoustic words for online acoustic event detection
Adiga et al. Multimodal emotion recognition for human robot interaction
CN114360584A (zh) 一种基于音素级的语音情感分层式识别方法及系统
CN113255800B (zh) 基于音视频的鲁棒情感建模系统
Le Cornu et al. Voicing classification of visual speech using convolutional neural networks
Monisha et al. Enhanced automatic recognition of human emotions using machine learning techniques
Karras et al. A Hybrid Ensemble Deep Learning Approach for Emotion Classification
CN114898775A (zh) 一种基于跨层交叉融合的语音情绪识别方法及系统
Pariselvam An interaction system using speech and gesture based on CNN
Yang et al. End-to-end learning for multimodal emotion recognition in video with adaptive loss
Jain et al. Ensembled Neural Network for Static Hand Gesture Recognition
CN114360491A (zh) 语音合成方法、装置、电子设备及计算机可读存储介质
CN113642446A (zh) 一种基于人脸动态情绪识别的检测方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant