CN113255800B - 基于音视频的鲁棒情感建模系统 - Google Patents
基于音视频的鲁棒情感建模系统 Download PDFInfo
- Publication number
- CN113255800B CN113255800B CN202110615003.6A CN202110615003A CN113255800B CN 113255800 B CN113255800 B CN 113255800B CN 202110615003 A CN202110615003 A CN 202110615003A CN 113255800 B CN113255800 B CN 113255800B
- Authority
- CN
- China
- Prior art keywords
- video
- data
- audio
- training
- training data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000008451 emotion Effects 0.000 title claims abstract description 58
- 238000012549 training Methods 0.000 claims abstract description 206
- 230000008909 emotion recognition Effects 0.000 claims abstract description 54
- 230000003321 amplification Effects 0.000 claims abstract description 36
- 238000003199 nucleic acid amplification method Methods 0.000 claims abstract description 36
- 230000002996 emotional effect Effects 0.000 claims abstract description 29
- 230000004927 fusion Effects 0.000 claims abstract description 19
- 239000010410 layer Substances 0.000 claims description 60
- 238000000034 method Methods 0.000 claims description 43
- 230000000873 masking effect Effects 0.000 claims description 18
- 230000008569 process Effects 0.000 claims description 15
- 239000000126 substance Substances 0.000 claims description 9
- 238000011176 pooling Methods 0.000 claims description 7
- 230000004913 activation Effects 0.000 claims description 6
- 239000002356 single layer Substances 0.000 claims description 6
- 238000013527 convolutional neural network Methods 0.000 claims description 5
- 230000002708 enhancing effect Effects 0.000 claims description 5
- 238000000926 separation method Methods 0.000 claims description 5
- 230000005236 sound signal Effects 0.000 claims description 4
- 238000013528 artificial neural network Methods 0.000 claims description 3
- 238000013507 mapping Methods 0.000 claims description 3
- 230000000306 recurrent effect Effects 0.000 claims description 3
- 230000006870 function Effects 0.000 description 16
- 230000008901 benefit Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000002902 bimodal effect Effects 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000037433 frameshift Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/30—Noise filtering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/63—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
Abstract
本发明提供基于音视频的鲁棒情感建模系统,包括:原始音频训练数据通过音频数据扩增模块进行数据扩增,得到带噪音频训练数据去训练音频数据增强模块,剔除带噪音频训练数据中的噪声信息,得到增强语音训练数据,将增强语音训练数据输入音频情感识别模块,进行训练并识别音频训练情感状态;原始视频训练数据通过视频数据扩增模块进行数据扩增,得到带噪视频训练数据去训练视频数据增强模块,剔除带噪视频训练数据中的噪声信息,得到增强视频训练数据,将增强视频训练数据输入视频情感识别模块,进行训练并识别视频训练情感状态;决策层融合模块将音频训练情感状态和视频训练情感状态融合,进行训练并输出情感识别预测结果。
Description
技术领域
本发明涉及多模态情感识别领域,尤其涉及基于音视频的鲁棒情感建模系统。
背景技术
二十世纪以来,随着人工智能技术的飞速发展,各类智能机器逐渐进入人们的日常生活,扮演着日益重要的角色。与此同时,人们渴望与智能机器进行交流,这促使了社交网络机器人与类人机器人的发展,其中一个关键问题在于机器对人的理解,而情感在其中扮演着重要的角色。情感有助于快速传递信息和理解用户真实意图,是人机交互的关键部分。
人们通过多种方式表达情感,不同表达方式之间存在着互补作用。多模态情感识别能够有效提高情感识别性能以及系统鲁棒性,因此本文围绕着多模态情感识别技术开展研究。
公开号为CN111292765A的专利公开了一种融合多个深度学习模型的双模态情感识别方法,包括步骤:A)采集音视频信号,获得音频数据样本和视频数据样本;B)构建音频深度卷积神经网络和多模视频深度卷积神经网络,获得高层次音频特征和高层次视频特征;C)构建高层次的音视频统一特征,建立由受限玻尔兹曼机构成的深度信念网络,深度信念网络最后一层隐藏层的输出做平均池化之后与线性支持向量机分类器相连;D)获得音视频情感识别分类结果,验证深度信念网络的识别率。
公开号为CN110852215A的专利公开了一种多模态情感识别方法、系统及存储介质,所述方法包括:响应所监听到的情感识别任务请求,采集音视频数据;从音视频数据中提取视频情感特征、音频情感特征和语义情感特征;将视频情感特征、音频情感特征和语义情感特征进行特征融合;依据融合情感特征进行情感特征识别。所述系统包括CPU、FPGA和存储单元;CPU能够执行前述方法步骤,FPGA能够执行前述方法中的特征提取及特征融合步骤。
但是,在实际场景中,音视频数据难免存在噪声干扰,这影响着多模态情感识别系统的性能。如何增强音视频情感识别系统在实际场景中的鲁棒性是目前亟待解决的关键问题。
发明内容
有鉴于此,本发明提供一种基于音视频的鲁棒情感建模系统,包括:音频数据扩增模块、音频数据增强模块、音频情感识别模块、视频数据扩增模块、视频数据增强模块、视频情感识别模块和决策层融合模块;
训练过程:原始音频训练数据通过所述音频数据扩增模块进行数据扩增,得到带噪音频训练数据,应用所述带噪音频训练数据去训练音频数据增强模块,使所述音频数据增强模块具备剔除音频数据中的噪声信息的能力,剔除所述带噪音频训练数据中的噪声信息,得到增强语音训练数据,将所述增强语音训练数据输入所述音频情感识别模块,进行训练并识别音频训练情感状态;原始视频训练数据通过所述视频数据扩增模块进行数据扩增,得到带噪视频训练数据,应用所述带噪视频训练数据去训练视频数据增强模块,使所述视频数据增强模块具备剔除视频数据中的噪声信息的能力,剔除所述带噪视频训练数据中的噪声信息,得到增强视频训练数据,将所述增强视频训练数据输入所述视频情感识别模块,进行训练并识别视频训练情感状态;所述决策层融合模块将所述音频训练情感状态和所述视频训练情感状态融合,进行训练并输出情感识别预测结果;
识别过程:将音频数据输入训练好的音频数据增强模块,剔除音频数据中的噪声信息,得到增强语音数据,将所述增强语音数据输入训练好的音频情感识别模块,得到音频情感状态;视频数据输入训练好的视频数据增强模块,剔除视频数据中的噪声信息,得到增强视频数据,将所述增强视频数据输入训练好的视频情感识别模块,得到视频情感状态;将所述音频情感状态和所述视频情感状态输入训练好的所述决策层融合模块进行特征融合,并并输出情感识别结果。
优选的,所述音频数据扩增模块进行数据扩增的具体方法为:
根据设置的音频信噪比数值,将所述原始音频训练数据为Y与噪声数据逐一采样点相加,从而获取带噪音频训练数据,所述带噪音频训练数据为X。
优选的,所述音频数据增强模块剔除所述带噪音频训练数据中的噪声信息,得到增强语音训练数据的具体方法为:
为了使所述掩蔽向量属于[0,1]之间,将掩蔽向量输入到sigmoid激活函数,得到激活后的掩蔽向量,
优选的,所述将所述增强语音训练数据输入所述音频情感识别模块,进行训练并识别音频训练情感状态的具体方法为:
通过计算音频训练情感状态与真实情感标签之间的交叉熵损失函数,训练语音情感识别模型。
优选的,所述视频数据扩增模块进行数据扩增的具体方法为:
优选的,所述视频数据增强模块剔除所述带噪视频训练数据中的噪声信息,得到增强视频训练数据的具体方法为:
重复得到增强视频训练数据的具体方法的步骤,得到增强视频训练数据:
优选的,应用所述带噪视频训练数据去训练视频数据增强模块选用最小均方误差损失函数MES,计算增强图像训练数据与原始视频训练数据中图像帧之间的相似性,损失函数定义为:
优选的,所述将所述增强视频训练数据输入所述视频情感识别模块,进行训练并识别视频训练情感状态的具体方法为:
将视频级别的特征表示输入到单层感知机中,得到所述视频训练情感状态;通过计算所述视频训练情感状态与真实视频情感标签之间的交叉熵损失函数,训练所述视频情感识别模型。
优选的,利用权重系数将所述音频训练情感状态和所述视频训练情感状态融合,所述权重系数根据情感识别结果进行调节。
本发明实施例提供的上述技术方案与现有技术相比具有如下优点:
本发明实施例提供的该方法,
(1)在训练过程中引入数据扩增方法,能够模拟真实场景下的噪声情况,为增强模型提供训练数据;
(2)利用前端增强模型与后端识别模型结合,能够有效提升音视频情感识别系统的鲁棒性。
附图说明
图1为本发明实施例提供的一种基于音视频的鲁棒情感建模系统训练过程流程图;
图2为本发明实施例提供的一种基于音视频的鲁棒情感建模系统识别过程流程图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。
如图1、图2所示,本发明实施例提供的基于音视频的鲁棒情感建模系统,包括:音频数据扩增模块、音频数据增强模块、音频情感识别模块、视频数据扩增模块、视频数据增强模块、视频情感识别模块和决策层融合模块;
训练过程:原始音频训练数据通过所述音频数据扩增模块进行数据扩增,得到带噪音频训练数据,应用所述带噪音频训练数据去训练音频数据增强模块,使所述音频数据增强模块具备剔除音频数据中的噪声信息的能力,剔除所述带噪音频训练数据中的噪声信息,得到增强语音训练数据,将所述增强语音训练数据输入所述音频情感识别模块,进行训练并识别音频训练情感状态;原始视频训练数据通过所述视频数据扩增模块进行数据扩增,得到带噪视频训练数据,应用所述带噪视频训练数据去训练视频数据增强模块,使所述视频数据增强模块具备剔除视频数据中的噪声信息的能力,剔除所述带噪视频训练数据中的噪声信息,得到增强视频训练数据,将所述增强视频训练数据输入所述视频情感识别模块,进行训练并识别视频训练情感状态;所述决策层融合模块将所述音频训练情感状态和所述视频训练情感状态融合,进行训练并输出情感识别预测结果;
识别过程:将音频数据输入训练好的音频数据增强模块,剔除音频数据中的噪声信息,得到增强语音数据,将所述增强语音数据输入训练好的音频情感识别模块,得到音频情感状态;视频数据输入训练好的视频数据增强模块,剔除视频数据中的噪声信息,得到增强视频数据,将所述增强视频数据输入训练好的视频情感识别模块,得到视频情感状态;将所述音频情感状态和所述视频情感状态输入训练好的所述决策层融合模块进行特征融合,并并输出情感识别结果。
根据上述方案,进一步,所述音频数据扩增模块进行数据扩增的具体方法为:
根据设置的音频信噪比数值,音频信噪比数值范围设置为0db~20db,将所述原始音频训练数据Y与噪声数据逐采样点相加,从而获取带噪音频训练数据X。
根据上述方案,进一步,所述音频数据增强模块剔除带噪音频训练数据中的噪声信息,得到增强语音训练数据的具体方法为:
所述带噪音频训练数据X被分解为T个长度为L的重叠段,X=[x 1 ,x 2 ,…x j … x T ],其中;通常帧长L设置为25毫秒,帧移设置为10毫秒;假设音频数据X的时长为XT毫秒,那么T近似为 [XT/10]
为了使所述掩蔽向量属于[0,1]之间,将掩蔽向量输入到sigmoid激活函数,得到激活后的掩蔽向量,
根据上述方案,进一步,所述将所述增强语音训练数据输入所述音频情感识别模块,进行训练并识别音频训练情感状态的具体方法为:
通过计算音频训练情感状态与真实情感标签之间的交叉熵损失函数,训练语音情感识别模型。
根据上述方案,进一步,所述视频数据扩增模块进行数据扩增的具体方法为:
原始视频训练数据中包含T帧图像,对原始视频训练数据中每一帧进行数据扩增;定义原始视频训练数据为,中包含T帧图像,表示为:,其中表示中的第j帧图像;根据设置的视频信噪比数值,将与噪声数据逐像素点相加,从而获取带噪图像训练数据;重复获取带噪图像训练数据的步骤,得到带噪视频训练数据。
根据上述方案,进一步,所述视频数据增强模块剔除带噪视频训练数据中的噪声信息,得到增强视频训练数据的具体方法为:
根据上述方案,进一步,应用所述带噪视频训练数据去训练视频数据增强模块选用最小均方误差损失函数MES,计算增强图像训练数据与原始视频训练数据中图像帧之间的相似性,损失函数定义为:
根据上述方案,进一步,所述将所述增强视频训练数据输入所述视频情感识别模块,进行训练并识别视频训练情感状态的具体方法为:
将视频级别的特征表示输入到单层感知机中,得到所述视频训练情感状态;通过计算所述视频训练情感状态与真实视频情感标签之间的交叉熵损失函数,训练所述视频情感识别模型。
根据上述方案,进一步,利用权重系数将所述音频训练情感状态和所述视频训练情感状态融合,所述权重系数根据测试验证的情感识别结果调节。
具体而言,假设音频训练情感状态为P a ,视频训练情感状态为P b ,依据权重系数λ将P a 和P b 进行融合。其中,λ从[0, 1]中进行选取。λ根据情感识别结果进行调节,使得情感识别准确率最高。
P=λP a +(1-λ) P b
应当理解,尽管在本发明可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本发明范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
虽然本说明书包含许多具体实施细节,但是这些不应被解释为限制任何发明的范围或所要求保护的范围,而是主要用于描述特定发明的具体实施例的特征。本说明书内在多个实施例中描述的某些特征也可以在单个实施例中被组合实施。另一方面,在单个实施例中描述的各种特征也可以在多个实施例中分开实施或以任何合适的子组合来实施。此外,虽然特征可以如上所述在某些组合中起作用并且甚至最初如此要求保护,但是来自所要求保护的组合中的一个或多个特征在一些情况下可以从该组合中去除,并且所要求保护的组合可以指向子组合或子组合的变型。
类似地,虽然在附图中以特定顺序描绘了操作,但是这不应被理解为要求这些操作以所示的特定顺序执行或顺次执行、或者要求所有例示的操作被执行,以实现期望的结果。在某些情况下,多任务和并行处理可能是有利的。此外,上述实施例中的各种系统模块和组件的分离不应被理解为在所有实施例中均需要这样的分离,并且应当理解,所描述的程序组件和系统通常可以一起集成在单个软件产品中,或者封装成多个软件产品。
由此,主题的特定实施例已被描述。其他实施例在所附权利要求书的范围以内。在某些情况下,权利要求书中记载的动作可以以不同的顺序执行并且仍实现期望的结果。此外,附图中描绘的处理并非必需所示的特定顺序或顺次顺序,以实现期望的结果。在某些实现中,多任务和并行处理可能是有利的。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。
Claims (7)
1.基于音视频的鲁棒情感建模系统,其特征在于,包括:音频数据扩增模块、音频数据增强模块、音频情感识别模块、视频数据扩增模块、视频数据增强模块、视频情感识别模块和决策层融合模块;
训练过程:原始音频训练数据通过所述音频数据扩增模块进行数据扩增,得到带噪音频训练数据,应用所述带噪音频训练数据去训练音频数据增强模块,使所述音频数据增强模块具备剔除音频数据中的噪声信息的能力,剔除所述带噪音频训练数据中的噪声信息,得到增强语音训练数据,将所述增强语音训练数据输入所述音频情感识别模块,进行训练并识别音频训练情感状态;原始视频训练数据通过所述视频数据扩增模块进行数据扩增,得到带噪视频训练数据,应用所述带噪视频训练数据去训练视频数据增强模块,使所述视频数据增强模块具备剔除视频数据中的噪声信息的能力,剔除所述带噪视频训练数据中的噪声信息,得到增强视频训练数据,将所述增强视频训练数据输入所述视频情感识别模块,进行训练并识别视频训练情感状态;所述决策层融合模块将所述音频训练情感状态和所述视频训练情感状态融合,进行训练并输出情感识别预测结果;
识别过程:将音频数据输入训练好的音频数据增强模块,剔除音频数据中的噪声信息,得到增强语音数据,将所述增强语音数据输入训练好的音频情感识别模块,得到音频情感状态;视频数据输入训练好的视频数据增强模块,剔除视频数据中的噪声信息,得到增强视频数据,将所述增强视频数据输入训练好的视频情感识别模块,得到视频情感状态;将所述音频情感状态和所述视频情感状态输入训练好的所述决策层融合模块进行特征融合,并输出情感识别结果;
所述音频数据扩增模块进行数据扩增的具体方法为:
根据设置的音频信噪比数值,将所述原始音频训练数据为Y与噪声数据逐一采样点相加,从而获取带噪音频训练数据,所述带噪音频训练数据为X;
所述音频数据增强模块剔除所述带噪音频训练数据中的噪声信息,得到增强语音训练数据的具体方法为:
为了使所述掩蔽向量属于[0,1]之间,将掩蔽向量输入到sigmoid激活函数,得到激活后的掩蔽向量,
所述视频数据扩增模块进行数据扩增的具体方法为:
7.根据权利要求6所述的基于音视频的鲁棒情感建模系统,其特征在于,
利用权重系数将所述音频训练情感状态和所述视频训练情感状态融合,所述权重系数根据情感识别结果进行调节。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110615003.6A CN113255800B (zh) | 2021-06-02 | 2021-06-02 | 基于音视频的鲁棒情感建模系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110615003.6A CN113255800B (zh) | 2021-06-02 | 2021-06-02 | 基于音视频的鲁棒情感建模系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113255800A CN113255800A (zh) | 2021-08-13 |
CN113255800B true CN113255800B (zh) | 2021-10-15 |
Family
ID=77186102
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110615003.6A Active CN113255800B (zh) | 2021-06-02 | 2021-06-02 | 基于音视频的鲁棒情感建模系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113255800B (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103021406A (zh) * | 2012-12-18 | 2013-04-03 | 台州学院 | 基于压缩感知的鲁棒性语音情感识别方法 |
CN106297823A (zh) * | 2016-08-22 | 2017-01-04 | 东南大学 | 一种基于环境噪声标准化变换的语音情感特征选择方法 |
CN106782602A (zh) * | 2016-12-01 | 2017-05-31 | 南京邮电大学 | 基于长短时间记忆网络和卷积神经网络的语音情感识别方法 |
CN108805087A (zh) * | 2018-06-14 | 2018-11-13 | 南京云思创智信息科技有限公司 | 基于多模态情绪识别系统的时序语义融合关联判断子系统 |
CN110534133A (zh) * | 2019-08-28 | 2019-12-03 | 珠海亿智电子科技有限公司 | 一种语音情感识别系统及语音情感识别方法 |
CN110826466A (zh) * | 2019-10-31 | 2020-02-21 | 南京励智心理大数据产业研究院有限公司 | 基于lstm音像融合的情感识别方法、装置及存储介质 |
CN111081280A (zh) * | 2019-12-30 | 2020-04-28 | 苏州思必驰信息科技有限公司 | 与文本无关的语音情感识别方法及装置、用于识别情感的算法模型的生成方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180082679A1 (en) * | 2016-09-18 | 2018-03-22 | Newvoicemedia, Ltd. | Optimal human-machine conversations using emotion-enhanced natural speech using hierarchical neural networks and reinforcement learning |
-
2021
- 2021-06-02 CN CN202110615003.6A patent/CN113255800B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103021406A (zh) * | 2012-12-18 | 2013-04-03 | 台州学院 | 基于压缩感知的鲁棒性语音情感识别方法 |
CN106297823A (zh) * | 2016-08-22 | 2017-01-04 | 东南大学 | 一种基于环境噪声标准化变换的语音情感特征选择方法 |
CN106782602A (zh) * | 2016-12-01 | 2017-05-31 | 南京邮电大学 | 基于长短时间记忆网络和卷积神经网络的语音情感识别方法 |
CN108805087A (zh) * | 2018-06-14 | 2018-11-13 | 南京云思创智信息科技有限公司 | 基于多模态情绪识别系统的时序语义融合关联判断子系统 |
CN110534133A (zh) * | 2019-08-28 | 2019-12-03 | 珠海亿智电子科技有限公司 | 一种语音情感识别系统及语音情感识别方法 |
CN110826466A (zh) * | 2019-10-31 | 2020-02-21 | 南京励智心理大数据产业研究院有限公司 | 基于lstm音像融合的情感识别方法、装置及存储介质 |
CN111081280A (zh) * | 2019-12-30 | 2020-04-28 | 苏州思必驰信息科技有限公司 | 与文本无关的语音情感识别方法及装置、用于识别情感的算法模型的生成方法 |
Non-Patent Citations (2)
Title |
---|
噪声鲁棒的语音情感识别研究;吴奥;《中国优秀硕士学位论文全文数据库 信息科技辑》;20180415(第04期);第2.1节,第2.3.2节 * |
基于文本、语音和视频的多模态情感识别的研究;宋绪靖;《中国优秀硕士学位论文全文数据库信息科技辑》;20190915(第09期);第2.4.3,3.3.1,3.4,4.4.2节,图2.7,3.5,3.7,4.8 * |
Also Published As
Publication number | Publication date |
---|---|
CN113255800A (zh) | 2021-08-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Mroueh et al. | Deep multimodal learning for audio-visual speech recognition | |
US11281945B1 (en) | Multimodal dimensional emotion recognition method | |
CN107609572B (zh) | 基于神经网络和迁移学习的多模态情感识别方法、系统 | |
Noda et al. | Lipreading using convolutional neural network. | |
US20190304480A1 (en) | Neural Network Generative Modeling To Transform Speech Utterances And Augment Training Data | |
CN110852215B (zh) | 一种多模态情感识别方法、系统及存储介质 | |
Eljawad et al. | Arabic voice recognition using fuzzy logic and neural network | |
CN109063626B (zh) | 动态人脸识别方法和装置 | |
CN112101096A (zh) | 一种基于语音和微表情的多模态融合的自杀情绪感知方法 | |
CN111128178A (zh) | 一种基于面部表情分析的语音识别方法 | |
CN114140885A (zh) | 一种情感分析模型的生成方法、装置、电子设备以及存储介质 | |
KR101910089B1 (ko) | 멀티 모달의 상관관계를 이용한 동영상 특징 벡터 추출 방법 및 시스템 | |
Grzeszick et al. | Temporal acoustic words for online acoustic event detection | |
Adiga et al. | Multimodal emotion recognition for human robot interaction | |
CN114360584A (zh) | 一种基于音素级的语音情感分层式识别方法及系统 | |
CN113255800B (zh) | 基于音视频的鲁棒情感建模系统 | |
Le Cornu et al. | Voicing classification of visual speech using convolutional neural networks | |
Monisha et al. | Enhanced automatic recognition of human emotions using machine learning techniques | |
Karras et al. | A Hybrid Ensemble Deep Learning Approach for Emotion Classification | |
CN114898775A (zh) | 一种基于跨层交叉融合的语音情绪识别方法及系统 | |
Pariselvam | An interaction system using speech and gesture based on CNN | |
Yang et al. | End-to-end learning for multimodal emotion recognition in video with adaptive loss | |
Jain et al. | Ensembled Neural Network for Static Hand Gesture Recognition | |
CN114360491A (zh) | 语音合成方法、装置、电子设备及计算机可读存储介质 | |
CN113642446A (zh) | 一种基于人脸动态情绪识别的检测方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |