CN109460737A - 一种基于增强式残差神经网络的多模态语音情感识别方法 - Google Patents
一种基于增强式残差神经网络的多模态语音情感识别方法 Download PDFInfo
- Publication number
- CN109460737A CN109460737A CN201811346114.6A CN201811346114A CN109460737A CN 109460737 A CN109460737 A CN 109460737A CN 201811346114 A CN201811346114 A CN 201811346114A CN 109460737 A CN109460737 A CN 109460737A
- Authority
- CN
- China
- Prior art keywords
- data
- network
- neural network
- modal
- input
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 19
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 18
- 230000008909 emotion recognition Effects 0.000 claims abstract description 20
- 230000014509 gene expression Effects 0.000 claims abstract description 20
- 238000000605 extraction Methods 0.000 claims abstract description 18
- 230000008451 emotion Effects 0.000 claims abstract description 17
- 238000012545 processing Methods 0.000 claims abstract description 9
- 238000012549 training Methods 0.000 claims abstract description 8
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 5
- 230000004927 fusion Effects 0.000 claims description 35
- 230000006870 function Effects 0.000 claims description 26
- 238000013507 mapping Methods 0.000 claims description 9
- 230000008921 facial expression Effects 0.000 claims description 6
- 238000012360 testing method Methods 0.000 claims description 6
- 238000004422 calculation algorithm Methods 0.000 claims description 5
- 241000282414 Homo sapiens Species 0.000 claims description 4
- 238000003062 neural network model Methods 0.000 claims description 3
- 230000008859 change Effects 0.000 claims description 2
- 230000003993 interaction Effects 0.000 abstract description 3
- 238000004458 analytical method Methods 0.000 abstract description 2
- 230000002996 emotional effect Effects 0.000 abstract 1
- 238000011160 research Methods 0.000 description 8
- 238000007781 pre-processing Methods 0.000 description 5
- 230000008901 benefit Effects 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000001815 facial effect Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000007500 overflow downdraw method Methods 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Molecular Biology (AREA)
- Software Systems (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Psychiatry (AREA)
- Social Psychology (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于增强式深度残差神经网络的多模态语音情感识别方法,涉及视频流图像处理和语音信号分析等技术领域,解决人机交互的情感识别问题。本发明主要有提取视频(序列数据)与语音的特征表达,包括将语音数据转换为相应的语谱图表达,以及对时序数据进行编码;使用卷积神经网络提取原始数据的情感特征表达用于分类,模型接受多输入并且输入维度不等,提出交叉卷积层对不同模态的数据特征进行融合,模型使用的整体网络结构是增强式深度残差神经网络;模型初始化后,使用语音语谱图、序列视频信息及相应的情感标签训练多分类模型,训练完毕后对未标记的语音和视频进行预测,得到情感预测的概率值,选择概率最大值作为该多模态数据的情感类别。本发明在多模态情感识别问题上提高了识别准确率。
Description
技术领域
一种基于增强式深度残差神经网络的多模态语音情感识别方法,涉及视频流图像处理和语音信号分析等技术领域,解决人机交互的情感识别问题。
背景技术
随着计算机技术的快速发展,人类对计算机的依赖性和要求不断增强,如何更好地实现计算机的拟人化成为了一个研究热点,拥有“情感”已经成为了计算机下一代的研究目标。情感可以通过多种沟通方式传递,例如文本,语音,视频等。通过单一的信息,往往不能够很好地理解情感,因此多模态数据的情感识别是目前模式识别的主要眼界方向。
传统的多模态研究方法主要依赖面部表情信息,通过面部特征提取对情感进行分类,或者根据语音信息提取特征,首先采集特定人面部表情样本建立面部表情数据库,或者采集特定人语音样本建立语音数据库。传统的研究点通常是征对所有形式大数据统一的研究方法,例如有特征提取,特征选择,特征归一化等。该项目研究征对语音大数据的特点,研究基于傅里叶变换的频域特征选择,研究频域特征,例如MFCC,语谱图等的特征级别数据融合技术。但是由于语音与图像信息往往是高维度的数据,传统的计算方法不能很好地进行特征学习。
针对大数据多维度,特征稀疏等特点,研究数据融合方法,利用深度学习的强大学习能力,在不丢失数据特征下,结合其他模态,例如视频图像,文本等,从深度学习“深”的特点出发,通过借鉴深度模型的强大能力,通过增加深度的非线性连接设计多深度,多广度的数据融合模型,提高情感的辨识度。
发明内容
本发明提供了一种基于增强式深度残差神经网络的多模态语音情感识别方法,解决人机交互问题中情感识别问题,实现大数据高维度数据的有效融合,提高情感识别任务的效果。
为了实现上述目的,本发明所采用的技术方案是:
基于增强式深度残差神经网络的多模态语音情感识别方法,其特征在于利用残差网络交叉融合多模态的输入信息,包括如下步骤:
(1)将多模态输入数据进行预处理,包括转换语音数据为相应的语谱图,处理视频流数据组织成时序表达;
(2)设计网络模型,使用增强式深度残差神经网络,对维度不等的多模态输入信息进行特征提取与特征融合;
(3)训练与测试模型,使用匹配的多模态输入数据及对应的情感类别标签,训练深度神经网络模型;训练好的的模型对未标记的多模态输入数据进行预测,得到各类情感预测的概率值,选择较高概率值的类别作为情感识别的结果。
进一步,所述步骤(1)中包括如下步骤:
(11)语音预处理:语音的特征表达是预处理的关键步骤,本发明采用语谱图作为语音特征的一种表示,相比于其他特征提取算法,语谱图包含了更多的语音原始信息包括时间、频率、振幅等信息,降低了语音维度的同时保留了大部分语音的原始信息;
(12)视频流预处理:视频流数据主要包含对人体的面部表情与肢体动作在视频的变化的移动信息记录,将每个时刻视频内的位置信息(面部,头部,手)构成一个一维表达,将多个时刻的一维表达合并,并通过滑动窗口的处理,得到统一的时序数据表达。
进一步,所述步骤(2)中包括如下步骤:
(21)所述步骤(2)中使用残差卷积神经网络提取输入特征的基本结构可用下述公式表示:
其中,定义了卷积层的输入,表示线性映射的权值,仅当输入经过卷积操作后,数据维度发生了变化,因此无法使用对位相加的操作,需要对进行维度映射,其中是卷积核函数,表示卷积层中用于学习非线性映射的权值;
(22)所述步骤(2)中使用残差卷积神经网络融合多模态输入特征的基本结构可用下述步骤计算所得:
首先,对不同模态的输入数据进行特征提取,如所述步骤(2)中的特征提取公式:
其中是卷积层的某种模态,如语谱图,则表示为另外一种模态的输入数据,其中和是卷积层的卷积权值,和则为卷积层的特征表达输出;
当输入数据连接进网络提取特征之后,特征融合的基本表达如下:
其中,为模型所定义的融合函数;更进一步,这里给出三种不同的具体的融合函数:
加权融合函数表示为卷积操作后两种模态的特征数据和之间进行对位相加的操作,公式计算如下:
乘积融合函数为卷积操作后两种模态的特征数据和之间进行对位相乘的操作,公式计算如下:
Max融合函数为卷积操作后两种模态的特征数据和之间进行对位取最大值的操作,公式计算如下:
合并融合函数为卷积操作后两种模态的特征数据和之间在通道上面进行合并操作,公式计算如下:
其中表示卷积特征的通道数,表示卷积特征表达的大小。
进一步,所述步骤(3)中包括如下步骤:
(31)构建数据集:对每组语音与视频进行步骤(1)的数据处理操作后得到网络的最终输入,同时数值化情感类别,给出对应的编码,同时划分测试集,训练集数据;
(32)初始化网络权值:根据步骤(2)的增强式深度残差神经网络的基本结构,具体化设计网络的整体结构,同时初始化网络的全部可训练权值。
(33)训练网络:定义目标损失函数,采用反向传播算法对网络的各权值梯度进行计算,从而更新网络权值;
(34)测试网络:采用训练完毕的网络权值与定义好的网络结构,将未训练的测试数据输入网络,根据网络最后的输出结果,预测输入数据中所包含的情感类别。
与现有技术相比,本发明的优点在于:
一、高维度数据的特征提取本身是一大主要问题,采用最先进的深度残差网络可以更好地进行特征学习;
二、高维度数据的特征融合是本发明研究的重点,通过提出四种不同的融合函数,对多种不同模态的特征数据进行融合;
三、本模型能够根据不同维度的输入进行对应的特征提取模块,解决了输入维度不等的问题。
附图说明
图1为本发明中多模态语音情感分类的深度残差模型图;
图2为本发明中多模态语音情感分类的流程图;
图3为本发明中多模态数据融合模块的拓扑图。
具体实施方案
下面结合附图和实施例对本发明作进一步的说明。
参见图1,一种基于增强式深度残差神经网络的多模态语音情感识别方法的核心模型是一个交叉增强后的深度残差神经网路模型,该模型可以接受维度不同的多种模态数据:语音、视频等,同时残差卷积的基本结构可以对数据进行特征提取,同时交叉式残差卷积结构以及融合函数使得多模态数据得以充分的融合,从而有效地提高了情感识别的准确性。
参见图2,一种基于增强式深度残差神经网络的多模态语音情感识别方法的整体数据流程,具体步骤如下:
(11)音频预处理:将原始的语音信号进行语谱图特征提取,相比于其他特征提取算法,语谱图包含了更多的语音原始信息包括时间、频率、振幅等信息,最后语谱图统一的规格表达为(224,224);
(12)视频预处理:对视频流中人体的面部表情与肢体动作在视频的变化的移动信息进行记录,每个时刻视频内的位置信息(面部,头部,手)构成一个一维表达,将多个时刻的一维表达合并。要求考虑网络的输入统一规格,通过滑动窗口的处理,得到统一规格的视频流信息表达(224,183)。
(21)将不同模态的数据输入网络进行特征提取,网络的卷积模块使用残差卷积模块,其基本结构可用下述公式表示:
其中,定义了卷积层的输入,表示线性映射的权值,仅当输入经过卷积操作后,
数据维度发生了变化,因此无法使用对位相加的操作,需要对进行维度映射,其中是卷积核函数,表示卷积层中用于学习非线性映射的权值
(22)经过多层残差卷积模块提取特后,数据融合多模态输入会不同模态的输入数据进行特征融合,其特征融合表示为公式:
其中,为模型所定义的融合函数;和则为经过卷积操作后不同模态特征表达
输出。这里给出三种不同的具体的融合函数:
加权融合函数表示为卷积操作后两种模态的特征数据和之间进行对位相加的操
作,公式计算如下:
乘积融合函数为卷积操作后两种模态的特征数据和之间进行对位相乘的操作,公
式计算如下:
Max融合函数为卷积操作后两种模态的特征数据和之间进行对位取最大值的操
作,公式计算如下:
合并融合函数为卷积操作后两种模态的特征数据和之间在通道上面进行合并操
作,公式计算如下:
其中表示卷积特征的通道数,表示卷积特征表达的大小。
网络对多模态的输入数据进行特征提取与特征融合步骤后,通过计算最后一层对不同情感类别的概率,选取概率最大的所属类别作为预测的结果。
参见图3,一种基于增强式深度残差神经网络的多模态语音情感识别方法的数据
融合函数拓扑图,和是网络经过卷积操作后对不同模态的数据进行的特征表达,在每一
层都先经过残差基本结构的卷积提取后再将信息与另一模态特征进行融合,层层递进,一
直到最后再通过融合模块进行交叉,相比于传统做法,大大加强了数据融合,并且有效地对
高维数据进行特征学习。
Claims (4)
1.一种基于增强式深度残差神经网络的多模态语音情感识别方法,其特征在于利用残差网络交叉融合多模态的输入信息,包括如下步骤:
(1)将语音数据转换为相应的语谱图,将视频流数据处理成时序数据;
(2)使用增强式深度残差神经网络,对维度不等的多模态输入信息进行特征提取与特征融合;
(3)使用匹配的多模态输入数据及对应的情感类别标签,训练深度神经网络模型;训练好的的模型对未标记的多模态输入数据进行预测,得到各类情感预测的概率值,选择较高概率值的类别作为情感识别的结果。
2.根据权利要求1所述的一种基于增强式深度残差神经网络的多模态情感识别方法,所述步骤(1)中包括如下步骤:
(11)语音语谱图:语谱图是语音特征的一种表示,相比于其他特征提取算法,语谱图包含了更多的语音原始信息包括时间、频率、振幅等信息,而且语谱图统一的规格表达为(224,224);
(12)视频流特征表达:视频流数据主要是对人体的面部表情与肢体动作在视频的变化的移动信息记录,每个时刻视频内的位置信息(面部,头部,手)构成一个一维表达,将多个时刻的一维表达合并;要求考虑网络的输入统一规格,通过滑动窗口的处理,得到统一规格的视频流信息表达(224,183)。
3.根据权利要求1所述的一种基于增强式深度残差神经网络的多模态情感识别方法,所述步骤(2)中包括如下步骤:
(21)所述步骤(2)中使用残差卷积神经网络提取输入特征的基本结构可用下述公式表示:
其中,定义了卷积层的输入,表示线性映射的权值,仅当输入经过卷积操作后,数据维度发生了变化,因此无法使用对位相加的操作,需要对进行维度映射,其中是卷积核函数,表示卷积层中用于学习非线性映射的权值;
(22)所述步骤(2)中使用残差卷积神经网络融合多模态输入特征的基本结构可用下述步骤计算所得:
首先,对不同模态的输入数据进行特征提取,如所述步骤(2)中的特征提取公式:
其中是卷积层的某种模态,如语谱图,则表示为另外一种模态的输入数据,其中和是卷积层的卷积权值,和则为卷积层的特征表达输出;
当输入数据连接进网络提取特征之后,特征融合的基本表达如下:
其中,为模型所定义的融合函数;更进一步,这里给出三种不同的具体的融合函数:
加权融合函数表示为卷积操作后两种模态的特征数据和之间进行对位相加的操作,公式计算如下:
乘积融合函数为卷积操作后两种模态的特征数据和之间进行对位相乘的操作,公式计算如下:
Max融合函数为卷积操作后两种模态的特征数据和之间进行对位取最大值的操作,公式计算如下:
合并融合函数为卷积操作后两种模态的特征数据和之间在通道上面进行合并操作,公式计算如下:
其中表示卷积特征的通道数,表示卷积特征表达的大小。
4.根据权利要求1所述的一种基于增强式深度残差神经网络的多模态情感识别方法,所述步骤(3)中包括如下步骤:
(31)准备数据与标签:对每组语音与视频进行步骤(1)的数据处理操作后得到网络的最终输入,同时数值化情感类别,给出对应的编码;
(32)网络初始化:根据步骤(2)的增强式深度残差神经网络的基本结构,具体化设计网络的整体结构,同时初始化网络的全部可训练权值;
(33)网络训练:定义损失函数,采用反向传播算法对网络的梯度进行计算,从而更新网络权值;
(34)网络测试:根据训练完毕的网络权值与定义好的网络结构,将未训练的测试数据输入网络,根据网络最后的输出结果,预测输入数据中所包含的情感类别。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811346114.6A CN109460737A (zh) | 2018-11-13 | 2018-11-13 | 一种基于增强式残差神经网络的多模态语音情感识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811346114.6A CN109460737A (zh) | 2018-11-13 | 2018-11-13 | 一种基于增强式残差神经网络的多模态语音情感识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109460737A true CN109460737A (zh) | 2019-03-12 |
Family
ID=65610193
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811346114.6A Pending CN109460737A (zh) | 2018-11-13 | 2018-11-13 | 一种基于增强式残差神经网络的多模态语音情感识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109460737A (zh) |
Cited By (27)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110189749A (zh) * | 2019-06-06 | 2019-08-30 | 四川大学 | 语音关键词自动识别方法 |
CN110534133A (zh) * | 2019-08-28 | 2019-12-03 | 珠海亿智电子科技有限公司 | 一种语音情感识别系统及语音情感识别方法 |
CN110705413A (zh) * | 2019-09-24 | 2020-01-17 | 清华大学 | 基于视线方向和lstm神经网络的情感预测方法及系统 |
CN111164601A (zh) * | 2019-12-30 | 2020-05-15 | 深圳市优必选科技股份有限公司 | 情感识别方法、智能装置和计算机可读存储介质 |
CN111243591A (zh) * | 2020-02-25 | 2020-06-05 | 上海麦图信息科技有限公司 | 一种引入外部数据校正的空中管制语音识别方法 |
CN111259976A (zh) * | 2020-01-21 | 2020-06-09 | 中山大学 | 基于多模态对齐与多向量表征的人格检测方法 |
CN111276125A (zh) * | 2020-02-11 | 2020-06-12 | 华南师范大学 | 一种面向边缘计算的轻量级语音关键词识别方法 |
CN111401268A (zh) * | 2020-03-19 | 2020-07-10 | 内蒙古工业大学 | 一种面向开放环境的多模态情感识别方法及装置 |
CN111429947A (zh) * | 2020-03-26 | 2020-07-17 | 重庆邮电大学 | 一种基于多级残差卷积神经网络的语音情感识别方法 |
CN111582042A (zh) * | 2020-04-15 | 2020-08-25 | 五邑大学 | 一种校园安全管理方法、系统、装置和存储介质 |
CN111626182A (zh) * | 2020-05-25 | 2020-09-04 | 浙江大学 | 一种基于视频的人体心率及面部血容积精确检测方法和系统 |
CN111797660A (zh) * | 2019-04-09 | 2020-10-20 | Oppo广东移动通信有限公司 | 图像贴标方法、装置、存储介质及电子设备 |
CN111883179A (zh) * | 2020-07-21 | 2020-11-03 | 四川大学 | 一种基于大数据机器学习的情感语音识别方法 |
CN112418172A (zh) * | 2020-12-11 | 2021-02-26 | 苏州元启创人工智能科技有限公司 | 基于多模信息智能处理单元的多模信息融合情感分析方法 |
CN112699907A (zh) * | 2019-10-22 | 2021-04-23 | 华为技术有限公司 | 数据融合的方法、装置和设备 |
CN112750426A (zh) * | 2021-02-01 | 2021-05-04 | 福州大学 | 移动终端语音分析系统 |
CN112906624A (zh) * | 2021-03-12 | 2021-06-04 | 合肥工业大学 | 一种基于音视频多模态时序预测的视频数据特征提取方法 |
CN112949313A (zh) * | 2019-12-11 | 2021-06-11 | 中移(苏州)软件技术有限公司 | 信息处理模型训练方法、装置、设备及存储介质 |
CN112951258A (zh) * | 2021-04-23 | 2021-06-11 | 中国科学技术大学 | 一种音视频语音增强处理方法及模型 |
CN113128284A (zh) * | 2019-12-31 | 2021-07-16 | 上海汽车集团股份有限公司 | 一种多模态情感识别方法和装置 |
CN113361559A (zh) * | 2021-03-12 | 2021-09-07 | 华南理工大学 | 基于深宽度联合神经网络的多模态数据知识信息提取方法 |
CN113449682A (zh) * | 2021-07-15 | 2021-09-28 | 四川九洲电器集团有限责任公司 | 一种基于动态融合模型识别民航领域射频指纹的方法 |
CN113807468A (zh) * | 2021-10-15 | 2021-12-17 | 南京澄实生物科技有限公司 | 基于多模态深度编码的hla抗原呈递预测方法和系统 |
CN114078484A (zh) * | 2020-08-18 | 2022-02-22 | 北京有限元科技有限公司 | 语音情绪识别的方法、装置以及存储介质 |
CN114245280A (zh) * | 2021-12-20 | 2022-03-25 | 清华大学深圳国际研究生院 | 一种基于神经网络的场景自适应助听器音频增强系统 |
CN114548221A (zh) * | 2022-01-17 | 2022-05-27 | 苏州大学 | 小样本不均衡语音数据库的生成式数据增强方法及系统 |
CN118097156A (zh) * | 2024-04-26 | 2024-05-28 | 百洋智能科技集团股份有限公司 | 盆底功能障碍检测方法、装置、计算机设备与存储介质 |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050289582A1 (en) * | 2004-06-24 | 2005-12-29 | Hitachi, Ltd. | System and method for capturing and using biometrics to review a product, service, creative work or thing |
CN102819744A (zh) * | 2012-06-29 | 2012-12-12 | 北京理工大学 | 一种双通道信息融合的情感识别方法 |
CN103400145A (zh) * | 2013-07-19 | 2013-11-20 | 北京理工大学 | 基于线索神经网络的语音-视觉融合情感识别方法 |
CN104361316A (zh) * | 2014-10-30 | 2015-02-18 | 中国科学院自动化研究所 | 一种基于多尺度时序建模的维度情感识别方法 |
CN105512609A (zh) * | 2015-11-25 | 2016-04-20 | 北京工业大学 | 一种基于核超限学习机的多模融合视频情感识别方法 |
CN106096641A (zh) * | 2016-06-07 | 2016-11-09 | 南京邮电大学 | 一种基于遗传算法的多模态情感特征融合方法 |
CN106228977A (zh) * | 2016-08-02 | 2016-12-14 | 合肥工业大学 | 基于深度学习的多模态融合的歌曲情感识别方法 |
CN106847309A (zh) * | 2017-01-09 | 2017-06-13 | 华南理工大学 | 一种语音情感识别方法 |
CN107092895A (zh) * | 2017-05-09 | 2017-08-25 | 重庆邮电大学 | 一种基于深度信念网络的多模态情感识别方法 |
CN107220591A (zh) * | 2017-04-28 | 2017-09-29 | 哈尔滨工业大学深圳研究生院 | 多模态智能情绪感知系统 |
CN108597539A (zh) * | 2018-02-09 | 2018-09-28 | 桂林电子科技大学 | 基于参数迁移和语谱图的语音情感识别方法 |
CN108596039A (zh) * | 2018-03-29 | 2018-09-28 | 南京邮电大学 | 一种基于3d卷积神经网络的双模态情感识别方法及系统 |
-
2018
- 2018-11-13 CN CN201811346114.6A patent/CN109460737A/zh active Pending
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050289582A1 (en) * | 2004-06-24 | 2005-12-29 | Hitachi, Ltd. | System and method for capturing and using biometrics to review a product, service, creative work or thing |
CN102819744A (zh) * | 2012-06-29 | 2012-12-12 | 北京理工大学 | 一种双通道信息融合的情感识别方法 |
CN103400145A (zh) * | 2013-07-19 | 2013-11-20 | 北京理工大学 | 基于线索神经网络的语音-视觉融合情感识别方法 |
CN104361316A (zh) * | 2014-10-30 | 2015-02-18 | 中国科学院自动化研究所 | 一种基于多尺度时序建模的维度情感识别方法 |
CN105512609A (zh) * | 2015-11-25 | 2016-04-20 | 北京工业大学 | 一种基于核超限学习机的多模融合视频情感识别方法 |
CN106096641A (zh) * | 2016-06-07 | 2016-11-09 | 南京邮电大学 | 一种基于遗传算法的多模态情感特征融合方法 |
CN106228977A (zh) * | 2016-08-02 | 2016-12-14 | 合肥工业大学 | 基于深度学习的多模态融合的歌曲情感识别方法 |
CN106847309A (zh) * | 2017-01-09 | 2017-06-13 | 华南理工大学 | 一种语音情感识别方法 |
CN107220591A (zh) * | 2017-04-28 | 2017-09-29 | 哈尔滨工业大学深圳研究生院 | 多模态智能情绪感知系统 |
CN107092895A (zh) * | 2017-05-09 | 2017-08-25 | 重庆邮电大学 | 一种基于深度信念网络的多模态情感识别方法 |
CN108597539A (zh) * | 2018-02-09 | 2018-09-28 | 桂林电子科技大学 | 基于参数迁移和语谱图的语音情感识别方法 |
CN108596039A (zh) * | 2018-03-29 | 2018-09-28 | 南京邮电大学 | 一种基于3d卷积神经网络的双模态情感识别方法及系统 |
Cited By (47)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111797660A (zh) * | 2019-04-09 | 2020-10-20 | Oppo广东移动通信有限公司 | 图像贴标方法、装置、存储介质及电子设备 |
CN110189749B (zh) * | 2019-06-06 | 2021-03-19 | 四川大学 | 语音关键词自动识别方法 |
CN110189749A (zh) * | 2019-06-06 | 2019-08-30 | 四川大学 | 语音关键词自动识别方法 |
CN110534133A (zh) * | 2019-08-28 | 2019-12-03 | 珠海亿智电子科技有限公司 | 一种语音情感识别系统及语音情感识别方法 |
CN110534133B (zh) * | 2019-08-28 | 2022-03-25 | 珠海亿智电子科技有限公司 | 一种语音情感识别系统及语音情感识别方法 |
CN110705413A (zh) * | 2019-09-24 | 2020-01-17 | 清华大学 | 基于视线方向和lstm神经网络的情感预测方法及系统 |
CN112699907B (zh) * | 2019-10-22 | 2024-02-09 | 华为云计算技术有限公司 | 数据融合的方法、装置和设备 |
CN112699907A (zh) * | 2019-10-22 | 2021-04-23 | 华为技术有限公司 | 数据融合的方法、装置和设备 |
CN112949313A (zh) * | 2019-12-11 | 2021-06-11 | 中移(苏州)软件技术有限公司 | 信息处理模型训练方法、装置、设备及存储介质 |
CN111164601B (zh) * | 2019-12-30 | 2023-07-18 | 深圳市优必选科技股份有限公司 | 情感识别方法、智能装置和计算机可读存储介质 |
CN111164601A (zh) * | 2019-12-30 | 2020-05-15 | 深圳市优必选科技股份有限公司 | 情感识别方法、智能装置和计算机可读存储介质 |
CN113128284A (zh) * | 2019-12-31 | 2021-07-16 | 上海汽车集团股份有限公司 | 一种多模态情感识别方法和装置 |
CN111259976B (zh) * | 2020-01-21 | 2023-05-23 | 中山大学 | 基于多模态对齐与多向量表征的人格检测方法 |
CN111259976A (zh) * | 2020-01-21 | 2020-06-09 | 中山大学 | 基于多模态对齐与多向量表征的人格检测方法 |
CN111276125B (zh) * | 2020-02-11 | 2023-04-07 | 华南师范大学 | 一种面向边缘计算的轻量级语音关键词识别方法 |
CN111276125A (zh) * | 2020-02-11 | 2020-06-12 | 华南师范大学 | 一种面向边缘计算的轻量级语音关键词识别方法 |
CN111243591A (zh) * | 2020-02-25 | 2020-06-05 | 上海麦图信息科技有限公司 | 一种引入外部数据校正的空中管制语音识别方法 |
CN111243591B (zh) * | 2020-02-25 | 2023-03-21 | 上海麦图信息科技有限公司 | 一种引入外部数据校正的空中管制语音识别方法 |
CN111401268B (zh) * | 2020-03-19 | 2022-11-15 | 内蒙古工业大学 | 一种面向开放环境的多模态情感识别方法及装置 |
CN111401268A (zh) * | 2020-03-19 | 2020-07-10 | 内蒙古工业大学 | 一种面向开放环境的多模态情感识别方法及装置 |
CN111429947B (zh) * | 2020-03-26 | 2022-06-10 | 重庆邮电大学 | 一种基于多级残差卷积神经网络的语音情感识别方法 |
CN111429947A (zh) * | 2020-03-26 | 2020-07-17 | 重庆邮电大学 | 一种基于多级残差卷积神经网络的语音情感识别方法 |
CN111582042A (zh) * | 2020-04-15 | 2020-08-25 | 五邑大学 | 一种校园安全管理方法、系统、装置和存储介质 |
CN111626182B (zh) * | 2020-05-25 | 2021-03-26 | 浙江大学 | 一种基于视频的人体心率及面部血容积精确检测方法和系统 |
CN111626182A (zh) * | 2020-05-25 | 2020-09-04 | 浙江大学 | 一种基于视频的人体心率及面部血容积精确检测方法和系统 |
CN111883179B (zh) * | 2020-07-21 | 2022-04-15 | 四川大学 | 一种基于大数据机器学习的情感语音识别方法 |
CN111883179A (zh) * | 2020-07-21 | 2020-11-03 | 四川大学 | 一种基于大数据机器学习的情感语音识别方法 |
CN114078484A (zh) * | 2020-08-18 | 2022-02-22 | 北京有限元科技有限公司 | 语音情绪识别的方法、装置以及存储介质 |
CN114078484B (zh) * | 2020-08-18 | 2023-06-09 | 北京有限元科技有限公司 | 语音情绪识别的方法、装置以及存储介质 |
CN112418172A (zh) * | 2020-12-11 | 2021-02-26 | 苏州元启创人工智能科技有限公司 | 基于多模信息智能处理单元的多模信息融合情感分析方法 |
CN112750426B (zh) * | 2021-02-01 | 2023-10-20 | 福州大学 | 移动终端语音分析系统 |
CN112750426A (zh) * | 2021-02-01 | 2021-05-04 | 福州大学 | 移动终端语音分析系统 |
CN112906624B (zh) * | 2021-03-12 | 2022-09-13 | 合肥工业大学 | 一种基于音视频多模态时序预测的视频数据特征提取方法 |
CN113361559B (zh) * | 2021-03-12 | 2023-10-17 | 华南理工大学 | 基于深宽度联合神经网络的多模态数据知识信息提取方法 |
CN113361559A (zh) * | 2021-03-12 | 2021-09-07 | 华南理工大学 | 基于深宽度联合神经网络的多模态数据知识信息提取方法 |
CN112906624A (zh) * | 2021-03-12 | 2021-06-04 | 合肥工业大学 | 一种基于音视频多模态时序预测的视频数据特征提取方法 |
CN112951258A (zh) * | 2021-04-23 | 2021-06-11 | 中国科学技术大学 | 一种音视频语音增强处理方法及模型 |
CN112951258B (zh) * | 2021-04-23 | 2024-05-17 | 中国科学技术大学 | 一种音视频语音增强处理方法及装置 |
CN113449682A (zh) * | 2021-07-15 | 2021-09-28 | 四川九洲电器集团有限责任公司 | 一种基于动态融合模型识别民航领域射频指纹的方法 |
CN113449682B (zh) * | 2021-07-15 | 2023-08-08 | 四川九洲电器集团有限责任公司 | 一种基于动态融合模型识别民航领域射频指纹的方法 |
CN113807468B (zh) * | 2021-10-15 | 2022-05-27 | 南京澄实生物科技有限公司 | 基于多模态深度编码的hla抗原呈递预测方法和系统 |
CN113807468A (zh) * | 2021-10-15 | 2021-12-17 | 南京澄实生物科技有限公司 | 基于多模态深度编码的hla抗原呈递预测方法和系统 |
CN114245280B (zh) * | 2021-12-20 | 2023-06-23 | 清华大学深圳国际研究生院 | 一种基于神经网络的场景自适应助听器音频增强系统 |
CN114245280A (zh) * | 2021-12-20 | 2022-03-25 | 清华大学深圳国际研究生院 | 一种基于神经网络的场景自适应助听器音频增强系统 |
CN114548221B (zh) * | 2022-01-17 | 2023-04-28 | 苏州大学 | 小样本不均衡语音数据库的生成式数据增强方法及系统 |
CN114548221A (zh) * | 2022-01-17 | 2022-05-27 | 苏州大学 | 小样本不均衡语音数据库的生成式数据增强方法及系统 |
CN118097156A (zh) * | 2024-04-26 | 2024-05-28 | 百洋智能科技集团股份有限公司 | 盆底功能障碍检测方法、装置、计算机设备与存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109460737A (zh) | 一种基于增强式残差神经网络的多模态语音情感识别方法 | |
Poria et al. | A review of affective computing: From unimodal analysis to multimodal fusion | |
Chen et al. | Multimodal sentiment analysis with word-level fusion and reinforcement learning | |
CN110674339B (zh) | 一种基于多模态融合的中文歌曲情感分类方法 | |
Zheng et al. | Deep learning for surface material classification using haptic and visual information | |
Zhang et al. | Deep learning-based multimodal emotion recognition from audio, visual, and text modalities: A systematic review of recent advancements and future prospects | |
CN113420807A (zh) | 基于多任务学习与注意力机制的多模态融合情感识别系统、方法及实验评价方法 | |
Gangeh et al. | Multiview supervised dictionary learning in speech emotion recognition | |
CN112818861A (zh) | 一种基于多模态上下文语义特征的情感分类方法及系统 | |
CN109271493A (zh) | 一种语言文本处理方法、装置和存储介质 | |
Guo et al. | Jointly learning of visual and auditory: A new approach for RS image and audio cross-modal retrieval | |
CN105549885A (zh) | 滑屏操控中用户情绪的识别方法和装置 | |
Lin et al. | PS-mixer: A polar-vector and strength-vector mixer model for multimodal sentiment analysis | |
Asali et al. | Deepmsrf: A novel deep multimodal speaker recognition framework with feature selection | |
Latif et al. | Multitask learning from augmented auxiliary data for improving speech emotion recognition | |
CN115545093A (zh) | 一种多模态数据的融合方法、系统及存储介质 | |
Prasanna et al. | Machine and deep‐learning techniques for text and speech processing | |
CN117672268A (zh) | 基于相对熵对齐融合的多模态语音情感识别方法 | |
Han et al. | Boosted subunits: a framework for recognising sign language from videos | |
Yasmin et al. | A rough set theory and deep learning-based predictive system for gender recognition using audio speech | |
Hosseini et al. | Multimodal modelling of human emotion using sound, image and text fusion | |
Akbal et al. | Development of novel automated language classification model using pyramid pattern technique with speech signals | |
Robert et al. | A review on computational methods based automated sign language recognition system for hearing and speech impaired community | |
Liu et al. | Audiovisual cross-modal material surface retrieval | |
Fang et al. | Learning coordinated emotion representation between voice and face |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20190312 |