CN112037822B - 基于ICNN与Bi-LSTM的语音情感识别方法 - Google Patents
基于ICNN与Bi-LSTM的语音情感识别方法 Download PDFInfo
- Publication number
- CN112037822B CN112037822B CN202010751797.4A CN202010751797A CN112037822B CN 112037822 B CN112037822 B CN 112037822B CN 202010751797 A CN202010751797 A CN 202010751797A CN 112037822 B CN112037822 B CN 112037822B
- Authority
- CN
- China
- Prior art keywords
- frequency
- low
- characteristic diagram
- feature
- convolution
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 44
- 230000008909 emotion recognition Effects 0.000 title claims abstract description 38
- 230000002452 interceptive effect Effects 0.000 claims abstract description 44
- 230000008451 emotion Effects 0.000 claims abstract description 18
- 230000002457 bidirectional effect Effects 0.000 claims abstract description 11
- 230000004913 activation Effects 0.000 claims abstract description 10
- 238000010586 diagram Methods 0.000 claims description 90
- 230000004927 fusion Effects 0.000 claims description 26
- 238000001228 spectrum Methods 0.000 claims description 20
- 238000011176 pooling Methods 0.000 claims description 18
- 238000004590 computer program Methods 0.000 claims description 13
- 238000000605 extraction Methods 0.000 claims description 12
- 238000003062 neural network model Methods 0.000 claims description 9
- 238000013527 convolutional neural network Methods 0.000 claims description 7
- 238000013507 mapping Methods 0.000 claims description 6
- 238000005070 sampling Methods 0.000 claims description 4
- 238000009432 framing Methods 0.000 claims description 3
- 230000003993 interaction Effects 0.000 abstract description 7
- 238000005516 engineering process Methods 0.000 description 5
- 210000004027 cell Anatomy 0.000 description 4
- 230000006870 function Effects 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 210000005069 ears Anatomy 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000008447 perception Effects 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000002996 emotional effect Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000014759 maintenance of location Effects 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/63—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- Evolutionary Computation (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- General Health & Medical Sciences (AREA)
- Signal Processing (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Biomedical Technology (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Child & Adolescent Psychology (AREA)
- Hospice & Palliative Care (AREA)
- Psychiatry (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及一种基于ICNN与Bi‑LSTM的语音情感识别方法,通过利用预设的参数对所述特征图进行分割并进行卷积,得到高频特征图和低频特征图;利用交互卷积层对所述高频特征图和所述低频特征图进行交互卷积,并利用激活层对交互卷积层输出的第一高频特征图、第二高频特征图、第一低频特征图和第二低频特征图进行融合,得到高频输出和低频输出,实现高低频特征图之间的信息交互;利用第二卷积层将所述高频输出和所述低频输出进行卷积,并恢复成与输入特征图大小一致的第一语音特征,通过融合第一语音特征和双向长短时记忆模型提取的第二语音特征并作为情感分类器的输入,以获取准确率高的语音识别结果。
Description
技术领域
本发明涉及基于语音情感识别技术领域,尤其是涉及一种基于ICNN与Bi-LSTM的语音情感识别方法。
背景技术
语音是人们日常生活中最重要、最自然也最直接的交流方式,包含着人们丰富的情感表达。随着人机交互技术的不断发展,基于语音的智能交互场景逐渐成为新一代人机交互的重点研究对象。语音情感识别技术的算法也从传统的机器学习对离散情感的分类发展到利用深度学习建模实现情感的识别分类。
然而,由于语音情感特征的复杂性和多样性,语音情感识别的准确率较低。
发明内容
本申请实施例提供了一种基于ICNN与Bi-LSTM的语音情感识别方法,可以提高语音情感识别的效率和准确性。所述技术方案如下:
第一方面,本申请实施例提供了一种基于ICNN与Bi-LSTM的语音情感识别方法,包括以下步骤:
获取语音信号的对数梅尔谱图;
获取所述对数梅尔谱图的特征图;
将所述特征图输入交互卷积神经网络模型中进行特征提取,得到第一语音特征;
利用双向长短时记忆模型对所述对数梅尔谱图进行学习,获取第二语音特征;
将所述第一语音特征和所述第二语音特征输入全连接层进行融合,得到融合特征;
将所述融合特征输入情感分类器中,获取语音识别结果;
其中,所述交互卷积神经网络模型包括:
第一卷积层,用于利用预设的参数对所述特征图进行分割并进行卷积,得到高频特征图和低频特征图;
交互卷积层,用于对所述高频特征图和所述低频特征图进行交互卷积,获取第一高频特征图、第二高频特征图、第一低频特征图和第二低频特征图;
激活层,用于对所述第一高频特征图和所述第二高频特征图进行融合,获得高频输出;对所述第一低频特征图和所述第二低频特征图进行融合,获得低频输出;
第二卷积层,用于将所述高频输出和所述低频输出合并,并输出与输入特征图大小一致的第一语音特征。
可选的,所述获取语音信号的对数梅尔谱图,包括:
获取语音信号;
将所述语音信号进行分帧、加窗并进行傅里叶变换,获取若干帧信号;
将所述若干帧信号进行堆叠,获取声谱图;
将所述声谱图输入梅尔尺度滤波器组,得到梅尔谱图;
对所述梅尔谱图取对数,得到语音信号的对数梅尔谱图。
可选的,所述第一高频特征图为高频特征映射到高频的高频输出,所述第二高频特征图为低频特征映射到高频的高频输出,所述第一低频特征图为高频特征映射到低频的低频输出,所述第二低频特征图为低频特征映射到低频的低频输出;
对所述高频特征图和所述低频特征图进行交互卷积的步骤包括:
对所述高频特征图进行卷积输出通道数的设置,卷积后得到高频特征映射到高频的高频输出和高频特征映射到低频的低频输出;
对所述低频特征图进行卷积输出通道数的设置,卷积后得到低频特征映射到低频的低频输出和低频特征映射到高频的高频输出。
可选的,在对所述高频特征图进行高频映射到低频的卷积操作之前,还包括:
按照预设的空间分辨率,利用平均池化法对高频特征图中进行降采样;
在对所述低频特征图进行低频映射到高频的卷积操作之前,还包括:
按照预设的空间分辨率,对所述低频特征图进行上采样。
可选的,所述交互卷积层和所述第二卷积层之间还包括池化层,所述池化层用于获取所述高频输出和低频输出中各池化窗口内的最大特征并去除该池化窗口的其它特征。
可选的,将所述第一语音特征输入全连接层进行融合之前,还包括:
将所述第一语音特征再次输入所述交互卷积神经网络模型中进行特征提取。
可选的,获取所述对数梅尔谱图的特征图,包括:
对所述对数梅尔谱图进行1*1的卷积。
第二方面,本申请实施例提供了一种基于ICNN与Bi-LSTM的语音情感识别装置,包括:
对数梅尔谱图获取模块,用于获取语音信号的对数梅尔谱图;
特征图获取模块,用于获取所述对数梅尔谱图的特征图;
第一语音特征获取模块,用于将所述特征图输入交互卷积神经网络模型中进行特征提取,得到第一语音特征;
第二语音特征获取模块,用于利用双向长短时记忆模型对所述对数梅尔谱图进行学习,获取第二语音特征;
特征融合模块,用于将所述第一语音特征和所述第二语音特征输入全连接层进行融合,得到融合特征;
语音识别模块,用于将所述融合特征输入情感分类器中,获取语音识别结果;
其中,所述交互卷积神经网络模型包括:
第一卷积层,用于利用预设的参数对所述特征图进行分割并进行卷积,得到高频特征图和低频特征图;
交互卷积层,用于对所述高频特征图和所述低频特征图进行交互卷积,获取第一高频特征图、第二高频特征图、第一低频特征图和第二低频特征图;
激活层,用于对所述第一高频特征图和所述第二高频特征图进行融合,获得高频输出;对所述第一低频特征图和所述第二低频特征图进行融合,获得低频输出;
第二卷积层,用于将所述高频输出和所述低频输出合并,并输出与输入特征图大小一致的第一语音特征。
第三方面,本申请实施例提供了一种计算机可读存储介质,其上储存有计算机程序,该计算机程序被处理器执行时实现如上述任意一项所述基于ICNN与Bi-LSTM的语音情感识别方法的步骤。
第四方面,本申请实施例提供了一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可被所述处理器执行的计算机程序,所述处理器执行所述计算机程序时实现如上述任意一项所述基于ICNN与Bi-LSTM的语音情感识别方法的步骤。
在本申请实施例中,通过利用预设的参数对所述特征图进行分割并进行卷积,得到高频特征图和低频特征图;利用交互卷积层对所述高频特征图和所述低频特征图进行交互卷积,并利用激活层对交互卷积层输出的第一高频特征图、第二高频特征图、第一低频特征图和第二低频特征图进行融合,得到高频输出和低频输出,实现高低频特征图之间的信息交互;利用第二卷积层将所述高频输出和所述低频输出进行卷积,并恢复成与输入特征图大小一致的第一语音特征,通过融合所述第一语音特征和双向长短时记忆模型提取的第二语音特征并作为情感分类器的输入,以获取准确率高的语音识别结果,提高基于ICNN与Bi-LSTM的语音情感识别的精度。
为了更好地理解和实施,下面结合附图详细说明本发明。
附图说明
图1为本发明一个示例性的实施例中一种基于ICNN与Bi-LSTM的语音情感识别方法的流程图;
图2为本发明一个示例性的实施例中一致基于ICNN与Bi-LSTM的语音情感识别装置的结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施例方式作进一步地详细描述。
应当明确,所描述的实施例仅仅是本申请实施例一部分实施例,而不是全部的实施例。基于本申请实施例中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它例子,都属于本申请实施例保护的范围。
在本申请实施例使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本申请实施例。在本申请实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。在本申请的描述中,需要理解的是,术语“第一”、“第二”、“第三”等仅用于区别类似的对象,而不必用于描述特定的顺序或先后次序,也不能理解为指示或暗示相对重要性。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本申请中的具体含义。
此外,在本申请的描述中,除非另有说明,“若干个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。
请参阅图1,本申请实施例中提供了一种基于ICNN与Bi-LSTM的语音情感识别方法,包括以下步骤:
步骤S1:获取语音信号的对数梅尔谱图。
梅尔谱图为将语音信号的声谱图输入梅尔尺度滤波器组(Mel-scale filterbanks)得到的谱图,梅尔谱图将声音频率映射成梅尔频率,提高人耳对频率的感知度。
所述对数梅尔谱图可以通过对梅尔谱图取对数得到。
步骤S2:获取所述对数梅尔谱图的特征图。
所述对数梅尔谱图的特征图为对数梅尔谱图进行卷积得到的输出矩阵。
具体地,获取所述对数梅尔谱图的特征图,包括:
对所述对数梅尔谱图进行1*1的卷积。
优选地,该1*1的卷积层采用非线性激活函数,以提高网络结构线性表达能力。
通过对对数梅尔谱图进行1*1的卷积,提高对数梅尔谱图的表征能力。
步骤S3:将所述特征图输入交互卷积神经网络模型中进行特征提取,得到第一语音特征。
其中,所述交互卷积神经网络模型包括:
第一卷积层,用于利用预设的参数对所述特征图进行分割并进行卷积,得到高频特征图和低频特征图;
交互卷积层,用于对所述高频特征图和所述低频特征图进行交互卷积,获取第一高频特征图、第二高频特征图、第一低频特征图和第二低频特征图;
激活层,用于对所述第一高频特征图和所述第二高频特征图进行融合,获得高频输出;对所述第一低频特征图和所述第二低频特征图进行融合,获得低频输出;
第二卷积层,用于将所述高频输出和所述低频输出合并,并输出与输入特征图大小一致的第一语音特征。
所述预设的参数可以是所述特征图的分割比例α,所述预设的参数可以是0-1之间的任意值。
在一个例子中,所述低频特征图可以是利用分割比例α对特征图进行分割并卷积得到;所述高频特征图利用1-α对特征图进行分割并卷积得到。
所述交互卷积层用于实现高频特征图和低频特征图之间的信息交互。
所述第一高频特征图为高频特征映射到高频的高频输出,所述第二高频特征图为低频特征映射到高频的高频输出,所述第一低频特征图为高频特征映射到低频的低频输出,所述第二低频特征图为低频特征映射到低频的低频输出。
在一个例子中,对所述高频特征图和所述低频特征图进行交互卷积的步骤包括:
对所述高频特征图进行卷积输出通道数的设置,卷积后得到高频特征映射到高频的高频输出和高频特征映射到低频的低频输出;
对所述低频特征图进行卷积输出通道数的设置,卷积后得到低频特征映射到低频的低频输出和低频特征映射到高频的高频输出。
所述高频输出包括高频特征映射到高频的高频输出和低频特征映射到高频的高频输出。所述低频输出包括高频特征映射到低频的低频输出和低频特征映射到低频的低频输出。
步骤S4:利用双向长短时记忆模型对所述对数梅尔谱图进行学习,获取第二语音特征。
双向长短时记忆模型通过遗忘门、输入门和输出门实现细胞状态中的信息的控制,所述遗忘门用于决定细胞状态丢弃的信息,所述输入门用于决定细胞状态保留和更新的信息,所述输出门用于决定细胞状态的输出内容。
利用双向长短时记忆模型获取对数梅尔谱图的相关性。
步骤S5:将所述第一语音特征和所述第二语音特征输入全连接层进行融合,得到融合特征。
全连接层可用于对第一语音特征和第二语音特征进行特征降维和特征融合,其中,特征降维的目标维度可根据实际需求进行设定。
优选地,为避免过拟合问题,本申请实施例还在所述全连接层之后,设置一Droupout层用于减少特征的数量。
在一个例子中,所述全连接层包括512个神经元。
步骤S6:将所述融合特征输入情感分类器中,获取语音识别结果。
所述情感分类器为根据设定的情感便签,预训练的用于识别语音特征情感标签的模型,所述情感标签可根据用户实际需求进行设定。
在一个例子中,将所述融合特征输入SoftMax分类器中,获取该语音信号为某个情感标签的概率,得到语音识别结果。
在本申请实施例中,通过利用预设的参数对所述特征图进行分割并进行卷积,得到高频特征图和低频特征图;利用交互卷积层对所述高频特征图和所述低频特征图进行交互卷积,并利用激活层对交互卷积层输出的第一高频特征图、第二高频特征图、第一低频特征图和第二低频特征图进行融合,得到高频输出和低频输出,实现高低频特征图之间的信息交互;利用第二卷积层将所述高频输出和所述低频输出进行卷积,并恢复成与输入特征图大小一致的第一语音特征,通过融合所述第一语音特征和双向长短时记忆模型提取的第二语音特征并作为情感分类器的输入,以获取准确率高的语音识别结果,提高基于ICNN与Bi-LSTM的语音情感识别的精度。
在一个示例性的实施例中,所述获取语音信号的对数梅尔谱图,包括:
获取语音信号;
将所述语音信号进行分帧、加窗并进行傅里叶变换,获取若干帧信号;
将所述若干帧信号进行堆叠,获取声谱图;
将所述声谱图输入梅尔尺度滤波器组,得到梅尔谱图。
梅尔尺度滤波器组(Mel-scale filter banks)用于将声谱图中的声音频率映射成梅尔频率,以提高人耳对频率的感知度。
对所述梅尔谱图取对数,得到语音信号的对数梅尔谱图。
现有的语音情感识别方法在提取特征参数的过程中往往需要较长的时间。在卷积神经网络的特征提取过程中存在对冗余信息的卷积运算,造成多余开销和空间浪费。针对上述问题,本申请实施例所述基于ICNN与Bi-LSTM的语音情感识别方法,在对所述高频特征图进行高频映射到低频的卷积操作之前,还包括:
按照预设的空间分辨率,利用平均池化法对高频特征图中进行降采样。
降采样后的高频特征图的图片尺寸变小,在后续卷积过程中感受野对高频特征图的感受范围增大,卷积效率提高。
在对所述低频特征图进行低频映射到高频的卷积操作之前,还包括:
按照预设的空间分辨率,对所述低频特征图进行上采样,使所述第二高频特征图与所述第一高频特征图的空间分辨率相同,便于进行交互卷积。
本申请实施例所述基于ICNN与Bi-LSTM的语音情感识别方法在参数数量不变的情况下,大大减少了运算时间,减少了计算机开销。
在一个示例性的实施例中,所述交互卷积层和所述第二卷积层之间还包括池化层,所述池化层用于获取所述高频输出和低频输出中各池化窗口内的最大特征并去除该池化窗口的其它特征。
具体地,所述池化层采用最大池化法保留各池化窗口内的最大特征并去除该池化窗口的其它特征。
在一个示例性的实施例中,为提高第一语音特征的精度,将所述第一语音特征输入全连接层进行融合之前,还包括:
将所述第一语音特征再次输入所述交互卷积神经网络模型中进行特征提取。
请参阅图2,本申请实施例还提供了一种基于ICNN与Bi-LSTM的语音情感识别装置,包括:
对数梅尔谱图获取模块1,用于获取语音信号的对数梅尔谱图;
特征图获取模块2,用于获取所述对数梅尔谱图的特征图;
第一语音特征获取模块3,用于将所述特征图输入交互卷积神经网络模型中进行特征提取,得到第一语音特征;
第二语音特征获取模块4,用于利用双向长短时记忆模型对所述对数梅尔谱图进行学习,获取第二语音特征;
特征融合模块5,用于将所述第一语音特征和所述第二语音特征输入全连接层进行融合,得到融合特征;
语音识别模块6,用于将所述融合特征输入情感分类器中,获取语音识别结果;
其中,所述交互卷积神经网络模型包括:
第一卷积层,用于利用预设的参数对所述特征图进行分割并进行卷积,得到高频特征图和低频特征图;
交互卷积层,用于对所述高频特征图和所述低频特征图进行交互卷积,获取第一高频特征图、第二高频特征图、第一低频特征图和第二低频特征图;
激活层,用于对所述第一高频特征图和所述第二高频特征图进行融合,获得高频输出;对所述第一低频特征图和所述第二低频特征图进行融合,获得低频输出;
第二卷积层,用于将所述高频输出和所述低频输出合并,并输出与输入特征图大小一致的第一语音特征。
需要说明的是,上述实施例提供的基于ICNN与Bi-LSTM的语音情感识别装置在执行基于ICNN与Bi-LSTM的语音情感识别方法时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将设备的内部结构划分为不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的基于ICNN与Bi-LSTM的语音情感识别装置与基于ICNN与Bi-LSTM的语音情感识别方法属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
本申请实施例还提供了一种计算机可读存储介质,其上储存有计算机程序,其特征在于:该计算机程序被处理器执行时实现如上述任意一项所述基于ICNN与Bi-LSTM的语音情感识别方法的步骤。
本申请实施例可采用在一个或多个其中包含有程序代码的存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。计算机可读储存介质包括永久性和非永久性、可移动和非可移动媒体,可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括但不限于:相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。
本申请实施例还提供了一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可被所述处理器执行的计算机程序,所述处理器执行所述计算机程序时实现如上述任意一项所述基于ICNN与Bi-LSTM的语音情感识别方法的步骤。
相比较现有的语音情感识别方法,本发明降低了特征提取过程的计算量,提高了语音特征提取的效率和准确率。
本发明并不局限于上述实施方式,如果对本发明的各种改动或变形不脱离本发明的精神和范围,倘若这些改动和变形属于本发明的权利要求和等同技术范围之内,则本发明也意图包含这些改动和变形。
Claims (10)
1.一种基于ICNN与Bi-LSTM的语音情感识别方法,其特征在于,包括以下步骤:
获取语音信号的对数梅尔谱图;
获取所述对数梅尔谱图的特征图;
将所述特征图输入交互卷积神经网络模型中进行特征提取,得到第一语音特征;
利用双向长短时记忆模型对所述对数梅尔谱图进行学习,获取第二语音特征;
将所述第一语音特征和所述第二语音特征输入全连接层进行融合,得到融合特征;
将所述融合特征输入情感分类器中,获取语音识别结果;
其中,所述交互卷积神经网络模型包括:
第一卷积层,用于利用预设的参数对所述特征图进行分割并进行卷积,得到高频特征图和低频特征图;
交互卷积层,用于对所述高频特征图和所述低频特征图进行交互卷积,获取第一高频特征图、第二高频特征图、第一低频特征图和第二低频特征图;
激活层,用于对所述第一高频特征图和所述第二高频特征图进行融合,获得高频输出;对所述第一低频特征图和所述第二低频特征图进行融合,获得低频输出;
第二卷积层,用于将所述高频输出和所述低频输出进行卷积,并恢复成与输入特征图大小一致的第一语音特征。
2.根据权利要求1所述的基于ICNN与Bi-LSTM的语音情感识别方法,其特征在于,所述获取语音信号的对数梅尔谱图,包括:
获取语音信号;
将所述语音信号进行分帧、加窗并进行傅里叶变换,获取若干帧信号;
将所述若干帧信号进行堆叠,获取声谱图;
将所述声谱图输入梅尔尺度滤波器组,得到梅尔谱图;
对所述梅尔谱图取对数,得到语音信号的对数梅尔谱图。
3.根据权利要求1所述的基于ICNN与Bi-LSTM的语音情感识别方法,其特征在于,所述第一高频特征图为高频特征映射到高频的高频输出,所述第二高频特征图为低频特征映射到高频的高频输出,所述第一低频特征图为高频特征映射到低频的低频输出,所述第二低频特征图为低频特征映射到低频的低频输出;
对所述高频特征图和所述低频特征图进行交互卷积的步骤包括:
对所述高频特征图进行卷积输出通道数的设置,卷积后得到高频特征映射到高频的高频输出和高频特征映射到低频的低频输出;
对所述低频特征图进行卷积输出通道数的设置,卷积后得到低频特征映射到低频的低频输出和低频特征映射到高频的高频输出。
4.根据权利要求3所述的基于ICNN与Bi-LSTM的语音情感识别方法,其特征在于,
在对所述高频特征图进行高频映射到低频的卷积操作之前,还包括:
按照预设的空间分辨率,利用平均池化法对高频特征图中进行降采样;
在对所述低频特征图进行低频映射到高频的卷积操作之前,还包括:
按照预设的空间分辨率,对所述低频特征图进行上采样。
5.根据权利要求1所述的基于ICNN与Bi-LSTM的语音情感识别方法,其特征在于,所述交互卷积层和所述第二卷积层之间还包括池化层,所述池化层用于获取所述高频输出和低频输出中各池化窗口内的最大特征并去除该池化窗口的其它特征。
6.根据权利要求5所述的基于ICNN与Bi-LSTM的语音情感识别方法,其特征在于,将所述第一语音特征输入全连接层进行融合之前,还包括:
将所述第一语音特征再次输入所述交互卷积神经网络模型中进行特征提取。
7.根据权利要求1所述的基于ICNN与Bi-LSTM的语音情感识别方法,其特征在于,获取所述对数梅尔谱图的特征图,包括:
对所述对数梅尔谱图进行1*1的卷积。
8.一种基于ICNN与Bi-LSTM的语音情感识别装置,其特征在于,包括:
对数梅尔谱图获取模块,用于获取语音信号的对数梅尔谱图;
特征图获取模块,用于获取所述对数梅尔谱图的特征图;
第一语音特征获取模块,用于将所述特征图输入交互卷积神经网络模型中进行特征提取,得到第一语音特征;
第二语音特征获取模块,用于利用双向长短时记忆模型对所述对数梅尔谱图进行学习,获取第二语音特征;
特征融合模块,用于将所述第一语音特征和所述第二语音特征输入全连接层进行融合,得到融合特征;
语音识别模块,用于将所述融合特征输入情感分类器中,获取语音识别结果;
其中,所述交互卷积神经网络模型包括:
第一卷积层,用于利用预设的参数对所述特征图进行分割并进行卷积,得到高频特征图和低频特征图;
交互卷积层,用于对所述高频特征图和所述低频特征图进行交互卷积,获取第一高频特征图、第二高频特征图、第一低频特征图和第二低频特征图;
激活层,用于对所述第一高频特征图和所述第二高频特征图进行融合,获得高频输出;对所述第一低频特征图和所述第二低频特征图进行融合,获得低频输出;
第二卷积层,用于将所述高频输出和所述低频输出合并,并输出与输入特征图大小一致的第一语音特征。
9.一种计算机可读存储介质,其上储存有计算机程序,其特征在于:该计算机程序被处理器执行时实现如权利要求1-7任意一项所述基于ICNN与Bi-LSTM的语音情感识别方法的步骤。
10.一种计算机设备,其特征在于:包括存储器、处理器以及存储在所述存储器中并可被所述处理器执行的计算机程序,所述处理器执行所述计算机程序时实现如权利要求1-7中任意一项所述基于ICNN与Bi-LSTM的语音情感识别方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010751797.4A CN112037822B (zh) | 2020-07-30 | 2020-07-30 | 基于ICNN与Bi-LSTM的语音情感识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010751797.4A CN112037822B (zh) | 2020-07-30 | 2020-07-30 | 基于ICNN与Bi-LSTM的语音情感识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112037822A CN112037822A (zh) | 2020-12-04 |
CN112037822B true CN112037822B (zh) | 2022-09-27 |
Family
ID=73583620
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010751797.4A Active CN112037822B (zh) | 2020-07-30 | 2020-07-30 | 基于ICNN与Bi-LSTM的语音情感识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112037822B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111933179B (zh) * | 2020-06-04 | 2021-04-20 | 华南师范大学 | 基于混合式多任务学习的环境声音识别方法及装置 |
CN112699938B (zh) * | 2020-12-30 | 2024-01-05 | 北京邮电大学 | 一种基于图卷积网络模型的分类方法及装置 |
CN112712824B (zh) * | 2021-03-26 | 2021-06-29 | 之江实验室 | 一种融合人群信息的语音情感识别方法和系统 |
CN112735479B (zh) * | 2021-03-31 | 2021-07-06 | 南方电网数字电网研究院有限公司 | 语音情绪识别方法、装置、计算机设备和存储介质 |
CN113793627B (zh) * | 2021-08-11 | 2023-12-29 | 华南师范大学 | 一种基于注意力的多尺度卷积语音情感识别方法及装置 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106782602A (zh) * | 2016-12-01 | 2017-05-31 | 南京邮电大学 | 基于长短时间记忆网络和卷积神经网络的语音情感识别方法 |
CN108550375A (zh) * | 2018-03-14 | 2018-09-18 | 鲁东大学 | 一种基于语音信号的情感识别方法、装置和计算机设备 |
CN108899049A (zh) * | 2018-05-31 | 2018-11-27 | 中国地质大学(武汉) | 一种基于卷积神经网络的语音情感识别方法及系统 |
CN110534132A (zh) * | 2019-09-23 | 2019-12-03 | 河南工业大学 | 一种基于谱图特征的并行卷积循环神经网络的语音情感识别方法 |
CN110992987A (zh) * | 2019-10-23 | 2020-04-10 | 大连东软信息学院 | 语音信号中针对通用特定语音的并联特征提取系统及方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9190053B2 (en) * | 2013-03-25 | 2015-11-17 | The Governing Council Of The Univeristy Of Toronto | System and method for applying a convolutional neural network to speech recognition |
-
2020
- 2020-07-30 CN CN202010751797.4A patent/CN112037822B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106782602A (zh) * | 2016-12-01 | 2017-05-31 | 南京邮电大学 | 基于长短时间记忆网络和卷积神经网络的语音情感识别方法 |
CN108550375A (zh) * | 2018-03-14 | 2018-09-18 | 鲁东大学 | 一种基于语音信号的情感识别方法、装置和计算机设备 |
CN108899049A (zh) * | 2018-05-31 | 2018-11-27 | 中国地质大学(武汉) | 一种基于卷积神经网络的语音情感识别方法及系统 |
CN110534132A (zh) * | 2019-09-23 | 2019-12-03 | 河南工业大学 | 一种基于谱图特征的并行卷积循环神经网络的语音情感识别方法 |
CN110992987A (zh) * | 2019-10-23 | 2020-04-10 | 大连东软信息学院 | 语音信号中针对通用特定语音的并联特征提取系统及方法 |
Non-Patent Citations (4)
Title |
---|
基于CNN-LSTM的歌曲音频情感分类;陈长风;《通信技术》;20190510(第05期);全文 * |
基于双向长短时记忆网络和卷积神经网络的电力系统暂态稳定评估;李向伟等;《科学技术与工程》;20200308(第07期);全文 * |
基于深度神经网络的微博文本情感倾向性分析;钮成明等;《计算机系统应用》;20181114(第11期);全文 * |
基于长短期记忆和卷积神经网络的语音情感识别;卢官明等;《南京邮电大学学报(自然科学版)》;20181113(第05期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN112037822A (zh) | 2020-12-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112037822B (zh) | 基于ICNN与Bi-LSTM的语音情感识别方法 | |
CN109637522B (zh) | 一种基于语谱图提取深度空间注意特征的语音情感识别方法 | |
CN111785301A (zh) | 一种基于残差网络的3dacrnn语音情感识别方法及存储介质 | |
US11837252B2 (en) | Speech emotion recognition method and system based on fused population information | |
CN111357051B (zh) | 语音情感识别方法、智能装置和计算机可读存储介质 | |
CN112580436B (zh) | 一种基于黎曼流形坐标对齐的脑电信号域适应方法 | |
CN109658943A (zh) | 一种音频噪声的检测方法、装置、存储介质和移动终端 | |
CN111402922B (zh) | 基于小样本的音频信号分类方法、装置、设备及存储介质 | |
CN114299995A (zh) | 一种用于情绪评估的语言情感识别方法 | |
CN113989893A (zh) | 一种基于表情和语音双模态的儿童情感识别算法 | |
CN107358946B (zh) | 基于切片卷积的语音情感识别方法 | |
WO2023222071A1 (zh) | 语音信号的处理方法、装置、设备及介质 | |
CN113408503B (zh) | 一种情绪识别方法、装置、计算机可读存储介质及设备 | |
Sangeetha et al. | Analysis of machine learning algorithms for audio event classification using Mel-frequency cepstral coefficients | |
CN111326161B (zh) | 一种声纹确定方法及装置 | |
CN115116470A (zh) | 音频处理方法、装置、计算机设备和存储介质 | |
CN114626424A (zh) | 一种基于数据增强的无声语音识别方法及装置 | |
CN114420108A (zh) | 一种语音识别模型训练方法、装置、计算机设备及介质 | |
CN114879845A (zh) | 一种基于眼动仪的图片标签语音标注方法及系统 | |
CN113628639A (zh) | 一种基于多头注意力机制的语音情感识别方法 | |
Dhakal | Novel Architectures for Human Voice and Environmental Sound Recognitionusing Machine Learning Algorithms | |
CN116992309B (zh) | 一种语音口型同步检测模型的训练方法、电子设备及存储介质 | |
CN113823271B (zh) | 语音分类模型的训练方法、装置、计算机设备及存储介质 | |
Huo | Enhancing Tone Recognition in Large-Scale Social Media Data with Deep Learning and Big Data Processing | |
CN116778912A (zh) | 基于改进视觉Transformer模型的语音特征识别方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |