CN117153197B - 语音情感识别方法、设备以及计算机可读存储介质 - Google Patents
语音情感识别方法、设备以及计算机可读存储介质 Download PDFInfo
- Publication number
- CN117153197B CN117153197B CN202311410355.3A CN202311410355A CN117153197B CN 117153197 B CN117153197 B CN 117153197B CN 202311410355 A CN202311410355 A CN 202311410355A CN 117153197 B CN117153197 B CN 117153197B
- Authority
- CN
- China
- Prior art keywords
- cross
- fusion
- features
- fusion features
- convolution
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000008909 emotion recognition Effects 0.000 title claims abstract description 71
- 238000000034 method Methods 0.000 title claims abstract description 46
- 238000003860 storage Methods 0.000 title claims abstract description 21
- 230000004927 fusion Effects 0.000 claims abstract description 221
- 230000008451 emotion Effects 0.000 claims abstract description 38
- 230000005236 sound signal Effects 0.000 claims abstract description 33
- 238000000605 extraction Methods 0.000 claims description 46
- 230000006870 function Effects 0.000 claims description 33
- 239000011159 matrix material Substances 0.000 claims description 29
- 238000011176 pooling Methods 0.000 claims description 17
- 238000012545 processing Methods 0.000 claims description 10
- 238000004422 calculation algorithm Methods 0.000 claims description 5
- 230000004913 activation Effects 0.000 claims description 3
- 230000001364 causal effect Effects 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 3
- 238000004904 shortening Methods 0.000 claims description 3
- 230000008447 perception Effects 0.000 claims description 2
- 238000005516 engineering process Methods 0.000 abstract description 6
- 238000013135 deep learning Methods 0.000 abstract description 4
- 238000010586 diagram Methods 0.000 description 11
- 238000004590 computer program Methods 0.000 description 10
- 230000000875 corresponding effect Effects 0.000 description 10
- 238000004364 calculation method Methods 0.000 description 7
- 230000008569 process Effects 0.000 description 7
- 238000004891 communication Methods 0.000 description 6
- 238000011161 development Methods 0.000 description 5
- 230000007246 mechanism Effects 0.000 description 5
- 230000004048 modification Effects 0.000 description 5
- 238000012986 modification Methods 0.000 description 5
- 239000000284 extract Substances 0.000 description 4
- 238000011160 research Methods 0.000 description 4
- 238000013136 deep learning model Methods 0.000 description 3
- 230000009466 transformation Effects 0.000 description 3
- 230000004075 alteration Effects 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 2
- 238000009432 framing Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 239000013598 vector Substances 0.000 description 2
- 230000001276 controlling effect Effects 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 238000007499 fusion processing Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/63—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
- G06N3/0442—Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Theoretical Computer Science (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Signal Processing (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Evolutionary Computation (AREA)
- Acoustics & Sound (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Software Systems (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- Mathematical Physics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Hospice & Palliative Care (AREA)
- Psychiatry (AREA)
- Child & Adolescent Psychology (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及深度学习技术领域,尤其涉及一种语音情感识别方法、设备以及计算机可读存储介质。提取预处理音频信号中的MFCC特征;将MFCC特征输入至少两条时序卷积分支,以融合各个MFCC特征,得到多个多尺度融合特征;对多个多尺度融合特征作深度交叉融合,得到至少两个多尺度交叉融合特征;将各个多尺度交叉融合特征作动态权重融合,得到至少两个动态权重融合特征;在通道维度上对至少两个动态权重融合特征进行拼接,得到时序卷积分支融合特征;将时序卷积分支融合特征输入到语音情感分类器中,并获取语音情感分类器输出的得分最高的语音情感类别标签,基于语音情感类别标签确定语音情感识别结果。旨在解决如何识别语音中的情感的问题。
Description
技术领域
本发明涉及深度学习技术领域,尤其涉及一种语音情感识别方法、设备以及计算机可读存储介质。
背景技术
在进行教学能力评定时,传统的人工判定师生的语音情感的方法主观性强且耗时。而随着大数据和人工智能技术的发展,将大数据和人工智能应用在数字化教育领域,是未来全面推进教育数字化转型发展的必然趋势。而如何利用新兴技术与教育场景融合来实现教学过程的精准化和个性化,是目前的一个热门研究方向。因此,需要一种自动识别课堂教学中教师和学生的情感状态,从而帮助教师了解自己的授课风格,并及时掌握学生的课堂学习状态。
上述内容仅用于辅助理解本发明的技术方案,并不代表承认上述内容是现有技术。
发明内容
本发明的主要目的在于提供一种语音情感识别方法,旨在解决如何识别语音中的情感的问题。
为实现上述目的,本发明提供的一种语音情感识别方法,应用于语音情感识别系统,所述方法包括:
提取预处理音频信号中的MFCC特征;
将所述MFCC特征输入至少两条时序卷积分支,以融合各个所述MFCC特征,得到多个多尺度融合特征;
对多个所述多尺度融合特征作深度交叉融合,得到至少两个多尺度交叉融合特征;
将各个所述多尺度交叉融合特征作动态权重融合,得到至少两个动态权重融合特征;
在通道维度上对至少两个所述动态权重融合特征进行拼接,得到时序卷积分支融合特征;
将所述时序卷积分支融合特征输入到语音情感分类器中,并获取所述语音情感分类器输出的得分最高的语音情感类别标签,基于所述语音情感类别标签确定语音情感识别结果。
可选地,所述将所述MFCC特征输入至少两条时序卷积分支,以融合各个所述MFCC特征,得到多尺度融合特征的步骤包括:
将所述MFCC特征置为预设第一目标大小,并输入至少两个卷积层;
获取各个卷积层输出的,大小均为预设第二目标大小的卷积特征;
将所述卷积特征输入至各个卷积层对应的时序卷积分支,其中,每一所述卷积层对应一个时序卷积分支;
获取每一所述时序卷积分支输出的多尺度融合特征。
可选地,每一所述时序卷积分支包含多个时序感知模块,每一所述时序感知模块对应的卷积感受域的大小不同。
可选地,每一所述时序感知模块包括至少两个子块,每个子块包括一维扩展因果卷积函数、批归一化函数、ReLU激活函数和随机丢弃函数。
可选地,所述对多个所述多尺度融合特征作深度交叉融合,得到多尺度交叉融合特征的步骤包括:
将各个所述多尺度融合特征中,处于相同位置的目标多尺度交叉融合特征,输入至预设函数;
获取所述预设函数输出的特征权重系数矩阵;
基于所述特征权重系数矩阵,对所述多尺度融合特征作点乘操作,得到至少两个交叉融合特征;
对所述交叉融合特征作全局平均池化操作,得到多个同样大小的交叉融合特征;
将各个同样大小的所述交叉融合特征在时间维度上进行拼接,得到多尺度交叉融合特征。
可选地,所述语音情感识别系统包括多个交叉门控卷积模块,所述基于所述特征权重系数矩阵,对所述多尺度融合特征作点乘操作,得到至少两个交叉融合特征的步骤之后,还包括:
选取除所述第一目标交叉融合特征以外的部分交叉融合特征,输入至交叉门控卷积模块作特征提取,得到多次提取交叉融合特征;
将所述多次提取交叉融合特征作全局平均池化操作,并将池化后的所述多次提取交叉融合特征在时间维度上进行拼接,得到多尺度交叉融合特征;
选取所述多次提取交叉融合特征中的部分交叉融合特征,输入至下一交叉门控卷积模块作特征提取,直至每一所述交叉门控卷积模块执行一次针对上一交叉门控卷积模块输出的多次提取交叉融合特征的特征提取操作。
可选地,所述将所述多尺度交叉融合特征作动态权重融合,得到至少两个动态权重融合特征的步骤包括:
获取预设大小的可学习权重系数矩阵;
将所述可学习权重系数矩阵与所述多尺度交叉融合特征相乘,得到所述动态权重融合特征。
可选地,所述提取预处理音频信号中的MFCC特征的步骤包括:
计算语料库中每一课堂音频信号的信号平均长度;
将所述语料库中的每一所述课堂音频信号,截短或补偿为符合所述信号平均长度的等长课堂音频信号,得到等长课堂音频信号集;
基于预设MFCC特征提取算法,对所述等长课堂音频信号集作特征提取处理,得到所述MFCC特征。
此外,为实现上述目的,本发明还提供一种语音情感识别系统,所述语音情感识别系统包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的语音情感识别程序,所述语音情感识别程序被所述处理器执行时实现如上任一项所述的语音情感识别方法的步骤。
此外,为实现上述目的,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有语音情感识别程序,所述语音情感识别程序被处理器执行时实现如上任一项所述的语音情感识别方法的步骤。
本发明实施例提供一种语音情感识别方法、设备以及计算机可读存储介质,基于交叉门控卷积与多尺度时序感知网络的课堂语音情感识别方法可以快速准确的识别课堂中教师和学生的语音情感,为课堂语音情感识别研究提供发展空间。
附图说明
图1为本发明实施例涉及的语音情感识别系统的硬件运行环境的架构示意图;
图2为本发明语音情感识别方法的第一实施例的流程示意图;
图3为本发明语音情感识别方法的第一实施例中涉及的课堂语音信号提取MFCC特征流程图;
图4为本发明语音情感识别方法的第二实施例的流程示意图;
图5为本发明语音情感识别方法的第二实施例中涉及的时序感知模块结构示意图;
图6为本发明语音情感识别方法的第三实施例的流程示意图;
图7为本发明语音情感识别方法的第三实施例中涉及的采用交叉门控机制的卷积模块结构示意图;
图8为本发明语音情感识别方法的第四实施例的流程示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图作进一步说明。
具体实施方式
本申请基于交叉门控卷积与多尺度时序感知网络的课堂语音情感识别方法可以快算准确的识别课堂中教师和学生的语音情感,为课堂语音情感识别研究提供发展空间。
为了更好地理解上述技术方案,下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整地传达给本领域的技术人员。
作为一种实现方案,图1为本发明实施例方案涉及的语音情感识别系统的硬件运行环境的架构示意图。
如图1所示,该语音情感识别系统可以包括:处理器1001,例如CPU,存储器1005,用户接口1003,网络接口1004,通信总线1002。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器,也可以是稳定的存储器(non-volatile memory),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。
本领域技术人员可以理解,图1中示出的语音情感识别系统架构并不构成对语音情感识别系统的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
如图1所示,作为一种存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及语音情感识别程序。其中,操作系统是管理和控制语音情感识别系统的硬件和软件资源的程序,保证语音情感识别程序以及其他软件或程序的正常运行。
在图1所示的语音情感识别系统中,用户接口1003主要用于连接终端,与终端进行数据通信;网络接口1004主要用于后台服务器,与后台服务器进行数据通信;处理器1001可以用于调用存储器1005中存储的语音情感识别程序。
在本实施方案中,语音情感识别系统包括:存储器1005、处理器1001及存储在所述存储器上并可在所述处理器上运行的语音情感识别程序,其中:
处理器1001调用存储器1005中存储的语音情感识别程序时,执行以下操作:
提取预处理音频信号中的MFCC特征;
将所述MFCC特征输入至少两条时序卷积分支,以融合各个所述MFCC特征,得到多个多尺度融合特征;
对多个所述多尺度融合特征作深度交叉融合,得到至少两个多尺度交叉融合特征;
将各个所述多尺度交叉融合特征作动态权重融合,得到至少两个动态权重融合特征;
在通道维度上对至少两个所述动态权重融合特征进行拼接,得到时序卷积分支融合特征;
将所述时序卷积分支融合特征输入到语音情感分类器中,并获取所述语音情感分类器输出的得分最高的语音情感类别标签,基于所述语音情感类别标签确定语音情感识别结果。
处理器1001调用存储器1005中存储的语音情感识别程序时,执行以下操作:
将所述MFCC特征置为预设第一目标大小,并输入至少两个卷积层;
获取各个卷积层输出的,大小均为预设第二目标大小的卷积特征;
将所述卷积特征输入至各个卷积层对应的时序卷积分支,其中,每一所述卷积层对应一个时序卷积分支;
获取每一所述时序卷积分支输出的多尺度融合特征。
处理器1001调用存储器1005中存储的语音情感识别程序时,执行以下操作:
将各个所述多尺度融合特征中,处于相同位置的目标多尺度交叉融合特征,输入至预设函数;
获取所述预设函数输出的特征权重系数矩阵;
基于所述特征权重系数矩阵,对所述多尺度融合特征作点乘操作,得到至少两个交叉融合特征;
对所述交叉融合特征作全局平均池化操作,得到多个同样大小的交叉融合特征;
将各个同样大小的所述交叉融合特征在时间维度上进行拼接,得到多尺度交叉融合特征。
处理器1001调用存储器1005中存储的语音情感识别程序时,执行以下操作:
选取除所述第一目标交叉融合特征以外的部分交叉融合特征,输入至交叉门控卷积模块作特征提取,得到多次提取交叉融合特征;
将所述多次提取交叉融合特征作全局平均池化操作,并将池化后的所述多次提取交叉融合特征在时间维度上进行拼接,得到多尺度交叉融合特征;
选取所述多次提取交叉融合特征中的部分交叉融合特征,输入至下一交叉门控卷积模块作特征提取,直至每一所述交叉门控卷积模块执行一次针对上一交叉门控卷积模块输出的多次提取交叉融合特征的特征提取操作。
处理器1001调用存储器1005中存储的语音情感识别程序时,执行以下操作:
获取预设大小的可学习权重系数矩阵;
将所述可学习权重系数矩阵与所述多尺度交叉融合特征相乘,得到所述动态权重融合特征。
处理器1001调用存储器1005中存储的语音情感识别程序时,执行以下操作:
计算语料库中每一课堂音频信号的信号平均长度;
将所述语料库中的每一所述课堂音频信号,截短或补偿为符合所述信号平均长度的等长课堂音频信号,得到等长课堂音频信号集;
基于预设MFCC特征提取算法,对所述等长课堂音频信号集作特征提取处理,得到所述MFCC特征。
基于上述基于深度学习技术的语音情感识别系统的硬件架构,提出本发明语音情感识别方法的实施例。
第一实施例;
参照图2,在第一实施例中,所述语音情感识别方法包括以下步骤:
步骤S10,提取预处理音频信号中的MFCC特征;
在本实施例中,语音情感识别系统(下简称为系统)首先提取预处理音频信号中的MFCC特征,预处理音频信号表征为经过预处理后的课堂音频信号,目的在于更容易提取MFCC特征。
MFCC(Mel-Frequency Cepstral Coefficients,梅尔频率倒谱系数)特征,是基于MFCC技术提取的特征,通过对人类听觉系统的感知特性进行建模,利于后续的音频任务处理。
可选地,提取方式可以通过计算语料库中每一课堂音频信号的信号平均长度,然后基于所述信号平均长度,提取课堂音频信号中的MFCC特征。具体的,统计语料库中所有信号长度,相加并计算平均值,得到信号平均长度,然后将语料库中的每一所述课堂音频信号,截短或补偿为符合所述信号平均长度的等长课堂音频信号,得到等长课堂音频信号集,然后基于预设MFCC特征提取算法,对所述等长课堂音频信号集作特征提取处理,得到MFCC特征。
可选地,参照图3示出的课堂语音信号提取MFCC特征流程图,预设MFCC特征提取算法可以包括预加重、分帧、加窗、快速傅里叶变换、梅尔滤波器组、对数运算以及离散余弦变换。将预处理得到的课堂音频信号片段经过预加重、分帧、加窗、快速傅里叶变换、梅尔滤波器组、对数运算以及离散余弦变换得到大小为预设大小的MFCC特征,并作为时序卷积分支的输入。该过程可调用Python中的numpy库等库中的函数计算得到,此处不展开描述。
示例性地,上述MFCC特征预设大小可以为(110,39)。
步骤S20,将所述MFCC特征输入至少两条时序卷积分支,以融合各个所述MFCC特征,得到多个多尺度融合特征;
在本实施例中,将提取出的MFCC特征输入至少两条时序卷积分支。可以理解的是,此处的MFCC特征为多个MFCC特征构成的集合。
时序卷积分支指的是用于处理时序数据的卷积层分支,本实施例中时序卷积分支用于捕捉输入的音频信号中的局部特征。
在本实施例中,系统中包括至少两条时序卷积分支,目的在于通过至少两条时序卷积分支构建起交叉门控卷积,从而基于交叉门控卷积机制对MFCC特征进行融合,得到多个多尺度融合特征。
步骤S30,对多个所述多尺度融合特征作深度交叉融合,得到至少两个多尺度交叉融合特征;
在本实施例中,深度交叉融合表征为不同深度学习模型或网络层之间的信息交互与融合,目的在于提高模型的泛化能力。深度交叉融合包括但不限于特征级、层级、模型级的融合,本实施例中指特征级融合。
步骤S40,将各个所述多尺度交叉融合特征作动态权重融合,得到至少两个动态权重融合特征;
在本实施例中,动态权重融合指的是在运行时动态计算深度学习模型中每个子模型输出的权重。本实施例用于将多个多尺度交叉融合特征组合为一个整体预测或表示。
步骤S50,在通道维度上对至少两个所述动态权重融合特征进行拼接,得到时序卷积分支融合特征;
在本实施例中,通道维度指的是特征的信道数,系统在通道上将动态权重融合特征凭借为一个更大的特征集合,即所述时序卷积分支融合特征。
示例性地,设两个动态权重融合特征的大小为(128,1),拼接后得到的时序卷积分支融合特征大小即为(256,1)。通道拼接计算见公式(8):
(8)
Cf函数表示将和/>在通道上拼接得到/>。
步骤S60,将所述时序卷积分支融合特征输入到语音情感分类器中,并获取所述语音情感分类器输出的得分最高的语音情感类别标签,基于所述语音情感类别标签确定语音情感识别结果。
在本实施例中,为了将时序卷积分支融合特征输入到模型的语音情感分类器中,该分类器模型能够根据输入的特征来判断音频中的情感类别。
语音情感分类器经过前向传播后会输出一组情感得分,每个得分对应一个可能的情感类别,表示音频信号可能属于各个情感类别的概率或置信度。然后从所有情感得分中选择具有最高值的类别,这个类别是最有可能的情感类别,作为最高得分的语音情感类别标签。
基于所选的最高得分类别标签确定音频的情感识别结果。例如,这个标签表示了模型对音频中情感的最佳估计为“快乐”,则系统输出的情感识别结果判断该音频的情感类别为“快乐”。
在本实施例提供的技术方案中,基于交叉门控卷积与多尺度时序感知网络的课堂语音情感识别方法可以快算准确的识别课堂中教师和学生的语音情感,为课堂语音情感识别研究提供发展空间。
第二实施例;
参照图4,在第二实施例中,基于第一实施例,所述步骤S20包括:
步骤S21,将所述MFCC特征置为预设第一目标大小,并输入至少两个卷积层;
步骤S22,获取各个卷积层输出的,大小均为预设第二目标大小的卷积特征;
步骤S23,将所述卷积特征输入至各个卷积层对应的时序卷积分支,其中,每一所述卷积层对应一个时序卷积分支;
步骤S24,获取每一所述时序卷积分支输出的多尺度融合特征。
作为一可选实施例,对于如何融合多尺度融合特征,首先将MFCC特征置为预设第一目标大小,并输入至少两个卷积层,然后获取各个卷积层输出的,大小均为预设第二目标大小的卷积特征,将所述卷积特征输入至各个卷积层对应的时序卷积分支,每一所述卷积层对应一个时序卷积分支,最后获取每一时序卷积分支输出的多尺度融合特征。
需要说明的是,本实施例中,每一时序卷积分支包含多个时序感知模块,每一时序感知模块对应的卷积感受域的大小不同,卷积感受域的大小与模块的扩展率呈正相关。
可选地,参照图5示出的时序感知模块结构示意图,每一时序感知模块包括至少两个子块,每个子块包括一维扩展因果卷积函数、批归一化函数、ReLU激活函数和随机丢弃函数。在一些实施方式中,每个深度学习模型可以包含6个时序感知模块。
下面以包含两层1×1的卷积层的系统为例进行说明。
示例性地,设MFCC特征大小为(110,39),预设第一目标大小为(39,110),每个卷积层对应的时序卷积分支包含6个时序感知模块,每个模块的扩展率为d=2j-1(j≥1),其中,j表示第几个模块。提取MFCC特征大小进行变换,由(110,39)变为(39,110),先输入到两个1×1卷积层,将第一维的通道数39提升到128,得到两个大小为(128,110)的特征,再输入到构建的两条时序卷积分支中进一步提取特征;每个分支由6个时序感知模块构成,每个模块的扩展率为d=2j-1(j≥1),j表示第几个模块,扩展率大小不同,则每个模块的卷积感受域大小也不同,块数越大,感受域越大。
第三实施例;
参照图6,在第三实施例中,基于任一实施例,所述步骤S30包括:
步骤S31,将各个所述多尺度融合特征中,处于相同位置的目标多尺度交叉融合特征,输入至预设函数;
步骤S32,获取所述预设函数输出的特征权重系数矩阵;
步骤S33,基于所述特征权重系数矩阵,对所述多尺度融合特征作点乘操作,得到至少两个交叉融合特征;
步骤S34,从各个交叉融合特征中选取第一目标交叉融合特征作全局平均池化操作,得到多个同样大小的交叉融合特征;
步骤S35,将各个同样大小的所述交叉融合特征在时间维度上进行拼接,得到多尺度交叉融合特征。
作为一可选实施方式,多尺度交叉融合特征的构建过程如下:
首先将各个多尺度融合特征中,处于相同位置的目标多尺度交叉融合特征,输入至预设函数。然后,获取预设函数输出的特征权重系数矩阵,接着基于特征权重系数矩阵,对多尺度融合特征作点乘操作,得到至少两个交叉融合特征,从各个交叉融合特征中选取第一目标交叉融合特征作全局平均池化操作,得到多个同样大小的交叉融合特征,最后将多个同样大小的所属交叉融合特征在时间维度(也称为第二维度)上进行拼接,得到多尺度交叉融合特征。
需要说明的是,相同位置指的是各个多尺度融合特征之间处于同一时间步的序列。
示例性地,参照图7示出的采用交叉门控机制的卷积模块结构示意图,预设函数可以为Sigmoid函数,设特征权重系数矩阵大小为(129,110),下面以6个时序感知模块的深度学习网络模型的融合过程作示例性说明:
在前述步骤中构建的两条时序卷积分支之间采用交叉门控机制,将两条分支的特征进行深度交叉融合,把分支间相同位置的时序感知模块的输出特征输入到Sigmoid函数中得到特征权重系数矩阵,大小为(128,110);再与对方分支没有经过感知模块提取的特征做点乘操作,最后得到两个大小为(128,110)交叉融合特征;将该交叉融合特征一边输入到后面继续提取特征,一边对其做全局平均池化操作,可以得到大小为(128,1)的特征,6个模块得到6个同样大小的交叉融合特征,进一步在时间维度上进行融合,得到大小为(128,6)的多尺度交叉融合特征。交叉门控机制的计算过程见公式(1)、公式(2)和公式(3):
(1)
(2)
(3)
其中,α和β表示两条卷积分支,n为时序感知块的数量,j表示卷积分支中的第j个时序感知模块;表示α分支第j个时序感知模块的输出特征,/>表示β分支第j个时序感知模块的输出特征;/>表示Sigmoid函数,⊙表示两个特征矩阵做点乘操作;/>表示对α分支第j块输出特征做归一化操作得到权重系数矩阵,/>表示β分支第j块输出特征做归一化操作得到权重系数矩阵;/>和/>则分别表示α分支和β分支第j个时序感知模块的输出特征经过Sigmoid函数得到权重关系矩阵后,交叉与/>和/>做点乘操作得到的特征,和/>是将MFCC特征输入到两个1×1卷积层得到的输出特征。
全局平均池化的计算过程见公式(4)和公式(5):
(4)
(5)
其中,p表示全局平均池化操作函数,将特征在时间维度上压缩;为将/>进行全局平均池化操作后的特征向量,/>为将/>进行全局平均池化操作后的特征向量。
进一步的,在本实施例中,所述步骤S33之后,还包括:
步骤S36,选取除所述第一目标交叉融合特征以外的部分交叉融合特征,输入至交叉门控卷积模块作特征提取,得到多次提取交叉融合特征;
步骤S37,将所述多次提取交叉融合特征作全局平均池化操作,并将池化后的所述多次提取交叉融合特征在时间维度上进行拼接,得到多尺度交叉融合特征;
步骤S38选取所述多次提取交叉融合特征中的部分交叉融合特征,输入至下一交叉门控卷积模块作特征提取,直至每一所述交叉门控卷积模块执行一次针对上一交叉门控卷积模块输出的多次提取交叉融合特征的特征提取操作。
可选地,还可以采用另一种方式来得到多尺度交叉融合特征,在本实施例中,从未池化过的各个交叉融合特征中选取其他目标交叉融合特征,其中,其他目标交叉融合特征为除了已选取的目标交叉融合特征(如前述中已选取的所述第一目标交叉融合特征)以外的部分交叉融合特征,输入至交叉门控卷积模块作第二次特征提取,得到二次提取的多次交叉融合特征。
进一步的,将得到的多次交叉融合特征作两个方面的处理。一方面,将已经得到的多次交叉融合特征进行全局平均池化操作后在时间维度上进行拼接,得到多尺度交叉融合特征,需要注意的是,此处的得到的多尺度交叉融合特征,区别于前述的由第一目标交叉融合特征得到的多尺度交叉融合特征,具备更高的特征精度;另一方面,继续从多次交叉融合特征选取部分交叉融合特征,输入至下一层的交叉门控卷积模块再作第三次的特征提取,得到三次提取的多次交叉融合特征。
可以理解的是,系统中设置有几个交叉门控卷积模块,就对交叉融合特征作选取几次作特征提取以及相应的池化、时间维度拼接操作。
在本实施例提供的技术方案中,多尺度交叉融合特征的确定方式分为两种,一种是将一部分交叉融合特征作全局平均池化操作进行拼接得到,这种方式所需的算力成本较低,另一种是将另一部分交叉融合特征输入至交叉门控卷积模块作多次的特征提取,这种方式的特征提取精度较高。通过这两种方式结合得到多尺度交叉融合特征,同时兼顾算力成本和特征提取精度。
第四实施例;
参照图8,在第四实施例中,基于任一实施例,所述步骤S40包括:
步骤S41,获取预设大小的可学习权重系数矩阵;
步骤S42,将所述可学习权重系数矩阵与所述多尺度交叉融合特征相乘,得到所述动态权重融合特征。
作为一可选实施方式,本实施例中通过一预设大小的可学习权重系数矩阵,分别与各个多尺度交叉融合特征相乘,进而得到动态权重融合特征,每个多尺度交叉融合特征对应一个可学习权重系数矩阵。
示例性地,设可学习权重系数矩阵的预设大小为(6,1),以两个多尺度交叉融合特征为例,对应的权重系数矩阵和/>,与两个多尺度交叉融合特征分别相乘,得到两个大小为(128,1)的更深层次的动态权重融合特征表示。动态权重融合的计算过程见公式6、公式7:
(6)
(7)
其中,和/>为中α和β两条卷积分支输出的多尺度融合特征,分别与/>和作叉乘得到的动态权重融合特征。
此外,本领域普通技术人员可以理解的是实现上述实施例的方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成。该计算机程序包括程序指令,计算机程序可以存储于一存储介质中,该存储介质为计算机可读存储介质。该程序指令被语音情感识别系统中的至少一个处理器执行,以实现上述方法的实施例的流程步骤。
因此,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质存储有语音情感识别程序,所述语音情感识别程序被处理器执行时实现如上实施例所述的语音情感识别方法的各个步骤。
其中,所述计算机可读存储介质可以是U盘、移动硬盘、只读存储器(Read-OnlyMemory,ROM)、磁碟或者光盘等各种可以存储程序代码的计算机可读存储介质。
需要说明的是,由于本申请实施例提供的存储介质,为实施本申请实施例的方法所采用的存储介质,故而基于本申请实施例所介绍的方法,本领域所属人员能够了解该存储介质的具体结构及变形,故而在此不再赘述。凡是本申请实施例的方法所采用的存储介质都属于本申请所欲保护的范围。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
应当注意的是,在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的部件或步骤。位于部件之前的单词“一”或“一个”不排除存在多个这样的部件。本发明可以借助于包括有若干不同部件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
Claims (6)
1.一种语音情感识别方法,其特征在于,应用于语音情感识别系统,所述语音情感识别方法包括以下步骤:
提取预处理音频信号中的MFCC特征;
将所述MFCC特征输入至少两条时序卷积分支,以融合各个所述MFCC特征,得到多个多尺度融合特征;
对多个所述多尺度融合特征作深度交叉融合,得到至少两个多尺度交叉融合特征;
将各个所述多尺度交叉融合特征作动态权重融合,得到至少两个动态权重融合特征;
在通道维度上对至少两个所述动态权重融合特征进行拼接,得到时序卷积分支融合特征;
将所述时序卷积分支融合特征输入到语音情感分类器中,并获取所述语音情感分类器输出的得分最高的语音情感类别标签,基于所述语音情感类别标签确定语音情感识别结果;
所述将所述MFCC特征输入至少两条时序卷积分支,以融合各个所述MFCC特征,得到多尺度融合特征的步骤包括:
将所述MFCC特征置为预设第一目标大小,并输入至少两个卷积层;
获取各个卷积层输出的,大小均为预设第二目标大小的卷积特征;
将所述卷积特征输入至各个卷积层对应的时序卷积分支,其中,每一所述卷积层对应一个时序卷积分支;
获取每一所述时序卷积分支输出的多尺度融合特征;
所述对多个所述多尺度融合特征作深度交叉融合,得到多尺度交叉融合特征的步骤包括:
将各个所述多尺度融合特征中,处于相同位置的目标多尺度交叉融合特征,输入至预设函数;
获取所述预设函数输出的特征权重系数矩阵;
基于所述特征权重系数矩阵,对所述多尺度融合特征作点乘操作,得到至少两个交叉融合特征;
从各个交叉融合特征中选取第一目标交叉融合特征作全局平均池化操作,得到多个同样大小的交叉融合特征;
将各个同样大小的所述交叉融合特征在时间维度上进行拼接,得到多尺度交叉融合特征;
所述语音情感识别系统包括多个交叉门控卷积模块,所述基于所述特征权重系数矩阵,对所述多尺度融合特征作点乘操作,得到至少两个交叉融合特征的步骤之后,还包括:
选取除所述第一目标交叉融合特征以外的部分交叉融合特征,输入至交叉门控卷积模块作特征提取,得到多次提取交叉融合特征;
将所述多次提取交叉融合特征作全局平均池化操作,并将池化后的所述多次提取交叉融合特征在时间维度上进行拼接,得到多尺度交叉融合特征;
选取所述多次提取交叉融合特征中的部分交叉融合特征,输入至下一交叉门控卷积模块作特征提取,直至每一所述交叉门控卷积模块执行一次针对上一交叉门控卷积模块输出的多次提取交叉融合特征的特征提取操作;
所述将各个所述多尺度交叉融合特征作动态权重融合,得到至少两个动态权重融合特征的步骤包括:
获取预设大小的可学习权重系数矩阵;
将所述可学习权重系数矩阵与所述多尺度交叉融合特征相乘,得到所述动态权重融合特征。
2.如权利要求1所述的语音情感识别方法,其特征在于,每一所述时序卷积分支包含多个时序感知模块,每一所述时序感知模块对应的卷积感受域的大小不同。
3.如权利要求2所述的语音情感识别方法,其特征在于,每一所述时序感知模块包括至少两个子块,每个子块包括一维扩展因果卷积函数、批归一化函数、ReLU激活函数和随机丢弃函数。
4.如权利要求1所述的语音情感识别方法,其特征在于,所述提取预处理音频信号中的MFCC特征的步骤包括:
计算语料库中每一课堂音频信号的信号平均长度;
将所述语料库中的每一所述课堂音频信号,截短或补偿为符合所述信号平均长度的等长课堂音频信号,得到等长课堂音频信号集;
基于预设MFCC特征提取算法,对所述等长课堂音频信号集作特征提取处理,得到所述MFCC特征。
5.一种语音情感识别系统,其特征在于,所述语音情感识别系统包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的语音情感识别程序,所述语音情感识别程序被所述处理器执行时实现如权利要求1至4中任一项所述的语音情感识别方法的步骤。
6.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有语音情感识别程序,所述语音情感识别程序被处理器执行时实现如权利要求1至4中任一项所述的语音情感识别方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311410355.3A CN117153197B (zh) | 2023-10-27 | 2023-10-27 | 语音情感识别方法、设备以及计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311410355.3A CN117153197B (zh) | 2023-10-27 | 2023-10-27 | 语音情感识别方法、设备以及计算机可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117153197A CN117153197A (zh) | 2023-12-01 |
CN117153197B true CN117153197B (zh) | 2024-01-02 |
Family
ID=88906471
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311410355.3A Active CN117153197B (zh) | 2023-10-27 | 2023-10-27 | 语音情感识别方法、设备以及计算机可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117153197B (zh) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020073665A1 (zh) * | 2018-10-11 | 2020-04-16 | 平安科技(深圳)有限公司 | 在频谱上对语音进行情绪识别的方法、系统及存储介质 |
CN112633175A (zh) * | 2020-12-24 | 2021-04-09 | 哈尔滨理工大学 | 复杂环境下基于多尺度卷积神经网络单音符实时识别算法 |
WO2021208719A1 (zh) * | 2020-11-19 | 2021-10-21 | 平安科技(深圳)有限公司 | 基于语音的情绪识别方法、装置、设备及存储介质 |
CN114613389A (zh) * | 2022-03-16 | 2022-06-10 | 大连交通大学 | 一种基于改进mfcc的非语音类音频特征提取方法 |
CN114863949A (zh) * | 2022-04-24 | 2022-08-05 | 深圳追一科技有限公司 | 情绪识别方法、装置、计算机设备及存储介质 |
CN114898776A (zh) * | 2022-05-09 | 2022-08-12 | 南京邮电大学 | 一种多尺度特征联合多任务cnn决策树的语音情感识别方法 |
CN114898775A (zh) * | 2022-04-24 | 2022-08-12 | 中国科学院声学研究所南海研究站 | 一种基于跨层交叉融合的语音情绪识别方法及系统 |
CN116758451A (zh) * | 2023-05-24 | 2023-09-15 | 山东省计算中心(国家超级计算济南中心) | 基于多尺度和全局交叉注意力的视听情感识别方法及系统 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019103484A1 (ko) * | 2017-11-24 | 2019-05-31 | 주식회사 제네시스랩 | 인공지능을 이용한 멀티모달 감성인식 장치, 방법 및 저장매체 |
-
2023
- 2023-10-27 CN CN202311410355.3A patent/CN117153197B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020073665A1 (zh) * | 2018-10-11 | 2020-04-16 | 平安科技(深圳)有限公司 | 在频谱上对语音进行情绪识别的方法、系统及存储介质 |
WO2021208719A1 (zh) * | 2020-11-19 | 2021-10-21 | 平安科技(深圳)有限公司 | 基于语音的情绪识别方法、装置、设备及存储介质 |
CN112633175A (zh) * | 2020-12-24 | 2021-04-09 | 哈尔滨理工大学 | 复杂环境下基于多尺度卷积神经网络单音符实时识别算法 |
CN114613389A (zh) * | 2022-03-16 | 2022-06-10 | 大连交通大学 | 一种基于改进mfcc的非语音类音频特征提取方法 |
CN114863949A (zh) * | 2022-04-24 | 2022-08-05 | 深圳追一科技有限公司 | 情绪识别方法、装置、计算机设备及存储介质 |
CN114898775A (zh) * | 2022-04-24 | 2022-08-12 | 中国科学院声学研究所南海研究站 | 一种基于跨层交叉融合的语音情绪识别方法及系统 |
CN114898776A (zh) * | 2022-05-09 | 2022-08-12 | 南京邮电大学 | 一种多尺度特征联合多任务cnn决策树的语音情感识别方法 |
CN116758451A (zh) * | 2023-05-24 | 2023-09-15 | 山东省计算中心(国家超级计算济南中心) | 基于多尺度和全局交叉注意力的视听情感识别方法及系统 |
Non-Patent Citations (2)
Title |
---|
"Multi-scale Speaker Diarization with Dynamic Scale Weighting";Park T J;《2022.DOI:10.48550/arXiv.2203.15974》;全文 * |
"深度神经网络的特征融合机制及其应用研究";吴雨;《中国博士学位论文全文数据库信息科技辑》;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN117153197A (zh) | 2023-12-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111164601B (zh) | 情感识别方法、智能装置和计算机可读存储介质 | |
GB2557014A (en) | Answer to question neural networks | |
CN112487139B (zh) | 基于文本的自动出题方法、装置及计算机设备 | |
US10157619B2 (en) | Method and device for searching according to speech based on artificial intelligence | |
CN107437417B (zh) | 基于循环神经网络语音识别中语音数据增强方法及装置 | |
US20220270587A1 (en) | Speech synthesis method and apparatus, and storage medium | |
CN110610698B (zh) | 一种语音标注方法及装置 | |
CN109697978B (zh) | 用于生成模型的方法和装置 | |
WO2023207541A1 (zh) | 一种语音处理方法及相关设备 | |
CN110890088A (zh) | 语音信息反馈方法、装置、计算机设备和存储介质 | |
WO2021166207A1 (ja) | 認識装置、学習装置、それらの方法、およびプログラム | |
CN112307048A (zh) | 语义匹配模型训练方法、匹配方法、装置、设备及存储介质 | |
CN115312033A (zh) | 基于人工智能的语音情感识别方法、装置、设备及介质 | |
CN111522937B (zh) | 话术推荐方法、装置和电子设备 | |
CN113342948A (zh) | 一种智能问答方法及装置 | |
CN117153197B (zh) | 语音情感识别方法、设备以及计算机可读存储介质 | |
CN111768764B (zh) | 语音数据处理方法、装置、电子设备及介质 | |
CN111401069A (zh) | 会话文本的意图识别方法、意图识别装置及终端 | |
CN110610697B (zh) | 一种语音识别方法及装置 | |
CN115171724A (zh) | 一种语速分析方法及系统 | |
CN112328751A (zh) | 用于处理文本的方法和装置 | |
CN111445925A (zh) | 用于生成差异信息的方法和装置 | |
JP2020129051A (ja) | パラ言語情報推定モデル学習装置、パラ言語情報推定装置、およびプログラム | |
CN113283240B (zh) | 共指消解方法及电子设备 | |
CN115188365B (zh) | 一种停顿预测方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |