CN117953915A - 一种基于CTC-Conformer的语音情绪识别方法 - Google Patents
一种基于CTC-Conformer的语音情绪识别方法 Download PDFInfo
- Publication number
- CN117953915A CN117953915A CN202410089324.0A CN202410089324A CN117953915A CN 117953915 A CN117953915 A CN 117953915A CN 202410089324 A CN202410089324 A CN 202410089324A CN 117953915 A CN117953915 A CN 117953915A
- Authority
- CN
- China
- Prior art keywords
- conformer
- ctc
- voice
- result
- emotion
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 26
- 230000008909 emotion recognition Effects 0.000 title claims abstract description 15
- 230000008451 emotion Effects 0.000 claims abstract description 24
- 238000012549 training Methods 0.000 claims abstract description 19
- 230000004927 fusion Effects 0.000 claims abstract description 11
- 238000000605 extraction Methods 0.000 claims abstract description 9
- 238000009432 framing Methods 0.000 claims abstract description 5
- 238000007781 pre-processing Methods 0.000 claims abstract description 5
- 238000004364 calculation method Methods 0.000 claims description 9
- 230000007246 mechanism Effects 0.000 claims description 7
- 239000012634 fragment Substances 0.000 claims description 6
- 230000008569 process Effects 0.000 claims description 5
- 230000000694 effects Effects 0.000 claims description 4
- 230000002452 interceptive effect Effects 0.000 claims description 4
- 230000009466 transformation Effects 0.000 claims description 4
- 238000013502 data validation Methods 0.000 claims description 3
- 238000013135 deep learning Methods 0.000 claims description 3
- 238000002474 experimental method Methods 0.000 claims description 3
- 230000006870 function Effects 0.000 claims description 3
- 239000011159 matrix material Substances 0.000 claims description 3
- 230000007935 neutral effect Effects 0.000 claims description 3
- 238000012545 processing Methods 0.000 claims description 3
- 238000007500 overflow downdraw method Methods 0.000 claims description 2
- 238000010276 construction Methods 0.000 claims 1
- 238000011156 evaluation Methods 0.000 claims 1
- 238000010200 validation analysis Methods 0.000 claims 1
- 210000005266 circulating tumour cell Anatomy 0.000 abstract description 20
- 238000005516 engineering process Methods 0.000 abstract description 2
- 238000003058 natural language processing Methods 0.000 abstract description 2
- 238000004891 communication Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000000638 solvent extraction Methods 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 241000238558 Eucarida Species 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000002996 emotional effect Effects 0.000 description 1
- 210000005036 nerve Anatomy 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/63—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Theoretical Computer Science (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Signal Processing (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- General Physics & Mathematics (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Child & Adolescent Psychology (AREA)
- Hospice & Palliative Care (AREA)
- Psychiatry (AREA)
- Image Analysis (AREA)
Abstract
本发明属于自然语言处理领域,具体是一种基于CTC‑Conformer的语音情绪识别方法。通过结合CTC的硬对齐特性以及Conformer软对齐特性来提高语音情绪的识别准确率。并且在特征提取环节加入语音特征融合技术增强了识别特征的全面性。该方法包含语音数据的预处理,其中包含预加重、分帧、快速傅里叶变换的操作,再者将提取的MFCC以及Fbank特征进行融合。搭建模型将Conformer Encnder作为Shared Enconder,CTC以及Conformer Deconder分别解码进行训练,最后识别阶段将两通道CTC结果以及Conformer Deconder结果进行投票处理得出最终的识别结果。
Description
技术领域
本发明自然语言处理领域,具体是一种基于CTC-Conformer的语音情绪识别方法。
背景技术
语音是人类之间最快速、最高效的一种交流手段,也是最悠久的一种交流方式,最早可以追溯到原始社会时期,随着人工智能的发展,语音交流已经不再是人类独有的专利,自从苹果公司在2011年10月份发布iphone 4s时宣布语音助手Siri的诞生,人类便开始真正迈进通过语音与人机进行交互的时代。
语音信号是人类之间最快,最自然的通信方式,这促使研究人员将语音视为一种快速有效的人机交互方式。语音情绪识别从说话者的语音中提取说话人的情绪状态,它是交互式智能系统的重要组成部分。语音情感识别一般是由三部分组成,包括语音信号采集、情感特征提取以及情感识别。
语音信号中包含了多方面的信息,对这些信息进行进一步加工处理可以用于许多研究,包括自动语音识别、说话人识别等。现有的语音情绪识别研究能够做到从同一段语音中提取多种声学特征,但却没有考虑到不同的声学特征侧重点不尽相同,单一的使用某种特征作为研究对象无法做到充分利用音频信号中的信息,这样也会使得情绪识别准确率不能明显提升。
发明内容
针对现有技术的缺点,本发明提供了一种基于CTC-Conformer的语音情绪识别方法,将CTC硬对齐特性以及Conformer中多头注意力机制的软对齐特性相结合,以提高育婴包含情绪的识别准确率,同时在提取语音特征的过程中将MFCC与Fbank相融合,增强语音特征的全面性。该方法使用Conformer Enconder作为Shared Enconder,Confomer模型包含前馈神经、卷积以及多头注意力机制多重网络,使得特征更容易被学习,更容易被优化。在通过使用预处理的数据集训练模型后,在识别时,通过CTC得到结果A,通过Conformer得到结果B,两者进行投票处理得到最终结果。该方法包含以下步骤:
步骤1)对语音情绪数据集进行预处理。
步骤2)提取语音特征Fbank以及MFCC并进行融合。
步骤3)构建模型,结合CTC硬对齐特性以及Conformer软对齐特性,传入融合特征进行模型的训练。
步骤4)识别阶段,传入音频通过提取特征并进行融合后,传入模型,经CTC得到结果A,经Conformer得到结果B,进行投票处理后得到最终结果。
进一步地,步骤1)具体为:
步骤101)选择交互式情感二元运动捕捉数据库(IEMOCAP)作为实验所用数据集,该数据集包含6类情绪:Neutral,Happiness,Sadness,Anger,Frustrated,Excited。
步骤102)划分数据集,分别将80%的数据用于训练,20%的数据用于验证。
步骤103)当将IEMOCAP的语音统一到相同长度,这里统一到2秒,即把一条语音切分成2秒一段,重叠1.6秒;不足2秒的语音用0补充。
进一步地,步骤2)语音特征融合方法具体为:
步骤201)对统一长度的语音数据,进行语音的特征提取,包括预加重、分帧、加窗、傅里叶变换等操作。
步骤202)语音数据在进行加窗之后进行傅里叶变换,通过Mel滤波器组(取12维)得到Fbank特征。
步骤203)在Fabnk的特征上增加一个离散余弦变换得到Mfcc特征(取40维),最后将Mfcc嵌入到Fbank中进行融合。
进一步地,步骤3)具体为:
步骤301)采用PyTorch作为深度学习框架进行模型的搭建和训练。
步骤302)将Conformer Enconer作为Shared Eneonder,包含前馈,多头注意力、卷积等多层网络。
步骤303)Conformer中的多头注意力机制,多头注意力中头的数量为8个,计算公式如下:
headi=Attention(Qi,Ki,Vi),i=1,...,h
Multi(Q,K,V)=Concat(head1,...,headh)Wo
其中h代表的是head的数量,Q、K和V则是MFCCs特征经过位置编码和投影后得到参数,以及/>是第i个head对应于Q、K和V的训练参数,之后得到了每个head对应的Qi、Ki以及Vi,headi为第i个head经过自注意力计算后的值,Wo为参数矩阵,Multi(Q,K,V)代表h个head对应的多头注意力的值。
步骤304)一边使用CTC进行解码,使语音特征与标签一一对应,可以理解为硬对齐,其CTC loss计算公式如下:
其中Alian(L|x)表示表示所有将长度为S的序列对齐到长度为T的输入序列的方式,P(π|x)表示经网络输出语音数据每种情绪的概率。
步骤305)一边使用Conformer Deconder进行解码,通过Conformer的多头注意力机制分配权重,实现软对齐,使用PyTorch中的交叉熵损失函数来计算Conformer的损失。其公式如下所示:
步骤306)在每个epoch中,将训练好的权重文件及其对应的损失值保存下来。在训练过程中及时发现模型训练的效果,并选择损失值最低的权重文件作为最佳模型。这个步骤可以有效地提高模型的准确率和泛化能力。
步骤307)使用20%的数据验证集准确率来评估分类器的性能。准确率是指模型预测正确的样本数(真阳性和真阴性)占样本总数的比例。准确率越高,表示模型的分类性能越好。其公式如下所示:
其中,TP、TN、FP和FN分别表示真阳性、真阴性、假阳性和假阴性。
进一步地,所述步骤4)具体为:
步骤401)待识别语音数据经过步骤1进行预处理获得若干条较短的语音片段,并将这些语音片段作为待识别的音频数据样本。
步骤402)按照步骤3从上述的音频数据样本中提取2种特征,并将两种特征进行融合
步骤403)融合后的语音特征传入网络,经过CTC解码器得到结果A,经过Conformer解码器得到结果B,其中结果A与B为两通道分别预测的各语音情绪的概率,最后将结果A与结果B进行投票处理得到最终识别结果。
有益效果
(1)本发明是一种基于CTC-Conformer的语音情绪识别方法,首先在特征提取环节,我们提取40维的Fbnak特征,并在Fbank的基础上进行离散余弦变换提取12维的MFCC特征,最后将两种融合拓宽特征的全面性。
(2)本发明利用CTC算法的硬对齐特性以及Conformer中多头注意力机制的软对齐特性进行结合,互补以提高模型的性能。
附图说明
图1为本发明的识别流程示意图;
图2为本发明对CTC-Conformer的模型框架图;
具体实施方式
本发明公开了一种基于CTC-Conformer的语音情绪识别方法,用于解决日益发展的语音识别领域中说话人包含的情绪未识别或者识别准确率低等问题。此外,该方法通过对MFCC以及Fbank语音特征的融合拓宽语音特征的全面性,通过利用CTC的硬对齐特性以及注意力机制的软对齐特性提高模型识别准确率。
为了使本技术领域的人员更好地理解本发明方案,本文结合附图和具体实施方式对本发明进行了进一步详细的说明。需要指出的是,所描述的实施例仅是本发明的一部分实施例,而不是全部实施例。基于本发明中的实施例,本领域的普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明的保护范围。
具体而言,参照图1所示,该语音情绪识别方法包括以下步骤:
步骤1)对语音情绪数据集进行预处理。对数据集进行处理,包括以下步骤:
步骤101)选择交互式情感二元运动捕捉数据库(IEMOCAP)作为实验所用数据集,该数据集包含6类情绪:Neutral,Happiness,Sadness,Anger,Frustrated,Excited。
步骤102)划分数据集,分别将80%的数据用于训练,20%的数据用于验证。
步骤103)当将IEMOCAP的语音统一到相同长度,这里统一到2秒,即把一条语音切分成2秒一段,重叠1.6秒:不足2秒的语音用0补充。
步骤2)提取语音特征Fbank以及MFCC并进行融合,包括以下步骤:
步骤201)对统一长度的语音数据,进行语音的特征提取,包括预加重、分帧、加窗、傅里叶变换等操作。
步骤202)语音数据在进行加窗之后进行傅里叶变换,通过Mel滤波器组(取12维)得到Fbank特征。
步骤203)在Fabnk的特征上增加一个离散余弦变换得到Mfcc特征(取40维),最后将Mfcc嵌入到Fbank中进行融合。
步骤3)建模型,结合CTC硬对齐特性以及Conformer软对齐特性,传入融合特征进行模型的训练。包括以下步骤:
步骤301)采用PyTorch作为深度学习框架进行模型的搭建和训练。
步骤302)将Conformer Enconer作为Shared Enconder,包含前馈,多头注意力、卷积等多层网络。
步骤303)Conformer中的多头注意力机制,多头注意力中头的数量为8个,计算公式如下:
headi=Attention(Qi,Ki,Vi),i=1,...,h
Multi(Q,K,V)=Concat(head1,...,headh)Wo
其中h代表的是head的数量,Q、K和V则是MFCCs特征经过位置编码和投影后得到参数,以及/>是第i个head对应于Q、K和V的训练参数,之后得到了每个head对应的Qi、Ki以及Vi,headi为第i个head经过自注意力计算后的值,Wo为参数矩阵,Multi(Q,K,V)代表h个head对应的多头注意力的值。
步骤304)一边使用CTC进行解码,使语音特征与标签一一对应,可以理解为硬对齐,其CTC loss计算公式如下:
其中Alian(L|x)表示表示所有将长度为S的序列对齐到长度为T的输入序列的方式,P(π|x)表示经网络输出语音数据每种情绪的概率。
步骤305)一边使用Conformer Deconder进行解码,通过Conformer的多头注意力机制分配权重,实现软对齐,使用PyTorch中的交叉熵损失函数来计算Conformer的损失。其公式如下所示:
步骤306)在每个epoch中,将训练好的权重文件及其对应的损失值保存下来。在训练过程中及时发现模型训练的效果,并选择损失值最低的权重文件作为最佳模型。这个步骤可以有效地提高模型的准确率和泛化能力。
步骤307)使用20%的数据验证集准确率来评估分类器的性能。准确率是指模型预测正确的样本数(真阳性和真阴性)占样本总数的比例。准确率越高,表示模型的分类性能越好。其公式如下所示:
其中,TP、TN、FP和FN分别表示真阳性、真阴性、假阳性和假阴性。
步骤4)识别阶段,传入音频通过提取特征并进行融合后,传入模型,经CTC得到结果A,经Conformer得到结果B,进行投票处理后得到最终结果。
步骤401)待识别语音数据经过步骤1进行预处理获得若干条较短的语音片段,并将这些语音片段作为待识别的音频数据样本。
步骤402)按照步骤3从上述的音频数据样本中提取2种特征,并将两种特征进行融合
步骤403)融合后的语音特征传入网络,经过CTC解码器得到结果A,经过Conformer解码器得到结果B,其中结果A与B为两通道分别预测的各语音情绪的概率,最后将结果A与结果B进行投票处理得到最终识别结果。
本方法通过结合CTC的硬对齐特性以及Conformer软对齐特性来提高语音情绪的识别准确率。并且在特征提取环节加入语音特征融合技术增强了识别特征的全面性。该方法包含语音数据的预处理,其中包含预加重、分帧、快速傅里叶变换的操作,再者将提取的MFCC以及Fbank特征进行融合。搭建模型将Conformer Encnder作为Shared Enconder,CTC以及Conformer Deconder分别解码进行训练,最后识别阶段将两通道CTC结果以及ConformerDeconder结果进行投票处理得出最终的识别结果。该方法具有技术先进性。
需要注意的是,以上的实施例仅用于说明本发明的技术方案,而非对其做出限制。虽然参照了前述实施例对本发明进行了详细的说明,但本领域的普通技术人员应当理解,他们仍然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。这些修改或者替换,并不会使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (5)
1.一种基于CTC-Conformer的语音情绪识别方法,融合语音特征并将CTC软对齐以及Conformer软对齐特征结合,其特征是包括以下步骤:
步骤1)对语音情绪数据集进行预处理。
步骤2)提取语音特征Fbank以及MFCC并进行融合。
步骤3)构建模型,结合CTC硬对齐特性以及Conformer软对齐特性,传入融合特征进行模型的训练。
步骤4)识别阶段,传入音频通过提取特征并进行融合后,传入模型,经CTC得到结果A,经Conformer得到结果B,进行投票处理后得到最终结果。
2.根据权利要求1所述的一种基于CTC-Conformer的语音情绪识别方法,其特征在于,所述步骤1中语音情绪数据集的处理步骤具体如下:
201)选择交互式情感二元运动捕捉数据库(IEMOCAP)作为实验所用数据集,该数据集包含6类情绪:Neutral,Happiness,Sadness,Anger,Frustrated,Excited。
202)划分数据集,分别将80%的数据用于训练,20%的数据用于验证。
203)将IEMOCAP的语音统一到相同长度,这里统一到2秒,即把一条语音切分成2秒一段,重叠1.6秒;不足2秒的语音用0补充。
3.根据权利要求1所述的一种基于CTC-Conformer的语音情绪识别方法,其特征在于,所述步骤2中语音特征融合方法具体如下:
301)对统一长度的语音数据,进行语音的特征提取,包括预加重、分帧、加窗、傅里叶变换等操作。
302)语音数据在进行加窗之后进行傅里叶变换,通过Mel滤波器组(取12维)得到Fbank特征。
303)在Fabnk的特征上增加一个离散余弦变换得到Mfcc特征(取40维),最后将Mfcc嵌入到Fbank中进行融合。
4.根据权利要求1所述的一种基于CTC-Conformer的语音情绪识别方法,其特征在于,所述步骤3模型的构建、训练参数及分类性能评估指标如下:
401)采用PyTorch作为深度学习框架进行模型的搭建和训练。
402)将Conformer Enconer作为Shared Enconder,包含前馈,多头注意力、卷积等多层网络。
403)Conformer中的多头注意力机制,多头注意力中头的数量为8个,计算公式如下:
headi=Attention(Qi,Ki,Vi),i=1,…,h
Multi(Q,K,V)=Concat(head1,…,headh)Wo
其中h代表的是head的数量,Q、K和V则是MFCCs特征经过位置编码和投影后得到参数,以及/>是第i个head对应于Q、K和V的训练参数,之后得到了每个head对应的Qi、Ki以及Vi,headi为第i个head经过自注意力计算后的值,Wo为参数矩阵,Multi(Q,K,V)代表h个head对应的多头注意力的值。
404)一边使用CTC进行解码,使语音特征与标签一一对应,可以理解为硬对齐,其CTCloss计算公式如下:
其中Alian(L|x)表示表示所有将长度为S的序列对齐到长度为T的输入序列的方式,P(π|x)表示经网络输出语音数据每种情绪的概率。
405)一边使用Conformer Deconder进行解码,通过Conformer的多头注意力机制分配权重,实现软对齐,使用PyTorch中的交叉熵损失函数来计算Conformer的损失。其公式如下所示:
406)在每个epoch中,将训练好的权重文件及其对应的损失值保存下来。在训练过程中及时发现模型训练的效果,并选择损失值最低的权重文件作为最佳模型。这个步骤可以有效地提高模型的准确率和泛化能力。
407)使用20%的数据验证集准确率来评估分类器的性能。准确率是指模型预测正确的样本数(真阳性和真阴性)占样本总数的比例。准确率越高,表示模型的分类性能越好。其公式如下所示:
其中,TP、TN、FP和FN分别表示真阳性、真阴性、假阳性和假阴性。
5.根据权利要求1所述的一种基于CTC-Conformer的语音情绪识别方法,其特征在于,所述步骤4识别阶段,具体步骤如下:
501)待识别语音数据经过步骤1进行预处理获得若干条较短的语音片段,并将这些语音片段作为待识别的音频数据样本。
502)按照步骤3从上述的音频数据样本中提取2种特征,并将两种特征进行融合
503)融合后的语音特征传入网络,经过CTC解码器得到结果A,经过Conformer解码器得到结果B,其中结果A与B为两通道分别预测的各语音情绪的概率,最后将结果A与结果B进行投票处理得到最终识别结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410089324.0A CN117953915A (zh) | 2024-01-22 | 2024-01-22 | 一种基于CTC-Conformer的语音情绪识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410089324.0A CN117953915A (zh) | 2024-01-22 | 2024-01-22 | 一种基于CTC-Conformer的语音情绪识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117953915A true CN117953915A (zh) | 2024-04-30 |
Family
ID=90800681
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410089324.0A Pending CN117953915A (zh) | 2024-01-22 | 2024-01-22 | 一种基于CTC-Conformer的语音情绪识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117953915A (zh) |
-
2024
- 2024-01-22 CN CN202410089324.0A patent/CN117953915A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111933129B (zh) | 音频处理方法、语言模型的训练方法、装置及计算机设备 | |
CN110534095A (zh) | 语音识别方法、装置、设备以及计算机可读存储介质 | |
CN114694076A (zh) | 基于多任务学习与层叠跨模态融合的多模态情感分析方法 | |
CN109992669B (zh) | 一种基于语言模型和强化学习的关键词问答方法 | |
CN112735383A (zh) | 语音信号的处理方法、装置、设备及存储介质 | |
CN112101044B (zh) | 一种意图识别方法、装置及电子设备 | |
CN115019776A (zh) | 语音识别模型及其训练方法、语音识别方法及装置 | |
CN112466316A (zh) | 一种基于生成对抗网络的零样本语音转换系统 | |
CN112507311A (zh) | 一种基于多模态特征融合的高安全性身份验证方法 | |
CN111009235A (zh) | 一种基于cldnn+ctc声学模型的语音识别方法 | |
CN117765981A (zh) | 一种基于语音文本跨模态融合的情感识别方法及系统 | |
CN116758451A (zh) | 基于多尺度和全局交叉注意力的视听情感识别方法及系统 | |
CN116524932A (zh) | 一种基于人工智能的智能语音交互系统及方法 | |
CN117591648A (zh) | 基于情绪细微感知的电网客服共情对话回复生成方法 | |
Xu et al. | A comprehensive survey of automated audio captioning | |
CN116884404B (zh) | 多任务导向的语音语义通信方法、装置及系统 | |
CN115249479A (zh) | 基于brnn的电网调度复杂语音识别方法、系统及终端 | |
CN112489651B (zh) | 语音识别方法和电子设备、存储装置 | |
CN113555133A (zh) | 一种医疗问诊数据处理方法和装置 | |
CN115376547B (zh) | 发音评测方法、装置、计算机设备和存储介质 | |
CN114120973B (zh) | 一种语音语料生成系统训练方法 | |
CN111009236A (zh) | 一种基于dblstm+ctc声学模型的语音识别方法 | |
CN117953915A (zh) | 一种基于CTC-Conformer的语音情绪识别方法 | |
CN112669836B (zh) | 命令的识别方法、装置及计算机可读存储介质 | |
Tanaka et al. | End-to-end rich transcription-style automatic speech recognition with semi-supervised learning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |