CN111128240B - 一种基于对抗语义擦除的语音情感识别方法 - Google Patents
一种基于对抗语义擦除的语音情感识别方法 Download PDFInfo
- Publication number
- CN111128240B CN111128240B CN201911317659.9A CN201911317659A CN111128240B CN 111128240 B CN111128240 B CN 111128240B CN 201911317659 A CN201911317659 A CN 201911317659A CN 111128240 B CN111128240 B CN 111128240B
- Authority
- CN
- China
- Prior art keywords
- speech
- voice
- emotion
- features
- recognition model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000008909 emotion recognition Effects 0.000 title claims abstract description 52
- 238000000034 method Methods 0.000 title claims abstract description 35
- 230000008451 emotion Effects 0.000 claims abstract description 44
- 238000007781 pre-processing Methods 0.000 claims abstract description 11
- 238000012549 training Methods 0.000 claims description 33
- 238000001228 spectrum Methods 0.000 claims description 9
- 230000006870 function Effects 0.000 claims description 8
- 238000009499 grossing Methods 0.000 claims description 6
- 230000004927 fusion Effects 0.000 claims description 5
- 230000008569 process Effects 0.000 claims description 5
- 238000000354 decomposition reaction Methods 0.000 claims description 4
- 238000013135 deep learning Methods 0.000 claims description 4
- 238000000513 principal component analysis Methods 0.000 claims description 3
- 230000002996 emotional effect Effects 0.000 description 8
- 230000003993 interaction Effects 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 238000007792 addition Methods 0.000 description 1
- 230000008485 antagonism Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000000873 masking effect Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000033764 rhythmic process Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/63—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Child & Adolescent Psychology (AREA)
- General Health & Medical Sciences (AREA)
- Hospice & Palliative Care (AREA)
- Psychiatry (AREA)
- Signal Processing (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种基于对抗语义擦除的语音情感识别方法,包括:(1)获取原始语音数据,并对原始语音数据进行预处理获得输入特征;(2)利用包含第一特征提取器和第一识别器的语音识别模型对输入特征进行识别,获得识别语义,同时提取特征提取器输出的语义特征;(3)利用包含第二特征提取器和第二识别器的语音情感识别模型的第二特征提取器对输入特征进行提取获得语音特征,从语音特征中擦除所述语义特征获得情感特征,利用第二识别器识别对输入的情感特征进行识别,输出语音情感类别。该方法能够快速准确地基于输入的语音数据识别语音情感类别。
Description
技术领域
本发明涉及一种离散语音情感识别领域,尤其涉及一种基于对抗语义擦除的语音情感识别方法。
背景技术
语音是人交流沟通的主要方式,也是最自然、最主流的人机交互方式之一。然而在语音交互过程中,系统大多只是学习了语音的内容,却往往忽略语音中所蕴含的情感信息,导致使用者感觉到死板和挫败,而语音情感识别则是改善用户体验感的一种新型交互技术。
语音情感识别是指通过语音中蕴含的情感信息,判断说话人此时的情感状态。在日常生活和交流中,人可以通过情绪感知来判断对方的状态和喜好,因此用户也期待计算机能感知和判断他的情绪和喜好,并做出自然的回应,让使用者得到更好的人机交互体验。随着移动通信技术和互联网技术的发展,语音情感识别在远程教育、电子游戏、智能玩具、陪伴机器人等多方面有着重要的应用价值。
现有语义情感识别研究大多在以下两个方面进行优化:一是提取更具表征力的语音情感特征,包括谱相关特征、韵律特征、声音质量特征、神经网络瓶颈输出等自制特征以及上述特征的融合特征等。二是选择更具识别能力的识别器,包括传统的机器学习分类器和深度学习分类器。
然而不同于语义信息,语音中的情感信息作为一个高维度特征,具有很强的不确定性和主观性,人工很难制定的有效的语音特征提取策略。同时在小数据量限制的情况下,基于统计学意义的深度学习方法也很容易受到不同语义差异间的干扰,导致现有方法识别结果准确率较低,跨数据集识别效果差。因此如何在语音情感识别中去除语义信息的干扰,提高识别准确率和跨数据集表现力,成为了本领域内技术人员亟待解决的问题。
发明内容
本发明的目的是提供一种基于对抗语义擦除的语音情感识别方法,该方法能够快速准确地基于输入的语音数据识别语音情感类别。
为实现上述发明目的,本发明提供的技术方案为:
一种基于对抗语义擦除的语音情感识别方法,包括以下步骤:
(1)获取原始语音数据,并对原始语音数据进行预处理获得输入特征;
(2)利用包含第一特征提取器和第一识别器的语音识别模型对输入特征进行识别,获得识别语义,同时提取特征提取器输出的语义特征;
(3)利用包含第二特征提取器和第二识别器的语音情感识别模型的第二特征提取器对输入特征进行提取获得语音特征,从语音特征中擦除所述语义特征获得情感特征,利用第二识别器识别对输入的情感特征进行识别,输出语音情感类别;
所述语音识别模型和所述语音情感识别模型的网络结构相同,经过对抗训练确定网络参数,从所述语音识别模型中输入层起提取任意个网络层组成第一特征提取器,剩下网络层组成第一识别器;从所述语音情感识别模型中输入层起提取与第一特征提取器相同个数的网络层组成第二特征提取器,剩下网络层组成第二识别器。
与现有技术相比,本发明具有的有益效果为:
(1)本发明通过基于语音识别任务和语音情感识别任务之间学习到的语音特征的对抗性,在语音情感识别中去除了语义内容的干扰,提高了语音情感识别的准确率以及模型跨数据集跨语种的表现能力。
(2)本发明在小数据量的限制下,利用大数据量的语音识别任务进行辅助,提取了更纯正的语音情感特征,克服了语音情感数据量少的困难。
(3)本发明使用的是除语义之外的情感信息,能有效克服“言不由衷”、情感掩饰的使用情景,识别更真实的情感状态。
(4)本发明主要应用于针对独居老人和学龄前儿童的陪伴机器人,并针对相关场景进行了任务适应,具有很高的商业应用价值。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图做简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动前提下,还可以根据这些附图获得其他附图。
图1是本发明实施例提供的基于对抗语义擦除的语音情感识别方法的流程图;
图2是本发明实施例提供的对原始语音数据进行预处理获得输入特征的过程;
图3是本发明实施例提供的基于对抗语义擦除的语音情感识别方法的总体框架图;
图4(a)~图4(d)是本发明实施例提供的识别准确率图。
具体实施方式
为使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例对本发明进行进一步的详细说明。应当理解,此处所描述的具体实施方式仅仅用以解释本发明,并不限定本发明的保护范围。
图1是本发明实施例提供的基于对抗语义擦除的语音情感识别方法的流程图;图2是本发明实施例提供的对原始语音数据进行预处理获得输入特征的过程;图3是本发明实施例提供的基于对抗语义擦除的语音情感识别方法的总体框架图;参见图1~3,该语音情感识别方法包括以下步骤:
步骤1,获取原始语音数据,并对原始语音数据进行预处理获得输入特征。
步骤1中,对原始语音数据依次进行分帧加窗、傅里叶变换(FFT)和复数分解提取原始语音数据对应的时频谱中的实部谱,并对实部谱进行数据平滑,获得输入特征。
具体地,采用以下平滑函数对实部谱进行数据平滑,
log 1p=log(x+1)
其中,x表示输入的待平滑数据。
步骤2,利用包含第一特征提取器和第一识别器的语音识别模型对输入特征进行识别,获得识别语义,同时提取特征提取器输出的语义特征。
该语音识别模型是利用大量语音识别数据训练获得的,由于语音识别模型在大量不同语义内容、不同情绪状态的测试样本中表现优秀,因此可以证明该语音识别模型学习到了去除了情感信息影响的有效语义特征。
步骤3,利用包含第二特征提取器和第二识别器的语音情感识别模型的第二特征提取器对输入特征进行提取获得语音特征,从语音特征中擦除所述语义特征获得情感特征,利用第二识别器识别对输入的情感特征进行识别,输出语音情感类别。
由于语音情感识别模型和语音识别模型在语音识别任务和语音情感识别任务之间的特征点对抗性,采用采用语义擦除的方法从语音情感识别模型的第二特征提取器输出的语音特征中除去语音识别模型的第一特征提取器输出的语义特征。
具体地,采用特征相减、异或、卷积、特征融合中的至少一种方式从语音特征中擦除所述语义特征获得情感特征。具体地,所述特征融合包括主成成分分析(PCA)、奇异值分解(SVD)等。
其中,特征相减擦除方法如下:
其中,Fs表示语义特征,Fa表示语音特征,Fe表示情感特征,
本发明中,所述语音识别模型和语音情感识别模型采用深度学习网络经对抗训练获得。
具体地,所述语音识别模型和语音情感识别模型采用CNN和RNN相结合的网络,经对抗训练获得。
具体地,所述语音识别模型和语音情感识别模型的训练过程为:
获得语音情感识别数据集,并对语音情感识别数据集中的语音数据进行预处理获得输入特征,该输入特征以及对应的识别语义和语音情感类别组成训练样本,构成语音情感训练集;
搭建网络结构相同的语音识别模型和所述语音情感识别模型;
获得语音识别数据集,对语音识别数据集中的语音数据,进行与语音情感识别相同的预处理,获得语音识别输入特征,并使用CTC损失函数和该语音识别输入特征,预训练语音识别模型;
使用语音情感训练集同时训练语音情感模型和微调(fine tuning)预训练后的语音识别模型,训练步骤如下:
(1)使用语音情感训练集中的语音输入数据和识别语义,用CTC损失函数微调包含第一特征提取器和第一识别器在内的语音识别模型参数;
(2)提取第一特征提取器输出的语义特征;
(3)将语音情感训练集中的语音输入数据输入第二特征提取器,其输出除擦除步骤(2)中的语义特征后,输入第二识别器,利用交叉熵损失函数训练情感分类后,更新包含第二特征提取器和第二识别器在内的语音情感模型参数,并微调第一特征提取器参数;
重复步骤以上步骤,直至模型训练稳定;
(4)重复步骤以上步骤,直至模型训练稳定训练结束后;
确定网络参数,从所述语音识别模型中输入层起提取任意个网络层组成第一特征提取器,剩下网络层组成第一识别器;从所述语音情感识别模型中输入层起提取与第一特征提取器相同个数的网络层组成第二特征提取器,剩下网络层组成第二识别器。
上述基于对抗语义擦除的语音情感识别方法可以应用到独居老人和学龄前儿童生活陪伴中,原始语音数据可以为英语和德语等语言,识别的语音情感类别包括悲伤、愤怒、开心以及中性四种情绪类别。
图4(a)~图4(d)为本发明实施例提供的识别准确率图,具体表示使用语义擦除和未使用情况下分别在德语和英语数据集上的结果。由图4(a)~图4(d)可知,使用了语义擦除的方法在德语数据集上准确率提高了约2%,在英语数据集上也能保证高准确率并提高系统训练的稳定性。同时使用了语义擦除方法后,英语数据集上训练好的模型在德语数据集上的预测准确率提高了6%,德语数据集上训练好的模型在英语数据集上的预测准确率提高了0.59%,该结果表明该基于对抗语义擦除的语音情感识别方法能有效提高语音情感识别准确率,并且能提高模型跨数据集跨语种的表现能力。
以上所述的具体实施方式对本发明的技术方案和有益效果进行了详细说明,应理解的是以上所述仅为本发明的最优选实施例,并不用于限制本发明,凡在本发明的原则范围内所做的任何修改、补充和等同替换等,均应包含在本发明的保护范围之内。
Claims (8)
1.一种基于对抗语义擦除的语音情感识别方法,其特征在于,所述方法包括以下步骤:
(1)获取原始语音数据,并对原始语音数据进行预处理获得输入特征;
(2)利用包含第一特征提取器和第一识别器的语音识别模型对输入特征进行识别,获得识别语义,同时提取特征提取器输出的语义特征;
(3)利用包含第二特征提取器和第二识别器的语音情感识别模型的第二特征提取器对输入特征进行提取获得语音特征,从语音特征中擦除所述语义特征获得情感特征,利用第二识别器识别对输入的情感特征进行识别,输出语音情感类别;
所述语音识别模型和所述语音情感识别模型的网络结构相同,经过对抗训练确定网络参数,从所述语音识别模型中输入层起提取任意个网络层组成第一特征提取器,剩下网络层组成第一识别器;从所述语音情感识别模型中输入层起提取与第一特征提取器相同个数的网络层组成第二特征提取器,剩下网络层组成第二识别器。
2.如权利要求1所述的基于对抗语义擦除的语音情感识别方法,其特征在于,步骤(1)中,对原始语音数据依次进行分帧加窗、傅里叶变换和复数分解提取原始语音数据对应的时频谱中的实部谱,并对实部谱进行数据平滑,获得输入特征。
3.如权利要求2所述的基于对抗语义擦除的语音情感识别方法,其特征在于,步骤(1)中,采用以下平滑函数对实部谱进行数据平滑,
log 1p=log(x+1)
其中,x表示输入的待平滑数据。
4.如权利要求1所述的基于对抗语义擦除的语音情感识别方法,其特征在于,步骤(3)中,采用特征相减、异或、卷积、特征融合中的至少一种方式从语音特征中擦除所述语义特征获得情感特征。
5.如权利要求4所述的基于对抗语义擦除的语音情感识别方法,其特征在于,所述特征融合包括主成成分分析、奇异值分解。
6.如权利要求1所述的基于对抗语义擦除的语音情感识别方法,其特征在于,所述语音识别模型和语音情感识别模型采用深度学习网络经对抗训练获得。
7.如权利要求1所述的基于对抗语义擦除的语音情感识别方法,其特征在于,所述语音识别模型和语音情感识别模型采用CNN和RNN相结合的网络,经对抗训练获得。
8.如权利要求1所述的基于对抗语义擦除的语音情感识别方法,其特征在于,所述语音识别模型和语音情感识别模型的训练过程为:
获得语音情感识别数据集,并对语音情感识别数据集中的语音数据进行预处理获得输入特征,该输入特征以及对应的识别语义和语音情感类别组成训练样本,构成语音情感训练集;
搭建网络结构相同的语音识别模型和所述语音情感识别模型;
获得语音识别数据集,对语音识别数据集中的语音数据,进行与语音情感识别相同的预处理,获得语音识别输入特征,并使用CTC损失函数和该语音识别输入特征,预训练语音识别模型;
使用语音情感训练集同时训练语音情感模型和微调预训练后的语音识别模型,训练步骤如下:
(1)使用语音情感训练集中的语音输入数据和识别语义,用CTC损失函数微调包含第一特征提取器和第一识别器在内的语音识别模型参数;
(2)提取第一特征提取器输出的语义特征;
(3)将语音情感训练集中的语音输入数据输入第二特征提取器,其输出除擦除步骤(2)中的语义特征后,输入第二识别器,利用交叉熵损失函数训练情感分类后,更新包含第二特征提取器和第二识别器在内的语音情感模型参数,并微调第一特征提取器参数;
(4)重复步骤以上步骤,直至模型训练稳定;
训练结束后,确定网络参数,从所述语音识别模型中输入层起提取任意个网络层组成第一特征提取器,剩下网络层组成第一识别器;从所述语音情感识别模型中输入层起提取与第一特征提取器相同个数的网络层组成第二特征提取器,剩下网络层组成第二识别器。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911317659.9A CN111128240B (zh) | 2019-12-19 | 2019-12-19 | 一种基于对抗语义擦除的语音情感识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911317659.9A CN111128240B (zh) | 2019-12-19 | 2019-12-19 | 一种基于对抗语义擦除的语音情感识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111128240A CN111128240A (zh) | 2020-05-08 |
CN111128240B true CN111128240B (zh) | 2022-05-17 |
Family
ID=70500931
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911317659.9A Active CN111128240B (zh) | 2019-12-19 | 2019-12-19 | 一种基于对抗语义擦除的语音情感识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111128240B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111710349B (zh) * | 2020-06-23 | 2023-07-04 | 长沙理工大学 | 一种语音情感识别方法、系统、计算机设备和存储介质 |
CN112905776B (zh) * | 2021-03-17 | 2023-03-31 | 西北大学 | 一种情感对话模型构建方法、情感对话系统及方法 |
CN113436649B (zh) * | 2021-06-25 | 2023-03-21 | 武汉大晟极科技有限公司 | 一种语音情感标定辅助方法及系统 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101930735A (zh) * | 2009-06-23 | 2010-12-29 | 富士通株式会社 | 语音情感识别设备和进行语音情感识别的方法 |
CN102723078A (zh) * | 2012-07-03 | 2012-10-10 | 武汉科技大学 | 基于自然言语理解的语音情感识别方法 |
CN102893326A (zh) * | 2011-05-11 | 2013-01-23 | 北京航空航天大学 | 结合情感点的汉语语音情感提取及建模方法 |
CN103258532A (zh) * | 2012-11-28 | 2013-08-21 | 河海大学常州校区 | 一种基于模糊支持向量机的汉语语音情感识别方法 |
CN105609116A (zh) * | 2015-12-23 | 2016-05-25 | 东南大学 | 一种语音情感维度区域的自动识别方法 |
CN106227054A (zh) * | 2016-08-30 | 2016-12-14 | 广东美的制冷设备有限公司 | 一种基于用户情感的温度控制方法、系统和家电 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130018875A1 (en) * | 2011-07-11 | 2013-01-17 | Lexxe Pty Ltd | System and method for ordering semantic sub-keys utilizing superlative adjectives |
-
2019
- 2019-12-19 CN CN201911317659.9A patent/CN111128240B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101930735A (zh) * | 2009-06-23 | 2010-12-29 | 富士通株式会社 | 语音情感识别设备和进行语音情感识别的方法 |
CN102893326A (zh) * | 2011-05-11 | 2013-01-23 | 北京航空航天大学 | 结合情感点的汉语语音情感提取及建模方法 |
CN102723078A (zh) * | 2012-07-03 | 2012-10-10 | 武汉科技大学 | 基于自然言语理解的语音情感识别方法 |
CN103258532A (zh) * | 2012-11-28 | 2013-08-21 | 河海大学常州校区 | 一种基于模糊支持向量机的汉语语音情感识别方法 |
CN105609116A (zh) * | 2015-12-23 | 2016-05-25 | 东南大学 | 一种语音情感维度区域的自动识别方法 |
CN106227054A (zh) * | 2016-08-30 | 2016-12-14 | 广东美的制冷设备有限公司 | 一种基于用户情感的温度控制方法、系统和家电 |
Non-Patent Citations (1)
Title |
---|
面向语音情感识别的深度学习算法研究;朱芳枚;《硕士学位论文》;20190531;I136-130 * |
Also Published As
Publication number | Publication date |
---|---|
CN111128240A (zh) | 2020-05-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Chen et al. | Two-layer fuzzy multiple random forest for speech emotion recognition in human-robot interaction | |
Venkataramanan et al. | Emotion recognition from speech | |
CN107578775B (zh) | 一种基于深度神经网络的多分类语音方法 | |
CN111128240B (zh) | 一种基于对抗语义擦除的语音情感识别方法 | |
Kamaruddin et al. | Cultural dependency analysis for understanding speech emotion | |
Schuller et al. | Emotion recognition in the noise applying large acoustic feature sets | |
US20170270922A1 (en) | Smart home control method based on emotion recognition and the system thereof | |
CN105047194B (zh) | 一种用于语音情感识别的自学习语谱图特征提取方法 | |
CN111312245B (zh) | 一种语音应答方法、装置和存储介质 | |
Kumbhar et al. | Speech emotion recognition using MFCC features and LSTM network | |
CN111402928B (zh) | 基于注意力的语音情绪状态评估方法、装置、介质及设备 | |
CN108986798B (zh) | 语音数据的处理方法、装置及设备 | |
KR20210070213A (ko) | 음성 사용자 인터페이스 | |
Noroozi et al. | Supervised vocal-based emotion recognition using multiclass support vector machine, random forests, and adaboost | |
Shahriar et al. | Classifying maqams of Qur’anic recitations using deep learning | |
CN108831450A (zh) | 一种基于用户情绪识别的虚拟机器人人机交互方法 | |
Alghifari et al. | On the use of voice activity detection in speech emotion recognition | |
CN116665669A (zh) | 一种基于人工智能的语音交互方法及系统 | |
Shah et al. | Speech emotion recognition based on SVM using MATLAB | |
CN114360584A (zh) | 一种基于音素级的语音情感分层式识别方法及系统 | |
Lanjewar et al. | Speech emotion recognition: a review | |
CN117219046A (zh) | 一种交互语音情感控制方法及系统 | |
CN116434758A (zh) | 声纹识别模型训练方法、装置、电子设备及存储介质 | |
Nazid et al. | Improved speaker-independent emotion recognition from speech using two-stage feature reduction | |
CN114758676A (zh) | 一种基于深度残差收缩网络的多模态情感识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |