CN110097894B - 一种端到端的语音情感识别的方法和系统 - Google Patents
一种端到端的语音情感识别的方法和系统 Download PDFInfo
- Publication number
- CN110097894B CN110097894B CN201910423250.9A CN201910423250A CN110097894B CN 110097894 B CN110097894 B CN 110097894B CN 201910423250 A CN201910423250 A CN 201910423250A CN 110097894 B CN110097894 B CN 110097894B
- Authority
- CN
- China
- Prior art keywords
- phoneme
- sequence
- sentence
- feature
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000008909 emotion recognition Effects 0.000 title claims abstract description 55
- 238000000034 method Methods 0.000 title claims abstract description 49
- 239000013598 vector Substances 0.000 claims abstract description 117
- 230000008451 emotion Effects 0.000 claims abstract description 56
- 238000000605 extraction Methods 0.000 claims abstract description 42
- 238000012549 training Methods 0.000 claims abstract description 39
- 238000012952 Resampling Methods 0.000 claims abstract description 8
- 238000013528 artificial neural network Methods 0.000 claims abstract description 7
- 239000010410 layer Substances 0.000 claims description 80
- 230000008569 process Effects 0.000 claims description 25
- 230000015654 memory Effects 0.000 claims description 22
- 238000011176 pooling Methods 0.000 claims description 21
- 230000002441 reversible effect Effects 0.000 claims description 21
- 230000006870 function Effects 0.000 claims description 15
- 239000011159 matrix material Substances 0.000 claims description 15
- 230000002457 bidirectional effect Effects 0.000 claims description 14
- 239000008186 active pharmaceutical agent Substances 0.000 claims description 12
- 238000012545 processing Methods 0.000 claims description 12
- 230000008859 change Effects 0.000 claims description 11
- 238000013527 convolutional neural network Methods 0.000 claims description 9
- 238000009432 framing Methods 0.000 claims description 9
- 230000002996 emotional effect Effects 0.000 claims description 8
- 238000001914 filtration Methods 0.000 claims description 8
- 238000006243 chemical reaction Methods 0.000 claims description 6
- 238000010586 diagram Methods 0.000 claims description 6
- 238000013507 mapping Methods 0.000 claims description 6
- 230000003068 static effect Effects 0.000 claims description 5
- 238000004364 calculation method Methods 0.000 claims description 4
- 238000007781 pre-processing Methods 0.000 claims description 4
- 230000001502 supplementing effect Effects 0.000 claims description 4
- 238000012360 testing method Methods 0.000 claims description 4
- 238000012512 characterization method Methods 0.000 claims description 3
- 238000010276 construction Methods 0.000 claims description 3
- 238000002790 cross-validation Methods 0.000 claims description 3
- 230000036651 mood Effects 0.000 claims description 3
- 238000005070 sampling Methods 0.000 claims description 3
- 238000012216 screening Methods 0.000 claims description 3
- 239000002356 single layer Substances 0.000 claims description 3
- 238000005520 cutting process Methods 0.000 claims description 2
- 230000000994 depressogenic effect Effects 0.000 claims description 2
- 238000007499 fusion processing Methods 0.000 claims description 2
- 230000007935 neutral effect Effects 0.000 claims description 2
- 238000003475 lamination Methods 0.000 claims 1
- 238000002360 preparation method Methods 0.000 claims 1
- 238000001514 detection method Methods 0.000 abstract 1
- 238000011160 research Methods 0.000 description 14
- 230000003993 interaction Effects 0.000 description 8
- 239000000284 extract Substances 0.000 description 5
- 206010048909 Boredom Diseases 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000007787 long-term memory Effects 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 230000033764 rhythmic process Effects 0.000 description 2
- 230000006403 short-term memory Effects 0.000 description 2
- 206010039203 Road traffic accident Diseases 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 230000000670 limiting effect Effects 0.000 description 1
- 230000004807 localization Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000006996 mental state Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003032 molecular docking Methods 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 210000000056 organ Anatomy 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 230000002829 reductive effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/63—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Computational Linguistics (AREA)
- Child & Adolescent Psychology (AREA)
- General Health & Medical Sciences (AREA)
- Hospice & Palliative Care (AREA)
- Psychiatry (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Machine Translation (AREA)
- Electrically Operated Instructional Devices (AREA)
Abstract
本发明公开了一种端到端的语音情感识别的方法和系统,其特征在于,包括语音数据音素特征提取;语音数据倒谱特征提取;音素向量序列和倒谱特征以文件为单位进行对齐,作为输入,利用深度神经网络进行端到端的语音情感识别模型训练;模型部署时,针对任意输入的语音数据的重采样和有效语音段检测。使用上述特征提取流程和识别模型,可以针对语音数据端到端的进行识别,效率更高,预测更精准。
Description
技术领域
本发明涉及语音情绪识别领域,特别是涉及一种端到端的的语音情感识别的方法和系统。
背景技术
计算机的语音情感识别能力是计算机情感智能的重要组成部分,是实现自然人机交互界面的关键前提。
真正意义上的语音情感识别相关研究最早出现在20世纪80年代中期,1985年Minsky教授提出“让计算机具有情感能力”的观点;90年代初期,麻省理工学院多媒体实验室构造了一个“情感编辑器”采集各种情感信号,初步识别情感,并做简单的反应;1999年,Moriyama提出语音和情感之间的线性关联模型,并据此在电子商务系统中建造出能够识别用户情感的图像采集系统语音界面。整体而言,语音情感识别研究在该时期仍旧处于初级阶段。语音情感识别的研究主要侧重于情感的声学特征分析这一方面。作为研究对象的情感语音样本也多表现为规模小、自然度低、语义简单等特点。
进入21世纪以来,随着计算机多媒体信息处理技术等研究领域的出现,语音情感识别研究被赋予了更多的迫切要求,发展步伐逐步加快。先后又有若干以情感计算为主题的会议和期刊被创立,并得到了世界范围内的注目,例如:始于2005年的AffectiveComputing and Intelligent Interaction双年会,始于2009年的INTERSPEECH EmotionChallenge年度竞赛以及始于2011年的International Audio/Visual Emotion Challengeand Workshop(AVEC)年度竞赛等。同时,越来越多的大学或科研机构也加入到语音情感识别研究的工作中来,例如:贝尔法斯特女王大学Cowie和Douglas-Cowie领导的情感语音小组;麻省理工大学Picard领导的媒体研究实验室;南加州大学Narayanan负责的语音情感组日内瓦大学Soberer领导的情绪研究实验室;以及清华大学人机交互与媒体集成研究所、模式识别国家重点实验室、浙江大学人工智能研究所和中国科学院语言研究所等。这些新兴力量的加入,使得语音情感识别研究工作在情感描述模型的引入、情感语音库的构建、情感特征分析等领域的各个方面都得到了发展。
近年来,随着计算机的普及和人工智能的迅速发展,传统低效的人机交互方式已经不能满足各种智能系统的需求。例如:对电话服务中心(call center)用户紧急程度的分拣。具体地,可通过及时发现负面情绪较为激烈的用户,并将他们的电话及时转接给人工客服,达到优化用户体验的目的;用于对汽车驾驶者的精神状态进行监控,从而在驾驶员疲劳的时候加以提醒,从而避免交通事故的发生;用于对抑郁症患者的情感变化进行跟踪,从而作为疾病诊断和治疗的依据。这些领域都迫切地要求以语音数据作为交互信息的载体,以其中的情绪信息作为机器交互逻辑的核心,更加智能的自然人机交互技术。
因此,需要一种端到端的语音情感识别的方法和系统,实时的对接各个领域的人机交互语音数据,从中提取用户的情绪信息,作为后端决策的核心依据。
发明内容
本发明所要解决的技术问题是克服现有技术的不足,提供一种端到端的语音情感识别的方法和系统。
为解决上述技术问题,本发明提出的技术方案是:一种端到端的语音情感识别的方法,其特征在于,包括如下步骤:
步骤一:从IEMOCAP数据集中抽取句子格式的语音数据(下文简称:句子语音数据)和情绪标签,其中句子语音数据是经拆分IEMOCAP数据集中的语音对话为单句语音,每个单句语音为一条语句数据;针对IEMOCAP数据集包含的5个对话,利用5-fold交叉验证方法处理句子语音数据,即依次选取IEMOCAP数据集的4个对话中的句子语音数据作为训练数据,剩下的1个对话中的句子语音数据作为测试数据,形成数据集;情绪标签选取开心、愤怒、中性、悲伤、沮丧以及激动;
其中,IEMOCAO数据集中的原始语音在抽取句子语音数据前,需先经过预处理提取有效语音片段,具体为:
步骤101,对接入系统的语音数据进行重采样,统一输入语音的采样频率;重采样的目标频率设置为16khz,多声道数据转单声道的过程始终提取左声道语音数据;
步骤102,对重采样后的语音数据进行有效语音段提取,过滤掉静音或噪声部分,具体包括:切分语音数据,借助开源工具webrtcvad判断每一帧是噪音帧还是有效帧;有效帧输出1,噪音帧输出0,将语音数据帧序列转换成0-1序列;通过设置一个滑动窗口(buf),来寻找有效语音段的起止点,当buf中的1状态达到整个buf的90%,就认为找到有效语音段的起点。,当buf中的0状态达到整个buf长度的90%,就认为找到有效语音段的结束点;
步骤二:句子语音数据的音素特征提取:使用pocketsphinx工具处理每条句子语音数据形成音素序列,经词嵌入模型训练得到音素嵌入模型,通过音素嵌入模型将音素序列转换成音素向量序列;统计音素向量序列长度,根据统计结果的集中范围,统一所有的音素向量序列长度;
步骤三:句子语音数据的对数梅尔倒谱特征提取:对句子语音数据做加窗分帧的预处理,然后经快速傅里叶变换和梅尔滤波处理获得句子语音数据在时频域上的梅尔倒谱图,对倒谱图求一阶差分值和二阶差分值,进而获得包含语音静态特征和动态特征的倒谱特征图;统计数据集中所有音频文件的帧数,根据帧数的集中范围,确定后续训练模型中池化层的边长参数;
步骤四:基于深度神经网络构建语音情绪识别模型,融合句子语音数据的音素特征和倒谱特征:采用双向长短记忆模型对句子语音数据对应的音素向量序列进行训练,提取音素向量序列中反映情绪的语调变化信息,以及音素向量序列对应的文本序列中所包含的反映情绪的语义信息;使用卷积神经网络模型对倒谱特征图进行特征提取;根据步骤二中统计的音素向量序列长度,确定双向长短记忆模型的时间步长,将两个模型输出的特征向量分别输入attention层,将得到的特征进行首尾连接,输入全连接层进行特征拟合;
步骤五:使用softmax函数:对步骤四的输出进行归一化处理,得到语音数据在每种情绪类别的概率;对于长语音,这个结果就是一个情绪标签的列表,列表中的元素分别对应着按时间排序的有效语音段的情绪预测结果。
所述句子语音数据的音素特征提取过程具体包括:
步骤201:使用pocketsphinx工具获取句子语音数据的音素序列,具体过程为:对于句子语音数据集中任一语音数据,其对应的内容为一句话,表示为语句S=X1X2X3…Xn,其中Xi(1≤i≤n)是语句S中的单词;即:F(Xi)=yi1yi2…yik(k∈N+),其中F是映射函数,yij(1≤j≤k)即是单个英文音素,语句S对应的音素序列,记为F(S)=P1P2P3…Pq(q>=n),其中Pi(1≤i≤q)表示S中某个单词经映射函数计算得出的音素序列中的一个音素;完整的音素代号集合如表1所示,共包括42种音素类别:
表1
步骤202:基于词嵌入模型训练,构建音素嵌入模型,具体过程为:设置数据集合DS={},基于每个语句S的音素序列,即F(S)=P1P2P3…Pq,按照从左到右的顺序,依次选择F(S)的一个音素Pi(1≤i≤q)作为中心音素,若1<i<q,则将音素组合(Pi,Pi-1),(Pi,Pi+1)添加到DS中,若i=1或i=q,则分别将(P1,P2),(Pq,Pq-1)添加到数据集合DS={}中;以数据集合DS作为数据集,输入至词嵌入模型中训练100轮,形成音素嵌入模型,修改词嵌入模型模型的权重矩阵为:输出层到隐层权重矩阵形状为42×100,隐层到输出层的权重矩阵形状为100×42,以保证模型输出的音素向量长度保持为100;
所述步骤三的句子语音数据的对数梅尔倒谱特征提取过程具体包括:
步骤301:根据公式(1),对数据集中每条句子语音数据进行加窗分帧处理;其中,ω(n)表示窗口权重函数,N表示窗口长度;取窗口尺寸为20ms,窗口帧移取10ms;
步骤302:获取句子语音数据的静态特征:利用快速傅里叶变换,将分帧加窗后的每一帧语音转换为频谱图,并按照时间将所有频谱图拼接,形成声谱图;将声谱图通过Mel滤波器组进行Mel滤波后取对数得到log梅尔声谱图,梅尔滤波器的个数为40;
步骤303:获取句子语音数据的动态特征:针对经Mel滤波处理的log梅尔倒谱图,求解其一阶差分和二阶差分,将2个差分图与log梅尔倒谱图共同组成为最终的倒谱特征图;
所述步骤四中语音情绪识别模型构建及特征融合过程包括:
步骤401:采用双向长短记忆模型对句子语音数据对应的音素向量序列进行训练:针对任意句子语音数据S的音素向量序列F(S)=P1P2P3…P100,其逆序序列为F‘(S)=P100P99P98…P1将F(S)和F‘(S)按照从左到右的顺序分别输入到双向长短记忆模型的正向和逆向LSTM结构中,其中正向和逆向LSTM的隐层节点数设为64;将所有序列长度都截断或者补充至100,不足100的序列在末尾补充静音音素,所述静音音素对应的音素编号为SIL,双向长短记忆模型的时间步长同音素向量序列的长度一致,设置为100;
将正向和逆向LSTM的各个时间步的隐含层输出进行连接作为最终的音素特征向量序列,具体为F(S)和F‘(S)中同一音素Pi(1≤i≤100)在正向和逆向LSTM中对应的时间步的隐层输出分别为向量hi和h′i,二者的长度都为64,将hi和h′i首尾连接得到长度为128的音素特征向量Hi,重复上述步骤,得到S最终的音素特征向量序列L(S)=H1H2H3…H100;
步骤402:采用卷积神经网络模型对倒谱图进行特征提取,提取过程主要分为卷积过程、池化过程,然后再进行时序特征提取;
步骤403:特征拟合:将步骤401输出的音素特征向量序列和步骤402输出的倒谱图帧间时序特征向量序列分别输入attention层,获取各特征序列中对声音情绪更关注的向量表征,并首尾连接输入全连接层进行特征拟合;
所述步骤402倒谱图特征提取过程包括:
步骤402-1:卷积过程:使用三层堆叠的卷积神经网络对倒谱特征图进行局部图像特征的提取,按照(高度H、宽度W、深度C)格式设置三层卷积层的卷积核的尺寸分别为(3,3,64),(3,3,128),(3,3,256),滑动步长都为(1,1,1),卷积之后得到特征图F∈RN×10×256,其中N为语音的帧数,10和256是每一帧对应的特征向量维度和深度;
步骤402-2:池化过程:使用金字塔池化对卷积层的输出进行特征筛选,提取主要信息;选用单层池化层提取特征,将池化层的边长参数设置为400,池化的核尺寸和滑动步长同为(1,2,1),最终得到的特征图F′∈R400×10×256;
步骤402-3:时序特征提取:利用reshape函数将特征图调整成F″∈R400×2560,将F″看做包含400帧的特征向量序列,每帧的特征向量长度为2560,即:F″=f1f2f3…f400;将F″和它的逆序序列Fr″输入到双向长短期记忆模型中,时间步长为400,隐层节点数为64,输出倒谱图帧间时序特征向量序列L′(F)=H′1H′2H′3…H′400,其中H′i(1≤i≤400)长度是128,由fi在双向长短期记忆模型的正向和逆向LSTM结构中对应时间步的隐层输出的向量连接而成;
所述步骤403中,所述特征拟合的具体流程:针对任意语句S的音素特征向量序列L(S)=H1H2H3…H100,attention层的计算方法如下:
ui=tanh(WωHi+bω) (公式2)
首先,将L(S)中的音素特征向量Hi输入线性层构成的隐含层,Ww和bw分别为隐含层的权重矩阵和偏移向量,得到其隐含层表示ui,如公式1所示;再求解ui与核心音素表征uw的相似度,uw初始时随机初始化,最终的值由训练得到,并使用softmax函数进行归一化,得到描述向量Hi在L(S)中与情绪信息相关的程度的权重ai,如公式2所示;结合ai,计算Hi的加权和,如公式3所示,得到L(S)最终的注意力特征向量La(S),其长度为128;
同理,对倒谱特征的特征向量序列L′(F)=H′1H′2H′3…H′400进行上述操作,得到L'(F)最终的注意力特征向量La'(F),其长度也是128;
最后,将La′(F)和La(S)首尾连接输入全连接层中进行拟合,全连接层的权重矩阵Wfc∈R256╳6,即最终输出的向量score∈R6,表示模型对六种情绪类别的打分。
一种端到端的语音情感识别的系统,包括依次相连的数据集制作模块、模型训练模块、语音情绪识别模块;
所述数据集制作模块,用于抽取原始数据集中的句子语音数据和情绪标签,并提取句子语音的音素特征和倒谱特征;
所述模型训练模块以音素特征数据和倒谱特征数据作为输入,通过使用深度神经网络训练特征数据,构建语音情绪识别模型;
所述语音情绪识别模块用于对语音数据特征识别,并得到相应的语音情感识别结果;
根据提取的特征不同,所述数据集制作模块包含音素特征提取子模块和倒谱特征提取子模块;所述音素特征提取子模块,用于提取句子语音数据的音素特征,完成语音音素序列向音素向量序列的转换;所述倒谱特征提取子模块,用于提取句子语音数据的倒谱特征,完成从语音数据的频谱图到log梅尔声谱图的转换。
本发明所达到的有益效果:
(1)本发明使用了语音情绪识别领域认可度较高的倒谱特征,并添加了其一阶和二阶差分特征,能够充分的从能量变化的角度反映情绪信息,保证了系统识别情绪的基本精度;
(2)本发明综合考虑语音韵律变化和能量变化在语音情感识别的重要性,同时选用语音的音素特征和倒谱特征作为特征提取来源,通过特征拟合实现对两类特征数据的学习及训练,提高语音情感识别精度及准确率;
(3)本发明应用双向长短记忆模型自动提取音素序列和倒谱图的时序信息,精准地获得语音语义之间的上下关系,并结合金字塔池化使倒谱图和音素序列对齐,实现了端到端的模型训练,提高数据集使用合理性及训练结果的精确性。
附图说明
图1为本发明的示例性实施例中语音情绪识别系统的结构示意图;
图2为本发明的示例性实施例中原始语音的预处理流程示意图;
图3为本发明的示例性实施例的语音情绪识别方法的流程示意图。
具体实施方式
以下结合附图和具体实施例对本发明作进一步详细说明。
图1为本发明的示例性实施例的语音情绪识别系统的结构示意图,系统结构包括数据集制作模块、模型训练模块、语音情绪识别模块;
所述数据集制作模块,用于抽取原始数据集中的句子语音数据和情绪标签,并提取句子语音的音素特征和倒谱特征;根据提取的特征不同,该模块包含音素特征提取子模块和倒谱特征提取子模块;所述音素特征提取子模块,用于提取句子语音数据的音素特征,完成语音音素序列想音素向量序列的转换;所述倒谱特征提取子模块,用于提取句子语音数据的倒谱特征,完成从语音数据的频谱图到log梅尔声谱图的转换;
所述模型训练模块,以音素特征数据和倒谱特征数据作为输入,通过使用深度神经网络训练特征数据,构建语音情绪识别模型;
所述语音情绪识别模块,用于对语音数据特征识别,并得到相应的语音情感识别结果;
针对预输入语音情感识别系统的原始语音,需要经过如图2所示的加工处理流程,提取有效语音片段,具体流程有:
步骤101:对接入系统的语音数据进行重采样,统一输入语音的采样频率;重采样的目标频率设置为16khz,多声道数据转单声道的过程始终提取左声道语音数据。
步骤102:对重采样后的语音数据进行有效语音段提取,过滤掉静音或噪声部分,具体包括:切分语音数据,借助开源工具webrtcvad判断每一帧是噪音帧还是有效帧;有效帧输出1,噪音帧输出0,将语音数据帧序列转换成0-1序列;
由于噪声的存在,并不能直接按照序列0-1边界进行切分,而是通过设置一个滑动窗口(buf),来寻找有效语音段的起止点。当buf中的1状态达到整个buf的90%,就认为找到有效语音段的起点,当buf中的0状态达到整个buf长度的90%,就认为找到有效语音段的结束点。
步骤103:将有效语音数据输入语音情绪识别系统,经数据集制作、特征提取、模型训练,输出结果,语音情绪识别系统对语音数据的处理过程见图3;对于长语音,可能包含多个有效语音段,那么这个结果就是一个情绪标签的列表,列表中的元素分别对应着按时间排序的有效语音段的情绪预测结果。
图3为本发明的示例性实施例的语音情绪识别方法的流程示意图,步骤包括:
步骤S1:数据集制作模块从IEMOCAP数据集抽取开心(happy)、愤怒(angry)、中性、悲伤、沮丧、激动这6种语音数据及情绪标签,并将数据集中的对话拆分成单句,形成句子形式的语音数据(简称为:句子语音数据);并利用5-fold交叉验证方法,依次选取IEMOCAP数据集的4个对话中的句子语音数据作为训练数据,剩下的1个对话中的句子语音数据作为测试数据,形成数据集;
原IEMOCAP数据集包含开心、愤怒、中性、悲伤、沮丧、激动、厌恶、恐惧、惊讶、无聊共10种情绪,鉴于于IEMCOAP数据集存在数据分布不均衡的问题,且数据集中开心、愤怒、中性、悲伤、沮丧以及激动相对厌恶、恐惧、惊讶、无聊出现频率更高,因此情绪标签选取开心、愤怒、中性、悲伤、沮丧以及激动。
步骤S2:句子语音数据的音素特征提取:使用pocketsphinx工具处理每条句子语音数据形成音素序列,再基于skip-gram词嵌入模型训练,构建音素嵌入模型,将音素序列转换成音素向量序列;统计音素向量序列长度,根据统计结果的集中范围,统一所有的音素向量序列长度并确定双向长短记忆模型的时间步长;
步骤201:使用pocketsphinx工具获取句子语音数据的音素序列,具体过程为:对于句子语音数据集中任一语音数据,其对应的内容为一句话,表示为语句S=X1X2X3…Xn,其中,Xi(1≤i≤n)是语句S中的单词;在语言学中,任意英文单词Xi都能映射为一个或多个音素组成的有序的音素序列,即:F(Xi)=yi1yi2…yik(k∈N+),其中F是映射函数,yij(1≤j≤k)即是单个英文音素,另外,对于不同的单词,k的取值不一定相同。因此语句S对应的音素序列,记为记为F(S)=P1P2P3…Pq(q>=n),其中Pi(1≤i≤q)表示S中某个单词经映射函数计算得出的音素序列中的一个音素;完整的音素代号集合如表1所示,共包括42种音素类别:
表1
步骤202:基于skip-gram词嵌入模型训练,构建音素嵌入模型,具体过程为:设置数据集合DS={},基于每个语句S的音素序列,即F(S)=P1P2P3…Pq,按照从左到右的顺序,依次选择F(S)的一个音素Pi(1≤i≤q)作为中心音素,若1<i<q,则将音素组合(Pi,Pi-1),(Pi,Pi+1)添加到DS中,若i=1或i=n,则分别将(P1,P2),(Pq,Pq-1)添加到数据集合DS={}中;以数据集合DS作为数据集,输入至词嵌入模型中训练100轮,形成音素嵌入模型;
特别地,正常的词向量长度范围是100-500维左右,数据量比较大,嵌入对象比较多的情况下,可能会更长,由于英语音素类别总共有39种,额外添加“SIL-silence”、“+SPN+-Spoken Noise”、“+NSN+-Noise”,共针对42个音素进行嵌入,因此修改词嵌入模型模型的权重矩阵为:输出层到隐层权重矩阵形状为42×100,隐层到输出层的权重矩阵形状为100×42,以保证模型输出的音素向量长度保持为100,这样既能区分不同的音素,也有利于降低后续的特征提取模型参数;
步骤S3:句子语音数据的对数梅尔倒谱特征提取:对句子语音数据做加窗分帧的预处理,每一帧都提取倒谱特征得到功率谱,按照时间序列将帧功率图连接起来,然后经快速傅里叶变换和梅尔滤波处理获得句子语音数据在时频域上的梅尔倒谱图,对倒谱图求一阶差分值和二阶差分值,将倒谱图和差分数据组合成三通道的倒谱特征数据,如此求解所有句子语音数据集的倒谱特征;统计数据集中所有音频文件的帧数,根据帧数的集中范围,确定后续训练模型中池化层的边长参数;具体为
步骤301:根据公式(1),对数据集中每条句子语音数据进行加窗分帧处理;其中,ω(n)表示窗口权重函数,N表示窗口长度。由于发声器官的惯性运动,语音信号在一小段时间内可视作近似不变,即语音信号具有短时平稳性,这一小段时间的长度通常取10~30ms。同时为了保证帧与帧之间能够平滑过渡,相邻两帧之间还要保持一定的重叠。这里针对使用的数据集,经过多次测试,发现取窗口尺寸为20ms,窗口帧移取10ms,模型泛化效果最好。
步骤302:获取句子语音数据的静态特征:利用快速傅里叶变换,将分帧加窗后的每一帧语音转换为频谱图,并按照时间将所有频谱图拼接,形成声谱图;将声谱图通过Mel滤波器组进行Mel滤波后取对数得到log梅尔声谱图,为了能够让后续情绪识别模型的卷积层充分的提取各帧的语音情绪特征,又不至于使模型的参数过多,影响模型的训练和识别的速度,经过多次调参,最终选用的梅尔滤波器的个数为40;
步骤303:获取句子语音数据的动态特征:针对经Mel滤波处理的log梅尔倒谱图,求解其一阶差分和二阶差分,将2个差分图与log梅尔倒谱图共同组成为最终的倒谱特征图;
步骤S4:基于深度神经网络构建语音情绪识别模型,融合句子语音数据的音素特征和倒谱特征:采用双向长短记忆模型对句子语音数据对应的音素向量序列进行训练,提取音素向量序列中反映情绪的语调变化信息,以及音素向量序列对应的文本序列中所包含的反映情绪的语义信息;使用卷积神经网络模型对倒谱特征图进行特征提取;将两个模型输出的特征向量分别输入attention层,将得到的特征进行首尾连接,输入全连接层进行特征拟合;具体步骤为:
步骤401:采用双向长短记忆模型对句子语音数据对应的音素向量序列进行训练:针对任意句子语音数据S的音素向量序列F(S)=P1P2P3…P100,其逆序序列为F‘(S)=P100P99P98…P1,将F(S)和F'(S)按照从左到右的顺序分别输入到双向长短记忆模型的正向和逆向LSTM结构中,其中正向和逆向LSTM的隐层节点数设为64;由于音素向量序列的长度是变化的,而双向长短记忆模型的时间步长是固定的,经对数据集中音素向量序列的长度统计发现,95%以上的序列长度是100及以下的,经多次调试发现,如果既要充分保留音素向量序列中的情绪信息又不能影响计算效率,将所有序列长度保持在100是最佳,因此将音素向量序列截断或者补充至100,不足100的序列在末尾补充静音音素(对应的音素编号为SIL),双向长短记忆模型的时间步长同音素向量序列的长度一致,设置为100;
最终将正向和逆向LSTM的各个时间步的隐含层输出进行连接作为最终的音素特征向量序列,具体为:F(S)和F‘(S)中同一音素Pi(1≤i≤100)在正向和逆向LSTM中对应的时间步的隐层输出分别为向量hi和h′i,二者的长度都为64(同隐含层节点数),将hi和h′i首尾连接得到长度为128的音素特征向量Hi,重复上述步骤,可得到S最终的音素特征向量序列L(S)=H1H2H3...H100。
步骤402:采用卷积神经网络模型对倒谱图进行特征提取,提取过程主要分为卷积过程、池化过程,然后再进行时序特征提取;
步骤402-1,卷积过程:使用三层堆叠的卷积神经网络对倒谱特征图进行局部图像特征的提取,按照(高度H、宽度W、深度C)格式设置三层卷积层的卷积核的尺寸分别为(3,3,64),(3,3,128),(3,3,256),滑动步长都为(1,1,1),卷积之后得到特征图F∈RN×10×256,其中N为语音的帧数,10和256是每一帧对应的特征向量维度和深度;
尝试过2层的cnn,学到的特征对模型最终的识别精度贡献不如3层,而1层cnn特征抽取能力不如2层,也就不用考虑了;也尝试过更深层的cnn堆叠,但是最终识别精度并没有提升,徒增运算开销,故选用三层堆叠的卷积神经网络最佳。
步骤402-2,池化过程:使用金字塔池化对卷积层的输出进行特征筛选,提取主要信息;选用单层池化层提取特征,经统计数据集中所有音频文件的帧数,发现大部分集中在400帧左右,因此将池化层的边长参数设置为400,在固定输出的尺寸基础上,尽可能保存原始的帧间时序信息,池化的核尺寸和滑动步长同为(1,2,1),最终得到的特征图F′∈R400 ×10×256;
步骤402-3,时序特征提取:利用reshape函数将特征图调整成F″∈R400×2560,将F″看做包含400帧的特征向量序列,每帧的特征向量长度为2560,即:F″=f1f2f3…f400;将F″和它的逆序序列Fr″输入到双向长短期记忆模型中,时间步长为400,隐层节点数为64,最终输出倒谱图帧间时序特征向量序列L′(F)=H′1H′2H′3…H′400,其中Hi'(1≤i≤400)长度是128,由fi在双向长短期记忆模型的正向和逆向LSTM结构中对应时间步的隐层输出的向量连接而成;
步骤403:特征拟合:将步骤401输出的音素特征向量序列和步骤402输出的倒谱图帧间时序特征向量序列分别输入attention层,获取各特征序列中对声音情绪更关注的向量表征,并首尾连接(例如音素特征向量序列经过attention层的输出为向量P=(p1,p2,...pn);倒谱图帧间时序特征向量序列经过attention层的输出为向量Q=(q1,q2,...qm);那么首尾连接的意思就是concat(P,Q)=(p1,p2..pn,q1,q2...qm))输入全连接层进行特征拟合;
针对任意语句S的音素特征向量序列L(S)=H1H2H3...H100,attention层的计算方法如下:
ui=tanh(WωHi+bω) (1)
首先,将L(S)中的音素特征向量Hi输入线性层构成的隐含层(Ww和bw分别为隐含层的权重矩阵和偏移向量),得到其隐含层表示ui,如式(1)所示;再求解ui与核心音素表征uw的相似度(uw初始时随机初始化,最终的值由训练得到),并使用softmax函数进行归一化,得到描述向量Hi在L(S)中与情绪信息相关的程度的权重ai,如式(2)所示;结合ai,计算Hi的加权和,如式(3)所示,得到L(S)最终的注意力特征向量La(S),其长度为128。
同理,对倒谱特征的特征向量序列L′(F)=H′1H′2H′3…H′400进行上述操作,得到L'(F)最终的注意力特征向量La'(F),其长度也是128。
最后,将La′(F)和La(S)首尾连接输入全连接层中进行拟合,全连接层的权重矩阵Wfc∈R256╳6,即最终输出的向量score∈R6,表示模型对六种情绪类别的打分.
步骤S5:语音情绪识别模块利用softmax函数(公式5)对步骤S4输出进行归一化处理,得到语音数据在每种情绪类别的概率。
特别地,对于长语音,可能包含多个有效语音段,那么这个结果就是一个情绪标签的列表,列表中的元素分别对应着按时间排序的有效语音段的情绪预测结果。长语音中可能有多种情绪,未必是一个情绪标签可以表达的,而情绪标签列表可以反映其情绪变化,粒度更细也更合理。
本发明所达到的有益效果:
(1)本发明使用了语音情绪识别领域认可度较高的倒谱特征,并添加了其一阶和二阶差分特征,能够充分的从能量变化的角度反映情绪信息,保证了系统识别情绪的基本精度;
(2)本发明综合考虑语音韵律变化和能量变化在语音情感识别的重要性,同时选用语音的音素特征和倒谱特征作为特征提取来源,通过特征拟合实现对两类特征数据的学习及训练,提高语音情感识别精度及准确率;
(3)本发明应用双向长短记忆模型自动提取音素序列和倒谱图的时序信息,精准地获得语音语义之间的上下关系,并结合金字塔池化使倒谱图和音素序列对齐,实现了端到端的模型训练,提高数据集使用合理性及训练结果的精确性。
以上所述仅为本发明专利的一种实施例而已,并不用以限制本发明专利,凡在本发明专利的精神和原则之内所作的任何修改、等同替换和改进等,均以包含在本发明专利的保护范围之内。
Claims (8)
1.一种端到端的语音情感识别的方法,其特征在于,包括如下步骤:
步骤一:从IEMOCAP数据集中抽取句子语音数据和情绪标签,其中句子语音数据是经拆分IEMOCAP数据集中的语音对话为单句语音,每个单句语音为一条语句数据;针对IEMOCAP数据集包含的5个对话,利用5-fold交叉验证方法处理句子语音数据,即依次选取IEMOCAP数据集的4个对话中的句子语音数据作为训练数据,剩下的1个对话中的句子语音数据作为测试数据,形成数据集;情绪标签选取开心、愤怒、中性、悲伤、沮丧以及激动;
其中,IEMOCAP 数据集中的原始语音在抽取句子语音数据前,需先经过预处理提取有效语音片段,具体为:
步骤101,对接入系统的语音数据进行重采样,统一输入语音的采样频率;重采样的目标频率设置为16khz,多声道数据转单声道的过程始终提取左声道语音数据;
步骤102,对重采样后的语音数据进行有效语音段提取,过滤掉静音或噪声部分,具体包括:切分语音数据,借助开源工具webrtcvad判断每一帧是噪音帧还是有效帧;有效帧输出1,噪音帧输出0,将语音数据帧序列转换成0-1序列;通过设置一个滑动窗口buf,来寻找有效语音段的起止点,当buf中的1状态达到整个buf的90%,就认为找到有效语音段的起点,当buf中的0状态达到整个buf长度的90%,就认为找到有效语音段的结束点;
步骤二:句子语音数据的音素特征提取:使用pocketsphinx工具处理每条句子语音数据形成音素序列,经词嵌入模型训练得到音素嵌入模型,通过音素嵌入模型将音素序列转换成音素向量序列;统计音素向量序列长度,根据统计结果的集中范围,统一所有的音素向量序列长度;
步骤三:句子语音数据的对数梅尔倒谱特征提取:对句子语音数据做加窗分帧的预处理,然后经快速傅里叶变换和梅尔滤波处理获得句子语音数据在时频域上的梅尔倒谱图,对倒谱图求一阶差分值和二阶差分值,进而获得包含语音静态特征和动态特征的倒谱特征图;统计数据集中所有音频文件的帧数,根据帧数的集中范围,确定后续训练模型中池化层的边长参数;
步骤四:基于深度神经网络构建语音情绪识别模型,融合句子语音数据的音素特征和倒谱特征:采用双向长短记忆模型对句子语音数据对应的音素向量序列进行训练,提取音素向量序列中反映情绪的语调变化信息,以及音素向量序列对应的文本序列中所包含的反映情绪的语义信息;使用卷积神经网络模型对倒谱特征图进行特征提取;根据步骤二中统计的音素向量序列长度,确定双向长短记忆模型的时间步长,将两个模型输出的特征向量分别输入attention层,将得到的特征进行首尾连接,输入全连接层进行特征拟合;
2.根据权利要求1所述的一种端到端的语音情感识别的方法,其特征在于,所述句子语音数据的音素特征提取过程具体包括:
步骤201:使用pocketsphinx工具获取句子语音数据的音素序列,具体过程为:对于句子语音数据集中任一语音数据,其对应的内容为一句话,表示为语句S=X1 X2 X3 … Xn,其中Xi(1≤i≤n)是语句S中的单词;即:F(Xi)=yi1 yi2 … yik(k∈N+),其中F是映射函数,yij(1≤j≤k)即是单个英文音素,语句S对应的音素序列,记为F(S)=P1 P2 P3 … Pq(q>=n),其中Pi(1≤i≤q)表示S中某个单词经映射函数计算得出的音素序列中的一个音素;完整的音素代号集合如表1所示,共包括42种音素类别:
表1
步骤202:基于词嵌入模型训练,构建音素嵌入模型,具体过程为:设置数据集合DS={},基于每个语句S的音素序列,即F(S)=P1 P2 P3 … Pq,按照从左到右的顺序,依次选择F(S)的一个音素Pi(1≤i≤q)作为中心音素,若1<i<q,则将音素组合(Pi,Pi-1),(Pi,Pi+1)添加到DS中,若i=1或i=q,则分别将(P1,P2),(Pq,Pq-1)添加到数据集合DS={}中;以数据集合DS作为数据集,输入至词嵌入模型中训练100轮,形成音素嵌入模型,修改词嵌入模型模型的权重矩阵为:输出层到隐层权重矩阵形状为42×100,隐层到输出层的权重矩阵形状为100×42,以保证模型输出的音素向量长度保持为100。
3.根据权利要求1所述一种端到端的语音情感识别的方法,其特征在于,所述步骤三的句子语音数据的对数梅尔倒谱特征提取过程具体包括:
步骤301:根据公式(1),对数据集中每条句子语音数据进行加窗分帧处理;其中,ω(n)表示窗口权重函数,N表示窗口长度;取窗口尺寸为20ms,窗口帧移取10ms;
步骤302:获取句子语音数据的静态特征:利用快速傅里叶变换,将分帧加窗后的每一帧语音转换为频谱图,并按照时间将所有频谱图拼接,形成声谱图;将声谱图通过Mel滤波器组进行Mel滤波后取对数得到log梅尔声谱图,梅尔滤波器的个数为40;
步骤303:获取句子语音数据的动态特征:针对经Mel滤波处理的log梅尔倒谱图,求解其一阶差分和二阶差分,将2个差分图与log梅尔倒谱图共同组成为最终的倒谱特征图。
4.根据权利要求1所述的一种端到端的语音情感识别的方法,其特征在于,所述步骤四中语音情绪识别模型构建及特征融合过程包括:
步骤401:采用双向长短记忆模型对句子语音数据对应的音素向量序列进行训练:针对任意句子语音数据S的音素向量序列F(S)=P1 P2 P3 … P100,其逆序序列为F‘(S)=P100 P99P98 … P1将F(S)和F‘(S)按照从左到右的顺序分别输入到双向长短记忆模型的正向和逆向LSTM结构中,其中正向和逆向LSTM的隐层节点数设为64;将所有序列长度都截断或者补充至100,不足100的序列在末尾补充静音音素,所述静音音素对应的音素编号为SIL,双向长短记忆模型的时间步长同音素向量序列的长度一致,设置为100;
将正向和逆向LSTM的各个时间步的隐含层输出进行连接作为最终的音素特征向量序列,具体为F(S)和F‘(S)中同一音素Pi(1≤i≤100)在正向和逆向LSTM中对应的时间步的隐层输出分别为向量hi和h′i,二者的长度都为64,将hi和h′i首尾连接得到长度为128的音素特征向量Hi,重复上述步骤,得到S最终的音素特征向量序列L(S)=H1 H2 H3 … H100;
步骤402:采用卷积神经网络模型对倒谱图进行特征提取,提取过程主要分为卷积过程、池化过程,然后再进行时序特征提取;
步骤403:特征拟合:将步骤401输出的音素特征向量序列和步骤402输出的倒谱图帧间时序特征向量序列分别输入attention层,获取各特征序列中对声音情绪更关注的向量表征,并首尾连接输入全连接层进行特征拟合。
5.根据权利要求4所述的一种端到端的语音情感识别的方法,其特征在于,所述步骤402倒谱图特征提取过程包括:
步骤402-1:卷积过程:使用三层堆叠的卷积神经网络对倒谱特征图进行局部图像特征的提取,按照(高度H、宽度W、深度C)格式设置三层卷积层的卷积核的尺寸分别为(3,3,64),(3,3,128),(3,3,256),滑动步长都为(1,1,1),卷积之后得到特征图F∈RN×10×256,其中N为语音的帧数,10和256是每一帧对应的特征向量维度和深度;
步骤402-2:池化过程:使用金字塔池化对卷积层的输出进行特征筛选,提取主要信息;选用单层池化层提取特征,将池化层的边长参数设置为400,池化的核尺寸和滑动步长同为(1,2,1),最终得到的特征图F′∈R400×10×256;
步骤402-3:时序特征提取:利用reshape函数将特征图调整成F″∈R400×2560,将F″看做包含400帧的特征向量序列,每帧的特征向量长度为2560,即:F″=f1 f2 f3 … f400;将F″和它的逆序序列Fr″输入到双向长短期记忆模型中,时间步长为400,隐层节点数为64,输出倒谱图帧间时序特征向量序列L′(F)=H′1 H′2 H′3 … H′400,其中H′i(1≤i≤400)长度是128,由fi在双向长短期记忆模型的正向和逆向LSTM结构中对应时间步的隐层输出的向量连接而成。
6.根据权利要求5所述的一种端到端的语音情感识别的方法,其特征在于,所述步骤403中,特征拟合的具体流程:针对任意语句S的音素特征向量序列L(S)=H1 H2 H3 … H100,attention层的计算方法如下:
ui=tanh(WωHi+bω) (公式2)
首先,将L(S)中的音素特征向量Hi输入线性层构成的隐含层,Ww和bw分别为隐含层的权重矩阵和偏移向量,得到其隐含层表示ui,如公式2所示;再求解ui与核心音素表征uw的相似度,uw初始时随机初始化,最终的值由训练得到,并使用softmax函数进行归一化,得到描述向量Hi在L(S)中与情绪信息相关的程度的权重ai,如公式3所示;结合ai,计算Hi的加权和,如公式4所示,得到L(S)最终的注意力特征向量La(S),其长度为128;
同理,对倒谱特征的特征向量序列L′(F)=H′1 H′2 H′3 … H′400进行上述操作,得到L'(F)最终的注意力特征向量La'(F),其长度也是128;
最后,将La′(F)和La(S)首尾连接输入全连接层中进行拟合,全连接层的权重矩阵Wfc∈R256╳6,即最终输出的向量score∈R6,表示模型对六种情绪类别的打分。
7.一种根据权利要求1-6之一所述方法运行的端到端的语音情感识别的系统,其特征在于,包括依次相连的数据集制作模块、模型训练模块、语音情绪识别模块;
所述数据集制作模块,用于抽取原始数据集中的句子语音数据和情绪标签,并提取句子语音的音素特征和倒谱特征;
所述模型训练模块以音素特征数据和倒谱特征数据作为输入,通过使用深度神经网络训练特征数据,构建语音情绪识别模型;
所述语音情绪识别模块用于对语音数据特征识别,并得到相应的语音情感识别结果。
8.根据权利要求7所述的一种端到端的语音情感识别的系统,其特征在于,根据提取的特征不同,所述数据集制作模块包含音素特征提取子模块和倒谱特征提取子模块;所述音素特征提取子模块,用于提取句子语音数据的音素特征,完成语音音素序列向音素向量序列的转换;所述倒谱特征提取子模块,用于提取句子语音数据的倒谱特征,完成从语音数据的频谱图到log梅尔声谱图的转换。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910423250.9A CN110097894B (zh) | 2019-05-21 | 2019-05-21 | 一种端到端的语音情感识别的方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910423250.9A CN110097894B (zh) | 2019-05-21 | 2019-05-21 | 一种端到端的语音情感识别的方法和系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110097894A CN110097894A (zh) | 2019-08-06 |
CN110097894B true CN110097894B (zh) | 2021-06-11 |
Family
ID=67448786
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910423250.9A Active CN110097894B (zh) | 2019-05-21 | 2019-05-21 | 一种端到端的语音情感识别的方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110097894B (zh) |
Families Citing this family (28)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110472245B (zh) * | 2019-08-15 | 2022-11-29 | 东北大学 | 一种基于层次化卷积神经网络的多标记情绪强度预测方法 |
CN110600018B (zh) * | 2019-09-05 | 2022-04-26 | 腾讯科技(深圳)有限公司 | 语音识别方法及装置、神经网络训练方法及装置 |
CN110675860A (zh) * | 2019-09-24 | 2020-01-10 | 山东大学 | 基于改进注意力机制并结合语义的语音信息识别方法及系统 |
CN110782008B (zh) * | 2019-10-16 | 2022-05-13 | 北京百分点科技集团股份有限公司 | 深度学习模型的训练方法、预测方法和装置 |
CN110910903B (zh) * | 2019-12-04 | 2023-03-21 | 深圳前海微众银行股份有限公司 | 语音情绪识别方法、装置、设备及计算机可读存储介质 |
CN111145786A (zh) * | 2019-12-17 | 2020-05-12 | 深圳追一科技有限公司 | 语音情感识别方法和装置、服务器、计算机可读存储介质 |
CN111009262A (zh) * | 2019-12-24 | 2020-04-14 | 携程计算机技术(上海)有限公司 | 语音性别识别的方法及系统 |
CN111179929B (zh) * | 2019-12-31 | 2022-11-25 | 中国银行股份有限公司 | 一种语音处理方法及装置 |
CN111081219A (zh) * | 2020-01-19 | 2020-04-28 | 南京硅基智能科技有限公司 | 一种端到端的语音意图识别方法 |
CN111292724A (zh) * | 2020-02-13 | 2020-06-16 | 上海凯岸信息科技有限公司 | 一种基于深度学习的语音情绪识别方案 |
CN111524534B (zh) * | 2020-03-20 | 2021-04-09 | 北京捷通华声科技股份有限公司 | 一种语音分析方法、系统、设备及存储介质 |
CN111429948B (zh) * | 2020-03-27 | 2023-04-28 | 南京工业大学 | 一种基于注意力卷积神经网络的语音情绪识别模型及方法 |
CN113889148A (zh) * | 2020-07-02 | 2022-01-04 | 正定仁运诚医药科技有限责任公司 | 一种基于语调识别情绪的方法 |
CN112036467B (zh) * | 2020-08-27 | 2024-01-12 | 北京鹰瞳科技发展股份有限公司 | 基于多尺度注意力神经网络的异常心音识别方法及装置 |
CN112002348B (zh) * | 2020-09-07 | 2021-12-28 | 复旦大学 | 一种患者语音愤怒情绪识别方法和系统 |
CN112215927B (zh) * | 2020-09-18 | 2023-06-23 | 腾讯科技(深圳)有限公司 | 人脸视频的合成方法、装置、设备及介质 |
CN112750468A (zh) * | 2020-12-28 | 2021-05-04 | 厦门嘉艾医疗科技有限公司 | 一种帕金森病筛查方法、装置、设备及存储介质 |
CN112735477B (zh) * | 2020-12-31 | 2023-03-17 | 沈阳康慧类脑智能协同创新中心有限公司 | 语音情感分析方法和装置 |
CN112927310B (zh) * | 2021-01-29 | 2022-11-18 | 上海工程技术大学 | 一种基于轻量级神经网络的车道图像分割方法 |
CN113257279A (zh) * | 2021-03-24 | 2021-08-13 | 厦门大学 | 一种基于gtcn的实时语音情感识别方法及应用装置 |
CN113518500B (zh) * | 2021-04-16 | 2024-06-18 | 江苏力行电力电子科技有限公司 | 一种基于情境识别的智能灯光自动调节方法及调控系统 |
CN113317791B (zh) * | 2021-05-28 | 2023-03-14 | 温州康宁医院股份有限公司 | 一种基于被测者的音频确定抑郁症严重程度的方法及装置 |
CN113241095B (zh) * | 2021-06-24 | 2023-04-11 | 中国平安人寿保险股份有限公司 | 通话情绪实时识别方法、装置、计算机设备及存储介质 |
CN113409776B (zh) * | 2021-06-30 | 2024-06-07 | 南京领行科技股份有限公司 | 一种语音识别方法、装置、电子设备及存储介质 |
CN114010220A (zh) * | 2021-10-29 | 2022-02-08 | 平安科技(深圳)有限公司 | 心音信号处理方法、计算机设备及存储介质 |
CN114566189B (zh) * | 2022-04-28 | 2022-10-04 | 之江实验室 | 基于三维深度特征融合的语音情感识别方法及系统 |
CN115116475B (zh) * | 2022-06-13 | 2024-02-02 | 北京邮电大学 | 一种基于时延神经网络的语音抑郁症自动检测方法和装置 |
CN115547362B (zh) * | 2022-10-24 | 2024-05-10 | 中国航空综合技术研究所 | 基于梅尔谱图分解和神经网络融合进行疲劳度检测的方法 |
Citations (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6013104B2 (ja) * | 2012-09-20 | 2016-10-25 | 株式会社日立超エル・エス・アイ・システムズ | 音声合成方法、装置、及びプログラム |
CN106601226A (zh) * | 2016-11-18 | 2017-04-26 | 中国科学院自动化研究所 | 音素时长预测建模方法及音素时长预测方法 |
WO2017218243A3 (en) * | 2016-06-13 | 2018-02-22 | Microsoft Technology Licensing, Llc | Intent recognition and emotional text-to-speech learning system |
CN108305642A (zh) * | 2017-06-30 | 2018-07-20 | 腾讯科技(深圳)有限公司 | 情感信息的确定方法和装置 |
CN108319666A (zh) * | 2018-01-19 | 2018-07-24 | 国网浙江省电力有限公司电力科学研究院 | 一种基于多模态舆情分析的供电服务评估方法 |
CN108597539A (zh) * | 2018-02-09 | 2018-09-28 | 桂林电子科技大学 | 基于参数迁移和语谱图的语音情感识别方法 |
CN108806667A (zh) * | 2018-05-29 | 2018-11-13 | 重庆大学 | 基于神经网络的语音与情绪的同步识别方法 |
CN109146066A (zh) * | 2018-11-01 | 2019-01-04 | 重庆邮电大学 | 一种基于语音情感识别的虚拟学习环境自然交互方法 |
CN109243490A (zh) * | 2018-10-11 | 2019-01-18 | 平安科技(深圳)有限公司 | 司机情绪识别方法及终端设备 |
US10210860B1 (en) * | 2018-07-27 | 2019-02-19 | Deepgram, Inc. | Augmented generalized deep learning with special vocabulary |
CN109493886A (zh) * | 2018-12-13 | 2019-03-19 | 西安电子科技大学 | 基于特征选择和优化的语音情感识别方法 |
CN109599128A (zh) * | 2018-12-24 | 2019-04-09 | 北京达佳互联信息技术有限公司 | 语音情感识别方法、装置、电子设备和可读介质 |
CN109614895A (zh) * | 2018-10-29 | 2019-04-12 | 山东大学 | 一种基于attention特征融合的多模态情感识别的方法 |
CN109740148A (zh) * | 2018-12-16 | 2019-05-10 | 北京工业大学 | 一种BiLSTM结合Attention机制的文本情感分析方法 |
CN109767791A (zh) * | 2019-03-21 | 2019-05-17 | 中国—东盟信息港股份有限公司 | 一种针对呼叫中心通话的语音情绪识别及应用系统 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109599094A (zh) * | 2018-12-17 | 2019-04-09 | 海南大学 | 声音美容与情感修饰的方法 |
-
2019
- 2019-05-21 CN CN201910423250.9A patent/CN110097894B/zh active Active
Patent Citations (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6013104B2 (ja) * | 2012-09-20 | 2016-10-25 | 株式会社日立超エル・エス・アイ・システムズ | 音声合成方法、装置、及びプログラム |
WO2017218243A3 (en) * | 2016-06-13 | 2018-02-22 | Microsoft Technology Licensing, Llc | Intent recognition and emotional text-to-speech learning system |
CN106601226A (zh) * | 2016-11-18 | 2017-04-26 | 中国科学院自动化研究所 | 音素时长预测建模方法及音素时长预测方法 |
CN108305642A (zh) * | 2017-06-30 | 2018-07-20 | 腾讯科技(深圳)有限公司 | 情感信息的确定方法和装置 |
CN108319666A (zh) * | 2018-01-19 | 2018-07-24 | 国网浙江省电力有限公司电力科学研究院 | 一种基于多模态舆情分析的供电服务评估方法 |
CN108597539A (zh) * | 2018-02-09 | 2018-09-28 | 桂林电子科技大学 | 基于参数迁移和语谱图的语音情感识别方法 |
CN108806667A (zh) * | 2018-05-29 | 2018-11-13 | 重庆大学 | 基于神经网络的语音与情绪的同步识别方法 |
US10210860B1 (en) * | 2018-07-27 | 2019-02-19 | Deepgram, Inc. | Augmented generalized deep learning with special vocabulary |
CN109243490A (zh) * | 2018-10-11 | 2019-01-18 | 平安科技(深圳)有限公司 | 司机情绪识别方法及终端设备 |
CN109614895A (zh) * | 2018-10-29 | 2019-04-12 | 山东大学 | 一种基于attention特征融合的多模态情感识别的方法 |
CN109146066A (zh) * | 2018-11-01 | 2019-01-04 | 重庆邮电大学 | 一种基于语音情感识别的虚拟学习环境自然交互方法 |
CN109493886A (zh) * | 2018-12-13 | 2019-03-19 | 西安电子科技大学 | 基于特征选择和优化的语音情感识别方法 |
CN109740148A (zh) * | 2018-12-16 | 2019-05-10 | 北京工业大学 | 一种BiLSTM结合Attention机制的文本情感分析方法 |
CN109599128A (zh) * | 2018-12-24 | 2019-04-09 | 北京达佳互联信息技术有限公司 | 语音情感识别方法、装置、电子设备和可读介质 |
CN109767791A (zh) * | 2019-03-21 | 2019-05-17 | 中国—东盟信息港股份有限公司 | 一种针对呼叫中心通话的语音情绪识别及应用系统 |
Non-Patent Citations (4)
Title |
---|
《Improvement of Emotion Recognition from Voice by Separating of Obstruents》;Eun Ho Kim et al.;《The 15th IEEE International Symposium on Robot and Human Interactive Communication (RO-MAN06),》;20060930;全文 * |
《SEDAT: Sentiment and Emotion Detection in Arabic Text using CNN-LSTM Deep Learning》;Malak Abdullah et al.;《2018 17th IEEE International Conference on Machine Learning and Applications》;20181231;全文 * |
《基于TensorFlow的俄语词汇标音系统》;冯伟等;《计算机应用》;20180430;全文 * |
《基于卷积神经网络的语音情感识别方法》;邵兵等;《计算机科学》;20160630;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN110097894A (zh) | 2019-08-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110097894B (zh) | 一种端到端的语音情感识别的方法和系统 | |
CN111933129B (zh) | 音频处理方法、语言模型的训练方法、装置及计算机设备 | |
Tirumala et al. | Speaker identification features extraction methods: A systematic review | |
CN108597541B (zh) | 一种增强愤怒与开心识别的语音情感识别方法及系统 | |
CN107993665B (zh) | 多人会话场景中发言人角色确定方法、智能会议方法及系统 | |
WO2021061484A1 (en) | Text-to-speech processing | |
CN112750446B (zh) | 语音转换方法、装置和系统及存储介质 | |
CN107731233A (zh) | 一种基于rnn的声纹识别方法 | |
CN112581963B (zh) | 一种语音意图识别方法及系统 | |
Li et al. | Learning fine-grained cross modality excitement for speech emotion recognition | |
CN114566189B (zh) | 基于三维深度特征融合的语音情感识别方法及系统 | |
CN114420169B (zh) | 情绪识别方法、装置及机器人 | |
Quan et al. | Reduce the dimensions of emotional features by principal component analysis for speech emotion recognition | |
KR20100068530A (ko) | 음성인식기에서 가비지 및 반단어 모델 기반의 거절 장치 및 방법 | |
Basak et al. | Challenges and Limitations in Speech Recognition Technology: A Critical Review of Speech Signal Processing Algorithms, Tools and Systems. | |
CN114898779A (zh) | 融合多模态的语音情感识别方法及系统 | |
CN114550706A (zh) | 基于深度学习的智慧校园语音识别方法 | |
Rabiee et al. | Persian accents identification using an adaptive neural network | |
Qamhan et al. | Speech emotion recognition using convolutional recurrent neural networks and spectrograms | |
CN115376547B (zh) | 发音评测方法、装置、计算机设备和存储介质 | |
Daouad et al. | An automatic speech recognition system for isolated Amazigh word using 1D & 2D CNN-LSTM architecture | |
Ullah et al. | Speech emotion recognition using deep neural networks | |
Tailor et al. | Deep learning approach for spoken digit recognition in Gujarati language | |
Kuzdeuov et al. | Speech command recognition: Text-to-speech and speech corpus scraping are all you need | |
CN113763992A (zh) | 语音测评方法、装置、计算机设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |