CN108564942A - 一种基于敏感度可调的语音情感识别方法及系统 - Google Patents
一种基于敏感度可调的语音情感识别方法及系统 Download PDFInfo
- Publication number
- CN108564942A CN108564942A CN201810305527.3A CN201810305527A CN108564942A CN 108564942 A CN108564942 A CN 108564942A CN 201810305527 A CN201810305527 A CN 201810305527A CN 108564942 A CN108564942 A CN 108564942A
- Authority
- CN
- China
- Prior art keywords
- emotion
- probability
- voice
- text
- speech
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 36
- 230000008451 emotion Effects 0.000 claims abstract description 101
- 230000008909 emotion recognition Effects 0.000 claims abstract description 61
- 239000013598 vector Substances 0.000 claims abstract description 50
- 230000006870 function Effects 0.000 claims description 29
- 230000035945 sensitivity Effects 0.000 claims description 24
- 238000012545 processing Methods 0.000 claims description 10
- 238000011176 pooling Methods 0.000 claims description 9
- 238000012549 training Methods 0.000 claims description 8
- 230000004913 activation Effects 0.000 claims description 6
- 230000004927 fusion Effects 0.000 claims description 6
- 238000013527 convolutional neural network Methods 0.000 claims description 5
- 230000003068 static effect Effects 0.000 claims description 5
- 238000005070 sampling Methods 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 claims description 2
- 230000008447 perception Effects 0.000 abstract description 5
- 230000003993 interaction Effects 0.000 abstract description 4
- 230000002996 emotional effect Effects 0.000 description 8
- 238000004891 communication Methods 0.000 description 7
- 241000282414 Homo sapiens Species 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 230000037433 frameshift Effects 0.000 description 4
- 230000014509 gene expression Effects 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 230000007547 defect Effects 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 230000008921 facial expression Effects 0.000 description 2
- 238000009432 framing Methods 0.000 description 2
- 230000008825 perceptual sensitivity Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 208000027534 Emotional disease Diseases 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000002790 cross-validation Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000036651 mood Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 238000010183 spectrum analysis Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/21—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/63—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Probability & Statistics with Applications (AREA)
- Child & Adolescent Psychology (AREA)
- General Health & Medical Sciences (AREA)
- Hospice & Palliative Care (AREA)
- Psychiatry (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种基于敏感度可调的语音情感识别方法及系统,该方法及系统首先接收用户的输入语音信号,利用语音识别软件对语音信号进行文本识别,建立语音信号特征矢量和文本特征矢量;将语音特征矢量和文本特征矢量分别输入语音情感识别模型和文本情感识别模型中进行识别,判断此语音对应的四种情感的类别概率;用户可以调整四种情感判断的加权值;由融合决策层根据情感感知敏感度加权的四类情感概率得到最终识别结果,实现了情感敏感度可调的情感识别。本发明可为人机交互、情感管理和情感计算带来新的解决方案和应用方法。
Description
技术领域
本发明属于语音识别领域,尤其涉及一种基于敏感度可调的语音情感识别方法及系统。
背景技术
情感是人类交流手段的一种常见的表达方式,在人机交互中起着重要的作用。语音作为人类最直接的交流手段,其本身能传递丰富的情感信息,已被成功用于情感的自动识别中。尽管语音情感识别取得了可应用性的成果,但不同的情感对人类交流和反应有着不同重要性,人类在识别不同情感变化时有着不同的敏感度,例如语气中情感的愤怒、悲伤等特殊情感出现时的敏感觉察对有效的交际有着重要的意义。目前的语音情感识别系统一般采用识别错误率最小的决策方式,可以保证整体识别准确率最高,但对敏感情感识别率难以达到要求,而在很多情境下特殊情感如愤怒、开心等的变化对人与人的交往很重要。
现有的语音情感识别方法,主要包括语音特征表示和分类器结构的方法。语音信息本身包含丰富的情感信息,但并不是情感的全部信息,并且音频信号本身存在一些固有缺陷,如信号弱、噪声强等,从单一的语音模型识别情感并不全面。多模态的融合是利用文本、生理信号、面部表情等多个通道的情感信息互补性提高分类器的识别性能,从而提高识别分类器的准确度。不同通道的信息对不同情绪有不同的区别作用,研究表明语音通道对情感强度有较丰富的信息,文本通道包含更敏感的正负情感区分信息。所以,在现有语音情感识别的基础上,将语音与文本两通道的信息融合,在语音情感识别中增加对特殊情感敏感识别功能是人工智能中类人情感交互的亟待解决的问题。
发明内容
发明目的:针对以上存在问题和不足,本发明提出一种基于敏感度可调的语音情感识别方法及系统,该方法及系统可以将语音与文本两通道的信息融合,通过设置情感的敏感度权值,得到不同情感的概率值。
技术方案:为实现本发明的上述目的,本发明所采用的技术方案是:一种基于敏感度可调的语音情感识别方法,包括如下步骤:
(1.1)接收用户语音信号,提取语音的声学特征矢量;
(1.2)将语音信号转换为文本信息,获取语音的文本特征矢量;
(1.3)将声学特征矢量和文本特征矢量输入语音情情感识别模型和文本情感识别模型中,分别得到不同情感的概率值;
(1.4)设置不同情感的权值,得到语音情感的最终判断识别结果。
其中,所述情感包括高兴、生气、悲伤和平静。
其中,在步骤(1)中,使用如下方法提取语音的声学特征矢量:
(1.1)将音频分割为帧,对每个语音句子提取帧级的低层次声学特征;
(1.2)应用全局统计函数,将每个语音句子的每一组时长不等的基础声学特征转化为等长的静态特征,得到多维度声学特征矢量。
其中,在步骤(2)中,使用如下方法获取文本信息的文本特征矢量:
(2.1)利用文本数据集对不同种情感分别进行词频与逆词频统计;
(2.2)根据统计结果,每种情感选取前N个词,合并去除重复词后形成去除重复词,合并成基本词汇表;
(2.3)判断语音文本中的每个词在每个样本词汇表中是否出现,出现为1,不出现为0,得到语音文本特征矢量。
其中,在步骤(3)中,使用如下神经网络结构分别训练声音数据集和文本数据集得到所述语音情感识别模型和文本情感识别模型:
a)分类器结构为两个卷积层加上一个全连接层,第一层使用卷积核数目采用32个;第二层卷积层采用64个卷积核,两层都采用一维的卷积层,卷积核的窗长度为10,卷积步长为1,补零策略采用“same”,保留边界处的卷积结果;
b)第一、第二层的激活函数采用“relu”函数,训练的dropoutrate变量设置为0.2以防止过拟合;
c)池化层采用最大值池化方式,池化窗口大小设为2,下采样因子设为2,补零策略采用“same”,保留边界处的卷积结果;
d)最后的全连接层选用softmax激活函数对以上所有的dropout层的输出进行回归得到每类的输出概率。
其中,在步骤(4)中,得到不同情感的判断结果的方法如下:
(4.1)通过语音情感识别模型对语音信号进行处理,得到高兴的概率SH、生气的概率SA、悲伤的概率SS和平静的概率SM;
(4.2)通过文本情感识别模型对语音信号进行处理,得到高兴的概率TH、生气的概率TA、悲伤的概率TS和平静的概率TM;
(4.3)设置高兴的权值PH、生气的权值PA、悲伤的权值PS和平静的权值PM;
(4.4)通过下述公式计算情感的判断识别结果E:
E=Max((SH+TH)*PH,(SA+TA)*PA,(SS+TS)*PS,(SM+TM)*PM),其中Max()表示取最大值,(SH+TH)*PH,(SA+TA)*PA,(SS+TS)*PS,(SM+TM)*PM分别表示加权后的高兴的概率、生气的概率、悲伤的概率和平静的概率。
其中,本发明还提供了一种基于敏感度可调的语音情感识别系统,包括如下模块:
声学特征矢量模块,用于接收用户语音信号,提取语音的声学特征矢量;
文本特征矢量模块,用于将语音信号转换为文本信息,获取语音的文本特征矢量;
情感概率计算模块,将声学特征矢量和文本特征矢量输入语音情情感识别模型和文本情感识别模型中,分别得到不同情感的概率值;
情感权值设置模块,设置调整不同情感的权值;
情感判断识别模块,根据每一情感类别的概率,加权融合后,得到语音情感的最终判断识别结果。
其中,声学特征矢量模块功能如下:
(1.1)将音频分割为帧,对每个语音句子提取帧级的低层次声学特征;
(1.2)应用全局统计函数,将每个语音句子中的每一组时长不等的基础声学特征转化为等长的静态特征,得到多维度的声学特征矢量。
其中,文本特征矢量模块功能如下:
(2.1)利用文本数据集对不同种情感分别进行词频与逆词频统计;
(2.2)根据统计结果,每种情感选取前N个词,合并去除重复词后形成去除重复词,合并成基本词汇表;
(2.3)判断语音文本中的每个词在每个样本词汇表中是否出现,出现为1,不出现为0,得到语音文本特征矢量。
其中,情感判断识别模块功能如下:
(4.1)通过语音情感识别模型对语音信号进行处理,得到高兴的概率SH、生气的概率SA、悲伤的概率SS和平静的概率SM;
(4.2)通过文本情感识别模型对语音信号进行处理,得到高兴的概率TH、生气的概率TA、悲伤的概率TS和平静的概率TM;
(4.3)设置高兴的权值为PH、生气的权值为PA、悲伤的权值为PS和平静的权值为PM;
(4.4)通过下述公式计算情感的判断识别结果E:
E=Max((SH+TH)*PH,(SA+TA)*PA,(SS+TS)*PS,(SM+TM)*PM),其中Max()表示取最大值,(SH+TH)*PH,(SA+TA)*PA,(SS+TS)*PS,(SM+TM)*PM分别表示加权后的高兴的概率、生气的概率、悲伤的概率和平静的概率。
有益效果:与现有技术相比,本发明具有如下优点:
本发明针对不同场景下用户对不同情感的重要性的需求,可以调节语音情感识别系统对需要关注的情感识别的敏感度,以实现人的人机情感交互,提高对需要关注的语音情感的识别率。
附图说明
图1是情感敏感度可调的语音情感识别方法框架图;
图2是本发明语音和文本情感识别模型建立的框架图;
图3是本发明语音特征矢量和文本特征矢量构建过程图;
图4是情感敏感度调整模块的输入界面。
具体实施方式
下面结合附图和实施示例对本发明作进一步详细地说明。
本发明公开的一种基于敏感度可调的语音情感识别方法及系统的整体框图如图1所示,本方法及系统从语音和通过语音识别软件获得的语音信息和语音文本信息,分别提取语音特征矢量和文本特征矢量;在情感识别时,利用语音识别模块SERModel和文本识别TERModel识别出各种语音情感的概率,利用情感感知灵敏度调节模块ERAdjust设置每种情感的判断权值,由决策融合层得到最终识别的情感。本发明公开的上述方法建立的步骤如下:
(1)模型训练使用的语音和文本数据集收集
四种情感类型分别为高兴、悲伤、生气和平静,通过语音数据集SpeechSet收集:本发明对南加利福利亚大学录制的情感数据库(Interactive Emotional Motion Capture,IEMOCAP)综合提取了四类离散情感识别。IEMOCAP包含12小时的视听数据,即视频、音频和语音文本、面部表情,10名演员,5段对话,每段对话一男一女在有台词或即兴的场景下,引导出情感表达。为了平衡不同情感类别的数据,将高兴和兴奋合并成高兴类,由高兴、生气、悲伤和平静最终构成了4类情感识别数据库,总共5531个句子,如表1所示,其展示了SpeechSet和TextSet数据集中每个情感类别分布。
(1.1)从IEMOCAP数据集中选择高兴、生气、悲伤和平静四类情感,共5531个语音数据样本的SpeechSet集合;
(1.2)利用语音识别软件对SpeechSet中的5531个语音信号样本进行语音识别,获得对应的5531个与语音对应的文本数据集TextSet。
表1
(2)提取声学特征矢量和文本特征矢量
(2.1)提取输入语音样本的特征矢量,进行声音的情感识别,语音预处理如下:
(2.1.1)预加重使语音高频部分得以提升,使声道参数分析或频谱分析更加便捷可靠,其可以利用计算机中6dB/倍频程的提升高频特性的预加重数字滤波器来实现;
(2.1.2)进行加窗分帧处理,一般约为33帧/s到100帧/s,其中选择50帧/s为最佳;本发明中分帧采用交叠分段的方法,这是为了使帧与帧之间平滑过渡,保持其连续性;前一帧与后一帧的交叠部分称为帧移,帧移与帧长的比值取1/2,分帧是用可移动的有限长度窗口进行加权和利用窗函数ω(n)在原始语音信号s(n)之上叠加来实现,公式如下:
sω(n)=s(n)*ω(n)
其中,sω(n)就是加窗分帧处理后的语音信号,并且窗函数使用汉明窗函数,表达式如下:
其中,N为帧长。
(2.1.3)去除静音段和噪声段,为了获得更好的端点检测结果,本发明综合短时能量和短时过零率进行两级判决,具体算法如下:
(A)计算短时能量:
其中,si(n)为每一帧的信号,i表示帧数,N为帧长;
(B)计算短时过零率:
其中,
(C)计算语音和噪声的平均能量,设置一高一低两个能量门限T1和T2,高门限确定语音开端,低门限判断语音结束点;
(D)计算背景噪声的平均过零率,可以设置过零率门限T3,该门限用于判断语音前端的清音位置和后端的尾音位置,从而完成辅助判决。
本发明首先对每个语音句子提取了帧级的低层次声学特征(low leveldescriptors,LLDs),在基础声学特征上应用了多个不同的统计函数,将每个句子的一组时长不等的基础声学特征转化为等长的静态特征;然后,使用openSMILE工具包将音频分割为帧,计算LLDs,最后应用全局统计函数。本发明参考了Interspeech2010年泛语言学挑战赛(Paralinguistic Challenge)中广泛使用的特征提取配置文件“embose2010.conf”,其中提取基频特征和声音质量特征用40ms的帧窗和10ms的帧移提取,频谱相关特征使用25ms的帧窗和10ms的帧移提取。它包含了多个不同的低层次的声学特征,具体可以按照实际需求,设置低层次声学特征的个数,如MFCC、音量、归一化强度提高到0.3的幂的响度、美尔频率倒谱系数、梅尔频带的对数功率、平滑的基频轮廓线等,优选为38个,多个全局统计函数应用于低层次的声学特征和它们相应的系数,这些统计函数包括最大最小值、均值、时长、方差等,统计函数可以按照实际需要设置,优选为21个,得到共1582维声学特征。部分低层次的声学特征以及统计函数如表2所示:
表2声学特征
(2.2)提取语音识别后的文本样本的特征矢量,进行文本的情感识别,具体步骤如下:
(A)情感词提取:利用文本数据集TextSet对四种情感分别进行词频与逆词频统计,即term frequency-inverse document frequency,tf-idf;
(B)根据tf-idf每种情感选取前400个词共400*4个情感词,合并去除重复词后形成去除重复词,并将它们合并成情感特征基本词汇955;
(C)得到的955个词作为文本的特征矢量TextF,以语音中每个词在每个样本中出现与否作为该特征的值,出现为1,不出现为0,得到语音的文本特征矢量表达。
(3)情感识别模型SERModel和TERModel的建立
(A)声音情感识别模型SERModel的建立:利用声音数据集SpeechSet的样本训练卷积神经网络(convolutional neural network,CNN)分类器,具体训练方法如下:
(a)CNN分类器结构为两个卷积层加上一个全连接层,第一层使用卷积核数目采用32个;第二层卷积层采用64个卷积核,两层都采用一维的卷积层,卷积核的窗长度为10,卷积步长为1,补零策略采用“same”,保留边界处的卷积结果;
(b)第一、第二层的激活函数采用“relu”函数,训练时dropoutrate变量设置为0.2以防止过拟合;
(c)池化层采用最大值池化方式,池化窗口大小设为2,下采样因子设为2,补零策略采用“same”,保留边界处的卷积结果;
(d)最后的全连接层选用softmax激活函数对以上所有的dropout层的输出进行回归得到每类的输出概率,以此得到以最小错误率为决策策略的情感识别模型语音情感识别模型SERModel。输出结果是声音样本属于四种情感高兴H、生气A、悲伤S和平静M的概率值,声音分别为高兴的概率SH、生气的概率SA、悲伤的概率SS和平静的概率SM。
(B)将文本数据集TextSet中的样本进行训练CNN,训练方法同(A),即可得到文本情感识别模型TERModel。输出是文本样本属于四类情感高兴H、生气A、悲伤S和平静M的概率百分比,四个参数分别为高兴的概率TH、生气的概率TA、悲伤的概率TS和平静的概率TM。
(4)情感感知敏感度调整,用户输入设置四种情感高兴、生气、悲伤和平静的百分值,每个情感缺省为25%,四个总和为100%,当某个情感值大于25%时该情感识别敏感度高,当某个情感值小于25%时识别敏感度低,设置高兴的权值为PH、生气的权值为PA、悲伤的权值为PS和平静的权值为PM。
(5)决策层判断最终结果,根据每一情感类别的概率,加权融合后,识别结果就是概率大的维度代表的情感类别E。决策层根据ERAdjust模块的权值和SERModel和TERModel的输出情感类别E根据下面公式1计算最后识别的情感结果E如下:
E=Max((SH+TH)*PH,(SA+TA)*PA,(SS+TS)*PS,(SM+TM)*PM)(1)
下面以SpeechSet数据集的样本进行训练,对表4的试验结果进行说明。
在自动情感识别领域,实验的评测标准是不加权的平均召回率,即UnweightedAverage Recall,UAR和准确率,即Accuracy score,ACC。
其中,召回率UAR是指查找出的某类实验样本数和数据库中所有的该类样本数的比率:
ci表示属于情感类别i分类的正确样本总数,ni表示情感类别i的样本总数,M表示情感类别个数。
其中,准确率ACC是指对于给定的测试数据集,分类器正确分类的样本数与总样本数之比:
ci表示属于情感类别i分类的正确样本总数,N表示样本总数,M表示情感类别个数。
本实验采用十组留一交叉验证模式,即用9个说话人的数据做为训练集,1个说话人的数据做为验证集,实验结果如表4所示。实验结果验证了本发明提出的多通道融合的自动语音情感识别方法的有效性,并且本发明可有效调整特定情感的识别灵敏度。
(1)表4第二列,情感感知灵敏度权值使用缺省设置,即PH=25%,PA=25%,PS=25%,PM=25%,对应的各类情感的样本识别准确率ACC和召回率UAR。
(2)表4第三列,当情感感知灵敏度权值设置为PH=30%,PA=24%,PS=22%,PM=22%,即高兴的识别灵敏度提高,高兴情绪的召回率由缺省参数时的60%提升到当前的78%。
(3)第4第四列中,当情感感知灵敏度权值设置为PH=24%,PA=25%,PS=30%,PM=21%,即悲哀的识别灵敏度提高,悲哀情感的召回率由缺省参数时的62%提高到当前的79%。
表4不同情感感知灵敏度下的每类情感召回率和总体准确率
本发明提供的方法可以应用在以下几个领域,但不限制于以下几个领域:
1、在服务业上,本发明提供的语音情感识别技术应用在自动远程电话服务中心系统上,通过理解客户的“画外音”及时发现客户的不满情感,使得公司能够及时有效地做出变通,最大限度地保留住可能的客户资源。
2、在教育业上,本发明提供的语音情感识别技术应用在计算机远程教学系统上,老师可以及时识别学生的情感并做出适当的处理,从而提高教学质量。
3、在医学上,本发明提供的语音情感识别技术应用在医学计算机上,能帮助那些缺乏正常情感反应和交流的孤僻症患者反复练习情感交流,逐步达到康复的目的。
Claims (10)
1.一种基于敏感度可调的语音情感识别方法,其特征在于,包括如下步骤:
(1.1)接收用户语音信号,提取语音的声学特征矢量;
(1.2)将语音信号转换为文本信息,获取语音的文本特征矢量;
(1.3)将声学特征矢量和文本特征矢量输入语音情情感识别模型和文本情感识别模型中,分别得到不同情感的概率值;
(1.4)设置不同情感的权值,结合不同情感的概率值,加权融合后,得到语音情感的最终判断识别结果。
2.根据权利要求1所述的一种基于敏感度可调的语音情感识别方法,其特征在于,所述情感包括高兴、生气、悲伤和平静。
3.根据权利要求1所述的一种基于敏感度可调的语音情感识别方法,其特征在于,在步骤(1)中,使用如下方法提取语音的声学特征矢量:
(1.1)将音频分割为帧,对每个语音句子提取帧级的低层次声学特征;
(1.2)应用全局统计函数,将每个语音句子中的每一组时长不等的基础声学特征转化为等长的静态特征,得到多维度的声学特征矢量。
4.根据权利要求1所述的一种基于敏感度可调的语音情感识别方法,其特征在于,在步骤(2)中,使用如下方法获取语音的文本特征矢量:
(2.1)利用文本数据集对不同种情感分别进行词频与逆词频统计;
(2.2)根据统计结果,每种情感选取前N个词,合并去除重复词后形成去除重复词,合并成基本词汇表;
(2.3)判断语音文本中的每个词在每个样本词汇表中是否出现,出现为l,不出现为0,得到语音文本特征矢量。
5.根据权利要求1所述的一种基于敏感度可调的语音情感识别方法,其特征在于,在步骤(3)中,使用如下卷积神经网络结构分别对声音样本数据集和文本样本数据集进行训练,得到所述语音情感识别模型和文本情感识别模型:
(a)分类器结构为两个卷积层加上一个全连接层,第一层使用32个卷积核,第二层卷积层采用64个卷积核,两层都采用一维的卷积层,卷积核的窗长度为10,卷积步长为1,补零策略采用same,保留边界处的卷积结果;
(b)第一、第二层的激活函数采用relu函数,训练时设置变量dropoutrate为0.2;
(c)池化层采用最大值池化方式,池化窗口大小设为2,下采样因子设为2,补零策略采用上下左右补0的方法,保留边界处的卷积结果;
(d)最后的全连接层选用softmax激活函数对所有的dropout层的输出进行回归得到情感类型的输出概率。
6.根据权利要求2所述的一种基于敏感度可调的语音情感识别方法,其特征在于,在步骤(4)中,得到语音情感的最终判断识别结果的方法如下:
(4.1)通过语音情感识别模型对语音信号进行处理,得到高兴的概率SH、生气的概率SA、悲伤的概率SS和平静的概率SM;
(4.2)通过文本情感识别模型对语音信号进行处理,得到高兴的概率TH、生气的概率TA、悲伤的概率TS和平静的概率TM;
(4.3)设置高兴的权值为PH、生气的权值为PA、悲伤的权值为PS和平静的权值为PM;
(4.4)通过下述公式计算情感的判断识别结果E:
E=Max((SH+TH)*PH,(SA+TA)*PA,(SS+TS)*PS,(SM+TM)*PM),其中Max()表示取最大值,(SH+TH)*PH,(SA+TA)*PA,(SS+TS)*PS,(SM+TM)*PM分别表示加权后的高兴的概率、生气的概率、悲伤的概率和平静的概率。
7.一种基于敏感度可调的语音情感识别系统,其特征在于,包括如下模块:
声学特征矢量模块,用于接收用户语音信号,提取语音的声学特征矢量;
文本特征矢量模块,用于将语音信号转换为文本信息,获取语音的文本特征矢量;
情感概率计算模块,将声学特征矢量和文本特征矢量输入语音情情感识别模型和文本情感识别模型中,分别得到不同情感的概率值;
情感权值设置模块,设置调整不同情感的权值;
情感判断识别模块,根据每一情感类别的概率,加权融合后,得到语音情感的最终判断识别结果。
8.根据权利要求7所述的一种基于敏感度可调的语音情感识别系统,其特征在于,声学特征矢量模块功能如下:
(1.1)将音频分割为帧,对每个语音句子提取帧级的低层次声学特征;
(1.2)应用全局统计函数,将每个语音句子中的每一组时长不等的基础声学特征转化为等长的静态特征,得到多维度的声学特征矢量。
9.根据权利要求7所述的一种基于敏感度可调的语音情感识别系统,其特征在于,文本特征矢量模块功能如下:
(2.1)利用文本数据集对不同种情感分别进行词频与逆词频统计;
(2.2)根据统计结果,每种情感选取前N个词,合并去除重复词后形成去除重复词,合并成基本词汇表;
(2.3)判断语音文本中的每个词在每个样本词汇表中是否出现,出现为1,不出现为0,得到语音文本特征矢量。
10.根据权利要求7所述的一种基于敏感度可调的语音情感识别系统,其特征在于,情感判断识别模块功能如下:
(4.1)通过语音情感识别模型对语音信号进行处理,得到高兴的概率SH、生气的概率SA、悲伤的概率SS和平静的概率SM;
(4.2)通过文本情感识别模型对语音信号进行处理,得到高兴的概率TH、生气的概率TA、悲伤的概率TS和平静的概率TM;
(4.3)设置高兴的权值为PH、生气的权值为PA、悲伤的权值为PS和平静的权值为PM;
(4.4)通过下述公式计算情感的判断识别结果E:
E=Max((SH+TH)*PH,(SA+TA)*PA,(SS+TS)*PS,(SM+TM)*PM),其中Max()表示取最大值,(SH+TH)*PH,(SA+TA)*PA,(SS+TS)*PS,(SM+TM)*PM分别表示加权后的高兴的概率、生气的概率、悲伤的概率和平静的概率。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810305527.3A CN108564942B (zh) | 2018-04-04 | 2018-04-04 | 一种基于敏感度可调的语音情感识别方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810305527.3A CN108564942B (zh) | 2018-04-04 | 2018-04-04 | 一种基于敏感度可调的语音情感识别方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108564942A true CN108564942A (zh) | 2018-09-21 |
CN108564942B CN108564942B (zh) | 2021-01-26 |
Family
ID=63534143
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810305527.3A Active CN108564942B (zh) | 2018-04-04 | 2018-04-04 | 一种基于敏感度可调的语音情感识别方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108564942B (zh) |
Cited By (24)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109192225A (zh) * | 2018-09-28 | 2019-01-11 | 清华大学 | 语音情感识别和标注的方法及装置 |
CN109243490A (zh) * | 2018-10-11 | 2019-01-18 | 平安科技(深圳)有限公司 | 司机情绪识别方法及终端设备 |
CN109410917A (zh) * | 2018-09-26 | 2019-03-01 | 河海大学常州校区 | 基于改进型胶囊网络的语音数据分类方法 |
CN109473122A (zh) * | 2018-11-12 | 2019-03-15 | 平安科技(深圳)有限公司 | 基于检测模型的情绪分析方法、装置及终端设备 |
CN109597493A (zh) * | 2018-12-11 | 2019-04-09 | 科大讯飞股份有限公司 | 一种表情推荐方法及装置 |
CN110246518A (zh) * | 2019-06-10 | 2019-09-17 | 深圳航天科技创新研究院 | 基于多粒度动静态融合特征的语音情感识别方法、装置、系统及存储介质 |
CN110347823A (zh) * | 2019-06-06 | 2019-10-18 | 平安科技(深圳)有限公司 | 基于语音的用户分类方法、装置、计算机设备及存储介质 |
CN110379441A (zh) * | 2019-07-01 | 2019-10-25 | 特斯联(北京)科技有限公司 | 一种基于对抗型人工智能网络的语音服务方法与系统 |
CN110390956A (zh) * | 2019-08-15 | 2019-10-29 | 龙马智芯(珠海横琴)科技有限公司 | 情感识别网络模型、方法及电子设备 |
CN110473571A (zh) * | 2019-07-26 | 2019-11-19 | 北京影谱科技股份有限公司 | 基于短视频语音的情感识别方法和装置 |
CN110675859A (zh) * | 2019-09-05 | 2020-01-10 | 华南理工大学 | 结合语音与文本的多情感识别方法、系统、介质及设备 |
CN110890088A (zh) * | 2019-10-12 | 2020-03-17 | 中国平安财产保险股份有限公司 | 语音信息反馈方法、装置、计算机设备和存储介质 |
CN111597580A (zh) * | 2020-05-13 | 2020-08-28 | 贵州大学 | 机器人听觉隐私信息监听处理方法 |
CN111798859A (zh) * | 2020-08-27 | 2020-10-20 | 北京世纪好未来教育科技有限公司 | 数据处理方法、装置、计算机设备及存储介质 |
WO2020216064A1 (zh) * | 2019-04-24 | 2020-10-29 | 京东方科技集团股份有限公司 | 语音情感识别方法、语义识别方法、问答方法、计算机设备及计算机可读存储介质 |
CN112037762A (zh) * | 2020-09-10 | 2020-12-04 | 中航华东光电(上海)有限公司 | 一种中英文混合语音识别方法 |
JP2021012285A (ja) * | 2019-07-05 | 2021-02-04 | 株式会社Nttドコモ | 感情推定装置、及び、感情推定システム |
CN112765323A (zh) * | 2021-01-24 | 2021-05-07 | 中国电子科技集团公司第十五研究所 | 基于多模态特征提取与融合的语音情感识别方法 |
CN112785667A (zh) * | 2021-01-25 | 2021-05-11 | 北京有竹居网络技术有限公司 | 视频生成方法、装置、介质及电子设备 |
CN112801220A (zh) * | 2020-05-08 | 2021-05-14 | 视睿(杭州)信息科技有限公司 | 一种农产品品质分类方法、装置、计算机设备和存储介质 |
CN112908315A (zh) * | 2021-03-10 | 2021-06-04 | 北京思图场景数据科技服务有限公司 | 一种基于声音特征和语音识别的问答意图判断方法 |
CN113903362A (zh) * | 2021-08-26 | 2022-01-07 | 电子科技大学 | 一种基于神经网络的语音情感识别方法 |
CN115132231A (zh) * | 2022-08-31 | 2022-09-30 | 安徽讯飞寰语科技有限公司 | 语音活性检测方法、装置、设备及可读存储介质 |
CN116562270A (zh) * | 2023-07-07 | 2023-08-08 | 天津亿科科技有限公司 | 一种支持多模态输入的自然语言处理系统及其方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101480668B1 (ko) * | 2014-03-21 | 2015-01-26 | 충남대학교산학협력단 | 음성을 이용한 감정 인식 어플리케이션이 구비된 단말기 및 그 제어방법 |
CN106445919A (zh) * | 2016-09-28 | 2017-02-22 | 上海智臻智能网络科技股份有限公司 | 一种情感分类方法及装置 |
CN106529503A (zh) * | 2016-11-30 | 2017-03-22 | 华南理工大学 | 一种集成卷积神经网络人脸情感识别方法 |
CN106782602A (zh) * | 2016-12-01 | 2017-05-31 | 南京邮电大学 | 基于长短时间记忆网络和卷积神经网络的语音情感识别方法 |
-
2018
- 2018-04-04 CN CN201810305527.3A patent/CN108564942B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101480668B1 (ko) * | 2014-03-21 | 2015-01-26 | 충남대학교산학협력단 | 음성을 이용한 감정 인식 어플리케이션이 구비된 단말기 및 그 제어방법 |
CN106445919A (zh) * | 2016-09-28 | 2017-02-22 | 上海智臻智能网络科技股份有限公司 | 一种情感分类方法及装置 |
CN106529503A (zh) * | 2016-11-30 | 2017-03-22 | 华南理工大学 | 一种集成卷积神经网络人脸情感识别方法 |
CN106782602A (zh) * | 2016-12-01 | 2017-05-31 | 南京邮电大学 | 基于长短时间记忆网络和卷积神经网络的语音情感识别方法 |
Non-Patent Citations (3)
Title |
---|
LIQIN FU ET AL.: "Relative Speech Emotion Recognition Based Artificial Neural Network", 《2008 IEEE PACIFIC-ASIA WORKSHOP ON COMPUTATIONAL INTELLIGENCE AND INDUSTRIAL APPLICATION》 * |
ZE JING CHUANG ET AL.: "Emotion recognition using acoustic features and textual content", 《2004 IEEE INTERNATIONAL CONFERENCE ON MULTIMEDIA AND EXPO》 * |
陈鹏展等: "基于语音信号与文本信息的双模态情感识别", 《华东交通大学学报》 * |
Cited By (34)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109410917A (zh) * | 2018-09-26 | 2019-03-01 | 河海大学常州校区 | 基于改进型胶囊网络的语音数据分类方法 |
CN109410917B (zh) * | 2018-09-26 | 2021-11-16 | 河海大学常州校区 | 基于改进型胶囊网络的语音数据分类方法 |
CN109192225A (zh) * | 2018-09-28 | 2019-01-11 | 清华大学 | 语音情感识别和标注的方法及装置 |
CN109243490A (zh) * | 2018-10-11 | 2019-01-18 | 平安科技(深圳)有限公司 | 司机情绪识别方法及终端设备 |
WO2020098107A1 (zh) * | 2018-11-12 | 2020-05-22 | 平安科技(深圳)有限公司 | 基于检测模型的情绪分析方法、装置及终端设备 |
CN109473122A (zh) * | 2018-11-12 | 2019-03-15 | 平安科技(深圳)有限公司 | 基于检测模型的情绪分析方法、装置及终端设备 |
CN109597493A (zh) * | 2018-12-11 | 2019-04-09 | 科大讯飞股份有限公司 | 一种表情推荐方法及装置 |
CN109597493B (zh) * | 2018-12-11 | 2022-05-17 | 科大讯飞股份有限公司 | 一种表情推荐方法及装置 |
WO2020216064A1 (zh) * | 2019-04-24 | 2020-10-29 | 京东方科技集团股份有限公司 | 语音情感识别方法、语义识别方法、问答方法、计算机设备及计算机可读存储介质 |
CN110347823A (zh) * | 2019-06-06 | 2019-10-18 | 平安科技(深圳)有限公司 | 基于语音的用户分类方法、装置、计算机设备及存储介质 |
CN110246518A (zh) * | 2019-06-10 | 2019-09-17 | 深圳航天科技创新研究院 | 基于多粒度动静态融合特征的语音情感识别方法、装置、系统及存储介质 |
CN110379441A (zh) * | 2019-07-01 | 2019-10-25 | 特斯联(北京)科技有限公司 | 一种基于对抗型人工智能网络的语音服务方法与系统 |
JP7379788B2 (ja) | 2019-07-05 | 2023-11-15 | 株式会社Nttドコモ | 感情推定装置、及び、感情推定システム |
JP2021012285A (ja) * | 2019-07-05 | 2021-02-04 | 株式会社Nttドコモ | 感情推定装置、及び、感情推定システム |
CN110473571A (zh) * | 2019-07-26 | 2019-11-19 | 北京影谱科技股份有限公司 | 基于短视频语音的情感识别方法和装置 |
CN110390956A (zh) * | 2019-08-15 | 2019-10-29 | 龙马智芯(珠海横琴)科技有限公司 | 情感识别网络模型、方法及电子设备 |
CN110675859B (zh) * | 2019-09-05 | 2021-11-23 | 华南理工大学 | 结合语音与文本的多情感识别方法、系统、介质及设备 |
CN110675859A (zh) * | 2019-09-05 | 2020-01-10 | 华南理工大学 | 结合语音与文本的多情感识别方法、系统、介质及设备 |
CN110890088A (zh) * | 2019-10-12 | 2020-03-17 | 中国平安财产保险股份有限公司 | 语音信息反馈方法、装置、计算机设备和存储介质 |
CN110890088B (zh) * | 2019-10-12 | 2022-07-15 | 中国平安财产保险股份有限公司 | 语音信息反馈方法、装置、计算机设备和存储介质 |
CN112801220A (zh) * | 2020-05-08 | 2021-05-14 | 视睿(杭州)信息科技有限公司 | 一种农产品品质分类方法、装置、计算机设备和存储介质 |
CN112801220B (zh) * | 2020-05-08 | 2022-07-08 | 视睿(杭州)信息科技有限公司 | 一种农产品品质分类方法、装置、计算机设备和存储介质 |
CN111597580A (zh) * | 2020-05-13 | 2020-08-28 | 贵州大学 | 机器人听觉隐私信息监听处理方法 |
CN111597580B (zh) * | 2020-05-13 | 2023-04-14 | 贵州大学 | 机器人听觉隐私信息监听处理方法 |
CN111798859A (zh) * | 2020-08-27 | 2020-10-20 | 北京世纪好未来教育科技有限公司 | 数据处理方法、装置、计算机设备及存储介质 |
CN112037762A (zh) * | 2020-09-10 | 2020-12-04 | 中航华东光电(上海)有限公司 | 一种中英文混合语音识别方法 |
CN112765323B (zh) * | 2021-01-24 | 2021-08-17 | 中国电子科技集团公司第十五研究所 | 基于多模态特征提取与融合的语音情感识别方法 |
CN112765323A (zh) * | 2021-01-24 | 2021-05-07 | 中国电子科技集团公司第十五研究所 | 基于多模态特征提取与融合的语音情感识别方法 |
CN112785667A (zh) * | 2021-01-25 | 2021-05-11 | 北京有竹居网络技术有限公司 | 视频生成方法、装置、介质及电子设备 |
CN112908315A (zh) * | 2021-03-10 | 2021-06-04 | 北京思图场景数据科技服务有限公司 | 一种基于声音特征和语音识别的问答意图判断方法 |
CN113903362A (zh) * | 2021-08-26 | 2022-01-07 | 电子科技大学 | 一种基于神经网络的语音情感识别方法 |
CN115132231B (zh) * | 2022-08-31 | 2022-12-13 | 安徽讯飞寰语科技有限公司 | 语音活性检测方法、装置、设备及可读存储介质 |
CN115132231A (zh) * | 2022-08-31 | 2022-09-30 | 安徽讯飞寰语科技有限公司 | 语音活性检测方法、装置、设备及可读存储介质 |
CN116562270A (zh) * | 2023-07-07 | 2023-08-08 | 天津亿科科技有限公司 | 一种支持多模态输入的自然语言处理系统及其方法 |
Also Published As
Publication number | Publication date |
---|---|
CN108564942B (zh) | 2021-01-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108564942B (zh) | 一种基于敏感度可调的语音情感识别方法及系统 | |
CN108597541B (zh) | 一种增强愤怒与开心识别的语音情感识别方法及系统 | |
CN109599129B (zh) | 基于注意力机制和卷积神经网络的语音抑郁症识别系统 | |
Basu et al. | A review on emotion recognition using speech | |
Singh et al. | A multimodal hierarchical approach to speech emotion recognition from audio and text | |
CN102723078B (zh) | 基于自然言语理解的语音情感识别方法 | |
CN107993665A (zh) | 多人会话场景中发言人角色确定方法、智能会议方法及系统 | |
Yeh et al. | Segment-based emotion recognition from continuous Mandarin Chinese speech | |
CN107393554A (zh) | 一种声场景分类中融合类间标准差的特征提取方法 | |
CN110379441B (zh) | 一种基于对抗型人工智能网络的语音服务方法与系统 | |
CN111798874A (zh) | 一种语音情绪识别方法及系统 | |
WO2022100691A1 (zh) | 音频识别方法和装置 | |
WO2022100692A1 (zh) | 人声音频录制方法和装置 | |
CN112735404A (zh) | 一种语音反讽检测方法、系统、终端设备和存储介质 | |
Xiao et al. | Hierarchical classification of emotional speech | |
Hamsa et al. | An enhanced emotion recognition algorithm using pitch correlogram, deep sparse matrix representation and random forest classifier | |
CN113571095B (zh) | 基于嵌套深度神经网络的语音情感识别方法和系统 | |
CN114927126A (zh) | 基于语义分析的方案输出方法、装置、设备以及存储介质 | |
CN114254096A (zh) | 一种基于交互机器人对话的多模态情感预测方法及系统 | |
CN113539243A (zh) | 语音分类模型的训练方法、语音分类方法及相关装置 | |
Zourmand et al. | Gender classification in children based on speech characteristics: using fundamental and formant frequencies of Malay vowels | |
Johar | Paralinguistic profiling using speech recognition | |
CN111402887A (zh) | 一种语音转义文字的方法及装置 | |
CN113689885A (zh) | 基于语音信号处理的智能辅助引导系统 | |
Hadjadji et al. | Enhancement of the interlocutor emotion recognition rate from non-professionals speakers in Arabic database |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |