CN106653000A - 一种基于语音信息的情感强度实验方法 - Google Patents
一种基于语音信息的情感强度实验方法 Download PDFInfo
- Publication number
- CN106653000A CN106653000A CN201611007085.1A CN201611007085A CN106653000A CN 106653000 A CN106653000 A CN 106653000A CN 201611007085 A CN201611007085 A CN 201611007085A CN 106653000 A CN106653000 A CN 106653000A
- Authority
- CN
- China
- Prior art keywords
- emotional speech
- emotion
- voice
- intensity
- emotional
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000008451 emotion Effects 0.000 title claims abstract description 46
- 238000010998 test method Methods 0.000 title abstract 4
- 230000007935 neutral effect Effects 0.000 claims abstract description 20
- 230000002996 emotional effect Effects 0.000 claims description 80
- 238000002474 experimental method Methods 0.000 claims description 23
- 238000000034 method Methods 0.000 claims description 19
- 238000000638 solvent extraction Methods 0.000 claims description 13
- 238000009432 framing Methods 0.000 claims description 9
- 238000000605 extraction Methods 0.000 claims description 7
- 238000012706 support-vector machine Methods 0.000 claims description 4
- 102000002274 Matrix Metalloproteinases Human genes 0.000 claims description 3
- 108010000684 Matrix Metalloproteinases Proteins 0.000 claims description 3
- 230000006870 function Effects 0.000 claims description 3
- 238000013139 quantization Methods 0.000 abstract description 2
- 238000011160 research Methods 0.000 description 4
- 230000008909 emotion recognition Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/63—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Signal Processing (AREA)
- Hospice & Palliative Care (AREA)
- General Health & Medical Sciences (AREA)
- Psychiatry (AREA)
- Child & Adolescent Psychology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
一种基于语音信息的情感强度实验方法,所述实验方法是根据已经建立的成熟语音库,选取部分语料作为样本,以中性情感为基准,根据相似度划分算法计算得到情感强度量化表,从而对情感语音进行强度等级划分。本发明经过情感强度划分算法划分量化后的基本情感语音得到了较好的识别结果,证明了本实验所采用的划分算法是有效的。
Description
技术领域
本发明涉及一种情感强度实验方法,尤其是涉及一种基于语音信息的情感强度实验方法。
背景技术
语言是人类沟通的最有效的方式,语言中不仅包含了文字信息,同时还包含了大量能反映说话人情感状态的信息。语音情感识别是通过计算机对说话人的情感状态进行认知判断。
目前的语音情感识别研究,大部分集中在基本的离散情感语音识别,例如判断语句是高兴还是生气,并没在对高兴或者生气程度的研究上达成一致的共识,这就造成了研究领域的局限性。
近些年,在语音处理技术发展中,情感语音强度划分的研究逐渐得到了广泛关注,虽然相关的研究取得了一定的成果,但是并未对每种基本情感语音的强度进行量化,也未对每种情感语音的强度级别界限做出具体规定。
因此,需要进一步对情感语音的强度进行研究,就需要对情感强度进行量化,并具体划分等级。
发明内容
本发明的目的是对连续情感语音识别领域中,通过建立一种基于语音信息的情感强度划分方法,对情感语音的强度进行量化算,实现情感语音的等级划分,并提供一种基于语音信息的情感强度实验方法。
本发明的目的是通过以下技术方案来实现的。
一种基于语音信息的情感强度实验方法,所述方法是按下列步骤进行的:
1)选取语音库中的情感语音;
2)对情感语音信号进行加重、分帧加窗的预处理;
3)提取情感语音的语速、能量、平均过零率、基频、共振峰和MFCCs的特征;
4)利用强度划分算法对情感语音进行三个等级的强度划分;
5)使用识别网络对划分后的情感语音识别验证。
在上述技术方案中,每个步骤的具体技术特征如下。
所述选取语音库中的情感语音是选取语音库中语义清晰、情感分明的情感语句,包括高兴、悲伤、生气、害怕、厌恶、无聊和中性七类情感语音,并用于情感语音的实验。
所述对情感语音信号进行加重、分帧加窗的预处理是使用数字滤波器按照6dB/oct的比例对信号预加重,然后使用汉明窗对语音信号进行加权实现分帧,帧长为256,帧移为128,其中汉明窗的窗函数如下:
所述提取情感语音的语速、能量、平均过零率、基频、共振峰和MFCCs的特征中的能量是1阶差分的最大值、最小值和均值;基频是一阶差分的最大值、最小值和均值;共振峰是第1-3共振峰及其一阶差分的最大值、最小值和均值;MFCCs是MFCC0-MFCC12阶的偏度、峰度、均值、方差和中值,共98维。
5、根据权利要求1所述的实验方法,所述利用强度划分算法对情感语音进行三个等级的强度划分的具体步骤如下:
1)计算中性情感语音的特征均值:
对数据库中的中性情感语音做特征提取,设为语音中的一个特征,每句语音提取个特征,分别求取每句中性情感语音的每个特征的均值,存放在下列矩阵中:
2)提取基本情感语音的特征并计算其与中性情感语音特征均值的欧式距离:
提取每句负性情感语音的个特征参数,根据下述公式求得每句负性情感语音到中性情感语音的欧式距离:
3)计算情感语音的相似度:
将步骤2)中求得的个欧式距离,带入下式,得到每句负性情感语音和中性情感语音的相似度:
。
4)情感语音的强度划分:
根据步骤3)求出每句情感语音的相似度值,对所有情感语音按照相似度值从小到大进行排序,并根据相似度制定情感强度量化表,将每种基本情感语音划分为三个等级,一级最弱,三级最强。
6、根据权利要求1所述的实验方法,所述使用识别网络对划分后的情感语音识别验证是使用支持向量机作为识别网络,将划分等级后的情感语音作为输入,验证了建立的情感强度划分算法的有效性。
上述的一种基于语音信息的情感强度实验方法,与现有技术相比,本方法建立了一种基于语音信息的情感强度划分方法,实现了对连续情感语音的定量分析以及强度划分,使用支持向量机验证了情感强度划分算法的有效性。
附图说明
图1是本发明情感强度划分算法的流程图。
图2是本发明根据本实验中采用的实验数据建立的情感强度量化表图。
具体实施方式
下面对本发明的具体实施方式作出进一步的说明。
本发明上述所提供的一种基于语音信息的情感强度实验方法,是在连续情感语音识别中,通过建立一种基于语音信息的情感强度划分方法,对情感语音的强度进行量化,实现情感语音的等级划分,具体实施方式如下。
实施一种基于语音信息的情感强度实验方法,该方法是按下列步骤进行的:
步骤一、选取语音库中的情感语音;
步骤二、对情感语音信号进行加重、分帧加窗的预处理;
步骤三、提取情感语音的语速、能量、平均过零率、基频、共振峰和MFCCs的特征;
步骤四、利用强度划分算法对情感语音进行三个等级的强度划分;
步骤五、使用识别网络对划分后的情感语音识别验证。
在上述实施方案中,步骤一中、选取语音库中的情感语音是选取语音库中语义比较清晰、情感比较分明的情感语句,包括高兴、悲伤、生气、害怕、厌恶、无聊和中性七类情感语音,并用于情感语音的实验中。
在上述实施方案中,步骤二中、对情感语音信号进行加重和分帧加窗的预处理是使用数字滤波器按照6dB/oct的比例对信号预加重,然后使用汉明窗对语音信号进行加权实现分帧,帧长为256,帧移为128,其中汉明窗的窗函数如下:
在上述实施方案中,步骤三中、提取情感语音的语速、能量、平均过零率、基频、共振峰和MFCCs的特征中的能量是1阶差分的最大值、最小值和均值;基频是一阶差分的最大值、最小值和均值;共振峰是第1-3共振峰及其一阶差分的最大值、最小值和均值;MFCCs是MFCC0-MFCC12阶的偏度、峰度、均值、方差和中值,共98维。
在上述实施方案中,步骤四中、利用强度划分算法对情感语音进行三个等级的强度划分的具体步骤如下:
1)计算中性情感语音的特征均值:
对数据库中的中性情感语音做特征提取,设为语音中的一个特征,每句语音提取个特征,分别求取每句中性情感语音的每个特征的均值,存放在下列矩阵中:
2)提取基本情感语音的特征并计算其与中性情感语音特征均值的欧式距离:
提取每句负性情感语音的个特征参数,根据下述公式求得每句负性情感语音到中性情感语音的欧式距离:
3)计算情感语音的相似度:
将步骤2)中求得的个欧式距离,带入下式,得到每句负性情感语音和中性情感语音的相似度:
4)情感语音的强度划分:
根据步骤3)求出每句情感语音的相似度值,对所有情感语音按照相似度值从小到大进行排序,并根据相似度制定情感强度量化表,将每种基本情感语音划分为三个等级,一级最弱,三级最强。
在上述实施方案中,步骤五中、使用识别网络对划分后的情感语音识别验证是使用支持向量机作为识别网络,将划分等级后的情感语音作为输入,验证了建立的情感强度划分算法的有效性。
上述实施的一种基于语音信息的情感强度实验方法是根据已经建立的成熟语音库,选取部分语料作为样本,以中性情感为基准,根据相似度划分算法计算得到情感强度量化表,从而对情感语音进行强度等级划分,经过情感强度划分算法划分量化后的基本情感语音得到了较好的识别结果,也证明了本实验所采用的划分实验方法是有效的,本实验方法特别适用于人机交换系统,以进一步提高人机系统的情感语音智能水平。
Claims (6)
1.一种基于语音信息的情感强度实验方法,所述方法是按下列步骤进行的:
1)选取语音库中的情感语音;
2)对情感语音信号进行加重、分帧加窗的预处理;
3)提取情感语音的语速、能量、平均过零率、基频、共振峰和MFCCs的特征;
4)利用强度划分算法对情感语音进行三个等级的强度划分;
5)使用识别网络对划分后的情感语音识别验证。
2.根据权利要求1所述的实验方法,所述选取语音库中的情感语音是选取语音库中语义清晰、情感分明的情感语句,包括高兴、悲伤、生气、害怕、厌恶、无聊和中性七类情感语音,并用于情感语音的实验。
3.根据权利要求1所述的实验方法,所述对情感语音信号进行加重、分帧加窗的预处理是使用数字滤波器按照6dB/oct的比例对信号预加重,然后使用汉明窗对语音信号进行加权实现分帧,帧长为256,帧移为128,其中汉明窗的窗函数如下:
。
4.根据权利要求1所述的实验方法,所述提取情感语音的语速、能量、平均过零率、基频、共振峰和MFCCs的特征中的能量是1阶差分的最大值、最小值和均值;基频是一阶差分的最大值、最小值和均值;共振峰是第1-3共振峰及其一阶差分的最大值、最小值和均值;MFCCs是MFCC0-MFCC12阶的偏度、峰度、均值、方差和中值,共98维。
5.根据权利要求1所述的实验方法,所述利用强度划分算法对情感语音进行三个等级的强度划分的具体步骤如下:
1)计算中性情感语音的特征均值:
对数据库中的中性情感语音做特征提取,设为语音中的一个特征,每句语音提取个特征,分别求取每句中性情感语音的每个特征的均值,存放在下列矩阵中:
2)提取基本情感语音的特征并计算其与中性情感语音特征均值的欧式距离:
提取每句负性情感语音的个特征参数,根据下述公式求得每句负性情感语音到中性情感语音的欧式距离:
3)计算情感语音的相似度:
将步骤2)中求得的个欧式距离,带入下式,得到每句负性情感语音和中性情感语音的相似度:
4)情感语音的强度划分:
根据步骤3)求出每句情感语音的相似度值,对所有情感语音按照相似度值从小到大进行排序,并根据相似度制定情感强度量化表,将每种基本情感语音划分为三个等级,一级最弱,三级最强。
6.根据权利要求1所述的实验方法,所述使用识别网络对划分后的情感语音识别验证是使用支持向量机作为识别网络,将划分等级后的情感语音作为输入,验证了建立的情感强度划分算法的有效性。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611007085.1A CN106653000A (zh) | 2016-11-16 | 2016-11-16 | 一种基于语音信息的情感强度实验方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611007085.1A CN106653000A (zh) | 2016-11-16 | 2016-11-16 | 一种基于语音信息的情感强度实验方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN106653000A true CN106653000A (zh) | 2017-05-10 |
Family
ID=58806998
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201611007085.1A Pending CN106653000A (zh) | 2016-11-16 | 2016-11-16 | 一种基于语音信息的情感强度实验方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106653000A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107293309A (zh) * | 2017-05-19 | 2017-10-24 | 四川新网银行股份有限公司 | 一种基于客户情绪分析提升舆情监控效率的方法 |
CN108154879A (zh) * | 2017-12-26 | 2018-06-12 | 广西师范大学 | 一种基于倒谱分离信号的非特定人语音情感识别方法 |
CN109036466A (zh) * | 2018-08-01 | 2018-12-18 | 太原理工大学 | 面向情感语音识别的情感维度pad预测方法 |
WO2020098269A1 (zh) * | 2018-11-15 | 2020-05-22 | 华为技术有限公司 | 一种语音合成方法及语音合成装置 |
US11810596B2 (en) | 2021-08-16 | 2023-11-07 | Hong Kong Applied Science and Technology Research Institute Company Limited | Apparatus and method for speech-emotion recognition with quantified emotional states |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1975856A (zh) * | 2006-10-30 | 2007-06-06 | 邹采荣 | 一种基于支持向量机的语音情感识别方法 |
CN101485188A (zh) * | 2006-07-06 | 2009-07-15 | Ktf电信公司 | 用于提供语音分析服务的方法和系统及其装置 |
CN102881284A (zh) * | 2012-09-03 | 2013-01-16 | 江苏大学 | 非特定人语音情感识别方法及系统 |
CN103021406A (zh) * | 2012-12-18 | 2013-04-03 | 台州学院 | 基于压缩感知的鲁棒性语音情感识别方法 |
CN105609116A (zh) * | 2015-12-23 | 2016-05-25 | 东南大学 | 一种语音情感维度区域的自动识别方法 |
-
2016
- 2016-11-16 CN CN201611007085.1A patent/CN106653000A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101485188A (zh) * | 2006-07-06 | 2009-07-15 | Ktf电信公司 | 用于提供语音分析服务的方法和系统及其装置 |
CN1975856A (zh) * | 2006-10-30 | 2007-06-06 | 邹采荣 | 一种基于支持向量机的语音情感识别方法 |
CN102881284A (zh) * | 2012-09-03 | 2013-01-16 | 江苏大学 | 非特定人语音情感识别方法及系统 |
CN103021406A (zh) * | 2012-12-18 | 2013-04-03 | 台州学院 | 基于压缩感知的鲁棒性语音情感识别方法 |
CN105609116A (zh) * | 2015-12-23 | 2016-05-25 | 东南大学 | 一种语音情感维度区域的自动识别方法 |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107293309A (zh) * | 2017-05-19 | 2017-10-24 | 四川新网银行股份有限公司 | 一种基于客户情绪分析提升舆情监控效率的方法 |
CN108154879A (zh) * | 2017-12-26 | 2018-06-12 | 广西师范大学 | 一种基于倒谱分离信号的非特定人语音情感识别方法 |
CN108154879B (zh) * | 2017-12-26 | 2021-04-09 | 广西师范大学 | 一种基于倒谱分离信号的非特定人语音情感识别方法 |
CN109036466A (zh) * | 2018-08-01 | 2018-12-18 | 太原理工大学 | 面向情感语音识别的情感维度pad预测方法 |
CN109036466B (zh) * | 2018-08-01 | 2022-11-29 | 太原理工大学 | 面向情感语音识别的情感维度pad预测方法 |
WO2020098269A1 (zh) * | 2018-11-15 | 2020-05-22 | 华为技术有限公司 | 一种语音合成方法及语音合成装置 |
US11282498B2 (en) | 2018-11-15 | 2022-03-22 | Huawei Technologies Co., Ltd. | Speech synthesis method and speech synthesis apparatus |
US11810596B2 (en) | 2021-08-16 | 2023-11-07 | Hong Kong Applied Science and Technology Research Institute Company Limited | Apparatus and method for speech-emotion recognition with quantified emotional states |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Sun et al. | Decision tree SVM model with Fisher feature selection for speech emotion recognition | |
CN106653000A (zh) | 一种基于语音信息的情感强度实验方法 | |
WO2021093449A1 (zh) | 基于人工智能的唤醒词检测方法、装置、设备及介质 | |
Chavhan et al. | Speech emotion recognition using support vector machine | |
CN103700370B (zh) | 一种广播电视语音识别系统方法及系统 | |
US10013977B2 (en) | Smart home control method based on emotion recognition and the system thereof | |
CN102723078B (zh) | 基于自然言语理解的语音情感识别方法 | |
CN102142253B (zh) | 语音情感识别设备及方法 | |
CN107403619B (zh) | 一种应用于自行车环境的语音控制方法及系统 | |
CN106503805A (zh) | 一种基于机器学习的双模态人人对话情感分析系统及其方法 | |
CN102800316B (zh) | 基于神经网络的声纹识别系统的最优码本设计方法 | |
CN109637545B (zh) | 基于一维卷积非对称双向长短时记忆网络的声纹识别方法 | |
CN103810994B (zh) | 基于情感上下文的语音情感推理方法及系统 | |
CN104751227B (zh) | 用于语音识别的深度神经网络的构建方法及系统 | |
CN107393554A (zh) | 一种声场景分类中融合类间标准差的特征提取方法 | |
WO2022178969A1 (zh) | 语音对话数据处理方法、装置、计算机设备及存储介质 | |
CN107767861A (zh) | 语音唤醒方法、系统及智能终端 | |
CN107945790A (zh) | 一种情感识别方法和情感识别系统 | |
CN103543979A (zh) | 一种输出语音的方法、语音交互的方法及电子设备 | |
CN106297773A (zh) | 一种神经网络声学模型训练方法 | |
CN105702250A (zh) | 语音识别方法和装置 | |
CN105374352A (zh) | 一种语音激活方法及系统 | |
CN107221344A (zh) | 一种语音情感迁移方法 | |
CN103531207A (zh) | 一种融合长跨度情感历史的语音情感识别方法 | |
Joshi et al. | Speech emotion recognition: a review |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20170510 |