CN107452404A - 语音情感识别的优选方法 - Google Patents
语音情感识别的优选方法 Download PDFInfo
- Publication number
- CN107452404A CN107452404A CN201710642840.1A CN201710642840A CN107452404A CN 107452404 A CN107452404 A CN 107452404A CN 201710642840 A CN201710642840 A CN 201710642840A CN 107452404 A CN107452404 A CN 107452404A
- Authority
- CN
- China
- Prior art keywords
- speech
- svm
- emotion recognition
- emotional
- optimizing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 36
- 230000008909 emotion recognition Effects 0.000 title claims abstract description 28
- 230000002996 emotional effect Effects 0.000 claims abstract description 27
- 238000000605 extraction Methods 0.000 claims abstract description 12
- 238000012360 testing method Methods 0.000 claims abstract description 7
- 238000012549 training Methods 0.000 claims abstract description 6
- 238000009827 uniform distribution Methods 0.000 claims description 4
- 238000013459 approach Methods 0.000 claims description 3
- 230000006870 function Effects 0.000 claims description 3
- 238000010801 machine learning Methods 0.000 claims description 3
- 238000007619 statistical method Methods 0.000 claims description 3
- 230000008451 emotion Effects 0.000 abstract description 9
- 238000011160 research Methods 0.000 abstract description 5
- 238000004891 communication Methods 0.000 abstract description 3
- 230000003993 interaction Effects 0.000 abstract description 2
- 238000005516 engineering process Methods 0.000 description 4
- 230000007935 neutral effect Effects 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 206010016275 Fear Diseases 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000002790 cross-validation Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 108090000623 proteins and genes Proteins 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 230000033764 rhythmic process Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/63—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2411—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1807—Speech classification or search using natural language modelling using prosody or stress
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Psychiatry (AREA)
- Signal Processing (AREA)
- Hospice & Palliative Care (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Child & Adolescent Psychology (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明涉及一种语音情感识别的优选方法。目前语音是人与人之间沟通、思想情感表达的工具,为了使计算机可以像人一样与人类交流,语音情感识别逐渐成为了智能人机交互领域的研究热点,国内在此研究上起步比较晚,语音情感识别的正确率也很低。本发明包括如下步骤:首先选取柏林数据集和中科院汉语情感语音库作为情感识别的语音数据库,所述的语音数据库中包括高兴、生气、害怕、悲伤、平静5种情感语音并对5种情感语音进行识别选定测试集和训练集,其次再对5种情感语音进行特征参数的信号提取,在提取的特征参数信号中利用Fisher准则和最大熵原理结合的方法得出SVM核参数,再用SVM核参数训练SVM,最后利用SVM优选后的核参数对语音情感信号进行识别。
Description
技术领域:
本发明涉及一种语音情感识别的优选方法。
背景技术:
目前语音是人与人之间沟通的桥梁,也是表达思想情感的工具,为了能使计算机可以像人一样与人类交流,语音情感识别逐渐成为了智能人机交互领域的研究热点,国外学者针对这方面做了大量研究,比如美国麻省理工学院MIT实验室研究的情感机器人,IBM公司的蓝眼计划以及NEC公司研制出的一种能感知人类情感的花等,这些研究都为语音情感识别的研究奠定了良好的基础。
国内在这项研究上起步比较晚,语音情感识别的正确率也比较低,但在语音情感识别方面的技术正在不断追赶世界技术前沿,目前急需一种更好的相关参数选取方法来解决语音情感的识别,以提高其识别率。
发明内容:
本发明的目的是提供一种语音情感识别的优选方法。
上述的目的通过以下的技术方案实现:
一种语音情感识别的优选方法,该方法包括如下步骤:首先选取柏林数据集和中科院汉语情感语音库作为情感识别的语音数据库,所述的语音数据库中包括高兴、生气、害怕、悲伤、平静5种情感语音并对5种情感语音进行识别选定测试集和训练集,其次再对5种情感语音进行特征参数的信号提取,在提取的特征参数信号中利用Fisher准则和最大熵原理结合的方法得出SVM核参数,再用SVM核参数训练SVM,最后利用SVM优选后的核参数对语音情感信号进行识别。
所述的语音情感识别的优选方法,所述的特征参数的信号提取是在语音情感识别中采用韵律特征和音质特征这两种方法相结合的方式进行的,并且找出3个主特征即基音频率、振幅能量和共振峰的信号规律,再经统计学分析,即获得基音频率、振幅能量和共振峰特征的最大值、最小值、均值和方差。
所述的语音情感识别的优选方法,所述的Fisher准则和最大熵原理结合的方法是:Fisher准则与样本的类别间隔与类内间隔相关,最大熵原理与类内均匀分布程度有关,结合这二者的特点选取SVM核参数。
所述的语音情感识别的优选方法,所述的SVM即:支持向量机,SVM是一种基于统计学习理论的机器学习算法,SVM是基于线性分类器的原理,SVM可以用于解决线性与非线性样本分类,其核心思想是将低维空间线性不可分的样本点通过核函数映射至高维特征空间中,然后在特征空间中构造出最优分类超平面,这时数据在高维空间也可以被超平面分割,从而变得线性可分,因此要在特征空间中构造出最优超平面,并且使得各个样本与最优超平面的距离最大。
有益效果:
1. 本发明采用的语音数据库为柏林情感语音库和中科院汉语情感语音库,其中两种数据库采样频率都为16KHz,且是16bit均匀量化,其中柏林数据集是由柏林技术大学录制,在高兴,生气,害怕,难过,中性、厌烦和厌恶7种感情状态下录制了535条情感语句,中科院汉语情感语音库由中科院自动化所提供,其成员分别在高兴,生气,害怕,难过,中性和惊讶6种情感下录制得到1200句语音情感,通过Fisher准则和最大熵原理结合的方法对韵律特征和音质特征相结合的方式进行语音信号的特征提取,即基音频率、振幅能量和共振峰,使其提取后的SVM核参数优化效果更好。
本发明由于采用Fisher准则保证了期望样本在特征空间中最大的类别间隔,而最大熵原理保障了类内均匀分布程度,使得SVM取得了最优核参数,通过分析基音频率特征中的生气和高兴的基因频率分布在150Hz到450Hz之间,而平静和害怕大多分布于100Hz至350Hz之间,明显小于生气和高兴两种情感的基频大小,振幅能量特征中的生气和高兴的平均能量值高于悲伤,共振峰特征中的高兴和生气的第一、第二和第三共振峰都比悲伤的高,且都处于相对稳定状态,其结果表明,该方法有利于提高语音情感的识别,且达到了90.1%的平均识别率,高于国际同类型其它方法3.5%。
附图说明:
附图1是本发明基音频率-高兴的特征图。
附图2是本发明基音频率-生气的特征图。
附图3是本发明基音频率-平静的特征图。
附图4是本发明基音频率-害怕的特征图。
附图5是本发明振幅能量-高兴的特征图。
附图6是本发明振幅能量-生气的特征图。
附图7是本发明振幅能量-悲伤的特征图。
附图8是本发明振幅能量-平静的特征图。
附图9是本发明共振峰-高兴的特征图。
附图10是本发明共振峰-生气的特征图。
附图11是本发明共振峰-悲伤的特征图。
附图12是本发明共振峰-平静的特征图。
具体实施方式:
实施例1:
一种语音情感识别的优选方法,该方法包括如下步骤:首先选取柏林数据集和中科院汉语情感语音库作为情感识别的语音数据库,所述的语音数据库中包括高兴、生气、害怕、悲伤、平静5种情感语音并对5种情感语音进行识别选定测试集和训练集,其次再对5种情感语音进行特征参数的信号提取,在提取的特征参数信号中利用Fisher准则和最大熵原理结合的方法得出SVM核参数,再用SVM核参数训练SVM,最后利用SVM优选后的核参数对语音情感信号进行识别。
实施例2:
实施例1所述的语音情感识别的优选方法,所述的特征参数的信号提取是在语音情感识别中采用韵律特征和音质特征这两种方法相结合的方式进行的,并且找出3个主特征即基音频率、振幅能量和共振峰的信号规律,再经统计学分析,即获得基音频率、振幅能量和共振峰特征的最大值、最小值、均值和方差。
实施例3:
实施例1所述的语音情感识别的优选方法,所述的Fisher准则和最大熵原理结合的方法是:Fisher准则与样本的类别间隔与类内间隔相关,最大熵原理与类内均匀分布程度有关,结合这二者的特点选取SVM核参数。
实施例4:
实施例1所述的语音情感识别的优选方法,所述的SVM即:支持向量机,SVM是一种基于统计学习理论的机器学习算法,SVM是基于线性分类器的原理,SVM可以用于解决线性与非线性样本分类,其核心思想是将低维空间线性不可分的样本点通过核函数映射至高维特征空间中,然后在特征空间中构造出最优分类超平面,这时数据在高维空间也可以被超平面分割,从而变得线性可分,因此要在特征空间中构造出最优超平面,并且使得各个样本与最优超平面的距离最大。
实施例5:
实施例1所述的语音情感识别的优选方法,所述的利用Fisher准则和最大熵原理结合的方法优选SVM核参数后对语音情感信号进行识别进行了识别实验,测试时,选择其中207个作为训练样本,分别为高兴(36)、生气(64)、恐惧(35)、悲伤(32)和平静(40),剩下的202个构成测试集,分别为高兴(35)、生气(63)恐惧(34)、悲伤(31)和平静(39),表1、表2和表3分别为采用本专利方法、交叉验证法和Fisher准则选取方法的识别结果,其中本专利的实验结果是最高的。
Claims (4)
1.一种语音情感识别的优选方法,其特征是:该方法包括如下步骤:首先选取柏林数据集和中科院汉语情感语音库作为情感识别的语音数据库,所述的语音数据库中包括高兴、生气、害怕、悲伤、平静5种情感语音并对5种情感语音进行识别选定测试集和训练集,其次再对5种情感语音进行特征参数的信号提取,在提取的特征参数信号中利用Fisher准则和最大熵原理结合的方法得出SVM核参数,再用SVM核参数训练SVM,最后利用SVM优选后的核参数对语音情感信号进行识别。
2.根据权利要求1所述的语音情感识别的优选方法,其特征是:所述的特征参数的信号提取是在语音情感识别中采用韵律特征和音质特征这两种方法相结合的方式进行的,并且找出3个主特征即基音频率、振幅能量和共振峰的信号规律,再经统计学分析,即获得基音频率、振幅能量和共振峰特征的最大值、最小值、均值和方差。
3.根据权利要求1或2所述的语音情感识别的优选方法,其特征是:所述的Fisher准则和最大熵原理结合的方法是:Fisher准则与样本的类别间隔与类内间隔相关,最大熵原理与类内均匀分布程度有关,结合这二者的特点选取SVM核参数。
4.根据权利要求1或2或3所述的语音情感识别的优选方法,其特征是:所述的SVM即:支持向量机, SVM是一种基于统计学习理论的机器学习算法, SVM是基于线性分类器的原理,SVM可以用于解决线性与非线性样本分类,其核心思想是将低维空间线性不可分的样本点通过核函数映射至高维特征空间中,然后在特征空间中构造出最优分类超平面,这时数据在高维空间也可以被超平面分割,从而变得线性可分,因此要在特征空间中构造出最优超平面,并且使得各个样本与最优超平面的距离最大。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710642840.1A CN107452404A (zh) | 2017-07-31 | 2017-07-31 | 语音情感识别的优选方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710642840.1A CN107452404A (zh) | 2017-07-31 | 2017-07-31 | 语音情感识别的优选方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107452404A true CN107452404A (zh) | 2017-12-08 |
Family
ID=60489311
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710642840.1A Pending CN107452404A (zh) | 2017-07-31 | 2017-07-31 | 语音情感识别的优选方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107452404A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108874895A (zh) * | 2018-05-22 | 2018-11-23 | 北京小鱼在家科技有限公司 | 交互信息推送方法、装置、计算机设备及存储介质 |
CN110556098A (zh) * | 2019-07-23 | 2019-12-10 | 平安科技(深圳)有限公司 | 语音识别结果测试方法、装置、计算机设备和介质 |
CN112767969A (zh) * | 2021-01-29 | 2021-05-07 | 苏州思必驰信息科技有限公司 | 用于语音信息的情感倾向性确定方法及系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1975856A (zh) * | 2006-10-30 | 2007-06-06 | 邹采荣 | 一种基于支持向量机的语音情感识别方法 |
CN101261832A (zh) * | 2008-04-21 | 2008-09-10 | 北京航空航天大学 | 汉语语音情感信息的提取及建模方法 |
CN104917869A (zh) * | 2014-03-10 | 2015-09-16 | 北京三星通信技术研究有限公司 | 用于移动终端的联系人信息处理方法和装置以及移动终端 |
-
2017
- 2017-07-31 CN CN201710642840.1A patent/CN107452404A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1975856A (zh) * | 2006-10-30 | 2007-06-06 | 邹采荣 | 一种基于支持向量机的语音情感识别方法 |
CN101261832A (zh) * | 2008-04-21 | 2008-09-10 | 北京航空航天大学 | 汉语语音情感信息的提取及建模方法 |
CN104917869A (zh) * | 2014-03-10 | 2015-09-16 | 北京三星通信技术研究有限公司 | 用于移动终端的联系人信息处理方法和装置以及移动终端 |
Non-Patent Citations (2)
Title |
---|
周绍磊: ""基于Fisher准则和最大熵原理的SVM核参数选择方法"", 《控制与决策》 * |
李书玲: ""基于改进型SVM算法的语音情感识别"", 《计算机应用》 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108874895A (zh) * | 2018-05-22 | 2018-11-23 | 北京小鱼在家科技有限公司 | 交互信息推送方法、装置、计算机设备及存储介质 |
CN108874895B (zh) * | 2018-05-22 | 2021-02-09 | 北京小鱼在家科技有限公司 | 交互信息推送方法、装置、计算机设备及存储介质 |
CN110556098A (zh) * | 2019-07-23 | 2019-12-10 | 平安科技(深圳)有限公司 | 语音识别结果测试方法、装置、计算机设备和介质 |
CN112767969A (zh) * | 2021-01-29 | 2021-05-07 | 苏州思必驰信息科技有限公司 | 用于语音信息的情感倾向性确定方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Zhao et al. | Learning deep features to recognise speech emotion using merged deep CNN | |
Albanie et al. | Emotion recognition in speech using cross-modal transfer in the wild | |
Liu et al. | MR-CNN: A multi-scale region-based convolutional neural network for small traffic sign recognition | |
Chavhan et al. | Speech emotion recognition using support vector machine | |
CN1975856B (zh) | 一种基于支持向量机的语音情感识别方法 | |
Junos et al. | An optimized YOLO‐based object detection model for crop harvesting system | |
CN103578481B (zh) | 一种跨语言的语音情感识别方法 | |
CN108959531A (zh) | 信息搜索方法、装置、设备及存储介质 | |
CN103854645A (zh) | 一种基于说话人惩罚的独立于说话人语音情感识别方法 | |
Szep et al. | Paralinguistic Classification of Mask Wearing by Image Classifiers and Fusion. | |
CN107452404A (zh) | 语音情感识别的优选方法 | |
CN103474061A (zh) | 基于分类器融合的汉语方言自动辨识方法 | |
CN110503076A (zh) | 基于人工智能的视频分类方法、装置、设备和介质 | |
CN109492105A (zh) | 一种基于多特征集成学习的文本情感分类方法 | |
CN105912525A (zh) | 基于主题特征的半监督学习情感分类方法 | |
CN106971180A (zh) | 一种基于语音字典稀疏迁移学习的微表情识别方法 | |
CN106653000A (zh) | 一种基于语音信息的情感强度实验方法 | |
Han et al. | Boosted subunits: a framework for recognising sign language from videos | |
Zou et al. | Utilizing bert intermediate layers for multimodal sentiment analysis | |
Mao et al. | Multi-branch feature learning based speech emotion recognition using SCAR-NET | |
Koudounas et al. | Italic: An italian intent classification dataset | |
Trabelsi et al. | Improved frame level features and SVM supervectors approach for the recogniton of emotional states from speech: Application to categorical and dimensional states | |
Jiang et al. | Speech emotion recognition method based on improved long short-term memory networks | |
CN106205636A (zh) | 一种基于mrmr准则的语音情感识别特征融合方法 | |
CN110428841A (zh) | 一种基于不定长均值的声纹动态特征提取方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20171208 |
|
WD01 | Invention patent application deemed withdrawn after publication |