CN107452404A - 语音情感识别的优选方法 - Google Patents

语音情感识别的优选方法 Download PDF

Info

Publication number
CN107452404A
CN107452404A CN201710642840.1A CN201710642840A CN107452404A CN 107452404 A CN107452404 A CN 107452404A CN 201710642840 A CN201710642840 A CN 201710642840A CN 107452404 A CN107452404 A CN 107452404A
Authority
CN
China
Prior art keywords
speech
svm
emotion recognition
emotional
optimizing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710642840.1A
Other languages
English (en)
Inventor
刘明珠
李晓琴
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harbin University of Science and Technology
Original Assignee
Harbin University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin University of Science and Technology filed Critical Harbin University of Science and Technology
Priority to CN201710642840.1A priority Critical patent/CN107452404A/zh
Publication of CN107452404A publication Critical patent/CN107452404A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1807Speech classification or search using natural language modelling using prosody or stress

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Psychiatry (AREA)
  • Signal Processing (AREA)
  • Hospice & Palliative Care (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Child & Adolescent Psychology (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及一种语音情感识别的优选方法。目前语音是人与人之间沟通、思想情感表达的工具,为了使计算机可以像人一样与人类交流,语音情感识别逐渐成为了智能人机交互领域的研究热点,国内在此研究上起步比较晚,语音情感识别的正确率也很低。本发明包括如下步骤:首先选取柏林数据集和中科院汉语情感语音库作为情感识别的语音数据库,所述的语音数据库中包括高兴、生气、害怕、悲伤、平静5种情感语音并对5种情感语音进行识别选定测试集和训练集,其次再对5种情感语音进行特征参数的信号提取,在提取的特征参数信号中利用Fisher准则和最大熵原理结合的方法得出SVM核参数,再用SVM核参数训练SVM,最后利用SVM优选后的核参数对语音情感信号进行识别。

Description

语音情感识别的优选方法
技术领域:
本发明涉及一种语音情感识别的优选方法。
背景技术:
目前语音是人与人之间沟通的桥梁,也是表达思想情感的工具,为了能使计算机可以像人一样与人类交流,语音情感识别逐渐成为了智能人机交互领域的研究热点,国外学者针对这方面做了大量研究,比如美国麻省理工学院MIT实验室研究的情感机器人,IBM公司的蓝眼计划以及NEC公司研制出的一种能感知人类情感的花等,这些研究都为语音情感识别的研究奠定了良好的基础。
国内在这项研究上起步比较晚,语音情感识别的正确率也比较低,但在语音情感识别方面的技术正在不断追赶世界技术前沿,目前急需一种更好的相关参数选取方法来解决语音情感的识别,以提高其识别率。
发明内容:
本发明的目的是提供一种语音情感识别的优选方法。
上述的目的通过以下的技术方案实现:
一种语音情感识别的优选方法,该方法包括如下步骤:首先选取柏林数据集和中科院汉语情感语音库作为情感识别的语音数据库,所述的语音数据库中包括高兴、生气、害怕、悲伤、平静5种情感语音并对5种情感语音进行识别选定测试集和训练集,其次再对5种情感语音进行特征参数的信号提取,在提取的特征参数信号中利用Fisher准则和最大熵原理结合的方法得出SVM核参数,再用SVM核参数训练SVM,最后利用SVM优选后的核参数对语音情感信号进行识别。
所述的语音情感识别的优选方法,所述的特征参数的信号提取是在语音情感识别中采用韵律特征和音质特征这两种方法相结合的方式进行的,并且找出3个主特征即基音频率、振幅能量和共振峰的信号规律,再经统计学分析,即获得基音频率、振幅能量和共振峰特征的最大值、最小值、均值和方差。
所述的语音情感识别的优选方法,所述的Fisher准则和最大熵原理结合的方法是:Fisher准则与样本的类别间隔与类内间隔相关,最大熵原理与类内均匀分布程度有关,结合这二者的特点选取SVM核参数。
所述的语音情感识别的优选方法,所述的SVM即:支持向量机,SVM是一种基于统计学习理论的机器学习算法,SVM是基于线性分类器的原理,SVM可以用于解决线性与非线性样本分类,其核心思想是将低维空间线性不可分的样本点通过核函数映射至高维特征空间中,然后在特征空间中构造出最优分类超平面,这时数据在高维空间也可以被超平面分割,从而变得线性可分,因此要在特征空间中构造出最优超平面,并且使得各个样本与最优超平面的距离最大。
有益效果:
1. 本发明采用的语音数据库为柏林情感语音库和中科院汉语情感语音库,其中两种数据库采样频率都为16KHz,且是16bit均匀量化,其中柏林数据集是由柏林技术大学录制,在高兴,生气,害怕,难过,中性、厌烦和厌恶7种感情状态下录制了535条情感语句,中科院汉语情感语音库由中科院自动化所提供,其成员分别在高兴,生气,害怕,难过,中性和惊讶6种情感下录制得到1200句语音情感,通过Fisher准则和最大熵原理结合的方法对韵律特征和音质特征相结合的方式进行语音信号的特征提取,即基音频率、振幅能量和共振峰,使其提取后的SVM核参数优化效果更好。
本发明由于采用Fisher准则保证了期望样本在特征空间中最大的类别间隔,而最大熵原理保障了类内均匀分布程度,使得SVM取得了最优核参数,通过分析基音频率特征中的生气和高兴的基因频率分布在150Hz到450Hz之间,而平静和害怕大多分布于100Hz至350Hz之间,明显小于生气和高兴两种情感的基频大小,振幅能量特征中的生气和高兴的平均能量值高于悲伤,共振峰特征中的高兴和生气的第一、第二和第三共振峰都比悲伤的高,且都处于相对稳定状态,其结果表明,该方法有利于提高语音情感的识别,且达到了90.1%的平均识别率,高于国际同类型其它方法3.5%。
附图说明:
附图1是本发明基音频率-高兴的特征图。
附图2是本发明基音频率-生气的特征图。
附图3是本发明基音频率-平静的特征图。
附图4是本发明基音频率-害怕的特征图。
附图5是本发明振幅能量-高兴的特征图。
附图6是本发明振幅能量-生气的特征图。
附图7是本发明振幅能量-悲伤的特征图。
附图8是本发明振幅能量-平静的特征图。
附图9是本发明共振峰-高兴的特征图。
附图10是本发明共振峰-生气的特征图。
附图11是本发明共振峰-悲伤的特征图。
附图12是本发明共振峰-平静的特征图。
具体实施方式:
实施例1:
一种语音情感识别的优选方法,该方法包括如下步骤:首先选取柏林数据集和中科院汉语情感语音库作为情感识别的语音数据库,所述的语音数据库中包括高兴、生气、害怕、悲伤、平静5种情感语音并对5种情感语音进行识别选定测试集和训练集,其次再对5种情感语音进行特征参数的信号提取,在提取的特征参数信号中利用Fisher准则和最大熵原理结合的方法得出SVM核参数,再用SVM核参数训练SVM,最后利用SVM优选后的核参数对语音情感信号进行识别。
实施例2:
实施例1所述的语音情感识别的优选方法,所述的特征参数的信号提取是在语音情感识别中采用韵律特征和音质特征这两种方法相结合的方式进行的,并且找出3个主特征即基音频率、振幅能量和共振峰的信号规律,再经统计学分析,即获得基音频率、振幅能量和共振峰特征的最大值、最小值、均值和方差。
实施例3:
实施例1所述的语音情感识别的优选方法,所述的Fisher准则和最大熵原理结合的方法是:Fisher准则与样本的类别间隔与类内间隔相关,最大熵原理与类内均匀分布程度有关,结合这二者的特点选取SVM核参数。
实施例4:
实施例1所述的语音情感识别的优选方法,所述的SVM即:支持向量机,SVM是一种基于统计学习理论的机器学习算法,SVM是基于线性分类器的原理,SVM可以用于解决线性与非线性样本分类,其核心思想是将低维空间线性不可分的样本点通过核函数映射至高维特征空间中,然后在特征空间中构造出最优分类超平面,这时数据在高维空间也可以被超平面分割,从而变得线性可分,因此要在特征空间中构造出最优超平面,并且使得各个样本与最优超平面的距离最大。
实施例5:
实施例1所述的语音情感识别的优选方法,所述的利用Fisher准则和最大熵原理结合的方法优选SVM核参数后对语音情感信号进行识别进行了识别实验,测试时,选择其中207个作为训练样本,分别为高兴(36)、生气(64)、恐惧(35)、悲伤(32)和平静(40),剩下的202个构成测试集,分别为高兴(35)、生气(63)恐惧(34)、悲伤(31)和平静(39),表1、表2和表3分别为采用本专利方法、交叉验证法和Fisher准则选取方法的识别结果,其中本专利的实验结果是最高的。

Claims (4)

1.一种语音情感识别的优选方法,其特征是:该方法包括如下步骤:首先选取柏林数据集和中科院汉语情感语音库作为情感识别的语音数据库,所述的语音数据库中包括高兴、生气、害怕、悲伤、平静5种情感语音并对5种情感语音进行识别选定测试集和训练集,其次再对5种情感语音进行特征参数的信号提取,在提取的特征参数信号中利用Fisher准则和最大熵原理结合的方法得出SVM核参数,再用SVM核参数训练SVM,最后利用SVM优选后的核参数对语音情感信号进行识别。
2.根据权利要求1所述的语音情感识别的优选方法,其特征是:所述的特征参数的信号提取是在语音情感识别中采用韵律特征和音质特征这两种方法相结合的方式进行的,并且找出3个主特征即基音频率、振幅能量和共振峰的信号规律,再经统计学分析,即获得基音频率、振幅能量和共振峰特征的最大值、最小值、均值和方差。
3.根据权利要求1或2所述的语音情感识别的优选方法,其特征是:所述的Fisher准则和最大熵原理结合的方法是:Fisher准则与样本的类别间隔与类内间隔相关,最大熵原理与类内均匀分布程度有关,结合这二者的特点选取SVM核参数。
4.根据权利要求1或2或3所述的语音情感识别的优选方法,其特征是:所述的SVM即:支持向量机, SVM是一种基于统计学习理论的机器学习算法, SVM是基于线性分类器的原理,SVM可以用于解决线性与非线性样本分类,其核心思想是将低维空间线性不可分的样本点通过核函数映射至高维特征空间中,然后在特征空间中构造出最优分类超平面,这时数据在高维空间也可以被超平面分割,从而变得线性可分,因此要在特征空间中构造出最优超平面,并且使得各个样本与最优超平面的距离最大。
CN201710642840.1A 2017-07-31 2017-07-31 语音情感识别的优选方法 Pending CN107452404A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710642840.1A CN107452404A (zh) 2017-07-31 2017-07-31 语音情感识别的优选方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710642840.1A CN107452404A (zh) 2017-07-31 2017-07-31 语音情感识别的优选方法

Publications (1)

Publication Number Publication Date
CN107452404A true CN107452404A (zh) 2017-12-08

Family

ID=60489311

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710642840.1A Pending CN107452404A (zh) 2017-07-31 2017-07-31 语音情感识别的优选方法

Country Status (1)

Country Link
CN (1) CN107452404A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108874895A (zh) * 2018-05-22 2018-11-23 北京小鱼在家科技有限公司 交互信息推送方法、装置、计算机设备及存储介质
CN110556098A (zh) * 2019-07-23 2019-12-10 平安科技(深圳)有限公司 语音识别结果测试方法、装置、计算机设备和介质
CN112767969A (zh) * 2021-01-29 2021-05-07 苏州思必驰信息科技有限公司 用于语音信息的情感倾向性确定方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1975856A (zh) * 2006-10-30 2007-06-06 邹采荣 一种基于支持向量机的语音情感识别方法
CN101261832A (zh) * 2008-04-21 2008-09-10 北京航空航天大学 汉语语音情感信息的提取及建模方法
CN104917869A (zh) * 2014-03-10 2015-09-16 北京三星通信技术研究有限公司 用于移动终端的联系人信息处理方法和装置以及移动终端

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1975856A (zh) * 2006-10-30 2007-06-06 邹采荣 一种基于支持向量机的语音情感识别方法
CN101261832A (zh) * 2008-04-21 2008-09-10 北京航空航天大学 汉语语音情感信息的提取及建模方法
CN104917869A (zh) * 2014-03-10 2015-09-16 北京三星通信技术研究有限公司 用于移动终端的联系人信息处理方法和装置以及移动终端

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
周绍磊: ""基于Fisher准则和最大熵原理的SVM核参数选择方法"", 《控制与决策》 *
李书玲: ""基于改进型SVM算法的语音情感识别"", 《计算机应用》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108874895A (zh) * 2018-05-22 2018-11-23 北京小鱼在家科技有限公司 交互信息推送方法、装置、计算机设备及存储介质
CN108874895B (zh) * 2018-05-22 2021-02-09 北京小鱼在家科技有限公司 交互信息推送方法、装置、计算机设备及存储介质
CN110556098A (zh) * 2019-07-23 2019-12-10 平安科技(深圳)有限公司 语音识别结果测试方法、装置、计算机设备和介质
CN112767969A (zh) * 2021-01-29 2021-05-07 苏州思必驰信息科技有限公司 用于语音信息的情感倾向性确定方法及系统

Similar Documents

Publication Publication Date Title
Zhao et al. Learning deep features to recognise speech emotion using merged deep CNN
Albanie et al. Emotion recognition in speech using cross-modal transfer in the wild
Liu et al. MR-CNN: A multi-scale region-based convolutional neural network for small traffic sign recognition
Chavhan et al. Speech emotion recognition using support vector machine
CN1975856B (zh) 一种基于支持向量机的语音情感识别方法
Junos et al. An optimized YOLO‐based object detection model for crop harvesting system
CN103578481B (zh) 一种跨语言的语音情感识别方法
CN108959531A (zh) 信息搜索方法、装置、设备及存储介质
CN103854645A (zh) 一种基于说话人惩罚的独立于说话人语音情感识别方法
Szep et al. Paralinguistic Classification of Mask Wearing by Image Classifiers and Fusion.
CN107452404A (zh) 语音情感识别的优选方法
CN103474061A (zh) 基于分类器融合的汉语方言自动辨识方法
CN110503076A (zh) 基于人工智能的视频分类方法、装置、设备和介质
CN109492105A (zh) 一种基于多特征集成学习的文本情感分类方法
CN105912525A (zh) 基于主题特征的半监督学习情感分类方法
CN106971180A (zh) 一种基于语音字典稀疏迁移学习的微表情识别方法
CN106653000A (zh) 一种基于语音信息的情感强度实验方法
Han et al. Boosted subunits: a framework for recognising sign language from videos
Zou et al. Utilizing bert intermediate layers for multimodal sentiment analysis
Mao et al. Multi-branch feature learning based speech emotion recognition using SCAR-NET
Koudounas et al. Italic: An italian intent classification dataset
Trabelsi et al. Improved frame level features and SVM supervectors approach for the recogniton of emotional states from speech: Application to categorical and dimensional states
Jiang et al. Speech emotion recognition method based on improved long short-term memory networks
CN106205636A (zh) 一种基于mrmr准则的语音情感识别特征融合方法
CN110428841A (zh) 一种基于不定长均值的声纹动态特征提取方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20171208

WD01 Invention patent application deemed withdrawn after publication