CN102893326B - 结合情感点的汉语语音情感提取及建模方法 - Google Patents
结合情感点的汉语语音情感提取及建模方法 Download PDFInfo
- Publication number
- CN102893326B CN102893326B CN2011800041561A CN201180004156A CN102893326B CN 102893326 B CN102893326 B CN 102893326B CN 2011800041561 A CN2011800041561 A CN 2011800041561A CN 201180004156 A CN201180004156 A CN 201180004156A CN 102893326 B CN102893326 B CN 102893326B
- Authority
- CN
- China
- Prior art keywords
- emotion
- voice
- emotion point
- frequency
- fundamental frequency
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 230000008451 emotion Effects 0.000 title claims abstract description 92
- 238000000034 method Methods 0.000 title claims abstract description 41
- 238000000605 extraction Methods 0.000 title abstract description 6
- 238000012706 support-vector machine Methods 0.000 claims abstract description 13
- 238000001228 spectrum Methods 0.000 claims description 14
- 230000000750 progressive effect Effects 0.000 claims description 8
- 238000012549 training Methods 0.000 claims description 4
- 238000004364 calculation method Methods 0.000 claims description 3
- 238000011156 evaluation Methods 0.000 abstract description 10
- 238000013461 design Methods 0.000 abstract description 5
- 238000002474 experimental method Methods 0.000 abstract description 2
- 238000011160 research Methods 0.000 abstract description 2
- 230000004913 activation Effects 0.000 abstract 1
- 238000012360 testing method Methods 0.000 description 7
- 230000002996 emotional effect Effects 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 238000009826 distribution Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000007613 environmental effect Effects 0.000 description 3
- 239000000284 extract Substances 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000005070 sampling Methods 0.000 description 3
- 230000006978 adaptation Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 239000012141 concentrate Substances 0.000 description 2
- 239000006185 dispersion Substances 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 230000008901 benefit Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000007621 cluster analysis Methods 0.000 description 1
- 230000001149 cognitive effect Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 239000002245 particle Substances 0.000 description 1
- 230000008092 positive effect Effects 0.000 description 1
- 230000033764 rhythmic process Effects 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 210000001260 vocal cord Anatomy 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/26—Recognition of special voice characteristics, e.g. for use in lie detectors; Recognition of animal voices
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/63—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/06—Decision making techniques; Pattern matching strategies
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/16—Hidden Markov models [HMM]
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Physics & Mathematics (AREA)
- Human Computer Interaction (AREA)
- Hospice & Palliative Care (AREA)
- Signal Processing (AREA)
- Computational Linguistics (AREA)
- Psychiatry (AREA)
- General Health & Medical Sciences (AREA)
- Child & Adolescent Psychology (AREA)
- Electrically Operated Instructional Devices (AREA)
Abstract
本发明一种结合情感点的汉语语音情感提取及建模方法,该汉语语音情感点提取方法为:制定情感点数据库规范,包括发音人规范、录音脚本设计规范、音频文件命名规范等;收集情感点数据;情感点愉悦度、激活度、优势度(PAD)评测,即由区别于说话者的至少十名评测者对情感点数据进行PAD主观听取评测实验。该汉语语音情感点建模方法为:首先根据Fisher比率选择语音特征训练性别识别支持向量机模型(SVM);其次为男声和女声分别建立情感点隐马尔科夫模型(HMM),并根据SVM性别识别结果选择相应的HMM进行情感点分类。本发明汉语语音情感点提取方法为结合语义信息的汉语语音情感识别研究提供了基础,汉语语音情感点建模方法实现了高效的语音情感识别。
Description
(一)技术领域:
本发明涉及一种结合情感点的汉语语音情感提取及建模方法,属于信息技术领域。
(二)背景技术:
语音情感识别是从语音信号中提取说话人的情感状态。现有的研究表明,语音信号中的韵律信息对语音情感识别具有重要作用。例如,当说话人情绪激动时,语音信号基频均值会升高,基频变化范围会增加;当说话人表示疑问时,句尾基频曲线会上扬;当说话人愤怒时,句子中多个音节的基频曲线会下降。但是,韵律信息不仅体现说话人情感状态,还与说话内容有关。汉语是有调语言,调型可以区分语义,因此即使平静的汉语语音信号,其基频曲线也会随着语义的变化产生较大的起伏。
在本发明之前,研究者主要将语义作为汉语语音情感识别的消极影响予以剔除,但是汉语语音信号中存在某些持续时间较短,语音特征明显,并富含特定情感信息的语音片段,包括感叹词、语气词、重音等,本发明称其为情感点。情感点对汉语语音情感识别具有积极的作用。
(三)发明内容:
本发明的目的就在于解决上述背景技术中的缺陷,首次建立汉语情感点数据库,并结合情感点识别结果进行汉语语音情感识别。
本发明一种结合情感点的汉语语音情感提取及建模方法:其中
汉语语音情感点的提取方法,其步骤如下:
步骤1:制定情感点数据库规范;
步骤1.1:选择20名发音人员,年龄20至25周岁,职业为学生,其中包括10名女性,10名男性;
步骤1.2:选取32个感叹词作为情感点,并为每个情感点选择一句包含该情感点的汉语普通话语句作为录音脚本,平均每句脚本包含5.56个汉字;
步骤1.3:文件名包含情感点编号、说话人性别、说话人编号、录音次数编号等信息;
步骤2:收集情感点数据;
步骤2.1:录音地点为一间空旷的实验室,录音时将门窗紧闭,录制时间选择在晚上,录音设备采用华硕M2413N-DR笔记本电脑,外接创新Audigy 2NX USB接口声卡,头带式麦克风,录音软件采用的是GoldWave,录音时只有操作者和说话者在场,尽量保持室内安静;
步骤2.2:记录说话者的个人信息及录音场地的温度、湿度等环境参数,并请说话者以最高音量发音,调整声卡增益以及麦克风与说话者嘴部距离,保证语音波形不会出现削顶;
步骤2.3:请说话者以指定的情感朗读某一录音脚本,重复3遍;
步骤2.4:请说话者对录制语音进行个人评价,如符合本人的表达意愿,则将结果保存为采样率44100Hz,16Bit双声道PCM编码格式的WAV文件,否则重复步骤2.3;
步骤2.5:采用GoldWave软件对步骤2.4得到的语音文件进行拆分,得到96句情感点语音;
步骤2.7:更换说话者重复步骤2.2至步骤2.5,得到20名说话者,包括10男10女,共1920条情感点数据;
步骤3:设计基于.NET平台的网络情感点评测系统,邀请十位以上评测者对按照随机顺序播放的步骤2.7得到的情感点进行愉悦度、激活度和优势度评测,据评测结果,对32个情感点进行情感聚类;
汉语语音情感点的建模方法,其步骤如下:
步骤1:采用支持向量机(SVM)进行说话人性别识别;
步骤11:对情感点数据库中的语音信号经高通滤波器预处理,分帧,加窗;
步骤1.2:对预处理后的语音信号提取基频、能量、过零率、线性预测倒谱系数(LPCC)、MEL频率倒谱系数(MFCC)、共振峰、5个MEL子带能量、频谱质心、截止频率、自相关密度、计盒维数等11种基本特征及其对时间的一阶差分和二阶差分,并计算所有基本特征和差分特征的最大值、最小值、均值、标准差、峰度、偏度等衍生参数;
步骤1.3:计算步骤1.2提取的各衍生参数的Fisher比率,选择最能够区分说话人性别的基频最大值、基频一阶差分最大值、基频均值、基频一阶差分标准差、基频二阶差分标准差;
步骤1.4:采用步骤1.3选择的语音特征训练SVM模型,进行说话人性别识别;
步骤2:根据步骤1说话人性别识别结果为每个情感点分别建立男声和女声隐马尔可夫模型(HMM);
步骤2.1:对情感点数据库中的男声语音信号经高通滤波器预处理,分帧,加窗;
步骤2.2:对步骤2.1预处理后的语音信号提取基频、能量、过零率、线性预测倒谱系数(LPCC)、MEL频率倒谱系数(MFCC)、共振峰、5个MEL子带能量、频谱质心、截止频率、自相关密度、计盒维数等11种基本特征及其对时间的一阶差分和二阶差分;
步骤2.3:采用顺序浮动前进法(SFFS)从步骤2.2提取的特征中选择最适合男声情感点识别的能量、基频、共振峰、自相密度、计盒维数、MEL频率倒谱系数;
步骤2.4:采用步骤2.3选择的特征为每个情感点训练男声HMM;
步骤2.5:对情感点数据库中的女声语音信号经高通滤波器预处理,分帧,加窗;
步骤2.6:对步骤2.5预处理后的语音信号提取基频、能量、过零率、线性预测倒谱系数(LPCC)、MEL频率倒谱系数(MFCC)、共振峰、5个MEL子带能量、频谱质心、截止频率、自相关密度、计盒维数等11种基本特征及其对时间的一阶差分和二阶差分;
步骤2.7:采用顺序浮动前进法(SFFS)从步骤2.6提取的特征中选择最适合女声情感点识别的能量、基频、共振峰、自相密度、计盒维数、MEL频率倒谱系数;
步骤2.8:采用步骤2.7选择的特征为每个情感点训练女声HMM。
本发明的积极效果和优点在于:
1.首先建立了汉语语音情感点数据库,包含20名说话者(10男10女),共1920条情感点数据,并为数据库中的各情感点进行了愉悦度、激活度和优势度评测。该情感点数据库为结合语义信息的汉语语音情感识别研究提供了基础;
2.充分考虑了性别对情感点识别的影响,设计了两级语音情感点分类模型,首先利用支持向量机进行性别识别,然后根据性别识别结果,分别用男声HMM或女声HMM进行情感点识别。
(四)附图附表说明:
图1汉语语音情感点的提取及识别方法流程图;
图2情感点PAD评测聚类结果;
图3汉语语音情感点识别方法示意图;
图4Mel子带滤波器组;
图5特征选择流程图。
(五)具体实施方式:
下面结合附图,对本发明所述的技术方案作进一步阐述。
如图1所示,是汉语语音情感信息的提取及建模方法流程框图,主要分为两部分:汉语语音情感点的提取方法和汉语语音情感点的识别方法。
一、汉语语音情感点的提取方法,该方法步骤如下:
步骤1.制定情感点数据库规范;
在语音库的整个制作过程中的每一步都应该遵从特定的规范,包括发音人规范、录音脚本设计规范、录音规范、音频文件命名规范及实验记录规范等。具体涉及到的制作规范和含义如表1所示。
表1
发音人规范:选择20名发音人员,年龄20至25周岁,职业为学生,其中包括10名女性,10名男性;
录音脚本设计规范:我们选取32个感叹词作为情感点。实验时将对每个情感点读音都进行3遍录音,并且针对每个读音设计相应语句,语句也将录制3遍。录音文本内容如表2所示。
表2
录音规范:录音设备采用华硕M2413N-DR笔记本电脑,外接创新Audigy 2NX USB接口声卡,头带式麦克风,录音软件采用的是GoldWave;
数据存储规范:采样率为44.1KHz,双通道、16Bit量化,格式为WAV;
音频文件命名规范:为了方便情感点的组织和检索,对单个情感点的重要特征有直观的描述,我们设计了情感点文件的命名规则。鉴于录音分为两类:情感点,以及对应情感点的句子,因此录音样本文件格式分为以下两种:
1)、1_情感点编号_说话人性别_说话人编号_录音次数编号
2)、情感点编号_说话人性别_说话人编号_录音次数编号
其中有1代表录音内容为对应于情感点的句子,无1代表录制的内容是情感点;情感点编号对应于上表,为01~32;说话人性别(M,F),其中M是male(男性)的首字母,F是female(女性)的首字母;说话人编号为01~20;录音次数编号为1~3。
实验记录规范:记录说话者的个人信息及录音场地的温度、湿度等环境参数。
步骤2.收集情感点数据;
情感点录制具体包括如下步骤:
1)、录音地点为一间空旷的实验室,录音时将门窗紧闭,录制时间选择在晚上,录音时只有操作者和说话者在场,尽量保持室内安静;
2)、记录说话者的个人信息及录音场地的温度、湿度等环境参数,并请说话者以最高音量发音,调整声卡增益以及麦克风与说话者嘴部距离,保证语音波形不会出现削顶;
3)、请说话者以指定的情感朗读某一录音脚本,重复3遍;
4)、请说话者对录制语音进行个人评价,如符合本人的表达意愿,则将结果保存为采样率44.1KHz,双通道、16Bit量化,格式为WAV的音频文件,否则重复3;
5)、采用GoldWave软件对4得到的语音文件进行拆分,得到96个情感点语句;
6)、更换说话者重复2至5,共得到10男10女20名说话者的1920条情感点语句;
步骤3.情感点愉悦度、激活度、优势度(PAD)评测
建立基于.NET平台的情感点PAD评测系统,对每个情感点样本,由至少十名评测者进行打分,每个维度分为-1、-0.5、0、0.5、1等五个等级,例如,愉悦度-1级表示最不愉悦,愉悦度1级表示最愉悦。根据评测数据计算每种情感点在PAD三维情感空间的分布,并根据其结果对情感点进行聚类分析,共分为12个类别,其结果如表3所示。
表3
图2显示了32个情感点在PAD三维情感空间的分布情况及聚类结果。
二、汉语语音情感点建模方法,该方法步骤如下:
说话人性别对情感点建模有重要影响,其主要体现在声带特征差异,例如,男声的基频主要集中在100Hz~300Hz,女声的基频主要集中在200Hz~500Hz。本发明采用两级模型,即在模型训练阶段分别为男声和女声建立独立的HMM,并建立用于性别分类的SVM模型,在识别阶段,未知样本首先经过SVM模型进行性别分类,然后根据性别分类的结果决定选用男声HMM或女声HMM进行情感点识别,其框架如图3所示。
步骤1.采用支持向量机(SVM)进行说话人性别识别;
步骤11:对情感点数据库中的语音信号经高通滤波器预处理,分帧,加窗;
步骤1.2:对预处理后的语音信号提取基频、能量、过零率、线性预测倒谱系数(LPCC)、MEL频率倒谱系数(MFCC)、共振峰、5个MEL子带能量、频谱质心、截止频率、自相关密度、计盒维数等11种基本特征及其对时间的一阶差分和二阶差分,并计算所有基本特征和差分特征的最大值、最小值、均值、标准差、峰度、偏度等衍生参数。
基频、能量、过零率、共振峰都属于传统的语音特征,其中能量和基频反应语音的低频韵律特性,过零率和共振峰反应高频信息。
频谱质心与频谱截止频率反映了语音信号的频率分布特性,均属于音质特征。首先对每帧数据进行快速Fourier变换:
其中F(k)表示第k个频率点的幅值,x(n)表示输入语音信号,N为语音信号帧长(1024)。频谱质心Fcent定义为:
频谱截止频率Fcut是指某一频率点,满足:
自相关密度反映语音信号的短时频谱分布随时间的变化,计盒维数反映语音信号的非线性特性。首先通过五组全极点滤波器对语音信号进行不同程度的低频提升,然后计算各滤波结果的一阶自相关系数:
其中Yk(n)表示第k个全极点滤波器在第n点的输出结果。自相关密度定义为:
用一个正方形的网状栅格将语音信号波形覆盖,网格的边长为A,N(A)为包含语音信号波形的网格数,计盒维数定义为:
Mel频率符合人耳对声音频率的感知特性,构造Mel子带滤波器组,如图3所示。Mel子带能量定义为:
其中Ymk(n)表示语音信号通过第k个Mel子带滤波器在第n点的输出结果。
步骤1.3:计算步骤1.2提取的各衍生参数的Fisher比率,选择最能够区分说话人性别的基频最大值、基频一阶差分最大值、基频均值、基频一阶差分标准差、基频二阶差分标准差;
Fisher准则是一种传统的线性判别方法,其基本原理是寻找特征空间的某个投影子空间,使得所有特征点在该子空间得到最好的分类。设样本集x={x1,x2,…,xn}中共有n个样本,分C类,每个样本xi均为L维列向量,定义类间离散度Sb和类内离散度Sw分别为:
其中xj、nj和mj分别为第j类样本的子集、总个数和均值点,m为所有样本的均值点。
Fisher比率定义为:
Fr=diag(Sb./Sw) (10)
其中符号“./”表示矩阵的对应元素分别相除,函数diag取矩阵对角线上的元素。Fr为L维列向量,其中每个元素反映了对应特征的二分类能力。
步骤1.4:采用步骤1.3选择的语音特征训练SVM模型,进行说话人性别识别;
步骤2.为每个情感点分别建立男声和女声隐马尔可夫模型(HMM);
步骤2.1:对情感点数据库中的男声语音信号经高通滤波器预处理,分帧,加窗;
步骤2.2:对步骤2.1预处理后的语音信号提取基频、能量、过零率、线性预测倒谱系数(LPCC)、MEL频率倒谱系数(MFCC)、共振峰、5个MEL子带能量、频谱质心、截止频率、自相关密度、计盒维数等11种基本特征及其对时间的一阶差分和二阶差分;
步骤2.3:采用顺序浮动前进法(SFFS)从步骤2.2提取的特征中选择最适合男声情感点识别的能量、基频、共振峰、自相密度、计盒维数、MEL频率倒谱系数;
顺序浮动前进法(SFFS)是一种自底向上的方法特征选择方法,通过序列前向搜索(Sequential Forward Selection,SFS)方法添加新的特征到当前特征集里面,接着连续用序列后向搜索(Sequential Backward Selection,SBS)方法从特征集中剔除冗余特征直至不能再剔除为止。其中序列前向搜索(SFS)是最简单的自下而上搜索方法,每次从未入选的特征中选择一个特征,使得它与已入选的特征组合在一起时所得适配值为最大,直到特征数量增加到目标个数为止。序列后向搜索(SBS)是一种自上而下的方法,从全体特征开始每次剔除一个,所剔除的特征应使仍然保留的特征子集的适配值最大。采用顺序浮动前进法(SFFS)进行特征选择的流程图如图5所示。
步骤2.4:采用步骤2.3选择的特征为每个情感点训练男声HMM;
步骤2.5:对情感点数据库中的女声语音信号经高通滤波器预处理,分帧,加窗;
步骤2.6:对步骤2.5预处理后的语音信号提取基频、能量、过零率、线性预测倒谱系数(LPCC)、MEL频率倒谱系数(MFCC)、共振峰、5个MEL子带能量、频谱质心、截止频率、自相关密度、计盒维数等11种基本特征及其对时间的一阶差分和二阶差分;
步骤2.7:采用顺序浮动前进法(SFFS)从步骤2.6提取的特征中选择最适合女声情感点识别的能量、基频、共振峰、自相密度、计盒维数、MEL频率倒谱系数;
步骤2.8:采用步骤2.7选择的特征为每个情感点训练女声HMM。
Claims (1)
1.汉语语音情感点的建模方法,其步骤如下:
步骤1:采用支持向量机进行说话人性别识别;
步骤1.1:对情感点数据库中的语音信号经高通滤波器预处理,分帧,加窗;
步骤1.2:对预处理后的语音信号提取基频、能量、过零率、线性预测倒谱系数(LPCC)、MEL频率倒谱系数(MFCC)、共振峰、5个MEL子带能量、频谱质心、截止频率、自相关密度、计盒维数共11种基本特征。计算基本特征对时间的一阶差分和二阶差分,并计算基本特征和差分特征的最大值、最小值、均值、标准差、峰度、偏度共6种衍生参数;
步骤1.3:计算步骤1.2提取的各衍生参数的Fisher比率,选择最能够区分说话人性别的基频最大值、基频一阶差分最大值、基频均值、基频一阶差分标准差、基频二阶差分标准差;
步骤1.4:采用步骤1.3选择的语音特征训练SVM模型,进行说话人性别识别;
步骤2:根据步骤1说话人性别识别结果为每个情感点分别建立男声和女声隐马尔可夫模型(HMM);
步骤2.1:对情感点数据库中的男声语音信号经高通滤波器预处理,分帧,加窗;
步骤2.2:对步骤2.1预处理后的语音信号提取基频、能量、过零率、线性预测倒谱系数(LPCC)、MEL频率倒谱系数(MFCC)、共振峰、5个MEL子带能量、频谱质心、截止频率、自相关密度、计盒维数共11种基本特征,计算基本特征对时间的一阶差分和二阶差分;
步骤2.3:采用顺序浮动前进法(SFFS)从步骤2.2提取的特征中选择最适合男声情感点识别的能量、基频、共振峰、自相密度、计盒维数、MEL频率倒谱系数;
步骤2.4:采用步骤2.3选择的特征为每个情感点训练男声HMM;
步骤2.5:对情感点数据库中的女声语音信号经高通滤波器预处理,分帧,加窗;
步骤2.6:对步骤2.5预处理后的语音信号提取基频、能量、过零率、线性预测倒谱系数(LPCC)、MEL频率倒谱系数(MFCC)、共振峰、5个MEL子带能量、频谱质心、截止频率、自相关密度、计盒维数共11种基本特征,计算基本特征对时间的一阶差分和二阶差分;
步骤2.7:采用顺序浮动前进法(SFFS)从步骤2.6提取的特征中选择最适合女声情感点识别的能量、基频、共振峰、自相密度、计盒维数、MEL频率倒谱系数;
步骤2.8:采用步骤2.7选择的特征为每个情感点训练女声HMM。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2011800041561A CN102893326B (zh) | 2011-05-11 | 2011-07-21 | 结合情感点的汉语语音情感提取及建模方法 |
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201110121872.X | 2011-05-11 | ||
CN201110121872XA CN102222500A (zh) | 2011-05-11 | 2011-05-11 | 结合情感点的汉语语音情感提取及建模方法 |
CN2011800041561A CN102893326B (zh) | 2011-05-11 | 2011-07-21 | 结合情感点的汉语语音情感提取及建模方法 |
PCT/CN2011/077386 WO2012151786A1 (zh) | 2011-05-11 | 2011-07-21 | 结合情感点的汉语语音情感提取及建模方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN102893326A CN102893326A (zh) | 2013-01-23 |
CN102893326B true CN102893326B (zh) | 2013-11-13 |
Family
ID=44779034
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201110121872XA Pending CN102222500A (zh) | 2011-05-11 | 2011-05-11 | 结合情感点的汉语语音情感提取及建模方法 |
CN2011800041561A Expired - Fee Related CN102893326B (zh) | 2011-05-11 | 2011-07-21 | 结合情感点的汉语语音情感提取及建模方法 |
Family Applications Before (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201110121872XA Pending CN102222500A (zh) | 2011-05-11 | 2011-05-11 | 结合情感点的汉语语音情感提取及建模方法 |
Country Status (2)
Country | Link |
---|---|
CN (2) | CN102222500A (zh) |
WO (1) | WO2012151786A1 (zh) |
Families Citing this family (30)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102436809B (zh) * | 2011-10-21 | 2013-04-24 | 东南大学 | 英语口语机考系统中网络语音识别方法 |
CN103310787A (zh) * | 2012-03-07 | 2013-09-18 | 嘉兴学院 | 一种用于楼宇安防的异常声音快速检方法 |
CN103258532B (zh) * | 2012-11-28 | 2015-10-28 | 河海大学常州校区 | 一种基于模糊支持向量机的汉语语音情感识别方法 |
CN103198827B (zh) * | 2013-03-26 | 2015-06-17 | 合肥工业大学 | 基于韵律特征参数和情感参数关联性的语音情感修正方法 |
CN104240720A (zh) * | 2013-06-24 | 2014-12-24 | 北京大学深圳研究生院 | 一种基于多重分形和信息融合的语音情感识别方法 |
CN105096943B (zh) * | 2014-04-24 | 2019-04-19 | 杭州华为企业通信技术有限公司 | 信号处理的方法与装置 |
CN104021373B (zh) * | 2014-05-27 | 2017-02-15 | 江苏大学 | 一种半监督语音特征可变因素分解方法 |
CN104123857B (zh) * | 2014-07-16 | 2016-08-17 | 北京网梯科技发展有限公司 | 一种实现个性化点读的设备及方法 |
CN104538035B (zh) * | 2014-12-19 | 2018-05-01 | 深圳先进技术研究院 | 一种基于Fisher超向量的说话人识别方法及系统 |
CN104732981B (zh) * | 2015-03-17 | 2018-01-12 | 北京航空航天大学 | 一种结合电声门图的汉语语音情感数据库的语音标注方法 |
CN106910512A (zh) * | 2015-12-18 | 2017-06-30 | 株式会社理光 | 语音文件的分析方法、装置及系统 |
CN106294718A (zh) * | 2016-08-08 | 2017-01-04 | 北京邮电大学 | 信息处理方法及装置 |
CN106691475B (zh) * | 2016-12-30 | 2020-03-27 | 中国科学院深圳先进技术研究院 | 情感识别模型生成方法及装置 |
WO2018120088A1 (zh) * | 2016-12-30 | 2018-07-05 | 中国科学院深圳先进技术研究院 | 情感识别模型生成方法及装置 |
CN108154888A (zh) * | 2017-12-26 | 2018-06-12 | 四川沐迪圣科技有限公司 | 一种基于语音特征的可穿戴设备监测心理健康方法 |
CN108198562A (zh) * | 2018-02-05 | 2018-06-22 | 中国农业大学 | 一种用于实时定位辨识动物舍内异常声音的方法及系统 |
CN109171644A (zh) * | 2018-06-22 | 2019-01-11 | 平安科技(深圳)有限公司 | 基于声音识别的健康管理方法、装置、计算机设备和存储介质 |
CN109509486B (zh) * | 2018-07-31 | 2021-04-09 | 苏州大学 | 一种体现情感细节信息的情感语料库构建方法 |
CN109036466B (zh) * | 2018-08-01 | 2022-11-29 | 太原理工大学 | 面向情感语音识别的情感维度pad预测方法 |
CN108806724B (zh) * | 2018-08-15 | 2020-08-25 | 太原理工大学 | 一种情感语音pad值预测方法及系统 |
CN109473122A (zh) * | 2018-11-12 | 2019-03-15 | 平安科技(深圳)有限公司 | 基于检测模型的情绪分析方法、装置及终端设备 |
CN109378007B (zh) * | 2018-12-28 | 2022-09-13 | 浙江百应科技有限公司 | 一种基于智能语音对话实现性别识别的方法 |
CN109658917A (zh) * | 2019-01-17 | 2019-04-19 | 深圳壹账通智能科技有限公司 | 电子书诵读方法、装置、计算机设备及存储介质 |
CN110246507B (zh) * | 2019-08-05 | 2021-08-24 | 上海优扬新媒信息技术有限公司 | 一种语音的识别方法和装置 |
CN111128240B (zh) * | 2019-12-19 | 2022-05-17 | 浙江大学 | 一种基于对抗语义擦除的语音情感识别方法 |
TWI807203B (zh) * | 2020-07-28 | 2023-07-01 | 華碩電腦股份有限公司 | 聲音辨識方法及使用其之電子裝置 |
CN112712824B (zh) * | 2021-03-26 | 2021-06-29 | 之江实验室 | 一种融合人群信息的语音情感识别方法和系统 |
CN112927723A (zh) * | 2021-04-20 | 2021-06-08 | 东南大学 | 基于深度神经网络的高性能抗噪语音情感识别方法 |
CN113749656B (zh) * | 2021-08-20 | 2023-12-26 | 杭州回车电子科技有限公司 | 基于多维生理信号的情感识别方法和装置 |
CN114040308B (zh) * | 2021-11-17 | 2023-06-30 | 郑州航空工业管理学院 | 一种基于情感增益的皮肤听声助听装置 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2007017853A1 (en) * | 2005-08-08 | 2007-02-15 | Nice Systems Ltd. | Apparatus and methods for the detection of emotions in audio interactions |
CN101226743A (zh) * | 2007-12-05 | 2008-07-23 | 浙江大学 | 基于中性和情感声纹模型转换的说话人识别方法 |
CN101261832A (zh) * | 2008-04-21 | 2008-09-10 | 北京航空航天大学 | 汉语语音情感信息的提取及建模方法 |
EP1981021A1 (fr) * | 2007-04-13 | 2008-10-15 | France Telecom | Procede d'estimation de l'etat mental d'une personne |
EP2028647A1 (de) * | 2007-08-24 | 2009-02-25 | Deutsche Telekom AG | Verfahren und Vorrichtung zur Sprecherklassifizierung |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20060122834A1 (en) * | 2004-12-03 | 2006-06-08 | Bennett Ian M | Emotion detection device & method for use in distributed systems |
-
2011
- 2011-05-11 CN CN201110121872XA patent/CN102222500A/zh active Pending
- 2011-07-21 WO PCT/CN2011/077386 patent/WO2012151786A1/zh active Application Filing
- 2011-07-21 CN CN2011800041561A patent/CN102893326B/zh not_active Expired - Fee Related
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2007017853A1 (en) * | 2005-08-08 | 2007-02-15 | Nice Systems Ltd. | Apparatus and methods for the detection of emotions in audio interactions |
EP1981021A1 (fr) * | 2007-04-13 | 2008-10-15 | France Telecom | Procede d'estimation de l'etat mental d'une personne |
EP2028647A1 (de) * | 2007-08-24 | 2009-02-25 | Deutsche Telekom AG | Verfahren und Vorrichtung zur Sprecherklassifizierung |
CN101226743A (zh) * | 2007-12-05 | 2008-07-23 | 浙江大学 | 基于中性和情感声纹模型转换的说话人识别方法 |
CN101261832A (zh) * | 2008-04-21 | 2008-09-10 | 北京航空航天大学 | 汉语语音情感信息的提取及建模方法 |
Also Published As
Publication number | Publication date |
---|---|
CN102222500A (zh) | 2011-10-19 |
CN102893326A (zh) | 2013-01-23 |
WO2012151786A1 (zh) | 2012-11-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102893326B (zh) | 结合情感点的汉语语音情感提取及建模方法 | |
CN101261832B (zh) | 汉语语音情感信息的提取及建模方法 | |
CN102231278B (zh) | 实现语音识别中自动添加标点符号的方法及系统 | |
CN102655003B (zh) | 基于声道调制信号mfcc的汉语语音情感点识别方法 | |
CN103177733B (zh) | 汉语普通话儿化音发音质量评测方法与系统 | |
CN100570711C (zh) | 基于混合支持向量机的说话人识别方法 | |
Koolagudi et al. | Emotion recognition from speech signal using epoch parameters | |
CN108564942A (zh) | 一种基于敏感度可调的语音情感识别方法及系统 | |
CN102411932B (zh) | 结合声门激励和声道调制信息的汉语语音情感提取及建模方法 | |
CN100570710C (zh) | 基于内嵌gmm核的支持向量机模型的说话人识别方法 | |
Koolagudi et al. | Two stage emotion recognition based on speaking rate | |
Palo et al. | Emotion recognition using MLP and GMM for Oriya language | |
Chandrashekar et al. | Breathiness indices for classification of dysarthria based on type and speech intelligibility | |
Lanjewar et al. | Speech emotion recognition: a review | |
Jha et al. | Assessing vowel quality for singing evaluation | |
Alrehaili et al. | Arabic Speech Dialect Classification using Deep Learning | |
CN102750950B (zh) | 结合声门激励和声道调制信息的汉语语音情感提取及建模方法 | |
Lee et al. | Speech emotion recognition using spectral entropy | |
Dumpala et al. | Analysis of the Effect of Speech-Laugh on Speaker Recognition System. | |
Yadav et al. | Emotion recognition using LP residual at sub-segmental, segmental and supra-segmental levels | |
Wieczorkowska | Towards extracting emotions from music | |
Porat et al. | Age recognition based on speech signals using weights supervector. | |
Mangalam et al. | Emotion Recognition from Mizo Speech: A Signal Processing Approach | |
Jin et al. | Speech emotion recognition based on hyper-prosodic features | |
Kroher | The flamenco cante: Automatic characterization of flamenco singing by analyzing audio recordings |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20131113 Termination date: 20140721 |
|
EXPY | Termination of patent right or utility model |