CN103258532A - 一种基于模糊支持向量机的汉语语音情感识别方法 - Google Patents

一种基于模糊支持向量机的汉语语音情感识别方法 Download PDF

Info

Publication number
CN103258532A
CN103258532A CN201210494888XA CN201210494888A CN103258532A CN 103258532 A CN103258532 A CN 103258532A CN 201210494888X A CN201210494888X A CN 201210494888XA CN 201210494888 A CN201210494888 A CN 201210494888A CN 103258532 A CN103258532 A CN 103258532A
Authority
CN
China
Prior art keywords
support vector
vector machine
feature
chinese speech
classification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201210494888XA
Other languages
English (en)
Other versions
CN103258532B (zh
Inventor
张卓
范新南
梁瑞宇
奚吉
张学武
孙晓丹
凌明强
游皇斌
周卓赟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Changzhou Campus of Hohai University
Original Assignee
Changzhou Campus of Hohai University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Changzhou Campus of Hohai University filed Critical Changzhou Campus of Hohai University
Priority to CN201210494888.XA priority Critical patent/CN103258532B/zh
Publication of CN103258532A publication Critical patent/CN103258532A/zh
Application granted granted Critical
Publication of CN103258532B publication Critical patent/CN103258532B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于模糊支持向量机的汉语语音情感识别方法,用于汉语语音的情感识别。识别过程包括粗分类和细分类两个阶段:粗分阶段提取待识别样本的全局统计情感特征,使用粗分类模糊支持向量机将情感分为三大粗分类;细分阶段增加类内情感的区分度,使用细分类模糊支持向量机对粗分类内部进行更细划分,从而识别每种情感。其中,情感特征与说话人和文本内容无关,支持向量机训练受模糊因子指导,细分特征经PCA降维增加区分度。本发明采用全局统计音质特征实现与说话人和文本内容无关的汉语语音情感表示;分阶段分类识别,有效降低算法复杂度、提高实时性;采用模糊支持向量机,在混杂语音情感条件下,获得更好的识别精度。

Description

一种基于模糊支持向量机的汉语语音情感识别方法
技术领域
本发明属于人机交互和语音处理技术领域,具体地说涉及一种基于模糊支持向量机的汉语语音情感识别方法。
背景技术
情感是人类一种重要的本能,它同理性思维和逻辑推理能力一样,在人们的日常生活、工作、交流、处理事务和决策中扮演着重要的角色。作为人类交流的主要手段之一,语音信号不仅具有传递语义的作用,同时也是承载说话人个体信息的重要载体,如说话人性别、话者的说话情绪如何等。其中,对语音信号情感的识别研究已发展为语音信号处理的重要分支,成为人机和谐交互的重要组成部分。语音情感识别是认知、心理、生理、模式识别等多领域的交叉学科,由于情感信息的社会性、文化性以及语音信号自身的复杂性,语音情感识别尚有许多问题有待解决,如情感建模、特征的分析和选择及识别方法的改进。HMM技术、高斯混合模型和神经网络等方法在语音情感识别领域得到广泛应用,不过它们都存在一些难以弥补的缺陷。HMM分类决策能力差,需要先验统计知识;高斯混合模型也是基于统计理论的,需要大量训练样本才能获得比较好的识别效果;神经网络则存在网络结构难以确定、局部最优、容易过学习等问题。当样本数据较少或有限时,以上传统方法的工程应用受到限制。支持向量机是在结构风险最小化原则基础上建立起来的机器学习方法,能有效地克服基于经验风险最小化原则的神经网络容易过学习、泛化能力差等不足之处,对于小样本数据分析具有无可比拟的学习能力和推广能力,已成功应用手写字符、人脸识别说话人识别和情感识别等领域。
然而,语音情感表述以及所呈现的状态经常是模棱两可或者说是混杂的,传统基于支持向量机的识别方法只是赋予未知情感一个单独的预测标签,没有考虑情感的混杂属性,抗噪和泛化能力受限,难以提高模糊类的语音样本的情感识别精度。同时,研究表明,汉语和英语各有特点,在听觉感知过程中有很大差别。面向汉语语音情感识别的方法多为综述或介绍性文章。
由此可见,上述现有的语音情感识别技术,显然仍存在缺陷与不足,亟待加以进一步改进。为了解决汉语语音情感识别技术存在的问题,相关领域技术人员一直努力研究,尚未见适用的方法被发展完成,仍然是相关从业者急欲解决的问题。
发明内容
本发明的目的在于,克服现有的语音情感识别技术存在的缺陷,提供一种新型的针对汉语语音的情感识别方法,所要解决的技术问题是使其能够在情感属性模糊的情况下,提高语音情感识别精度,从而更加适于实用,且具有产业上的利用价值。
为了达到上述目的,本发明所采取的技术方案是:
一种基于模糊支持向量机的汉语语音情感识别方法,其特征在于:包括以下步骤:
(1)、提取汉语语音训练样本的情感特征;选取语音情感训练样本集S={S1,S2,S3},其中Si(i=1,2,3)是第i粗分类样本集合,提取样本情感粗分类的全局统计音质特征;
(2)、采用模糊支持向量机进行分类和识别;
(3)、进行汉语语音情感识别。
前述的一种基于模糊支持向量机的汉语语音情感识别方法,其特征在于:提取汉语语音训练样本的情感特征,选择愤怒、高兴、悲伤、害怕、厌恶、惊奇等6种常见的语音情感构成训练样本集S={S1,S2,S3},其中Si(i=1,2,3)是第i粗分类样本集合;
采用与说话人和文本内容无关的74个全局统计特征作为汉语语音情感识别的音质特征:
特征1-10:短时能量及其差分的均值、最大值、最小值、中值、方差;
特征11-25:基音及其一阶、二阶差分的均值、最大值、最小值、中值、方差;
特征26:基音范围;
特征27-36:发音帧数、不发音帧数、不发音帧数和发音帧数之比、发音帧数和总帧数之比、发音区域数、不发音区域数、发音区域数和不发音区域数之比、发音区域数和总区域数之比、最长发音区域数、最长不发音区域数;
特征37-66:第一、第二、第三共振峰及其一阶差分的均值、最大值、最小值、中值、方差;
特征67-69:250Hz以下能量百分比、650Hz以下能量百分比、4kHz以上能量百分比;
特征70-74:谐波噪声比的均值、最大值、最小值、中值、方差;由于细分类的情感识别只和一部分特征参数相关度较高,为了降低算法复杂程度,采用PCA降维处理将74个粗分类特征降维到10个细分类特征。
前述的一种基于模糊支持向量机的汉语语音情感识别方法,其特征在于:采用模糊支持向量机进行分类和识别时,所述模糊支持向量机采用径向基核函数:
K ( x i , y i ) = exp [ - | | x i - x j | | 2 σ 2 ]
并使用模糊因子ui,j控制不同样本和噪声对分类的影响,
所述模糊因子其中di,j代表样本SPi,j∈Si的特征向量到特征向量中心Fi的欧氏距离。此处,特征向量中心Fi代表每一个粗分类的特征均值,
计算语音样本情感特征的特征向量中心Fi的过程为:首先对处在不同量级和单位的特征参数进行归一化处理,然后计算每一粗分类或细分类特征的均值,构成分特征向量中心Fi
前述的一种基于模糊支持向量机的汉语语音情感识别方法,其特征在于:进行汉语语音情感识别:对愤怒、高兴、悲伤、害怕、厌恶、惊奇6种常见的语音情感分类进行识别,包括两个阶段:第一阶段为情感的粗分类阶段,提取基音范围、平均基音值、基音变化和声音强度,使用模糊支持向量机,把6种情感分为:C1(愤怒和高兴)、C2(悲伤和害怕)和C3(厌恶和惊奇)三大粗分类;第二阶段为情感的细分类阶段。增加类内情感的区分特征值,再次使用模糊支持向量机对大类内部进行更细的划分,从而达到识别每种情感的目的。
本发明的有益效果是:
1、本发明所采用的全局统计音质特征,能很好的降低特征对音位信息的依赖性,实现与说话人和文本内容无关的汉语语音情感识别。
2、本发明采用的分阶段分类识别方法,利用全部音质特征进行情感的粗分类,再利用少数与细分类相关的特征参数进行细分类,可有效降低算法的时间复杂度、提高算法实时性。
3、本发明采用模糊因子将支持向量机惩罚参数模糊化,对不同样本使用不同的惩罚参数,可降低噪声和野值点对分类的影响,提高混杂情感语音的识别精度。
综上所述,本发明的汉语语音情感识别方法,能够在兼顾算法时间复杂度的情况下,实现与说话人和文本内容无关的汉语语音混杂情感识别。实验结果表明,采用模糊支持向量机的汉语语音情感识别方法与传统方法相比可以获得更高的识别精度。其具有上述诸多的优点及实用价值,并在同类方法中未见有类似的设计公开发表或使用而确属创新,具有较大的改进,在技术上有较大的进步,有产业的广泛利用价值,诚为一新颖、进步、实用的新设计。
附图说明
附图1是本发明流程图。
附图2是基于模糊支持向量机的汉语语音情感识别结果图。
附图3是基于传统支持向量机的汉语语音情感识别结果图。
附图4是基于BP神经网络的汉语语音情感识别结果图。
具体实施方式
以下结合附图以及实施例,对本发明进行进一步详细说明。
(1)提取汉语语音训练样本的情感特征
本发明选择愤怒、高兴、悲伤、害怕、厌恶、惊奇等6种常见的语音情感构成训练样本集S={S1,S2,S3},其中Si(i=1,2,3)是第i粗分类样本集合。韵律特征能有效地体现情感,是大于一个音位的语音单位如音节(Syllable)或比音节更大的单位所表现出来的音强(Intensity)、音长(Length or duration)、音高(Pitch)、重音(Accent)、声调(Tone)和语调(Intonation)等语音特征参数。代表性特征主要有语速、基音及其衍生参数。音质特征主要指语音音色和语谱方面的特征,因此也被称作是音段特征,反映发音时声门波形状的变化。基于动态特征构造音质也正对对音位信息的依赖性较强,而基于全局统计特征构造音质特征受到说话人和文本内容的影响较小,不需要考虑说话人和语种因素,本发明中使用如下74个全局统计特征表示汉语语音情感:
特征1-10:短时能量及其差分的均值、最大值、最小值、中值、方差;
特征11-25:基音及其一阶、二阶差分的均值、最大值、最小值、中值、方差;
特征26:基音范围;
特征27-36:发音帧数、不发音帧数、不发音帧数和发音帧数之比、发音帧数和总帧数之比、发音区域数、不发音区域数、发音区域数和不发音区域数之比、发音区域数和总区域数之比、最长发音区域数、最长不发音区域数;
特征37-66:第一、第二、第三共振峰及其一阶差分的均值、最大值、最小值、中值、方差;
特征67-69:250Hz以下能量百分比、650Hz以下能量百分比、4kHz以上能量百分比。
特征70-74:谐波噪声比的均值、最大值、最小值、中值、方差。
由于细分类的情感识别只和一部分特征参数相关度较高,为了降低算法复杂程度,采用PCA将74个粗分类特征降维到10个细分类特征。
(2)模糊支持向量机
采用模糊支持向量机进行分类和识别时,在常规支持向量机样本上增加一个模糊因子,对所有样本模糊化。由于模糊因子表示该样本属于某类的可靠度量,引入Lagrange乘子
Figure BDA00002481998400071
和核函数K(xi,yi)可得二次规划函数表示为:
min α 1 2 Σ i = 1 l Σ j = 1 l y i y j α i α j K ( x i , x j ) - Σ j = 1 l α j
s . t . Σ j = 1 l y j α j = 0
0≤αj≤ujC,j=1,2,...,l
尤其最优解可得模糊最优分类函数为 f ( x ) = agn { Σ j = 1 l α j * y j K ( x i , x j ) + b * } , x∈Rn
其中,xi为输入样本,yi为输入样本所属分类,
Figure BDA00002481998400081
Figure BDA00002481998400082
K(xi,yi)为满足Mecer条件的核函数。由于汉语语音情感识别属于小样本非线性分类问题,本发明采用径向基核函数: K ( x i , y i ) = exp [ - | | x i - x j | | 2 σ 2 ]
由上面分析可知,与传统SVM相比,FSVM中将惩罚参数模糊化,对不同的样本使用不同的惩罚参数,Cui表示样本xi在训练支持向量机时的重要程度,Cui越大则表示训练样本xi被错分的可能性越小,分类超平面与各类样本间距离越小。当xi为孤立点或噪音样本时,则令ui很小,从而Cui很小,这样此样本对支持向量机的训练所起的作用就大大减小了,从而大大降低了噪音数据及孤立点对训练支持向量机的影响,又不会减弱正常支持向量对分类超平面的决定作用。本发明使用如下模糊因子
Figure BDA00002481998400084
其中di,j代表样本SPi,j∈Si(Si代表第i粗分类)的特征向量到特征向量中心Fi的欧氏距离。
计算语音样本情感特征的特征向量中心Fi的过程为:首先对处在不同量级和单位的特征参数进行归一化处理,然后计算每一粗分类或细分类特征的均值,构成分特征向量中心Fi,选取语音情感训练样本集S={S1,S2,S3},其中Si(i=1,2,3)是第i粗分类样本集合,提取样本情感粗分类的全局统计音质特征;
计算粗分类的特征向量中心Fi;
计算每个训练语音样本的模糊因子
Figure BDA00002481998400085
其中di,j代表样本SPi,j∈Si(Si代表第i粗分类)的特征向量到特征向量中心Fi的欧氏距离;
采用惩罚因子
Figure BDA00002481998400091
和一对一多分类方法训练粗分类支持向量机FSVM0;
对训练样本的粗分类特征进行PCA降维处理,提取细分类阶段特征;
计算样本的细分特征向量及其中心,并计算样本的细分模糊因子
Figure BDA00002481998400092
其中di,j代表样本的细分特征向量到其中心的欧氏距离;
采用惩罚因子C'j ui'和训练样本Si训练细分粗类Ci的两类支持向量机FSVMi
用训练样本Si训练细分粗类Ci的两类FSVM,得到细分类器组:FSVMi(i=1,2,3);
选择待识别样本Mi,提取其情感音质粗分类特征,输入分类器FSVM0中选择最合适的细分类器FSVMi,经细分类器判别待识别样本属于哪一种情感。
(3)汉语语音情感识别
如图1所示,本发明的汉语语音情感识别分为两个阶段:第一阶段为情感的粗分类阶段,在分析众多的情感声学参量中,提取区分度比较好的:基音范围、平均基音值、基音变化和声音强度,使用模糊支持向量机,把6种情感分为:C1(愤怒和高兴)、C2(悲伤和害怕)和C3(厌恶和惊奇)三大粗分类。第二阶段为情感的细分类阶段。增加类内情感的区分特征值,再次使用模糊支持向量机对3大类内部进行更细的划分,从而达到识别每种情感的目的。
本发明的效果可通过以下对比实验进一步说明。
(1)实验条件
实验中所用的语音情感数据库在安静的实验室中录制,有一定的回声,保证语音的饱满度,采样率为11025Hz。用于训练的样本集包括3名男性与3名女性的情感语料,有愤怒、高兴、悲伤、害怕、厌恶和惊奇等6种情感语音数据,共2800条,每种情感各400条,语句切分长度为2~8s不等的短句,用于说话人无关、文本无关的情感识别训练。训练集与测试集合比例为3:1,通过轮换测试后取得平均识别结果。
(2)实验内容
基于上述语音样本分别采用BP神经网络、传统支持向量机法和模糊支持向量机进行情感识别实验。实验中,采用PCA降维方法将74维的粗分类特征降到10维细分类特征。在提取语音特征前,对高频分量进行补偿,以25ms左右为一帧,每帧长为256点,重叠1/2,采用汉明窗加窗处理以减小每帧边缘的截断效应。识别测试结果如图2、图3和图4所示。BP神经网络用于6种语音情感识别获得了74.6%的平均识别率;传统支持向量机的平均情感识别率为77.8%,而模糊支持向量机的平均识别率达到了85.3%。实验结果表明,基于模糊支持向量机的情感识别能力明显优于BP神经网络和传统支持向量机方法。
以上所述,仅是本发明的较佳实施例而已,并非对本发明作任何形式上的限制,虽然本发明已以较佳实施例揭露如上,然而并非用以限定本发明,任何熟悉本专业的技术人员,在不脱离本发明技术方案范围内,当可利用上述揭示的技术内容作出些许更动或修饰为等同变化的等效实施例,但凡是未脱离本发明技术方案的内容,依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰,均仍属于本发明技术方案的范围内。

Claims (4)

1.一种基于模糊支持向量机的汉语语音情感识别方法,其特征在于:包括以下步骤:
(1)、提取汉语语音训练样本的情感特征;选取语音情感训练样本集S={S1,S2,S3},其中Si(i=1,2,3)是第i粗分类样本集合,提取样本情感粗分类的全局统计音质特征;
(2)、采用模糊支持向量机进行分类和识别;
(3)、进行汉语语音情感识别。
2.根据权利要求1所述的一种基于模糊支持向量机的汉语语音情感识别方法,其特征在于:
提取汉语语音训练样本的情感特征,选择愤怒、高兴、悲伤、害怕、
厌恶、惊奇等6种常见的语音情感构成训练样本集S={S1,S2,S3},其中Si(i=1,2,3)是第i粗分类样本集合;
采用与说话人和文本内容无关的74个全局统计特征作为汉语语音情感识别的音质特征:
特征1-10:短时能量及其差分的均值、最大值、最小值、中值、方差;
特征11-25:基音及其一阶、二阶差分的均值、最大值、最小值、中值、方差;
特征26:基音范围;
特征27-36:发音帧数、不发音帧数、不发音帧数和发音帧数之比、发音帧数和总帧数之比、发音区域数、不发音区域数、发音区域数和不发音区域数之比、发音区域数和总区域数之比、最长发音区域数、最长不发音区域数;
特征37-66:第一、第二、第三共振峰及其一阶差分的均值、最大值、最小值、中值、方差;
特征67-69:250Hz以下能量百分比、650Hz以下能量百分比、4kHz以上能量百分比;
特征70-74:谐波噪声比的均值、最大值、最小值、中值、方差;由于细分类的情感识别只和一部分特征参数相关度较高,为了降低算法复杂程度,采用PCA降维处理将74个粗分类特征降维到10个细分类特征。
3.根据权利要求2所述的一种基于模糊支持向量机的汉语语音情感识别方法,其特征在于:采用模糊支持向量机进行分类和识别时,所述模糊支持向量机采用径向基核函数:
K ( x i , y i ) = exp [ - | | x i - x j | | 2 σ 2 ]
并使用模糊因子ui,j控制不同样本和噪声对分类的影响,
所述模糊因子
Figure FDA00002481998300022
其中di,j代表样本SPi,j∈Si的特征向量到特征向量中心Fi的欧氏距离,此处,特征向量中心Fi代表每一个粗分类的特征均值,
计算语音样本情感特征的特征向量中心Fi的过程为:首先对处在不同量级和单位的特征参数进行归一化处理,然后计算每一粗分类或细分类特征的均值,构成分特征向量中心Fi
4.根据权利要求3所述的一种基于模糊支持向量机的汉语语音情感识别方法,其特征在于:进行汉语语音情感识别:对愤怒、高兴、悲伤、害怕、厌恶、惊奇6种常见的语音情感分类进行识别,包括两个阶段:第一阶段为情感的粗分类阶段,提取基音范围、平均基音值、基音变化和声音强度,使用模糊支持向量机,把6种情感分为:C1(愤怒和高兴)、C2(悲伤和害怕)和C3(厌恶和惊奇)三大粗分类;第二阶段为情感的细分类阶段,增加类内情感的区分特征值,再次使用模糊支持向量机对大类内部进行更细的划分,从而达到识别每种情感的目的。
CN201210494888.XA 2012-11-28 2012-11-28 一种基于模糊支持向量机的汉语语音情感识别方法 Expired - Fee Related CN103258532B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210494888.XA CN103258532B (zh) 2012-11-28 2012-11-28 一种基于模糊支持向量机的汉语语音情感识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210494888.XA CN103258532B (zh) 2012-11-28 2012-11-28 一种基于模糊支持向量机的汉语语音情感识别方法

Publications (2)

Publication Number Publication Date
CN103258532A true CN103258532A (zh) 2013-08-21
CN103258532B CN103258532B (zh) 2015-10-28

Family

ID=48962406

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210494888.XA Expired - Fee Related CN103258532B (zh) 2012-11-28 2012-11-28 一种基于模糊支持向量机的汉语语音情感识别方法

Country Status (1)

Country Link
CN (1) CN103258532B (zh)

Cited By (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104637497A (zh) * 2015-01-16 2015-05-20 南京工程学院 一种面向语音情感识别的语谱特征提取方法
CN104835508A (zh) * 2015-04-01 2015-08-12 哈尔滨工业大学 一种用于混合语音情感识别的语音特征筛选方法
CN105719664A (zh) * 2016-01-14 2016-06-29 盐城工学院 基于似然概率模糊熵的紧张状态下语音情绪自动识别方法
CN105957520A (zh) * 2016-07-04 2016-09-21 北京邮电大学 一种适用于回声消除系统的语音状态检测方法
WO2017101506A1 (zh) * 2015-12-14 2017-06-22 乐视控股(北京)有限公司 信息处理方法及装置
US9799325B1 (en) 2016-04-14 2017-10-24 Xerox Corporation Methods and systems for identifying keywords in speech signal
CN107507611A (zh) * 2017-08-31 2017-12-22 苏州大学 一种语音分类识别的方法及装置
CN107944542A (zh) * 2017-11-21 2018-04-20 北京光年无限科技有限公司 一种基于虚拟人的多模态交互输出方法及系统
CN108053840A (zh) * 2017-12-29 2018-05-18 广州势必可赢网络科技有限公司 一种基于pca-bp的情绪识别方法及系统
CN108831450A (zh) * 2018-03-30 2018-11-16 杭州鸟瞰智能科技股份有限公司 一种基于用户情绪识别的虚拟机器人人机交互方法
CN109101487A (zh) * 2018-07-11 2018-12-28 广州杰赛科技股份有限公司 对话角色区分方法、装置、终端设备及存储介质
CN109101956A (zh) * 2018-09-21 2018-12-28 北京字节跳动网络技术有限公司 用于处理图像的方法和装置
CN110246518A (zh) * 2019-06-10 2019-09-17 深圳航天科技创新研究院 基于多粒度动静态融合特征的语音情感识别方法、装置、系统及存储介质
CN111128240A (zh) * 2019-12-19 2020-05-08 浙江大学 一种基于对抗语义擦除的语音情感识别方法
CN111666409A (zh) * 2020-05-28 2020-09-15 武汉大学 一种基于综合深度胶囊网络的复杂评论文本的整体情感智能分类方法
CN111883174A (zh) * 2019-06-26 2020-11-03 深圳数字生命研究院 声音的识别方法及装置、存储介质和电子装置
CN111938674A (zh) * 2020-09-07 2020-11-17 南京宇乂科技有限公司 一种对话的情绪识别控制系统
CN113076846A (zh) * 2021-03-26 2021-07-06 山东大学 心音分类识别方法及系统
CN113124924A (zh) * 2020-01-10 2021-07-16 手持产品公司 使用机器学习的设备掉落检测
CN113555038A (zh) * 2021-07-05 2021-10-26 东南大学 基于无监督领域对抗学习的说话人无关语音情感识别方法及系统
CN113569924A (zh) * 2021-07-09 2021-10-29 常州大学 一种基于支持向量机多核协作的情绪辨识分类方法
CN114882873A (zh) * 2022-07-12 2022-08-09 深圳比特微电子科技有限公司 一种语音识别模型训练方法、装置和可读存储介质
CN115424605A (zh) * 2022-11-01 2022-12-02 北京红棉小冰科技有限公司 语音合成方法、装置、电子设备及计算机可读存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101261832A (zh) * 2008-04-21 2008-09-10 北京航空航天大学 汉语语音情感信息的提取及建模方法
US20090069914A1 (en) * 2005-03-18 2009-03-12 Sony Deutschland Gmbh Method for classifying audio data
CN101620853A (zh) * 2008-07-01 2010-01-06 邹采荣 一种基于改进模糊矢量量化的语音情感识别方法
CN102142253A (zh) * 2010-01-29 2011-08-03 富士通株式会社 语音情感识别设备及方法
CN102201237A (zh) * 2011-05-12 2011-09-28 浙江大学 基于模糊支持向量机的可靠性检测的情感说话人识别方法
CN102222500A (zh) * 2011-05-11 2011-10-19 北京航空航天大学 结合情感点的汉语语音情感提取及建模方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090069914A1 (en) * 2005-03-18 2009-03-12 Sony Deutschland Gmbh Method for classifying audio data
CN101261832A (zh) * 2008-04-21 2008-09-10 北京航空航天大学 汉语语音情感信息的提取及建模方法
CN101620853A (zh) * 2008-07-01 2010-01-06 邹采荣 一种基于改进模糊矢量量化的语音情感识别方法
CN102142253A (zh) * 2010-01-29 2011-08-03 富士通株式会社 语音情感识别设备及方法
CN102222500A (zh) * 2011-05-11 2011-10-19 北京航空航天大学 结合情感点的汉语语音情感提取及建模方法
CN102201237A (zh) * 2011-05-12 2011-09-28 浙江大学 基于模糊支持向量机的可靠性检测的情感说话人识别方法

Cited By (33)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104637497A (zh) * 2015-01-16 2015-05-20 南京工程学院 一种面向语音情感识别的语谱特征提取方法
CN104835508A (zh) * 2015-04-01 2015-08-12 哈尔滨工业大学 一种用于混合语音情感识别的语音特征筛选方法
CN104835508B (zh) * 2015-04-01 2018-10-02 哈尔滨工业大学 一种用于混合语音情感识别的语音特征筛选方法
WO2017101506A1 (zh) * 2015-12-14 2017-06-22 乐视控股(北京)有限公司 信息处理方法及装置
CN105719664A (zh) * 2016-01-14 2016-06-29 盐城工学院 基于似然概率模糊熵的紧张状态下语音情绪自动识别方法
US9799325B1 (en) 2016-04-14 2017-10-24 Xerox Corporation Methods and systems for identifying keywords in speech signal
CN105957520B (zh) * 2016-07-04 2019-10-11 北京邮电大学 一种适用于回声消除系统的语音状态检测方法
CN105957520A (zh) * 2016-07-04 2016-09-21 北京邮电大学 一种适用于回声消除系统的语音状态检测方法
CN107507611A (zh) * 2017-08-31 2017-12-22 苏州大学 一种语音分类识别的方法及装置
CN107507611B (zh) * 2017-08-31 2021-08-24 苏州大学 一种语音分类识别的方法及装置
CN107944542A (zh) * 2017-11-21 2018-04-20 北京光年无限科技有限公司 一种基于虚拟人的多模态交互输出方法及系统
CN108053840A (zh) * 2017-12-29 2018-05-18 广州势必可赢网络科技有限公司 一种基于pca-bp的情绪识别方法及系统
CN108831450A (zh) * 2018-03-30 2018-11-16 杭州鸟瞰智能科技股份有限公司 一种基于用户情绪识别的虚拟机器人人机交互方法
CN109101487A (zh) * 2018-07-11 2018-12-28 广州杰赛科技股份有限公司 对话角色区分方法、装置、终端设备及存储介质
CN109101956A (zh) * 2018-09-21 2018-12-28 北京字节跳动网络技术有限公司 用于处理图像的方法和装置
CN109101956B (zh) * 2018-09-21 2021-01-01 北京字节跳动网络技术有限公司 用于处理图像的方法和装置
CN110246518A (zh) * 2019-06-10 2019-09-17 深圳航天科技创新研究院 基于多粒度动静态融合特征的语音情感识别方法、装置、系统及存储介质
CN111883174A (zh) * 2019-06-26 2020-11-03 深圳数字生命研究院 声音的识别方法及装置、存储介质和电子装置
CN111128240A (zh) * 2019-12-19 2020-05-08 浙江大学 一种基于对抗语义擦除的语音情感识别方法
CN111128240B (zh) * 2019-12-19 2022-05-17 浙江大学 一种基于对抗语义擦除的语音情感识别方法
CN113124924A (zh) * 2020-01-10 2021-07-16 手持产品公司 使用机器学习的设备掉落检测
CN111666409A (zh) * 2020-05-28 2020-09-15 武汉大学 一种基于综合深度胶囊网络的复杂评论文本的整体情感智能分类方法
CN111938674A (zh) * 2020-09-07 2020-11-17 南京宇乂科技有限公司 一种对话的情绪识别控制系统
CN113076846A (zh) * 2021-03-26 2021-07-06 山东大学 心音分类识别方法及系统
CN113076846B (zh) * 2021-03-26 2022-09-02 山东大学 心音分类识别方法及系统
CN113555038A (zh) * 2021-07-05 2021-10-26 东南大学 基于无监督领域对抗学习的说话人无关语音情感识别方法及系统
CN113555038B (zh) * 2021-07-05 2023-12-29 东南大学 基于无监督领域对抗学习的说话人无关语音情感识别方法及系统
CN113569924A (zh) * 2021-07-09 2021-10-29 常州大学 一种基于支持向量机多核协作的情绪辨识分类方法
CN113569924B (zh) * 2021-07-09 2024-03-12 常州大学 一种基于支持向量机多核协作的情绪辨识分类方法
CN114882873A (zh) * 2022-07-12 2022-08-09 深圳比特微电子科技有限公司 一种语音识别模型训练方法、装置和可读存储介质
CN114882873B (zh) * 2022-07-12 2022-09-23 深圳比特微电子科技有限公司 一种语音识别模型训练方法、装置和可读存储介质
CN115424605A (zh) * 2022-11-01 2022-12-02 北京红棉小冰科技有限公司 语音合成方法、装置、电子设备及计算机可读存储介质
CN115424605B (zh) * 2022-11-01 2023-02-03 北京红棉小冰科技有限公司 语音合成方法、装置、电子设备及计算机可读存储介质

Also Published As

Publication number Publication date
CN103258532B (zh) 2015-10-28

Similar Documents

Publication Publication Date Title
CN103258532B (zh) 一种基于模糊支持向量机的汉语语音情感识别方法
CN106503805B (zh) 一种基于机器学习的双模态人人对话情感分析方法
Zamil et al. Emotion detection from speech signals using voting mechanism on classified frames
CN106228977B (zh) 基于深度学习的多模态融合的歌曲情感识别方法
CN101261832B (zh) 汉语语音情感信息的提取及建模方法
CN108717856A (zh) 一种基于多尺度深度卷积循环神经网络的语音情感识别方法
CN103810994B (zh) 基于情感上下文的语音情感推理方法及系统
CN109493886A (zh) 基于特征选择和优化的语音情感识别方法
Chandrasekar et al. Automatic speech emotion recognition: A survey
CN101685634A (zh) 一种儿童语音情感识别方法
Li et al. Speech emotion recognition using 1d cnn with no attention
Gao et al. Speech emotion recognition using local and global features
CN102142253A (zh) 语音情感识别设备及方法
CN105609117A (zh) 一种识别语音情感的装置和方法
Xiao et al. Hierarchical classification of emotional speech
Zheng et al. An improved speech emotion recognition algorithm based on deep belief network
Xiao et al. Recognition of emotions in speech by a hierarchical approach
Trabelsi et al. Improved frame level features and SVM supervectors approach for the recogniton of emotional states from speech: Application to categorical and dimensional states
Mishra et al. A novel approach to analyse speech emotion using cnn and multilayer perceptron
Malla et al. A DFC taxonomy of Speech emotion recognition based on convolutional neural network from speech signal
Agrima et al. Emotion recognition from Moroccan dialect speech and energy band distribution
Hama Saeed Improved Speech Emotion Classification Using Deep Neural Network
Reakaa et al. Comparison study on speech emotion prediction using machine learning
Palo et al. The amalgamation of wavelet packet information gain entropy tuned source and system parameters for improved speech emotion recognition
Reddy et al. Survey on stress emotion recognition in speech

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20151028

Termination date: 20181128

CF01 Termination of patent right due to non-payment of annual fee