CN103198827B - 基于韵律特征参数和情感参数关联性的语音情感修正方法 - Google Patents
基于韵律特征参数和情感参数关联性的语音情感修正方法 Download PDFInfo
- Publication number
- CN103198827B CN103198827B CN201310100284.7A CN201310100284A CN103198827B CN 103198827 B CN103198827 B CN 103198827B CN 201310100284 A CN201310100284 A CN 201310100284A CN 103198827 B CN103198827 B CN 103198827B
- Authority
- CN
- China
- Prior art keywords
- emotion
- parameter
- emotional
- point
- speech
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Landscapes
- User Interface Of Digital Computer (AREA)
- Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)
Abstract
本发明公开了一种基于韵律特征参数和情感参数关联性的语音情感修正方法,该方法包括:对11类典型情感进行情感建模;对待修正的情感语音提取特征参数,并将其映射至情感空间内;利用情感参数和语音特征参数的关联关系,以及两类语音参数基于不同的信息度量间的互补性;通过情感参数对语音特征参数的修正获得更客观准确的情感表达。本发明方法能够更细致的获得所需合成的情感状态,自然度高,可广泛应用于语音处理与先进智能领域。
Description
技术领域
本发明属于语音信号处理技术领域,涉及到一种语音合成中的关联性参数修正方法,更具体的涉及了一种基于韵律特征参数和情感参数关联性的语音情感修正方法。
背景技术
随着计算机技术和信号处理技术的高速发展,传统的语音合成技术已经无法满足人们越来越高的要求。人们希望能够与机器进行自然和谐的交流,语音作为人类社会重要的交流方式,很大程度上决定了这种人机自然和谐交流的实现。因此语音合成在情感计算、信号处理领域具有很重要的研究意义。而细腻的情感表达则能够较大地提高合成语音的自然度。
在语言表达过程中,说话人的言语中常常并不只包含有一种情感。很多语句有可能是几种情感融合后地表达。同时,人在情感表达的过程中语音和表情均对情感表现及其程度的产生影响。现有的情感表达研究主要集中在对单一语音韵律特征、情感特征或生理信息的情感合成,研究对象局限于实验室中的特定说话人或数据库中特定表演者的范围内,导致目前的情感合成方法无法合成出多种情感相互融合的综合化表情,使得合成语音情感表达不自然,工程应用效果不理想。
在语音情感描述领域, Pereira提出的“激励—评价—控制”(PAD)三维情感空间理论。用模糊化的情感空间标记方式,可以对语句进行维度空间的标注,这种维度空间中的标注可以较为准确的分析出每个语句的情感组成,从而能获得较为合理、精确的情感标记。
在情感语音合成领域,目前语音情感合成方法主要分为两类:基于情感语料的情感语音合成和基于中性语料的情感语音合成。由于训练模型较小,因此合成语音的情感质量较差。采用基于韵律特征参数和情感参数关联性的语音情感修正方法可以较好的解决训练模型较小导致的情感数据不准确以及合成语音情感质量不高这一问题。因此提出一种有效的情感表达修正方法具有很强的现实意义和工程实践意义。
发明内容
本发明的目的在于提出一种能够对合成语音所表达情感进行修正的方法,以解决合成语音情感表达不自然的问题。
本发明采用的技术方案是:
本发明提供了一种基于韵律特征参数和情感参数关联性的语音情感修正方法,包括以下步骤:
步骤1:建立PAD情感模型并对n种典型情感进行PAD主观评分。
步骤2:对经过情感语音合成系统合成出的待修正情感语音提取语音特征参数。利用语音特征参数与PAD情感参数的关联关系,将待修正情感语音映射至PAD情感空间内。
步骤3:采用不均匀正态分布空间欧氏距离计算方法,计算待修正情感点到各个典型情感点的欧氏距离。设pa,pb为a、b两情感点在PAD空间内的p参数观察值,σa和σb为两个情感类别的方差。欧式距离计算公式如下:
由PAD为三维情感空间,则a、b两情感间的最终距离函数为:
最后,获得待修正点到n类典型情感点的n个情感距离。
步骤4:如:一个待修正点到各个典型情感点的距离分别为:S1,S2,…,Sn。则待修正点的典型情感组成权重为:
其中Smax为待修正点与距离其最远的典型情感点间的距离,Mmin为与待修正点距离Smax的典型情感所占组成权重。采用排序组合方法获得待修正点的各种典型情感组成权重。
步骤5:根据典型情感点对应的语音特征参数以及各种典型情感在待修正情感中所占比重。采用线性修正算法,对合成情感特征参数进行修正。
本发明提供的情感语音修正方法,其优点和积极效果在于:
1、该方法是基于情感心理学和语音处理理论,从不同角度对情感状态进行了分析。
2、该方法利用语音特征参数与情感参数的关联性关系,对合成语音情感状态进行了修正,提高了合成语音的自然度,这一成果还可以推广到其它多模态模型中。
附图说明
图1是本发明方法的流程框图。
图2是PAD主观评价方法图。
图3是PAD情感空间模型示意图。
具体实施方式
本发明的基本思想是通过对语音所表达的情感进行建模,将情感参数和语音特征参数相关联,并利用情感参数与语音特征参数的关联关系对情感模型中的情感点进行语音特征参数的修正。最终获得修正情感合成语音。
根据以上思想,本发明流程如图1所示,下面结合技术方案和附图对本发明的方法作进一步说明。
首先分析待合成文本,利用HMM语音合成系统合成情感语音。同时对建立PAD情感模型并将11类典型情感映射至模型中。其次,对合成出的待修正情感语音提取语音特征参数。再次将获得情感参数利用PAD情感与特征参数的对应关系放入PAD三维情感空间中,判断合成参数的情感置信度,并对其语音特征参数进行校正。最终得到所需的情感合成语音。
以男性情感语音修正为例,本方法的具体步骤如下:
步骤1:对11类典型情感进行PAD主观评测,评测流程如图2所示。建立PAD情感模型如图3所示。将11类典型情感归一化映射到情感空间中。11类典型情感PAD参考值如下所示:
男性各个典型情感的语音特征参数如下所示:
步骤2:对由情感语音合成系统所合成的情感语音提取相关语音特征参数,一般地提取梅尔倒谱参数和短时能量参数。同时利用如下关系将合成的待修正情感语音映射到具有典型情感点的情感空间中。
对于男性而言,MFCC特征与男性PAD情感空间参数的关系如下:
待修正情感合成语音的PAD情感空间值由使用不同参数计算出的PAD空间值进行加权平均获得,加权比例为70%和30%。
步骤3:采用不均匀正态分布空间欧氏距离计算方法,计算待修正情感点到各个典型情感点间的欧氏距离。
3.1:计算公式如式(1)所示:
其中pa,pb为a、b两情感点在PAD空间内的p参数观察值,σa和σb为两个情感类别的方差。当所建立的PAD情感空间为归一化(-1,+1)的空间时,方差远远小于1。
3.2:由PAD为三维情感空间,则a、b两情感间的最终距离为:
由空间距离测度聚类可知两种情感之间的距离越小,则这两种情感的声学特征越接近,采用此方法进行合成情感特征参数修正。
步骤4:利用待修正情感点到各个典型情感点间的距离,计算待修正情感点的基本情感组成。设一个待修正点到各个典型情感点的距离分别为:S1,S2,…,Sn。则待修正点的典型情感组成权重为:
其中Smax为待修正点与距离其最远的典型情感点间的距离,Mmin为与待修正点距离Smax的典型情感所占组成权重。在本例中所用典型情感为11类,故n取值为11。采用排序组合方法获得待修正点的各个典型情感组成权重。
步骤5:对于典型情感点对应的语音特征参数,及待修正情感点的典型情感组成。采用线性修正算法,获得各语音特征参数的修正量。对待修正情感点的各语音特征参数进行修正,计算公式如式(4)所示:
其中,H为原合成情感语音特征参数,Hi为典型情感语音特征参数,H’为参数校正量。
Claims (1)
1.一种基于韵律特征参数和情感参数关联性的语音情感修正方法,其特征在于,具体包括以下步骤:
步骤1:建立PAD情感模型并对n种典型情感进行PAD主观评分;
步骤2:对经过情感语音合成系统合成出的待修正情感语音提取语音特征参数,利用语音特征参数与PAD情感参数的关联关系,将待修正情感语音映射至PAD情感空间内;待修正情感语音的情感空间值按如下步骤获取:
步骤2.1:对于待修正情感合成语音提取梅尔倒谱参数(MFCC)和短时能量;
步骤2.2:根据PAD情感空间中各项目与语音特征参数的关系,计算PAD空间各项目值;
步骤2.3:待修正情感合成语音的PAD情感空间值由使用不同参数计算出的PAD空间值进行加权平均获得;加权比例为70%和30%;
步骤3:采用不均匀正态分布空间欧氏距离计算方法,计算待修正情感点到各个典型情感点的欧氏距离,PAD情感空间为三维空间,两情感点间的最终距离由三维空间内两点间距离计算方法计算,最终获得待修正点到n类典型情感点的n个情感距离;PAD情感空间中两情感点间距离按以下步骤获得:
步骤3.1:采用不均匀正态分布空间欧氏距离计算方法,按式(1)计算待修正情感点到各典型情感点间的欧氏距离;
(1);
其中p 1 ,p 2 为两情感点在PAD空间内的p参数观察值,σ a 和σ b 为两个情感类别的方差;当所建立的PAD情感空间为归一化(-1,+1)的空间时,方差远远小于1;
步骤3.2:由PAD为三维情感空间,则a、b两情感间的最终距离S为: (2) ;
其中S P 、S A 、S D 分别为a、b两情感点间P、A、D坐标距离;
步骤4:根据待修正情感点到各个典型情感点的距离,计算修正情感点的基本情感组成,待修正点到各个典型情感点的距离与待修正点的典型情感组成权重成反比,采用排序组合方法获得待修正点的各典型情感组成权重;待修正情感点中各典型情感组成权重关系由式(3)获得:
(3);
其中S max 为待修正点与距离其最远的典型情感点间的距离,M min 为与待修正点距离S max 的典型情感所占组成权重;采用排序组合方法获得待修正点的各典型情感组成权重;
步骤5:根据典型情感点对应的语音特征参数以及各典型情感在待修正情感中所占比重,采用线性修正算法,对合成情感特征参数进行修正;语音特征参数情感修正量,采用线性修正算法获得,其计算方法如式(4):
(4);
其中,H为原合成情感语音特征参数,H i 为典型情感语音特征参数,H’为参数校正量。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310100284.7A CN103198827B (zh) | 2013-03-26 | 2013-03-26 | 基于韵律特征参数和情感参数关联性的语音情感修正方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310100284.7A CN103198827B (zh) | 2013-03-26 | 2013-03-26 | 基于韵律特征参数和情感参数关联性的语音情感修正方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103198827A CN103198827A (zh) | 2013-07-10 |
CN103198827B true CN103198827B (zh) | 2015-06-17 |
Family
ID=48721303
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201310100284.7A Expired - Fee Related CN103198827B (zh) | 2013-03-26 | 2013-03-26 | 基于韵律特征参数和情感参数关联性的语音情感修正方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103198827B (zh) |
Families Citing this family (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104200804B (zh) * | 2014-09-19 | 2017-05-17 | 合肥工业大学 | 一种面向人机交互的多类信息耦合的情感识别方法 |
US9786299B2 (en) * | 2014-12-04 | 2017-10-10 | Microsoft Technology Licensing, Llc | Emotion type classification for interactive dialog system |
CN106910512A (zh) * | 2015-12-18 | 2017-06-30 | 株式会社理光 | 语音文件的分析方法、装置及系统 |
CN107221344A (zh) * | 2017-04-07 | 2017-09-29 | 南京邮电大学 | 一种语音情感迁移方法 |
EP3392884A1 (en) * | 2017-04-21 | 2018-10-24 | audEERING GmbH | A method for automatic affective state inference and an automated affective state inference system |
CN107633851B (zh) * | 2017-07-31 | 2020-07-28 | 极限元(杭州)智能科技股份有限公司 | 基于情感维度预测的离散语音情感识别方法、装置及系统 |
CN108615524A (zh) * | 2018-05-14 | 2018-10-02 | 平安科技(深圳)有限公司 | 一种语音合成方法、系统及终端设备 |
CN110556092A (zh) * | 2018-05-15 | 2019-12-10 | 中兴通讯股份有限公司 | 语音的合成方法及装置、存储介质、电子装置 |
CN109036466B (zh) * | 2018-08-01 | 2022-11-29 | 太原理工大学 | 面向情感语音识别的情感维度pad预测方法 |
CN108806724B (zh) * | 2018-08-15 | 2020-08-25 | 太原理工大学 | 一种情感语音pad值预测方法及系统 |
CN111274807B (zh) * | 2020-02-03 | 2022-05-10 | 华为技术有限公司 | 文本信息的处理方法及装置、计算机设备和可读存储介质 |
CN112185345A (zh) * | 2020-09-02 | 2021-01-05 | 电子科技大学 | 一种基于rnn和pad情感模型的情感语音合成方法 |
CN113409765B (zh) * | 2021-06-11 | 2024-04-26 | 北京搜狗科技发展有限公司 | 一种语音合成方法、装置和用于语音合成的装置 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102163191A (zh) * | 2011-05-11 | 2011-08-24 | 北京航空航天大学 | 一种基于HowNet的短文本情感识别方法 |
CN102222500A (zh) * | 2011-05-11 | 2011-10-19 | 北京航空航天大学 | 结合情感点的汉语语音情感提取及建模方法 |
-
2013
- 2013-03-26 CN CN201310100284.7A patent/CN103198827B/zh not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
CN103198827A (zh) | 2013-07-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103198827B (zh) | 基于韵律特征参数和情感参数关联性的语音情感修正方法 | |
CN104464725B (zh) | 一种唱歌模仿的方法与装置 | |
CN103440863B (zh) | 一种基于流形的语音情感识别方法 | |
CN101064104B (zh) | 基于语音转换的情感语音生成方法 | |
CN102779510B (zh) | 基于特征空间自适应投影的语音情感识别方法 | |
CN104123933A (zh) | 基于自适应非平行训练的语音转换方法 | |
CN103345200B (zh) | 一种基于广义区间的切削加工颤振辨识方法 | |
CN108281158A (zh) | 基于深度学习的语音活体检测方法、服务器及存储介质 | |
CN101833951A (zh) | 用于说话人识别的多背景模型建立方法 | |
CN103280224A (zh) | 基于自适应算法的非对称语料库条件下的语音转换方法 | |
CN105919591A (zh) | 一种基于表面肌电信号的手语识别发声系统及方法 | |
ATE441298T1 (de) | Verfahren und vorrichtung zur anpassung eines funknetzmodells an die bedingungen eines realen funknetzes | |
CN107705556A (zh) | 一种基于支持向量机和bp神经网络结合的交通流预测方法 | |
Sun et al. | Research on the classification and identification of driver’s driving style | |
CN107154071A (zh) | 基于实例根据人体测量尺寸数据生成个性化人体模型的方法 | |
CN105956529A (zh) | 一种基于lstm型rnn的中国手语识别方法 | |
CN107945791A (zh) | 一种基于深度学习目标检测的语音识别方法 | |
CN103456302A (zh) | 一种基于情感gmm模型权重合成的情感说话人识别方法 | |
JP2021509211A (ja) | ランダムアイソジオメトリック解析に基づくブレードの高剛性の設計方法 | |
CN103020709B (zh) | 基于人工蜂群和量子粒子群算法的一维水质模型参数率定方法 | |
CN108647823A (zh) | 基于深度学习的股票数据分析方法和装置 | |
CN106408084A (zh) | 一种知识与数据混合驱动的二型模糊神经网络设计方法 | |
CN102592590A (zh) | 一种可任意调节的语音自然变声方法及装置 | |
CN105280181A (zh) | 一种语种识别模型的训练方法及语种识别方法 | |
CN103413548B (zh) | 一种基于受限玻尔兹曼机的联合频谱建模的声音转换方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20150617 Termination date: 20190326 |