CN1811911A

CN1811911A - 自适应的语音变换处理方法

Info

Publication number: CN1811911A
Application number: CNA2005100049108A
Authority: CN
Inventors: 陈明; 吕士楠; 张连毅; 武卫东; 李秀林
Original assignee: JIETONG HUASHENG SPEECH TECHNOLOGY Co Ltd
Current assignee: Beijing InfoQuick SinoVoice Speech Technology Corp.
Priority date: 2005-01-28
Filing date: 2005-01-28
Publication date: 2006-08-02
Anticipated expiration: 2025-01-28
Also published as: CN1811911B

Abstract

本发明提供一种自适应的语音变换处理方法，包括步骤：(a)建立多样本语音数据库；(b)分析多样本语音库中的语音数据，提取语音参数；规划并建立语音参数库，为数据处理阶段提供依据；(c)分析声源特征，获取不同个体的语音参数，将得到的这些参数作为衡量不同声音之间差异的依据；(d)利用语音参数库，建立声源特征和目标特征的映射关系；(e)根据映射系数，进行自适应调整。通过获取声源特征和目标特征的主要参数(如基频和共振峰)，建立声源与目标特征之间的映射关系，利用语音数据库的统计信息，使得不同说话人的声音可以自适应地变换到同一类变音效果，改善了声音变换的效果。

Description

自适应的语音变换处理方法

技术领域

本发明涉及计算机语音信号处理领域，具体涉及语音变换处理方法。

背景技术

影响语音感知的因素有很多，其中基频和共振峰是最为重要的两个因素。通过对基频和共振峰的调整，可以得到一种完全不同的声音，这就是所谓的语音变换，又叫音色变换、变音。

变音系统主要由三部分组成：数据获取部分、数据处理部分和结果输出部分(如图1所示)。数据获取部分的功能是为数据处理部分提供原材料，也就是用户希望进行变换的内容。数据处理部分的功能是对输入数据进行加工，来达到某种变换的效果。结果输出部分的功能是，接收并输出数据处理部分加工过的数据。其中，数据处理部分是整个系统的核心。

现有的变音算法，主要对利用基频和共振峰等声学参数的声音变换方法做了阐述。但是，对于如何选取其参数来达到某种效果，并没有提及。而在实际应用中，变音效果直接受到设置参数的影响，甚至有时因为参数设置不合理，其效果会和需要的效果大相径庭。分析其原因，主要是没有对声源特征和目标特征进行分析，未能建立声源与目标之间的联系，缺乏自适应调整的功能。

本发明所要解决的技术问题：不同声源(说话人)的变音效果，往往大相径庭，目前算法不能自动调整。

发明内容

鉴于现有算法存在的问题，本发明通过建立声源与目标特征之间的映射关系，使得不同说话人的声音可以自适应地变换到同一类变音效果。在原有算法的基础上，通过获取声源特征和目标特征的主要参数(如基频和共振峰)，利用语音数据库的统计信息，建立源和目标之间的映射关系，增加了自适应处理部分，改善了声音变换的效果。

本发明提供的一种自适应的语音变换处理方法，包括步骤：

(a)建立多样本语音数据库；

(b)分析多样本语音库中的语音数据，提取语音参数；规划并建立语音参数库，为数据处理阶段提供依据；

(c)分析声源特征，获取不同个体的语音参数，将得到的这些参数作为衡量不同声音之间差异的依据；

(d)利用语音参数库，建立声源特征和目标特征的映射关系；

(e)根据映射系数，进行自适应调整。

其中所述语音参数包括：基频、共振峰。

其中所述映射函数可以是线性的，也可以是非线性的。

本发明与现有技术相比的有益效果：解决了不同声源(说话人)的变音效果差异过大，很多变音效果与需要的效果不一致的问题，使得变音技术更加适合应用。

附图说明

图1为语音变换系统示意图；

图2为本发明提供的自适应语音变换处理方法流程图。

具体实施方式

实施中，主要有如下几个过程：

首先，分析多人多样本语音库中的语音数据，提取出基频、共振峰等参数。利用聚类等方法，将所有的样本根据划分特征的不同分为几类，比如按照性别可以分为男性和女性；按照音色可以分为低沉的、沙哑的、普通的、靓丽的；按照年龄可以分为老年的、中年的、青年的、少年的、儿童的。按照需要，规划并建立语音参数库，为数据处理阶段提供依据。

分析声源特征，获取不同个体的基频、共振峰等参数。不同个体的声音往往不同，得到的这些参数将作为衡量不同声音之间差异的依据。

利用语音参数库，建立声源特征和目标特征的映射关系，即：

k＝f(P_T，P_S)(1)

其中，k为一组映射系数，P_T为一组目标特征参数，P_S为一组声源特征参数，f为映射函数。映射函数可以选择线性的，也可以选择非线性的。

特征参数可以是基频，可以是共振峰，也可以两者都用，甚至扩充其他参数。下面，仅对单独利用基频和共振峰的情况进行说明，其他情况与此类似。

如果利用基频为特征参数，按照如下步骤构造映射函数。首先，从说话人连续语流中提取基频序列，设为P_T。同时，利用第一步中的统计结果构造相应的基频序列P_S。如果选用线性映射关系，例如，可以选取映射系数为k＝f(P_T，P_S)＝P_T/P_S。

如果利用共振峰为特征参数，按照如下步骤构造映射函数。首先，从说话人连续语流中，提取共振峰序列，选择前n个(一般3～5个)共振峰的位置，设为P_T(1∶n)。同时，利用第一步中的统计结果，构造相应的共振峰序列P_S(1∶n)。由于两个序列都是n维的，所以映射关系函数也需要设计为n维的。如果选用线性映射关系，也可以选取映射系数为简单的比例关系k(1∶n)＝P_T(1∶n)/P_S(1∶n)。

根据映射系数，进行自适应调整。设t时刻通过映射获得的一组映射系数为k(t)＝f[P_T(t)，P_S]，为了保障算法的稳定性，调整系数α(t)是根据t时刻以及t时刻之前的映射系数设计的，即：

α(t)＝g[k(t)，k(t-1)，...，k(0)] (2)

其中，g为调整系数计算函数。调整系数也可以表示为：

α(t)＝h[k(t)，α(t-1)] (3)

这样只需要利用当前的映射系数k(t)和前一时刻的调整系数α(t-1)。对于0时刻，可以认为其前一时刻的调整系数没有影响，只与0时刻的映射系数有关，即：

α(0)＝k(0) (4)

例如，我们可以采用关系式(3)，并定义函数h为：

h[k(t)，α(t-1)]＝βα(t-1)+(1-β)k(t) (5)

其中，β为常数，并满足0≤β≤1。

数据流动示意图如图2所示，原始数据经过特征分析，获得的参数与参数库中的参数建立映射关系，获得最优的一组参数，利用这组参数和前一时刻的调整系数，计算当前时刻的调整系数，然后进行音色变换处理，获得的输出数据将更好地满足需要。

Claims

1、一种自适应的语音变换处理方法，包括步骤：

(a)建立多样本语音数据库；

(d)利用语音参数库，建立声源特征和目标特征的映射关系；

(e)根据映射系数，进行自适应调整。

2、如权利要求1所述的语音变换处理方法，其中所述语音参数包括：基频、共振峰。

3、如权利要求1所述的语音变换处理方法，其中所述映射函数可以是线性的，也可以是非线性的。