CN103886859A

CN103886859A - 基于一对多码书映射的语音转换方法

Info

Publication number: CN103886859A
Application number: CN201410050758.6A
Authority: CN
Inventors: 徐宁; 胡芳; 鲍静益; 刘小峰; 汤一彬; 蒋爱民
Original assignee: Changzhou Campus of Hohai University
Current assignee: Changzhou Campus of Hohai University
Priority date: 2014-02-14
Filing date: 2014-02-14
Publication date: 2014-06-25
Anticipated expiration: 2034-02-14
Also published as: CN103886859B

Abstract

本发明公开了一种基于一对多码书映射的语音转换方法，对源语音码书与目标语音码书的一对多映射关系的建立，从平行数据库中随机提取一部分语音，对齐并提取声道参数后快速建立源与目标语音码书；估算用于训练的数据中源与目标特征参数对应于其各自码书的权重，通过统计与分析二者的关系来建立源与目标语音的权重映射关系，进而掌握个性特征的映射规则，实现高质量、快速的语音转换，能够解决实际环境中语音转换系统的实时性、转换后相似度的问题，最终在对语音转换实时性追求的过程中减小转换效果的代价，从而提高转换结果与目标语音的相似度，具有良好的应用前景。

Description

基于一对多码书映射的语音转换方法

技术领域

本发明涉及一种基于一对多码书映射的语音转换方法，属于语音转换技术领域。

背景技术

语音转换技术是将某人（称之为源）的语音作为输入，对其进行特征参数的修改，使其输出语义相同但具有另一说话人（称之为目标）声音个性的语音的技术。简单地说就是将一个说话人的声音，通过某种手段进行变换，使其听起来仿佛是另一个说话人说的话，语音转换是音信号处理领域一个较新的分支，属于交叉性的学科分支，其内容既涵盖语音的分析与合成、说话人识别、语音编码和增强等语音处理领域的各方面又涉及到语音学、语义学及心理声学等领域的知识。

近年来，语音转换技术在许多语音研究者的努力下已经初成一些体系，如隐马尔可夫模型、人工神经网络、统计映射法等，早年，Stylianou等人通过高斯混合模型实现了对特征参数的映射，继而该方法也成为了当前较为主流的方法之一，语音转换的最终目标是实时化、智能化，因此转换速度与转换效果是语音转换技术最主要的追求目标。然而，以高斯混合模型训练为代表的现阶段的转换技术需要对每一段输入的语音进行进行映射规则的训练，其计算量大、消耗时间较多，很难满足语音转换的实时性要求。

针对上述问题，目前已存在一些应对方案，例如，针对“训练过程的时间消耗”问题，早期有学者提出矢量量化算法：先对用于训练的平行数据进行线性预测分析，利用矢量量化运算将平行数据的的声道包络参数划分为若干码本，然后对数据进行动态时间规整对齐并计算统计直方图，最后将统计的直方图作为加权因子建立转换规则。针对矢量量化算法的转换结果两帧之间有间断性的缺点，Shikano等人提出模糊矢量量化算法，该算法在转换时考虑到了所有源和目标码字之间的关系，然后将其加权叠加，以达到对参数进行平滑的效果，但是语音转换后相似度低。除此之外，Arslan等人提出基于分段码书的说话人映射算法，他们对输入的语音帧首先按照所属的音素类别进行分类，并采用了线性谱频率作为特征参数建立源与目标语音一对一映射的码书，但此过程复杂，处理时间长。

发明内容

本发明的目的是克服现有技术存在的不足，本发明的基于一对多码书映射的语音转换方法，能够解决实际环境中语音转换系统的实时性、转换后相似度的问题，最终在对语音转换实时性追求的过程中减小转换效果的代价，从而提高转换结果与目标语音的相似度，具有良好的应用前景。

为了达到上述目的，本发明所采用的技术方案是：

基于一对多码书映射的语音转换方法，其特征在于：包括以下步骤，

步骤（1），训练阶段，用于建立源码书与目标码书的一对多关系，包括以下步骤，

（A）对平行的语音数据采用谐波随机模型进行语音分析；

（B）从语音分析得到的模型参数中提取声道特征参数和基音频率；

（C）利用动态时间规整算法将源和目标的声道特征参数进行对齐；

（D）从对齐的特征参数中随机提取部分数据作为码书，码书包括源语音码书和目标码书；

（E）将剩余与码书不重叠的对齐数据作为训练数据，分别估算并统计源与目标的声道特征参数在各自目标码书中对应的权重，分析统计源语音与对应目标语音的权重的映射关系；

（F）通过分析统计的权重关系，建立源语音与目标码书的一对多映射关系；

步骤（2），转换阶段，用于实现语音特征的映射，合成转换后的语音，以下步骤，

（H）根据建立源语音与目标码书的一对多映射关系，实现对语音特征的映射；

（G）进行参数内插和相位补偿，合成转换后的语音。

前述的基于一对多码书映射的语音转换方法，其特征在于：（A）对平行的语音数据采用谐波随机模型进行语音分析的方法，包括如下步骤，

（A1），对语音数据进行固定时长的分帧，用互相关法对基音频率进行估计并根据基音频率划分清音信号帧与浊音信号帧；

（A2），在浊音信号帧部分设置一个最大浊音频率分量，用来划分谐波成分和随机成分的主能量区域，再利用最小二乘算法估计得到离散的谐波幅度值和相位值；

（A3），在清音信号帧部分，利用经典的线性预测分析法对其进行分析，得到线性预测系数。

前述的基于一对多码书映射的语音转换方法，其特征在于：（B）从语音分析得到的模型参数中提取声道特征参数和基音频率的方法，包括以下步骤，

（B1），对（A2）得到的离散的谐波幅度值求取平方；

（B2），根据功率谱密度函数和自相关函数的一一对应关系，得到（A3）线性预测系数的托普里茨矩阵方程，求解该方程，将线性预测系数转换为线性谱频率系数。

前述的基于一对多码书映射的语音转换方法，其特征在于：（C）利用动态时间规整算法将源和目标的声道特征参数进行对齐，对齐准则为：对于两个不等长的特征参数序列，利用动态时间规整算法将其中一者的时间轴非线性的映射到另一者的时间轴上，实现一一对应的匹配关系；在现参数集合的对齐过程中，通过迭代优化，最终获得时间匹配函数。

前述的基于一对多码书映射的语音转换方法，其特征在于：（D）从对齐的特征参数中随机提取部分数据作为目标码书的过程是从对齐后的特征参数对中随机提取出特征参数对，将其中每一个源语音特征参数的矢量作为一个源语音码字，组合成源语音码书；其对应的目标语音特征参数组合成目标码书。

前述的基于一对多码书映射的语音转换方法，其特征在于：（E）将剩余与码书不重叠的对齐数据作为训练数据，分别估算并统计源与目标的声道特征参数在各自目标码书中对应的权重，分析统计源语音与对应目标语音的权重的映射关系的方法，包括以下步骤，

（E1），分别估算源语音与目标语音的线性谱频率参数矢量与其对应码书中每个码字的距离；

（E2），根据其与码书中每个码字的距离，计算出其对应于码书中各码字的权重；

（E3），分析统计源语音与对应目标语音的权重的映射关系。

前述的基于一对多码书映射的语音转换方法，其特征在于：（G）进行参数内插和相位补偿，合成转换后的语音的方法，包括以下步骤，

（G1），根据浊音信号帧部分转换后的线性谱频率参数估算其谐波参数；

（G2），将浊音信号帧部分的离散谐波幅度值和相位值用作正弦信号的幅度值和相位值，并进行叠加，运用内插和相位进行补偿，得到补偿后浊音信号帧部分；

（G3），将清音信号帧部分的白噪声信号通过全极点滤波器，得到滤波后清音信号帧部分；

（G4），将补偿后浊音信号帧部分和滤波后清音信号帧部分进行叠加，得到合成转换的重构语音信号。

本发明的有益效果是：本发明的基于一对多码书映射的语音转换方法，对源语音码书与目标语音码书的一对多映射关系的建立，从平行数据库中随机提取一部分语音，对齐并提取声道参数后快速建立源与目标语音码书；然后，估算用于训练的数据中源与目标特征参数对应于其各自码书的权重，通过统计与分析二者的关系来建立源与目标语音的权重映射关系，进而掌握个性特征的映射规则，实现高质量、快速的语音转换，能够解决实际环境中语音转换系统的实时性、转换后相似度的问题，最终在对语音转换实时性追求的过程中减小转换效果的代价，从而提高转换结果与目标语音的相似度，具有良好的应用前景。

附图说明

图1是本发明的训练阶段的流程示意图。

图2是本发明的转换阶段的流程示意图。

具体实施方式

下面将结合说明书附图，对本发明作进一步的说明。

本发明的基于一对多码书映射的语音转换方法，包括训练阶段和转换阶段，训练阶段，首先，利用已建立的源与目标码书对平行数据分别进行权重估算并统计分析，然后通过源与目标的权重关系建立源码书与目标码书的一对多关系。转换阶段，首先，获得待转换的源语音的权重，然后由源语音码书与目标码书的一对多关系获得映射的特征参数，具体包括如下步骤：

步骤（1），如图1所示，训练阶段，用于建立源码书与目标码书的一对多关系，包括以下步骤，

（A）对平行的语音数据采用谐波随机模型进行语音分析，包括如下步骤，

A1），对语音数据进行固定时长的分帧，用互相关法对基音频率进行估计并根据基音频率划分清音信号帧与浊音信号帧；

A2），在浊音信号帧部分设置一个最大浊音频率分量，用来划分谐波成分和随机成分的主能量区域，再利用最小二乘算法估计得到离散的谐波幅度值和相位值；

A3），在清音信号帧部分，利用经典的线性预测分析法对其进行分析，得到线性预测系数；

（B）从语音分析得到的模型参数中提取声道特征参数和基音频率，包括如下步骤，；

B1），对A2）得到的离散的谐波幅度值求取平方；

B2），根据功率谱密度函数和自相关函数的一一对应关系，得到A3）线性预测系数的托普里茨矩阵方程，求解该方程，将线性预测系数转换为线性谱频率系数；

C）利用动态时间规整算法将源和目标的声道特征参数进行对齐，对齐准则为：对于两个不等长的特征参数序列，利用动态时间规整算法将其中一者的时间轴非线性的映射到另一者的时间轴上，实现一一对应的匹配关系；在现参数集合的对齐过程中，通过迭代优化一个预设的累积失真函数，并限制搜索区域，最终获得时间匹配函数；

（D）从对齐的特征参数中随机提取部分数据作为码书，码书包括源语音码书和目标码书，过程是从对齐后的特征参数对中随机提取出特征参数对，将其中每一个源语音特征参数的矢量作为一个源语音码字，组合成源语音码书；其对应的目标语音特征参数组合成目标码书；

（E）将剩余与码书不重叠的对齐数据作为训练数据，分别估算并统计源与目标的声道特征参数在各自目标码书中对应的权重，分析统计源语音与对应目标语音的权重的映射关系，包括以下步骤，

E1），分别估算源语音与目标语音的线性谱频率参数矢量与其对应码书中每个码字的距离；

E2），根据其与码书中每个码字的距离，计算出其对应于码书中各码字的权重；

E3），分析统计源语音与对应目标语音的权重的映射关系；

步骤（2），如图2所示，转换阶段，用于实现语音特征的映射，合成转换后的语音，以下步骤，

（G）进行参数内插和相位补偿，合成转换后的语音，包括以下步骤，

G1），根据浊音信号帧部分转换后的线性谱频率参数估算其谐波参数；

G2），将浊音信号帧部分的离散谐波幅度值和相位值用作正弦信号的幅度值和相位值，并进行叠加，运用内插和相位进行补偿，得到补偿后浊音信号帧部分；

G3），将清音信号帧部分的白噪声信号通过全极点滤波器，得到滤波后清音信号帧部分；

G4），将补偿后浊音信号帧部分和滤波后清音信号帧部分进行叠加，得到合成转换的重构语音信号。

下面介绍按照本发明的语音转换方法的一具体实施例，具体如下，

步骤（1），训练阶段：

（A）源和目标人的语音通过谐波加随机模型进行分解，得到基音频率轨迹和谐波声道谱参数的幅度值和相位值。具体细节描述如下：

A1）对语音信号进行分帧，帧长20ms，帧重叠间隔10ms，在每帧中，用自相关法估计基频，若该帧为清音帧，则设置基频等于零；

A2）对于浊音帧（即基频不为零的帧），假设语音信号s_h(n)可以由一系列的正弦波叠加而成：

s_{h} (n) = Σ_{l = - L}^{L} C_{l} e^{j ω_{0} n} - - - (1)

其中，L为正弦波的个数，{C_l}为正弦波的复幅度，ω₀为基音频率，n表示语音的第n个样点，令s_h表示s_h(n)在一帧内的样点所组成的矢量，则公式(1)可以改写成：

s_h＝BΔ，

Δ = [\begin{matrix} C_{- L} \\ C_{- L + 1} \\ . \\ . \\ . \\ C_{L} \end{matrix}]

(2)

其中，N表示一帧语音总的样点数，通过最小二乘算法确定上述{C_l}，即

ϵ = Σ_{n = - \frac{N}{2}}^{\frac{N}{2}} w^{2} (n) \cdot {(s (n) - s_{h} (n))}^{2} - - - (3)

其中，s(n)是真实语音信号，w(n)是窗函数，取汉明窗，ε表示误差，将窗函数也改写成矩阵形式：

最优值为，

WBΔ = Ws &DoubleRightArrow; Δ_{pot} = B^{H} W^{H} Ws - - - (5)

其中，上标H表示共轭复转置，BΔ＝s，Δ_opt为最优值，s为真实语音信号s(n)在一帧的范围内的样点所组成的矢量，得到了{C_l}，则谐波幅度和相位值如下：

AM_l＝2|C_l|＝2|C_-l|,θ_l＝argC_l＝-argC_-l (6)

A3），对于清音帧，用经典的线性预测分析方法对原始语音帧信号进行分析，得到对应的线性预测系数；

(B)由于原始谐波加噪声模型参数维数较高，不便于后续计算，因此必须对其进行降维，由于基频轨迹是一维参数，因此，降维的主要对象是声道幅度谱参数和相位参数。同时，降维的目标是将声道参数转化为经典的线性预测参数，进而产生适用于语音转换系统的线性谱频率参数，求解步骤如下：

B1）分别求取离散的L个幅度值AM_l的平方，并将其认为是离散功率谱的采样值PW(ω_l)，ω_l表示在基频整数倍上（l倍）的频率值；

B2）根据帕斯卡定律，自相关函数和功率谱密度函数是一对傅立叶变换对，即

其中，R_n为自相关函数在第n个时刻的值、PW(ω_l)为连续功率谱密度函数，因此通过求解下式得到对线性预测参数系数的初步估值：

其中，a₁,a₂,…,a_p是p阶线性预测滤波器A(z)的系数，R₀～R_p分别为自相关函数前p个整数离散点上的值；将p阶线性预测参数系数代表的全极点模型转换成时域冲激响应函数h^*[n]：

h^{*} (n) = \frac{1}{L} Re {\underset{l}{Σ} \frac{1}{A (e^{j ω_{l}})} e^{j ω_{l} n}} - - - (8)

其中，

A (e^{j ω_{l}}) = A {(z)}_{| z = e^{j ω_{l}}} = 1 + a_{1} z^{- 1} + a_{2} z^{- 2} + . . . + a_{p} z^{- p},

可以证明，h^*和估计得到的自相关序列R^*满足：

Σ_{i = 0}^{p} a_{i} R^{*} (n - i) = h^{*} [- n] - - - (9)

在满足板仓-斋田距离最小化的情况下，有真实的R和估计的R^*的关系如下：

Σ_{i = 0}^{p} a_{i} R^{*} (n - i) = Σ_{i = 0}^{p} a_{i} R (n - i) - - - (10)

于是将(9)式代替(10)式，并重估计(7)式有：

用板仓-斋田准则评估误差，如果误差大于设定的阈值，则重复迭代，反之，则停止迭代，得到的线性预测参数系数通过联立求解下面两个等式，转化为线性谱频率参数，

P(z)＝A(z)+z^-(p+1)A(z^-1)

Q(z)＝A(z)-z^-(p+1)A(z^-1) (12)

（C）将得到的源和目标的线性谱频率参数，用动态时间规整算法进行对齐，对齐是指：使得对应的源和目标的线性谱频率在设定的失真准则上具有最小的失真距离，这样做的目的是：使得源和目标人的特征序列在参数的层面上关联，便于后续统计模型学习其中的映射规律。动态时间规整算法步骤简要概述如下：

对于同一个语句的发音，假定源说话人的声学个性特征参数序列为

而目标说话人的特征参数序列为

且N_x≠N_y，设定源说话人的特征参数序列为参考模板，则动态时间规整算法就是要寻找时间规整函数

使得目标特征序列的时间轴n_y非线性地映射到源特征参数序列的时间轴n_x，从而使得总的累积失真量最小，在数学上可以表示为：

其中，

表示第n_y帧的目标说话人特征参数和第

帧源说话人特征参数之间的某种测度距离。在动态时间规整的规整过程中，规整函数

是要满足以下的约束条件的，有边界条件和连续性条件分别为：

动态时间规整是一种最优化算法，它把一个多阶段决策过程化为多个单阶段的决策过程，也就是转化为逐一做出决策的多个子问题，以便简化计算。动态时间规整的过程一般是从最后一个阶段开始进行，也即它是一个逆序过程，其递推过程可以表示为：

D(n_y+1,n_x)＝d(n_y+1,n_x)+min[D(n_y,n_x)g(n_y,n_x),D(n_y,n_x-1),D(n_y,n_x-2)]

(16)

其中，

g(n_y,n_x)是为了n_y,n_x的取值满足时间规整函数的约束条件；

（D）建立源与目标语音码书，从对齐后的特征参数对中随机选取出N（一般情况下N>2000）对特征参数对，将其中每一个源语音特征参数矢量都看作一个源语音码字组合成源语音码书，将对应的每一个目标语音特征参数矢量都看作一个目标语音码字组合成目标语音码书；

（E）将与码书不重叠的对齐数据作为训练数据，通过训练数据的计算与分析建立权重关系统计矢量集合B=[b₁，b₂,.....,b_N]，N为码书的尺度，即码书所包含的码字个数，在对码书映射关系的训练前，默认源语音码书与目标语音码书为一一对应关系，即设定B的初值为N×N的单位矩阵，然后，对训练数据逐帧进行如下操作：

E1）分别计算源语音与目标语音的线性谱频率参数矢量每一维的感知系数，

h_{k} = \frac{1}{w_{k} - w_{k - 1}} + \frac{1}{w_{k + 1} - w_{k}}, k = 1,2,3 . . . p - - - (17)

w＝[w₁,w₂,.....,w_p]为输入帧的线性谱频率矢量,p为线性谱频率矢量的维数；

E2）分别计算源语音与目标语音的线性谱频率参数对应于码书中各码字的权重，源语音线性谱频率参数与源语音码书中各码字的距离为：

d_{i}^{s} = Σ_{k = 1}^{p} h_{k} | ω_{k} - m_{ik}^{s} |, i = 1,2, . . . N; - - - (18)

其中，ω_k为源语音线性谱频率参数第k维的数值，h_k为源语音线性谱频率参数第k维数值对应的感知系数，

为源语音码书第i个码字的第k维的数值。

同理与源语音权重的计算，目标语音线性谱频率参数与目标音码书中各码字的距离为：

d_{i}^{t} = Σ_{k = 1}^{p} h_{k} | ω_{k} - m_{ik}^{t} |, i = 1,2, . . . N; - - - (19)

其中，ω_k为目标语音线性谱频率参数第k维的数值，h_k为目标语音线性谱频率参数第k维数值对应的感知系数，为目标语音码书第i个码字的第k维的数值，利用线性谱频率参数矢量与码字的距离我们可以求得它对应于此码字的权重；

v_{i} = \frac{e^{- {γd}_{i}}}{Σ_{l = 1}^{L} e^{- {γd}_{l}}}, i = 1,2, . . ., N; - - - (20)

其中，d_i为步骤b中计算出的线性谱频率参数矢量与第i个码字的距离，γ为一个范围在0.2--2的常数，将公式（18）带入公式（20）得到源语音线性谱频率矢量对应于源语音码书的权重；将公式（19）带入公式（20）得到目标语音线性谱频率矢量对应于目标语音码书的权重；

E3）分析统计源语音与对应目标语音的最大权重的映射关系并修正映射关系矢量集合B：记录源语音线性谱频率最大权重对应的源码字的序列j_s(1≤j_s≤N)和目标语音线性谱频率最大权重对应的目标码字的序列j_t(1≤j_t≤N)，在统计矩阵相应位置增加一个权重量，即矢量集合B中矢量b_js第j_t维位置的数值累加1，经过对所有训练数据帧进行计算与统计后所获得映射矢量集合B，对B中各矢量进行归一化：

b_{i} = \frac{b_{i}}{Σ_{k = 1}^{N} b_{ik}}, i = 1,2 . . . . . N, k = 1,2 . . . . . N - - - (21)

即求得的码书映射关系；

（F）建立基频转换函数：认为源语音基频与目标语音基频为线性关系，建立一个线性函数对每一帧的基音频率进行转换，基频转换函数的建立步骤具体如下：利用训练数据计算源说话人基音频率的均值μ_s和方差

以及目标说话人基音频率的均值μ_t和方差

建立线性转换函数：

f_{0 i}^{t} = a f_{0 i}^{s} + b,

（22）

其中，代表源语音第i帧的基频，

b＝μ_t-aμ_s；

在转换阶段：

（H）根据训练阶段训练出的矢量集合B估算转换后的线性谱频率对应于目标码书的权重矢量：

{\hat{v}}^{t} = {Bv}^{S} - - - (23)

其中，v^S＝[v₁ ^S,v₂ ^S,......v_L ^S]为源权重矢量，由上式构建的线性谱频率对应于目标码书权重

获得转换后的线性谱频率参数，

\hat{w} = {\hat{v}}^{t} M^{t}

其中，M^t=[m^t ₁,m^t ₂,m^t ₃,......m_N ^t]为训练阶建立的目标码书；

（G）将转换后的目标线性谱频率参数反变换为谐波加噪声模型系数，然后和修改后的基频轨迹一起合成转换后的语音，步骤如下：

G1）将获得的AM_l,f₀,θ_l用正弦模型的定义合成第k帧的语音s^(k)(·)，即：

s^{(k)} (n) = Σ_{l = 1}^{L^{(k)}} {AM}_{l}^{(k)} \cos (2 πl f_{0}^{(k)} n + θ_{l}^{(k)}) - - - (24)

G2）为了减少帧间交替时产生的误差，采用叠接相加法合成整个语音s(·)，即对于任意相邻的两帧，有：

s (kN + m) = (\frac{N - m}{N}) \cdot s^{(k)} (m) + (\frac{m}{n}) \cdot s^{(k + 1)} (m - N), 0 \leq m \leq N - - - (25)

其中N表示一帧语音中包含的样点数；

G3）对于清音帧，将白噪声信号通过一个全极点滤波器（滤波器系数为训练阶段中分析得到的线性预测系数），可得到近似重构信号；

G4）将浊音信号和清音信号相加，即可得到合成语音。

以上显示和描述了本发明的基本原理、主要特征及优点。本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的只是说明本发明的原理，在不脱离本发明精神和范围的前提下，本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims

1.基于一对多码书映射的语音转换方法，其特征在于：包括以下步骤，

（A）对平行的语音数据采用谐波随机模型进行语音分析；

（G）进行参数内插和相位补偿，合成转换后的语音。

2.根据权利要求1所述的基于一对多码书映射的语音转换方法，其特征在于：（A）对平行的语音数据采用谐波随机模型进行语音分析的方法，包括如下步骤，

3.根据权利要求1或2所述的基于一对多码书映射的语音转换方法，其特征在于：（B）从语音分析得到的模型参数中提取声道特征参数和基音频率的方法，包括以下步骤，

（B1），对（A2）得到的离散的谐波幅度值求取平方；

4.根据权利要求1所述的基于一对多码书映射的语音转换方法，其特征在于：（C）利用动态时间规整算法将源和目标的声道特征参数进行对齐，对齐准则为：对于两个不等长的特征参数序列，利用动态时间规整算法将其中一者的时间轴非线性的映射到另一者的时间轴上，实现一一对应的匹配关系；在现参数集合的对齐过程中，通过迭代优化，最终获得时间匹配函数。

5.根据权利要求1所述的基于一对多码书映射的语音转换方法，其特征在于：（D）从对齐的特征参数中随机提取部分数据作为目标码书的过程是从对齐后的特征参数对中随机提取出特征参数对，将其中每一个源语音特征参数的矢量作为一个源语音码字，组合成源语音码书；其对应的目标语音特征参数组合成目标码书。

6.根据权利要求1所述的基于一对多码书映射的语音转换方法，其特征在于：（E）将剩余与码书不重叠的对齐数据作为训练数据，分别估算并统计源与目标的声道特征参数在各自目标码书中对应的权重，分析统计源语音与对应目标语音的权重的映射关系的方法，包括以下步骤，

7.根据权利要求1所述的基于一对多码书映射的语音转换方法，其特征在于：（G）进行参数内插和相位补偿，合成转换后的语音的方法，包括以下步骤，