CN106057192A

CN106057192A - 一种实时语音转换方法和装置

Info

Publication number: CN106057192A
Application number: CN201610534771.8A
Authority: CN
Inventors: 李敬源
Original assignee: TCL Corp
Current assignee: TCL Corp
Priority date: 2016-07-07
Filing date: 2016-07-07
Publication date: 2016-10-26

Abstract

本发明提供了一种实时语音转换方法，所述方法包括：根据预先设定的目标语音和接收包括唤醒词的用户语音所提取的特征信息，进行神经网络训练，得到神经网络参数，其中，所述特征信息包括基频数据和共振峰数据；根据所述神经网络参数，对待转换的语音数据实时进行转换。本发明可以在语音转换过程中不断学习和优化，通过录制少量数据即可实现对目标语音的转换，并且转换韵律一致，不容易出错。

Description

一种实时语音转换方法和装置

技术领域

本发明属于语音转换领域，尤其涉及一种实时语音转换方法和装置。

背景技术

近年来，语音变调和语音转换技术越来越多的受到人们的关注。出于隐私、安全或者娱乐等方面的考虑，越来越多的语音转换类应用得到了普及。

目前，简单的语音变调，如：男人语音变成女人语音、老人语音变小孩语音等技术已经比较成熟。常用的方法是在时域内，先对信号进行变长不变调的拼接处理，之后再进行变长又变调的重采样操作，最后实现变调不变长的语音转换。但这种转换只能得到某一种不同频率的声音，无法针对特定目标得到音色相似的转换结果。

针对具体目标的语调变换被称为语音转换技术，目前的语音转换技术主要分为模型训练法和基于语义的语音合成技术。其中：

模型训练法要求对目标人物和说话者语音进行平行建库，训练对语音特征的映射模型。这种算法需要用户录制大量指定语音数据，根据录制的指定语音数据配合训练，操作较为麻烦，使得该方法难以产品化；

基于语义的语音合成技术，需要先对说话者语音进行语音识别，根据识别结果进行语音合成，合成的语音与说话者语音的韵律可能不一致，如果语音识别错误，则会导致语音转换出错。

发明内容

本发明的目的在于提供一种实时语音转换方法，以解决现有技术在针对特定目标语音进行语音转换时，采用模型训练法需要录制大量的语音数据，操作较为麻烦，方法难以产品化，或者采用基于语义的合成技术，导致说话者语音与合成的语音的韵律可能不一致，或者容易出错的问题。

第一方面，本发明实施例提供了一种实时语音转换方法，所述方法包括：

根据预先设定的目标语音和接收包括唤醒词的用户语音所提取的特征信息，进行神经网络训练，得到神经网络参数，其中，所述特征信息包括基频数据和共振峰数据；

根据所述神经网络参数，对待转换的语音数据实时进行转换。

结合第一方面，在第一方面的第一种可能实现方式中，所述根据预先设定的目标语音和接收包括唤醒词的用户语音所提取的特征信息，进行神经网络训练，得到神经网络参数步骤包括：

创建覆盖有多个音素的目标语音的数据库，并接收由输入包括唤醒词的用户语音；

对所述目标语音和用户语音进行分帧，计算每帧目标语音和用户语音对应的基频数据和共振峰数据；

将分帧后的所述目标语音和用户语音按帧进行对齐；

将对齐的目标语音帧和用户语音帧的特征数据输入神经网络进行训练，得到映射后的神经网络参数。

结合第一方面的第一种可能实现方式，在第一方面的第二种可能实现方式中，所述计算每帧目标语音和用户语音对应的基频数据和共振峰数据步骤包括：

对目标语音和用户语音的语音信号x(n)进行LPC预测，得到LPC传递函数系数

根据所述LPC传递函数系数以及语音信号x(n)得到残差信号；其中，p为LPC线性预测滤波器阶数，a_i为：LPC滤波器系数；

对所述残差信号进行离散傅立页变换后的绝对值取自然对数，然后进行离散傅立页逆变换，得到残差信号的倒谱，在预定的采样频率下找到所述倒谱的极大值作为所述基频的周期；

根据所述LPC传递函数系数求解方程的根共振峰的频率为：F_i＝θ_i/(2πT)，带宽为：B_i＝-lnr_i/(πT)，其中：求出任意根为T为采样周期，θ_i为求解结果中对应的θ_i，r_i为求解结果中对应的r_i。

结合第一方面的第一种可能实现方式，在第一方面的第三种可能实现方式中，所述将分帧后的所述目标语音和用户语音按帧进行对齐步骤包括：

生成目标语音数据库的目标语音与用户语音的各帧之间的特征矩阵，计算矩阵中每一帧用户语音与每一帧目标语音的欧氏距离；

选择用户语音到目标语音的特征的欧氏距离之和最小的映射关系，确定每帧用户语音对应的目标语音。

结合第一方面的第一种可能实现方式，在第一方面的第四种可能实现方式中，所述将对齐的目标语音帧和用户语音帧的特征数据输入神经网络进行训练，得到映射后的神经网络参数步骤包括：

选择对齐的目标语音帧和用户语音帧的基频以及前三个共振峰的频率和带宽输入至神经网络进行训练得到神经网络的参数。

结合第一方面的第一种可能实现方式，在第一方面的第五种可能实现方式中，所述目标语音库中的目标语音包括多个由声母、韵母和音调组合发音。

结合第一方面，在第一方面的第六种可能实现方式中，所述方法还包括：

接收用户输入的修正语音；

根据预先设定的目标语音和修正语音提取特征信息，进行神经网络训练得到修正后的神经网络参数；

根据修正后的神经网络参数，对待转换的语音数据实时进行转换。

第二方面，本发明实施例提供了一种实时语音转换装置，所述装置包括：

训练单元，用于根据预先设定的目标语音和接收包括唤醒词的用户语音所提取的特征信息，进行神经网络训练，得到神经网络参数，其中，所述特征信息包括基频数据和共振峰数据；

转换单元，用于根据所述神经网络参数，对待转换的语音数据实时进行转换。

结合第二方面，在第二方面的第一种可能实现方式中，所述训练单元包括：

数据接收子单元，用于创建覆盖有多个音素的目标语音的数据库，并接收由输入包括唤醒词的用户语音；

计算子单元，用于对所述目标语音和用户语音进行分帧，计算每帧目标语音和用户语音对应的基频数据和共振峰数据；

对齐子单元，用于将分帧后的所述目标语音和用户语音按帧进行对齐；

训练子单元，用于将对齐的目标语音帧和用户语音帧的特征数据输入神经网络进行训练，得到映射后的神经网络参数。

结合第二方面，在第二方面的第二种可能实现方式中，所述装置还包括：

修正数据接收单元，用于接收用户输入的修正语音；

修正训练单元，用于根据预先设定的目标语音和修正语音提取特征信息，进行神经网络训练得到修正后的神经网络参数；

修正转换单元，用于根据修正后的神经网络参数，对待转换的语音数据实时进行转换。

在本发明中，通过从预先设定目标语音和接收包括唤醒词的用户语音中提取特征信息，根据特征信息中的基频和共振峰数据进行神经网络训练，得到神经网络参数，从而可以根据所述神经网络参数对待转换的语音数据进行实时转换。由于用户可以在转换结果不满意时继续输入包括唤醒词的语音进行训练，从而本发明可以在语音转换过程中不断学习和优化，通过录制少量数据即可实现对目标语音的转换，并且转换韵律一致，不容易出错。

附图说明

图1是本发明第一实施例提供的实时语音转换方法的实现流程图；

图2是本发明第二实施例提供的实时语音转换方法的实现流程图；

图2a为本发明第二实施例提供的用户语音与目标语音的矩阵关系示意图；

图3是本发明第三实施例提供的实时语音转换方法的实现流程图；

图4是本发明第四实施例提供的实时语音转换装置的结构示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明实施例的目的在于提供一种针对目标语音进行实时语音转换的方法和装置，以解决现有技术中对目标语音进行转换时可能出现的转换麻烦或者韵律不一致等问题。比如，现有技术中如果采用现有的模型训练法，需要目标语音的人物与说话者建立平行的语音数据库，需要目标人物和说话者进行大量的语音数据配合训练，操作极为麻烦，而且不容易产品化的问题。以及现有技术中采用基于语义的语音合成技术中，需要先对用户语音进行语义解析，根据解析出的语义生成目标语音，这样可能会导致转换后的目标语音与说话者的语音的韵律不一致，而且一旦语音解析时出错，则会导致生成的目标语音出错。下面结合附图，对本发明作进一步的说明。

实施例一：

图1示出了本发明第一实施例提供的实时语音转换方法的实现流程，详述如下：

在步骤S101中，根据预先设定的目标语音和接收包括唤醒词的用户语音所提取的特征信息，进行神经网络训练，得到神经网络参数，其中，所述特征信息包括基频数据和共振峰数据。

具体的，所述目标语音，即用户需要转化后的语音。所述目标语音在预先设定时，优先选用能够全部覆盖目标说话者的语种所包括的音素的组合。其中音素为决定说话者发音的音标以及语调的发音因素。比如对于汉语发音，包括生母、韵母和音调等，对于英语发音，则包括元音音标、辅音音标以及音调等。所述目标语音数据库的目标语音，可以预先由目标人物根据语音数据库的内容录制标准的语音数据库，以供后期分析和合成操作。

所述包括唤醒词的用户语音，可以根据用户的需要灵活选择，比如可以选择“现在开始进行语音转换”作为唤醒词。当接收了包括唤醒词的用户语音后，在后续用户进行主动矫正或者修正过程中，需要选用不同发音的语句，从而能够根据后续补充的用户语音，对神经网络参数作进一步的修正和优化，得到用户更为期望的目标语音。

根据目标语音和用户语音进行特征信息的提取，包括对基频的提取和共振峰数据的提取。其中，基频是指发声时声带振动频率，可通过线性预测残差倒谱的方法计算得到。共振峰数据包括共振峰的频率和宽度，可根据线性预测求根的方法进行估算得到。

根据所述目标语音和用户语音的特征信息进行神经网络训练，可选择基频以及共振峰的前三个频率和带宽进行训练。所述共振峰的前三个频率和带宽包括第一共振峰带宽、第一共振峰频率、第二共振峰带宽、第二共振峰频率、第三共振峰带宽、第三共振峰频率。提取每帧用户语音的特征信息作为神经网络的输入，选择对应的每帧目标语音的特征信息作为神经网络的输出，训练神经网络参数。

本发明实施例中所述针对目标语音的语音转换方法，和现有的基于模型的语音转换方法相比，可通过接收的包括唤醒词的少量的用户语音进行特征信息的提取，并且提取的特征信息包括基频和共振峰数据，通过所述基频和共振峰数据进行神经网络训练得到神经网络参数。

在步骤S102中，根据所述神经网络参数，对待转换的语音数据实时进行转换。

根据神经网络训练得到的神经网络参数，可用于对用户输入的待转换的语音进行转换操作，得到用户输入的待转换的语音所对应的目标语音。

根据用户输入的包括唤醒词的用户语音或者用于修正的用户语音的语音特征信息，应用线性预测基频转换和线性预测共振峰传递函数，合成转换后的语音。

本发明通过从预先设定目标语音和接收包括唤醒词的用户语音中提取特征信息，根据特征信息中的基频和共振峰数据进行神经网络训练，得到神经网络参数，从而可以根据所述神经网络参数对待转换的语音数据进行实时转换。由于用户可以在转换结果不满意时继续输入包括唤醒词的语音进行训练，从而可以在语音转换过程中不断学习和优化，通过录制少量数据即可实现对目标语音的转换，并且转换韵律一致，不容易出错。

实施例二：

图2示出了本发明第二实施例提供的实施语音转换方法的实现流程，详述如下：

在步骤S201中，创建覆盖有多个音素的目标语音的数据库，并接收由输入包括唤醒词的用户语音。

具体的，对于所述目标语音的数据库，选用覆盖有多个音素的目标语音，较优的实施方式中，所述目标语音的数据库中的目标语音，使其发音能够覆盖全部音素。其中，音素为决定说话者发音的音标以及语调的发音因素。比如对于汉语发音，包括生母、韵母和音调等，对于英语发音，则包括元音音标、辅音音标以及音调等。所述目标语音数据库的目标语音，可以预先由目标人物根据语音数据库的内容录制标准的语音数据库，以供后期分析和合成操作。

所述包括唤醒词的用户语音，用于对语音转换的参数进行计算和提取。为了使得提取的语音转换的参数的精度更高，在第一次使用的唤醒词以及后续的唤醒或者修正的词的内容尽量不同，从而能够引入音素组合更为丰富的语音的特征信息。

在步骤S202中，对所述目标语音和用户语音进行分帧，计算每帧目标语音和用户语音对应的基频数据和共振峰数据。

具体的，对目标人物的目标语音和接收的用户语音进行特征提取时，可以选择能够表征音色的基频和共振峰作为用户语音和目标语音的特征信息。

其中，基频是指发声时声带振动频率，可通过LPC线性预测的残差倒谱进行计算。语音(包括用户语音和目标语音)x(n)是声带发出的脉冲激励信号u(n),经过全极点声道系统形成的对语音信号x(n)进行LPC线性预测，得到LPC线性预测传递函数系数残差信号与声带发出的脉冲激励信号有相同的特性。残差信号e(n)可以通过语音信号x(n)进行LPC线性预测求出的滤波得到。对残差信号进行DFT傅立页变换后绝对值取对数ln，然后再进行DFT傅立页逆变换，得到残差信号e(n)的倒谱，在预定的采样频率下，比如在fs/500～fs/60(fs是采样频率)内找到的极大值，好可得到对应的声带基频的周期。

共振峰峰值和频带宽度应用LPC线性预测求根法进行估算。根据LPC线性预测求出的系数，求解方程的根，设求出任意根为共振峰的频率为：F_i＝θ_i/(2πT)，带宽为：B_i＝-lnr_i/(πT)，其中：求出任意根为T为采样周期，θ_i为求解结果中对应的θ_i，r_i为求解结果中对应的r_i，p为LPC线性预测滤波器阶数，a_i为：LPC滤波器系数。共振峰的频率和带宽如下，取前三个共振峰频率和带宽作为特征信息。

其中共振峰频率为：F_i＝θ_i/(2πT)；

共振峰带宽为：B_i＝-lnr_i/(πT)。

在步骤S203中，将分帧后的所述目标语音和用户语音按帧进行对齐。

本申请可通过DTW动态时间规整方法对用户语音和目标语音的各帧进行对齐操作。需要先对目标人物和用户的语音分帧，目标语音的帧数标记为m，用户语音的帧数标记为n，查找用户语音到目标人物语音的各帧映射关系n＝f(m)，使映射关系中各帧的用户语音和对应的目标人物的目标语音的特征信息的欧式距离之和最小。

统计目标语音与用户语音各帧的特征信息的距离矩阵，然后应用DTW动态时间规整很容易得到最终的帧间映射关系。如图2a所示，矩阵中各点数值d(m,n)为目标语音第m帧和用户语音第n帧特征的欧氏距离。找映射关系f，就是从这个矩阵的左下角到右上角找到一条路径，在这条路径上数值之和最小。应用动态规划很容易能得到这个映射关系,根据映射关系就可将找到每帧用户语音对应的目标语音。

在步骤S204中，将对齐的目标语音帧和用户语音帧的特征数据输入神经网络进行训练，得到映射后的神经网络参数。

根据所述映射关系，可将对应帧的语音的特征信息应用神经网络来进行训练，生成神经网络参数。其中，对于神经网络的训练过程，可以用于获取神经网络参数以及对神经网络参数作进一步优化。

所述神经网络可以包含4层，输入输出包括7单元，分别对应用户语音的特征信息和目标人物的目标语音的特征信息。

所述特征信息包括：基频、第一共振峰频率、第一共振峰带宽、第二共振峰频率、第二共振峰带宽、第三共振峰频率、第三共振峰带宽。每个隐含层为25单元。提取用户语音的每帧的特征信息作为输入，选取对应的目标语音的帧的特征信息作为输出，训练神经网络的参数。

在步骤S205中，根据所述神经网络参数，对待转换的语音数据实时进行转换。

根据用户语音的各帧语音参数输入神经网络，结合训练得到的神经网络参数，可得到映射后的语音特征参数。

根据训练后的用户的语音特征参数，应用LPC线性预测的基频转换和LPC线性预测的共振峰传递函数，合成转换后语音。对每帧待转换的语音信号，根据变换后的基频产生脉冲激励信号u(n)，作为LPC线性预测系统的输入，根据变换后的三个共振峰频率F_i和带宽B_i，计算共振峰模拟的三个声道传递函数：

θ_i＝2πTF_i

r_i＝exp(-B_iπT)

b_{0} = | 1 - 2 r_{i} {cosθ}_{i} \exp (- {jθ}_{i}) + r_{i}^{2} \exp (- 2 {jθ}_{i}) |

H_{i} (z) = \frac{b_{0}}{1 - 2 r_{i} {cosθ}_{i} z^{- 1} + r_{i}^{2} z^{- 2}}

脉冲激励信号u(n)依次通过这三个声道传递函数H_i(z)进行滤波，即可得到转换后的目标语音信号。其中：b₀传递函数的分子部分表达式、z为线性预测滤波器方程对应的根r_i为求解结果中对应的r_i，B为共振峰带宽，T为采样周期。

本发明实施例对于特征信息的提取、语音的对齐以及神经网络训练进行了具体的说明，通过本发明实施例，可以有效的获取语音特征参数，根据所述语音特征参数对待转换的语音信号进行转换，转换更为方便，而且不容易出错。

实施例三：

图3示出了本发明第三实施例提供的实时语音转换的实现流程，详述如下：

在步骤S301中，根据预先设定的目标语音和接收包括唤醒词的用户语音所提取的特征信息，进行神经网络训练，得到神经网络参数，其中，所述特征信息包括基频数据和共振峰数据。

在步骤S302中，接收用户输入的修正语音。

与实施例一不同之处在于，本发明还包括对语音特征参数进行修正的步骤。当用户使用本发明实施例一或二所述方法进行语音转换时，如果接收到用户对语音转换效果的评价数据，或者接收到语音修正指令时，可以进一步接收用户输入修正语音。通过输入的修正语音对语音特征参数进行优化。

值得注意的是，所述修正语音，与之前输入的包括唤醒词的用户语音应当不同，从而能够得到更好的优化效果。

在步骤S303中，根据预先设定的目标语音和修正语音提取特征信息，进行神经网络训练得到修正后的神经网络参数。

在步骤S304中，根据修正后的神经网络参数，对待转换的语音数据实时进行转换。

步骤S302和步骤S304与步骤S101基本相同，通过增加修正语音对语音特征参数进行优化后，重新对待转换的语音数据进行转换，从而得到更优的转换效果。

当然，本发明实施例中步骤S303-S305可以重复多次，直到可以得到用户满意的转换效果。

本发明实施例通过对语音特征参数进行进一步的优化，从而可以使得语音转换在使用过程中能够不断的优化，得到更为准确的转换结果。

实施例四：

图4示出了本发明第四实施例提供的实时语音转换装置的结构示意图，详述如下：

本发明实施例所述实时语音转换装置，包括：

训练单元401，用于根据预先设定的目标语音和接收包括唤醒词的用户语音所提取的特征信息，进行神经网络训练，得到神经网络参数，其中，所述特征信息包括基频数据和共振峰数据；

转换单元402，用于根据所述神经网络参数，对待转换的语音数据实时进行转换。

优选的，所述训练单元包括：

优选的，所述装置还包括：

修正数据接收单元，用于接收用户输入的修正语音；

优选的，所述计算子单元具体用于：

根据所述LPC传递函数系数以及语音信号x(n)得到残差信号；其中，p为LPC线性预测滤波器阶数，a_i为：LPC滤波器系数。

对所述残差信号进行离散傅立页变换后的绝对值取自然对数，然后进行离散傅立页逆变换，得到残差信号的倒谱，在预定的采样频率下找到所述倒谱的极大值作为所述基频的周期。

优选的，所述对齐子单元具体用于：

优选的，所述训练子单元具体用于：选择对齐的目标语音帧和用户语音帧的基频以及前三个共振峰的频率和带宽输入至神经网络进行训练得到神经网络的参数。

优选的，所述目标语音库中的目标语音包括多个由声母、韵母和音调组合发音。

本发明实施例所述实时语音转换装置，与实施例一至三所述实时语音转换方法对应，在此不作重复赘述。

在本发明所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种实时语音转换方法，其特征在于，所述方法包括：

2.根据权利要求1所述方法，其特征在于，所述根据预先设定的目标语音和接收包括唤醒词的用户语音所提取的特征信息，进行神经网络训练，得到神经网络参数步骤包括：

将分帧后的所述目标语音和用户语音按帧进行对齐；

3.根据权利要求2所述方法，其特征在于，所述计算每帧目标语音和用户语音对应的基频数据和共振峰数据步骤包括：

4.根据权利要求2所述方法，其特征在于，所述将分帧后的所述目标语音和用户语音按帧进行对齐步骤包括：

5.根据权利要求2所述方法，其特征在于，所述将对齐的目标语音帧和用户语音帧的特征数据输入神经网络进行训练，得到映射后的神经网络参数步骤包括：

6.根据权利要求2所述方法，其特征在于，所述目标语音库中的目标语音包括多个由声母、韵母和音调组合发音。

7.根据权利要求1所述方法，其特征在于，所述方法还包括：

接收用户输入的修正语音；

8.一种实时语音转换装置，其特征在于，所述装置包括：

9.根据权利要求8所述装置，其特征在于，所述训练单元包括：

10.根据权利要求8所述装置，其特征在于，所述装置还包括：

修正数据接收单元，用于接收用户输入的修正语音；