CN113345451A

CN113345451A - 一种变声方法、装置及电子设备

Info

Publication number: CN113345451A
Application number: CN202110455422.8A
Authority: CN
Inventors: 戈文硕; 刘恺; 陈伟
Original assignee: Beijing Sogou Technology Development Co Ltd
Current assignee: Beijing Sogou Technology Development Co Ltd
Priority date: 2021-04-26
Filing date: 2021-04-26
Publication date: 2021-09-03
Anticipated expiration: 2041-04-26
Also published as: CN113345451B

Abstract

本发明公开了一种变声方法，在将源说话人的语音转换为目标说话人的目标语音以指定方言进行输出的过程中，将源说话人的原语音数据输入到语音识别模型中进行特征提取，将提取的原始音频识别特征，以及目标语音和指定方言输入到目标变声模型中，输出携带有指定方言的目标说话人的声学特征，再将其进行输出；此时，由于目标变声模型是自适应语音识别模型对至少一个训练说话人提取的自适应音频识别特征，以及至少一个训练说话人的声音特征进行模型训练得到的，如此，在将原始音频识别特征，以及目标语音和指定方言输入到目标变声模型中进行预测时，能够使得目标变声模型能够实现任意说话人的普通话音频到指定音色和带有指定方言口音的音频的转换。

Description

一种变声方法、装置及电子设备

技术领域

本发明涉及语音技术领域，特别涉及一种变声方法、装置及电子设备。

背景技术

随着语音识别技术的飞速发展，使得语音识别应用越广泛，例如语音翻译和变声等，在使用变声技术时，通常需要使用源说话人和目标说话人的平行语料，再平行语料对齐后再进行训练得到变声模型，以通过训练得到变声模型完成变声。

现有技术中，基于识别的变声技术模型需要采集大量的平行语料，再进行训练后得到变声模型，变声模型能够实现源说话人到目标说话人的音色转换，但针对目标说话人带有口音的情况下，无法实现源说话人到目标说话人的音色转换的同时，也让其音频带上目标说话人的方言口音。从而亟需一种实现源说话人到目标说话人的音色和特定方言口音结合后进行输出的方法。

发明内容

本发明实施例提供一种变声方法、装置及电子设备，能够实现任意源说话人的音频转换到目标说话人的音色和带有特定方言口音结合的音频，提高了变声的效果。

本发明实施例第一方面提供一种变声方法，所述方法包括：

获取源说话人的原语音数据；

通过语音识别模型提取所述原语音数据的原始音频识别特征；

将所述原始音频识别特征、所述目标语音和所述指定方言输入到目标变声模型中，输出携带有所述指定方言的所述目标说话人的声学特征，其中，所述目标变声模型是自适应语音识别模型对至少一个训练说话人提取的自适应音频识别特征，以及所述至少一个训练说话人的声音特征进行模型训练得到的，所述自适应语音识别模型是根据所述至少一个训练说话人对所述语音识别模型进行自适应训练得到的。

可选的，所述自适应语音识别模型的训练步骤包括：

获取所述至少一个训练说话人的语音数据，其中，所述至少一个训练说话人包括所述目标说话人；

针对所述至少一个训练说话人中的每个训练说话人，将训练说话人的语音数据输入到所述语音识别模型中进行特征提取，提取到训练说话人的音频识别特征，以及训练说话人的声学特征；利用训练说话人的音频识别特征和声学特征对所述语音识别模型进行自适应训练，得到训练说话人对应的自适应语音识别模型。

可选的，所述目标变声模型的训练步骤，包括：

针对所述至少一个训练说话人中的每个训练说话人，将训练说话人的语音数据输入到训练说话人对应的自适应语音识别模型中进行特征提取，提取到训练说话人的自适应音频识别特征，以及训练说话人的声学特征；

根据每个训练说话人的自适应音频识别特征和声学特征进行模型训练，得到所述目标变声模型。

可选的，所述根据每个训练说话人的自适应音频识别特征和声学特征进行模型训练，得到所述目标变声模型，包括：

针对每个训练说话人，将训练说话人的自适应音频识别特征作为模型的输入数据，将训练说话人的声学特征作为模型的输出数据进行模型训练，得到已训练的变声模型，并将所述已训练的变声模型作为所述目标变声模型。

可选的，所述将所述原始音频识别特征、所述目标语音和所述指定方言输入到目标变声模型中，输出携带有所述指定方言的所述目标说话人的声学特征，包括：

将所述原始音频识别特征输入到所述目标变声模型中，并在所述目标变声模型中的编码器中加入所述指定方言的编码，以及在所述目标变声模型的解码器中加入所述目标语音的编码，输出携带有所述指定方言的所述目标说话人的声学特征。

可选的，在输出所述指定方言的所述目标说话人的声学特征之后，所述方法还包括：

将所述目标说话人的声学特征以所述目标说话人和所述指定方言进行输出。

可选的，所述将所述目标说话人的声学特征以所述目标说话人和所述指定方言进行输出，包括：

将所述目标说话人的声学特征输入到声码器中，以所述目标说话人和所述指定方言进行输出。

本发明实施例第二方面还提供一种变声装置，包括：

语音数据采集单元，用于获取源说话人的原语音数据；

特征提取单元，用于通过语音识别模型提取所述原语音数据的原始音频识别特征；

模型预测单元，用于将所述原始音频识别特征、所述目标语音和所述指定方言输入到目标变声模型中，输出携带有所述指定方言的所述目标说话人的声学特征，其中，所述目标变声模型是自适应语音识别模型对至少一个训练说话人提取的自适应音频识别特征，以及所述至少一个训练说话人的声音特征进行模型训练得到的，所述自适应语音识别模型是根据所述至少一个训练说话人对所述语音识别模型进行自适应训练得到的。

可选的，还包括：

自适应语音识别模型训练单元，用于获取所述至少一个训练说话人的语音数据，其中，所述至少一个训练说话人包括所述目标说话人；针对所述至少一个训练说话人中的每个训练说话人，将训练说话人的语音数据输入到所述语音识别模型中进行特征提取，提取到训练说话人的音频识别特征，以及训练说话人的声学特征；利用训练说话人的音频识别特征和声学特征对所述语音识别模型进行自适应训练，得到训练说话人对应的自适应语音识别模型。

可选的，还包括：

目标变声模型训练单元，用于针对所述至少一个训练说话人中的每个训练说话人，将训练说话人的语音数据输入到训练说话人对应的自适应语音识别模型中进行特征提取，提取到训练说话人的自适应音频识别特征，以及训练说话人的声学特征；根据每个训练说话人的自适应音频识别特征和声学特征进行模型训练，得到所述目标变声模型。

可选的，所述目标变声模型训练单元，用于针对每个训练说话人，将训练说话人的自适应音频识别特征作为模型的输入数据，将训练说话人的声学特征作为模型的输出数据进行模型训练，得到已训练的变声模型，并将所述已训练的变声模型作为所述目标变声模型。

可选的，所述模型预测单元，用于将所述原始音频识别特征输入到所述目标变声模型中，并在所述目标变声模型中的编码器中加入所述指定方言的编码，以及在所述目标变声模型的解码器中加入所述目标语音的编码，输出携带有所述指定方言的所述目标说话人的声学特征。

可选的，还包括：

语音输出单元，用于将所述目标说话人的声学特征以所述目标说话人和所述指定方言进行输出。

可选的，所述语音输出单元，用于将所述目标说话人的声学特征输入到声码器中，以所述目标说话人和所述指定方言进行输出。

本发明实施例第三方面提供了一种电子设备，包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上的程序存储于存储器中，且经配置以由一个或者一个以上的处理器执行所述一个或者一个以上的程序所包含的用于进行如第一方面提供的变声方法对应的操作指令。

本发明实施例第四方面提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如第一方面提供的变声方法对应的步骤。

本申请实施例中的上述一个或至少一个技术方案，至少具有如下技术效果：

基于上述技术方案，将源说话人的原语音数据输入到语音识别模型中进行特征提取，将提取的原始音频识别特征输入到目标变声模型中，输出携带有指定方言的目标说话人的声学特征；此时，由于目标变声模型是自适应语音识别模型对至少一个训练说话人提取的自适应音频识别特征，以及至少一个训练说话人的声音特征进行模型训练得到的，且自适应语音识别模型是根据所述至少一个训练说话人对所述语音识别模型进行自适应训练得到的，如此，在将原始音频识别特征，以及目标语音和指定方言输入到目标变声模型中进行预测时，能够使得目标变声模型能够实现任意说话人的普通话音频到指定音色(目标说话人)和带有指定方言口音的音频的转换，使得变声的效果更好。

附图说明

图1为本申请实施例提供的一种变声方法的流程示意图；

图2为本申请实施例提供的一种自适应语音识别模型的训练方法的流程示意图；

图3为本申请实施例提供的一种语音识别模型和自适应语音识别模型的训练方法的流程示意图；

图4为本申请实施例提供的一种目标变声模型的训练方法的流程示意图；

图5为本申请实施例提供的一种目标变声模型的具体训练方法的流程示意图；

图6为本申请实施例提供的一种实时变声装置的方框图；

图7为本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

在本申请实施例提供的技术方案中，提供一种变声方法，基于上述技术方案，将源说话人的原语音数据输入到语音识别模型中进行特征提取，将提取的原始音频识别特征输入到目标变声模型中，输出携带有指定方言的目标说话人的声学特征，再将其进行输出；此时，由于目标变声模型是自适应语音识别模型对至少一个训练说话人提取的自适应音频识别特征，以及至少一个训练说话人的声音特征进行模型训练得到的，且自适应语音识别模型是根据所述至少一个训练说话人对所述语音识别模型进行自适应训练得到的，如此，在将原始音频识别特征，以及目标语音和指定方言输入到目标变声模型中进行预测时，从而能够解决现有技术仅能实现源说话人到指定音色的问题，进而实现了任意说话人的普通话音频到指定音色(目标说话人)和带有指定方言口音的音频的转换，使得变声的效果更好。

下面结合附图对本申请实施例技术方案的主要实现原理、具体实施方式及其对应能够达到的有益效果进行详细的阐述。

实施例

请参考图1，本申请实施例提供一种变声方法，所述方法包括：

S101、获取源说话人的原语音数据；

S102、通过语音识别模型提取所述原语音数据的原始音频识别特征；

S103、将所述原始音频识别特征、所述目标语音和所述指定方言输入到目标变声模型中，输出携带有所述指定方言的所述目标说话人的声学特征，其中，所述目标变声模型是自适应语音识别模型对至少一个训练说话人提取的自适应音频识别特征，以及所述至少一个训练说话人的声音特征进行模型训练得到的，所述自适应语音识别模型是根据所述至少一个训练说话人对所述语音识别模型进行自适应训练得到的。

其中，在步骤S101中，先确定源说话人，在确定源说话人之后，获取源说话人的语音数据作为原语音数据。以及在确定源说话人之前或之后，还可以确定目标说话人。其中，源说话人和目标说话人，均可以由用户自行确定，也可以根据实际情况确定。下面具体以先确定目标说话人，后确定源说话人为例。例如，在接收到用户指定目标说话人为A1的确认指令且指定方言为四川方言时，确定出目标说话人为A1且指定方言为四川方言，以及接收用户指定源说话人为A2的确认指令之后，确定出源说话人为A2，并采集A2的语音数据作为原语音数据。

在获取到原语音数据之后，执行步骤S102。

在步骤S102之前，需要预先训练语音识别模型，进而得到语音识别模型，然后将原语音数据输入到语音识别模型中进行特征提取，提取原语音数据的原始音频识别特征。

本说明书实施例中，语音识别模型例如可以是基于神经网络的时序类分类(Connectionist temporal classification，简称CTC)模型、长短时记忆网络(LSTM，LongShort Term Memory)、CNN模型和CLDNN模型等，本说明书不作具体限制。

具体来讲，在获取语音识别模型时，可以先确定通用识别模型，例如确定通用识别模型为LSTM，还需使用普通话数据进行模型训练，将训练好的通用识别模型作为语音识别模。

具体地，在训练得到语音识别模型时，可以获取普通话数据库，针对普通话数据库中全部或部分普通话数据中的每个普通话数据，对普通话数据进行特征提取，得到声学特征，利用声学特征对通用识别模型进行训练，得到训练好的通用识别模型，并将训练好的通用识别模型作为语音识别模型。

具体来讲，在训练得到语音识别模型之后，将原语音数据输入到语音识别模型中进行特征提取，将语音识别模型的指定隐含层的特征作为原始音频识别特征，其中，指定隐含层包括语音识别模型的最后一层隐含层。当然，指定隐含层还可以包括最后一层隐含层之前的一层或多层隐含层，指定隐含层例如可以为最后一层隐含层和最后一层隐含层的前一隐含层等。

本说明书实施例中，原始音频识别特征通常为fbank特征，例如可以为71维的fbank特征和65维的fbank特征；声学特征通常为mel谱特征，例如可以为80维的mel谱特征和72维的mel谱特征；且原始音频识别特征通常与声学特征为不同的声音特征。当然，原始音频识别特征也可以与声学特征为相同的声音特征，但声音维度的特征不同，例如原始音频识别特征为72维的特征，声学特征为62维的特征。

在通过步骤S102获取到原始音频识别特征之后，执行步骤S103。

在执行步骤S103之前，还需训练得到目标变声模型，而在训练得到目标变声模型之前，还需训练得到自适应语音识别模型。再通过自适应语音识别模型和至少一个训练说话人进行模型训练，得到目标变声模型。以及在训练得到目标变声模型之后，再将原始音频识别特征输入到目标变声模型中，输出携带有指定方言的目标说话人的声学特征。

具体来讲，参见图2，自适应语音识别模型的训练步骤，包括：

S201、获取所述至少一个训练说话人的语音数据，其中，所述至少一个训练说话人包括所述目标说话人；

S202、针对所述至少一个训练说话人中的每个训练说话人，将训练说话人的语音数据输入到所述语音识别模型中进行特征提取，提取到训练说话人的音频识别特征，以及训练说话人的声学特征；利用训练说话人的音频识别特征和声学特征对所述语音识别模型进行自适应训练，得到训练说话人对应的自适应语音识别模型。

其中，在步骤S201中，首选需要确定至少一个训练说话人，至少一个训练说话人可以根据用户需求确定，也可以根据当前采集的语音数据来确定，本说明书不作具体限制。

以及，在确定至少一个训练说话人之后，获取至少一个训练说话人的语音数据，并确保至少一个训练说话人包括目标说话人，以及至少一个训练说话人中存在至少一个说话人的方言为指定方言，进而使得训练得到目标变声模型能够将源说话人的语音数据，以目标说话人的目标语音和指定方言进行输出。即，可以实现让任意源说话人普通话音频转换为目标说话人的音色和带上另一个说话人的方言口音的效果。

接下来执行步骤S202，在该步骤中，可以使用至少一个训练说话人中的每个训练说话人进行模型训练。当然，还可以使用至少一个训练说话人中的部分训练说话人进行模型训练，本说明书不作具体限制。下面具体以每个训练说话人进行模型训练为例。

具体来讲，针对每个训练说话人，将训练说话人的语音数据输入到语音识别模型中进行特征提取，提取到训练说话人的音频识别特征，以及提取训练说话人的声学特征。如此，可以提取到每个训练说话人的音频识别特征和声学特征。

具体来讲，针对每个训练说话人，在提取训练说话人的声学特征时，可以通过MFCC对训练说话人的语音数据进行特征提取，进而提取到每个训练说话人的声学特征。

以及，将目标说话人的语音数据输入到语音识别模型中进行特征提取，提取到目标说话人的音频识别特征。此时，可以将语音识别模型的指定隐含层的特征作为自适应音频识别特征，其中，指定隐含层包括语音识别模型的最后一层隐含层。当然，指定隐含层还可以包括最后一层隐含层之前的一层或多层隐含层，指定隐含层例如可以为最后一层隐含层和最后一层隐含层的前一隐含层等。

本说明书实施例中，提取目标说话人的音频识别特征的具体实施方式可以参考步骤S102中提取所述原语音数据的原始音频识别特征的步骤，为了说明书的简洁，在此就不再赘述了。

以及在提取到每个训练说话人的音频识别特征和声学特征之后，可以利用每个训练说话人的音频识别特征和声学特征对语音识别模型进行自适应训练，得到每个训练说话人对应的自适应变声模型。

如此，每个训练说话人的语音数据都对语音识别模型进行自适应至过拟合，每个训练说话人的音频识别特征都使用对应的自适应识别模型，目的是消除语音识别模型提取到的音频识别特征中与方言口音相关的方言特征信息，从而使目标变声模型训练时能够学习到方言特征信息，使得目标变声模型输出的声音特征可以携带有方言特征信息，实现让任意源说话人普通话音频转换为目标说话人的音色和带上另一个说话人的方言口音的效果。

在实际使用过程中，针对语音识别模型和自适应模型的具体训练过程如图3所示，训练数据包括普通话数据库30，天津话说话人A的语音数据31和陕西说话人B的语音数据32，此时，至少一个训练说话人的语音数据包括天津话说话人A的语音数据31和陕西说话人B的语音数据32。

具体来讲，在训练语音识别模型时，首先执行步骤S33、特征提取；即对普通话数据库中每个普通话数据进行特征提取，提取到声学特征，再使用声学特征执行步骤S34、训练通用识别模型，得到训练好的通用识别模型作为语音识别模型35。

具体地，在得到语音识别模型之后，针对天津话说话人A的语音数据31，首先使用训练好的语音识别模型对天津话说话人A的语音数据31进行特征提取，得到天津话说话人A的语音数据31对应的音频识别特征，以及执行步骤S33、特征提取；即可以采用Kaldi特征提取方式对天津话说话人A的语音数据31进行特征提取，提取到的fbank特征作为天津话说话人A的语音数据31的声音特征；在提取到天津话说话人A的语音数据31的声音特征和音频识别特征之后，执行步骤S36、自适应模型训练；即，使用天津话说话人A的语音数据31对应的音频识别特征和声音特征对语音识别模型进行自适应训练，进而得到天津说话人A的天津话自适应语音识别模型37。

相应地，在得到语音识别模型之后，针对陕西说话人B的语音数据32，首先使用训练好的语音识别模型对陕西说话人B的语音数据32进行特征提取，得到陕西说话人B的语音数据32对应的音频识别特征，以及执行步骤S33、特征提取；即，可以采用Kaldi特征提取方式对陕西说话人B的语音数据32进行特征提取，提取到的fbank特征作为陕西说话人B的语音数据32的声音特征；在提取到陕西说话人B的语音数据32对应的音频识别特征和声音特征之后，执行步骤S36、自适应模型训练；即，使用陕西说话人B的语音数据32对应的音频识别特征和声音特征对语音识别模型进行自适应训练，进而得到陕西说话人B的陕西话自适应语音识别模型38。

如此，可以训练得到每个训练说话人对应的自适应语音识别模型，通过每个训练说话人对应的自适应语音识别模型能够去除语音识别模型提取到的音频识别特征中的方言特征信息，从而使目标变声模型训练时能够学习到方言特征信息，使得目标变声模型输出的声音特征可以携带有方言特征信息，实现让任意源说话人普通话音频转换为目标说话人的音色和带上另一个说话人的方言口音的效果。

本说明书实施例中，在训练得到每个训练说话人对应的自适应语音识别模型之后，对目标变声模型进行训练，其中，参见图4，目标变声模型的训练步骤，包括：

S401、针对所述至少一个训练说话人中的每个训练说话人，将训练说话人的语音数据输入到训练说话人对应的自适应语音识别模型中进行特征提取，提取到训练说话人的自适应音频识别特征，以及训练说话人的声学特征；

S402、根据每个训练说话人的自适应音频识别特征和声学特征进行模型训练，得到所述目标变声模型。

其中，在步骤S401中，通过步骤S201-S202可以获取每个训练说话人对应的自适应语音识别模型，如此，使用每个训练说话人对应的自适应语音识别模型训练得到目标变声模型的过程中，针对每个训练说话人，需要将训练说话人的语言数据输入到对应的自适应语音识别膜中进行特征提取，提取到训练说话人的自适应音频识别特征，以及训练说话人的声学特征。

以及，针对每个训练说话人，在提取训练说话人的自适应音频识别特征时，将训练说话人的语音数据输入到对应的语音识别模型中进行特征提取，提取到训练说话人的自适应音频识别特征。

具体地，可以将自适应语音识别模型的设定隐含层的特征作为自适应音频识别特征，其中，设定隐含层包括自适应语音识别模型的最后一层隐含层。当然，设定隐含层还可以包括最后一层隐含层之前的一层或多层隐含层，设定隐含层例如可以为最后一层隐含层和最后一层隐含层的前一隐含层等。

本说明书实施例中，提取训练说话人的自适应音频识别特征的具体实施方式可以参考步骤S102中提取所述原语音数据的原始音频识别特征的步骤，为了说明书的简洁，在此就不再赘述了。

在获取到每个训练说话人的自适应音频识别特征和声学特征之后，执行步骤S402。

在该步骤中，针对每个训练说话人，可以将训练说话人的自适应音频识别特征作为模型的输入数据，将训练说话人的声学特征作为模型的输出数据进行模型训练，得到已训练的变声模型，并将已训练的变声模型作为目标变声模型。

本说明书实施例中，针对每个训练说话人，提取到训练说话人的自适应音频识别特征过程中，若训练说话人的自适应音频识别特征包括语音识别模型中的最后一层的特征和最后一层前一层的特征，此时，在训练过程中，可以针对每个训练说话人，为训练说话人的最后一层的特征创建一个具有第一卷积结构的卷积层，为训练说话人的最后一层前一层的特征创建另一个具有第二卷积结构的卷积层，然后进行训练，其中，第一卷积结构和第二卷积结构不同。如此，标变声模型训练过程中对语音识别模型输出的不同特征采取不同的卷积结构、使用分频带对抗训练和使用多人数据预训练变声模型再用至少一个训练说话人数据进行自适应等方法提高变声音质和相似度，确保了目标变声模型的预测准确度。

例如，以某个训练说话人为例，将该训练说话人输入到语音识别模型中进行特征提取，提取的自适应音频识别特征包括语音识别模型的最后一层过了softmax层后又经过处理得到的ASR one-hot特征，和识别模型输出层的前一层得到的ASR bottleneck特征；然后将ASR one-hot特征输入到第一卷积结构的卷积层中，以及将ASR bottleneck特征输入到第二卷积结构的卷积层中进行模型训练。

具体来讲，可以采用对抗训练的方式训练得到已训练的变声模型，可以将变声模型用G标识，而判别器用D表示，针对每个训练说话人，将训练说话人的自适应音频识别特征输入到G中，得到输出声学特征；再使用D对输出声学特征和训练说话人的声学特征进行区分，在G和D的不断对抗优化中，最终使得D无法区分出输出声学特征和训练说话人的声学特征，或者，使得D针对输出声学特征和训练说话人的声学特征的区分率满足约束条件，此时，会使得G的输出声学特征与训练说话人的声学特征极其相似，将此时的G作为已训练的变声模型，即为目标变声模型。

由于采用对抗训练方式进行模型训练，能够使得通过对抗训练得到的目标变声模型预测出的输出声学特征的精确度更高。

如此，在通过步骤S401-S402练得到目标变声模型之后，由于目标变声模型是采用对抗训练得到的，使得目标变声模型预测出的输出声学特征的精确度更高；如此，在将原始音频识别特征输入到目标变声模型中，使得输出目标说话人的声学特征与目标语音且指定方言的匹配度更高。

本说明书实施例中，目标语音是指语音音色，例如目标语音对应的说话人为天津说话人A，则确定目标语音为天津说话人A的语音音色。

在实际应用过程中，参见图5，继续以天津说话人A的天津话自适应语音识别模型和陕西说话人B的陕西话自适应语音识别模型为例进行举例，针对天津说话人A，首先执行步骤S5，采集天津说话人A的语音数据；接下来执行步骤S51和S52，其中，步骤S51，特征提取，即对天津说话人A的语音数据进行特征提取，得到声学特征；以及步骤S52，使用天津话自适应语音识别模型进行特征提取，即，将天津说话人A的语音数据输入到天津话自适应语音识别模型中进行特征提取，提取到自适应音频识别特征，此时，可以确定说话人ID为A且方言ID为天津话；接下来执行步骤S53，变声模型训练，即，步骤S52提取的自适应音频识别特征作为变声模型的输入数据，将步骤S51提取的声学特征作为变声模型的输出数据进行模型训练。

以及，针对陕西说话人B，首先执行步骤S6，采集陕西说话人B的语音数据；接下来执行步骤S61和S62，其中，步骤S61，特征提取，即对陕西说话人B的语音数据进行特征提取，得到声学特征；以及步骤S62，使用天津话自适应语音识别模型进行特征提取，即，将陕西说话人B的语音数据输入到天津话自适应语音识别模型中进行特征提取，提取到自适应音频识别特征，此时，可以确定说话人ID为B且方言ID为陕西话；接下来执行步骤S53，变声模型训练，即，步骤S62提取的自适应音频识别特征作为变声模型的输入数据，将步骤S61提取的声学特征作为变声模型的输出数据进行模型训练。

在使用天津说话人A的语音数据和陕西说话人B的语音数据进行模型训练之后，得到已训练的变声模型，即为目标变声模型S0。

在训练得到目标变声模型S0的过程中，针对每个训练说话人，采用对应的自适应语音识别模型提取的自适应音频识别特征，其目的是消除识别模型隐层特征中与方言口音相关的方言特征信息，如此，使得在训练目标变声模型的过程中，使得目标变声模型能够有效学习到方言特征信息，使得训练得到的目标变声模型能够实现源说话人的语音数据到方言的转换，能够使得源说话人的语音数据转换到的带有方言的语音数据与指定方言的匹配度更高。

另外，目标变声模型可以采用编码器和解码器结构，对不同的说话人和不同的方言口音种类进行编码，方言口音编码加在编码器部分，说话人编码加在解码器部分；且在训练时将不同的方言口音说话人数据放在一起共同训练，使得训练得到的目标变声模型能够学到分别与音色(目标语音)和方言口音相关的信息，从而使得通过目标变声模型能够实现将源说话人的语音数据转换为目标语音且指定方言的语音数据。

如此，在步骤S103之前，训练得到目标变声模型之后，将步骤S102获取到的原始音频识别特征输入到目标变声模型中，并在目标变声模型中的编码器中加入指定方言的编码，以及在目标变声模型的解码器中加入目标语音的编码，从而能够输出携带有指定方言的目标说话人的声学特征。

当然，还可以将获取到的原始音频识别特征输入到目标变声模型中，并在目标变声模型中的编码器中加入目标语音的编码，以及在目标变声模型的解码器中加入指定方言的编码，从而能够输出携带有指定方言的目标说话人的声学特征。

在实际应用过程中，可以获取任意一个普通话语音数据作为源说话人的语音数据，将普通话语音数据输入到语音识别模型中，识别出原始音频识别特征；再将原始音频识别特征输入到目标变声模型中，并输入转换音色的说话人为目标说话人，以及输入方言为指定方言，输出携带有指定方言的目标说话人的声学特征。如此，可以实现任意说话人的普通话音频到指定音色和带有指定方言口音的音频的转换，其稳定性也较好。

另外，在部署目标变声模型时，由于训练阶段需要使用自适应语音识别模型，而部署阶段仅需使用未经自适应的通用识别模型(语音识别模型)，如此，能够使得任意普通话音频通过语音识别模型和目标变声模型后，能够转换为指定音色并带上指定口音的音频。

本说明书另一实施例中，在通过步骤S103获取到携带有指定方言的目标说话人的声学特征之后，还可以将目标说话人的声学特征以目标说话人和指定方言进行输出。

具体来讲，可以将携带有指定方言的目标说话人的声学特征输入到声码器中，以目标说话人和指定方言进行输出，其中，声码器例如可以是melgan声码器等。也可以将目标说话人的声学特征以目标说话人和指定方言进行输出时，可以通过虚拟人的方式进行输出，以提高电子设备与用户的交互能力。

具体地，将携带有指定方言的目标说话人的声学特征输入到声码器中生成语音信号，语音信号携带有目标语音和指定方言，并输出语音信号，从而可以将任意源说话人语音转换为目标语音和指定方言进行输出，从而实现任意普通话音频到目标说话人音色和指定方言口音的转换。

例如，在采用目标变声模型进行变声的阶段，输入源说话人C(源说话人可以为任意说话人)的语音数据，首先对C的语音进行特征提取，提取到71维fbank特征；将71维fbank特征输入到语音识别模型中，从语音识别模型的隐层(最后一层的前一层)和最后一层得到相应的特征作为原始音频识别特征用C1表示；在将C1输入到目标变声模型中，并输入目标说话人ID和指定方言的ID，输出80维mel谱特征用C2表示。C2为携带有指定方言的目标说话人的声学特征；再将C2输入到声码器中，还原为对应的声音，若指定方言为天津话，目标说话人为B，则以携带有天津方言的B的语音输出C的语音数据。

本说明书实施例中，由于在训练目标变声模型时，仅需要目标说话人的音频数据，不需要源说话人的平行语料，此时，与现有技术相比，不需要平行语料和特征对齐，数据采集成本较低。

基于上述技术方案，在将源说话人的语音转换为目标说话人的目标语音以指定方言进行输出的过程中，将源说话人的原语音数据输入到语音识别模型中进行特征提取，将提取的原始音频识别特征输入到目标变声模型中，输出携带有指定方言的目标说话人的声学特征，再将其进行输出；此时，由于目标变声模型是自适应语音识别模型对至少一个训练说话人提取的自适应音频识别特征，以及至少一个训练说话人的声音特征进行模型训练得到的，且自适应语音识别模型是根据所述至少一个训练说话人对所述语音识别模型进行自适应训练得到的，使得目标变声模型能够实现任意说话人的普通话音频到指定音色(目标说话人)和带有指定方言口音的音频的转换，使得变声的效果更好。

针对上述实施例提供一种变声方法，本申请实施例还对应提供一种实时变声装置，请参考图6，该装置包括：

语音数据采集单元601，用于获取源说话人的原语音数据；

特征提取单元602，用于通过语音识别模型提取所述原语音数据的原始音频识别特征；

模型预测单元603，用于将所述原始音频识别特征、所述目标语音和所述指定方言输入到目标变声模型中，输出携带有所述指定方言的所述目标说话人的声学特征，其中，所述目标变声模型是自适应语音识别模型对至少一个训练说话人提取的自适应音频识别特征，以及所述至少一个训练说话人的声音特征进行模型训练得到的，所述自适应语音识别模型是根据所述至少一个训练说话人对所述语音识别模型进行自适应训练得到的。

在一种可选的实施方式中，所述装置还包括：

在一种可选的实施方式中，所述目标变声模型训练单元，用于针对每个训练说话人，将训练说话人的自适应音频识别特征作为模型的输入数据，将训练说话人的声学特征作为模型的输出数据进行模型训练，得到已训练的变声模型，并将所述已训练的变声模型作为所述目标变声模型。

在一种可选的实施方式中，模型预测单元603，用于将所述原始音频识别特征输入到所述目标变声模型中，并在所述目标变声模型中的编码器中加入所述指定方言的编码，以及在所述目标变声模型的解码器中加入所述目标语音的编码，输出携带有所述指定方言的所述目标说话人的声学特征。

在一种可选的实施方式中，实时变声装置还包括：语音输出单元，用于将所述目标说话人的声学特征以所述目标说话人和所述指定方言进行输出。

在一种可选的实施方式中，所述语音输出单元，用于将所述目标说话人的声学特征输入到声码器中，以所述目标说话人和所述指定方言进行输出。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

图7是根据一示例性实施例示出的一种用于变声方法的电子设备800的框图。例如，电子设备800可以是移动电话，计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理等。

参照图7，电子设备800可以包括以下一个或多个组件：处理组件802，存储器804，电源组件806，多媒体组件808，音频组件810，输入/展现(I/O)的接口812，传感器组件814，以及通信组件816。

处理组件802通常控制电子设备800的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理元件802可以包括一个或多个处理器820来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件802可以包括一个或多个模块，便于处理组件802和其他组件之间的交互。例如，处理部件802可以包括多媒体模块，以方便多媒体组件808和处理组件802之间的交互。

存储器804被配置为存储各种类型的数据以支持在设备800的操作。这些数据的示例包括用于在电子设备800上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器804可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

电源组件806为电子设备800的各种组件提供电力。电源组件806可以包括电源管理系统，一个或多个电源，及其他与为电子设备800生成、管理和分配电力相关联的组件。

多媒体组件808包括在所述电子设备800和用户之间的提供一个展现接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件808包括一个前置摄像头和/或后置摄像头。当设备800处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。

音频组件810被配置为展现和/或输入音频信号。例如，音频组件810包括一个麦克风(MIC)，当电子设备800处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器804或经由通信组件816发送。在一些实施例中，音频组件810还包括一个扬声器，用于展现音频信号。

I/O接口812为处理组件802和外围接口模块之间提供接口，上述外围接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件814包括一个或多个传感器，用于为电子设备800提供各个方面的状态评估。例如，传感器组件814可以检测到设备800的打开/关闭状态，组件的相对定位，例如所述组件为电子设备800的显示器和小键盘，传感器组件814还可以检测电子设备800或电子设备800一个组件的位置改变，用户与电子设备800接触的存在或不存在，电子设备800方位或加速/减速和电子设备800的温度变化。传感器组件814可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件814还可以包括光传感器，如CMOS或CCD图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件814还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件816被配置为便于电子设备800和其他设备之间有线或无线方式的通信。电子设备800可以接入基于通信标准的无线网络，如WiFi，2G或3G，或它们的组合。在一个示例性实施例中，通信部件816经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，所述通信部件816还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

在示例性实施例中，电子设备800可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述方法。

在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器804，上述指令可由电子设备800的处理器820执行以完成上述方法。例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

一种非临时性计算机可读存储介质，当所述存储介质中的指令由移动终端的处理器执行时，使得移动终端能够执行一种变声方法，所述方法包括：

获取源说话人的原语音数据；

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本发明的其它实施方案。本申请旨在涵盖本发明的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本发明的真正范围和精神由下面的权利要求指出。

应当理解的是，本发明并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种变声方法，其特征在于，所述方法包括：

获取源说话人的原语音数据；

将所述原始音频识别特征、目标语音和指定方言输入到目标变声模型中，输出所述指定方言的所述目标说话人的声学特征；

其中，所述目标变声模型是自适应语音识别模型对至少一个训练说话人提取的自适应音频识别特征，以及所述至少一个训练说话人的声音特征进行模型训练得到的，所述自适应语音识别模型是根据所述至少一个训练说话人对所述语音识别模型进行自适应训练得到的。

2.如权利要求1所述的方法，其特征在于，所述自适应语音识别模型的训练步骤包括：

3.如权利要求2所述的方法，其特征在于，所述目标变声模型的训练步骤，包括：

4.如权利要求3所述的方法，其特征在于，所述根据每个训练说话人的自适应音频识别特征和声学特征进行模型训练，得到所述目标变声模型，包括：

5.如权利要求1所述的方法，其特征在于，所述将所述原始音频识别特征、所述目标语音和所述指定方言输入到目标变声模型中，输出携带有所述指定方言的所述目标说话人的声学特征，包括：

6.如权利要求1所述的方法，其特征在于，在输出所述指定方言的所述目标说话人的声学特征之后，所述方法还包括：

7.如权利要求6所述的方法，其特征在于，所述将所述目标说话人的声学特征以所述目标说话人和所述指定方言进行输出，包括：

8.一种变声装置，其特征在于，包括：

语音数据采集单元，用于获取源说话人的原语音数据；

9.如权利要求8所述的装置，其特征在于，还包括：

10.如权利要求9所述的装置，其特征在于，还包括：

11.如权利要求10所述的装置，其特征在于，所述目标变声模型训练单元，用于针对每个训练说话人，将训练说话人的自适应音频识别特征作为模型的输入数据，将训练说话人的声学特征作为模型的输出数据进行模型训练，得到已训练的变声模型，并将所述已训练的变声模型作为所述目标变声模型。

12.如权利要求8所述的装置，其特征在于，所述模型预测单元，用于将所述原始音频识别特征输入到所述目标变声模型中，并在所述目标变声模型中的编码器中加入所述指定方言的编码，以及在所述目标变声模型的解码器中加入所述目标语音的编码，输出携带有所述指定方言的所述目标说话人的声学特征。

13.一种电子设备，其特征在于，包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上的程序存储于存储器中，且经配置以由一个或者一个以上的处理器执行所述一个或者一个以上的程序所包含的用于进行如权利要求1～7任一所述方法对应的操作指令。

14.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1～7任一所述方法对应的步骤。