CN113314101B

CN113314101B - 一种语音处理方法、装置、电子设备及存储介质

Info

Publication number: CN113314101B
Application number: CN202110478784.9A
Authority: CN
Inventors: 张颖; 杨鹏; 李楠; 王芮; 张晨; 郑羲光; 车浩
Original assignee: Beijing Dajia Internet Information Technology Co Ltd
Current assignee: Beijing Dajia Internet Information Technology Co Ltd
Priority date: 2021-04-30
Filing date: 2021-04-30
Publication date: 2024-05-14
Anticipated expiration: 2041-04-30
Also published as: CN113314101A

Abstract

本公开关于一种语音处理方法、装置、电子设备及存储介质，所述方法包括：获取原始对象的第一语音信息；基于所述第一语音信息生成所述原始对象的声学特征信息；将所述原始对象的声学特征信息输入到语音识别模型进行音素特征识别，得到所述第一语音信息中包含的音素信息；将所述音素信息输入到语音转换模型进行声学特征转换，得到目标对象的声学特征信息；基于所述目标对象的声学特征信息生成所述目标对象的第二语音信息；其中，所述原始对象与所述目标对象不同，所述第一语音信息与所述第二语音信息的语音内容相同。本公开能够解决相关技术中转换语音自然度差以及语音转换结果不准确的问题。

Description

一种语音处理方法、装置、电子设备及存储介质

技术领域

本公开涉及深度学习技术领域，尤其涉及一种语音处理方法、装置、电子设备及存储介质。

背景技术

语音转换是指在保留语言内容不变的情况下，将一句话的音色从原始说话人转为目标说话人，语音转换技术在电影配音、短视频变声、虚拟人等方面发挥着重要作用。

相关技术中，一般采用基于数字信号处理的语音转换方法，基频和共振峰是语音信号中的两个重要特征，通过直接对原始语音中基频和共振峰的修改，使其和目标说话人特征分布尽量一致，从而达到改变语音信号中音色的目的；但是通过修改基频和共振峰所合成的转换语音自然度差，并且不同原始说话人的基频和共振峰千差万别，即使目标说话人确定，通过数字信号处理后的转换语音音色也会有较大的差异；另外在修改基频时会产生语音混叠，引入噪声，从而使得语音转换结果不准确。

发明内容

本公开提供一种语音处理方法、装置、电子设备及存储介质，以至少解决相关技术中转换语音自然度差以及语音转换结果不准确的问题。本公开的技术方案如下：

根据本公开实施例的第一方面，提供一种语音处理方法，包括：

获取原始对象的第一语音信息；

基于所述第一语音信息生成所述原始对象的声学特征信息；

将所述原始对象的声学特征信息输入到语音识别模型进行音素特征识别，得到所述第一语音信息中包含的音素信息；

将所述音素信息输入到语音转换模型进行声学特征转换，得到目标对象的声学特征信息；

基于所述目标对象的声学特征信息生成所述目标对象的第二语音信息；

其中，所述原始对象与所述目标对象不同，所述第一语音信息与所述第二语音信息的语音内容相同。

在一示例性实施例中，所述方法还包括：

获取第一神经网络模型；所述第一神经网络模型包括音素识别模块和分类模块；

获取多项样本声学特征信息，以及与每项样本声学特征信息对应的音素特征向量；

将每项样本声学特征信息输入到所述音素识别模块进行音素识别，得到第一音素特征信息；

将所述第一音素特征信息输入到所述分类模块进行音素分类，得到音素分类概率向量；

根据每项样本声学特征信息对应的音素特征向量，以及每项样本声学特征信息对应的所述音素分类概率向量，确定音素信息损失；

基于所述音素信息损失对所述第一神经网络模型进行训练，得到训练完成的第一神经网络模型；

基于所述训练完成的第一神经网络模型生成所述语音识别模型。

在一示例性实施例中，所述基于所述训练完成的第一神经网络模型生成所述语音识别模型包括：

基于所述训练完成的第一神经网络模型的音素识别模块生成所述语音识别模型。

在一示例性实施例中，所述音素识别模块包括至少一个音素识别子模块，其中每个所述音素识别子模块包括音素特征短时建模模块、特征维度转换模块以及音素特征长时建模模块；

所述方法还包括：

将待处理特征信息输入所述音素特征短时建模模块，对所述待处理特征信息进行短时相关性建模，得到第一特征向量；

将所述第一特征向量输入到所述特征维度转换模块进行特征维度压缩，得到第二特征向量；

将所述第二特征向量输入到所述音素特征长时建模模块，对所述第二特征向量进行长时相关性建模，得到第三特征向量；

将所述第三特征向量作为所述音素识别子模块的输出信息；其中，所述第三特征向量的维度大于所述第二特征向量的维度；

其中，当所述音素识别模块包括一个所述音素识别子模块时，所述待处理特征信息为所述每项样本声学特征信息，所述音素识别子模块的输出信息为所述第一音素特征信息。

在一示例性实施例中，所述方法还包括：

当所述音素识别模块包括多个所述音素识别子模块时，将上一个音素识别子模块的输出信息作为下一个音素识别子模块的输入信息，第一个音素识别子模块的输入信息为所述每项样本声学特征信息，最后一个音素识别子模块的输出信息为所述第一音素特征信息。

在一示例性实施例中，所述方法还包括：

获取第二神经网络模型；

获取多个样本信息组；其中每个样本信息组包括音素特征信息、对象标记信息以及与所述音素特征信息对应的声学特征信息，所述声学特征信息携带有所述对象标记信息；

将每个样本信息组中的音素特征信息，以及对象标记信息输入到所述第二神经网络模型进行声学特征转换，得到已转换声学特征信息；

基于每个样本信息组对应的已转换声学特征信息，以及所述样本信息组中的声学特征信息，确定声学特征损失；

基于所述声学特征信息损失对所述第二神经网络模型进行训练，得到所述语音转换模型。

在一示例性实施例中，所述方法还包括：

获取多项样本音素特征信息，以及多项对象标记信息；

基于每项样本音素特征信息，得到携带有所述对象标记信息的声学特征信息；其中所述携带有所述对象标记信息的声学特征信息的项数，与所述对象标记信息的项数一致；

对所述多项样本音素特征信息，以及所述多项对象标记信息进行两两组合，得到多个第一信息组；

对于每个所述第一信息组，确定与所述第一信息组中的样本音素特征信息对应，且携带有所述第一信息组中的对象标记信息的关联声学特征信息；

将所述关联声学特征信息添加到所述第一信息组中，生成所述样本信息组。

在一示例性实施例中，所述第二神经网络模型包括卷积模块和单向门控循环网络模块；

所述将所述多个样本信息组中的音素特征信息，以及对象标记信息输入到所述第二神经网络模型进行声学特征转换，得到第一声学特征信息包括：

将所述多个样本信息组中的样本音素特征信息输入到所述卷积模块进行音素特征局部信息提取，得到第二音素特征信息；

将所述第二音素特征信息输入到所述单向门控循环网络模块进行声学特征转换，得到所述第一声学特征信息，所述第一声学特征信息是基于所述对象标记信息得到的。

在一示例性实施例中，所述将所述音素信息输入到语音转换模型进行声学特征转换，得到目标对象的声学特征信息之前，包括：

获取目标对象的对象标记信息，所述目标对象为所述多个样本对象中的一个或多个；

所述将所述音素信息输入到语音转换模型进行声学特征转换，得到目标对象的声学特征信息包括：

将所述目标对象的对象标记信息和所述音素信息输入到所述语音转换模型进行声学特征转换，得到所述目标对象的声学特征信息。

在一示例性实施例中，所述目标对象的声学特征信息中包括多个维度的特征信息；

所述基于所述目标对象的声学特征信息生成所述目标对象的第二语音信息包括：

确定每个维度的特征信息所对应的频率范围；

在每个频率范围内进行特征提取，得到多项已提取特征信息；

基于所述多项已提取特征信息进行语音信号重建，得到所述目标对象的第二语音信号。

根据本公开实施例的第二方面，提供一种语音处理装置，包括：

第一语音信息获取单元，被配置为执行获取原始对象的第一语音信息；

原始特征信息生成单元，被配置为执行基于所述第一语音信息生成所述原始对象的声学特征信息；

音素特征识别单元，被配置为执行将所述原始对象的声学特征信息输入到语音识别模型进行音素特征识别，得到所述第一语音信息中包含的音素信息；

目标特征信息生成单元，被配置为执行将所述音素信息输入到语音转换模型进行声学特征转换，得到目标对象的声学特征信息；

第二语音信息生成单元，被配置为执行基于所述目标对象的声学特征信息生成所述目标对象的第二语音信息；

在一示例性实施例中，所述装置还包括：

所述装置还包括：

第一神经网络模型获取单元，被配置为执行获取第一神经网络模型；所述第一神经网络模型包括音素识别模块和分类模块；

第一样本获取单元，被配置为执行获取多项样本声学特征信息，以及与每项样本声学特征信息对应的音素特征向量；

第一识别单元，被配置为执行将每项样本声学特征信息输入到所述音素识别模块进行音素识别，得到第一音素特征信息；

音素分类单元，被配置为执行将所述第一音素特征信息输入到所述分类模块进行音素分类，得到音素分类概率向量；

音素信息损失确定单元，被配置为执行根据每项样本声学特征信息对应的音素特征向量，以及每项样本声学特征信息对应的所述音素分类概率向量，确定音素信息损失；

第一训练单元，被配置为执行基于所述音素信息损失对所述第一神经网络模型进行训练，得到训练完成的第一神经网络模型；

语音识别模型生成单元，被配置为执行基于所述训练完成的第一神经网络模型生成所述语音识别模型。

在一示例性实施例中，所述语音识别模型生成单元包括：

第一模型生成单元，被配置为执行基于所述训练完成的第一神经网络模型的音素识别模块生成所述语音识别模型。

所述装置还包括：

短时建模单元，被配置为执行将待处理特征信息输入所述音素特征短时建模模块，对所述待处理特征信息进行短时相关性建模，得到第一特征向量；

特征维度压缩单元，被配置为执行将所述第一特征向量输入到所述特征维度转换模块进行特征维度压缩，得到第二特征向量；

长时建模单元，被配置为执行将所述第二特征向量输入到所述音素特征长时建模模块，对所述第二特征向量进行长时相关性建模，得到第三特征向量；

输出信息确定单元，被配置为执行将所述第三特征向量作为所述音素识别子模块的输出信息；其中，所述第三特征向量的维度大于所述第二特征向量的维度；

在一示例性实施例中，所述装置还包括：

模块串行连接单元，被配置为执行当所述音素识别模块包括多个所述音素识别子模块时，将上一个音素识别子模块的输出信息作为下一个音素识别子模块的输入信息，第一个音素识别子模块的输入信息为所述每项样本声学特征信息，最后一个音素识别子模块的输出信息为所述第一音素特征信息。

在一示例性实施例中，所述装置包括：

第二神经网络模型获取单元，被配置为执行获取第二神经网络模型；

样本信息组获取单元，被配置为执行获取多个样本信息组；其中每个样本信息组包括音素特征信息、对象标记信息以及与所述音素特征信息对应的声学特征信息，所述声学特征信息携带有所述对象标记信息；

声学特征转换单元，被配置为执行将每个样本信息组中的音素特征信息，以及对象标记信息输入到所述第二神经网络模型进行声学特征转换，得到已转换声学特征信息；

声学特征信息损失确定单元，被配置为执行基于每个样本信息组对应的已转换声学特征信息，以及所述样本信息组中的声学特征信息，确定声学特征损失；

语音转换模型生成单元，被配置为执行基于所述声学特征信息损失对所述第二神经网络模型进行训练，得到所述语音转换模型。

在一示例性实施例中，所述装置包括：

第二样本获取单元，被配置为执行获取多项样本音素特征信息，以及多项对象标记信息；

第一生成单元，被配置为执行基于每项样本音素特征信息，得到携带有所述对象标记信息的声学特征信息；其中所述携带有所述对象标记信息的声学特征信息的项数，与所述对象标记信息的项数一致；

信息组合单元，被配置为执行对所述多项样本音素特征信息，以及所述多项对象标记信息进行两两组合，得到多个第一信息组；

关联声学特征信息确定单元，被配置为执行对于每个所述第一信息组，确定与所述第一信息组中的样本音素特征信息对应，且携带有所述第一信息组中的对象标记信息的关联声学特征信息；

样本信息组生成单元，被配置为执行将所述关联声学特征信息添加到所述第一信息组中，生成所述样本信息组。

所述声学特征转换单元包括：

局部信息提取单元，被配置为执行将所述多个样本信息组中的样本音素特征信息输入到所述卷积模块进行音素特征局部信息提取，得到第二音素特征信息；

第一转换单元，被配置为执行将所述第二音素特征信息输入到所述单向门控循环网络模块进行声学特征转换，得到所述第一声学特征信息，所述第一声学特征信息是基于所述对象标记信息得到的。

在一示例性实施例中，所述装置还包括：

目标对象标记信息获取单元，被配置为执行获取目标对象的对象标记信息，所述目标对象为所述多个样本对象中的一个或多个；

所述目标特征信息生成单元包括：

第二转换单元，被配置为执行将所述目标对象的对象标记信息和所述音素信息输入到所述语音转换模型进行声学特征转换，得到所述目标对象的声学特征信息。

所述第二语音信息生成单元包括：

频率范围确定单元，被配置为执行确定每个维度的特征信息所对应的频率范围；

特征提取单元，被配置为执行在每个频率范围内进行特征提取，得到多项已提取特征信息；

语音信号重建单元，被配置为执行基于所述多项已提取特征信息进行语音信号重建，得到所述目标对象的第二语音信号。

根据本公开实施例的第三方面，提供一种电子设备，包括：处理器；用于存储所述处理器可执行指令的存储器；其中，所述处理器被配置为执行所述指令，以实现如上所述的语音处理方法。

根据本公开实施例的第四方面，提供一种计算机可读存储介质，当所述计算机可读存储介质中的指令由服务器的处理器执行时，使得服务器能够执行如上所述的语音处理方法。

根据本公开实施例的第五方面，提供一种计算机程序产品，所述计算机程序产品包括计算机程序，所述计算机程序存储在可读存储介质中，计算机设备的至少一个处理器从所述可读存储介质读取并执行所述计算机程序，使得设备执行上述的语音处理方法。

本公开的实施例提供的技术方案至少带来以下有益效果：

本公开中根据原始对象的第一语音信息生成原始对象的声学特征信息，将原始对象的声学特征信息输入到语音识别模型进行音素特征识别，得到第一语音信息中包含的音素特征信息；这里的音素特征是对第一语音信息中语音内容的表征，携带有第一语音信息中的细节信息，而不包含与原始对象相关的特征，从而使得后续实现语音转换是基于第一语音信息中的语音内容；再将音素特征信息输入到语音转换模型进行声学特征转换，得到目标对象的声学特征信息；然后根据目标对象的声学特征信息生成目标对象的第二语音信息。本公开采用基于深度学习的语音识别模型以及语音转换模型，将原始对象的语音信息转换为目标对象的语音信息，能够提高语音转换的自然度，并且转换之后的语音音色就是目标对象的音色；另外，由于本公开是基于提取的音素特征信息进行语音转换的，使得转换之后的语音信息中保留相应的音素特征，从而保证转换前后的语音信息的音素特征信息一致，即语音信息内容一致，并且不会引入噪声，提高了语音转换结果的准确性，从而能够提升用户与产品之间交互的便利性，提升用户粘度。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理，并不构成对本公开的不当限定。

图1是根据一示例性实施例示出的实施环境示意图。

图2是根据一示例性实施例示出的一种语音处理方法流程图。

图3是根据一示例性实施例示出的语音识别模型的生成方法流程图。

图4是根据一示例性实施例示出的一种特征信息处理方法流程图。

图5是根据一示例性实施例示出的一种语音转换模型生成方法流程图。

图6是根据一示例性实施例示出的样本信息组的生成方法流程图。

图7是根据一示例性实施例示出的一种基于第二神经网络模型进行声学转换的方法流程图。

图8是根据一示例性实施例示出的一种语音信号重建方法流程图。

图9是根据一示例性实施例示出的另一种语音处理方法流程图。

图10是根据一示例性实施例示出的一种语音处理装置示意图。

图11是根据一示例性实施例示出的一种设备结构示意图。

具体实施方式

为了使本领域普通人员更好地理解本公开的技术方案，下面将结合附图，对本公开实施例中的技术方案进行清楚、完整地描述。

需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

请参阅图1，其示出了本公开实施例提供的实施环境示意图，该实施环境可包括：用户100和电子设备200，用户100可通过操作电子设备200以实现与电子设备200的交互。

具体地，电子设备200可通过语音采集设备实时获取用户100的语音信息，然后调用相关的语音处理模型对实时获取到的用户语音信息进行处理，从而得到处理之后的语音信息并输出；电子设备200也可调用相关的语音处理模型对用户100所选择的语音信息文件进行语音处理，得到处理之后的语音信息并输出。

电子设备200可以包括智能手机、平板电脑、笔记本电脑、数字助理、智能可穿戴设备、车载终端等类型的实体设备，也可以包括运行于实体设备中的软体，例如应用程序等。本公开实施例中的电子设备200上运行的操作系统可以包括但不限于安卓系统、IOS系统、linux、windows等。

为了解决相关技术中转换语音自然度差以及语音转换结果不准确的问题，本公开实施例提出了一种语音处理方法，可应用于上述电子设备200，图2是根据一示例性实施例示出的一种语音处理方法流程图，包括：

S210.获取原始对象的第一语音信息。

其中，这里的第一语音信息可以是经过去噪处理之后得到的语音信息，具体地，电子设备200在实时获取到用户的原始语音信息之后，采用前置的基于深度学习的噪声抗性增强模型对原始语音信息进行降噪；该噪声抗性增强模型基本原理是将原始带噪音语音信号的频谱作为输入，得到估计的降噪掩模，将该降噪掩模与原始语音信号的频谱相乘得到噪声抑制后的干净语音信息；具体可通过如下公式计算得到：

Mask(n)＝F_ns[|X(n)|²] (1)

Y(n)＝X(n)Mask(n) (2)

其中，X(n)为n时刻的原始语音信号的频谱，|*|²代表求频谱的模的平方，F_ns代表降噪系统，Mask(n)代表n时刻降噪系统输出的掩模，Y(n)代表n时刻输出的降噪后的增强干净语音频谱。

从而通过对原始语音信息进行降噪处理，剔除了环境噪声对后续处理过程的影响，避免引入杂音，进而能够提高语音处理结果的准确性。

S220.基于所述第一语音信息生成所述原始对象的声学特征信息。

S230.将所述原始对象的声学特征信息输入到语音识别模型进行音素特征识别，得到所述第一语音信息中包含的音素信息。

S240.将所述音素信息输入到语音转换模型进行声学特征转换，得到目标对象的声学特征信息。

S250.基于所述目标对象的声学特征信息生成所述目标对象的第二语音信息；其中，所述原始对象与所述目标对象不同，所述第一语音信息与所述第二语音信息的语音内容相同。

对于上述步骤S230中的语音识别模型的生成方法，请参阅图3，具体可包括：

S310.获取第一神经网络模型；所述第一神经网络模型包括音素识别模块和分类模块。

S320.获取多项样本声学特征信息，以及与每项样本声学特征信息对应的音素特征向量。

S330.将每项样本声学特征信息输入到所述音素识别模块进行音素识别，得到第一音素特征信息。

S340.将所述第一音素特征信息输入到所述分类模块进行音素分类，得到音素分类概率向量。

S350.根据每项样本声学特征信息对应的音素特征向量，以及每项样本声学特征信息对应的所述音素分类概率向量，确定音素信息损失。

假设对于音素的分类有N种，那么对于每个音素来说，其对应一个N维的音素特征向量，以N＝4为例进行说明，对于音素1，其对应的音素特征向量为[1,0,0,0]，对于音素4，其对应的音素特征向量为[0,0,0,1]；当通过分类模块对音素进行分类时，分类结果可以是音素属于哪个音素的概率，例如对于一个音素p，其对应的音素分类概率向量[0.7,0.1,0.1,0.1]，说明其为音素1的概率是0.7，其为音素2的概率为0.1，其为音素3的概率为0.1，其为音素4的概率为0.1，相应的有监督标签为[1,0,0,0]，从而基于音素分类概率向量[0.7,0.1,0.1,0.1]和有监督标签[1,0,0,0]，可以计算音素信息损失。

S360.基于所述音素信息损失对所述第一神经网络模型进行训练，得到训练完成的第一神经网络模型。

S370.基于所述训练完成的第一神经网络模型模块生成所述语音识别模型。

通过图3的方法生成了语音识别模型，将声学特征信息输入到该语音识别模型时，可以得到与输入的声学特征信息对应的具体音素序列，从而实现了对声学特征信息的语音识别。

进一步地，在确定语音识别模型时，可基于训练完成的第一神经网络模型的音素识别模块生成语音识别模型，音素识别模块的输出信息为音素表征信息，具体可以为向量特征的形式，从而将声学特征信息输入到该识别模型时，可以得到与输入的声学特征信息对应的音素特征向量表现形式。由于音素识别模块的输出信息为中间模块信息，没有特征信息的损失，携带有全面的特征信息，可将已训练完成的第一神经网络模型的音素识别模块的输出向量特征作为音素表征，从而能够避免采用分类模块输出的音素分类概率可能会引入音准误差的问题，提升语音转换的音准。但是在对第一神经网络模型进行训练时，仍然采用的是音素识别模块+分类模块的结构，以实现声学特征信息到音素特征的映射，只是在具体进行语言识别时，采用的是基于音素识别模块生成的语音识别模型进行识别。

上述的音素识别模块包括至少一个音素识别子模块，其中每个所述音素识别子模块包括音素特征短时建模模块、特征维度转换模块以及音素特征长时建模模块；相应地，请参阅图4，其示出了一种特征信息处理方法，该方法可包括：

S410.将待处理特征信息输入所述音素特征短时建模模块，对所述待处理特征信息进行短时相关性建模，得到第一特征向量。

S420.将所述第一特征向量输入到所述特征维度转换模块进行特征维度压缩，得到第二特征向量。

S430.将所述第二特征向量输入到所述音素特征长时建模模块，对所述第二特征向量进行长时相关性建模，得到第三特征向量。

S440.将所述第三特征向量作为所述音素识别子模块的输出信息；其中，所述第三特征向量的维度大于所述第二特征向量的维度。

例如，每项样本声学特征信息包括m帧的声学特征信息，经过音素特征短时建模模块之后，对于每一帧声学特征信息对应一个n1维的特征向量；经过特征维度转换模块之后，对于每一帧声学特征信息对应一个n2维的特征向量，n2小于n1；当m较大时，第一帧和第m帧声学特征信息相隔较远，关联不强，将m个n2维的特征向量作为音素特征长时建模模块的输入，通过音素特征长时建模模块能够建模各帧声学特征信息之间的时序关系，得到n3维的特征向量，这里n3大于n2。具体地，音素特征长时建模模块可以为一个循环神经网络，由于该循环神经网络的节点数是固定的，从而使得音素特征长时建模模块的输出特征的维度是一致的。

在将特征信息输入到音素特征长时建模模块之前，先对第一特征信息进行维度的压缩，能够减少冗余信息，提高特征信息表达的效率；输入音素特征长时建模模块的特征为低维特征，从而使得音素特征长时建模模块在基于低维特征进行处理时，能够降低计算量。

进一步地，当所述音素识别模块包括多个所述音素识别子模块时，将上一个音素识别子模块的输出信息作为下一个音素识别子模块的输入信息，第一个音素识别子模块的输入信息为所述每项样本声学特征信息，最后一个音素识别子模块的输出信息为所述第一音素特征信息。另外，为了保证特征维度的一致性，对于每个音素识别子模块，短时建模模块输入特征的维度与音素特征长时建模模块输出特征的维度是一致的。

对于第一神经网络模型，其音素识别模块可采用时延神经网络(time-delayneural network，TDNN)，TDNN是一种前馈神经网络架构，可以在上下文执行事假卷积而高效地建模长期依赖性关系；音素识别模块也可采用带输入映射的具备上下文语境的门控循环单元(mGRU)，其是对门控循环单元(GRU)的改进，相比于GRU，mGRU进一步减少了门控的数量，移除了重置门，并将双曲正切函数换位ReLU激活函数，此外，mGRU相当于令GRU中的重置门恒等于1。这样，基于mGRU的计算要比基于GRU的计算简单；随着神经元数量的增加，计算呈线性增长，可给输入增加一个输入映射模块，也可称为特征维度转换模块，其具体作用是先将高维特征压缩为低维，然后在低维特征上发生实际的运算，再恢复到应有的高维特征。通过采用具备上下文语境的门控循环单元，能够实现在大幅度降低计算量、降低冗余信息的基础上，还可以将未来帧的语境信息编码为定长的表征并添加到输入后续模型的映射模块中。本公开实施例中的分类模块具体可采用softmax分类，softmax分类模块根据每一帧对应到每一个音素的概率来确定输出的音素，例如假设有50个音素，对于一帧语音信息，softmax分类模块会计算其对应这50个音素的概率，并将概率值最大的音素确定为该帧语音信息对应的音素。

从而对于已训练完成的第一神经网络模型，其输入是声学特征信息，其输出是声学特征信息中包含的音素分类概率向量，基于音素分类概率向量可以确定相应的音素分类序列。这里的声学特征信息具体可以为40维的梅尔倒频谱系数，该40维的梅尔倒频谱系数可通过对语音信息进行数字信号处理得到，可以理解为是对语音信息很少损失的频率域表示，其包含了语音内容信息和对象身份信息，从而能够很好地保留原始语音的相关信息；这里的音素序列具体是由多个音素单元组成的，例如：

对于语音1，其时长为t1，语音内容为“你好”，可以25ms为一帧对语音1进行帧级别的划分，假设经过划分之后得到16帧，通过已训练完成的第一神经网络模型对每一帧的声学特征信息进行分类，最后得到“n，n，n，n_i，i，i，i，i，h，h，h，h_ao，ao，ao，ao，ao”，其中，n，n_i，i，h_ao，ao为音素单元。其中为了增强语音转换的连贯性和过度的自然性，本公开实施例中引入了“n_i”、“h_ao”等过度音素单元。

对于上述步骤S240中的语音转换模型，其生成方法请参阅图5，该方法可包括：

S510.获取第二神经网络模型。

S520.获取多个样本信息组；其中每个样本信息组包括音素特征信息、对象标记信息以及与所述音素特征信息对应的声学特征信息，所述声学特征信息携带有所述对象标记信息。

这里的对象标记信息具体可以是指对样本对象的标记信息，对象标记信息用于指示语音转换的对象，即需要转换成哪个对象的声学特征信息；样本对象可以是指经过训练得到的语音转换模型所对应的对象，即通过语音转换模型进行转换之后，可以得到具有这些样本对象的音色的语音信息；语音转换模型能够转换得到几种音色的语音信息，取决于有几个样本对象。对象标记信息具体可采用向量标记的形式，每个样本对象对应一个对象标记向量，通过对象标记向量可唯一确定相应的样本对象。将每个样本信息组作为一项训练数据对第二神经网络模型进行训练。

对于样本信息组的生成方法，具体可参见图6，该方法可包括：

S610.获取多项样本音素特征信息，以及多项对象标记信息。

这里的音素特征信息可以是指包含音素单元的信息，例如与“你好”对应的“n，n，n，n_i，i，i，i，i，h，h，h，h_ao，ao，ao，ao，ao”，还可以有“早上好”、“晚上好”等对应的音素单元信息；对象标记信息的数量与样本对象的数量是一致的，这里的多项对象标记信息可参见上述对其的解释，这里不再赘述。

S620.基于每项样本音素特征信息，得到携带有所述对象标记信息的声学特征信息；其中所述携带有所述对象标记信息的声学特征信息的项数，与所述对象标记信息的项数一致。

对于每项样本音素特征信息，其可以包含在一个或者多个样本对象的声学特征信息中，从而对于每项样本音素特征信息，会有一个或者多个样本对象的不同声学特征信息表达。

具体地，以“你好”对应的音素特征信息为例进行说明，假设有3个样本对象A，B，C，可获取这3个样本对象说“你好”时的语音信息，然后分别变换成相应的声学特征信息，从而对于“你好”对应的音素特征信息，得到了3项相应的声学特征信息，样本对象A的声学特征信息携带有样本对象A的标记信息，样本对象B的声学特征信息携带有样本对象B的标记信息，以此类推。

S630.对所述多项样本音素特征信息，以及所述多项对象标记信息进行两两组合，得到多个第一信息组。

若样本音素特征信息包括a，b，c，对象标记信息包括：标记信息A，标记信息B，标记信息C，则得到的第一信息组包括[a，A]，[a，B]，[a，C]，[b，A]，[b，B]，[b，C]，[c，A]，[c，B]，[c，C]。

S640.对于每个所述第一信息组，确定与所述第一信息组中的样本音素特征信息对应，且携带有所述第一信息组中的对象标记信息的关联声学特征信息。

对于第一信息组[a，A]，若a为“你好”对应的音素特征信息，那么这里的关联声学特征信息即为样本对象A说“你好”时的语音信息的声学特征信息。

S650.将所述关联声学特征信息添加到所述第一信息组中，生成所述样本信息组。

S530.将每个样本信息组中的音素特征信息，以及对象标记信息输入到所述第二神经网络模型进行声学特征转换，得到已转换声学特征信息。

对于每个样本信息组，通过第二神经网络模型进行声学特征转换所得到的第一声学特征信息是在对象标记信息的指示下，基于音素特征信息进行转换得到的。

S540.基于每个样本信息组对应的已转换声学特征信息，以及所述样本信息组中的声学特征信息，确定声学特征损失。

S550.基于所述声学特征信息损失对所述第二神经网络模型进行训练，得到所述语音转换模型。

在训练过程中，基于声学特征信息损失不断对语音转换模型进行优化，模型优化原理公式为：

其中，Y_i表示声学特征序列的第i帧，Y_i ^pred表示语音转换模型预测的第i帧声学特征序列，该语音包含N帧。通过反向梯度算法对模型参数进行调整，使其可以更精确的预测目标对象的声学特征参数。

对于语音转换模型，其输入的音素特征信息可以是上述语音识别模型输出的音素特征信息，其输出的声学特征信息具体可以为36维的梅尔倒频谱系数以及2维的音高参数，这里的音高参数是基频和基频相关系数，是表示说话对象音色沙哑还是明亮相关的特征。

该语音转换模型通过在训练过程中引入对象标记信息来对第二神经网络模型进行训练，使得训练得到的单个模型能够实现从原始对象到多个不同目标对象的语音转换，相比于为每个目标对象建立语音转换模型，既减轻了模型训练的工作量，也能够提高语音转换效率。

上述的第二神经网络模型包括卷积模块和单向门控循环网络模块，相应地，请参阅图7，其示出了一种基于第二神经网络模型进行声学转换的方法，可包括：

S710.将所述多个样本信息组中的样本音素特征信息输入到所述卷积模块进行音素特征局部信息提取，得到第二音素特征信息。

S720.将所述第二音素特征信息输入到所述单向门控循环网络模块进行声学特征转换，得到所述第一声学特征信息，所述第一声学特征信息是基于所述对象标记信息得到的。

通过卷积模块能够对音素特征的局部信息进行提取建模，单向门控循环网络能够保证整个系统实时性的基础上信息的全局相关性。

目标对象的声学特征信息中包括多个维度的特征信息，从而请参阅图8，其示出了一种语音信号重建方法，具体可包括：

S810.确定每个维度的特征信息所对应的频率范围。

S820.在每个频率范围内进行特征提取，得到多项已提取特征信息。

S830.基于所述多项已提取特征信息进行语音信号重建，得到所述目标对象的第二语音信号。

本公开在具体进行语音信号重建时，可采用LPCNet声码器；相较于传统的信号声码器，LPCNet声码器重建的语音质量和自然度都有大幅提升，并且所需的计算量大大减少，推理时间更快。在进行声码器模型训练时，其输入为声学特征信息，具体可为36维的梅尔倒频谱系数以及2维的音高参数，输出为对应的时域语音信号。

LPCNet声码器的工作过程可通过如下公式体现：

e(n)＝LPCNetModel[Mel₃₆(n),period(n),correlation(n),y(n-1),e(n-1)](6)

y(n)＝pred(n)+e(n) (7)

其中，Mel₃₆(n)，period(n)，correlation(n)分别代表n时刻36维梅尔倒频谱系数和2维音高参数，X_M(n)为n时刻长度为M的频谱，对于32kHz信号M＝320为推荐值，FeatExt代表特征提取模块；LpcPara_L(n)代表n时刻长度为L的LPC系数，L＝16为推荐值，F_lpc代表计算该系数的模块；pred(n)代表n时刻基于LPC系数计算的合成信号采样点，y_L(n)代表n时刻之前的长度为L的合成信号采样点组成的向量，即y_L(n)＝[y(n-1),y(n-2),...,y(n-L)]；e(n)代表预测的n时刻合成信号采样点残差信号，LPCNetModel为LPCNet声码器预测残差信号的模块；y(n)代表最终得到的n时刻合成信号采样点；其中{*中的过程仅在n为M的整数倍时进行计算，其他过程在每个n时刻都需要进行计算。

相比于相关技术中LPCNet采用18维BFCC和2维音高参数作为输入的声学特征，本公开采用36维度梅尔倒频谱系数和2维度音高参数作为输入的声学特征信息，对于同一信号，其拆分的特征维度增加，能够对特征信息进行分散，减轻每个维度的建模难度，更有利于特征信息的表达，从而降低特征信息表达复杂度；对于多维度的特征信息表达，有利于后续网络模块进行特征信息的提取；所以采用的36维度梅尔倒频谱系数和2维度音高参数作为输入的声学特征信息在能够较好重建语音信号的同时保证前置的语音转换系统更好得拟合声学特征；同时，本公开使用的LPCNet支持16kHz、24kHz和32kHz等采样率的语音信号重建，支持更高音质的变声体验。

对于本公开实施例上述图2所示的语音处理方法，对于根据语音识别模型和语音转换模型得到的语音处理系统，可用于原始对象的语音信息到一个或者多个目标对象的语音信息的转换，即在具体实施过程中，可预先确定要转换的目标对象的音色，从而实现将原始对象的语音信息转换成预先确定的目标对象的语音信息，具体可参阅图9，其示出了另一种语音处理方法，可包括：

S910.获取原始对象的第一语音信息。

S920.基于所述第一语音信息生成所述原始对象的声学特征信息。

S930.获取目标对象的对象标记信息，所述目标对象为所述多个样本对象中的一个或多个。

S940.将所述原始对象的声学特征信息输入到语音识别模型进行音素特征识别，得到所述第一语音信息中包含的音素信息。

S950.将所述目标对象的对象标记信息和所述音素信息输入到所述语音转换模型进行声学特征转换，得到所述目标对象的声学特征信息。

S960.基于所述目标对象的声学特征信息生成所述目标对象的第二语音信息；其中，所述原始对象与所述目标对象不同，所述第一语音信息与所述第二语音信息的语音内容相同。

该语音处理方法不仅可以应用于原始说话对象到单个目标说话对象的语音信息转换，而且可以通过在网络中添加对象向量标记信息标记所要获得的目标说话对象语音，即在语音转换时，通过输入时选择特定说话人向量，控制输出音色，该输出音色就是相应特定说话人的音色，从而能够通过单个语音处理模型建模多个说话对象的音色特征，模型根据对象向量标记信息即可确定与目标对象对应的输出，从而能够提高模型转换效率。

需要说明的是，本公开实施例中对于各个深度学习网络模型进行了优化，具体地，在语音识别模型中，通过语音识别模型中的特征维度转换模块先将高维特征转换成低维特征，在低维特征上进行实际运算，从而可以降低模型的计算量；采用具备上下文语境的门控循环单元，能够实现在大幅度降低计算量、降低冗余信息。另外，在声码器的实现过程中，采用比原先维度高的38维特征作为声码器的输入，从而能够减轻每个维度的建模难度，降低特征信息表达复杂度。基于上述对模型的优化，能够降低模型的参数量和模型预测过程所需的计算量，降低了对算力的依赖，处理时间短，使得语音处理过程可以在端上设备进行，这里的端上设备具体可以是指图1中所述的电子设备。

本公开基于人类发声原理的一致性，借助神经网络强大的建模能力，完成不同说话人到特定目标说话人音色的映射，从而保持原始语音的内容，只进行说话人音色的迁移；具体为先从不同说话人的语音信号中提取包含的音素信息，其中音素信息是说话人无关的特征，然后通过神经网络建模音素信息到特定说话人语音信号的映射关系，从而实现保留原始说话人语音中的内容信息，同时将原始语音中的说话人音色修改与目标说话人一致，即语音转换；本公开中通过深度学习使得语音转换的合成语音质量大大提高，自然度、语音质量以及转换音色对原始说话人的鲁棒性都大大提高。

具体地，本公开可以应用于直播变声场景中，将主播所说的话进行实时划分，得到语音子单元，例如以260ms为一个语音子单元，从而可以对每个语音子单元进行上述的语音处理，最终能够实现单句语音的链路硬延迟约0.25s。

本公开中根据原始对象的第一语音信息生成原始对象的声学特征信息，将原始对象的声学特征信息输入到语音识别模型进行音素特征识别，得到第一语音信息中包含的音素特征信息；这里的音素特征是对第一语音信息中语音内容的表征，携带有第一语音信息中的细节信息，而不包含与原始对象相关的特征，从而使得后续实现语音转换是基于第一语音信息中的语音内容；再将音素特征信息输入到语音转换模型进行声学特征转换，得到目标对象的声学特征信息；然后根据目标对象的声学特征信息生成目标对象的第二语音信息。本公开采用基于深度学习的语音识别模型以及语音转换模型，将原始对象的语音信息转换为目标对象的语音信息，能够提高语音转换的自然度，并且转换之后的语音音色就是目标对象的音色；另外，由于本公开是基于提取的音素特征信息进行语音转换的，使得转换之后的语音信息中保留相应的音素特征，从而保证转换前后的语音信息的音素特征信息一致，即语音信息内容一致，并且没有引入噪声，提高了语音转换结果的准确性，从而能够提升用户与产品之间交互的便利性，提升用户粘度。

本公开还提供了一种语音处理装置，请参阅图10，可包括：

第一语音信息获取单元1010，被配置为执行获取原始对象的第一语音信息；

原始特征信息生成单元1020，被配置为执行基于所述第一语音信息生成所述原始对象的声学特征信息；

音素特征识别单元1030，被配置为执行将所述原始对象的声学特征信息输入到语音识别模型进行音素特征识别，得到所述第一语音信息中包含的音素信息；

目标特征信息生成单元1040，被配置为执行将所述音素信息输入到语音转换模型进行声学特征转换，得到目标对象的声学特征信息；

第二语音信息生成单元1050，被配置为执行基于所述目标对象的声学特征信息生成所述目标对象的第二语音信息；

在一示例性实施例中，所述装置还包括：

所述装置还包括：

在一示例性实施例中，所述语音识别模型生成单元包括：

所述装置还包括：

在一示例性实施例中，所述装置还包括：

在一示例性实施例中，所述装置包括：

所述声学特征转换单元包括：

在一示例性实施例中，所述装置还包括：

所述目标特征信息生成单元包括：

所述第二语音信息生成单元包括：

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

在示例性实施例中，还提供了一种包括指令的计算机可读存储介质，可选地，计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等；当所述计算机可读存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行如本实施例中的任一方法。

在示例性实施例中，还提供一种计算机程序产品，所述计算机程序产品包括计算机程序，所述计算机程序存储在可读存储介质中，计算机设备的至少一个处理器从所述可读存储介质读取并执行所述计算机程序，使得设备执行本实施例中的任一方法。

进一步地，图11示出了一种用于实现本公开实施例所提供的方法的设备的硬件结构示意图，所述设备可以参与构成或包含本公开实施例所提供的装置。如图11所示，设备10可以包括一个或多个(图中采用102a、102b，……，102n来示出)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器104、以及用于通信功能的传输装置106。除此以外，还可以包括：显示器、输入/输出接口(I/O接口)、通用串行总线(USB)端口(可以作为I/O接口的端口中的一个端口被包括)、网络接口、电源和/或相机。本领域普通技术人员可以理解，图11所示的结构仅为示意，其并不对上述电子装置的结构造成限定。例如，设备10还可包括比图11中所示更多或者更少的组件，或者具有与图11所示不同的配置。

应当注意到的是上述一个或多个处理器102和/或其他数据处理电路在本文中通常可以被称为“数据处理电路”。该数据处理电路可以全部或部分的体现为软件、硬件、固件或其他任意组合。此外，数据处理电路可为单个独立的处理模块，或全部或部分的结合到设备10(或移动设备)中的其他元件中的任意一个内。如本公开实施例中所涉及到的，该数据处理电路作为一种处理器控制(例如与接口连接的可变电阻终端路径的选择)。

存储器104可用于存储应用软件的软件程序以及模块，如本公开实施例中所述的方法对应的程序指令/数据存储装置，处理器102通过运行存储在存储器104内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的一种播放器预加载方法或一种播放器运行方法。存储器104可包括高速随机存储器，还可包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器104可进一步包括相对于处理器102远程设置的存储器，这些远程存储器可以通过网络连接至设备10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

传输装置106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括设备10的通信供应商提供的无线网络。在一个实例中，传输装置106包括一个网络适配器(Network Interface Controller，NIC)，其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，传输装置106可以为射频(Radio Frequency，RF)模块，其用于通过无线方式与互联网进行通讯。

显示器可以例如触摸屏式的液晶显示器(LCD)，该液晶显示器可使得用户能够与设备10(或移动设备)的用户界面进行交互。

本实施例上述的任一方法均可基于图11所示的设备进行实施。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种语音处理方法，其特征在于，包括：

获取原始对象的第一语音信息；

基于所述第一语音信息生成所述原始对象的声学特征信息；

将所述原始对象的声学特征信息输入到语音识别模型进行音素特征识别，得到所述第一语音信息中包含的音素信息；所述语音识别模型基于对第一神经网络模型进行训练得到，所述第一神经网络模型包括音素识别模块，所述音素识别模块包括至少一个音素识别子模块，其中每个所述音素识别子模块包括音素特征短时建模模块、特征维度转换模块以及音素特征长时建模模块；所述语音识别模型的训练方法包括：

2.根据权利要求1所述的一种语音处理方法，其特征在于，所述方法还包括：

获取所述第一神经网络模型；所述第一神经网络模型包括音素识别模块和分类模块；

3.根据权利要求2所述的一种语音处理方法，其特征在于，所述基于所述训练完成的第一神经网络模型生成所述语音识别模型包括：

4.根据权利要求1所述的一种语音处理方法，其特征在于，所述方法还包括：

当所述音素识别模块包括一个所述音素识别子模块时，所述待处理特征信息为每项样本声学特征信息，所述音素识别子模块的输出信息为第一音素特征信息。

5.根据权利要求4所述的一种语音处理方法，其特征在于，所述方法还包括：当所述音素识别模块包括多个所述音素识别子模块时，将上一个音素识别子模块的输出信息作为下一个音素识别子模块的输入信息，第一个音素识别子模块的输入信息为所述每项样本声学特征信息，最后一个音素识别子模块的输出信息为所述第一音素特征信息。

6.根据权利要求1所述的一种语音处理方法，其特征在于，所述方法还包括：

获取第二神经网络模型；

7.根据权利要求6所述的一种语音处理方法，其特征在于，所述方法还包括：

获取多项样本音素特征信息，以及多项对象标记信息；

8.根据权利要求6所述的一种语音处理方法，其特征在于，所述第二神经网络模型包括卷积模块和单向门控循环网络模块；

所述将每个样本信息组中的音素特征信息，以及对象标记信息输入到所述第二神经网络模型进行声学特征转换，得到已转换声学特征信息包括：

将每个样本信息组中的音素特征信息，输入到所述卷积模块进行音素特征局部信息提取，得到第二音素特征信息；

将所述第二音素特征信息输入到所述单向门控循环网络模块进行声学特征转换，得到所述已转换声学特征信息，所述已转换声学特征信息是基于所述对象标记信息得到的。

9.根据权利要求6所述的一种语音处理方法，其特征在于，所述将所述音素信息输入到语音转换模型进行声学特征转换，得到目标对象的声学特征信息之前，包括：

获取目标对象的对象标记信息，所述目标对象为多个样本对象中的一个或多个；

10.根据权利要求1所述的一种语音处理方法，其特征在于，所述目标对象的声学特征信息中包括多个维度的特征信息；

确定每个维度的特征信息所对应的频率范围；

11.一种语音处理装置，其特征在于，包括：

音素特征识别单元，被配置为执行将所述原始对象的声学特征信息输入到语音识别模型进行音素特征识别，得到所述第一语音信息中包含的音素信息；所述语音识别模型基于对第一神经网络模型进行训练得到，所述第一神经网络模型包括音素识别模块，所述音素识别模块包括至少一个音素识别子模块，其中每个所述音素识别子模块包括音素特征短时建模模块、特征维度转换模块以及音素特征长时建模模块；

12.根据权利要求11所述的一种语音处理装置，其特征在于，所述装置还包括：

第一神经网络模型获取单元，被配置为执行获取所述第一神经网络模型；所述第一神经网络模型包括音素识别模块和分类模块；

13.根据权利要求12所述的一种语音处理装置，其特征在于，所述语音识别模型生成单元包括：

14.根据权利要求11所述的一种语音处理装置，其特征在于，当所述音素识别模块包括一个所述音素识别子模块时，所述待处理特征信息为每项样本声学特征信息，所述音素识别子模块的输出信息为第一音素特征信息。

15.根据权利要求14所述的一种语音处理装置，其特征在于，所述装置还包括：

16.根据权利要求11所述的一种语音处理装置，其特征在于，所述装置包括：

17.根据权利要求16所述的一种语音处理装置，其特征在于，所述装置包括：

18.根据权利要求16所述的一种语音处理装置，其特征在于，所述第二神经网络模型包括卷积模块和单向门控循环网络模块；

所述声学特征转换单元包括：

局部信息提取单元，被配置为执行将每个样本信息组中的音素特征信息，输入到所述卷积模块进行音素特征局部信息提取，得到第二音素特征信息；

第一转换单元，被配置为执行将所述第二音素特征信息输入到所述单向门控循环网络模块进行声学特征转换，得到所述已转换声学特征信息，所述已转换声学特征信息是基于所述对象标记信息得到的。

19.根据权利要求16所述的一种语音处理装置，其特征在于，所述装置还包括：

目标对象标记信息获取单元，被配置为执行获取目标对象的对象标记信息，所述目标对象为多个样本对象中的一个或多个；

所述目标特征信息生成单元包括：

20.根据权利要求11所述的一种语音处理装置，其特征在于，所述目标对象的声学特征信息中包括多个维度的特征信息；

所述第二语音信息生成单元包括：

21.一种电子设备，其特征在于，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现如权利要求1至10中任一项所述的语音处理方法。

22.一种计算机可读存储介质，其特征在于，当所述计算机可读存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行如权利要求1至10中任一项所述的语音处理方法。