CN113409767B

CN113409767B - 一种语音处理方法、装置、电子设备及存储介质

Info

Publication number: CN113409767B
Application number: CN202110530110.9A
Authority: CN
Inventors: 张颖
Original assignee: Beijing Dajia Internet Information Technology Co Ltd
Current assignee: Beijing Dajia Internet Information Technology Co Ltd
Priority date: 2021-05-14
Filing date: 2021-05-14
Publication date: 2023-04-25
Anticipated expiration: 2041-05-14
Also published as: CN113409767A

Abstract

本公开关于一种语音处理方法、装置、电子设备及存储介质，所述方法包括：对待转换语音信息进行语音识别，得到所述待转换语音信息中包含的音素特征信息；将所述音素特征信息，以及目标对象的标记信息输入到语音转换模型的语音编码模块进行信息编码耦合，得到语音编码耦合信息；将所述语音编码耦合信息输入到语音转换模型的语音解码模块进行信息解码，得到与所述音素特征信息对应的目标声学特征信息；基于所述目标声学特征信息生成已转换语音信息。本公开能够解决相关技术中语音转换的说话人音色有限且固定，无法满足用户个性化语音转换需求的问题。

Description

一种语音处理方法、装置、电子设备及存储介质

技术领域

本公开涉及深度学习技术领域，尤其涉及一种语音处理方法、装置、电子设备及存储介质。

背景技术

语音转换是指在保留语言内容不变的情况下，将一句话的音色从原始说话人转移为目标说话人；其在电影配音、短视频变声、虚拟人等方面可以发挥重要作用。

相关技术中，基于语音识别技术以及神经网络模型能够实现不同说话人到特定目标说话人音色的映射，这里的目标说话人为对神经网络模型进行训练时训练集中的说话人，即相关技术中的语音转换方法只能实现将语音转化为有限的说话人音色，不能转换为训练集中说话人以外的说话人音色，从而无法满足用户的个性化语音转换需求。

发明内容

本公开提供一种语音处理方法、装置、电子设备及存储介质，以至少解决相关技术中语音转换的说话人音色有限且固定，无法满足用户个性化语音转换需求的问题。本公开的技术方案如下：

根据本公开实施例的第一方面，提供一种语音处理方法，包括：

对待转换语音信息进行语音识别，得到所述待转换语音信息中包含的音素特征信息；

将所述音素特征信息，以及目标对象的标记信息输入到语音转换模型的语音编码模块进行信息编码耦合，得到语音编码耦合信息；所述语音转换模型是基于预设对象数据集合进行训练得到的，所述预设对象数据集合中包括多个预设对象的标记信息；其中所述目标对象的标记信息是基于至少两个所述预设对象的标记信息生成的；

将所述语音编码耦合信息输入到所述语音转换模型的语音解码模块进行信息解码，得到与所述音素特征信息对应的目标声学特征信息；所述目标声学特征信息中包含所述目标对象的音色特征信息；

基于所述目标声学特征信息生成已转换语音信息。

在一示例性实施例中，所述预设对象的标记信息为预设对象的特征向量；

所述方法还包括：

对至少两个所述预设对象的特征向量进行加权求和，得到所述目标对象的特征向量；其中每个所述预设对象的特征向量对应的权重之和为1；

将所述目标对象的特征向量确定为所述目标对象的标记信息。

在一示例性实施例中，所述语音编码模块包括音素特征编码模块、标记信息编码模块和特征耦合模块；

所述将所述音素特征信息，以及目标对象的标记信息输入到语音转换模型的语音编码模块进行信息编码耦合，得到语音编码耦合信息包括：

将所述音素特征信息输入到所述音素特征编码模块进行特征提取，得到音素特征向量；

将所述目标对象的标记信息输入到所述标记信息编码模块进行特征维度转换，得到对象特征向量；

将所述音素特征向量和所述对象特征向量输入到所述特征耦合模块进行特征向量耦合，得到所述语音编码耦合信息。

在一示例性实施例中，所述标记信息编码模块包括标记信息映射模块和归一化模块；

所述将所述目标对象的标记信息输入到所述标记信息编码模块进行特征维度转换，得到对象特征向量包括：

通过所述标记信息映射模块将所述目标对象的标记信息映射到预设向量空间，得到所述目标对象的标记信息在所述预设向量空间中的映射向量；

采用所述归一化模块对所述映射向量进行归一化处理，得到所述对象特征向量。

在一示例性实施例中，所述将所述音素特征向量和所述对象特征向量输入到所述特征耦合模块进行特征向量耦合，得到所述语音编码耦合信息包括：

对所述音素特征向量和所述对象特征向量进行拼接，得到所述语音编码耦合信息。

在一示例性实施例中，所述音素特征向量的向量维度与所述对象特征向量的向量维度相同；

所述将所述音素特征向量和所述对象特征向量输入到所述特征耦合模块进行特征向量耦合，得到所述语音编码耦合信息包括：

对所述音素特征向量与所述对象特征向量的相同维度的值进行相加，得到所述语音编码耦合信息。

在一示例性实施例中，所述语音解码模块包括特征融合模块和预测模块；

所述将所述语音编码耦合信息输入到所述语音转换模型的语音解码模块进行信息解码，得到与所述音素特征信息对应的目标声学特征信息包括：

将所述语音编码耦合信息输入到所述特征融合模块进行特征融合，得到融合特征信息；

将所述融合特征信息输入到所述预测模块进行声学特征预测，得到与所述音素特征信息对应的目标声学特征信息。

在一示例性实施例中，所述对待转换语音信息进行语音识别，得到所述待转换语音信息中包含的音素特征信息包括：

将所述待转换语音信息输入到语音识别模型的音素识别模块进行音素识别，得到初始音素信息；

将所述初始音素信息输入到所述语音识别模型的语言学纠正模块进行音素纠正，得到所述待转换语音信息中包含的音素特征信息。

根据本公开实施例的第二方面，提供一种语音处理装置，包括：

语音识别单元，被配置为执行对待转换语音信息进行语音识别，得到所述待转换语音信息中包含的音素特征信息；

信息耦合单元，被配置为执行将所述音素特征信息，以及目标对象的标记信息输入到语音转换模型的语音编码模块进行信息编码耦合，得到语音编码耦合信息；所述语音转换模型是基于预设对象数据集合进行训练得到的，所述预设对象数据集合中包括多个预设对象的标记信息；其中所述目标对象的标记信息是基于至少两个所述预设对象的标记信息生成的；

信息解码单元，被配置为执行将所述语音编码耦合信息输入到所述语音转换模型的语音解码模块进行信息解码，得到与所述音素特征信息对应的目标声学特征信息；所述目标声学特征信息中包含所述目标对象的音色特征信息；

已转换语音信息生成单元，被配置为执行基于所述目标声学特征信息生成已转换语音信息。

所述装置还包括：

加权求和单元，被配置为执行对至少两个所述预设对象的特征向量进行加权求和，得到所述目标对象的特征向量；其中每个所述预设对象的特征向量对应的权重之和为1；

标记信息确定单元，被配置为执行将所述目标对象的特征向量确定为所述目标对象的标记信息。

所述信息耦合单元包括：

特征提取单元，被配置为执行将所述音素特征信息输入到所述音素特征编码模块进行特征提取，得到音素特征向量；

特征维度转换单元，被配置为执行将所述目标对象的标记信息输入到所述标记信息编码模块进行特征维度转换，得到对象特征向量；

向量耦合单元，被配置为执行将所述音素特征向量和所述对象特征向量输入到所述特征耦合模块进行特征向量耦合，得到所述语音编码耦合信息。

所述特征维度转换单元包括：

映射单元，被配置为执行通过所述标记信息映射模块将所述目标对象的标记信息映射到预设向量空间，得到所述目标对象的标记信息在所述预设向量空间中的映射向量；

归一化单元，被配置为执行采用所述归一化模块对所述映射向量进行归一化处理，得到所述对象特征向量。

在一示例性实施例中，所述向量耦合单元包括：

向量拼接单元，被配置为执行对所述音素特征向量和所述对象特征向量进行拼接，得到所述语音编码耦合信息。

所述向量耦合单元包括：

向量相加单元，被配置为执行对所述音素特征向量与所述对象特征向量的相同维度的值进行相加，得到所述语音编码耦合信息。

所述信息解码单元包括：

特征融合单元，被配置为执行将所述语音编码耦合信息输入到所述特征融合模块进行特征融合，得到融合特征信息；

声学特征预测单元，被配置为执行将所述融合特征信息输入到所述预测模块进行声学特征预测，得到与所述音素特征信息对应的目标声学特征信息。

在一示例性实施例中，所述语音识别单元包括：

音素识别单元，被配置为执行将所述待转换语音信息输入到语音识别模型的音素识别模块进行音素识别，得到初始音素信息；

音素纠正单元，被配置为执行将所述初始音素信息输入到所述语音识别模型的语言学纠正模块进行音素纠正，得到所述待转换语音信息中包含的音素特征信息。

根据本公开实施例的第三方面，提供一种电子设备，包括：处理器；用于存储所述处理器可执行指令的存储器；其中，所述处理器被配置为执行所述指令，以实现如上所述的语音处理方法。

根据本公开实施例的第四方面，提供一种计算机可读存储介质，当所述计算机可读存储介质中的指令由电子设备的处理器执行时，使得服务器能够执行如上所述的语音处理方法。

根据本公开实施例的第五方面，提供一种计算机程序产品，所述计算机程序产品包括计算机程序，所述计算机程序存储在可读存储介质中，计算机设备的至少一个处理器从所述可读存储介质读取并执行所述计算机程序，使得设备执行上述语音处理方法。

本公开的实施例提供的技术方案至少带来以下有益效果：

本公开中在需要进行语音转换时，根据多个预设对象的标记信息生成目标对象的标记信息；对待转换语音信息进行语音识别，得到待转换语音信息中包含的音素特征信息；将音素特征信息和目标对象的标记信息输入到语音转换模型的语音编码模块进行信息编码耦合，得到语音编码耦合信息；将语音编码耦合信息输入到语音解码模块，得到目标声学特征信息；这里的目标声学特征信息中包含目标对象的音色特征信息；基于目标声学特征信生成已转换语音信息。本公开中目标对象区别于预设对象，且目标对象的标记信息是用户基于预设对象的标记信息自定义生成的，从而使得基于目标对象的标记信息以及语音转换模型，能够得到携带有新的音色特征信息的已转换语音信息，新的音色特征信息与多个预设对象的音色特征信息均不同，实现了向多个预设对象之外的对象进行语音转换，进一步扩大了语音转换的对象范围，提高了语音转换的灵活性，满足了用户个性化语音转换需求。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理，并不构成对本公开的不当限定。

图1是根据一示例性实施例示出的一种实施环境示意图。

图2是根据一示例性实施例示出的一种语音处理方法流程图。

图3是根据一示例性实施例示出的一种语音识别方法流程图。

图4是根据一示例性实施例示出的一种目标对象的标记信息生成方法流程图。

图5是根据一示例性实施例示出的一种信息耦合方法流程图。

图6是根据一示例性实施例示出的一种对象标记信息编码方法流程图。

图7是根据一示例性实施例示出的一种声学特征预测方法流程图。

图8是根据一示例性实施例示出的对象数据配置界面示意图。

图9是根据一示例性实施例示出的一种语音处理装置示意图。

图10是根据一示例性实施例示出的一种电子设备结构示意图。

具体实施方式

为了使本领域普通人员更好地理解本公开的技术方案，下面将结合附图，对本公开实施例中的技术方案进行清楚、完整地描述。

需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

请参阅图1，其示出了本公开实施例提供的实施环境示意图，该实施环境可包括：至少一个第一终端110和第二终端120，所述第一终端110和所述第二终端120可通过网络进行数据通信。

具体地，第一终端110可在用户进行语音处理操作后获取用户的语音信息，以及从第二终端120获取语音处理模型，采用获取的语音处理模型对获取到的用户语音信息进行处理，得到处理之后的语音信息并输出；或者，第一终端110可在用户进行语音处理操作后获取用户的语音信息，基于用户的语音信息生语音处理请求并发送给第二终端120，第二终端120接收到语音处理请求时，调用语音处理模型对用户的语音信息进行处理，并将处理结果返回给第一终端110；其中用户的语音信息可以是第一终端110通过语音采集设备实时获取到的用户语音信息，也可以是用户所选择的已存储语音信息文件。

第一终端110可以基于浏览器/服务器模式(Browser/Server，B/S)或客户端/服务器模式(Client/Server，C/S)与第二终端120进行通信。第一终端110可以包括：智能手机、平板电脑、笔记本电脑、数字助理、智能可穿戴设备、车载终端等类型的实体设备，也可以包括运行于实体设备中的软体，例如应用程序等。本公开实施例中的第一终端110上运行的操作系统可以包括但不限于安卓系统、IOS系统、linux、windows等。

第二终端120与第一终端110可以通过有线或者无线建立通信连接，所述第二终端120可以包括一个独立运行的服务器，或者分布式服务器，或者由多个服务器组成的服务器集群，其中服务器可以是云端服务器。

为了解决相关技术中语音转换的说话人音色有限且固定，无法满足用户个性化语音转换需求的问题，本公开实施例提供了一种语音处理方法，该方法的执行主体可以为上述图1的第一终端，也可以为上述的第二终端，本公开实施例不作具体限定；请参阅图2，其示出了本公开实施例的一种语音处理方法，该方法可包括：

S210.对待转换语音信息进行语音识别，得到所述待转换语音信息中包含的音素特征信息。

对于具体的语音识别过程，可参阅图3，其示出了一种语音识别方法，该方法可包括：

S310.将所述待转换语音信息输入到语音识别模型的所述音素识别模块进行音素识别，得到初始音素信息。

S320.将所述初始音素信息输入到所述语音识别模型的语言学纠正模块进行音素纠正，得到所述待转换语音信息中包含的音素特征信息。

对于语音识别模型，其中包含了音素识别模块和语言学纠正模块，音素识别模块能够对待转换语音信息进行音素识别，得到音素特征信息；具体可以是从待转换语音信息中提取和语音内容相关的发音单元，该发音单元可以是声学后验概率、发音单元瓶颈特征、音素序列等；语音内容具体可以是指语音信息中所包含的文字信息，不涉及到与说话对象相关的特征信息，例如，某个说话人说了句“你好”，那么这句话的语音内容即为“你好”。

通过语音识别模型得到的音素特征信息中可能会存在一些不符合语言学规则的识别错误，例如根据语言学规则声母后面紧跟的是韵母，若是出现声母后面紧跟的还是声母，则说明出现了音素识别错误，此时可通过语言学纠正模块对该识别错误进行纠正，得到音素纠正结果；从而通过语言学纠正模块，能够纠正音素识别模块输出的不符合语言规则的音素信息并纠正，提高了语音识别的准确性。

S220.将所述音素特征信息，以及目标对象的标记信息输入到语音转换模型的语音编码模块进行信息编码耦合，得到语音编码耦合信息；所述语音转换模型是基于预设对象数据集合进行训练得到的，所述预设对象数据集合中包括多个预设对象的标记信息；其中所述目标对象的标记信息是基于至少两个所述预设对象的标记信息生成的。

本公开实施例中的语音转换模型能够实现将任意语音信息转换为多个预设对象音色的语音信息，在具体进行语音转换时通过输入所需对象的标记信息，实现控制转换后语音信息的音色；这里预设对象的数量与进行训练时所基于的训练样本中的预设对象的数量一致，即在对语音转换模型进行有监督训练时，对于每一项语音输入信息，分别将多个预设对象对应的已转换语音信息作为标签信息，从而使得后续基于该语音转换模型进行语音转换时，通过指定一个或多个预设对象，能够将输入的语音信息转换为指定的预设对象音色的语音信息。若一个预设对象对应一种音色，在模型训练时采用几个预设对象的语音信息，在进行转换时，也可能会相应的有几种音色的语音信息输出，由此可知通过该语音转换模型所得到的对象音色限定在训练集合中预设对象之内。

对于对象的标记信息可以是用于表征对象音色特征的信息或者与对象音色特征信息存在对应关系的信息。

对于语音转换模型可基于神经网络模型进行训练得到，根据使用场景的不同，可采用不同类型的模型，例如，如果对模型的实时性要求较高，可以使用基于非自回归网络的小的神经网络模型；如果对模型的实时性要求不高，可以使用基于自回归网络的大的神经网络模型。

这里的目标对象可以是不同于任一预设对象的对象，其可以指代在语音处理过程中根据用户自定义生成的虚拟对象；具体地，用户可以了解各个预设对象的音色信息，根据所要得到的新音色信息，从多个预设对象中选择出至少两个预设对象进行组合。

具体地，所述预设对象的标记信息为预设对象的特征向量，请参阅图4，其示出了一种目标对象的标记信息生成方法，可包括：

S410.对至少两个所述预设对象的特征向量进行加权求和，得到所述目标对象的特征向量；其中每个所述预设对象的特征向量对应的权重之和为1。

S420.将所述目标对象的特征向量确定为所述目标对象的标记信息。

每个预设对象的特征向量可以表征该预设对象的音色特征，从而可通过对多个预设对象的特征向量进行组合能够得到一个新的特征向量，可假设这个新的特征向量对应一个目标对象，这个新的特征向量可被确定为目标对象的标记信息。本公开实施例中预设对象的特征向量的类型可以为独热码加查找表结构、i-vector或者x-vector等，在此不做具体限定。

以基于三个预设对象A，B，C的特征向量生成目标对象的特征向量为例进行说明，目标对象的特征向量可通过式(1)来表示：

其中，a，b，c分别为三个预设对象A，B，C的特征向量在新生成的特征向量中所占的权重，三者权重总和为1，且各部分占比在0和1之间。

基于多个预设对象的特征向量进行加权求和生成新的特征向量，作为目标对象的特征向量，一方面可以提高特征向量组合的易操作性；另一方面能够根据用户自选的预设对象以及自定义的权重，能够合成所期望音色的语音信息，从而能够实现语音的个性化转换，进而提高语音转换的灵活性。

所述语音编码模块包括音素特征编码模块、标记信息编码模块和特征耦合模块，请参阅图5，其示出了一种信息耦合方法，该方法可包括：

S510.将所述音素特征信息输入到所述音素特征编码模块进行特征提取，得到音素特征向量。

这里的音素特征编码模块具体可采用卷积网络，或者卷积网络与循环神经网络相结合的深度学习网络模型，由于卷积网络能够很好地建模局部特征，故可基于卷积网络对音素特征信息进行特征提取，得到音素特征向量。

S520.将所述目标对象的标记信息输入到所述标记信息编码模块进行特征维度转换，得到对象特征向量。

这里的特征维度转换主要是将目标对象的标记信息转换为预设维度的向量特征，可以是升维转换，也可以是降维转换。通过特征维度的转换，使得标记信息编码模块能够实现统一维度的特征向量输出，满足后续数据处理时的维度需求。

需要说明的是，当对象的标记信息具体为独热码形式的特征向量时，各个对象的特征向量之间可能分布比较离散，网络关联度不高，通过对这些特征向量分别进行特征维度转换编码处理，不仅能够得到统一维度的对象特征向量，还可以得到分布相对连续且平滑、网络关联度高的对象特征向量。

通过分别对音素特征信息和对象标记信息进行编码，使得能够对原始特征信息进行处理，生成易于处理的特征表征信息，从而便于后续数据处理；另外，通过特征维度的转换，使得标记信息编码模块能够实现统一维度的特征向量输出，满足后续数据处理时的维度需求。

S530.将所述音素特征向量和所述对象特征向量输入到所述特征耦合模块进行特征向量耦合，得到所述语音编码耦合信息。

对于音素特征向量和对象特征向量的具体耦合方式，本公开实施例中提供了两种，一种是对所述音素特征向量和所述对象特征向量进行拼接，得到所述语音编码耦合信息；另一种是对所述音素特征向量与所述对象特征向量的相同维度的值进行相加，得到所述语音编码耦合信息。

其中对于第一种信息耦合方法可以是直接将对象特征向量拼接在音素特征向量之后，或者将音素特征向量拼接在对象特征向量之后，通过拼接的方式生成耦合信息提高了信息耦合的可操作性和便利性。对于第二种信息耦合方法可以是在音素特征向量的向量维度与所述对象特征向量的向量维度相同的情况下实现，例如将音素特征向量的第一维度的数值与对象特征向量的第一维度的数值相加，音素特征向量的第二维度的数值与对象特征向量的第二维度的数值相加，以此类推，得到语音编码耦合信息。

上述的标记信息编码模块包括标记信息映射模块和归一化模块，相应地，请参阅图6，其示出了一种对象标记信息编码方法，该方法可包括：

S610.通过所述标记信息映射模块将所述目标对象的标记信息映射到预设向量空间，得到所述目标对象的标记信息在所述预设向量空间中的映射向量。

S620.采用所述归一化模块对所述映射向量进行归一化处理，得到所述对象特征向量。

本公开实施例中在对标记信息进行编码时采用的是向量空间映射的方法，具体可以为embedding方法，embedding是一个可以将离散向量转换为连续向量表示的方式，其能够减少离散向量的空间维数，同时还可以有意义地表示离散向量。

经过向量映射之后得到的映射向量中的数值分布可能比较离散，不在预设的数值范围之内，此时可对映射向量进行归一化处理，得到对象特征向量。

上述的标记信息编码方法通过将对象标记信息映射到统一的向量空间中，使得数据处于同一表现形式，且向量维度降低，节省了计算量；另外，经过归一化之后能够能够保证后期对象特征向量随机融合的有效性，进而提高数据处理的准确性。

上述方法中对目标对象的标记信息进行处理的过程包括：基于多个预设对象的标记信息生成目标对象的标记信息；对目标对象的标记信息进行空间映射，得到映射向量；对映射向量进行归一化处理，从而得到了对象特征信息，在这个过程中，对于同一对象的标记信息，当所选择的空间映射方法不同，所得到的映射向量一般不同。

需要说明的是，当映射向量的方法固定时，对于同一对象的标记信息，所得到的映射向量也是固定的，可预先对每个预设对象的标记信息进行空间映射，并存储各预设对象的映射向量；对个预设对象的映射向量分别进行归一化处理，得到各预设对象的对象特征信息；当用户需要组合多个预设对象时，可直接获取相关预设对象的对象特征信息，生成目标对象的对象特征信息。通过预先计算并存储各预设对象的对象特征信息，在进行语音转换时能够减少计算量，提高语音转换速度。

S230.将所述语音编码耦合信息输入到所述语音转换模型的语音解码模块进行信息解码，得到与所述音素特征信息对应的目标声学特征信息；所述目标声学特征信息中包含所述目标对象的音色特征信息。

语音解码模块可包括特征融合模块和预测模块，相应地，对于目标声学特征信息的具体生成过程，可参阅图7，其示出了一种声学特征预测方法，该方法可包括：

S710.将所述语音编码耦合信息输入到所述特征融合模块进行特征融合，得到融合特征信息。

这里的特征融合模块可包括一个或多个特征融合子模块，当包含多个特征融合子模块时，多个特征融合子模块串行连接，前一个特征融合子模块输出信息作为当前特征融合子模块的输入信息，当前特征融合子模块的输出信息作为后一特征融合子模块的输入信息。特征融合子模块的数量越多，最后一个特征融合子模块的输出信息越接近最终的目标声学特征信息的表征信息。

S720.将所述融合特征信息输入到所述预测模块进行声学特征预测，得到与所述音素特征信息对应的目标声学特征信息。

预测模块可以是根据输入的融合特征信息进行信息决策，得到与音素特征信息对应的目标声学特征信息。

S240.基于所述目标声学特征信息生成已转换语音信息。

可通过目标声学特征信息重建语音信号，具体可以使用传统的基于信号处理的声码器，比如WORLD、STRAIGHT等，也可以使用神经网络声码器，比如WaveRNN、ParallelWaveGAN、LPCNet等，可根据语音转换的使用场景对声码器进行灵活的选择，比如在实时性要求高、计算资源有限的场景，会优先选择比如WORLD、LPCNet等，在实时性要求不高，且计算资源充足的场景，会倾向选择比如WaveRNN、Parallel WaveGAN等进行语音信号重建。

本公开中的语音处理方法可应用于直播变声、视频配音等场景中，下面以一具体示例说明本公开的实施细节，请参阅图8，其示出了用户侧在进行对象数据配置时的界面图，假设有四个对象A、B、C和D，其中对象A的特点是男声，声音沙哑；对象B的特点是男声，声音明亮；对象C的特点是女生，声音沙哑；对象D的特点是女生，声音明亮；现在需要将待转换语音信息转换为偏中性、明亮的语音信息，在图8所示的配置界面中，可选中对象B和对象D，并配置相应的权重分别为0.5，基于这两个对象的标记信息生成新的标记信息，用户终端或者后台服务器端会基于语音转换模型和新的标记信息进行语音转换，从而得到了具有新音色的语音信息。由此可将，用户可根据各预设对象的特点，通过自定义相关预设对象的权重值，得到所需要的多人混合后的新音色；即可实现将语音信息变声为自定义音色的语音信息。

区别于相关技术中只能将语音信息转换到固定音色上，并且当需要增加输出音色时，通过扩大训练数据集合来实现的技术方案，本公开中的语音转换方法在保证变声语音自然度和真实感的基础上，可以采用有限的训练数据实现用户自定义的千人千音的个性化变声，即实现向数据训练集合以外的新音色的变声，不仅节省了训练所需要的多个对象的数据信息，而且没有增加训练和预测过程的计算量。

相应地，本公开实施例还提供了一种语音处理装置，请参阅图9，包括：

语音识别单元910，被配置为执行对待转换语音信息进行语音识别，得到所述待转换语音信息中包含的音素特征信息；

信息耦合单元920，被配置为执行将所述音素特征信息，以及目标对象的标记信息输入到语音转换模型的语音编码模块进行信息编码耦合，得到语音编码耦合信息；所述语音转换模型是基于预设对象数据集合进行训练得到的，所述预设对象数据集合中包括多个预设对象的标记信息；其中所述目标对象的标记信息是基于至少两个所述预设对象的标记信息生成的；

信息解码单元930，被配置为执行将所述语音编码耦合信息输入到所述语音转换模型的语音解码模块进行信息解码，得到与所述音素特征信息对应的目标声学特征信息；所述目标声学特征信息中包含所述目标对象的音色特征信息；

已转换语音信息生成单元940，被配置为执行基于所述目标声学特征信息生成已转换语音信息。

所述装置还包括：

所述信息耦合单元920包括：

所述特征维度转换单元包括：

在一示例性实施例中，所述向量耦合单元包括：

所述向量耦合单元包括：

所述信息解码单元930包括：

在一示例性实施例中，所述语音识别单元910包括：

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

在示例性实施例中，还提供了一种包括指令的计算机可读存储介质，可选地，计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等；当所述计算机可读存储介质中的指令由服务器的处理器执行时，使得服务器能够执行如上所述的语音处理方法。

在示例性实施例中，还提供一种计算机程序产品，所述计算机程序产品包括计算机程序，所述计算机程序存储在可读存储介质中，计算机设备的至少一个处理器从所述可读存储介质读取并执行所述计算机程序，使得设备执行上述的语音处理方法。

进一步地，图10示出了一种用于实现本公开实施例所提供的方法的设备的硬件结构示意图，所述设备可以参与构成或包含本公开实施例所提供的装置。如图10所示，设备10可以包括一个或多个(图中采用102a、102b，……，102n来示出)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器104、以及用于通信功能的传输装置106。除此以外，还可以包括：显示器、输入/输出接口(I/O接口)、通用串行总线(USB)端口(可以作为I/O接口的端口中的一个端口被包括)、网络接口、电源和/或相机。本领域普通技术人员可以理解，图10所示的结构仅为示意，其并不对上述电子装置的结构造成限定。例如，设备10还可包括比图10中所示更多或者更少的组件，或者具有与图10所示不同的配置。

应当注意到的是上述一个或多个处理器102和/或其他数据处理电路在本文中通常可以被称为“数据处理电路”。该数据处理电路可以全部或部分的体现为软件、硬件、固件或其他任意组合。此外，数据处理电路可为单个独立的处理模块，或全部或部分的结合到设备10(或移动设备)中的其他元件中的任意一个内。如本公开实施例中所涉及到的，该数据处理电路作为一种处理器控制(例如与接口连接的可变电阻终端路径的选择)。

存储器104可用于存储应用软件的软件程序以及模块，如本公开实施例中所述的方法对应的程序指令/数据存储装置，处理器102通过运行存储在存储器104内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的一种播放器预加载方法或一种播放器运行方法。存储器104可包括高速随机存储器，还可包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器104可进一步包括相对于处理器102远程设置的存储器，这些远程存储器可以通过网络连接至设备10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

传输装置106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括设备10的通信供应商提供的无线网络。在一个实例中，传输装置106包括一个网络适配器(Network Interface Controller，NIC)，其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，传输装置106可以为射频(Radio Frequency，RF)模块，其用于通过无线方式与互联网进行通讯。

显示器可以例如触摸屏式的液晶显示器(LCD)，该液晶显示器可使得用户能够与设备10(或移动设备)的用户界面进行交互。

本实施例上述的任一方法均可基于图10所示的设备进行实施。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种语音处理方法，其特征在于，包括：

将所述音素特征信息，以及目标对象的标记信息输入到语音转换模型的语音编码模块进行信息编码耦合，得到语音编码耦合信息；所述语音转换模型是基于预设对象数据集合进行训练得到的，所述预设对象数据集合中包括多个预设对象的标记信息；其中所述目标对象的标记信息是基于至少两个所述预设对象的标记信息生成的；所述目标对象不同于任一所述预设对象，所述目标对象是在语音处理过程中根据用户自定义生成的虚拟对象；

基于所述目标声学特征信息生成已转换语音信息。

2.根据权利要求1所述的一种语音处理方法，其特征在于，所述预设对象的标记信息为预设对象的特征向量；

所述方法还包括：

3.根据权利要求1或2所述的一种语音处理方法，其特征在于，所述语音编码模块包括音素特征编码模块、标记信息编码模块和特征耦合模块；

4.根据权利要求3所述的一种语音处理方法，其特征在于，所述标记信息编码模块包括标记信息映射模块和归一化模块；

5.根据权利要求3所述的一种语音处理方法，其特征在于，所述将所述音素特征向量和所述对象特征向量输入到所述特征耦合模块进行特征向量耦合，得到所述语音编码耦合信息包括：

6.根据权利要求3所述的一种语音处理方法，其特征在于，所述音素特征向量的向量维度与所述对象特征向量的向量维度相同；

7.根据权利要求1所述的一种语音处理方法，其特征在于，所述语音解码模块包括特征融合模块和预测模块；

8.根据权利要求1所述的一种语音处理方法，其特征在于，所述对待转换语音信息进行语音识别，得到所述待转换语音信息中包含的音素特征信息包括：

9.一种语音处理装置，其特征在于，包括：

信息耦合单元，被配置为执行将所述音素特征信息，以及目标对象的标记信息输入到语音转换模型的语音编码模块进行信息编码耦合，得到语音编码耦合信息；所述语音转换模型是基于预设对象数据集合进行训练得到的，所述预设对象数据集合中包括多个预设对象的标记信息；其中所述目标对象的标记信息是基于至少两个所述预设对象的标记信息生成的；所述目标对象不同于任一所述预设对象，所述目标对象是在语音处理过程中根据用户自定义生成的虚拟对象；

10.根据权利要求9所述的一种语音处理装置，其特征在于，所述预设对象的标记信息为预设对象的特征向量；

所述装置还包括：

11.根据权利要求9或10所述的一种语音处理装置，其特征在于，所述语音编码模块包括音素特征编码模块、标记信息编码模块和特征耦合模块；

所述信息耦合单元包括：

12.根据权利要求11所述的一种语音处理装置，其特征在于，所述标记信息编码模块包括标记信息映射模块和归一化模块；

所述特征维度转换单元包括：

13.根据权利要求11所述的一种语音处理装置，其特征在于，所述向量耦合单元包括：

14.根据权利要求11所述的一种语音处理装置，其特征在于，所述音素特征向量的向量维度与所述对象特征向量的向量维度相同；

所述向量耦合单元包括：

15.根据权利要求9所述的一种语音处理装置，其特征在于，所述语音解码模块包括特征融合模块和预测模块；

所述信息解码单元包括：

16.根据权利要求9所述的一种语音处理装置，其特征在于，所述语音识别单元包括：

17.一种电子设备，其特征在于，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现如权利要求1至8中任一项所述的语音处理方法。

18.一种计算机可读存储介质，其特征在于，当所述计算机可读存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行如权利要求1至8中任一项所述的语音处理方法。