CN110288975A

CN110288975A - 语音风格迁移方法、装置、电子设备及存储介质

Info

Publication number: CN110288975A
Application number: CN201910417465.XA
Authority: CN
Inventors: 黄星
Original assignee: Beijing Dajia Internet Information Technology Co Ltd
Current assignee: Beijing Dajia Internet Information Technology Co Ltd
Priority date: 2019-05-17
Filing date: 2019-05-17
Publication date: 2019-09-27
Anticipated expiration: 2039-05-17
Also published as: CN110288975B

Abstract

本公开提供语音风格迁移方法、装置、电子设备及存储介质。本公开涉及一种语音风格迁移方法，包括：获取第一对象的第一语音；根据预置的第一模型对所述第一语音进行特征提取，得到第一特征，所述第一特征包括第一语音特征和第一语义特征；根据预置的第二模型对所述第一语音特征进行消除，得到第二特征；获取第二对象的第二语音特征；根据所述第二特征和所述第二语音特征，生成第二语音。本公开实施例能够实现语音风格的迁移，解决现有技术中语音转换方法样本量大，计算量大，转换效率不佳的问题。

Description

语音风格迁移方法、装置、电子设备及存储介质

技术领域

本公开涉及语音处理技术领域，尤其涉及一种语音风格迁移方法、装置、电子设备及存储介质。

背景技术

随着计算机技术的不断发展，语音处理技术也已经相当成熟。语音转换技术，是语音处理领域近年来新兴的研究分支，涵盖了说话人识别和语音合成的技术，语音转换技术在保持语义内容不变的情况下，通过改变一个特定说话人的与语音个性特征，使他说的话被听者认为是另一个说话人说的话。

现有技术中，语音转换技术出现了大量的算法，主要通过提取代表说话人个性的特征参数并进行数学变化，然后将变换后的参数重构成语音。在这过程中，既要保持重构语音的听觉质量，又要兼顾转换后的个性特征是否准确。

然而，现有技术中的语音转换方法，需要样本量大，计算量大，转换效率不佳。

发明内容

本公开提供一种语音风格迁移方法、装置、电子设备及存储介质，以克服现有技术中语音转换方法样本量大，计算量大，转换效率不佳的问题。

本公开提供一种语音风格迁移方法，包括：

获取第一对象的第一语音；

根据预置的第一模型对所述第一语音进行特征提取，得到第一特征，所述第一特征包括第一语音特征和第一语义特征；

根据预置的第二模型对所述第一语音特征进行消除，得到第二特征，所述第二特征包括所述第一语义特征；

获取第二对象的第二语音特征；

根据所述第二特征和所述第二语音特征，生成第二语音。

进一步的，所述根据预置的第二模型对所述第一语音特征进行消除，得到第二特征之前，还包括：

获取语音特征样本集合；

根据所述语音特征样本集合对所述第二模型进行训练。

进一步的，所述根据所述语音特征样本集合对所述第二模型进行训练，包括：

根据所述语音特征样本集合，使用第一损失函数对第二模型进行训练；

其中，所述第一损失函数为：LOSS1＝D(ati，si)-3*max(D(ati，si’))，

其中，ati为所述第二模型输出的样本对象i的语音特征的特征向量，si为样本对象i的语音特征的特征向量，si’为除样本对象i外其余样本对象中与样本对象i的语音特征的特征向量距离最近的N1个样本对象的语音特征的特征向量的集合，D为计算特征向量之间距离的函数，N1为大于1的整数。

进一步的，所述根据预置的第二模型对所述第一语音特征进行消除，得到所述第二特征，包括：

根据预置的第二模型使用第二损失函数，对所述第一语音特征进行清除，得到所述第二特征；

其中，所述第二损失函数为：LOSS2＝3*max(D(atj，sj’))-D(atj，sj)，

其中，atj为所述第二模型输出的样本对象的语音特征的特征向量，sj为样本对象j的语音特征的特征向量；sj’为除样本对象j外其余样本对象中与样本对象j的语音特征的特征向量距离最近的N2个样本对象的语音特征的特征向量的集合，D是计算特征向量之间距离的函数，N2为大于1的整数。

进一步的，所述根据所述第二特征和所述第二语音特征，生成第二语音，包括：

将所述第二特征和所述第二语音特征输入预置的第三模型，生成第二语音。

进一步的，所述获取第一对象的第一语音之前，还包括：

根据第三损失函数对第一模型和第三模型进行训练，

所述第三损失函数为：LOSS3＝MSE(n’，n)；

其中，MSE为均方误差函数；

n’为第三模型生成的第二样本语音；

n为输入第一模型的第一样本语音。

本公开还提供一种语音风格迁移装置，包括：

获取模块，用于获取第一对象的第一语音；

提取模块，用于根据预置的第一模型对所述第一语音进行特征提取，得到第一特征，所述第一特征包括第一语音特征和第一语义特征；

消除模块，用于根据预置的第二模型对所述第一语音特征进行消除，得到第二特征，所述第二特征包括第一语义特征；

所述获取模块，还用于获取第二对象的第二语音特征；

生成模块，用于根据所述第二特征和所述第二语音特征，生成第二语音。

进一步的，所述获取模块，还用于获取语音特征样本集合；

所述消除模块，还用于根据所述语音特征样本集合对所述第二模型进行训练。

进一步的，所述消除模块，还用于所述根据所述语音特征样本集合，使用第一损失函数对第二模型进行训练；

进一步的，所述消除模块，具体用于根据预置的第二模型使用第二损失函数，对所述第一语音特征进行清除，得到所述第二特征；

进一步的，所述生成模块，具体用于将所述第二特征和所述第二语音特征输入预置的第三模型，生成第二语音。

进一步的，所述消除模块，还用于根据第三损失函数对第一模型和第三模型进行训练，

所述第三损失函数为：LOSS3＝MSE(n’，n)；

其中，MSE为均方误差函数；

n’为第三模型生成的第二样本语音；

n为输入第一模型的第一样本语音。

本公开还提供一种电子设备，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现如上述的语音风格迁移方法。

本公开还提供一种存储介质，当所述存储介质由电子设备的处理器执行时，使得电子设备能够执行上述的语音风格迁移方法。

本公开还提供一种计算机程序产品，该计算机程序产品包括计算机执行指令，计算机执行指令被处理器执行时用于实现上述的语音风格迁移方法。

本公开提供的语音风格迁移方法、装置、电子设备及存储介质，通过消除第一特征中的第一语音特征，得到第一语义特征，结合第二对象的语音特征生成第二语音，实现语音风格的迁移，解决现有技术中语音转换方法样本量大，计算量大，转换效率不佳的问题。

附图说明

为了更清楚地说明本公开实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本公开一种语音风格迁移方法实施例一的流程图；

图2为本公开一种语音风格迁移方法实施例二的示意图；

图3为本公开一种语音风格迁移装置实施例一的结构示意图。

具体实施方式

为使本公开实施例的目的、技术方案和优点更加清楚，下面将结合本公开实施例中的附图，对本公开实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本公开一部分实施例，而不是全部的实施例。基于本公开中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本公开保护的范围。

本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例不再赘述。

图1为本公开一种语音风格迁移方法实施例一的流程图，

如图1所示，本实施例的方法可以包括：

S101、获取第一对象的第一语音；

本实施例中的第一对象指的是第一语音对应的说话人，第一语音是第一对象的语音数据。

本实施例中，第一语音的获取可以通过实时语音录入来获得，也可以调取预先保存的语音数据来获得。

第一对象可以为任何人，如男士、女士、小孩、老人等各种语音特点的人，第一语音可以为第一对象对应的任何内容的语音。

S102、根据预置的第一模型对所述第一语音进行特征提取，得到第一特征，所述第一特征包括第一语音特征和第一语义特征；

本实施例中，预置的第一模型用于提取第一语音的第一特征，第一模型可以为现有的用于语音识别的模型，本公开对第一模型不做具体限定。

第一模型的输入为语音，输出为向量，即第一特征通过向量来表征。可通过向量之间的距离来完成不同人之间的分类。

本实施例中，第一特征包括第一语音特征和第一语义特征。第一语音特征指的是，说话人的个人特征，即第一对象的个人特征。

可选的，第一对象的个人特征可以为：音色特征、音调特征等。

第一语义特征指的是，第一语音的语音内容，即第一对象的说话内容，该语音内容与第一对象的个人特征无关。

本实施例中，第一模型的输入为第一语音，即输入为一段语音，输出为向量，该向量表征第一语音对应的第一特征；该向量包括一个人语音的特征，比较通俗的考虑，三个水果ABC，可以用001代表A，010代表B等等。同一个人的话，输出的向量是不一样的，但是相较于其他人的话，向量之间的距离更近，类似于聚类。

S103、根据预置的第二模型对所述第一语音特征进行消除，得到第二特征；

本实施例中，通过预置的第二模型对第一语音特征进行消除，得到第二特征。

本实施例中的经过消除处理后得到的第二特征，包括第一语义特征。

本领域技术人员应当理解，此处的对第一语义特征进行消除后得到的第二特征，并不是限定绝对的完全不包含任何第一语音特征，而是最大化的消除第一语音特征，使得尽量达到消除后的第一特征仅包含第一语义特征。

可选的，可以通过获取语音特征样本集合，对第二模型进行训练。

本实施例中，第二模型的输入可以为第一语音特征样本的样本特征，输出为提取的样本语音特征，即样本对应的说话人的个人特征。

第二模型输入的第一语音特征样本可以为第一模型输出的第一语音样本的样本特征。

另一个可选的实施方式，语音特征样本集合可以为收集的语音样本特征集合。

S104、获取第二对象的第二语音特征；

本实施例中的第二对象可以理解为要转换成的目标对象。

本实施例中的第二语音特征，即目标对象的个人特征。

可选的，第二对象第二语音特征的获取可以通过调取预先存储的第二对象的语音特征来获得。也可以通过第二对象的语音来提取其语音特征来获得。

可选的，第二对象的语音可以为实时录入的，也可以调取存储的语音。

S105、根据所述第二特征和所述第二语音特征，生成第二语音。

本实施例中根据第二特征和第二语音特征，生成第二语音，理想状态下即根据第一对象的第一语义特征和第二对象的个人特征生成第二语音。即将第一对象的第一语音转换为第二对象的第二语音，第一对象与第二对象不同，第一语音与第二语音的内容相同。

本实施例中，第一对象例如可以为女士，第二对象可以为男士或儿童，通过本实施例中的语音风格迁移方法，可以将第一对象的第一语音转换为任何目标说话人的语音。

本实施例，通过消除第一特征中的第一语音特征，得到第一语义特征，结合第二对象的语音特征生成第二语音，实现语音风格的迁移，解决现有技术中语音转换方法样本量大，计算量大，转换效率不佳的问题。

图2为本公开一种语音风格迁移方法实施例二的示意图，图2所示实施例是在图1所示实施例的基础上，具体的，

本实施例中，语音m为第一对象的第一语音，第一模型对语音m进行特征提取，得到第一特征ti，第二模型对第一特征ti中的第一语音特征进行消除，得到第二特征，第三模型根据第二特征和第二语音特征生成语音m’。

第三模型用于根据一个语义特征和语音特征生成目标语音，本公开对第三模型不做具体的限定。

本实施例中，对于第二模型，可以根据所述语音特征样本集合，使用第一损失函数对第二模型进行训练；

其中，ati为所述第二模型输出的样本对象的语音特征的特征向量；

si为样本对象i的语音特征的特征向量；

si’为除样本对象i外其余样本对象中与样本对象i的语音特征的特征向量距离最近的N1个样本对象的语音特征的特征向量的集合，N1为大于1的整数；

D为计算特征向量之间距离的函数。

损失函数通常作为学习准则与优化问题相联系，即通过最小化损失函数求解和评估模型。

本实施例中，通过最小化损失函数LOSS1对第二模型进行参数优化。使得第二模型能够输出准确的样本语音特征，即能够正确的识别出样本的个人特征。第二模型能够将不同说话人的语音进行分类。

本实施例中，N1可根据实际需要设置，例如可以为10，可见，本公开中，训练第二模型时不需要大量的语音特征样本数据。

可选的，语音特征样本集合可以为第一模型输出的ti，即从第一模型的语音样本集中获得语音特征样本集合。

本实施例中，第二模型训练好后，可通过第二模型对第一模型进行参数优化，从而实现对第一语音特征的消除，具体的，

其中，第二损失函数为：LOSS2＝3*max(D(atj，sj’))-D(atj，sj)，

其中，atj为所述第二模型输出的样本对象的语音特征的特征向量；

sj为样本对象j的语音特征的特征向量；

sj’为除样本对象j外其余样本对象中与样本对象j的语音特征的特征向量距离最近的N2个样本对象的语音特征的特征向量的集合，N2为大于1的整数；

D是计算特征向量之间距离的函数。

本实施例中根据所述语音特征样本集合对所述第二模型进行训练；具体为，根据预置的第二模型使用第二损失函数对第一模型进行训练，所述第二模型的输入为第一模型输出的第一特征，输出为对第一特征进行进一步提取后获得的第一特征对应的样本对象的语音特征。

本实施例中，通过最小化损失函数LOSS2对第一模型进行参数优化。即第一模型输出第一特征ti后，通过第二模型进行个人特征的提取，根据结果atj对第一模型的输出第一特征进行评估，从而对第一模型的参数进行调整，使得第一模型的输出第一特征ti中尽量不包括语音特征，仅包含语义特征。

本实施例中，第一模型的输入第一语音样本的数量可以根据实际情况灵活选取。

通过第二模型监督第一模型尽可能的去掉能让第二模型正确识别的信息，即语音特征。

通过样本集合对第一模型进行训练后，即可用于语音风格迁移，即通过第一模型对第一语音进行特征提取，得到第一特征，第一特征是包含第一特征，且消除了第一语音特征的，第三模型根据第一特征和第二语音特征生成第二语音，实现语音风格的迁移。

本实施例中，N2是可选的，例如可以为10，可见，本公开中利用第二模型对第一模型进行参数优化时，不需要大量的语音特征数据，计算量也很小。

本实施例中，还可包括第三模型，用于根据第一特征和第二语音特征生成第二语音。

本实施例中，所述获取第一对象的第一语音之前，即模型使用之前，还可包括：

根据第三损失函数LOSS3＝MSE(n’，n)对第一模型和第三模型进行训练；

其中MSE为均方误差函数；

n’为第三模型生成的第二样本语音；

n为输入第一模型的第一样本语音。

第一样本语音即在使用样本对模型训练过程中第一模型的输入。

第二样本语音即在使用样本对模型训练过程中第三模型的输出。

即通过最小化均方误差函数来对第一模型和第三模型进行参数优化，获得最终的第一模型和第三模型。

训练好第一模型和第三模型后，可用于语音风格迁移。即本实施例中可通过第三损失函数对第一模型和第三模型进行训练。

另一个可选的实施方式，对于新的说话人，即新的对象的语音转换，为了更好的迁移效果，可利用新的说话人的语音样本对第二模型和第一模型进行参数优化，然后再用于语音风格迁移，这样可以达到更好的语音转换效果。该过程中对于模型的微调并不需要大量的样本，也不需要复杂计算，相比于现有技术，实现方法更简单。

本实施例中，通过第二模型对第一模型的参数进行优化，第一模型可为现有的语音识别模型，本实施例中，可对现有的第一模型进行优化，不需要通过大量的训练训练第一模型，第二模型可扩展的与第一模型配合，使得第一模型输出的第一特征不包括第一语义特征，从而根据该第一语义特征和第二对象的第二语音特征生成目标语音，实现语音风格迁移，本实施例中的实现方式灵活简单，计算量小，转换效果更好。

本实施例，通过第二模型对第一模型进行的参数优化，实现对第一语音特征的消除，最终实现语音风格迁移，解决现有技术中语音转换方法样本量大，计算量大，转换效率不佳的问题，本实施例提供的语音风格迁移方法，需要样本量小，计算量小，可扩展性好，转换效率更佳。

图3为本公开一种语音风格迁移装置实施例一的结构示意图，

如图3所示，本实施例的装置可以包括：

获取模块31，用于获取第一对象的第一语音；

提取模块32，用于根据预置的第一模型对所述第一语音进行特征提取，得到第一特征，所述第一特征包括第一语音特征和第一语义特征；

消除模块33，用于根据预置的第二模型对所述第一语音特征进行消除，得到第二特征，所述第二特征包括第一语义特征；

获取模块31，还用于获取第二对象的第二语音特征；

生成模块34，用于根据所述第二特征和所述第二语音特征，生成第二语音。

可选的，所述获取模块，还用于获取语音特征样本集合；

可选的，所述消除模块，还用于所述根据所述语音特征样本集合，使用第一损失函数对第二模型进行训练；

可选的，所述消除模块，具体用于根据预置的第二模型使用第二损失函数，对所述第一语音特征进行清除，得到所述第二特征；

可选的，所述生成模块，具体用于将所述第二特征和所述第二语音特征输入预置的第三模型，生成第二语音。

可选的，所述消除模块，还用于根据第三损失函数对第一模型和第三模型进行训练，

所述第三损失函数为：LOSS3＝MSE(n’，n)；

其中，MSE为均方误差函数；

n’为第三模型生成的第二样本语音；

n为输入第一模型的第一样本语音。

本实施例的装置，可以用于执行图1-2所示方法实施例的技术方案，其实现原理和技术效果类似，此处不再赘述。

另外，本公开还提供一种电子设备，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现执行图1-2所示实施例的方法。

本公开还提供一种存储介质，当所述存储介质由电子设备的处理器执行时，使得电子设备能够执行图1-2所示实施例的方法。

本公开还提供一种计算机程序产品，该计算机程序产品包括计算机执行指令，计算机执行指令被处理器执行时用于实现图1-2所述实施例的方法。本领域普通技术人员可以理解：实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时，执行包括上述各方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

需要说明的是，应理解以上装置的各个模块的划分仅仅是一种逻辑功能的划分，实际实现时可以全部或部分集成到一个物理实体上，也可以物理上分开。且这些模块可以全部以软件通过处理元件调用的形式实现；也可以全部以硬件的形式实现；还可以部分模块通过处理元件调用软件的形式实现，部分模块通过硬件的形式实现。例如，确定模块可以为单独设立的处理元件，也可以集成在上述装置的某一个芯片中实现，此外，也可以以程序代码的形式存储于上述装置的存储器中，由上述装置的某一个处理元件调用并执行以上确定模块的功能。其它模块的实现与之类似。此外这些模块全部或部分可以集成在一起，也可以独立实现。这里所述的处理元件可以是一种集成电路，具有信号的处理能力。在实现过程中，上述方法的各步骤或以上各个模块可以通过处理器元件中的硬件的集成逻辑电路或者软件形式的指令完成。

最后应说明的是：以上各实施例仅用以说明本公开的技术方案，而非对其限制；尽管参照前述各实施例对本公开进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本公开各实施例技术方案的范围。

Claims

1.一种语音风格迁移方法，其特征在于，包括：

获取第一对象的第一语音；

获取第二对象的第二语音特征；

根据所述第二特征和所述第二语音特征，生成第二语音。

2.根据权利要求1所述的方法，其特征在于，

所述根据预置的第二模型对所述第一语音特征进行消除，得到第二特征之前，还包括：

获取语音特征样本集合；

根据所述语音特征样本集合对所述第二模型进行训练。

3.根据权利要求2所述的方法，其特征在于，

所述根据所述语音特征样本集合对所述第二模型进行训练，包括：

根据所述语音特征样本集合，使用第一损失函数对所述第二模型进行训练；

4.根据权利要求1-3任一项所述的方法，其特征在于，

所述根据预置的第二模型对所述第一语音特征进行消除，得到所述第二特征，包括：

5.一种语音风格迁移装置，其特征在于，包括：

获取模块，用于获取第一对象的第一语音；

所述获取模块，还用于获取第二对象的第二语音特征；

6.根据权利要求5所述的装置，其特征在于，

所述获取模块，还用于获取语音特征样本集合；

7.根据权利要求6所述的装置，其特征在于，

所述消除模块，还用于所述根据所述语音特征样本集合，使用第一损失函数对所述第二模型进行训练；

8.根据权利要求5-7任一项所述的装置，其特征在于，

所述消除模块，具体用于根据预置的第二模型使用第二损失函数，对所述第一语音特征进行清除，得到所述第二特征；

9.一种电子设备，其特征在于，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现如权利要求1-4中任一项所述的语音风格迁移方法。

10.一种存储介质，当所述存储介质由电子设备的处理器执行时，使得所述电子设备能够执行如权利要求1-4中任一项所述的语音风格迁移方法。