CN113241082A

CN113241082A - 变声方法、装置、设备和介质

Info

Publication number: CN113241082A
Application number: CN202110435559.7A
Authority: CN
Inventors: 王志强; 阮良; 陈丽; 陈功
Original assignee: Hangzhou Langhe Technology Co Ltd
Current assignee: Hangzhou Netease Zhiqi Technology Co Ltd
Priority date: 2021-04-22
Filing date: 2021-04-22
Publication date: 2021-08-10
Anticipated expiration: 2041-04-22
Also published as: CN113241082B

Abstract

本公开提供一种变声方法、装置、设备和介质，涉及计算机技术领域，变声方法包括：根据初始音频对应的目标变声音频，确定初始音频对应的目标基频偏移量和目标变声参数；其中，目标变声参数包括目标滤波参数和目标均衡参数；根据目标滤波参数，对初始音频进行滤波处理，得到第一音频；基于目标基频偏移量，对第一音频进行基频变换处理，得到第二音频；根据目标均衡参数，对第二音频进行均衡处理，得到目标变声音频。本公开的方案可以抑制变声后的尖锐噪声和沉闷声，从而提高变声性能。

Description

变声方法、装置、设备和介质

技术领域

本公开涉及计算机技术领域，特别涉及一种变声方法、装置、设备和介质。

背景技术

本部分旨在为权利要求书中陈述的本公开的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。

变声是一种音频信号处理的技术，通过改变语音信号的基频、抑制或者增强某些频率成分、添加混响等，可以得到一些特殊的变声音效，例如男女声互变、成熟、恐怖、机器人等音效。其中，改变语音信号的基频，可以显著改变语音的特征信息，因此，大部分变声音效都需要先进行基频变换，即变调处理。

目前的基频变换方法，在语音信号的基频偏移量较大时，容易使变声后的语音产生尖锐噪声和沉闷声，导致变声性能较差。例如，当基频偏移量向上偏移较大时，高频成分容易产生尖锐噪声；当基频偏移量向下偏移较大时，低频成分容易产生沉闷声。

发明内容

本公开实施例提供一种变声方法、装置、设备和介质，用于抑制变声后的尖锐噪声和沉闷声，从而提高变声性能。

第一方面，本公开实施例提供了一种变声方法，包括：

根据初始音频对应的目标变声音频，确定所述初始音频对应的目标基频偏移量和目标变声参数；其中，所述目标变声参数包括目标滤波参数和目标均衡参数；

根据所述目标滤波参数，对所述初始音频进行滤波处理，得到第一音频；

基于所述目标基频偏移量，对所述第一音频进行基频变换处理，得到第二音频；

根据所述目标均衡参数，对所述第二音频进行均衡处理，得到所述目标变声音频。

在一种可选的实施方式中，所述根据初始音频对应的目标变声音频，确定所述初始音频对应的目标基频偏移量和目标变声参数，包括：

基于预先设置的变声类型与基频偏移量的对应关系，根据所述目标变声音频的目标变声类型，确定所述目标基频偏移量；以及

基于预先设置的变声类型与变声参数的对应关系，根据所述目标变声音频的目标变声类型，确定所述目标变声参数。

基于预先设置的基频偏移量与变声参数的对应关系，确定所述目标基频偏移量对应的所述目标变声参数。

在一种可选的实施方式中，所述根据所述目标滤波参数，对所述初始音频进行滤波处理，得到第一音频，包括：

若所述目标滤波参数为目标低频频段，则将所述初始音频的所述目标低频频段滤除，得到所述第一音频；或者

若所述目标滤波参数为目标高频频段，则将所述初始音频的所述目标高频频段滤除，得到所述第一音频。

在一种可选的实施方式中，所述基于所述目标基频偏移量，对所述第一音频进行基频变换处理，得到第二音频，包括：

基于所述目标基频偏移量，对所述第一音频进行变速处理，得到变速音频；

对所述变速音频进行重采样处理，得到所述第二音频；其中，所述第二音频与所述初始音频的语调不同。

在一种可选的实施方式中，所述基于所述目标基频偏移量，对所述第一音频进行变速处理，得到变速音频，包括：

将所述第一音频的时域信号转换为频域信号，得到待处理音频；

根据所述目标基频偏移量，确定待处理音频的音频帧跨度；

基于所述待处理音频的各帧音频，每隔所述音频帧跨度，重新合成一个目标音频帧，得到所述变速音频；其中，每个目标音频帧的幅度信息根据所述待处理音频中，该目标音频帧对应的参考音频帧的幅度信息确定，以及每个目标音频帧的相位信息根据所述待处理音频中，该目标音频帧对应的参考音频帧的相位信息确定。

在一种可选的实施方式中，所述方法还包括：

针对所述变速音频中的每个目标音频帧，确定所述目标音频帧对应的参考音频帧的参考能量以及所述目标音频帧的目标能量，若所述目标能量与所述参考能量不一致，则将所述目标能量调整至所述参考能量；或者

针对所述变速音频中的每个目标音频帧，确定所述目标音频帧对应的参考音频帧的参考幅度以及所述目标音频帧的目标幅度，若所述目标幅度与所述参考幅度不一致，则将所述目标幅度调整至所述参考幅度。

在一种可选的实施方式中，所述若所述目标能量与所述参考能量不一致，则将所述目标能量调整至所述参考能量，包括：

若所述目标能量与所述参考能量不一致，则将所述参考能量和所述目标能量的比值，作为所述目标音频帧的能量调节因子，并根据所述目标音频帧的能量调节因子，对所述目标能量进行调整；或者

若所述目标能量与所述参考能量不一致，则将所述目标能量逐步调整至所述参考能量。

在一种可选的实施方式中，所述若所述目标幅度与所述参考幅度不一致，则将所述目标幅度调整至所述参考幅度，包括：

若所述目标幅度与所述参考幅度不一致，将所述参考幅度和所述目标幅度的比值，作为所述目标音频帧的幅度调节因子，并根据所述目标音频帧的幅度调节因子，对所述目标幅度进行调整；或者

若所述目标幅度与所述参考幅度不一致，则将所述目标幅度逐步调整至所述参考幅度。

在一种可选的实施方式中，所述根据所述目标均衡参数包括均衡频段和所述均衡频段的能量增强参数，对所述第二音频进行均衡处理，得到所述目标变声音频，包括：

基于所述能量增强参数，对所述第二音频的所述均衡频段的能量进行增强，得到所述目标变声音频。

在一种可选的实施方式中，所述预先设置的基频偏移量与变声参数的对应关系通过如下方式确定：

针对多种变声类型的参考变声音频中的每种变声类型的参考变声音频，执行如下操作：

根据所述参考变声音频的频谱特征，确定多组候选变声参数；其中，所述参考变声音频对应一个基频偏移量；

针对所述多组候选变声参数中的每组候选变声参数，根据该组候选变声参数和所述基频偏移量，对测试音频依次进行滤波处理、基频变换处理和均衡处理，得到该组候选变声参数对应的变声音频；

根据得到的多个变声音频的频谱特征，确定频谱特征与所述参考变声音频的频谱特征相匹配的候选变声音频集；

从所述候选变声音频集中，选择与所述参考变声音频最匹配的候选变声音频，将选择的候选变声音频对应的候选变声参数，作为所述基频偏移量对应的变声参数。

第二方面，本公开实施例还提供了一种变声装置，包括：

确定模块，用于根据初始音频对应的目标变声音频，确定所述初始音频对应的目标基频偏移量和目标变声参数；其中，所述目标变声参数包括目标滤波参数和目标均衡参数；

滤波模块，用于根据所述目标滤波参数，对所述初始音频进行滤波处理，得到第一音频；

基频变换模块，用于基于所述目标基频偏移量，对所述第一音频进行基频变换处理，得到第二音频；

均衡模块，用于根据所述目标均衡参数，对所述第二音频进行均衡处理，得到所述目标变声音频。

在一种可选的实施方式中，所述确定模块，还用于：

在一种可选的实施方式中，所述滤波模块，还用于：

在一种可选的实施方式中，所述基频变换模块，还包括：

变速子模块，用于基于所述目标基频偏移量，对所述第一音频进行变速处理，得到变速音频；

重采样子模块，用于对所述变速音频进行重采样处理，得到所述第二音频；其中，所述第二音频与所述初始音频的语调不同。

在一种可选的实施方式中，所述变速子模块，还用于：

根据所述目标基频偏移量，确定待处理音频的音频帧跨度；

在一种可选的实施方式中，所述装置还包括：

能量调整模块，用于针对所述变速音频中的每个目标音频帧，确定所述目标音频帧对应的参考音频帧的参考能量以及所述目标音频帧的目标能量，若所述目标能量与所述参考能量不一致，则将所述目标能量调整至所述参考能量；或者

幅度调整模块，用于针对所述变速音频中的每个目标音频帧，确定所述目标音频帧对应的参考音频帧的参考幅度以及所述目标音频帧的目标幅度，若所述目标幅度与所述参考幅度不一致，则将所述目标幅度调整至所述参考幅度。

在一种可选的实施方式中，所述能量调整模块，还用于：

在一种可选的实施方式中，所述幅度调整模块，还用于：

在一种可选的实施方式中，所述根据所述目标均衡参数包括均衡频段和所述均衡频段的能量增强参数；

所述均衡模块，还用于：

在一种可选的实施方式中，所述装置还包括对应关系确定模块，用于通过如下方式确定所述预先设置的基频偏移量与变声参数的对应关系：

第三方面，本公开还提供了一种电子设备，包括存储器和处理器，所述存储器上存储有可在所述处理器上运行的计算机程序，当所述计算机程序被所述处理器执行时，使得所述处理器实现第一方面任一种变声方法的步骤。

第四方面，本公开还提供了一种计算机可读存储介质，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时，实现第一方面任一种变声方法的步骤。

本公开实施例提供的变声方法至少具有如下有益效果：

根据本公开实施例提供的方案，对于待变声的初始音频，首先根据初始音频对应的目标变声音频，可以确定初始音频对应的目标基频偏移量和目标变声参数，该目标变声参数包括目标滤波参数和目标均衡参数；根据目标滤波参数对初始音频进行滤波，可以过滤掉初始音频中的相应频率成分，例如过滤掉设定高频成分或者设定低频成分，以降低产生尖锐噪声的高频成分或产生沉闷声的低频成分；进一步地，根据目标基频偏移量对滤波后的第一音频进行基频变换，得到第二音频，然后根据目标均衡参数对第二音频进行均衡处理，避免经过基频变换后，相应的频率成分能量过于小的情况，以均衡各频率成分的能量，进一步抑制尖锐噪声或沉闷声，最终得到变声后的目标变声音频。

本公开实施例基于与目标变声音频匹配的目标基频偏移量和目标变声参数，依次对初始音频进行滤波处理、基频变换以及均衡处理，可以抑制变声后的尖锐噪声和沉闷声，从而提高变声性能。

本公开的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本公开而了解。本公开的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

附图说明

为了更清楚地说明本公开实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本公开实施例提供的一种变声方法的应用场景示意图；

图2为本公开实施例提供的一种变声方法的流程图；

图3为本公开实施例提供的另一种变声方法的流程图；

图4为本公开实施例提供的一种变声系统的示意图；

图5为本公开实施例提供的一种变声装置的示意图；

图6为本公开实施例提供的另一种变声装置的示意图；

图7为本公开实施例提供的电子设备的结构示意图。

具体实施方式

为了使本公开的目的、技术方案和优点更加清楚，下面将结合附图对本公开作进一步地详细描述，显然，所描述的实施例仅仅是本公开的一部分实施例，而不是全部的实施例。基于本公开中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本公开保护的范围。

需要说明的是，本公开的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。

此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

为了方便理解，下面对本公开实施例中涉及的部分概念进行解释。

基频变换(Pitch Shift)：通过改变语音的基频进而改变语音的语调。

时间伸缩(Time Scale Modification，TSM)：又称变速不变调，改变语音时长但不改变语音语调。

相位声码器(Phase Vocoder)：用于改变语音速度。

重采样(Resample)：改变语音采样率。

均衡器(Equalizer，EQ)：用于调节各种频谱成分能量。

下面对本公开实施例的设计思想进行介绍。

例如，相关技术中，在对语音信号进行基频变换时，采用波形相似重叠相加(Waveform Similarity Overlap-Add，WSOLA)算法对语音信号进行变速处理后，再对变速语音进行重采样，得到变调语音。对于WSOLA来说，当基频偏移量很大的时候，其处理过后的语音会有一种很明显的花栗鼠声音，听起来非常尖锐，机器处理的痕迹非常重，甚至会丢失语音的语义信息。因为在WSOLA处理后，语音信号的非平稳信号会被极大的保留下来，而平稳信号则会减少，这听起来非常尖锐，花栗鼠声音明显。除此之外，结合WSOLA和重采样的方式还存在一个问题，如果是向下偏移基频，非常容易将低频成分挤压到更低频，听起来非常的沉闷，甚至影响语音可懂度，导致处理后语义是丢失的。

有鉴于此，本公开实施例提供一种变声方法、装置、设备和介质，首先根据初始音频对应的目标变声音频，确定初始音频对应的目标基频偏移量和目标变声参数，该目标变声参数包括目标滤波参数和目标均衡参数；根据目标滤波参数对初始音频进行滤波，可以过滤掉初始音频中的相应频率成分，例如过滤掉设定高频成分或者设定低频成分，以降低产生尖锐噪声的高频成分或产生沉闷声的低频成分；进一步地，根据目标基频偏移量对滤波后的第一音频进行基频变换，得到第二音频，然后根据目标均衡参数对第二音频进行均衡处理，得到变声后的目标变声音频。本公开实施例基于与目标变声音频匹配的目标基频偏移量和目标变声参数，依次对初始音频进行滤波、基频变换以及均衡处理，可以抑制变声后的尖锐噪声和沉闷声，从而提高变声性能。

下面结合附图对本公开实施例的应用场景进行介绍。

参考图1，其为本公开实施例所提供的变声方法的应用场景示意图。该应用场景包括第一终端设备100和第二终端设备200。其中，第一终端设备100和第二终端设备200可以进行语音通话或者视频通话。第一终端设备100和第二终端设备200均包括但不限于桌面计算机、移动电话、移动电脑、平板电脑、媒体播放器、智能可穿戴设备、智能电视、车载设备、个人数字助理(personal digital assistant，PDA)等电子设备。

目标用户在使用第一终端设备100与其他用户进行语音通话或者视频通话时，第一终端设备100采集到目标用户的语音信号后，可以对该语音信号进行变声处理，得到变声音频，然后将变声音频发送至其他用户的第二终端设备200，以时使第二终端设备200播放该变声音频，从而向其他用户展示目标用户的变声音频。

下面结合图1的应用场景，来描述根据本公开示例性实施方式的变声方法。需要注意的是，上述应用场景中待变声的语音信号是实时获取的，在其他应用场景中，待变声的语音信号也可以不是实时获取的，例如对用户录制好的语音信号进行变声等。上述应用场景仅是为了便于理解本公开的精神和原理而示出，本公开的实施方式在此方面不受任何限制。相反，本公开的实施方式可以应用于适用的任何场景。

参考图2，本公开实施例提供了一种变声方法，可应用于终端设备，例如图1所示的第一终端设备100。变声方法可以包括以下步骤：

步骤S201，根据初始音频对应的目标变声音频，确定初始音频对应的目标基频偏移量和目标变声参数；其中，目标变声参数包括目标滤波参数和目标均衡参数。

其中，目标变声音频可以是各种变声类型的音频，例如可以包括男女声互变后的音频、成熟音、恐怖音、萝莉音等，本公开实施例对此不作限定。每种变声类型可以对应一个基频偏移量，该基频偏移量可以根据需要进行设定，例如，变声类型为成熟音，基频偏移量可以是-3个半音，即向下偏移3个半音；变声类型为男声变女声，基频偏移量可以是+12个半音，即向上偏移12个半音；其中，一个半音对应2^1/12的基频偏移。

每种变声类型还可以对应一个变声参数，该变声参数可以根据变声类型对应的基频偏移量预先设定。具体地，对于变声参数中的滤波参数，当基频偏移量为向下偏移量时，滤波参数可以是第一设定低频频段，防止初始音频的低频成分继续向下偏移，从而产生沉闷声，影响语音可懂度；当基频偏移量为向上偏移量时，滤波参数可以是第一设定高频频段，防止初始音频的高频成分继续向上偏移，从而产生尖锐噪声；其中，第一设定低频频段和第一设定高频频段不具备语义信息，其具体范围值可以根据对应的基频偏移量的数值预先设定。

例如，当基频偏移量为-12，即向下偏移12个半音时，第一设定低频频段可以是200HZ以下的频率成分；当基频偏移量为+12，即向上偏移12个半音时，第一设定高频频段可以是6000HZ以上的频率成分。

另外，变声参数中的目标均衡参数可以包括均衡频段以及该均衡频段的能量增强参数。例如，当基频偏移量为向上偏移量时，均衡频段可以是第二设定低频频段，或者第二设定低频频段和第一设定中频频段，避免初始音频的频率成分向上偏移后，低频成分或者中低频成分的能量过于小的情况；当基频偏移量为向下偏移量时，均衡频段可以是第二设定高频频段，或者第二设定高频频段和第二设定中频频段，避免初始音频的频率成分向下偏移后，高频成分或者中高频成分的能量过于小的情况。其中，均衡频段的具体范围值，及能量增强参数的数值也可以根据对应的基频偏移量的数值预先设定。

由于每种变声类型对应一个基频偏移量，同时对应一个变声参数，因此，每个基频偏移量也可以对应一个变声参数。

具体地，上述步骤201可以通过下面两种实施方式中的一种实现。

第一种可能的实施方式，上述步骤S201可以通过如下步骤实现：

a、基于预先设置的变声类型与基频偏移量的对应关系，根据目标变声音频的目标变声类型，确定目标基频偏移量。

b、基于预先设置的变声类型与变声参数的对应关系，根据目标变声音频的目标变声类型，确定目标变声参数。

具体地，变声类型与基频偏移量的对应关系，以及变声类型与变声参数的对应关系，如表1所示。

由表1可知，当目标变声类型为男声变女声时，其对应的目标基频偏移量为+12个半音，且对应的目标变声参数中的目标滤波参数为6000HZ以上的频率成分，目标均衡参数包括1000HZ以下的频率成分，以及该频率成分的能量增强值。

第二种可能的实施方式，上述步骤S201可以通过如下步骤实现：

B、基于预先设置的基频偏移量与变声参数的对应关系，确定目标基频偏移量对应的目标变声参数。

由表1可知，基频偏移量与变声参数的对应关系，与变声类型与变声参数的对应关系是一致的，该对应关系可以通过实验确定。在下述实施例中将进一步进行介绍。

步骤S202，根据目标滤波参数，对初始音频进行滤波处理，得到第一音频。

该步骤中，将初始音频中目标滤波参数对应的频段虑除，得到滤波后的第一音频。具体地，如果目标滤波参数为目标低频频段，则将初始音频的目标低频频段滤除，得到第一音频；如果目标滤波参数为目标高频频段，则将初始音频的目标高频频段滤除，得到第一音频。其中，目标低频频段可以是上述设定低频频段，例如为200HZ以下的频率成分；目标高频频段可以是上述设定高频频段，例如为6000HZ以上的频率成分。

需要说明的是，本公开上述实施例中涉及到的数值只是示例性的，并不作为对本公开实施例的限制，在实际应用中可以根据需要进行设定。

步骤S203，基于目标基频偏移量，对第一音频进行基频变换处理，得到第二音频。

本公开实施例中，对第一音频进行基频变换时，可以首先对第一音频进行时间伸缩变换，即伸缩第一音频的时长，达到在保持第一音频的语调不变的情况下，改变第一音频的语速的目的，即变速不变调，得到变速音频；然后再将变速音频进行重采样变换，即改变该变速音频的采样率，然后还以原始的采样率播放变速音频，则得到的音频的语调和语速都发生了改变。这样，将第一音频先经过变速，再经过变调变速之后，可以间接得到变调不变速的第二音频，即实现了第一音频的基频变换。

因此，在一些实施例中，如图3所示，上述步骤S203可以通过如下步骤实现：

步骤S2031，基于目标基频偏移量，对第一音频进行变速处理，得到变速音频。

该步骤中，基于目标基频偏移量，对第一音频进行时间伸缩变换，以实现变速处理。具体地，时间伸缩变换可以采用已有的时间伸缩算法，例如Phase Vocoder等，在此不作限定。在本公开下述实施例中将进一步介绍变速处理的具体实现方法。

步骤S2032，对变速音频进行重采样处理，得到第二音频；其中，第二音频与初始音频的语调不同。

具体地，根据变速音频相对于第一音频的语速改变倍数，例如变速音频语速是第一音频语速的0.5倍、1.5倍或者2倍等，相应的改变该变速音频的采样率，例如可以通过插值的方式改变采样率，对于改变采样率后的音频，还以原始的采样率(即变速音频的采样率)进行播放，得到的第二音频的语速与第一音频相同，而语调不同，即第二音频与初始音频的语调不同，这样即得到基频变换后的音频。

步骤S204，根据目标均衡参数，对第二音频进行均衡处理，得到目标变声音频。

由本公开上述实施例可知，目标均衡参数可以包括均衡频段和均衡频段的能量增强参数，此时，步骤S204可以通过如下方式实现：

基于能量增强参数，对第二音频的均衡频段的能量进行增强，得到目标变声音频。

例如，均衡频段为300HZ以下的频率成分，能量增强参数为设定能量值，则将第二音频的300HZ以下的频率成分的能量增加该设定能量值。

本公开实施例中，基于与目标变声音频匹配的目标基频偏移量和目标变声参数，依次对初始音频进行滤波处理、基频变换以及均衡处理，通过滤波处理降低产生尖锐噪声的高频成分或产生沉闷声的低频成分，进一步地，通过均衡处理可以避免经过基频变换后，相应的频率成分能量过于小的情况，以均衡各频率成分的能量，进一步抑制尖锐噪声或沉闷声。因此，本公开实施例可以抑制变声后的尖锐噪声和沉闷声，从而提高变声性能，特别是提高基频偏移量较大时的变声性能，并且可以避免尖锐噪声和沉闷声导致语音的语义信息丢失，提高语音可懂度。

在一些实施例中，上述步骤S2031中基于目标基频偏移量，对第一音频进行变速处理，得到变速音频，可以采用Phase Vocoder实现，具体可以包括如下步骤：

步骤一、将第一音频的时域信号转换为频域信号，得到待处理音频。

具体地，可以对第一音频进行快速傅里叶变换(Fast Fourier Transform，FFT)，将第一音频的时域信号转换为频域信号，得到待处理音频。

步骤二、根据目标基频偏移量，确定待处理音频的音频帧跨度。

例如，待处理音频为16k采样率的音频，如果目标基频偏移量是+8个半音，即2^8/12＝1.5874的基频偏移，那么对于原始1kHZ的频率成分，经过变调后，该1kHZ的频率成分变成了2.587kHZ。音频帧跨度m＝1/2^8/12＝0.63帧，即为目标基频偏移量的倒数。需要说明的是，音频帧跨度可以为非整数，也可以为整数。

步骤三、基于待处理音频的各帧音频，每隔音频帧跨度，重新合成一个目标音频帧，得到变速音频；其中，每个目标音频帧的幅度信息根据待处理音频中，该目标音频帧对应的参考音频帧的幅度信息确定，以及每个目标音频帧的相位信息根据待处理音频中，该目标音频帧对应的参考音频帧的相位信息确定。

该步骤中，先以音频帧跨度为整数为例，介绍一下目标音频帧的确定方式。

例如，音频帧跨度m为2，首先通过如下方式确定各个目标音频帧的幅度：

待处理音频的原始第一帧需要保留，即第一个目标音频帧x1的参考音频帧为原始第一帧，x1的幅度可以采用原始第一帧的幅度，往前推进，由于m为2，1+2＝3，即需要得到原始第三帧，将原始第三帧和原始第四帧作为第二个目标音频帧x2的参考音频帧，x2的幅度可以采用原始第三帧的幅度；3+2＝5，即需要得到原始第五帧，将原始第五帧和原始第六帧作为第三个目标音频帧x3的参考音频帧，x3的幅度可以采用原始第五帧的幅度；以此类推，得到各个目标音频帧的幅度。

然后通过如下方式确定各个目标音频帧的相位角度：

第一个目标音频帧x1的相位角度可以采用原始第一帧的相位角度；第二个目标音频帧x2的相位角度，可以根据x2的参考音频帧(原始第三帧和原始第四帧)的相位角度确定，具体可以为：原始第四帧的相位角度减去原始第三帧的相位角度，再减去预测角度后，归一化到[-π，+π]，然后再加上预测角度，该预测角度为(2*π*hopsize*k)/N，其中，hopsize为原始分帧时的跳跃采样点数，例如，在16k采样率下，hopsize为160点，k为对应的频点，N为一帧的长度，16k采样率下的一帧长度为256点；第三个目标音频帧x3的相位角度，可以根据x3的参考音频帧(原始第五帧和原始第六帧)的相位角度确定，具体可以为：原始第六帧的相位角度减去原始第五帧的相位角度，再减去预测角度后，归一化到[-π，+π]，然后再加上预测角度；以此类推，得到各个目标音频帧的相位角度。

基于各个目标音频帧的幅度和各个目标音频帧的相位角度，即可以合成变声音频。

下面以音频帧跨度为非整数为例，介绍一下目标音频帧的确定方式。

例如，音频帧跨度m为0.63，首先通过如下方式确定各个目标音频帧的幅度：

同样地，待处理音频的原始第一帧需要保留，即第一个目标音频帧x1的参考音频帧为原始第一帧，x1的幅度可以采用原始第一帧的幅度；往前推进，1+0.63＝1.63，需要得到待处理音频的第1.63帧，但由于帧号是整数，因此，第二个目标音频帧x2的参考音频帧可以取第1.63帧的前后相邻帧，即原始第一帧和原始第二帧，x2的幅度为：(1-m_小)*原始第一帧幅度+m_小*原始第二帧幅度，其中，m_小为m的小数部分，例如m为0.63，m_小也为0.63，即将原始第一帧和原始第二帧的幅度加权平均；1.63+0.63＝2.26，第三个目标音频帧x3的参考音频帧可以取第2.26帧的前后相邻帧，即原始第二帧和原始第三帧，x3的幅度为：(1-0.63)*原始第二帧幅度+0.63*原始第三帧幅度；以此类推，得到各个目标音频帧的幅度。需要说明的是，如果m为1.5，m_小为0.5。

然后通过如下方式确定各个目标音频帧的相位角度：

第一个目标音频帧x1的相位角度可以采用原始第一帧的相位角度；第二个目标音频帧x2的相位角度，可以根据x2的参考音频帧(原始第一帧和原始第二帧)的相位角度确定，具体可以为：原始第二帧的相位角度减去原始第一帧的相位角度，再减去预测角度后，归一化到[-π，+π]，然后再加上预测角度；第三个目标音频帧x3的相位角度，可以根据x3的参考音频帧(原始第二帧和原始第三帧)的相位角度确定，具体可以为：原始第三帧的相位角度减去原始第二帧的相位角度，再减去预测角度后，归一化到[-π，+π]，然后再加上预测角度；以此类推，得到各个目标音频帧的相位角度。其中，预测角度为前述预测角度，即(2*π*hopsize*k)/N。

本公开实施例中，通过上述步骤一至步骤三实现变速处理，运算量较小，且对于实时变声的场景，由于每隔音频帧跨度，合成一个目标音频帧，延时较小。

考虑到通过上述步骤一至步骤三获得变速音频的过程中，由于待处理音频中可能存在很多的空白间隙，当上述帧跨度很大时，容易因为空白帧幅度的加权平均，拉低处理后的目标音频帧的幅度，使得目标音频帧及其对应的参考音频帧的能量或者幅度可能存在不一致的情况。

例如，音频帧跨度m为0.6时，目标音频帧x3的参考音频帧为原始第二帧X2和原始第三帧X3，X2的幅度为a＝[1，2，3，4，5，6，7，8]，X3的幅度为b＝[2，3，4，5，6，10，11，12]，x3的幅度为c＝(1-0.63)*a+0.63*b＝[1.63，2.63，3.63，4.63，5.63，8.52，9.52，10.52]。

x3的目标能量是幅度c的平方，X2的能量是幅度a的平方，X3的能量是幅度b的平方，参考音频帧的参考能量是X2的能量和X3的能量的加权平均。因此，目标音频帧x3的目标能量为E1＝c²＝349.7757，而参考音频帧的参考能量E2＝(1-0.63)*a²+0.63*b²＝362.1300，可见，目标能量和参考能量是不一致的。

基于上述问题，本公开实施例可以根据参考音频帧的能量或者幅度，对目标音频帧的能量或幅度进行调整，以使目标能量和参考能量一致。下面介绍一下具体地调整方式。

在一种可能的实施方式中，可以通过如下方式对目标能量进行调整：

针对变速音频中的每个目标音频帧，确定目标音频帧对应的参考音频帧的参考能量以及目标音频帧的目标能量，若目标能量与参考能量不一致，则将目标能量调整至参考能量。

具体地，将目标能量调整至参考能量的方式可以包括以下两种。

第一种方式：若目标能量与参考能量不一致，则将参考能量和目标能量的比值，作为目标音频帧的能量调节因子，并根据目标音频帧的能量调节因子，对目标能量进行调整。

例如，参考能量为E2，目标能量为E1，则将E2/E1作为能量调节因子，通过E1*E2/E1，将目标能量E1调整至E2。

第一种方式：若目标能量与参考能量不一致，则将目标能量逐步调整至参考能量。

该方式中，由于目标能量和参考能量可能相差比较小，可以将目标能量逐步进行调整，例如，参考能量为100，目标能量为90，可以一步一步进行调整，例如按照92、94、96、98、100，逐步将目标能量调整至100。

在另一种可能的实施方式中，可以通过如下方式对目标音频帧的幅度行调整：

针对变速音频中的每个目标音频帧，确定目标音频帧对应的参考音频帧的参考幅度以及目标音频帧的目标幅度，若目标幅度与参考幅度不一致，则将目标幅度调整至参考幅度。

具体地，将目标幅度调整至参考幅度的方式可以包括如下两种。

方式一：若目标幅度与参考幅度不一致，将参考幅度和目标幅度的比值，作为目标音频帧的幅度调节因子，并根据目标音频帧的幅度调节因子，对目标幅度进行调整。

其中，参考幅度是上述参考能量开方后得到的，目标幅度是上述目标能量开方后得到的。示例性的，参考幅度为A，参考能量为上述E2＝362.1300，

＝19.0297；目标幅度为B，目标能量为上述E1＝349.7757，

则将A/B作为幅度调节因子，通过B*A/B，将目标幅度调整至A。

方式二：若目标幅度与参考幅度不一致，则将目标幅度逐步调整至参考幅度。

该方式中，由于目标幅度和参考幅度可能相差比较小，可以将目标幅度逐步进行调整，例如，参考幅度为50，目标幅度为40，可以一步一步进行调整，例如按照42、44、46、48、50，逐步将目标幅度调整至50。

下面对本公开上述实施例中，基频偏移量与变声参数的对应关系的确定方式进行详细介绍。

在一些实施例中，针对多种变声类型的参考变声音频中的每种变声类型的参考变声音频，执行如下操作：

(1)根据参考变声音频的频谱特征，确定多组候选变声参数；其中，参考变声音频对应一个基频偏移量。

具体地，首先分析参考变声音频的频谱特征，例如得到低频、中频、高频的特征；然后根据频谱特征，设定多组候选变声参数，每组候选变声参数包括候选滤波参数和候选均衡参数。

(2)针对多组候选变声参数中的每组候选变声参数，根据该组候选变声参数和基频偏移量，对测试音频依次进行滤波处理、基频变换处理和均衡处理，得到该组候选变声参数对应的变声音频。

该步骤中，对测试音频依次进行滤波处理、基频变换处理和均衡处理的过程，与上述步骤S202步骤S204类似，在此不再赘述。

(3)根据得到的多个变声音频的频谱特征，确定频谱特征与参考变声音频的频谱特征相匹配的候选变声音频集。

具体地，根据变声音频与参考变声音频的频谱差异，选择较为符合参考变声音频的频谱的变声音频，得到候选变声音频集，大大缩小变声参数的选择范围。

(4)从候选变声音频集中，选择与参考变声音频最匹配的候选变声音频，将选择的候选变声音频对应的候选变声参数，作为基频偏移量对应的变声参数。

例如，可以对候选变声音频集进行主观评测，以对候选变声音频集与参考变声音频的相似度进行打分，选择分数最高的候选变声音频对应的候选变声参数。

示例性的，以参考变声类型为恐怖声为例，首先分析大量影视作品中恐怖声的频谱，得到其频谱特征：低频和中频频谱丰富，高频成分较少；设定几百组变声参数，每组变声参数中的滤波参数用于滤除掉极低频的成分，均衡参数用于增强低频中频。基于几百组变声参数中的每组变声参数，对测试音频经过滤波处理、基频变换处理和均衡处理后，得到变声音频集；之后分析变声音频集与恐怖声的频谱差异，选择较为符合恐怖声频谱的候选变声音频集，例如得到10多组候选变声音频；最后对10多组候选变声音频的恐怖效果进行打分，选择分数最高的候选变声音频，作为最符合恐怖效果的音频，即得到最终的变声参数。

下面结合图4对本公开实施例的变声系统进行示例性介绍。

如图4所示，本公开实施例的变声系统可以包括滤波模块41、变速模块42、重采样模块43和均衡模块44，其中，滤波模块41可以采用已有的滤波器，变速模块42可以采用Phase Vocoder实现时间伸缩变换，均衡模块44可以采用已有的均衡器。

将音频A作为初始音频，音频B作为目标变声音频，音频A变声为音频B的基频偏移量为M。首先，根据M的大小，确定滤波参数和均衡参数，基于滤波参数，通过滤波模块41对音频A做滤波处理，滤掉一些不具备语义信息的低频成分或者高频成分，给后续的基频变换留有一定的空间，防止向下偏移后，频谱挤压，产生沉闷声，或者向上偏移后产生尖锐噪声。然后通过变速模块42对滤波后的音频做变速不变调处理，得到变速音频，例如采用PhaseVocoder，可以保证变声的实时性和基频偏移量较大时的变声效果。之后通过重采样模块43对变速音频进行重采样处理，得到变调不变速的音频(即变调音频)。最后，根据均衡参数，通过均衡模块44对变调音频进行均衡处理，得到音频B。

通过上述变声系统对音频A进行处理，得到变声后的音频B，可以抑制变声后的尖锐噪声和沉闷声，从而提高变声性能，特别是提高基频偏移量较大时的变声性能，并且可以避免尖锐噪声和沉闷声导致语音的语义信息丢失，提高语音可懂度。

基于相同的发明构思，本公开实施例还提供了一种变声装置，该装置解决问题的原理与上述实施例的方法相似，因此该装置的实施可以参见方法的实施，重复之处不再赘述。如图5所示，变声装置可以包括确定模块51、滤波模块52、基频变换模块53和均衡模块54。

确定模块51，用于根据初始音频对应的目标变声音频，确定初始音频对应的目标基频偏移量和目标变声参数；其中，目标变声参数包括目标滤波参数和目标均衡参数；

滤波模块52，用于根据目标滤波参数，对初始音频进行滤波处理，得到第一音频；

基频变换模块53，用于基于目标基频偏移量，对第一音频进行基频变换处理，得到第二音频；

均衡模块54，用于根据目标均衡参数，对第二音频进行均衡处理，得到目标变声音频。

在一种可选的实施方式中，确定模块51，还可以用于：

基于预先设置的变声类型与基频偏移量的对应关系，根据目标变声音频的目标变声类型，确定目标基频偏移量；以及

基于预先设置的变声类型与变声参数的对应关系，根据目标变声音频的目标变声类型，确定目标变声参数。

在一种可选的实施方式中，确定模块51，还可以用于：

基于预先设置的基频偏移量与变声参数的对应关系，确定目标基频偏移量对应的目标变声参数。

在一种可选的实施方式中，滤波模块52，还可以用于：

若目标滤波参数为目标低频频段，则将初始音频的目标低频频段滤除，得到第一音频；或者

若目标滤波参数为目标高频频段，则将初始音频的目标高频频段滤除，得到第一音频。

在一种可选的实施方式中，如图6所示，基频变换模块53，还可以包括：

变速子模块531，用于基于目标基频偏移量，对第一音频进行变速处理，得到变速音频；

重采样子模块532，用于对变速音频进行重采样处理，得到第二音频；其中，第二音频与初始音频的语调不同。

在一种可选的实施方式中，变速子模块531，还可以用于：

将第一音频的时域信号转换为频域信号，得到待处理音频；

根据目标基频偏移量，确定待处理音频的音频帧跨度；

基于待处理音频的各帧音频，每隔音频帧跨度，重新合成一个目标音频帧，得到变速音频；其中，每个目标音频帧的幅度信息根据待处理音频中，该目标音频帧对应的参考音频帧的幅度信息确定，以及每个目标音频帧的相位信息根据待处理音频中，该目标音频帧对应的参考音频帧的相位信息确定。

在一种可选的实施方式中，装置还可以包括：

能量调整模块，用于针对变速音频中的每个目标音频帧，确定目标音频帧对应的参考音频帧的参考能量以及目标音频帧的目标能量，若目标能量与参考能量不一致，则将目标能量调整至参考能量；或者

幅度调整模块，用于针对变速音频中的每个目标音频帧，确定目标音频帧对应的参考音频帧的参考幅度以及目标音频帧的目标幅度，若目标幅度与参考幅度不一致，则将目标幅度调整至参考幅度。

在一种可选的实施方式中，能量调整模块，还可以用于：

若目标能量与参考能量不一致，则将参考能量和目标能量的比值，作为目标音频帧的能量调节因子，并根据目标音频帧的能量调节因子，对目标能量进行调整；或者

若目标能量与参考能量不一致，则将目标能量逐步调整至参考能量。

在一种可选的实施方式中，幅度调整模块，还可以用于：

若目标幅度与参考幅度不一致，将参考幅度和目标幅度的比值，作为目标音频帧的幅度调节因子，并根据目标音频帧的幅度调节因子，对目标幅度进行调整；或者

若目标幅度与参考幅度不一致，则将目标幅度逐步调整至参考幅度。

在一种可选的实施方式中，根据目标均衡参数包括均衡频段和均衡频段的能量增强参数；

均衡模块54，还可以用于：

在一种可选的实施方式中，装置还可以包括对应关系确定模块，用于通过如下方式确定预先设置的基频偏移量与变声参数的对应关系：

根据参考变声音频的频谱特征，确定多组候选变声参数；其中，参考变声音频对应一个基频偏移量；

针对多组候选变声参数中的每组候选变声参数，根据该组候选变声参数和基频偏移量，对测试音频依次进行滤波处理、基频变换处理和均衡处理，得到该组候选变声参数对应的变声音频；

根据得到的多个变声音频的频谱特征，确定频谱特征与参考变声音频的频谱特征相匹配的候选变声音频集；

从候选变声音频集中，选择与参考变声音频最匹配的候选变声音频，将选择的候选变声音频对应的候选变声参数，作为基频偏移量对应的变声参数。

基于相同的发明构思，本公开实施例还提供了一种电子设备，该电子设备解决问题的原理与上述实施例的方法相似，因此该电子设备的实施可以参见方法的实施，重复之处不再赘述。图7示出了本公开实施例提供的一种电子设备的结构示意图。

参阅图7所示，电子设备可以包括处理器702和存储器701。存储器701向处理器702提供存储器701中存储的程序指令和数据。在本公开实施例中，存储器701可以用于存储本公开实施例中变声的程序。

处理器702通过调用存储器701存储的程序指令，处理器702用于执行上述任意方法实施例中的方法，例如图2所示的实施例提供的一种变声方法。

本公开实施例中不限定上述存储器701和处理器702之间的具体连接介质。本公开实施例在图7中以存储器701和处理器702之间通过总线703连接，总线703在图7中以粗线表示，其它部件之间的连接方式，仅是进行示意性说明，并不引以为限。总线703可以分为地址总线、数据总线、控制总线等。为便于表示，图7中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

存储器可以包括只读存储器(Read-Only Memory，ROM)和随机存取存储器(RandomAccess Memory，RAM)，还可以包括非易失性存储器(Non-Volatile Memory，NVM)，例如至少一个磁盘存储器。可选地，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述处理器可以是通用处理器，包括中央处理器、网络处理器(NetworkProcessor，NP)等；还可以是数字指令处理器(Digital Signal Processing，DSP)、专用集成电路、现场可编程门陈列或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。

本公开实施例还提供了一种计算机存储介质，该计算机可读存储介质内存储有计算机程序，计算机设备的处理器从计算机可读存储介质读取该计算机程序，处理器执行该计算机程序，使得该计算机设备执行上述任意方法实施例中的变声方法。

在具体的实施过程中，计算机存储介质可以包括：通用串行总线闪存盘(USB，Universal Serial Bus Flash Drive)、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的存储介质。

在一些可能的实施方式中，本公开提供的变声方法的各个方面还可以实现为一种程序产品的形式，其包括程序代码，当所述程序产品在计算机设备上运行时，所述程序代码用于使所述计算机设备执行本说明书上述描述的根据本公开各种示例性实施方式的变声方法的步骤，例如，所述计算机设备可以执行如图2所示的步骤S201-步骤S204中的变声流程。

本领域内的技术人员应明白，本公开的实施例可提供为方法、系统、或计算机程序产品。因此，本公开可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本公开可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本公开是参照根据本公开的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

显然，本领域的技术人员可以对本公开进行各种改动和变型而不脱离本公开的精神和范围。这样，倘若本公开的这些修改和变型属于本公开权利要求及其等同技术的范围之内，则本公开也意图包含这些改动和变型在内。

Claims

1.一种变声方法，其特征在于，包括：

2.根据权利要求1所述的变声方法，其特征在于，所述根据初始音频对应的目标变声音频，确定所述初始音频对应的目标基频偏移量和目标变声参数，包括：

3.根据权利要求1所述的变声方法，其特征在于，所述根据初始音频对应的目标变声音频，确定所述初始音频对应的目标基频偏移量和目标变声参数，包括：

4.根据权利要求1所述的变声方法，其特征在于，所述根据所述目标滤波参数，对所述初始音频进行滤波处理，得到第一音频，包括：

5.根据权利要求1至4任一项所述的变声方法，其特征在于，所述基于所述目标基频偏移量，对所述第一音频进行基频变换处理，得到第二音频，包括：

6.根据权利要求5所述的变声方法，其特征在于，所述基于所述目标基频偏移量，对所述第一音频进行变速处理，得到变速音频，包括：

根据所述目标基频偏移量，确定待处理音频的音频帧跨度；

7.根据权利要求6所述的变声方法，其特征在于，所述方法还包括：

8.一种变声装置，其特征在于，包括：

9.一种电子设备，其特征在于，其包括处理器和存储器，其中，所述存储器存储有程序代码，当所述程序代码被所述处理器执行时，使得所述处理器执行权利要求1-7任一项所述方法的步骤。

10.一种计算机可读存储介质，其特征在于，其包括程序代码，当所述程序代码在电子设备上运行时，所述程序代码用于使所述电子设备执行权利要求1-7任一项所述方法的步骤。