CN115602182A

CN115602182A - 声音变换方法、系统、计算机设备及存储介质

Info

Publication number: CN115602182A
Application number: CN202211594724.4A
Authority: CN
Inventors: 林晓雪; 钟广雄; 李文胜; 成伟; 刘智源; 刘建
Original assignee: Guangzhou Ganyin Technology Co ltd
Current assignee: Guangzhou Ganyin Technology Co ltd
Priority date: 2022-12-13
Filing date: 2022-12-13
Publication date: 2023-01-13
Anticipated expiration: 2042-12-13
Also published as: CN115602182B

Abstract

本发明涉及一种声音变换方法、系统、计算机设备及存储介质，其技术方案要点是：接收第一音频信号和用户选定的目标音色；对所述第一音频信号进行分解和重构得到第二音频信号；根据所述第二音频信号得到基频的频率和幅值、及至少一有效倍频的频率和幅值；根据所述目标音色在不同音色对应的预先构建的音色转换模型中确定与该目标音色对应的音色转换模型；将所述基频的频率和幅值、及所有有效倍频的频率和幅值均输入该目标音色对应的音色转换模型合成第三音频信号；本申请具有灵活变声，更便于音乐创作的效果。

Description

声音变换方法、系统、计算机设备及存储介质

技术领域

本发明涉及声音处理技术领域，更具体地说，它涉及一种声音变换方法、系统、计算机设备及存储介质。

背景技术

现有的变声或k歌应用中，如唱吧应用，可以切换演唱的场景模式，用户可选择ktv、演唱会等模式，但是在演唱或哼唱的过程中，难以实现对声音音色转换，使得用户的演唱或音乐创作难以达到较好的效果。

发明内容

针对现有技术存在的不足，本发明的目的在于提供一种声音变换方法、系统、计算机设备及存储介质，具有灵活变声，更便于音乐创作的功能优点。

本发明的上述技术目的是通过以下技术方案得以实现的：

一种声音变换方法，包括：

接收第一音频信号和用户选定的目标音色；

对所述第一音频信号进行分解和重构得到第二音频信号；

根据所述第二音频信号得到基频的频率和幅值、及至少一有效倍频的频率和幅值；

根据所述目标音色在不同音色对应的预先构建的音色转换模型中确定与该目标音色对应的音色转换模型；

将所述基频的频率和幅值、及所有有效倍频的频率和幅值均输入该目标音色对应的音色转换模型合成第三音频信号。

可选的，所述对所述第一音频信号进行分解和重构得到第二音频信号，包括：

采用小波变换的方法对所述第一音频信号进行分解和重构，得到20-20000Hz频段的信号，即第二音频信号。

可选的，所述根据所述第二音频信号得到基频的频率和幅值、及至少一有效倍频的频率和幅值，包括：

对所述第二音频信号进行快速傅里叶变换，得到第二音频信号的幅频响应曲线；

对所述幅频响应曲线进行波峰检测，提取出该幅频响应曲线的最大峰值点，该峰值点的频率和幅值为该第二音频信号的基频的频率和幅值；

根据所述基频和幅频响应曲线确定该第二音频信号的所有倍频的频率和幅值；

判断所有所述倍频中是否有幅值小于预设阈值的倍频，若是，则从所有倍频中剔除幅值小于预设阈值的倍频得到至少一有效倍频，若否，则所有倍频均为有效倍频。

可选的，所述根据所述基频和幅频响应曲线确定该第二音频信号的所有倍频的频率和幅值包括：

根据整数倍频率确定所述基频的所有倍频的频率；

根据所述幅频响应曲线确定所有倍频的幅值。

可选的，所述音色转换模型包括：乐器音色转换模型、人声音色转换模型、动物音色转换模型和自然音色转换模型中的任一种或多种。

可选的，所述第一音频信号为人声哼唱音频信号；所述目标音色为乐器音色；所述声音变换方法还包括：根据所述基频的频率和幅值、及所有有效倍频的频率和幅值生成乐谱。

可选的，所述音色转换模型的构建方法包括：

收集目标的样本音频信号；

利用所述样本音频信号对预先基于多个目标的样本音频信号构建的通用转换模型进行自适应训练，得到对应所述目标的音色转换模型。

一种声音变换系统，包括：

接收模块，用于接收第一音频信号和用户选定的目标音色；

处理模块，用于对所述第一音频信号进行分解和重构得到第二音频信号；

提取模块，用于根据所述第二音频信号得到基频的频率和幅值、及至少一有效倍频的频率和幅值；

确定模块、用于根据所述目标音色在不同音色对应的预先构建的音色转换模型中确定与该目标音色对应的音色转换模型；

转换模块，用于将所述基频的频率和幅值、及所有有效倍频的频率和幅值均输入该目标音色对应的音色转换模型合成第三音频信号。

一种计算机设备, 包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述的方法的步骤。

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述的方法的步骤。

综上所述，本发明具有以下有益效果：用户可选定需转换的音色，也就是选定目标音色，本申请可以将人声的哼唱转变成如钢琴、吉他、小提琴、古筝演奏的乐器声，在条件有限（如无乐器）的情况下，实现与乐器伴奏相同的效果，也可以将人声的哼唱转变成动物声和自然声，使得用户在进行音乐创作的情况下，无需采集动物声和自然声，通过本申请的转换方法就能得到用户需要的动物声和自然声，具有灵活变声的优点，更便于用户进行音乐创作。

附图说明

图1是本发明提供的声音变换方法的流程示意图；

图2是本发明提供的声音变换系统的结构框图；

图3是本发明实施例中计算机设备的内部结构图。

具体实施方式

为使本发明的目的、特征和优点能够更加明显易懂，下面结合附图对本发明的具体实施方式做详细的说明。附图中给出了本发明的若干实施例。但是，本发明可以以许多不同的形式来实现，并不限于本文所描述的实施例。

在本发明中，除非另有明确的规定和限定，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。

下面结合附图和实施例，对本发明进行详细描述。

本发明提供了一种声音变换方法,如图1所示，包括：

步骤100、接收第一音频信号和用户选定的目标音色；

步骤200、对所述第一音频信号进行分解和重构得到第二音频信号；

步骤300、根据所述第二音频信号得到基频的频率和幅值、及至少一有效倍频的频率和幅值；

步骤400、根据所述目标音色在不同音色对应的预先构建的音色转换模型中确定与该目标音色对应的音色转换模型；

步骤500、将所述基频的频率和幅值、及所有有效倍频的频率和幅值均输入该目标音色对应的音色转换模型合成第三音频信号。

在实际应用中，可通过麦克风根据奈奎斯特采样定理对声音进行采集得到第一音频信号，所述声音包括但不限于人声（说话、鼾声、咳嗽声、歌声等），动物声（虫鸟鱼兽的声音等），环境声（汽车或施工噪声等），自然声（风声、水声、海浪声等），乐器声（电子乐器、传统乐器等），可通过采用单片机实现对第一音频信号的分解和重构得到第二音频信号，以及根据所述第二音频信号得到基频的频率和幅值、及至少一有效倍频的频率和幅值，然后通过蓝牙模块将基频的频率和幅值、及至少一有效倍频的频率和幅值传输给用户终端，用户可通过安装在用户终端上的应用选定需转换的音色，也就是选定目标音色，在用户终端或云端服务器上进行第三音频信号的合成。

另外，本申请可以将人声的哼唱转变成如钢琴、吉他、小提琴、古筝演奏的乐器声，在条件有限（如无乐器）的情况下，实现与乐器伴奏相同的效果，也可以将人声的哼唱转变成动物声和自然声，使得用户在进行音乐创作的情况下，无需采集动物声和自然声，通过本申请的转换方法就能得到用户需要的动物声和自然声，更便于用户进行音乐创作。

进一步地，所述对所述第一音频信号进行分解和重构得到第二音频信号，包括：

采用小波变换的方法对所述第一音频信号进行分解和重构，由于人的听觉范围为20-20000Hz，因此，本申请中去除无关频段的信号，选择得到20-20000Hz频段的信号，即第二音频信号，以减少超声波或次声波对后续音频信号处理的影响。

进一步地，所述根据所述第二音频信号得到基频的频率和幅值、及至少一有效倍频的频率和幅值，包括：

在实际应用中，将基频的频率和幅值还有有效倍频的频率和幅值输入到目标音色对应的音色转换模型中，音色转换模型能够根据基频的频率和幅值以及有效倍频的频率和幅值合成带有目标音色的第三音频信号，如将人声的哼唱转换成乐器声、动物声或自然声的伴奏，达到更好的演奏效果。

进一步地，所述根据所述基频和幅频响应曲线确定该第二音频信号的所有倍频的频率和幅值包括：

根据整数倍频率确定所述基频的所有倍频的频率；

根据所述幅频响应曲线确定所有倍频的幅值。

在实际应用中，乐音主要由音高、音强、音色、时值4种元素构成，根据基频的频率和倍频的频率能够确定乐音的音高，根据基频的幅值和倍频的幅值能够确定乐音的音强，根据用户选定的目标音色确定乐音的音色，通过记录人声基频的产生时长，并根据该时长确定乐音的时值，将基频的频率和幅值、倍频的频率和幅值、目标音色和基频的时长进行合成，使得输出声音（也就是第三音频信号）的轻重缓急和持续时长也跟随输入声音（也就是第一音频信号）变化。

进一步地，所述音色转换模型包括：乐器音色转换模型、人声音色转换模型、动物音色转换模型和自然音色转换模型中的任一种或多种。具体的，在第一音频信号为乐器演奏声、动物声或自然声的情况下，在将第一音频信号经过小波变换和快速傅里叶变换得到基频的频率和幅值以及倍频的频率和幅值后，能够将基频的频率和幅值以及倍频的频率和幅值输入到人声音色转换模型中转变成人声的哼唱。

进一步地，所述第一音频信号为人声哼唱音频信号；所述目标音色为乐器音色；所述声音变换方法还包括：根据所述基频的频率和幅值、及所有有效倍频的频率和幅值生成乐谱。

在第一音频信号为人声哼唱音频信号，目标音色为乐器音色，在得到基频的频率以及倍频的频率的情况下，能够根据国际标准音高与频率对照表确定音高，然后根据基频的幅值和倍频的幅值确定音强，根据基频的产生时长确定时值，在得到音高、音强、和时值的情况下，能够生成音谱，便于在人声哼唱的情况下，能够自动记录并生成乐谱，从而更便于音乐创作。

在第一音频信号为乐器声，目标音色为人声的情况下，得到乐器声基频的频率和幅值以及倍频的频率和幅值后，结合选定人声音色和声音内容进行合成和声音输出，所述人声音色可以是合成音色，输出声音的轻重缓急和持续时长也跟随输入声音变化。

进一步地，所述音色转换模型的构建方法包括：

收集目标的样本音频信号；根据目标的不同，收集各个目标的音频信号作为样本音频信号，如，若目标为钢琴，则收集钢琴的音频信号作为样本音频信号，若目标为人声，则收集人声的音频信号作为样本音频信号；

在本申请中各个目标均具有对应的通用转换模型，通用转换模型为神经网络模型，对于各个目标，创建该目标的通用转换模型，然后通过大量的该目标的样本音频信号对该目标的通用转换模型进行训练得到该目标的音色转换模型。

本发明的声音变换方法，用户可选定需转换的音色，也就是选定目标音色，本申请可以将人声的哼唱转变成如钢琴、吉他、小提琴、古筝演奏的乐器声，在条件有限（如无乐器）的情况下，实现与乐器伴奏相同的效果，也可以将人声的哼唱转变成动物声和自然声，使得用户在进行音乐创作的情况下，无需采集动物声和自然声，通过本申请的转换方法就能得到用户需要的动物声和自然声，具有灵活变声的优点，更便于用户进行音乐创作。

如图2所示，本发明还提供了一种声音变换系统，包括：

接收模块10，用于接收第一音频信号和用户选定的目标音色；

处理模块20，用于对所述第一音频信号进行分解和重构得到第二音频信号；

提取模块30，用于根据所述第二音频信号得到基频的频率和幅值、及至少一有效倍频的频率和幅值；

确定模块40、用于根据所述目标音色在不同音色对应的预先构建的音色转换模型中确定与该目标音色对应的音色转换模型；

转换模块50，用于将所述基频的频率和幅值、及所有有效倍频的频率和幅值均输入该目标音色对应的音色转换模型合成第三音频信号。

关于声音变换系统的具体限定可以参见上文中对于声音变换方法的限定，在此不再赘述。上述声音变换系统的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图3所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种声音变换方法。

本领域技术人员可以理解，图3中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备, 包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行计算机程序时实现以下步骤：

接收第一音频信号和用户选定的目标音色；

对所述第一音频信号进行分解和重构得到第二音频信号；

在一个实施例中，所述对所述第一音频信号进行分解和重构得到第二音频信号，包括：

在一个实施例中，所述根据所述第二音频信号得到基频的频率和幅值、及至少一有效倍频的频率和幅值，包括：

在一个实施例中，所述根据所述基频和幅频响应曲线确定该第二音频信号的所有倍频的频率和幅值包括：

根据整数倍频率确定所述基频的所有倍频的频率；

根据所述幅频响应曲线确定所有倍频的幅值。

在一个实施例中，所述音色转换模型包括：乐器音色转换模型、人声音色转换模型、动物音色转换模型和自然音色转换模型中的任一种或多种。

在一个实施例中，所述第一音频信号为人声哼唱音频信号；所述目标音色为乐器音色；所述声音变换方法还包括：根据所述基频的频率和幅值、及所有有效倍频的频率和幅值生成乐谱。

在一个实施例中，所述音色转换模型的构建方法包括：

收集目标的样本音频信号；

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：

接收第一音频信号和用户选定的目标音色；

对所述第一音频信号进行分解和重构得到第二音频信号；

根据整数倍频率确定所述基频的所有倍频的频率；

根据所述幅频响应曲线确定所有倍频的幅值。

在一个实施例中，所述音色转换模型的构建方法包括：

收集目标的样本音频信号；

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器（ROM）、可编程ROM（PROM）、电可编程ROM（EPROM）、电可擦除可编程ROM（EEPROM）或闪存。易失性存储器可包括随机存取存储器（RAM）或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM（SRAM）、动态RAM（DRAM）、同步DRAM（SDRAM）、双数据率SDRAM（DDRSDRAM）、增强型SDRAM（ESDRAM）、同步链路（Synchlink） DRAM（SLDRAM）、存储器总线（Rambus）直接RAM（RDRAM）、直接存储器总线动态RAM（DRDRAM）、以及存储器总线动态RAM（RDRAM）等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

Claims

1.一种声音变换方法，其特征在于，包括：

接收第一音频信号和用户选定的目标音色；

对所述第一音频信号进行分解和重构得到第二音频信号；

2.根据权利要求1所述的声音变换方法，其特征在于，所述对所述第一音频信号进行分解和重构得到第二音频信号，包括：

3.根据权利要求1所述的声音变换方法，其特征在于，所述根据所述第二音频信号得到基频的频率和幅值、及至少一有效倍频的频率和幅值，包括：

4.根据权利要求3所述的声音变换方法，其特征在于，所述根据所述基频和幅频响应曲线确定该第二音频信号的所有倍频的频率和幅值包括：

根据整数倍频率确定所述基频的所有倍频的频率；

根据所述幅频响应曲线确定所有倍频的幅值。

5.根据权利要求1所述的声音变换方法，其特征在于，所述音色转换模型包括：乐器音色转换模型、人声音色转换模型、动物音色转换模型和自然音色转换模型中的任一种或多种。

6.根据权利要求5所述的声音变换方法，其特征在于，所述第一音频信号为人声哼唱音频信号；所述目标音色为乐器音色；所述声音变换方法还包括：根据所述基频的频率和幅值、及所有有效倍频的频率和幅值生成乐谱。

7.根据权利要求1-6任一项所述的声音变换方法，其特征在于，所述音色转换模型的构建方法包括：

收集目标的样本音频信号；

8.一种声音变换系统，其特征在于，包括：

接收模块，用于接收第一音频信号和用户选定的目标音色；

9.一种计算机设备, 包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。