CN118335041A

CN118335041A - 人声音效处理方法、控制器、可读存储介质及智能设备

Info

Publication number: CN118335041A
Application number: CN202410502299.4A
Authority: CN
Inventors: 李好博; 林奕丰; 邱音良; 雷金亮; 张宇杰; 李建刚
Original assignee: Weilai Automobile Technology Anhui Co Ltd
Current assignee: Weilai Automobile Technology Anhui Co Ltd
Priority date: 2024-04-24
Filing date: 2024-04-24
Publication date: 2024-07-12

Abstract

本申请涉及音频处理技术领域，具体提供一种人声音效处理方法、控制器、可读存储介质及智能设备，旨在解决如何实现输出不同音效的歌声的问题。为此目的，本申请获取歌声数据和伴奏数据，并获取用户选择的音频类型，根据音效类型获取歌声数据的特征参数和伴奏数据的特征参数，基于获取的特征参数对歌声数据进行音效处理，由于特征参数包括频谱熵，使得特征参数能够很好反应歌声数据和伴奏数据的规律性，进而根据特征参数能够实现对基于不同的特征参数，对歌声数据进行不同处理，获得多种不同的音效的歌声，从而实现针对歌声数据更好的混音效果。

Description

人声音效处理方法、控制器、可读存储介质及智能设备

技术领域

本申请涉及音频处理技术领域，具体提供一种人声音效处理方法、控制器、可读存储介质及智能设备。

背景技术

随着车载智能终端水平的不断提升，车辆能够使用的场景也越来越丰富。车载无麦K歌功能是指，用户在车内通过车辆座舱设置的麦克风进行K歌，并通过座舱的扬声器播放出来。而在车载无麦K歌过程中，如何实现不同音效的歌声，是本领域需要解决的问题。

相应地，本领域需要一种新的人声音效处理方案来解决上述问题。

发明内容

为了克服上述缺陷，提出了本申请，以提供解决或至少部分地解决如何实现输出不同音效的歌声的问题。

在第一方面，本申请提供一种人声音效处理方法，所述方法包括：

获取歌声数据和伴奏数据，并获取用户选择的音效类型；

根据所述音效类型，获取所述歌声数据的特征参数和/或所述伴奏数据的特征参数；

根据获取的特征参数对所述歌声数据进行音效处理，获得带有音效的歌声；

其中，所述特征参数至少包括频谱熵。

在上述人声音效处理方法的一个技术方案中，所述音效类型包括动态音效和固定音效；

所述根据所述音效类型，获取所述歌声数据的特征参数和/或所述伴奏数据的特征参数，包括：

当选择的音效类型为所述固定音效时，获取所述伴奏数据的特征参数；

当选择的音效类型为所述动态音效时，至少获取所述歌声数据的特征参数和/或所述伴奏数据的特征参数；

所述根据获取的特征参数对所述歌声数据进行音效处理，获得带有音效的歌声，包括：

当选择的音效类型为所述固定音效时，根据伴奏数据的特征参数获得目标固定音效参数，根据所述目标固定音效参数对所述歌声数据进行音效处理；

当选择的音效类型为所述动态音效时，至少根据获得的特征参数中的频谱熵对所述歌声数据进行音效处理；其中，根据所述歌声数据的特征参数对所述歌声数据的各个频带进行分别调整；根据所述伴奏数据的特征参数对所述歌声数据各个频带进行同步调整。

在上述人声音效处理方法的一个技术方案中，所述至少根据获得的特征参数中的频谱熵对所述歌声数据进行音效处理，包括：

根据所述歌声数据的频谱熵对所述歌声数据的中频增益进行调整，以使得调整后的歌声数据的频谱熵大于预设的第一门限阈值且小于预设的第二门限阈值。

在上述人声音效处理方法的一个技术方案中，在所述根据所述歌声数据的频谱熵对所述歌声数据的中频增益进行调整之前，所述方法还包括：

获取所述歌声数据的频带能量；

根据所述频带能量调整所述歌声数据的整体增益，以使得所述歌声数据的频带能量大于预设的第三门限阈值。

根据所述伴奏数据的频谱熵，获得第一目标动态音效参数；

根据所述第一目标动态音效参数，对所述歌声数据进行音效处理。

在上述人声音效处理方法的一个技术方案中，所述根据所述伴奏数据的频谱熵，获得第一目标动态音效参数，包括：

将所述频谱熵与预设的第一阈值熵和第二阈值熵进行比较；

当所述频谱熵小于所述第一阈值熵时，选择预设的第一参数作为所述第一目标动态音效参数；

当所述频谱熵大于等于所述第一阈值熵且小于等于第二阈值熵时，选择所述第一参数和预设的第二参数之间的任意值作为所述第一目标动态音效参数；

当所述频谱熵大于所述第二阈值熵时，选择所述第二参数作为所述第一目标动态音效参数；

其中，所述第一参数小于所述第二参数。

在上述人声音效处理方法的一个技术方案中，所述至少根据获得的特征参数中的频谱熵对所述歌声数据进行音效处理，还包括：

根据所述歌声数据，获取所述歌声数据的频带能量；

根据所述频带能量，获取所述第二目标动态音效参数。

在上述人声音效处理方法的一个技术方案中，所述根据所述频带能量，获取所述第二目标动态音效参数，包括：

根据所述频带能量，获取所述歌声数据各频带能量之间的差值；其中，所述各频带包括高频、中频和低频；

根据所述差值，获得各频带的增益，作为所述第二目标动态音效参数。

在上述人声音效处理方法的一个技术方案中，所述根据所述差值，获得各频带的增益，包括：

根据所述中频的频带能量与所述低频的频带能量的差值，获取所述中频的增益；

根据所述高频的频带能量与所述低频的频带能量的差值，获取所述高频的增益。

在上述人声音效处理方法的一个技术方案中，在所述根据所述差值，获得各频带的增益之后，所述方法还包括：

当所述中频的增益超出预设的增益范围时，根据所述中频的增益对所述低频的增益进行反向增益处理。

在上述人声音效处理方法的一个技术方案中，所述根据伴奏数据的特征参数获得目标固定音效参数，包括：

根据所述伴奏数据的频谱熵和预设的固定音效参数列表，获取所述目标固定音效参数。

在上述人声音效处理方法的一个技术方案中，所述根据所述伴奏数据的频谱熵和预设的固定音效参数列表，获取所述目标固定音效参数，包括：

根据所述频谱熵，获取频谱熵平均值；

根据所述频谱熵平均值，与所述固定音效参数列表中的各个固定音效的风格特征进行比较；

选择差异最小的所述风格特征对应的目标固定音效参数，作为最终的目标固定音效参数。

在上述人声音效处理方法的一个技术方案中，所述根据所述频谱熵，获取频谱熵平均值，包括：

当实时计算所述固定音效参数时，在预设时刻，根据所述伴奏数据当前时刻和当前时刻之前预设时长内的频谱熵，获取所述频谱熵平均值；

当离线计算所述固定音效参数时，根据整个伴奏数据的频谱熵，获得所述频谱熵平均值。

在上述人声音效处理方法的一个技术方案中，当所述音效类型为所述动态音效时，还包括获取所述歌声数据的采集空间的特征参数；

所述至少根据获得的特征参数中的频谱熵对所述歌声数据进行音效处理，还包括：

根据所述采集空间的特征参数，获取第三目标动态音效参数；其中，根据所述空间参数获得的动态音效参数用于调整所述歌声数据的各频带增益，以抵消不同的采集空间对于所述歌声数据各频带的影响；

根据所述第三目标动态音效参数，对所述歌声数据进行音效处理。

在上述人声音效处理方法的一个技术方案中，所述对所述歌声数据进行音效处理，包括：

将所述歌声数据依次输入至两个均衡器中，以获得所述带有音效的歌声；

其中，基于根据所述歌声数据的特征参数和根据伴奏数据的特征参数调整所述两个均衡器中其中一个均衡器；基于根据所述采集空间的特征参数调整所述两个均衡器中另一个均衡器。

在上述人声音效处理方法的一个技术方案中，所述音效类型包括变声音效；

根据所述变声音效，获取所述歌声数据的频谱熵；

所述根据获取的特征参数对所述歌声数据进行音效处理，包括：

根据所述歌声数据的频谱熵，选择所述变声音效的变声器类型；

将所述歌声数据输入至所述变声器类型对应的变声器中进行变声处理中，获得所述带有音效的歌声。

在上述人声音效处理方法的一个技术方案中，所述根据所述歌声数据的频谱熵，选择所述变声音效的变声器类型，包括：

判断所述频谱熵是否低于预设门限；

若是，则选择第一变声器；

若否，则选择第二变声器；

其中，所述第一变声器对处理后的歌声数据进行下采样；所述第二变声器处理后的歌声数据进行上采样。

在上述人声音效处理方法的一个技术方案中，所述方法还包括根据以下步骤进行所述变声处理：

将所述歌声数据中第一频率和第二频率之间的数据保留，并对其他频率的数据进行抑制，以实现所述变声处理。

在上述人声音效处理方法的一个技术方案中，所述对所述歌声数据进行音效处理，还包括：

将所述歌声数据输入至混响器、回声器和混合器中的至少一个，以获得的所述带有音效的歌声；

其中，基于根据伴奏数据的特征参数对所述混响器、回声器和混合器中的至少一个的参数进行调整。

在上述人声音效处理方法的一个技术方案中，所述方法还包括根据以下步骤获取所述频谱熵：

对所述歌声数据或所述伴奏数据进行缓存；

当缓存的数据达到傅立叶变换长度时，根据缓存的数据进行傅立叶变换，获得傅立叶变换结果；

根据所述傅立叶变换结果，获得所述频谱熵。

在上述人声音效处理方法的一个技术方案中，所述根据所述傅立叶变换结果，获得所述频谱熵，包括：

获取当前帧傅立叶变换结果的频谱熵；

根据所述当前帧之前连续预设帧数的频谱熵和所述当前帧的频谱熵的平均值，作为最终的频谱熵。

在第二方面，提供一种控制器，该控制器包括至少一个处理器和至少一个存储器，所述存储器适于存储多条程序代码，所述程序代码适于由所述处理器加载并运行以执行上述人声音效处理方法的技术方案中任一项技术方案所述的人声音效处理方法。

在第三方面，提供一种计算机可读存储介质，该计算机可读存储介质其中存储有多条程序代码，所述程序代码适于由处理器加载并运行以执行上述人声音效处理方法的技术方案中任一项技术方案所述的人声音效处理方法。

在第四方面，提供一种智能设备，所述智能设备包括上述控制器技术方案中所述的控制器。

本申请上述一个或多个技术方案，至少具有如下一种或多种

有益效果：

在实施本申请的技术方案中，本申请获取歌声数据和伴奏数据，并获取用户选择的音频类型，根据音效类型获取歌声数据的特征参数和伴奏数据的特征参数，基于获取的特征参数对歌声数据进行音效处理，获得带有音效的歌声。通过上述配置方式，由于本申请中的特征参数包括频谱熵，使得特征参数能够很好反应歌声数据和伴奏数据的规律性，进而根据特征参数能够实现对基于不同的特征参数，对歌声数据进行不同处理，获得多种不同的音效的歌声，从而实现针对歌声数据更好的混音效果。

方案1.一种人声音效处理方法，其特征在于，所述方法包括：

获取歌声数据和伴奏数据，并获取用户选择的音效类型；

其中，所述特征参数至少包括频谱熵。

方案2.根据方案1所述的人声音效处理方法，其特征在于，所述音效类型包括动态音效和固定音效；

方案3.根据方案2所述的人声音效处理方法，其特征在于，

所述至少根据获得的特征参数中的频谱熵对所述歌声数据进行音效处理，包括：

方案4.根据方案3所述的人声音效处理方法，其特征在于，

在所述根据所述歌声数据的频谱熵对所述歌声数据的中频增益进行调整之前，所述方法还包括：

获取所述歌声数据的频带能量；

方案5.根据方案2所述的人声音效处理方法，其特征在于，

根据所述伴奏数据的频谱熵，获得第一目标动态音效参数；

方案6.根据方案5述的人声音效处理方法，其特征在于，

所述根据所述伴奏数据的频谱熵，获得第一目标动态音效参数，包括：

将所述频谱熵与预设的第一阈值熵和第二阈值熵进行比较；

其中，所述第一参数小于所述第二参数。

方案7.根据方案5述的人声音效处理方法，其特征在于，

根据所述歌声数据，获取所述歌声数据的频带能量；

根据所述频带能量，获取所述第二目标动态音效参数。

方案8.根据方案7述的人声音效处理方法，其特征在于，

所述根据所述频带能量，获取所述第二目标动态音效参数，包括：

方案9.根据方案8述的人声音效处理方法，其特征在于，

所述根据所述差值，获得各频带的增益，包括：

方案10.根据方案8述的人声音效处理方法，其特征在于，

在所述根据所述差值，获得各频带的增益之后，所述方法还包括：

方案11.根据方案2所述的人声音效处理方法，其特征在于，

所述根据伴奏数据的特征参数获得目标固定音效参数，包括：

方案12.根据方案11所述的人声音效处理方法，其特征在于，

所述根据所述伴奏数据的频谱熵和预设的固定音效参数列表，获取所述目标固定音效参数，包括：

根据所述频谱熵，获取频谱熵平均值；

方案13.根据方案12所述的人声音效处理方法，其特征在于，

所述根据所述频谱熵，获取频谱熵平均值，包括：

方案14.根据方案2所述的人声音效处理方法，其特征在于，

当所述音效类型为所述动态音效时，还包括获取所述歌声数据的采集空间的特征参数；

方案15.根据方案14所述的人声音效处理方法，其特征在于，

所述对所述歌声数据进行音效处理，包括：

方案16.根据方案1所述的人声音效处理方法，其特征在于，所述音效类型包括变声音效；

根据所述变声音效，获取所述歌声数据的频谱熵；

方案17.根据方案16所述的人声音效处理方法，其特征在于，

所述根据所述歌声数据的频谱熵，选择所述变声音效的变声器类型，包括：

判断所述频谱熵是否低于预设门限；

若是，则选择第一变声器；

若否，则选择第二变声器；

方案18.根据方案16所述的人声音效处理方法，其特征在于，

所述方法还包括根据以下步骤进行所述变声处理：

方案19.根据方案1至18中任一项所述的人声音效处理方法，其特征在于，

所述对所述歌声数据进行音效处理，还包括：

方案20.根据方案1至19中任一项所述的人声音效处理方法，其特征在于，所述方法还包括根据以下步骤获取所述频谱熵：

对所述歌声数据或所述伴奏数据进行缓存；

根据所述傅立叶变换结果，获得所述频谱熵。

方案21.根据方案20所述的人声音效处理方法，其特征在于，

所述根据所述傅立叶变换结果，获得所述频谱熵，包括：

获取当前帧傅立叶变换结果的频谱熵；

方案22.一种控制器，包括至少一个处理器和至少一个存储器，所述存储器适于存储多条程序代码，其特征在于，所述程序代码适于由所述处理器加载并运行以执行方案1至21中任一项所述的人声音效处理方法。

方案23.一种计算机可读存储介质，其中存储有多条程序代码，其特征在于，所述程序代码适于由处理器加载并运行以执行方案1至21中任一项所述的人声音效处理方法。

方案24.一种智能设备，其特征在于，所述智能设备包括方案22所述的控制器。

附图说明

参照附图，本申请的公开内容将变得更易理解。本领域技术人员容易理解的是：这些附图仅仅用于说明的目的，而并非意在对本申请的保护范围组成限制。其中：

图1是根据本申请的一个实施例的人声音效处理方法的主要步骤流程示意图；

图2是根据本申请实施例的一个实施方式的人声音效处理方法的主要步骤流程示意图；

图3是图2中效果器链路的主要处理流程示意图；

图4是根据本申请实施例的一个实施方式的歌声数据的特征参数提取的主要流程示意图；

图5是根据本申请实施例的一个实施方式的伴奏数据的特征参数提取的主要流程示意图；

图6是根据本申请实施例的一个实施方式的效果器随歌声数据变化的主要流程示意图；

图7是根据本申请实施例的另一个实施方式的效果器随歌声数据变化的主要流程示意图；

图8是根据本申请实施例的一个实施方式的效果器随伴奏数据的特征参数变化的主要流程示意图；

图9是根据本申请实施例的一个实施方式的变声器的变声方法示意图；

图10是根据本申请实施例的另一个实施方式的变声器的变声方法示意图；

图11是根据本申请实施例的第三个实施方式的变声器的变声方法示意图；

图12是根据本申请实施例的一个实施方式的结合伴奏数据的特征参数的固定音效选择主要步骤示意图；

图13是根据本申请实施例的一个实施方式的变声器选择主要步骤示意图。

具体实施方式

下面参照附图来描述本申请的一些实施方式。本领域技术人员应当理解的是，这些实施方式仅仅用于解释本申请的技术原理，并非旨在限制本申请的保护范围。

在本申请的描述中，“模块”、“处理器”可以包括硬件、软件或者两者的组合。一个模块可以包括硬件电路，各种合适的感应器，通信端口，存储器，也可以包括软件部分，比如程序代码，也可以是软件和硬件的组合。处理器可以是中央处理器、微处理器、图像处理器、数字信号处理器或者其他任何合适的处理器。处理器具有数据和/或信号处理功能。处理器可以以软件方式实现、硬件方式实现或者二者结合方式实现。非暂时性的计算机可读存储介质包括任何合适的可存储程序代码的介质，比如磁碟、硬盘、光碟、闪存、只读存储器、随机存取存储器等等。术语“A和/或B”表示所有可能的A与B的组合，比如只是A、只是B或者A和B。术语“至少一个A或B”或者“A和B中的至少一个”含义与“A和/或B”类似，可以包括只是A、只是B或者A和B。单数形式的术语“一个”、“这个”也可以包含复数形式。

参阅附图1，图1是根据本申请的一个实施例的人声音效处理方法的主要步骤流程示意图。如图1所示，本申请实施例中的人声音效处理方法主要包括下列步骤S101-步骤S104。

步骤S101：获取歌声数据和伴奏数据，并获取用户选择的音效类型。

在本实施例中，可以接收用户进行K歌时的歌声数据和伴奏数据，并获取用户选择的音效类型。

一个实施方式中，用户可以在车辆的座舱内通过座舱麦克风进行K歌，即，在座舱中实现无麦K歌。通过座舱的麦克风来采集歌声数据。

一个实施方式中，歌声数据可以为对用户演唱的歌声进行修音后的数据。可以对用户演唱的歌声进行跑调修正后，获得歌声数据。数据的长度小于10ms。可以对歌声进行格式转换，将歌声转换为具有同一数据格式的歌声数据，其中，数据格式可以包括歌声数据的采样率、比特率、通道数、整型/浮点型数据表示等。

步骤S102：根据音效类型，获取歌声数据的特征参数和/或伴奏数据的特征参数；其中，特征参数至少包括频谱熵。

在本实施例中，可以根据音效类型来获取歌声数据的特征参数以及伴奏数据的特征参数。

一个实际方式中，音效类型可以包括动态音效和固定音效伴奏数据的特征参数。其中，固定音效为音效参数相对固定的音效。动态音效为音效参数随环境、伴奏数据、歌声数据等变化的音效。频谱熵是指对于一个声音信号，将其经过傅里叶变换得到频谱，然后计算这个频谱的熵，用来衡量信号在频域上的复杂性和随机性。

一个实施方式中，可以对伴奏数据和歌声数据分别进行特征提取，每获取一次数据进行一次特征计算，输出一组数据的特征参数特征参数，从而获得随着时间变化的表征特征数据的特征参数的数值序列，作为特征参数。

一个实施方式中，在进行特征提取前，可以先对伴奏数据和歌声数据进行格式转换，将伴奏数据和歌声数据转换为包括采样率、比特率、通道数据、整型/浮点型数据表示等的数据格式。

一个实施方式中，可以从预设的伴奏数据的特征参数分析模块中获取伴奏数据的特征参数。

步骤S103：根据获取的特征参数对歌声数据进行音效处理，获得带有音效的歌声。

在本实施例中，可以根据获取的特征参数对歌声数据进行音效处理，从而获得带有音效的歌声。

一个实施方式中，可以基于特征参数，来对预设的效果器链路的参数进行调整，从而使得效果器链路对歌声数据进行调整，获得带有音效的歌声。

基于上述步骤S101-步骤S103，本申请实施例获取歌声数据和伴奏数据，并获取用户选择的音频类型，根据音效类型获取歌声数据的特征参数和伴奏数据的特征参数，基于获取的特征参数对歌声数据进行音效处理，获得带有音效的歌声。通过上述配置方式，由于本申请实施例中的特征参数包括频谱熵，使得特征参数能够很好反应歌声数据和伴奏数据的规律性，进而能够实现对基于不同的特征参数，对歌声数据进行不同处理，获得多种不同的音效的歌声，从而实现针对歌声数据更好的混音效果。

下面分别对步骤S102和步骤S103进行进一步地说明。

在本申请实施例的一个实施方式中，步骤S102可以进一步包括以下步骤S1021和步骤S1022：

步骤S1021：当选择的音效类型为固定音效时，获取伴奏数据的特征参数。

步骤S1022：当选择的音效类型为动态音效时，至少获取歌声数据的特征参数和/或伴奏数据的特征参数。

在本实施方式中，在用户选择的音效类型为固定音效时，可以获取伴奏数据的特征参数的特征参数。当用户选择动态音效时，可以获取歌声数据的特征参数，也可以获取伴奏数据的特征参数，还可以同时获得歌声数据和伴奏数据的特征参数的特征参数。这样就能够实现基于用户选择的音效类型实现基于不同的特征参数对歌声数据进行音效处理。如，希望强调人声，则可以仅基于歌声数据的特征参数对歌声数据进行音效处理；希望强调融合感，则可以仅基于伴奏数据的特征参数对歌声数据进行音效处理；希望强调均衡效果，则可以基于歌声数据和伴奏数据的特征参数对歌声数据进行音效处理。从而获得不同音效的歌声。

在本申请实施例的一个实施方式中，步骤S103可以进一步包括以下步骤S1031和步骤S1032：

步骤S1031：当选择的音效类型为固定音效时，根据伴奏数据的特征参数获得目标固定音效参数，根据目标固定音效参数对歌声数据进行音效处理。

在本实施方式中，可以根据伴奏数据的频谱熵和预设的固定音效参数列表，获取目标固定音效参数。

具体地，固定音效参数列表中可以包含多个不同风格特征的固定音效，每个固定音效可以包含多个目标固定音效参数。即，可以基于固定音效参数列表，计算各个固定音效的风格特征：

a)获取固定音效中的均衡参数，获得均衡器所突出的频率范围，如加强的频率范围为[f0,f1]，随后获取均衡器所加强的中心频率f_c；

b)按1KHz量化f_c，获得的值可以定义为明亮程度b)Bright_level；

c)计算f1-f0，也按1KHz进行量化后，定义为明亮范围Bright_range；

d)获得固定音效中的混响参数干湿比DryWetRatio；

e)计算固定音效风格特征EFFECT_STYLE＝sqrt(Bright_level×Bright_range)+DryWetRatio；

f)将EFFECT_STYLE值约束在E1和E2范围之内，典型的E1和E2分别为0和36。

步骤S1031可以进一步包括以下步骤S10311至步骤S10313：

步骤S10311：根据伴奏数据的特征参数中的频谱熵，获取频谱熵平均值。

在本实施方式中，步骤S10311可以进一步包括以下步骤S103111和步骤S103112：

步骤S103111：当实时计算固定音效参数时，在预设时刻，根据伴奏数据当前时刻和当前时刻之前预设时长内的频谱熵，获取频谱熵平均值。

在本实施方式中，如果是实时计算固定音效参数，可以计算伴奏数据当前时刻和当前时刻之前预设时长内的频谱熵，来获取频谱熵平均值。其中，实时计算固定音效参数仅在预设时刻触发，以避免在音效频繁切换的情况。

步骤S103112：当离线计算固定音效参数时，根据整个伴奏数据的频谱熵，获得频谱熵平均值。

在本实施方式中，如果是离线计算固定音效参数，则可以计算整个伴奏数据的频谱熵的平均值。

步骤S10312：根据频谱熵平均值，与固定音效参数列表中的各个固定音效的风格特征进行比较。

步骤S10323：选择差异最小的风格特征对应的目标固定音效参数，作为最终的目标固定音效参数。

在本实施方式中，可以将计算获得的频谱熵平均值，与固定参数列表中的各个固定音效的风格特征进行比较，选择差异最小的风格特征对应的目标固定音效参数，作为最终的目标固定音效参数。

步骤S1032：当选择的音效类型为动态音效时，至少根据获得的特征参数中的频谱熵对歌声数据进行音效处理；其中，根据歌声数据的特征参数对歌声数据的各个频带进行分别调整；根据伴奏数据的特征参数对歌声数据各个频带进行同步调整。

在本实施方式中，可以根据获得的特征参数来对均衡器的各个频带进行调整。均衡器的信息可以包括可调整的频带个数、每个频带的中心频率、频率调整宽度参数。一个示例中，频带可以包括7个，各频带的中心频率分别为80Hz、200Hz、400Hz、1000Hz、2500Hz、6000Hz和14000Hz，各频带的频率调整宽度参数均为0.5。

一个实施方式中，步骤S1032可以进一步包括：根据歌声数据的频谱熵对歌声数据的中频增益进行调整，以使得调整后的歌声数据的频谱熵大于预设的第一门限阈值且小于预设的第二门限阈值。

进一步地，根据歌声数据的频谱熵对歌声数据的中频增益进行调整之前，还可以获取歌声数据的频带能量；根据频带能量调整歌声数据的整体增益，以使得歌声数据的频带能量大于预设的第三门限阈值。

具体地，可以通过以下步骤S201至步骤S207来根据频带能量调整歌声数据的整体增益，并根据歌声数据的频谱熵对歌声数据的中频增益进行调整：

步骤S201：根据频带能量，判断频带能量是否小于第三门限阈值。

步骤S202：当频带能量小于第三门限阈值时，提升歌声数据的整体增益，直至频带能量大于等于第三门限阈值。

在本实施方式中，可以每次提升整体增益1dB，直至频带能量大于第三门限阈值。

步骤S203：根据提升增益后的歌声数据，获取频谱熵。

步骤S204：判断频谱熵是否小于第一门限阈值。

步骤S205：当频谱熵小于第一门限阈值时，提升歌声数据的中频的增益，直至歌声数据的频谱熵大于等于第一门限阈值。

在本实施方式中，可以每次提升中频的增益1dB，直至频谱熵大于等于第一门限阈值。

步骤S206：判断歌声数据的频谱熵是否大于等于第二门限阈值；第二门限阈值大于第一门限阈值。

步骤S207：当频谱熵大于等于第二门限阈值时，降低歌声数据的中频的增益，直至歌声数据的频谱熵小于第二门限阈值。

在本实施方式中，如果频谱熵大于第二门限阈值，则可以每次降低中频的增益1dB，直至频谱熵小于第二门限阈值。

一个实施方式中，步骤S1032可以进一步包括：可以根据伴奏数据的频谱熵，获得第一目标动态音效参数；根据第一目标动态音效参数，对歌声数据进行音效处理。

具体地，可以根据以下步骤S301至步骤S304获取第一目标动态音效参数：

步骤S301：将伴奏数据的特征参数对应的频谱熵与预设的第一阈值熵和第二阈值熵进行比较。

步骤S302：当频谱熵小于第一阈值熵时，选择预设的第一参数作为第一目标动态音效参数。

步骤S303：当频谱熵大于等于第一阈值熵且小于等于第二阈值熵时，选择第一参数和预设的第二参数之间的任意值作为第一目标动态音效参数。

步骤S304：当频谱熵大于第二阈值熵时，选择第二参数作为第一目标动态音效参数；其中，第一参数小于第二参数。

在本实施方式中，可以参阅附图8，图8是根据本申请实施例的一个实施方式的效果器随伴奏数据的特征参数变化的主要流程示意图。如图8所示，第一阈值熵即为图8中的熵A，第二阈值熵即为图8中的熵B，第一参数即为图8中的参数A，第二参数即为图8中的参数B。其中，第一参数和第二参数可以根据线性映射的方式获得。可以基于伴奏数据的频谱熵，应用步骤S301至步骤S304的方法，对效果器中的以下参数进行调整：

均衡器2：band_gain[num_band]

混响器：reverb_DryWetRatio

回声器：echo_DryWetRatio

混合器：mixer_gain[num_channel]中混响器、回声器的增益

一个实施方式中，步骤S1032还可以包括：

根据歌声数据，获取歌声数据的频带能量；根据频带能量，获取第二目标动态音效参数。

具体地，可以根据频带能量，获取歌声数据各频带能量之间的差值；其中，各频带包括高频、中频和低频；根据差值，获得各频带的增益，作为第二目标动态音效参数。

其中，可以根据中频的频带能量与低频的频带能量的差值，获取中频的增益；根据高频的频带能量与低频的频带能量的差值，获取高频的增益。

进一步地，在根据差值，获得各频带的增益之后，如果中频的增益超出预设的增益范围时，根据中频的增益对低频的增益进行反向增益处理。

具体地，可以定义理想音色的单个频带的能力比例，即预设的第一能量差值门限、中频能量和第二能量差值门限。一个示例中，第一能量差值门限为0dB、中频能量为-35dB、第二能量差值门限为-130dB。计算歌声数据每个频带实际的频带能量，以dB为单位。低频、中频、高频的频带能量分别记为E_lowband、E_midband、E_highband，然后如下计算两个差值：

第一能量差值diff_midband＝E_midband-E_lowband

第二能量差值diff_highband＝E_highband-E_lowband

可以根据第一能量差值和第二能量差值来获得各频带的增益。

具体地，当第一能量差值小于预设的第一能量差值门限时，设置中频的增益为预设的第一增益；当第一能量差值大于预设的第二能量差值门限时，设置中频的增益为预设的第二增益；第二增益小于第一增益；当第一能量差值大于等于第一能量差值门限小于等于第二能量差值门限时，选择第一增益和第二增益之间的任意值为作为中频的增益；当第二能量差值小于预设的第一能量差值门限时，设置中频的增益为第一增益；当第二能量差值大于预设的第二能量差值门限时，设置中频的增益为第二增益；第二增益小于第一增益；当第二能量差值大于等于第一能量差值门限小于等于第二能量差值门限时，选择第一增益和第二增益之间的任意值为作为中频的增益。

一个示例中，第一增益和第二增益之间的任意值可以为：(diff_midband-th_low)*(boost_max-boost_min)/(th_high-th_low)，其中，th_low为第一能量差值门限，boost_max为第一增益，boost_min为第二增益，th_high为第二能量差值门限。

一个实施方式中，如果根据第一能量差值和第二能量差值获得的中频增益变化较大时，则可以对低频进行反向增益处理。具体地，当中频的增益大于第一增益阈值时，根据第一增益阈值与中频的增益的差值，获取低频的增益；当中频的增益小于第二增益阈值时，根据第二增益阈值与中频的增益的差值，获取低频的增益；其中，第一增益阈值大于第二增益阈值。

一个示例中，第一增益阈值为3dB，第二增益阈值为-6dB。

一个实施方式中，当音效类型为动态音效时，还可以获取歌声数据的采集空间的特征参数。进而根据根据采集空间的特征参数，获取第三目标动态音效参数；其中，根据采集空间的特征参数获得的第三目标动态音效参数用于调整歌声数据的各频带增益，以抵消不同的采集空间对于歌声数据各频带的影响；根据第三目标动态音效参数，对歌声数据进行音效处理。

在本实施方式中，当音效类型为动态音效时，还可以采集空间的特征参数获取第三目标动态音效参数。如，在车辆的座舱内进行无麦K歌时，采集空间即为座舱，可以为不同的车辆设置对应的特征参数，以针对不同的座舱对歌声数据进行调整，从而抵消不同车型对歌声数据各频带的影响，使得在在不同车辆中能够获得同样的歌声处理效果。

一个实施方式中，可以根据特征参数，设置均衡器各个频带的增益，作为第三目标动态音效参数，以抵消车辆座舱对不同频段造成的加强或减弱的影响。均衡器的增益可以以dB为单位，正值表示该频带能量增加，负值表示该频带能量减少。一个示例中，均衡器的各频带增益的典型值可以为10dB、7dB、5dB、13dB、14dB、10dB。其中，特征参数可以为车型编号和名称等。

一个实施方式中，可以参阅附图3，图3是图2中效果器链路的主要处理流程示意图。如图3所示，效果器链路可以包括两个均衡器(均衡器1和均衡器2)、压缩器、混响器、回声器、混合器、限制器和淡入淡出器。可以将歌声数据依次输入两个均衡器中，可以基于根据歌声数据的特征参数和伴奏数据的特征参数调整两个均衡器中其中一个均衡器；基于根据采集空间的特征参数(车型参数)调整两个均衡器中另一个均衡器。

如图3所示，图3效果器链路可以包括以下参数：

1.均衡器1：num_band、band_frequency[num_band]、band_Q[num_band]、band_gain[num_band]

2.均衡器2：num_band、band_frequency[num_band]、band_Q[num_band]、band_gain[num_band]

3.压缩器：point1_x、point1_y、point2_x、point2_y、slope1、slope2、slope3

4.混响器：reverb_DryWetRatio、reverb_frequency、reverb_Q

5.回声器：echo_DryWetRatio、num_echo、echo_delay[num_echo]、echo_decay[num_echo]

6.混合器：num_channel、mixer_gain[num_channel]

7.限制器：point1_x、point1_y、point2_x、point2_y、slope1、slope2、slope3

8.淡入淡出器：duration_FadeOut、duration_FadeIn

其中，压缩器对声波进行非线性的放大处理，其参数描述了用于放大声波的映射曲线的形状，典型的，用3段相互连接的直线来描述的映射曲线包含了3段直线的斜率、2个连接点的横、纵坐标共7个参数；

混响器的参数包括输入混响器的歌声(称为“干声”)与混响声(称为“湿声”)之间的能量比例，该比例称为干湿比，以dB为单位；

混响器的参数包括湿声在频率上的特征描述，特征包括湿声持续时间最长的频率值、描述其他频率相对该频率持续时间的缩短程度的参数reverb_Q；

回声由干声与湿声混合组成，回声器的参数包括：回声次数、回声之间的间隔时间、回声中干声与湿声的干湿比、各次回声的能量衰减；

混合器参数，包括所混合的信号路数、各路信号的增益比例；

限制器用于限制声波超出最大值，即避免产生“爆音”现象，限制器参数与压缩器种类、数量相同；

淡入淡出器用于在音效参数切换时对切换前的输出音频进行淡出处理，随后对切换音效后的音频进行淡入处理，从而避免参数切换时出现声波幅值突然增大的问题，淡入淡出器的参数为淡出的时间长度、淡入的时间长度，典型值为：淡出时间长度为2个歌声数据的长度、淡入的时间长度为1个歌声数据的长度。

在本申请实施例的一个实施方式中，当用户选择的音效类型为变声音效时，可以根据变声音效获取歌声数据的频谱熵，根据频谱熵选择变声音效的变声器类型，对歌声数据进行处理，并将歌声数据输入至变声器类型对应的变声器中进行变声处理中，获得带有音效的歌声。

一个实施方式中，可以参阅附图9，图9是根据本申请实施例的一个实施方式的变声器的变声方法示意图。如图9所示，可以应用带通滤波的方式实现变声器的效果，即将处理后的歌声数据的第一频率(f1)和第二频率(f2)之间的数据保留，对其他频率的数据进行抑制，以实现扩音器或留声机等效果的变声处理。

一个示例中，第一频率可以为2500hz，第二频率可以为6000hz。

一个实施方式中，参阅附图13，图13是根据本申请实施例的一个实施方式的变声器选择主要步骤示意图。如图13所示，可以判断处理后的歌声数据的频谱熵，当频谱熵低于预设门限时，选择第一变声器(变声器B)进行变声处理；当频谱熵高于预设门限时，选择第二变声器(变身器C)进行变声处理。

可以参阅附图10和附图11，图10是根据本申请实施例的另一个实施方式的变声器的变声方法示意图；图11是根据本申请实施例的第三个实施方式的变声器的变声方法示意图。如图10所示，第一变声器可以通过对歌声数据进行下采样，使得歌声数据的时间长度变为原来的1/2，其中采样率可以为48000hz，对下采样的歌声应用时间伸缩算法使其长度变为2倍，同时维持音调、音色不变，并对两个相邻的基音周期连接的边缘进行平滑处理。

如图11所示，第二变声器可以对歌声数据进行上采样，使得歌声数据的时间长度变为原来的2倍，其中采样率可以为48000hz，对上采样的歌声应用时间伸缩算法使其长度变为1/2倍，同时维持音调、音色不变，并对两个相邻的基音周期连接的边缘进行平滑处理。

一个实施方式中，可以根据以下步骤S401至步骤S403来获取频谱熵：

步骤S401：对歌声数据或伴奏数据进行缓存。

步骤S402：当缓存的数据达到傅立叶变换长度时，对缓存的数据进行窗函数操作后，进行傅立叶变换，以获得傅立叶变换结果。

在本实施方式中，在进行傅立叶变换前可以进行窗函数操作，以避免能量泄漏，然后进行傅立叶变换，从而将时域声波变换至频域。其中，傅立叶变换长度可以为1024。

步骤S403：根据傅立叶变换结果，获取频谱熵。

在本实施方式中，步骤S403可以进一步包括以下步骤S4031和步骤S40322：

步骤S4031：获取当前帧傅立叶变换结果的频谱熵。

可以根据以下公式(1)获得傅立叶变换结果：

其中，X(t)为第t帧频谱熵，f(k)为傅立叶变换后第k个频率的幅值，傅立叶变换长度为1024。

步骤S4032：根据当前帧之前连续预设帧数的频谱熵和当前帧的频谱熵的平均值，作为最终的频谱熵。

在本实施方式中，可以根据以下公式(2)获取最终的频谱熵：

其中，E(t)为最终的频谱熵，N为预设帧数。

一个实施方式中，在获取到的E(t)后，可以根据以下公式(3)对E(t)进行更新，以避免出现音量很小，但熵很大的情况：

E(t)＝E(t)×C×max(f(k)) (3)

其中，C为常数。

一个实施方式中，可以将频域信号按照预设的频带进行频带能量积累，得到各频带的频带能量。一个例子中，频带可以划分为低频、中频和高频三个频带。其中，低频为0-1KHz，中频为1KHz-6KHz，高频为6KHz以上。

一个实施方式中，可以根据以下公式(4)来获取歌声数据的短时能量：

其中，E为短时能量，n当前帧歌声数据的时域长度。

一个实施方式中，可以根据歌声数据的傅立叶变换结果，获得歌声数据的频谱熵。

一个实施方式中，可以将当前帧的短时能量与预设的能量阈值进行比较，当短时能量大于能量阈值时，记为满足条件一。一个示例中，能量阈值为-60dB。可以计算当前帧频带能量分布中包含语音的频带在全部频带中所占的能量比，当能量比大于预设的比率阈值时，记为满足条件二。一个示例中，比率阈值为0.7，包含语音的频带为200-2000Hz。当同时满足条件一和条件二时，确定当前包含语音，声音有效性检测结果为有效。

一个实施方式中，当声音有效性检测结果从有效到无效切换时，可以设置一个计时器，仅当计时器计满时才切换，计时器未满时如果出现声音有效性检测结果为无效，则清空计时器但并不切换。这样能够避免出现频繁切换的情况。当声音有效性检测结果切换时，至少维持计时器的长度，在计时器计时结束之前，如果仍需切换时，才进行切换。通过声音有效性检测结果能够判断伴奏数据播放的是哪种类型的声音。一个示例中，计时器的长度可以为3秒。

一个实施方式中，可以参阅附图2，图2是根据本申请实施例的一个实施方式的人声音效处理方法的主要步骤流程示意图。如图2所示，可以获取用户选择的音效，并判断是否为动态音效。如果是动态音效，则可以接收伴奏数据，并对伴奏数据进行格式转换，并获取伴奏数据的特征参数，基于伴奏数据的特征参数和歌声数据的特征参数，获得动态音效参数，将动态音效参数输入至效果器链路中。如果不是动态音效，则判断是否为变声音效。如果不是变声音效，则可以基于伴奏数据的特征参数选择一组固定音效参数输入至效果器链路中。如果是变声音效，则可以选择一组变声参数，输入至变身器中，以根据变声器输出带有音效的歌声。

一个实施方式中，可以参阅附图4，图4是根据本申请实施例的一个实施方式的歌声数据的特征参数提取的主要流程示意图。如图4所示，可以对歌声数据进行数据缓存后，判断傅立叶变换是否可用，在傅立叶变换可用时进行窗函数操作后，进行傅立叶变换，从而获得频谱熵和频带能量，并基于能量计算获得声音有效性检测结果。

一个实施方式中，可以参阅附图5，图5是根据本申请实施例的一个实施方式的伴奏数据的特征参数提取的主要流程示意图。如图5所示，可以对伴奏数据进行缓存后，判断傅立叶变换是否可用，在傅立叶变换可用时进行窗函数操作后，进行傅立叶变换后，进行频谱熵计算，以获得伴奏数据的特征参数。

一个实施方式中，参阅附图6，图6是根据本申请实施例的一个实施方式的效果器随歌声数据变化的主要流程示意图。如图6所示，可以对歌声数据进行缓存后，判断傅立叶变换是否可用，在傅立叶变换可用时进行窗函数操作后，进行傅立叶变换，从而获得频带能量，将频带能量与理想频带能量(预设的第一能量差值门限和第二能量差值门限)比例进行比较，从而获得均衡器2的音频参数。

一个实施方式中，参阅附图7，图7是根据本申请实施例的另一个实施方式的效果器随歌声数据变化的主要流程示意图。如图7所示，可以根据歌声数据进行频带能量计算，获得频带能量，当最大频带能量小于第一门限阈值(门限1)，则整体增益提高1dB，直至最大频带增益高于第一门限阈值后，计算频谱熵。判断频谱熵是否低于第二门限阈值(门限2)，当频谱熵低于第二门限阈值时，中频增益提高1dB直至频谱熵高于第二门限阈值。判断频谱熵是否高于第三门限阈值(门限3)，当频谱熵高于第三门限阈值时，中频增益降低1dB，直至频谱熵低于第三门限阈值后输出带有音效的歌声。

一个实施方式中，参阅附图12，图12是根据本申请实施例的一个实施方式的结合伴奏数据的特征参数的固定音效选择主要步骤示意图。如图12所示，可以获取固定音效列表，对固定音效风格进行分析，基于固定音效风格和伴奏数据的特征参数，进行风格匹配度计算，从而选择最优的固定音效参数。

需要指出的是，尽管上述实施例中将各个步骤按照特定的先后顺序进行了描述，但是本领域技术人员可以理解，为了实现本申请的效果，不同的步骤之间并非必须按照这样的顺序执行，其可以同时(并行)执行或以其他顺序执行，这些变化都在本申请的保护范围之内。

本领域技术人员能够理解的是，本申请实现上述一实施例的方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读存储介质可以包括：能够携带所述计算机程序代码的任何实体或装置、介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器、随机存取存储器、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读存储介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读存储介质不包括电载波信号和电信信号。

进一步，本申请还提供了一种控制器。在根据本申请的一个控制器实施例中，控制器包括处理器和存储器，存储器可以被配置成存储执行上述方法实施例的人声音效处理方法的程序，处理器可以被配置成用于执行存储器中的程序，该程序包括但不限于执行上述方法实施例的人声音效处理方法的程序。为了便于说明，仅示出了与本申请实施例相关的部分，具体技术细节未揭示的，请参照本申请实施例方法部分。该控制器可以是包括各种电子设备形成的控制器设备。

在本申请实施例中控制器可以是包括各种电子设备形成的控制器设备。在一些可能的实施方式中，控制器可以包括多个存储器和多个处理器。而执行上述方法实施例的人声音效处理方法的程序可以被分割成多段子程序，每段子程序分别可以由处理器加载并运行以执行上述方法实施例的人声音效处理方法的不同步骤。具体地，每段子程序可以分别存储在不同的存储器中，每个处理器可以被配置成用于执行一个或多个存储器中的程序，以共同实现上述方法实施例的人声音效处理方法，即每个处理器分别执行上述方法实施例的人声音效处理方法的不同步骤，来共同实现上述方法实施例的人声音效处理方法。

上述多个处理器可以是部署于同一个设备上的处理器，例如上述控制器可以是由多个处理器组成的高性能设备，上述多个处理器可以是该高性能设备上配置的处理器。此外，上述多个处理器也可以是部署于不同设备上的处理器，例如上述控制器可以是服务器集群，上述多个处理器可以是服务器集群中不同服务器上的处理器。

进一步，本申请还提供了一种计算机可读存储介质。在根据本申请的一个计算机可读存储介质实施例中，计算机可读存储介质可以被配置成存储执行上述方法实施例的人声音效处理方法的程序，该程序可以由处理器加载并运行以实现上述人声音效处理方法。为了便于说明，仅示出了与本申请实施例相关的部分，具体技术细节未揭示的，请参照本申请实施例方法部分。该计算机可读存储介质可以是包括各种电子设备形成的存储器设备，可选的，本申请实施例中计算机可读存储介质是非暂时性的计算机可读存储介质。

进一步，本申请还提供以一种智能设备。在根据本申请的一个智能设备实施例中，智能设备可以包括控制器实施例中的控制器。

一个实施方式中，智能设备可以为车辆。

进一步，应该理解的是，由于各个模块的设定仅仅是为了说明本申请的装置的功能单元，这些模块对应的物理器件可以是处理器本身，或者处理器中软件的一部分，硬件的一部分，或者软件和硬件结合的一部分。因此，图中的各个模块的数量仅仅是示意性的。

本领域技术人员能够理解的是，可以对装置中的各个模块进行适应性地拆分或合并。对具体模块的这种拆分或合并并不会导致技术方案偏离本申请的原理，因此，拆分或合并之后的技术方案都将落入本申请的保护范围内。

至此，已经结合附图所示的优选实施方式描述了本申请的技术方案，但是，本领域技术人员容易理解的是，本申请的保护范围显然不局限于这些具体实施方式。在不偏离本申请的原理的前提下，本领域技术人员可以对相关技术特征作出等同的更改或替换，这些更改或替换之后的技术方案都将落入本申请的保护范围之内。

Claims

1.一种人声音效处理方法，其特征在于，所述方法包括：

获取歌声数据和伴奏数据，并获取用户选择的音效类型；

其中，所述特征参数至少包括频谱熵。

2.根据权利要求1所述的人声音效处理方法，其特征在于，所述音效类型包括动态音效和固定音效；

3.根据权利要求2所述的人声音效处理方法，其特征在于，

4.根据权利要求3所述的人声音效处理方法，其特征在于，

获取所述歌声数据的频带能量；

5.根据权利要求2所述的人声音效处理方法，其特征在于，

根据所述伴奏数据的频谱熵，获得第一目标动态音效参数；

6.根据权利要求5述的人声音效处理方法，其特征在于，

将所述频谱熵与预设的第一阈值熵和第二阈值熵进行比较；

其中，所述第一参数小于所述第二参数。

7.根据权利要求5述的人声音效处理方法，其特征在于，

根据所述歌声数据，获取所述歌声数据的频带能量；

根据所述频带能量，获取所述第二目标动态音效参数。

8.根据权利要求7述的人声音效处理方法，其特征在于，

9.根据权利要求8述的人声音效处理方法，其特征在于，

所述根据所述差值，获得各频带的增益，包括：

10.根据权利要求8述的人声音效处理方法，其特征在于，