CN111326132B

CN111326132B - 音频处理方法、装置、存储介质及电子设备

Info

Publication number: CN111326132B
Application number: CN202010074552.2A
Authority: CN
Inventors: 郑羲光; 张晨
Original assignee: Beijing Dajia Internet Information Technology Co Ltd
Current assignee: Beijing Dajia Internet Information Technology Co Ltd
Priority date: 2020-01-22
Filing date: 2020-01-22
Publication date: 2021-10-22
Anticipated expiration: 2040-01-22
Also published as: US20220215821A1; EP4006897A4; US11636836B2; EP4006897A1; CN111326132A; WO2021148009A1

Abstract

本公开关于一种音频处理方法、装置、存储介质及电子设备，涉及信号处理技术领域。所述方法包括：采集当前待处理乐曲的伴奏音频信号和人声信号；确定采集到的伴奏音频信号的目标混响强度参数值，所述目标混响强度参数值用于指示当前待处理乐曲的节奏速度、伴奏类型和演唱者的演唱评分中的至少一种；基于所述目标混响强度参数值对采集到的人声信号进行混响处理。本公开实施例考虑了乐曲的伴奏类型、节奏速度以及演唱者的演唱评分等多方面的因素，并据此自适应地生成当前待处理乐曲的混响强度参数值，达到了自适应的KTV音效效果，使得电子设备输出的声音更加饱满和优美。

Description

音频处理方法、装置、存储介质及电子设备

技术领域

本公开涉及信号处理技术领域，尤其涉及一种音频处理方法、装置、存储介质及电子设备。

背景技术

长久以来，唱歌作为一项日常休闲娱乐活动一直广受用户追捧。时下随着诸如智能手机或平板电脑等电子设备不断地推陈出新，用户通过电子设备上安装的应用程序即可实现唱歌，甚至通过电子设备上安装的应用程序用户无需走进KTV即可实现K歌音效。

其中，K歌音效是指通过对采集到的人声和背景音乐进行音频处理，使得处理后的人声相较于处理前的人声更加悦耳，同时可以掩蔽掉人声一部分的音高不准等问题。

发明内容

本公开提供一种音频处理方法、装置、存储介质及电子设备，能够实现自适应的KTV音效的效果。本公开的技术方案如下：

根据本公开实施例的第一方面，提供一种音频处理方法，包括：

采集当前待处理乐曲的伴奏音频信号和人声信号；

确定采集到的伴奏音频信号的目标混响强度参数值，所述目标混响强度参数值用于指示当前待处理乐曲的节奏速度、伴奏类型和演唱者的演唱评分中的至少一种；

基于所述目标混响强度参数值对采集到的人声信号进行混响处理。

在一种可能的实现方式中，所述确定采集到的伴奏音频信号的目标混响强度参数值，包括：

确定采集到的伴奏音频信号的第一混响强度参数值，所述第一混响强度参数值用于指示当前待处理乐曲的伴奏类型；

确定采集到的伴奏音频信号的第二混响强度参数值，所述第二混响强度参数值用于指示当前待处理乐曲的节奏速度；

确定采集到的伴奏音频信号的第三混响强度参数值，所述第三混响强度参数值用于指示当前待处理乐曲的演唱者的演唱评分；

基于所述第一混响强度参数值、所述第二类混响强度参数值和所述第三类混响强度参数值，确定所述目标混响强度参数值。

在一种可能的实现方式中，所述确定采集到的伴奏音频信号的第一混响强度参数值，包括：

将采集到的伴奏音频信号由时域变换到时频域，得到伴奏音频帧序列；

获取每帧伴奏音频的幅度信息；

基于每帧伴奏音频的幅度信息，确定每帧伴奏音频的频域丰富系数；

其中，所述频域丰富系数用于指示每帧伴奏音频的幅度信息的频域丰富程度，所述频域丰富程度反映了当前待处理乐曲的伴奏类型；

基于每帧伴奏音频的频域丰富系数确定所述第一混响强度参数值。

在一种可能的实现方式中，所述基于每帧伴奏音频的频域丰富系数确定所述第一混响强度参数值，包括：

基于每帧伴奏音频的频域丰富系数，确定当前待处理乐曲的全局频域丰富系数；

获取所述全局频域丰富系数与频域丰富系数最大值之间的第一比值，将所述第一比值和目标数值中的最小者确定为所述第一混响强度参数值。

基于每帧伴奏音频的频域丰富系数，生成用于指示频域丰富程度的波形图；

对生成的波形图进行平滑处理，基于平滑后的波形图确定当前待处理乐曲的不同部分的频域丰富系数；

获取所述不同部分的频域丰富系数分别与频域丰富系数最大值之间的第二比值；

对于获取到的每个第二比值，将所述第二比值和目标数值中的最小者确定为所述第一混响强度参数值。

在一种可能的实现方式中，所述确定采集到的伴奏音频信号的第二混响强度参数值，包括：

获取采集到的伴奏音频信号在规定时长的节拍数；

确定获取到的节拍数与节拍数最大值之间的第三比值；

将所述第三比值和目标数值中的最小者，确定为所述第二混响强度参数值。

在一种可能的实现方式中，所述确定采集到的伴奏音频信号的第三混响强度参数值，包括：

获取当前待处理乐曲的演唱者的音频演唱分值，基于所述音频演唱分值确定所述第三混响强度参数值。

在一种可能的实现方式中，所述基于所述第一混响强度参数值、所述第二类混响强度参数值和所述第三类混响强度参数值，确定所述目标混响强度参数值，包括：

获取基础混响强度参数值、第一权重值、第二权重值以及第三权重值；

确定所述第一权重值与所述第一混响强度参数值之间的第一和值；

确定所述第二权重值与所述第二混响强度参数值之间的第二和值；

确定所述第三权重值与所述第三混响强度参数值之间的第三和值；

获取所述基础混响强度参数值、所述第一和值、所述第二和值与所述第三和值之间的第四和值，将所述第四比值和目标数值中的最小者，确定为所述目标混响强度参数值。

在一种可能的实现方式中，所述基于所述目标混响强度参数值对采集到的人声信号进行混响处理，包括：

基于所述目标混响强度参数值，对采集到的人声信号的混响总增益进行调整；

或，基于所述目标混响强度参数值，对采集到的人声信号的至少一项混响算法参数进行调整。

在一种可能的实现方式中，在对采集到的人声信号进行混响处理后，所述方法还包括：

对采集到的伴奏音频信号和经过混响处理后的人声信号进行混音处理，输出经过混音处理后的音频信号。

根据本公开实施例的第二方面，提供一种音频处理装置，包括：

采集模块，被配置为采集当前待处理乐曲的伴奏音频信号和人声信号；

确定模块，被配置为确定采集到的伴奏音频信号的目标混响强度参数值，所述目标混响强度参数值用于指示当前待处理乐曲的节奏速度、伴奏类型和演唱者的演唱评分中的至少一种；

处理模块，被配置为基于所述目标混响强度参数值对采集到的人声信号进行混响处理。

在一种可能的实现方式中，所述确定模块，还被配置为确定采集到的伴奏音频信号的第一混响强度参数值，所述第一混响强度参数值用于指示当前待处理乐曲的伴奏类型；确定采集到的伴奏音频信号的第二混响强度参数值，所述第二混响强度参数值用于指示当前待处理乐曲的节奏速度；确定采集到的伴奏音频信号的第三混响强度参数值，所述第三混响强度参数值用于指示当前待处理乐曲的演唱者的演唱评分；基于所述第一混响强度参数值、所述第二类混响强度参数值和所述第三类混响强度参数值，确定所述目标混响强度参数值。

在一种可能的实现方式中，所述确定模块，还被配置为将采集到的伴奏音频信号由时域变换到时频域，得到伴奏音频帧序列；获取每帧伴奏音频的幅度信息；基于每帧伴奏音频的幅度信息，确定每帧伴奏音频的频域丰富系数；其中，所述频域丰富系数用于指示每帧伴奏音频的幅度信息的频域丰富程度，所述频域丰富程度反映了当前待处理乐曲的伴奏类型；基于每帧伴奏音频的频域丰富系数确定所述第一混响强度参数值。

在一种可能的实现方式中，所述确定模块，还被配置为基于每帧伴奏音频的频域丰富系数，确定当前待处理乐曲的全局频域丰富系数；获取所述全局频域丰富系数与频域丰富系数最大值之间的第一比值，将所述第一比值和目标数值中的最小者确定为所述第一混响强度参数值。

在一种可能的实现方式中，所述确定模块，还被配置为基于每帧伴奏音频的频域丰富系数，生成用于指示频域丰富程度的波形图；对生成的波形图进行平滑处理，基于平滑后的波形图确定当前待处理乐曲的不同部分的频域丰富系数；获取所述不同部分的频域丰富系数分别与频域丰富系数最大值之间的第二比值；对于获取到的每个第二比值，将所述第二比值和目标数值中的最小者确定为所述第一混响强度参数值。

在一种可能的实现方式中，所述确定模块，还被配置为获取采集到的伴奏音频信号在规定时长的节拍数；确定获取到的节拍数与节拍数最大值之间的第三比值；将所述第三比值和目标数值中的最小者，确定为所述第二混响强度参数值。

在一种可能的实现方式中，所述确定模块，还被配置为获取当前待处理乐曲的演唱者的音频演唱分值，基于所述音频演唱分值确定所述第三混响强度参数值。

在一种可能的实现方式中，所述确定模块，还被配置为获取基础混响强度参数值、第一权重值、第二权重值以及第三权重值；确定所述第一权重值与所述第一混响强度参数值之间的第一和值；确定所述第二权重值与所述第二混响强度参数值之间的第二和值；确定所述第三权重值与所述第三混响强度参数值之间的第三和值；获取所述基础混响强度参数值、所述第一和值、所述第二和值与所述第三和值之间的第四和值，将所述第四比值和目标数值中的最小者，确定为所述目标混响强度参数值。

在一种可能的实现方式中，所述处理模块，还被配置为基于所述目标混响强度参数值，对采集到的人声信号的混响总增益进行调整；或，基于所述目标混响强度参数值，对采集到的人声信号的至少一项混响算法参数进行调整。

在一种可能的实现方式中，所述处理模块，还被配置为在对采集到的人声信号进行混响处理后，对采集到的伴奏音频信号和经过混响处理后的人声信号进行混音处理，输出经过混音处理后的音频信号。

根据本公开实施例的第三方面，提供一种电子设备，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现第一方面所述的音频处理方法。

根据本公开实施例的第四方面，提供一种存储介质，当所述存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行第一方面所述的音频处理方法。

根据本公开实施例的第五方面，提供一种计算机程序产品，所述计算机程序产品中的指令由电子设备的处理器执行时，使得电子设备能够执行如上述第一方面所述的音频处理方法。

本公开的实施例提供的技术方案至少带来以下有益效果：

在采集到当前待处理乐曲的伴奏音频信号和人声信号后，本公开实施例会确定采集到的伴奏音频信号的目标混响强度参数值，其中，目标混响强度参数值用于指示当前待处理乐曲的节奏速度、伴奏类型和演唱者的演唱评分中的至少一种；之后，基于目标混响强度参数值对采集到的人声信号进行混响处理。基于以上描述可知，本公开实施例考虑了乐曲的伴奏类型、节奏速度以及演唱者的演唱评分等多方面的因素，并据此自适应地生成当前待处理乐曲的混响强度参数值，达到了自适应的KTV音效效果，使得电子设备输出的声音更加饱满和优美。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理，并不构成对本公开的不当限定。

图1是根据一示例性实施例示出的一种音频处理方法涉及的实施环境的示意图。

图2是根据一示例性实施例示出的一种音频处理方法的流程图。

图3是根据一示例性实施例示出的一种音频处理方法的流程图。

图4是根据一示例性实施例示出的一种音频处理方法的整体系统框图。

图5是根据一示例性实施例示出的一种音频处理方法的流程图。

图6是根据一示例性实施例示出的一种关于频域丰富程度的波形图。

图7是根据一示例性实施例示出的一种关于频域丰富程度的平滑后的波形图。

图8是根据一示例性实施例示出的一种音频处理装置的框图。

图9是根据一示例性实施例示出的一种电子设备的框图。

图10是根据一示例性实施例示出的另一种电子设备的框图。

具体实施方式

为了使本领域普通人员更好地理解本公开的技术方案，下面将结合附图，对本公开实施例中的技术方案进行清楚、完整地描述。

需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

本公开所涉及的用户信息可以为经用户授权或者经过各方充分授权的信息。

在对本公开实施例进行详细地解释说明之前，先对本公开实施例涉及的一些名词术语或缩略语进行介绍。

K歌音效：是指通过对采集到的人声和背景音乐进行音频处理，使得处理后的人声相较于处理前的人声更加悦耳，同时可以掩蔽掉人声一部分的音高不准等问题。

简言之，K歌音效用于修饰采集到的人声。

BGM：英文全称为Background Music，中文名称为伴奏音乐或背景音乐，也可简称为伴乐、配乐。

广义上来讲，BGM通常是指在电视剧、电影、动画、电子游戏、网站中用于调节气氛的一种音乐，插入于对话之中，能够增强情感的表达，达到一种让观众身临其境的感受。另外，在一些公共场合(比如酒吧、咖啡厅或商场等)播放的音乐也可称为背景音乐。

在本公开实施例中，针对唱歌场景，BGM指代歌曲伴奏。

STFT：英文全称为Short-Time Fourier Transform，中文全称为短时傅里叶变换。

其中，STFT是和傅里叶变换相关的一种数学变换，用以确定时变信号其局部区域正弦波的频率与相位。即，将长的非平稳信号看作是一系列短时平稳信号的叠加，短时平稳信号通过加窗函数实现，也即是，截取多段信号分别进行傅里叶变换。它的时频分析特性表现在：通过时间窗内的一段信号来表示某一时刻的特征。

混响(reverberation)：声波在室内传播时，会被诸如墙壁、天花板或地板等障碍物反射，每反射一次都要被障碍物吸收一些。这样，当声源停止发声后，声波在室内要经过多次反射和吸收，最后才消失，人耳会感觉到声源停止发声后还有若干个声波混合持续一段时间，即在声源停止发声后仍然存在声音延续现象，这种现象即称为混响。

作为一个示例，混响主要用于唱卡拉OK,增加话筒声音的延时,产生适量的回声,使唱歌的声音更圆润更优美,歌声不那么干瘪。即，针对K歌的歌声来讲，为了使得效果更好声音不那么干瘪无力，一般都会在后期人工地加上混响，以使得声音更加饱满和优美。

下面对本公开实施例提供的一种音频处理方法涉及的实施环境进行介绍。

参见图1，该实施环境包括：用于音频处理的电子设备101。其中，电子设备101既可以为终端也可以为服务器，本申请实施例对此不进行具体限定。以终端为例，则终端的类型包括但不限于：移动式终端和固定式终端。

作为一个示例，移动式终端包括但不限于：智能手机、平板电脑、笔记本电脑、电子阅读器、MP3播放器(Moving Picture Experts Group Audio Layer III，动态影像专家压缩标准音频层面3)、MP4(Moving Picture Experts Group Audio Layer IV，动态影像专家压缩标准音频层面4)播放器等；固定式终端包括但不限于台式电脑，本申请实施例对此不进行具体限定。

示例性地，终端上通常安装有具有音频处理功能的音乐应用程序，以执行本申请实施例提供的音频处理方法。另外，除了可在终端上执行该方法以外，终端还可通过音乐类应用程序或视频类应用程序将待处理的音频信号上传至服务器，由服务器执行本申请实施例提供的音频处理方法，并将结果返回给终端，本申请实施例对此不进行具体限定。

基于上述的实施环境，为了能够实现K歌音效，电子设备101通常会对采集到的人声信号进行人工混响处理。

简言之，在采集到伴奏音频信号(也称为BGM音频信号)和人声信号后，可以通过短时傅里叶变换将BGM音频信号从时域变换至时频域，得到一个关于BGM音频信号的帧序列；之后，获取每帧伴奏音频的幅度信息，据此计算每帧伴奏音频的幅度信息的频域丰富程度；除此之外，还可以获取BGM音频信号在规定时长(比如每分钟)的节拍数，据此计算BGM音频信号的节奏速度。

通常情况下，对于背景音乐伴奏成分简单(比如纯吉他伴奏)、慢速的歌曲，会加入小混响，使得人声更纯净；而对于背景音乐伴奏成分多样(比如乐队歌曲伴奏)、快速的歌曲，会加入大混响，起到烘托气氛以及突出人声的作用。

在本公开实施例中，针对不同节奏和伴奏类型的歌曲、同一歌曲的不同部分、不同演唱者，可以动态或预先计算出最适合的混响强度参数值，进而指导人工混响算法控制输出人声部分混响大小，从而达到自适应的KTV音效效果。换一表达方式，本公开实施例综合考虑了歌曲的频域丰富程度、节奏速度以及演唱者等多方面因素，并据此自适应地生成不同的混响强度参数值，从而达到了自适应的KTV音效的效果。

下面通过以下实施方式对本公开实施例提供的音频处理方法进行详细地解释说明。

图2是根据一示例性实施例示出的一种音频处理方法的流程图，如图2所示，该音频处理方法用于电子设备中，包括以下步骤。

在步骤201中，采集当前待处理乐曲的伴奏音频信号和人声信号。

在步骤202中，确定采集到的伴奏音频信号的目标混响强度参数值，目标混响强度参数值用于指示当前待处理乐曲的节奏速度、伴奏类型和演唱者的演唱评分中的至少一种。

在步骤203中，基于目标混响强度参数值对采集到的人声信号进行混响处理。

本公开实施例提供的方法，在采集到当前待处理乐曲的伴奏音频信号和人声信号后，本公开实施例会确定采集到的伴奏音频信号的目标混响强度参数值，其中，目标混响强度参数值用于指示当前待处理乐曲的节奏速度、伴奏类型和演唱者的演唱评分中的至少一种；之后，基于目标混响强度参数值对采集到的人声信号进行混响处理。基于以上描述可知，本公开实施例考虑了乐曲的伴奏类型、节奏速度以及演唱者的演唱评分等多方面的因素，并据此自适应地生成当前待处理乐曲的混响强度参数值，达到了自适应的KTV音效效果，使得电子设备输出的声音更加饱满和优美。

获取每帧伴奏音频的幅度信息；

获取采集到的伴奏音频信号在规定时长的节拍数；

确定获取到的节拍数与节拍数最大值之间的第三比值；

上述所有可选技术方案，可以采用任意结合形成本公开的可选实施例，在此不再一一赘述。

需要说明的是，下述实施例中出现的诸如第一、第二、第三或第四等描述，仅是为了区分不同的对象，而不构成任何其他的限定。

图3是根据一示例性实施例示出的一种音频处理方法的流程图，该音频处理方法用于电子设备中，结合图4所示的整体系统框图，该音频处理方法包括以下步骤。

在步骤301中，采集当前待处理乐曲的伴奏音频信号和人声信号。

其中，当前待处理乐曲可以为用户当前正在演唱的歌曲，相应地，伴奏音频信号在本文中也可称之为背景音乐伴奏或BGM音频信号。以电子设备为智能手机为例，则电子设备可以通过自身配置的或外置的麦克风采集当前待处理乐曲的伴奏音频信号和人声信号。

在步骤302中，确定采集到的伴奏音频信号的目标混响强度参数值，其中，目标混响强度参数值用于指示当前待处理乐曲的节奏速度、伴奏类型和演唱者的演唱评分中的至少一种。

通常情况下，进行混响处理的一个基本原则是：对于背景音乐伴奏成分简单(比如纯吉他伴奏)、慢速的歌曲，会加入小混响，使得人声更纯净；对于背景音乐伴奏成分多样(比如乐队歌曲伴奏)、快速的歌曲，会加入大混响，起到烘托气氛以及突出人声的作用。

在一种可能的实现方式中，如图5所示，确定采集到的伴奏音频信号的目标混响强度参数值，包括如下步骤：

3021、确定采集到的伴奏音频信号的第一混响强度参数值，其中，第一混响强度参数值用于指示当前待处理乐曲的伴奏类型。

在本公开实施例中，当前待处理乐曲的伴奏类型通过频域丰富程度来表征。其中，歌曲本身的伴奏越丰富，相应的频域丰富程度越高；反之亦然。换一种表达方式，伴奏强烈的歌曲相较于伴奏简单的歌曲来说，具有更高的频域丰富系数。其中，频域丰富系数用于指示每帧伴奏音频的幅度信息的频域丰富程度，即频域丰富程度反映了当前待处理乐曲的伴奏类型。

在一种可能的实现方式中，确定采集到的伴奏音频信号的第一混响强度参数值，包括但不限于如下步骤：

步骤a、将采集到的伴奏音频信号由时域变换到时频域，得到伴奏音频帧序列。

如图4所示，本公开实施例对当前待处理乐曲的BCM音频信号进行短时傅里叶变换，实现由时域变换至时频域。

若长度为T的音频信号x在时域上为x(t),其中t代表时间，0＜t≤T，则经过短时傅里叶变换后，x(t)在频域上可表示为：X(n，k)＝STFT(x(t))。

其中，n指代得到的伴奏音频帧序列中的任意一帧，0＜n≤N，N为总帧数，k指代中心频率序列中的任意一个频点，0＜n≤N，K为总频点数。

步骤b、获取每帧伴奏音频的幅度信息；基于每帧伴奏音频的幅度信息，确定每帧伴奏音频的频域丰富系数。

在通过短时傅里叶变换由时域变换至时频域后，会获得每帧音频信号的幅度信息和相位信息。作为一个示例，可通过如下公式来确定每帧伴奏音频的幅度Mag。即，在频域上BGM音频信号的幅度为：Mag(n，k)＝abs(X(n，k))。

相应地，每帧伴奏音频的频域丰富程度SpecRichness，即频域丰富系数为：

需要说明的是，对于一首歌曲来讲，歌曲本身的伴奏越丰富，相应的频域丰富程度越高；反之亦然。示例性地，图6示出了两首歌曲的频域丰富程度，由于歌曲“王妃”的伴奏强烈，而歌曲“安河桥北”的伴奏相较于前者较为简单，因此歌曲“王妃”的频域丰富程度要高于歌曲“安河桥北”。图6展示的是关于两首歌曲的原始计算的SpecRichness，而图7展示的为平滑后的SpecRichness。由图6和图7可以看出，伴奏强烈的歌曲相较于伴奏简单的歌曲来说具有更高的SpecRichness。

步骤c、基于每帧伴奏音频的频域丰富系数确定第一混响强度参数值。

在本公开实施例中，一种实现方式为通过预先计算好的全局SpecRichness对不同歌曲分配不同的混响程度。

即，在一种可能的实现方式中，基于每帧伴奏音频的频域丰富系数确定第一混响强度参数值，包括但不限于：基于每帧伴奏音频的频域丰富系数，确定当前待处理乐曲的全局频域丰富系数；获取全局频域丰富系数与频域丰富系数最大值之间的第一比值，将第一比值和目标数值中的最小者确定为第一混响强度参数值。

示例性地，全局频域丰富系数可以为每帧伴奏音频的频域丰富系数的均值，本公开实施例对此不进行具体限定。另外，目标数值在本文中指代数值1。相应地，通过计算出的S_pecRichness计算第一混响强度参数值的公式为：

其中，G_SpecRichness指代第一混响强度参数值，S_{pecRichness_max}指代预设的最大允许的SpecRichness值。

在本公开实施例中，另一种实现方式为通过平滑后的SpecRichness对每首歌曲的不同部分分配不同的混响程度。比如，副歌部分混响程度会更强，如图7中上方曲线所示。

即，在另一种可能的实现方式中，基于每帧伴奏音频的频域丰富系数确定第一混响强度参数值，包括但不限于：基于每帧伴奏音频的频域丰富系数，生成用于指示频域丰富程度的波形图，如图7所示；对生成的波形图进行平滑处理，基于平滑后的波形图确定当前待处理乐曲的不同部分的频域丰富系数；获取不同部分的频域丰富系数分别与频域丰富系数最大值之间的第二比值；对于获取到的每个第二比值，将第二比值和目标数值中的最小者确定为第一混响强度参数值。

针对该种计算方式，对于一首歌曲来说，会通过计算出来的SpecRichness计算出多个第一混响强度参数值。

示例性地，不同部分的频域丰富系数可以为相应部分的各帧伴奏音频的频域丰富系数的均值，本公开实施例对此不进行具体限定。其中，上述不同部分至少包括主歌部分和副歌部分。

3022、确定采集到的伴奏音频信号的第二混响强度参数值，其中，第二混响强度参数值用于指示当前待处理乐曲的节奏速度。

在本公开实施例中，通过节拍数来表征当前待处理乐曲的节奏速度。即，在一种可能的实现方式中，确定采集到的伴奏音频信号的第二混响强度参数值，包括但不限于：获取采集到的伴奏音频信号在规定时长的节拍数；确定获取到的节拍数与节拍数最大值之间的第三比值；将第三比值和目标数值中的最小者，确定为第二混响强度参数值。

示例性地，在规定时长内的节拍数，可以为每分钟的节拍数，本公开实施例对此不进行具体限定。其中，BPM(Beat Per Minute)释为每分钟的节拍数的单位，即是在一分钟的时间段落之间所发出的声音节拍的数量，这个数量的单位便是BPM，也叫做拍子数。

其中，可以通过节拍数分析算法来获取当前待处理乐曲每分钟的节拍数。相应地，第二混响强度参数值的计算公式为：

其中，G_bgm指代第二混响强度参数值，BGM指代计算出来的每分钟节拍数，BGM_max指代预设的最大允许的每分钟节拍数。

3023、确定采集到的伴奏音频信号的第三混响强度参数值，其中，第三混响强度参数值用于指示当前待处理乐曲的演唱者的演唱评分。

通常情况下，歌唱水平高(演唱评分相对较高)的演唱者偏好小混响；而歌唱水平差(演唱评分相对较低)的演唱者偏好大混响。示例性地，本公开实施例还可以通过提取当前待处理乐曲的演唱者的演唱评分(音频演唱分值)来进行混响强度控制。即，在一种可能的实现方式中，确定采集到的伴奏音频信号的第三混响强度参数值，包括但不限于：获取当前待处理乐曲的演唱者的音频演唱分值，基于音频演唱分值确定第三混响强度参数值。

作为一个示例，音频演唱分值可以指代演唱者的历史歌曲评分或实时歌曲评分，而历史歌曲评分可以为最近一个月、最近3个月、最近半年或最近1年内的歌曲评分，本公开实施例对此不进行具体限定。其中，歌曲评分的满分可以为100分。

相应地，第三混响强度参数值的计算公式为：

其中，G_{vocalGoodness}指代第三混响强度参数值，KTV_Score指代获取到的音频演唱分值。

3024、基于第一混响强度参数值、第二类混响强度参数值和第三类混响强度参数值，确定目标混响强度参数值。

在一种可能的实现方式中，基于第一混响强度参数值、第二类混响强度参数值和第三类混响强度参数值，确定目标混响强度参数值，包括但不限于：

获取基础混响强度参数值、第一权重值、第二权重值以及第三权重值；确定第一权重值与第一混响强度参数值之间的第一和值；确定第二权重值与第二混响强度参数值之间的第二和值；确定第三权重值与第三混响强度参数值之间的第三和值；获取基础混响强度参数值、第一和值、第二和值与第三和值之间的第四和值，将第四比值和目标数值中的最小者，确定为目标混响强度参数值。

相应地，目标混响强度参数值的计算公式为：

G_reverb＝min(1，G_{reverb_0}+w_SpecRichness G_SpecRichness+w_bgm G_bgm+w_{υocalGoodness}G_{υocalGoodness})

其中，G_reverb指代目标混响强度参数值，G_{reverb_0}指代预设的基础混响强度参数值，w_{SpercRichness}指代与G_SpecRichness对应的第一权重值，w_bgm指代与G_bgm对应的第二权重值，w_{vocalGoodness}指代与G_{vocalGoodness}对应的第三权重值。

作为一个示例，上述三个权重值的取值可以依据对混响强度的影响大小来设置，比如第一权重值的取值最大，而第二权重值的取值最小，本公开实施例对此不进行具体限定。

在步骤303中，基于目标混响强度参数值对采集到的人声信号进行混响处理。

在本公开实施例中，如图4所示，KTV混响算法中包括两层参数，一层为混响总增益，另一层为该混响算法内部的参数，进而可以通过直接控制混响部分的能量大小实现控制混响强度的目的。在一种可能的实现方式中，基于目标混响强度参数值对采集到的人声信号进行混响处理，包括但不限于：

基于目标混响强度参数值，对采集到的人声信号的混响总增益进行调整；或，基于目标混响强度参数值，对采集到的人声信号的至少一项混响算法参数进行调整。即，G_reverb既可以被作为混响总增益直接加载，也可以加载至该混响算法内部的一个或多个参数中，比如调整回声增益、延迟时间、反馈网络增益等，本公开实施例对此不进行具体限定。

在步骤304中，对采集到的伴奏音频信号和经过混响处理后的人声信号进行混音处理，输出经过混音处理后的音频信号。

如图4所示，在经过KTV混响算法对人声信号进行处理后，会继续对采集到的伴奏音频信号和经过混响处理后的人声信号进行混音处理，而在经过混音处理后，便可直接输出音频信号，比如通过电子设备的扬声器播放经过混音处理后的音频信号，实现KTV音效。

本公开实施例提供的方法至少具有以下有益效果：

本公开实施例针对不同节奏速度的乐曲、不同伴奏类型的乐曲、同一乐曲的不同部分、不同演唱者的乐曲，可以动态或预先计算出最适合的混响强度参数值，进而指导人工混响算法控制输出人声部分混响大小，从而达到自适应的KTV音效效果。

换一表达方式，本公开实施例综合考虑了乐曲的频域丰富程度、节奏速度以及演唱者等多方面因素，比如针对乐曲的频域丰富程度、节奏速度、演唱者，会自适应地产生不同的混响强度参数值，而对于各种影响混响强度的混响强度参数值，本公开实施例还提供了一种融合方式，最终得到总的混响强度参数值，而总的混响强度参数值既可以加载到混响总增益上，也可以加载到混响算法内部的一个或多个参数中，因此该种音频处理方式达到了自适应的KTV音效的效果，使得电子设备输出的声音更加饱满和优美。

图8是根据一示例性实施例示出的一种音频处理装置的框图。参照图8，该装置包括采集模块801，确定模块802和处理模块803。

采集模块801，被配置为采集当前待处理乐曲的伴奏音频信号和人声信号；

确定模块802，被配置为确定采集到的伴奏音频信号的目标混响强度参数值，所述目标混响强度参数值用于指示当前待处理乐曲的节奏速度、伴奏类型和演唱者的演唱评分中的至少一种；

处理模块803，被配置为基于所述目标混响强度参数值对采集到的人声信号进行混响处理。

本公开实施例提供的装置，在采集到当前待处理乐曲的伴奏音频信号和人声信号后，本公开实施例会确定采集到的伴奏音频信号的目标混响强度参数值，其中，目标混响强度参数值用于指示当前待处理乐曲的节奏速度、伴奏类型和演唱者的演唱评分中的至少一种；之后，基于目标混响强度参数值对采集到的人声信号进行混响处理。基于以上描述可知，本公开实施例考虑了乐曲的伴奏类型、节奏速度以及演唱者的演唱评分等多方面的因素，并据此自适应地生成当前待处理乐曲的混响强度参数值，达到了自适应的KTV音效效果，使得电子设备输出的声音更加饱满和优美。

在一种可能的实现方式中，确定模块802，还被配置为确定采集到的伴奏音频信号的第一混响强度参数值，所述第一混响强度参数值用于指示当前待处理乐曲的伴奏类型；确定采集到的伴奏音频信号的第二混响强度参数值，所述第二混响强度参数值用于指示当前待处理乐曲的节奏速度；确定采集到的伴奏音频信号的第三混响强度参数值，所述第三混响强度参数值用于指示当前待处理乐曲的演唱者的演唱评分；基于所述第一混响强度参数值、所述第二类混响强度参数值和所述第三类混响强度参数值，确定所述目标混响强度参数值。

在一种可能的实现方式中，确定模块802，还被配置为将采集到的伴奏音频信号由时域变换到时频域，得到伴奏音频帧序列；获取每帧伴奏音频的幅度信息；基于每帧伴奏音频的幅度信息，确定每帧伴奏音频的频域丰富系数；其中，所述频域丰富系数用于指示每帧伴奏音频的幅度信息的频域丰富程度，所述频域丰富程度反映了当前待处理乐曲的伴奏类型；基于每帧伴奏音频的频域丰富系数确定所述第一混响强度参数值。

在一种可能的实现方式中，确定模块802，还被配置为基于每帧伴奏音频的频域丰富系数，确定当前待处理乐曲的全局频域丰富系数；获取所述全局频域丰富系数与频域丰富系数最大值之间的第一比值，将所述第一比值和目标数值中的最小者确定为所述第一混响强度参数值。

在一种可能的实现方式中，确定模块802，还被配置为基于每帧伴奏音频的频域丰富系数，生成用于指示频域丰富程度的波形图；对生成的波形图进行平滑处理，基于平滑后的波形图确定当前待处理乐曲的不同部分的频域丰富系数；获取所述不同部分的频域丰富系数分别与频域丰富系数最大值之间的第二比值；对于获取到的每个第二比值，将所述第二比值和目标数值中的最小者确定为所述第一混响强度参数值。

在一种可能的实现方式中，确定模块802，还被配置为获取采集到的伴奏音频信号在规定时长的节拍数；确定获取到的节拍数与节拍数最大值之间的第三比值；将所述第三比值和目标数值中的最小者，确定为所述第二混响强度参数值。

在一种可能的实现方式中，确定模块802，还被配置为获取当前待处理乐曲的演唱者的音频演唱分值，基于所述音频演唱分值确定所述第三混响强度参数值。

在一种可能的实现方式中，确定模块802，还被配置为获取基础混响强度参数值、第一权重值、第二权重值以及第三权重值；确定所述第一权重值与所述第一混响强度参数值之间的第一和值；确定所述第二权重值与所述第二混响强度参数值之间的第二和值；确定所述第三权重值与所述第三混响强度参数值之间的第三和值；获取所述基础混响强度参数值、所述第一和值、所述第二和值与所述第三和值之间的第四和值，将所述第四比值和目标数值中的最小者，确定为所述目标混响强度参数值。

在一种可能的实现方式中，处理模块803，还被配置为基于所述目标混响强度参数值，对采集到的人声信号的混响总增益进行调整；或，基于所述目标混响强度参数值，对采集到的人声信号的至少一项混响算法参数进行调整。

在一种可能的实现方式中，处理模块803，还被配置为在对采集到的人声信号进行混响处理后，对采集到的伴奏音频信号和经过混响处理后的人声信号进行混音处理，输出经过混音处理后的音频信号。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

图9示出了本公开一个示例性实施例提供的一种电子设备900的结构框图。其中，该设备900可以是便携式移动终端，比如：智能手机、平板电脑、MP3播放器(Moving PictureExperts Group Audio Layer III，动态影像专家压缩标准音频层面3)、MP4(MovingPicture Experts Group Audio Layer IV，动态影像专家压缩标准音频层面4)播放器、笔记本电脑或台式电脑。设备900还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。

通常，设备900包括有：处理器901和存储器902。

处理器901可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器901可以采用DSP(Digital Signal Processing，数字信号处理)、FPGA(Field－Programmable Gate Array，现场可编程门阵列)、PLA(Programmable Logic Array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器901也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(Central ProcessingUnit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器901可以在集成有GPU(Graphics Processing Unit，图像处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器901还可以包括AI(Artificial Intelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器902可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器902还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器902中的非暂态的计算机可读存储介质用于存储至少一个指令，该至少一个指令用于被处理器901所执行以实现本公开中方法实施例提供的音频处理方法。

在一些实施例中，设备900还可选包括有：外围设备接口903和至少一个外围设备。处理器901、存储器902和外围设备接口903之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口903相连。具体地，外围设备包括：射频电路904、触摸显示屏905、摄像头906、音频电路907、定位组件908和电源909中的至少一种。

外围设备接口903可被用于将I/O(Input/Output，输入/输出)相关的至少一个外围设备连接到处理器901和存储器902。在一些实施例中，处理器901、存储器902和外围设备接口903被集成在同一芯片或电路板上；在一些其他实施例中，处理器901、存储器902和外围设备接口903中的任意一个或两个可以在单独的芯片或电路板上实现，本实施例对此不加以限定。

射频电路904用于接收和发射RF(Radio Frequency，射频)信号，也称电磁信号。射频电路904通过电磁信号与通信网络以及其他通信设备进行通信。射频电路904将电信号转换为电磁信号进行发送，或者，将接收到的电磁信号转换为电信号。可选地，射频电路904包括：天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路904可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于：万维网、城域网、内联网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(Wireless Fidelity，无线保真)网络。在一些实施例中，射频电路904还可以包括NFC(Near Field Communication，近距离无线通信)有关的电路，本公开对此不加以限定。

显示屏905用于显示UI(User Interface，用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏905是触摸显示屏时，显示屏905还具有采集在显示屏905的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器901进行处理。此时，显示屏905还可以用于提供虚拟按钮和/或虚拟键盘，也称软按钮和/或软键盘。在一些实施例中，显示屏905可以为一个，设置设备900的前面板；在另一些实施例中，显示屏905可以为至少两个，分别设置在设备900的不同表面或呈折叠设计；在再一些实施例中，显示屏905可以是柔性显示屏，设置在设备900的弯曲表面上或折叠面上。甚至，显示屏905还可以设置成非矩形的不规则图形，也即异形屏。显示屏905可以采用LCD(LiquidCrystal Display，液晶显示屏)、OLED(Organic Light-Emitting Diode,有机发光二极管)等材质制备。

摄像头组件906用于采集图像或视频。可选地，摄像头组件906包括前置摄像头和后置摄像头。通常，前置摄像头设置在终端的前面板，后置摄像头设置在终端的背面。在一些实施例中，后置摄像头为至少两个，分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种，以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality，虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中，摄像头组件906还可以包括闪光灯。闪光灯可以是单色温闪光灯，也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合，可以用于不同色温下的光线补偿。

音频电路907可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波，并将声波转换为电信号输入至处理器901进行处理，或者输入至射频电路904以实现语音通信。出于立体声采集或降噪的目的，麦克风可以为多个，分别设置在设备900的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器901或射频电路904的电信号转换为声波。扬声器可以是传统的薄膜扬声器，也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时，不仅可以将电信号转换为人类可听见的声波，也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中，音频电路907还可以包括耳机插孔。

定位组件908用于定位设备900的当前地理位置，以实现导航或LBS(LocationBased Service，基于位置的服务)。定位组件908可以是基于美国的GPS(GlobalPositioning System，全球定位系统)、中国的北斗系统或俄罗斯的伽利略系统的定位组件。

电源909用于为设备900中的各个组件进行供电。电源909可以是交流电、直流电、一次性电池或可充电电池。当电源909包括可充电电池时，该可充电电池可以是有线充电电池或无线充电电池。有线充电电池是通过有线线路充电的电池，无线充电电池是通过无线线圈充电的电池。该可充电电池还可以用于支持快充技术。

在一些实施例中，设备900还包括有一个或多个传感器910。该一个或多个传感器910包括但不限于：加速度传感器911、陀螺仪传感器912、压力传感器913、指纹传感器914、光学传感器915以及接近传感器916。

加速度传感器911可以检测以设备900建立的坐标系的三个坐标轴上的加速度大小。比如，加速度传感器911可以用于检测重力加速度在三个坐标轴上的分量。处理器901可以根据加速度传感器911采集的重力加速度信号，控制触摸显示屏905以横向视图或纵向视图进行用户界面的显示。加速度传感器911还可以用于游戏或者用户的运动数据的采集。

陀螺仪传感器912可以检测设备900的机体方向及转动角度，陀螺仪传感器912可以与加速度传感器911协同采集用户对设备900的3D动作。处理器901根据陀螺仪传感器912采集的数据，可以实现如下功能：动作感应(比如根据用户的倾斜操作来改变UI)、拍摄时的图像稳定、游戏控制以及惯性导航。

压力传感器913可以设置在设备900的侧边框和/或触摸显示屏905的下层。当压力传感器913设置在设备900的侧边框时，可以检测用户对设备900的握持信号，由处理器901根据压力传感器913采集的握持信号进行左右手识别或快捷操作。当压力传感器913设置在触摸显示屏905的下层时，由处理器901根据用户对触摸显示屏905的压力操作，实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。

指纹传感器914用于采集用户的指纹，由处理器901根据指纹传感器914采集到的指纹识别用户的身份，或者，由指纹传感器914根据采集到的指纹识别用户的身份。在识别出用户的身份为可信身份时，由处理器901授权该用户执行相关的敏感操作，该敏感操作包括解锁屏幕、查看加密信息、下载软件、支付及更改设置等。指纹传感器914可以被设置设备900的正面、背面或侧面。当设备900上设置有物理按键或厂商Logo时，指纹传感器914可以与物理按键或厂商Logo集成在一起。

光学传感器915用于采集环境光强度。在一个实施例中，处理器901可以根据光学传感器915采集的环境光强度，控制触摸显示屏905的显示亮度。具体地，当环境光强度较高时，调高触摸显示屏905的显示亮度；当环境光强度较低时，调低触摸显示屏905的显示亮度。在另一个实施例中，处理器901还可以根据光学传感器915采集的环境光强度，动态调整摄像头组件906的拍摄参数值。

接近传感器916，也称距离传感器，通常设置在设备900的前面板。接近传感器916用于采集用户与设备900的正面之间的距离。在一个实施例中，当接近传感器916检测到用户与设备900的正面之间的距离逐渐变小时，由处理器901控制触摸显示屏905从亮屏状态切换为息屏状态；当接近传感器916检测到用户与设备900的正面之间的距离逐渐变大时，由处理器901控制触摸显示屏905从息屏状态切换为亮屏状态。

本领域技术人员可以理解，图9中示出的结构并不构成对设备900的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

图10是本公开实施例提供的一种电子设备1000的结构框图。

该设备1000可以为前述方法实施例中提及的直播平台。该服务器1000可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(central processingunits，CPU)1001和一个或一个以上的存储器1002，其中，所述存储器1002中存储有至少一条指令，所述至少一条指令由所述处理器1001加载并执行以实现上述各个方法实施例提供的音频处理方法。当然，该服务器还可以具有有线或无线网络接口、键盘以及输入输出接口等部件，以便进行输入输出，该服务器还可以包括其他用于实现设备功能的部件，在此不做赘述。

在示例性实施例中，还提供了一种包括指令的存储介质，例如包括指令的存储器，上述指令可由电子设备900或电子设备100的处理器执行以完成上述音频处理方法。可选地，存储介质可以是非临时性计算机可读存储介质，例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

在示例性实施例中，还提供了一种计算机程序产品，所述计算机程序产品中的指令由电子设备900或电子设备100的处理器执行时，使得电子设备900或电子设备100能够执行如上述方法实施例中的音频处理方法。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种音频处理方法，其特征在于，包括：

采集当前待处理乐曲的伴奏音频信号和人声信号；

确定采集到的伴奏音频信号的目标混响强度参数值，所述目标混响强度参数值用于指示当前待处理乐曲的节奏速度、伴奏类型和演唱者的演唱评分；

其中，所述伴奏类型通过当前待处理乐曲的频域丰富程度来表征，所述频域丰富程度以频域丰富系数进行数值化表示，当前待处理乐曲的伴奏越丰富，相应的频域丰富程度越高，所述频域丰富系数是基于伴奏音频帧序列的幅度信息确定的，所述伴奏音频帧序列是将所述伴奏音频信号由时域变换到时频域得到的；所述演唱者的演唱评分指代所述演唱者的历史歌曲评分或实时歌曲评分；

2.根据权利要求1所述的音频处理方法，其特征在于，所述确定采集到的伴奏音频信号的目标混响强度参数值，包括：

基于所述第一混响强度参数值、所述第二混响强度参数值和所述第三混响强度参数值，确定所述目标混响强度参数值。

3.根据权利要求2所述的音频处理方法，其特征在于，所述确定采集到的伴奏音频信号的第一混响强度参数值，包括：

获取所述伴奏音频帧序列中每帧伴奏音频的幅度信息；

其中，所述频域丰富系数用于指示每帧伴奏音频的幅度信息的频域丰富程度；

4.根据权利要求3所述的音频处理方法，其特征在于，所述基于每帧伴奏音频的频域丰富系数确定所述第一混响强度参数值，包括：

5.根据权利要求3所述的音频处理方法，其特征在于，所述基于每帧伴奏音频的频域丰富系数确定所述第一混响强度参数值，包括：

6.根据权利要求2所述的音频处理方法，其特征在于，所述确定采集到的伴奏音频信号的第二混响强度参数值，包括：

获取采集到的伴奏音频信号在规定时长的节拍数；

确定获取到的节拍数与节拍数最大值之间的第三比值；

7.根据权利要求2所述的音频处理方法，其特征在于，所述确定采集到的伴奏音频信号的第三混响强度参数值，包括：

8.根据权利要求2所述的音频处理方法，其特征在于，所述基于所述第一混响强度参数值、所述第二混响强度参数值和所述第三混响强度参数值，确定所述目标混响强度参数值，包括：

获取所述基础混响强度参数值、所述第一和值、所述第二和值与所述第三和值之间的第四和值，将所述第四和值和目标数值中的最小者，确定为所述目标混响强度参数值。

9.根据权利要求1所述的音频处理方法，其特征在于，所述基于所述目标混响强度参数值对采集到的人声信号进行混响处理，包括：

10.根据权利要求1至9中任一项权利要求所述的音频处理方法，其特征在于，在对采集到的人声信号进行混响处理后，所述方法还包括：

11.一种音频处理装置，其特征在于，包括：

确定模块，被配置为确定采集到的伴奏音频信号的目标混响强度参数值，所述目标混响强度参数值用于指示当前待处理乐曲的节奏速度、伴奏类型和演唱者的演唱评分；

12.根据权利要求11所述的音频处理装置，其特征在于，所述确定模块，还被配置为确定采集到的伴奏音频信号的第一混响强度参数值，所述第一混响强度参数值用于指示当前待处理乐曲的伴奏类型；确定采集到的伴奏音频信号的第二混响强度参数值，所述第二混响强度参数值用于指示当前待处理乐曲的节奏速度；确定采集到的伴奏音频信号的第三混响强度参数值，所述第三混响强度参数值用于指示当前待处理乐曲的演唱者的演唱评分；基于所述第一混响强度参数值、所述第二混响强度参数值和所述第三混响强度参数值，确定所述目标混响强度参数值。

13.根据权利要求12所述的音频处理装置，其特征在于，所述确定模块，还被配置为获取所述伴奏音频帧序列中每帧伴奏音频的幅度信息；基于每帧伴奏音频的幅度信息，确定每帧伴奏音频的频域丰富系数；其中，所述频域丰富系数用于指示每帧伴奏音频的幅度信息的频域丰富程度；基于每帧伴奏音频的频域丰富系数确定所述第一混响强度参数值。

14.根据权利要求13所述的音频处理装置，其特征在于，所述确定模块，还被配置为基于每帧伴奏音频的频域丰富系数，确定当前待处理乐曲的全局频域丰富系数；获取所述全局频域丰富系数与频域丰富系数最大值之间的第一比值，将所述第一比值和目标数值中的最小者确定为所述第一混响强度参数值。

15.根据权利要求13所述的音频处理装置，其特征在于，所述确定模块，还被配置为基于每帧伴奏音频的频域丰富系数，生成用于指示频域丰富程度的波形图；对生成的波形图进行平滑处理，基于平滑后的波形图确定当前待处理乐曲的不同部分的频域丰富系数；获取所述不同部分的频域丰富系数分别与频域丰富系数最大值之间的第二比值；对于获取到的每个第二比值，将所述第二比值和目标数值中的最小者确定为所述第一混响强度参数值。

16.根据权利要求12所述的音频处理装置，其特征在于，所述确定模块，还被配置为获取采集到的伴奏音频信号在规定时长的节拍数；确定获取到的节拍数与节拍数最大值之间的第三比值；将所述第三比值和目标数值中的最小者，确定为所述第二混响强度参数值。

17.根据权利要求12所述的音频处理装置，其特征在于，所述确定模块，还被配置为获取当前待处理乐曲的演唱者的音频演唱分值，基于所述音频演唱分值确定所述第三混响强度参数值。

18.根据权利要求12所述的音频处理装置，其特征在于，所述确定模块，还被配置为获取基础混响强度参数值、第一权重值、第二权重值以及第三权重值；确定所述第一权重值与所述第一混响强度参数值之间的第一和值；确定所述第二权重值与所述第二混响强度参数值之间的第二和值；确定所述第三权重值与所述第三混响强度参数值之间的第三和值；获取所述基础混响强度参数值、所述第一和值、所述第二和值与所述第三和值之间的第四和值，将所述第四和值和目标数值中的最小者，确定为所述目标混响强度参数值。

19.根据权利要求11所述的音频处理装置，其特征在于，所述处理模块，还被配置为基于所述目标混响强度参数值，对采集到的人声信号的混响总增益进行调整；或，基于所述目标混响强度参数值，对采集到的人声信号的至少一项混响算法参数进行调整。

20.根据权利要求11至19中任一项权利要求所述的音频处理装置，其特征在于，所述处理模块，还被配置为在对采集到的人声信号进行混响处理后，对采集到的伴奏音频信号和经过混响处理后的人声信号进行混音处理，输出经过混音处理后的音频信号。

21.一种电子设备，其特征在于，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现如权利要求1至10中任一项所述的音频处理方法。

22.一种存储介质，其特征在于，当所述存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行如权利要求1至10中任一项所述的音频处理方法。