CN116939431A

CN116939431A - 处理人声音频的方法、设备和存储介质

Info

Publication number: CN116939431A
Application number: CN202310872076.2A
Authority: CN
Inventors: 张超鹏; 翁志强; 宗旋; 赵伟峰
Original assignee: Tencent Music Entertainment Technology Shenzhen Co Ltd
Current assignee: Tencent Music Entertainment Technology Shenzhen Co Ltd
Priority date: 2023-07-14
Filing date: 2023-07-14
Publication date: 2023-10-24

Abstract

本公开实施例公开了一种处理人声音频的方法、设备和存储介质，属于音频技术领域。音频的亮度是影响音频清晰度的主要原因之一。亮度一般是与音频的中高频谐波的能量的占比挂钩。对于较低音域的音频，说明该音频的能量主要分布在低频段处，亮度较低。本公开实施例中，将这种音频输入到激励器中，通过激励器增强该音频的中高频的谐波的幅度(也即增强该音频中高频谐波的能量)，也即可以提高音频的亮度，进一步可以提高人声音频的清晰度。

Description

处理人声音频的方法、设备和存储介质

技术领域

本公开涉及音频技术领域，特别涉及一种处理人声音频的方法、设备和存储介质。

背景技术

在多媒体技术快速发展的时代，人们可以将自己的歌声录制下来，并上传到相关平台。一般情况下，人们可以通过手机自带麦克风或耳麦、手持话筒等设备录音。

录制完成的音频中，可能存在音频清晰度较低的问题，这种问题有可能是唱歌人发声特点所导致，也有可能是噪声等原因导致。

发明内容

本公开提供了一种处理人声音频的方法、装置、设备和存储介质，能够解决相关技术的问题。技术方案如下：

第一方面，提供了一种处理人声音频的方法，所述方法包括：

获取录音设备录制的第一人声音频；

确定所述第一人声音频对应的基频序列；

基于所述基频序列，确定所述第一人声音频对应的音域；

当所述音域与指定的低频音域的重合度大于指定阈值时，将所述第一人声音频和所述基频序列输入到激励器中，通过所述激励器增强所述第一人声音频中指定频率范围的中高频谐波的幅度，得到所述激励器输出的第二人声音频。

在一种可能的实现方式中，所述激励器包括梳状滤波器和高通滤波器，所述将所述第一人声音频和所述基频序列输入到激励器中，通过所述激励器增强所述第一人声音频中指定频率范围的中高频谐波的幅度，得到所述激励器输出的第二人声音频，包括：

将所述第一人声音频和所述基频序列输入到所述梳状滤波器中，通过所述梳状滤波器增强所述第一人声音频中谐波的幅度，得到增强谐波幅度后的第一人声音频；

将所述增强谐波幅度后的第一人声音频输入到所述高通滤波器中，将低于指定频率的谐波进行滤除，得到第二人声音频。

在一种可能的实现方式中，所述获取录音设备录制的第一人声音频，包括：

将所述第三人声音频输入到噪声消除模型中，通过所述噪声消除模型对所述第三人声音频进行消噪处理，得到第一人声音频，其中，所述噪声消除模型包括回采噪声消除模型和背景噪声消除模型。

在一种可能的实现方式中，所述基于所述基频序列，确定所述第一人声音频对应的音域，包括：

计算所述基频序列中各基频的均值和方差；

当所述方差在指定方差阈值范围内，基于指定的第一音程和所述均值，确定出所述第一人声音频对应的音域。

在一种可能的实现方式中，所述基于指定的第一音程和所述均值，确定出所述第一人声音频对应的音域，包括：

确定以所述均值为区间中心值且以指定的第一音程为区间长度的区间，作为所述第一人声音频对应的音域。

基于所述基频序列中的最高基频和最低基频，确定所述第一人声音频对应的基频总区间；

在所述基频总区间中确定多个基频子区间，其中，所述基频子区间的长度等于第一音程；

确定出每个基频子区间中基频的数量，将数量最多的基频子区间确定为所述第一人声音频对应的音域。

在一种可能的实现方式中，所述多个基频子区间按区间中心值间隔第二音程排布，其中，所述第二音程小于所述第一音程。

在一种可能的实现方式中，所述方法还包括：

获取在播放指定音频时通过所述录音设备录制的录制音频；

基于所述指定音频和所述录制音频，确定所述录音设备的频谱影响特征，其中，所述频谱影响特征用于指示所述录音设备在录音过程中对录制音频的影响；

基于所述频谱影响特征，构造用于消除所述录音设备对录制音频影响的逆滤波器；

将所述第二人声音频输入到所述逆滤波器中，对所述第二人声音频的频谱特征进行调整，得到第四人声音频。

在一种可能的实现方式中，所述基于所述基频序列，确定所述第一人声音频对应的音域之后，所述方法还包括：

当所述音域与指定音域的重合度小于或等于指定阈值时，将所述第一人声音频输入到所述逆滤波器中，得到所述逆滤波器输出的第四人声音频。

在一种可能的实现方式中，所述方法还包括：

将所述第四人声音频输入到所述动态范围控制模型中，以将所述第四人声音频中各音频帧的响度调整至指定响度范围内，得到所述动态范围控制模型输出的第五人声音频。

第二方面，提供了一种处理人声音频的装置，所述装置包括：

获取模块，用于获取录音设备录制的第一人声音频；

确定模块，用于：

确定所述第一人声音频对应的基频序列；

基于所述基频序列，确定所述第一人声音频对应的音域；

增强模块，用于当所述音域与指定的低频音域的重合度大于指定阈值时，将所述第一人声音频和所述基频序列输入到激励器中，通过所述激励器增强所述第一人声音频中指定频率范围的中高频谐波的幅度，得到所述激励器输出的第二人声音频。

在一种可能的实现方式中，所述激励器包括梳状滤波器和高通滤波器，所述增强模块，用于：

在一种可能的实现方式中，所述获取模块，用于：

在一种可能的实现方式中，所述确定模块，用于：

计算所述基频序列中各基频的均值和方差；

在一种可能的实现方式中，所述确定模块，用于：

在一种可能的实现方式中，所述装置还包括构造模块和调整模块：

所述获取模块，用于：

获取在播放指定音频时通过所述录音设备录制的录制音频；

所述构造模块，用于基于所述频谱影响特征，构造用于消除所述录音设备对录制音频影响的逆滤波器；

所述调整模块，用于将所述第二人声音频输入到所述逆滤波器中，对所述第二人声音频的频谱特征进行调整，得到第四人声音频。

在一种可能的实现方式中，所述确定模块还用于：

在一种可能的实现方式中，所述调整模块还用于：

第三方面，提供了一种计算机设备，计算机设备包括存储器和处理器，存储器用于存储计算机指令；处理器执行存储器存储的计算机指令，以使计算机设备执行第一方面及其可能的实现方式的方法。

第四方面，提供了一种计算机可读存储介质，计算机可读存储介质存储有计算机程序代码，响应于计算机程序代码被计算机设备执行，计算机设备执行第一方面及其可能的实现方式的方法。

第五方面，提供了一种计算机程序产品，计算机程序产品包括计算机程序代码，响应于计算机程序代码被计算机设备执行，计算机设备执行第一方面及其可能的实现方式的方法。

本公开的实施例提供的技术方案可以包括以下有益效果：

音频的亮度是影响音频清晰度的主要原因之一。亮度一般是与音频的中高频谐波的能量的占比挂钩。对于较低音域的音频，说明该音频的能量主要分布在低频段处，亮度较低。本公开实施例中，将这种音频输入到激励器中，通过激励器增强该音频的中高频的谐波的幅度(也即增强该音频中高频谐波的能量)，也即可以提高音频的亮度，进一步可以提高人声音频的清晰度。

附图说明

为了更清楚地说明本公开实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本公开实施例提供的一种终端的结构示意图；

图2是本公开实施例提供的一种服务器的结构示意图；

图3是本公开实施例提供的一种处理人声音频的方法的流程示意图；

图4是本公开实施例提供的一种处理人声音频的数据流图；

图5是本公开实施例提供的一种确定音域的示意图；

图6是本公开实施例提供的一种划分基频子区间的示意图；

图7是本公开实施例提供的一种划分基频子区间的示意图；

图8是本公开实施例提供的一种梳状滤波器的结构示意图；

图9是本公开实施例提供的一种梳状滤波器系统脉冲响应的示意图；

图10是本公开实施例提供的一种梳状滤波器系统频响特性的示意图；

图11是本公开实施例提供的一种确定频谱影响特征的示意图；

图12是本公开实施例提供的一种进行频谱均衡的示意图；

图13是本公开实施例提供的一种处理人声音频的装置的结构示意图；

图14是本公开实施例提供的一种电子设备的结构示意图。

具体实施方式

本公开实施例提供了一种处理人声音频的方法，该方法用于对录制的人声音频的清晰度进行调整。该方法可以由计算机设备来实现，计算机设备可以是终端或服务器。终端可以是手机、平板电脑、笔记本计算机、台式计算机等。服务器可以是单独的一台服务器，也可以是多台设备组成的设备组。

从硬件组成上来看，终端的结构可以如图1所示，包括处理器110、存储器120和音频采集部件130。

处理器110可以是CPU(central processing unit，中央处理器)或SoC(system onchip，系统级芯片)等，处理器110可以用于执行该方法涉及的各种指令等。

存储器120可以包括各种易失性存储器或非易失性存储器，如SSD(solid statedisk，固态硬盘)、DRAM(dynamic random access memory，动态随机存取存储器)内存等。存储器120可以用于处理人声音频过程中的预存数据、中间数据和结果数据，例如，第一人声音频、音频序列等。

音频采集部件130可以为麦克风，用于采集用户的语音。例如，采集第一人声音频等。

除了处理器、存储器，终端还可以包括通信部件、音频输出部件等。

显示部件可以是独立的屏幕、或与终端机身一体的屏幕、投影仪等，屏幕可以为触控屏、也可以为非触控屏。

通信部件可以是有线网络连接器、WiFi(wireless fidelity，无线保真)模块、蓝牙模块、蜂巢网通信模块等。通信部件可以用于与其他设备进行数据传输，其他设备可以是服务器、也可以是其他终端等。

音频输出部件可以为音箱、耳机等，用于播放音频。

从硬件组成上来看，服务器的结构可以如图2所示，包括处理器210和存储器220。

处理器210可以是CPU或SoC等，处理器210可以用于执行该方法涉及的各种指令等。

存储器220可以包括各种易失性存储器或非易失性存储器，如SSD、DRAM内存等。存储器220可以用于处理人声音频过程中的预存数据、中间数据和结果数据，例如，第一人声音频、音频序列等。

除了处理器、存储器，服务器还可以包括通信部件等。

通信部件可以是有线网络连接器、WiFi模块、蓝牙模块、蜂巢网通信模块等。通信部件可以用于与其他设备进行数据传输，其他设备可以是服务器、也可以是其他终端等。

本公开实施例以终端为例进行方案的详细说明，其他情况与之类似，本公开实施例不再赘述。

下面，对本实施例中涉及的若干个名词进行介绍：

亮度：一般可以通过声音的中高频谐波的能量的占比表示，中高频谐波的能量占比越高，声音越亮，中高频能量占比越低，声音越暗。声音的亮度特征是影响声音清晰度的重要原因，可以通过提高亮度的方法提高音频的清晰度。

响度：可以表示声音的强弱，又可以称为音量。

音域：是指某一段声音的最低音至最高音的范围。

音程：指两个音在音高上的距离，可以用于表示两个音之间的频率关系，单位为“度”。

在很多与音乐相关的应用程序中，会提供一种录唱功能，即用户可以选择任一首歌曲进行演唱，进行录制后发布。录制完成的音频可能会存在清晰度较低的问题。此时，需要对录制的音频进行处理，以提高该音频的清晰度。

本公开实施例针对上述的应用场景，提供了一种处理人声音频的方法，该方法的处理流程可以如图3所示，数据流图可以如图4所示，包括如下处理步骤：

301，获取录音设备录制的第一人声音频。

其中，第一人声音频可以是经过消噪处理的音频，也可以是没有经过消噪处理的音频。

在实施中，录音设备录制的人声音频中可能录制到背景噪声，例如，汽车的鸣笛声，或者，录制到回采噪声，即播放的伴奏被录音设备回采，这些噪声都会对录制的人声音频产生干扰。因此，在录制完成后可以先对录制的人声音频进行消噪处理，具体处理可以如下：

将第三人声音频输入到噪声消除模型中，通过噪声消除模型对第三人声音频进行消噪处理，得到第一人声音频。

其中，第三人声音频是录音设备录制且未经过消噪处理的音频。噪声消除模型可以包括回采噪声消除模型和背景噪声消除模型。回采噪声消除模型具体可以是AEC(acoustic echo cancellation，回声消除)模型，背景噪声消除模型可以是机器训练模型，具体可以是RNN(recurrent neural network，循环神经网络)噪声消除模型。

在实施中，终端可以将第三人声音频输入到回采噪声消除模型中，得到消除回采噪声后的人声音频，再将消除回采噪声后的人声音频输入到背景噪声消除模型中，得到消除背景噪声后的人声音频，即可以得到第一人声音频。这样，可以先通过初步的消噪处理提高录制的人声音频的清晰度。

302，确定第一人声音频对应的基频序列。

在实施中，终端在进行消噪处理后，可以对亮度较低的人声音频进行处理，以提高人声音频的清晰度。相应地，在对第一人声音频的亮度进行调整之前，可以根据第一人声音频对应的音域，确定第一人声音频是否需要进行亮度调整。

终端可以将第一人声音频和分帧帧移输入到基频提取模型中，分帧帧移可以是5ms或10ms，基频提取模型可以根据分帧帧移先对第一人声音频进行分帧，再提取基频，也可以根据分帧帧移一边进行分帧，一边提取基频。这样，可以得到第一人声音频中每一帧音频对应的基频，即可以得到第一人声音频对应的音频序列。其中，基频提取模型具体可以是pYin，crepe，harvest等。

303，基于基频序列，确定第一人声音频对应的音域。

在实施中，终端可以根据确定出第一人声音频的基频序列，通过不同的方式确定第一人声音频对应的音域：

方式一，基于基频序列的均值和方差，确定第一人声音频对应的音域。

具体处理步骤可以如下：

步骤一，计算基频序列中各基频的均值和方差。

步骤二，确定方差是否在指定方差阈值范围内，当方差在指定方差阈值范围内，基于第一音程和均值，确定出第一人声音频对应的音域。当方差不在指定方差阈值范围内，获取输入的性别信息，将性别信息对应的音域确定为第一人声音频对应的音域。

其中，第一音程可以是八度音程。

在实施中，当方差在指定方差阈值范围内，说明基频在均值附近分布较为集中。终端可以将均值作为区间中心值，将第一音程作为区间长度，确定出一个基频区间，进一步将该基频区间确定为第一人声音频对应的音域。例如，方差阈值为200Hz，第一音程为500Hz，计算出的基频序列对应的均值为1200Hz，方差为100Hz，由此可以得到第一人声音频对应的音域为[950,1450]，可以如图5所示。

当方差不在指定方差阈值范围内，说明基频在均值附近分布较为分散。此时，终端可以获取用户在相关应用程序中输入的性别信息。终端也可以将第一人声音频输入到音频识别模型中，得到第一人声音频对应的性别信息。音频识别模型可以是机器训练模型。然后，终端可以将性别信息对应的音域确定为第一人声音频对应的音域。

方式二，将基频数量最多的基频子区间确定为第一人声对应的音域。具体处理步骤可以如下：

步骤一，基于基频序列中的最高基频和最低基频，确定第一人声音频对应的基频总区间。

在实施中，可以通过以下两种方式确定基频总区间：

第一，终端可以将基频序列中的最高基频作为右区间，将基频序列中的最低基频作为左区间，得到第一人声音频对应的基频总区间。

第二，终端可以将基频序列中的最高基频加上第一指定长度作为右区间，将最低基频加上第二指定长度作为左区间，得到第一人声音频对应的基频总区间，以使基频总区间的区间长度是第一音程的整倍数。第一指定长度和第二指定长度可以相同，也可以不同。

步骤二，在基频总区间中确定多个基频子区间。

在实施中，终端可以在基频总区间中划分出多个基频子区间，多个基频子区间的区间长度可以等于第一音程，可以按区间中心值间隔第二音程排布。其中，第二音程可以等于第一音程，如图6所示，也可以小于第一音程，如图7所示。

步骤三，确定出每个基频子区间中基频的数量，将数量最多的基频子区间确定为第一人声音频对应的音域。

在实施中，在确定出每个基频子区间中基频的数量后，可以先确定出基频的数量最多的基频子区间。如果基频的数量最多的基频子区间仅有一个，则可以将该基频子区间确定为第一人声音频对应的音域。如果基频的数量最多的基频子区间有多个，则可以随机选择基频的数量最多的基频子区间中的任一个基频子区间作为第一人声音频对应的音域。

例如，在图7的十个基频子区间的基频的数量分别为11、12、14、14、13、11、13、13、12、12，基频的数量最多的基频子区间为序号为③和④的基频子区间，进一步，可以在序号为③和④的基频子区间中任选一个基频子区间作为第一人声音频对应的音域。

304，判断第一人声音频对应的音域与指定的低频音域的重合度是否大于指定阈值，如果是，则执行步骤305，如果否，则执行步骤307。

其中，指定的低频音域可以是[0,1000Hz]，指定阈值可以是80％。

在实施中，终端可以先确定出第一人声音频对应的音域与指定的低频音域重合的区间长度。然后，终端可以将重合的区间长度与指定的低频音域的区间长度的比值作为重合度。最后，终端就可以将计算出的重合度与指定阈值进行比较，进行后续处理。

例如，第一人声音频对应的音域是[100Hz，1000Hz]，该音域和指定的低频音域的重合度为900/1000＝90％。

305，将第一人声音频和基频序列输入到激励器中，通过激励器增强第一人声音频中指定频率范围的中高频谐波的幅度，得到激励器输出的第二人声音频。

在实施中，第一人声音频对应的音域与指定的低频音域的重合度大于指定阈值，说明该音频的能量主要集中的低频段处，亮度较低，也即该音频清晰度较低，需要进行调整。

对于激励器的具体结构包括梳状滤波器和高通滤波器的情况，对第一人声音频的具体处理步骤可以如下：

步骤一，将第一人声音频和基频序列输入到梳状滤波器中，通过梳状滤波器增强第一人声音频中谐波的幅度，得到增强谐波幅度后的第一人声音频。

其中，梳状滤波器的结构可以包括叠加器、Z变换滤波器和三角带通滤波器，如图8所示，x(n)表示第一人声音频的某一帧信号，y(n)表示对第一人声音频的某一帧信号通过梳状滤波器进行处理后的信号。梳状滤波器的系统函数可以是Z₁表示Z变换，即对输入的信号进行Z变换，g表示反馈因子，m表示梳状滤波器的延迟采样点数，相应的单位脉冲响应为h(n)＝gδ(n-m)+g²δ(n-2m)+g³δ(n-3m)+...，其中，n表示帧数。假设梳状滤波器的采样率f_s＝44100Hz，对于基频f₀＝500Hz的某帧信号，离散信号样点数为即m＝N₀＝88。以m＝88，g＝0.5为例，梳状滤波器的系统脉冲响应可以如图9所示，频响特性曲线如图10所示。

在实施中，将第一人声音频和基频序列输入到梳状滤波器中，梳状滤波器可以根据基频序列中的各基频，确定出每一个基频对应的谐波，进一步，根据系统函数对确定出的多个谐波的幅度进行增强，得到增强谐波后的第一人声音频。

步骤二，将增强谐波幅度后的第一人声音频输入到高通滤波器中，将低于指定频率的谐波进行滤除，得到第二人声音频。

其中，高通滤波器的系统函数可以是Z₂表示Z变换，f_hp为截止频率，可以由技术人员预先设置好，具体可以是2000Hz。

在实施中，终端将增强谐波幅度后的第一人声音频输入到高通滤波器中，高通滤波器将低于指定频率的谐波进行滤除，指定频率可以是上述的截止频率。由于梳状滤波器在调整谐波的幅度时，会将音频的低频段的谐波幅度也进行了提高，造成了声染色，降低了音频的听感。因此，通过高通滤波器将这些谐波进行滤除既可以消除声染色，也可以保证只有指定频率范围的中高频的谐波的幅度被增强，达到提高人声音频亮度的目的。

在其他可能的实现方式中，激励器可以只包括梳状滤波器，或者，也可以是其他结构。

306，将第二人声音频输入到逆滤波器中，对第二人声音频的频谱特征进行调整，得到第四人声音频。

在实施中，录音设备也可能会对人声音频造成影响，导致录制的人声音频不够清晰，因此，需要构造逆滤波器对录音设备的影响进行消除。

构造逆滤波器的具体步骤可以如下：

步骤一，获取在播放指定音频时通过录音设备录制的录制音频。

其中，指定音频可以是扫频信号，扫频信号可以用于测试元件或整机设备的频率特性。

步骤二，基于指定音频和录制音频，确定录音设备的频谱影响特征。

其中，频谱影响特征用于指示录音设备在录音过程中对录制音频的影响。

在实施中，技术人员可以获取到指定音频的频谱特征和指定音频对应的录音音频的频谱特征，再对该指定音频和该录音音频的频谱特征进行比对，得到录音设备的频谱影响特征，如图11所示，该录音设备在录制音频时对某一频段的频谱的幅度进行了增强。

步骤三，基于频谱影响特征，构造用于消除录音设备对录制音频影响的逆滤波器。

在实施中，终端可以根据录音设备的频谱影响特征，确定出滤波参数，例如，带宽、截止频率等等。进一步，终端根据滤波参数，构造逆滤波器。

在构造完成逆滤波器后，终端可以将第二人声音频输入到逆滤波器，逆滤波器对第二人声音频中相应频段的频谱的幅度进行增强或削弱等，消除录音设备对第二人声音频的影响。如图12所示，人声音频的频谱为实线，虚线是频谱影响特征，逆滤波器将某一频段的频谱的幅度进行了削弱。

307，将第一人声音频输入到逆滤波器中，得到逆滤波器输出的第四人声音频。

在实施中，第一人声音域与指定的低频音域的重合度小于或等于指定阈值，该音频的能量主要集中的中高频段处，亮度较高，也即该音频清晰度较高，无需使用激励器对第一人声音频的亮度进行调整。因此，终端可以将第一人声音频直接输入到逆滤波器中，由逆滤波器对第二人声音频的频谱特征进行调整，以消除录音设备对第二人声音频的影响，具体处理和步骤306类似，此处不作赘述。

308，将第四人声音频输入到动态范围控制模型中，以将第四人声音频中各音频帧的响度调整至指定响度范围内，得到动态范围控制模型输出的第五人声音频。

在实施中，终端可以将多个参数和第四人声音频输入到动态范围控制模型(dynamic range control，DRC)中，多个参数可以是预设的，包括启动时间、释放时间、压缩程度参数和阈值响度等，启动时间具体可以是0.01s，释放时间具体可以是0.1s，压缩程度参数具体可以是1.5，阈值响度具体可以是-20dB。动态范围控制模型将根据输入的多个参数，确定出第四人声音频中不符合指定响度范围的音频帧，将不符合指定响度范围的音频帧的响度调整到指定响度范围内，得到第五人声音频。

这样，通过初步的消噪处理和更进一步地提高亮度、频谱均衡和响度均衡等处理，既可以提高录制的人声音频的清晰度，又可以使录制的人声音频更加悦耳。

通过本公开实施例提供的方法，音频的亮度是影响音频清晰度的主要原因之一。亮度一般是与音频的中高频谐波的能量的占比挂钩。对于较低音域的音频，说明该音频的能量主要分布在低频段处，亮度较低。本公开实施例中，将这种音频输入到激励器中，通过激励器增强该音频的中高频的谐波的幅度(也即增强该音频中高频谐波的能量)，也即可以提高音频的亮度，进一步可以提高人声音频的清晰度。

基于相同的技术构思，本公开实施例还提供了一种处理人声音频的装置，如图13所示，该装置包括：

获取模块1310，用于获取录音设备录制的第一人声音频；

确定模块1320，用于：

确定第一人声音频对应的基频序列；

基于基频序列，确定第一人声音频对应的音域；

增强模块1330，用于当音域与指定的低频音域的重合度大于指定阈值时，将第一人声音频和基频序列输入到激励器中，通过激励器增强第一人声音频中指定频率范围的中高频谐波的幅度，得到激励器输出的第二人声音频。

在一种可能的实现方式中，激励器包括梳状滤波器和高通滤波器，增强模块1330，用于：

将第一人声音频和基频序列输入到梳状滤波器中，通过梳状滤波器增强第一人声音频中谐波的幅度，得到增强谐波幅度后的第一人声音频；

将增强谐波幅度后的第一人声音频输入到高通滤波器中，将低于指定频率的谐波进行滤除，得到第二人声音频。

在一种可能的实现方式中，获取模块1310，用于：

将第三人声音频输入到噪声消除模型中，通过噪声消除模型对第三人声音频进行消噪处理，得到第一人声音频，其中，噪声消除模型包括回采噪声消除模型和背景噪声消除模型。

在一种可能的实现方式中，确定模块1320，用于：

计算基频序列中各基频的均值和方差；

当方差在指定方差阈值范围内，基于指定的第一音程和均值，确定出第一人声音频对应的音域。

在一种可能的实现方式中，确定模块1320，用于：

确定以均值为区间中心值且以指定的第一音程为区间长度的区间，作为第一人声音频对应的音域。

在一种可能的实现方式中，确定模块1320，用于：

基于基频序列中的最高基频和最低基频，确定第一人声音频对应的基频总区间；

在基频总区间中确定多个基频子区间，其中，基频子区间的长度等于第一音程；

确定出每个基频子区间中基频的数量，将数量最多的基频子区间确定为第一人声音频对应的音域。

在一种可能的实现方式中，多个基频子区间按区间中心值间隔第二音程排布，其中，第二音程小于第一音程。

在一种可能的实现方式中，装置还包括构造模块1340和调整模块1350：

获取模块1310，用于：

获取在播放指定音频时通过录音设备录制的录制音频；

基于指定音频和录制音频，确定录音设备的频谱影响特征，其中，频谱影响特征用于指示录音设备在录音过程中对录制音频的影响；

构造模块1340，用于基于频谱影响特征，构造用于消除录音设备对录制音频影响的逆滤波器；

调整模块1350，用于将第二人声音频输入到逆滤波器中，对第二人声音频的频谱特征进行调整，得到第四人声音频。

在一种可能的实现方式中，确定模块1320还用于：

当音域与指定音域的重合度小于或等于指定阈值时，将第一人声音频输入到逆滤波器中，得到逆滤波器输出的第四人声音频。

在一种可能的实现方式中，调整模块1350还用于：

将第四人声音频输入到动态范围控制模型中，以将第四人声音频中各音频帧的响度调整至指定响度范围内，得到动态范围控制模型输出的第五人声音频。

通过本公开实施例提供的装置，音频的亮度是影响音频清晰度的主要原因之一。亮度一般是与音频的中高频谐波的能量的占比挂钩。对于较低音域的音频，说明该音频的能量主要分布在低频段处，亮度较低。本公开实施例中，将这种音频输入到激励器中，通过激励器增强该音频的中高频的谐波的幅度(也即增强该音频中高频谐波的能量)，也即可以提高音频的亮度，进一步可以提高人声音频的清晰度。

需要说明的是：上述实施例提供的处理人声音频的装置在进行处理人声音频时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将终端的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的处理人声音频的装置与处理人声音频的方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

图14示出了本公开实施例提供的电子设备1400的结构框图。该电子设备可以是上述实施例中的各终端。该电子设备1400可以是便携式移动终端，比如：智能手机、平板电脑、MP3播放器(moving picture experts group audio layer III，动态影像专家压缩标准音频层面3)、MP4(moving picture experts group audio layer IV，动态影像专家压缩标准音频层面4)播放器、笔记本电脑或台式电脑。电子设备1400还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。

通常，电子设备1400包括有：处理器1401和存储器1402。

处理器1401可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器1401可以采用DSP(digital signal processing，数字信号处理)、FPGA(field－programmable gate array，现场可编程门阵列)、PLA(programmable logic array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器1401也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器1401可以集成有GPU(graphics processing unit，图像处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器1401还可以包括AI(artificial intelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器1402可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器1402还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器1402中的非暂态的计算机可读存储介质用于存储至少一个指令，该至少一个指令用于被处理器1401所执行以实现本公开实施例提供的方法。

在一些实施例中，电子设备1400还可选包括有：外围设备接口1403和至少一个外围设备。处理器1401、存储器1402和外围设备接口1403之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口1403相连。具体地，外围设备包括：射频电路1404、显示屏1405、摄像头组件1406、音频电路1407、定位组件1408和电源1409中的至少一种。

外围设备接口1403可被用于将I/O(input/output，输入/输出)相关的至少一个外围设备连接到处理器1401和存储器1402。在一些实施例中，处理器1401、存储器1402和外围设备接口1403被集成在同一芯片或电路板上；在一些其他实施例中，处理器1401、存储器1402和外围设备接口1403中的任意一个或两个可以在单独的芯片或电路板上实现，本实施例对此不加以限定。

射频电路1404用于接收和发射RF(radio frequency，射频)信号，也称电磁信号。射频电路1404通过电磁信号与通信网络以及其他通信设备进行通信。射频电路1404将电信号转换为电磁信号进行发送，或者，将接收到的电磁信号转换为电信号。可选地，射频电路1404包括：天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路1404可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于：万维网、城域网、内联网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(wireless fidelity，无线保真)网络。在一些实施例中，射频电路1404还可以包括NFC(near field communication，近距离无线通信)有关的电路，本公开对此不加以限定。

显示屏1405用于显示UI(user interface，用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏1405是触摸显示屏时，显示屏1405还具有采集在显示屏1405的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器1401进行处理。此时，显示屏1405还可以用于提供虚拟按钮和/或虚拟键盘，也称软按钮和/或软键盘。在一些实施例中，显示屏1405可以为一个，设置在电子设备1400的前面板；在另一些实施例中，显示屏1405可以为至少两个，分别设置在电子设备1400的不同表面或呈折叠设计；在另一些实施例中，显示屏1405可以是柔性显示屏，设置在电子设备1400的弯曲表面上或折叠面上。甚至，显示屏1405还可以设置成非矩形的不规则图形，也即异形屏。显示屏1405可以采用LCD(liquid crystal display，液晶显示屏)、OLED(organic light-emitting diode，有机发光二极管)等材质制备。

摄像头组件1406用于采集图像或视频。可选地，摄像头组件1406包括前置摄像头和后置摄像头。通常，前置摄像头设置在终端的前面板，后置摄像头设置在终端的背面。在一些实施例中，后置摄像头为至少两个，分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种，以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR(virtual reality，虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中，摄像头组件1406还可以包括闪光灯。闪光灯可以是单色温闪光灯，也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合，可以用于不同色温下的光线补偿。

音频电路1407可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波，并将声波转换为电信号输入至处理器1401进行处理，或者输入至射频电路1404以实现语音通信。出于立体声采集或降噪的目的，麦克风可以为多个，分别设置在电子设备1400的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器1401或射频电路1404的电信号转换为声波。扬声器可以是传统的薄膜扬声器，也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时，不仅可以将电信号转换为人类可听见的声波，也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中，音频电路1407还可以包括耳机插孔。

定位组件1408用于定位电子设备1400的当前地理位置，以实现导航或LBS(location based service，基于位置的服务)。定位组件1408可以是基于GPS(globalpositioning system，全球定位系统)、北斗系统的定位组件。

电源1409用于为电子设备1400中的各个组件进行供电。电源1409可以是交流电、直流电、一次性电池或可充电电池。当电源1409包括可充电电池时，该可充电电池可以是有线充电电池或无线充电电池。有线充电电池是通过有线线路充电的电池，无线充电电池是通过无线线圈充电的电池。该可充电电池还可以用于支持快充技术。

在一些实施例中，电子设备1400还包括有一个或多个传感器1410。该一个或多个传感器1410包括但不限于：加速度传感器1411、陀螺仪传感器1412、压力传感器1413、指纹传感器1414、光学传感器1415以及接近传感器1416。

加速度传感器1411可以检测以电子设备1400建立的坐标系的三个坐标轴上的加速度大小。比如，加速度传感器1411可以用于检测重力加速度在三个坐标轴上的分量。处理器1401可以根据加速度传感器1411采集的重力加速度信号，控制显示屏1405以横向视图或纵向视图进行用户界面的显示。加速度传感器1411还可以用于游戏或者用户的运动数据的采集。

陀螺仪传感器1412可以检测电子设备1400的机体方向及转动角度，陀螺仪传感器1412可以与加速度传感器1411协同采集用户对电子设备1400的3D动作。处理器1401根据陀螺仪传感器1412采集的数据，可以实现如下功能：动作感应(比如根据用户的倾斜操作来改变UI)、拍摄时的图像稳定、游戏控制以及惯性导航。

压力传感器1413可以设置在电子设备1400的侧边框和/或显示屏1405的下层。当压力传感器1413设置在电子设备1400的侧边框时，可以检测用户对电子设备1400的握持信号，由处理器1401根据压力传感器1413采集的握持信号进行左右手识别或快捷操作。当压力传感器1413设置在显示屏1405的下层时，由处理器1401根据用户对显示屏1405的压力操作，实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。

指纹传感器1414用于采集用户的指纹，由处理器1401根据指纹传感器1414采集到的指纹识别用户的身份，或者，由指纹传感器1414根据采集到的指纹识别用户的身份。在识别出用户的身份为可信身份时，由处理器1401授权该用户执行相关的敏感操作，该敏感操作包括解锁屏幕、查看加密信息、下载软件、支付及更改设置等。指纹传感器1414可以被设置在电子设备1400的正面、背面或侧面。当电子设备1400上设置有物理按键或厂商Logo时，指纹传感器1414可以与物理按键或厂商Logo集成在一起。

光学传感器1415用于采集环境光强度。在一个实施例中，处理器1401可以根据光学传感器1415采集的环境光强度，控制显示屏1405的显示亮度。具体地，当环境光强度较高时，调高显示屏1405的显示亮度；当环境光强度较低时，调低显示屏1405的显示亮度。在另一个实施例中，处理器1401还可以根据光学传感器1415采集的环境光强度，动态调整摄像头组件1406的拍摄参数。

接近传感器1416，也称距离传感器，通常设置在电子设备1400的前面板。接近传感器1416用于采集用户与电子设备1400的正面之间的距离。在一个实施例中，当接近传感器1416检测到用户与电子设备1400的正面之间的距离逐渐变小时，由处理器1401控制显示屏1405从亮屏状态切换为息屏状态；当接近传感器1416检测到用户与电子设备1400的正面之间的距离逐渐变大时，由处理器1401控制显示屏1405从息屏状态切换为亮屏状态。

本领域技术人员可以理解，图14中示出的结构并不构成对电子设备1400的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

在本公开实施例中，还提供了一种计算机可读存储介质，例如包括指令的存储器，上述指令可由终端中的处理器执行以完成上述实施例中执行互动操作的方法。该计算机可读存储介质可以是非暂态的。例如，所述计算机可读存储介质可以是ROM(read-onlymemory，只读存储器)、RAM(random access memory，随机存取存储器)、CD-ROM、磁带、软盘和光数据存储设备等。

需要说明的是，本公开所涉及的信息(包括但不限于用户设备信息、用户个人信息等)、数据(包括但不限于用于分析的数据、存储的数据、展示的数据等)以及信号(包括但不限于用户终端与其他设备之间传输的信号等)，均为经用户授权或者经过各方充分授权的，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本公开的部分可能的实施例，并不用以限制本公开，凡在本公开的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本公开的保护范围之内。

Claims

1.一种处理人声音频的方法，其特征在于，所述方法包括：

获取录音设备录制的第一人声音频；

确定所述第一人声音频对应的基频序列；

基于所述基频序列，确定所述第一人声音频对应的音域；

2.根据权利要求1所述的方法，其特征在于，所述激励器包括梳状滤波器和高通滤波器，所述将所述第一人声音频和所述基频序列输入到激励器中，通过所述激励器增强所述第一人声音频中指定频率范围的中高频谐波的幅度，得到所述激励器输出的第二人声音频，包括：

3.根据权利要求1所述的方法，其特征在于，所述获取录音设备录制的第一人声音频，包括：

4.根据权利要求1所述的方法，其特征在于，所述基于所述基频序列，确定所述第一人声音频对应的音域，包括：

计算所述基频序列中各基频的均值和方差；

5.根据权利要求4所述的方法，其特征在于，所述基于指定的第一音程和所述均值，确定出所述第一人声音频对应的音域，包括：

6.根据权利要求1所述的方法，其特征在于，所述基于所述基频序列，确定所述第一人声音频对应的音域，包括：

7.根据权利要求6所述的方法，其特征在于，所述多个基频子区间按区间中心值间隔第二音程排布，其中，所述第二音程小于所述第一音程。

8.根据权利要求1所述的方法，其特征在于，所述方法还包括：

获取在播放指定音频时通过所述录音设备录制的录制音频；

9.根据权利要求8所述的方法，其特征在于，所述基于所述基频序列，确定所述第一人声音频对应的音域之后，所述方法还包括：

10.根据权利要求8或9所述的方法，其特征在于，所述方法还包括：

11.一种计算机设备，其特征在于，所述计算机设备包括存储器和处理器，所述存储器用于存储计算机指令；

所述处理器执行所述存储器存储的计算机指令，以使所述计算机设备执行上述权利要求1-10中任一项所述的方法。

12.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序代码，响应于所述计算机程序代码被计算机设备执行，所述计算机设备执行上述权利要求1-10中任一项所述的方法。