CN111462764B

CN111462764B - 音频编码方法、装置、计算机可读存储介质及设备

Info

Publication number: CN111462764B
Application number: CN202010572774.7A
Authority: CN
Inventors: 梁俊斌
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Guangzhou Tencent Technology Co Ltd
Priority date: 2020-06-22
Filing date: 2020-06-22
Publication date: 2020-09-25
Anticipated expiration: 2040-06-22
Also published as: CN111462764A

Abstract

本申请公开了一种音频编码方法、装置、计算机可读存储介质及设备，属于信号处理技术领域。包括：以第一采样率进行音频信号采集；将采集到的音频信号由时域变换至频域，获取频域上每个频点的第一功率谱；获取频域上每个频点的噪声功率谱估计值和听觉感知系数；听觉感知系数与听觉响度呈正相关，听觉响度用于描述声音的响亮程度，听觉感知系数用于描述人耳对不同频点声音的听觉感知程度；根据频域上每个频点的第一功率谱、噪声功率谱估计值和听觉感知系数，确定第二采样率；根据第二采样率进行音频编码。本申请实现了基于音频信号的听觉感知特征自适应地动态确定采样率，这样确定出来的采样率与音频信号的自身特性更为适配，能够有效指导音频编码。

Description

音频编码方法、装置、计算机可读存储介质及设备

技术领域

本申请涉及信号处理技术领域，特别涉及一种音频编码方法、装置、计算机可读存储介质及设备。

背景技术

音频编码是指对原始采集到的无损音频信号进行时域和频域上的冗余分析和压缩处理，从而降低语音传输带宽和存储空间，同时保持较好的语音质量。其中，音频编码器的常规输入参数包括但不限于：采样率、通道数和编码码率等。在这些常规输入参数中，由于采样率对计算存储开销和网络传输开销有着至关重要的影响，因此选择合适的采样率来指导音频编码具有重要意义。

相关技术中，音频编码器的采样率被设置为一个固定值，而这个采样率取值主要是基于用户对语音质量的要求(高或低)、硬件设备的音频信号采集、播放及处理能力、网络带宽适配度等外部因素决定的。例如，不同硬件设备支持的最大采样率不同，比如8kHz(赫兹)、16kHz、24kHz、48kHz、96kHz等；不同音频编码器支持的采样率不同，比如窄带音频编码器G.729仅支持8KHz采样率，而silk音频编码器可以支持8kHz、12kHz、16kHz、24kHz等多种采样率。

针对上述方案，由于单纯基于外部因素来确定采样率，因此确定出来的采样率可能并不太合适。比如确定出来的采样率可能过高，而高采样率会过度消耗计算存储资源和网络带宽资源，因为采样率越高需要处理的数据量便越大。比如，48kHz采样率下需要处理的数据量要比16kHz采样率下需要处理的数据量大3倍，这会极大增加计算存储开销，同时音频编码后的码流大小也会骤增，进而大幅增加网络传输开销。基于此，时下很有必要提出一种新的采样率确定方案，以有效指导音频编码过程。

发明内容

本申请实施例提供了一种音频编码方法、装置、计算机可读存储介质及设备，实现了基于音频信号的听觉感知特征来自适应地动态确定采样率，这样确定出来的采样率与音频信号的自身特性更为适配，数值既不会过高也不会过低，能够有效指导音频编码过程。所述技术方案包括如下内容。

一方面，提供了一种音频编码方法，所述方法包括：

以第一采样率进行音频信号采集；

将采集到的音频信号由时域变换至频域，获取频域上每个频点的第一功率谱；

获取频域上每个频点的噪声功率谱估计值和听觉感知系数；其中，所述听觉感知系数与听觉响度呈正相关，所述听觉响度用于描述声音的响亮程度，所述听觉感知系数用于描述人耳对不同频点声音的听觉感知程度；

根据频域上每个频点的第一功率谱、噪声功率谱估计值和听觉感知系数，确定第二采样率；根据所述第二采样率进行音频编码。

另一方面，提供了一种音频编码装置，所述装置包括：

采集模块，被配置为以第一采样率进行音频信号采集；

第一获取模块，被配置为将采集到的音频信号由时域变换至频域，获取频域上每个频点的第一功率谱；

第二获取模块，被配置为获取频域上每个频点的噪声功率谱估计值和听觉感知系数；其中，所述听觉感知系数与听觉响度呈正相关，所述听觉响度用于描述声音的响亮程度，所述听觉感知系数用于描述人耳对不同频点声音的听觉感知程度；

确定模块，被配置为根据频域上每个频点的第一功率谱、噪声功率谱估计值和听觉感知系数，确定第二采样率；根据所述第二采样率进行音频编码。

在一种可能的实现方式中，所述确定模块，包括：

第一确定单元，被配置为根据频域上每个频点的第一功率谱和噪声功率谱估计值，确定频域上每个频点的第二功率谱；

第二确定单元，被配置为根据频域上每个频点的第二功率谱和获取到的听觉感知系数，确定频域上每个频点的听觉感知功率谱；

第三确定单元，被配置为根据频域上每个频点的听觉感知功率谱和N个候选采样率，确定所述第二采样率；其中，所述N个候选采样率小于所述第一采样率，N的取值为正整数。

在一种可能的实现方式中，所述第二获取模块，包括：

第一获取单元，被配置为对声学等响曲线数据进行线性插值，得到频域上每个频点的听觉响度；其中，声学等响曲线用于描述等响条件下声压级与声波频率之间的对应关系；根据频域上每个频点的听觉响度，确定频域上每个频点的听觉感知系数。

在一种可能的实现方式中，所述第三确定单元，包括：

第一处理子单元，被配置为对于第i个音频帧，对所述第i个音频帧中各个频点的听觉感知功率谱进行平滑处理，得到所述第i个音频帧中各个频点的听觉感知平滑功率谱；

第一获取子单元，被配置为获取在第j个候选采样率下所述第i个音频帧中各个频点的听觉感知平滑功率谱的总和；

第二获取子单元，被配置为根据获取到的听觉感知平滑功率谱的总和，获取所述第i个音频帧在所述第j个候选采样率下的感知能量损失率；

第一确定子单元，被配置为将得到的N个感知能量损失率中小于目标门限值的最低候选采样率，作为所述第二采样率；

其中，i和j的取值为正整数，0<j≤N，所述第i个音频帧为当前处理的音频帧，所述音频帧是通过对所述采集到的音频信号进行分帧处理后得到的，且i的取值不大于划分的音频帧总数。

在一种可能的实现方式中，所述第一处理子单元，被配置为：获取第i-1个音频帧中第k个频点的听觉感知平滑功率谱；其中，k的取值为正整数；根据指定平滑加权因子，对所述第i个音频帧中第k个频点的听觉感知功率谱、所述第i-1个音频帧中第k个频点的听觉感知平滑功率谱进行加权求和处理，得到所述第i个音频帧中第k个频点的听觉感知平滑功率谱。

在一种可能的实现方式中，所述第一获取模块，被配置为：对采集到的音频信号依次进行分帧处理和加窗处理；对经过分帧处理和加窗处理后的音频信号进行傅里叶变换；根据傅里叶变换结果，获取每个音频帧中各个频点的功率谱，得到频域上每个频点的第一功率谱。

在一种可能的实现方式中，所述第二获取模块包括第二获取单元；所述第二获取单元，包括：

第二处理子单元，被配置为对每个音频帧中各个频点的功率谱进行平滑处理，得到每个音频帧中各个频点的平滑功率谱，所述平滑功率谱中携带噪音信号；

第三获取子单元，被配置为获取每个音频帧中各个频点的噪声功率谱初始值；

第二确定子单元，被配置为根据每个音频帧中各个频点的平滑功率谱和噪声功率谱初始值，确定每个音频帧中各个频点的语音存在概率估计值；

第三确定子单元，被配置为根据每个音频帧中各个频点的平滑功率谱和语音存在概率估计值，确定每个音频帧中各个频点的噪声功率谱估计值。

在一种可能的实现方式中，所述第二处理子单元，被配置为：

对于第i个音频帧中第k个频点，确定所述第k个频点的相邻频点；

根据频域平滑加权因子组中分别与所述第k个频点和所述相邻频点对应的权重，对所述第k个频点的功率谱和所述相邻频点的功率谱进行加权求和处理，得到所述第i个音频帧中第k个频点的频域平滑功率谱；

获取第i-1个音频帧中第k个频点的频域平滑功率谱；

根据时域平滑加权因子，对所述第i个音频帧中第k个频点的频域平滑功率谱、所述第i-1个音频帧中第k个频点的频域平滑功率谱进行加权求和处理，得到所述第i个音频帧中第k个频点的平滑功率谱；

其中，i和k的取值均为正整数，且i的取值不大于划分的音频帧总数，k的取值不大于所述第i个音频帧中包括的总频点数。

在一种可能的实现方式中，所述第三获取子单元，被配置为：在每个噪声功率谱初始值的更新周期内，比较所述更新周期内包括的M个音频帧中第k个频点的平滑功率谱；将得到的M个平滑功率谱中最小的平滑功率谱，作为所述M个音频帧中第k个频点的噪声功率谱初始值。

在一种可能的实现方式中，所述第二确定子单元，被配置为：对于第i个音频帧中第k个频点，获取所述第i个音频帧中第k个频点的平滑功率谱与所述第i个音频帧中第k个频点的噪声功率谱初始值之间的比值；响应于所述比值大于目标阈值，将第一数值作为所述第i个音频帧中第k个频点的语音存在概率初始值；响应于所述比值小于所述目标阈值，将第二数值作为所述第i个音频帧中第k个频点的语音存在概率初始值；其中，所述第二数值小于所述第一数值；获取第i-1个音频帧中第k个频点的语音存在概率估计值；对所述第i个音频帧中第k个频点的语音存在概率初始值、所述第i-1个音频帧中第k个频点的语音存在概率估计值进行加权求和处理，得到所述第i个音频帧中第k个频点的语音存在概率估计值。

在一种可能的实现方式中，所述第三确定子单元，被配置为：对于第i个音频帧中第k个频点，获取第一数值与所述第i个音频帧中第k个频点的语音存在概率估计值之差，得到所述第i个音频帧中第k个频点的噪声存在概率；获取第i-1个音频帧中第k个频点的噪声功率谱估计值；获取所述第i个音频帧中第k个频点的语音存在概率估计值与所述第i-1个音频帧中第k个频点的噪声功率谱估计值之间的第一乘积值；获取所述第i个音频帧中第k个频点的噪声存在概率与所述第i个音频帧中第k个频点的功率谱之间的第二乘积值；将所述第一乘积值与所述第二乘积值之和，作为所述第i个音频帧中第k个频点的噪声功率谱估计值。

在一种可能的实现方式中，所述第一采样率为各个音频信号处理环节所共同支持的最高采样率；其中，所述第二采样率小于所述第一采样率。

另一方面，提供了一种计算机可读存储介质，所述存储介质中存储有至少一条指令，所述至少一条指令由处理器加载并执行以实现上述的音频编码方法。

另一方面，提供了一种电子设备，所述设备包括处理器和存储器，所述存储器中存储有至少一条指令，所述至少一条指令由所述处理器加载并执行以实现上述的音频编码方法。

另一方面，提供了一种计算机程序产品，所述计算机程序产品中的指令由电子设备的处理器执行时，使得电子设备能够执行以实现上述的音频编码方法。

本申请实施例提供的技术方案带来的有益效果是：

针对音频编码过程，本申请实施例提出了一种自适应地动态确定采样率方案。该方案实现了基于音频信号的听觉感知特征来确定采样率，即通过对音频内容本身进行分析来确定采样率，而通过该种方式确定出来的采样率与音频信号的自身特性更为适配，数值既不会过高也不会过低。换言之，本申请实施例可以实现对高频成分丰富的音频信号自适应地配置高采样率，而对高频成分较弱的音频信号自适应地配置低采样率，能够有效地指导音频编码。比如，本申请实施例可以避免不必要的高采样率所带来的计算存储开销以及网络传输开销，能够有效提升音频编码的网络传输效率以及节省网络带宽，缓解了计算存储开销，所以该种音频编码方式的效果较佳。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种音频编码方法涉及的实施环境的示意图；

图2是本申请实施例提供的一种音频编码方法涉及的实施环境的示意图；

图3是本申请实施例提供的一种音频编码方法的流程图；

图4是本申请实施例提供的一种声学等响曲线的示意图；

图5是本申请实施例提供的一种音频编码方法的流程图；

图6是本申请实施例提供的一种听觉感知系数图；

图7是本申请实施例提供的一种音频编码方法的流程图；

图8是本申请实施例提供的一种音频编码装置的结构示意图；

图9是本申请实施例提供的一种音频编码装置的结构示意图；

图10是本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

可以理解，本申请所使用的术语“第一”、“第二”等可在本文中用于描述各种概念，但除非特别说明，这些概念不受这些术语限制。这些术语仅用于将一个概念与另一个概念区分。

其中，至少一个是指一个或一个以上，例如，至少一个采样率可以是一个采样率、两个采样率、三个采样率等任意大于等于一的整数个采样率。而多个是指两个或者两个以上，例如，多个采样率可以是两个采样率、三个采样率等任意大于等于二的整数个采样率。每个是指针对各个，比如频域上的每个频点，则针对的是频域上的各个频点或者说是全部频点，比如频域上有100个频点，则频域上的每个频点即是针对这100个频点来说的，例如，计算频域上每个频点的功率谱值，即是分别计算这100个频点的功率谱值，得到100个功率谱值。

采样率也称为采样频率或采样速度，可以用于音频编码技术中，它定义了每秒从连续信号中提取并组成离散信号的采样个数，单位用Hz表示。通俗来讲，采样率是指计每秒钟采集多少个信号样本。换言之，采样率表示了每秒对原始信号采样的次数；也即，采样率是指将模拟声音波形进行数字化时，每秒钟抽取声波幅度样本的次数。

其中，高采样率对一些高频成分较丰富的音频信号具有很好的展现力，听者可以明显感知到高采样率带来的听感增益；然而对于一些高频成分较弱的音频信号，高采样率则不会带来明显的听感增益，甚至在一些存在高频噪声的外部环境下，高采样率会引入额外的高频噪声，给听者带来不适感。

而音频编码是指对原始采集到的无损音频信号进行时域和频域上的冗余分析和压缩处理，从而降低语音传输带宽和存储空间，同时保持较好的语音质量。其中，音频编码器的常规输入参数包括但不限于：采样率、通道数和编码码率等。在这些常规输入参数中，由于采样率对计算存储开销和网络传输开销有着至关重要的影响，比如采样率越高则占用带宽越多，因此选择合适的采样率来指导音频编码具有重要意义。

下面对本申请实施例提供的一种音频编码方法涉及的实施环境进行介绍。

参见图1，信号处理技术中常涉及到音频编码和音频解码过程，在通过音频编码设备101对模拟形式的原始采集到的无损音频信号进行编码处理(包括但不限于时域和频域上的冗余分析和压缩处理)后，得到压缩形式的音频数据。其中，压缩形式的音频数据通过网络传输至音频解码设备102后，经过音频解码设备102的解码处理后，完成对数据的还原。

示例性地，图1中音频解码设备102输出的音频数据为数字形式。而采集到的模拟形式的原始无损音频信号通常会通过音频编码设备101依次进行采样、量化、脉冲编码调制以及压缩编码等处理后方可得到压缩形式的音频数据。而音频解码设备102输出的音频数据通常还需再经过数模转换等处理后，方能被人耳听见。其中，本申请实施例提供的音频编码方法应用于音频编码设备101，该音频编码设备101为计算机设备。

在一种可能的实现方式中，本申请实施例提供的音频编码方法可能的应用场景包括但不限于：视频直播、远程音视频会议、音视频通话、音频广播等。

示例性地，参见图2，以视频直播场景为例，则上述音频编码设备101通常为主播用户的终端201，而上述音频解码设备102通常为观众用户的终端202。另外，上述终端201和终端202上可以安装并运行有客户端，该客户端可以用于登录主播用户的账号或者观众用户的账号，若该客户端登录有主播用户的账号，则上述终端201可以用于对直播过程中实时采集到的音频数据进行编码，然后将编码后的音频数据上传至服务器203；若该客户端登录有观众用户的账号，则上述终端202可以用于从服务器203获取音频数据，然后解码获取到的音频数据并播放。

作为一个示例，上述服务器203可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content DeliveryNetwork，内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器。上述终端201和终端202可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等，但并不局限于此。上述终端201和终端202可以与服务器203通过有线或无线通信方式进行直接或间接地连接，本申请在此不做限制。

图3是本申请实施例提供的一种音频编码方法的流程图。其中，在音频编码过程中，本申请实施例通过一系列的频域分析和判决后得到适合的采样率来指导音频编码。即，本申请实施例提出了一种基于音频内容感知分析(也称心理听觉感知的频域分析)的自适应调整音频编码的采样率的方法，该方法的执行主体为图1中的音频编码设备101，参见图3，本申请实施例提供的方法流程包括以下步骤。

301、音频编码设备以第一采样率进行音频信号采集。

作为一个示例，第一采样率可以为各个音频信号处理环节所共同支持的最高采样率。即，本步骤由音频编码侧的音频采集装置以最高采样率进行录音。其中，该音频采集装置通常为麦克风。

示例性地，上述各个音频信号处理环节包括但不限于：音频采集环节、音频编码环节、音频解码环节、音频播放环节等。换言之，这里的最高采样率是指上述各个语音处理环节所共同支持的最大采样率。

作为另一个示例，第一采样率也可以为一个数值较低的采样率。

即，本申请实施例可以实现通过对音频内容自身进行分析来自适应地动态调整采样率。需要注意的是，这里提及的调整采样率包括但不限于：将初始的一个较低采样率调整为与音频信号的自身特性更适配的较高采样率；或者，将初始的一个较高采样率调整为与音频信号的自身特性更适配的较低采样率；本申请实施例对此不进行具体限定。

本申请实施例仅是以将采样率由高调低为例进行举例说明。

302、音频编码设备将采集到的音频信号由时域变换至频域，并获取频域上每个频点的第一功率谱。

本步骤首先进行时域到频域的转换，即对采集到的音频信号进行傅立叶变换；之后，再进行功率谱计算得到频域上各个频点的功率谱值。

其中，该功率谱值在本申请实施例中被称之为第一功率谱，该功率谱值用于后续的心理听觉感知的频域分析。

303、音频编码设备获取频域上每个频点的噪声功率谱估计值。

本步骤即是通过噪声跟踪方式得到频域上每个频点的噪声功率谱估计值，目的是为了后续在进行心理听觉感知的频域分析时能够去除噪声影响。

304、音频编码设备获取频域上每个频点的听觉感知系数；其中，该听觉感知系数与听觉响度呈正相关，该听觉响度用于描述声音的响亮程度，该听觉感知系数用于描述人耳对不同频点声音的听觉感知程度。

其中，心理听觉感知主要的依据是听觉响度。其中，听觉响度也简称为响度，是用于表示声音听起来有多响的程度。换言之，声音的强弱叫做响度。响度用于描述声音的响亮程度，表示人耳对声音的主观感受。而响度随声音的强度而变化，但也受频率的影响，即相同强度、不同频率的声音对于人耳有着不一样的听觉感知。示例性地，图4示出了国际声学标准组织测定的声学等响曲线图。该声学等响曲线图用于描述等响条件下声压级与声波频率之间的对应关系，即描述等响条件下声压级与声波频率之间关系的曲线称为等响曲线，是重要的听觉特征之一。即，在不同频率下的纯音需要达到何种声压级，才能获得对人耳来说一致的听觉响度。

下面通过举例来说明等响曲线的含义。

基于前面描述可知，等响曲线是将响度水平相同的各频率的纯音的声压级连成的曲线，如图4所示，该声学等响曲线图中的横坐标为各纯音的频率，纵坐标为达到各响度水平所需的声压级。其中，对于图4中的任意一条等响曲线，在中低频(1kHz以下)范围内频率越低，获得等响需要的声压级(能量)越大，换言之，即需要更大的声音能量才能让人耳有相同的听觉感受。而针对中高频(1kHz以上)来说，不同频段则有着不同的声学听觉感知特征。

其中，该听觉感知系数与听觉响度呈正相关，即该听觉感知系数用于描述人耳对不同频点声音的听觉感知程度。换一种表达方式，频域上每个频点的听觉感知系数用于描述人耳对各频点声音的敏感程度。

305、音频编码设备根据频域上每个频点的第一功率谱、噪声功率谱估计值和听觉感知系数确定第二采样率，并根据第二采样率进行音频编码。

示例性地，若第一采样率为各个音频信号处理环节所共同支持的最高采样率，则确定出来的第二采样率小于第一采样率。

在一种可能的实现方式中，如图5所示，根据频域上每个频点的第一功率谱、噪声功率谱估计值和听觉感知系数，确定第二采样率，包括但不限于如下两个步骤。

3051、通过心理听觉感知的频域分析，得到频域上每个频点的听觉感知能量值。作为一个示例，详细过程如下：首先，根据频域上每个频点的第一功率谱和相应的噪声功率谱估计值，确定频域上每个频点的第二功率谱；该步骤即是用于去除噪声影响；之后，根据频域上每个频点的第二功率谱和获取到的听觉感知系数，确定频域上每个频点的听觉感知功率谱。其中，该听觉感知功率谱在本申请实施例中也被称之为听觉感知能量值。

3052、音频编码设备的采样率判决。

作为一个示例，详细过程如下：根据频域上每个频点的听觉感知功率谱和N个候选采样率，确定第二采样率。在一种可能的实现方式中，假设第一采样率为各个音频信号处理环节所共同支持的最高采样率，则N个候选采样率小于第一采样率，N的取值为正整数。示例性地，本步骤即是通过频域上各个频点的听觉感知能量值，来判断不同候选采样率下的感知能量损失率，最终将感知能量损失率小于目标门限值的最低采样率，作为最适合的采样率来指导音频编码。

本申请实施例至少具有以下有益效果：

在另一个实施例中，上述步骤302“将采集到的音频信号由时域变换至频域，并获取频域上每个频点的第一功率谱”，包括但不限于如下步骤。

3021、对采集到的音频信号依次进行分帧处理和加窗处理。

音频信号在宏观上是不平稳的，而在微观上却是平稳的，即音频信号具有短时平稳性(比如10ms至30ms内可以认为音频信号近似不变)。基于这个特性可以将音频信号分为一些短段进行处理，其中，每一个短段便可称为一帧(CHUNK)，即音频帧。作为一个示例，一个音频帧的播放时长可以为23.32ms、46.64ms或128ms等，本申请实施例对此不进行具体限定。

需要说明的是，如果后续还需要进行加窗处理，则在对采集到的音频信号进行分帧处理时，为了确保相邻音频帧之间的过渡平滑性和连续性，还需保证帧与帧之间存在重叠，其中，相邻两帧之间的重叠部分称为帧移(STRIDE)。

作为一个示例，在对采集到的音频信号进行加窗处理时，可以使用10ms或20ms的分析窗，其中，窗函数可以选用汉宁窗或汉明窗，本申请实施例对此不进行具体限定。即，在进行加窗后会形成多个分析窗，每次可以仅对一个分析窗内的音频信号进行处理。

3022、对经过分帧处理和加窗处理后的音频信号进行傅里叶变换；根据傅里叶变换结果，获取每个音频帧中各个频点的功率谱，得到频域上每个频点的第一功率谱。

作为一个示例，可以对经过分帧加窗处理后的音频信号进行FFT(Fast FourierTransform，快速傅里叶变换)，本申请实施例对此不进行具体限定。即，可以先通过FFT将音频帧由时域变换至频域，得到傅里叶变换结果，即相应的频谱图。之后，可以根据该频谱图中各个频点对应的振幅，来计算该音频帧中各个频点的功率谱。

示例性地，每个频点可以对应一个频率值或者一段频带。例如，一个音频帧中可以包括频点0，1，2，……，K-1共K个频点，其中，K为正整数，指代总频点数。而频点0可以对应频率值为100Hz的频率，本申请实施例对此不进行具体限定，此处仅是给出一个示例说明。另外，音频帧中频点的数量和各个频点对应的频率值或频带可以根据实际需要来设置。例如，在人耳较敏感的频段可以选取较多频点。

在本申请实施例中，第i个音频帧中各个频点的功率谱可以表示为S(i，k)其中，k＝0至K-1，K为总频点数。

本申请实施例通过频域变换和功率谱计算为后续进行心理听觉感知的频域分析提供了基础。

在另一个实施例中，在进行噪声跟踪时，本申请实施例可以采用MCRA(MinimaControlled Recursive Averaging，最小值控制的递归平均)方法，其中，MCRA方法可以分为以下几个步骤，即上述步骤303中“获取频域上每个频点的噪声功率谱估计值”也称为噪声跟踪，包括但不限于如下步骤。

3031、对每个音频帧中各个频点的功率谱进行平滑处理，得到每个音频帧中各个频点的平滑功率谱，其中，该平滑功率谱中携带噪音信号。

在一种可能的实现方式中，该处的平滑处理可以包括相邻频点的频域平滑处理和历史帧的时域平滑处理。

作为一个示例，相邻频点的频域平滑处理可以包括如下步骤。

3031-1、对于第i个音频帧中第k个频点，确定第k个频点的相邻频点。

其中，i和k的取值均为正整数，且i的取值不大于划分的音频帧总数，k的取值不大于第i个音频帧中包括的总频点数。

3031-2、根据频域平滑加权因子组中分别与第k个频点和相邻频点对应的权重，对第k个频点的功率谱和相邻频点的功率谱进行加权求和处理，得到第i个音频帧中第k个频点的频域平滑功率谱。

其中，上述频域平滑处理过程可以表示为如下计算公式：

其中，

表示第i个音频帧中第k个频点的频域平滑功率谱；2w指代相邻频点的数量，x(j+w)指代频域平滑加权因子组，比如，该频域平滑加权因子组可以为x[5]＝[0.1，0.2，0.4，0.2，0.1]，S(i，k+j)指代相邻频点的功率谱，即第i个音频帧中第k+j个频点的功率谱。

作为一个示例，历史帧的时域平滑处理可以包括如下步骤。

3031-3、获取第i-1个音频帧中第k个频点的频域平滑功率谱。

3031-4、根据时域平滑加权因子，对第i个音频帧中第k个频点的频域平滑功率谱、第i-1个音频帧中第k个频点的频域平滑功率谱进行加权求和处理，得到第i个音频帧中第k个频点的平滑功率谱。

其中，上述时域平滑处理过程可以表示为如下计算公式：

其中，

指代第i个音频帧中第k个频点的平滑功率谱；

指代第i-1个音频帧中第k个频点的频域平滑功率谱；c₀指代时域平滑加权因子，例如的取值可以为0.9，本申请实施例对此不进行具体限定。

3032、获取每个音频帧中各个频点的噪声功率谱初始值。

作为一个示例，可以采用最小值跟踪法获取带噪语音的最小功率谱值，将该最小功率谱值作为该音频帧中包括噪声的噪声功率谱初始值。

其中，该最小值跟踪法可以用文字描述为：在每个噪声功率谱初始值的更新周期内，比较更新周期内包括的M个音频帧中第k个频点的平滑功率谱；将得到的M个平滑功率谱中最小的平滑功率谱，作为M个音频帧中第k个频点的噪声功率谱初始值。其中，M的取值为正整数。

在一种可能的实现方式中，最小值跟踪法的代码逻辑可以包括如下伪代码。

mod(i，T)＝＝0

else

其中，T为正数，代表噪声功率谱初始值的更新周期，它决定了局部最小值的搜索范围；mod(i，T)为取余运算；S_min(i，k)指代第i个音频帧中第k个频点的噪声功率谱初始值，即局部最小值；S_tmp(i，k)指代临时变量。上述代码逻辑的含义是：在每个更新周期内，通过比较该更新周期内各个音频帧中相同频点平滑后的带噪功率谱，来搜索该相同频点的最小值，作为噪声功率谱初始值。另外，还定义了一个临时变量S_tmp(i，k)，以避免S_min(i，k)滞后于全局最小值。其中，在每个更新周期内，会将S_min(i，k)和S_tmp(i，k)分别更新为：

3033、根据每个音频帧中各个频点的平滑功率谱和噪声功率谱初始值，确定每个音频帧中各个频点的语音存在概率估计值。

本步骤用于区分语音和非语音。在一种可能的实现方式中，根据每个音频帧中各个频点的平滑功率谱和噪声功率谱初始值，确定每个音频帧中各个频点对应的语音存在概率估计值，包括但不限于如下步骤。

3033-1、对于第i个音频帧中第k个频点，获取第i个音频帧中第k个频点的平滑功率谱与第i个音频帧中第k个频点的噪声功率谱初始值之间的比值。

该步骤可以表述为下述计算公式：

其中，S_r(i，k)指代第i个音频帧中第k个频点对应的比值，该比值为功率比值；

第i个音频帧中第k个频点的平滑功率谱与；S_min(i，k)第i个音频帧中第k个频点的噪声功率谱初始值。

3033-2、响应于该比值大于目标阈值，将第一数值作为第i个音频帧中第k个频点的语音存在概率初始值。

3033-3、响应于该比值小于目标阈值，将第二数值作为第i个音频帧中第k个频点的语音存在概率初始值；其中，第二数值小于第一数值。

该步骤可以表述为下述计算公式：

其中，p(i，k)指代第i个音频帧中第k个频点的语音存在概率初始值；第一数值为1，第二数值为0，δ指代目标阈值。

3033-4、获取第i-1个音频帧中第k个频点的语音存在概率估计值。

3033-5、对第i个音频帧中第k个频点的语音存在概率初始值、第i-1个音频帧中第k个频点的语音存在概率估计值进行加权求和处理，得到第i个音频帧中第k个频点的语音存在概率估计值。

该步骤可以表述为下述计算公式：

其中，

指代第i个音频帧中第k个频点的语音存在概率估计值；

指代第i-1个音频帧中第k个频点的语音存在概率估计值；p(i，k)指代第i个音频帧中第k个频点的语音存在概率初始值；α_p指代权重值，其取值在0至1之间。

基于以上描述可知，本申请实施例通过将得到的功率比值与目标阈值进行比较来判断是否存在语音；其中，大于目标阈值确定是语音，小于目标阈值确定是非语音；该种判断方式可以避免误判情况产生。

3034、根据每个音频帧中各个频点的平滑功率谱和语音存在概率估计值，确定每个音频帧中各个频点的噪声功率谱估计值。

在一种可能的实现方式中，根据每个音频帧中各个频点的平滑功率谱和语音存在概率估计值，确定每个音频帧中各个频点的噪声功率谱估计值，包括但不限于如下步骤。

3034-1、对于第i个音频帧中第k个频点，获取第一数值与第i个音频帧中第k个频点的语音存在概率估计值之差，得到第i个音频帧中第k个频点的噪声存在概率。

3034-2、获取第i-1个音频帧中第k个频点的噪声功率谱估计值。

3034-3、获取第i个音频帧中第k个频点的语音存在概率估计值与第i-1个音频帧中第k个频点的噪声功率谱估计值之间的第一乘积值。

3034-4、获取第i个音频帧中第k个频点的噪声存在概率与第i个音频帧中第k个频点的功率谱之间的第二乘积值。

3034-5、将第一乘积值与第二乘积值之和，作为第i个音频帧中第k个频点的噪声功率谱估计值。

该步骤可以表述为下述计算公式：

其中，

指代第i个音频帧中第k个频点的噪声功率谱估计值；

指代第i-1个音频帧中第k个频点的噪声功率谱估计值；S(i，k)指代第i个音频帧中第k个频点的功率谱；

指代第i个音频帧中第k个频点的噪声存在概率；

指代第i个音频帧中第k个频点的语音存在概率估计值。

本申请实施例通过以上实施方式得到了精确的语音存在概率估计值，进而再结合相邻音频帧中每个频点的噪声功率谱估计值和精确的语音存在概率估计值，来确定当前音频帧中每个频点的噪声功率谱估计值，由于充分考虑到声音在时间上的连续性，因此大大提高了噪声估计的准确性，这为后续进行心理听觉感知的频域分析时去除噪声影响提供了保障。

在另一个实施例中，心理听觉感知的频域分析包括上述步骤304和步骤3051，能够分析出语音成分中的高频感知占比。

针对上述步骤3051，包括：从带噪音频信号的功率谱中剔除噪声功率谱估计值的过程，以及感知加权处理过程。

其中，剔除噪声功率谱估计值，即是根据频域上每个频点的第一功率谱和相应的噪声功率谱估计值，确定频域上每个频点的第二功率谱；以第i个音频帧中第k个频点为例，则剔除噪声功率谱估计值的过程可以表述为下述计算公式：

其中，P(i，k)指代第i个音频帧中第k个频点的第二功率谱，即去除噪声后的功率谱；S(i，k)指代第i个音频帧中第k个频点的第一功率谱，即带噪的功率谱；

指代第i个音频帧中第k个频点的噪声功率谱估计值。

针对感知加权过程，即是根据频域上每个频点的第二功率谱和获取到的听觉感知系数，确定频域上每个频点的听觉感知功率谱，即听觉感知能量值。以第i个音频帧中第k个频点为例，则感知加权过程可以表述为下述计算公式：

P_psy(i，k)＝P(i，k)*cof(k)

其中，P_psy(i，k)指代第i个音频帧中第k个频点的听觉感知功率谱，cof(k)指代第i个音频帧中第k个频点对应的听觉感知系数。

在一种可能的实现方式中，听觉感知系数可以参考声学等响曲线图来确定。示例性地，听觉感知系数可以基于BS3383标准(BS 3383Specification for normal equal-loudness level contours for pure tones under free-field listening conditions，自由场纯音正交等响度线规范)的声学等响曲线数据计算得到。

其中，下述公式用于计算响度值，公式来源于BS3383的第四章。示例性地，该响度计算是采用线性插值法对声学等响曲线数据进行插值，从而得到各个频点的响度值。

afy＝af(j-1)+(freq-ff(j-1))*(af(j)-af(j-1))/(ff(j)-ff(j-1))

bfy＝bf(j-1)+(freq-ff(j-1))*(bf(j)-bf(j-1))/(ff(j)-ff(j-1))

cfy＝cf(j-1)+(freq-ff(j-1))*(cf(j)-cf(j-1))/(ff(j)-ff(j-1))

loud＝4.2+afy*(dB-cfy)/(1+bfy*(dB-cfy))

其中，freq为需要计算听觉感知系数的频点对应的频率值；j为等响曲线数据表中的频率序号值(即频点值)，其中，该等响曲线数据表中每个频率序号值对应一个频率值；freq不大于该等响曲线数据表中频率序号值j对应的频率值，且不小于频率序号值j-1对应的频率值；ff、af、bf、cf均为BS3383公开的该等响曲线数据表内的数据；loud指代需要计算听觉感知系数的频点的响度。

其中，cof(freq)＝(10^loud/20)/1000，cof(freq)指代需要计算听觉感知系数的频点对应的听觉感知系数。其中，图6示出了听觉感知系数图。该图6给出了频点的频率值与听觉感知系数之间的对应关系。

基于以上描述可知，获取频域上每个频点的噪声功率谱估计值和听觉感知系数，包括如下步骤：采用线性插值法对声学等响曲线数据进行插值，得到频域上每个频点的听觉响度；根据频域上每个频点的听觉响度，确定频域上每个频点的听觉感知系数；其中，听觉感知系数的大小与听觉响度成正比。

在本申请实施例中，心理听觉感知的频域分析过程得到了频域上各个频点的听觉感知能量值，而该听觉感知能量值能够反映人耳的听觉感知特征，这为自适应地进行采样率计算提供了保证，能够确保最终确定的采样率的准确度。

在另一个实施例中，采样率判决是基于各个频点的听觉感知能量值，来判断不同候选采样率下的感知能量损失率；而最终选取的采样率是候选采样率中听觉感知能量损失率小于目标门限值的最低采样率。

其中，在判决最终的采样率之前还需要列举出所有可选的采样率，而候选采样率小于第一采样率，即候选采样率应该是在“最高采样率”的取值以下的采样率，且这些候选采样率还应该是各个音频信号处理环节所共同支持的采样率。示例性地，假设候选采样率有N个，N的取值为5，按照采样率从小到大排序分别为f1、f2、f3、f4和f5，则需要计算各个候选采样率下频点的感知能量损失率。

相应地，参见图7，上述步骤3052“根据频域上每个频点的听觉感知功率谱和N个候选采样率，确定第二采样率”，包括但不限于如下步骤。

3052-1、对于第i个音频帧，对第i个音频帧中各个频点的听觉感知功率谱进行平滑处理，得到第i个音频帧中各个频点的听觉感知平滑功率谱。

其中，i的取值为正整数，第i个音频帧为当前处理的音频帧，其中，音频帧是通过对采集到的音频信号进行分帧处理后得到的，且i的取值不大于划分的音频帧总数。

在一种可能的实现方式中，步骤3052-1包括但不限于如下步骤。

步骤a、获取第i-1个音频帧中第k个频点的听觉感知平滑功率谱；其中，k的取值为正整数。

步骤b、根据指定平滑加权因子，对第i个音频帧中第k个频点的听觉感知功率谱、第i-1个音频帧中第k个频点的听觉感知平滑功率谱进行加权求和处理，得到第i个音频帧中第k个频点的听觉感知平滑功率谱。

示例性地，可以对各个频点的听觉感知功率谱进行长时平滑处理，用计算公式可以表示为：

P′_psy(i，k)＝α*P′_psy(i-1，k)+(1-α)*P_psy(i，k)

其中，P′_psy(i，k)指代第i个音频帧中第k个频点的听觉感知平滑功率谱；P′_psy(i-1，k)指代第i-1个音频帧中第k个频点的听觉感知平滑功率谱；P_psy(i，k)指代第i个音频帧中第k个频点的听觉感知功率谱；α指代指定平滑加权因子，取值为小于1的正数。

3052-2、获取在第j个候选采样率下第i个音频帧中各个频点的听觉感知平滑功率谱的总和。

其中，j的取值为正整数，0<j≤N。该步骤对应的计算公式为：

其中，EP(i，j)指代在第j个候选采样率下第i个音频帧中各个频点的听觉感知平滑功率谱的总和；这里j的取值为1～5，K_j为第j个采样率下的最大频点序号。

3052-3、根据获取到的听觉感知平滑功率谱的总和，获取第i个音频帧在第j个候选采样率下的感知能量损失率。

作为一个示例，在计算感知能量损失率时，是以最大候选采样率下的听觉感知平滑功率谱的总和为计算基准的，假设候选采样率有5个，且最大的候选采样率为f5，那么即是以在f5下的听觉感知平滑功率谱的总和为计算基准。

示例性地，本步骤对应的计算公式可以为：

其中，EP(i，j)指代在第j个候选采样率下第i个音频帧中各个频点的听觉感知平滑功率谱的总和；EP(i，N)指代在第N个候选采样率下第i个音频帧中各个频点的听觉感知平滑功率谱的总和；loss(i，j)指代第i个音频帧在第j个候选采样率下的感知能量损失率。需要说明的是，第N个候选采样率指代N个候选采样率中数值最大的采样率。

3052-4、将得到的N个感知能量损失率中小于目标门限值的最低候选采样率，作为第二采样率。

作为一个示例，确定最适合的采样率的代码逻辑可以为：

其中，c指代目标门限值，若第j个采样率的感知能量损失率大于该目标门限值，则说明第j个采样率下的感知能量损失率超过所需，所以继续判断第j+1个采样率是否满足所需。最终将小于目标门限值的最低候选采样率作为第二采样率，即将该小于目标门限值的最低候选采样率作为最适合的采样率来指导音频编码。

通过上述采样率判决方式，本申请实施例能够确定出最适合的采样率来指导音频编码过程。

图8是本申请实施例提供的一种音频编码装置的结构示意图。参见图8，该装置包括：

采集模块801，被配置为以第一采样率进行音频信号采集；

第一获取模块802，被配置为将采集到的音频信号由时域变换至频域，获取频域上每个频点的第一功率谱；

第二获取模块803，被配置为获取频域上每个频点的噪声功率谱估计值和听觉感知系数；其中，所述听觉感知系数与听觉响度呈正相关，所述听觉响度用于描述声音的响亮程度，所述听觉感知系数用于描述人耳对不同频点声音的听觉感知程度；

确定模块804，被配置为根据频域上每个频点的第一功率谱、噪声功率谱估计值和听觉感知系数，确定第二采样率；根据所述第二采样率进行音频编码。

本申请实施例提供的装置，针对音频编码过程，提出了一种自适应地动态确定采样率方案。该方案实现了基于音频信号的听觉感知特征来确定采样率，即通过对音频内容本身进行分析来确定采样率，而通过该种方式确定出来的采样率与音频信号的自身特性更为适配，数值既不会过高也不会过低。换言之，本申请实施例可以实现对高频成分丰富的音频信号自适应地配置高采样率，而对高频成分较弱的音频信号自适应地配置低采样率，能够有效地指导音频编码。比如，本申请实施例可以避免不必要的高采样率所带来的计算存储开销以及网络传输开销，能够有效提升音频编码的网络传输效率以及节省网络带宽，缓解了计算存储开销，所以该种音频编码方式的效果较佳。

在一种可能的实现方式中，参见图9，确定模块804，包括：

第一确定单元8041，被配置为根据频域上每个频点的第一功率谱和噪声功率谱估计值，确定频域上每个频点的第二功率谱；

第二确定单元8042，被配置为根据频域上每个频点的第二功率谱和获取到的听觉感知系数，确定频域上每个频点的听觉感知功率谱；

第三确定单元8043，被配置为根据频域上每个频点的听觉感知功率谱和N个候选采样率，确定所述第二采样率；其中，N的取值为正整数。

在一种可能的实现方式中，第二获取模块803，包括：

第一获取单元8031，被配置为对声学等响曲线数据进行线性插值，得到频域上每个频点的听觉响度；其中，声学等响曲线用于描述等响条件下声压级与声波频率之间的对应关系；根据频域上每个频点的听觉响度，确定频域上每个频点的听觉感知系数；其中，所述听觉感知系数的大小与所述听觉响度成正比。

在一种可能的实现方式中，第三确定单元8043，包括：

第一处理子单元8043-1，被配置为对于第i个音频帧，对所述第i个音频帧中各个频点的听觉感知功率谱进行平滑处理，得到所述第i个音频帧中各个频点的听觉感知平滑功率谱；

第一获取子单元8043-2，被配置为获取在第j个候选采样率下所述第i个音频帧中各个频点的听觉感知平滑功率谱的总和；

第二获取子单元8043-3，被配置为根据获取到的听觉感知平滑功率谱的总和，获取所述第i个音频帧在所述第j个候选采样率下的感知能量损失率；

第一确定子单元8043-4，被配置为将得到的N个感知能量损失率中小于目标门限值的最低候选采样率，作为所述第二采样率；

在一种可能的实现方式中，第一处理子单元8043-1，被配置为：获取第i-1个音频帧中第k个频点的听觉感知平滑功率谱；其中，k的取值为正整数；根据指定平滑加权因子，对所述第i个音频帧中第k个频点的听觉感知功率谱、所述第i-1个音频帧中第k个频点的听觉感知平滑功率谱进行加权求和处理，得到所述第i个音频帧中第k个频点的听觉感知平滑功率谱。

在一种可能的实现方式中，第一获取模块802，被配置为：对采集到的音频信号依次进行分帧处理和加窗处理；对经过分帧处理和加窗处理后的音频信号进行傅里叶变换；根据傅里叶变换结果，获取每个音频帧中各个频点的功率谱，得到频域上每个频点的第一功率谱。

在一种可能的实现方式中，第二获取模块803包括第二获取单元8032；第二获取单元8032，包括：

第二处理子单元8032-1，被配置为对每个音频帧中各个频点的功率谱进行平滑处理，得到每个音频帧中各个频点的平滑功率谱，所述平滑功率谱中携带噪音信号；

第三获取子单元8032-2，被配置为获取每个音频帧中各个频点的噪声功率谱初始值；

第二确定子单元8032-3，被配置为根据每个音频帧中各个频点的平滑功率谱和噪声功率谱初始值，确定每个音频帧中各个频点的语音存在概率估计值；

第三确定子单元8032-4，被配置为根据每个音频帧中各个频点的平滑功率谱和语音存在概率估计值，确定每个音频帧中各个频点的噪声功率谱估计值。

在一种可能的实现方式中，第二处理子单元8032-1，被配置为：

获取第i-1个音频帧中第k个频点的频域平滑功率谱；

在一种可能的实现方式中，第三获取子单元8032-2，被配置为：在每个噪声功率谱初始值的更新周期内，比较所述更新周期内包括的M个音频帧中第k个频点的平滑功率谱；将得到的M个平滑功率谱中最小的平滑功率谱，作为所述M个音频帧中第k个频点的噪声功率谱初始值。

在一种可能的实现方式中，第二确定子单元8032-3，被配置为：对于第i个音频帧中第k个频点，获取所述第i个音频帧中第k个频点的平滑功率谱与所述第i个音频帧中第k个频点的噪声功率谱初始值之间的比值；响应于所述比值大于目标阈值，将第一数值作为所述第i个音频帧中第k个频点的语音存在概率初始值；响应于所述比值小于所述目标阈值，将第二数值作为所述第i个音频帧中第k个频点的语音存在概率初始值；其中，所述第二数值小于所述第一数值；获取第i-1个音频帧中第k个频点的语音存在概率估计值；对所述第i个音频帧中第k个频点的语音存在概率初始值、所述第i-1个音频帧中第k个频点的语音存在概率估计值进行加权求和处理，得到所述第i个音频帧中第k个频点的语音存在概率估计值。

在一种可能的实现方式中，第三确定子单元8032-4，被配置为：对于第i个音频帧中第k个频点，获取第一数值与所述第i个音频帧中第k个频点的语音存在概率估计值之差，得到所述第i个音频帧中第k个频点的噪声存在概率；获取第i-1个音频帧中第k个频点的噪声功率谱估计值；获取所述第i个音频帧中第k个频点的语音存在概率估计值与所述第i-1个音频帧中第k个频点的噪声功率谱估计值之间的第一乘积值；获取所述第i个音频帧中第k个频点的噪声存在概率与所述第i个音频帧中第k个频点的功率谱之间的第二乘积值；将所述第一乘积值与所述第二乘积值之和，作为所述第i个音频帧中第k个频点的噪声功率谱估计值。

上述所有可选技术方案，可以采用任意结合形成本公开的可选实施例，在此不再一一赘述。

需要说明的是：上述实施例提供的音频编码装置在进行音频编码时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的音频编码装置与音频编码方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

图10示出了本申请一个示例性实施例提供的电子设备1000的结构框图。该电子设备1000可以是便携式移动终端，比如：智能手机、平板电脑、MP3播放器(Moving PictureExperts Group Audio Layer III，动态影像专家压缩标准语音层面3)、MP4(MovingPicture Experts Group Audio Layer IV，动态影像专家压缩标准语音层面4)播放器、笔记本电脑或台式电脑。电子设备1000还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。

通常，电子设备1000包括有：处理器1001和存储器1002。

处理器1001可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器1001可以采用DSP(Digital Signal Processing，数字信号处理)、FPGA(Field－Programmable Gate Array，现场可编程门阵列)、PLA(Programmable Logic Array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器1001也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(Central ProcessingUnit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器1001可以集成有GPU(Graphics Processing Unit，图像处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器1001还可以包括AI(Artificial Intelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器1002可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器1002还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器1002中的非暂态的计算机可读存储介质用于存储至少一个指令，该至少一个指令用于被处理器1001所执行以实现本申请中方法实施例提供的音频编码方法。

在一些实施例中，电子设备1000还可选包括有：外围设备接口1003和至少一个外围设备。处理器1001、存储器1002和外围设备接口1003之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口1003相连。具体地，外围设备包括：射频电路1004、显示屏1005、摄像头组件1006、音频电路1007、定位组件1008和电源1009中的至少一种。

外围设备接口1003可被用于将I/O(Input/Output，输入/输出)相关的至少一个外围设备连接到处理器1001和存储器1002。在一些实施例中，处理器1001、存储器1002和外围设备接口1003被集成在同一芯片或电路板上；在一些其他实施例中，处理器1001、存储器1002和外围设备接口1003中的任意一个或两个可以在单独的芯片或电路板上实现，本实施例对此不加以限定。

射频电路1004用于接收和发射RF(Radio Frequency，射频)信号，也称电磁信号。射频电路1004通过电磁信号与通信网络以及其他通信设备进行通信。射频电路1004将电信号转换为电磁信号进行发送，或者，将接收到的电磁信号转换为电信号。可选地，射频电路1004包括：天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路1004可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于：万维网、城域网、内联网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(Wireless Fidelity，无线保真)网络。在一些实施例中，射频电路1004还可以包括NFC(Near Field Communication，近距离无线通信)有关的电路，本申请对此不加以限定。

显示屏1005用于显示UI(User Interface，用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏1005是触摸显示屏时，显示屏1005还具有采集在显示屏1005的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器1001进行处理。此时，显示屏1005还可以用于提供虚拟按钮和/或虚拟键盘，也称软按钮和/或软键盘。在一些实施例中，显示屏1005可以为一个，设置在电子设备1000的前面板；在另一些实施例中，显示屏1005可以为至少两个，分别设置在电子设备1000的不同表面或呈折叠设计；在另一些实施例中，显示屏1005可以是柔性显示屏，设置在电子设备1000的弯曲表面上或折叠面上。甚至，显示屏1005还可以设置成非矩形的不规则图形，也即异形屏。显示屏1005可以采用LCD(Liquid Crystal Display，液晶显示屏)、OLED(Organic Light-Emitting Diode,有机发光二极管)等材质制备。

摄像头组件1006用于采集图像或视频。可选地，摄像头组件1006包括前置摄像头和后置摄像头。通常，前置摄像头设置在终端的前面板，后置摄像头设置在终端的背面。在一些实施例中，后置摄像头为至少两个，分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种，以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality，虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中，摄像头组件1006还可以包括闪光灯。闪光灯可以是单色温闪光灯，也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合，可以用于不同色温下的光线补偿。

音频电路1007可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波，并将声波转换为电信号输入至处理器1001进行处理，或者输入至射频电路1004以实现语音通信。出于立体声采集或降噪的目的，麦克风可以为多个，分别设置在电子设备1000的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器1001或射频电路1004的电信号转换为声波。扬声器可以是传统的薄膜扬声器，也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时，不仅可以将电信号转换为人类可听见的声波，也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中，音频电路1007还可以包括耳机插孔。

定位组件1008用于定位电子设备1000的当前地理位置，以实现导航或LBS(Location Based Service，基于位置的服务)。定位组件1008可以是基于美国的GPS(Global Positioning System，全球定位系统)、中国的北斗系统或俄罗斯的伽利略系统的定位组件。

电源1009用于为电子设备1000中的各个组件进行供电。电源1009可以是交流电、直流电、一次性电池或可充电电池。当电源1009包括可充电电池时，该可充电电池可以是有线充电电池或无线充电电池。有线充电电池是通过有线线路充电的电池，无线充电电池是通过无线线圈充电的电池。该可充电电池还可以用于支持快充技术。

在一些实施例中，电子设备1000还包括有一个或多个传感器1010。该一个或多个传感器1010包括但不限于：加速度传感器1011、陀螺仪传感器1012、压力传感器1013、指纹传感器1014、光学传感器1015以及接近传感器1016。

加速度传感器1011可以检测以电子设备1000建立的坐标系的三个坐标轴上的加速度大小。比如，加速度传感器1011可以用于检测重力加速度在三个坐标轴上的分量。处理器1001可以根据加速度传感器1011采集的重力加速度信号，控制显示屏1005以横向视图或纵向视图进行用户界面的显示。加速度传感器1011还可以用于游戏或者用户的运动数据的采集。

陀螺仪传感器1012可以检测电子设备1000的机体方向及转动角度，陀螺仪传感器1012可以与加速度传感器1011协同采集用户对电子设备1000的3D动作。处理器1001根据陀螺仪传感器1012采集的数据，可以实现如下功能：动作感应(比如根据用户的倾斜操作来改变UI)、拍摄时的图像稳定、游戏控制以及惯性导航。

压力传感器1013可以设置在电子设备1000的侧边框和/或显示屏1005的下层。当压力传感器1013设置在电子设备1000的侧边框时，可以检测用户对电子设备1000的握持信号，由处理器1001根据压力传感器1013采集的握持信号进行左右手识别或快捷操作。当压力传感器1013设置在显示屏1005的下层时，由处理器1001根据用户对显示屏1005的压力操作，实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。

指纹传感器1014用于采集用户的指纹，由处理器1001根据指纹传感器1014采集到的指纹识别用户的身份，或者，由指纹传感器1014根据采集到的指纹识别用户的身份。在识别出用户的身份为可信身份时，由处理器1001授权该用户执行相关的敏感操作，该敏感操作包括解锁屏幕、查看加密信息、下载软件、支付及更改设置等。指纹传感器1014可以被设置在电子设备1000的正面、背面或侧面。当电子设备1000上设置有物理按键或厂商Logo时，指纹传感器1014可以与物理按键或厂商Logo集成在一起。

光学传感器1015用于采集环境光强度。在一个实施例中，处理器1001可以根据光学传感器1015采集的环境光强度，控制显示屏1005的显示亮度。具体地，当环境光强度较高时，调高显示屏1005的显示亮度；当环境光强度较低时，调低显示屏1005的显示亮度。在另一个实施例中，处理器1001还可以根据光学传感器1015采集的环境光强度，动态调整摄像头组件1006的拍摄参数。

接近传感器1016，也称距离传感器，通常设置在电子设备1000的前面板。接近传感器1016用于采集用户与电子设备1000的正面之间的距离。在一个实施例中，当接近传感器1016检测到用户与电子设备1000的正面之间的距离逐渐变小时，由处理器1001控制显示屏1005从亮屏状态切换为息屏状态；当接近传感器1016检测到用户与电子设备1000的正面之间的距离逐渐变大时，由处理器1001控制显示屏1005从息屏状态切换为亮屏状态。

本领域技术人员可以理解，图10中示出的结构并不构成对电子设备1000的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

在示例性实施例中，还提供了一种计算机可读存储介质，例如包括指令的存储器，上述指令可由音频编码设备中的处理器执行以完成上述实施例中的音频编码方法。例如，所述计算机可读存储介质可以是只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、光盘只读存储器(Compact Disc Read-Only Memory，CD-ROM)、磁带、软盘和光数据存储设备等。

在示例性实施例中，还提供了一种计算机程序产品，所述计算机程序产品中的指令由电子设备1000的处理器执行时，使得电子设备1000能够执行上述方法实施例中的音频编码方法。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本申请的可选实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种音频编码方法，其特征在于，所述方法包括：

以第一采样率进行音频信号采集；

2.根据权利要求1所述的方法，其特征在于，所述根据频域上每个频点的第一功率谱、噪声功率谱估计值和听觉感知系数，确定第二采样率，包括：

根据频域上每个频点的第一功率谱和噪声功率谱估计值，确定频域上每个频点的第二功率谱；

根据频域上每个频点的第二功率谱和获取到的听觉感知系数，确定频域上每个频点的听觉感知功率谱；

根据频域上每个频点的听觉感知功率谱和N个候选采样率，确定所述第二采样率；其中，N的取值为正整数。

3.根据权利要求1所述的方法，其特征在于，所述获取频域上每个频点的噪声功率谱估计值和听觉感知系数，包括：

对声学等响曲线数据进行线性插值，得到频域上每个频点的听觉响度；其中，声学等响曲线用于描述等响条件下声压级与声波频率之间的对应关系；

根据频域上每个频点的听觉响度，确定频域上每个频点的听觉感知系数。

4.根据权利要求2所述的方法，其特征在于，所述根据频域上每个频点的听觉感知功率谱和N个候选采样率，确定所述第二采样率，包括：

对于第i个音频帧，对所述第i个音频帧中各个频点的听觉感知功率谱进行平滑处理，得到所述第i个音频帧中各个频点的听觉感知平滑功率谱；

获取在第j个候选采样率下所述第i个音频帧中各个频点的听觉感知平滑功率谱的总和；

根据获取到的听觉感知平滑功率谱的总和，获取所述第i个音频帧在所述第j个候选采样率下的感知能量损失率；

将得到的N个感知能量损失率中小于目标门限值的最低候选采样率，作为所述第二采样率；

5.根据权利要求4所述的方法，其特征在于，所述对所述第i个音频帧中各个频点的听觉感知功率谱进行平滑处理，得到所述第i个音频帧中各个频点的听觉感知平滑功率谱，包括：

获取第i-1个音频帧中第k个频点的听觉感知平滑功率谱；其中，k的取值为正整数；

根据指定平滑加权因子，对所述第i个音频帧中第k个频点的听觉感知功率谱、所述第i-1个音频帧中第k个频点的听觉感知平滑功率谱进行加权求和处理，得到所述第i个音频帧中第k个频点的听觉感知平滑功率谱。

6.根据权利要求1所述的方法，其特征在于，所述将采集到的音频信号由时域变换至频域，获取频域上每个频点的第一功率谱，包括：

对采集到的音频信号依次进行分帧处理和加窗处理；

对经过分帧处理和加窗处理后的音频信号进行傅里叶变换；

根据傅里叶变换结果，获取每个音频帧中各个频点的功率谱，得到频域上每个频点的第一功率谱。

7.根据权利要求1所述的方法，其特征在于，所述获取频域上每个频点的噪声功率谱估计值和听觉感知系数，包括：

对每个音频帧中各个频点的功率谱进行平滑处理，得到每个音频帧中各个频点的平滑功率谱，所述平滑功率谱中携带噪音信号；

获取每个音频帧中各个频点的噪声功率谱初始值；

根据每个音频帧中各个频点的平滑功率谱和噪声功率谱初始值，确定每个音频帧中各个频点的语音存在概率估计值；

根据每个音频帧中各个频点的平滑功率谱和语音存在概率估计值，确定每个音频帧中各个频点的噪声功率谱估计值。

8.根据权利要求7所述的方法，其特征在于，所述对每个音频帧中各个频点的功率谱进行平滑处理，包括：

获取第i-1个音频帧中第k个频点的频域平滑功率谱；

9.根据权利要求7所述的方法，其特征在于，所述获取每个音频帧中各个频点的噪声功率谱初始值，包括：

在每个噪声功率谱初始值的更新周期内，比较所述更新周期内包括的M个音频帧中第k个频点的平滑功率谱；

将得到的M个平滑功率谱中最小的平滑功率谱，作为所述M个音频帧中第k个频点的噪声功率谱初始值。

10.根据权利要求7所述的方法，其特征在于，所述根据每个音频帧中各个频点的平滑功率谱和噪声功率谱初始值，确定每个音频帧中各个频点对应的语音存在概率估计值，包括：

对于第i个音频帧中第k个频点，获取所述第i个音频帧中第k个频点的平滑功率谱与所述第i个音频帧中第k个频点的噪声功率谱初始值之间的比值；

响应于所述比值大于目标阈值，将第一数值作为所述第i个音频帧中第k个频点的语音存在概率初始值；

响应于所述比值小于所述目标阈值，将第二数值作为所述第i个音频帧中第k个频点的语音存在概率初始值；其中，所述第二数值小于所述第一数值；

获取第i-1个音频帧中第k个频点的语音存在概率估计值；

对所述第i个音频帧中第k个频点的语音存在概率初始值、所述第i-1个音频帧中第k个频点的语音存在概率估计值进行加权求和处理，得到所述第i个音频帧中第k个频点的语音存在概率估计值。

11.根据权利要求7所述的方法，其特征在于，所述根据每个音频帧中各个频点的平滑功率谱和语音存在概率估计值，确定每个音频帧中各个频点的噪声功率谱估计值，包括：

对于第i个音频帧中第k个频点，获取第一数值与所述第i个音频帧中第k个频点的语音存在概率估计值之差，得到所述第i个音频帧中第k个频点的噪声存在概率；

获取第i-1个音频帧中第k个频点的噪声功率谱估计值；

获取所述第i个音频帧中第k个频点的语音存在概率估计值与所述第i-1个音频帧中第k个频点的噪声功率谱估计值之间的第一乘积值；

获取所述第i个音频帧中第k个频点的噪声存在概率与所述第i个音频帧中第k个频点的功率谱之间的第二乘积值；

将所述第一乘积值与所述第二乘积值之和，作为所述第i个音频帧中第k个频点的噪声功率谱估计值。

12.根据权利要求1至11中任一项权利要求所述的方法，其特征在于，所述第一采样率为各个音频信号处理环节所共同支持的最高采样率；所述第二采样率小于所述第一采样率。

13.一种音频编码装置，其特征在于，所述装置包括：

采集模块，被配置为以第一采样率进行音频信号采集；

14.一种计算机可读存储介质，其特征在于，所述存储介质中存储有至少一条指令，所述至少一条指令由处理器加载并执行以实现如权利要求1至12中任一项权利要求所述的音频编码方法。

15.一种电子设备，其特征在于，所述设备包括处理器和存储器，所述存储器中存储有至少一条指令，所述至少一条指令由所述处理器加载并执行以实现如权利要求1至12中任一项权利要求所述的音频编码方法。