CN113948099A

CN113948099A - 音频编码方法、音频解码方法、装置和电子设备

Info

Publication number: CN113948099A
Application number: CN202111211989.7A
Authority: CN
Inventors: 鲁方波; 汪贤; 徐晓光; 赵瑞前
Original assignee: Beijing Kingsoft Cloud Network Technology Co Ltd
Current assignee: Beijing Kingsoft Cloud Network Technology Co Ltd
Priority date: 2021-10-18
Filing date: 2021-10-18
Publication date: 2022-01-18

Abstract

本发明提供了一种音频编码方法、音频解码方法、装置和电子设备，当获取到待编码音频信号中，每帧音频信号所属的音频场景后，可以针对每种音频场景，基于拟合曲线或第一预设码率范围，确定与该音频场景匹配的目标码率；其中，拟合曲线用于：指示在该音频场景下，第一音频信号的音频质量与码率之间的映射关系；再基于目标码率对属于该音频场景的每帧音频信号进行编码。该方式可以基于拟合曲线或第一预设码率范围，确定每种音频场景匹配的目标码率，对待编码音频信号中，属于不同音频场景的音频信号采用与该音频场景匹配的目标码率进行编码，可以提高码率利用率和编码效率。

Description

音频编码方法、音频解码方法、装置和电子设备

技术领域

本发明涉及音频处理技术领域，尤其是涉及一种音频编码方法、音频解码方法、装置和电子设备。

背景技术

随着RTC(Real-Time Communication)实时通信在直播带货、直播教学等场景下的大规模应用，与RTC密切相关的音频码率和音频质量越来越被重视，通常情况下，音频码率越大，音频质量越高，但会对网络带宽带来较大压力，而音频码率越小，会导致音频质量越差，影响用户的主观感受；相关技术中，通常根据用户经验确定某个音频数据的音频码率，并对该音频数据统一采用所确定的码率进行编码，由于该音频数据中，每一帧音频信号所属的场景可能不同，而不同场景所适合的音频码率通常也不相同，有的场景需要较高码率来保证音频质量，而有的场景只需要较低码率就可以保证音频质量，因此，这种对属于不同场景的音频数据采用固定码率编码的方式，会导致出现码率利用率较低，编码效率较低的问题。

发明内容

本发明的目的在于提供一种音频编码方法、音频解码方法、装置和电子设备，以提高码率利用率以及编码效率。

本发明提供的一种音频编码方法，方法包括：获取待编码音频信号中的音频信号，以及每帧音频信号所属的音频场景；针对每种音频场景，基于拟合曲线或第一预设码率范围，确定与该音频场景匹配的目标码率；其中，拟合曲线用于：指示在该音频场景下，第一音频信号的音频质量与码率之间的映射关系；基于目标码率对属于该音频场景的每帧音频信号进行编码。

进一步的，获取待编码音频信号中的音频信号，以及每帧音频信号所属的音频场景的步骤包括：获取待编码音频信号中的音频信号；提取音频信号中，每帧音频信号的特征信息；针对每帧音频信号，将该帧音频信号的特征信息输入至预先训练好的第一神经网络模型中，得到输出结果；其中，输出结果用于：指示该帧音频信号为语音信号或静默信号；基于输出结果确定该帧音频信号所属的音频场景。

进一步的，基于输出结果确定该帧音频信号所属的音频场景的步骤包括：如果输出结果指示该帧音频信号为语音信号，将该帧音频信号输入至预先训练好的第二神经网络模型中，以通过第二神经网络模型确定该帧音频信号所属的音频场景；如果输出结果指示该帧音频信号为静默信号，确定该帧音频信号所属场景为静默场景。

进一步的，每帧音频信号为语音信号或静默信号；针对每种音频场景，基于拟合曲线或第一预设码率范围，确定与该音频场景匹配的目标码率的步骤包括：针对属于语音信号的每种音频场景，获取与该音频场景匹配的拟合曲线，基于拟合曲线，确定与该音频场景匹配的目标码率；针对属于静默信号的音频场景，在第一预设码率范围内，确定与该音频场景匹配的目标码率。

进一步的，每种所述音频场景匹配的拟合曲线预先通过下述方式确定：针对每种所述音频场景，获取属于该音频场景的多帧音频信号样本；按预设码率对每帧音频信号样本进行编码，确定编码后的每帧音频信号样本的音频质量；基于编码后的每帧音频信号样本的音频质量，以及预设码率，确定与该音频场景匹配的拟合曲线。

进一步的，按预设码率对每帧音频信号样本进行编码，确定编码后的每帧音频信号样本的音频质量的步骤包括：在第二预设码率范围内，按预设间隔确定第二预设码率范围内的至少一个预设码率；按至少一个预设码率对每帧音频信号样本进行编码，确定编码后的每帧音频信号样本的至少一个音频质量。

进一步的，预设码率包括多个；编码后的每帧音频信号样本的音频质量包括多个；预设码率与编码后的每帧音频信号样本的音频质量一一对应；基于编码后的每帧音频信号的质量分数，以及预设码率，确定与该音频场景匹配的拟合曲线的步骤包括：对编码后的每帧音频信号样本的多个音频质量，以及与每个音频质量对应的预设码率，进行曲线拟合处理，得到与该音频场景匹配的拟合曲线。

进一步的，音频质量通过质量分数表示；基于拟合曲线，确定与该音频场景匹配的目标码率的步骤包括：在拟合曲线上选取目标位置点；其中，以目标位置点对应的码率为起点，随着码率逐渐增大，增大后的码率对应的质量分数与目标位置点对应的质量分数的差值绝对值在预设范围内；将目标位置点对应的码率确定为与该音频场景匹配的目标码率。

本发明提供的一种音频解码方法，方法包括：获取已编码音频信号中的每帧已编码音频信号；其中，每帧已编码音频信号通过下述方式得到：获取待编码音频信号中的音频信号，以及每帧音频信号所属的音频场景；针对每种音频场景，基于拟合曲线或第一预设码率范围，确定与该音频场景匹配的目标码率；其中，拟合曲线用于：指示在该音频场景下，第一音频信号的音频质量与码率之间的映射关系；基于目标码率对属于该音频场景的每帧音频信号进行编码；对每帧已编码音频信号进行解码，得到与每帧已编码音频信号对应的每帧音频信号。

本发明提供的一种音频编码装置，装置包括：第一获取模块，用于获取待编码音频信号中的音频信号，以及每帧音频信号所属的音频场景；确定模块，用于针对每种音频场景，基于拟合曲线或第一预设码率范围，确定与该音频场景匹配的目标码率；其中，拟合曲线用于：指示在该音频场景下，第一音频信号的音频质量与码率之间的映射关系；编码模块，用于基于目标码率对属于该音频场景的每帧音频信号进行编码。

本发明提供的一种音频解码装置，装置包括：第二获取模块，用于获取已编码音频信号中的每帧已编码音频信号；其中，每帧已编码音频信号通过下述方式得到：获取待编码音频信号中的音频信号，以及每帧音频信号所属的音频场景；针对每种音频场景，基于拟合曲线或第一预设码率范围，确定与该音频场景匹配的目标码率；其中，拟合曲线用于：指示在该音频场景下，第一音频信号的音频质量与码率之间的映射关系；基于目标码率对属于该音频场景的每帧音频信号进行编码；解码模块，用于对每帧已编码音频信号进行解码，得到与每帧已编码音频信号对应的每帧音频信号。

本发明提供的一种电子设备，包括处理器和存储器，存储器存储有能够被处理器执行的机器可执行指令，处理器执行机器可执行指令以实现上述的音频编码方法或音频解码方法。

本发明提供的一种机器可读存储介质，机器可读存储介质存储有机器可执行指令，机器可执行指令在被处理器调用和执行时，机器可执行指令促使处理器实现上述的音频编码方法或音频解码方法。

本发明提供的音频编码方法、音频解码方法、装置和电子设备，当获取到待编码音频信号中，每帧音频信号所属的音频场景后，可以针对每种音频场景，基于拟合曲线或第一预设码率范围，确定与该音频场景匹配的目标码率；其中，拟合曲线用于：指示在该音频场景下，第一音频信号的音频质量与码率之间的映射关系；再基于目标码率对属于该音频场景的每帧音频信号进行编码。该方式可以基于拟合曲线或第一预设码率范围，确定每种音频场景匹配的目标码率，对待编码音频信号中，属于不同音频场景的音频信号采用与该音频场景匹配的目标码率进行编码，可以提高码率利用率和编码效率。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种音频编码方法的流程图；

图2为本发明实施例提供的另一种音频编码方法的流程图；

图3为本发明实施例提供的另一种音频编码方法的流程图；

图4为本发明实施例提供的一种拟合曲线示意图；

图5为本发明实施例提供的另一种拟合曲线示意图；

图6为本发明实施例提供的一种音频编码装置的结构示意图；

图7为本发明实施例提供的一种音频解码装置的结构示意图；

图8为本发明实施例提供的一种电子设备的结构示意图。

具体实施方式

下面将结合实施例对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

目前，针对RTC音频码率决策通常根据个人经验进行确定，对某个音频数据采用统一的某个码率值进行编码，由于音频数据的每一帧的场景可能不同，而不同场景所需要的码率也不相同，因此，对音频数据所有帧采用固定码率编码的方式，会导致出现码率利用率较低，编码效率较低的问题。基于此，本发明实施例提供了一种音频编码方法、音频解码方法、装置和电子设备，该技术可以应用于需要对音频数据进行编码的应用中。

为便于对本实施例进行理解，首先对本发明实施例所公开的一种音频编码方法进行详细介绍；如图1所示，该方法包括如下步骤：

步骤S102，获取待编码音频信号中的音频信号，以及每帧音频信号所属的音频场景。

上述待编码音频信号中通常包括多帧音频信号，每帧音频信号所属的音频场景可能不同，比如，有的音频信号可能属于声乐场景，有的音频信号属于游戏场景等，该音频信号也可以称为音频数据；在实际实现时，当需要对待编码音频信号进行编码时，通常需要先获取该待编码音频信号中，每帧音频信号所属的音频场景。

步骤S104，针对每种音频场景，基于拟合曲线或第一预设码率范围，确定与该音频场景匹配的目标码率；其中，拟合曲线用于：指示在该音频场景下，第一音频信号的音频质量与码率之间的映射关系。

上述拟合曲线通常是对属于同一种音频场景的多个音频信号采用预设的码率进行编码，得到编码后的音频信号的音频质量，基于音频质量和码率的多对映射数据拟合后得到的曲线；通过该拟合曲线，可以指示该音频场景下，第一音频信号的音频质量和码率之间的映射关系；上述第一预设码率范围可以根据实际需求进行设置；上述目标码率可以理解为采用该目标码率对属于该音频场景的音频信号进行编码，可以保证编码后的音频信号的质量较高，同时不会对网络带宽带来较大的压力；如果采用低于该目标码率的码率对音频信号进行编码，编码后的音频信号的音频质量通常会明显降低；如果采用高于该目标码率的码率对音频信号进行编码，编码后的音频信号的音频质量通常不会有明显改善，且会对网络带宽带来较大压力；因此，在获取到每种音频信号所属的音频场景后，可以根据不同的音频场景，基于预先获取到的拟合曲线或第一预设码率范围，确定不同音频场景各自匹配的目标码率；一般情况下，不同音频场景所匹配的目标码率通常也不相同。

步骤S106，基于目标码率对属于该音频场景的每帧音频信号进行编码。

当获取到每种音频场景所匹配的目标码率后，可以基于每种音频场景所匹配的目标码率对属于该音频场景的一帧或多帧音频信号进行编码；比如，如果获取到语音通话场景所匹配的目标码率为16kbps，则对待编码音频信号中，属于语音通话场景的每帧音频信号采用16kbps的目标码率进行编码；如果获取到声乐场景所匹配的目标码率为40kbps，则对待编码音频信号中，属于声乐场景的每帧音频信号采用40kbps的目标码率进行编码等。

上述音频编码方法，当获取到待编码音频信号中，每帧音频信号所属的音频场景后，可以针对每种音频场景，基于拟合曲线或第一预设码率范围，确定与该音频场景匹配的目标码率；其中，拟合曲线用于：指示在该音频场景下，第一音频信号的音频质量与码率之间的映射关系；再基于目标码率对属于该音频场景的每帧音频信号进行编码。该方式可以基于拟合曲线或第一预设码率范围，确定每种音频场景匹配的目标码率，对待编码音频信号中，属于不同音频场景的音频信号采用与该音频场景匹配的目标码率进行编码，可以提高码率利用率和编码效率。

本发明实施例还提供了另一种音频编码方法，该方法在上述实施例方法的基础上实现；该方法重点描述获取待编码音频信号中的音频信号，以及每帧音频信号所属的音频场景的具体过程，具体对应下述步骤S202至步骤S208；如图2所示，该方法包括如下步骤：

步骤S202，获取待编码音频信号中的音频信号。

步骤S204，提取音频信号中，每帧音频信号的特征信息。

上述特征信息可以包括过零率、频谱质心、声谱衰减、色度频率等相关音频特征；在实际实现时，当获取到待编码音频信号中的音频信号后，为了筛选出每帧音频信号的有用信息，可以提取该音频信号中，每帧音频信号的特征信息，具体可以参考相关技术中的音频信号特征提取方式，比如，可以采用Aubio提取工具提取特征信息等，其中，Aubio是一种标注音乐和声音的python库，源码基于C语言，能够读取任意媒体文件，提取特征并检测事件。

步骤S206，针对每帧音频信号，将该帧音频信号的特征信息输入至预先训练好的第一神经网络模型中，得到输出结果；其中，输出结果用于：指示该帧音频信号为语音信号或静默信号。

上述第一神经网络模型可以通过多种卷积神经网络实现，如残差网络、VGG网络等，该第一神经网络模型可以是任意大小的卷积神经网络模型，比如，可以是resnet34_05x等；上述语音信号可以理解为音频信号中存在有效的声音信息；上述静默信号可以理解为音频信号中不存在有效的声音信息，为静默状态。在实际实现时，当提取出每帧音频信号的特征信息后，可以将提取出的特征信息输入至预先训练好的第一神经网络模型中，以通过该第一神经网络模型判断每帧音频信号是语音信号还是静默信号；当然也可以采用其他方式判断音频信号属于语音信号或静默信号。

步骤S208，基于输出结果确定该帧音频信号所属的音频场景。

该步骤S208可以通过下述步骤一和步骤二实现：

步骤一，如果输出结果指示该帧音频信号为语音信号，将该帧音频信号输入至预先训练好的第二神经网络模型中，以通过第二神经网络模型确定该帧音频信号所属的音频场景。

上述第二神经网络模型可以通过多种卷积神经网络实现，如残差网络、VGG网络等，该第二神经网络模型可以是任意大小的卷积神经网络模型，比如，可以是resnet34_05x等，上述第一神经网络模型和第二神经网络模型还可以称为音频分类模型，由于两个神经网络模型通常并不相同，因此，为有效区分两个神经网络，第一神经网络模型也可以称为音频分类模型A，第二神经网络模型也可以称为音频分类模型B；对于每帧音频信号来说，如果通过第一神经网络模型判断该帧音频信号是语音信号，则通常需要继续对该帧音频信号进行分类，具体可以将该音频信号输入预先训练好的第二神经网络模型中，以通过该第二神经网络模型确定该帧音频信号所属的音频场景，比如，该帧音频信号所属的音频场景为秀场、声乐、语音通话、教学、游戏等场景类别；当然也可以采用其他方式确定音频信号所属的音频场景。

步骤二，如果输出结果指示该帧音频信号为静默信号，确定该帧音频信号所属场景为静默场景。

对于每帧音频信号来说，如果通过第一神经网络模型判断该帧音频信号是静默信号，由于一般情况下，静默信号可以认为音频信号中不存在有效的声音信息，为静默状态，因此，通常可以直接确定该音频信号所属场景为静默场景。

步骤S210，针对每种音频场景，基于拟合曲线或第一预设码率范围，确定与该音频场景匹配的目标码率；其中，拟合曲线用于：指示在该音频场景下，第一音频信号的音频质量与码率之间的映射关系。

步骤S212，基于目标码率对属于该音频场景的每帧音频信号进行编码。

上述音频编码方法，在获取待编码音频信号中的音频信号后，可以提取音频信号中，每帧音频信号的特征信息，针对每帧音频信号，将该帧音频信号的特征信息输入至预先训练好的第一神经网络模型中，得到输出结果。基于输出结果确定该帧音频信号所属的音频场景。针对每种音频场景，基于拟合曲线或第一预设码率范围，确定与该音频场景匹配的目标码率；基于目标码率对属于该音频场景的每帧音频信号进行编码。该方式可以基于拟合曲线或第一预设码率范围，确定每种音频场景匹配的目标码率，对待编码音频信号中，属于不同音频场景的音频信号采用与该音频场景匹配的目标码率进行编码，可以提高码率利用率和编码效率。

本发明实施例还提供了另一种音频编码方法，该方法在上述实施例方法的基础上实现；该方法重点描述针对每种音频场景，基于拟合曲线或第一预设码率范围，确定与该音频场景匹配的目标码率的具体过程，具体对应下述步骤S304至步骤S306；该方法中，每帧音频信号为语音信号或静默信号；如图3所示，该方法包括如下步骤：

步骤S302，获取待编码音频信号中的音频信号，以及每帧音频信号所属的音频场景。

步骤S304，针对属于语音信号的每种音频场景，获取与该音频场景匹配的拟合曲线，基于拟合曲线，确定与该音频场景匹配的目标码率。

具体的，每种音频场景匹配的拟合曲线可以预先通过下述步骤四和步骤六确定：

步骤四，针对每种音频场景，获取属于该音频场景的多帧音频信号样本。

针对每种音频场景，获取到的属于该音频场景的音频信号样本数量越多，所确定的与该音频场景匹配的目标码率越准确；当需要确定与每种音频场景匹配的目标码率时，通常需要先获取属于每种音频场景的多帧音频信号样本。

步骤五，按预设码率对每帧音频信号样本进行编码，确定编码后的每帧音频信号样本的音频质量。

上述预设码率可以是预先设定好的多个不同的码率；上述音频质量可以用于指示编码后的音频信号的质量，通常音频质量越高，编码后的音频信号的质量越好；在实际实现时，可以使用预设码率对每帧音频信号样本进行编码，并确定编码后的每帧音频信号样本的音频质量，具体可以将编码后的每帧音频信号样本输入至预设的质量评价模型中，即可输出编码后的每帧音频信号样本的音频质量，其中，该质量评价模型包括但不限于PESQ(Perceptual evaluation of speech quality，客观语音质量评估)、POLQA(PerceptualObjective Listening Quality Analysis，感知客观语音质量评估)。

该步骤五具体可以通过下述步骤A和步骤B实现：

步骤A，在第二预设码率范围内，按预设间隔确定第二预设码率范围内的至少一个预设码率。

上述第二预设码率范围可以根据实际需求进行设置，比如，对于音频信号来说，采用500kbps以上码率进行编码，得到的编码后的音频信号的音频质量几乎无明显差别，而采用低于5kbps的码率进行编码，得到的编码后的音频信号的音质较差，因此，音频信号的码率上下限可以分别设置为500kbps和5kbps，即第二预设码率范围可以设置为5kbps-500kbps；上述预设间隔也可以根据实际需求进行设置，比如，可以设置该预设间隔为10kbps、15kbps等；在实际实现时，通常预先获取上述第二预设码率范围，然后按预设间隔从该第二预设码率范围内选取至少一个预设码率；比如，如果第二预设码率范围为5kbps-500kbps，预设间隔为10kbps，则可以在5kbps-500kbps范围内，每间隔10kbps选取一个码率，即选取的码率可以为5kbps、15kbps、25kbps等。

步骤B，按至少一个预设码率对每帧音频信号样本进行编码，确定编码后的每帧音频信号样本的至少一个音频质量。

在确定第二预设码率范围内的至少一个预设码率后，可以采用所确定的至少一个预设码率对每帧音频信号样本进行编码，然后基于预设的质量评价模型，确定编码后的每帧音频信号样本的至少一个音频质量；比如，对于每帧音频信号样本来说，如果采用10个不同的码率对该帧音频信号样本进行编码，则可以得到该帧音频信号样本对应的10个音频质量，这10个音频质量可能均不相同，也可能部分相同。

步骤六，基于编码后的每帧音频信号样本的音频质量，以及预设码率，确定与该音频场景匹配的拟合曲线。

一般情况下，预设码率包括多个；相应的编码后的每帧音频信号样本的音频质量也包括多个；并且，预设码率与编码后的每帧音频信号样本的音频质量一一对应，即可以得到预设码率和音频质量的多对映射数据；因此，该步骤六具体可以为：对编码后的每帧音频信号样本的多个音频质量，以及与每个音频质量对应的预设码率，进行曲线拟合处理，得到与该音频场景匹配的拟合曲线。

在实际实现时，针对编码后的每帧音频信号样本，都可以得到预设码率和音频质量的多对映射数据，针对每种音频场景，可以先获取属于该音频场景的每帧音频信号样本对应的多对映射数据，对这些映射数据进行曲线拟合处理，可以得到关系式Q＝f(B)，其中，Q表示音频质量，B为码率，f为B到Q的函数映射，该关系式也可以称为质量-码率模型，通常每种音频场景可以对应一种质量-码率模型，不同音频场景对应的质量-码率模型通常也不同，即对于所有非静默场景，均可以得到一个质量-码率模型。基于上述关系式，就可以得到该音频场景匹配的拟合曲线。

具体实现时，音频质量可以通过质量分数表示，上述基于拟合曲线，确定与该音频场景匹配的目标码率的步骤可以通过步骤十和步骤十一实现：

步骤十，在拟合曲线上选取目标位置点；其中，以目标位置点对应的码率为起点，随着码率逐渐增大，增大后的码率对应的质量分数与目标位置点对应的质量分数的差值绝对值在预设范围内。

根据音频场景的不同，上述目标位置点可能位于与音频场景匹配的拟合曲线的任意位置；上述差值绝对值可以用于指示增大后的码率对应的质量分数与目标位置点对应的质量分数之间的差距；上述预设范围通常是一个较小的范围；在确定与某个音频场景匹配的拟合曲线后，可以在该拟合曲线上选取目标位置点，从该目标位置点开始，当码率增大时，增大后的码率对应的质量分数变化较小或不变，而从拟合曲线的起始位置至目标位置点之间，随着码率逐渐增大，增大后的码率对应的质量分数通常变化较大，即该目标位置点通常是拟合曲线上的一个拐点位置。

步骤十一，将目标位置点对应的码率确定为与该音频场景匹配的目标码率。

由于从目标位置点为起点，随着码率逐渐增大，质量分数并不会有太大变化，因此，可以将该目标位置点对应的码率确定为与该音频场景匹配的目标码率，比如，参见图4所示的一种拟合曲线示意图，该图为语音通话场景下的质量-码率曲线(对应拟合曲线)，当码率达到16kbps左右时，随着码率的增大，增大后的码率对应的质量分数pesq变化不大，因此，可以将该语音通话场景对应的目标码率设置为16kbps；参见图5所示的另一种拟合曲线示意图，该图为声乐场景下的质量-码率曲线(对应拟合曲线)，当码率达到40kbps左右，随着码率的增大，增大后的码率对应的质量分数pesq变化不大，因此，可以将该声乐场景对应的目标码率设置为40kbps，其他场景同理。

步骤S306，针对属于静默信号的音频场景，在第一预设码率范围内，确定与该音频场景匹配的目标码率。

上述第一预设码率范围可以根据实际需求进行设置，通常会将该范围设置为一个较小的范围，并且该范围内的码率通常也较小；在实际实现时，针对属于静默信号的每帧音频信号，该音频信号所属场景为静默场景，由于静默场景通常并不带有有用信息，因此，与该静默场景匹配的目标码率通常可以设置为一个极低的值，或者将目标码率设置为0。

步骤S308，基于目标码率对属于该音频场景的每帧音频信号进行编码。

上述音频处理方法，在获取到待编码音频信号中，每帧音频信号所属的音频场景后，首先针对属于语音信号的每种音频场景，获取与该音频场景匹配的拟合曲线，基于拟合曲线，确定与该音频场景匹配的目标码率；然后，针对属于静默信号的音频场景，在第一预设码率范围内，确定与该音频场景匹配的目标码率。最后基于目标码率对属于该音频场景的每帧音频信号进行编码。该方式可以基于拟合曲线或第一预设码率范围，确定每种音频场景匹配的目标码率，对待编码音频信号中，属于不同音频场景的音频信号采用与该音频场景匹配的目标码率进行编码，可以提高码率利用率和编码效率。

另外，由于RTC场景中参与连接的多个人中每个人的环境均不相同，并且经常面临弱网问题，该方式可以根据音频信号所属的音频场景自适应决策出该音频场景匹配的目标码率，码率决策精度较高，还可以对音频帧粒度进行码率决策，并采用所决策的目标码率对属于该音频场景的每帧音频信号进行编码，通过对音频信号编码的码率进行精准决策，可以在保证音频信号在有限带宽下进行高质量传输的基础上，降低音频码率。

本发明实施例还提供了一种音频解码方法，该方法包括如下步骤：

步骤602，获取已编码音频信号中的每帧已编码音频信号；其中，每帧已编码音频信号通过下述方式得到：获取待编码音频信号中的音频信号，以及每帧音频信号所属的音频场景；针对每种音频场景，基于拟合曲线或第一预设码率范围，确定与该音频场景匹配的目标码率；其中，拟合曲线用于：指示在该音频场景下，第一音频信号的音频质量与码率之间的映射关系；基于目标码率对属于该音频场景的每帧所述音频信号进行编码；

步骤604，对每帧已编码音频信号进行解码，得到与每帧已编码音频信号对应的每帧音频信号。

在获取到已编码音频信号中的每帧已编码音频信号后，可以参考相关技术中的解码方式，对每帧已编码音频信号进行解码，以将其还原为对应的每帧音频信号。

上述音频解码方法，获取已编码音频信号中的每帧已编码音频信号，每帧已编码音频信号通过下述方式得到：获取待编码音频信号中的音频信号，以及每帧音频信号所属的音频场景；针对每种音频场景，基于拟合曲线或第一预设码率范围，确定与该音频场景匹配的目标码率；基于目标码率对属于该音频场景的每帧所述音频信号进行编码；对每帧已编码音频信号进行解码，得到与每帧已编码音频信号对应的每帧音频信号。该方式可以基于拟合曲线或第一预设码率范围，确定每种音频场景匹配的目标码率，对待编码音频信号中，属于不同音频场景的音频信号采用与该音频场景匹配的目标码率进行编码，可以提高码率利用率和编码效率，并得到音频质量较优的已编码音频信号。

对应于上述方法实施例，本发明还提供了一种音频编码装置，如图6所示，装置包括：第一获取模块60，用于获取待编码音频信号中的音频信号，以及每帧音频信号所属的音频场景；确定模块61，用于针对每种音频场景，基于拟合曲线或第一预设码率范围，确定与该音频场景匹配的目标码率；其中，拟合曲线用于：指示在该音频场景下，第一音频信号的音频质量与码率之间的映射关系；编码模块62，用于基于目标码率对属于该音频场景的每帧音频信号进行编码。

上述音频编码装置，当获取到待编码音频信号中，每帧音频信号所属的音频场景后，可以针对每种音频场景，基于拟合曲线或第一预设码率范围，确定与该音频场景匹配的目标码率；其中，拟合曲线用于：指示在该音频场景下，第一音频信号的音频质量与码率之间的映射关系；再基于目标码率对属于该音频场景的每帧音频信号进行编码。该装置可以基于拟合曲线或第一预设码率范围，确定每种音频场景匹配的目标码率，对待编码音频信号中，属于不同音频场景的音频信号采用与该音频场景匹配的目标码率进行编码，可以提高码率利用率和编码效率。

进一步的，第一获取模块还用于：获取待编码音频信号中的音频信号；提取音频信号中，每帧音频信号的特征信息；针对每帧音频信号，将该帧音频信号的特征信息输入至预先训练好的第一神经网络模型中，得到输出结果；其中，输出结果用于：指示该帧音频信号为语音信号或静默信号；基于输出结果确定该帧音频信号所属的音频场景。

进一步的，第一获取模块还用于：如果输出结果指示该帧音频信号为语音信号，将该帧音频信号输入至预先训练好的第二神经网络模型中，以通过第二神经网络模型确定该帧音频信号所属的音频场景；如果输出结果指示该帧音频信号为静默信号，确定该帧音频信号所属场景为静默场景。

进一步的，每帧音频信号为语音信号或静默信号；确定模块还用于：针对属于语音信号的每种音频场景，获取与该音频场景匹配的拟合曲线，基于拟合曲线，确定与该音频场景匹配的目标码率；针对属于静默信号的音频场景，在第一预设码率范围内，确定与该音频场景匹配的目标码率。

进一步的，确定模块还用于：针对每种音频场景，获取属于该音频场景的多帧音频信号样本；按预设码率对每帧音频信号样本进行编码，确定编码后的每帧音频信号样本的音频质量；基于编码后的每帧音频信号样本的音频质量，以及预设码率，确定与该音频场景匹配的拟合曲线。

进一步的，确定模块还用于：在第二预设码率范围内，按预设间隔确定第二预设码率范围内的至少一个预设码率；按至少一个预设码率对每帧音频信号样本进行编码，确定编码后的每帧音频信号样本的至少一个音频质量。

进一步的，预设码率包括多个；编码后的每帧音频信号样本的音频质量包括多个；预设码率与编码后的每帧音频信号样本的音频质量一一对应；确定模块还用于：对编码后的每帧音频信号样本的多个音频质量，以及与每个音频质量对应的预设码率，进行曲线拟合处理，得到与该音频场景匹配的拟合曲线。

进一步的，音频质量通过质量分数表示；确定模块还用于：在拟合曲线上选取目标位置点；其中，以目标位置点对应的码率为起点，随着码率逐渐增大，增大后的码率对应的质量分数与目标位置点对应的质量分数的差值绝对值在预设范围内；将目标位置点对应的码率确定为与该音频场景匹配的目标码率。

本发明实施例所提供的音频编码装置，其实现原理及产生的技术效果和前述音频编码方法实施例相同，为简要描述，音频编码装置实施例部分未提及之处，可参考前述音频编码方法实施例中相应内容。

本发明实施例还提供了一种音频解码装置，如图7所示，装置包括：第二获取模块70，用于获取已编码音频信号中的每帧已编码音频信号；其中，每帧已编码音频信号通过下述方式得到：获取待编码音频信号中的音频信号，以及每帧音频信号所属的音频场景；针对每种音频场景，基于拟合曲线或第一预设码率范围，确定与该音频场景匹配的目标码率；其中，拟合曲线用于：指示在该音频场景下，第一音频信号的音频质量与码率之间的映射关系；基于目标码率对属于该音频场景的每帧音频信号进行编码；解码模块71，用于对每帧已编码音频信号进行解码，得到与每帧已编码音频信号对应的每帧音频信号。

上述音频解码装置，获取已编码音频信号中的每帧已编码音频信号，每帧已编码音频信号通过下述方式得到：获取待编码音频信号中的音频信号，以及每帧音频信号所属的音频场景；针对每种音频场景，基于拟合曲线或第一预设码率范围，确定与该音频场景匹配的目标码率；基于目标码率对属于该音频场景的每帧所述音频信号进行编码；对每帧已编码音频信号进行解码，得到与每帧已编码音频信号对应的每帧音频信号。该装置可以基于拟合曲线或第一预设码率范围，确定每种音频场景匹配的目标码率，对待编码音频信号中，属于不同音频场景的音频信号采用与该音频场景匹配的目标码率进行编码，可以提高码率利用率和编码效率，并得到音频质量较优的已编码音频信号。

本发明实施例还提供了一种电子设备，参见图8所示，该电子设备包括处理器130和存储器131，该存储器131存储有能够被处理器130执行的机器可执行指令，该处理器130执行机器可执行指令以实现上述音频编码方法或音频解码方法。

进一步地，图7所示的电子设备还包括总线132和通信接口133，处理器130、通信接口133和存储器131通过总线132连接。

其中，存储器131可能包含高速随机存取存储器(RAM，Random Access Memory)，也可能还包括非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器。通过至少一个通信接口133(可以是有线或者无线)实现该系统网元与至少一个其他网元之间的通信连接，可以使用互联网，广域网，本地网，城域网等。总线132可以是ISA总线、PCI总线或EISA总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示，图7中仅用一个双向箭头表示，但并不表示仅有一根总线或一种类型的总线。

处理器130可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器130中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器130可以是通用处理器，包括中央处理器(Central Processing Unit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(DigitalSignal Processor，简称DSP)、专用集成电路(Application Specific IntegratedCircuit，简称ASIC)、现场可编程门阵列(Field-Programmable Gate Array，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器131，处理器130读取存储器131中的信息，结合其硬件完成前述实施例的方法的步骤。

本发明实施例还提供了一种机器可读存储介质，该机器可读存储介质存储有机器可执行指令，该机器可执行指令在被处理器调用和执行时，该机器可执行指令促使处理器实现上述音频编码方法或音频解码方法，具体实现可参见方法实施例，在此不再赘述。

本发明实施例所提供的音频编码方法、音频解码方法、装置和电子设备的计算机程序产品，包括存储了程序代码的计算机可读存储介质，所述程序代码包括的指令可用于执行前面方法实施例中所述的方法，具体实现可参见方法实施例，在此不再赘述。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种音频编码方法，其特征在于，所述方法包括：

获取待编码音频信号中的音频信号，以及每帧所述音频信号所属的音频场景；

针对每种所述音频场景，基于拟合曲线或第一预设码率范围，确定与该音频场景匹配的目标码率；其中，所述拟合曲线用于：指示在该音频场景下，第一音频信号的音频质量与码率之间的映射关系；

基于所述目标码率对属于该音频场景的每帧所述音频信号进行编码。

2.根据权利要求1所述的方法，其特征在于，所述获取待编码音频信号中的音频信号，以及每帧所述音频信号所属的音频场景的步骤包括：

获取所述待编码音频信号中的音频信号；

提取所述音频信号中，每帧所述音频信号的特征信息；

针对每帧所述音频信号，将该帧音频信号的特征信息输入至预先训练好的第一神经网络模型中，得到输出结果；其中，所述输出结果用于：指示该帧音频信号为语音信号或静默信号；

基于所述输出结果确定该帧音频信号所属的所述音频场景。

3.根据权利要求2所述的方法，其特征在于，所述基于所述输出结果确定该帧音频信号所属的所述音频场景的步骤包括：

如果所述输出结果指示该帧音频信号为语音信号，将该帧音频信号输入至预先训练好的第二神经网络模型中，以通过所述第二神经网络模型确定该帧音频信号所属的所述音频场景；

如果所述输出结果指示该帧音频信号为静默信号，确定该帧音频信号所属场景为静默场景。

4.根据权利要求1所述的方法，其特征在于，每帧所述音频信号为语音信号或静默信号；所述针对每种所述音频场景，基于拟合曲线或第一预设码率范围，确定与该音频场景匹配的目标码率的步骤包括：

针对属于所述语音信号的每种所述音频场景，获取与该音频场景匹配的拟合曲线，基于所述拟合曲线，确定与该音频场景匹配的目标码率；

针对属于所述静默信号的所述音频场景，在所述第一预设码率范围内，确定与该音频场景匹配的目标码率。

5.根据权利要求4所述的方法，其特征在于，每种所述音频场景匹配的拟合曲线预先通过下述方式确定：

针对每种所述音频场景，获取属于该音频场景的多帧音频信号样本；

按预设码率对每帧所述音频信号样本进行编码，确定编码后的每帧所述音频信号样本的音频质量；

基于编码后的每帧所述音频信号样本的音频质量，以及所述预设码率，确定与该音频场景匹配的所述拟合曲线。

6.根据权利要求5所述的方法，其特征在于，所述按预设码率对每帧所述音频信号样本进行编码，确定编码后的每帧所述音频信号样本的音频质量的步骤包括：

在第二预设码率范围内，按预设间隔确定所述第二预设码率范围内的至少一个预设码率；

按所述至少一个预设码率对每帧所述音频信号样本进行编码，确定编码后的每帧所述音频信号样本的至少一个音频质量。

7.根据权利要求5所述的方法，其特征在于，所述预设码率包括多个；编码后的每帧所述音频信号样本的音频质量包括多个；所述预设码率与编码后与每帧所述音频信号样本的音频质量一一对应；

所述基于编码后的每帧所述音频信号样本的音频质量，以及所述预设码率，确定与该音频场景匹配的所述拟合曲线的步骤包括：

对编码后的每帧所述音频信号样本的多个音频质量，以及与每个音频质量对应的所述预设码率，进行曲线拟合处理，得到与该音频场景匹配的所述拟合曲线。

8.根据权利要求4所述的方法，其特征在于，所述音频质量通过质量分数表示；所述基于所述拟合曲线，确定与该音频场景匹配的目标码率的步骤包括：

在所述拟合曲线上选取目标位置点；其中，以所述目标位置点对应的码率为起点，随着码率逐渐增大，增大后的码率对应的质量分数与所述目标位置点对应的质量分数的差值绝对值在预设范围内；

将所述目标位置点对应的码率确定为与该音频场景匹配的目标码率。

9.一种音频解码方法，其特征在于，所述方法包括：

获取已编码音频信号中的每帧已编码音频信号；其中，所述每帧已编码音频信号通过下述方式得到：获取待编码音频信号中的音频信号，以及每帧所述音频信号所属的音频场景；针对每种所述音频场景，基于拟合曲线或第一预设码率范围，确定与该音频场景匹配的目标码率；其中，所述拟合曲线用于：指示在该音频场景下，第一音频信号的音频质量与码率之间的映射关系；基于所述目标码率对属于该音频场景的每帧所述音频信号进行编码；

对每帧所述已编码音频信号进行解码，得到与每帧所述已编码音频信号对应的每帧所述音频信号。

10.一种音频编码装置，其特征在于，所述装置包括：

第一获取模块，用于获取待编码音频信号中的音频信号，以及每帧所述音频信号所属的音频场景；

确定模块，用于针对每种所述音频场景，基于拟合曲线或第一预设码率范围，确定与该音频场景匹配的目标码率；其中，所述拟合曲线用于：指示在该音频场景下，第一音频信号的音频质量与码率之间的映射关系；

编码模块，用于基于所述目标码率对属于该音频场景的每帧所述音频信号进行编码。

11.一种音频解码装置，其特征在于，所述装置包括：

第二获取模块，用于获取已编码音频信号中的每帧已编码音频信号；其中，所述每帧已编码音频信号通过下述方式得到：获取待编码音频信号中的音频信号，以及每帧所述音频信号所属的音频场景；针对每种所述音频场景，基于拟合曲线或第一预设码率范围，确定与该音频场景匹配的目标码率；其中，所述拟合曲线用于：指示在该音频场景下，第一音频信号的音频质量与码率之间的映射关系；基于所述目标码率对属于该音频场景的每帧所述音频信号进行编码；

解码模块，用于对每帧所述已编码音频信号进行解码，得到与每帧所述已编码音频信号对应的每帧所述音频信号。

12.一种电子设备，其特征在于，包括处理器和存储器，所述存储器存储有能够被所述处理器执行的机器可执行指令，所述处理器执行所述机器可执行指令以实现权利要求1-8任一项所述的音频编码方法或权利要求9所述的音频解码方法。

13.一种机器可读存储介质，其特征在于，所述机器可读存储介质存储有机器可执行指令，所述机器可执行指令在被处理器调用和执行时，所述机器可执行指令促使所述处理器实现权利要求1-8任一项所述的音频编码方法或权利要求9所述的音频解码方法。