CN110312146A

CN110312146A - 音频处理方法、装置、电子设备和存储介质

Info

Publication number: CN110312146A
Application number: CN201910490563.6A
Authority: CN
Inventors: 安爱辉; 高睿; 纪东方
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd; Shanghai Xiaodu Technology Co Ltd
Priority date: 2019-06-06
Filing date: 2019-06-06
Publication date: 2019-10-08
Anticipated expiration: 2039-06-06
Also published as: US11137974B2; US20200387343A1; JP6999631B2; CN110312146B; JP2020202549A

Abstract

本申请提供一种音频处理方法、装置、电子设备和存储介质，该方法包括：对待处理音频进行切分处理，获取N个音频段，N为大于或等于2的整数；根据每个音频段的最大音量值，获取目标序列，目标序列包括：按照最大音量值从大到小排序的M个音频段的最大音量值，M为小于N的正整数；根据目标序列，获取待处理音频的音量调整参数，音量调整参数用于将待处理音频的播放音量调整为目标音量。本申请提供的音频处理方法可以通过预先获取的音量调整参数对播放的音频的音量进行调整进行处理，进而使得音频的播放音量调整为目标音量，避免了用户频繁调节音频的音量的问题。

Description

音频处理方法、装置、电子设备和存储介质

技术领域

本申请涉及智能终端领域，尤其涉及一种音频处理方法、装置、电子设备和存储介质。

背景技术

随着智能终端的普及，用户通常会使用智能终端播放音乐、广播或其他音频。

由于音频来源的不同(例如，提供方不同)，导致音频在经终端播放时的音量也不同，可能会导致音频播放时的音量过大或过小，因此需要用户频繁调节音量。例如，终端播放音乐A时的音量为30db，但播放广播B时的音量变为10db，音量的突然减小可能使得用户听不清广播B的内容，用户需要调高音量。

发明内容

本申请提供一种音频处理方法、装置、电子设备和存储介质，避免了用户频繁调节音频的音量的问题。

本申请的第一方面提供一种音频处理方法，其特征在于，包括：

对待处理音频进行切分处理，获取N个音频段，所述N为大于或等于2的整数；

根据每个所述音频段的最大音量值，获取目标序列，所述目标序列包括：按照最大音量值从大到小排序的M个音频段的最大音量值，所述M为小于所述N的正整数；

根据所述目标序列，获取所述待处理音频的音量调整参数，所述音量调整参数用于将所述待处理音频的播放音量调整为目标音量。

本申请的第二方面提供一种音频处理方法，包括：

接收来自服务器的音频信息，所述音频信息中包括所述待处理音频的链接地址和所述音量调整参数；

根据所述待处理音频的链接地址获取所述待处理音频；

根据所述音量调整参数播放所述待处理音频。

本申请的第三方面提供一种音频处理装置，包括：

处理模块，用于对待处理音频进行切分处理，获取N个音频段，所述N为大于或等于2的整数；根据每个所述音频段的最大音量值，获取目标序列，所述目标序列包括：按照最大音量值从大到小排序的M个音频段的最大音量值，所述M为小于所述N的正整数；根据所述目标序列，获取所述待处理音频的音量调整参数，所述音量调整参数用于将所述待处理音频的播放音量调整为目标音量。

本申请的第四方面提供一种音频处理装置，包括：

收发模块，用于接收来自服务器的音频信息，所述音频信息中包括所述待处理音频的链接地址和所述音量调整参数；

处理模块，用于根据所述待处理音频的链接地址获取所述待处理音频，并根据所述音量调整参数播放所述待处理音频。

本申请的第五方面提供一种电子设备，包括：至少一个处理器和存储器；

所述存储器存储计算机执行指令；

所述至少一个处理器执行所述存储器存储的计算机执行指令，使得所述音频处理装置执行第一方面或第二方面上述音频处理方法。

本申请的第六方面提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机执行指令，当所述计算机执行指令被处理器执行时，实现上述第一方面或第二方面音频处理方法。

附图说明

图1为本申请提供的音频处理方法适用的场景示意图；

图2为本申请提供的音频处理方法的流程示意图一；

图3为本申请提供的音频处理方法的流程示意图二；

图4为本申请提供的获取音量调整参数的流程示意图；

图5为本申请提供的终端根据音量调整参数播放待处理音频的方法的流程示意图；

图6为本申请提供的一音频处理装置的结构示意图；

图7为本申请提供的另一音频处理装置的结构示意图；

图8为本申请提供的电子设备的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合本申请的实施例，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

为了解决现有技术中，音频的来源不同导致的终端播放音频的音量不同，进而造成的用户需要频繁调节音量的问题，本申请提供一种音频处理方法，通过预先对音频进行处理分析获取音频的音量调整参数，采用该音量调整参数已达到对所述待处理音频的播放音量调整为目标音量的目的。下面结合具体的应用场景和实施例对本申请提供的音频处理方法进行说明。

图1为本申请提供的音频处理方法适用的场景示意图。如图1所示，该场景中可以包括：服务器和终端。其中，服务器可以为云端服务器，该云端服务器可以为终端提供音频。终端可以包括但不限于为集成有音频播放功能的移动终端或固定终端。移动终端设备包括但不限于手机、个人数字助理(Personal Digital Assistant，简称：PDA)、平板电脑、便携设备(例如，便携式计算机、袖珍式计算机或手持式计算机)等。固定终端包括但不限于台式计算机、影音设备、智能电视、智能音箱等。

下面结合图2从服务器和终端交互的角度对本申请提供的音频处理方法进行说明。图2为本申请提供的音频处理方法的流程示意图一。如图2所示，本实施例提供的音频处理方法可以包括：

S201，服务器对待处理音频进行切分处理，获取N个音频段，N为大于或等于2的整数。

本实施例中可以对待处理音频进行切分处理，获取N个音频段。可选的，切分处理的方式可以为逐帧切分、周期性切分、每秒切分等。其中，N为大于或等于2的整数。

其中，逐帧切分可以为根据形成待处理音频的多帧音频的时间顺序进行切分，即将每帧音频为一个音频段。例如，待处理音频信息括有2000帧音频，则每一帧音频可以为一个音频段。

周期性切分可以为每隔相同的时间对待处理音频进行一次切分，例如，从待处理音频的起始时间开始，每隔250ms对待处理音频进行一次切分，即获取N个音频段中每个音频段均为250ms。

每秒切分可以为对每秒对应的音频切分为m帧，然后在每秒内获取任意的p帧，其中，在每秒内获取的p帧可以为一个音频段。例如，一个时长为2s的音频，则将2s的音频先切分成两个1s的音频，再将每个1s的音频切分成m帧，在每个1s的音频对应的m帧中获取p帧，则将该p帧作为一个音频段。应理解，m为大于2的整数，p为小于m的正整数。本实施例中对待处理音频进行切分处理的处理方式不做限制。

S202，服务器根据每个音频段的最大音量值，获取目标序列，目标序列包括：按照最大音量值从大到小排序的M个音频段的最大音量值，M为小于N的正整数。

本实施例中，服务器中可以存储有待处理音频的每个时间点的音量值，其中，每个时间点的音量值可以为待处理音频在每毫秒的音量值。本实施例中按照上述201中任一种的切分方式获取的音频段中可以包括：至少一个时间点的音频。例如，逐帧切分的方式中一个音频段为一帧音频，该一帧音频中可以包括至少一个时间点的音频。周期性切分的方式中一个音频段为250ms的音频，即也包括多个时间点的音频。

其中，可以根据每个音频段中每个时间点的音量值，确定每个音频段的最大音量值，进而根据每个音频段的最大音量值，获取目标序列。本实施例中的目标序列包括：按照最大音量值从大到小排序的M个音频段的最大音量值，M为小于N的正整数。

可选的，本实施例中可以将N个音频段中每个音频段的最大音量值按照从大到小的顺序进行排列，获取排序在前M的最大音量值，组成目标序列。例如，N为8，且8个音频段对应的最大音量值按照从大到小的顺序进行排列分别为30db、28db、27db、24db、22db、21db、20db和19db。若M为5，则该8个音频段对应的目标序列为：{30db、28db、27db、24db、22db}。

可选的，目标序列中的M可以为预设值，其中，对于不同的待处理音频，该M为相同的。可选的，本实施例中为了更为快速准确的确定目标序列，进而能够更为快速准确的获取待处理音频的音量调整参数，目标序列中的M也可以为根据待处理音频的属性确定的。例如，待处理音频的属性可以为待处理音频的时长。对应的，对于不同时长的待处理音频，M不同；如时长越小的待处理音频，M越小，时长越大的待处理音频，M越大。则待处理音频的时长较小，其音量的突变可能性也就越小，则可以选取较小的M，即较少的最大音量值，便能够快速的确定目标序列，而对于时长较大的待处理音频，其音量的变化可能性越大，则选取较大的M，即较多的最大音量值，以便能够获取更为准确的目标序列。

可选的，待处理音频的属性可以为待处理音频的类型。对应的，对于不同类型的待处理音频，M不同。例如，有声书类的音频由于其本身音量较为平缓，突变可能性较小，则可以确定较小的M，对于音乐类的音频，由于其分前奏和副歌部分，音频音量的变化可能较大，则可以确定较大的M。

可选的，本实施例中的服务器中预先设置有待处理音频的属性和目标序列中的M的对应关系，因此，可以在确定目标序列时根据待处理音频的属性，将排序后的N个音频段的最大音量值中排序在前M个的最大音量值作为目标序列。

S203，服务器根据目标序列，获取待处理音频的音量调整参数，音量调整参数用于将待处理音频的播放音量调整为目标音量。

本实施例中的音量调整参数用于将待处理音频的播放音量调整为目标音量。其中，目标序列中包括M个的最大音量值，可选的，音量调整参数可以为该M个的最大音量值的均值。即该音量调整参数能够表明待处理音频的音量指标，进而使得终端根据待处理音频的音量指标将待处理音频的播放音量调整为目标音量。其中，对于终端如何根据音量调整参数将待处理音频的播放音量调整为目标音量在下述实施例中进行详细说明。

可选的，本实施例中结合图3对服务器和终端完整的交互的过程进行说明。图3为本申请提供的音频处理方法的流程示意图二。本实施例提供的音频处理方法在S201之前还可以包括：

S204，终端向服务器发送音频请求信息，音频请求信息用于指示服务器获取待处理音频。

对应的，服务器接收终端发送的音频请求信息。

示例性的，终端为智能音响时，智能音箱可以与用户之间进行语音交互。在用户想要听音乐时，例如可以说出“播放一首歌曲A”，对应的，智能音箱通过接收并分析用户的音频，以获取用户的音频请求语义。智能音箱可以根据用户的音频请求语义向服务器发送音频请求信息，对应的，该音频请求信息用于指示服务器获取待处理音频，该待处理音频即为“歌曲A”。

示例性的，终端为智能手机时，用户可以在终端界面上输入“歌曲A”的名称，以触发终端向服务器发送音频请求信息，对应的，该音频请求信息用于指示服务器获取“歌曲A”。

应理解，对于不同的应用场景，终端向服务器发送音频请求信息的方式可能不同。但该音频请求信息用于指示服务器获取待处理音频。

S205，服务器根据音频请求信息，获取待处理音频。

服务器在接收到音频请求信息后，可以根据该音频请求信息，获取待处理音频。可选的，服务器可以根据音频请求信息指示的待处理音频，在服务器本地的数据库中查询是否包含有该待处理音频。

对应的，在S203之后还可以包括：

S206，服务器向终端发送音频信息，音频信息中包括待处理音频的链接地址和音量调整参数，音频信息用于指示终端根据待处理音频的链接地址获取待处理音频，并根据音量调整参数播放待处理音频。

对应的，终端接收来自服务器的音频信息。

本实施例中的音频信息中包括待处理音频的链接地址和音量调整参数。可选的，本实施例中的待处理音频的链接地址可以为统一资源定位符(Uniform ResourceLocation，URL)。其中，音频信息用于指示终端根据待处理音频的链接地址获取待处理音频，并根据音量调整参数播放待处理音频。

可选的，服务器在向终端发送音频信息时可以采用字段的方式将音量调整参数存储在音频信息中。

S207，终端根据待处理音频的链接地址获取待处理音频。

本实施例中对待处理音频的链接地址的形式不做限制，但服务器和终端可以具有约定的加解密方式或约定协议，以使终端在接收到音频信息时，可以对音频信息进行解密，以获取待处理音频的链接地址和音量调整参数。对应的，上述服务器在向终端发送音频信息时，可以采用对应的加密方式对音频信息进行封装加密。

其中，本实施例中当服务器未直接向终端发送待处理音频，减少了音频信息的占用带宽。对应的，终端在获取待处理音频的链接地址后，可以根据待处理音频的链接地址获取待处理音频。其中，获取待处理音频可以为根据该待处理音频的链接地址，下载该待处理音频。

S208，终端根据音量调整参数播放待处理音频。

依据上述S203中的相关描述，音量调整参数能够表明待处理音频的音量指标，进而使得终端根据音量调整参数播放待处理音频时，可以将待处理音频的播放音量调整为目标音量进行播放。应理解，目标音量可以为预先设置的目标音量值。例如，该目标音量值可以为-3db。

本申请提供一种音频处理方法，该方法包括：对待处理音频进行切分处理，获取N个音频段，N为大于或等于2的整数；根据每个音频段的最大音量值，获取目标序列，目标序列包括：按照最大音量值从大到小排序的M个音频段的最大音量值，M为小于N的正整数；根据目标序列，获取待处理音频的音量调整参数，音量调整参数用于将待处理音频的播放音量调整为目标音量。本申请提供的音频处理方法可以通过预先获取的音量调整参数对播放的音频的音量进行调整进行处理，进而使得音频的播放音量调整为目标音量，避免了用户频繁调节音频的音量的问题。

下面结合图4对上述实施例S203中服务器根据目标序列获取音量调整参数的过程进行说明。为了更好的说明获取音量调整参数的过程，首先对本实施例中的目标序列，以及获取目标序列的方式进行说明。图4为本申请提供的获取音量调整参数的流程示意图。如图4所示，对应的上述实施例中的S202可以包括：

S2021，根据每个音频段中每个采样点的音频量化值，确定每个音频段的最大音频量化值。

本实施例中服务器中还可以存储有待处理音频的音频数据，该音频数据可以为待处理音频的采样点和音频量化值的对应关系。其中，采样点指的是采样时间点，其中该采样时间点可以为上述S201中的时间点。音频量化值指的是对应的采样点的音频信号经量化处理后的量化值。其中，量化处理是指把采样点的音频信号的模拟信号振幅值化，即根据音频信号的模拟信号的值的范围确定音频量化值。音频量化值的位数越大，就像表示颜色的位数一样(8位表示256种颜色，16位表示65536种颜色)，音频的解析度就越高，越能细化音频信号的幅度变化。

其中，在获取N个音频段后，可以根据存储的待处理音频的采样点和音频量化值的对应关系，获取N个音频段中每个采样点的音频量化值。进而能够在每个音频段中确定最大音频量化值。

示例性的，N为2，其中每个音频段中有三个采样点，第一个音频段中的三个采样点对应的音频量化值分别为10000、15000和20000，第二个音频段中的三个采样点对应的音频量化值分别为15000、20000和25000。对应的，该两个音频段中的最大音频量化值分别为20000和25000。

S2022，根据每个音频段的最大音频量化值，获取每个音频段的最大音量值。

本实施例中的每个音频段的最大音量值为：每个音频段的最大音频量化值对应的音量值。其中，音频量化值和音量值具有对应的转换关系，根据每个采样点的音频量化值可以获取每个采样点对应的音量值。相应的，根据每个音频段的最大音频量化值，可以获取每个音频段的最大音量值。

其中，音频量化值和音量值之间的对应关系可如下公式一所示：

其中，Y表示音频量化值，X表示音量值。

示例性的，在获取每个音频段的最大音频量化值后，可以根据还是那个数公式一获取每个音频段的最大音量值。

S2023，按照最大音量值从大到小的顺序，对N个音频段的最大音量值排序，得到初始序列。

在获取每个音频段的最大音量值后，可以按照最大音量值从大到小的顺序，对N个音频段的最大音量值排序，得到初始序列。

示例性的，如N为8，且8个音频段对应的最大音量值按照从大到小的顺序进行排列分别为30db、28db、27db、24db、22db、21db、20db和19db。对应的，该初始序列为{30db、28db、27db、24db、22db、21db、20db和19db}。

S2024，根据待处理音频的时长，以及音频的时长和目标序列中包括的音频段的最大音量值个数的对应关系，确定M。

本实施例中，具有不同时长的待处理音频，其对应的目标序列中的最大音量值个数也不同。可选的，如时长越小的待处理音频，M越小，时长越大的待处理音频，M越大。因为待处理音频的时长较小，其音量的突变可能性也就越小，则可以选取较小的M，即根据较少的最大音量值，便能够快速的确定目标序列，而对于时长较大的待处理音频，其音量的变化可能性越大，则需要选取较大的M，即较多的最大音量值，以便能够获取更为准确的目标序列。

示例性的，下表一示出了音频的时长和目标序列中包括的音频段的最大音量值个数的对应关系M的对应关系，应理解，表一仅为该对应关系的一种形式。

表一

待处理音频的时长T(分钟)	目标序列中的最大音量值的个数M
		0＜T≤1	1
1＜T≤5	5
		5＜T	10

如表一所示，若待处理音频的时长在1分钟至5分钟之间内时，根据该音频的时长和目标序列中包括的音频段的最大音量值个数的对应关系，可以确定待处理音频对应的目标序列中包括的最大音量值个数M为5。

S2025，从初始序列中提取前M个最大音量值，获取目标序列。

本实施例中，可以在初始序列，即N个最大音量值中，提取前M个最大音量值，获取目标序列。也就是说，N个最大音量值中前M个最大音量值形成了目标序列。

示例性的，若待处理音频的时长在1分钟至5分钟之间内时，M为5。其中，当初始序列为{30db、28db、27db、24db、22db、21db、20db和19db}时，目标序列则为{30db、28db、27db、24db、22db}。

上述对本申请中获取目标序列的方式进行了详细说明，在上述S2021-S2025的基础上，下面结合图4进一步对本申请提供的获取音量调整参数的过程进行说明。如图4所示，本实施例中获取音量调整参数S203可以包括：

S2031，若目标序列中所有相邻的两个最大音量值的差值均小于或等于差值阈值，则根据目标序列的最大音量值均值，以及待处理音频的时长，获取待处理音频的音量值均值。

目标序列中包括从大到小排列的M个最大音量值。应理解，本实施例中的音量调整参数为待处理音频的音量值均值。

本实施例中，对目标序列中相邻两个最大音量值做差获取相邻两个最大音量值的差值。其中，若目标序列中所有相邻的两个最大音量值的差值均小于或等于差值阈值，则根据目标序列的最大音量值均值，以及待处理音频的时长，获取待处理音频的音量值均值。

示例性的，如目标序列则为{30db、28db、27db、25db、24db}，差值阈值为3db。目标序列中相邻两个最大音量值的差值均小于差值阈值，则获取该目标序列中最大音量值均值(如为26.8db)和待处理音频的时长，获取待处理音频的音量值均值。

S2032，若目标序列中，存在相邻的两个最大音量值的差值大于差值阈值，则从目标序列中删除位于较大最大音量值之后的所有最大音量值，得到处理后的目标序列，处理后的目标序列中所有相邻的两个最大音量值的差值均小于或等于差值阈值。

本实施例中，对目标序列中相邻两个最大音量值做差获取相邻两个最大音量值的差值。其中，若目标序列中，存在相邻的两个最大音量值的差值大于差值阈值，则从目标序列中删除位于较大最大音量值之后的所有最大音量值，得到处理后的目标序列。

示例性的，如目标序列则为{30db、28db、27db、22db、21db}，差值阈值为3db。目标序列中27db和22db之间的差值大于该差值阈值，则从目标序列中删除位于较大最大音量值27db之后的所有最大音量值，得到处理后的目标序列{30db、28db、27db}。

对应的，处理后的目标序列中所有相邻的两个最大音量值的差值均小于或等于差值阈值。如上所示，处理后的目标序列{30db、28db、27db}中所有相邻的两个最大音量值的差值均小于3db。

S2033，将处理后的目标序列的最大音量值均值作为目标序列的最大音量值均值，并根据目标序列的最大音量值均值，以及待处理音频的时长，获取待处理音频的音量值均值。

本实施例中，可以将目标序列处理后得到的处理后的目标序列的最大音量值均值作为目标序列的最大音量值均值。示例性的，如将处理后的目标序列{30db、28db、27db}的均值28.3db作为目标序列的最大音量值均值。进一步的，根据目标序列的最大音量值均值28.3db，以及待处理音频的时长，获取待处理音频的音量值均值。其中，根据目标序列的最大音量值均值，以及待处理音频的时长，获取待处理音频的音量值均值的过程可以参照S2023中的相关描述，在此不做赘述。

应理解，上述S2031和S2032-S2033为择一执行的方式，没有先后顺序的区别。

本实施例中，根据目标序列中最大音量值均值和待处理音频的时长，获取待处理音频的音量值均值的具体方式可以为：

1、对于待处理音频的时长小于或等于时长阈值，则将目标序列的最大音量值均值作为候选均值，根据候选均值，获取待处理音频的音量值均值。

2、若待处理音频的时长大于时长阈值，则根据目标序列确定平滑处理系数；根据平滑处理系数对目标序列的最大音量值均值进行处理，获取候选均值；并根据候选均值，获取待处理音频的音量值均值。

本实施例中，服务器中存储有时长阈值，如该时长阈值为5分钟。由于目标序列(包括上述处理后的目标序列)中所有相邻的两个最大音量值的差值均小于或等于差值阈值，即该目标序列用于表示待处理音频的最大音量值之间平稳变化，没有突变。对于时长较短的待处理音频，如时长小于5分钟的音频，音频前后发生突变的可能性较小。而对于时长较长的待处理音频，如时长大于5分钟的音频，在前5分钟，音频前后可能性为发生突变，但随着时长的正常，前后的音频的音量的变化发生突变的可能性较大，因此进一步需要对时长大于时长阈值的待处理音频的目标序列的最大音量值均值进行平滑处理。

本实施例中可以根据目标序列确定平滑处理系数。可选的，是根据目标序列中的最大音量值确定平滑处理系数。例如，本实施例中可以预先设置获取根据目标序列中的最大音量值确定平滑处理系数的规则。如，根据上述表二所示，时长大于5分钟的音频，目标序列中的最大音量值的个数为10个。为了能够尽可能的体现待处理音频的音量变化，本实施例中可以获取目标序列中第一个最大音量值和第五个最大音量值的商值。根据该商值，和预先设置的商值与平滑处理系数的对应关系，确定目标序列的平滑处理系数。

如下表二所示的为商值与平滑处理系数的对应关系：

表二

商值	平滑处理系数
		1.122≤Max(1)/Max(5)＜1.259	1.122
1.259≤Max(1)/Max(6)＜1.413	1.259
		1.413≤Max(1)/Max(6)	1.413

如表二所示，Max(1)、Max(5)分别为目标序列中的第一个最大音量值、第五个最大音量值，Max(1)/Max(5)为第一个最大音量值和第五个最大音量值的商值。其中，该商值与平滑处理系数具有对应关系，本实施例中可以根据待处理音频中的第一个最大音量值和第五个最大音量值的商值，以及商值与平滑处理系数的对应关系，确定待处理音频的目标序列的平滑处理系数。

可选的，本实施例中根据平滑处理系数对目标序列的最大音量值均值进行处理，即为将目标序列的最大音量值均值除以该平滑处理系数，得到候选均值。

下述对本实施例中根据候选均值，获取待处理音频的音量值均值的方式进行说明：

本实施例中在获取候选均值后，可以将该候选均值作为假设的最终待处理音频的音量值均值对待处理音频的音量值进行处理，检测根据该候选均值处理对处理待处理音频后获取的音量值是否超出预设音量范围的上限，是否需要对候选均值进行处理。其中，预设音量范围是预先设置的。

可选的，本实施例中根据候选均值、预设音量值以及目标序列中的第一个最大音量值，获取截幅音量值。

其中，可以根据如下公式二获取截幅音量值g：

其中，M_avg′表示候选均值，A表示预设音量值，Max(1)为目标序列中的第一个最大音量值。

其中，若截幅音量值小于或等于0，则确定根据该候选均值处理待处理音频后获取的音量值未超出预设音量范围的上限，可以直接将候选均值作为待处理音频的音量值均值。

若截幅音量值大于0，则确定根据该候选均值，处理待处理音频后获取的音量值超出预设音量范围的上限，则对候选均值进行缩小处理，使得根据缩小处理后的候选均值获取的截幅音量值小于或等于0，并将缩小处理后的候选均值作为待处理音频的音量值均值。也就是说，缩小处理后的候选均值根据上述公式二获取的截幅音量值g小于或等于0，则将缩小处理后的候选均值作为待处理音频的音量值均值。

其中，候选均值进行缩小处理的方式可以为按照一定的缩小间隔对进行缩小处理，如，候选均值为30db，则可以按照每次缩小2db的方式对候选均值进行缩小处理。

本实施例中在获取目标序列时可以依据待处理音频的时长，灵活的确定目标序列中包括的最大音量值的个数，可以快速准确的获取目标序列；进一步的，本实施例中在获取目标序列后，还对目标序列中的最大音量值进行抖动处理(即从目标序列中删除位于较大最大音量值之后的所有最大音量值)，以及根据待处理音频的时长对目标序列的最大音量值均值进行处理，使得获取的待处理音频的音量值均值，即音量调整参数更为准确，更能够贴合的表征待处理音频的音量特征，进而使得终端根据该音量调整参数对待处理音频进行准确处理，即将待处理音频的播放音量调整为目标音量。

下面结合图5从终端的角度对终端根据对本申请提供的音频处理方法进行进一步说明，图5为本申请提供的终端根据音量调整参数播放待处理音频的方法的流程示意图。如图5所示，本实施例提供的音频处理方法可以包括：

S2081，根据音量调整参数，对待处理音频进行音量调整。

可选的，本实施例中终端中存储有预设音量值，该预设音量值如为-3db。本实施例中终端可以根据音量调整参数和预设音量值，获取待处理音频的音量调整系数。其中，音量调整参数为上述图4中获取的待处理音频的音量值均值。

其中，可以采用下述公式三获取待处理音频的音量调整系数：

其中，G表示待处理音频的音量调整系数，M_avg表示音量调整参数，A表示预设音量值。

在获取待处理音频的音量调整系数后，可以根据音量调整系数，调整待处理音频的每帧音频的音量。其中，音频信息中还包括：待处理音频的每个音频段中每个采样点的音频量化值，根据音量调整系数，以及待处理音频的每个音频段中每个采样点的音频量化值，调整待处理音频中每帧音频的音量。

可选的，终端可以在获取待处理音频后，可以根据待处理音频的每个音频段中每个采样点的音频量化值，确定每个音频段中每个采样点的音量值，即确定待处理音频中每个采样点的音量值。其中，根据每个采样点的音频量化值确定每个采样点的音量值的方式可以根据上述公式一获取。

本实施例中可以对待处理音频进行分帧处理，获取每帧音频中采样点的音量值。在终端获取音量调整系数，可以调整待处理音频的每帧音频的音量。可选的，可以将每帧音频中每个采样点的音量值与该音量调整系数相乘，确定每帧音频中每个采样点的目标音量。

可选的，若调整后的待处理音频的每帧音频的音量均处于音量预设范围内，则可以直接根据每帧音频中每个采样点的目标音量，对音量调整后的待处理音频进行播放。

可选的，若调整后的第x帧音频的音量未处于音量预设范围内，由于在上述实施例步骤中对待处理音频的音量上限值进行了截幅保护处理，但并未对待处理音频的音量下限值进行截幅保护处理，对应的，在调整后的第x帧音频的音量未处于音量预设范围内时，确定调整后的第x帧音频的音量的下限超出了音量预设范围的下限值，则将音量调整参数进行缩小处理，以使对第x帧音频的音量进行重新调整，使得重新调整后的第x帧音频的音量处于音量预设范围内。

例如，音量预设范围为[-4db，-2db]，则若调整后的第x帧音频的音量未处于该音量预设范围，则需要对音量调整参数进行缩小处理，即对待处理音频的音量值均值进行缩小处理。其中，缩小处理的方式可以为按照一定的缩小间隔对音量调整参数进行缩小处理，如，音量调整参数为30db，则可以按照每次缩小2db的方式对音量调整参数进行缩小处理。进一步的，根据缩小处理后的音量调整参数重新调整第x帧音频的音量，以使重新调整后的第x帧音频的音量处于音量预设范围内。也就是说，本实施例中根据缩小处理后的音量调整参数重新调整第x帧音频的音量，处于音量预设范围内。

S2082，播放音量调整后的待处理音频。

按照待处理音频中每帧音频的时间顺序，逐帧播放调整后的待处理音频。其中，播放每帧音频调整后的待处理音频可以为：按照每帧音频中每个采样点的目标音量，逐帧播放音量调整后的待处理音频。

本实施例中，终端可以根据音量调整参数对待处理音频中的每帧音频的播放音量调整为目标音量，且能够使得每帧音频调整后的目标音量均处于预设音量范围内，保证了来源不同的音频播放时的音量均处于预设音量范围内，避免了用户频繁调节音量的问题。

可选的，在本申请提供的另一实施例中，上述实施例中的S201-S203，以及S208中的步骤均可由终端执行，在该种情况下，S204-S207中的步骤可以不执行。

图6为本申请提供的一音频处理装置的结构示意图。该音频处理装置可以为服务器或终端。如图6所示，该音频处理装置600包括：处理模块601和收发模块602。

处理模块601，用于对待处理音频进行切分处理，获取N个音频段，N为大于或等于2的整数；根据每个音频段的最大音量值，获取目标序列，目标序列包括：按照最大音量值从大到小排序的M个音频段的最大音量值，M为小于N的正整数；根据目标序列，获取待处理音频的音量调整参数，音量调整参数用于将待处理音频的播放音量调整为目标音量。

可选的，音量调整参数为待处理音频的音量值均值。

处理模块601，具体用于若目标序列中所有相邻的两个最大音量值的差值均小于或等于差值阈值，则根据目标序列的最大音量值均值，以及待处理音频的时长，获取待处理音频的音量值均值；或者，

若目标序列中，存在相邻的两个最大音量值的差值大于差值阈值，则从目标序列中删除位于较大最大音量值之后的所有最大音量值，得到处理后的目标序列，处理后的目标序列中所有相邻的两个最大音量值的差值均小于或等于差值阈值；将处理后的目标序列的最大音量值均值作为目标序列的最大音量值均值，并根据目标序列的最大音量值均值，以及待处理音频的时长，获取待处理音频的音量值均值。

可选的，处理模块601，具体用于若待处理音频的时长小于或等于时长阈值，则将目标序列的最大音量值均值作为候选均值；若待处理音频的时长大于时长阈值，则根据目标序列确定平滑处理系数；根据平滑处理系数对目标序列的最大音量值均值进行处理，获取候选均值；根据候选均值，获取待处理音频的音量值均值。

可选的，处理模块601，具体用于根据候选均值、预设音量值以及目标序列中的第一个最大音量值，获取截幅音量值；若截幅音量值小于或等于0，则将候选均值作为待处理音频的音量值均值；若截幅音量值大于0，则对候选均值进行缩小处理，使得根据缩小处理后的候选均值获取的截幅音量值小于或等于0，并将缩小处理后的候选均值作为待处理音频的音量值均值。

可选的，每个音频段的最大音量值为：每个音频段的最大音频量化值对应的音量值。

处理模块601，具体用于根据每个音频段中每个采样点的音频量化值，确定每个音频段的最大音频量化值；根据每个音频段的最大音频量化值，获取每个音频段的最大音量值；按照最大音量值从大到小的顺序，对N个音频段的最大音量值排序，得到初始序列；根据待处理音频的时长，以及音频的时长和目标序列中包括的音频段的最大音量值个数的对应关系，确定M；从初始序列中提取前M个最大音量值，获取目标序列。

可选的，处理模块601，具体用于根据音量调整参数，对待处理音频进行音量调整；播放音量调整后的待处理音频。

可选的，处理模块601，具体用于根据音量调整参数和预设音量值，获取待处理音频的音量调整系数；根据音量调整系数，调整待处理音频的每帧音频的音量。

可选的，处理模块601，具体用于根据音量调整系数，以及待处理音频的每个音频段中每个采样点的音频量化值，调整待处理音频中每帧音频的音量。

可选的，处理模块601，具体用于若调整后的第x帧音频的音量未处于音量预设范围内，则将音量调整参数进行缩小处理；根据缩小处理后的音量调整参数重新调整第x帧音频的音量，以使重新调整后的第x帧音频的音量处于音量预设范围内。

应理解，当音频处理装置为终端时，其中的收发模块601和处理模块602可不执行以下动作。

收发模块602，用于向终端发送音频信息，音频信息中包括待处理音频的链接地址和音量调整参数，音频信息用于指示终端根据待处理音频的链接地址获取待处理音频，并根据音量调整参数播放待处理音频。

可选的，音频信息中还包括：待处理音频的每个音频段中每个采样点的音频量化值。

可选的，收发模块602，还用于接收终端发送的音频请求信息，音频请求信息用于指示获取待处理音频。

处理模块601，还用于根据音频请求信息，获取待处理音频。

本实施例提供的音频处理装置与上述音频处理方法实现的原理和技术效果类似，在此不作赘述。

图7为本申请提供的另一音频处理装置的结构示意图。该音频处理装置可以为终端。如图7所示，该音频处理装置700包括：处理模块701和收发模块702。

收发模块702，用于接收来自服务器的音频信息，音频信息中包括待处理音频的链接地址和音量调整参数；

处理模块701，用于根据待处理音频的链接地址获取待处理音频；根据音量调整参数播放待处理音频。

可选的，收发模块702，还用于向服务器发送音频请求信息，音频请求信息用于指示服务器获取待处理音频。

处理模块701，具体用于根据音量调整参数，对待处理音频进行音量调整；播放音量调整后的待处理音频。

处理模块701，具体用于根据音量调整参数和预设音量值，获取待处理音频的音量调整系数；根据音量调整系数，调整待处理音频的每帧音频的音量。

处理模块701，具体用于根据音量调整系数，以及待处理音频的每个音频段中每个采样点的音频量化值，调整待处理音频中每帧音频的音量。

处理模块701，具体用于若调整后的第x帧音频的音量未处于音量预设范围内，则将音量调整参数进行缩小处理；根据缩小处理后的音量调整参数重新调整第x帧音频的音量，以使重新调整后的第x帧音频的音量处于音量预设范围内。

图8为本申请提供的电子设备的结构示意图。该电子设备例如可以是终端设备或服务器，即上述图6或图7中的音频处理装置。如图8所示，该电子设备800包括：存储器801和至少一个处理器802。

存储器801，用于存储程序指令。

处理器802，用于在程序指令被执行时实现本实施例中的音频处理方法，具体实现原理可参见上述实施例，本实施例此处不再赘述。

该电子设备800还可以包括及输入/输出接口803。

输入/输出接口803可以包括独立的输出接口和输入接口，也可以为集成输入和输出的集成接口。其中，输出接口用于输出数据，输入接口用于获取输入的数据。

本申请还提供一种可读存储介质，可读存储介质中存储有执行指令，当电子设备的至少一个处理器执行该执行指令时，当计算机执行指令被处理器执行时，实现上述实施例中的音频处理方法。

本申请还提供一种程序产品，该程序产品包括执行指令，该执行指令存储在可读存储介质中。电子设备的至少一个处理器可以从可读存储介质读取该执行指令，至少一个处理器执行该执行指令使得电子设备实施上述的各种实施方式提供的音频处理方法。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个模块或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或模块的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理模块，即可以位于一个地方，或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能模块可以集成在一个处理模块中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用硬件加软件功能模块的形式实现。

上述以软件功能模块的形式实现的集成的模块，可以存储在一个计算机可读取存储介质中。上述软件功能模块存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(英文：processor)执行本申请各个实施例所述方法的部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(英文：Read-Only Memory，简称：ROM)、随机存取存储器(英文：Random Access Memory，简称：RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

在上述服务器或者终端的实施例中，应理解，处理模块可以是中央处理单元(英文：Central Processing Unit，简称：CPU)，还可以是其他通用处理器、数字信号处理器(英文：Digital Signal Processor，简称：DSP)、专用集成电路(英文：Application SpecificIntegrated Circuit，简称：ASIC)等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请所公开的方法的步骤可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。

最后应说明的是：以上各实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述各实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。

Claims

1.一种音频处理方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述音量调整参数为所述待处理音频的音量值均值，所述根据所述目标序列，获取所述待处理音频的音量调整参数，包括：

若所述目标序列中所有相邻的两个最大音量值的差值均小于或等于差值阈值，则根据所述目标序列的最大音量值均值，以及所述待处理音频的时长，获取所述待处理音频的音量值均值；或者，

若所述目标序列中，存在相邻的两个最大音量值的差值大于所述差值阈值，则从所述目标序列中删除位于较大最大音量值之后的所有最大音量值，得到处理后的目标序列，所述处理后的目标序列中所有相邻的两个最大音量值的差值均小于或等于所述差值阈值；

将所述处理后的目标序列的最大音量值均值作为所述目标序列的最大音量值均值，并根据所述目标序列的最大音量值均值，以及所述待处理音频的时长，获取所述待处理音频的音量值均值。

3.根据权利要求2所述的方法，其特征在于，所述根据所述目标序列的最大音量值均值，以及所述待处理音频的时长，获取所述待处理音频的音量值均值，包括：

若所述待处理音频的时长小于或等于时长阈值，则将所述目标序列的最大音量值均值作为候选均值；

若所述待处理音频的时长大于时长阈值，则根据所述目标序列确定平滑处理系数；

根据所述平滑处理系数对所述目标序列的最大音量值均值进行处理，获取所述候选均值；

根据所述候选均值，获取所述待处理音频的音量值均值。

4.根据权利要求3所述的方法，其特征在于，所述根据所述候选均值，获取所述待处理音频的音量值均值，包括：

根据所述候选均值、预设音量值以及所述目标序列中的第一个最大音量值，获取截幅音量值；

若所述截幅音量值小于或等于0，则将所述候选均值作为所述待处理音频的音量值均值；

若所述截幅音量值大于0，则对所述候选均值进行缩小处理，使得根据缩小处理后的候选均值获取的截幅音量值小于或等于0，并将所述缩小处理后的候选均值作为所述待处理音频的音量值均值。

5.根据权利要求1-4任一项所述的方法，其特征在于，每个所述音频段的最大音量值为：每个所述音频段的最大音频量化值对应的音量值，所述根据每个所述音频段的最大音量值，获取目标序列，包括：

根据每个所述音频段中每个采样点的音频量化值，确定每个所述音频段的最大音频量化值；

根据每个所述音频段的最大音频量化值，获取每个所述音频段的最大音量值；

按照最大音量值从大到小的顺序，对N个所述音频段的最大音量值排序，得到初始序列；

根据所述待处理音频的时长，以及音频的时长和目标序列中包括的音频段的最大音量值个数的对应关系，确定所述M；

从所述初始序列中提取前M个最大音量值，获取所述目标序列。

6.根据权利要求5所述的方法，其特征在于，所述方法还包括：

向终端发送音频信息，所述音频信息中包括所述待处理音频的链接地址和所述音量调整参数，所述音频信息用于指示所述终端根据待处理音频的链接地址获取所述待处理音频，并根据所述音量调整参数播放所述待处理音频。

7.根据权利要求6所述的方法，其特征在于，所述音频信息中还包括：所述待处理音频的每个所述音频段中每个采样点的音频量化值。

8.根据权利要求6所述的方法，其特征在于，所述对待处理音频进行切分处理，获取N个音频段之前，还包括：

接收所述终端发送的音频请求信息，所述音频请求信息用于指示获取所述待处理音频；

根据所述音频请求信息，获取所述待处理音频。

9.根据权利要求5所述的方法，其特征在于，所述方法还包括：

根据所述音量调整参数，对所述待处理音频进行音量调整；

播放音量调整后的待处理音频。

10.根据权利要求9所述的方法，其特征在于，所述根据所述音量调整参数，对所述待处理音频进行音量调整，包括：

根据所述音量调整参数和预设音量值，获取所述待处理音频的音量调整系数；

根据所述音量调整系数，调整所述待处理音频的每帧音频的音量。

11.根据权利要求10所述的方法，其特征在于，所述根据所述音量调整系数，调整所述待处理音频的每帧音频的音量，包括：

根据所述音量调整系数，以及所述待处理音频的每个所述音频段中每个采样点的音频量化值，调整所述待处理音频中每帧音频的音量。

12.根据权利要求11所述的方法，其特征在于，所述方法还包括：

若调整后的第x帧音频的音量未处于音量预设范围内，则将所述音量调整参数进行缩小处理；

根据缩小处理后的音量调整参数重新调整所述第x帧音频的音量，以使重新调整后的所述第x帧音频的音量处于所述音量预设范围内。

13.一种音量调节方法，其特征在于，包括：

接收来自服务器的音频信息，所述音频信息中包括待处理音频的链接地址和音量调整参数；

根据所述待处理音频的链接地址获取所述待处理音频；

根据所述音量调整参数播放所述待处理音频。

14.根据权利要求13所述的方法，其特征在于，所述接收来自服务器的音频信息之前，还包括：

向所述服务器发送音频请求信息，所述音频请求信息用于指示所述服务器获取所述待处理音频。

15.根据权利要求13所述的方法，其特征在于，所述根据所述音量调整参数播放所述待处理音频，包括：

根据所述音量调整参数，对所述待处理音频进行音量调整；

播放音量调整后的待处理音频。

16.根据权利要求15所述的方法，其特征在于，所述根据所述音量调整参数，对所述待处理音频进行音量调整，包括：

17.根据权利要求16所述的方法，其特征在于，所述音频信息中还包括：所述待处理音频的每个所述音频段中每个采样点的音频量化值，所述根据所述音量调整系数，调整所述待处理音频的每帧音频的音量，包括：

18.根据权利要求17所述的方法，其特征在于，所述方法还包括：

19.一种音频处理装置，其特征在于，包括：

20.一种音频处理装置，其特征在于，包括：

收发模块，用于接收来自服务器的音频信息，所述音频信息中包括待处理音频的链接地址和音量调整参数；

21.一种电子设备，其特征在于，包括：至少一个处理器和存储器；

所述存储器存储计算机执行指令；

所述至少一个处理器执行所述存储器存储的计算机执行指令，使得所述电子设备执行权利要求1-12任一项所述的方法。

22.一种电子设备，其特征在于，包括：至少一个处理器和存储器；

所述存储器存储计算机执行指令；

所述至少一个处理器执行所述存储器存储的计算机执行指令，使得所述电子设备执行权利要求13-18任一项所述的方法。

23.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机执行指令，当所述计算机执行指令被处理器执行时，实现权利要求1-12任一项所述的方法。

24.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机执行指令，当所述计算机执行指令被处理器执行时，实现权利要求13-18任一项所述的方法。