CN114582365B

CN114582365B - 音频处理方法和装置、存储介质和电子设备

Info

Publication number: CN114582365B
Application number: CN202210480907.7A
Authority: CN
Inventors: 方博伟
Original assignee: Alibaba China Co Ltd
Current assignee: Alibaba China Co Ltd
Priority date: 2022-05-05
Filing date: 2022-05-05
Publication date: 2022-09-06
Anticipated expiration: 2042-05-05
Also published as: CN114582365A

Abstract

本说明书实施方式涉及音频处理技术领域，具体涉及一种音频处理方法和音频处理装置，以及计算机可读存储介质和电子设备，解决了采用固定数字增益模式来调节的音频音量不稳定，用户体验差的问题。该音频处理方法，通过对数字增益后的信号进行基音周期检测，若根据基音周期检测的检测数据确定数字增益后的信号中存在语音信号，调节数字增益处理的增益数值。由于基音周期检测的检测频次较高，可以缩短确定数字增益后的信号中的语音信号的存在情况的时间，以快速调节数字增益处理的增益数值，加快了数字增益处理的增益数值的调节频率，甚至可以实时地针对数字增益后的信号的大小调节增益数值，提高了进行数字增益处理后的数字增益后的信号的稳定性。

Description

音频处理方法和装置、存储介质和电子设备

技术领域

本说明书实施方式涉及音频处理技术领域，具体涉及一种音频处理方法和音频处理装置，以及计算机可读存储介质和电子设备。

背景技术

音视频通信技术在社交、娱乐、办公和在线教育等场景中的应用越来越广泛。相应地，音视频通信设备的种类也是越来越多样（比如手机、平板和电脑等）。由于音视频通信设备的多样性、人声音量大小不一等因素，导致音视频通信设备采集的音频的音量大小不一。因此，需要对音视频通信设备采集的音频进行增益调节，从而使音频的音量大小统一。

然而，相关技术采用固定数字增益模式来调节的音频音量不稳定，用户体验差，因此，相关技术中的固定数字增益模式有待改善。

发明内容

有鉴于此，本说明书实施方式提供了一种音频处理方法和音频处理装置，以及计算机可读存储介质和电子设备，解决了采用固定数字增益模式来调节的音频音量不稳定，用户体验差的问题。

第一方面，本说明书实施方式提供的一种音频处理方法，包括：对数字增益后的信号进行基音周期检测，其中，数字增益后的信号是对待处理音频信号进行数字增益处理后得到的；若根据基音周期检测的检测数据确定数字增益后的信号中存在语音信号，调节数字增益处理的增益数值。

第二方面，本说明书实施方式提供了一种音频处理装置，包括：检测模块，配置为对数字增益后的信号进行基音周期检测，得到第一语音检测数据，其中，增益音频信号为经数字增益处理后得到的音频信号；调参模块，配置为若根据第一语音检测数据确定数字增益后的信号中存在语音信号，根据第一语音检测数据调节数字增益处理的增益数值。

第三方面，本说明书实施方式提供了一种计算机可读存储介质，存储介质存储有指令，当指令由电子设备的处理器执行时，使得电子设备能够执行上述第一方面提及的音频处理方法。

第四方面，本说明书实施方式提供了一种电子设备，电子设备包括：处理器；用于存储计算机可执行指令的存储器；处理器，用于执行计算机可执行指令，以实现上述第一方面提及的音频处理方法。

第五方面，本说明书实施方式提供了一种计算机程序产品，计算机程序产品中包括指令，指令被计算机设备的处理器执行时，使得计算机设备能够执行上述第一方面提及的音频处理方法。

本说明书实施方式提供的音频处理方法，通过对数字增益后的信号进行基音周期检测，若根据基音周期检测的检测数据确定数字增益后的信号中存在语音信号，调节数字增益处理的增益数值。由于基音周期检测的检测频次较高，从而可以缩短确定数字增益后的信号中的语音信号的存在情况的时间，以快速调节数字增益处理的增益数值，加快了数字增益处理的增益数值的调节频率，甚至可以实时地针对数字增益后的信号的大小调节增益数值，提高了进行数字增益处理后的数字增益后的信号的稳定性，减少甚至避免了进行数字增益处理后的数字增益后的信号的音量忽大忽小的情况。

另外，由于基音周期检测的检测频次较高，能够加快调节数字增益处理的增益数值的频率，甚至可以实时地针对数字增益后的信号的大小调节增益数值，从而可以适用于不同类型的拾音设备。面对不同类型的拾音设备采集的音量大小不一的待处理音频信号，本说明书实施方式提供的音频处理方法能够快速的调节数字增益处理的增益数值，缓解了因拾音设备的多样性导致的音量差异，从而得到音量较统一的数字增益后的信号。

附图说明

图1a所示为本说明书一实施方式提供的音频处理方法的应用场景示意图。

图1b所示为本说明书另一实施方式提供的音频处理方法的应用场景示意图。

图1c所示为本说明书另一实施方式提供的音频处理方法的应用场景示意图。

图2所示为本说明书一实施方式提供的音频处理方法的流程示意图。

图3所示为本说明书一实施方式提供的音频处理方法的原理示意图。

图4所示为本说明书另一实施方式提供的音频处理方法的原理示意图。

图5所示为本说明书另一实施方式提供的音频处理方法的流程示意图。

图6所示为本说明书另一实施方式提供的音频处理方法的流程示意图。

图7所示为本说明书另一实施方式提供的音频处理方法的原理示意图。

图8所示为本说明书实施方式提供的音频处理装置的结构示意图。

图9所示为本说明书另一实施方式提供的音频处理装置的结构示意图。

图10所示为本说明书另一实施方式提供的音频处理装置的结构示意图。

图11所示为本说明书另一实施方式提供的音频处理装置的结构示意图。

图12所示为本说明书实施方式提供的电子设备的结构示意图。

具体实施方式

下面将结合本说明书实施方式中的附图，对本说明书实施方式中的技术方案进行清楚、完整地描述，显然，所描述的实施方式仅是本说明书实施方式一部分实施方式，而不是全部的实施方式。基于本说明书实施方式中的实施方式，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施方式，都属于本说明书实施方式保护的范围。

下面结合图1a、图1b和图1c进行应用场景的举例说明。

图1a所示为本说明书实施方式提供的音频处理方法的应用场景示意图。如图1a所示，本实施方式提及的应用场景涉及音频发送端的客户端和音频接收端的客户端。具体地，音频发送端的客户端采集待处理音频信号（即执行步骤S110），并向音频接收端的客户端发送待处理音频信号（即执行步骤S120）。对应地，音频接收端的客户端对接收的待处理音频信号进行数字增益处理，进而对数字增益后的信号进行基音周期检测，若根据基音周期检测的检测数据确定数字增益后的信号中存在语音信号，调节数字增益处理的增益数值（即执行步骤S130），并播放调节后的音频信号（即执行步骤S140）。

在另外一些实施方式中，对待处理音频信号的增益调节过程（即步骤S130）亦可以在音频发送端的客户端执行。即，待处理音频信号经音频发送端的客户端处理后再发送给音频接收端的客户端。

更具体地，本实施方式提及的应用场景可以是语音通话场景，即，音频发送端的客户端和音频接收端的客户端分别是语音通话场景中的不同通话用户的客户端。更具体地，本实施方式提及的应用场景可以是视频会议场景，即，音频发送端的客户端和音频接收端的客户端分别是视频会议场景中的不同会议参与方的客户端。更具体地，本实施方式提及的应用场景可以是在线教育场景，即音频发送端的客户端和音频接收端的客户端分别是不同角色用户（比如教师和学生）的客户端。此外，可以理解，音频发送端亦可以成为音频接收端，音频接收端亦可以成为音频发送端，对此本实施方式不再赘述。

为了进一步明确音频接收端的客户端对待处理音频信号的增益调节过程，下面结合图1b进一步举例说明。如图1b所示，音频接收端的客户端包括音频接收器110、处理器120和音频播放器130。具体地，音频接收器110用于接收待处理音频信号，并将接收的待处理音频信号发送至处理器120。处理器120用于对接收的待处理音频信号进行数字增益处理，进而对数字增益后的信号进行基音周期检测，若根据基音周期检测的检测数据确定数字增益后的信号中存在语音信号，调节数字增益处理的增益数值，并向音频播放器130发送调节后的音频信号。音频播放器130用于播放调节后的音频信号。其中，处理器120可以是客户端的处理器等硬件，音频播放器130可以是客户端的扬声器等硬件。

在一些实施方式中，客户端可以是手机、笔记本电脑以及平板电脑等终端，还可以是智能电视、虚拟现实（Virtual Reality，VR）头盔以及智能眼镜等终端。

除了上述实施方式描述的应用场景之外，本说明书的技术方案还适用于基于实时通信（Real-Time Communication，RTC）技术实现的通信场景中。RTC技术是指能够实时发送和接收文本、音频和视频等的通信技术，适用于直播、点播、视频会议、在线课堂、在线聊天室、游戏互动等场景，实现纯音频数据、视频数据等的实时传输。本申请的技术方案即可以具体应用于基于RTC实现的直播、点播、视频会议、在线课堂、在线聊天室、游戏互动等通信场景。

下面结合图1c进一步举例说明。

图1c所示为本说明书另一实施方式提供的音频处理方法的应用场景示意图。如图1c所示，本说明书实施方式提供的音频处理方法的应用场景包括：服务端140以及多个客户端150。图1c仅示出了客户端A、客户端B和客户端C。多个客户端150之间通过服务端140可以建立通信连接，在RTC场景中，服务端140用于在多个客户端150之间提供RTC服务，多个客户端150可以分别作为音频发送端或音频接收端，通过服务端140实现实时通信。

用户通过客户端150可与服务端140进行交互以接收其它客户端150发送的数据，或将数据发送至其它客户端150等。在RTC场景中，可以是用户通过客户端150向服务端140发布数据流，服务端140将该数据流推送至订阅该数据流的客户端中。数据流例如可以是音频流、视频流等媒体数据。如在直播场景中，主播用户通过客户端150可以实时采集媒体数据，并发送至服务端140，不同主播用户的媒体数据通过直播间进行区分，服务端140可以将该主播用户的媒体数据推送至进入该主播用户对应直播间的观看用户。又如在会议场景中，参会用户通过客户端150可以实时采集媒体数据并发送至服务端140，服务端140可以将每个客户端150发送的媒体数据推送至其它参会用户的客户端150等。

其中，客户端150所传输的数据可能需要经过编码、转码、压缩等处理之后才发布至服务端140，还可以按照本说明书实施方式的技术方案对数据进行数字增益处理等，在下文会详细介绍。

其中，客户端150与服务端140之间通过网络建立连接。网络为客户端150与服务端140之间提供了通信链路的介质。网络可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

其中，客户端150可以为浏览器、应用程序（Application，APP）、或网页应用如超文本标记语言第5版（Hyper Text Markup Language5，H5）应用、或轻应用（也被称为小程序，一种轻量级应用程序）或云应用等，客户端150可以基于服务端提供的相应服务的软件开发工具包（Software Development Kit，SDK），如基于RTC SDK开发获得等。客户端150可以部署在电子设备中，需要依赖设备运行或者设备中的某些APP而运行等。电子设备例如可以具有显示屏并支持信息浏览等，如可以是个人移动终端如手机、平板电脑、个人计算机等。在电子设备中通常还可以配置各种其它类应用，例如人机对话类应用、模型训练类应用、文本处理类应用、网页浏览器应用、购物类应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等。

服务端140可以包括提供各种服务的服务器，例如为多个客户端提供通信服务的服务器，又如为客户端上使用的模型提供支持的用于后台训练的服务器，又如对客户端发送的数据进行处理的服务器等。

需要说明的是，服务端140可以实现成多个服务器组成的分布式服务器集群，也可以实现成单个服务器。服务器也可以为分布式系统的服务器，或者是结合了区块链的服务器。服务器也可以是云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络（Content Delivery Network，CDN）、以及大数据和人工智能平台等基础云计算服务的云服务器，或者是带人工智能技术的智能云计算服务器或智能云主机。

需要说明的是，本说明书实施方式中提供的音频处理方法一般由服务端执行，相应的音频处理装置一般设置于服务端中。但是，在本说明书的其它实施方式中，客户端也可以与服务端具有相似的功能，从而执行本说明书实施方式所提供的音频处理方法。在其它实施方式中，本说明书实施方式所提供的音频处理方法还可以是由客户端与服务端共同执行。

下面结合图2举例说明音频处理方法的具体实施过程。

图2所示为本说明书一实施方式提供的音频处理方法的流程示意图。本实施例可以应用于PC端或移动端。如图2所示，该音频处理方法包括如下步骤。

步骤210，对数字增益后的信号进行基音周期检测。

数字增益后的信号是对待处理音频信号进行数字增益处理后得到的。其中，待处理音频信号可以是拾音设备获取的音频信号。例如，待处理音频信号可以是麦克风等拾音设备采集的音频信号。待处理音频信号还可以是录音笔等拾音设备获取的音频信号。本说明书实施方式对待处理音频信号的来源不做具体限定。

基音周期检测可以是对数字增益后的信号进行基音周期的检测。基音周期检测能够识别出数字增益后的信号中的语音帧和非语音帧。一帧语音帧可以表示时长为10 ms的语音信号。一帧非语音帧可以表示时长为10 ms的非语音信号。基音周期检测能够在较短时间（例如10 ms）内识别出语音信号，也就是说，基音周期检测的检测频次较高，鲁棒性好，为后续调节数字增益处理的增益数值提供了数据基础。

具体而言，人在发音时，根据声带是否震动可以将音频信号分为清音和浊音两种。浊音在时域上呈现出明显的周期性，而清音类似于白噪声，没有明显的周期性。发浊音时，气流通过声门使声带产生张弛震荡式振动，产生准周期的激励脉冲串。声带振动的频率为基音频率，声带振动的频率的周期即为基音周期。如果在数字增益后的信号中检测到周期性的信号，可以认为数字增益后的信号中存在语音信号（即浊音信号），从而可以认为该时间节点有人在说话。

步骤220，若根据基音周期检测的检测数据确定数字增益后的信号中存在语音信号，调节数字增益处理的增益数值。

具体地，对数字增益后的信号进行基音周期检测得到的基音周期检测的检测数据可以是数字增益后的信号中的一帧或多帧的音频帧的信号是周期性的信号，除该一帧或多帧的音频帧之外的音频帧的信号是非周期性的信号。例如，每个音频帧的时长是10 ms，数字增益后的信号的时长是400 ms，即数字增益后的信号对应的40个音频帧，对数字增益后的信号进行基音周期检测得到的基音周期检测的检测数据可以是第1帧、第10帧至15帧和第30帧至40帧的音频帧的信号是周期性的信号，而第2帧至9帧和第16帧至29帧的音频帧的信号是非周期性的信号。

根据基音周期检测的检测数据确定数字增益后的信号中是否存在语音信号，可以是将周期性的信号判定为语音信号。如果通过对数字增益后的信号进行基音周期检测得到的检测数据确定了数字增益后的信号中存在语音信号，则可以调节数字增益处理的增益数值。

在本说明书一实施方式中，可以根据数字增益后的信号中的周期性的信号的占比和预设的占比阈值，判断数字增益后的信号中是否存在语音信号。示例性地，预设的占比阈值为0.3，数字增益后的信号的时长是400 ms，对数字增益后的信号进行基音周期检测得到的周期性的信号有100 ms，则数字增益后的信号中的周期性的信号的占比为0.25，经比较可知数字增益后的信号中的周期性的信号的占比0.25小于预设的占比阈值0.3，可以判定数字增益后的信号中不存在语音信号。示例性地，预设的占比阈值为0.3，数字增益后的信号的时长是400 ms，对数字增益后的信号进行基音周期检测得到的周期性的信号有200ms，则数字增益后的信号中的周期性的信号的占比为0.5，经比较可知数字增益后的信号中的周期性的信号的占比0.5大于预设的占比阈值0.3，可以判定数字增益后的信号中存在语音信号。

在实际应用中，如图3所示，待处理音频信号可以是数字增益处理模块的输入，数字增益后的信号可以是数字增益处理模块的输出，同时，数字增益后的信号还可以是基音周期检测模块的输入。检测数据可以是基音周期检测模块的输出，然后可以将检测数据作为第一判断模块的输入，从而使第一判断模块可以根据检测数据，判断数字增益后的信号中是否存在语音信号，如果数字增益后的信号中存在语音信号，则第一判断模块可以将判断结果反馈给数字增益处理模块，以调节数字增益处理的增益数值。

由于基音周期检测的检测频次较高，从而可以缩短确定数字增益后的信号中的语音信号的存在情况的时间，以快速调节数字增益处理的增益数值，加快数字增益处理的增益数值的调节频率，甚至可以实时地针对数字增益后的信号的大小调节增益数值，提高进行数字增益处理后的数字增益后的信号的稳定性，减少进行数字增益处理后的数字增益后的信号的音量忽大忽小的情况。

需要说明的是，图2所示实施例提及的音频处理方法既可以在音频发送端执行，亦可以在音频接收端执行。具体地，若在音频发送端执行，则音频发送端需要在步骤210之前采集待处理音频信号，并在步骤220之后将调节后的音频信号发送给音频接收端。具体地，若在音频接收端端执行，则音频接收端需要在步骤210之前接收音频发送端发送的待处理音频信号，并在步骤220之后将播放调节后的音频信号。类似地，下述实施方式提及的音频处理方法亦可以在音频发送端执行，也可以在音频接收端执行。

在图2所示实施方式的基础上，进一步地，在本说明书的一些实施方式中，若根据基音周期检测确定数字增益后的信号中存在语音信号，根据基音周期检测的检测结果调节数字增益处理的增益数值的步骤可以包括：对数字增益后的信号进行基于神经网络的语音检测；若根据基音周期检测的检测数据和语音检测的检测数据确定数字增益后的信号中存在语音信号，调节数字增益处理的增益数值。

具体地，对数字增益后的信号进行基于神经网络的语音检测可以是通过神经网络对数字增益后的信号进行检测，从而得到语音检测的检测数据。语音检测的检测数据可以是数字增益后的信号中的一帧或多帧的音频帧的信号是语音信号，除该一帧或多帧的音频帧之外的音频帧的信号是非语音信号。例如，每个音频帧的时长是10 ms，数字增益后的信号的时长是400 ms，即数字增益后的信号对应的40个音频帧，对数字增益后的信号进行语音检测得到的语音检测的检测数据可以是第1帧、第10帧至15帧和第30帧至40帧的音频帧的信号是语音信号，而第2帧至9帧和第16帧至29帧的音频帧的信号是非语音信号。根据基音周期检测的检测数据和语音检测的检测数据确定数字增益后的信号中是否存在语音信号，可以是如果根据基音周期检测的检测数据确定数字增益后的信号中存在语音信号，且根据语音检测的检测数据确定数字增益后的信号中存在语音信号，则可以调节数字增益处理的增益数值。

对数字增益后的信号进行基于神经网络的语音检测可以是：利用对初始神经网络进行多轮训练得到的语音检测网络对数字增益后的信号进行检测，从而可以准确的得到语音检测的检测数据，提高语音检测的准确性。因此，根据基音周期检测的检测数据和语音检测的检测数据，判断数字增益后的信号中是否存在语音信号，可以在根据基音周期检测的检测数据确定数字增益后的信号中存在语音信号时，触发语音检测，根据语音检测的检测数据验证数字增益后的信号中确实是存在语音信号的，从而提高判断的准确性，进而提高调节数字增益处理的增益数值的准确性。

在实际应用中，如图4所示，待处理音频信号可以是数字增益处理模块的输入，数字增益后的信号可以是数字增益处理模块的输出。同时，数字增益后的信号还可以是基音周期检测模块和语音检测模块的输入。基音周期检测模块可以输出基音周期检测的检测数据，语音检测模块可以输出语音检测的检测数据。然后可以将基音周期检测的检测数据和语音检测的检测数据均作为第一判断模块的输入，从而使第一判断模块可以根据基音周期检测的检测数据和语音检测的检测数据，判断数字增益后的信号中是否存在语音信号，如果数字增益后的信号中存在语音信号，则第一判断模块可以将判断结果反馈给数字增益处理模块，以调节数字增益处理的增益数值。

如果确定数字增益后的信号中存在语音信号，而数字增益后的信号中的嘈杂信号较大的情况下，如果上调数字增益处理的增益数值，可能会导致嘈杂信号被过度增益。因此，在本说明书一实施方式中，若根据基音周期检测的检测数据和语音检测的检测数据确定数字增益后的信号中存在语音信号，调节数字增益处理的增益数值，包括：根据语音检测的检测数据确定数字增益后的信号中的语音帧的音量和数字增益后的信号中的嘈杂帧的音量；若根据基音周期检测的检测数据和语音检测的检测数据确定数字增益后的信号中存在语音信号，且数字增益后的信号中的语音帧的音量和数字增益后的信号中的嘈杂帧的音量的差值落入预设差值阈值范围，上调数字增益处理的增益数值（即提高数字增益处理的增益数值）。

具体而言，在确定数字增益后的信号中存在语音信号后，可以再判断数字增益后的信号中的语音帧的音量和数字增益后的信号中的嘈杂帧的音量的差值是否落入预设差值阈值范围。如果差值落入预设差值阈值范围，则上调数字增益处理的增益数值。如果数字增益后的信号中的语音帧的音量和数字增益后的信号中的嘈杂帧的音量的差值没有落入预设差值阈值范围，则保持数字增益处理的增益数值不变，即不上调数字增益处理的增益数值。其中，预设差值阈值可以是预先设置的数值，可以根据实际情况设置预设差值阈值的具体数值，本说明书实施方式不做具体限定。例如，计算得到数字增益后的信号中的语音帧的音量为-2 db，数字增益后的信号中的嘈杂帧的音量为-10 db，而预设差值阈值为16 db，通过计算可知数字增益后的信号中的语音帧的音量和数字增益后的信号中的嘈杂帧的音量的差值为8 db。由此可见，数字增益后的信号中的语音帧的音量和数字增益后的信号中的嘈杂帧的音量的差值小于预设差值阈值，即未落入预设差值阈值范围，因此，保持数字增益处理的增益数值不变。

在图4所示实施方式的基础上，结合图5举例说明进一步提高触发对增益数值的调节的准确性的具体实施方式。

图5所示为本说明书另一实施方式提供的音频处理方法的流程示意图。如图5所示，在本说明书实施方式中，在若根据基音周期检测的检测数据和语音检测的检测数据确定数字增益后的信号中存在语音信号，调节数字增益处理的增益数值的步骤之前，还包括如下步骤。

步骤510，基于基音周期检测的检测数据，确定第一音频片段的第一语音帧占比信息。

具体地，第一音频片段包含累计时长为第一时长的语音帧。第一音频片段可以是在数字增益后的信号中截取的累计包含第一时长的语音帧的音频片段。第一时长可以是预先设定的时长。

示例性地，第一时长可以是330 ms，当语音帧累计到330 ms时，第一音频片段的时长可以是350 ms。即第一音频片段包含累计20 ms的非语音帧。第一音频片段的第一语音帧占比信息可以为330 ms与350 ms的比值，即0.94。可以理解，第一时长可以等于第一音频片段的时长。例如，第一时长可以是330 ms，当语音帧累计到330 ms时，第一音频片段的时长也可以是330 ms。即第一音频片段不包含非语音帧。第一音频片段的第一语音帧占比信息为1。

在实际应用中，可以利用变化的观察窗获取第一音频片段。即利用观察窗累计语音帧，当语音帧的时长累计至第一时长时，利用观察窗截取第一音频片段，此时，截取的音频片段的时长即为第一音频片段的时长。

步骤520，基于语音检测的检测数据，确定第二音频片段的第二语音帧占比信息。

具体地，第二音频片段的起始节点与第一音频片段的起始节点相同，且第二音频片段包含累计时长为第二时长的语音帧。即，第二音频片段与第一音频片段是在同一个起始节点开始累计。第二音频片段可以是在数字增益后的信号中截取的累计包含第二时长的语音帧的音频片段。第二时长可以是预先设定的时长。

示例性地，第二时长可以是450 ms，当语音帧累计到450 ms时，第二音频片段的时长可以是500 ms。即第二音频片段包含累计50 ms的非语音帧。第二音频片段的第二语音帧占比信息可以为450 ms与500 ms的比值，即0.90。可以理解，第二时长可以等于第二音频片段的时长。例如，第二时长可以是450 ms，当语音帧累计到450 ms时，第二音频片段的时长也可以是450 ms。即第二音频片段不包含非语音帧。第二音频片段的第二语音帧占比信息为1。

在实际应用中，可以利用变化的观察窗获取第二音频片段。即利用观察窗累计语音帧，当语音帧的时长累计至第二时长时，利用观察窗截取第二音频片段，此时，截取的音频片段的时长即为第二音频片段的时长。

步骤530，基于第一语音帧占比信息和第二语音帧占比信息，确定数字增益后的信号中是否存在语音信号。

第一语音帧占比信息可以是概率值，第二语音帧占比信息也可以是概率值。在此基础上，可以设置概率阈值，如果第一语音帧占比信息和第二语音帧占比信息均满足概率阈值，则确定数字增益后的信号中是否存在语音信号。

下面具体举例说明如何更精准的确定数字增益后的信号中是否存在语音信号。

在本说明书一实施方式中，基于第一语音帧占比信息和第二语音帧占比信息，确定数字增益后的信号中是否存在语音信号的步骤，包括：若第一语音帧占比信息落入基音周期检测的语音阈值范围，且第二语音帧占比信息落入语音检测的语音阈值范围，则确定数字增益后的信号中存在语音信号。

示例性地，如果第一语音帧占比信息和第二语音帧占比信息均满足各自的语音阈值范围，可以判定数字增益后的信号中存在语音信号。例如，可以设置基音周期检测的语音阈值范围为大于0.7，语音检测的语音阈值范围为大于0.85，如果计算得到的第一语音帧占比信息为0.94，计算得到的第二语音帧占比信息为0.90，可以得知，第一语音帧占比信息0.94大于0.7，即第一语音帧占比信息满足基音周期检测的语音阈值范围，且第二语音帧占比信息0.90大于0.85，即第二语音帧占比信息满足语音检测的语音阈值范围，即第一语音帧占比信息和第二语音帧占比信息均满足各自的语音阈值范围，从而判定数字增益后的信号中存在语音信号。

在一些实施方式中，若根据基音周期检测的检测数据和语音检测的检测数据确定数字增益后的信号中存在语音信号，调节数字增益处理的增益数值的步骤，包括：

步骤540，若根据第一语音帧占比信息和第二语音帧占比信息确定数字增益后的信号中存在语音信号，调节数字增益处理的增益数值。

具体地，如果设置第一时长为330 ms，第二时长为330 ms，且第一音频片段不包含非语音帧，第二音频片段也不包含非语音帧，则最快可以330 ms就能确定数字增益后的信号中存在语音信号，从而调节数字增益处理的增益数值，即最快可以间隔第一时长的调节一次数字增益处理的增益数值。

通过确定包含累计时长为第一时长的语音帧的第一音频片段的第一语音帧占比信息，并确定包含累计时长为第二时长的语音帧的第二音频片段的第二语音帧占比信息，然后基于第一语音帧占比信息和第二语音帧占比信息，确定数字增益后的信号中是否存在语音信号，可以通过设置合适的第一时长和第二时长，来提高调节数字增益处理的增益数值的调节频次。进一步地，由于人说一个汉字的时间约为330 ms，因此，将第一时长设置为330 ms，可以更加有效地检测到数字增益后的信号中的语音信号，从而进一步提高调节数字增益处理的增益数值的调节频次。

下面结合图6举例说明如何确定增益数值的具体大小。

图6所示为本说明书另一实施方式提供的音频处理方法的流程示意图。如图6所示，在本说明书实施方式中，调节数字增益处理的增益数值的步骤，包括如下步骤。

步骤610，确定第一音频片段包含的语音帧的音量和第二音频片段包含的语音帧的音量。

具体地，可以先将第一音频片段包含的语音帧和第二音频片段包含的语音帧过滤出来，然后通过包络估计计算第一音频片段包含的语音帧的音量和第二音频片段包含的语音帧的音量。

步骤620，基于第一音频片段包含的语音帧的音量和第二音频片段包含的语音帧的音量，确定第一音频片段的估计音量。

可以为第一音频片段包含的语音帧的音量和第二音频片段包含的语音帧的音量分别设置权重，从而计算出第一音频片段的估计音量。第一音频片段的估计音量可以是第一音频片段更新后的音量。具体而言，由于第一音频片段和第二音频片段的起始节点相同，且第二音频片段的时长可以大于第一音频片段的时长，因此，当第一音频片段被截取时，第二音频片段还未被截取，因此，第一音频片段的估计音量可以是等待第二音频片段被截取后，参考第一音频片段包含的语音帧的音量和第二音频片段包含的语音帧的音量，估计出来的第一音频片段更新后的音量。

示例性地，用Y₁表示第一音频片段包含的语音帧的音量，用Y₂表示第二音频片段包含的语音帧的音量，用Y表示第一音频片段的估计音量，并为Y₁设置权重a，为Y₂设置权重b，则Y=a*Y₁+b*Y₂。例如，可以设置权重a为0.8，权重b为0.2，即Y=0.8Y₁+0.2Y₂。

步骤630，基于估计音量和预设目标音量，计算第一音频片段对应的最大增益数值。

具体地，预设目标音量可以是预先设置的想要在数字增益处理后得到的音量。预设目标音量可以用M表示，第一音频片段对应的最大增益数值可以用maxGain表示。第一音频片段对应的最大增益数值maxGain为第一音频片段的估计音量Y的绝对值与预设目标音量M的和。即，maxGain=ǀYǀ+M。

示例性地，计算得到的估计音量Y为-15 db，预设目标音量M为-1 db，则第一音频片段对应的最大增益数值maxGain=ǀ-15ǀ-1，即maxGain为14 db。

步骤640，将数字增益处理的增益数值调节至第一音频片段对应的最大增益数值。

具体地，将数字增益处理的增益数值调节至第一音频片段对应的最大增益数值，可以是将数字增益处理的增益数值向第一音频片段对应的最大增益数值逼近。

通过确定第一音频片段包含的语音帧的音量和第二音频片段包含的语音帧的音量，并基于第一音频片段包含的语音帧的音量和第二音频片段包含的语音帧的音量，确定第一音频片段的估计音量，然后计算得到第一音频片段对应的最大增益数值，最后将数字增益处理的增益数值调节至第一音频片段对应的最大增益数值，可以针对每个第一音频片段确定出一个最佳的最大增益数值，有效避免了压限器过分地介入压限的情况，使数字增益后的信号的音质更加保真。

下面举例说明如何让进一步确定更合适的最大增益数值。

在将数字增益处理的增益数值调节至第一音频片段对应的最大增益数值的步骤之后，还包括如下步骤。

步骤650，确定第二音频片段包含的嘈杂帧的音量和第二音频片段包含的语音帧的音量。

具体地，第二音频片段包含嘈杂帧和语音帧。嘈杂帧对应的信号是嘈杂信号。语音帧对应的信号是语音信号。确定第二音频片段包含的嘈杂帧的音量和第二音频片段包含的语音帧的音量可以是通过包络估计计算得到的音量。

步骤660，若第二音频片段包含的嘈杂帧的音量和第二音频片段包含的语音帧的音量之间的相对值落入预设二次调节数值范围，再次调节固定增益处理的增益数值。

具体地，预设二次调节数值范围可以是预先设置的数值范围。第二音频片段包含的嘈杂帧的音量和第二音频片段包含的语音帧的音量之间的相对值可以表示第二音频片段包含的嘈杂帧的音量和语音帧的音量的相对大小。如果第二音频片段包含的嘈杂帧的音量和第二音频片段包含的语音帧的音量之间的相对值较大（例如，大于1），可以说明第二音频片段包含的嘈杂帧的音量大于第二音频片段包含的语音帧的音量。如果第二音频片段包含的嘈杂帧的音量和第二音频片段包含的语音帧的音量之间的相对值较小（例如，小于1），可以说明第二音频片段包含的嘈杂帧的音量小于第二音频片段包含的语音帧的音量。预设二次调节数值范围可以根据实际需求进行设置，本说明书实施方式不做具体限定。

若第二音频片段包含的嘈杂帧的音量和第二音频片段包含的语音帧的音量之间的相对值落入预设二次调节数值范围，再次调节固定增益处理的增益数值，从而可以针对每个第二音频片段，进一步的调节固定增益处理的增益数值，能够避免对嘈杂声的过度提升。

由于拾音设备的多样性和人声音量大小不一，导致待处理音频信号的音量大小不易，下面结合图7举例说明如何改善待处理音频信号的音量大小不一的问题。

在对数字增益后的信号进行基音周期检测之前，还包括：对拾音设备采集的初始音频信号进行模拟增益处理，得到模拟增益信号，从而改善基于模拟增益信号生成的待处理音频信号的音量大小不一的问题。

在实际应用中，如图7所示，拾音设备采集到初始音频信号后，将初始音频信号输出给模拟增益处理模块。模拟增益处理模块接收初始音频信号后，对初始音频信号进行模拟增益处理，得到模拟增益信号，并将模拟增益信号输出给前处理模块。前处理模块可以对模拟增益信号进行降噪等前处理，也可以不对模拟增益信号进行处理，然后基于输入的模拟增益信号，生成待处理音频信号，并将待处理音频信号输出给数字增益处理模块。

下面结合图7举例说明如何进一步改善待处理音频信号的音量大小不一的问题。

在本说明书一实施方式中，在对数字增益后的信号进行基音周期检测之后，还包括：若根据基音周期检测的检测数据确定数字增益后的信号中存在语音信号，调节模拟增益处理的增益数值，从而进一步改善待处理音频信号的音量大小不一的问题。

具体地，如图7所示，可以根据基音周期检测模块输出的检测数据，判断数字增益后的信号中是否存在语音信号，然后将判断结果反馈给模拟增益处理模块，从而使模拟增益处理模块根据判断的结果调整模拟增益处理的增益数值。具体地，若根据基音周期检测的检测数据确定数字增益后的信号中存在语音信号，可以提高模拟增益处理的增益数值，若根据基音周期检测的检测数据确定数字增益后的信号中不存在语音信号，可以降低模拟增益处理的增益数值。提高或降低的模拟增益处理的增益数值的具体大小可以根据实际情况确定，本说明书实施方式不做具体限定。

下面针对音频处理领域容易出现的爆音问题，举例说明如何减少爆音事件。

在本说明书一实施方式中，在对拾音设备采集的初始音频信号进行模拟增益处理，得到模拟增益信号之后，还包括：对模拟增益信号进行爆音检测；若基于爆音检测的检测数据确定存在爆音事件，降低模拟增益处理的增益数值。

具体地，爆音可以是发音系统出现的杂音。当音频信号突然断开或者遇到强干扰时，会产生爆音事件。

在实际应用中，如图7所示，爆音检测模块可以接收模拟增益处理模块输出的模拟增益信号，从而对模拟增益信号进行爆音检测，爆音检测后，可以由第二判断模块判断爆音检测的检测数据中是否存在爆音事件，若基于爆音检测的检测数据确定存在爆音事件，则反馈给模拟增益处理模块，降低模拟增益处理的增益数值。

通过对模拟增益信号进行爆音检测，并在基于爆音检测的检测数据确定存在爆音事件的情况下，降低模拟增益处理的增益数值，减少了持续性爆音的问题。

在本说明书一实施方式中，可以预设增益数值的调节步长。若基于爆音检测的检测数据确定存在爆音事件，根据预设的增益数值的调节步长来降低模拟增益处理的增益数值。示例性地，预设的增益数值的调节步长是1 db，当前模拟增益处理的增益数值为8 db，根据预设的增益数值的调节步长来降低模拟增益处理的增益数值即为在8 db的基础上，每次下调1 db，直至检测不到爆音事件。

下面针对初始音频信号中存在的底噪问题，举例说明如何减少对底噪的过度提升。

在本说明书一实施方式中，在对拾音设备采集的初始音频信号进行模拟增益处理，得到模拟增益信号之后，还包括：对模拟增益信号进行底噪检测；若基于底噪检测得到的底噪音量小于或等于预设底噪阈值，提高模拟增益处理的增益数值；若基于底噪检测得到的底噪音量大于预设底噪阈值，且数字增益后的信号中不存在语音信号，降低模拟增益处理的增益数值。

具体地，底噪可以是背景噪声，例如电流音等。

在实际应用中，如图7所示，底噪检测模块可以接收模拟增益处理模块输出的模拟增益信号，从而对模拟增益信号进行底噪检测，基于底噪检测可以计算出底噪音量，然后第二判断模块可以判断底噪音量与预设底噪阈值的关系，如果底噪音量小于或等于预设底噪阈值，可以反馈给模拟增益处理模块，以提高模拟增益处理的增益数值。如果底噪音量大于预设底噪阈值，且数字增益后的信号中不存在语音信号，也可以反馈给模拟增益处理模块，以降低模拟增益处理的增益数值。

通过对模拟增益信号进行底噪检测，在基于底噪检测得到的底噪音量小于或等于预设底噪阈值的情况下，提高模拟增益处理的增益数值；在基于底噪检测得到的底噪音量大于预设底噪阈值，且数字增益后的信号中不存在语音信号的情况下，降低模拟增益处理的增益数值，避免了因对语音信号进行数字增益处理时过度提升噪声信号。

下面针对拾音设备采集的初始音频信号忽大忽小的问题，举例说明如何将初始音频信号的音量调整到一个合适的音量范围。

在本说明书一实施方式中，在对拾音设备采集的初始音频信号进行模拟增益处理，得到模拟增益信号之后，还包括：对模拟增益信号进行包络估计检测；若基于包络估计检测确定模拟增益信号的音量小于预设最小音量阈值，提高模拟增益处理的增益数值；若基于包络估计检测确定模拟增益信号的音量大于预设最大音量阈值，降低模拟增益处理的增益数值。

具体地，预设最小音量阈值和预设最大音量阈值可以根据实际需求进行设置，本说明书实施方式不做具体限定。例如，可以设置预设最小音量阈值为-16 db，设置预设最大音量阈值为-8 db。如果模拟增益信号的音量小于-16 db，提高模拟增益处理的增益数值，如果模拟增益信号的音量大于-8 db，降低模拟增益处理的增益数值，从而保证模拟增益信号的音量在一个相对不会频繁发生爆音事件的安全区。

在实际应用中，如图7所示，包络估计检测模块可以接收模拟增益处理模块输出的模拟增益信号，从而对模拟增益信号进行包络估计检测，基于包络估计检测可以计算出模拟增益信号的音量，然后第二判断模块可以判断模拟增益信号是音量与预设最小音量阈值和预设最大音量阈值的关系，然后将判断结果反馈给模拟增益处理模块，以提高或降低模拟增益处理的增益数值。具体地，若模拟增益信号的音量小于预设最小音量阈值，提高模拟增益处理的增益数值；若模拟增益信号的音量大于预设最大音量阈值，降低模拟增益处理的增益数值。

通过对模拟增益信号进行包络估计检测，在基于包络估计检测确定模拟增益信号的音量小于预设最小音量阈值的情况下，提高模拟增益处理的增益数值；在基于包络估计检测确定模拟增益信号的音量大于预设最大音量阈值的情况下，降低模拟增益处理的增益数值，使模拟增益处理的增益数值的调节更加准确和稳定，为后续进行数字增益处理提拱了更加准确和稳定的信号。

爆音检测、底噪检测和包络估计检测均可以单独在一个实施方式中使用，也可以选择其中两种检测在一个实施方式中使用，还可以均在一个实施方式中使用。

上文中图2至图7所示实施方式提供的音频处理方法均可应用于PC端，图2至图6所示实施方式提供的音频处理方法适合应用于移动端。

上文结合图1a至图7，详细描述了本说明书实施方式的方法实施方式，下面结合图8至图11，详细描述本说明书实施方式的装置实施方式。应理解，方法实施方式的描述与装置实施方式的描述相互对应，因此，未详细描述的部分可以参见前面方法实施方式。

图8所示为本说明书实施方式提供的音频处理装置的结构示意图。如图8所示，本说明书实施方式的音频处理装置800包括：检测模块810和调参模块820。

具体地，检测模块810配置为，对数字增益后的信号进行基音周期检测，得到第一语音检测数据，其中，增益音频信号为经数字增益处理后得到的音频信号。调参模块820配置为，若根据第一语音检测数据确定数字增益后的信号中存在语音信号，根据第一语音检测数据调节数字增益处理的增益数值。

在本说明书一实施方式中，调参模块820进一步配置为，对数字增益后的信号进行基于神经网络的语音检测；若根据基音周期检测的检测数据和语音检测的检测数据确定数字增益后的信号中存在语音信号，调节数字增益处理的增益数值。

图9所示为本说明书另一实施方式提供的音频处理装置的结构示意图。如图9所示，本说明书实施方式的音频处理装置800还包括：第一占比确定模块830、第二占比确定模块840和语音信号判断模块850。

具体地，第一占比确定模块830配置为，基于基音周期检测的检测数据，确定第一音频片段的第一语音帧占比信息，其中，第一音频片段包含累计时长为第一时长的语音帧。第二占比确定模块840配置为，基于语音检测的检测数据，确定第二音频片段的第二语音帧占比信息，其中，第二音频片段的起始节点与第一音频片段的起始节点相同，且第二音频片段包含累计时长为第二时长的语音帧。语音信号判断模块850配置为，基于第一语音帧占比信息和第二语音帧占比信息，确定数字增益后的信号中是否存在语音信号。调参模块820进一步配置为，若根据第一语音帧占比信息和第二语音帧占比信息确定数字增益后的信号中存在语音信号，调节数字增益处理的增益数值。

在本说明书一实施方式中，语音信号判断模块850进一步配置为，若第一语音帧占比信息落入基音周期检测的语音阈值范围，且第二语音帧占比信息落入语音检测的语音阈值范围，则确定数字增益后的信号中存在语音信号。

在本说明书一实施方式中，调参模块820进一步配置为，确定第一音频片段包含的语音帧的音量和第二音频片段包含的语音帧的音量；基于第一音频片段包含的语音帧的音量和第二音频片段包含的语音帧的音量，确定第一音频片段的估计音量；基于估计音量和预设目标音量，计算第一音频片段对应的最大增益数值；将数字增益处理的增益数值调节至第一音频片段对应的最大增益数值。

图10所示为本说明书另一实施方式提供的音频处理装置的结构示意图。如图10所示，本说明书实施方式的音频处理装置800还包括：音量确定模块860和二次调参模块870。

具体地，音量确定模块860配置为，确定第二音频片段包含的嘈杂帧的音量和第二音频片段包含的语音帧的音量。二次调参模块870配置为，若第二音频片段包含的嘈杂帧的音量和第二音频片段包含的语音帧的音量之间的相对值落入预设二次调节数值范围，再次调节固定增益处理的增益数值。

图11所示为本说明书另一实施方式提供的音频处理装置的结构示意图。如图11所示，本说明书实施方式的音频处理装置800还包括：模拟增益模块880。具体地，模拟增益模块880配置为，对拾音设备采集的初始音频信号进行模拟增益处理，得到模拟增益信号，其中，待处理音频信号是基于模拟增益信号生成的。

在本说明书一实施方式中，音频处理装置800还包括：模拟参数调节模块910。具体地，模拟参数调节模块910配置为，若根据基音周期检测的检测数据确定数字增益后的信号中存在语音信号，调节模拟增益处理的增益数值。

在本说明书一实施方式中，音频处理装置800还包括：爆音检测模块920。爆音检测模块920配置为，对模拟增益信号进行爆音检测。模拟参数调节模块910进一步配置为，若基于爆音检测的检测数据确定存在爆音事件，降低模拟增益处理的增益数值。

在本说明书一实施方式中，音频处理装置800还包括：底噪检测模块930。底噪检测模块930配置为，对模拟增益信号进行底噪检测。模拟参数调节模块910进一步配置为，若基于底噪检测得到的底噪音量小于或等于预设底噪阈值，提高模拟增益处理的增益数值；若基于底噪检测得到的底噪音量大于预设底噪阈值，且数字增益后的信号中不存在语音信号，降低模拟增益处理的增益数值。

在本说明书一实施方式中，音频处理装置800还包括：包络估计检测模块940。包络估计检测模块940配置为，对模拟增益信号进行包络估计检测。模拟参数调节模块910进一步配置为，若基于包络估计检测确定模拟增益信号的音量小于预设最小音量阈值，提高模拟增益处理的增益数值；若基于包络估计检测确定模拟增益信号的音量大于预设最大音量阈值，降低模拟增益处理的增益数值。

图8至图11提供的音频处理装置中的检测模块810、调参模块820、第一占比确定模块830、第二占比确定模块840、语音信号判断模块850、音量确定模块860、二次调参模块870、模拟增益模块880、模拟参数调节模块910、爆音检测模块920、底噪检测模块930和包络估计检测模块940的操作和功能可以参考上述图2至图7提供的音频处理方法，为了避免重复，在此不再赘述。

图12所示为本说明书实施方式提供的电子设备的结构示意图。如图12所示，该电子设备1200包括：一个或多个处理器1201和存储器1202；以及存储在存储器1202中的计算机程序指令，计算机程序指令在被处理器1201运行时使得处理器1201执行如上述任一实施方式的音频处理方法。

处理器1201可以是中央处理单元（Central Processing Unit, CPU）或者具有数据传输能力和/或指令执行能力的其他形式的处理单元，并且可以控制电子设备中的其他组件以执行期望的功能。

存储器1202可以包括一个或多个计算机程序产品，计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。易失性存储器例如可以包括随机存取存储器（Random Access Memory, RAM）和/或高速缓冲存储器（Cache）等。非易失性存储器例如可以包括只读存储器（Read Only Memory, ROM）、硬盘、闪存等。在计算机可读存储介质上可以存储一个或多个计算机程序指令，处理器1201可以运行程序指令，以实现上文的本说明书实施方式的各个实施方式的音频处理方法中的步骤以及/或者其他期望的功能。

在一个示例中，电子设备1200还可以包括：输入装置1203和输出装置1204，这些组件通过总线系统和/或其他形式的连接机构（图12中未示出）互连。

此外，该输入装置1203还可以包括例如键盘、鼠标、麦克风等等。

该输出装置1204可以向外部输出各种信息。该输出装置1204可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等等。

当然，为了简化，图12中仅示出了该电子设备1200中与本说明书实施方式有关的组件中的一些，省略了诸如总线、输入装置/输出接口等组件。除此之外，根据具体应用情况，电子设备1200还可以包括任何其他适当的组件。

除了上述方法和设备以外，本说明书实施方式的实施方式还可以是计算机程序产品，包括计算机程序指令，计算机程序指令在被处理器运行时使得处理器执行如上述任一实施方式的音频处理方法中的步骤。

计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本说明书实施方式操作的程序代码，程序设计语言包括面向对象的程序设计语言，诸如Java、C++等，还包括常规的过程式程序设计语言，诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。

此外，本说明书实施方式的实施方式还可以是计算机可读存储介质，其上存储有计算机程序指令，计算机程序指令在被处理器运行时使得处理器执行本说明书上述“示例性方法”部分中描述的根据本说明书实施方式各种实施方式的音频处理方法中的步骤。

计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子（非穷举的列表）包括：具有一个或多个导线的电连接、便携式盘、硬盘、RAM、ROM、可擦式可编程只读存储器（Erasable Programmable Read Only Memory, EPROM）或闪存、光纤、便携式紧凑盘只读存储器（Compact Disk Read Only Memory, CD-ROM）、光存储器件、磁存储器件、或者上述的任意合适的组合。

以上结合具体实施方式描述了本说明书实施方式的基本原理，但是，需要指出的是，在本说明书实施方式中提及的优点、优势、效果等仅是示例而非限制，不能认为这些优点、优势、效果等是本说明书实施方式的各个实施方式必须具备的。另外，上述公开的具体细节仅是为了示例的作用和便于理解的作用，而非限制，上述细节并不限制本说明书实施方式为必须采用上述具体的细节来实现。

本说明书实施方式中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的，可以按任意方式连接、布置、配置这些器件、装置、设备、系统。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇，指“包括但不限于”，且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”，且可与其互换使用，除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”，且可与其互换使用。

还需要指出的是，在本说明书实施方式的装置、设备和方法中，各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本说明书实施方式的等效方案。

提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本说明书实施方式。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的，并且在此定义的一般原理可以应用于其他方面而不脱离本说明书实施方式的范围。因此，本说明书实施方式不意图被限制到在此示出的方面，而是按照与在此公开的原理和新颖的特征一致的最宽范围。

为了例示和描述的目的已经给出了以上描述。此外，此描述不意图将本说明书实施方式的实施方式限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施方式，但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。

以上仅为本说明书实施方式的较佳实施方式而已，并不用以限制本说明书实施方式，凡在本说明书实施方式的精神和原则之内，所作的任何修改、等同替换等，均应包含在本说明书实施方式的保护范围之内。

Claims

1.一种音频处理方法，其特征在于，包括：

对数字增益后的信号进行基音周期检测，其中，所述数字增益后的信号是对待处理音频信号进行数字增益处理后得到的；

若根据所述基音周期检测的检测数据确定所述数字增益后的信号中存在语音信号，调节所述数字增益处理的增益数值；

其中，若根据所述基音周期检测确定所述数字增益后的信号中存在语音信号，根据所述基音周期检测的检测结果调节所述数字增益处理的增益数值，包括：

对所述数字增益后的信号进行基于神经网络的语音检测；

基于所述基音周期检测的检测数据，确定第一音频片段的第一语音帧占比信息，其中，所述第一音频片段包含累计时长为第一时长的语音帧；

基于所述语音检测的检测数据，确定第二音频片段的第二语音帧占比信息，其中，所述第二音频片段的起始节点与所述第一音频片段的起始节点相同，所述第二音频片段包含累计时长为第二时长的语音帧，且所述第二时长大于或等于所述第一时长；

基于所述第一语音帧占比信息和所述第二语音帧占比信息，确定所述数字增益后的信号中是否存在语音信号；

若根据所述第一语音帧占比信息和所述第二语音帧占比信息确定所述数字增益后的信号中存在语音信号，调节所述数字增益处理的增益数值。

2.根据权利要求1所述的音频处理方法，其特征在于，所述若根据所述基音周期检测的检测数据和所述语音检测的检测数据确定所述数字增益后的信号中存在语音信号，调节所述数字增益处理的增益数值，包括：

根据所述语音检测的检测数据，确定所述数字增益后的信号中的语音帧的音量和所述数字增益后的信号中的嘈杂帧的音量；

若根据所述基音周期检测的检测数据和所述语音检测的检测数据确定所述数字增益后的信号中存在语音信号，且所述数字增益后的信号中的语音帧的音量和所述数字增益后的信号中的嘈杂帧的音量的差值落入预设差值阈值范围，上调所述数字增益处理的增益数值。

3.根据权利要求1所述的音频处理方法，其特征在于，所述调节所述数字增益处理的增益数值，包括：

确定所述第一音频片段包含的语音帧的音量和所述第二音频片段包含的语音帧的音量；

基于所述第一音频片段包含的语音帧的音量和所述第二音频片段包含的语音帧的音量，确定所述第一音频片段的估计音量；

基于所述估计音量和预设目标音量，计算所述第一音频片段对应的最大增益数值；

将所述数字增益处理的增益数值调节至所述第一音频片段对应的最大增益数值。

4.根据权利要求3所述的音频处理方法，其特征在于，在所述将所述数字增益处理的增益数值调节至所述第一音频片段对应的最大增益数值之后，还包括：

确定所述第二音频片段包含的嘈杂帧的音量和所述第二音频片段包含的语音帧的音量；

若所述第二音频片段包含的嘈杂帧的音量和所述第二音频片段包含的语音帧的音量之间的相对值落入预设二次调节数值范围，再次调节所述数字增益处理的增益数值。

5.根据权利要求1所述的音频处理方法，其特征在于，所述基于所述第一语音帧占比信息和所述第二语音帧占比信息，确定所述数字增益后的信号中是否存在语音信号，包括：

若所述第一语音帧占比信息落入所述基音周期检测的语音阈值范围，且所述第二语音帧占比信息落入所述语音检测的语音阈值范围，则确定所述数字增益后的信号中存在语音信号。

6.根据权利要求1至5任一项所述的音频处理方法，其特征在于，在所述对数字增益后的信号进行基音周期检测之前，还包括：

对拾音设备采集的初始音频信号进行模拟增益处理，得到模拟增益信号，其中，所述待处理音频信号是基于所述模拟增益信号生成的。

7.根据权利要求6所述的音频处理方法，其特征在于，在所述对数字增益后的信号进行基音周期检测之后，还包括：

若根据所述基音周期检测的检测数据确定所述数字增益后的信号中存在语音信号，调节所述模拟增益处理的增益数值。

8.根据权利要求6所述的音频处理方法，其特征在于，在所述对拾音设备采集的初始音频信号进行模拟增益处理，得到模拟增益信号之后，还包括：

对所述模拟增益信号进行爆音检测；

若基于所述爆音检测的检测数据确定存在爆音事件，降低所述模拟增益处理的增益数值。

9.根据权利要求6所述的音频处理方法，其特征在于，在所述对拾音设备采集的初始音频信号进行模拟增益处理，得到模拟增益信号之后，还包括：

对所述模拟增益信号进行底噪检测；

若基于所述底噪检测得到的底噪音量小于或等于预设底噪阈值，提高所述模拟增益处理的增益数值；

若基于所述底噪检测得到的底噪音量大于所述预设底噪阈值，且所述数字增益后的信号中不存在语音信号，降低所述模拟增益处理的增益数值。

10.根据权利要求6所述的音频处理方法，其特征在于，在所述对拾音设备采集的初始音频信号进行模拟增益处理，得到模拟增益信号之后，还包括：

对所述模拟增益信号进行包络估计检测；

若基于所述包络估计检测确定所述模拟增益信号的音量小于预设最小音量阈值，提高所述模拟增益处理的增益数值；

若基于所述包络估计检测确定所述模拟增益信号的音量大于预设最大音量阈值，降低所述模拟增益处理的增益数值。

11.一种音频处理装置，其特征在于，包括：

检测模块，配置为对数字增益后的信号进行基音周期检测，得到第一语音检测数据，其中，所述数字增益后的信号是对待处理音频信号进行数字增益处理后得到的；

调参模块，配置为若根据所述第一语音检测数据确定所述数字增益后的信号中存在语音信号，根据所述第一语音检测数据调节所述数字增益处理的增益数值，其中，若根据所述基音周期检测确定所述数字增益后的信号中存在语音信号，根据所述基音周期检测的检测结果调节所述数字增益处理的增益数值，包括：对所述数字增益后的信号进行基于神经网络的语音检测；基于所述基音周期检测的检测数据，确定第一音频片段的第一语音帧占比信息，其中，所述第一音频片段包含累计时长为第一时长的语音帧；基于所述语音检测的检测数据，确定第二音频片段的第二语音帧占比信息，其中，所述第二音频片段的起始节点与所述第一音频片段的起始节点相同，所述第二音频片段包含累计时长为第二时长的语音帧，且所述第二时长大于或等于所述第一时长；基于所述第一语音帧占比信息和所述第二语音帧占比信息，确定所述数字增益后的信号中是否存在语音信号；若根据所述第一语音帧占比信息和所述第二语音帧占比信息确定所述数字增益后的信号中存在语音信号，调节所述数字增益处理的增益数值。

12.一种电子设备，其特征在于，包括：

处理器；

用于存储计算机可执行指令的存储器；

所述处理器，用于执行所述计算机可执行指令，以实现上述权利要求1至10任一项所述的音频处理方法。