CN112185410B

CN112185410B - 音频处理方法及装置

Info

Publication number: CN112185410B
Application number: CN202011131520.8A
Authority: CN
Inventors: 李贝; 刘鲁鹏; 元海明; 高强; 夏龙; 郭常圳
Original assignee: Beijing Ape Power Future Technology Co Ltd
Current assignee: Beijing Ape Power Future Technology Co Ltd
Priority date: 2020-10-21
Filing date: 2020-10-21
Publication date: 2024-04-30
Anticipated expiration: 2040-10-21
Also published as: CN112185410A

Abstract

本说明书提供音频处理方法及装置，其中所述音频处理方法包括：获取携带有原始音频信号的降噪指令；对所述原始音频信号进行降噪处理获得降噪音频信号，并基于所述降噪音频信号确定所述原始音频信号中的噪声音频信号；基于所述降噪音频信号的降噪音频特征以及所述噪声音频信号的噪声音频特征，计算所述原始音频信号的信噪比；根据所述信噪比在所述原始音频信号中筛选出目标音频片段，并根据所述目标音频片段确定响应所述降噪指令的目标音频信号。

Description

音频处理方法及装置

技术领域

本说明书涉及音频处理技术领域，特别涉及音频处理方法及装置。

背景技术

随着互联网技术的发展，用户对音频质量的要求越来越高，而为了能够向用户播放音质较高的音频，就需要对原始音频进行降噪处理或者增强处理，从而播放较为优质的音频；通常在对音频中的噪声进行抑制时，实则是消除音频中的噪声信号，保留干净的音频信号，而降噪程度越高，噪声去除得越干净，同时也越可能出现将干净的音频信号也消除，产生音频失真的问题，不仅无法有效的消除噪声信号，还对最终播放的音频产生过度的干扰，影响用户的收听效果，因此亟需一种有效的方案以解决上述问题。

发明内容

有鉴于此，本说明书实施例提供了一种音频处理方法。本说明书同时涉及一种音频处理装置，一种计算设备，以及一种计算机可读存储介质，以解决现有技术中存在的技术缺陷。

根据本说明书实施例的第一方面，提供了一种音频处理方法，包括：

获取携带有原始音频信号的降噪指令；

对所述原始音频信号进行降噪处理获得降噪音频信号，并基于所述降噪音频信号确定所述原始音频信号中的噪声音频信号；

基于所述降噪音频信号的降噪音频特征以及所述噪声音频信号的噪声音频特征，计算所述原始音频信号的信噪比；

根据所述信噪比在所述原始音频信号中筛选出目标音频片段，并根据所述目标音频片段确定响应所述降噪指令的目标音频信号。

可选的，所述对所述原始音频信号进行降噪处理获得降噪音频信号，包括：

构建所述原始音频信号对应的信号序列；

将所述信号序列输入至降噪模型进行降噪处理，获得所述降噪音频信号。

可选的，所述基于所述降噪音频信号确定所述原始音频信号中的噪声音频信号，包括：

对所述原始音频信号进行分帧处理获得多个原始子音频信号，以及对所述降噪音频信号进行分帧处理获得多个降噪子音频信号；

根据所述多个原始子音频信号和所述多个降噪子音频信号确定多个噪声子音频信号；

基于所述多个噪声子音频信号生成所述噪声音频信号。

可选的，所述根据所述多个原始子音频信号和所述多个降噪子音频信号确定多个噪声子音频信号，包括：

确定所述多个原始子音频信号中的各个原始子音频信号与所述多个降噪子音频信号中的各个降噪子音频信号的对应关系；

将具有对应关系的原始子音频信号和降噪子音频信号进行比较，根据比较结果确定所述多个噪声子音频信号。

可选的，所述对所述原始音频信号进行分帧处理获得多个原始子音频信号，以及对所述降噪音频信号进行分帧处理获得多个降噪子音频信号，包括：

根据预设的分帧规则对所述原始音频信号进行分帧处理获得所述多个原始子音频信号；

根据所述预设的分帧规则对所述降噪音频信号进行分帧处理获得所述多个降噪子音频信号；

其中，所述预设的分帧规则为重叠分帧规则或非重叠分帧规则。

可选的，所述降噪音频信号的降噪音频特征，通过如下方式确定：

确定所述多个降噪子音频信号中的各个降噪子音频信号对应的第一采样点总数，以及所述第一采样点总数中的各个采样点对应的第一采样点取值；

基于所述第一采样点总数和所述第一采样点取值计算所述多个降噪子音频信号中的各个降噪子音频信号对应的降噪子音频特征；

根据所述多个降噪子音频信号中的各个降噪子音频信号对应的降噪子音频特征确定所述降噪音频信号的降噪音频特征。

可选的，所述噪声音频信号的噪声音频特征，通过如下方式确定：

确定所述多个噪声子音频信号中的各个噪声子音频信号对应的第二采样点总数，以及所述第二采样点总数中各个采样点对应的第二采样点取值；

基于所述第二采样点总数和所述第二采样点取值计算所述多个噪声子音频信号中的各个噪声子音频信号对应的噪声子音频特征；

根据所述多个噪声子音频信号中的各个噪声子音频信号对应的噪声子音频特征确定所述噪声音频信号的噪声音频特征。

可选的，所述基于所述降噪音频信号的降噪音频特征以及所述噪声音频信号的噪声音频特征，计算所述原始音频信号的信噪比，包括：

确定所述多个降噪子音频信号中的各个降噪子音频信号与所述多个噪声子音频信号中的各个噪声子音频信号的信号对应关系；

基于所述信号对应关系、所述多个降噪子音频信号中的各个降噪子音频信号对应的降噪子音频特征和所述多个噪声子音频信号中的各个噪声子音频信号对应的噪声子音频特征，计算所述多个原始子音频信号中的各个原始子音频信号对应的子信噪比；

根据所述多个原始子音频信号中的各个原始子音频信号对应的子信噪比确定所述原始音频信号的信噪比。

可选的，所述根据所述信噪比在所述原始音频信号中筛选出目标音频片段，包括：

将所述多个原始子音频信号中的各个原始子音频信号对应的子信噪比与预设信噪比阈值进行比较；

根据比较结果选择大于所述预设信噪比阈值的原始子音频信号组成所述目标音频片段。

可选的，所述根据所述目标音频片段确定响应所述降噪指令的目标音频信号，包括：

确定所述目标音频片段中包含的原始子音频信号的第一信号数量，以及所述多个原始子音频信号中包含的原始子音频信号的第二信号数量；

计算所述第一信号数量与所述第二信号数量的比值，并判断所述比值是否大于预设比值阈值；

若是，将所述原始音频信号确定为响应所述降噪指令的所述目标音频信号；

若否，将所述降噪音频信号确定为响应所述降噪指令的所述目标音频信号。

可选的，所述将所述降噪音频信号确定为响应所述降噪指令的所述目标音频信号子步骤执行之后，还包括：

对所述降噪模型的参数进行调整，并对参数调整后的降噪模型进行测试；

在测试结果满足模型存储条件的情况下，对参数调整后的降噪模型进行存储；参数调整后的降噪模型用于下一降噪处理过程。

根据本说明书实施例的第二方面，提供了一种音频处理装置，包括：

获取模块，被配置为获取携带有原始音频信号的降噪指令；

降噪模块，被配置为对所述原始音频信号进行降噪处理获得降噪音频信号，并基于所述降噪音频信号确定所述原始音频信号中的噪声音频信号；

计算模块，被配置为基于所述降噪音频信号的降噪音频特征以及所述噪声音频信号的噪声音频特征，计算所述原始音频信号的信噪比；

确定模块，被配置为根据所述信噪比在所述原始音频信号中筛选出目标音频片段，并根据所述目标音频片段确定响应所述降噪指令的目标音频信号。

根据本说明书实施例的第三方面，提供了一种计算设备，包括：

存储器和处理器；

所述存储器用于存储计算机可执行指令，所述处理器用于执行所述计算机可执行指令：

获取携带有原始音频信号的降噪指令；

根据本说明书实施例的第四方面，提供了一种计算机可读存储介质，其存储有计算机可执行指令，该指令被处理器执行时实现所述音频处理方法的步骤。

本说明书提供的音频处理方法，通过获取到携带原始音频信号的降噪指令后，对所述原始音频信号进行降噪处理得到降噪音频信号，同时基于所述降噪音频信号确定所述原始音频信号中的噪声音频信号，之后基于所述噪声音频信号的音频特征以及所述降噪音频信号的音频特征计算所述原始音频信号的信噪比，根据所述信噪比在原始音频信号中筛选出目标音频片段，并根据所述目标音频片段确定响应所述降噪指令的目标音频信号，实现了在针对所述降噪指令反馈音频信号时，可以通过计算信噪比的方式分析对原始音频信号的降噪效果，从而可以反馈未失真的原始音频信号或者降噪效果较好的降噪音频信号，以满足用户的收听需求，提高用户的收听体验。

附图说明

图1是本说明书一实施例提供的一种音频处理方法的流程图；

图2是本说明书一实施例提供的一种音频处理方法中的分帧处理的示意图；

图3是本说明书一实施例提供的一种应用于降噪处理场景中的音频处理方法的处理流程图；

图4是本说明书一实施例提供的一种音频处理装置的结构示意图；

图5是本说明书一实施例提供的一种计算设备的结构框图。

具体实施方式

在下面的描述中阐述了很多具体细节以便于充分理解本说明书。但是本说明书能够以很多不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本说明书内涵的情况下做类似推广，因此本说明书不受下面公开的具体实施的限制。

在本说明书一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本说明书一个或多个实施例。在本说明书一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本说明书一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本说明书一个或多个实施例中可能采用术语第一、第二等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本说明书一个或多个实施例范围的情况下，第一也可以被称为第二，类似地，第二也可以被称为第一。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

在本说明书中，提供了一种音频处理方法，本说明书同时涉及一种音频处理装置，一种计算设备，以及一种计算机可读存储介质，在下面的实施例中逐一进行详细说明。

实际应用中，由于用户对音频播放质量的需求逐渐增大，为了能够播放满足用户收听需求的音频信号，大多数音频在播放之前，都会进行降噪处理或增强处理，即消除音频中的噪声信号，或增强音频中真实音频信号，从而满足用户收听需求的同时，提高用户收听体验；而由于降噪处理的强度是随着音频本身的属性变化的，没有一个较好的降噪处理标准，这就导致在降噪处理强度太大时，使得音频出现失真的问题发生，也会影响用户的收听体验，因此在降噪前准确的分析音频是否需要降噪，是改善当前问题的重要方案。

本说明书提供的音频处理方法，为了避免降噪后出现失真的问题，以及提高用户的收听体验，获取到携带原始音频信号的降噪指令后，对所述原始音频信号进行降噪处理得到降噪音频信号，同时基于所述降噪音频信号确定所述原始音频信号中的噪声音频信号，之后基于所述噪声音频信号的音频特征以及所述降噪音频信号的音频特征计算所述原始音频信号的信噪比，根据所述信噪比在原始音频信号中筛选出目标音频片段，并根据所述目标音频片段确定响应所述降噪指令的目标音频信号，实现了在针对所述降噪指令反馈音频信号时，可以通过计算信噪比的方式分析对原始音频信号的降噪效果，从而可以反馈未失真的原始音频信号或者降噪效果较好的降噪音频信号，以满足用户的收听需求，提高用户的收听体验。

图1示出了根据本说明书一实施例提供的一种音频处理方法的流程图，具体包括以下步骤：

步骤S102，获取携带有原始音频信号的降噪指令。

具体实施时，所述原始音频信号具体是指需要进行降噪处理的音频，如在即时通讯场景中，用户之间通过语音进行交流，此时用户之间彼此发出的语音即为原始音频信号，当另一个用户收听该语音时，为了能够提高用户的收听体验，可以对该语音进行降噪处理，从而使得另一个用户可以收听到清楚的语音，提高二者之间的沟通效率；而降噪处理的强度无法精准的确定，就可能存在降噪过大(语音失真)或者降噪过低(语音存在噪声)的问题，也会影响用户的收听体验，为了避免失真或噪声对用户收听的影响，在播放前可以通过信噪比分析语音的净化程度，从而确定需要播放的语音，提高用户的收听体验。

基于此，本实施例提供的音频处理方法还可以应用于音频处理场景，如视频播放场景(如电影播放，小视频播放或直播等)或音频播放场景(如音乐播放，小说阅读或电台等)，在进行相应的音频播放前，都可以通过分析信噪比的方式进行失真或噪声的分析，从而播放出满足用户收听体验的音频，需要说明的是，各个场景的实现方式均可以参见本实施例相应的描述内容，在此不作过多赘述。

进一步的，所述降噪指令具体是指需要对原始音频信号进行降噪处理的指令，在即时通讯场景中，降噪指令可以是系统自动触发的指令；在音频处理场景中，降噪指令可以是用户主动触发的，即用户提交降噪指令，即可触发对原始音频信号进行处理以及分析的过程，从而输出满足用户收听需求的音频信号。

步骤S104，对所述原始音频信号进行降噪处理获得降噪音频信号，并基于所述降噪音频信号确定所述原始音频信号中的噪声音频信号。

具体的，在上述获得携带有原始音频信号的降噪指令的基础上，进一步的，此时为了避免后续反馈的音频信号失真或者未降噪的问题，可以对所述原始音频信号先进行降噪处理，获得降噪音频信号，所述降噪音频信号即为对原始音频信号进行降噪处理后，降低原始音频信号中噪声信号得到的音频信号，之后基于降噪音频信号确定所述原始音频信号中的噪声音频信号，所述噪声音频信号即为原始音频信号中影响音频正常播放的音频信号，即需要进行处理的音频信号；之后再按照后续分析信噪比的方式决定针对降噪指令反馈的目标音频信号，从而克服音频信号失真或者未降噪的问题。

进一步的，在对所述原始音频信号进行降噪处理的过程中，为了提高降噪处理效率以及降噪处理效果，可以采用降噪模型实现，本实施例中，具体实现方式如下所述：

构建所述原始音频信号对应的信号序列；

具体的，所述信号序列具体是指对所述原始音频信号进行处理后侯建的序列，所述信号序列符合降噪模型的输入，之后将所述信号序列输入至所述降噪模型进行降噪处理，即可获得所述降噪音频信号。

实际应用中，所述降噪音频信号可以采用神经网络构建，如采用3层隐藏层的全连接神经网络结构，即馈神经网络(Feed-Forward Neural Network)，同时考虑到降噪处理需求，因此神经网络的输入层和输出层可以设置为257个神经元，用于对应一帧音频进行傅里叶变换得到的对数功率谱值；即神经网络的输入帧长为512点，帧移256点，对每一帧音频的时域采样点进行傅里叶变换，获得其功率谱后取对数，得到257维的log功率谱特征，提取的所有log功率谱特征都进行标准化处理，将其均值归到0，方差归到1，从而使用梯度下降法快速的找到最小值，最经过输出层即可得到降噪后的降噪音频信号。

需要说明的是，降噪模型的隐藏层可以采用ReLU(线性整流函数，RectifiedLinear Unit)作为激活函数，并采用Adam优化算法进行反向传播，自适应地调整梯度的步长，实现更高效的反向传播，为了保证模型的泛化能力，每层隐藏层都采用0.2的丢失率和batch normalization的正则化方法，从而提高降噪模型的降噪处理效果。

实际应用中，在对所述原始音频信号进行降噪处理得到降噪音频信号的过程中，还可以采用其他的降噪方式进行，如通过自适应滤波器降噪，自适应陷波器进行降噪或基本谱减法降噪，都可以实现降噪处理的过程，具体实施时，可以根据实际应用场景选择符合降噪需求的降噪方法，本实施例在此不作过多限定。需要说明的是，此阶段降噪处理得到的降噪音频信号并不一定是最终需要输出的目标音频信号，因此降噪处理过程的降噪强度可以动态调整。

更进一步的，在对所述原始音频信号进行降噪处理之后，为了能够针对降噪指令反馈未失真或降噪后的音频，可以进行后续的信噪比分析，而在此之前，需要确定所述原始音频信号中的噪声音频信号，以方便后续处理过程，本实施例中，具体实现方式如下所述：

(1)对所述原始音频信号进行分帧处理获得多个原始子音频信号，以及对所述降噪音频信号进行分帧处理获得多个降噪子音频信号。

具体的，为了能够精准的分析原始音频信号中包含的噪声音频信号，可以对所述原始音频信号和所述降噪音频信号分别进行分帧处理，获得所述多个原始子音频信号，以及所述多个降噪子音频信号，之后从各个子音频信号出发进行噪声音频信号的确定。

进一步的，由于需要根据分帧后的多个降噪子音频信号和多个原始子音频信号确定所述噪声音频信号，因此为了能够提高噪声音频信号确定的精准度，可以采用相同的分帧处理方法进行，本实施例中，具体实现方式如下所述：

根据所述预设的分帧规则对所述降噪音频信号进行分帧处理获得所述多个降噪子音频信号；其中，所述预设的分帧规则为重叠分帧规则或非重叠分帧规则。

具体的，所述预设的分帧规则可以是重叠分帧规则或非重叠分帧规则，其中，重叠分帧规则具体是指在对音频信号进行分帧处理时，将相邻的音频帧设置重叠部分；非重叠分帧规则具体是指对音频信号进行分帧处理时，将相邻的音频帧首位相邻；通过使用相同的分帧规则对所述原始音频信号和所述降噪音频信号进行分帧处理，可以更容易确定各个子音频信号之间的关联关系，方便后续确定噪声音频信号。

例如，获取到携带原始音频信号X的降噪指令后，利用降噪模型对原始音频信号X进行降噪处理，得到降噪音频信号S，此时为了能够针对降噪指令反馈满足收听需求的音频信号，将利用重叠分帧规则对原始音频信号X分帧处理，参见图2所示，即按照每帧长度为T₁＝32ms，相邻音频帧重叠长度为T₂＝16ms对原始音频信号X进行分帧处理，获得原始子音频信号为X_i，i＝1,2…n(n为正整数，n表示原始音频信号X对应的总帧数)；相应的原始子音频信号X₁的帧长度为32ms，为原始音频信号X的0-32ms，原始子音频信号X₂的帧长度为32ms，为原始音频信号X的16-48ms……原始子音频信号X_n的帧长度为32ms，为原始音频信号X的y₁-y₂ms(其中y₂-y₁＝32ms)；

同理，降噪音频信号S也按照重叠分帧规则进行分帧处理，获得降噪子音频信号为S_i，i＝1,2…n(n为正整数，n表示降噪音频信号S对应的总帧数)，相应的降噪子音频信号S₁的帧长度为32ms，为降噪音频信号S的0-32ms，降噪子音频信号S₂的帧长度为32ms，为降噪音频信号S的16-48ms……降噪子音频信号S_n的帧长度为32ms，为降噪音频信号S的y₁-y₂ms(其中y₂-y₁＝32ms)。

综上，通过采用相同的分帧规则对所述原始音频信号和所述降噪音频信号进行分帧处理，可以为后续确定噪声音频信号做好准备，更加方便分析出所述原始音频信号中的噪声音频信号。

(2)根据所述多个原始子音频信号和所述多个降噪子音频信号确定多个噪声子音频信号；基于所述多个噪声子音频信号生成所述噪声音频信号。

具体的，在上述分帧处理得到所述多个原始子音频信号和所述多个降噪子音频信号后，此时可以确定所述原始音频信号中的多个噪声子音频信号，之后基于所述噪声子音频信号即可确定所述噪声音频信号。

进一步的，在根据所述多个原始子音频信号和所述多个降噪子音频信号确定所述噪声子音频信号的过程中，由于所述多个原始子音频信号和所述多个降噪子音频信号采用相同分帧规则获得，因此可以预先建立子音频信号之间的对应关系，再进行噪声子音频信号的确定，本实施例中，具体实现方式如下所述：

具体的，由于所述多个原始子音频信号和所述多个降噪子音频信号是采用相同的分帧规则处理得到，因此可以构建各个原始子音频信号和各个降噪子音频信号的对应关系，之后通过对应关系即可比较出多个噪声子音频信号，以用于后续音频处理过程。

实际应用中，在将具有对应关系的原始子音频信号和降噪子音频信号进行比较得到噪声子音频信号的过程中，为了能够准确的得到所述噪声子音频信号，可以对原始子音频信号和降噪子音频信号分别进行傅里叶变换，得到原始子音频信号对应的第一频谱，以及降噪子音频信号对应的第二频谱，通过将第一频谱和第二频率进行比对，即可确定二者之间存在的差异信息，之后根据该差异信息即可反推出所述噪声子音频信号。

沿用上例，在得到原始子音频信号X_i以及降噪子音频信号S_i之后，确定原始子音频信号X_i中与降噪子音频信号S_i中具有对应关系的子音频信号，即原始子音频信号X₁对应降噪子音频信号S₁；原始子音频信号X₂对应降噪子音频信号S₂……原始子音频信号X_n对应降噪子音频信号S_n；此时将具有对应关系的子音频信号进行比对，根据比对结果确定各个原始子音频信号中的噪声子音频信号；即噪声子音频信号D_i＝X_i-S_i：D₁＝X₁-S_1,，D₂＝X₂-S₂……D_n＝X_n-S_n；此时确定多个噪声子音频信号后，更加方便后续分析目标音频信号。

综上，按照每帧计算的方式确定所述原始音频信号中包含的多个噪声子音频信号，之后整合为所述噪声音频信号，实现通过减少分析粒度的方式提高噪声音频信号确定的精准度，进一步提高后续确定目标音频信号的效率和准确率。

步骤S106，基于所述降噪音频信号的降噪音频特征以及所述噪声音频信号的噪声音频特征，计算所述原始音频信号的信噪比。

具体的，在上述确定所述噪声音频信号的基础上，进一步的，此时将基于所述降噪音频信号的降噪音频特征以及所述噪声音频信号的噪声音频特征，计算所述原始音频信号的信噪比，其中，所述降噪音频特征具体是指所述降噪音频信号的能量，所述噪声音频特征具体是指所述噪声音频信号的能量，可以通过该能量分析出音频信号的音量幅度等信息；所述信噪比具体是指反映原始音频信号质量的参数，信噪比越高表明原始音频信号中的噪声信号越小，音频信号越干净；反之信噪比越低表明原始音频信号中的噪声信号越大，音频信号越复杂。

进一步的，在计算所述原始音频信号的信噪比之前，还需要确定所述降噪音频信号的降噪音频特征，以及所述噪声音频信号的噪声音频特征，以便计算出所述信噪比，本实施例中，所述降噪音频信号的降噪音频特征，通过如下方式确定：

具体的，为了方便后续计算信噪比，可以采用确定降噪子音频特征的方式逐步确定所述噪声音频特征；其中所述第一采样点总数具体是指处理子音频信号的解析度，所述第一采样点总数的数值越大，解析度越高，处理音频的效果也就越好；所述第一采样点取值具体是指每个采样点对应的取值。

基于此，首先确定所述多个降噪子音频信号中的各个降噪子音频信号对应的第一采样点总数，同时确定所述第一采样点总数中的各个采样点对应的第一采样点取值；其次基于所述第一采样点总数和所述第一采样点取值计算所述多个降噪子音频信号中的各个降噪子音频信号对应的降噪子音频特征，最后根据所述多个降噪子音频信号中的各个降噪子音频信号对应的降噪子音频特征即可确定所述降噪音频信号的降噪音频特征。

具体实施时，计算所述降噪音频信号中的各个降噪子音频信号的降噪子音频特征可以通过式(1)获得：

其中，E_{s_i}表示第i个降噪子音频信号的降噪子音频特征，M表示降噪子音频信号中的采样点总数，s_i,k表示降噪子音频信号中第k个采样点的取值。

本实施例中，所述噪声音频信号的噪声音频特征，通过如下方式确定：

需要说明的是，所述噪声音量特征的确定过程与上述降噪音量特征的确定过程相似，相应的描述内容可以参见上述确定降噪音量特征的描述内容，本实施例在此不作过多赘述。

沿用上例，在得到降噪子音频信号S_i和噪声子音频信号D_i之后，通过公式(1)即可计算出降噪子音频信号S_i对应的降噪子音频特征E_{s_i}，即降噪子音频信号S₁对应的降噪子音频特征E_{s_1}，即降噪子音频信号S₂对应的降噪子音频特征E_{s_2}……即降噪子音频信号S_n对应的降噪子音频特征E_{s_n}；以及通过公式(1)即可计算出噪声子音频信号D_i对应的噪声子音频特征E_{D_i}，即噪声子音频信号D₁对应的噪声子音频特征E_{D_1}，噪声子音频信号D₂对应的噪声子音频特征E_{D_2}……噪声子音频信号D_n对应的噪声子音频特征E_{D_n}，以用于后续计算原始音频信号X的信噪比。

综上，通过逐帧进行音频特征的确定，不仅有利于后续确定目标音频片段，还能够进一步提高确定所述目标音频信号的精准度，从而能够针对所述降噪指令反馈满足收听需求的音频信号，提高用户的收听体验。

更进一步的，在确定所述降噪音频信号的降噪音频特征，以及所述噪声音频信号的噪声音频特征之后，此时将根据二者的音频特征计算所述原始音频信号的信噪比，而为了能够方便后续筛选出目标音频片段，可以通过逐帧分析的方式进行计算，本实施例中，具体实现方式如下所述：

具体的，为了方便后续筛选出所述目标音频片段，可以采用逐帧计算的方式计算各个原始子音频信号的子信噪比，从而确定所述原始音频信号的信噪比；基于此，首先确定所述多个降噪子音频信号中的各个降噪子音频信号与所述多个噪声子音频信号中的各个噪声子音频信号的信号对应关系，从而基于所述信号对应关系、所述多个降噪子音频信号中的各个降噪子音频信号对应的降噪子音频特征和所述多个噪声子音频信号中的各个噪声子音频信号对应的噪声子音频特征，计算所述多个原始子音频信号中的各个原始子音频信号对应的子信噪比，最后基于多个原始子音频信号中的各个原始子音频信号对应的子信噪比即可确定所述原始音频信号的信噪比。

实际应用中，在计算所述多个原始子音频信号中的各个原始子音频信号对应的子信噪比的过程可以通过式(2)获得：

snr_i＝10log₁₀(E_{s_i}/E_{d_i}) (2)

其中，snr_i表示第i个原始子音频信号中的信噪比，E_{s_i}表示第i个降噪子音频信号的降噪子音频特征，E_{d_i}表示第i个噪声子音频信号的噪声子音频特征。

沿用上例，在通过公式(1)计算出降噪子音频信号S_i对应的降噪子音频特征E_{s_i}，以及噪声子音频信号D_i对应的噪声子音频特征E_{D_i}的基础上，进一步的，此时通过公式(2)计算原始子音频信号X_i对应的子信噪比snr_i，即原始子音频信号X₁对应的子信噪比snr₁，原始子音频信号X₂对应的子信噪比snr₂……原始子音频信号X_n对应的子信噪比snr_n；此时即可通过子信噪比确定各个原始音频信号X的音频质量，以用于后续确定目标音频信号。

综上，通过计算信噪比的方式对所述原始音频信号进行分析，可以直观的反映出原始音频信号的音频质量，方便后续输出满足用户收听需求的目标音频信号。

步骤S108，根据所述信噪比在所述原始音频信号中筛选出目标音频片段，并根据所述目标音频片段确定响应所述降噪指令的目标音频信号。

具体的，在上述确定所述原始音频信号的信噪比的基础上，进一步的，为了能够精准的确定所述目标音频信号，可以在所述原始音频信号中筛选出目标音频片段，通过分析所述目标音频片段来确定响应所述降噪指令的目标音频信号；其中，所述目标音频片段具体是指子信噪比较高的原始子音频信号组成的音频片段，所述目标音频片段中包含的原始子音频信号越多，说明占多个原始子音频信号的数量也就越多，进一步说明原始音频信号的质量较好，此时为了避免降噪出现失真的问题，可以选择将原始子音频信号作为目标音频信号；反之，目标音频片段中包含的原始子音频信号越少，说明占多个原始子音频信号的数量也就越少，进一步说明原始音频信号的质量较差，此时为了满足用户收听需求，可以选择将降噪音频信号作为目标音频信号。

进一步的，在从所述原始音频信号中筛选所述目标音频片段的过程中，为了能够提高后续响应所述降噪指令的准确度，可以通过子信噪比与预设信噪比阈值比较的方式进行筛选，本实施例中，具体实现方式如下所述：

具体的，在上述确定多个原始子音频信号中的各个原始子音频信号对应的子信噪比之后，此时将各个原始子音频信号对应的子信噪比与预设信噪比阈值进行比较，之后选择比较结果大于预设信噪比阈值的原始子音频信号组成所述目标音频片段，以用于后续分析响应所述降噪指令的目标音频信号。

沿用上例，在确定原始子音频信号X_i对应的子信噪比snr_i之后，此时将各个原始子音频信号的子信噪比snr_i与预设信噪比阈值进行比较，确定原始子音频信号X_i中大于信噪比阈值的原始子音频信号有c个，此时将c个原始子音频信号组成目标音频片段，用于后续分析响应降噪指令的目标音频信号。

实际应用中，所述信噪比阈值可以根据实际应用场景进行设定，本实施例在此不作任何限定。

更进一步的，在上述确定所述目标音频片段之后，此时将通过所述目标音频片段分析响应所述降噪指令的目标音频信号，本实施例中，具体实现方式如下所述：

具体的，所述第一信号数量具体是指所述目标音频片段中包含的原始子音频信号的数量，所述第二信号数量具体是指所述多个原始子音频信号中包含的原始子音频信号的数量。

基于此，首先确定所述目标音频片段中包含的原始子音频信号的第一信号数量，以及所述多个原始子音频信号中包含的原始子音频信号的第二信号数量；其次计算第一信号数量与所述第二信号数量的比值，并判断所述比值是否大于预设比值阈值，若是，说明所述目标音频片段中包含的原始子音频信号较多，进一步表明原始音频信号的噪声干扰较少，则此时即可将原始音频信号确定为响应所述降噪指令的所述目标音频信号；若否，说明所述目标音频片段中包含的原始子音频信号较少，进一步表明原始音频信号的噪声干扰较大，则此时即可将所述降噪音频信号确定为响应所述降噪指令的所述目标音频信号。

沿用上例，在确定有c个原始子音频信号组成的目标音频片段之后，此时将计算目标音频片段中包含的c个原始子音频信号与原始音频信号中包含的n个原始子音频信号的比值即c/n，若c/n大于预设比值阈值ratio，则说明原始音频信号X中包含的噪声音频信号较少，为了避免失真的问题，可以将未经降噪处理的原始音频信号X作为响应降噪指令的目标音频信号；若c/n小于等于预设比值阈值ratio，则说明原始音频信号X中包含的噪声音频信号较多，为了提高用户收听体验，可以将经过处理的降噪音频信号S作为响应降噪指令的目标音频信号。

综上，通过引入信噪比分析子音频信号的占比，进而判断出所述原始音频信号被噪声干扰的程度，进一步提高确定所述目标音频信号的精准度，从而能够针对所述降噪指令反馈符合收听需求的目标音频信号，避免失真或噪声干扰的问题发生。

此外，在经过上述音频处理方法确定目标音频信号之后，为了能够提高在以后的音频处理过程中，确定目标音频信号的精准度，可以动态的对降噪模型进行调参，本实施例中，具体实现方式如下所述：

具体的，在所述目标音频信号为原始音频信号的情况下，说明原始音频信号被噪声干扰的程度较低，此后再处理相似音频信号时为了避免失真的问题，可以将降噪模型的降噪强度降低；在所述目标音频信号为降噪音频信号的情况下，说明原始音频信号被噪声干扰的程度较高，此后再处理相似音频信号时为了避免噪声的干扰，可以将降噪模型的降噪强度提高。

基于此，按照目标音频信号的属性对所述降噪模型进行参数调整，之后再对参数调整后的降噪模型进行测试，即可获得满足使用需求的降噪模型，并将其进行存储，即可用于下一降噪处理过程。

综上，通过动态调整降噪模型的方式，可以有效的提高确定所述目标音频信号的精准度，从而实现将降噪模型应用到更广泛的音频处理场景，提高音频处理效果。

下述结合附图3，以本说明书提供的音频处理方法在降噪场景中的应用为例，对所述音频处理方法进行进一步说明。其中，图3示出了本说明书一实施例提供的一种应用于降噪场景中的音频处理方法的处理流程图，具体包括以下步骤：

步骤S302，获取携带有原始音频信号X的降噪指令。

本实施例提供的应用于降噪处理场景中的音频处理方法，通过逐帧进行分析的方式有效的提高分析目标音频信号的精准度，从而能够更加精准的针对所述降噪指令进行响应。

步骤S304，利用降噪算法对原始音频信号X进行降噪处理，获得降噪音频信号S。

步骤S306，对原始音频信号X进行分帧处理获得原始子音频信号X_i，以及对降噪音频信号S进行分帧处理获得降噪子音频信号S_i。

具体的，对原始音频信号X和降噪音频信号S进行分帧处理的方式相同，并且原始子音频信号X_i与降噪子音频信号S_i一一对应；其中，i从1开始取值，并且i为正整数。

步骤S308，根据原始子音频信号X_i和降噪子音频信号S_i确定原子音频信号X中的噪声子音频信号D_i。

步骤S310，计算降噪子音频信号S_i中各个降噪子音频信号的降噪子音频特征E_{s_i}，以及计算噪声子音频信号D_i中各个噪声子音频信号的噪声子音频特征E_{D_i}。

步骤S312，基于降噪子音频特征E_{s_i}和噪声子音频特征E_{D_i}计算原始子音频信号X_i中的各个原始子音频信号的子信噪比。

步骤S314，统计原始子音频信号X_i中子信噪比大于预设信噪比阈值的原始子音频信号的第一信号数量，以及原始子音频信号X_i中的原始子音频信号的第二信号数量。

步骤S316，判断第一信号数量和第二信号数量的比值是否大于预设比值阈值；若是，执行步骤S318；若否，执行步骤S320。

步骤S318，将原始音频信号X作为响应降噪指令的目标音频信号。

步骤S320，将降噪音频信号S作为响应降噪指令的目标音频信号。

需要说明的是，本实施例未详尽描述的内容均可参见上述实施例中相应的描述内容，本实施例在此不作过多赘述。

与上述方法实施例相对应，本说明书还提供了音频处理装置实施例，图4示出了本说明书一实施例提供的一种音频处理装置的结构示意图。如图4所示，该装置包括：

获取模块402，被配置为获取携带有原始音频信号的降噪指令；

降噪模块404，被配置为对所述原始音频信号进行降噪处理获得降噪音频信号，并基于所述降噪音频信号确定所述原始音频信号中的噪声音频信号；

计算模块406，被配置为基于所述降噪音频信号的降噪音频特征以及所述噪声音频信号的噪声音频特征，计算所述原始音频信号的信噪比；

确定模块408，被配置为根据所述信噪比在所述原始音频信号中筛选出目标音频片段，并根据所述目标音频片段确定响应所述降噪指令的目标音频信号。

一个可选的实施例中，所述降噪模块404，包括：

构建信号序列单元，被配置为构建所述原始音频信号对应的信号序列；

模型降噪处理单元，被配置为将所述信号序列输入至降噪模型进行降噪处理，获得所述降噪音频信号。

一个可选的实施例中，所述降噪模块404，包括：

分帧处理单元，被配置为对所述原始音频信号进行分帧处理获得多个原始子音频信号，以及对所述降噪音频信号进行分帧处理获得多个降噪子音频信号；

确定噪声子音频信号单元，被配置为根据所述多个原始子音频信号和所述多个降噪子音频信号确定多个噪声子音频信号；

生成噪声音频信号单元，被配置为基于所述多个噪声子音频信号生成所述噪声音频信号。

一个可选的实施例中，所述确定噪声子音频信号单元，包括：

确定对应关系子单元，被配置为确定所述多个原始子音频信号中的各个原始子音频信号与所述多个降噪子音频信号中的各个降噪子音频信号的对应关系；

比较子音频信号子单元，被配置为将具有对应关系的原始子音频信号和降噪子音频信号进行比较，根据比较结果确定所述多个噪声子音频信号。

一个可选的实施例中，所述分帧处理单元，包括：

第一分帧处理子单元，被配置为根据预设的分帧规则对所述原始音频信号进行分帧处理获得所述多个原始子音频信号；

第二分帧处理子单元，被配置为根据所述预设的分帧规则对所述降噪音频信号进行分帧处理获得所述多个降噪子音频信号；

一个可选的实施例中，所述降噪音频信号的降噪音频特征，通过如下方式确定：

一个可选的实施例中，所述噪声音频信号的噪声音频特征，通过如下方式确定：

一个可选的实施例中，所述计算模块406，包括：

确定信号对应关系单元，被配置为确定所述多个降噪子音频信号中的各个降噪子音频信号与所述多个噪声子音频信号中的各个噪声子音频信号的信号对应关系；

计算子信噪比单元，被配置为基于所述信号对应关系、所述多个降噪子音频信号中的各个降噪子音频信号对应的降噪子音频特征和所述多个噪声子音频信号中的各个噪声子音频信号对应的噪声子音频特征，计算所述多个原始子音频信号中的各个原始子音频信号对应的子信噪比；

确定信噪比单元，被配置为根据所述多个原始子音频信号中的各个原始子音频信号对应的子信噪比确定所述原始音频信号的信噪比。

一个可选的实施例中，所述确定模块408，包括：

比较子信噪比单元，被配置为将所述多个原始子音频信号中的各个原始子音频信号对应的子信噪比与预设信噪比阈值进行比较；

组成目标音频片段单元，被配置为根据比较结果选择大于所述预设信噪比阈值的原始子音频信号组成所述目标音频片段。

一个可选的实施例中，所述确定模块408，包括：

确定信号数量单元，被配置为确定所述目标音频片段中包含的原始子音频信号的第一信号数量，以及所述多个原始子音频信号中包含的原始子音频信号的第二信号数量；

判断单元，被配置为计算所述第一信号数量与所述第二信号数量的比值，并判断所述比值是否大于预设比值阈值；

若是，运行第一确定单元，所述第一确定单元，被配置为将所述原始音频信号确定为响应所述降噪指令的所述目标音频信号；

若否，运行第二确定单元，所述第二确定单元，被配置为将所述降噪音频信号确定为响应所述降噪指令的所述目标音频信号。

一个可选的实施例中，所述音频处理装置，还包括：

调整模块，被配置为对所述降噪模型的参数进行调整，并对参数调整后的降噪模型进行测试；

存储模块，被配置为在测试结果满足模型存储条件的情况下，对参数调整后的降噪模型进行存储；参数调整后的降噪模型用于下一降噪处理过程。

本说明书提供的音频处理装置，通过获取到携带原始音频信号的降噪指令后，对所述原始音频信号进行降噪处理得到降噪音频信号，同时基于所述降噪音频信号确定所述原始音频信号中的噪声音频信号，之后基于所述噪声音频信号的音频特征以及所述降噪音频信号的音频特征计算所述原始音频信号的信噪比，根据所述信噪比在原始音频信号中筛选出目标音频片段，并根据所述目标音频片段确定响应所述降噪指令的目标音频信号，实现了在针对所述降噪指令反馈音频信号时，可以通过计算信噪比的方式分析对原始音频信号的降噪效果，从而可以反馈未失真的原始音频信号或者降噪效果较好的降噪音频信号，以满足用户的收听需求，提高用户的收听体验。

上述为本实施例的一种音频处理装置的示意性方案。需要说明的是，该音频处理装置的技术方案与上述的音频处理方法的技术方案属于同一构思，音频处理装置的技术方案未详细描述的细节内容，均可以参见上述音频处理方法的技术方案的描述。

图5示出了根据本说明书一实施例提供的一种计算设备500的结构框图。该计算设备500的部件包括但不限于存储器510和处理器520。处理器520与存储器510通过总线530相连接，数据库550用于保存数据。

计算设备500还包括接入设备540，接入设备540使得计算设备500能够经由一个或多个网络560通信。这些网络的示例包括公用交换电话网(PSTN)、局域网(LAN)、广域网(WAN)、个域网(PAN)或诸如因特网的通信网络的组合。接入设备540可以包括有线或无线的任何类型的网络接口(例如，网络接口卡(NIC))中的一个或多个，诸如IEEE802.11无线局域网(WLAN)无线接口、全球微波互联接入(Wi-MAX)接口、以太网接口、通用串行总线(USB)接口、蜂窝网络接口、蓝牙接口、近场通信(NFC)接口，等等。

在本说明书的一个实施例中，计算设备500的上述部件以及图5中未示出的其他部件也可以彼此相连接，例如通过总线。应当理解，图5所示的计算设备结构框图仅仅是出于示例的目的，而不是对本说明书范围的限制。本领域技术人员可以根据需要，增添或替换其他部件。

计算设备500可以是任何类型的静止或移动计算设备，包括移动计算机或移动计算设备(例如，平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等)、移动电话(例如，智能手机)、可佩戴的计算设备(例如，智能手表、智能眼镜等)或其他类型的移动设备，或者诸如台式计算机或PC的静止计算设备。计算设备500还可以是移动式或静止式的服务器。

其中，处理器520用于执行如下计算机可执行指令：

获取携带有原始音频信号的降噪指令；

上述为本实施例的一种计算设备的示意性方案。需要说明的是，该计算设备的技术方案与上述的音频处理方法的技术方案属于同一构思，计算设备的技术方案未详细描述的细节内容，均可以参见上述音频处理方法的技术方案的描述。

本说明书一实施例还提供一种计算机可读存储介质，其存储有计算机指令，该指令被处理器执行时以用于：

获取携带有原始音频信号的降噪指令；

上述为本实施例的一种计算机可读存储介质的示意性方案。需要说明的是，该存储介质的技术方案与上述的音频处理方法的技术方案属于同一构思，存储介质的技术方案未详细描述的细节内容，均可以参见上述音频处理方法的技术方案的描述。

上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

所述计算机指令包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

需要说明的是，对于前述的各方法实施例，为了简便描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本说明书并不受所描述的动作顺序的限制，因为依据本说明书，某些步骤可以采用其它顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定都是本说明书所必须的。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其它实施例的相关描述。

以上公开的本说明书优选实施例只是用于帮助阐述本说明书。可选实施例并没有详尽叙述所有的细节，也不限制该发明仅为所述的具体实施方式。显然，根据本说明书的内容，可作很多的修改和变化。本说明书选取并具体描述这些实施例，是为了更好地解释本说明书的原理和实际应用，从而使所属技术领域技术人员能很好地理解和利用本说明书。本说明书仅受权利要求书及其全部范围和等效物的限制。

Claims

1.一种音频处理方法，其特征在于，包括：

获取携带有原始音频信号的降噪指令；

将多个原始子音频信号中的各个原始子音频信号对应的子信噪比与预设信噪比阈值进行比较；根据比较结果选择大于所述预设信噪比阈值的原始子音频信号组成目标音频片段；确定所述目标音频片段中包含的原始子音频信号的第一信号数量，以及所述多个原始子音频信号中包含的原始子音频信号的第二信号数量；计算所述第一信号数量与所述第二信号数量的比值，并判断所述比值是否大于预设比值阈值；若是，将所述原始音频信号确定为响应所述降噪指令的目标音频信号；若否，将所述降噪音频信号确定为响应所述降噪指令的所述目标音频信号，其中，所述多个原始子音频信号为对所述原始音频信号分帧获得。

2.根据权利要求1所述的音频处理方法，其特征在于，所述对所述原始音频信号进行降噪处理获得降噪音频信号，包括：

构建所述原始音频信号对应的信号序列；

3.根据权利要求2所述的音频处理方法，其特征在于，所述基于所述降噪音频信号确定所述原始音频信号中的噪声音频信号，包括：

基于所述多个噪声子音频信号生成所述噪声音频信号。

4.根据权利要求3所述的音频处理方法，其特征在于，所述根据所述多个原始子音频信号和所述多个降噪子音频信号确定多个噪声子音频信号，包括：

5.根据权利要求3所述的音频处理方法，其特征在于，所述对所述原始音频信号进行分帧处理获得多个原始子音频信号，以及对所述降噪音频信号进行分帧处理获得多个降噪子音频信号，包括：

6.根据权利要求3所述的音频处理方法，其特征在于，所述降噪音频信号的降噪音频特征，通过如下方式确定：

7.根据权利要求6所述的音频处理方法，其特征在于，所述噪声音频信号的噪声音频特征，通过如下方式确定：

8.根据权利要求7所述的音频处理方法，其特征在于，所述基于所述降噪音频信号的降噪音频特征以及所述噪声音频信号的噪声音频特征，计算所述原始音频信号的信噪比，包括：

9.根据权利要求2所述的音频处理方法，其特征在于，所述将所述降噪音频信号确定为响应所述降噪指令的所述目标音频信号子步骤执行之后，还包括：

10.一种音频处理装置，其特征在于，包括：

获取模块，被配置为获取携带有原始音频信号的降噪指令；

确定模块，被配置为将多个原始子音频信号中的各个原始子音频信号对应的子信噪比与预设信噪比阈值进行比较；根据比较结果选择大于所述预设信噪比阈值的原始子音频信号组成目标音频片段；确定所述目标音频片段中包含的原始子音频信号的第一信号数量，以及所述多个原始子音频信号中包含的原始子音频信号的第二信号数量；计算所述第一信号数量与所述第二信号数量的比值，并判断所述比值是否大于预设比值阈值；若是，将所述原始音频信号确定为响应所述降噪指令的目标音频信号；若否，将所述降噪音频信号确定为响应所述降噪指令的所述目标音频信号，其中，所述多个原始子音频信号为对所述原始音频信号分帧获得。

11.一种计算设备，其特征在于，包括：

存储器和处理器；

所述存储器用于存储计算机可执行指令，所述处理器用于执行所述计算机可执行指令，以实现下述方法：

获取携带有原始音频信号的降噪指令；

12.一种计算机可读存储介质，其存储有计算机指令，其特征在于，该指令被处理器执行时实现权利要求1至9任意一项所述音频处理方法的步骤。