CN115472174A

CN115472174A - 声音降噪方法和装置、电子设备和存储介质

Info

Publication number: CN115472174A
Application number: CN202210892319.4A
Authority: CN
Inventors: 苏悦; 张新科; 崔潇潇; 鲁勇
Original assignee: Beijing Intengine Technology Co Ltd
Current assignee: Beijing Intengine Technology Co Ltd
Priority date: 2022-07-27
Filing date: 2022-07-27
Publication date: 2022-12-13

Abstract

本申请提供了一种声音降噪方法和装置、电子设备和存储介质，其中，该方法包括：获取待降噪的语音音频信息，其中，语音音频信息由多个时间帧组成；将语音音频信息输入声音事件检测模型中，得到每个时间帧下的声音事件类别；根据声音事件类别和目标场景，确定是否启动降噪模型；在确定启动降噪模型的情况下，将语音音频信息输入降噪模型进行降噪处理和自动增益控制，得到降噪后的语音音频信息，其中，自动增益控制用于控制输出语音音频的音量大小。通过本申请，解决了相关技术中存在无法区分声音事件、会消除所有非语音声音的问题。

Description

声音降噪方法和装置、电子设备和存储介质

技术领域

本发明涉及声音处理的技术领域，尤其涉及一种声音降噪方法和装置、电子设备和存储介质。

背景技术

传统的拨号通话以及基于互联网的在线会议、音频/视频通话等均通过音频进行信息交互，然而音频中通常会混杂各种背景噪声，为了提升音频质量，需要对音频进行降噪处理。

现阶段，基于深度学习的单通道语音降噪算法成为主流的降噪方法，该方法通常使用干净语音作为标签进行训练得到声音检测模型，因此使用该降噪无法区分不同的声音事件，会将所有非语音的部分当作噪声消除。某些时候，有些非语音声音事件是不希望被消除的，例如，会议场景中，精彩发言过后响起的掌声、欢呼声；音视频通话中，传达情绪的哭声、笑声、叹息声、撒娇声等；除此之外，嗯、啊、哦等常用的叹词，很多时候也会被降噪模块给消除。这些声音虽然不包含明确语义信息，但起着烘托氛围的作用，不应该被当作噪音消除。

因此现有技术中存在无法区分声音事件、会消除所有非语音声音的问题。

发明内容

本申请提供了一种声音降噪方法和装置、电子设备和存储介质，以至少解决相关技术中存在无法区分声音事件、会消除所有非语音声音的问题。

根据本申请实施例的一个方面，提供了一种声音降噪方法，包括：

获取待降噪的语音音频信息，其中，所述语音音频信息由多个时间帧组成；

将所述语音音频信息输入声音事件检测模型中，得到每个时间帧下的声音事件类别，其中，所述声音事件检测模型用于检测所述语音音频信息的每个时间帧下所包含的声音事件，所述声音事件检测模型是通过对训练模型的模型参数进行调整后得到的；

根据所述声音事件类别和目标场景，确定是否启动降噪模型，其中，所述目标场景用于判断所述声音事件类别是否需要降噪消除，所述降噪模型是通过对初始降噪模型的模型参数进行调整后得到的；

在确定启动所述降噪模型的情况下，将所述语音音频信息输入所述降噪模型进行降噪处理和自动增益控制，得到降噪后的语音音频信息，其中，所述自动增益控制用于控制输出语音音频的音量大小。

根据本申请实施例的另一个方面，还提供了一种声音降噪装置，包括：

获取模块，用于获取待降噪的语音音频信息，其中，所述语音音频信息由多个时间帧组成；

第一得到模块，用于将所述语音音频信息输入声音事件检测模型中，得到每个时间帧下的声音事件类别，其中，所述声音事件检测模型用于检测所述语音音频信息的每个时间帧下所包含的声音事件，所述声音事件检测模型是通过对训练模型的模型参数进行调整后得到的；

确定模块，根据所述声音事件类别和目标场景，确定是否启动降噪模型，其中，所述目标场景用于判断所述声音事件类别是否需要降噪消除，所述降噪模型是通过对初始降噪模型的模型参数进行调整后得到的；

第二得到模块，用于在确定启动所述降噪模型的情况下，将所述语音音频信息输入所述降噪模型进行降噪处理和自动增益控制，得到降噪后的语音音频信息，其中，所述自动增益控制用于控制输出语音音频的音量大小。

可选地，第一得到模块包括：

划分单元，用于确定不需要降噪的声音事件，划分声音事件类别；

第一获取单元，用于获取由多种所述声音事件类别组成的多种音频数据，其中，每种所述音频数据由多个时间帧组成，且在同一时间帧中对应至少一种所述声音事件类别，每个时间帧携带有包含的所述声音事件类别的类别标签；

第一生成单元，用于根据多种所述音频数据生成训练样本；

得到单元，用于提取所述训练样本中目标音频数据的语音特征信息，并进行编码，得到目标编码特征，同时确定所述目标编码特征对应的至少一种所述声音事件类别；

第一训练单元，用于将所述目标编码特征输入所述训练模型，得到所述目标编码特征属于每种目标声音事件类别的初始概率，更新所述训练模型的模型参数，直到属于每种所述目标声音事件类别的初始概率都大于第一预设阈值，则训练完成，得到所述声音事件检测模型，其中，所述目标编码特征携带有属于所述目标声音事件类别的所述类别标签，所述目标声音事件类别的数量至少为一个。

第二生成单元，用于生成时间窗，其中，所述时间窗由预设数量个时间帧组成；

滑动单元，用于以一个时间帧为步长，将所述时间窗在所述语音音频信息的时间轴上向前滑动预设距离，生成所述时间窗经过的每一时间帧下出现目标声音事件类别的概率，其中，若所述概率大于第二预设阈值，则对应时间窗的音频属于所述目标声音事件类别，若所述概率小于第二预设阈值，则对应时间窗的音频不属于所述目标声音事件类别，所述预设距离包含所有需要通过所述时间窗判断所述音频是否属于目标声音事件类别的时间帧。

可选地，第一生成单元包括：

生成子模块，用于从所述音频数据中随机抽样并时域叠加，生成训练数据；

得到子模块，用于通过预设方法扩充所述训练数据的数据量，得到所述训练样本，其中，所述预设方法用于增扩所述训练数据的数据量。

可选地，确定模块包括：

第一确定单元，用于根据所述目标场景确定需要降噪消除的声音事件类别与不需要降噪消除的声音事件类别；

操作单元，用于将所有需要降噪消除的声音事件类别每个时间帧下的特征编码全部置零，将所有不需要降噪消除的声音事件类别每个时间帧下的所述特征编码之间先进行逻辑或操作，再进行逻辑非操作，得到数字标识；

第二确定单元，用于根据所述数字标识，确定是否启动所述降噪模型。

可选地，第二得到模块包括：

构建单元，用于利用干净音频和噪声音频生成加噪音频，构建训练集，其中，所述干净音频为信噪比大于噪声阈值的音频，所述噪声音频为信噪比小于所述噪声阈值的音频，其中，所述噪声阈值为音频中包含噪声的临界值；

提取单元，用于提取所述干净音频的频域特征和所述加噪音频的频域特征；

第二训练单元，用于将所述加噪音频的频域特征输入初始降噪模型中得到属于所述干净音频的频域特征的初始概率，更新所述初始降噪模型的模型参数，直到属于所述干净音频的频域特征的初始概率大于第三预设阈值，则训练完成，得到所述降噪模型，其中，所述加噪音频中包含干净音频，在所述加噪音频的频域特征中携带有干净音频的频域特征标签。

第二获取单元，用于在接收到所述降噪模型启动的指示信息的情况下，获取启动降噪模型的时间帧在所述待降噪的语音音频信息中所处的第一时间点；

第三获取单元，用于在接收到所述降噪模型关闭的指示信息的情况下，获取启动降噪模型的时间帧在所述待降噪的语音音频信息中所处的第二时间点；

实现单元，用于在所述第一时间点后设定数量的时间帧内，将输出音频信号的增益控制在预设区间内，利用调节参数渐进调节降噪模型的开启；或者，在所述第二时间点后设定数量的时间帧内，将输出音频信号的增益控制在所述预设区间内，利用所述调节参数渐进调节降噪模型的关闭。

根据本申请实施例的又一个方面，还提供了一种电子设备，包括处理器、通信接口、存储器和通信总线，其中，处理器、通信接口和存储器通过通信总线完成相互间的通信；其中，存储器，用于存储计算机程序；处理器，用于通过运行所述存储器上所存储的所述计算机程序来执行上述任一实施例中的方法步骤。

根据本申请实施例的又一个方面，还提供了一种计算机可读的存储介质，该存储介质中存储有计算机程序，其中，该计算机程序被设置为运行时执行上述任一实施例中的方法步骤。

在本申请实施例中，通过获取待降噪的语音音频信息，其中，语音音频信息由多个时间帧组成；将语音音频信息输入声音事件检测模型中，得到每个时间帧下的声音事件类别，其中，声音事件检测模型用于检测语音音频信息的每个时间帧下所包含的声音事件，声音事件检测模型是通过对训练模型的模型参数进行调整后得到的；根据声音事件类别和目标场景，确定是否启动降噪模型，其中，目标场景用于判断声音事件类别是否需要降噪消除，降噪模型是通过对初始降噪模型的模型参数进行调整后得到的；在确定启动降噪模型的情况下，将语音音频信息输入降噪模型进行降噪处理和自动增益控制，得到降噪后的语音音频信息，其中，自动增益控制用于控制输出语音音频的音量大小。由于本申请实施例通过在降噪模块之前设置用于声音事件检测的前置模块，对输入的音频进行声音事件类别判定，区分出各种声音事件，并根据用户自定义和目标场景，对需要消除的声音事件进行降噪消除，既满足了语音音频的降噪需求，又保留了用户需要的非语音声音事件。解决了相关技术中存在无法区分声音事件、会消除所有非语音声音的问题。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是根据本申请实施例的一种可选的声音降噪方法的流程示意图；

图2是根据本申请实施例的一种可选的语音音频不同声音类别时间分布的示意图；

图3是根据本申请实施例的一种可选的声音事件检测模型的结构示意图；

图4是根据本申请实施例的一种可选的声音事件类别标签的示意图；

图5是根据本申请实施例的一种可选的平滑处理后声音事件类别标签的示意图；

图6是根据本申请实施例的一种可选的启动降噪模型判断条件的示意图；

图7是根据本申请实施例的一种可选的降噪模型训练过程的示意图；

图8是根据本申请实施例的另一种可选的声音降噪方法的流程示意图；

图9是根据本申请实施例的另一种可选的用户自定义声音降噪方法的流程示意图；

图10是根据本申请实施例的一种可选的声音降噪装置的结构框图；

图11是根据本申请实施例的一种可选的电子设备的结构框图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分的实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

为解决相关技术中存在无法区分声音事件、会消除所有非语音声音的问题，本申请实施例通过在降噪模块之前设置用于声音事件检测的前置模块，区分声音事件类别并根据用户需求对特定声音事件类别进行降噪消除，其中，声音事件检测模块包含声音事件检测模型，降噪模块包含降噪模型。根据本申请实施例的一个方面，提供了一种声音降噪方法，如图1所示，该方法包括以下步骤：

步骤S101，获取待降噪的语音音频信息，其中，语音音频信息由多个时间帧组成。

可选地，图2是根据本申请实施例的一种可选的语音音频不同声音类别时间分布的示意图，如图2所示，该语音音频信息中出现了多种声音事件，包括掌声、欢呼声、叹词、笑声以及纯语音/其它噪音/语音叠加其它噪声，这些声音事件依据事件顺序在语音音频时间轴上分布，并且会出现重叠的情况。

步骤S102，将语音音频信息输入声音事件检测模型中，得到每个时间帧下的声音事件类别，其中，声音事件检测模型用于检测语音音频信息的每个时间帧下所包含的声音事件，声音事件检测模型是通过对训练模型的模型参数进行调整后得到的。

可选地，在本申请实施例中，声音事件检测模型由多层非线性层组成，包括卷积层、全连接层、注意力层、长短时神经网络层等。该声音事件检测模型对语音音频信息进行检测时，首先，通过卷积层构建高维特征提取器，利用高维特征提取器提取得到高维语音特征。其次，对高维语音特征进行矩阵变换(如矩阵拼接、矩阵相加等)。接下来，利用注意力层或长短时神经网络层等构建时序处理器，并将矩阵变换后的高维语音特征通过时序处理器进行映射。最后，使用分类器对上述高维语音特征进行分类，输出预测的类别编码，分类器可由全连接层和输出层组成，其中，输出层可以由sigmoid(神经网络的激活函数)单元组成，通过这些sigmoid单元可以得到时间轴上不同位置出现每个目标声音事件类别的概率。在得到时间轴上不同位置出现每个目标声音事件类别的概率后，将之进行二值化处理，其中，二值化阈值可手动设定一个数值如0.5，也可以依据测试集测试结果对二值化阈值进行优化。上述流程可参见图3，图3是根据本申请实施例的一种可选的声音事件检测模型的结构示意图。

可选地，利用声音事件检测模型对图2所示的语音音频进行检测，得到掌声、欢呼声、叹词、笑声和哭声五中声音事件类别在时间轴上的分布情况以及对应的类别标签，同一时间帧所对应的声音事件类别可能有多个，如图4所示，其中声音事件检测模型的输出结果可能会产生毛刺(图4中方框框出的部分)，这些毛刺可以通过平滑算法来进行处理。

步骤S103，根据声音事件类别和目标场景，确定是否启动降噪模型，其中，目标场景用于判断声音事件类别是否需要降噪消除，降噪模型是通过对初始降噪模型的模型参数进行调整后得到的。

可选地，若目标场景为通话场景，在该场景下，设定不应该被消除的声音事件类别为叹词、笑声、哭声，应该被消除的声音事件类别为掌声、欢呼声。定义应用场景及其包括的不该被降噪模块消去的声音事件，做到仅通过选择一个应用场景作为目标场景，就能确定哪些声音事件类别需要启动降噪模型进行降噪消除，提升用户体验。

步骤S104，在确定启动降噪模型的情况下，将语音音频信息输入降噪模型进行降噪处理和自动增益控制，得到降噪后的语音音频信息，其中，自动增益控制用于控制输出语音音频的音量大小。

可选地，降噪模型可直接预测得到语音频域特征，再进行频域反变换，得到降噪后的语音音频信息。或通过降噪模型预测得到输入特征每个时频带的抑制增益系数，并作用在带噪语音的频域特征上，得到预测语音频域特征，再将预测语音频域特征进行频域反变换，得到降噪后的语音音频信息。

可选地，可采用渐进开启或关闭降噪模型的方式，来获得在降噪和不降噪音频之间更连贯的听感体验。

作为一种可选实施例，在将语音音频信息输入声音事件检测模型中之前，方法还包括：

确定不需要降噪的声音事件，划分声音事件类别；

获取由多种声音事件类别组成的多种音频数据，其中，每种音频数据由多个时间帧组成，且在同一时间帧中对应至少一种声音事件类别，每个时间帧携带有包含的声音事件类别的类别标签；

根据多种音频数据生成训练样本；

提取训练样本中目标音频数据的语音特征信息，并进行编码，得到目标编码特征，同时确定目标编码特征对应的至少一种声音事件类别；

将目标编码特征输入训练模型，得到目标编码特征属于每种目标声音事件类别的初始概率，更新训练模型的模型参数，直到属于每种目标声音事件类别的初始概率都大于第一预设阈值，则训练完成，得到声音事件检测模型，其中，目标编码特征携带有属于目标声音事件类别的类别标签，目标声音事件类别的数量至少为一个。

可选地，针对不同的应用场景，如远程会议、音视频通话、直播等，定义用户不想被降噪模型降噪消除掉的声音事件，如：掌声、欢呼声、笑声、哭声、叹气声、撒娇声、嗯、啊、呃、哦、呀等。根据应用场景或噪音能量、发声类型等对上述声音事件进行类别划分，例如将掌声为一类，欢呼声为一类，撒娇声、叹气声、嗯、啊、呃、哦、呀等叹词为一类，笑声为一类，哭声为一类，并分别标记为类别一至五。

可选地，根据上述划分的声音事件类别准备不同种类的音频数据并且需要确保各种类音频数据量均衡。

可选地，可以通过分帧、加窗、傅里叶变换、梅尔滤波等操作，提取训练样本中的语音特征。将训练样本中的长音频每帧所对应的声音事件类别，进行编码，方便之后的训练操作。例如，对上述的五种声音事件类别，按位进行编码，用一个五位二进制数表示当前帧存在的声音事件类别，假设当前帧只存在声音事件类别一，则可编码为00001；若当前帧同时存在声音事件类别一和类别五，则可编码为10001。

可选地，对训练模型进行训练时，将每帧语音特征及其对应的编码组成字典，语音特征经声音事件检测模型处理后，得到预测的类别编码。把输出层输出的类别编码与真实标签之间的sigmoid交叉熵作为损失函数，公式为：

其中，M为类别数量，y⁽ⁱ⁾为真实标签向量，

为分类器输出层前的网络的输出向量。

在进行训练时，通过该损失函数表示预测的类别编码和真实标签之间的差异，反映目标编码特征属于每种目标声音事件类别的初始概率，通过反向传播和梯度下降算法更新训练模型的模型参数，进而最小化损失函数，直到损失函数反映的目标编码特征属于每种目标声音事件类别的初始概率大于设定的第一预设阈值，则训练完成，得到声音事件检测模型。

在本申请实施例中，通过更新模型参数进而最小化损失函数对训练模型进行训练，提高了声音事件检测模型对不同声音事件类别的识别准确率，解决了现有技术中无法区分声音事件的问题。

作为一种可选实施例，根据多种音频数据生成训练样本包括：

从音频数据中随机抽样并时域叠加，生成训练数据；

通过预设方法扩充训练数据的数据量，得到训练样本，其中，预设方法用于增扩训练数据的数据量。

可选地，由于各种声音事件可能在同一时间内出现，如掌声与笑声、欢呼声与掌声等，依据可能同时出现的声音事件的种类，将不同种类的音频数据，从数据集合中进行随机抽样后，进行时域上的叠加，得到混合声音事件的训练数据，把数量均衡的全种类训练数据放入训练集，并通过时间拉伸、音高变换等增扩方式，扩充该训练集的数据量。

可选地，将所得增扩后的音频数据，在时域上进行拼接，得到长音频，并记录拼接时不同类型数据在长音频中所处的时间戳。

在本申请实施例中，通过对不同音频数据在时域上叠加既扩充了训练集，又充分考虑了实际应用场景，提高了方法的实用性，又通过时间拉伸、音高变换等增扩方式进一步扩充训练集数据量，使声音事件检测模型的训练更加充分。

作为一种可选实施例，在得到每个时间帧下的声音事件类别之后，方法还包括：

生成时间窗，其中，时间窗由预设数量个时间帧组成；

以一个时间帧为步长，将时间窗在语音音频信息的时间轴上向前滑动预设距离，生成时间窗经过的每一时间帧下出现目标声音事件类别的概率，其中，若概率大于第二预设阈值，则对应时间窗的音频属于目标声音事件类别，若概率小于第二预设阈值，则对应时间窗的音频不属于目标声音事件类别，预设距离包含所有需要通过时间窗判断音频是否属于目标声音事件类别的时间帧。

可选地，可以分别对每种声音事件类别进行平滑操作。定义一个窗长为2L+1的时间窗，L为正整数，窗长为2L+1表示时间窗有2L+1个时间帧，则平滑时间帧i对应的声音事件标签的概率计算公式为：

其中，P_i为平滑处理后当前时间帧出现该声音事件类别的概率。Y_i对应当前时间帧下声音事件检测模型的输出。根据设定的第二预设阈值，判断当前时间帧的音频是否属于对应的声音事件类别，若属于，将对应的标签置1，若不属于则置0。

将时间窗在时间轴上滑动预设距离，步长为一个时间帧，把时间窗经过的所有时间帧对应的音频信息全部进行平滑处理之后，停止平滑处理操作。该预设距离可以根据需要平滑处理的声音检测模型检测结果的长度设定，可以通过设定该距离包含的时间帧数量或相对于时间轴来设定预设距离。

图5是根据本申请实施例的一种可选的平滑处理后声音事件类别标签的示意图，图5是对图4所示的声音事件检测模型带毛刺的输出结果平滑处理后得到的。

在本申请实施例中，通过设置可在时间轴上滑动的时间窗对所有声音事件类别进行平滑处理，消除了声音检测模型检测结果中的毛刺等错误信息，提高了本方法声音事件检测的准确性。

作为一种可选实施例，在将语音音频信息输入降噪模型进行降噪处理和自动增益控制之前，方法还包括：

利用干净音频和噪声音频生成加噪音频，构建训练集，其中，干净音频为信噪比大于噪声阈值的音频，噪声音频为信噪比小于噪声阈值的音频，其中，噪声阈值为音频中包含噪声的临界值；

提取干净音频的频域特征和加噪音频的频域特征；

将加噪音频的频域特征输入初始降噪模型中得到属于干净音频的频域特征的初始概率，更新初始降噪模型的模型参数，直到属于干净音频的频域特征的初始概率大于第三预设阈值，则训练完成，得到降噪模型，其中，加噪音频中包含干净音频，在加噪音频的频域特征中携带有干净音频的频域特征标签。

可选地，生成加噪音频时，步骤可以为：首先，保留干净音频作为训练标签；其次，给定加噪后音频的信噪比范围，计算信噪比系数；最后，随机抽取噪声音频按照信噪比系数进行加噪，并给加噪后的音频添加混响，得到加噪语音。

可选地，可以通过分帧、加窗、傅里叶变换等操作，得到干净语音和加噪语音的频域特征。

可选地，在本申请实施例中，降噪模型可以采用encoder-decoder结构(编码器-解码器结构)，由卷积层、全连接层、注意力层、长短时神经网络层等多层非线性层构建而成。

降噪模块训练过程可以包括：输入干净语音和噪音生成加噪语音，之后对加噪语音进行数据增扩，得到增扩后的加噪语音并将其组合成训练集；对干净语音和训练集中的加噪语音进行语音特征提取，得到干净语音和加噪语音的频域特征；将上述频域特征输入降噪网络，以干净语音的频域特征作为标签，通过降噪网络对加噪语音的频域特征进行降噪处理，其中，降噪处理步骤为，将加噪语音的频域特征输入降噪网络，降噪网络通过编码器和解码器预测得到初步降噪后的降噪语音频域特征，并输出该降噪语音频域特征；通过干净语音的频域特征与降噪语音频域特征计算损失函数，其中，损失函数可选择均方误差、信噪比或尺度不变信噪比等等，本实施例中通过该损失函数反映通过降噪网络处理加噪语音得到属于干净音频的频域特征的初始概率；通过反向传播和梯度下降算法更新降噪网络的参数，最小化损失函数，直到该损失函数反映的得到属于干净音频的频域特征的初始概率大于设定的第三预设阈值，停止训练并得到目标降噪网络，完成对降噪模型的训练；通过该目标降噪网络对加噪语音降噪处理，得到目标语音频域特征，在进行频域反变换得到目标语音信息。上述流程可参见图7，图7是根据本申请实施例的一种可选的降噪模型训练过程的示意图。

在本申请实施例中，通过以干净语音的频域特征作为标签，采用反向传播和梯度下降算法更新降噪网络的参数对降噪模型进行训练，提高了训练模型降噪的准确性，并通过采用encoder-decoder结构提高了降噪模型的降噪效率。

作为一种可选实施例，将语音音频信息输入降噪模型进行降噪处理和自动增益控制包括：

在接收到降噪模型启动的指示信息的情况下，获取启动降噪模型的时间帧在待降噪的语音音频信息中所处的第一时间点；

在接收到降噪模型关闭的指示信息的情况下，获取启动降噪模型的时间帧在待降噪的语音音频信息中所处的第二时间点；

在第一时间点后设定数量的时间帧内，将输出音频信号的增益控制在预设区间内，利用调节参数渐进调节降噪模型的开启；或者，在第二时间点后设定数量的时间帧内，将输出音频信号的增益控制在预设区间内，利用调节参数渐进调节降噪模型的关闭。

可选地，当降噪模型通过预测得到输入特征每个时频带的抑制增益系数，将该系数作用在带噪语音的频域特征上，得到预测语音频域特征的方法时，可以通过调节系数乘以降噪模型的增益来实现渐进开启或关闭降噪模型，计算公式为：

其中，

为预测语音的幅度谱，t代表时刻，k代表频带。G[t，k]为降噪网络预测所得增益，|[t，k]|为带噪语音频域特征，α_t为随时间变化的调节系数，其值域为

为t时刻每频点增益倒数的最小值。通过控制α_t的值从最大到最小的变化来实现渐进开启降噪，或通过控制α_t的值从最小到最大，直到α_tG[t，k]值为1，来实现关闭降噪。

在本实施例中，根据是否接收到降噪模型启动和关闭的指示信息确定启动降噪模型的第一时间点和关闭降噪模型的第二时间点，然后在第一时间点后设定数量(比如m个数量等)的时间帧内将输出音频信号的增益控制在预设区间内，利用调节参数渐进调节降噪模型的开启，或者，在第二时间点后设定数量的时间帧内，将输出音频信号的增益控制在预设区间内，利用调节参数渐进调节降噪模型的关闭，实现渐进地调整声音音量，给予用户较好的听感。

在本申请实施例中，通过自动增益控制，将输出音频信号的增益控制在预设的合理区间之内，避免音量忽大忽小。

作为一种可选实施例，根据声音事件类别和目标场景，确定是否启动降噪模型包括：

根据目标场景确定需要降噪消除的声音事件类别与不需要降噪消除的声音事件类别；

将所有需要降噪消除的声音事件类别每个时间帧下的特征编码全部置零，将所有不需要降噪消除的声音事件类别每个时间帧下的特征编码之间先进行逻辑或操作，再进行逻辑非操作，得到数字标识；

根据数字标识，确定是否启动降噪模型。

可选地，利用图5所示平滑后的声音事件检测结果生成是否启动降噪模型的判断条件，若选择的目标场景为通话场景，在该场景下，设定的不应该被消除的声音事件类别为叹词、笑声、哭声。可将预测所得掌声、欢呼声所对应的声音事件标签全部置0，再将叹词、笑声、哭声在时间轴上所对应的预测标签进行逻辑或后，再取逻辑非，得到是否启动降噪模块的判断条件，其中，这里的判断条件使用数字标识进行表示的。数字标识如图6所示，其中，时间帧对应的值为0代表不启用降噪模块，1代表启用降噪模块。

在本申请实施例中，通过对不需要降噪消除的声音事件类别的特征编码进行逻辑运算操作得到是否启动降噪模块的判断条件，在保留了用户需要的声音事件类别基础上，消去了多余的声音事件类别，解决了现有技术中降噪模块会消除所有非语音信息的问题。

作为一种可选实施例，图8根据本申请实施例的另一种可选的声音降噪方法的流程示意图，该方法包括以下步骤：

步骤S801，定义常见场景下，不该被降噪模块消除掉的声事件。

步骤S802，划分声事件类别，得到方便训练的声事件标签，并训练得到分类器。

步骤S803，训练得到降噪模块。

步骤S804，利用所得声事件分类器，对输入当前时间帧进行是否降噪的分类，并按需求调用降噪模块。

本方法通过设置声音事件检测模块作为降噪模块的前置处理模块，定义了不同的语音降噪常见场景下，不该被降噪模块消除掉的声音事件。通过声音事件检测模块对多种声音事件类别的准确检出，有助于用户依据自身需求，自定义不想要被降噪模块消除掉的噪音类型，可有效避免特定声音事件被降噪模块消除。另外，通过设定不同的应用场景以及不同应用场景下需要保留或消除声音事件类别，能够做到用户一键操作实现降噪需求，方便快捷。

作为一种可选实施例，图9是根据本申请实施例的另一种可选的用户自定义声音降噪方法的流程示意图，该方法包括以下步骤：

步骤S1，输入设备缓存区音频片段。

步骤S2，特征提取。

步骤S3，声音事件检测模块。

步骤S4，根据用户自定义降噪类型，判定是否降噪，若需要降噪则执行步骤S5-S7，若不需要降噪则执行步骤S8和S9。

步骤S5，降噪模块。

步骤S6，自动增益控制。

步骤S7，输出降噪后音频。

步骤S8，自动增益控制。

步骤S9，输出音频。

可选地，本实施例中生成是否启动降噪模块判断条件的方法可以为：用户选定不想降噪的声音事件类别，将其余声音事件类别的预测标签先置0，再将不想降噪的声音事件类别的标签进行逻辑或，再取逻辑非，得到是否启动降噪模块的判断条件。

本实施例的方法能够通过用户自定义需要保留或消除声音事件类别，把当前音频片段的声音事件类别与用户自定义需要降噪的声音事件类别进行匹配，若属于用户想要降噪的声音事件类别，则送入降噪模块进行处理，得到降噪后的音频片段；否则，保持原始音频片段不变。

根据本申请实施例的另一个方面，还提供了一种用于实施上述声音降噪方法的声音降噪装置。图10是据本申请实施例的一种可选的声音降噪装置的结构框图，如图10所示，该装置可以包括：

获取模块1001，用于获取待降噪的语音音频信息，其中，语音音频信息由多个时间帧组成；

第一得到模块1002，用于将语音音频信息输入声音事件检测模型中，得到每个时间帧下的声音事件类别，其中，声音事件检测模型用于检测语音音频信息的每个时间帧下所包含的声音事件，声音事件检测模型是通过对训练模型的模型参数进行调整后得到的；

确定模块1003，根据声音事件类别和目标场景，确定是否启动降噪模型，其中，目标场景用于判断声音事件类别是否需要降噪消除，降噪模型是通过对初始降噪模型的模型参数进行调整后得到的；

第二得到模块1004，用于在确定启动降噪模型的情况下，将语音音频信息输入降噪模型进行降噪处理和自动增益控制，得到降噪后的语音音频信息，其中，自动增益控制用于控制输出语音音频的音量大小。

可选地，第一得到模块包括：

第一获取单元，用于获取由多种声音事件类别组成的多种音频数据，其中，每种音频数据由多个时间帧组成，且在同一时间帧中对应至少一种声音事件类别，每个时间帧携带有包含的声音事件类别的类别标签；

第一生成单元，用于根据多种音频数据生成训练样本；

得到单元，用于提取训练样本中目标音频数据的语音特征信息，并进行编码，得到目标编码特征，同时确定目标编码特征对应的至少一种声音事件类别；

第一训练单元，用于将目标编码特征输入训练模型，得到目标编码特征属于每种目标声音事件类别的初始概率，更新训练模型的模型参数，直到属于每种目标声音事件类别的初始概率都大于第一预设阈值，则训练完成，得到声音事件检测模型，其中，目标编码特征携带有属于目标声音事件类别的类别标签，目标声音事件类别的数量至少为一个。

第二生成单元，用于生成时间窗，其中，时间窗由预设数量个时间帧组成；

滑动单元，用于以一个时间帧为步长，将时间窗在语音音频信息的时间轴上向前滑动预设距离，生成时间窗经过的每一时间帧下出现目标声音事件类别的概率，其中，若概率大于第二预设阈值，则对应时间窗的音频属于目标声音事件类别，若概率小于第二预设阈值，则对应时间窗的音频不属于目标声音事件类别，预设距离包含所有需要通过时间窗判断音频是否属于目标声音事件类别的时间帧。

可选地，第一生成单元包括：

生成子模块，用于从音频数据中随机抽样并时域叠加，生成训练数据；

得到子模块，用于通过预设方法扩充训练数据的数据量，得到训练样本，其中，预设方法用于增扩训练数据的数据量。

可选地，确定模块包括：

第一确定单元，用于根据目标场景确定需要降噪消除的声音事件类别与不需要降噪消除的声音事件类别；

操作单元，用于将所有需要降噪消除的声音事件类别每个时间帧下的特征编码全部置零，将所有不需要降噪消除的声音事件类别每个时间帧下的特征编码之间先进行逻辑或操作，再进行逻辑非操作，得到数字标识；

第二确定单元，用于根据数字标识，确定是否启动降噪模型。

可选地，第二得到模块包括：

构建单元，用于利用干净音频和噪声音频生成加噪音频，构建训练集，其中，干净音频为信噪比大于噪声阈值的音频，噪声音频为信噪比小于噪声阈值的音频，其中，噪声阈值为音频中包含噪声的临界值；

提取单元，用于提取干净音频的频域特征和加噪音频的频域特征；

第二训练单元，用于将加噪音频的频域特征输入初始降噪模型中得到属于干净音频的频域特征的初始概率，更新初始降噪模型的模型参数，直到属于干净音频的频域特征的初始概率大于第三预设阈值，则训练完成，得到降噪模型，其中，加噪音频中包含干净音频，在加噪音频的频域特征中携带有干净音频的频域特征标签。

第二获取单元，用于在接收到降噪模型启动的指示信息的情况下，获取启动降噪模型的时间帧在待降噪的语音音频信息中所处的第一时间点；

第三获取单元，用于在接收到降噪模型关闭的指示信息的情况下，获取启动降噪模型的时间帧在待降噪的语音音频信息中所处的第二时间点；

实现单元，用于在第一时间点后设定数量的时间帧内，将输出音频信号的增益控制在预设区间内，利用调节参数渐进调节降噪模型的开启；或者，在第二时间点后设定数量的时间帧内，将输出音频信号的增益控制在预设区间内，利用调节参数渐进调节降噪模型的关闭。

此处需要说明的是，上述模块与对应的步骤所实现的示例和应用场景相同，但不限于上述实施例所公开的内容。

图11是根据本申请实施例的一种可选的电子设备的结构框图，如图11所示，包括处理器1101、通信接口1102、存储器1103和通信总线1104，其中，处理器1101、通信接口1102和存储器1103通过通信总线1104完成相互间的通信，其中，

存储器1103，用于存储计算机程序；

处理器1101，用于执行存储器1103上所存放的计算机程序时，实现声音降噪方法步骤。

可选地，在本实施例中，上述的通信总线可以是PCI(Peripheral ComponentInterconnect，外设部件互连标准)总线、或EISA(Extended Industry StandardArchitecture，扩展工业标准结构)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图11中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口用于上述电子设备与其他设备之间的通信。

存储器可以包括RAM，也可以包括非易失性存储器(non-volatile memory)，例如，至少一个磁盘存储器。可选地，存储器还可以是至少一个位于远离前述处理器的存储装置。

作为一种示例，如图11所示，上述存储器1103中可以但不限于包括上述声音降噪装置中的获取模块1001、第一得到模块1002、确定模块1003、第二得到模块1004。此外，还可以包括但不限于上述声音降噪装置中的其他模块单元，本示例中不再赘述。

上述处理器可以是通用处理器，可以包含但不限于：CPU(Central ProcessingUnit，中央处理器)、NP(Network Processor，网络处理器)等；还可以是DSP(DigitalSignal Processing，数字信号处理器)、ASIC(Application Specific IntegratedCircuit，专用集成电路)、FPGA(Field－Programmable Gate Array，现场可编程门阵列)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

可选地，本实施例中的具体示例可以参考上述实施例中所描述的示例，本实施例在此不再赘述。

本领域普通技术人员可以理解，图11所示的结构仅为示意，实施上述声音降噪方法的设备可以是终端设备，该终端设备可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌上电脑以及移动互联网设备(Mobile Internet Devices，MID)、PAD等终端设备。图11其并不对上述电子设备的结构造成限定。例如，终端设备还可包括比图11中所示更多或者更少的组件(如网络接口、显示装置等)，或者具有与图11所示的不同的配置。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：闪存盘、ROM、RAM、磁盘或光盘等。

根据本申请实施例的又一个方面，还提供了一种存储介质。可选地，在本实施例中，上述存储介质可以用于存储用于声音降噪的程序以及产生的数据。

可选地，本实施例中的具体示例可以参考上述实施例中所描述的示例，本实施例中对此不再赘述。

可选地，在本实施例中，上述存储介质可以包括但不限于：U盘、ROM、RAM、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

在本说明书的描述中，参考术语“本实施例”、“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本公开的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。在本公开的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

显然，上述实施例仅仅是为清楚地说明所作的举例，而并非对实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引伸出的显而易见的变化或变动仍处于本发明创造的保护范围之中。

Claims

1.一种声音降噪方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，在所述将所述语音音频信息输入声音事件检测模型中之前，所述方法还包括：

确定不需要降噪的声音事件，划分声音事件类别；

获取由多种所述声音事件类别组成的多种音频数据，其中，每种所述音频数据由多个时间帧组成，且在同一时间帧中对应至少一种所述声音事件类别，每个时间帧携带有包含的所述声音事件类别的类别标签；

根据多种所述音频数据生成训练样本；

提取所述训练样本中目标音频数据的语音特征信息，并进行编码，得到目标编码特征，同时确定所述目标编码特征对应的至少一种所述声音事件类别；

将所述目标编码特征输入所述训练模型，得到所述目标编码特征属于每种目标声音事件类别的初始概率，更新所述训练模型的模型参数，直到属于每种所述目标声音事件类别的初始概率都大于第一预设阈值，则训练完成，得到所述声音事件检测模型，其中，所述目标编码特征携带有属于所述目标声音事件类别的所述类别标签，所述目标声音事件类别的数量至少为一个。

3.根据权利要求2所述的方法，其特征在于，所述根据多种所述音频数据生成训练样本包括：

从所述音频数据中随机抽样并时域叠加，生成训练数据；

通过预设方法扩充所述训练数据的数据量，得到所述训练样本，其中，所述预设方法用于增扩所述训练数据的数据量。

4.根据权利要求1所述的方法，其特征在于，在所述得到每个时间帧下的声音事件类别之后，所述方法还包括：

生成时间窗，其中，所述时间窗由预设数量个时间帧组成；

以一个时间帧为步长，将所述时间窗在所述语音音频信息的时间轴上向前滑动预设距离，生成所述时间窗经过的每一时间帧下出现目标声音事件类别的概率，其中，若所述概率大于第二预设阈值，则对应时间帧的音频属于所述目标声音事件类别，若所述概率小于第二预设阈值，则对应时间帧的音频不属于所述目标声音事件类别，所述预设距离包含所有需要通过所述时间窗判断所述音频是否属于目标声音事件类别的时间帧。

5.根据权利要求1所述的方法，其特征在于，在所述将所述语音音频信息输入所述降噪模型进行降噪处理和自动增益控制之前，所述方法还包括：

利用干净音频和噪声音频生成加噪音频，构建训练集，其中，所述干净音频为信噪比大于噪声阈值的音频，所述噪声音频为信噪比小于所述噪声阈值的音频，其中，所述噪声阈值为音频中包含噪声的临界值；

提取所述干净音频的频域特征和所述加噪音频的频域特征；

将所述加噪音频的频域特征输入初始降噪模型中得到属于所述干净音频的频域特征的初始概率，更新所述初始降噪模型的模型参数，直到属于所述干净音频的频域特征的初始概率大于第三预设阈值，则训练完成，得到所述降噪模型，其中，所述加噪音频中包含干净音频，在所述加噪音频的频域特征中携带有干净音频的频域特征标签。

6.根据权利要求1所述的方法，其特征在于，所述将所述语音音频信息输入所述降噪模型进行降噪处理和自动增益控制包括：

在接收到所述降噪模型启动的指示信息的情况下，获取启动降噪模型的时间帧在所述待降噪的语音音频信息中所处的第一时间点；

在接收到所述降噪模型关闭的指示信息的情况下，获取启动降噪模型的时间帧在所述待降噪的语音音频信息中所处的第二时间点；

在所述第一时间点后设定数量的时间帧内，将输出音频信号的增益控制在预设区间内，利用调节参数渐进调节降噪模型的开启；或者，在所述第二时间点后设定数量的时间帧内，将输出音频信号的增益控制在所述预设区间内，利用所述调节参数渐进调节降噪模型的关闭。

7.根据权利要求1所述的方法，其特征在于，所述根据所述声音事件类别和目标场景，确定是否启动降噪模型包括：

根据所述目标场景确定需要降噪消除的声音事件类别与不需要降噪消除的声音事件类别；

将所有需要降噪消除的声音事件类别每个时间帧下的特征编码全部置零，将所有不需要降噪消除的声音事件类别每个时间帧下的所述特征编码之间先进行逻辑或操作，再进行逻辑非操作，得到数字标识；

根据所述数字标识，确定是否启动所述降噪模型。

8.一种声音降噪装置，其特征在于，所述装置包括：

9.一种电子设备，包括处理器、通信接口、存储器和通信总线，其中，所述处理器、所述通信接口和所述存储器通过所述通信总线完成相互间的通信，其特征在于，

所述存储器，用于存储计算机程序；

所述处理器，用于通过运行所述存储器上所存储的所述计算机程序来执行权利要求1至7中任一项中所述的方法步骤。

10.一种计算机可读的存储介质，其特征在于，所述存储介质中存储有计算机程序，其中，所述计算机程序被处理器执行时实现权利要求1至7中任一项中所述的方法步骤。