CN112614507A

CN112614507A - 检测噪声的方法和装置

Info

Publication number: CN112614507A
Application number: CN202011446230.2A
Authority: CN
Inventors: 徐东
Original assignee: Tencent Music Entertainment Technology Shenzhen Co Ltd
Current assignee: Tencent Music Entertainment Technology Shenzhen Co Ltd
Priority date: 2020-12-09
Filing date: 2020-12-09
Publication date: 2021-04-06
Anticipated expiration: 2040-12-09
Also published as: CN112614507B

Abstract

本申请公开了一种检测噪声的方法和装置，属于音频处理技术领域。所述方法包括：获取录制的目标人声音频；将目标人声音频划分为多个音频段；获取每个音频段对应的功率信息，基于每个音频段的功率信息和人耳听觉参考信息，在多个音频段中确定待识别音频段，其中，功率信息包括音频段中各音频帧的多个频点的功率值；提取每个待识别音频段的特征信息，将每个待识别音频段对应的特征信息，分别输入到噪声判定模型中，得到每个待识别音频段对应的噪声判定结果；基于每个待识别音频段对应的噪声判定结果，确定目标人声音频对应的噪声判定结果。采用本申请，提供了一种更为精准的音频噪声检测方法，减小了检测的误差。

Description

检测噪声的方法和装置

技术领域

本申请涉及音频处理技术领域，特别涉及一种检测噪声的方法和装置。

背景技术

随着音频技术的发展，人们对于音频的处理越来越完善。很多录制出来的音频可能会存在各种原因产生的噪声，例如，在录制过程中因用户对麦克风的操作不当造成的脉冲声，或因文件损坏产生的噪声等等。音频中噪声的存在降低了人们的听觉体验。

相关技术中，利用噪声的高能量、高频率等特点对音频帧的频谱波形进行分析，以确定是否存在噪声。

但上述噪声检测的方法可能会将一些本身就音量较大或者频率较高的音频帧判定为存在噪声的音频帧，从而使检测结果误差较大。

发明内容

本申请实施例提供了一种检测噪声的方法，能够解决现有技术中噪声检测的结果误差较大的问题。

第一方面，提供了一种检测噪声的方法，所述方法包括：

获取录制的目标人声音频；

将目标人声音频划分为多个音频段；

获取每个音频段对应的功率信息，基于每个音频段的功率信息和人耳听觉参考信息，在所述多个音频段中确定待识别音频段，其中，所述功率信息包括所述音频段中各音频帧的多个频点的功率值，所述人耳听觉参考信息包括多个频点对应的人耳听觉功率阈值；

提取每个待识别音频段的特征信息，将每个待识别音频段对应的特征信息，分别输入到噪声判定模型中，得到每个待识别音频段对应的噪声判定结果，其中，所述待识别音频段的特征信息基于所述待识别音频段的至少一种人耳感知频谱特征确定；

基于每个待识别音频段对应的噪声判定结果，确定所述目标人声音频对应的噪声判定结果。

在一种可能的设计中，所述获取每个音频段对应的功率信息，基于每个音频段的功率信息和人耳听觉参考信息，在所述多个音频段中确定待识别音频段，包括：

对于每个音频段，将所述音频段的各音频帧中各频点的功率值分别与对应的频点的人耳听觉功率阈值进行比较，若存在功率值大于人耳听觉功率阈值的频点，则将所述音频段确定为待识别音频段。

在一种可能的设计中，所述提取每个待识别音频段的特征信息，将每个待识别音频段对应的特征信息，分别输入到噪声判定模型中，得到每个待识别音频段对应的噪声判定结果之前，包括：对每个所述待识别音频段进行淡入处理和淡出处理。

在一种可能的设计中，所述提取每个待识别音频段的特征信息，将每个待识别音频段对应的特征信息，分别输入到噪声判定模型中，得到每个待识别音频段对应的噪声判定结果，包括：

对于每个待识别音频段，提取所述待识别音频段的多个子特征信息，对所述多个子特征信息进行标准化处理，将标准化处理后的多个子特征信息组合成矩阵，作为所述待识别音频段对应的特征信息，其中，所述多个子特征信息包括至少一种人耳感知频谱特征，所述人耳感知频谱特征为RASTA-PLP(Relative Spectral Transform-Perceptual LinearPrediction，相对频谱变换-感知线性预测)特征、PLP(Perceptual Linear Predictive，感知线性预测)系数、PLP一阶差分系数和PLP二阶差分系数。

在一种可能的设计中，所述子特征信息为向量或矩阵，所述对所述多个子特征信息进行标准化处理，包括：

对于每个子特征信息，确定所述子特征信息中各元素的平均值和标准差，计算每个元素减所述平均值的差值，并计算每个元素对应的差值与所述标准差的商，将每个元素对应的商分别确定为对应的标准化处理后的元素，基于多个标准化处理后的元素，确定标准化处理后的子特征信息。

在一种可能的设计中，所述多个子特征信息还包括梅尔频谱特征和/或谱熵。

在一种可能的设计中，所述基于每个待识别音频段对应的噪声判定结果，确定所述目标人声音频对应的噪声判定结果，包括：

基于每个待识别音频段对应的噪声判定结果，确定所述目标人声音频中存在噪声的目标时间段；

显示噪声提示信息，其中，所述噪声提示信息用于指示所述目标时间段中存在噪声。

第二方面，提供一种检测噪声的装置，所述装置包括：

获取模块，用于获取录制的目标人声音频；

划分模块，用于将目标人声音频划分为多个音频段；

第一确定模块，用于获取每个音频段对应的功率信息，基于每个音频段的功率信息和人耳听觉参考信息，在所述多个音频段中确定待识别音频段，其中，所述功率信息包括所述音频段中各音频帧的多个频点的功率值，所述人耳听觉参考信息包括多个频点对应的人耳听觉功率阈值；

判定模块，用于提取每个待识别音频段的特征信息，将每个待识别音频段对应的特征信息，分别输入到噪声判定模型中，得到每个待识别音频段对应的噪声判定结果，其中，所述待识别音频段的特征信息基于所述待识别音频段的至少一种人耳感知频谱特征确定；

第二确定模块，用于基于每个待识别音频段对应的噪声判定结果，确定所述目标人声音频对应的噪声判定结果。

在一种可能的设计中，所述第一确定模块，用于：

在一种可能的设计中，所述装置还包括处理模块，用于：对每个所述待识别音频段进行淡入处理和淡出处理。

在一种可能的设计中，所述判定模块，用于：

对于每个待识别音频段，提取所述待识别音频段的多个子特征信息，对所述多个子特征信息进行标准化处理，将标准化处理后的多个子特征信息组合成矩阵，作为所述待识别音频段对应的特征信息，其中，所述多个子特征信息包括至少一种人耳感知频谱特征，所述人耳感知频谱特征为RASTA-PLP特征PLP系数、PLP一阶差分系数和PLP二阶差分系数。

在一种可能的设计中，所述子特征信息为向量或矩阵，所述判定模块，用于：

在一种可能的设计中，所述第二确定模块，用于：

第三方面，提供了一种计算机设备，所述计算机设备包括处理器和存储器，存储器中存储有至少一条指令，指令由处理器加载并执行以实现检测噪声的方法所执行的操作。

第四方面，提供了一种计算机可读存储介质，存储介质中存储有至少一条指令，指令由处理器加载并执行以实现检测噪声的方法所执行的操作。

本申请实施例提供的技术方案带来的有益效果是：本申请实施例中提到的方案，一方面，通过将音频段的功率信息与人耳听觉参考信息进行比较，筛选出音频段中各音频帧的多个频点的功率值均小于对应的人耳听觉功率阈值的音频段，作为人耳无法识别的音频段，对这些人耳无法识别的音频段进行排除，防止一些存在声音但人耳无法识别且又满足噪声频谱特点的音频段被判定为存在噪声，另一方面，采用噪声判定模型进行噪声识别，这样，可以采用各种各样的样本音频对噪声判定模型进行训练，包括各种存在容易误判的情况的样本音频，使噪声判定模型能对各种容易误判的情况进行较为准确的噪声判定。从而可以提高噪声检测的准确度。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种检测噪声的方法流程图；

图2是本申请实施例提供的一种检测噪声的处理过程的示意图；

图3是本申请实施例提供的一种检测噪声的装置的结构示意图；

图4是本申请实施例提供的一种终端的结构框图；

图5是本申请实施例提供的一种服务器的结构框图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

本申请实施例提供了一种检测噪声的方法，该方法可以由计算机设备实现。计算机设备可以是台式计算机、笔记本计算机、手机、平板电脑等终端，也可以是服务器或服务器集群。

计算机设备可以包括处理器、存储器、通信部件等。存储器可以是各种非易失性存储设备或易失性存储设备，可以用于数据存储，例如，需要检测的目标人声音频、预先存储的用于检测噪声的执行代码、检测音频的过程中生成的中间数据，等等。处理器可以是CPU(Central Processing Unit，中央处理器)，可以用于划分音频段的处理、确定待识别音频段过程的处理、基于噪声判定模型对结果进行判定的过程的处理，等等。

计算机设备中安装有噪声检测应用程序，噪声检测应用程序可以是独立的应用程序，也可以是其他应用程序中的插件。噪声检测应用程序用于对该计算机设备中的被测音频或者该计算机设备连接的其他设备中的被测音频进行检测。被测音频可以是一首包含乐器等伴奏，也包含人声的音频，也可以是不包含伴奏的纯人声音频，也可以是不包含人声的纯音乐音频，等等。本申请实施例以噪声检测应用程序对计算机设备中的被测音频进行测试为例进行方案的说明，其他情况与之类似，本实施例不再赘述。

图1是本申请实施例提供的一种检测噪声方法的流程图。参见图1，该实施例包括：

101、获取录制的目标人声音频。

人声音频为不包含伴奏等音频的人们录制的音频，可以是网上下载的人声音频或者一些应用软件上用户录制的人声部分的音频，等等。但这些人声音频可能不仅仅包含纯人声，还可能包含一些背景噪音等，所以需要对其进行噪声检测。技术人员可以获取上述录制完成的人声音频，作为目标人声音频。

102、将目标人声音频划分为多个音频段。

其中，目标人声音频是被检测是否存在噪声的音频，即被测音频。

在实施中，当有音频文件需要检测是否存在噪声时，工作人员首先需要在计算机设备中运行噪声检测应用程序，进入噪声检测应用程序的主界面，点击主界面中设置的“选择被测”按钮，触发显示计算机设备中的文件列表，选择目标人声音频，将目标人声音频输入到噪声检测应用程序中开始进行检测。

计算机设备可以将目标人声音频划分为多个音频段，如图2所示。音频段的时长可以是不同的，可以将目标人声音频根据目标人声音频中的句子长度将其划分为不同时长的多个音频段；音频段的时长也可以是相同的，为了后续的数据处理方便，可以根据技术人员预先设置的音频段时长，将目标人声音频划分为相同时长的多个音频段，例如，可以将音频段的时长设置为5秒，也可以为其他值，在这里不做限定。

103、获取每个音频段对应的功率信息，基于每个音频段的功率信息和人耳听觉参考信息，在多个音频段中确定待识别音频段。

其中，功率信息包括音频段中各音频帧的多个频点的功率值，人耳听觉参考信息包括多个频点对应的人耳听觉功率阈值。

在实施中，可以先通过计算功率值，将包含人耳能够识别的声音的音频段筛选出来，确定为待识别音频段，对其进行后续的噪声检测处理，如图2所示。从而也将人耳不能识别到声音的音频段筛选出来，例如，静音的一段音频段、或音量极低的到人耳听不到的程度的音频段，等等。这些人耳不能识别到声音的音频段对人们的听觉体验不会产生影响，因此，可以将这些人耳不能识别到声音的音频段确定为不存在噪声的音频段。

可选的，确定音频段中是否包含人耳能够识别的声音的处理方式的相应过程可以如下：

对于每个音频段，将音频段的各音频帧中各频点的功率值分别与对应的频点的人耳听觉功率阈值进行比较，若存在功率值大于人耳听觉功率阈值的频点，则将音频段确定为待识别音频段。

其中，人耳听觉参考信息包括多个频点对应的人耳听觉功率阈值。任一频点对应的人耳听觉功率阈值是在该频点处，可以使人耳能够识别到声音的最小的功率值。

在实施中，可以根据技术人员的预先设置，确定出每个音频段中的音频帧的时长。根据时长将音频段划分为多个音频帧，然后对其进行傅里叶变换，可以得到该音频帧的频谱。为了使相邻的音频帧的特征参数平滑的变化，还可以对音频帧的重叠率进行设置，即相邻的音频帧之间有一部分信号是重叠的，可以将重叠率设置为50％，也可以是其他数值，本实施例对此不做限定。例如，若音频帧的时长设置为20ms，重叠率设置为50％，则音频段的第一个音频帧为0ms-20ms，第二个音频帧为10ms-30ms，第三个音频帧为20ms-40ms，以此类推，将音频段划分为多个音频帧。

然后可以根据技术人员预设的人耳听觉参考信息，对音频段中每个音频帧相应的功率值进行计算，然后和人耳听觉参考信息进行对比，从而确定出音频帧中是否包括人耳能够识别的声音，只要在音频段中存在至少一个音频帧包括人耳能够识别的声音，则该音频段中可能存在有噪声，可以将该音频段确定为待识别音频段，对其进行后续的噪声检测。

人耳听觉参考信息可以是多个频点对应的人耳听觉功率阈值，那么，可选的，确定音频帧中是否存在人耳能够识别的声音的方法可以如下：

将人耳听觉参考信息中的每个人耳听觉功率阈值，分别与音频帧中对应相同频点的功率值进行比较，如果音频帧中存在至少一个对应的功率值大于人耳听觉功率阈值的频点，则确定音频帧中包括人耳能够识别的声音，如果音频帧中不存在对应的功率值大于人耳听觉功率阈值的频点，则确定音频帧中不包括人耳能够识别的声音。

在实施中，技术人员会将各个频点对应的人耳听觉功率阈值预先存储在计算机设备中，当需要检测时，将预先存储的每个频点对应的人耳听觉功率阈值，分别与音频帧中对应相同频点的功率值进行比较，当音频帧中的某频点的功率值大于或等于对应的人耳听觉功率阈值时，则确定该音频帧包括人耳能够识别的声音，当音频帧中的所有频点的功率值均小于对应的人耳听觉功率阈值时，则确定该音频帧中不包括人耳能够识别的声音。

对于频点对应的功率值，可以有多种计算方式：

可以计算该频点对应的幅值的平方，再除以该频点所在的音频帧的时长，求得该频点对应的功率值；或者也可以分别计算出频点所在的音频帧中、以该频点为中心的多个频点的对应的幅值的平方，然后取平均值，再除以该频点所在音频帧的时长，求得该频点对应的平均功率值，等等。

104、提取每个待识别音频段的特征信息，将每个待识别音频段对应的特征信息，分别输入到噪声判定模型中，得到每个待识别音频段对应的噪声判定结果。

其中，待识别音频段的特征信息基于待识别音频段的至少一种人耳感知频谱特征确定。

在步骤103中确定出待识别音频段后，可以基于训练好的噪声判定模型，对每个待识别音频段进行噪声判定，得到噪声判定结果，如图2所示。若输出的噪声判定结果为0，则判定该待识别音频段中存在噪声；若输出的噪声判定结果为1，则判定该待识别音频段中不存在噪声。

可选的，音频段的首端和尾端可能会存在由切分导致的声音突变，容易被误判为噪声，所以可以对音频段首尾的音量进行控制，相应的，步骤104的相应处理可以如下：

对每个待识别音频段进行淡入处理和淡出处理，得到处理后的待识别音频段；基于噪声判定模型，对每个处理后的待识别音频段进行噪声判定，得到每个待识别音频段对应的噪声判定结果。

在实施中，可以对每个待识别音频段进行淡入处理和淡出处理，得到处理后的待识别音频段，以避免在待识别音频段最开始的时间点处声音突然增大或减小带来的不连续问题，对最后的噪声判定结果产生干扰。其中，淡入处理可以是将音频段的最前一段预设时长的波形与三角函数的上升沿相乘，得到该音频段中最前一段预设时长的声音音量逐渐增大的效果；淡出处理可以是将音频段的最后一段预设时长的波形与三角函数的下降沿相乘，得到该音频段中最后一段预设时长的声音音量逐渐减小的效果。例如，一段5s的音频段，可以对其前0.2s的音频做淡入处理，对其最后0.2s的音频做淡出处理。

在得到淡入处理和淡出处理后的待识别音频段后，可以进行如下处理：

对于每个待识别音频段，提取待识别音频段的多个子特征信息，对多个子特征信息进行标准化处理，将标准化处理后的多个子特征信息组合成矩阵，作为待识别音频段对应的特征信息。

其中，多个子特征信息包括至少一种人耳感知频谱特征，人耳感知频谱特征为RASTA-PLP特征、PLP系数、PLP一阶差分系数或PLP二阶差分系数。

可选的，多个子特征信息还包括梅尔频谱特征和/或谱熵。

对于每个进行淡入处理和淡出处理后的待识别音频段，提取处理后的待识别音频段的多个子特征信息，子特征信息可以是梅尔频谱特征、RASTA-PLP特征、谱熵、PLP系数、PLP一阶差分系数和PLP二阶差分系数，等等，本实施例对此不做限定。然后可以将获取到的子特征信息以矩阵的形式进行存储，数据格式可以为numpy(一种数据格式的名称)格式、h5(一种数据格式的名称)格式等等，便于后续的处理。

然后可以对多个子特征信息进行标准化处理，标准化处理的过程可以如下：

对于每一个子特征信息，先对其中不同子特征信息中的各元素计算其平均值和标准差，然后将每个子特征信息中的各元素减去对应的平均值，再除以对应的标准差，得到符合标准正态分布的多个子特征信息。

将标准化处理后的多个子特征信息进行组合得到处理后的待识别音频段对应的特征信息。对子特征信息进行标准化处理，可以加快收敛速度，便于对后续的处理。

然后可以将标准化处理后的多个子特征信息组合在一起，作为噪声判定模型的输入数据，输入到训练好的噪声判定模型中，可以得到输出的该待识别音频段对应的噪声判定结果，若输出的噪声判定结果为0，则判定该待识别音频段中存在噪声；若输出的噪声判定结果为1，则判定该待识别音频段中不存在噪声。

105、基于每个待识别音频段对应的噪声判定结果，确定目标人声音频对应的噪声判定结果。

首先，在确定了目标人声音频中每个待识别音频段对应的噪声判定结果后，可以确定出目标人声音频对应的噪声判定结果：

如果所有音频段的噪声判定结果均为不存在噪声，则确定目标人声音频对应的噪声判定结果为不存在噪声，如果至少一个音频段的噪声判定结果为存在噪声，则确定目标人声音频对应的噪声判定结果为存在噪声。

在实施中，步骤102中确定出的除了待识别音频段之外的音频段均为不存在噪声的音频段，这些不存在噪声的音频段与待识别音频段是目标人声音频包含的所有音频段。如图2所示，若待识别音频段的噪声判定结果均为1，则目标人声音频中的所有音频段均为不存在噪声，则确定目标人声音频对应的噪声判定结果为不存在噪声；若存在至少一个待识别音频段的噪声判定结果为0，则目标人声音频中存在至少一个音频段存在噪声，则确定目标人声音频对应的噪声判定结果为存在噪声。

其次，若目标人声音频中存在噪声，还可以判断出存在噪声的时间段：

基于每个待识别音频段对应的噪声判定结果，确定目标人声音频中存在噪声的目标时间段，显示噪声提示信息，其中，噪声提示信息用于指示目标时间段中存在噪声。

在实施中，若目标人声音频中存在至少一个待识别音频段的噪声判定结果为存在噪声，则确定目标人声音频对应的噪声判定结果为存在噪声，同时，还可以确定存在噪声的时间段为存在噪声的待识别音频段在目标人声音频中对应的时间段，作为目标时间段。然后，会触发在计算机设备的显示屏界面中显示噪声提示信息，该噪声提示信息为该目标人声音频中的目标时间段中存在噪声，之后人们可以基于该噪声提示信息进行一些降噪处理或者进行重新录制等操作。

噪声判定模型需要预先进行训练，相应的处理过程可以如下：

首先，需要搭建神经网络模型，神经网络模型有多种，例如，CNN(ConvolutionalNeural Networks，卷积神经网络)模型、RNN(Recurrent Neural Network，循环神经网络)模型、或者基于注意力机制的网络模型等等，本实施例中以CNN模型为例进行说明。可以搭建输入层、卷积层、池化层、全连接层、输出层等，还可以进行一些操作设置，例如，可以在输出层进行全局平均值池化处理，得到样本输入数据的数量和特征的数量的二位输出，还可以使用dropout(随机失活)，使得在模型训练过程中每次更新参数时，按照一定的概率随机断开输入神经元，从而防止过拟合的发生，如概率可以为0.5，本实施例对此不做限定。搭建好模型后，还可以对损失函数和评估函数进行设置，可选的，损失函数可以使用均方误差方法，评估函数可以使用平均绝对误差方法。

然后，需要获取样本输入数据与基准输出数据。

在实施中，技术人员可以获取不存在噪声的音频与噪声音频，首先可以将不存在噪声的音频进行分段处理，将音频划分为多个音频段，然后将噪声音频与一半的音频段进行混合，得到存在噪声的音频段，使存在噪声的音频段与不存在噪声的音频段的数量的比例为1：1。将存在噪声的音频段与不存在噪声的音频段确定为样本数据，将存在噪声的音频段对应的基准输出数据确定为0，不存在噪声的音频段对应的基准输出数据确定为1。例如，不存在噪声的音频段有10000个，然后将5000个不存在噪声的音频段分别与噪声音频进行混合，得到5000个存在噪声的音频段，并将其对应的基准输出数据定义为0，然后将剩下的5000个不存在噪声的音频段对应的基准输出数据定义为1。

对样本数据中的音频段进行上述步骤102中的处理，即将音频段划分为多个音频帧，然后根据技术人员预设的人耳听觉参考信息，对每个音频帧中的功率值进行计算，然后与人耳听觉参考信息中的人耳听觉功率阈值进行对比，将存在至少一个对应的功率值大于人耳听觉功率阈值的频点的音频帧对应的音频段确定为样本待识别音频段，其中的相应处理过程与步骤102中相同，在这里不再赘述。然后再对样本待识别音频段进行上述步骤103中的处理，即对样本待识别音频段进行淡入处理和淡出处理，然后对处理后的样本待识别音频段进行特征提取处理，得到该样本待识别音频段对应的特征信息，再对特征信息中的子特征信息分别进行标准化处理，则将处理后的特征信息确定为对应的音频段的样本输入数据。

然后将样本输入数据输入到搭建好的噪声判定模型中，得到实际输出数据，将实际输出数据输入到训练函数中，基于输入的基准输出数据，得到噪声判定模型中待调整的参数的调整值，基于调整值对噪声判定模型中的参数进行更新，就可以得到训练过的噪声判定模型。

可选的，可以按照一定的比例(例如，8：1：1)，在样本数据中进行随机抽样，将其分为训练数据集合、验证数据集合和测试数据集合。训练数据集合的作用是训练噪声判定模型中的参数，更新参数值，提升噪声判定模型的性能，在训练的过程中，训练数据集合中的音频段不断的对噪声判定模型进行训练，对模型中的参数进行更新。随着对模型训练的次数的增加，噪声判定模型会具有不同程度的模型性能，这是我们可以利用验证数据集合，对训练到达一定次数时的噪声判定模型进行验证，从而可以根据验证结果对部分参数进行一定的调整。可以对噪声判定模型的实际输出数据与基准输出数据之间的准确值进行统计，当准确值呈螺旋式、起伏式上升，然后趋于稳定，并且，损失函数的数值比较小且趋于稳定时，噪声判定模型趋于稳定，此时可以停止训练，利用测试数据集合对噪声判定模型进行测试，若测试的准确率到达预先设定的准确率阈值(例如，可以设定为99.6％)时，确定噪声判定模型已将训练好，可以用于使用。若测试的准确率没有达到准确率阈值，则可以再进行调整，对噪声判定模型继续训练，例如，可以对样本数据进行调整，可能是输入到噪声判定模型中的特征信息对应的音频段中存在噪声的音频段偏多或者偏少，造成模型的输出不准确，此时，可以调整输入到噪声判定模型中的特征信息对应的音频段的类型。

对于一次训练过程，可以将样本输入数据和基准输出数据组合在一起，输入到对噪声判定模型进行训练的训练代码中，样本输入数据会输入到噪声判定模型中，然后噪声判定模型会输出噪声判定结果，根据基准输出数据与噪声判定结果之间的差值，对噪声判定模型的参数进行更新，即为完成一次训练。

上述所有可选技术方案，可以采用任意结合形成本申请的可选实施例，在此不再一一赘述。

本申请实施例中提到的方案，一方面，通过将音频段的功率信息与人耳听觉参考信息进行比较，筛选出音频段中各音频帧的多个频点的功率值均小于对应的人耳听觉功率阈值的音频段，作为人耳无法识别的音频段，对这些人耳无法识别的音频段进行排除，防止一些存在声音但人耳无法识别且又满足噪声频谱特点的音频段被判定为存在噪声，另一方面，采用噪声判定模型进行噪声识别，这样，可以采用各种各样的样本音频对噪声判定模型进行训练，包括各种存在容易误判的情况的样本音频，使噪声判定模型能对各种容易误判的情况进行较为准确的噪声判定。从而可以提高噪声检测的准确度。

本申请实施例提供了一种检测噪声的装置，该装置可以是上述实施例中的计算机设备，如图3所示，所述装置包括：

获取模块310，用于获取录制的目标人声音频；

划分模块320，用于将目标人声音频划分为多个音频段；

第一确定模块330，用于获取每个音频段对应的功率信息，基于每个音频段的功率信息和人耳听觉参考信息，在所述多个音频段中确定待识别音频段，其中，所述功率信息包括所述音频段中各音频帧的多个频点的功率值，所述人耳听觉参考信息包括多个频点对应的人耳听觉功率阈值；

判定模块340，用于提取每个待识别音频段的特征信息，将每个待识别音频段对应的特征信息，分别输入到噪声判定模型中，得到每个待识别音频段对应的噪声判定结果，其中，所述待识别音频段的特征信息基于所述待识别音频段的至少一种人耳感知频谱特征确定；

第二确定模块350，用于基于每个待识别音频段对应的噪声判定结果，确定所述目标人声音频对应的噪声判定结果。

在一种可能的设计中，所述第一确定模块330，用于：

在一种可能的设计中，所述判定模块340，用于：

对于每个待识别音频段，提取所述待识别音频段的多个子特征信息，对所述多个子特征信息进行标准化处理，将标准化处理后的多个子特征信息组合成矩阵，作为所述待识别音频段对应的特征信息，其中，所述多个子特征信息包括至少一种人耳感知频谱特征，所述人耳感知频谱特征为相对频谱变换-感知线性预测RASTA-PLP特征、感知线性预测PLP系数、PLP一阶差分系数或PLP二阶差分系数。

在一种可能的设计中，所述第二确定模块350，用于：

需要说明的是：上述实施例提供的检测噪声的装置在检测噪声时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的检测噪声的装置与检测噪声的方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

图4示出了本申请一个示例性实施例提供的终端400的结构框图。该终端可以是上述实施例中的计算机设备。该终端400可以是：智能手机、平板电脑、MP3播放器(MovingPicture Experts Group Audio Layer III，动态影像专家压缩标准音频层面3)、MP4(Moving Picture Experts Group Audio Layer IV，动态影像专家压缩标准音频层面4)播放器、笔记本电脑或台式电脑。终端400还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。

通常，终端400包括有：处理器401和存储器402。

处理器401可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器401可以采用DSP(Digital Signal Processing，数字信号处理)、FPGA(Field－Programmable Gate Array，现场可编程门阵列)、PLA(Programmable Logic Array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器401也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器401可以在集成有GPU(Graphics Processing Unit，图像处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器401还可以包括AI(Artificial Intelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器402可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器402还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器402中的非暂态的计算机可读存储介质用于存储至少一个指令，该至少一个指令用于被处理器401所执行以实现本申请中方法实施例提供的检测噪声的方法。

在一些实施例中，终端400还可选包括有：外围设备接口403和至少一个外围设备。处理器401、存储器402和外围设备接口403之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口403相连。具体地，外围设备包括：射频电路404、显示屏405、摄像头组件406、音频电路407、定位组件408和电源409中的至少一种。

外围设备接口403可被用于将I/O(Input/Output，输入/输出)相关的至少一个外围设备连接到处理器401和存储器402。在一些实施例中，处理器401、存储器402和外围设备接口403被集成在同一芯片或电路板上；在一些其他实施例中，处理器401、存储器402和外围设备接口403中的任意一个或两个可以在单独的芯片或电路板上实现，本实施例对此不加以限定。

射频电路404用于接收和发射RF(Radio Frequency，射频)信号，也称电磁信号。射频电路404通过电磁信号与通信网络以及其他通信设备进行通信。射频电路404将电信号转换为电磁信号进行发送，或者，将接收到的电磁信号转换为电信号。可选地，射频电路404包括：天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路404可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于：城域网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(Wireless Fidelity，无线保真)网络。在一些实施例中，射频电路404还可以包括NFC(Near Field Communication，近距离无线通信)有关的电路，本申请对此不加以限定。

显示屏405用于显示UI(User Interface，用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏405是触摸显示屏时，显示屏405还具有采集在显示屏405的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器401进行处理。此时，显示屏405还可以用于提供虚拟按钮和/或虚拟键盘，也称软按钮和/或软键盘。在一些实施例中，显示屏405可以为一个，设置终端400的前面板；在另一些实施例中，显示屏405可以为至少两个，分别设置在终端400的不同表面或呈折叠设计；在再一些实施例中，显示屏405可以是柔性显示屏，设置在终端400的弯曲表面上或折叠面上。甚至，显示屏405还可以设置成非矩形的不规则图形，也即异形屏。显示屏405可以采用LCD(LiquidCrystal Display，液晶显示屏)、OLED(Organic Light-Emitting Diode，有机发光二极管)等材质制备。

摄像头组件406用于采集图像或视频。可选地，摄像头组件406包括前置摄像头和后置摄像头。通常，前置摄像头设置在终端的前面板，后置摄像头设置在终端的背面。在一些实施例中，后置摄像头为至少两个，分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种，以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality，虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中，摄像头组件406还可以包括闪光灯。闪光灯可以是单色温闪光灯，也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合，可以用于不同色温下的光线补偿。

音频电路407可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波，并将声波转换为电信号输入至处理器401进行处理，或者输入至射频电路404以实现语音通信。出于立体声采集或降噪的目的，麦克风可以为多个，分别设置在终端400的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器401或射频电路404的电信号转换为声波。扬声器可以是传统的薄膜扬声器，也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时，不仅可以将电信号转换为人类可听见的声波，也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中，音频电路407还可以包括耳机插孔。

定位组件408用于定位终端400的当前地理位置，以实现导航或LBS(LocationBased Service，基于位置的服务)。定位组件408可以是基于美国的GPS(GlobalPositioning System，全球定位系统)、中国的北斗系统、俄罗斯的格雷纳斯系统或欧盟的伽利略系统的定位组件。

电源409用于为终端400中的各个组件进行供电。电源409可以是交流电、直流电、一次性电池或可充电电池。当电源409包括可充电电池时，该可充电电池可以支持有线充电或无线充电。该可充电电池还可以用于支持快充技术。

在一些实施例中，终端400还包括有一个或多个传感器410。该一个或多个传感器410包括但不限于：加速度传感器411、陀螺仪传感器412、压力传感器413、指纹传感器414、光学传感器415以及接近传感器416。

加速度传感器411可以检测以终端400建立的坐标系的三个坐标轴上的加速度大小。比如，加速度传感器411可以用于检测重力加速度在三个坐标轴上的分量。处理器401可以根据加速度传感器411采集的重力加速度信号，控制显示屏405以横向视图或纵向视图进行用户界面的显示。加速度传感器411还可以用于游戏或者用户的运动数据的采集。

陀螺仪传感器412可以检测终端400的机体方向及转动角度，陀螺仪传感器412可以与加速度传感器411协同采集用户对终端400的3D动作。处理器401根据陀螺仪传感器412采集的数据，可以实现如下功能：动作感应(比如根据用户的倾斜操作来改变UI)、拍摄时的图像稳定、游戏控制以及惯性导航。

压力传感器413可以设置在终端400的侧边框和/或显示屏405的下层。当压力传感器413设置在终端400的侧边框时，可以检测用户对终端400的握持信号，由处理器401根据压力传感器413采集的握持信号进行左右手识别或快捷操作。当压力传感器413设置在显示屏405的下层时，由处理器401根据用户对显示屏405的压力操作，实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。

指纹传感器414用于采集用户的指纹，由处理器401根据指纹传感器414采集到的指纹识别用户的身份，或者，由指纹传感器414根据采集到的指纹识别用户的身份。在识别出用户的身份为可信身份时，由处理器401授权该用户执行相关的敏感操作，该敏感操作包括解锁屏幕、查看加密信息、下载软件、支付及更改设置等。指纹传感器414可以被设置终端400的正面、背面或侧面。当终端400上设置有物理按键或厂商Logo时，指纹传感器414可以与物理按键或厂商Logo集成在一起。

光学传感器415用于采集环境光强度。在一个实施例中，处理器401可以根据光学传感器415采集的环境光强度，控制显示屏405的显示亮度。具体地，当环境光强度较高时，调高显示屏405的显示亮度；当环境光强度较低时，调低显示屏405的显示亮度。在另一个实施例中，处理器401还可以根据光学传感器415采集的环境光强度，动态调整摄像头组件406的拍摄参数。

接近传感器416，也称距离传感器，通常设置在终端400的前面板。接近传感器416用于采集用户与终端400的正面之间的距离。在一个实施例中，当接近传感器416检测到用户与终端400的正面之间的距离逐渐变小时，由处理器401控制显示屏405从亮屏状态切换为息屏状态；当接近传感器416检测到用户与终端400的正面之间的距离逐渐变大时，由处理器401控制显示屏405从息屏状态切换为亮屏状态。

本领域技术人员可以理解，图4中示出的结构并不构成对终端400的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

图5是本申请实施例提供的一种服务器的结构示意图，该服务器500可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器501和一个或一个以上的存储器502，其中，所述存储器502中存储有至少一条指令，所述至少一条指令由所述处理器501加载并执行以实现上述各个方法实施例提供的方法。当然，该服务器还可以具有有线或无线网络接口、键盘以及输入输出接口等部件，以便进行输入输出，该服务器还可以包括其他用于实现设备功能的部件，在此不做赘述。

在示例性实施例中，还提供了一种计算机可读存储介质，例如包括指令的存储器，上述指令可由终端中的处理器执行以完成上述实施例中检测噪声的方法。该计算机可读存储介质可以是非暂态的。例如，所述计算机可读存储介质可以是ROM(Read-Only Memory，只读存储器)、RAM(Random Access Memory，随机存取存储器)、CD-ROM、磁带、软盘和光数据存储设备等。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本申请的可选实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种检测噪声的方法，其特征在于，所述方法包括：

获取录制的目标人声音频；

将目标人声音频划分为多个音频段；

2.根据权利要求1所述的方法，其特征在于，所述获取每个音频段对应的功率信息，基于每个音频段的功率信息和人耳听觉参考信息，在所述多个音频段中确定待识别音频段，包括：

3.根据权利要求1所述的方法，其特征在于，所述提取每个待识别音频段的特征信息，将每个待识别音频段对应的特征信息，分别输入到噪声判定模型中，得到每个待识别音频段对应的噪声判定结果之前，包括：对每个所述待识别音频段进行淡入处理和淡出处理。

4.根据权利要求1所述的方法，其特征在于，所述提取每个待识别音频段的特征信息，将每个待识别音频段对应的特征信息，分别输入到噪声判定模型中，得到每个待识别音频段对应的噪声判定结果，包括：

5.根据权利要求4所述的方法，其特征在于，所述子特征信息为向量或矩阵，所述对所述多个子特征信息进行标准化处理，包括：

6.根据权利要求4所述的方法，其特征在于，所述多个子特征信息还包括梅尔频谱特征和/或谱熵。

7.根据权利要求1-6任一项所述的方法，其特征在于，所述基于每个待识别音频段对应的噪声判定结果，确定所述目标人声音频对应的噪声判定结果，包括：

8.一种检测噪声的装置，其特征在于，所述装置包括：

获取模块，用于获取录制的目标人声音频；

划分模块，用于将目标人声音频划分为多个音频段；

9.一种计算机设备，其特征在于，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条指令，所述至少一条指令由所述处理器加载并执行以实现如权利要求1至权利要求7任一项所述的检测噪声的方法所执行的操作。

10.一种计算机可读存储介质，其特征在于，所述存储介质中存储有至少一条指令，所述至少一条指令由处理器加载并执行以实现如权利要求1至权利要求7任一项所述的检测噪声的方法所执行的操作。