CN111341347B

CN111341347B - 一种噪声检测方法及相关设备

Info

Publication number: CN111341347B
Application number: CN202010168417.4A
Authority: CN
Inventors: 张超鹏; 林森
Original assignee: Tencent Music Entertainment Technology Shenzhen Co Ltd
Current assignee: Tencent Music Entertainment Technology Shenzhen Co Ltd
Priority date: 2020-03-11
Filing date: 2020-03-11
Publication date: 2023-07-18
Anticipated expiration: 2040-03-11
Also published as: CN111341347A

Abstract

本申请实施例公开了一种噪声检测方法及相关设备。该方法包括：设备同时获取通过不同路径输入的第一类型的第一语音信号和第二类型的第二语音信号，然后通过计算获取第一语音信号和第二语音信号在不同时频点上的能量分布信息，根据所述第一语音信号和所述第二语音信号在不同时频点上的能量分布信息来检测第一语音信号中的瞬态噪声信号。本申请实施例，通过对比两路信号的频谱能量分布，能够检测到其中一路信号中是否包含瞬态噪声信号。

Description

一种噪声检测方法及相关设备

技术领域

本申请涉及计算机技术领域，尤其涉及一种噪声检测方法及相关设备。

背景技术

对于用户而言，为追求更干净的录音效果，有很大的几率使用耳麦进行信号录入。但在耳麦录音过程中，很多时候，受到耳机线信号传输过程中一些人为因素(比如摆弄耳机线，人嘴离录音口比较近，出现喷麦等现象)等影响，会在最终收录的信号中出现瞬态噪声信号。在现有技术中，对瞬态噪声信号的降噪主要有以下三种方法：

单麦降噪：该方案目前为多数手机厂商采用的降噪方法，对于平稳噪声效果相对明显，但对于突发噪声效果并不理想。主要由于这种传统方案，一般通过高斯混合模型，或平稳噪声跟踪等方案实现噪声检测，算法本身即已确定了，针对的是稳态噪声类型。对瞬态噪声信号检测的效果微乎其微。

多麦降噪：该方案可以有效检测并去除背景声音的干扰，但需要开启两路及以上MICIN输入，该特性本身及要求手机硬件设备必须支持两路及以上的麦克风以及相关的硬件音频声道处理。且该方案主要针对麦克风拾音，对耳麦情况多数没做有针对性的处理。

神经网络方法降噪：训练优越的神经网络模型可以准确检测到各种噪声类型的瞬态噪声信号位置，同时达到较好的降噪效果，但是由于降噪效果受制于训练集，不够灵活；且模型本身相对比较重，不利于自适应的结构调整。

因此，如何有效地检测到瞬态噪声信号是本领域技术人员正在研究的问题。

申请内容

本申请实施例公开了一种噪声检测方法及相关设备，能够有效的检测到瞬态噪声信号。

第一方面，本申请实施例提供了一种噪声检测方法，该方法包括：

设备同时获取通过第一路径输入的第一类型的第一语音信号和通过第二路径输入的第二类型的第二语音信号；

所述设备获取所述第一语音信号的语谱信息和所述第二语音信号的语谱信息，所述语谱信息用于表示语音信号在不同时频点上的能量分布信息；

所述设备根据所述第一语音信号在不同时频点上的能量分布信息和所述第二语音信号在不同时频点上的能量分布信息，确定所述第一语音信号中是否存在瞬态噪声信号。

在上述方法中，设备同时获取通过不同路径输入的第一类型的第一语音信号和第二类型的第二语音信号，其中，第一语音信号可以是通过耳机设备线性输入的声信号，第二语音信号可以是通过设备自身的麦克风输入的电信号，然后通过计算获取第一语音信号和第二语音信号在不同时频点上的能量分布信息，根据所述第一语音信号和所述第二语音信号在不同时频点上的能量分布信息来检测第一语音信号中的瞬态噪声信号，这种实现方式通过对比两路信号的频谱能量分布，能够检测到其中一路信号中是否包含瞬态噪声信号。

基于第一方面，在其中一种可选的实现方式中，所述设备获取通过第一路径输入的第一语音信号和通过第二路径输入的第二语音信号包括：

所述设备同时获取第一语音信号和第二语音信号，所述第一语音信号包括通过第一路径输入的语音信号按照预设采样频率进行重采样的语音信号，所述第二语音信号包括通过第二路径输入的语音信号按照所述预设采样频率进行重采样的语音信号。

这种实现方式对同时获取的通过不同路径输入的两路信号按照预设采样频率进行重采样，从而获取重采样后的第一语音信号和第二语音信号，能够简化后续的计算，提高检测效率。

基于第一方面，在其中一种可选的实现方式中，所述设备获取所述第一语音信号和所述第二语音信号的语谱信息包括：

所述设备将所述第一语音信号和所述第二语音信号分别划分为多个预设固定长度的语音段；

所述设备对所述第一语音信号的所述语音段进行傅里叶变换，以及对所述第二语音信号的所述语音段进行傅里叶变换，以获取所述第一语音信号和所述第二语音信号的功率谱，所述功率谱用于表示所述第一语音信号和所述第二语音信号在不同时频点上的功率信息。

这种实现方式将第一语音信号和第二语音信号分别划分为多个预设固定长度的语音段，然后通过傅里叶变换获取第一语音信号和第二语音信号在不同时频点上的能量分布信息，也即是说，把数据进行分段，相当于对信号进行了加窗的处理，以采集有限数据，便于后续通过计算获取所述第一语音信号和所述第二语音信号的语谱信息。

基于第一方面，在其中一种可选的实现方式中，所述设备根据所述第一语音信号在不同时频点上的能量分布信息和所述第二语音信号在不同时频点上的能量分布信息，确定所述第一语音信号中的瞬态噪声信号，包括：

所述设备分别在所述第一语音信号和所述第二语音信号的功率谱中选取所述特定频段的信号作为第一目标信号和第二目标信号；

所述设备比较所述第一目标信号和所述第二目标信号，若在某一时段内所述第一目标信号的功率大于所述第二目标信号的功率，且所述第一目标信号和所述第二目标信号的功率差值符合预设要求，则将所述第一目标信号的所述某一时段内的语音信号确定为瞬态噪声信号。

这种实现方式通过比较第一语音信号和第二语音信号的目标信号的功率，来确定在第一语音信号中的瞬态噪声信号，能够有效的检测到第一语音信号中的瞬态噪声信号。

基于第一方面，在其中一种可选的实现方式中，所述设备比较所述第一目标和第二目标信号包括：

所述设备对所述第一语音信号的目标信号的功率谱做平滑处理；以及对所述第二语音信号的目标信号的功率谱做平滑处理；

所述设备比较所述第一目标信号和第二目标信号的平滑处理后的功率谱。

这种实现方式首先对第一目标信号和第二目标信号的功率谱做平滑处理，通过比较经过平滑处理后的第一目标信号和第二目标信号的功率，来确定在第一目标信号中的瞬态噪声信号，能够有效的检测到第一目标信号中的瞬态噪声信号。

基于第一方面，在其中一种可选的实现方式中，所述设备根据所述第一语音信号在不同时频点上的能量分布信息和所述第二语音信号在不同时频点上的能量分布信息，确定所述第一语音信号中是否存在瞬态噪声信号，包括：

所述设备分别在所述第一语音信号和所述第二语音信号的功率谱中选取特定频段的信号作为第一目标信号和第二目标信号；

所述设备根据所述第一语音信号和所述第二语音信号的能量分布信息，计算所述第一目标信号和所述第二目标信号的能量分布相关系数；

若所述能量分布相关系数在所述某一时段内低于第一阈值，且在所述某一时段内所述第一目标信号的功率大于所述第二目标信号的功率，且所述第一目标信号和所述第二目标信号的功率差值符合预设要求，则所述设备确定在所述第一目标信号的所述某一时段内的语音信号为瞬态噪声信号。

这种实现方式进一步通过计算第一语音信号和第二语音信号的目标信号的相关系数，来确定在第一语音信号中的瞬态噪声信号，能够更加准确的检测到第一语音信号中的瞬态噪声信号。

所述设备根据所述第一目标信号和所述第二目标信号的功率谱，将功率大于或等于第二阈值的功率值定义为第一类数值，将功率小于所述第二阈值的功率值定义为第二类数值；

若在某一时段内所述第一目标信号的功率为第一类数值，所述第二目标信号的功率为第二类数值，所述相关系数在所述某一时段内低于第一阈值，且在所述某一时段内所述第一目标信号功率大于所述第二目标信号功率，且所述第一目标信号和所述第二目标信号的功率差值符合预设要求，则所述设备判断在所述第一目标信号的所述某一时段内的语音信号为瞬态噪声信号。

这种实现方式通过简化第一语音信号和第二语音信号的目标信号的功率谱，然后更进一步比较简化后的功率谱来确定在第一语音信号中的瞬态噪声信号，能够更加准确的检测到第一语音信号中的瞬态噪声信号。

基于第一方面，在其中一种可选的实现方式中，所述方法还包括：

所述设备判断在所述第一目标信号的所述某一时段内的语音信号为瞬态噪声信号之后，若相邻两段瞬态噪声信号的时间间隔在预设范围内，则所述设备确定所述时间间隔内的信号为瞬态噪声信号。

这种实现方式通过判断相邻两个瞬态噪声时段之间时间间隔，若时间间隔过短，则可以认为该相邻两段瞬态噪声信号为一段连续的瞬态噪声信号，在实际应用中提升了判断的稳定性。

第二方面，本申请实施例提供了一种噪声检测装置，包括获取单元、计算单元和确定单元，其中：

第一获取单元，用于同时获取通过第一路径输入的第一类型的第一语音信号和通过第二路径输入的第二类型的第二语音信号；

第二获取单元，用于获取所述第一语音信号的语谱信息和所述第二语音信号的语谱信息，所述语谱信息用于表示语音信号在不同时频点上的能量分布信息；

确定单元，用于根据所述第一语音信号在不同时频点上的能量分布信息和所述第二语音信号在不同时频点上的能量分布信息，确定所述第一语音信号中是否存在瞬态噪声信号。

基于第二方面，在其中一种可选的实现方式中，所述第一获取单元具体用于同时获取第一语音信号和第二语音信号，所述第一语音信号包括通过第一路径输入的语音信号按照预设采样频率进行重采样的语音信号，所述第二语音信号包括通过第二路径输入的语音信号按照所述预设采样频率进行重采样的语音信号。

基于第二方面，在其中一种可选的实现方式中，所述第二获取单元具体包括：

划分单元，用于将所述第一语音信号和所述第二语音信号分别划分为多个预设固定长度的语音段；

所述第二获取单元，还用于对所述第一语音信号的所述语音段进行傅里叶变换，以及对所述第二语音信号的所述语音段进行傅里叶变换，以获取所述第一语音信号和所述第二语音信号的功率谱，所述功率谱用于表示所述第一语音信号和所述第二语音信号在不同时频点上的能量分布信息。

基于第二方面，在其中一种可选的实现方式中，所述确定单元具体包括：

选取单元，用于分别在所述第一语音信号和所述第二语音信号的功率谱中选取特定频段的信号作为第一目标信号和第二目标信号；

比较单元，用于比较所述第一第一目标信号和第二目标信号，若在某一时段内所述第一目标信号的功率大于所述第二目标信号的功率，且所述第一目标信号和所述第二目标信号的功率差值符合预设要求，则将所述第一目标信号的所述某一时段内的语音信号确定为瞬态噪声信号。

基于第二方面，在其中一种可选的实现方式中，所述比较单元具体包括：

处理单元，用于对所述第一目标信号的功率谱做平滑处理；以及对所述第二目标信号的功率谱做平滑处理；

所述比较单元，还用于比较所述第一目标信号和第二目标信号的平滑处理后的功率谱。

所述选取单元，还用于分别在所述第一语音信号和所述第二语音信号的功率谱中选取特定频段的信号作为第一目标信号和第二目标信号；

计算单元，用于根据所述第一语音信号和所述第二语音信号在所述特定频段上的能量分布信息，计算所述第一目标信号和所述第二目标信号的能量分布相关系数；

所述确定单元，还用于若所述能量分布相关系数在所述某一时段内低于第一阈值，且在所述某一时段内所述第一目标信号的功率大于所述第二目标信号的功率，且所述第一目标信号和所述第二目标信号的功率差值符合预设要求，则确定在所述第一目标信号的所述某一时段内的语音信号为瞬态噪声信号。

定义单元，用于根据所述第一目标信号和所述第二目标信号的功率谱，将功率大于或等于第二阈值的功率值定义为第一类数值，将功率小于所述第二阈值的功率值定义为第二类数值；

所述确定单元，还用于若在某一时段内所述第一目标信号的功率为第一类数值，所述第二目标信号的功率为第二类数值，所述相关系数在所述某一时段内低于第一阈值，且在所述某一时段内所述第一目标信号功率大于所述第二目标信号功率，且所述第一目标信号和所述第二目标信号的功率差值符合预设要求，则将在所述第一目标信号的所述某一时段内的语音信号确定为瞬态噪声信号。

基于第二方面，在其中一种可选的实现方式中，所述装置还包括：

所述确定单元，还用于在将所述第一目标信号的所述某一时段内的语音信号确定为瞬态噪声信号之后，若相邻两段瞬态噪声信号的时间间隔在预设范围内，则所述设备确定所述时间间隔内的信号为瞬态噪声信号。

需要说明的是，第二方面的实现方式及相应的有益效果可以参照第一方面以及相应实现方式中的描述，此处不再赘述。

第三方面，本申请实施例提供了一种噪声检测设备，包括处理器和通信设备，所述处理器和通信设备相互连接，其中，所述通信设备用于与外部设备进行信息交互；所述处理器被配置用于调用存储的程序代码，执行包括第一方面所述的方法。

需要说明的是，第三方面的实现方式及相应的有益效果可以参照第一方面以及相应实现方式中的描述，此处不再赘述。

第四方面，本申请实施例提供了一种计算机可读存储介质，所述计算机可读存储介质存储有程序指令，所述程序指令当被处理器执行时使所述处理器执行第一方面执行的方法。

需要说明的是，第四方面的实现方式及相应的有益效果可以参照第一方面以及相应实现方式中的描述，此处不再赘述。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对本申请实施例或背景技术中所需要使用的附图作简单地介绍。

图1是本申请实施例提供的一种噪声检测方法的应用场景图；

图2是本申请实施例提供的一种噪声检测方法的流程示意图；

图3是本申请实施例提供的一种噪声检测方法的应用场景示意图；

图4是本申请实施例提供的一种噪声检测装置的结构示意图；

图5是本申请实施例提供的一种噪声检测设备的结构示意图。

具体实施方式

下面将结合附图对本申请实施例中的技术方案进行描述。

应当理解，在此本申请说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本申请。在本申请说明书中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。在本说明书中使用的术语“设备”、“单元”、“系统”等用于表示计算机相关的实体、硬件、固件、硬件和软件的组合、软件、或执行中的软件。例如，设备可以是但不限于，处理器，数据处理平台，计算设备，计算机，2个或更多个计算机等。

还应当理解，在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

首先，对本申请中的部分用语进行解释说明，以便于本领域技术人员理解。

(1)MICIN信号：也叫麦克风输入信号，mic输入的是环境中的信号，其中，MICIN信号输入到电子设备中为一种声信号，其中声信号也叫声音信号，声音信号是能在空气中传播的动物能够感知的电磁波。

(2)LINEIN信号：也叫线性输入信号，Line输入的是外接设备的音频信号，其中，LINEIN信号输入到电子设备中为一种电信号，其中电信号是导线中的电子做定向移动所行成的信号。

(3)语谱信息：以语谱图的形式描述，语谱图就是语音频谱图，一般是通过处理接收的时域信号得到频谱图，因此只要有足够时间长度的时域信号就可。专业点讲，那是频谱分析视图，如果针对语音数据的话，叫语谱图。语谱图的横坐标是时间，纵坐标是频率，坐标点值为语音数据能量。由于是采用二维平面表达三维信息，所以能量值的大小是通过颜色来表示的，颜色深，表示该点的语音能量越强。

(4)重采样：一种数据处理方法。即影像或语音数据重新组织过程中的灰度处理方法。影像或语音采样是按一定间隔采集数值的，当阈值没有位于采样点上的原始函数的数值时，就需要利用已采样点进行内插，称为重采样。

(5)平滑处理：也可叫滤波，或者合在一起叫平滑滤波，平滑滤波是低频增强的空间域滤波技术。它的目的有两类：一类是模糊；另一类是消除噪音。空间域的平滑滤波一般采用简单平均法进行，就是求邻近像元点的平均亮度值。邻域的大小与平滑的效果直接相关，邻域越大平滑的效果越好，但邻域过大，平滑会使边缘信息损失的越大，从而使输出的图像变得模糊，因此需合理选择邻域的大小。“平滑处理”也称“模糊处理”，是一项简单且使用频率很高的图像处理方法。平滑处理的用途很多，但最常见的是用来减少图像上的噪声或者失真。降低图像分辨率时，平滑处理是很重要的。

为了更好的理解本申请实施例提供的一种噪声检测方法及相关设备，下面先对本申请实施例的噪声检测方法的应用场景进行描述。如图1所示，其为本申请实施例提供的一种噪声检测方法的应用场景示意图，包括电子设备101和耳机设备102，电子设备101和耳机设备102通过有线或无线的方式连接，其中：

电子设备101，可以通过麦克风输入获取语音信号，包括具有收声功能的电子设备，电子设备包括具有无线通信功能的手持设备(例如，手机、平板电脑、掌上电脑等)、车载设备(例如，汽车、自行车、电动车、飞机、船舶等)、可穿戴设备(例如智能手表(如iWatch等)、智能手环、计步器等)、智能家居设备(例如，冰箱、电视、空调、电表等)、智能机器人、车间设备、能够连接到无线调制解调器的其它处理设备，以及各种形式的用户设备(UserEquipment，UE)、移动台(Mobile station，MS)、终端(terminal)、终端设备(TerminalEquipment)，等等，在本申请实施例中，电子设备101通过麦克风输入获取的语音信号可称为第二语音信号。

耳机设备102，可以是有线耳机设备，可以是无线耳机设备(蓝牙)，也可以是具有收声功能且可与电子设备101连接的其他设备，耳机设备102可以通过线性输入向电子设备101输入语音信号，在本申请实施例中，电子设备101通过线性输入获取的语音信号可称为第一语音信号。

本方案实施例中的终端设备可以包括但不限于任何一种基于智能操作系统的电子产品，其可与用户通过键盘、虚拟键盘、触摸板、触摸屏以及声控设备等输入设备来进行人机交互，诸如智能手机、平板电脑、个人电脑、车载设备等。其中，智能操作系统包括但不限于任何通过向移动设备提供各种移动应用来丰富设备功能的操作系统，诸如安卓(Android^TM)、iOS^TM、Windows Phone^TM等。

下面结合图2就本申请的噪声检测方法进行说明，如2所示，其为本申请实施例提供的一种噪声检测方法的流程示意图，该方法可以基于图1所示的应用场景或者其他场景来实现，该方法可以包括但不限于以下步骤：

步骤S201：设备同时获取通过第一路径输入的第一类型的第一语音信号和通过第二路径输入的第二类型的第二语音信号。

具体地，第一语音信号和第二语音信号来自于相同的发声源，且来自于不同的路径，设备同时获取通过第一路径输入的第一类型的第一语音信号和通过第二路径输入的第二类型的第二语音信号，举例来说，如图1中所示的应用场景，第一语音信号为电子设备通过耳机设备线性输入获取的语音信号，其中通过耳机设备线性输入获取的语音信号类型为电信号，第二语音信号为电子设备通过麦克风输入获取的语音信号，其中通过麦克风输入获取的语音信号类型为声信号，即第一路径为线性输入，第一类型为声信号类型，第二路径为麦克风输入，第二类型为电信号类型。当电子设备通过有线或无线的方式连接到耳机设备时，同时打开自身的麦克风输入，通过耳机设备和麦克风同时获取到不同类型的语音信号。

在其中一个实施方式中，第一语音信号可以包括通过第一路径输入的语音信号按照预设采样频率进行重采样的语音信号，第二语音信号可以包括通过第二路径输入的语音信号按照所述预设采样频率进行重采样的语音信号，也即是说，设备同时获取通过第一路径输入的语音信号和通过第二路径输入的语音信号后，对这两路语音信号按照预设采样频率进行重采样，通过第一路径输入的语音信号重采样后为第一语音信号，通过第二路径输入的语音信号重采样后为第二语音信号，设备同时获取第一语音信号和第二语音信号。

举例来说，如图1中所示的应用场景，考虑到一般手机语音信号的采样率较高(一般在32kHZ以上)，为后续计算的快速高效，设置预设采样频率可以为16kHZ，按照16kHZ的频率对获取到的两路语音信号(通过线性输入的语音信号和通过麦克风输入的语音信号)分别进行重采样，以获取第一语音信号和第二语音信号。这种实现方式对同时获取的通过不同路径输入的两路信号按照预设采样频率进行重采样，从而获取重采样后的第一语音信号和第二语音信号，能够简化后续的计算，提高检测效率。

步骤S202：设备获取第一语音信号的语谱信息和第二语音信号的语谱信息。

具体地，设备同时获取通过第一路径输入的第一语音信号和通过第二路径输入的第二语音信号后，通过计算获取第一语音信号的语谱信息和第二语音信号的语谱信息，语谱信息用于表示语音信号在不同时频点上的能量分布信息。举例来说，在图1所示的应用场景中，设备获取通过线性输入的第一语音信号和通过麦克风输入的第二语音信号后，根据语音信号的短时平稳特性(10～30ms时间段内的音频信号可视为平稳信号)以及为了保证计算的高实时性和低复杂性，可以设置帧移为16ms(包括256个样点)，帧长为32ms(包括512个样点)，对语音信号进行加窗以分帧，将第一语音信号和第二语音信号分别划分为多个预设固定长度的语音段，其中第一语音信号和第二语音信号分别表示为xlinw_n(Ln+i)＝xlin(i)×w(i)

xmicw_n(Ln+i)＝xmic(i)×w(i)

其中，n表示加窗后的第n帧信号，L表示帧移，此处L＝256，N＝512，i表示第n帧信号内N个样点从0开始的索引，xlin(i)和xmic(i)分别为第一语音信号和第二语音信号。

然后再对第一语音信号和第二语音信号的第n帧信号分别进行傅里叶变换，傅里叶变换结果如下：

其中(n,k)表示第n帧的第k个频率点。根据该傅里叶变换结果，第一语音信号的输入和第二语音信号的输入即可以表示为以帧序列n为横轴，频点序列k为纵轴的二维频谱分布，即得到该信号的语谱图(描述了语音信号的语谱信息)。举例来说，语音内容为“今夕是何年”，第一语音信号通过线性输入到设备中，第二语音信号通过麦克风输入到设备中，第一语音信号的语谱信息和第二语音信号的语谱信息如图3中的A图和B图所示，A图为第二语音信号的语谱图，描述了第二语音信号的语谱信息，B图为第一语音信号的语谱图，描述了第一语音信号的语谱信息。

在其中一个实施方式中，设备对语音段进行傅里叶变换后，获取第一语音信号和第二语音信号的功率谱，功率谱用于表示第一语音信号和第二语音信号在不同时频点上的语音数据能量，其中功率谱计算公式如下：

Pmic(n,k)＝‖Xmic(n,k)‖²，Plin(n,k)＝‖Xlin(n,k)‖²

根据语音信号主要集中在频段300Hz～3400Hz的特点，为去除该频段对应时段上信号能量干扰，我们选取高频段信号能量来反映当前帧信号能量，其中第一语音信号和第二语音信号的高频段信号能量的功率谱计算公式为

其中设置k₀＝120，k₁＝257，对应的频率分别为3750Hz(只要选取3400Hz以上频率的k₀值均可)和8000Hz(截止频率)。

步骤S203：设备根据第一语音信号和第二语音信号在不同时频点上的能量分布信息，确定第一语音信号中是否存在瞬态噪声信号。

具体地，设备获取第一语音信号的语谱信息和第二语音信号的语谱信息后，根据第一语音信号和第二语音信号的频率和语音数据能量，分别在第一语音信号和第二语音信号中选取特定频段信号(高频段信号，例如3750Hz～8000Hz的频段信号)作为第一目标信号和第二目标信号，由于语音信号主要集中在频段300Hz～3400Hz，所以特定频段中的最小频率大于3400Hz，其中第一语音信号的第一目标信号中包含所述瞬态噪声信号。设备比较第一语音信号的第一目标信号和第二语音信号的第二目标信号在同一频率上的语音数据能量，若在某一时段内，第一目标信号功率谱曲线上目标信号的功率大于第二目标信号功率谱曲线上的功率且差值符合预设要求，则判断在该时段上，第一语音信号为瞬态噪声信号。其中预设要求可以是差值的绝对值大于某一个阈值(例如0.5、0.8等)，也可以是差值的绝对值大于第二语音信号的功率的绝对值的K倍，其中K为正数，可以为1/4，预设要求的具体要求此处不做限定。

在其中一个实施方式中，为了进一步去掉环境噪声干扰以及增强信号处理的鲁棒性，我们对上述获得的第一目标信号和第二目标信号的功率谱序列做时间上的平滑处理，通过卷积实现对输入曲线的平滑，具体平滑处理的实现如下：

其中，sb(m)为长度为M的平滑曲线，该平滑曲线可以是三角窗、矩形窗、抛物线窗等，举例来说，当该平滑曲线为三角窗时，

长度为M，此处选择M＝9(要求M为奇数)，B＝(M-1)/2。

对于所有时段上的功率谱信号均做如下处理：

对第一语音信号和第二语音信号的功率谱中的目标信号(例如3750Hz～8000Hz的频段信号，即第一目标信号和第二目标信号)进行平滑处理后，设备比较该时段上第一目标信号和第二目标信号的平滑处理后的功率谱(即Pmhs(h)和Plhs(h))，若第一目标信号中某一时段的功率大于第二目标信号中某一时段的功率且差值符合预设要求，则判断第一目标信号中该某一时段的语音信号为瞬态噪声信号。举例来说，如图3中的C图所示，C图为平滑处理后的第一目标信号和第二目标信号的功率谱图，其中①为第一目标信号平滑处理后的功率谱图，②为第二目标信号平滑处理后的功率谱图，当预设要求为差值的绝对值大于第二目标信号的功率的绝对值的1/4倍时，在横轴数值为10-40上，第一目标信号的功率大于第二目标信号的功率且差值的绝对值大于第二目标信号的功率的绝对值的1/4，则判断第一目标信号为瞬态噪声信号；检测到瞬态噪声信号的结果如图3中的D图所示，纵坐标为0的语音信号为正常语音信号，纵坐标为1的语音信号为瞬态噪声信号。

在其中一个实施方式中，针对某一时段上的信号频谱分布特点，设备根据第一语音信号和第二语音信号的语谱信息，还可以进一步计算第一语音信号和第二语音信号在该时段上目标信号(即特定频段，例如3750Hz～8000Hz的频段信号上功率谱曲线，即为第一目标信号和第二目标信号)的相关系数；若在某一时段上，在第一目标信号的功率大于第二目标信号的功率，且第一目标信号和第二目标信号的功率差值符合预设要求的前提下，若相关系数低于第一阈值，则设备判断在该时段上的语音信号为瞬态噪声信号。

在其中一个实施方式中，设备根据第一语音信号和第二语音信号在目标信号(高频段信号，例如3750Hz～8000Hz的频段信号，即为第一目标信号和第二目标信号)的功率谱分布特点，还可以更进一步将大于或等于第二阈值的功率定义为第一类数值，将小于第二阈值的功率定义为第二类数值，通过这种方式简化功率谱，若在某一时段上，在第一目标信号的功率大于第二目标信号的功率，且第一目标信号和第二目标信号的功率差值符合预设要求，相关系数低于上述的第一阈值的前提下，且满足第一目标信号的功率为第一类数值，第二目标信号的功率为第二类数值，则设备判断在该时段上的语音信号为瞬态噪声信号。举例来说，第一类数值可以为1，第二类数值可以为0，根据阈值简化第一目标信号和第二目标信号，将大于或等于第二阈值的功率定义为1，将小于第二阈值的功率定义为0，若在某一时段内第一目标信号的功率为1，第二目标信号的功率为0，则判断该时段上的语音信号为瞬态噪声信号。

在其中一个实施方式中，设备判断第一目标信号中某一时段为瞬态噪声信号之后，若相邻两时段上瞬态噪声信号时间间隔在预设范围内，则所述设备判断该时间间隔内的信号为瞬态噪声信号。举例来说，预设范围为20ms，设备确定第一目标信号中的瞬态噪声信号分布的时段位置后，再分别判断相邻两个瞬态噪声时段位置的时间间隔是否在20ms以内，若是，则判断该两段瞬态噪声为一段连续的瞬态噪声，即判断在这两段相邻的瞬态噪声信号之间的20ms信号也为瞬态噪声信号。

实施本申请实施例，设备同时获取通过不同路径输入的第一语音信号和第二语音信号，其中，第一语音信号可以是通过耳机设备线性输入的声信号，第二语音信号可以是通过设备自身的麦克风输入的电信号，然后根据计算获取的第一语音信号和第二语音信号短时傅里叶变换(语谱图)在不同时段上的功率谱分布特性，对比第一语音信号和第二语音信号在各个时段上的能量(功率)分布特性，判断在当前时段上，第一语音信号是否为瞬态噪声信号，这种实现方式通过比对两路信号在不同时频点上的能量分布信息能够有效的检测瞬态噪声信号出现的时段。

为了便于更好地实施本申请实施例的上述方案，本申请还对应提供了一种噪声检测装置，下面结合附图来进行详细说明：

如图4所示，本申请实施例提供一种噪声检测装置40的结构示意图，噪声检测装置40可以包括：第一获取单元401、第二获取单元402和确定单元403，其中，

第一获取单元401，用于同时获取通过第一路径输入的第一类型的第一语音信号和通过第二路径输入的第二类型的第二语音信号；

第二获取单元402，用于获取所述第一语音信号的语谱信息和所述第二语音信号的语谱信息，所述语谱信息用于表示语音信号在不同时频点上的能量分布信息；

确定单元403，用于根据所述第一语音信号在不同时频点上的能量分布信息和所述第二语音信号不同时频点上的能量分布信息，确定所述第一语音信号中是否存在瞬态噪声信号。

在其中一种实现方式中，所述第一获取单元401具体用于同时获取第一语音信号和第二语音信号，所述第一语音信号包括通过第一路径输入的语音信号按照预设采样频率进行重采样的语音信号，所述第二语音信号包括通过第二路径输入的语音信号按照所述预设采样频率进行重采样的语音信号。

在其中一种实现方式中，所述第二获取单元402具体包括：

划分单元404，用于将所述第一语音信号和所述第二语音信号分别划分为多个预设固定长度的语音段；

所述第二获取单元402，还用于对所述第一语音信号的所述语音段进行傅里叶变换，以及对所述第二语音信号的所述语音段进行傅里叶变换，以获取所述第一语音信号和所述第二语音信号的功率谱，所述功率谱用于表示所述第一语音信号和所述第二语音信号在不同时频点上的能量分布信息。

基于第二方面，在其中一种可选的实现方式中，所述确定单元403具体包括：

选取单元405，用于分别在所述第一语音信号和所述第二语音信号的功率谱中选取特定频段的信号作为第一目标信号和第二目标信号；

比较单元406，用于比较所述第一目标信号和第二目标信号，若在某一时段内所述第一目标信号的功率大于所述第二目标信号的功率，且所述第一目标信号和所述第二目标信号的功率差值符合预设要求，则将所述第一目标信号的所述某一时段内的语音信号确定为瞬态噪声信号。

在其中一种实现方式中，所述比较单元406具体包括：

处理单元407，用于对所述第一目标信号的功率谱做平滑处理；以及对所述第二目标信号的功率谱做平滑处理；

所述比较单元406，还用于比较所述第一目标信号和第二目标信号的平滑处理后的功率谱。

在其中一种实现方式中，所述确定单元403具体包括：

所述选取单元405，还用于分别在所述第一语音信号和所述第二语音信号的功率谱中选取特定频段的信号作为第一目标信号和第二目标信号；

计算单元408，用于根据所述第一语音信号和所述第二语音信号在所述特定频段上的能量分布信息，计算所述第一目标信号和所述第二目标信号的能量分布相关系数；

所述确定单元403，还用于若所述能量分布相关系数在所述某一时段内低于第一阈值，且在所述某一时段内所述第一目标信号的功率大于所述第二目标信号的功率，且所述第一目标信号和所述第二目标信号的功率差值符合预设要求，则确定在所述第一目标信号的所述某一时段内的语音信号为瞬态噪声信号。

在其中一种实现方式中，所述确定单元403具体包括：

定义单元409，用于根据所述第一目标信号和所述第二目标信号的功率谱，将功率大于或等于第二阈值的功率值定义为第一类数值，将功率小于所述第二阈值的功率值定义为第二类数值；

所述确定单元403，还用于若在某一时段内所述第一目标信号的功率为第一类数值，所述第二目标信号的功率为第二类数值，所述相关系数在所述某一时段内低于第一阈值，且在所述某一时段内所述第一目标信号功率大于所述第二目标信号功率，且所述第一目标信号和所述第二目标信号的功率差值符合预设要求，则将在所述第一目标信号的所述某一时段内的语音信号确定为瞬态噪声信号。

在其中一种实现方式中，所述装置40还包括：

所述确定单元403，还用于在将所述第一目标信号的所述某一时段内的语音信号确定为瞬态噪声信号之后，若相邻两段瞬态噪声信号的时间间隔在预设范围内，则所述设备确定所述时间间隔内的信号为瞬态噪声信号。

需要说明的是，本申请实施例中图4所描述的装置中各功能单元的功能可参见上述图2中所述的方法实施例中步骤S201-步骤S203的相关描述，此处不再赘述。

根据以上噪声检测装置图，请参考图5，图5是本申请实施例提供的一种简化的噪声检测设备结构示意图。便于理解和图示方便，图5的噪声检测设备50中，可以包括以下一个或多个组件：处理器501和通信设备502。

通信设备502，也可以称为收发机，或收发器等，其中可以包括用来进行无线、有线或其他通信方式的单元。可选的，可以将502部分中用于实现接收功能的器件视为接收单元，将用于实现发送功能的器件视为发送单元，即702部分包括接收单元和发送单元。

处理器501，处理器也可以称为处理单元，处理单板，处理模块，处理装置等。处理器可以是中央处理器(central processing unit，CPU)，网络处理器(network processor，NP)或者CPU和NP的组合。当图5所示的噪声检测设备50，执行图2所述方法时，所述处理器501调用存储的程序代码，执行以下步骤：

通过通信设备502同时获取通过第一路径输入的第一类型的第一语音信号和通过第二路径输入的第二类型的第二语音信号；

获取所述第一语音信号的语谱信息和所述第二语音信号的语谱信息，所述语谱信息用于表示语音信号在不同时频点上的能量分布信息；

根据所述第一语音信号不同时频点上的能量分布信息和所述第二语音信号不同时频点上的能量分布信息，确定所述第一语音信号中是否存在瞬态噪声信号。

需要说明的是，本申请实施例中的噪声检测设备50中处理器501的执行步骤可参考上述各方法实施例中图2实施例中的具体实现方式，这里不再赘述。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。而前述的存储介质包括：磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(Random Access Memory，RAM)等。

在本申请中，所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本申请实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

应理解，在本申请的各种实施例中，上述各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。尽管在此结合各实施例对本申请进行了描述，然而，在实施例所要求保护的本申请过程中，本领域技术人员可理解并实现公开实施例的其他变化。

Claims

1.一种噪声检测方法，其特征在于，包括：

2.根据权利要求1所述的方法，所述设备获取通过第一路径输入的第一语音信号和通过第二路径输入的第二语音信号包括：

3.根据权利要求1所述的方法，所述设备获取所述第一语音信号和所述第二语音信号的语谱信息包括：

所述设备对所述第一语音信号的所述语音段进行傅里叶变换，以及对所述第二语音信号的所述语音段进行傅里叶变换，以获取所述第一语音信号和所述第二语音信号的功率谱，所述功率谱用于表示所述第一语音信号和所述第二语音信号在不同时频点上的能量分布信息。

4.根据权利要求1所述的方法，所述设备比较所述第一目标信号和所述第二目标信号包括：

所述设备对所述第一目标信号的功率谱做平滑处理；以及对所述第二目标信号的功率谱做平滑处理；

5.根据权利要求1所述的方法，所述若在某一时段内所述第一目标信号的功率大于所述第二目标信号的功率，且所述第一目标信号和所述第二目标信号的功率差值符合预设要求，则将所述第一目标信号的所述某一时段内的语音信号确定为瞬态噪声信号，包括：

若所述第一目标信号和所述第二目标信号的能量分布相关系数在所述某一时段内低于第一阈值，且在所述某一时段内所述第一目标信号的功率大于所述第二目标信号的功率，且所述第一目标信号和所述第二目标信号的功率差值符合预设要求，则所述设备确定在所述第一目标信号的所述某一时段内的语音信号为瞬态噪声信号，其中，所述能量分布相关系数由所述第一语音信号和所述第二语音信号的能量分布信息计算得到。

6.根据权利要求1所述的方法，所述若在某一时段内所述第一目标信号的功率大于所述第二目标信号的功率，且所述第一目标信号和所述第二目标信号的功率差值符合预设要求，则将所述第一目标信号的所述某一时段内的语音信号确定为瞬态噪声信号，包括：

若在某一时段内所述第一目标信号的功率为第一类数值，所述第二目标信号的功率为第二类数值，所述第一目标信号和所述第二目标信号的能量分布相关系数在所述某一时段内低于第一阈值，且在所述某一时段内所述第一目标信号功率大于所述第二目标信号功率，且所述第一目标信号和所述第二目标信号的功率差值符合预设要求，则所述设备将在所述第一目标信号的所述某一时段内的语音信号确定为瞬态噪声信号，其中，所述第一类数值为功率大于或等于第二阈值的功率值，所述第二类数值为功率小于所述第二阈值的功率值，所述能量分布相关系数由所述第一语音信号和所述第二语音信号的能量分布信息计算得到。

7.根据权利要求1-6任一项所述的方法，所述方法还包括：

所述设备在将所述第一目标信号的所述某一时段内的语音信号确定为瞬态噪声信号之后，若相邻两段瞬态噪声信号的时间间隔在预设范围内，则所述设备确定所述时间间隔内的信号为瞬态噪声信号。

8.一种噪声检测装置，其特征在于，包括用于执行如权利要求1-7任一项所述的方法的单元。

9.一种噪声检测设备，其特征在于，包括处理器和通信设备，所述处理器和通信设备相互连接，其中，所述通信设备用于与外部设备进行信息交互；所述处理器被配置用于调用存储的程序代码，执行如权利要求1-7任一项所述的方法的单元。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有程序指令，所述程序指令当被处理器执行时使所述处理器执行如权利要求1-7任一项中所述的方法。