CN104335600A

CN104335600A - 多麦克风移动装置中检测及切换降噪模式的方法

Info

Publication number: CN104335600A
Application number: CN201380000935.3A
Authority: CN
Inventors: 蒋斌; 吴晟; 林福辉; 徐晶明
Original assignee: Spreadtrum Communications Shanghai Co Ltd
Current assignee: Spreadtrum Communications Shanghai Co Ltd
Priority date: 2013-02-25
Filing date: 2013-02-25
Publication date: 2015-02-04
Anticipated expiration: 2033-02-25
Also published as: US9736287B2; WO2014127543A1; EP2770750A1; US20150350395A1; CN104335600B; EP2770750B1

Abstract

一种多麦克风移动装置的降噪模式切换方法，包括第一声音接收器接收第一声音信号；第二声音接收器接收第二声音信号。该方法还包括：确定与所述第一声音信号有关的第一功率值，以及确定与所述第二声音信号有关的第二功率值。该方法进一步包括：比较所述第一功率值与所述第二功率值，以及，根据所述比较结果在单麦克风降噪模式和双麦克风降噪模式之间进行切换。

Description

多麦克风移动装置中检测及切换降噪模式的方法

背景技术

降噪指的是从信号中移除噪声的方法。所有记录装置，不论是模拟装置还是数字装置，都具有易受噪声影响的特点。噪声可以是缺乏相干性的随机白噪声，或者是由装置的机构或处理算法引入的相干噪声。当记录或捕获主音源时，也可能由背景音源引入噪声。这些背景音源增强了环境背景噪声电平。通常，该背景噪声电平比主音源的强度要弱，然而，该背景噪声电平可能包括会显著干扰主音源的噪声尖峰。此外，连续的背景噪声可能降低从主音源所捕获或记录的声音质量。

移动装置可能处在某种特殊的操作环境，而该操作环境特别容易受到背景噪声的影响。在大多数情况下，移动装置配置有两个麦克风，可以通过对每个麦克风记录的声音电平进行比较，并利用该比较从记录或捕获的声音信号中移除噪声。

发明内容

本发明的实施例提供一种多麦克风移动装置降噪模式的切换方法。该方法包括：第一声音接收器接收第一声音信号，以及第二声音接收器接收第二声音信号。该方法还包括：确定与所述第一声音信号有关的第一功率值，以及确定与所述第二声音信号有关的第二功率值。该方法进一步包括：比较所述第一功率值与所述第二功率值。该方法更进一步包括：根据所述比较结果在单麦克风降噪模式和双麦克风降噪模式之间进行切换。

本发明的另一实施例提供一种计算机可读存储器。所述计算机可读存储器在其上存储了指令序列，当由一个或多个处理器执行指令序列时，使得该一个或多个处理器在多麦克风移动装置中切换降噪模式。所述指令可以使处理器在第一声音接收器接收第一声音信号，以及在第二声音接收器接收第二声音信号。所述指令还可以使处理器确定与所述第一声音信号有关的第一功率值，以及确定与所述第二声音信号有关的第二功率值。所述指令进一步可以使处理器比较所述第一功率值与所述第二功率值。所述指令更进一步可以使处理器根据所述比较结果在单麦克风降噪模式和双麦克风降噪模式之间进行切换。

本发明的再一实施例提供一种切换降噪模式的多麦克风移动装置。所述移动装置包括第一声音接收器，用于接收第一声音信号，以及第二声音接收器，用于接收第二声音信号。该移动装置还包括信号处理模块，适用于确定与所述第一声音信号有关的第一功率值，以及，确定与所述第二声音信号有关的第二功率值。该移动装置进一步包括降噪模块，适用于接收所述第一功率值与所述第二功率值的比较结果，以及，根据所述比较结果在单麦克风降噪模式和双麦克风降噪模式之间切换。

附图说明

通过参照附图和说明书具体实施方式，有助于本领域技术人员进一步理解本发明的特征以及优点，其中，附图中相同的附图标记始终指代相同的元件。在某些情况下，附图标记的子标签指的是多个相似元件的一个。当附图标记没有指明子标签，则该附图标记指的是所有这些相似的元件。

图1A至图1C是根据本发明实施例的装配有多个声音接收器的移动装置示意图；

图2是根据本发明实施例的移动装置的声音处理系统模块示意图；

图3A是根据本发明实施例的双麦克风降噪处理应用场景示意图；

图3B是根据本发明实施例的单麦克风降噪处理应用场景示意图；

图4是根据本发明实施例的降噪模式切换方法流程示意图；

图5是根据本发明另一实施例的降噪模式切换方法流程示意图；

图6是根据本发明实施例的功率电平和降噪模式波形图；以及

图7是用于执行本发明各实施例的示范性计算机硬件系统的方框图。

具体实施方式

在下文将参照附图更全面地描述多个具体细节，以使本发明的不同实施例更为明显易懂。然而，对本领域技术人员而言，显然本发明实施例可以以不同的形式实施，而不应被解释为限于这里阐述的实施例。在一些实施例中，已知的结构和装置以方框图的形式呈现。

下文中仅提供一些示范性的实施例，并非要限制本发明的范围，应用或结构。当然，对于本领域技术人员，下文中的示范性实施例将提供可以实施该实施例的说明。应该理解的是，任何本领域技术人员，在不脱离本发明的精神和范围内，均可作各种更动与修改，因此本发明的保护范围应当以权利要求所限定的范围为准。

下文中给出具体细节以充分理解本发明的实施例。然而，本领域技术人员应该了解的是不必提供某些细节也可以实施本发明。例如，为了不使实施例的一些不必要的细节难以理解，电路、系统、网络、流程和其他部件可以以方框图的形式呈现。在一些例子中，已知的电路、流程、算法、结构和方法可以不必提供其细节，以避免难以理解实施例。

以下描述的是降噪模式切换方法的具体实施例。现有的移动装置，例如智能电话，个人数字助理(PDA)以及数字录音装置，可以配置有不同数量的麦克风。智能电话和数字录音装置通常包括至少两个麦克风。在一些情况下，主麦克风常常位于移动装置的正面，主要用于手持通信和录音。另一麦克风位于移动装置的背面或上部，通常可以用来进行背景噪声估计、降噪、回波消除等。在大多数情况下，目标音源，例如使用者的嘴是靠近移动装置的。如此，干扰源，例如其他说话者或环境噪声与移动装置之间的距离，比目标音源与移动装置之间的距离大的多。因此，可以认为目标音源位于移动装置的近场。

声音信号，例如语音信号，可以采用从目标音源传出的球形波表示。根据近场声波的球形波传播理论，麦克风接收的声压级与麦克风和目标音源之间的距离成反比。当移动装置在不同位置配置有两个麦克风时，每个麦克风接收的功率电平具有明显差异，该明显差异取决于移动装置与使用者嘴之间的相对位置。

一种情况是，使用者可以像移动电话一样手握该移动装置抵住使用者的脑袋，进行手持通话或录音。通话时，主麦克风接收的功率电平通常比参考麦克风接收的功率电平要高的多。二者之间的功率电平差可用于各种已知的降噪技术。另一种情况是，使用者也可以“免提”的方式让移动装置远离使用者的嘴，进行通话或录音，在这种情况下，主麦克风接收的功率电平不会比参考麦克风接收的功率电平高很多。这样，依赖于双麦克风配置的降噪技术就丧失了效力。因此，需要能够检测这种情况，并能够对该情况作出响应，切换到单麦克风降噪模式。

此处讨论的实施例涉及，检测由移动装置的两个不同声音接收器接收的信号差。当主麦克风(第一麦克风)有语音激活时，本发明实施例可以决定是否在双麦克风模式与单麦克风降噪模式之间进行切换，以便利用降噪方法提供优化的输出信号。根据主麦克风和参考麦克风的输入信号，可以根据语音通信的现状确定降噪模式，其中，不同模式之间可以动态和/或自动切换。

本发明中将描述声音处理设备、配置以及应用环境。然后，将提供使用所述硬件的一般方法。最后，将提供一详细的示范性实施例，但不以该实施例为限。

图1A示出了根据本发明一实施例的移动装置100A正面示意图，该移动装置被配置为使用一个或多个麦克风选择降噪模式。移动装置100A可以包括图2所示的声音处理系统200(下文中将描述)，或者一些其他的计算机系统，例如图7所示的计算机系统700(也将在下文中描述)，该计算机系统700被配置为接收和/或处理来自一个或多个麦克风的输入信号。如图所示，移动装置100A的正面包括显示屏140。移动装置100A还可以包括机壳110。移动装置100A还可以包括第一麦克风130，该第一麦克风130可以位于移动装置100A的适于接收来自使用者嘴发出的声音信号的位置。在一特定实施例中，该第一麦克风130可以位于靠近移动装置100A正面底部的位置。在其他实施例中，该第一麦克风130也可以位于移动装置100A上的其他位置。

移动装置100A还可以包括第二麦克风150。为了说明第二麦克风150在移动装置100A的正面不可见和/或不可及，该第二麦克风150采用虚线表示。相反，为了说明第一麦克风130在移动装置100A的正面可见和/或可及，第一麦克风130采用实线表示。在一些实施例中，该移动装置100A的“正面”可以被定义为显示屏所在的一面。该移动装置100A的正面也可以定义为，当进行通话时，最靠近使用者嘴的一面。

本文中的“移动装置”可以包括任何配置有麦克风的移动计算装置。例如，移动装置可以包括移动电话、智能电话、数字录音设备等等。本文中的“声音接收器”可以表示任何能够接收声音信号的装置。例如，声音接收器可以包括麦克风或任何其他类型的模拟转换器。在某些情况下，声音接收器可以配置为接收模拟声音信号并转换该模拟声音信号为数字表示。

图1B示出了根据本发明一实施例的移动装置100B后示图，该移动装置100B被配置为使用一个或多个麦克风选择降噪模式。移动装置100B可以是图1A中移动装置100A的另一角度示意图(例如，是移动装置100A的背面，显示屏140在该面不可见)。在机壳110的背面可以有一个或多个额外的麦克风，例如第二麦克风150。第二麦克风150可以位于移动装置100B上易于接收代表背景噪声电平的声音信号的位置。例如，第二麦克风150可以位于靠近移动装置100B背面的顶部位置，当使用者手持该第二麦克风150抵住其耳朵时，该位置不易被使用者的手覆盖。在其他实施例中，第二麦克风150也可以位于其他位置。

移动装置100B的两个麦克风仅仅用于举例。在移动装置100B的每一面也可以配置有多于或少于一个的麦克风。例如，移动装置100B可以在其周边的不同位置配置有三个或四个麦克风。可以使用多个麦克风在降噪模式之间进行切换。根据特定的实施例，该些降噪模式可以使用三个或四个麦克风。

根据本发明的实施例，第一麦克风130和第二麦克风150在移动装置100B上相互“远离”。此处，相互“远离”指的是第一麦克风130和第二麦克风150在移动装置100B的机壳内不能够通过同一开口进入。也可以指的是第一麦克风130和第二麦克风150位于移动装置100B相反侧(例如，顶部和底部，正面和背面)。此外，也可以指的是，第一麦克风130和第二麦克风150所处的位置使得，当将移动装置100B置于使用者耳朵旁时，接收到的从使用者嘴发出的声音是不同的。例如，第一麦克风130可以位于紧挨着使用者的嘴的位置，而第二麦克风150位于使用者耳朵的对面。

图1C是本发明实施例的移动装置100C的侧视图，该移动装置100C被配置为使用一个或多个麦克风选择降噪模式。移动装置100C可以是图1A中的移动装置100A和/或图1B中的移动装置100B的侧视图。第一麦克风130能够通过移动装置100C位于正面的开口接收声音。相反，第二麦克风150能够通过移动装置100C位于背面的开口接收声音信号。

通常，当使用者手持移动装置靠近其耳朵时，该移动装置握持成一角度。该角度使得，当移动装置的麦克风靠近使用者的嘴时，其扬声器靠近使用者的耳朵。根据该配置，第一麦克风130位于靠近使用者嘴的位置，而第二麦克风150位于使用者耳朵对面的位置，以便第二麦克风150不会被使用者的手覆盖。

图2是本发明实施例的移动装置声音处理系统200的方框示意图。该声音处理系统200可以被配置为，除了分析用于降噪模式切换的语音信号之外，还可以执行许多处理功能。该系统可以包括第一声音接收器206和第二声音接收器208。该第一声音接收器206和第二声音接收器208可以利用麦克风实施，且在移动装置218上相互远离。该第一声音接收器206和第二声音接收器208可以接收声波202，204。在一个实施例中，声波202主要代表使用该移动装置218的人的声音，而声波204代表，除了使用该移动装置218的人声音之外的来自周围人和/或物的噪音。需要注意的是，多数情况下，每一麦克风可以接收不同电平的噪声和语音信号。

声音接收器206，208可以被配置为向数字信号处理器(DSP)210提供声波202，204的数字/模拟表示。DSP210可以使用单独的微芯片实施，包括德州仪器(Texas)和高通公司制作的DSP芯片。其他实施例中，DSP210可以使用在通用微控制器或微处理器上运行的软件实施。该微控制器或微处理器还可以被编程为执行除进行降噪模式之外的其他操作。DSP210可以对提供的信号进行不同的操作，以便确定是否采用单麦克风降噪处理模式。DSP210进行的操作将在下文中进行描述。

DSP210可以提供信号给麦克风选择模块212，该麦克风选择模块212可以在两种降噪模式中进行选择。在第一降噪模式中，仅需使用声音接收器206，在第二降噪模式中，需要使用声音接收器206以及声音接收器208。该麦克风选择模块212可以用来通知降噪处理器214所选择的处理模式。可选地，麦克风选择模块212更可以在将声音接收器206，208提供的信号传递给降噪处理器214之前，处理该信号。根据本发明的实施例，麦克风选择模块212可以与降噪处理器214整合。降噪处理器214可以是单独的微处理器或微控制器，并且可以被编程为执行除降噪之外的其他功能。根据本发明的实施例，DSP210和降噪处理器214可以整合成一个微处理器芯片。

根据本发明的实施例，图2中的不同模块和系统可以位于移动装置218分离的硬件上。可选地，多个模块可以整合在同一或类似的硬件上。此外，一些模块可以整合成一个单独的模块执行各单个模块的功能。需要了解的是，本发明公开的模块的各种配置以及软件和硬件的各种实现方式，可以采用不同的实施例进行。

图3A是本发明实施例的双麦克风降噪处理方法的应用场景示意图。图中，使用者302握持移动装置304抵住其耳朵。在一特定实施例中，移动装置304是智能电话。在其他实施例中，移动装置304可以是上文描述的其他装置。第一声音接收器(未图示)可以位于移动装置304靠近使用者302嘴的位置。在该位置，第一声音接收器可以接收具有较高的接收功率电平的使用者的语音信号。较高的接收功率电平是基于第一声音接收器邻近使用者302的嘴，同时也是移动装置304和/或使用者的手产生的反射效应。

第二声音接收器以位于与第一声音接收器相反的移动装置304的背面。根据一实施例，第二声音接收器位于与显示屏(未图示)相反的电话背面，使用者耳朵的对面。在该位置，第二声音接收器也可以接收使用者302的语音信号，然而，该语音信号具有较低的接收功率电平。较低的接收功率电平是基于第二声音接收器到使用者嘴的相对位置，同时也是移动装置304和/或使用者手产生的屏蔽效应。

根据该实施例，移动装置304可以判断第一声音接收器和第二声音接收器接收的功率电平至少相差一个阈值量。根据该判断结果，移动装置304内的处理器可以确定降噪方法需要使用第一声音接收器和第二声音接收器。

图3B是根据本发明一实施例的单麦克风降噪方法应用场景的示意图。图中，使用者302可以采用免提的方式使用移动装置304，包括以扬声器模式使用智能电话，其中，该智能电话距离使用者302的嘴308的距离大于预设阈值距离。例如，移动装置304可以距离使用者302的嘴308的距离大约为6英寸，12英寸，24英寸或36英寸。使用者302的嘴308发出的声音信号306可以模拟为球面波传播模型。

在该应用场景中，声音信号306在传播过程中衰减，以至于第一声音接收器接收的功率电平与第二声音接收器接收的功率电平相近。例如，移动装置304正面的麦克风接收的信号，其功率电平与移动装置304背面的麦克风接收的功率电平相近。如果上述功率电平互相处于一个特定的阈值量内，可以认为上述功率电平相近。

图4是根据本发明实施例的切换降噪模式方法400的流程示意图。该方法包括：402，第一声音接收器接收第一声音信号。该第一声音信号可以代表移动装置上的主麦克风接收的使用者的语音信号。该移动装置可以包括智能电话、数字录音设备、PDA、消噪麦克风系统等等。第一声音接收器可以位于移动装置上，当打电话或录音时，靠近使用者嘴的位置。

该方法还可以包括：404，第二声音接收器接收第二声音信号。该第二声音接收器可以位于移动装置上，当该移动装置靠近使用者嘴的时候，相比较第一声音接收器，接收较低功率的使用者语音信号。根据本发明的实施例，第二声音接收器位于移动装置上远离第一声音接收器的位置。根据本发明的实施例，第二声音接收器可以位于移动装置的背面上部，而第一声音接收器位于移动装置的正面下部。

该方法还包括：406，确定与所述第一声音信号有关的第一功率值。类似的，该方法还包括：408，确定与所述第二声音信号有关的第二功率值。根据本发明的实施例，可以对接收的声音信号进行预处理。该预处理包括重叠、窗口处理和/或变换每一接收的声音信号。根据本发明的一实施例，还可以计算每一通道的功率谱密度(PSD)。

该方法还包括：410，比较与所述第一功率电平相关的值以及与所述第二功率电平相关的值。此处，“功率值”包括源自接收的声音信号的任何值，它取决于接收的声音信号的功率电平。根据本发明的实施例，该功率值可以仅仅包括麦克风记录的原始功率测量值。根据本发明的实施例，该功率值可以包括根据接收的声音信号变换的值，例如离散傅里叶变换(DFT)值或快速傅里叶变换(FFT)值。可以通过计算接收到的两个声音信号的归一化相对功率谱密度(ND-PSD)来比较功率值。然后，该归一化相对功率谱密度(ND-PSD)按频带进行平均，以获得归一化相对功率谱密度(ND-PSD)的平均值，该平均值表示了当前声音帧的语音激活状态和通道差异状态。

该方法还可以包括：412，根据所述比较结果在单麦克风降噪模式和双麦克风降噪模式之间切换。根据本发明的一实施例，可以分析在一时间段或窗口内的语音激活概率以及通道差异概率，来确定最佳的降噪模式。是否切换降噪模式取决于最佳模式与当前模式的比较结果。根据本发明的实施例，该步骤包括，判断第一功率电平是否处于第二功率电平的一个阈值量之内，若是则切换到单麦克风降噪模式。可选地，该步骤包括，判断所述第一功率值是否比所述第二功率值至少大一个阈值量，若是则切换到双麦克风降噪模式。

图5是根据本发明另一实施例的切换降噪模式方法500的流程示意图。该方法可以是根据图4所述的方法的一个特定实施例。该方法可以包括：第一麦克风和第二麦克风接收模拟声音信号，并将该模拟声音信号转换成离散时间的声音信号，此处称为“通道1”502，和“通道2”504。通道1和通道2可以分别被描述成离散时间序列函数x₁(m)和x₂(m)。

该方法还可以包括：506、508，对信号x₁(m)和x₂(m)进行重叠操作和/或窗口处理。然后，510、512，使用DFT方法将窗口处理过的信号转换至频域。x₁(m)和x₂(m)第n帧的离散频谱可以x₁(n，k)和x₂(n，k)来表示：

X_{1} (n, k) = Σ_{m = - \infty}^{+ \infty} x_{1} (m) w (nR - m) e^{- j 2 πkm / N} - - - (1)

X_{2} (n, k) = Σ_{m = - \infty}^{+ \infty} x_{2} (m) w (nR - m) e^{- j 2 πkm / N} - - - (2)

其中，R是逐帧信号的采样点更新数，N是离散傅里叶变换点数，k表示频点序号，w(m)是窗函数。窗函数的类型可以包括任何可用于语音信号处理的窗口。例如，窗函数可以是矩形窗、汉宁窗(Hanning window)、汉明窗(Hamming window)、塔基窗(Tukey window)、余弦窗(cosine window)、三角窗、高斯窗(Gaussian window)等等。帧长可以为任意值。根据本发明的实施例，帧长可以是10到30ms之间的值，例如是20ms、15ms或25ms。

根据本发明的实施例，DFT也可以采用快速傅里叶变换(FFT)实施。可以在窗口处理之后直接进行FFT。可以采用零填充来增加频率区的号码或序号。根据本发明的实施例，FFT采样率F_s可以为16kHz，窗口可以是汉明函数(Hamming function)，帧长可以为20ms，帧重叠大约为50％。这种特定的配置使得具有更新的采样数R＝160的每一帧可以获得320个采样。然后，进行零填充获得512个采样后，计算512个频率区。需要了解的是，上述特定的实施方式仅仅是示范而已，并不以此限定本发明。

作为预处理的一部分，本方法还可以包括为每个通道计算其功率谱密度(PSD)。对于每一帧，可以根据当前帧的频谱和上一帧的PSD来计算每一通道的PSD：

P_{X_{1} X_{1}} (n, k) = α_{1} \cdot P_{X_{1} X_{1}} (n - 1, k) + (1 - α_{1}) {\cdot | X_{1} (n, k) |}^{2} - - - (3)

P_{X_{2} X_{2}} (n, k) = α_{2} \cdot P_{X_{2} X_{2}} (n - 1, k) + (1 - α_{2}) {\cdot | X_{2} (n, k) |}^{2} - - - (4)

其中，是通道1的PSD，是通道2的PSD，α₁和α₂分别是通道1和通道2的平滑系数，|*|是计算复数的模的运算符。根据本发明的实施例，α₁和α₂的范围大约在0.5至0.95之间。例如，α₁和α₂的值是0.8。

接下来，该方法可以包括：514，判断是否在通道1检测到语音激活，通道1代表主麦克风或者第一声音接收器信号。根据本发明的实施例，可以分析主麦克风(通道1)的语音激活检测(VAD)来判断是否该信号代表语音帧(例如，使用者在说话)，或噪音帧(例如，使用者不在说话)。可以使用基于短时能量、过零率、倒谱特征、Itakura LPC谱距离、和/或元音的周期性测量的VAD算法。这些算法为现有技术的已知方法，本领域技术人员可以根据本发明公开内容选择上述算法。

接下来，该方法还可以包括：516，比较VAD值与阈值来判断当前帧是语音或是噪声。根据本发明的实施例，可以选择基于Doblinger噪声估计的噪声估计算法来检测语音激活。根据本发明的其他实施例，也可以采用其他单通道和/或多通道VAD算法。

根据本发明的实施例，基于Doblinger噪声估计的VAD算法可以包括至少两个步骤。第一，可以根据当前帧的信号PSD和上一帧的噪声PSD来更新噪声PSD，例如，如果小于那么当前帧的噪声PSD可以按如下更新：

P_{N_{1} N_{1}} (n, k) = {γP}_{N_{1} N_{1}} (n - 1, k) + \frac{1 - γ}{1 - β} (P_{X_{1} X_{1}} (n, k) - β \cdot P_{X_{1} X_{1}} (n - 1, k)) - - - (5)

否则，当前帧的噪声PSD可以按如下更新：

P_{N_{1} N_{1}} (n, k) = P_{X_{1} X_{1}} (n, k) - - - (6)

第二，平均后验信噪比可以估计为：

SNR (n) = Σ_{K = L_{1}}^{L_{2}} P_{X_{1} X_{1}} (n, k) / Σ_{K = L_{1}}^{L_{2}} P_{N_{1} N_{1}} (n, k) - - - (7)

如果SNR(n)大于第一阈值，则认为当前帧是语音帧，可以用VAD(n)＝1表示。否则，认为当前帧是噪音帧，用VAD(n)＝0表示。根据本发明的一实施例，β通常取值为0.96，γ通常取值为0.998。L₁和L₂可以在语音能量占优势的频带内进行选择。例如，当取样率F_s是16kHz时，FFT长度N＝512，频率范围在200至3500Hz之间，则L₁的值为以及L₂的值为根据本发明的实施例，第一阈值的范围可以是3至10之间的任一值。例如，第一阈值等于5。

该方法还可以包括：518，计算通道1和通道2之间的平均归一化相对功率谱密度。根据本发明的实施例，如果当前帧是语音帧，则比较通道差值。例如，两个通道之间的归一化相对功率谱密度(ND-PSD)可以按公式8计算：

ΔΦ (n, k) = | \frac{P_{X_{1} X_{1}} (n, k) - P_{X_{2} X_{2}} (n, k)}{P_{X_{1} X_{1}} (n, k) + P_{X_{2} X_{2}} (n, k)} | - - - (8)

根据本发明的实施例，该方法还对每一帧的ΔΦ(n,k)的计算值求平均。平均归一化相对功率谱密度ΔΦ(n)可以表示为：

ΔΦ (n) = \frac{1}{L_{4} - L_{3} + 1} Σ_{k = L_{3}}^{L_{4}} ΔΦ (n, k) - - - (9)

根据本发明的实施例，如果ΔΦ(n)大于第二阈值，则通道差异因子表示为DIF(n)＝1，否则，通道差异因子表示为DIF(n)＝0。L₃和L₄可以在语音占优势的频带内选择。例如，当取样率F_s是16kHz时，FFT长度N＝512，频率范围在200至3500Hz之间，则L₃的值为以及L₄的值为根据本发明的实施例，第二阈值的范围可以是0.4至0.7之间的任一值。例如，第二阈值等于0.50。

该方法还可以包括：520，利用语音激活概率和/或通道差异概率来确定最佳的降噪模式。在多数情况下，目标说话者的通信状态和移动装置的位置分布通常不太可能在短时间内发生改变，因此可以在这段短时间内确定降噪模式来减少出错率。根据本发明的实施例，采用时间块T作为更新块。如果第t个时间块内的模式被确定为单麦克风模式，则可以表示为Mode(t)＝1，而如果第t个时间块内的模式被确定为双麦克风模式，则可以表示为Mode(t)＝0。第t个时间块内的语音激活概率P_VAD(t)可以表示为：

P_{VAD} (t) = \frac{1}{T} \underset{T}{Σ} VAD (n) - - - (10)

如果P_VAD(t)大于第三阈值，则认为在当前时间块内的语音激活相对长。如果不满足第三阈值的要求，则认为在当前时间块内的语音激活相对短，并且可以保持当前时间块的降噪模式至下一时间块(即，Mode(t+1)＝Mode(t))。

该方法还可以包括：522，判断是否切换降噪模式，以及524，如果需要，则切换麦克风模式。当检测到足够的语音激活(当P_VAD(t)>第三阈值)，可以根据公式11计算通道差异概率P_DIF(t):

P_{DIF} (t) = \underset{VAD}{Σ} DIF (n) / \underset{T}{Σ} VAD (n) - - - (11)

如果P_DIF(t)小于第四阈值，则认为通道差值相对小，且下一时间块的模式可以选择单麦克风降噪模式(如，Mode(t+1)＝1)。否则，如果P_DIF(t)大于等于第四阈值，则认为通道差值相对大，且下一时间块的模式可以选择双麦克风降噪模式(如，Mode(t+1)＝0)。在确定了下一时间块的模式之后，将Mode(t+1)与当前模式Mode(t)进行比较。如果二者相同，则仅需要维持当前模式；否则，改变当前模式。

根据本发明的实施例，上述的切换降噪模式的方法可以在当前模式和下一模式之间进行平滑处理，这样可以逐步减少当前模式以及逐步增加下一模式。也可以在检测不到语音激活的时候切换当前模式。还可以采用其他方法来维持话音质量的预定电平。例如，当没有检测到语音激活时进行切换。根据本发明的实施例，当检测到几个连续噪音帧(如非语音帧)时进行模式切换。例如，噪音帧的数量大于5。根据本发明的实施例，当取样率F_s为16kHz，帧长为20ms，则当检测到10个噪音帧时进行切换。时间块T可以根据降噪模式的更新率以及检测精度来确定。例如，T的范围在1s至10s之间，通常取值为2s。研究表明，正常的语速大约在一秒钟4个字，或0.25秒/字。因此，根据本发明的实施例，第三阈值的范围大约是小于1，且大于等于通常取值为该阈值使某一时间块内的词至少2个。根据本发明的实施例，T可以为2s，第三阈值可以为0.25，和/或第四阈值的范围可以在0.1至0.4之间，通常取值为0.20。

应该注意的是，图4和图5中所示的具体步骤提供了本发明不同实施例的切换降噪模式的特定方法。可选地，采用其他步骤顺序也可以执行该方法。例如，本发明的替代实施例可以采用不同的顺序执行上述步骤。此外，图4和图5中所示的单个步骤可以包括多个子步骤，该多个子步骤可以视单个步骤的具体情况按不同顺序执行。进一步地，根据特定的应用，可以增加额外的步骤或删除。本领域技术人员将了解本发明实施例的变形、修改以及替换。

图6是根据本发明实施例的功率电平和降噪模式波形图600。图600所示的声音信号由标准移动装置录音。该标准移动装置配置有两个麦克风。如同图1A至图1C所示，主麦克风位于该标准移动装置的正面下方，参考麦克风位于该标准移动装置的背面上方。采用包括两个声音接收器的信号获取系统来记录信号。采样率为16kHz，样本精度为16bit。在一个具有背景噪音的大型开放式办公室中，目标说话者采用手持和免提两种方式说话，切换周期大约为10s。图600显示产生的时域信号。信号602代表主麦克风或第一麦克风(通道1)的信号，信号604代表参考麦克风或第二麦克风(通道2)的信号。X轴代表时间，Y轴代表幅度。信号606代表利用本发明实施例方法进行处理以及选择的降噪模式。信号606中，“0”代表双麦克风模式，“1”代表单麦克风模式。

处理参数如下：采用汉明窗，其帧长为20ms，每帧重叠50％，零填充至N＝512进行FFT，平滑因子α₁＝0.8，α₂＝0.8，L₁＝6，L₂＝112，第一阈值为5，L₃＝6，L₄＝112，第二阈值为0.5，T＝2s，第三阈值为0.25，以及第四阈值为0.2。当没有检测到足够的语音激活时切换降噪模式。只有连续检测到10个噪声帧后，才在下一个噪声帧进行切换。根据图600，模式检测对应实际的录音状态。在噪音帧期间切换模式不会影响话音质量。图600说明本发明实施例能够检测当前降噪模式，并切换该模式而不会显著影响话音质量。

图7是用于执行本发明各实施例的示范性计算机硬件系统700的方框图。根据本发明的实施例可以采用计算机系统(例如计算机系统700)来执行本发明各实施例的方法。计算机系统可以利用移动装置内的各种电路、微芯片及其连接来实施。根据一系列实施例，所述方法的一些或所有程序可以由计算机系统700来执行，通过响应处理器710运行内存735中的一个或多个指令的一个或多个序列(该指令可以与操作系统740和/或其他代码合并在一起，例如应用程序745)。可以从计算机可读媒介，例如一个或多个存储设备725，将该指令读入内存735中。仅作为举例，运行内存735中的指令序列可能使处理器710执行本文所述方法的一个或多个程序。

本文所述“机器可读媒介”以及“计算机可读媒介”指的是，任何可以提供数据使得机器以某一特定方式运行的媒介。利用计算机系统700实施的实施例，不同的计算机可读媒介可以向处理器710提供可供执行的指令/代码，和/或可以存储和/或承载指令/代码。在许多实施方式中，计算机可读媒介是物理的和/或有形的存储媒介。这种媒介可以是非易失性或易失性媒介的形式。非易失性媒介包括，例如，光盘和/或磁盘，如存储设备725。易失性媒介包括但不限于动态存储器例如，如内存735，。

通常，物理的和/或有形的计算机可读媒介包括，例如，软盘、可折叠磁盘、硬盘、磁带或任何其他种类的磁性介质、CD-ROM、其他种类的光学介质、打孔卡、纸带、其他种类的具有孔状的物理介质、随机存取存储器(RAM)、可编程只读存储器(PROM)、电可编程只读存储器(EPROM)、快闪-电可编程只读存储器(FLASH-EPROM)、其他种类的存储芯片或盒式磁盘、或其他种类的计算机可以从中读出指令和/或代码的介质。

计算机可读媒介的变形可以承载可供处理器710执行的一个或多个指令的一个或多个序列。仅作为举例，这些指令最初可由远程计算机的磁盘和/或光盘承载。远程计算机可以在其动态存储器上承载指令，并以信号方式通过传输介质传送该指令给计算机系统700接收和/或执行。

通常，通信子系统730(和/或其部件)接收信号，总线705然后运送该信号(和/或信号携带的数据、指令等等)给内存735，处理器从内存获取并执行该指令。可选地，内存获得的指令也可以，在处理器710执行该指令之前或之后，存储在永久性存储装置725中。

为了说明的目的，前述内容采用特定的顺序描述方法。需要注意的是，在可替代的实施例中，该方法也可以采用不同于前述顺序来执行。还需要注意的是，上述方法可以由硬件组件来执行或者由机器可执行的指令序列来体现，其可以使得机器，例如通用或专用处理器或逻辑电路以可以执行该方法的指令来编程。这些机器可执行的指令可以存储在一个或多个机器可读媒介中，例如CD-ROM或其他种类的光盘、软盘、ROM、RAM、EPROM、EEPROM、磁卡或光卡、闪存、或其他种类的适合存储电子指令的机器可读媒介。可选地，该方法可以由硬件或软件的组合执行。

上述方法、系统和装置仅仅为举例说明。不同的配置可以视情况省略、替换或增加不同的程序或部件。例如，作为可替换的配置，该方法可以采用不同于上述顺序来执行，和/或增加、省略和/或组合不同阶段。并且，与某一配置相关的特征可以与不同配置进行组合。各配置的不同方面和要素可以采用类似的方式组合。并且，随着技术发展，各个要素仅用于举例，并不用以限定本发明权利要求的保护范围。

说明书给出具体细节用以充分理解实施例配置(包括实施方式)。然而，上述配置也可以不公开具体细节。例如，为了不使配置模糊，图中已知的电路、方法、算法、结构和技术并未给出不必要的细节。本说明书仅仅提供了配置实施例，并不用于限定本发明权利要求的范围、应用或配置。当然，前述说明书的配置为本领域技术人员提供可以实施所述技术方案的可实施说明。可以对要素的功能和排列进行不同修改，而不会脱离本发明保护范围和精神。

此外，可以将配置描述成如流程图或方框图所示的流程。虽然每一流程可以作为顺序流程说明操作，大多数操作可以并列或同时执行。此外，操作顺序可以重新排列。流程还可以有图中所不包括的额外的步骤。进一步地，可以采用硬件、软件、固件、中间件、微码、硬件描述语言或其任意组合来实施实施例的方法。当以软件、固件、中间件或微码实施时，执行必要任务的程序代码或代码段可以存储于永久性计算机可读媒介，例如存储媒介。处理器可以执行所述的任务。

可以采用上述几个配置举例、不同修改、变化组织和等同物，而不会脱离本发明的精神。例如，上述要素可以是较大系统的组件，其中，其他规则优先，否则修改本发明的应用。并且，可以在考虑上述要素之前、当中或之后开始进行多个步骤。因此，上述说明书并不用以限定本发明权利要求的范围。

Claims

1.一种多麦克风移动装置的降噪模式切换方法，其特征在于，所述方法包括：

第一声音接收器接收第一声音信号；

第二声音接收器接收第二声音信号；

确定与所述第一声音信号有关的第一功率值；

确定与所述第二声音信号有关的第二功率值；

比较所述第一功率值与所述第二功率值；以及

根据所述比较结果在单麦克风降噪模式和双麦克风降噪模式之间切换。

2.根据权利要求1所述的方法，其特征在于，所述第一声音接收器在移动装置中远离所述第二声音接收器。

3.根据权利要求2所述的方法，其特征在于，所述第一声音接收器位于所述移动装置的正面，所述第二声音接收器位于所述移动装置的背面。

4.根据权利要求1所述的方法，其特征在于，所述方法进一步包括：

判断所述第一功率值是否在所述第二功率值的一个阈值内；以及

若是，切换到单麦克风降噪模式。

5.根据权利要求1所述的方法，其特征在于，所述方法进一步包括：

判断所述第一功率值是否比所述第二功率值至少大一个阈值；以及

若是，切换到双麦克风降噪模式。

6.根据权利要求1所述的方法，其特征在于，所述方法进一步包括：

将所述第一声音信号划分成多个第一离散时间帧；

将所述第二声音信号划分成多个第二离散时间帧；

对所述多个第一离散时间帧进行傅里叶变换；以及

对所述多个第二离散时间帧进行傅里叶变换。

7.根据权利要求6所述的方法，其特征在于，所述在单麦克风降噪模式和双麦克风降噪模式之间切换的步骤，是基于若干第一离散时间帧，其中，在所述若干第一离散时间帧期间检测或未检测到语音激活。

8.根据权利要求1所述的方法，其特征在于，

所述第一功率值包括与所述第一声音信号有关的功率谱密度；

所述第二功率值包括与所述第二声音信号有关的功率谱密度；

9.根据权利要求8所述的方法，其特征在于，所述比较所述第一功率值与所述第二功率值的步骤包括：计算与所述第一声音信号有关的功率谱密度和与所述第二声音信号有关的功率谱密度的平均归一化差值。

10.根据权利要求1所述的方法，其特征在于，所述方法进一步包括对所述第一声音信号进行语音激活检测。

11.一种切换降噪模式的多麦克风移动装置，其特征在于，所述装置包括：

第一声音接收器，用于接收第一声音信号；

第二声音接收器，用于接收第二声音信号；

信号处理模块，适用于确定与所述第一声音信号有关的第一功率值，以及，确定与所述第二声音信号有关的第二功率值；以及

降噪模块，适用于接收所述第一功率值与所述第二功率值的比较结果，以及，根据所述比较结果在单麦克风降噪模式和双麦克风降噪模式之间切换。

12.根据权利要求11所述的装置，其特征在于，所述信号处理模块和降噪模块是数字信号处理（DSP）芯片的一部分。

13.根据权利要求11所述的装置，其特征在于，所述多麦克风移动装置包括智能移动设备。

14.根据权利要求11所述的装置，其特征在于，

所述信号处理模块适用于判断所述第一功率值是否在所述第二功率值的一个阈值内；以及

若是，所述降噪模块适用于切换到单麦克风降噪模式。

15.根据权利要求11所述的装置，其特征在于，

所述信号处理模块适用于判断所述第一功率值是否比所述第二功率值至少大一个阈值；以及

若是，所述降噪模块适用于切换到双麦克风降噪模式。

16.根据权利要求11所述的装置，其特征在于，所述信号处理模块进一步适用于：