CN107271963A

CN107271963A - 声源定位的方法和装置及空调器

Info

Publication number: CN107271963A
Application number: CN201710493300.1A
Authority: CN
Inventors: 张新健
Original assignee: Midea Group Co Ltd; Guangdong Midea Refrigeration Equipment Co Ltd
Current assignee: Midea Group Co Ltd; GD Midea Air Conditioning Equipment Co Ltd
Priority date: 2017-06-22
Filing date: 2017-06-22
Publication date: 2017-10-20

Abstract

本发明公开了一种声源定位的方法、装置，其中，声源定位的方法包括以下步骤：获取麦克风阵列所接收的音频信号，其中，麦克风阵列包括多个麦克风；根据音频信号和预设参量获取多个麦克风之中任意两个麦克风接收的音频信号之间的相对时间差，其中，预设参数根据信噪比设定；根据音频信号到达多个麦克风之中任意两个麦克风的相对时间差和每个麦克风的位置对音频信号进行定位。该方法能够有效自适应减少环境噪声，对远场环境下的混响及衍射噪声有较强的适应抵抗能力，提升了基于阵列式麦克风的远场声源识别精度，增强了远场声源识别的实用性。本发明还提出了一种空调器、非临时性计算机可读存储介质和计算机程序产品。

Description

声源定位的方法和装置及空调器

技术领域

本发明涉及声源定位领域，具体涉及一种声源定位的方法、一种声源定位的装置、一种空调器、一种非临时性计算机可读存储介质和一种计算机程序产品。

背景技术

家电设备如空调、电风扇等已成为人们生活中必不可少的产品，随着人工智能技术的快速发展，具备语音识别功能的家电产品也层出不穷，极大的改善着人们对家电产品的使用体验。语音识别技术依赖于语音的拾取，语音拾取的核心部件是麦克风，即通过麦克风阵列获取语音的输入。但麦克阵列不仅拾取语音信号，也同步拾取了混杂在语音信号中的各种噪声，在语音识别之前，必须要进行语音增强，语音增强的核心手段是去噪及声源定位。

目前，相关技术可以实现简单去噪和基于麦克风阵列的到达时间差算法的远场声源定位。该技术首先使用FIR(Finite Impulse Response，有限长单位冲激响应)带通滤波器滤除200～4000Hz以外的噪声信号，之后，对到达两个麦克风的信号源进行算法估算，估算的核心是基于声音源到达两麦克风之间的时间差不同。具体地，使用互功率谱向位法(CSP)得到两信号之间的互相关函数，互相关函数的峰值位置即两信号之间的相对时间差；获得声音源到一对麦克风的时间差值，就可以算出声音到达麦克风的角度值，声源就处于以这对麦克风所处的位置为焦点，到达时间差所对应的声音传输距离为参数的双曲面上。

然而，虽然上述技术中算法原理简单，但误差较大。实际家电使用环境多为远场声音识别环境，往往存在较大的环境噪声和较强的混响，FIR带通滤波器无法滤掉混在声源中的大部分背景噪声，且基于CSP算法对室内混响与声音衍射的处理能力较弱，严重影响声源的识别效果。

发明内容

本发明旨在至少在一定程度上解决上述技术中的技术问题之一。为此，本发明的第一个目的在于提出一种声源定位的方法。

本发明的第二个目的在于提出一种声源定位的装置。

本发明的第三个目的在于提出一种空调器。

本发明的第四个目的在于提出一种非临时性计算机可读存储介质。

本发明的第五个目的在于提出一种计算机程序产品。

为达到上述目的，本发明第一方面实施例提出了一种声源定位的方法，包括以下步骤：获取麦克风阵列所接收的音频信号，其中，所述麦克风阵列包括多个麦克风，所述音频信号包括语音信号和噪声信号；根据所述音频信号和预设参量获取所述多个麦克风之中任意两个麦克风接收的音频信号之间的相对时间差，其中，根据所述音频信号的信噪比设定所述预设参量；根据所述音频信号到达所述多个麦克风之中任意两个麦克风的相对时间差和每个麦克风的位置对所述音频信号进行定位。

根据本发明实施例的声源定位的方法，在获取任意两个麦克风的相对时间差时，引入了预设参量，即通过麦克风阵列所接收的音频信号和预设参量获取多个麦克风之中任意两个麦克风的接收的音频信号之间的相对时间差，进而根据任意两个麦克风的相对时间差和每个麦克风的位置对音频信号进行定位。由此，能够有效的自适应减少环境噪声，而且对远场环境下的混响及声音衍射噪声有较强的适应抵抗能力，实现了双重降噪效果，大幅提升了基于阵列式麦克风的远场声源识别精度，使远场声源识别的实用性大大增强。

为达到上述目的，本发明第二方面实施例提出了一种声源定位的装置，包括：第一获取模块，用于获取麦克风阵列所接收的音频信号，其中，所述麦克风阵列包括多个麦克风，所述音频信号包括语音信号和噪声信号；第二获取模块，用于根据所述音频信号和预设参量获取所述多个麦克风之中任意两个麦克风接收的音频信号之间的相对时间差，其中，根据所述音频信号的信噪比设定所述预设参量；定位模块，用于根据所述音频信号到达所述多个麦克风之中任意两个麦克风的相对时间差和每个麦克风的位置对所述音频信号进行定位。

根据本发明实施例的声源定位的装置，在通过第二获取模块获取任意两个麦克风的相对时间差时，引入了预设参量，即通过第二获取模块根据麦克风阵列所接收的音频信号和预设参数获取多个麦克风之中任意两个麦克风接收的音频信号之间的相对时间差，进而通过定位模块根据任意两个麦克风的相对时间差和每个麦克风的位置对音频信号进行定位。由此，能够有效的自适应减少环境噪声，而且对远场环境下的混响及声音衍射噪声有较强的适应抵抗能力，实现了双重降噪效果，大幅提升了基于阵列式麦克风的远场声源识别精度，使远场声源识别的实用性大大增强。

进一步地，本发明提出了一种空调器，其包括上述实施例的声源定位的装置。

本发明实施例的空调器，采用上述实施例声源定位的装置，在进行语音控制时，能够有效的自适应减少环境噪声，且对远场环境下的混响及声音衍射噪声有较强的适应抵抗能力，提升了基于阵列式麦克风的远场声源识别精度，提高了空调器的语音控制效果。

本发明还提出了一种非临时性计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述实施例的声源定位的方法。

本发明实施例的非临时性计算机可读存储介质，可设置在需要声源定位的设备中，在设备进行声源定位时，通过执行其上存储的声源定位的方法，能够实现声源的高精度定位。

更进一步地，本发明提出了一种计算机程序产品，当所述计算机程序产品中的指令由处理器执行时，执行一种上述实施例所述的声源定位的方法。

本发明实施例的计算机程序产品，可写入需要声源定位的设备，在设备进行声源定位时，通过执行对应声源定位的方法的程序，能够实现声源的高精度定位。

本发明的附加方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解，其中：

图1是根据本发明一个实施例的声源定位的方法的流程图；

图2是根据本发明一个示例的声源定位场景的示意图；

图3是根据本发明一个示例的声源定位的坐标示意图；

图4是根据本发明另一个实施例的声源定位方法的流程图；

图5是根据本发明一个实施例的声源定位的装置的方框图；

图6是根据本发明另一个实施例的声源定位的装置的方框图；

图7是根据本发明又一个实施例的声源定位的装置的方框图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

需要说明的是，采用麦克风阵列接收声源发出的音频信号时，由于麦克风的拾音范围有限，当声源离麦克风阵列较远时，麦克风接收到的音频信号较弱，这时就需要对音频信号进行放大。但是，在音频信号放大的同时，音频信号中的噪声信号也被放大了，使得麦克风阵列接收到的音频信号很差，影响对音频信号的语音识别效果。

例如，假设背景噪声为AWGN(Additive White Gaussian Noise，加性白高斯噪声)，且各个麦克风之间互不相关。在通常情况下，噪声信号的参数是未知的，且当如风扇、空调等家电设备所处环境改变时，如从一个会场移到另一个会场，从一个房间移到另一个房间等，噪声信号的参数都会发生变化，此时，如果无法自适应去除环境变化后的噪声信号，会导致语音识别效果大打折扣。

基于此，本发明提出了一种声源定位的方法和声源定位的装置。

下面参考附图描述本发明实施例的声源定位的方法和装置。

图1是根据本发明一个实施例的声源定位的方法的流程图。如图1所示，该声源定位的方法包括以下步骤：

S101，获取麦克风阵列所接收的音频信号。

其中，麦克风阵列包括多个麦克风，音频信号包括语音信号和噪声信号。

在本发明的实施例中，麦克风阵列中麦克风的个数的取值可以是大于等于2的整数。例如，参见图2，麦克风阵列包括4个麦克风，每个麦克风均可以接收相应的音频信号，各个麦克风的相对位置是既定的，且各个麦克风之间互不相关。

当该麦克风阵列设置在家电设备，如空调器、风扇等上时，如果用户需要对家电设备进行语音控制，则麦克风阵列接收到的音频信号中会包含用户输入的语音信号，以及环境噪声信号、混响噪声信号等。可以理解，用户对处于室内环境的空调器进行语音控制时，用户对空调或风扇发出的声音会发生反射，即产生反射噪声，空调器、风扇等运行以及其他设备(如音箱等)也会产生声音，其与反射噪声可组成混响噪声。

S102，根据音频信号和预设参量获取多个麦克风之中任意两个麦克风接收的音频信号之间的相对时间差。

在本发明的实施例中，考虑到音频信号中包含环境噪声、混响噪声，因此，在计算任意两个麦克风接收的音频信号之间的相对时间差时，引入了预设参量。

可选地，可以根据音频信号的信噪比设置预设参量，且信噪比在一定范围内时，预设参量可与信噪比正相关，即信噪比越大，预设参量取值越大。

具体地，获取多个麦克风之中的第一麦克风和第二麦克风的第一音频信号和第二音频信号，对第一音频信号和第二音频信号进行傅立叶变换以生成第一傅立叶变换值和第二傅立叶变换值，根据第一傅立叶变换值、第二傅立叶变换值和预设参量生成相对时间差。

其中，第一麦克风和第二麦克风为多个麦克风之中的任意两个麦克风，例如，参见图2，第一麦克风为麦克风1，第二麦克风为麦克风2。

在本发明的一个示例中，获取麦克风1接收到的第一音频信号x₁(t)和麦克风2接收到的第二音频信号x₂(t)，对第一音频信号x₁(t)和第二音频信号x₂(t)进行傅立叶变换以生成第一傅立叶变换值X₁(ω)和第二傅立叶变换值X₂(ω)，进而可以通过以下公式(1)生成相对时间差：

其中，R₁₂(τ)的峰值位置为相对时间差，ψ₁₂(ω)为广义互相关加权函数，G₁₂(ω)为第一傅立叶变换值和第二傅立叶变换值之间的互功率谱，φ₁₂(ω)为广义互相关谱，其中，G₁₂(ω)＝X₁(ω)X₂(ω)。

需要说明的是，在获取相对时间差时，可以选择不同的加权函数ψ₁₂(ω)，例如，基本互相关函数，ψ₁₂(ω)＝1；SCOT(Smooth Co-herence Transform，平滑相干变换)加权函数，CSP(Crosspower Spectrum Phase，互功率谱相位)加权函数，等。可以理解，不同的加权函数可以得到不同的相对时间差估计算法，传统CSP算法中，选择CSP加权函数，即

进一步地，两个间距为d的麦克风1、麦克风2接收到的音频信号x₁(t)、x₂(t)的理想模型(不考虑混响噪声)，如式(2)所示：

x_i(t)＝a_iS(t-τ_i)+n_ie(t) (2)

实际模型(考虑混响噪声)如式(3)所示：

x_i(t)＝a_iS(t-τ_i)+n_ie(t)+n_ir(t) (3)

其中，i＝1,2，S(t)为声源信号，a_i为声音传播过程中的衰减因子，τ_i是声源到达麦克风i所需要的时间，n_ie(t)为麦克风i接收到的环境噪声信号，n_ir(t)为麦克风i接收到的混响噪声信号。

需要说明的是，在室内环境中，用户在对空调或风扇等家电设备进行语音控制时，必然会产生多路径的声音反射，并且同步到达麦克风的音频信号还包含了家电设备本身及其他设备运作产生的噪声信号，所以实际模型中不仅要考虑环境噪声，还得考虑房间多径反射噪声、家电设备本身运作产生的噪声，即混响噪声。

由式(2)的理想模型可知，两个麦克风接收到的音频信号x₁(t)、x₂(t)的互功率谱函数G₁₂(ω)可通过下式(4)计算：

其中，N_ie(ω)为环境噪声信号n_ie(t)的加窗傅立叶变换，S_i(ω)为麦克风i接收到的声源信号的傅立叶变换值。

由于S(t)、n_1e(t)、n_2e(t)彼此不相关，因此，在高信噪比情况下，上式(4)可以简化为式(5)：

当考虑房间多径反射噪声时，两麦克风接收到的音频信号的互功率谱函数G₁₂(ω)可通过下式(6)计算：

由于S(t)、n_1e(t)、n_2e(t)之间彼此不相关，因此，上式(6)可以简化为式(7)：

进一步地，在高信噪比的情况下，由于N_ir(ω)相对于S(ω)很小，两者之间的相关性也随之很小，因此上式(7)又可以通过下式(8)近似表示：

然而，在实际家居环境中，空调、电风扇等家电设备运转时，一方面，由于自身状态的变化，如风量的改变、风向的改变等会产生各种不同的噪声；另一方面，用户对空调、风扇等家电设备进行语音控制时，往往会伴随出现语音的多路径反射声、电视声、音响声、其他人声、煮饭声等，即空调、风扇等家电设备运行过程中存在较大的环境噪声和较强的混响，这使得式(7)中的后三项变得比较大，不可忽略，因此，用|G₁₂(ω)|来近似|S(ω)|²也会产生较大的误差，使得式加权函数的峰值不再明显，式(1)中的R₁₂(τ)的峰值也不再明显，从而较大影响了不考虑混响噪声的传统CSP算法的性能。

即言，在传统CSP算法中，在高信噪比的情况下，|G₁₂(ω)|与|S(ω)|²之间的差值较小，可以等效做近似替换，此时估计出的时延精度较高；而在低信噪比的情况下，两者之间将会有较大的差值，不可近似替换，而且随着信噪比的下降，|S(ω)|²在|G₁₂(ω)|中所占的比例也下降。

在本发明的实施例中，基于传统CSP算法，为保证|S(ω)|²在|G₁₂(ω)|所占的比例具有一定稳定性，引入一个随信噪比变化的预设参量，记为λ²，通过这个预设参量来调节广义互相关加权函数的大小，进而减小噪声的影响，提高算法的抗噪性能。

具体地，在传统的CSP算法使用的广义互相关加权函数中引入预设参量λ²，在本发明的实施例中，广义互相关加权函数通过式(9)表示：

在本发明的一个实施例中，0.707≤λ≤1，λ²随着信噪比的变换而变化的量，且λ²满足下式(10)：

其中，σ表示信噪比，σ₀、σ₁、λ₀、λ₁是根据实际情况定的常数，且λ₁>λ₀。

具体而言，常数σ₀、σ₁的设置是为了区分环境的嘈杂程度，即信噪比大小，进而λ₀、λ₁可根据常数σ₀、σ₁进行设置。例如，环境信噪比为35dB，比较低，可以判断当前环境比较嘈杂，此时可以设置预设参量λ²＝λ₀＝0.707。

可以理解，如果取λ²＝1，则为传统的CSP算法。

由此，基于传统CSP算法，引入了随着信噪比而变化的预设参量λ²后，可以对室内环境下，由人声多路径反射噪声、设备自身运转产生的声音、及其他设备产生的噪声等组成的混响声音有较强的抵抗能力，实现更好的应对噪声的能力，提高两麦克风之间的相对时间差(声程差)的计算精度，从而有利于提升声源定位的精度，有助于空调、风扇类家电设备的语音识别控制。

S103，根据音频信号到达多个麦克风之中任意两个麦克风的相对时间差和每个麦克风的位置对音频信号进行定位。

具体地，可以通过以下公式(11)对音频信号进行定位：

||m_i1-s||-||m_i2-s||＝Δτ_ic (11)

其中，Δτ_i为任意两个麦克风之间的相对时间差，即为式(1)中的R₁₂(τ)的峰值，m_i1、m_i2分别为任意两个麦克风之间位置矢量，s表示声源位置矢量，c为在当前介质下的声速，如在1个标准大气压和15℃下，声音在空气中的传播速度为340m/s。

在本发明的一个示例中，麦克风阵列中任意两个麦克风和声源位置的三维空间几何结构如图3所示，麦克风1和麦克风2在x轴上，其连线的中点为原点，声源到这两个麦克风的时间差(即声程差)为Δτ_i。

由式(11)可以看出，声源的位置在一个双曲面上。

参见图3，声源S的球面坐标为(r,θ,φ)，将声源、麦克风1和麦克风2转化到直角坐标系中分别为：

将s、m_i1、m_i2代入式(11)，且两边平方，可得：

当声场为远场，即距离r比较远时，趋近于零，则此时式(12)可以近似为：

由此可见，当知道任意两个麦克风之间的相对时间差和距离时候，就可以近似的求得θ角。当声源为远场声源时，可以用θ角的锥面来表示声源的可能位置。因此，只要能求得声程差Δτ_i，就可以近似地求得声源对于该任意两个麦克风连线中点的方向角。即言，通过两个麦克风就能获得一个声源的可能位置面。进而通过一个包含多个麦克风的阵列，可以获得多个声源可能位置的面，这些面的焦点也就是声源的位置。

需要说明的是，在实际情况中，由于存在误差，得到的声源位置往往不能够全都交于一点，所以只要找到距离几个面距离最近的位置，就是所估计出的声源位置。

在本发明的一个实施例中，在获取麦克风阵列所接收的音频信号之后，还可以对音频信号进行短时傅立叶变换以生成多个音频频域值，进而将多个音频频域值中的最大值和/或最小值与门限值进行比较以判断音频信号是否为语音信号，如果为语音信号，则将音频信号的幅度谱减去噪声幅度谱，其中，门限值可以包括第一门限值和/或第二门限值，且第一门限值小于第二门限值。

具体地，如图4所示，在麦克风阵列中每个麦克风接收到一帧音频信号x[n]之后，对各帧音频信号进行短时傅立叶变换，得到多个音频频域值X[k,τ]，其中，n＝1,2,3,…,fLen，k＝1,2,3,…,fLen，fLen为音频信号的帧长，τ为短时傅立叶变换的时间参数。

进一步地，根据X[k,τ]进行判断。

在本发明的一个示例中，参见图4，如果多个音频频域值中的最大值max_1≤k≤fLen{|X[k,τ]|}小于等于第一门限值threshold1，即max_1≤k≤fLen{|X[k,τ]|}≤threshold1，则判定接收到的音频信号为噪声信号，否则判定接收到的音频信号为语音信号。

在本发明的另一个示例中，如果多个音频频域值中的最小值min_1≤k≤fLen{|X[k,τ]|}大于等于第二门限值threshold2，即min_1≤k≤fLen{|X[k,τ]|}≥threshold2，则判定接收到的音频信号为噪声信号，否则判定接收到的音频信号为语音信号。

在本发明的又一个示例中，如果多个音频频域值中的最大值max_1≤k≤fLen{|X[k,τ]|}大于第一门限值threshold1，即max_1≤k≤fLen{|X[k,τ]|}＞threshold1，且多个音频频域值中的最小值min_1≤k≤fLen{|X[k,τ]|}小于第二门限值threshold2，即min_1≤k≤fLen{|X[k,τ]|}＜threshold2，则判定接收到的音频信号为语音信号，否则判定接收到的音频信号为噪声信号。

即言，超过门限值的音频频域值对应的音频信号不是语音信号。其中，门限值可以根据经验事先设定，也可以由具体环境来确定。例如，用户在对空调、风扇等家电设备进行语音控制时，声音频率一般为200～1000Hz，此时可以设定第一门限值为200Hz，第二门限值为1000Hz。

更进一步地，参见图4，如果判定音频信号为噪声信号，则更新噪声信号的幅度谱的值，使噪声幅度谱始终保持为最近的噪声偏置；如果判定音频信号为语音信号，则将接收音频信号的幅度谱在频域减去噪声幅度谱，即以最近的噪声模拟当前的噪声。

举例而言，如果第一帧音频信号为噪声信号，则对应的更新的噪声幅度谱为第一帧音频信号的幅度谱；如果第二帧音频信号为音频信号，则对应的噪声幅度谱为第一帧音频信号的幅度谱，此时将第二帧音频信号的幅度谱减去第一帧音频信号的幅度谱；如果第三帧音频信号为噪声信号，则更新噪声幅度谱为第三帧音频信号的幅度谱；如果第四帧音频信号为噪声信号，则更新噪声幅度谱为第四帧音频信号的幅度谱；如果第五帧音频信号为音频信号，则对应的噪声幅度谱为第四帧音频信号的幅度谱，此时将第五帧音频信号的幅度谱减去第四帧音频信号的幅度谱，以此类推。由此，实现了自适应环境，在不同的噪声环境下都可以较好的实现去除背景噪声，得到降噪后的音频信号幅度谱。

综上，根据本发明实施例的声源定位的方法，在获取任意两个麦克风的相对时间差时，引入了预设参量，即通过麦克风阵列所接收的音频信号和预设参量获取多个麦克风之中任意两个麦克风的接收的音频信号之间的相对时间差，进而根据任意两个麦克风的相对时间差和每个麦克风的位置对音频信号进行定位。由此，能够有效的自适应减少环境噪声，而且对远场环境下的混响及声音衍射噪声有较强的适应抵抗能力，实现了双重降噪效果，大幅提升了基于阵列式麦克风的远场声源识别精度，使远场声源识别的实用性大大增强。

图5为本发明一个实施例的声源定位的装置的方框图。如图5所示，声源定位的装置包括：第一获取模块10、第二获取模块20和定位模块30。

其中，第一获取模块10用于获取麦克风阵列所接收的音频信号，其中，麦克风阵列包括多个麦克风，音频信号包括语音信号和噪声信号。第二获取模块20用于根据音频信号获取和预设参量多个麦克风之中任意两个麦克风接收的音频信号之间的相对时间差。定位模块30用于根据音频信号到达多个麦克风之中任意两个麦克风的相对时间差和每个麦克风的位置对音频信号进行定位。

在本发明的一个实施例中，如图6所示，第二获取模块20可以包括获取单元21、变换单元22和生成单元23。

其中，获取单元21用于获取多个麦克风之中的第一麦克风和第二麦克风的第一音频信号和第二音频信号。变换单元22用于对第一音频信号和第二音频信号进行傅立叶变换以生成第一傅立叶变换值和第二傅立叶变换值。生成单元23用于根据第一傅立叶变换值、第二傅立叶变换值和预设参量生成相对时间差。

具体地，参见图2，第一麦克风为麦克风1，第二麦克风为马克风2。获取麦克风1接收到的第一音频信号x₁(t)和麦克风2接收到的第二音频信号x₂(t)，对第一音频信号x₁(t)和第二音频信号x₂(t)进行傅立叶变换以生成第一傅立叶变换值X₁(ω)和第二傅立叶变换值X₂(ω)，进而第二获取模块20中的生成单元23可以通过以下公式(1)生成相对时间差：

在本发明的实施例中，第一傅立叶变换值和第二傅立叶变换值之间的互功率谱G₁₂(ω)可通过以下公式(8)确定：

其中，X₁(ω)、X₂(ω)分别为对第一音频信号x₁(t)和第二音频信号x₂(t)进行傅立叶变换生成的第一傅立叶变换值和第二傅立叶变换值，a₁、a₂分别为声源在到达第一麦克风和第二麦克风过程中的衰减因子，S₁(ω)、S₂(ω)分别为第一麦克风和第二麦克风接收到的声源信号的傅立叶变换值，τ₁、τ₂分别是声源到达第一麦克风和第二麦克风所需要的时间。

广义互相关加权函数ψ₁₂(ω)可以通过以下公式(9)确定：

其中，λ²为预设参量，σ表示信噪比，σ₀、σ₁、λ₀、λ₁为预设的常数，且λ₁＞λ₀。

进一步地，定位模块23可以通过以下公式(11)对音频信号进行定位：

||m_i1-s||-||m_i2-s||＝Δτ_ic (11)

在本发明的一个实施例中，如图7所示，声源定位的装置还可以包括：变换模块40、判断模块50和处理模块60。

其中，变换模块40用于在获取麦克风阵列所接收的音频信号之后，对音频信号进行短时傅立叶变换以生成多个音频频域值。判断模块50用于将多个音频频域值中的最大值和最小值与门限值进行比较以判断音频信号是否为语音信号，其中，门限值包括第一门限值和第二门限值，且第一门限值小于第二门限值。处理模块60用于在多个音频频域值中的最大值大于第一门限值且最小值小于所述第二门限值时，判断音频信号为语音信号，并将音频信号的幅度谱减去噪声幅度谱，以及在多个音频频域值中的最大值小于等于第一门限值或最小值大于等于第二门限值时，判断所述音频信号为噪声信号，并更新噪声幅度谱，以使噪声幅度谱为最近的噪声幅度谱。

需要说明的是，本发明实施例的声源定位的装置的具体实施方式可参见上述实施例的声源定位的方法的具体实施方式，为减少冗余，此处不做赘述。

综上，根据本发明实施例的声源定位的装置，在通过第二获取模块获取任意两个麦克风的相对时间差时，引入了预设参量，即通过第二获取模块根据麦克风阵列所接收的音频信号和预设参量获取多个麦克风之中任意两个麦克风接收的音频信号之间的相对时间差，进而通过定位模块根据任意两个麦克风的相对时间差和每个麦克风的位置对音频信号进行定位。由此，能够有效的自适应减少环境噪声，而且对远场环境下的混响及声音衍射噪声有较强的适应抵抗能力，实现了双重降噪效果，大幅提升了基于阵列式麦克风的远场声源识别精度，使远场声源识别的实用性大大增强。

进一步地，本发明提出了一种空调器，其包括本发明上述实施例的声源定位的装置。

本发明实施例的空调器，采用上述实施例的声源定位的装置，在进行语音控制时，能够有效的自适应减少环境噪声，且对远场环境下的混响及声音衍射噪声有较强的适应抵抗能力，提升了基于阵列式麦克风的远场声源识别精度，提高了空调器的语音控制效果。

本发明还提出了一种非临时性计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述实施例所述的声源定位的方法。

更进一步地，本发明提出了一种计算机程序产品，当计算机程序产品中的指令由处理器执行时，执行上述实施例所述的声源定位的方法。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本发明的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本发明的实施例所属技术领域的技术人员所理解。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式光盘只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本发明各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

在本发明的描述中，需要理解的是，术语“中心”、“纵向”、“横向”、“长度”、“宽度”、“厚度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”“内”、“外”、“顺时针”、“逆时针”、“轴向”、“径向”、“周向”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

在本发明中，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或成一体；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通或两个元件的相互作用关系，除非另有明确的限定。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。

在本发明中，除非另有明确的规定和限定，第一特征在第二特征“上”或“下”可以是第一和第二特征直接接触，或第一和第二特征通过中间媒介间接接触。而且，第一特征在第二特征“之上”、“上方”和“上面”可是第一特征在第二特征正上方或斜上方，或仅仅表示第一特征水平高度高于第二特征。第一特征在第二特征“之下”、“下方”和“下面”可以是第一特征在第二特征正下方或斜下方，或仅仅表示第一特征水平高度小于第二特征。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种声源定位的方法，其特征在于，包括以下步骤：

获取麦克风阵列所接收的音频信号，其中，所述麦克风阵列包括多个麦克风，所述音频信号包括语音信号和噪声信号；

根据所述音频信号和预设参量获取所述多个麦克风之中任意两个麦克风接收的音频信号之间的相对时间差，其中，根据所述音频信号的信噪比设定所述预设参量；

根据所述音频信号到达所述多个麦克风之中任意两个麦克风的相对时间差和每个麦克风的位置对所述音频信号进行定位。

2.如权利要求1所述的声源定位的方法，其特征在于，在获取所述麦克风阵列所接收的音频信号之后，还包括：

对所述音频信号进行短时傅立叶变换以生成多个音频频域值；

将所述多个音频频域值中的最大值和最小值与门限值进行比较以判断所述音频信号是否为语音信号，其中，所述门限值包括第一门限值和第二门限值，且所述第一门限值小于所述第二门限值；

如果所述多个音频频域值中的最大值大于所述第一门限值且最小值小于所述第二门限值，则判断所述音频信号为语音信号，并将所述音频信号的幅度谱减去噪声幅度谱；

如果所述多个音频频域值中的最大值小于等于所述第一门限值或最小值大于等于所述第二门限值，则判断所述音频信号为噪声信号，并更新噪声幅度谱，以使噪声幅度谱为最近的噪声幅度谱。

3.如权利要求1所述的声源定位的方法，其特征在于，所述根据所述音频信号和预设参量获取所述多个麦克风之中任意两个麦克风接收的音频信号之间的相对时间差具体包括：

通过以下公式生成所述多个麦克风之中任意两个麦克风接收的音频信号之间的相对时间差：

<mrow> <msub> <mi>R</mi> <mn>12</mn> </msub> <mrow> <mo>(</mo> <mi>&tau;</mi> <mo>)</mo> </mrow> <mo>=</mo> <msubsup> <mo>&Integral;</mo> <mn>0</mn> <mi>&pi;</mi> </msubsup> <msub> <mi>&psi;</mi> <mn>12</mn> </msub> <mrow> <mo>(</mo> <mi>&omega;</mi> <mo>)</mo> </mrow> <msub> <mi>G</mi> <mn>12</mn> </msub> <mrow> <mo>(</mo> <mi>&omega;</mi> <mo>)</mo> </mrow> <msup> <mi>e</mi> <mrow> <mo>-</mo> <mi>j</mi> <mi>&omega;</mi> <mi>&tau;</mi> </mrow> </msup> <mi>d</mi> <mi>&omega;</mi> <mo>=</mo> <mo>&Integral;</mo> <msub> <mi>&phi;</mi> <mn>12</mn> </msub> <mrow> <mo>(</mo> <mi>&omega;</mi> <mo>)</mo> </mrow> <msup> <mi>e</mi> <mrow> <mo>-</mo> <mi>j</mi> <mi>&omega;</mi> <mi>&tau;</mi> </mrow> </msup> <mi>d</mi> <mi>&omega;</mi> <mo>,</mo> </mrow>

其中，R₁₂(τ)的峰值位置为相对时间差，ψ₁₂(ω)为广义互相关加权函数，G₁₂(ω)为第一傅立叶变换值和第二傅立叶变换值之间的互功率谱，G₁₂(ω)＝X₁(ω)X₂(ω)，X₁(ω)、X₂(ω)分别为对第一音频信号x₁(t)和第二音频信号x₂(t)进行傅立叶变换生成的第一傅立叶变换值和第二傅立叶变换值。

4.如权利要求3所述的声源定位的方法，其特征在于，所述广义互相关加权函数ψ₁₂(ω)通过以下公式确定：

<mrow> <msub> <mi>&psi;</mi> <mn>12</mn> </msub> <mrow> <mo>(</mo> <mi>&omega;</mi> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mn>1</mn> <mrow> <mo>|</mo> <msub> <mi>G</mi> <mn>12</mn> </msub> <mrow> <mo>(</mo> <mi>&omega;</mi> <mo>)</mo> </mrow> <msup> <mo>|</mo> <msup> <mi>&lambda;</mi> <mn>2</mn> </msup> </msup> </mrow> </mfrac> <mo>,</mo> </mrow>

其中，λ²为所述预设参量，σ表示信噪比，σ₀、σ₁、λ₀、λ₁为预设的常数，且λ₁＞λ₀。

5.如权利要求1所述的声源定位的方法，其特征在于，通过以下公式对所述音频信号进行定位：

||m_i1-s||-||m_i2-s||＝Δτ_ic，

其中，Δτ_i为所述任意两个麦克风之间的相对时间差，m_i1、m_i2分别为所述任意两个麦克风之间位置矢量，s表示声源位置矢量，c为在当前介质下的声速。

6.一种声源定位的装置，其特征在于，包括：

第一获取模块，用于获取麦克风阵列所接收的音频信号，其中，所述麦克风阵列包括多个麦克风，所述音频信号包括语音信号和噪声信号；

第二获取模块，用于根据所述音频信号和预设参量获取所述多个麦克风之中任意两个麦克风的接收的音频信号之间的相对时间差，其中，根据所述音频信号的信噪比设定所述预设参量；

定位模块，用于根据所述音频信号到达所述多个麦克风之中任意两个麦克风的相对时间差和每个麦克风的位置对所述音频信号进行定位。

7.如权利要求6所述的声源定位的装置，其特征在于，还包括：

变换模块，用于在获取所述麦克风阵列所接收的音频信号之后，对所述音频信号进行短时傅立叶变换以生成多个音频频域值；

判断模块，用于将所述多个音频频域值中的最大值和最小值与门限值进行比较以判断所述音频信号是否为语音信号，其中，所述门限值包括第一门限值和第二门限值，且所述第一门限值小于所述第二门限值；

处理模块，用于在所述多个音频频域值中的最大值大于所述第一门限值且最小值小于所述第二门限值时，判断所述音频信号为语音信号，并将所述音频信号的幅度谱减去噪声幅度谱，以及在所述多个音频频域值中的最大值小于等于所述第一门限值或最小值大于等于所述第二门限值时，判断所述音频信号为噪声信号，并更新噪声幅度谱，以使噪声幅度谱为最近的噪声幅度谱。

8.如权利要求6所述的声源定位的装置，其特征在于，所述第二获取模块通过以下公式生成所述多个麦克风之中任意两个麦克风接收的音频信号之间的相对时间差：

9.如权利要求8所述的声源定位的装置，其特征在于，所述广义互相关加权函数ψ₁₂(ω)通过以下公式确定：

10.如权利要求6所述的声源定位的装置，其特征在于，所述定位模块通过以下公式对所述音频信号进行定位：

||m_i1-s||-||m_i2-s||＝Δτ_ic，

11.一种空调器，其特征在于，包括如权利要求6-10中任一项所述的声源定位的装置。

12.一种非临时性计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-5中任一项所述的声源定位的方法。

13.一种计算机程序产品，其特征在于，当所述计算机程序产品中的指令由处理器执行时，执行一种如权利要求1-5中任一项所述的声源定位的方法。