CN104053107A

CN104053107A - 用于噪声环境下声源分离和定位的助听装置及方法

Info

Publication number: CN104053107A
Application number: CN201410249428.XA
Authority: CN
Inventors: 柴毅; 屈剑锋; 王坤朋; 杨志敏; 董勇
Original assignee: Chongqing University
Current assignee: Chongqing University
Priority date: 2014-06-06
Filing date: 2014-06-06
Publication date: 2014-09-17
Anticipated expiration: 2034-06-06
Also published as: CN104053107B

Abstract

本发明涉及助听装置及方法，具体指一种用于噪声环境下声源分离和定位的助听装置及方法，包括麦克风阵列、声源位置显示器、声源分离与定位模块、信号采集器、模拟信号放大器和声源选择键盘，声源分离与定位模块采用互相关法对采集的麦克风信号进行处理，得到8个声源相对于麦克风阵列的初始方位，采用基于空间搜索的盲源分离方法对采集的麦克风信号进行处理，得到包含交谈对象和其他人说话声音的声源，用户通过声源选择键盘选择出属于交谈对象的声源，根据选择的声源计算出交谈对象相对于麦克风阵列的准确方位，并在声源位置显示器中显示该声源的方位；实现噪声环境下交谈双方语音信号自动分离，同时增加了语音信号源的定位功能，使用方便。

Description

用于噪声环境下声源分离和定位的助听装置及方法

技术领域

本发明涉及助听装置及方法，具体指一种用于噪声环境下声源分离和定位的助听装置及方法。

背景技术

在户外或工业现场等嘈杂环境的语音交流中，助听装置是增强语音品质提高沟通效果的重要设备。在嘈杂环境下用户所感兴趣的有用信号会受到环境噪音或其它语音干扰，有用信号的信噪比较低，进而严重影响用户之间的正常交流。现有的助听设备大多数仍采用简单的信号放大功能，少数具有语音清晰功能的设备也仅对环境背景噪声有效，对于交流现场中其它语音的干扰无能为力。

发明内容

针对现有技术存在的上述问题，本发明解决的技术问题是：实现噪声环境下交谈双方语音信号自动分离，同时增加了语音信号源的定位功能，操作方便。

解决该技术问题，本发明是这样实现的：一种用于噪声环境下声源分离和定位的助听装置，其特征在于：包括麦克风阵列(1006)、声源位置显示器(1001)、声源分离与定位模块(1002)、信号采集器(1003)、模拟信号放大器(1004)和声源选择键盘(1005)；

所述麦克风阵列(1006)、模拟信号放大器(1004)、信号采集器(1003)、声源分离与定位模块(1002)和声源位置显示器(1001)依次连接；

所述声源选择键盘(1005)与声源分离与定位模块(1002)连接；

所述声源分离与定位模块(1002)采用互相关法对采集的麦克风信号进行处理，得到8个声源相对于麦克风阵列的初始方位；采用基于空间搜索的盲源分离方法对采集的麦克风信号进行处理，得到包含交谈对象(1009)和其他人(1010)说话声音的声源，用户通过声源选择键盘(1005)选择出属于交谈对象(1009)的声源，根据选择的声源计算出交谈对象(1009)相对于麦克风阵列(1006)的准确方位，并在声源位置显示器(1001)中显示该声源的方位。

进一步，所述麦克风阵列(1006)由微型麦克风(1007)构成；

所述麦克风阵列(1006)由8个独立的微型麦克风(1007)按照图中方式均匀排列在正方形的边上，正方形边长为10厘米，任意两个微型麦克风(1007)中心点之间的距离(1008)为5厘米；

所述微型麦克风(1007)的指向性为全向型(无指向)，直径小于1厘米。

本发明噪声环境下声源分离和定位方法，其特征在于：包括如下步骤：

a.采用权利要求1所述的助听装置对交谈过程中的语音信号进行采集；

a1.所述助听装置采用模拟信号放大器(1004)对麦克风阵列(1006)中8个微型麦克风(1007)的语音信号进行放大，放大后的信号传输至信号采集器(1003)；

a2.所述信号采集器(1003)对模拟信号放大器(1004)放大后的信号进行滤波、模/数转换和采集，采样频率为16KHz，采样精度为16位，并对采集的信号进行储存；

b.所述声源分离与定位模块(1002)采用基于空间搜索的盲源分离方法对采集的麦克风信号进行处理，具体步骤如下：

b1.信号采集器得到8路观测信号x(t)＝[x₁(t),x₂(t),...,x₈(t)]^T，t为采样时刻；

b2.观测信号x(t)可以被建模为8个声源s(t)＝[s₁(t),s₂(t),...,s₈(t)]^T的线性混合：

\begin{matrix} x_{1} (t) = \frac{1}{a_{11}} \cdot s_{1} (t - \frac{a_{11}}{v}) + \frac{1}{a_{12}} \cdot s_{2} (t - \frac{a_{12}}{v}) \cdot \cdot \cdot + \frac{1}{a_{18}} \cdot s_{8} (t - \frac{a_{18}}{v}) + η_{1} (t) \\ x_{2} (t) = \frac{1}{a_{21}} \cdot s_{1} (t - \frac{a_{21}}{v}) + \frac{1}{a_{22}} \cdot s_{2} (t - \frac{a_{22}}{v}) \cdot \cdot \cdot + \frac{1}{a_{28}} \cdot s_{8} (t - \frac{a_{28}}{v}) + η_{2} (t) \\ \cdot \\ \cdot \\ \cdot \\ x_{8} (t) = \frac{1}{a_{81}} \cdot s_{1} (t - \frac{a_{81}}{v}) + \frac{1}{a_{82}} \cdot s_{2} (t - \frac{a_{82}}{v}) \cdot \cdot \cdot + \frac{1}{a_{88}} \cdot s_{8} (t - \frac{a_{88}}{v}) + + η_{8} (t) \end{matrix} - - - (1)

式(1)中v为空气中声音传播的速度，约为340米/秒；a_mn,m,n＝1,2,...8为第n个声源到达第m个微型麦克风的距离，声源信号的幅值衰减与距离a_mn成反比关系，声源s_n,n＝1,2,...,8到达各微型麦克风的时间延迟与距离a_mn成正比关系；η(t)＝(η₁(t),η₂(t),...,η₈(t))^T为微型麦克风的噪声；公式(1)可以简写为

x(t)＝As(t)+η(t) (2)式(2)中A∈□^8×8为声源混合矩阵；

b3.采用互相关法对对采集的麦克风信号进行处理，计算得到声源相对于麦克风阵列的初始方位，具体如下：

b301：为了降低声源定位和分离算法的复杂度，构建一个栅格化的正方体，并存储每个栅格顶点至微型麦克风(2003)的距离。参见图2，将麦克风阵列正前方的正方体区域进行栅格化处理，正方体的边长为10厘米，栅格的边长为1厘米，最小栅格的边长为1厘米，记栅格顶点(2001)为g_ijk,i,j,k＝1,2,...10；

b302：栅格顶点g_ijk距离第m个微型麦克风(2003)的距离(2002)为d_m，将g_ijk至8个微型麦克风(2003)的距离写作列向量形式为d，将所有栅格顶点至微型麦克风的距离写作矩阵形式为D，矩阵的第l列表示第(k-1)×100+(j-1)×10+i个栅格点；

b303：由公式(1)可知，任意两路观测信号x_m(t)与x_m′(t)，m,m′∈{1,2,...8}进行延迟相关运算C_τ＝x_m(t)·x_m′(t-τ),τ∈[-0.414v,0.414v]，τ为延迟时间，必然存在8个极大值由于τ非采样时间间隔的整数倍，在计算时需要首先对观测信号x(t)进行自然三次样条插值，对于采样时刻t₀,t₁,...,t_P，对应的采样点x_m＝[y₀,y₁,...,y_P]^T，P为采样点数目，插值计算后得到的观测信号为插值函数为：

z_{p} (t) = \frac{b_{p + 1} \cdot {(t - t_{p})}^{3} + b_{p} \cdot {(t_{p + 1} - t)}^{3}}{{6 h}_{p}} + (\frac{y_{p + 1}}{h_{p}} - \frac{h_{p}}{6} b_{p + 1}) (t - t_{p}) + (\frac{y_{p}}{h_{p}} - \frac{h_{p}}{6} b_{p}) (t_{p + 1} - t) - - - (3)

h_p＝t_p+1-t，0≤p≤P

系数b₀,b₁,...,b_P可以通过求解式(4)所述方程得到。

\{\begin{matrix} b_{0} = 0 \\ h_{p - 1} b_{p - 1} + 2 (h_{p - 1} + h_{p}) + h_{p} b_{p + 1} = 6 ((y_{p + 1} - y_{p}) / h_{p} - (y_{p} - y_{p - 1}) / h_{p - 1}) \\ b_{P} = 0 \end{matrix} - - - (4)

b304：参见图3，分别计算微型麦克风(3001)与(3002)、(3003)、(3004)采集到观测信号之间的延迟相关系数C_τ的极大值，并利用极大值处对应的延迟时间和可以计算出图3所示的声源相对于微型麦克风的方位；

b305：利用延迟时间τ与声速v相乘分别计算8个声源与4个微型麦克风(3001)、(3002)、(3003)、(3004)的距离d₁,d₃,d₆,d₈，并通过计算求取与声源距离最近的栅格点g_ijk，进而得到8个声源距离8个微型麦克风的距离，即声源混合矩阵A；

b4.采用空间搜索的方法以最小化声源之间互信息I为目标函数，同时分离出混合在观测信号x(t)中的所有声源由于语音信号为短时平稳信号，通常认为在20毫秒的采样时长内可以等效为平稳信号，因此，以下过程需要在有限时间T内完成，T≤20ms，具体如下：

b401：初始化空间搜索次数r←0，声源混合矩阵A⁽⁰⁾←A，互信息最小值I^*←+∞，时间tc←0；

b402：对声源混合矩阵A^(r)进行求逆运算得到矩阵W^(r)，利用计算得到真实声源信号的估计信号并对其进行标准化处理，使得各声源估计信号均值为0方差为1；

b403：采用互信息度量声源信号之间的相互独立性，声源之间的互信息是一个非负指标，当且仅当各信号之间相互独立时互信息为零。分别记x_m＝(x_m(1),…,x_m(P))为第m个观测信号，为真实声源信号的估计，P是采样点数目。由此，估计声源信号之间的互信息可以写为：

I^{(r)} = Σ_{n = 1}^{N} H ({\hat{s}}_{n}) - H (\hat{s}) - - - (5)

式中，为估计声源信号的边缘熵，表示估计声源信号的联合熵；

由于边缘熵中含有概率分布项，无法直接计算实际计算中采用多项式密度展开来近似熵，这种近似方法具有较高的计算效率，其形式为：

\begin{matrix} H ({\hat{s}}_{n}) \approx \frac{1}{2} \log (2 πe) - \frac{{(k_{3}^{n})}^{2}}{2 \cdot 3!} - \frac{{(k_{4}^{n})}^{2}}{2 \cdot 4!} + \\ \frac{5}{8} {(k_{3}^{n})}^{2} k_{4}^{n} + \frac{1}{16} {(k_{4}^{n})}^{3} \end{matrix} - - - (6)

其中，是斜度，为规范化的峭度；估计声源信号的联合熵为：

H (\hat{s}) = H (x) + \log | {\det A}^{(r)} | - - - (7)

若I^(r)<I^*，则置I^*←I^(r)，否则，进入下一步；

b404：随机搜索8个声源附近的栅格点，得到一组新的栅格点及其对应的到达微型麦克风的距离，通过查询距离矩阵D，得到新的声源混合矩阵A；

b405：若计算时间tc<T，置迭代次数r←r+1，置下一次迭代的混合矩阵为A^(r)←A，返回b402进行迭代计算，否则，结束迭代过程。

相对于现有技术，本发明具有如下优点：

1、本发明中构成助听装置的麦克风阵列、模拟信号放大器、信号采集器、声源分离与定位模块和声源位置显示器依次连接，声源选择键盘与声源分离与定位模块连接，声源分离与定位模块采用互相关法和基于空间搜索的盲源分离方法对采集到的微型麦克风信号进行处理，可以得到8个声源的估计信号及其相对于阵列麦克风的方位。

2、由于本发明采用栅格化声源信号空间的方法，建立声源到达各微型麦克风的距离矩阵，利用随机搜索声源附近栅格点的方式，降低了声源信号分离算法的计算复杂度，提高了声源混合矩阵的估计效率，进而保证了声源信号分离的实时性。

3、由于本发明配置了声源选择键盘，用户可以通过键盘交互选择出交谈对象的声源，通过声源分离与定位模块实时计算交谈对象的准确方位，并在声源位置显示器中显示该声源的方位,提高了助听器的可配置性和可视化效果。

附图说明

图1-本发明的功能框图。

图2-本发明的栅格化正方体示意图。

图3-本发明的声源定位示意图。

图4-实施例的功能框图。

图中，1001-声源位置显示器、1002-声源分离与定位模块、1003-信号采集器、1004-模拟信号放大器、1005-声源选择键盘、1006-阵列麦克风、1007-微型麦克风、1008-微型麦克风中心距离、1009-交谈对象、1010-其他声源、2001-栅格顶点、2002-栅格顶点至微型麦克风的距离、2003-微型麦克风、3001-微型麦克风1、3002-微型麦克风3、3003-微型麦克风6、3004-微型麦克风8、4001-麦克风阵列、4002-模拟放大器、4003-带通滤波器、4004-模拟开关、4005-模/数转换器、4006-微型处理器、4007-液晶显示器、4008-键盘。

具体实施方式

下面结合具体实施例对本发明作进一步详细说明。

参见图1，一种用于噪声环境下声源分离和定位的助听装置，包括麦克风阵列(1006)、声源位置显示器(1001)、声源分离与定位模块(1002)、信号采集器(1003)、模拟信号放大器(1004)和声源选择键盘(1005)；

所述声源选择键盘(1005)与声源分离与定位模块(1002)连接；

所述麦克风阵列(1006)由微型麦克风(1007)构成；

声源分离与定位模块(1002)具有两个主要功能，一个功能是采用互相关法对采集的麦克风信号进行处理，得到8个声源相对于麦克风阵列的初始方位；另一个功能是采用基于空间搜索的盲源分离方法对采集的麦克风信号进行处理，得到包含交谈对象(1009)和其他人(1010)说话声音的声源，用户可以通过声源选择键盘(1005)选择出属于交谈对象(1009)的声源，根据选择的声源计算出交谈对象(1009)相对于麦克风阵列(1006)的准确方位，并在声源位置显示器(1001)中显示该声源的方位。

噪声环境下声源分离和定位方法通过如下步骤实现：

a.语音信号进行采集，具体步骤如下：

\begin{matrix} x_{1} (t) = \frac{1}{a_{11}} \cdot s_{1} (t - \frac{a_{11}}{v}) + \frac{1}{a_{12}} \cdot s_{2} (t - \frac{a_{12}}{v}) \cdot \cdot \cdot + \frac{1}{a_{18}} \cdot s_{8} (t - \frac{a_{18}}{v}) + η_{1} (t) \\ x_{2} (t) = \frac{1}{a_{21}} \cdot s_{1} (t - \frac{a_{21}}{v}) + \frac{1}{a_{22}} \cdot s_{2} (t - \frac{a_{22}}{v}) \cdot \cdot \cdot + \frac{1}{a_{28}} \cdot s_{8} (t - \frac{a_{28}}{v}) + η_{2} (t) \\ \cdot \\ \cdot \\ \cdot \\ x_{8} (t) = \frac{1}{a_{81}} \cdot s_{1} (t - \frac{a_{81}}{v}) + \frac{1}{a_{82}} \cdot s_{2} (t - \frac{a_{82}}{v}) \cdot \cdot \cdot + \frac{1}{a_{88}} \cdot s_{8} (t - \frac{a_{88}}{v}) + + η_{8} (t) \end{matrix} - - - (8)

式(1)中v为空气中声音传播的速度，约为340米/秒；a_mn,m,n＝1,2,...8为第n个声源到达第m个微型麦克风的距离，声源信号的幅值衰减与距离a_mn成反比关系，声源s_n,n＝1,2,...,8到达各微型麦克风的时间延迟与距离a_mn成正比关系；η(t)＝(η₁(t),η₂(t),...,η₈(t))^T为微型麦克风的噪声；公式(8)可以简写为

x(t)＝As(t)+η(t) (9)式(9)中A∈□^8×8为声源混合矩阵；

b303：由公式(8)可知，任意两路观测信号x_m(t)与x_m′(t)，m,m′∈{1,2,...8}进行延迟相关运算C_τ＝x_m(t)·x_m′(t-τ),τ∈[-0.414v,0.414v]，τ为延迟时间，必然存在8个极大值由于τ非采样时间间隔的整数倍，在计算时需要首先对观测信号x(t)进行自然三次样条插值，对于采样时刻t₀,t₁,...,t_P，对应的采样点x_m＝[y₀,y₁,...,y_P]^T，P为采样点数目，插值计算后得到的观测信号为插值函数为：

z_{p} (t) = \frac{b_{p + 1} \cdot {(t - t_{p})}^{3} + b_{p} \cdot {(t_{p + 1} - t)}^{3}}{{6 h}_{p}} + (\frac{y_{p + 1}}{h_{p}} - \frac{h_{p}}{6} b_{p + 1}) (t - t_{p}) + (\frac{y_{p}}{h_{p}} - \frac{h_{p}}{6} b_{p}) (t_{p + 1} - t) - - - (10)

h_p＝t_p+1-t，0≤p≤P

系数b₀,b₁,...,b_P可以通过求解式(11)所述方程得到。

\{\begin{matrix} b_{0} = 0 \\ h_{p - 1} b_{p - 1} + 2 (h_{p - 1} + h_{p}) + h_{p} b_{p + 1} = 6 ((y_{p + 1} - y_{p}) / h_{p} - (y_{p} - y_{p - 1}) / h_{p - 1}) \\ b_{P} = 0 \end{matrix} - - - (11)

b403：采用互信息度量声源信号之间的相互独立性，声源之间的互信息是一个非负指标，当且仅当各信号之间相互独立时互信息为零。分别记x_m＝(x_m(1),...,x_m(P))为第m个观测信号，为真实声源信号的估计，P是采样点数目。由此，估计声源信号之间的互信息可以写为：

I^{(r)} = Σ_{n = 1}^{N} H ({\hat{s}}_{n}) - H (\hat{s}) - - - (12)

\begin{matrix} H ({\hat{s}}_{n}) \approx \frac{1}{2} \log (2 πe) - \frac{{(k_{3}^{n})}^{2}}{2 \cdot 3!} - \frac{{(k_{4}^{n})}^{2}}{2 \cdot 4!} + \\ \frac{5}{8} {(k_{3}^{n})}^{2} k_{4}^{n} + \frac{1}{16} {(k_{4}^{n})}^{3} \end{matrix} - - - (13)

H (\hat{s}) = H (x) + \log | {\det A}^{(r)} | - - - (14)

若I^(r)<I^*，则置I^*←I^(r)，否则，进入下一步；

实施例：如图4所示，麦克风阵列4001选用8个微型麦克风(CMA-4544PF-W)构成，微型麦克风的直径为9.7毫米，模拟放大器4002采用由运算放大器OP07构成的100倍固定级增益实现，带通滤波器4003由OP07构成的四阶高通滤波器和四阶低通滤波器组成，高通滤波器截止频率为20Hz，低通滤波器截止频率为20KHz，模拟开关4004和模/数转换器由LTC1867实现，LTC1867内部包含一个8通道模拟输入开关和一个16位的模/数转换器，通过串行接口与微型处理器4006进行通信，实现通道选择和数据采集，微型处理器4006采用16位25MHz的超低功耗微处理器(MSP430F5529)，键盘采用3个独立按键实现声源选择和音量增加和减小控制功能，液晶显示器选用240×320分辨率的低功耗黑白液晶显示屏。在MSP430F5529上实现声源分离与定位模块的功能，采用互相关法对采集的麦克风信号进行处理，得到8个声源相对于麦克风阵列的初始方位；采用基于空间搜索的盲源分离方法对采集的麦克风信号进行处理，得到包含交谈对象(1009)和其他人(1010)说话声音的声源，用户可以通过声源选择键盘(4008)选择出属于交谈对象(1009)的声源，根据选择的声源计算出交谈对象(1009)相对于麦克风阵列(1006)的准确方位，并在声源位置显示器(4007)中显示该声源的方位。

最后说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明技术方案的宗旨和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种用于噪声环境下声源分离和定位的助听装置，其特征在于：包括麦克风阵列(1006)、声源位置显示器(1001)、声源分离与定位模块(1002)、信号采集器(1003)、模拟信号放大器(1004)和声源选择键盘(1005)；

所述声源选择键盘(1005)与声源分离与定位模块(1002)连接；

2.所述麦克风阵列(1006)由微型麦克风(1007)构成；

3.噪声环境下声源分离和定位方法，其特征在于：包括如下步骤：

\begin{matrix} x_{1} (t) = \frac{1}{a_{11}} \cdot s_{1} (t - \frac{a_{11}}{v}) + \frac{1}{a_{12}} \cdot s_{2} (t - \frac{a_{12}}{v}) \cdot \cdot \cdot + \frac{1}{a_{18}} \cdot s_{8} (t - \frac{a_{18}}{v}) + η_{1} (t) \\ x_{2} (t) = \frac{1}{a_{21}} \cdot s_{1} (t - \frac{a_{21}}{v}) + \frac{1}{a_{22}} \cdot s_{2} (t - \frac{a_{22}}{v}) \cdot \cdot \cdot + \frac{1}{a_{28}} \cdot s_{8} (t - \frac{a_{28}}{v}) + η_{2} (t) \\ \cdot \\ \cdot \\ \cdot \\ x_{8} (t) = \frac{1}{a_{81}} \cdot s_{1} (t - \frac{a_{81}}{v}) + \frac{1}{a_{82}} \cdot s_{2} (t - \frac{a_{82}}{v}) \cdot \cdot \cdot + \frac{1}{a_{88}} \cdot s_{8} (t - \frac{a_{88}}{v}) + + η_{8} (t) \end{matrix} - - - (1)

x(t)＝As(t)+η(t) (2)式(2)中A∈□^8×8为声源混合矩阵；

b303：由公式(1)可知，任意两路观测信号x_m(t)与x_m′(t)，m,m′∈{1,2,...8}进行延迟相关运算C_τ＝x_m(t)·x_m′(t-τ),τ∈[-0.414/v,0.414/v]，τ为延迟时间，必然存在8个极大值由于τ非采样时间间隔的整数倍，在计算时需要首先对观测信号x(t)进行自然三次样条插值，对于采样时刻t₀,t₁,...,t_P，对应的采样点x_m＝[y₀,y₁,...,y_P]^T，P为采样点数目，插值计算后得到的观测信号为插值函数为：

z_{p} (t) = \frac{b_{p + 1} \cdot {(t - t_{p})}^{3} + b_{p} \cdot {(t_{p + 1} - t)}^{3}}{{6 h}_{p}} + (\frac{y_{p + 1}}{h_{p}} - \frac{h_{p}}{6} b_{p + 1}) (t - t_{p}) + (\frac{y_{p}}{h_{p}} - \frac{h_{p}}{6} b_{p}) (t_{p + 1} - t) - - - (3)

h_p＝t_p+1-t，0≤p≤P

系数b₀,b₁,...,b_P可以通过求解式(4)所述方程得到。

\{\begin{matrix} b_{0} = 0 \\ h_{p - 1} b_{p - 1} + 2 (h_{p - 1} + h_{p}) + h_{p} b_{p + 1} = 6 ((y_{p + 1} - y_{p}) / h_{p} - (y_{p} - y_{p - 1}) / h_{p - 1}) \\ b_{P} = 0 \end{matrix} - - - (4)

I^{(r)} = Σ_{n = 1}^{N} H ({\hat{s}}_{n}) - H (\hat{s}) - - - (5)

\begin{matrix} H ({\hat{s}}_{n}) \approx \frac{1}{2} \log (2 πe) - \frac{{(k_{3}^{n})}^{2}}{2 \cdot 3!} - \frac{{(k_{4}^{n})}^{2}}{2 \cdot 4!} + \\ \frac{5}{8} {(k_{3}^{n})}^{2} k_{4}^{n} + \frac{1}{16} {(k_{4}^{n})}^{3} \end{matrix} - - - (6)

H (\hat{s}) = H (x) + \log | {\det A}^{(r)} | - - - (7)

若I^(r)<I^*，则置I^*←I^(r)，否则，进入下一步；