CN110741434B

CN110741434B - 用于具有可变麦克风阵列定向的耳机的双麦克风语音处理

Info

Publication number: CN110741434B
Application number: CN201880037776.7A
Authority: CN
Inventors: 山缪尔·P·爱贝耐泽尔; 拉奇德·克考德
Original assignee: Cirrus Logic International Semiconductor Ltd
Current assignee: Cirrus Logic International Semiconductor Ltd
Priority date: 2017-05-15
Filing date: 2018-05-11
Publication date: 2021-05-04
Anticipated expiration: 2038-05-11
Also published as: US10297267B2; GB2575404B; WO2018213102A1; GB2575404A; KR20200034670A; KR102352928B1; TW201901662A; GB201709855D0; TWI713844B; CN110741434A; GB201915795D0; US20180330745A1; GB2562544A

Abstract

根据本公开的实施例，提供了语音处理的方法，用于具有多个麦克风的阵列的音频设备中，其中阵列能够具有相对于阵列的用户的多个位置定向。方法可包括周期性地计算多个归一化互相关函数，每个互相关函数对应于阵列相对于期望话音源的可能定向；基于多个归一化互相关函数，确定阵列相对于期望话音源的定向；基于多个归一化互相关函数，检测阵列的定向的改变；以及响应于定向的改变，动态地修改音频设备的语音处理参数，使得保留来自期望话音源的话音同时降低干扰声音。

Description

用于具有可变麦克风阵列定向的耳机的双麦克风语音处理

技术领域

本公开的代表性实施例的领域涉及与音频设备中的语音应用有关或相关的方法、装置和实现。应用包括用于具有相对期望话音源的可变麦克风阵列定向的耳机的双麦克风语音处理。

背景技术

语音活动检测(voice activity detection，VAD)(也称为话音活动检测或话音检测)是用于其中检测人类话音的存在或缺失的话音处理的技术。VAD可以用于多种应用，包括噪声抑制器、背景噪声估计器、自适应波束形成器、动态波束操纵、始终开启语音检测以及基于会话的回放管理。许多语音活动检测应用可采用基于双麦克风的话音增强和/或降噪算法，例如，可在语音通信(诸如呼叫)中使用所述话音增强和/或降噪算法。大多数传统双麦克风算法都假设麦克风阵列相对于期望声源(例如，用户的嘴部)的定向固定，并且是先验的。可以利用相对于期望声源的该阵列位置的先验知识来保留用户的话音，同时减少来自其他方向的干扰信号。

具有双麦克风阵列的耳机可呈现多个不同的尺寸和形状。由于某些耳机(诸如入耳式运动耳机)的尺寸较小，因此耳机具有的可在其耳塞上放置双麦克风阵列的空间有限。此外，将麦克风放置为靠近耳塞中的接收器可能会引起回声相关问题。因此，许多入耳式耳机通常包括放置在耳机的音量控制盒上的麦克风，并且在语音呼叫过程中使用基于单个麦克风的降噪算法。在该方法中，当存在中等到高水平的背景噪声时，语音质量可能会受到影响。使用组装在音量控制盒中的双麦克风可以提高降噪性能。在运动型耳机中，控制盒可频繁地移动，并且控制盒的相对于用户的嘴部的位置依赖于用户偏好、用户移动或其他因素，可以处于空间中的任何位置。例如，在嘈杂环境中，用户可以手动地将控制盒放置为靠近嘴部，以增大输入信噪比。在这种情况下，使用放置在控制盒中双麦克风进行语音处理可能是一项挑战性任务。

发明内容

根据本公开的教示，可减少或消除与耳机中的语音处理的现有方法相关的一个或多个缺点和问题。

根据本公开的实施例，提供了一种语音处理的方法，用于在具有多个麦克风的阵列的音频设备中，其中所述阵列能够具有相对于所述阵列的用户的多个位置的定向。所述方法可包括：周期性地计算多个归一化互相关函数，每个互相关函数对应于阵列相对于期望话音源的可能定向；基于多个归一化互相关函数，确定阵列相对于期望话音源的定向；基于多个归一化互相关函数，检测阵列的定向的改变；以及响应于阵列的定向的改变，动态地修改音频设备的语音处理参数，使得保留来自期望源的话音同时降低干扰声音。

根据本公开的这些和其他实施例，一种集成电路，用于实现音频设备的至少一部分，可包括音频输出，被配置为通过生成用于到音频设备的至少一个换能器的通信的音频输出信号来再现音频信息；多个麦克风的阵列，其中阵列能够具有相对于阵列的用户的多个位置的定向；以及处理器，被配置为实现近场检测器。处理器可被配置为周期性地计算多个归一化互相关函数，每个互相关函数对应于阵列相对于期望话音源的可能定向；基于多个归一化互相关函数，确定阵列相对于期望话音源的定向；基于多个归一化互相关函数，检测阵列的定向的改变；以及响应于阵列的定向的改变，动态地修改音频设备的语音处理参数，使得保留来自所述期望源的话音同时降低干扰声音。

根据本文所包括的附图、说明书和权利要求书，本领域技术人员可容易地理解本公开的技术优点。实施例的目的和优点将至少通过权利要求中具体指出的要素、特征和组合来实践和实现。

应当理解，前面的一般描述和下面的详细描述都是示例性和说明性的，并且不限制本公开中提出的权利要求。

附图说明

通过参考以下结合附图的描述，可以获得对本发明实施例及其某些优点的更完整的理解，其中相同的附图标记表示相同的特征，并且其中：

图1示出根据本公开的实施例的用例场景的示例，其中各种检测器可以与回放管理系统结合使用以增强用户体验；

图2示出根据本公开的实施例的回放管理系统的示例；

图3示出根据本公开的实施例的基于可控响应功率的波束操纵系统的示例；

图4示出根据本公开的实施例的自适应波束形成器的示例；

图5示出根据本公开的实施例的运动耳机中麦克风的各种可能定向的示意图；

图6示出根据本公开的实施例的所选组件的方框图，其用于实现具有可变麦克风阵列定向的耳机的双麦克风语音处理的音频设备；

图7示出根据本公开的实施例的麦克风校准子系统的所选组件的方框图；

图8示出根据本公开描绘的波束形成器的增益混合方案的示例的曲线图；

图9示出根据本公开的实施例的空间受控自适应滤波器的示例的所选组件的方框图；

图10示出根据本公开描绘的对应于麦克风阵列的特定定向的波束图案的示例图；

图11示出根据本公开的实施例的控制器的示例的所选组件；

图12示出根据本公开的实施例描绘的双麦克风阵列的示例可能方向范围的图示；

图13示出根据本公开的实施例的曲线图，其描绘了从具有自图5示出的位置1和位置3到达的话音的双麦克风阵列获得的方向特定相关统计；

图14示出根据本公开的实施例的流程图，其描绘了为确定是否存在来自相对于麦克风阵列的第一特定方向的话音而进行的示例比较；

图15示出根据本公开的实施例的流程图，其描绘了为确定是否存在来自相对于麦克风阵列的第二特定方向的话音而进行的示例比较；

图16示出根据本公开的实施例的流程图，其描绘了为了确定是否存在来自相对于麦克风阵列的第三特定方向的话音而进行的示例比较的流程图；以及

图17示出根据本公开的实施例描绘的延迟机制的示例的流程图。

具体实施方式

在本公开中，提出了用于具有双麦克风阵列的语音处理的系统和方法，该麦克风阵列该对于控制盒相对于期望声源(例如，用户的嘴部)的位置的任何改变都具有鲁棒性。具体地，公开了使用双麦克风阵列追踪到达方向的系统和方法。此外，本文的系统和方法包括使用基于相关的近场测试统计来准确地追踪到达方向，而没有任何错误警报以避免错误切换。然后可以将此类空间统计用于动态地修改话音增强过程。

根据本公开的实施例，自动回放管理框架可以使用一个或多个音频事件检测器。用于音频设备的此类音频事件检测器可以包括近场检测器，该近场检测器在音频设备的近场中的声音被检测时(诸如，在音频设备的用户(例如，佩戴或以其他方式使用音频设备的用户)讲话时)可进行检测；接近度检测器，该接近度检测器在接近音频设备的声音被检测时(诸如当接近音频设备的用户的另一个人讲话时)可进行检测；以及音调警报检测器，该音调警报检测器检测可在音频设备的附近起源的声学警报。图1示出根据本公开的实施例的用例场景的示例，其中此类检测器可以与回放管理系统结合使用以增强用户体验。

图2示出根据本公开的实施例基于来自事件检测器2的决定来修改回放信号的回放管理系统的示例。处理器7中的信号处理功能性可以包括声学回声消除器1，该声学回声消除器1可以消除由于输出音频换能器8(例如，扬声器)和麦克风9之间的回声耦合而在麦克风9处接收到的声学回声。可以将回声降低信号传送到事件检测器2，该事件检测器2可以检测一个或多个各种环境事件，包括但不限于由近场检测器3检测到的近场事件(例如，包括但不限于来自音频设备的用户的话音)、由接近度检测器4检测到的接近度事件(例如，包括但不限于话音或除近场声音以外的其他环境声音)和/或警报检测器5检测到的音调警报事件。如果检测到音频事件，则基于事件的回放控件6可以修改再现到输出音频转换器8的音频信息(在图2中被示为“回放内容”)的特性。音频信息可以包括可在输出音频换能器8处再现的任何信息，包括但不限于与经由通信网络(例如，蜂窝网络)接收的电话对话关联的下行链路话音和/或来自内部音频源(例如，音乐文件、视频文件等)的内部音频。

如图2所示，近场检测器3可以包括语音活动检测器11，该语音活动检测器11可以由近场检测器3使用以检测近场事件。语音活动检测器11可以包括被配置为执行话音处理以检测人类话音的存在或缺失的任何合适的系统、设备或装置。根据这种处理，语音活动检测器11可以检测近场话音的存在。

如图2所示，接近度检测器4可以包括语音活动检测器13，该语音活动检测器13可以由接近度检测器4使用以检测音频设备附近的事件。与语音活动检测器11类似，语音活动检测器13可以包括被配置为执行话音处理以检测人类话音的存在或缺失的任何合适的系统、设备或装置。

图3示出根据本公开的实施例的基于可控响应功率的波束操纵系统30的示例。基于可控响应功率的波束操纵系统30可以通过实现多个波束形成器33(例如，延迟和总和，和/或，滤波和总和波束形成器)来操作，每个波束形成器33具有不同的观察方向使得整组波束形成器33将覆盖期望关注场。每个波束形成器33的波束宽度可以取决于麦克风阵列孔长度。可以计算来自每个波束形成器33的输出功率，并且可以通过基于可控响应功率的波束选择器35将具有最大输出功率的波束形成器33切换到输出路径34。可以通过具有近场检测器32的语音活动检测器31限制波束选择器35的切换，使得仅当检测到话音时才由波束选择器35测量输出功率，从而防止波束选择器35通过响应空间上的不稳定背景脉冲噪声而在多个波束形成器33之间快速切换。

图4示出根据本公开的实施例的自适应波束形成器40的示例。自适应波束形成器40可以包括能够基于接收到的数据适于改变噪声条件的任何系统、设备或装置。通常，与固定波束形成器相比，自适应波束形成器可以实现更高的噪声消除或干扰抑制。如图4所示，自适应波束形成器40被实现为广义旁瓣消除器(generalized side lobe canceller，GSC)。因此，自适应波束形成器40可以包括固定波束形成器43、分块矩阵44以及包括自适应滤波器46的多输入自适应噪声消除器45。如果自适应滤波器46始终在适应，则其可训练到话音泄漏，这也导致在减法阶段47期间的话音失真。为了增加自适应波束形成器40的鲁棒性，具有近场检测器42的语音活动检测器41可以将控制信号传送到自适应滤波器46以在话音存在时禁用训练或自适应。在这样的实现中，语音活动检测器41可以控制噪声估计时段，其中每当存在话音时都不估计背景噪声。类似地，可以通过使用自适应分块矩阵来进一步改善GSC对话音泄漏的鲁棒性，对该自适应分块矩阵的控制可包括具有脉冲噪声检测器的改进的语音活动检测器，如在题为“使用预白化以用于自适应波束成形的自适应块矩阵(Adaptive Block Matrix Using Pre-Whitening for Adaptive Beam Forming)”的美国专利No.9,607,603中描述的。

图5示出根据本公开的实施例的运动耳机49中的麦克风51(例如51a、51b)相对于用户的嘴部48的各种可能的定向的原理图，其中用户的嘴部是语音相关声音的期望来源。

图6示出根据本公开的实施例的所选组件的方框图，其用于实现具有可变麦克风阵列定向的耳机的双麦克风语音处理的音频设备50。如图所示，音频设备50可以包括麦克风输入52和处理器53。麦克风输入52可以包括被配置为接收指示在麦克风51上的声学压力的电信号(例如，x1、x2)的任何电节点。在一些实施例中，此类电信号可以由位于与音频耳机关联的控制器盒(有时称为通信盒)上的各自麦克风51生成。处理器53可以通信地与麦克风输入52相耦合，并且可以被配置为接收由与麦克风输入52相耦合与麦克风输入52相耦合的麦克风51生成的电信号，并且处理此类信号以执行语音处理，如本文中进一步详述的。尽管出于清楚描述的目的未示出，但是可以将相应模数转换器耦合在麦克风51中的每个与它们各自的麦克风输入52之间，以便将此类麦克风生成的模拟信号转换成可由处理器53处理的相应数字信号。

如图6所示，处理器53可以实现多个波束形成器54、控制器56、波束选择器58、零波束形成器60、空间受控自适应滤波器62、空间受控降噪器64和空间受控自动电平控制器66。

波束形成器54可以包括对应于麦克风输入52的麦克风输入，该麦克风输入52可以基于由此类输入接收的麦克风信号(例如，x1、x2)来生成多个波束。多个波束形成器54中的每个可以被配置为形成多个波束中的各自一个，以在空间上对来自与麦克风输入52相耦合与麦克风输入52相耦合的麦克风51的可听声音滤波。在一些实施例中，每个波束形成器54可以包括单向波束形成器，该单向波束形成器被配置为在期望观察方向上形成各自单向波束以接收来自与麦克风输入52相耦合与麦克风输入52相耦合的麦克风51的可听声音并对其在空间上进行滤波，其中每个这样各自的单向波束可在与其他单向波束形成器54形成的所有其他单向波束的方向不同的方向上具有空间零点，使得单向波束形成器54形成的波束全部具有不同的观察方向。

在一些实施例中，波束形成器54可以被实现为时域波束形成器。由波束形成器54形成的各种波束可以在操作期间始终形成。尽管图6将处理器53描绘为实现三个波束形成器54，但是要注意，可以从与麦克风输入52相耦合的麦克风51形成任何合适数量的波束。此外，应当注意，根据本公开的语音处理系统可以包括任何合适数量的麦克风51、麦克风输入52和波束形成器54。

对于诸如图6描绘的双麦克风阵列，波束形成器54在扩散噪声场中的性能仅当麦克风51的空间分集最大化时才是最佳的。当与麦克风输入52相耦合的两个麦克风51之间的期望语音到达的时间差最大化时，空间分集可最大化。在图6中示出的三个波束形成器实施方式中，波束形成器2的到达时间差通常可能较小，并且因此来自波束形成器2的信噪比(signal-to-noise ratio，SNR)改善可受到限制。对于波束形成器1和3，当期望话音从麦克风51的阵列的任一端到达时(例如，“端射”)，可以将波束形成器位置最大化。因此，在图6所示的三个波束形成器示例中，可以使用延迟和差分波束形成器来实现波束形成器1和3，并且可以使用延迟和求和波束形成器来实现波束形成器2。波束形成器54的这种选择可以最佳地使波束形成器性能与期望信号到达方向对准。

为了最佳性能以及为与麦克风输入52相耦合的麦克风的制造公差提供空间，波束形成器54每个可以包括麦克风校准子系统68，以便在混合两个麦克风信号之前校准输入信号(例如x1、x2)。例如，麦克风信号的电平差异可由麦克风灵敏度的差异以及关联麦克风组装/启动的差异引起。由期望声源与麦克风阵列的接近度引起的近场传播损耗效应也可能会引入麦克风电平差异。这种近场效应的程度可根据相对于期望声源的不同麦克风的定向而改变。如下面进一步描述的，这种近场效应也可以被用来检测麦克风51的阵列的定向。

简要地参考图7，图7示出根据本公开的实施例的麦克风校准子系统68的所选组件的方框图。如图7所示，麦克风校准子系统68可以被分成两个单独的校准块。第一块70可以补偿各个麦克风通道之间的灵敏度差异，并且仅当存在相关漫射和/或远场噪声时，才可以更新在块70中应用于麦克风信号的校准增益(例如，通过麦克风补偿块72)。第二块74可以补偿近场效应，并且仅当检测到期望话音时，才可以更新在块74中应用于麦克风信号的相应校准增益(例如，通过麦克风补偿块76)。因此，再次参考图6，波束形成器54可以混合补偿的麦克风信号并且可以生成波束形成器输出为：

波束形成器1(延迟和差分)：

波束形成器2(延迟和总和)：

波束形成器3(延迟和差分)：

其中

是针对更靠近麦克风51b定位的干扰信号的麦克风51b和麦克风51a之间的到达时间差，

是针对更靠近麦克风51a定位的干扰信号的麦克风51a和麦克风51b之间的到达时间差，并且

和

是使自图5所示的位置2到达的信号，例如，与宽侧位置时间对准所需的时间延迟：

波束形成器54可以将此种时间延迟计算为：

其中，d是麦克风51之间的间隔，c是声音的速度，Fs是采样频率，并且

和

分别是在波束形成器1和3的观察方向上到达的主要干扰信号。

延迟和差分波束形成器(例如，波束形成器1和3)可能会受到高通滤波效应的影响，并且截止频率和阻带抑制可能受到麦克风间距、观察方向、零方向和由于近场效应而产生的传播损耗差异的影响。可以通过在波束形成器1和3的各个输出处应用低通均衡滤波器78来补偿该高通滤波效应。低通均衡滤波器78的频率响应可以由下式给出：

其中

是可以从校准子系统68估计的近场传播损耗差异，

是朝向其聚焦波束的观察方向，并且

是预期干扰自其到达的零方向。如下面更详细地描述，到达方向(direction of arrival，doa)估计以及控制器56产生的近场控制可以用于动态地设置位置特定波束形成器参数。替代架构可包括固定波束形成器，其后是自适应空间滤波器，以增强动态变化噪声场中的噪声消除性能。作为具体示例，针对波束形成器1的观察方向和零方向可以分别设置为-90°和30°，而针对波束形成器3，相应的角度参数可以分别设置为90°和30°。波束形成器2的观察方向可以设置为0°，这可以在非相干噪声场中提供信噪比改善。应当注意，对应于波束形成器3的观察方向的麦克风阵列的位置可以非常靠近期望声源(例如，用户的嘴部)，并且因此可针对波束形成器1和3不同地设置低通均衡滤波器78的频率响应。

波束选择器58可以包括任何合适的系统、设备或装置，其被配置为从波束形成器54接收同时形成的多个波束并且基于来自控制器56的一个或多个控制信号选择将同时形成的波束中的哪些输出到空间受控自适应滤波器62。另外，每当所选波束形成器54发生变化的麦克风阵列的所检测到的定向发生改变时，波束选择器58也可以通过混合波束形成器54的输出在选择之间转变，以便产生由波束之间的这种转变引起的伪影。因此，波束选择器58可以包括用于每个波束形成器54的输出中的增益块，并且可以在一段时间内修改施加到输出的增益，以在波束选择器58从一个所选波束形成器54转变到另一个所选波束形成器54时确保波束形成器输出的平滑混合。实现这种平滑的示例方法可以是使用简单的基于递归平均滤波器的方法。具体地，如果i和j分别是阵列定向改变之前和之后的耳机位置，并且刚好在切换之前的相应增益分别是1和0，则在此波束形成器54之间的选择的转变期间，这两个波束形成器54的增益可以被修改为：

g_i[n]＝δ_gg_i[n]

g_j[n]＝＝δ_gg_j[n]+(1-δ_g)

其中δ_g是控制增益的斜坡时间的平滑常数。参数δ_g可以定义到达最终稳定状态增益的63.2％所需的时间。重要的是应注意，这两个增益值的总和在任何时候都保持为1，从而确保相等能量输入信号的能量保存。图8示出根据本公开描绘的这种增益混合方案的曲线图。

从所选固定波束形成器54的任何信噪比(SNR)改善在散射噪声场中可能是最佳的。然而，如果定向干扰噪声在空间上不平稳，则SNR改善可受到限制。为了改善SNR，处理器53可以实现空间受控自适应滤波器62。简要参考图9，图9示出根据本公开的实施例的示例空间受控自适应滤波器62的所选组件的方框图。在操作时，空间受控自适应滤波器62可以具有将所选波束形成器54的零点动态地操纵朝向主要定向干扰噪声的能力。仅当未检测到期望话音时，才可以更新空间受控自适应滤波器62的滤波器系数。通过组合两个麦克风信号x1和x2产生到空间受控自适应滤波器62的参考信号，使得参考信号b[n]包括尽可能少的期望话音信号以避免话音抑制。零波束形成器60可以产生具有聚焦朝向期望话音方向的零点的参考信号b[n]。零波束形成器60可以将参考信号b[n]产生为：

针对图5中示出的位置1(延迟和差分)：

针对图5中示出的位置2(延迟和差分)：

针对图5中示出的位置3(延迟和差分)：

其中

和

是补偿近场传播损耗效应的校准增益(下文更详细地描述)，其中此类校准值针对不同的耳机位置可不同，并且其中：

其中θ和

分别是位置1和3中的期望信号方向。零波束形成器60包括两个校准增益，以减少噪声参考信号的期望话音泄漏。位置2中的零波束形成器60可以是延迟和差分波束形成器，并且其可以使用用于前端波束形成器54中的相同时间延迟。作为单一零波束形成器60的替代，也可以使用类似于前端波束形成器54的一组零波束形成器。在其他替代实施例中，可以使用其他零波束形成器实施方案。

作为说明性示例，在图10中描绘了针对所选固定前端波束形成器54和噪声参考零波束形成器60的对应于图5的位置3的波束图案(例如，自90°的角度到达的期望话音)。在操作时，零波束形成器60可以是自适应的，因为其可以随着期望话音方向的变化而动态地修改其零点。

图11示出根据本公开的实施例的示例控制器56的所选组件。如图11所示，控制器56可以实现归一化互相关块80、归一化最大相关块82、方向特定相关块84、到达方向块86、横向统计块88、麦克风间电平差异块90和多个话音检测器92(例如，话音检测器92a、92b和92c)。

当声源靠近麦克风51时，此种麦克风的直接混响信号比通常可能很高。直接混响信号比可以取决于房间/外壳以及在近场源和麦克风51之间的路径中的其他物理结构的混响时间(RT60)。当源与麦克风51之间的距离增加时，则由于直接路径中的传播损耗，直接混响信号比可减小，并且混响信号的能量可相当于直接路径信号。这种概念可由控制器56的部件使用以导出有价值的统计，该有价值的统计将指示对阵列位置具有鲁棒性的近场信号的存在。归一化互相关块80可以将麦克风51之间的互相关序列计算为：

其中m的范围是：

归一化最大相关块82可使用互相关序列以将最大归一化相关统计计算为：

其中E_xi对应于第i个麦克风能量。归一化最大相关块82还可将平滑应用到该结果，以将归一化最大相关统计(normalized maximum correlation，normMaxCorr)产生为：

其中δ_r是平滑常数。

方向特定相关块84可能够计算检测来自位置1和3的话音所需的方向特定相关统计(direction specific correlation statistic，dirCorr)，如下面在图12中示出。首先，方向特定相关块84可确定不同方向性区域内的归一化互相关函数的最大值：

第二，方向特定相关块84可如下确定方向性相关统计的最大偏移：

β₁[n]＝max{|γ₂[n]-γ₁[n]|，|γ₃[n]-γ₁[n]|}

β₂[n]＝max{|γ₁[n]-γ₂[n]|，|γ₃[n]-γ₂[n]|}

最后，方向特定相关块84可如下计算方向特定相关统计dirCorr：

β[n]＝β₂[n]-β₁[n]

图13示出从具有图5所示的位置1和3到达的话音的双麦克风阵列获得的方向特定相关统计dirCorr的曲线图。从图13可以看出，方向特定相关统计dirCorr可以提供辨别以检测位置1和位置3。

然而，方向特定相关统计dirCorr可能无法区分在图5所示的位置2中的话音和扩散背景噪声。然而，横向统计块88可以通过以下项来检测来自位置2的话音：估计来自区域

的方向性最大归一化互相关统计γ₃[n]的方差，并确定该方差是否是小，其可指示从宽侧方向(例如，位置2)到达的近场信号。横向统计块88可以通过追踪统计γ₃[n]的移动平均值将方差计算为：

其中μ_γ[n]是γ₃[n]的平均值，

是对应于移动平均值的持续时间的平滑常数，并且

表示γ₃[n]的方差。

互相关序列的空间解析度可首先通过使用拉格朗日内插函数内插互相关序列来增加。到达方向块86可通过选择对应于内插互相关序列

的最大值的滞后而将到达方向(direction of arrival，DOA)统计doa计算为：

到达方向块86可通过使用以下方程式而将该选择的滞后指数转换为角度值，以将DOA统计doa确定为：

其中F_r＝rF_s是插值取样频率并且r是内插速率。为了减少由于离群值引起的估计误差，到达方向块86可以使用中值滤波器DOA统计doa来提供原始DOA统计doa的平滑版本。可以将中值滤波器窗口大小设置为任何合适数目的估计(例如，三个)。

如果双麦克风阵列在期望信号源附近，则麦克风间电平差异块90可通过比较两个麦克风51之间的信号电平来利用R2损耗现象，以产生麦克风间电平差异统计(inter-microphone level difference，imd)。如果近场信号比远场信号显著响亮，则这种麦克风间电平差异统计imd可以用于区分近场期望信号以及远场或扩散场干扰信号。麦克风间电平差异块90可以将麦克风间电平差异统计imd计算为第一麦克风信号x1的能量与第二麦克风能量x2的比率：

麦克风间电平差异块90可以将该结果平滑为：

ρ[n]＝δ_ρρ[n-1]+(1-δ_ρ)imnd[n]

仅当背景中存在话音时才可以触发由波束选择器58进行的所选波束的切换。为了避免来自可自不同方向到达的竞争性讲话者话音的错误警报，可以使用语音活动检测的三个实例。具体地，话音检测器92可以对波束形成器54的输出执行语音活动检测。例如，为了切换到波束形成器1，话音检测器92a必须检测波束形成器1的输出处的话音。可以使用任何合适的技术来检测给定输入信号中话音的存在。

控制器56可以被配置为使用上述各种统计信息，以从麦克风阵列的定向的各个位置检测话音的存在。

图14示出根据本公开的实施例示出的可以由控制器56进行的示例比较以确定是否存在来自如图5所示的位置1的话音的流程图。如图14所示，如果满足以下条件，则可以确定存在来自位置1的话音：(i)到达方向统计doa在特定范围内；(ii)方向特定相关统计dirCorr高于预定阈值；(iii)归一化最大相关统计(normalized maximum correlation，normMaxCorr)高于预定阈值；(iv)麦克风间电平差异统计imd大于预定阈值；以及(v)话音检测器92a检测存在来自位置1的话音。

图15示出根据本公开的实施例示出的可以由控制器56进行的示例比较以确定是否存在来自如图5所示的位置2的话音的流程图。如图15所示，如果满足以下条件，则可以确定存在来自位置2的话音：(i)到达方向统计doa在特定范围内；(ii)横向统计低于预定阈值；(iii)归一化最大相关统计normMaxCorr高于预定阈值；(iv)麦克风间电平差异统计imd在指示麦克风信号x1和x2具有大约相同能量的范围内；以及(v)话音检测器92b检测存在来自位置2的话音。

图16示出根据本公开的实施例示出的可以由控制器56进行的示例比较以确定是否存在来自如图5所示的位置3的话音的流程图。如图16所示，如果满足以下条件，则可以确定存在来自位置3的话音：(i)到达方向统计doa在特定范围内；(ii)方向特定相关统计dirCorr低于预定阈值；(iii)归一化最大相关统计normMaxCorr高于预定阈值；(iv)麦克风间电平差异统计imd小于预定阈值；以及(v)话音检测器92c检测存在来自位置3的话音。

如图17所示，控制器56可以实现延迟逻辑以避免所选波束形成器54的过早或频繁切换。例如，如图17所示，当已经发生未选择的波束形成器54的观察方向中阈值数量的瞬时话音检测达到阈值时，控制器56可以使波束选择器58在波束形成器54之间切换。例如，延迟逻辑可以通过确定是否检测到来自位置“i”的声音而在步骤102开始。如果没有检测到来自位置“i”的声音，则在步骤104，延迟逻辑可以确定是否检测到来自另一个位置的声音。如果检测到来自另一个位置的声音，则在步骤106，延迟逻辑可重设位置“i”的延迟计数器。

在步骤102，如果检测到来自位置“i”的声音，则在步骤108，延迟逻辑可增加位置“i”的延迟计数器。

在步骤110，延迟逻辑可确定位置“i”的延迟计数器是否大于阈值。如果小于阈值，则控制器56可以在步骤112将所选波束形成器54保持在当前位置。否则，如果大于阈值，则在步骤114，控制器56可以将所选波束形成器54切换为具有位置“i”的观察方向的波束形成器54。

如上该延迟逻辑可以在所关注的每个位置/观察方向上实现。

再次参考图6，在通过空间受控自适应滤波器62处理之后，可以通过其他信号处理块来处理所得信号。例如，如果控制器56生成的空间控制指示类话音干扰不是期望话音，则空间受控降噪器64可以改善背景噪声的估计。

此外，当麦克风阵列的定向改变时，麦克风输入信号电平可根据阵列与用户嘴部的接近度而变化。这种突然信号电平变化可在处理后的输出中引入不良音频伪像。因此，空间受控自动电平控制器66可以基于麦克风阵列的定向的变化来动态地控制信号压缩/扩展电平。例如，当将阵列被带至非常靠近嘴部时，可以将衰减快速应用于输入信号，以避免饱和。具体地，如果将阵列从位置1移动到位置3，则最初在位置1调适的自动电平控制系统中的正增益可抑制来自位置3的信号。类似地，如果将阵列从位置3移动到位置1，则意图针对位置3的自动电平控制系统中的负增益可衰减来自位置1的信号，从而使处理后的输出保持安静直到增益针对位置3恢复调适。因此，空间受控自动电平控制器66可以通过启动具有针对每个位置相关的初始增益的自动电平控制来减轻这些问题。空间受控自动电平控制器66还可以从该初始增益调适以考虑话音电平的动态变化。

尤其是受益于本公开的本领域普通技术人员应当理解，本文描述的各种操作，尤其是与附图结合的描述，可以由其他电路或其他硬件组件来实现。执行给定方法的每个操作的顺序可以改变，并且可以添加、记录、组合、省略、修改等本文所示的系统的各种元件。本公开旨在包含全部此类修改和改变以及因此应该将上文描述视为示例性而非限制性意义。

类似地，尽管本公开参考了特定实施例，但是在不脱离本公开的范围和覆盖范围的情况下，可以对那些实施例进行某些修改和改变。此外，针对特定实施例在本文描述的任何益处、优点或问题的解决方案均不旨在被解释为关键、必需或基本特征或元件。

同样地，受益于本公开的其他实施例对于本领域普通技术人员将是显而易见的，并且此类实施例应被视为包含在本文中。

Claims

1.一种语音处理的方法，用于具有多个麦克风的阵列的音频设备中，其中所述阵列能够具有相对于所述阵列的用户的多个位置的定向，所述方法包括：

周期性地计算多个归一化互相关函数，每个互相关函数对应于所述阵列相对于期望话音源的可能定向；

基于所述多个归一化互相关函数，确定所述阵列相对于所述期望话音源的定向；

基于所述多个归一化互相关函数，检测所述阵列的所述定向的改变；以及

响应于所述阵列的所述定向的改变，动态地修改所述音频设备的语音处理参数，使得保留来自所述期望话音源的话音同时降低干扰声音；

其中动态地修改所述音频设备的语音处理参数包括处理话音以考虑所述多个麦克风的所述阵列相对于所述期望话音源的接近度的改变。

2.根据权利要求1所述的方法，其中所述音频设备包括耳机。

3.根据权利要求2所述的方法，其中所述多个麦克风的阵列位于所述耳机的控制箱中，使得所述多个麦克风的所述阵列相对于所述期望话音源的所述位置不固定。

4.根据权利要求1所述的方法，其中所述期望话音源是所述用户的嘴部。

5.根据权利要求1所述的方法，其中修改语音处理参数包括从所述音频设备的多个定向波束形成器中选择用于处理声能的定向波束形成器。

6.根据权利要求5所述的方法，进一步包括响应于以下至少一项的存在来校准所述多个麦克风的所述阵列：用于补偿近场传播损耗的近场话音、扩散噪声和远场噪声。

7.根据权利要求6所述的方法，其中校准所述多个麦克风的所述阵列包括生成校准信号，所述校准信号由所述定向波束形成器使用以用于处理声能。

8.根据权利要求6所述的方法，其中校准所述多个麦克风的所述阵列包括基于所述阵列的定向的改变进行校准。

9.根据权利要求5所述的方法，进一步包括基于所述多个定向波束形成器的输出来检测话音的存在。

10.根据权利要求1所述的方法，其中基于所述阵列的定向的所述改变来动态地修改所述定向波束形成器的观察方向。

11.根据权利要求1所述的方法，进一步包括使用自适应空间滤波器来自适应地消除空间上的不稳定噪声。

12.根据权利要求11所述的方法，进一步包括使用自适应零波束形成器来生成对所述自适应空间滤波器的噪声参考。

13.根据权利要求12所述的方法，进一步包括：

追踪来自所述期望话音源的话音的到达方向；以及

基于所述话音的到达方向和所述阵列的定向的所述改变，动态地修改所述自适应零波束形成器的零方向。

14.根据权利要求12所述的方法，进一步包括响应于以下至少一项的存在来校准所述多个麦克风的所述阵列：用于补偿近场传播损耗的近场话音、扩散噪声和远场噪声，其中校准所述多个麦克风的所述阵列包括生成所述噪声参考。

15.根据权利要求11所述的方法，包括：

监测近场话音的存在；以及

响应于检测到近场话音的所述存在，暂停所述自适应空间滤波器的自适应。

16.根据权利要求1所述的方法，进一步包括追踪来自所述期望话音源的话音的到达方向。

17.根据权利要求1所述的方法，进一步包括基于所述阵列的所述定向来控制单一通道降噪算法的噪声估计。

18.根据权利要求1所述的方法，进一步包括基于所述多个归一化互相关函数、来自期望声源的到达方向的估计、麦克风间电平差异以及话音的存在或缺失来检测所述阵列的所述定向。

19.根据权利要求1所述的方法，进一步包括使用延迟机制来验证所述阵列的所述定向。

20.一种集成电路，用于实现音频设备的至少一部分，包括：

音频输出，被配置为通过生成用于到所述音频设备的至少一个换能器的通信的音频输出信号来再现音频信息；

多个麦克风的阵列，其中所述阵列能够具有相对于所述阵列的用户的多个位置的定向；以及

处理器，被配置为实现近场检测器，所述近场检测器被配置为：

21.根据权利要求20所述的集成电路，其中所述音频设备包括耳机。

22.根据权利要求20所述的集成电路，其中所述多个麦克风的阵列位于耳机的控制箱中，使得所述多个麦克风的所述阵列相对于所述期望话音源的所述位置不固定。

23.根据权利要求20所述的集成电路，其中所述期望话音源是所述用户的嘴部。

24.根据权利要求20所述的集成电路，其中修改语音处理参数包括从所述音频设备的多个定向波束形成器中选择用于处理声能的定向波束形成器。

25.根据权利要求24所述的集成电路，进一步包括响应于以下至少一项的存在来校准所述多个麦克风的所述阵列：用于补偿近场传播损耗的近场话音、扩散噪声和远场噪声。

26.根据权利要求25所述的集成电路，其中校准所述多个麦克风的所述阵列包括生成校准信号，所述校准信号由所述定向波束形成器使用以用于处理声能。

27.根据权利要求25所述的集成电路，其中校准所述多个麦克风的所述阵列包括基于所述阵列的定向的改变进行校准。

28.根据权利要求24所述的集成电路，进一步包括基于所述多个定向波束形成器的输出来检测话音的存在。

29.根据权利要求24所述的集成电路，其中基于所述阵列的定向的所述改变来动态地修改所述定向波束形成器的观察方向。

30.根据权利要求20所述的集成电路，进一步包括使用自适应空间滤波器来自适应地消除空间上的不稳定噪声。

31.根据权利要求30所述的集成电路，进一步包括使用自适应零波束形成器来生成对所述自适应空间滤波器的噪声参考。

32.根据权利要求31所述的集成电路，进一步包括：

追踪来自所述期望话音源的话音的到达方向；以及

基于所述到达方向和所述阵列的定向的所述改变，动态地修改所述自适应零波束形成器的零方向。

33.根据权利要求31所述的集成电路，进一步包括响应于以下至少一项的存在来校准所述多个麦克风的所述阵列：用于补偿近场传播损耗的近场话音、扩散噪声和远场噪声，其中校准所述多个麦克风的所述阵列包括生成所述噪声参考。

34.根据权利要求30所述的集成电路，包括：

监测近场话音的存在；以及

35.根据权利要求20所述的集成电路，进一步包括追踪来自所述期望话音源的话音的到达方向。

36.根据权利要求20所述的集成电路，进一步包括基于所述阵列的所述定向来控制单一通道降噪算法的噪声估计。

37.根据权利要求20所述的集成电路，进一步包括基于所述多个归一化互相关函数、来自期望声源的到达方向的估计、麦克风间电平差异以及话音的存在或缺失来检测所述阵列的所述定向。

38.根据权利要求20所述的集成电路，进一步包括使用延迟机制来验证所述阵列的所述定向。