CN111370014A

CN111370014A - 多流目标-语音检测和信道融合

Info

Publication number: CN111370014A
Application number: CN201911241535.7A
Authority: CN
Inventors: F.内斯塔; S.M.卡斯卡里
Original assignee: Synaptics Inc
Current assignee: Synaptics Inc
Priority date: 2018-12-06
Filing date: 2019-12-06
Publication date: 2020-07-03
Anticipated expiration: 2039-12-06
Also published as: US11158333B2; US20220013134A1; US20200184985A1; CN111370014B; US11694710B2; JP2020109498A; JP7407580B2

Abstract

音频处理系统和方法包括：音频传感器阵列，其可操作以接收多信道音频输入并生成对应的多信道音频信号；以及目标语音检测逻辑和自动语音识别引擎或VoIP应用。一种音频处理设备包括：目标语音增强引擎，其可操作以分析多信道音频输入信号以及生成多个增强目标流；多流目标语音检测发生器，其包括多个目标语音检测器引擎，所述目标语音检测器引擎各自可操作以确定在流中检测到感兴趣的特定目标语音的概率，其中多流目标语音检测发生器可操作以确定与增强目标流相关联的多个权重；以及融合子系统，其可操作以将多个权重应用于增强目标流以生成增强输出信号。

Description

多流目标-语音检测和信道融合

相关申请的交叉引用

本申请要求2018年12月6日提交的并且标题为“MULTI-STREAM TARGET-SPEECHDETECTION AND CHANNEL FUSION”的美国临时专利申请No.62/776,422的优先权和权益，其通过引用以其整体特此并入。

技术领域

根据一个或多个实施例，本申请总体上涉及用于音频处理的系统和方法，并且更特别地，例如，涉及检测、跟踪和/或增强用于关键词检测的一个或多个音频目标。

背景技术

基于音频交互的人机界面（HCI）近年来随着智能扬声器、话音控制设备和并入话音交互的其它设备的出现而已经变得非常流行。在话音激活的系统中，通常在两个阶段中获得交互：（i）通过说出特定的激活关键词来激活系统，以及然后（ii）说出要由系统处理的特定问题或话音命令。第一阶段通常由自动关键词定点（KWS）算法来处理，以识别嵌入有噪声的音频信号中的特定词。第二阶段通常由自然语言和自动语音识别系统来处理。虽然当前系统提供了对于许多现实世界场景而言大体上可接受的结果，但是结果通常遭受环境中的强噪声的存在。类似地，在远场VoIP应用中，通常需要仅流式传输（stream）感兴趣的特别目标语音，这在存在响的噪声或其它干扰扬声器的情况下是困难的任务。因此，存在对用于ASR和VoIP应用两者的有噪声的环境中的关键词定点和语音增强的改进的系统和方法的持续需要。

发明内容

本公开提供了用于在有噪声的音频信号中检测、跟踪和/或增强目标音频源（诸如人类语音）的方法和系统。音频处理系统和方法包括：音频传感器阵列，其可操作以接收多信道音频输入并生成对应的多信道音频信号；以及目标-语音检测逻辑和自动语音识别引擎。音频处理设备包括：目标语音增强引擎，其可操作以分析多信道音频输入信号以及生成多个增强的目标流；多流预训练目标-语音检测引擎，其包括多个预训练的检测器引擎，所述检测器引擎各自可操作以确定在流中检测到目标-语音的概率，其中多流目标-语音检测发生器可操作以确定与增强的目标流相关联的多个权重；以及融合子系统，其可操作以将多个权重应用于增强的目标流以生成增强输出信号。

本公开的范围由权利要求限定，所述权利要求通过引用并入到此部分中。通过考虑以下对一个或多个实施例的详细描述，本领域技术人员将被给予对本发明的实施例的较完整的理解，以及其附加优点的实现。将对将首先被简要描述的附图的附页进行参考。

附图说明

参考以下附图和随后的详细描述，可以较好地理解本公开的各方面及其优点。应当领会的是，相同的参考标号用于标识一个或多个附图中所图示的相同元件，其中在其中的示出是为了说明本公开的实施例的目的，而不是为了限制本公开的实施例的目的。附图中的部件不一定是按比例的，而是将重点放在清楚地说明本公开的原理上。

图1图示了根据本公开的一个或多个实施例的多流目标-语音定点和流信号融合的示例。

图2图示了根据本公开的一个或多个实施例的多流关键词定点系统的示例实施方式。

图3图示了根据本公开的一个或多个实施例的示例关键词定点系统。

图4图示了根据本公开的一个或多个实施例的在关键词定点系统中使用的示例音频处理部件。

具体实施方式

本文中公开了用于在有噪声的音频信号中检测、跟踪和/或增强目标音频源（诸如人类语音）的系统和方法。系统和方法包括改进的多流目标-语音检测和信道融合。

在各种实施例中，话音激活的系统通过使用户（i）通过说出特定的激活关键词来激活系统，以及然后（ii）说出要由系统处理的特定问题或话音命令来进行操作。第一阶段由自动关键词定点（KWS）算法处理，该算法使用机器学习方法来识别嵌入有噪声的音频信号中的特定词。第二阶段由自然语言和通常在云服务器上运行的自动语音识别系统来处理。本文中公开的实施例包括改进的多信道语音增强，以在要将音频信号馈送到KWS、发送到云ASR引擎或通过VoIP应用流式传输之前，对音频信号进行预处理。

用于减少来自音频信号的噪声的在线多信道语音增强技术遭受在本公开中解决以改进话音启用设备的可用性的一些概念限制。例如，在线多信道语音增强技术典型地需要对构成要增强的目标语音的内容的清晰定义。此定义可通过话音活动检测器（VAD）或通过采用一些几何知识（如，例如，预期的到达的源方向（DOA））来做出。基于VAD的多信道系统通常能够减少不包含语音的噪声。然而，在许多场景中，噪声源可能包含被识别为话音活动的语音内容，诸如来自电视或无线电的音频以及来自竞争谈话者的语音。另一方面，基于几何知识的增强方法需要关于期望谈话者的物理位置的先验知识。对于免提远场话音应用，该位置通常是未知的，并且如果在同一环境中存在两个谈话者，则可能难以确定而没有歧义。在线多信道语音增强技术的另一限制在于，当谈话者的位置相对于麦克风不变时，它们大多是有效的。如果谈话者的位置急剧改变，则滤波参数需要适应新的几何配置，并且在适应期间，信号质量可能严重降级。

部分地解决基于VAD的增强的限制的一种方法是多信道盲源分离（BSS）。BSS方法可以在没有明确定义什么是感兴趣的目标源的情况下产生对输出源信号的估计。事实上，它们仅尝试分解在其单独空间分量中的混合物，例如，从3D空间中的不同物理位置传播的单独声源。这允许成功地采用BSS来分离与多个谈话者相关联的信号。然而，在实践应用中，仍然存在用于定义什么是感兴趣的“目标”语音的后验的需要。

为了解决上述问题，本文中公开了一种系统架构，其将多信道源增强/分离与并行预训练的检测器组合，以定点感兴趣的特别语音。生成多个流并将其馈送到多个检测器，所述多个检测器被训练以识别感兴趣的特定的信号/源。然后使用检测的可能性来生成用于将所有流组合成单个流的权重，该单个流由具有较高检测置信度的流组成或支配。

在各种实施例中，在存在重叠语音的持续噪声源的场景中，本文中公开的系统架构能够改进ASR应用的KWS检测性能。该场景的示例是当TV播放连续的响的音频信号时，而用户想要与系统交互时。系统架构还可以通过根据目标-语音检测器响应组合最佳输出信号来产生ASR引擎的最优增强的输出信号。

参考图1，图示了根据本申请的一个或多个实施例的目标-语音检测器系统100的示例。系统100包括多流信号生成子系统102、多流目标-语音检测器（TSD）引擎120；以及（iii）融合子系统140。

多流信号生成子系统102包括多个N个不同的语音增强模块，每个语音增强模块使用不同的增强分离准则。在各种实施例中，增强分离准则可以包括：（i）适应性空间滤波算法，诸如具有不同固定或适应性看的方向的波束成形；（ii）固定波束成形算法、例如延迟和总和波束成形、心形配置等；（iii）产生与独立源相关的多个输出的盲源分离算法；（IV）基于语音统计模型和信噪比（SNR）跟踪的传统单信道增强；（v）诸如基于非负矩阵因子分解（NMF）或神经网络的数据驱动语音增强方法和/或（vi）其它方法。每个模块可能产生不同数量的输出流S_N，其将取决于用于语音增强的特别算法。

由多流信号生成子系统102产生的输出流110被馈送到多个并行TSD引擎122。TSD引擎122可以基于目标语音/扬声器或关键词定点技术，包括传统的高斯混合模型和隐马尔可夫模型和/或递归神经网络，诸如长短期记忆（LSTM）、门控递归单元（GRU）和其它神经网络技术。每个TSD引擎122可操作以产生与到对应TSD引擎122的输入信号包含特定训练的目标语音的置信度相关的后验权重124。在一些实施例中，TSD引擎122被训练为被偏置以利用清晰语音（例如，通过限制训练数据中的噪声量）产生较高后验。因此，由于馈送到多流信号生成级的输入信号104相同，所以较高后验暗示着对应的输入语音信号将更接近清晰且未失真。在各种实施例中，通过将单独的TSD后验

归一化为：

来获得权重124。

融合子系统140使用权重124并应用可编程启发来组合输出流110。该组合可以作为信号的加权总和来获得为

，其中，

是权重的非线性函数（例如，“max”运算符或其它对比函数）。可以通过使用具有记忆的函数

来采用较复杂的组合，诸如采用信道的时间一致性。例如，如果一些流的权重彼此类似，则融合子系统可以被偏置以选择相同信道的影响（contribution），因此减少信号不连续。在一些实施例中，可以定义优先级的动态顺序。

TSD引擎120还包括可编程逻辑，其可操作以产生用于目标-语音检测

的组合的后验。该后验可用于最终检测，其能够被定义为：

其中

是连接到输出

的用于检测的检测阈值，以及

是从单独检测计算组合检测的函数，并且可以被实现为逻辑运算符的组合。组合的输出

和检测

然后被馈送到可以在云、网络服务器或其它主机系统上实现的自动语音识别引擎150。

鉴于前述内容，本公开的一个或多个实施例包括一种系统，所述系统包括：目标语音增强引擎，其配置成分析多信道音频输入信号以及生成多个增强的目标流；多流目标-语音检测器发生器，其包括多个目标-语音检测器引擎，所述目标-语音检测器引擎各自配置成确定流中特定目标-语音的质量和/或存在的置信度，其中多流目标-语音检测发生器配置成确定与增强的目标流相关联的多个权重；以及融合子系统，其配置成将多个权重应用于所述增强的目标流以生成组合的增强的输出信号。

系统还可包括音频传感器阵列，其配置成感测人类语音和环境噪声以及生成对应多信道音频输入信号。在一些实施例中，目标语音增强引擎包括多个语音增强模块，每个语音增强模块配置为分析多信道音频输入信号并且输出增强的目标流中的一个，并且包括适应性空间滤波算法、波束成形算法、盲源分离算法、单信道增强算法和/或神经网络。在一些实施例中，目标-语音检测器引擎包括高斯混合模型、隐马尔可夫模型和/或神经网络，并且被配置为产生与输入音频流包括特定目标语音的置信度相关的后验权重。

参考图2，现在将描述用于系统的可能的实践实施方式的示例。所图示的示例是指目标是要选择包含特定语音关键词且具有最高语音质量的流的情况。关键词定点系统200包括多流信号生成子系统202、多流KWS（MSKWS）引擎220；以及（iii）融合子系统240。多流信号生成子系统202包括多个语音增强模块202a-g，其中每个语音增强模块使用不同的增强分离准则。由多流信号生成子系统202产生的输出流210被馈送到多个并行KWS引擎222a-h。每个KWS引擎222a-h可操作以产生对应的后验权重

，其与到对应KWS引擎222a-h的输入信号包含特定训练的关键词的置信度相关。

融合子系统240使用信号权重

并且被编程为组合输出流210以产生组合的输出

。MSKWS引擎220还包括可编程逻辑224，其可操作以产生用于KWS检测

的组合的后验。组合的输出

和检测

然后被馈送到自动语音识别引擎以用于进一步处理。

在该示例中，定义了四种不同的“增强”算法类别。第一类别通过使用在不同的预定义方向（增强块202a、202b、202c和202d）上操纵方向的波束成形器来产生四个增强的输出流。每个波束成形器组合多个输入信号以便抑制噪声，同时维持在操纵方向上的整体增益。波束成形器算法可以是固定的滤波-及-总和，诸如延迟及总和（D&S），或者适应性的一个，类似最小方差无失真响应（MVDR）。

第二类别由在方向

上操纵方向的适应性波束成形器（增强块202e）表示，其中该方向与输入数据在线适应。例如，可以采用话音活动检测（VAD）来更新方向

。

也可以从诸如视频捕获、有源超声成像、RFID梯度图等的其它多模态信号中导出。该增强算法的目标是在

的估计是可靠的情况下，提供较准确的输出信号。注意，如果多个方向

是可用的，则该类别能够产生较多输出流。例如，用于跟踪多个声源的系统可以估计最主导的源的角度方向和仰角。然后，适应性波束成形将产生在这些方向上增强的多个流，但那些流中的仅一个将包含系统用户的语音。增强的信号本身可以通过MVDR或广义本征值（或maxSNR）波束成形器来获得。

第三类别由增强方法表示，该增强方法不依赖于关于第一类别和第二类别（例如，单信道增强块202f）中的算法的任何空间提示。此方法将具有通过仅估计可从单信道观察导出的噪声频谱统计来增强任何噪声的目标。方法可以通过传统的数据独立的基于SNR的语音增强（例如诸如Wiener滤波）或通过数据相关或基于模型的算法（例如，通过深度神经网络或NMF的频谱屏蔽估计）来实现。

第四类别由BSS算法（202g）表示，BSS算法在统计上独立的输出流中分解输入。该方法将目标语音与噪声或其它干扰语音源分离，并且可以通过独立的矢量分析、独立分量分析、多信道NMF、深度聚类或通过用于无监督源分离的其它方法来实现。

在图示的实施例中，选择四个不同的增强类别，使得每个的特征在于在不同的现实世界条件下的不同的特定行为。例如，如果用户位于操纵方向上且混响量可忽略，则预期第一类别中的输出信号产生良好输出信号。然而，如果这些条件不满足，则输出可以是灵敏地失真的。另一方面，第二类别中的方法能够适应真实声源方向，因为那些方向随数据被更新。另一方面，如果噪声位于目标语音的相同方向上，则与定向波束成形相比，基于BSS的第四方法将提供更好的分离流。同时，如果源正在移动或间歇活动，则在用户方向上或BSS滤波器估计中将存在固有不确定性。在这些条件下，由第三类别提供的信号可以更可靠，因为它将完全独立于源空间信息。

通过由属于正交类别的技术生成输出流，系统能够产生对于观察到的特定场景而言最优的至少一个输出流。KWS引擎然后将被应用于所有流，以产生最终检测并且以产生发送到自然语言ASR引擎的组合的输出。在该示例中，选择具有最大（归一化）检测后验的流：

。

另外，在所图示实施例中的最终检测状态被确定为所有单独触发器检测的逻辑“或”组合。将领会的是，图2中描述的系统仅是帮助更好地理解图1中和本文中其它地方所描述的一般结构的范围的示例，并且不同的系统实施方式在本公开的范围内。尽管所图示的系统目标在于改进用于ASR应用的KWS检测和信道选择，但在其它实施例中，本文中所公开的架构可被修改用于其它应用。例如，可以实现递归神经网络来预测语音活动或产生与平均SNR相关的归一化分数以预测信号的质量，并且因此产生可以用于IP语音（VoIP）应用的组合的信道，而不使用如在图2中描述的KWS引擎。因此，这些网络的后验将给出关于如何组合流以最大化VoIP应用的SNR的指示。在另一个实施例中，可以由话音认证系统（VA）代替KWS，以便仅聚焦在包含特定谈话者的语音的信道上。

图3图示了根据本公开的各种实施例的可实现关键词定点子系统的音频处理设备300。音频处理设备300包括音频输入，诸如音频传感器阵列305、音频信号处理器320和主机系统部件350。音频传感器阵列305包括一个或多个传感器，每个传感器可以将声波转换成音频信号。在所图示的环境中，音频传感器阵列305包括多个麦克风305a-305n，每个麦克风生成多信道音频信号的一个音频信道。

音频信号处理器320包括音频输入电路322、数字信号处理器324和可选的音频输出电路326。在各种实施例中，音频信号处理器320可以被实现为包括模拟电路、数字电路和数字信号处理器324的集成电路，其可操作以执行存储在存储器中的程序指令。例如，音频输入电路322可包括到音频传感器阵列305的接口、抗混叠滤波器、模数转换器电路、回声消除电路和其它音频处理电路和部件。

数字信号处理器324可以包括以下中的一个或多个：处理器、微处理器、单核处理器、多核处理器、微控制器、可编程逻辑器件（PLD）（例如，现场可编程门阵列（FPGA））、数字信号处理（DSP）设备或可通过硬连线、执行软件指令或两者的组合来配置的其它逻辑器件，以执行本文中针对本公开的实施例所讨论的各种操作。

数字信号处理器324可操作以处理多信道数字音频输入信号以生成增强的音频信号，其输出到一个或多个主机系统部件350。在一个实施例中，数字信号处理器324可操作以诸如通过总线或其它电子通信接口与主机系统部件350接合并通信。在各种实施例中，多信道音频信号包括噪声信号和至少一个期望目标音频信号（例如，人类语音）的混合，并且数字信号处理器324可操作以隔离或增强期望的目标信号，同时减少或消除不期望的噪声信号。数字信号处理器324能够可操作以执行回声消除、噪声消除、目标信号增强、后滤波和其它音频信号处理。

可选的音频输出电路326处理从数字信号处理器324接收的音频信号以用于输出到至少一个扬声器，诸如扬声器310a和310b。在各种实施例中，音频输出电路326可以包括将一个或多个数字音频信号转换为对应的模拟信号的数模转换器以及用于驱动扬声器310a和310b的一个或多个放大器。

音频处理设备300可实现为可操作以接收和检测目标音频数据的任何设备，诸如例如移动电话、智能扬声器、平板电脑、膝上型计算机、台式计算机、话音控制装置或汽车。主机系统部件350可以包括用于操作音频处理设备300的各种硬件和软件部件。在所图示的实施例中，主机系统部件350包括处理器352、用户界面部件354、用于与外部设备和网络（诸如网络380（例如，因特网、云、局域网或蜂窝网络）和移动设备384）通信的通信接口356以及存储器358。

处理器352可以包括以下中的一个或多个：处理器、微处理器、单核处理器、多核处理器、微控制器、可编程逻辑器件（PLD）（例如，现场可编程门阵列（FPGA））、数字信号处理（DSP）设备或可以通过硬连线、执行软件指令或两者的组合来配置的其它逻辑器件，以执行本文中针对本公开的实施例所讨论的各种操作。主机系统部件350可操作以诸如通过总线或其它电子通信接口与音频信号处理器320以及其它系统部件350接合并通信。

将领会的是，虽然音频信号处理器320及主机系统部件350示出为并入硬件部件、电路及软件的组合，但在一些实施例中，硬件部件及电路可操作以执行的功能性中的至少一些或全部可实现为由处理器352和/或数字信号处理器324响应于（存储在数字信号处理器324的存储器358或固件中的）软件指令和/或配置数据而执行的软件模块。

存储器358可以被实现为可操作以存储数据和信息（包括音频数据和程序指令）的一个或多个存储器设备。存储器358可以包括一个或多个各种类型的存储器设备，包括易失性和非易失性存储器设备，诸如RAM（随机存取存储器）、ROM（只读存储器）、EEPROM（电可擦除只读存储器）、闪速存储器、硬盘驱动器和/或其它类型的存储器。

处理器352能够可操作以执行存储在存储器358中的软件指令。在各种实施例中，语音识别引擎360可操作以处理从音频信号处理器320接收的增强的音频信号，包括识别和执行话音命令。话音通信部件362能够可操作以促进与一个或多个外部设备（诸如移动设备384或用户设备386）的话音通信，这诸如是通过移动或蜂窝电话网络上的话音呼叫或IP（因特网协议）网络上的VoIP呼叫。在各种实施例中，话音通信包括将增强的音频信号传输到外部通信设备。

用户界面部件354可包括显示器、触摸板显示器、键区、一个或多个按钮和/或可操作以使得用户能够与音频处理设备300直接交互的其它输入/输出部件。

通信接口356促进音频处理设备300与外部设备之间的通信。例如，通信接口356可以实现音频处理设备300与诸如移动设备384之类的一个或多个本地设备之间的Wi-Fi（例如，802.11）或蓝牙连接，或者诸如通过网络380向远程服务器382提供网络接入的无线路由器。在各种实施例中，通信接口356可包括促进音频处理设备300与一个或多个其它设备之间的直接或间接通信的其它有线及无线通信部件。

图4图示了根据本公开的各种实施例的音频信号处理器400。在一些实施例中，音频信号处理器400体现为包括由数字信号处理器（诸如图3的数字信号处理器324）实现的模拟和数字电路及固件逻辑的一个或多个集成电路。如所图示，音频信号处理器400包括音频输入电路415、子带频率分析器420、目标语音增强引擎430、关键词定点引擎440和融合引擎450。

音频信号处理器400从多个音频传感器（诸如包括多个音频传感器405a-n的传感器阵列405）接收多信道音频输入。音频传感器405a-405n可包括与音频处理设备（诸如图3的音频处理设备300）、连接到其的外部部件或用于向音频信号处理器400提供实时多信道音频输入的其它布置来集成的麦克风。

音频信号可以最初由音频输入电路415处理，所述音频输入电路415可以包括抗混叠滤波器、模数转换器和/或其它音频输入电路。在各种实施例中，音频输入电路415输出具有N个信道的数字、多信道、时域音频信号，其中N是传感器（例如，麦克风）输入的数量。多信道音频信号被输入到子带频率分析器420，所述子带频率分析器420将多信道音频信号分割成连续的帧，并且将每个信道的每个帧分解成多个频率子带。在各种实施例中，子带频率分析器420包括傅立叶变换过程，并且输出包括多个频率窗。分解的音频信号然后被提供给目标语音增强引擎430。语音目标增强引擎430可操作以分析音频信道的帧以及生成包括期望语音的信号。目标语音增强引擎430可包括话音活动检测器，其可操作以接收音频数据的帧以及作出关于帧中存在或不存在人类语音的确定。在一些实施例中，语音目标增强引擎检测和跟踪多个音频源，并且识别来自一个或多个目标源的人类语音的存在或不存在。目标语音增强引擎430从子带频率分析器420接收子带帧，并增强被确定为语音目标的音频信号的一部分，并根据本文中公开的多流关键词检测和信道选择系统和方法来抑制被确定为噪声的音频信号的其它部分。在各种实施例中，目标语音增强引擎430以逐帧基础重构多信道音频信号以形成多个增强的音频信号，所述多个增强的音频信号被传递到关键词定点引擎440和融合引擎450。关键词定点引擎440计算要应用于多个增强的音频信号中的每个的权重，以及确定在增强的音频信号中已经检测到关键词的概率。融合引擎450然后将权重应用于多个增强的音频信号以产生增强关键词以用于进一步处理的输出增强的音频信号。

在可适用的情况下，由本公开提供的各种实施例可以使用硬件、软件或硬件和软件的组合来实现。此外，在可适用的情况下，在不脱离本公开的精神的情况下，本文中所阐述的各种硬件部件和/或软件部件可以被组合成包括软件、硬件和/或两者的复合部件。在可适用的情况下，在不脱离本公开的范围的情况下，本文中所阐述的各种硬件部件和/或软件部件可以被分离成包括软件、硬件或两者的子部件。另外，在可适用的情况下，设想的是，软件部件可以被实现为硬件部件，并且反之亦然。

根据本公开，软件（诸如程序代码和/或数据）可以被存储在一个或多个计算机可读介质上。还设想的是，本文中所标识的软件可以使用一个或多个通用或专用计算机和/或计算机系统、联网和/或以其它方式来实现。在可适用的情况下，本文中描述的各种步骤的次序可以改变、组合成复合步骤和/或分离成子步骤以提供本文中描述的特征。

前述公开不旨在将本公开限制于所公开的精确形式或特别使用领域。因此，设想的是，根据本公开，无论在本文中明确描述或暗示，本公开的各种替代实施例和/或修改是可能的。已经像这样描述了本公开的实施例，本领域的普通技术人员将认识到的是，在不脱离本公开的范围的情况下，可以在形式和细节上做出改变。因此，本公开仅受权利要求限制。

Claims

1.一种系统，包括：

目标语音增强引擎，其可操作以分析多信道音频输入信号以及生成多个增强的目标流；

多流目标-语音检测器发生器，其包括多个目标-语音检测器引擎，所述目标-语音检测器引擎各自可操作以确定所述流中特定目标-语音的质量和/或存在的置信度，其中所述多流目标-语音检测发生器可操作以确定与所述增强的目标流相关联的多个权重；以及

融合子系统，其可操作以将所述多个权重应用于所述增强的目标流以生成组合的增强的输出信号。

2.根据权利要求1所述的系统，其还包括音频传感器阵列，所述音频传感器阵列可操作以感测人类语音和环境噪声以及生成对应的所述多信道音频输入信号。

3.根据权利要求1所述的系统，其中所述目标语音增强引擎包括多个语音增强模块，每个语音增强模块可操作以分析所述多信道音频输入信号并输出所述增强的目标流中的一个。

4.根据权利要求3所述的系统，其中所述多个语音增强模块包括适应性空间滤波算法、波束成形算法、盲源分离算法、单信道增强算法和/或神经网络。

5.根据权利要求1所述的系统，其中所述目标-语音检测器引擎包括高斯混合模型、隐马尔可夫模型和/或神经网络。

6.根据权利要求1所述的系统，其中每个目标语音检测器引擎可操作以产生与输入音频流包括所述特定目标语音的置信度相关的后验权重。

7.根据权利要求6所述的系统，其中每个目标-语音检测器引擎可操作以利用清晰语音产生较高后验。

8.根据权利要求1所述的系统，其中所述增强的输出信号是所述增强的目标流的加权总和。

9.根据权利要求1所述的系统，其中所述多流目标-语音检测发生器还可操作以确定在所述流中检测到特定目标语音的组合概率，并且其中在所述组合概率超过检测阈值的情况下检测所述目标-语音。

10.根据权利要求9所述的系统，还包括自动语音识别引擎或VoIP应用，并且其中如果检测到所述目标-语音，则将所述增强的输出信号转发到所述自动语音识别引擎或VoIP。

11.一种方法，包括：

使用目标语音增强引擎分析多信道音频输入信号并生成多个增强的目标流；

使用多流目标-语音检测器发生器来确定在所述流中检测到目标-语音的概率；

计算所述增强的目标流中的每个的权重；以及

将所述计算的权重应用于所述增强的目标流以生成增强输出信号。

12.根据权利要求11所述的方法，其还包括使用音频传感器阵列感测人类语音和环境噪声，以及生成对应的所述多信道音频输入信号。

13.根据权利要求11所述的方法，其中分析所述多信道音频输入信号包括应用多个语音增强模态，每个语音增强模态输出所述增强的目标流中的分离的一个。

14.根据权利要求13所述的方法，其中所述多个语音增强模态包括适应性空间滤波算法、波束成形算法、盲源分离算法、单信道增强算法和/或神经网络。

15.根据权利要求11所述的方法，其中确定在所述流中检测到所述目标-语音的所述概率包括应用高斯混合模型、隐马尔可夫模型和/或神经网络。

16.根据权利要求11所述的方法，其中确定在所述流中检测到所述目标-语音的所述概率包括产生与所述输入流包括关键词的置信度相关的后验权重。

17.根据权利要求16所述的方法，其还包括利用清晰语音产生较高后验。

18.根据权利要求11所述的方法，其中所述增强的输出信号是所述增强的目标流的加权总和。

19.根据权利要求11所述的方法，其还包括确定在所述流中检测到所述目标-语音的组合概率；以及其中在所述组合概率超过检测阈值的情况下检测所述目标-语音。

20.根据权利要求19所述的方法，其还包括如果检测到所述目标-语音，则对所述增强的输出信号执行自动语音识别。