CN113544775B

CN113544775B - 用于头戴式音频设备的音频信号增强

Info

Publication number: CN113544775B
Application number: CN202080018843.8A
Authority: CN
Inventors: 什里达尔·K·穆昆德; 帕莫恩波尔·基纳希特拉
Original assignee: Plantronics Inc
Current assignee: Hewlett Packard Development Co LP
Priority date: 2019-03-06
Filing date: 2020-03-03
Publication date: 2022-06-14
Anticipated expiration: 2040-03-03
Also published as: CN113544775A; US11049509B2; EP3935631B1; EP3935631A1; US20200286500A1; US20210280203A1; US11664042B2; WO2020180880A1

Abstract

提供了一种头戴式音频设备，其具有用于语音信号增强的电路。电路包括被布置在预定义位置处的至少多个麦克风，其中每个麦克风提供麦克风信号。电路进一步包括方向性预处理器和盲源分离处理器。方向性预处理器与多个麦克风连接以接收麦克风信号，方向性预处理器被配置为提供至少语音信号和噪声信号。方向性预处理增加提供给盲源分离处理器的信号的相互独立性，并且因此改善了盲源分离的处理。盲源分离处理器接收至少语音信号和噪声信号，并且被配置为至少对语音信号和噪声信号执行盲源分离以至少提供具有降低的噪声分量的增强语音信号。

Description

用于头戴式音频设备的音频信号增强

技术领域

本公开总体上涉及头戴式音频设备的领域。更具体地，本公开涉及提供利用多个麦克风捕获的用户语音的改善的语音信号。

背景技术

出于总体上描述本公开的上下文的目的来提供该背景技术部分。在此背景技术部分中所描述的工作的程度上，当前提及的(多个)发明人的工作以及在提交时可不以其他方式作为现有技术的描述的各方面既不明确地又不隐含地被承认为是对于本公开的现有技术。

如今，具有音频记录能力的移动通信设备对于各种应用是无处不在的。最重要的是，智能电话、平板电脑和膝上型计算机允许进行音频和视频通话并且能够实现具有前所未有的质量的通信。同样普遍的是头戴式音频设备(诸如特别是头戴式耳机)的使用。头戴式耳机允许“免提”操作，并且因此被用于商业应用、办公环境和驾驶时。

现代通信设备的移动性的问题涉及到这样的事实，即设备几乎可以被带到任何地方，这可能导致设备在嘈杂的环境中使用。在这些环境中，常见的问题是，话筒大量地拾取环境噪声，从而使通话的接听者难以理解用户的语音。当背景噪声包括其他人的言语时，该问题尤其突出，因为在此类场景中，语音带滤波无法将这种噪声去除到令人满意的程度。

因此，存在特别是在噪声环境中改善语音信号的质量的目标。

发明内容

通常并且在一个方面，提供了一种具有用于语音信号增强的电路的头戴式语音设备。电路包括至少以下各项：多个麦克风，多个麦克风被布置在预定义位置处，其中每个麦克风提供麦克风信号；方向性预处理器，方向性预处理器与多个麦克风连接以接收麦克风信号，并且方向性预处理器被配置为提供至少语音信号和噪声信号；盲源分离(BSS)处理器，BSS处理器与方向性预处理器连接以接收至少语音信号和噪声信号，并且BSS处理器被配置为至少对语音信号和噪声信号执行盲源分离以至少提供具有降低的噪声分量的增强语音信号。

本发明的一个基本思想涉及使用盲源分离来提供增强语音信号。正如本发明的发明者所确定的，如果提供给盲源分离算法的信号相互线性独立，则盲源分离最佳地起作用。虽然在实践中，放置在彼此附近的麦克风的信号通常不是线性独立的，但本发明提出使用方向性预处理来增加提供给盲源分离算法的信号的独立性，并且因此通过盲源分离来改善处理。

在另一方面，提供了一种用于语音信号增强的电路，该电路可连接到多个麦克风，其中每个麦克风提供麦克风信号。电路包括至少以下各项：方向性预处理器，方向性预处理器与多个麦克风连接以接收麦克风信号，并且方向性预处理器被配置为提供至少语音信号和噪声信号；以及BSS处理器，BSS处理器与方向性预处理器连接以接收至少语音信号和噪声信号，并且BSS处理器被配置为至少对语音信号和噪声信号执行盲源分离以至少提供具有降低的噪声分量的增强语音信号。

在另一个方面，提供了一种基于多个麦克风的多个麦克风信号的语音信号增强的方法。方法包括对多个麦克风信号进行方向性预处理，以获得至少语音信号和噪声信号；以及对至少语音信号和噪声信号执行盲源分离，以至少获得具有降低的噪声分量的增强语音信号。

在以下所附附图和描述中阐述一个或多个实施例的细节。其他特征将从说明书、附图和权利要求中显而易见。

附图说明

图1示出了头戴式音频设备的实施例的前视图；

图2示出了图1的头戴式音频设备的示意性框图；

图3示出了数字信号处理器的实施例的示意性框图；

图4示出了头戴式音频设备的进一步的实施例；

图5示出了在图1的实施例中使用的方向性预处理器的处理的示意性示例性框图；

图6示出了图1的实施例中的示例性麦克风放置；以及

图7示出了两个麦克风的布置的示例性波束形成。

具体实施方式

下面详细描述本发明的具体实施例。在以下对本发明实施例的描述中，描述具体细节以便提供对本发明的透彻理解。然而，对本领域的普通技术人员将显而易见的是，可以在没有这些具体细节的情况下实践本发明。在其他实例中，众所周知的特征并未被详细描述以免不必要地复杂化实例描述。

在根据所述实施例的本发明的以下解释中，术语“连接到”或“与……连接”用于指示至少两个部件、设备、单元、处理器或模块之间的数据和/或音频(信号)连接。此类连接可以是在相应部件、设备、单元、处理器或模块之间是直接的；或者可以是间接的，即，通过中间部件、设备、单元、处理器或模块。连接可以是永久的或暂时的；无线的或基于导体的。

例如，可以通过直接连接、总线或通过网络连接来提供数据和/或音频连接，该网络连接诸如WAN(广域网)、LAN(局域网)、PAN(个域网)、BAN(体域网)，包括例如，互联网、以太网、蜂窝网络(诸如LTE)、蓝牙(经典、智能、或低能量)网络、DECT网络、ZigBee网络和/或使用相对应的合适的通信协议的Wi-Fi网络。在一些实施例中，USB连接、蓝牙网络连接和/或DECT连接用于传输音频和/或数据。

在以下描述中，序数(例如，第一、第二、第三等)可以用作元素(即，申请中的任何名词)的形容词。除非明确公开，诸如，通过使用术语“之前”、“之后”、“单个”和其他此类术语，否则序数的使用既暗示或创建元素的任何特定排序，也不是将任何元素限制为仅仅是单个元素。相反，序数的使用是为了区分命名相似的元素。例如，第一元素与第二元素不同，并且第一元素可以包含多于一个元素并且按照元素的排序在第二元素之后(或在第二元素之前)。

随着通信设备获得移动性，存在无论用户的环境如何都允许与此类设备进行适当通信的需求。因此，在嘈杂的环境中(诸如繁忙的道路附近，在旅行时，以及在共享的办公环境、餐厅等中)也实现清晰的通信是期望的。当噪声环境包括其他人的言语或谈话，特别是来自特定未知方向的“单一干扰言语”时，给出了特定的问题，这可能降低(例如，采用频带滤波的)典型降噪系统的能力。本发明旨在实现上述嘈杂环境中的通信。

在一个方面，提供了一种具有用于语音信号增强的电路的头戴式音频设备。根据该方面，电路包括至少多个麦克风、方向性预处理器和盲源分离处理器(在下文中也称为“BSS处理器”)。

本示例性方面的多个麦克风作为音频设备的一部分被布置在预定义位置处。在实施例中，当用户正按照预期或设计佩戴头戴式耳机时，作为音频设备的一部分的预定义定位可以导致相对于用户的嘴部的基本预定义定位。

在一些实施例中，头戴式音频设备被配置为使得当用户正按照预期或设计佩戴音频设备时，产生相对于用户的头部和/或用户的嘴部的基本预定义取向和/或定位。例如，头戴式音频设备可以被提供有“默认”取向和/或定位(如典型头戴式耳机的预期取向或典型眼镜的预期定位)，使得用户至少可能以可以信赖的默认取向/定位来佩戴头戴式音频设备。

注意，麦克风中的一些麦克风的“预定义”或“固定”定位涵盖设置，其中相对于用户的嘴部的相应麦克风的精确定位可能略有不同。例如，将容易理解，当用户戴上音频设备、脱下音频设备并再次戴上音频设备时，在两个“佩戴会话”之间容易发生相对于用户的嘴部的轻微定位变化。此外，各个麦克风相对于嘴部的相对定位可能因用户而异。然而，这意味着在给定时间，例如，在同一用户的一个给定“佩戴会话”中，麦克风具有固定的相对位置。

在一些实施例中，至少一个麦克风被布置在可以以受限方式调整的麦克风架上。典型地，特别是当架仅提供受限的调整时，此类布置被认为是预定义的，因为麦克风在任何情况下都保持相对靠近用户的嘴部。

麦克风可以是任何合适的类型，诸如动圈型、电容型、驻极体型、带型、碳型、压电型、光纤型、激光型或MEMS型。麦克风中的至少一个麦克风被布置为使得捕获佩戴音频设备的用户的语音。麦克风中的一个或多个麦克风可以是全向的或定向的。每个麦克风直接地或经由中间部件间接地向方向性预处理器提供麦克风信号。在一些实施例中，麦克风信号中的至少一些麦克风信号被提供给在各个麦克风和方向性预处理器之间连接的中间电路(诸如信号调节电路)，以用于例如放大、噪声抑制和/或模数转换中的一者或多者。

方向性预处理器被配置为接收麦克风信号，并将来自接收到的麦克风信号的至少语音信号和噪声信号提供给BSS处理器。在本上下文中，术语“语音信号”和“噪声信号”被理解为音频在时域或频域中的模拟或数字表示，其中与噪声信号相比，语音信号包括更多的用户语音，即，与噪声信号相比，语音信号中用户语音的能量更高。语音信号也可以被称为“大部分为语音信号”，而噪声信号也可以被称为“大部分为噪声信号”。术语“能量”在本文中以其通常的含义(即物理能量)进行理解。在波中，能量通常被认为与其振幅的平方成。

盲源分离(BSS)处理器与方向性预处理器连接，以接收至少语音信号和噪声信号。BSS处理器被配置为对至少语音信号和噪声信号执行盲源分离算法，并且提供至少具有降低的噪声分量的增强语音信号。在此上下文中，术语“盲源分离”(也称为“盲信号分离”)以其通常的含义进行理解，即，在没有关于源信号或混合过程的信息或具有很少的关于源信号或混合过程的信息的辅助的情况下，从一组混合信号中分离一组源信号(感兴趣的信号，即语音信号和噪声信号)。盲源分离的细节可以在Ganesh R.Naik、Wenwu Wang所著的“Blind Source Separation–Advances in Theory,Algorithms,and Applications(盲源分离-理论、算法和应用的进展)”(施普林格出版社(Springer Verlag)，柏林，海德堡，2014年)中找到，该著作通过引用并入本文。

然后，可以向音频设备的另一部件提供由盲源分离处理器提供的增强语音信号以供进一步处理。在一些实施例中，向通信模块提供增强语音信号以用于传输到远程接收者。在其他实施例中，向记录单元提供增强语音信号以用于至少临时存储。在该情况下，头戴式音频设备可以被视为言语记录设备。

方向性预处理器和BSS处理器可以是任何合适的类型。例如，在一些实施例中，可以在相对应的专用电路中提供方向性预处理器和/或BSS处理器，这些专用电路可以是集成的或非集成的。替代地，在一些实施例中，方向性预处理器和/或BSS处理器可以以软件形式提供，存储在音频设备的存储器中，并且当在公共或一个或多个专用处理设备(诸如CPU、微控制器或DSP)上执行软件时提供它们各自的功能。

进一步实施例中的音频设备当然可以包括附加部件。例如，一个示例性实施例中的音频设备可以包括附加控制电路系统、用于处理音频的附加电路系统、无线通信接口、中央处理单元、一个或多个壳体和/或电池。

在本上下文中的术语“信号”是指作为电信号的音频的模拟或数字表示。例如，本文所描述的信号可以是脉冲编码调制(PCM)类型，或者任何其他类型的比特流信号。每个信号可以包括一个信道(单信号)、两个信道(立体声信号)或多于两个的信道(多声道信号)。(多个)信号可以被压缩，也可以不被压缩。

在一些实施例中，方向性预处理器被配置为从麦克风信号生成多个语音候选信号和多个噪声候选信号。

根据本实施例，从麦克风信号生成所谓的“候选信号”。如将在下文中更详细地讨论的，在一些实施例中，从候选信号中选择由方向性预处理器提供给BSS处理器的语音信号和噪声信号。

在一些实施例中，候选信号中的每个候选信号与预定义的麦克风方向性相对应，麦克风方向性可以通过分别预定义的麦克风位置或分别固定的麦克风位置来预定义。在一些实施例中，候选信号具有唯一的方向性，即，噪声候选信号中没有两个噪声候选信号具有相同的方向性，并且语音候选信号中没有两个语音候选信号具有相同的方向性。

在一些实施例中，术语“方向性”或“空间方向性”可以基于考虑到各个麦克风的位置的麦克风方向性(全向的或定向的)。替代地或附加地，并且在一些实施例中，还可以通过多个麦克风处理(即，通过使用多个麦克风信号)来创建期望的麦克风方向性。在这两种情况下，麦克风方向性定义了(多个)相应麦克风附近的三维空间或“子空间”，其中(多个)麦克风是高度地灵敏的。

在一些实施例中，方向性预处理器包括麦克风定义数据库和空间方向性模块，以生成多个语音候选信号和多个噪声候选信号。

在本实施例中，麦克风定义数据库至少包括涉及麦克风中的每个麦克风相对于音频设备(并且因此，例如，至少在按预期佩戴设备时相对于用户的头部或嘴部)的定位的信息。麦克风定义数据库可以包括进一步的麦克风相关数据，诸如麦克风类型、方向性模式等。麦克风定义数据库可以是任何合适的类型，并且例如，包括合适的存储器。

空间方向性模块可以是任何合适的类型以生成候选信号。空间方向性模块可以设置在相对应的专用电路中，该专用电路可以是集成的或非集成的。替代地，在一些实施例中，空间方向性模块可以以软件形式提供，存储在音频设备的存储器中，并且当在公共或一个或多个专用处理设备(诸如CPU、微控制器或DSP)上执行软件时提供它们各自的功能。

例如，空间方向性模块可以被配置为基于相应的麦克风的定位和方向性生成语音候选信号。在该示例中，麦克风定义数据库可以提供麦克风中的一个或多个麦克风在使用期间靠近用户的嘴部或指向用户的嘴部。空间方向性模块随后可以提供相对应的麦克风信号作为语音候选信号。

在一些实施例中，空间方向性模块可以被配置为波束成形器以提供具有相对应地定义的方向性的候选信号。

在一些实施例中，空间方向性模块使用麦克风信号中的两个或更多个麦克风信号，以从中生成多个候选信号。对于本领域技术人员来说显而易见的是，在已知位置具有两个麦克风，例如可能生成四个候选信号，每个候选信号都具有唯一的方向性或“波束形成”。候选信号的数量不受限制。一些实施例中的空间方向性模块可以被配置为具有以下算法中的一种算法，以生成候选信号，所述算法为技术人员所知：

–延迟-和；

–滤波-和；

–时间-频率振幅和延迟源分组/聚类。

在一些实施例中，方向性预处理器进一步被配置为对语音候选信号和噪声候选信号中的至少一者进行均衡化和/或归一化。在一些实施例中，对多个语音候选信号和多个噪声候选信号中的至少一者进行均衡化和/或归一化。

均衡化和归一化分别提供了相应的多个候选信号或一组候选信号中的每个候选信号具有至少近似相似的电平和频率响应。注意，虽然在一些实施例中对全部候选信号中进行均衡化/归一化是可能的，但在一些其他实施例中，对每组(即，一方面是语音候选信号，另一方面是噪声候选信号)执行均衡化/归一化。该按组的均衡化和/或归一化可以足以用于稍后选择语音候选信号中的一个语音候选信号作为语音信号并且选择噪声候选信号中的一个噪声候选信号作为噪声信号。

合适的均衡化和归一化方法包括典型EQ(均衡器)、动态EQ和自动增益控制。

相对于噪声候选信号和/或语音候选信号，并且在一些实施例中，例如，使用Hoth噪声和/或ITU-T G.18复合源信号(CSS)噪声，针对扩散的类言语噪声执行均衡化和/或归一化。

在一些实施例中，均衡化和/或归一化基于在头戴式音频设备的制造或设计期间导出的一组参数。换句话说，基于一组校准参数。在一些实施例中，方向性预处理器包括一个或多个合适的均衡和/或归一化电路。

在一些实施例中，方向性预处理器进一步包括语音候选选择电路，其中语音候选选择电路选择语音候选信号中的一个语音候选信号作为语音信号，并将该语音信号提供给BSS处理器。

选择电路可以被配置为具有任何合适的选择准则，以从语音候选信号中选择语音信号。在一个示例中，提供言语检测器以分析每个语音候选信号并提供语音检测置信度得分。选择接收到最高或最大置信度的语音候选信号作为语音信号。

在一些实施例中，语音候选选择电路被配置为确定语音候选信号中的每个语音候选信号的能量，并选择具有最低能量的语音候选信号作为语音信号。在本解释的上下文中，如前文所讨论的，术语“能量”以其通常的含义(即物理能量)进行理解。在波中，波的能量通常被认为与其振幅的平方成比例。由于每个候选信号与由麦克风中的一个或多个麦克风捕获的声波相对应，因此语音候选信号中的每个语音候选信号的能量与这些基本声波的声压相对应。因此，“能量”在本文中也被称为“声能”或“波能”。

本实施例基于本发明发明人的认知，即具有相对清晰的语音分量的信号通常将具有低能量。

在一些实施例中，语音候选选择电路被配置为确定语音候选信号中的每个语音候选信号在多个子带中的能量。例如，典型的12kHz语音带可以被划分为32个相等的子带，并且语音候选选择电路可以确定针对子带中的每个子带的能量。在那种情况下，可以通过形成平均值、中位数等来确定整体能量。在一些实施例中，应用特定于语音特征的预定义加权。

在一些实施例中，方向性预处理器进一步包括语音活动检测器，其中，如果语音活动检测器确定用户语音的存在，则语音候选选择电路选择语音候选信号中的一个语音候选信号作为语音信号。

语音活动检测器(VAD)可操作用于对噪声抑制的输入信号执行语音处理，并检测其中的人类言语。语音活动检测器包括相对应的滤波器，以对来自麦克风信号的非平稳噪声进行滤波。这增强了言语处理。语音活动检测器估计在麦克风处接收到的音频中是否存在人类言语。

关于噪声候选信号的处理，并且在一些实施例中，方向性预处理器进一步包括语音滤波器，该语音滤波器被配置为从噪声候选信号中的每个噪声候选信号对语音分量进行滤波。在一些实施例中，语音滤波器可以包括针对语音滤波而设置的参数滤波器。

在一些实施例中，语音滤波器被配置为接收语音候选信号中的至少一个语音候选信号，并使用接收到的至少一个语音候选信号对语音分量进行滤波。本实施例基于这样的认知，即通过使用至少一个语音候选信号作为滤波器的输入应用减法滤波器，从噪声候选信号中有效地去除语音分量是可能的。在一些实施例中，语音信号用于对来自噪声候选的语音分量进行滤波。

在一些实施例中，方向性预处理器进一步包括噪声候选选择电路，其中噪声候选选择电路选择噪声候选信号中的一个噪声候选信号作为噪声信号，并将该噪声信号提供给BSS处理器。

噪声候选选择电路可以被配置为具有任何合适的选择准则，以从噪声候选信号中选择噪声信号。在一个示例中，噪声候选选择电路确定噪声候选信号中的每个噪声候选信号中的语音能量，并选择具有最小语音能量的噪声候选信号作为噪声信号。

在一些实施例中，噪声候选选择电路被配置为确定噪声候选信号中的每个噪声候选信号的能量，并选择具有最高能量的噪声候选信号作为噪声信号。本实施例基于本发明发明人的认知，即具有高噪声分量的信号通常将具有高能量。

在一些实施例中，噪声候选选择电路被配置为确定噪声候选信号中的每个噪声候选信号在多个子带中的能量。例如，典型的12kHz语音带可以被划分为32个相等的子带，并且噪声候选选择电路可以确定针对子带中的每个子带的能量。在那种情况下，可以通过形成平均值、中位数等来确定整体能量。在一些实施例中，应用特定于噪声特征的预定义加权。

在一些实施例中，BSS处理器被配置为附加地提供具有降低的语音分量的增强噪声信号。增强噪声信号可能是有益的，因为它允许例如出于声学安全目的进一步分析用户的噪声环境。在一些实施例中，增强噪声信号被提供给远程分析服务器以确定用户的噪声暴露。

在一些实施例中，头戴式音频设备是礼帽、头盔、(智能)眼镜或便帽。

在一些实施例中，头戴式音频设备是头戴式耳机。

在本申请的上下文中，术语“头戴式耳机”是指所有类型的头戴式耳机、头戴式电话、以及其他头戴式音频回放设备，诸如例如罩耳式(circum-aural)耳机和压耳式(supra-aural)的头戴式耳机、耳塞、入耳式的头戴式耳机、以及其他类型的耳机。头戴式耳机可以是单声道、立体声或多声道设置。在一些实施例中，头戴式耳机可以包括音频处理器。音频处理器可以是任何合适的类型，以从输入音频信号提供输出音频。例如，音频处理器可以是数字声音处理器(DSP)。

在一些实施例中，音频设备包括至少三个麦克风。在一些实施例中，音频设备包括至少5个麦克风。取决于应用，增加数量的麦克风可以进一步改善所讨论的音频设备的功能。

在一些实施例中，音频设备包括音频输出以至少将增强语音信号传送到进一步的设备。例如，可以提供音频输出作为无线通信接口，使得可以向进一步的设备提供增强语音信号。例如，后者可以是电话、智能电话、智能手表、膝上型计算机、平板电脑、计算机。注意，在一些实施例中，音频输出可以允许基于线的连接。

现在将参考附图，在附图中将给出实施例的各种元素的数字标记，并且在附图中将讨论进一步的实施例。

对部件、工艺步骤和其他元素的特定引用并不旨在是限制性的。此外，应当理解，当参考替代附图时，类似部件具有相同或类似的参考标记。进一步注意，这些附图是示意性的并被提供以用于指导技术读者，并且这些附图不一定按比例绘制。相反，图中所示的各种绘图比例、高宽比和部件数量可能被故意扭曲，以使某些特征或关系更容易理解。

图1示出了头戴式音频设备的实施例(即在该实施例中为头戴式耳机1)的前视图。头戴式耳机1包括两个耳机壳体2a、2b，该两个耳机壳体2a、2b形成有各自的耳机扬声器6a、6b(图1中未示出)，以在操作期间(即当用户正佩戴耳机1时)向用户提供音频输出。两个耳机2a、2b经由可调整头带3相互连接。头戴式耳机1还包括麦克风架4，该麦克风架4在其端部与麦克风5a附接。耳机壳体2a、2b中提供了进一步的麦克风5b、5c、5d和5e。麦克风5a–5e允许语音信号增强和噪声降低，如将在下文中更详细地所讨论。注意，麦克风的数量可取决于应用而有所不同。

头戴式耳机1允许以(例如，用于通信应用的)通常方式经由蓝牙与进一步的设备(例如，移动电话、智能电话、平板电脑、计算机等)进行无线连接。

图2示出了头戴式耳机1的示意性框图。除了已经提及的扬声器6a、6b和麦克风5a-5e之外，头戴式耳机1还包括用于与上述进一步的设备连接的蓝牙接口7。提供微控制器8以控制与进一步的设备的连接。来自进一步的设备的传入音频被提供给输出驱动器电路系统9，该输出驱动器电路系统9包括D/A转换器和放大器。由麦克风5a–5e捕获的音频由数字信号处理器(DSP)10进行处理，如将在下文中进一步详细地所讨论。增强语音信号和增强噪声信号由DSP 10提供给微控制器8，以传输到进一步的设备。

除了上述部件之外，用户界面11允许用户调整头戴式耳机1的设置，诸如开/关状态、音量等。电池12为全部上述部件提供操作功率。注意，未示出来自和去往电池12的连接，以避免遮挡附图。上述所有部件均在耳机壳体2a、2b中提供。

根据本实施例的头戴式耳机1特别适于在噪声环境中操作，并且甚至在具有所谓的“单一干扰言语”的环境中也允许很好地捕获用户的语音。因此，DSP 10被配置为向微控制器8提供具有降低噪声分量的增强语音信号，以经由蓝牙接口7传输到进一步的设备。DSP10还向微控制器8提供增强噪声信号。增强噪声信号允许出于声学安全目的对用户的噪声环境进行分析。

DSP 10的操作基于盲源分离(BSS)。因此，DSP 10包括BSS处理器15。盲源分离是信号处理的已知数学前提，其规定，如果音频流的N个源被N个麦克风混合并捕获(N个混合体)，则将产生的混合分离为N个原始音频流是可能的。盲源分离的讨论可以在GaneshR.Naik、Wenwu Wang所著的“Blind Source Separation–Advances in Theory,Algorithms,and Applications(盲源分离-理论、算法和应用的进展)”(施普林格出版社(Springer Verlag)，柏林，海德堡，2014年)中找到，该著作通过引用并入本文。

然而，如果N个混合体不是相互线性独立的，则BSS的结果通常是不充分的。在头戴式耳机或其他头戴式设备应用中，已知期望的语音/言语源于相对于麦克风的特定方向。然而，噪声的方向通常是未知的。当噪声是所谓的“单一干扰言语”时，特别是当它来自特定的未知方向时，噪声是最烦人的。

在本实施例中，DSP 10因此包括具有语音活动检测器(VAD)14的方向性预处理器13。语音活动检测是已知的技术。方向性预处理器13对麦克风5a-5e的麦克风信号进行预处理，并向BSS处理器15提供语音信号和噪声信号。该预处理用于改善BSS处理器715的功能并缓解噪声方向未知这一事实。语音活动检测器14可操作用于对噪声抑制的输入信号执行言语处理，并检测其中的人类言语。VAD 14包括相对应的内部滤波器(未示出)，以对来自噪声抑制的输入信号的非平稳噪声进行滤波。这增强了言语处理。VAD 14估计在麦克风5a–5e处接收到的音频中人类言语的存在。

图3示出了DSP 10的实施例的示意性框图。注意，图3示出了作为到方向性模块13的输入的麦克风信号M1–Mn。方向性预处理器模块13具有语音信号输出30和噪声信号输出31。输出30、31两者都与BSS处理器模块15连接，该BSS处理器模块15与盲源分离处理器的已知设置相对应。因此，以下仅简要讨论单个的部件。

BSS处理器模块15包括被配置为在递归循环中操作的交叉耦合自适应滤波器32a、32b，如图所示。因此，自适应滤波器32a、32b通过将滤波后的信号与最初提供的(和适当地经延迟的)信号进行比较来改进统计过程中随时间的操作。

每个信号路径(即“大部分为语音”和“大部分为噪声”路径)包括附加的递归自适应预滤波器33a、33b。预滤波器33a、33b用于恢复相应的语音和噪声信号的(语音/噪声)保真度。这在“语音处理侧”通过将方向性预处理器13的输出30处的语音信号与由麦克风5a直接提供的麦克风信号进行比较来完成，如图所示。由于麦克风信号未经预处理，因此被认为保持了真实的保真度。类似地，在“噪声处理侧”，将输出31的噪声信号与麦克风信号5a进行比较以恢复真实的保真度。

术语“保真度”以其在音频处理领域中的典型含义来理解，表示副本多么准确地再现其源。注意，取决于应用，麦克风5a可以是全向类型或定向类型。替代预滤波器33a、33b，可以通过使用相对应的(固定的)均衡器来恢复真实的保真度。

图5示出了由方向性预处理器13进行的处理的示意性示例性框图。注意，在图5中，单个的部件和单条的线主要用于说明目的。在典型的实现方式中，部件中的一个或多个部件的功能可以由软件、硬件或其组合提供。

方向性预处理器模块13的操作基于这样的想法，即，对于头戴式音频设备(诸如头戴式耳机1)，在使用期间期望的言语相对于麦克风5a–5e发出所位于的点至少粗略地是先验地已知的(即，通过头戴式耳机1的设计)。因此，对于麦克风5a-5e中的每个麦克风，相对应的相对位置和方向性模式在麦克风定义数据库50中预定义。通过示例的方式，图6示出了麦克风5a-5e中的每个麦克风相对于用户头部的位置。为了清楚起见，在图6中已省略了头戴式耳机1的其他部件。

麦克风5a也称为主麦克风。在使用期间(即，佩戴头戴式耳机1时)，它最靠近用户的嘴部。麦克风5b被定位在右侧顶部位置(RT)上，麦克风5c被定位在右侧底部位置(RB)上。麦克风5d被定位在左侧前部位置(LF)上，麦克风5e被定位在左侧后部位置(LR)上。

回到图5，并且如将从图中明显看出的那样，N个数量的麦克风信号M₁–M_N被提供给空间方向性单元51和VAD 14。麦克风5a-5e的相对位置和方向性信息由数据库50提供。空间方向性单元使用麦克风信号M₁-M_N和数据库50的信息来生成K个数量的语音候选信号和M个数量的噪声候选信号。语音候选信号的数量独立于噪声候选信号的数量。候选信号中的每个候选信号与所定义的“子空间方向性”相对应。注意，方向性预处理器13和BSS处理器15的整个处理在st-DFT(频率)域中执行。

如对于本领域技术人员来说将显而易见的那样，在已知位置具有两个麦克风，例如可能生成四个候选信号，每个候选信号都具有唯一的方向性或“波束形成”。图7在具有被布置在麦克风轴线72上的两个麦克风70、71的示例性实施例中显示了这一点。利用附图标记73-76表示不同的“波束形成”。虽然附图标记73和74示出了单个麦克风波束形成模式，但附图标记75指示在垂直于麦克风轴线72的方向上具有略微更窄的子空间方向性的双向波束形成。波束形成模式76示出了所谓的“空”图案，即环形线圈波束形成。

空间方向性单元51将相对应地形成的语音和噪声候选信号提供给相应的均衡器/归一化器单元52、53。注意，尽管在语音候选信号1-K的组内，每个语音候选信号基于唯一的波束形成，并且在噪声候选信号1-M的组内，每个噪声候选信号基于唯一的波束形成，但是组之间可能存在重叠，因为噪声的源方向未知。例如，一个形成的候选可以是语音候选，并且也可以是噪声候选。

语音候选者信号中的一个语音候选信号(即，语音候选1)以覆盖用户嘴部的位置的子空间波束形成来形成。这是可能的，因为数据库50中提供了麦克风详细信息。

均衡器/归一化器单元52对每个语音候选进行均衡化和归一化，使得各个候选信号的语音分量具有相同的电平和频率响应。相对应地处理的候选信号被提供给语音候选选择器电路54。语音候选选择器54选择具有最低能量的语音候选信号。该候选作为语音信号经由输出30被提供给BSS处理器模块15。语音候选选择器54仅在VAD 14确定捕获的麦克风信号中存在语音时才是活跃的。

针对该选择，语音候选选择器54确定语音候选信号中的每个语音候选信号的能量。该确定使用典型的12kHz的语音带，并且确定针对32个相等的375Hz的子带的能量。可以基于语音频率分布概况来应用加权。因此，可以将重点放在处于典型的人类言语内的那些子带上。然后，经由语音信号输出30将所选择的语音候选作为语音信号提供给BSS处理器模块15。另外，语音信号被提供给滤波器55，如将在下文中详细地所讨论。

与用于语音候选的均衡器/归一化器单元52相对应，均衡器/归一化器53为噪声候选信号中的每个噪声候选信号提供均衡化和归一化，使得每个相应的候选信号具有相同的电平和频率响应。均衡器/归一化器53针对扩散的类掩护噪声(例如，Hoth噪声)调整电平和频率。

每个噪声候选信号由滤波器55处理，该滤波器55从噪声候选信号中去除语音分量。滤波器55经配置以不延迟信号。

噪声候选选择器56选择具有最高能量的噪声候选信号。如由VAD 14确定的关于是否存在语音的信息改善了选择。所选择的噪声候选信号作为噪声信号被提供给BSS处理器模块15。

针对该选择，噪声候选选择器56确定噪声候选信号中的每个噪声候选信号的能量。该确定使用典型的12kHz的语音带，并且确定针对32个相等的375Hz的子带的能量。可以基于典型的噪声频率分布概况来应用加权。然后，所选择的噪声候选经由噪声信号输出31被提供给BSS处理器模块15。

图4示出了头戴式音频设备的进一步的实施例，即便帽40。图4的实施例，特别是其操作与前面所讨论的实施例相对应，例外在于，便帽40不包括扬声器6a、6b，并且因此不向用户提供输出音频。与前面的讨论相对应，便帽40包括麦克风5a-5e，该麦克风5a-5e被布置在相对于便帽40并且在按照预期佩戴便帽40时相对于用户的嘴部的固定位置处。电子器件壳体41被提供以容纳前述电子器件，特别是蓝牙接口7、微控制器8、DSP 10、用户界面11和电池12。

尽管已在附图和前述描述中详细地图示和描述了本发明，但此类图示和描述应被认为是说明性或示例性的而非限制性的；本发明不限于所公开的实施例。例如，在任何前述实施例中操作本发明是可能的，其中

-代替作为头戴式耳机提供的头戴式音频设备，该头戴式音频设备形成作为智能眼镜、便帽、礼帽、头盔或任何其他类型的头戴式设备或衣物；

-代替蓝牙接口7，使用适于经由USB、DECT、Wi-Fi、LAN、QD或不同类型的模拟或数字、有线或无线连接进行通信的接口，

-输出驱动器9包括用于输出音频的噪声消除电路系统；和/或

-代替图1和图2中所示出的五个麦克风，使用更多或更少数量的麦克风。

在实施所要求保护的发明时，所公开的实施例的其他变体可以由本领域技术人员从对附图、本公开以及所附权利要求的研究而理解和实现。在权利要求书中，词语“包括”不排除其他元件或步骤，并且不定冠词“一(a)”或“一个(an)”并不排除多个。单个处理器、模块或其他单元可以实现权利要求中所记载的若干项目的功能。

在相互不同的从属权利要求中记载某些措施的纯粹事实并不指示不能有利地使用这些措施的组合。计算机程序可被存储/分布在合适的介质(诸如，与其他硬件一起或作为其他硬件的一部分而被供应的光学存储介质或固态介质)上，但也能以其他形式(诸如，经由因特网或者其他有线或无线电信系统)来分布。权利要求中的任何附图标记不应被解释为限制范围。

Claims

1.一种具有用于语音信号增强的电路的头戴式音频设备，所述电路包括至少以下各项：

多个麦克风，所述多个麦克风被布置在预定义位置处，其中每个麦克风提供麦克风信号；

方向性预处理器电路，所述方向性预处理器电路与所述多个麦克风连接以接收所述麦克风信号，并且所述方向性预处理器电路被配置为提供至少语音信号和噪声信号；

BSS处理器电路，所述BSS处理器电路与所述方向性预处理器电路连接以接收至少所述语音信号和所述噪声信号，并且所述BSS处理器电路被配置为至少对所述语音信号和所述噪声信号执行盲源分离以至少提供具有降低的噪声分量的增强语音信号；其中，

所述方向性预处理器电路被配置为从所述麦克风信号生成多个语音候选信号和多个噪声候选信号；其中，每个语音候选信号和每个噪声候选信号与所定义的空间方向性对应；其中，所述语音信号从所述多个语音候选信号中的至少一个语音候选信号选择，并且所述噪声信号从所述多个噪声候选信号中的至少一个噪声候选信号选择。

2.如权利要求1所述的头戴式音频设备，其特征在于，所述方向性预处理器电路包括麦克风定义数据库和空间方向性电路，以生成所述多个语音候选信号和所述多个噪声候选信号。

3.如权利要求1所述的头戴式音频设备，其特征在于，所述方向性预处理器电路进一步被配置为对所述语音候选信号和所述噪声候选信号中的至少一者进行均衡化/归一化。

4.如权利要求1所述的头戴式音频设备，其特征在于，所述方向性预处理器电路进一步包括语音候选选择电路，其中所述语音候选选择电路被配置为：选择所述多个语音候选信号中的一个语音候选信号作为所述语音信号，并将所述语音信号提供给所述BSS处理器电路。

5.如权利要求4所述的头戴式音频设备，其特征在于，所述语音候选选择电路被配置为：确定所述多个语音候选信号中的每个语音候选信号的能量，并选择具有最低能量的语音候选信号作为所述语音信号。

6.如权利要求5所述的头戴式音频设备，其特征在于，所述语音候选选择电路被配置为确定所述多个语音候选信号中的每个语音候选信号在多个子带中的能量。

7.如权利要求1所述的头戴式音频设备，其特征在于，所述方向性预处理器电路进一步包括语音滤波器，所述语音滤波器被配置为从所述多个噪声候选信号中的每个噪声候选信号中对语音分量滤波。

8.如权利要求7所述的头戴式音频设备，其特征在于，所述语音滤波器被配置为：接收所述多个语音候选信号中的至少一个语音候选信号，并使用接收到的所述至少一个语音候选信号来对所述语音分量滤波。

9.如权利要求1所述的头戴式音频设备，其特征在于，所述方向性预处理器电路进一步包括噪声候选选择电路，其中所述噪声候选选择电路被配置为：选择所述多个噪声候选信号中的一个噪声候选信号作为所述噪声信号，并将所述噪声信号提供给所述BSS处理器电路。

10.如权利要求9所述的头戴式音频设备，其特征在于，所述噪声候选选择电路被配置为：确定所述多个噪声候选信号中的每个噪声候选信号的能量，并选择具有最高能量的噪声候选信号作为所述噪声信号。

11.如权利要求10所述的头戴式音频设备，其特征在于，所述噪声候选选择电路被配置为确定所述多个噪声候选信号中的每个噪声候选信号在多个子带中的能量。

12.如权利要求1所述的头戴式音频设备，其特征在于，所述BSS处理器电路被配置为附加地提供具有降低的语音分量的增强噪声信号。

13.如权利要求1所述的头戴式音频设备，其特征在于，所述头戴式音频设备形成为眼镜、便帽、礼帽和头盔中的一者。

14.如权利要求1所述的头戴式音频设备，其特征在于，所述头戴式音频设备是头戴式耳机。

15.如权利要求1所述的头戴式音频设备，包括至少三个麦克风。

16.如权利要求1所述的头戴式音频设备，进一步包括音频输出，以将至少所述增强语音信号传输到进一步的设备。

17.一种用于语音信号增强的电路，所述电路能够连接到多个麦克风，其中每个麦克风提供麦克风信号，所述电路包括至少以下各项：

方向性预处理器电路，所述方向性预处理器电路与所述多个麦克风连接以接收所述麦克风信号，并且所述方向性预处理器电路被配置为提供至少语音信号和噪声信号；以及

18.一种基于多个麦克风的多个麦克风信号的语音信号增强的方法，所述方法包括：

对所述多个麦克风信号进行方向性预处理，以获得至少语音信号和噪声信号；以及

对至少所述语音信号和所述噪声信号执行盲源分离，以至少获得具有降低的噪声分量的增强语音信号；其中

所述方向性预处理包括：

从所述多个麦克风信号生成多个语音候选信号和多个噪声候选信号；

从所述多个语音候选信号中的至少一个语音候选信号选择所述语音信号；以及

从所述多个噪声候选信号中的至少一个噪声候选信号选择所述噪声信号。

19.一种非瞬态计算机可读介质，所述非瞬态计算机可读介质包括被配置为使处理设备执行权利要求18的方法的内容。