CN112543393B

CN112543393B - 内置麦克风的频谱混合

Info

Publication number: CN112543393B
Application number: CN202010842927.5A
Authority: CN
Inventors: T·P·于阿; E·B·安德森
Original assignee: Apple Inc
Current assignee: Apple Inc
Priority date: 2019-09-23
Filing date: 2020-08-20
Publication date: 2023-05-23
Anticipated expiration: 2040-08-20
Also published as: US20210092233A1; CN112543393A; US11258908B2

Abstract

本公开涉及一种耳机，所述耳机可包括：生成对应的外置麦克风信号的多个外置麦克风；生成加速度计信号的加速度计；以及不直接暴露于环境的内置麦克风，该内置麦克风生成内置麦克风信号。该耳机的处理器可被配置为基于a)加速度计信号、b)内置麦克风信号和c)多个外置麦克风信号来生成包含用户的语音的音频信号。

Description

内置麦克风的频谱混合

相关申请的交叉引用

本申请要求提交于2019年9月23日的美国临时专利申请第62/904259 号的权益，该申请以引用的方式全文并入本文。

技术领域

本公开的一个方面涉及使用耳机的内置麦克风混合音频信号以进行语音通信。还描述了其他方面。

背景技术

音频系统(例如，耳机)能够具有包耳式、贴耳式或入耳式佩戴的扬声器。耳机能够通信地连接至其他设备。耳机能够接收来自其他设备的音频信号并使用该音频信号来驱动耳机的扬声器。耳机能够使用户方便地私下收听音频内容，而不将音频内容播放给可能在附近的其他人。

发明内容

耳机能够具有外置麦克风以拾取用户的言语并提供用户之间的通信 (例如，电话)。具有外置麦克风的耳机对风和背景噪声敏感。对于电话，因为外置麦克风能够拾取由风产生的嗖嗖声，所以语音清晰度会下降。

加速度计对风不太敏感并且能够帮助拾取低频的语音活动和言语。该加速度计能够与外置麦克风混合以覆盖低频，然而，加速度计的频带限制于低于800Hz的频率并且具有低信噪比。耳机内部的屏蔽背景噪声和风的附加麦克风能够用于扩展所混合的言语信号的频率带宽而不增加噪声。这能够在有风和嘈杂条件下提高语音清晰度。如本文所用，“内置麦克风”也能够被称为内部麦克风或误差麦克风。

在本公开的一个方面中，音频系统(例如，耳机)具有多个外置麦克风、加速度计和不直接暴露于环境的内置麦克风。如本文所用，“外置麦克风”也能够被称为外部麦克风。

麦克风和加速度计各自生成感测用户的语音活动的对应信号，该对应信号能够包括由用户发出的语言以及其他声音(例如，嘟哝声、咳嗽声或叹气声)。音频系统的处理器被配置为基于a)加速度计信号、b)内置麦克风信号和c)多个外置麦克风信号来生成包含用户的语音活动的音频信号。

该内置麦克风和该加速度计能抵抗背景噪声和风，但是频带有限。外置麦克风具有宽频率范围，能感测用户的口声，但是对背景噪声和风敏感。该音频系统能够将外置麦克风信号与内置麦克风信号和加速度计信号进行频谱组合以形成音频信号，该音频信号在嘈杂和/或有风条件期间提供用户的清晰言语。也描述了其他方面。

附图说明

本公开的各方面以举例的方式进行说明，而不仅限于各个附图的图示，在附图中类似的附图标号指示类似的元件。应当指出的是，在本公开中提到“一”或“一个”方面未必是同一方面，并且其意指至少一个。另外，为了简洁以及减少附图的总数，可使用给定附图示出本公开的不止一个方面的特征部，并且对于给定方面，可能并非需要该附图中的所有元件。

图1示出了根据一个方面的用于生成具有内置麦克风的音频系统的过程和系统。

图2示出了根据一个方面的用于生成具有内置麦克风的音频系统的过程和系统，该音频系统具有风检测和/或噪声检测。

图3示出了根据一个方面的频谱组合的音频信号。

图4示出了根据一个方面的频谱组合的音频信号以及动态带宽修改。

图5绘示了根据一个方面的入耳式耳机的示例。

具体实施方式

现在将参考所附附图来解释本公开的各方面。每当所描述的部件的形状、相对位置和其它方面未明确限定时，本发明的范围并不仅局限于所示出的部件，所示出的部件仅用于例证的目的。另外，虽然阐述了许多细节，但应当理解，本公开的一些方面可在没有这些细节的情况下被实施。在其他情况下，未详细示出熟知的电路、结构和技术，以免模糊对该描述的理解。

参考图1，示出了上游音频设备62。音频设备可以是入耳式耳机(听筒或耳塞)，或者可以是贴耳式耳机或包耳式耳机(开放式耳机、封闭式耳机或半开放式耳机)。音频设备能够通过网络66与下游音频设备64通信。例如，音频设备能够使用已知的通信硬件和软件协议(诸如，以太网、TCP/IP、Wi-Fi、3G、4G、5G、蓝牙、ZigBee或其他等效技术)进行通信。音频设备能够包括能够与其他联网设备通信(例如，接收和发送数据)的有线或无线发射器和接收器。

该设备能够来回传送音频信号以允许用户在通信会话中彼此口头通信。该音频设备具有扬声器58，该扬声器58能够用通过网络66从下游音频设备64接收的下行链路信号来驱动。尽管示出了一个扬声器，但音频设备能够具有多于一个扬声器，例如，耳机的左耳佩戴式扬声器和右耳佩戴式扬声器。下行链路信号能够包含下游设备的用户的语音活动。因此，上游设备和下游设备的用户能够通过相应设备彼此通信。

多个外置麦克风50直接暴露于音频系统的环境。尽管不一定在音频设备外部，但外置麦克风能够直接感测音频设备的环境(例如，环境空气) 中的声音。例如，参考图5，外置麦克风112能够被容纳于耳机外壳102 内，但仍然通过网眼、滤网、一个或多个开口、隔膜或允许声压变化从环境空气到达外置麦克风的其他已知装置暴露于环境空气。此外，尽管在图5 中示出了两个外置麦克风，但设备能够具有附加麦克风。此外，图5示出了耳机的一侧，但应当理解，耳机能够具有第二侧，该第二侧也具有与所示侧相同的特征。

重新参考图1，外置麦克风生成由音频信号生成器60接收的对应外置麦克风信号。该外置麦克风能够捕获用户的言语或其他语音活动。该外置麦克风提供对用户言语的高质量拾取，因为当位于耳机上时该外置麦克风暴露于周围环境并且相对靠近用户的口部。该外置麦克风信号具有高信噪比(SNR)和宽频率覆盖范围。然而，如所讨论的，因为该外置麦克风暴露于周围环境，所以其可能无意地拾取背景噪声并且容易受到由风引起的噪声的影响。由风引起的噪声可能掩蔽用户的语音，因而使得下游音频设备的下游用户更难理解该用户。因此，该音频设备具有附加音频感测部件 (内置麦克风54和加速度计52)，以改善在此类条件期间对用户言语的感测。

该音频设备具有加速度计52，该加速度计52生成加速度计信号。与外置麦克风相比，该加速度计对背景噪声和风不太敏感。因此，即使在嘈杂和/或有风条件期间，该加速度计也能够提供附加音频感测。然而，该加速度计的频带有限。其能够感测低频声音，但在感测高于800Hz的频率时受到限制。进一步地，加速度计具有低信噪比。

此外，音频设备具有不直接暴露于环境的内置麦克风54，该内置麦克风54生成内置麦克风信号。该内置麦克风能够屏蔽风和环境噪声。例如，参考图5，内置麦克风110能够位于抑制噪声和风拾取的外壳102中。因为音频设备被佩戴在用户的头部上，所以用户的言语仍然能够由内置麦克风通过闭塞效应来感测。此外，在设备是耳机套装的情况下，内置麦克风受益于无源衰减，耳机的主体使麦克风免受噪声的影响，从而使噪声无源衰减。扬声器106和内置麦克风都能够容纳于同一腔108中。在被佩戴时，该腔能够与用户的耳朵相邻并面向用户的耳朵。这允许内置麦克风通过闭塞效应和骨传导更好地感测用户的语音，然而，双向通话是个问题，因为内置麦克风将拾取从扬声器发出的声音。

重新参考图1，在一个方面中，内置麦克风54能够具有消除回声的回声消除器56。该回声消除器能够对内置麦克风信号应用线性回声消除和/或残余回声抑制以产生回声抑制的内置麦克风信号。该回声消除器能够使用用于驱动扬声器的下行链路音频信号作为回声消除的参考。该回声消除器能够对声学麦克风信号采用信号处理操作，诸如，有源回声消除(AEC) 算法和/或残余回声抑制(RES)算法。AEC能够通过估计来自下行链路信号的回声并且从由近端设备产生的麦克风信号(或加速度计信号)减去回声来减少回声的线性分量。RES能够通过应用RES滤波器来消除不能通过 AEC去除的回声的非线性分量，该RES滤波器是基于由AEC确定的回声统计确定的。

音频信号生成器60基于a)加速度计信号、b)内置麦克风信号和c) 多个外置麦克风信号来生成上行链路音频信号。上行链路音频信号能够具有信号信息，该信号信息在用于驱动扬声器时再现用户的语音活动，该语音活动可包括言语。因此，上行链路音频信号能够作为电话通信的一部分 (例如，通过网络66)被传送至下游设备64。

在一个方面中，该外置麦克风形成麦克风阵列。在框72处，该外置麦克风信号中的至少两个外置麦克风信号被波束形成以形成外部拾音波束。拾音波束能够自适应地形成以最大化和/或优化用户的语音拾取。这能够例如通过形成具有最大信噪比的拾音波束来完成。能够使用其他自适应波束形成技术。拾音波束能够例如基于信噪比被导向用户言语具有最佳强度的位置。该位置可位于用户的口部附近。在框80处，所得波束形成的音频信号能够用于生成音频信号。

在一个方面中，风检测器74能够检测是否存在风。该检测器能够基于至少两个外置麦克风信号(由不同的外置麦克风产生)之间的互相关性来检测风的存在。例如，如果外置麦克风信号中的两个外置麦克风信号显著不同(例如，满足互相关阈值)，则检测器能够认为存在风。风趋于以偏离和不均匀的方式在外置麦克风之间生成噪声，因此各麦克风之间的互相关性能够发出风势通知。

在一个方面中，SNR估计器76能够检测是否存在背景噪声。该SNR 估计器能够确定信噪比。在电话应用中，信号可以是用户的语音活动，并且噪声可以是由外置麦克风拾取的除用户的语音活动之外的声音。SNR估计器能够基于原始外置麦克风信号或由拾音波束信号生成SNR，如图2所示。SNR能够进一步使用加速度计信号和/或内置麦克风信号作为言语信号的参考，因为这些传感器能抵抗背景噪声和风。类似地，如已经讨论的，回声消除器78能够抑制内置麦克风信号中的回声，这能够向SNR估计器提供准确的言语参考。如果SNR低于阈值，或者如果检测到风，则音频设备能够采取某些措施。

响应于检测是否存在风和/或背景噪声，音频系统能够调整如何生成上行链路音频信号。例如，当检测到风和/或噪声时，能够调整音频信号以增加内置麦克风对上行链路音频信号的贡献并且减少外置麦克风对上行链路音频信号的贡献。类似地，当不存在风和/或噪声时，能够调整上行链路音频信号以减小内置麦克风对音频信号的贡献并增加外置麦克风对音频信号的贡献。例如，能够在通信会话期间动态地执行该调整。这将在其他部分中进一步讨论。

参考图3，音频信号生成器能够基于外置麦克风信号、内置麦克风信号和加速度计信号来生成上行链路信号。如所提及的，外置麦克风信号能够形成麦克风阵列，该麦克风阵列能够被波束形成以生成位于用户的语音活动足够强的位置处的拾音波束。该音频信号生成器能够将外置麦克风信号(例如，波束形成的拾音信号)、加速度计信号和内置麦克风信号(其可被消除回声)进行频谱组合。在一个方面中，所得的音频信号具有：a) 基于加速度计信号生成的第一频带92、b)由内置麦克风信号生成的第二频带94以及c)基于一个或多个外置麦克风信号生成的第三频带96。

第一频带的频率是最低的，第二频带具有比第一频带高的频率，并且第三频带具有比第二频带高的频率。例如，第一频带能够以频率F0(例如，100Hz)开始并且以频率F1(例如，1kHz)结束。第二频带能够以频率F2(例如，800Hz)开始并且以频率F3(例如，2.5kHz)结束。第三频带能够以频率F3(例如，2.5kHz)开始，并且以频率F4(例如，12kHz) 结束。频带能够重叠。例如，第一频带和第二频带能够在F2和F1之间重叠，但这不是必需的。在此类情况下，F2和F1之间的频带能够具有来自加速度计信号和内置麦克风信号两者的贡献。该重叠能够帮助防止可听伪影。

如所描述的，音频系统能够检测由风或背景噪声生成的噪声是否存在于外置麦克风信号中。该检测能够通过风检测器和/或SNR估计器来完成，如所描述的。参考图4，如果基于外置麦克风信号存在噪声或风，则音频信号生成器能够增加基于内置麦克风信号生成的上行链路音频信号的频带 (内置麦克风频带94)的带宽。如图所示，能够通过将频带94的频率上限 (F3)向右移位来增加带宽。同时，外置麦克风频带96的频率下限(也是 F3)也向右移位，从而减小频率下限的带宽。因此，当检测到风时，上行链路音频信号能够具有来自内置麦克风的较大贡献，该内置麦克风能抵抗背景噪声和风，同时具有来自外置麦克风的较小贡献，该外置麦克风对噪声和风更敏感。

类似地，如果不存在噪声或风，则F3能够向右移位，从而减小基于内置麦克风信号生成的音频信号的频带(内置麦克风频带94)的带宽，而增加基于外置麦克风信号生成的音频信号的频带的带宽。这样，系统能够利用外置麦克风的宽频率覆盖范围和高信噪比来在背景噪声和风较小的时间段期间在上行链路音频信号中产生高言语质量。在通信会话期间，能够动态地调整内置麦克风频带和外置麦克风频带的带宽。

在一个方面中，音频系统是部分地或完全地佩戴在用户耳道中的耳机。例如，图5示出了耳机100，该耳机100的一部分插入到用户的耳朵中。内置麦克风110位于前腔108中，该前腔108在由用户佩戴时与用户的耳道相邻并且至少部分地阻塞用户的耳道。这能够产生语音闭塞效应，其中内置麦克风从用户的耳道感测用户的言语。

在一个方面中，音频系统是包耳式耳机。耳机具有佩戴在用户耳朵上的扬声器和音频系统的密封件，该密封件阻止环境声音从空气中传播到用户的耳道。密封件还在内置麦克风所在的耳机前腔中产生语音闭塞效应。内置麦克风能够从用户的耳道感测用户的言语。无论耳机是入耳式佩戴还是包耳式佩戴，耳机的加速度计都能够拾取用户的语音活动。

本文所述的各个方面可至少部分地在软件中体现。也就是说，响应于其处理器执行存储介质(诸如非暂态机器可读存储介质(例如DRAM或闪存存储器))中包含的指令序列而可在音频处理系统中执行各个附图(例如，图1至图3)中示出的技术和框。在各个方面中，可将硬连线电路与软件指令结合地使用来实现本文所述的技术。因此，这些技术不限于硬件电路与软件的任何指定组合，也不限于由音频处理系统执行的指令的任何特定源。

在本说明书中，某些术语用于描述各个方面的特征。例如，在某些情况下，术语“估计器”、“组合器”、“合成器”、“控制器”、“波束形成器”、“部件”、“单元”、“模块”、“逻辑部件”、“提取器”、“生成器”、“处理器”、“消除器”、“检测器”和“模拟器”表示被配置为执行一个或多个过程或功能的硬件和/或软件。例如，“硬件”的示例包括但不限于集成电路诸如处理器(例如，数字信号处理器、微处理器、专用集成电路、微控制器等)。因此，如本领域的技术人员所理解的，可以实现硬件和/或软件的不同组合以执行由上述术语描述的过程或功能。当然，硬件可另选地实现为有限状态机或甚至组合逻辑部件。“软件”的示例包括应用程序、小应用程序、例程甚至一系列指令形式的可执行代码。如上所述，软件可存储在任何类型的机器可读介质中。

已按照对计算机存储器中的数据位进行操作的算法和符号表示来呈现前面详细描述的某些部分。这些算法描述和表示是音频处理领域技术人员所用的方法，而这些方法也能最有效地将他们的工作实质传达给该领域其他技术人员。算法在这里并通常是指导致所希望的结果的操作的自相一致的序列。操作是需要对物理量进行物理操纵的那些操作。然而，应当谨记，所有这些以及类似的术语都与适当的物理量相关联，并且只是应用于这些量的方便标签。除非另外特别说明，否则从上述讨论中显而易见的是，可以理解在整个说明书中，使用诸如那些在下文权利要求书中给出的术语的讨论涉及音频处理系统或类似电子设备的动作和过程，其操纵在系统的寄存器和存储器中被表示为物理(电子)量的数据以及将其转换成在系统存储器或寄存器或其他此类信息存储、传输或显示设备中类似地被表示为物理量的其他数据。

本文所述的过程和块不限于所述的特定示例，并且不限于在本文中作为示例使用的特定次序。相反，可根据需要对任何处理块进行重新排序、组合或移除、并行或串行地执行，以实现上述结果。与实施音频处理系统相关联的处理块可通过一个或多个可编程处理器执行存储在非暂态计算机可读存储介质上的一个或多个计算机程序来执行，以执行系统的功能。音频处理系统的全部或部分可被实现为专用逻辑电路(例如，FPGA(现场可编程门阵列)和/或ASIC(专用集成电路))。音频系统的全部或部分可利用包括电子设备诸如例如处理器、存储器、可编程逻辑器件或逻辑门中至少一者的电子硬件电路来实现。另外，过程可在任何组合硬件设备和软件部件中实现。

虽然已经在附图中描述和示出了某些方面，但是应当理解，这些方面仅仅是对本发明的说明而非限制，并且本发明不限于所示出和所描述的具体结构和布置，因为本领域的普通技术人员可以想到各种其他修改型式。因此，要将描述视为示例性的而非限制性的。

为了帮助专利局和本申请中发布的任何专利的任何读者解译所附权利要求书，申请人希望注意到它们并不意欲所附权利要求书中的任一个或权利要求要素调用35U.S.C.112(f)，除非在特定权利要求中明确使用字词“用于......的装置”或“用于......的步骤”。

众所周知，使用个人可识别信息应遵循公认为满足或超过维护用户隐私的行业或政府要求的隐私政策和做法。具体地，应管理和处理个人可识别信息数据，以使无意或未经授权的访问或使用的风险最小化，并应当向用户明确说明授权使用的性质。

Claims

1.一种耳机，所述耳机包括：

多个外置麦克风，所述多个外置麦克风直接暴露于所述耳机的环境，所述多个外置麦克风生成对应的外置麦克风信号；

加速度计，所述加速度计生成加速度计信号；

内置麦克风，所述内置麦克风不直接暴露于所述环境，所述内置麦克风生成内置麦克风信号；和

处理器，所述处理器被配置为：

基于a)所述加速度计信号、b)所述内置麦克风信号和c)所述多个外置麦克风信号来生成包含用户的语音的音频信号，

其中所述音频信号的第一频带基于所述加速度计信号来生成，并且所述音频信号的第二频带基于所述内置麦克风信号来生成，所述第二频带处于比所述第一频带更高的频率。

2.根据权利要求1所述的耳机，其中，所述音频信号具有基于所述外置麦克风信号生成第三频带，所述第三频带具有比所述第二频带高的频率。

3.根据权利要求1所述的耳机，其中，生成所述音频信号包括：波束形成所述外置麦克风信号中的至少两个外置麦克风信号以形成用于生成所述音频信号的外部波束形成信号。

4.根据权利要求1所述的耳机，其中，所述内置麦克风被消除回声。

5.根据权利要求1所述的耳机，其中，所述耳机至少部分地被佩戴在所述用户的耳道中。

6.根据权利要求1所述的耳机，其中，所述耳机被佩戴在所述用户的耳朵之上，并且所述耳机的密封件阻止环境声音从环境空气传播到所述用户的耳道。

7.根据权利要求1所述的耳机，所述内置麦克风和扬声器被容纳于所述耳机的同一腔中。

8.根据权利要求1所述的耳机，其中，所述处理器进一步被配置为基于所述外置麦克风信号检测是否存在噪声或风，并且如果存在噪声或风，则增加基于所述内置麦克风信号生成的所述音频信号的所述第二频带的带宽。

9.根据权利要求1所述的耳机，其中，所述处理器进一步被配置为基于所述外置麦克风信号检测是否存在噪声或风，并且如果不存在噪声或风，则减小基于所述内置麦克风信号生成的所述音频信号的所述第二频带的带宽。

10.根据权利要求9所述的耳机，其中，检测是否存在噪声基于信噪比(SNR)，并且检测是否存在风基于所述外置麦克风信号之间的互相干。

11.根据权利要求1所述的耳机，其中，所述外置麦克风形成麦克风阵列。

12.一种音频设备，所述音频设备具有：

多个外置麦克风，所述多个外置麦克风直接暴露于所述音频设备的环境，所述多个外置麦克风生成对应的外置麦克风信号；

加速度计，所述加速度计生成加速度计信号；

处理器，所述处理器被配置为：

基于a)所述外置麦克风信号、b)所述加速度计信号和c)所述内置麦克风信号来生成包含用户的语音的音频信号，

其中所述音频信号的第一频带基于所述加速度计信号来生成，并且所述音频信号的第二频带基于所述内置麦克风信号来生成，所述第二频带处于比所述第一频带更高的频率；以及

将所述音频信号传送至下游设备，所述下游设备用所述音频信号驱动扬声器以产生声音。

13.根据权利要求12所述的音频设备，其中，所述音频信号具有基于所述外置麦克风信号生成第三频带，所述第三频带具有比所述第二频带高的频率。

14.根据权利要求13所述的音频设备，其中，所述第一频带和所述第二频带重叠。

15.根据权利要求13所述的音频设备，其中，所述第一频带具有100Hz至1kHz的范围，所述第二频带具有800Hz至2.5kHz的范围，并且所述第三频带具有2.5kHz至12kHz的范围。

16.一种用于音频设备的方法，所述方法包括：

接收由耳机的直接暴露于所述耳机的环境的多个外置麦克风生成的外置麦克风信号；

接收由所述耳机的加速度计生成的加速度计信号；以及

接收由所述耳机的不直接暴露于所述环境的内置麦克风生成的内置麦克风信号；以及

将a)所述加速度计信号、b)所述内置麦克风信号和c)所述外置麦克风信号进行频谱混合，以形成包含用户的口声的音频信号，其中所述音频信号具有基于所述加速度计信号而生成的第一频带，以及基于所述内置麦克风信号而生成的第二频带，所述第二频带处于比所述第一频带更高的频率。

17.根据权利要求16所述的方法，所述方法进一步包括：将所述音频信号传送至下游设备，其中，利用所述音频信号来驱动所述下游设备的扬声器以再现所述用户的所述口声。

18.根据权利要求16所述的方法，所述方法进一步包括：

基于所述外置麦克风信号检测是否存在噪声或风；并且

如果存在噪声或风：则增加基于所述内置麦克风信号生成的所述音频信号的所述第二频带的带宽；或者

如果不存在噪声或风：则减小所述第二频带的所述带宽。

19.根据权利要求18所述的方法，其中，检测是否存在噪声基于所述外置麦克风信号的信噪比。

20.根据权利要求18所述的方法，其中，检测是否存在风基于所述外置麦克风信号之间的相似性。