CN109218879B

CN109218879B - 头戴式耳机、用于头戴式耳机的方法以及计算机可读介质

Info

Publication number: CN109218879B
Application number: CN201810736875.6A
Authority: CN
Inventors: 拉斯穆斯·孔斯格德·奥尔森
Original assignee: GN Audio AS
Current assignee: GN Audio AS
Priority date: 2017-07-06
Filing date: 2018-07-06
Publication date: 2021-11-05
Anticipated expiration: 2038-07-06
Also published as: EP3425923A1; US20190014404A1; EP3425923B1; CN109218879A; EP3425923C0; US10299027B2

Abstract

一种头戴式耳机、用于头戴式耳机的方法以及计算机可读介质，头戴式耳机包括：电声输入变换器，布置成拾取声学信号并将声学信号转换成电信号；发送器；语音活动检测器；和第一处理器，被耦合以响应于来自语音活动检测器的控制信号接收电信号并向发送器生成输出信号。基于对电信号的一部分的处理，语音活动检测器配置为：在分别存在于由电声变换器拾取的声学信号中时，检测近侧语音活动、远侧语音活动和无语音活动，并选择相应模式，其选择被编码在控制信号中。第一处理器由语音活动检测器控制，以至少在控制信号指示远侧语音活动存在的模式的时间段部分在输出信号中降低远侧语音活动的可理解性。

Description

头戴式耳机、用于头戴式耳机的方法以及计算机可读介质

技术领域

头戴式耳机可具有不同的功能——其中之一是作为电话接收器，其中，作为呼叫的近端方的用户佩戴头戴式耳机以捕捉她的声音并将其传送给该呼叫的远端方的一个或多个人以接收和再现一个或多个远端人员的语音作为声学信号。

背景技术

在各种情况下使用头戴式耳机，并且经常用在当头戴式耳机的用户处于附近有其他人在谈话(诸如大声谈话)的位置的情况下。这可能是办公室或其他地方的情况，例如在呼叫中心。

与此相关的是，头戴式耳机用户报告了远端用户能够听到并且有时能够理解佩戴头戴式耳机的人附近的人所说的话的问题。因此，头戴式耳机麦克风不仅捕获头戴式耳机的用户的语音，而且捕获在用户附近说话的人的语音。当在呼叫中发生的会话应该保密时，这个问题尤其明显。

US 8,824,666(帝国技术发展公司(Empire Technology Development))描述了一种具有噪声消除单元的头戴式耳机，其接收来自头戴式耳机的麦克风的麦克风信号和来自连接至头戴式耳机的移动电话的麦克风的另一麦克风信号。因此，移动电话的麦克风被用作抑制环境噪声的辅助麦克风。因此提供了一种用于减少与移动电话通话相关的噪声的电话噪声消除系统，由此减少了对他人的麻烦并增加了移动电话用户的隐私。

US 9,438,985(苹果公司)描述了一种在具有麦克风阵列的头戴式耳机中检测用户的语音活动的方法。该方法以语音活动检测器(VAD：voice activity detector)开始，该语音活动检测器基于从包括在一对耳塞中的麦克风以及包括在头戴式耳机线上的麦克风阵列接收的声学信号以及由加速度计输出的数据来生成VAD输出，所述加速度计包括在所述耳塞对中。然后噪声抑制器可接收来自麦克风阵列的声学信号和VAD输出，并且基于VAD输出抑制包括在从麦克风阵列接收的声学信号中的噪声。该方法还可包括基于VAD输出来操纵一个或多个波束成形器。

美国专利8,682,250(欧胜微电子公司)描述了一种用于诸如移动电话手持机的音频系统的噪声消除系统或者无线电话头戴式耳机，所述无线电话头戴式耳机具有用于接收来自定位成接收环境噪声的一个或多个麦克风的第一音频信号的第一输入，以及用于接收来自定位成检测用户语音的麦克风的第二音频信号的第二输入，以及用于接收例如表示用户正在与其通话的人的语音的第三音频信号的第三输入。第一噪声消除块接收第一音频信号并生成第一噪声消除信号，并且将其与第三音频信号组合以形成第一音频输出信号。第二噪声消除块接收第一音频信号和所述第二音频信号的至少一部分并应用噪声消除来生成第二音频输出信号。

上述现有技术文献描述了不同的环境噪声抑制方法，然而所有这些都基于具有用于拾取不同位置处的麦克风信号的多个麦克风的硬件配置。

常规的无方向性噪声抑制方法不能适当地抑制环境噪声，例如，以来自头戴式耳机佩戴者附近的人的(干扰)言语的形式的环境噪声。

更具体地说，上述现有技术未能提出基于具有单个麦克风的硬件同时能够抑制在头戴式耳机用户附近发生的语音形式的噪声的环境噪声抑制方法。在上述现有技术中这个问题仍未解决。

发明内容

本发明的目的是提供一种传送表示佩戴者语音的信号的头戴式耳机，而当该信号被再现为声学信号时，来自佩戴者附近的人的语音不太可能易于理解。通过不太可能理解，来自佩戴者附近的一个或多个人的语音变得更难以被听到和/或被听懂。

一个目的是，与要从头戴式耳机传送的信号的生成相关地，提供一种具有噪声抑制功能的头戴式耳机，这代表了以下两者之间的折衷：一方面，保持和/或改善佩戴者的语音的可理解性(intelligibility)和/或质量，另一方面，有效地减少佩戴者附近的人的可理解性语音。

另一个目的是提供一种具有噪声抑制功能的头戴式耳机，其符合上述目的，同时头戴式耳机包括单个麦克风或没有波束成形装置接收来自头戴式耳机上的多个麦克风的信号。

一个目的是提供一种符合上述折衷且同时保持低处理延迟的头戴式耳机。

提供了一种头戴式耳机，包括：

电声输入变换器，被布置为拾取声学信号并将所述声学信号转换成电信号；

发送器；

语音活动检测器；和

第一处理器，被耦合以响应于来自所述语音活动检测器的控制信号，接收所述电信号并且对所述发送器生成输出信号；

其中，基于对所述电信号的一部分的处理，所述语音活动检测器被配置为：在分别存在于由所述电声变换器拾取的声学信号中时，检测近侧语音活动、远侧语音活动和无语音活动，并选择相应的模式，其选择在控制信号中被指示；并且

其中，所述第一处理器由所述语音活动检测器控制，以至少在所述控制信号指示远侧语音活动存在的模式的时间段的部分处在所述输出信号中减少远侧语音活动的可理解性。

如此，头戴式耳机检测在分别存在于由电声变换器拾取的声学信号中时的近侧语音活动、远侧语音活动和无语音活动。响应于被检测到，语音活动检测器选择相应的模式，例如，借助于状态机，并且将相应的模式传送给第一处理器，该第一处理器例如通过编程被配置为至少在控制信号指示远侧语音活动的模式存在的时间段的部分处，在输出信号中减少远侧语音活动的可理解性。

在一些方面中，语音活动检测器被配置为：瞬时(实时)检测在分别存在于由所述电声变换器拾取的声学信号中时的近侧语音活动、远侧语音活动和无语音活动，而基于一个或多个定时标准来选择相应的模式，从而有效地减少从一个状态到另一个状态的转换并再次返回。从而减少了由这种转换产生的输出信号中的人为因素。瞬时被理解为在不到一秒的时间内，例如，在10毫秒内。通过更快速的瞬时检测，例如通过状态机，可有效地防止从一个状态到另一个状态并再次返回的转变发生得太快或太频繁。可防止每1至5秒发生多于一次的转变，例如，防止每3秒发生多于一次。更多细节在下面进一步给出。

在一些方面中，语音活动检测器被配置为在正在进行或运行的基础上检测电信号，该电信号与“近侧语音活动”、“远侧语音活动”和“无语音活动”中的一个或多个有关。该检测可基于在正在进行或运行的基础上对电信号进行的分类。基于检测来选择相应的模式，例如响应于定时标准。

如常规已知的那样，第一处理器另外被配置为执行以下常规功能中的一个或多个：均衡，以补偿例如电声输入变换器的不希望的频率响应；信号压缩；滤波，例如，高通滤波以抑制次声；自动增益控制，AGC；回声控制，例如包括回声消除和回声抑制。第一处理器可另外执行其他类型的信号处理以提供输出信号。当选择一些模式时，例如，当选择与未检测到“近侧语音活动”对应的模式时，第一处理器可放弃执行这些常规功能中的一个或多个，诸如全部；当检测到与“远侧语音活动”或“无语音活动”对应的模式时可能是这种情况。

电声输入变换器可以是麦克风，例如电容型的，输出模拟信号或数字信号。电声输入变换器可布置在例如头戴式耳机的所谓的麦克风吊杆或其耳杯上。头戴式耳机可包括单个电声输入变换器。

从语音活动检测器到第一处理器的控制信号可以是所谓的单线或多线控制信号。所选模式可在单独的线上指示或者编码在控制信号中。本领域已知传送控制信号以指示多个状态中的一个或多个状态的选择。

如本领域中已知的，发送器可包括用于通过以下中的一个或多个适当地提供输出信号的电路：用于在有线连接上提供输出信号的模拟放大器、缓冲器或驱动器；由数字编解码器根据适当的协议提供输出信号作为数字输出信号；无线发送器，例如根据蓝牙

DECT标准或Wi-Fi标准。发送器可与接收器组合，接收来自远端的信号，例如，以形成集成的收发器。

在一些方面，语音活动检测器和第一处理器被配置为在数字域中操作的一个或多个数字信号处理器。与此相关地，如本领域已知的，头戴式耳机包括模数转换器，该模数转换器可由麦克风外壳组成或者由集成电路组成，诸如包括语音活动检测器和第一处理器的集成电路。与此相关，数字信号处理可基于电信号的时域表示和频域表示的组合，后者例如是由快速傅里叶变换FFT获得的，如本领域已知的那样。与此相关地，可使用逆快速傅里叶变换IFFT，如本领域已知的那样。

第一处理器可包括由语音活动检测器控制的数字滤波器，诸如FIR或IIR滤波器或其组合，以至少在控制信号指示远侧语音活动的模式存在的时间段的部分处在输出信号中通过执行相应的滤波来减少远侧语音活动的可理解性。

在一些实施例中，第一处理器被配置为通过执行以下中的一项或多项来减少远侧语音活动的可理解性：诸如幅度抑制的抑制、滤波、加扰以及伪装电信号中的信号分量。

由此降低了头戴式耳机佩戴者附近的人的语音可理解性。抑制可包括依赖于频率的抑制(窄带抑制)或静噪型抑制(宽带)。加扰和伪装可会将信号分量添加到输出信号或使输出信号失真，从而降低语音的可理解性。

在一些方面，第一处理器被配置为在语音活动检测器保持基于远侧语音活动的检测而选择的相应模式被选择的同时减少远侧语音活动的可理解性。

在一些实施例中，语音活动检测器基于第一标准来检测近侧语音活动，该第一标准基于对响度和/或信噪比高于第一阈值的电信号的检测。

因此，任何足够大或清晰的电信号都可能导致近侧语音活动的检测。这种检测可以是瞬时的并且确保为了在第一处理器处处理语音的目的适当地检测佩戴者的语音，而不会在将佩戴者的语音传送到远端时降低其可理解度和/或其质量。响度被理解为信号的幅度或功率或信号的瞬时幅度。

可针对多个频率段(窄带)中的每一个或跨多个频率段(宽带)确定信噪比。

第一阈值可以是标量值或值的数组。第一阈值可从实验和/或经由自适应算法确定。

在一些方面，第一标准进一步基于对具有使电信号被认定为包括语音的谐波分量的电信号的检测。这种检测在本领域是已知的，例如，在语音识别领域。

检测可基于作为数字信号的按时间顺序提供的时间限定的段。

在一些实施例中，语音活动检测器基于第二标准来检测远侧语音活动，该第二标准基于对响度和/或信噪比不超过第二阈值同时具有使电信号被认定为包括语音的信号分量的电信号的检测。

因此，当电信号没有足够响亮或清晰时，同时其被确定被认定为语音，则提供远侧语音活动的检测。因此，远侧语音活动可区分于与语音无关的环境噪声以及佩戴者的语音。典型地，电声输入变换器位于几厘米内，例如，从佩戴者的嘴部(当以正常方式佩戴头戴式耳机时)达到10至15厘米，而位于佩戴者附近的人可能在半米以上的距离处。因此，佩戴者的语音通常比来自附近的人的语音更响亮和/或更清晰。第二阈值可从实验和/或经由自适应算法确定。

在一些实施例中，语音活动检测器基于第三标准来检测无语音活动，该第三标准基于对响度和/或信噪比不超过第三阈值的电信号的部分的检测。由此可可靠地检测到环境噪声，这反过来又能够尊重上述的折衷。

在一些方面，第三标准还包括检测到电信号不具有使电信号被认定为包括语音的信号分量。作为对信号分量是否使电信号被认定为包括语音进行确定的一部分，可确定谐波信号分量不具有超过预定阈值的幅度。

关于上面提到的第一、第二和第三标准，需注意，标准可通过对包括语音活动检测器的可编程处理器进行编程来实现。本领域技术人员能够实施这样的标准。

关于上述第一、第二和第三阈值，需注意，第一阈值可被设置为比第二和第三阈值都高的水平。第二阈值可低于第一阈值并且高于第三阈值。第三阈值可低于第一和第二阈值。可替代地，第三阈值可低于第一阈值，但高于第二阈值。

在一些实施例中，第一处理器配置有降噪滤波器，该降噪滤波器至少在控制信号指示与近侧语音活动的存在对应的模式时执行降噪。

降噪滤波器可执行频率段选择性噪声抑制，由此电信号的信号分量相对于彼此被降低或修改，以相对于表示语音的频率段来抑制表示噪声的频率段。从而改善了宽带信噪比。这种降噪方法在本领域中是已知的。在检测到近侧语音活动时执行降噪是有利的。但是，在检测到与近侧语音活动不同的远侧语音活动时，降噪可转换为更积极的降噪。

在一些实施例中，第一处理器配置有第一滤波器，该第一滤波器是静噪滤波器或降噪滤波器，其至少在控制信号指示无语音活动的时候可操作为执行第一信号抑制；并且所述第一处理器配置有第二滤波器，所述第二滤波器是静噪滤波器或噪声抑制滤波器，其至少在所述控制信号指示远侧语音活动时可操作为执行第二信号抑制。

由此，电信号的滤波可特别适合于更有效地抑制被检测到的无语音活动或远侧语音活动的相应类型的噪声。这由语音活动检测器执行，将指示相应模式的控制信号提供给第一处理器。

如上所述，降噪滤波器执行频率段选择性噪声抑制(窄带)。静噪(squelch)滤波器通过基本上均匀的噪声抑制因子抑制所有或大部分频率段(宽带)上的噪声。

“无语音活动”可理解为语音活动检测器未检测到近侧语音活动并且未检测到远侧语音活动。

“配置有滤波器”意味着信号处理器可被配置有例如通过编程实现的滤波器。该滤波器可在不同的时间启用和禁用。

在一些实施例中，第二信号抑制显著大于第一信号抑制。这是一种有效的头戴式耳机信号处理策略，因为远侧语音活动可能被视为比环境噪声更(使远端方)烦扰，未被认定为说话。还存在以下情况，因为更大的信号抑制可能以涉及其他问题为代价，例如与所谓的“延迟释放”相关，由此，尽管近侧语音活动已经开始，但是近侧语音活动的可理解性和/或质量，特别是在近侧语音活动开始时近侧语音活动的可理解性和/或质量可能降低，因为更大的信号抑制持续。因此，当第二信号抑制大于第一信号抑制时，至少在某些情形下可降低近侧语音活动的可理解性和/或质量被降低的风险，所述某些情形例如是在检测到环境、非语音、噪声的时段之后，即在“无语音活动”的时段之后。

第二信号抑制可以是例如50dB并且第一信号抑制可以是例如10dB。从而，第二信号抑制大40dB。第一和第二信号抑制可表示跨多个(诸如所有频率段)的平均值或中值。

在一些实施例中，第一信号处理器被配置为执行介于6dB和18dB之间的范围内的第一信号抑制，并且执行大于24dB、诸如大于30dB、诸如大于40dB的第二信号抑制。

第二信号抑制可在18dB到60dB的范围内，例如50dB。由此，第二信号抑制比第一信号抑制明显更积极，这使得与传统的单麦克风头戴式耳机相比，在降低头戴式耳机佩戴者附近的语音的(在远端的)可理解性方面有了显著的改进。

在6dB和18dB之间的范围中进行抑制可理解为增益在-6dB到-18dB的范围内。因此，“减号”表示抑制。这在整个说明书中都适用。

在一些实施例中，头戴式耳机包括延迟器，该延迟器被耦合以在滤波之前的信号处理阶段延迟电信号以降低远侧语音活动的可理解性；其中，所述延迟器可经由延迟控制信号控制，以将所述电信号延迟第一延迟时间或放弃将所述电信号延迟所述第一延迟时间；其中，所述语音活动检测器被配置为基于所述延迟之前的所述电信号来检测近侧语音活动、远侧语音活动和无语音活动。

其中，所述语音活动检测器生成所述延迟控制信号，以在所述控制信号指示选择与远侧语音活动的存在相对应的模式时，将所述电信号延迟所述第一延迟时间，并在控制信号指示未检测到近侧语音活动的存在时放弃将所述电信号延迟所述第一延迟时间。

因此可避免例如与“延迟释放”有关的问题，从而切断或以其他方式降低近侧语音活动的可理解性出现的风险，特别是在近侧语音活动开始时。尤其是，由此可更积极地抑制远侧语音活动，这可能比其他类型的环境噪声更烦扰(对于远端来说)。

由于语音活动检测器被配置为基于延迟之前的电信号来检测近侧语音活动、远侧语音活动和无语音活动，因此提供了用于检测近侧语音活动的预见性。

第一延迟时间可在20到100毫秒的范围内，例如，在40到80毫秒的范围内，例如，在40到60毫秒的范围内。这个延迟时间量被认为不会降低对话的自然度，因为与例如在电话对话期间经历的延迟相比，延迟时间相对较短。然而，优选放弃将电信号延迟第一延迟时间；这是通过在控制信号(PDN)指示存在近侧语音活动时将电信号延迟第一延迟时间来提供的。

由于语音活动检测器被配置为基于延迟之前的电信号检测近侧语音活动、远侧语音活动和无语音活动，所以可瞬时检测选择哪种模式。然而，用于控制第一处理器的模式的选择可经受定时标准，由此与瞬时检测发生的频率相比，模式之间的转换受到限制。这在下面进一步详细解释。

在一些实施例中，语音活动检测器被配置为响应于在第一时间段内检测到远侧语音活动的连续检测而将电信号延迟第一延迟时间。

第一时间段可在1至5秒的范围内，例如，1至3秒。这样的第一时间段足以降低作为近端语音的语音开始的风险。

在一些方面中，在第一时间段内对远侧语音活动的持续检测的检测使信号处理器将其信号处理从在6dB和18dB之间的范围内的第一信号抑制发生改变，以执行大于24dB的第二信号抑制，如大于30dB，如大于40dB。

可由配置为状态机的语音活动检测器来执行在第一时间段内对远侧语音活动的继续检测的检测。

在一些实施例中，语音活动检测器被配置为响应于持续未检测到远侧语音活动的检测和/或响应于在第二时间段内持续检测到近侧语音活动而放弃将电信号延迟第一延迟时间。

第一时间段可在5到30秒的范围内，例如，大约10到20秒。如上所述，当第一信号处理器在不同的噪声抑制水平之间改变时，这样的第二时间段足以降低被感觉到的可听见的人为因素的风险。

在一些实施例中，头戴式耳机包括用于将数字生成的噪声添加到输出信号的噪声生成器。数字生成的噪声可包括伪随机噪声、采样办公室噪声、有色噪声和白噪声中的一个或多个。当控制信号指示对应于远程语音活动的模式时，可添加数字生成的噪声。

还提供了一种用于头戴式耳机的方法，所述头戴式耳机具有电声输入变换器，电声输入变换器被布置成拾取声学信号并将所述声学信号转换为电信号；第一处理器，被耦合以响应于来自语音活动检测器的控制信号接收所述电信号并对发送器生成输出信号；以及发送器；所述方法包括：

-在分别存在于由所述电声变换器拾取的声学信号中时，基于对所述电信号的一部分的处理，检测近侧语音活动、远侧语音活动和无语音活动；

-选择相应的模式，其选择在所述控制信号中被编码；和

-至少在所述控制信号指示远侧语音活动存在的模式的时间段的部分处，在所述输出信号中减少远侧语音活动的可理解性。

该方法还可或替代地由头戴式耳机的基站执行。

还提供了一种编码有指令的计算机可读介质，以在被头戴式耳机上的处理器执行时使处理器执行该方法。

在此以及下文中，术语“单元”、“处理器”和“语音活动检测器”旨在包括适合于执行本文所述功能的任何电路和/或设备。具体而言，上述术语包括通用或专用可编程微处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、可编程逻辑阵列(PLA)、现场可编程门阵列(FPGA)、专用电子电路等或其组合。

附图说明

下面参照附图进行更详细的描述，其中：

图1示出了头戴式耳机的斜视图和具有处理器的头戴式耳机的框图；

图2示出了具有语音活动检测器的处理器的框图；

图3示出了语音活动检测器的框图；

图4示出了麦克风信号；和

图5示出了处理的麦克风信号。

具体实施方式

图1示出了头戴式耳机的斜视图和具有处理器的头戴式耳机的框图。如斜视图所示，头戴式耳机101可具有带耳戴式或耳罩式的耳杯的外壳103，以及从外壳103延伸并且具有麦克风末端或承载麦克风的麦克风小室102的麦克风吊杆104，用于拾取头戴式耳机佩戴者的语音。在下面的框图中，麦克风被给予附图标记119。不可避免地，麦克风119将不仅拾取佩戴者的语音，而且拾取环境噪声，诸如来自头戴式耳机101的佩戴者附近的人的语音。从每次仅一个被激活的麦克风的意义上来说，麦克风可以是单个麦克风。因此电子波束形成不是一种选择。然而，麦克风可配置有给出麦克风某种方向性的物理设计。

提供头带或头部支撑以将头戴式耳机保持在头戴式耳机佩戴者的头部上。在一些实施例中，头戴式耳机101可具有用于另一只耳朵的附加耳杯。在一些实施例中，耳杯是耳塞式的，并且麦克风吊杆104被附接到电线上的线内麦克风代替。电线可将头戴式耳机连接到计算机118、桌面电话117或智能移动电话116——在一些实施例中，可经由用于头戴式耳机的基站(未示出)来连接。在一些实施例中，头戴式耳机是与计算机118、桌面电话117、智能移动电话116或基站中的一个或多个进行无线通信的无线头戴式耳机。

如框图所示，头戴式耳机101(由虚线框表示)包括扬声器119和麦克风120。未示出用于麦克风的诸如前置放大器和模数转换器之类的其它电路。

头戴式耳机101具有电子电路106，该电子电路106可容纳在外壳103中。信号处理器106配置有用于从麦克风119接收麦克风信号的麦克风端子111，用于向扬声器120输出扬声器信号的扬声器端子112，以及远端端口113、114、115，用于经由无线电电路(未示出)将入站信号和出站信号与远端进行通信。

这里以及下文中，远端是指将由头戴式耳机的麦克风120和出站路径121再现的头戴式耳机佩戴者的语音作为出站信号发送到的通信设备、音频接收器或系统，和/或经由入站路径122接收音频信号作为入站信号并将其在扬声器120中朝着头戴式耳机佩戴者的耳朵再现的通信设备、音频源或系统。入站路径122可包括放大器和数模转换器中的一个或多个，均表示为110。入站信号和出站信号分别指从远端接收和发送到远端的任何类型的音频信号。

电子电路106还配置有发送器109，该发送器109可包括电路，如本领域已知的，用于通过以下中的一个或多个适当地提供输出信号：模拟放大器、缓冲器或驱动器，用于在有线连接上提供输出信号；由数字编解码器根据适当的协议提供输出信号作为数字输出信号；无线发送器，例如根据

标准、DECT标准或Wi-Fi标准。发送器可与接收器组合，接收来自远端的信号，例如，以形成集成收发器。

集成电路106还配置有第一信号处理器107和语音活动检测器108。第一信号处理器107和语音活动检测器108可被集成，例如，在可编程信号处理器中。响应于来自语音活动检测器108的控制信号PDN，第一处理器107被耦合以从麦克风119接收电信号x以向发送器109产生输出信号y。基于对电信号x的一部分的处理，语音活动检测器108被配置为：检测分别存在于由所述电声变换器拾取的声学信号中时的近侧语音活动、远侧语音活动和无语音活动，并且选择相应的模式，其选择被编码在控制信号PDN中。第一处理器107由语音活动检测器108控制，以至少在控制信号指示远侧语音活动的存在的模式的时间段的部分处在输出信号中减少远侧语音活动的可理解性。

图2示出了具有语音活动检测器的处理器的框图。处理器200包括延迟器201，延迟器201被耦合以在滤波器202之前的信号处理阶段处以数字形式延迟电信号x，除了其他功能之外，该滤波器202可被控制以减少语音信号的可理解性，如上所述。延迟器201可经由延迟控制信号DL来控制，以将电信号x延迟第一延迟时间或放弃将电信号延迟第一延迟时间。延迟器201可例如通过循环缓冲器实现为FIFO延迟器。

如上所述，语音活动检测器108被配置为在电信号被延迟器201延迟之前基于电信号检测近侧语音活动、远侧语音活动和无语音活动。语音活动检测器108被配置为执行瞬时检测并选择由各个控制信号PVA、DVA和NVA表示的相应模式，基于定时标准，从而引入一定量的死区时间，防止在控制信号中模式选择和编码时过快地转变。从而降低了在输出信号中引入令人不快的失真或人为因素的风险。死区时间在模式之间可为对称或不对称的。

如上所述，结合图1，第一处理器107由语音活动检测器108控制，以至少在控制信号指示远侧语音活动的存在的模式的时间段的部分处在输出信号中减少远侧语音活动的可理解性。在该实施例中，第一处理器包括噪声抑制增益计算单元205、206和207，其被配置为分别计算用于多个频率段的噪声抑制增益，以在所选择的模式对应于检测到“近侧语音活动”、“远侧语音活动”和“无语音活动”时，相应地借助于诸如FIR滤波器的滤波器202对电信号进行滤波。噪声抑制增益计算单元205、206和207以时域表示或频域表示接收信号x。频域表示可被快速傅立叶变换FFT单元204提供。

噪声抑制增益计算单元205、206和207针对多个频率段(窄带)中的每一个或跨多个频率段(宽带)输出相应的噪声抑制增益G0、G1和G2。因此，噪声抑制增益G0、G1和G2可表示为标量值或者与频率段的数量对应的多个值的数组。噪声抑制增益计算单元205、206和207响应于各个控制信号PVA、DVA和NVA计算和/或输出各个噪声抑制增益。例如，在所选择的模式对应于“远侧语音活动”的情况下，由噪声抑制增益计算单元207输出的噪声抑制增益可表示强抑制(例如-40dB)，而在所选模式不对应于“远侧语音活动”的情况下，由噪声抑制增益计算单元207输出的噪声抑制增益可表示不抑制(例如，0dB)。

组合单元209接收噪声抑制增益G0、G1和G2，并且针对每个频率段输出来自G0、G1和G2的、噪声抑制最强(即最低增益)的噪声抑制增益。此操作基于未选择相应模式时噪声抑制增益设置为0dB。应该注意，噪声抑制增益计算单元205、206和207以及组合单元209可被配置为以其他方式根据选择的模式来抑制噪声。

组合单元209输出专用于各频率段的多个噪声抑制增益的阵列，其被输入到快速傅立叶逆变换IFFT单元210，单元210计算快速傅立叶逆变换以将其结果提供给滤波器202，滤波器202可以是FIR滤波器，对电信号x进行滤波，其可被延迟器201延迟或不延迟。

舒适噪声可由合成噪声生成单元211生成，由此合成噪声可被添加到被滤波器202滤波的电信号。合成噪声可在提供输出信号y之前借助于加法器203被添加。

图3示出了语音活动检测器的框图。在该实施例中，语音活动检测器包括第一单元301，其被配置为接收电信号x以瞬时检测语音信号，例如借助于在语音处理领域中已知的所谓倒谱(Cepstrum)方法，并且输出指示检测是否成功的信号。

语音活动检测器还包括第二单元302，其被配置为接收电信号x以瞬时检测电信号x是否具有超过阈值的响度并且输出指示检测是否成功的信号。

语音活动检测器还包括第三单元303，其被配置为接收电信号x以瞬时检测电信号x是否具有超过阈值的信噪比并且输出指示检测是否成功的信号。

由第一、第二和第三单元301、302和303输出的信号被输入到瞬时检测单元304，其确定应该选择哪种模式。状态机305接收来自瞬时检测单元304的信号，并向第一处理器输出控制信号，其中，响应于在第一时间段内连续检测到远侧语音活动的检测，所选状态改变，所述第一时间段例如1到5秒，例如1到3秒，并且其中，响应于在第二时间段内连续未检测到远侧语音活动的检测，所选状态改变，所述第二时间段例如大约5到20秒。

图4示出作为时间t的函数的麦克风信号x(t)。近端语音出现时的时间由线401上的标记指示。远端语音出现时的时间由线402上的标记指示。在线401上没有标记并且线402上没有标记时，与语音无关的环境噪声更可能存在。

图5示出了作为时间t的函数的经处理的麦克风信号y(t)。图5与图4几何对齐，代表垂直线上的相同时间点。因此，可观察到，其中未检测到与语音无关的环境噪声以及未检测到近侧语音活动的信号被有效地抑制。

在一些实施例中，头戴式耳机包括延迟器201，延迟器201被耦合以在滤波之前的信号处理阶段中延迟电信号以降低远侧语音活动的可理解性；其中，延迟器201可经由延迟控制信号DL进行控制，以将电信号延迟可选择的延迟时间；其中，语音活动检测器108被配置为基于延迟器201之前的电信号检测近侧语音活动、远侧语音活动和无语音活动；并且其中，语音活动检测器108生成延迟控制信号DL以将电信号延迟由语音活动检测器108确定的可选延迟时间。

在一些实施例中，当所选模式指示“远侧语音活动”时，可选延迟时间具有相对较长的持续时间，并且在所选模式指示未能检测到“远侧语音活动”时具有相对较短的持续时间。

在一些实施例中，语音活动检测器108被配置为控制延迟器201、以及噪声抑制增益计算单元205、206和207中的一个或多个来选择：

-具有相对短的持续时间的第一可选延迟时间，并且选择提供相对较轻噪声抑制的第一噪声抑制，诸如小于15dB，例如大约10dB，例如小于10dB，在选定模式指示未检测到“远侧语音活动”时；和

-具有相对较长的持续时间的第二可选延迟时间，并且选择提供相对较强噪声抑制的第二噪声抑制，诸如大于10dB，例如20dB至60dB，例如大约50dB，在选定模式指示“远侧语音活动”时。

第一可选延迟时间可在小于10秒的范围内，例如，小于5秒，例如大约1到3秒。第二可选延迟时间可在大于10秒的范围内，例如，在大于10秒到小于30秒的范围内，例如，大约20秒。

未检测到“远侧语音活动”可被理解为选择与“无语音活动”或“近侧语音活动”对应的模式。

在一些实施例中，提供了：头戴式耳机101，其包括：电声输入变换器119，被布置为拾取声信号并将声信号转换为电信号x；发送器109；语音活动检测器108；以及第一处理器107，被耦合以响应于来自语音活动检测器108的控制信号PDN而接收电信号x并且向发送器109生成输出信号y；其中，基于对电信号(x)的一部分的处理，语音活动检测器108被配置为：检测与近侧语音活动不同的远侧语音活动，并选择指示其的模式，其选择在控制信号PDN中指示；其中，第一处理器107由语音活动检测器108控制，以至少在控制信号PDN指示远侧语音活动的存在的模式的时间段的部分处在输出信号中减少远侧语音活动的可理解性。

可以以以下方式实施示例性头戴式耳机、方法及计算机可读介质。

项1.一种头戴式耳机(101)，包括：

电声输入变换器(119)，被布置为拾取声学信号并将所述声学信号转换成电信号(x)；

发送器(109)；

语音活动检测器(108)；以及

第一处理器(107)，被耦合以响应于来自所述语音活动检测器(108)的控制信号(PDN)，接收所述电信号(x)并且向所述发送器(109)生成输出信号(y)；

其中，基于对所述电信号(x)的一部分的处理，所述语音活动检测器(108)被配置为：在分别存在于由所述电声变换器拾取的声学信号中时，检测近侧语音活动、远侧语音活动和无语音活动，并选择相应的模式，模式的选择在控制信号(PDN)中被指示；

其中，所述第一处理器(107)由所述语音活动检测器(108)控制，以至少在所述控制信号(PDN)指示远侧语音活动的存在的模式的时间段的部分处在所述输出信号中降低远侧语音活动的可理解性。

2.根据项1所述的头戴式耳机，其中，所述第一处理器(107)被配置为通过执行以下各项中的一项或多项来降低远侧语音活动的可理解性：诸如幅度抑制的抑制、滤波、加扰、以及伪装电信号中的信号分量。

3.根据上述项中任一项所述的头戴式耳机，其中，所述语音活动检测器(108)基于第一标准来检测近侧语音活动，所述第一标准基于对响度和/或信噪比高于第一阈值的电信号(x)的检测。

4.根据上述项中任一项所述的头戴式耳机，其中，所述语音活动检测器(108)基于第二标准来检测远侧语音活动，所述第二标准基于对响度和/或信噪比不超过第二阈值且具有使所述电信号被认定为包括语音的信号分量的电信号(x)的检测。

5.根据上述项中任一项所述的头戴式耳机，其中，所述语音活动检测器(108)基于第三标准来检测无语音活动，所述第三标准基于对响度和/或信噪比不超过第三阈值的电信号(x)的部分的检测。

6.根据上述项中任一项所述的头戴式耳机，其中，所述第一处理器(107)配置有降噪滤波器，所述降噪滤波器可操作为至少在所述控制信号指示与近侧语音活动的存在对应的模式时执行降噪。

7.根据上述项中任一项所述的头戴式耳机，

其中，所述第一处理器(107)配置有第一滤波器，所述第一滤波器是静噪滤波器或降噪滤波器，所述第一滤波器可操作为至少在所述控制信号(PDN)指示无语音活动时执行第一信号抑制；并且

其中，所述第一处理器(107)配置有第二滤波器，所述第二滤波器是静噪滤波器或噪声抑制滤波器，所述第二滤波器可操作为至少在所述控制信号指示远侧语音活动时执行第二信号抑制。

8.根据项7所述的头戴式耳机，其中，所述第二信号抑制显著大于所述第一信号抑制。

9.根据项7或8所述的头戴式耳机，其中，所述第一信号处理器(107)被配置为在6dB与18dB之间的范围内执行所述第一信号抑制，并且执行大于24dB的所述第二信号抑制，诸如大于30dB，诸如大于40dB。

10.根据上述项中任一项所述的头戴式耳机，包括：延迟器(201)，被耦合以在滤波之前的信号处理阶段延迟所述电信号，以降低远侧语音活动的可理解性；

其中，所述延迟器(201)能够经由延迟控制信号(DL)控制，以将所述电信号延迟第一延迟时间或放弃将所述电信号延迟所述第一延迟时间；

其中，所述语音活动检测器(108)被配置为基于所述延迟器(201)之前的所述电信号来检测近侧语音活动、远侧语音活动和无语音活动；

其中，所述语音活动检测器(108)在所述控制信号指示选择了与远侧语音活动的存在相对应的模式时生成所述延迟控制信号(DL)，以将所述电信号延迟所述第一延迟时间，并且当所述控制信号(PDN)指示未检测到近侧语音活动的存在时，放弃将所述电信号延迟所述第一延迟时间。

11.根据项10所述的头戴式耳机，其中，所述语音活动检测器(108)被配置为响应于在第一时间段内持续检测到远侧语音活动的检测而将所述电信号延迟所述第一延迟时间。

12.根据项10或11所述的头戴式耳机，其中，所述语音活动检测器(108)被配置为响应于在第二时间段内持续未检测到远侧语音活动的检测和/或响应于持续检测到远侧语音活动而放弃将所述电信号延迟所述第一延迟时间。

13.根据上述项中任一项所述的头戴式耳机，包括用于将数字生成的噪声添加到所述输出信号的噪声生成器。

14.一种用于头戴式耳机的方法，所述头戴式耳机具有：电声输入变换器(119)，所述电声输入变换器被布置为拾取声学信号并将所述声学信号转换为电信号(x)；第一处理器(107)，被耦合以响应于来自语音活动检测器(108)的控制信号(PDN)接收所述电信号(x)并向发送器(109)生成输出信号(y)；以及所述发送器(109)，所述方法包括：

-基于对所述电信号(x)的一部分的处理，在分别存在于由所述电声变换器拾取的声学信号中时，检测近侧语音活动、远侧语音活动和无语音活动；

-选择相应的模式(PVA、DVA、NVA)，模式的选择被编码在所述控制信号(PDN)中；并且

-至少在所述控制信号指示远侧语音活动的存在的模式的时间段的部分处，在所述输出信号中降低远侧语音活动的可理解性。

15.一种计算机可读介质，编码有指令，所述指令在由头戴式耳机处的处理器执行时使所述处理器执行根据项14所述的方法。

为了说明的目的，以上已参照具体实施例进行了描述。然而，上述描述不是穷尽性的，并且无意将本发明限制为所描述的具体形式。

Claims

1.一种头戴式耳机(101)，包括：

发送器(109)；

语音活动检测器(108)；

第一信号处理器(107)，被耦合以响应于来自所述语音活动检测器(108)的控制信号(PDN)，接收所述电信号(x)并且向所述发送器(109)生成输出信号(y)；

其中，基于对所述电信号(x)的一部分的处理，所述语音活动检测器(108)被配置为：在分别存在于由所述电声输入变换器(119)拾取的声学信号中时，检测近侧语音活动、远侧语音活动和无语音活动，并选择相应的模式，模式的选择在控制信号(PDN)中被指示；

其中，所述第一信号处理器(107)由所述语音活动检测器(108)控制，以至少在所述控制信号(PDN)指示远侧语音活动的存在的模式的时间段的部分处在所述输出信号中通过滤波来降低远侧语音活动的可理解性；

延迟器(201)，被耦合以在所述滤波之前的信号处理阶段延迟所述电信号，以降低远侧语音活动的可理解性；

其中，所述语音活动检测器(108)被配置为基于所述延迟器(201)之前的所述电信号来检测近侧语音活动、远侧语音活动和无语音活动；并且

其中，所述语音活动检测器(108)被配置为在所述控制信号指示选择了与远侧语音活动的存在相对应的模式时生成所述延迟控制信号(DL)，以将所述电信号延迟所述第一延迟时间，并且响应于在第一时间段内持续未检测到远侧语音活动的检测和/或响应于在第二时间段内持续检测到近侧语音活动而放弃将所述电信号延迟所述第一延迟时间。

2.根据权利要求1所述的头戴式耳机，其中，所述第一信号处理器(107)被配置为通过执行以下各项中的一项或多项来降低远侧语音活动的可理解性：抑制、加扰、以及伪装电信号中的信号分量。

3.根据权利要求1所述的头戴式耳机，其中，所述语音活动检测器(108)基于第一标准来检测近侧语音活动，所述第一标准基于对响度和/或信噪比高于第一阈值的电信号(x)的检测。

4.根据权利要求1所述的头戴式耳机，其中，所述语音活动检测器(108)基于第二标准来检测远侧语音活动，所述第二标准基于对响度和/或信噪比不超过第二阈值且具有使所述电信号被认定为包括语音的信号分量的电信号(x)的检测。

5.根据权利要求1所述的头戴式耳机，其中，所述语音活动检测器(108)基于第三标准来检测无语音活动，所述第三标准基于对响度和/或信噪比不超过第三阈值的电信号(x)的部分的检测。

6.根据权利要求1所述的头戴式耳机，其中，所述第一信号处理器(107)配置有降噪滤波器，所述降噪滤波器可操作为至少在所述控制信号指示与近侧语音活动的存在对应的模式时执行降噪。

7.根据权利要求1所述的头戴式耳机，

其中，所述第一信号处理器(107)配置有第一滤波器，所述第一滤波器是静噪滤波器或降噪滤波器，所述第一滤波器可操作为至少在所述控制信号(PDN)指示无语音活动时执行第一信号抑制；并且

其中，所述第一信号处理器(107)配置有第二滤波器，所述第二滤波器是静噪滤波器或噪声抑制滤波器，所述第二滤波器可操作为至少在所述控制信号指示远侧语音活动时执行第二信号抑制。

8.根据权利要求7所述的头戴式耳机，其中，所述第二信号抑制显著大于所述第一信号抑制。

9.根据权利要求7所述的头戴式耳机，其中，所述第一信号处理器(107)被配置为在6dB与18dB之间的范围内执行所述第一信号抑制，并且执行大于24dB的所述第二信号抑制。

10.根据权利要求1所述的头戴式耳机，其中，所述语音活动检测器(108)被配置为响应于在第一时间段内持续检测到远侧语音活动的检测而将所述电信号延迟所述第一延迟时间。

11.根据权利要求1所述的头戴式耳机，包括用于将数字生成的噪声添加到所述输出信号的噪声生成器。

12.一种用于头戴式耳机的方法，所述头戴式耳机具有：电声输入变换器(119)，所述电声输入变换器被布置为拾取声学信号并将所述声学信号转换为电信号(x)；发送器(109)；语音活动检测器(108)；以及第一信号处理器(107)，被耦合以响应于来自语音活动检测器(108)的控制信号(PDN)接收所述电信号(x)并向所述发送器(109)生成输出信号(y)，所述方法包括：

-基于对所述电信号(x)的一部分的处理，在分别存在于由所述电声输入变换器(119)拾取的声学信号中时，由所述语音活动检测器(108)检测近侧语音活动、远侧语音活动和无语音活动；

-选择相应的模式(PVA、DVA、NVA)，模式的选择被编码在所述控制信号(PDN)中；

-至少在所述控制信号指示远侧语音活动的存在的模式的时间段的部分处，在所述输出信号中通过滤波来降低远侧语音活动的可理解性，

其中，延迟器(201)被耦合以在所述滤波之前的信号处理阶段延迟所述电信号，以降低远侧语音活动的可理解性，并且所述延迟器(201)能够经由延迟控制信号(DL)控制，以将所述电信号延迟第一延迟时间或放弃将所述电信号延迟所述第一延迟时间；

其中，所述语音活动检测器(108)被配置为基于所述延迟器(201)之前的所述电信号来检测近侧语音活动、远侧语音活动和无语音活动，并且

其中，所述语音活动检测器(108)被配置为在所述控制信号指示选择了与远侧语音活动的存在相对应的模式时生成所述延迟控制信号(DL)，以将所述电信号延迟所述第一延迟时间，并且在所述控制信号(PDN)指示未检测到远侧语音活动的存在时放弃将所述电信号延迟所述第一延迟时间。

13.一种计算机可读介质，编码有指令，所述指令在由头戴式耳机处的处理器执行时使所述处理器执行根据权利要求12所述的方法。

14.一种头戴式耳机(101)，包括：

发送器(109)；

语音活动检测器(108)；

其中，所述第一信号处理器(107)由所述语音活动检测器(108)控制，以至少在所述控制信号(PDN)指示远侧语音活动的存在的模式的时间段的部分处在所述输出信号中通过滤波降低远侧语音活动的可理解性；以及

其中，所述语音活动检测器(108)被配置为在所述控制信号指示选择了与远侧语音活动的存在相对应的模式时生成所述延迟控制信号(DL)，以将所述电信号延迟所述第一延迟时间，并且在所述控制信号(PDN)指示未检测到远侧语音活动的存在时放弃将所述电信号延迟所述第一延迟时间；

15.根据权利要求14所述的头戴式耳机，其中，所述第二信号抑制显著大于所述第一信号抑制。

16.根据权利要求14所述的头戴式耳机，其中，所述第一信号处理器(107)被配置为在6dB与18dB之间的范围内执行所述第一信号抑制，并且执行大于24dB的所述第二信号抑制。