CN112616105A

CN112616105A - 用于发射掩蔽信号的可穿戴电子装置

Info

Publication number: CN112616105A
Application number: CN202011064664.6A
Authority: CN
Inventors: 克莱门茨·拉罗谢; 拉斯穆斯·孔斯高·奥尔森
Original assignee: GN Audio AS
Current assignee: GN Audio AS
Priority date: 2019-10-04
Filing date: 2020-09-30
Publication date: 2021-04-06
Also published as: EP3800900A1; US20210104222A1

Abstract

本发明提供用于发射掩蔽信号的可穿戴电子装置。信号处理方法和例如头戴式或入耳式耳机的可穿戴电子装置(101)，包括麦克风(106)，麦克风拾取声学信号并将声学信号转换为麦克风信号(x)；布置在听筒中的扬声器(105)；处理器(107)，控制掩蔽信号(m)音量；将掩蔽信号(m)提供给扬声器(105)。处理器检测语音激活并生成与麦克风信号共存的语音激活信号(y)，该信号顺序指示以下一或多项：语音激活和语音非激活；响应于语音激活信号(y)，根据在语音激活信号(y)指示语音激活时以第一音量，在语音激活信号(y)指示语音非激活时以第二音量向扬声器(105)提供掩蔽信号(m)，控制掩蔽信号(m)的音量。

Description

用于发射掩蔽信号的可穿戴电子装置

技术领域

诸如头戴式耳机或入耳式耳机的可穿戴电子装置包括一对小扬声器，取决于头戴式耳机或入耳式耳机的配置，该扬声器以不同的方式位于由佩戴者(可穿戴电子装置的用户)佩戴的听筒中。入耳式耳机通常至少部分地放置在佩戴者的耳道中，而头戴式耳机通常由头带或颈带佩戴，并将听筒放在佩戴者的耳朵上或耳朵上方。与传统的扬声器相反，头戴式耳机或入耳式耳机使佩戴者可以私下收听音频源，而传统扬声器将声音发射到户外以供附近的任何人收听。头戴式耳机或入耳式耳机可能会连接到音频源以播放音频。另外，头戴式耳机可用于建立私人安静的空间，例如通过被动或主动降噪之一或两者，以减少佩戴者因周围环境中的声音而生成的紧张和疲劳。在其他人进行交谈(诸如，大声交谈)的开放式办公室环境中，可穿戴电子装置(例如头戴式耳机)可用于获得安静的工作环境。但是，已经发现，被动和主动降噪都不足以减少周围环境中人类语音的干扰特征。例如在用户执行认知任务时，这种干扰最通常是由附近人的谈话引起的，尽管其他声音也可能干扰用户。

特别地，这可能是主动降噪的问题，主动降噪的优点在于减少音调或低频噪声(例如来自机器的噪声)的噪声，但在减少语音激活的噪声方面效果不太好。主动降噪取决于例如以反馈、前馈或混合方式捕获麦克风信号，并通过扬声器发出信号以抵消周围环境的环境声(噪声)信号。

相反，常规地，在电信环境中，耳机使得能够例如经由电话(该电话可以是在电子装置上运行的所谓的软电话或另一种类型的应用程序)与远程方进行通信。耳机可以例如根据蓝牙或DECT兼容标准来使用无线通信。但是，耳机依赖于捕获佩戴者自己的语音来将语音信号传输到远端方。

背景技术

具有主动降噪(active noise reduction)或主动降噪功能(active noisecancellation)(有时缩写为ANC或ANR)的头戴式耳机或入耳式耳机有助于为佩戴者提供更安静的私人工作环境，但是这种设备受到限制，因为它们不会将附近人员的语音降低到听不清，难以理解的程度。因此，一定程度的干扰仍然存在。

已证明，对一个人演奏乐器音乐可以在某种程度上减少该人附近的人讲话引起的干扰。但是，如果干扰声音的强度在一天的过程中变化，则尝试以固定的音量听音乐以掩蔽干扰语音激活可能并不理想。高水平(high level)的乐器音乐可能会掩蔽所有干扰声音，但是长时间在此水平听音乐可能会导致听觉疲劳。另一方面，柔和的音乐水平可能无法充分掩蔽(以免被它分心的)干扰声音。

US8,964,997(授权给Bose公司)公开了一种掩蔽模块，该掩蔽模块自动调节音频电平以减少或消除听筒中残留的环境噪声对用户的干扰或其他影响。掩蔽模块利用通过头戴式耳机呈现的音频信号掩蔽环境噪声。掩蔽模块基于噪声水平执行增益控制和/或水平压缩，因此用户不容易感觉到周围噪声。特别地，掩蔽模块调整掩蔽信号的水平，使得其仅与掩蔽残余噪声所需的一样大。掩蔽信号的值通过实验确定，以提供对于干扰语音的足够掩蔽。因此，掩蔽模块使用掩蔽信号在头戴式耳机提供的有源或无源衰减上提供额外的隔离。

US2015/0348530(授权给Plantronics)公开了一种用于掩蔽耳机中干扰声音的系统。噪声掩蔽信号本质上是利用无用的、因而不那么干扰的噪声(即所谓的“舒适噪声”)来代替有意义但不需要的声音(如人类语言)。当周围的噪声减弱时(例如，当干扰声音结束时)，数字信号处理器会自动将噪声掩蔽信号逐渐衰减回静音。数字信号处理器使用动态或自适应噪声掩蔽，使得随着干扰声音的增加(例如，讲话者靠近耳机)，数字信号处理器会随着干扰信号的振幅和频率响应而增加噪声掩蔽信号。要强调的是，实施方式旨在降低环境语音清晰度，同时对耳机音频语音清晰度没有有害影响。

然而，仍然存在以下问题：由于在检测到干扰声音的任何时候，扬声器都会发出掩蔽信号，因此头戴式耳机佩戴者可能会遭受不愉快的收听疲劳。

发明内容

因此，需要一种可佩戴设备，该设备掩蔽干扰噪音，但同时将听力疲劳降至最低。提供了：

一种可穿戴电子装置，包括：

电声输入换能器，布置用于拾取声学信号并将声学信号转换为麦克风信号；

扬声器；以及

处理器，其被配置为：

控制掩蔽信号的音量；以及

将掩蔽信号提供给扬声器；

其特征在于，处理器还被配置为：

基于处理至少麦克风信号，检测语音激活并与麦克风信号同时地生成语音激活信号，该语音激活信号依次指示以下一项或多项：语音激活和语音非激活；以及

响应于语音激活信号，根据在语音激活信号指示语音激活时以第一音量向扬声器提供掩蔽信号，在语音激活信号指示语音非激活时以第二音量向扬声器提供掩蔽信号，控制掩蔽信号的音量。

在一些方面，第一音量大于第二音量。在一些方面，第一音量始终处于高于第二音量的水平。在一些方面，基于语音激活信号，当前存在语音激活的情况下将掩蔽信号提供给扬声器。掩蔽信号的作用是主动掩蔽谈话信号，尽管可穿戴设备会产生一些被动抑制，但谈话信号可能会泄漏到佩戴者的一只或两只耳朵中。被动抑制可能由占据了佩戴者的耳道或布置在佩戴者的耳朵上或周围的可穿戴电子装置引起。响应于语音激活信号，通过控制掩蔽信号的音量来实现主动掩蔽。与检测到语音未激活相比，在检测到语音激活时，掩蔽信号的音量更大。

从而，通过在语音激活信号指示语音激活时将遮蔽信号(以第一音量)提供给扬声器，增强或激活谈话语音清晰度的掩蔽效果。有时，当语音激活信号指示语音未激活时，掩蔽信号的音量减小(以第二音量)或停止(对应于无限小于第一音量的第二音量)。因此，在语音激活信号指示语音未激活时，减小了掩蔽信号的音量，因为不需要语音激活的掩蔽来降低佩戴者附近谈话的清晰度。

在一些示例中，第二音量对应于停止将掩蔽信号提供给扬声器或以被认为听力正常的用户几乎听不见的水平来提供掩蔽信号。在一些示例中，第二音量明显小于第一音量，例如，比第一音量低12-50dB-A。

因此，在一天或更短的使用过程中，仅当掩蔽信号用于减少到达头戴式耳机佩戴者耳朵的语音清晰度时，才使用户暴露于掩蔽信号。这进而又减少了在一天或更短的使用过程中由扬声器发出的掩蔽信号引起的听觉疲劳。因此，佩戴者受到较小的声音压力。

因此，可穿戴设备可以通过发出足够的第一音量的掩蔽信号以掩蔽环境语音激活，但是根本没有掩蔽或者仅发出较低的第二音量的掩蔽信号对工作环境中的其他声音(比如键盘上的按键)进行反应。因此，利用除了与谈话相关的声响之外的其他声响，其往往比可听见的谈话更少分散一个人的注意力。

当人们在佩戴者附近讲话时(例如，在长达8到12米的范围内)，可穿戴电子装置可能会向佩戴者的耳朵发出掩蔽信号。该范围取决于检测到语音激活的阈值声压。这样的阈值声压可以由处理器存储或实现。范围还取决于语音激活的声音大小，即，一个或多个人正在说话的声音大小。

在一些方面，在语音激活信号指示语音激活时，根据由电声输入换能器在语音激活信号指示语音激活时拾取的声学信号的声压水平来调整掩蔽信号的音量。

在一些示例中，在语音激活信号指示语音激活时，基于电声输入换能器在语音激活信号指示语音激活时拾取的声学信号的声压水平来调整掩蔽信号的音量。例如，与在语音激活信号指示语音激活时电声输入换能器拾取的声学信号的声压水平成比例地调整掩蔽信号的音量。在一些示例中，至少在声压水平低于预定的上限阈值和/或高于预定的下限阈值时，将掩蔽信号的音量按比例(例如基本上线性或逐步地)调整到声音信号的声压水平。在一些方面，掩蔽信号是被控制为具有第一音量或第二音量的两电平信号。在一些方面，掩蔽信号是被控制为具有第一音量或第二音量或第三音量的三电平信号。第一音量可以是固定的第一音量。第二音量可以是固定的第二音量，例如对应于不被提供给扬声器的“关闭”。第三音量可以高于或低于第一音量或第二音量。在一些方面，掩蔽信号是具有多于三个音量水平的多重水平信号。

在一些方面，例如，当语音激活信号指示语音激活时，响应于声音信号的声压水平，自适应地控制掩蔽信号的音。在一些方面，当语音激活信号指示语音未激活时，处理器或方法停止自适应地控制掩蔽信号的音量。

在一些方面，处理器并存地：

-响应于语音激活信号将掩蔽信号提供给扬声器和/或控制掩蔽信号的音量；以及

-停止使可穿戴设备处的麦克风捕捉到的声音传递到可穿戴电子装置的扬声器的信号处理。

在一些方面，处理器并存地：

-停止使可穿戴设备处的麦克风捕捉到的声音传递到可穿戴电子装置的扬声器的信号处理；以及

-执行主动降噪。

当未检测到说话但是可能会存在例如按下键盘的噪音时，可穿戴电子装置可能会停止向佩戴者的耳朵发射掩蔽信号。在开放式办公室环境中可能就是这种情况。可穿戴电子装置可以被配置为例如头戴式耳机或一对入耳式耳机，并且可以被该设备的佩戴者使用以获得安静的工作环境，其中检测到的到达佩戴者的耳朵的音频语音信号被掩蔽。

处理器可以如本领域中已知的那样实现，并且可以包括所谓的语音激活检测器(通常缩写为VAD，voice activity detector，语音端点检测器)，也称为谈话激活检测器或谈话检测器。语音激活检测器能够将语音激活的时段与语音非激活的时段区分开。语音激活可以被认为是其中处理器可以检测到存在人类谈话的状态。语音非激活(Voice in-activity)可以认为是其中处理器无法检测到存在人类谈话的状态。处理器可以执行时域处理和频域处理中的一个或两个以生成语音激活信号。

语音激活信号可以是二进制信号，其中语音激活和语音非激活由相应的二进制值表示。语音激活信号可以是表示例如以下一项或两项的多级语音激活信号：发生谈话激活的可能性；以及检测到的语音激活的水平，例如响度。响应于多级语音激活信号，可以在超过两个级别上逐渐控制掩蔽信号的音量。在一些方面，处理器被配置为响应于麦克风信号来自适应地控制掩蔽信号的音量。在一些方面，根据估计的所需掩蔽音量来设置掩蔽信号的音量。掩蔽信号的音量可以例如被设置为等于估计的所需掩蔽音量或者根据另一预定关系来设置。估计的所需掩蔽音量可以是以下之一或两者的函数：谈话激活的估计音量；和谈话激活以外的其他激活的估计音量。估计的所需掩蔽音量可以与谈话激活的估计音量成比例。估计的所需掩蔽音量可以从实验中获得，例如，通过进行听力测试来确定掩蔽信号的音量，这至少足以将谈话激活的干扰降低到期望的水平。可以基于对麦克风信号的处理来确定谈话激活的估计音量和/或谈话激活以外的其他激活的估计音量。在一些方面，该处理可以包括处理波束成形信号(该信号通过处理来自相应的多个麦克风的多个麦克风信号而获得)。

语音激活信号与麦克风信号并发，但检测语音激活的信号处理需要一些时间来执行，所以语音激活信号在检测麦克风信号中的语音激活方面会遇到延迟。在一个示例中，语音激活信号被输入到平滑滤波器以限制语音激活的误报的数量。在一个示例中，信号被逐帧处理，并且语音激活被指示为每帧的值，例如二进制值或多级值。在一个示例中，仅在为语音激活确定了预定数量的帧时才确定检测到语音激活。在一些示例中，帧的预定义数量是至少4或5个连续帧。每个帧可以具有大约30毫秒至40毫秒的持续时间，例如33毫秒。连续帧可以具有40％-60％(例如50％)的时间重叠。这意味着可以在大约100毫秒或更短或更长时间内可靠地检测到谈话激活。

通常，可穿戴设备可以配置为：

-可以例如通过头带戴在佩戴者的头上的头戴式耳机，或者例如通过颈带戴在佩戴者的脖子上的头戴式耳机；

-戴在佩戴者的耳朵上的一对入耳式耳机；

-包括一个或多个麦克风和收发器的头戴式耳机或一对入耳式耳机，以启用头戴式耳机或一对入耳式耳机的耳机模式。

通常，头戴式耳机包括耳罩，以位于佩戴者的耳朵上方或上面，而入耳式耳机包括耳塞或耳栓，以插入佩戴者的耳朵。在此，耳罩，耳塞或耳栓被称为听筒。听筒通常被配置为在鼓膜和扬声器之间建立空间。麦克风可以被布置在听筒中，作为内部麦克风，以捕获在鼓膜和扬声器之间的空间内部的声波，或者可以被布置在听筒中，作为外部麦克风，以捕获从周围环境撞击在听筒上的声波。

在一些方面，麦克风信号包括来自内部麦克风的第一信号。在一些实施方式中，麦克风信号包括来自外部麦克风的第二信号。在一些实施方式中，麦克风信号包括第一信号和第二信号。麦克风信号可以包括来自左侧和右侧的第一信号和第二信号之一或两者。

在一些方面，处理器被集成在可穿戴设备的主体部分中。主体部分可包括以下一项或多项：可穿戴设备的听筒，头带，颈带和其他主体部分。处理器可以被配置为一个或多个组件，例如具有在可穿戴设备的左侧主体部分中的第一组件和右侧主体部分中的第二组件。

在一些方面，经由到电子装置(例如，智能电话或个人计算机)的无线或有线连接接收掩蔽信号。掩蔽信号可以由电子装置上运行的应用程序(例如，包括音频播放器的应用程序)提供。

在一些方面，麦克风是非定向麦克风，例如具有心形，超心形或8字形特征的全向麦克风。

在一些实施方式中，处理器配置有以下一项或两项：

-音频播放器，用于通过播放音轨来生成掩蔽信号；以及

-音频合成器，用于使用一个或多个信号发生器来生成掩蔽信号。

因此，集成在可穿戴设备中的处理器可以配置有播放器，以通过播放音轨来生成掩蔽信号。音轨可以存储在处理器的存储器中。其优点是可穿戴设备可以完全起作用以发射掩蔽信号，而无需与电子装置的有线或无线连接。这继而可以减少功耗，这是例如与电池供电的电子装置有关的优点。

在一些方面，如上所述，将音轨从电子装置上传到可穿戴设备的存储器。在一些方面，掩蔽信号可以由处理器根据经由可穿戴设备处的无线收发器在处理器处接收到的音频流或音轨来生成。音频流或音轨可以由诸如智能电话，平板计算机，个人计算机或服务器计算机的电子装置处的媒体播放器传输。如上所述控制掩蔽信号的音量。

音轨可以包括例如根据预定义的编解码器的音频样本。在一些方面，音轨包含音乐、自然声音或类似于音乐和自然声音中的一个或多个的人造声音的组合。可以经由电子装置上运行的应用程序，例如在适合于掩蔽的音轨的预定集合中选择音轨。这使佩戴者可以在掩蔽方面有更多的选择，也可以选择或取消选择某些曲目。

在一些方面，播放器以无限循环播放音轨或多个音轨的序列。

在一些方面，使播放器能够在满足第一标准时的时间连续地回放曲目或多个音轨的序列。第一标准可以是可穿戴设备处于第一模式。在第一模式中，可穿戴设备可以被配置为用作头戴式耳机或入耳式耳机。第一标准可以附加地或替代地包括：语音激活信号指示语音激活。因此，根据包括语音激活信号指示语音激活的第一标准，播放器可以响应于语音激活信号从指示未检测到语音激活转变为指示语音激活而恢复回放。

在一些方面，合成器通过一个或多个生成多彩噪声的噪声发生器以及通过一个或多个修改来自噪声发生器的信号的包络的调制器来生成掩蔽。在一些方面，合成器根据所存储的指令(例如，MIDI指令)来生成掩蔽信号。其优点是可以通过改变一个或多个参数而不是采样序列来获得掩蔽信号的变化，这可以减少存储器消耗，同时仍然提供灵活性。

在一些实施方式中，处理器被配置为包括机器学习部件，以生成语音激活信号(y)；其中，机器学习部件被配置为指示麦克风信号包括的时间段：

-代表语音激活的信号分量，或

-代表语音激活的信号分量和代表噪声(其不同于语音激活)的信号分量。

因此，机器学习部件可以被配置为实现语音激活的有效检测以及语音激活和语音非激活之间的有效区分。

语音激活信号可以是时域信号或频时域信号的形式，例如由布置在帧中的值表示。时域信号可以是两电平或多电平信号。

机器学习部件由一组在硬件和软件之一或两者中编码的值构成，以指示时间段。通过使用训练数据的训练过程获得一组值。训练数据可包括记录在物理环境中或例如基于混合非语音声音和语音声音而合成的输入数据。训练数据可以包括表示在输入数据中是否存在语音激活的输出数据。输出数据可以由收听麦克风信号示例的音频专业人员生成。可替代地，在输入数据是合成的情况下，输出数据可以由音频专业人员生成或者从用于合成输入数据的元数据或参数中获得。可以构造或收集训练数据以包括训练数据，该训练数据至少主要地表示声音，例如来自选定的声音源，来自预定的声学环境(例如办公环境)的声音。

与语音激活不同的噪声的示例可以是来自按下键盘的键的声音，来自空调系统的声音，来自车辆的声音等。语音激活的示例可以是来自一个或多个说话或大喊的人的声音。

在一些方面，机器学习部件的特征在于指示麦克风在一段时间内包含语音激活的可能性。

在一些方面，机器学习部件的特征在于指示麦克风信号包含语音激活和表示噪声(其在一段时间内不同于语音激活)的信号分量的可能性。例如，代表噪声(不同于语音激活)的信号分量可能来自键盘按键。

可能性可以以离散形式(例如二进制形式)来表示。

机器学习部件表示以下各项之间的相关性：

-带有或不带有噪声学信号的语音激活信号和代表语音激活存在的值；以及

-带有和不带有噪声学信号的语音非激活信号和代表没有语音激活的值；

这种相关性在本领域中是公认的。麦克风信号可以包括语音激活信号和语音非激活信号。

在一些方面，麦克风信号是时域中音频波形的频率-时间表示形式。在一些方面，麦克风信号在时域中的音频波形表示的形式。

在一些方面，机器学习部件是递归神经网络，其在样本的预定义窗口内接收麦克风信号的样本并输出语音激活信号。在一些方面，机器学习部件是神经网络，例如深度神经网络。

在一些实施方式中，机器学习部件基于对麦克风信号的时域波形的处理来检测语音激活。

机器学习部件可以基于处理麦克风信号的时域波形来更有效地检测语音激活。当处理器中的其他用途不需要麦克风信号的频域处理时，这尤其有用。

在一些方面，递归神经网络具有多个接收麦克风信号的采样序列的输入节点，并且至少一个输出节点输出语音激活信号。输入节点可以接收麦克风信号的最新样本。例如，输入节点可以接收对应于持续时间约10毫秒(至100毫秒(例如30毫秒)的窗口的麦克风信号的最新样本。该窗口的持续时间可以更短或更长。

如上所述，在一些方面，机器学习部件是神经网络，例如深度神经网络。在一些方面，机器学习部件是递归神经网络(recurrent neural network)，并且基于处理麦克风信号的时域波形来检测语音激活。基于对麦克风信号的时域波形的处理，递归神经网络在检测语音激活方面可能更有效。

在一些实施方式中，处理器被配置为：

在接收到麦克风信号的同时：

生成包括麦克风信号的波形的频率-时间表示的帧；其中，帧包括布置在频率区(frequency bins)中的值；

包括被配置为基于处理包括麦克风信号的波形的频率-时间表示的帧来检测语音激活的机器学习部件。

当语音激活与其他噪声激活信号同时存在时，机器学习部件可以基于处理包含麦克风信号的波形的频率-时间表示的帧来更有效地检测语音激活。

在一些方面，该神经网络是具有多个输入节点和至少一个输出节点的递归神经网络；其中处理器被配置为：

1)将选定频率区中的全部或部分值的序列输入到递归神经网络的输入节点；

2)在至少一个输出节点处输出用于选定频率区的相应语音激活信号；以及

3)对帧的所有或选定频率区同时和/或按顺序执行上述1)和2)。

在一些实施方式中，神经网络是具有多个输入节点和多个输出节点的卷积神经网络。多个输入节点可以根据频率-时间表示来接收帧的值并输出帧的值。在一些方面，多个输入节点可以根据时域表示来接收帧的值并输出帧的值。

可以从麦克风信号的采样的重叠序列中生成帧。可以从大约30毫秒的样本(例如包括512个样本)中生成帧。帧可以彼此重叠约50％。帧可以包括257个频率区。可以从更长或更短的采样序列中生成帧。同样，采样速率可以更快或更慢。重叠可以更大或更小。

频率-时间表示可以按照如下所述的MEL标度进行：Stevens,Stanley Smith；Volkmann；John&Newman,Edwin B.(1937)."A scale for the measurement of thepsychological magnitude pitch".Journal of the Acoustical Society of America.8(3):185–190。替换地，频率-时间表示可以根据其近似或根据与频率标度具有对数或近似对数关系的其他标度。

处理器可以被配置为通过以下一项或多项来生成包括麦克风信号的波形的频率-时间表示的帧：短时傅立叶变换，小波变换，双线性时频分布函数(Wigner分布函数)，修改的Wigner分布函数，Gabor-Wigner分布函数，Hilbert-Huang变换或其他变换。

在一些实施方式中，机器学习部件被配置为根据包括布置在帧中的频率区中的值的频率-时间表示来生成语音激活信号；其中处理器根据与语音激活信号(其根据频率-时间表示)或语音激活信号的包络基本匹配的掩蔽信号的包络的时间和频率分布来控制掩蔽信号。

由此，掩蔽信号匹配语音激活，例如关于能量或功率。这使得能够更准确地掩蔽语音激活，这继而可以减轻可穿戴设备的佩戴者所感知的收听压力。掩蔽信号与麦克风信号中检测到的语音信号不同。生成掩蔽信号以掩蔽语音信号而不是消除语音信号。

在一些方面，处理器被配置为通过混合多个中间掩蔽信号来生成掩蔽信号；其中，处理器控制中间掩蔽信号的混合和内容之一或两者，以具有与语音激活信号(其根据频率-时间表示)匹配的时间和频率分布。处理器还可以如上所述合成掩蔽信号，以使时间和频率分布与语音激活信号匹配。

因此，掩蔽信号可以被构成为与被确定为包含语音激活的频段中的麦克风信号的能量水平匹配。在被确定为包含语音非激活的频段中，将掩蔽信号组成为与麦克风信号的能量水平不匹配。

在一些实施方式中，处理器被配置为：

响应于检测到语音激活的频率或密度的增加，随时间逐渐增加掩蔽信号的音量。

因此，可以在语音激活开始时的早期掩蔽与由于掩蔽信号引起的听觉伪像的减少之间取得良好的折衷。

在一些方面，处理器被配置为响应于检测到语音激活的频率或密度的降低而随时间逐渐减小掩蔽信号的音量。由此，掩蔽信号衰减而不是被突然断开或突然关闭。特别地，降低了可能会使设备佩戴者感到不快的可听见的伪像的风险。

在一些实施方式中，处理器配置有：

混合器，用于从多个中间掩蔽信号中选择的一个或多个中间掩蔽信号中生成掩蔽信号；其中，根据基于麦克风信号和语音激活信号中的一个或两个的标准来选择一个或多个选定的中间掩蔽信号。

由此，可以从多种可能的组合中配置掩蔽信号。在一些方面，混合器配置有混合器设置。混合设置可以包括每个中间掩蔽信号的增益设置。

在一些实施方式中，处理器配置有：

增益级，其配置有用于对中间掩蔽信号的增强振幅调制(attack amplitudemodulation)的触发器和用于对中间掩蔽信号的衰减振幅调制的触发器；

其中，响应于检测到从语音非激活到语音激活的转变，增益级被触发以执行中间掩蔽音道的增强振幅调制，以及响应于检测到从语音激活到语音非激活的转变，触发增益级以执行中间掩蔽音道的衰减振幅调制。

由此，由于掩蔽信号的处理而导致的掩蔽信号中的伪像可以保持在听不见的水平或被减小。在一些方面，多个中间掩蔽信号通过多个增益级同时或按顺序生成。可以如上所述混合中间掩蔽信号。

在一些实施方式中，处理器配置有：

有源降噪单元，用于处理麦克风信号，并将有源降噪信号提供给扬声器；以及

混合器，用于将有源降噪信号和掩蔽信号混合为扬声器的信号。

特别地，主动降噪(ANC)可有效消除带有音调的噪声，例如来自机器的噪声。然而，这使得语音激活更加可理解并且对可穿戴设备的穿戴者造成更大的干扰。但是，与在检测到语音激活时应用的掩蔽结合，佩戴者感知的声音环境改善超过了主动降噪，并且超出掩蔽。

在一些方面，通过前馈配置、反馈配置或通过混合配置来实现主动降噪。如上所述，在前馈配置中，可穿戴设备配置有外部麦克风。外部麦克风形成用于ANC算法的参考噪声信号。在反馈配置中，如上所述，放置内部麦克风，用于形成ANC算法的参考噪声信号。混合配置结合了前馈和反馈配置，并且需要至少两个分别按照前馈和反馈配置进行布置的麦克风。

用于生成用于生成掩蔽信号的麦克风信号的麦克风可以是内部麦克风或外部麦克风。

在一些实施方式中，处理器被配置为选择性地在第一模式或第二模式下运行；

其中，在第一模式下，处理器控制提供给扬声器的掩蔽信号的音量；以及

其中，在第二模式下，处理器：

-不管语音激活信号是否指示语音激活，停止将掩蔽信号以第一音量提供给扬声器。

以这种方式，使得在第二模式下，例如，当佩戴者在佩戴可穿戴设备时与耦接以接收麦克风信号的语音记录器讲话，与耦接以接收麦克风信号的数字助手讲话时，与耦接以接收麦克风信号的远端方讲话或与佩戴者附近的人讲话时，掩蔽信号不会干扰佩戴者。

在一些方面，在第一模式中，可穿戴设备充当头戴式耳机或入耳式耳机。第一模式可以是集中模式，其中通过掩蔽信号施加主动降噪和/或主动降低谈话清晰度。在第二模式下，可穿戴设备被用作耳机。当启用以充当耳机时，可穿戴设备可参与到与呼叫的远端方的通话中。

可以通过激活诸如可穿戴设备上的按钮之类的输入机构来选择第二模式。可以通过激活或重新激活诸如可穿戴设备上的按钮之类的输入机构来选择第一模式。

在一些方面，处理器停止以第二模式将掩蔽信号提供给扬声器或以低音量将掩蔽信号提供给扬声器，而不打扰佩戴者。在一些方面，在第二模式中，处理器停止启用或禁用将掩蔽信号提供给扬声器。

因此，可穿戴设备可以配置有透听模式，该模式由可穿戴设备的用户选择性地启用。

在一些实施方式中，电声输入换能器是输出第一麦克风信号的第一麦克风；且其中，可穿戴设备包括：

-第二麦克风，其输出第二麦克风信号；以及

-波束形成器，其耦接以从第三麦克风接收第一麦克风信号或第三麦克风信号以及第二麦克风信号并生成波束形成信号。

在一些方面，在以上定义的第二模式下，波束形成信号被提供给发射器，该发射器被接合以向远程接收器发送基于波束形成信号的信号。

波束形成器可以是自适应波束形成器或固定波束形成器。波束形成器可以是宽边波束形成器或端射波束形成器。

还提供了一种在可穿戴电子装置上的信号处理方法，可穿戴电子装置包括：电声输入换能器，被布置为拾取声学信号并将声学信号转换为麦克风信号；扬声器；以及处理器，其执行以下操作：

控制掩蔽信号的音量；以及

将掩蔽信号提供给扬声器；

响应于语音激活信号，根据在语音激活信号指示语音激活时以第一音量向扬声器)提供掩蔽信号，而在语音激活信号指示语音非激活时以第二音量向扬声器提供掩蔽信号，控制掩蔽信号的音量。

结合可穿戴设备，在概述部分和从属权利要求中定义了该方法的各个方面。

还提供了用于头戴式耳机或入耳式耳机的信号处理模块，其被配置为执行该方法。

信号处理模块可以是信号处理器，例如以集成电路或布置在一个或多个电路板或其一部分上的多个集成电路的形式。

还提供了一种计算机可读介质，该计算机可读介质包括：当由在可穿戴电子装置处的处理器运行时用于执行该方法的指令，该可穿戴电子装置包括：电声输入换能器，布置用于拾取声学信号并将声学信号转换为麦克风信号；以及扬声器。

计算机可读介质可以是信号处理模块的存储器或其一部分。

附图说明

下面参考附图进行更详细的描述，其中：

图1示出了体现为头戴式耳机和一对入耳式耳机的可穿戴电子装置以及该可穿戴设备的框图；

图2示出了用于生成掩蔽信号的模块，该模块包括音频播放器；

图3示出了用于生成掩蔽信号的模块，该模块包括音频合成器；

图4示出了麦克风信号的频谱图和相应的语音激活信号的频谱图；

图5示出了增益级，其配置有用于对掩蔽信号进行振幅调制的触发器；以及

图6示出了具有头戴式耳机模式和耳机模式的可穿戴设备的框图。

具体实施方式

图1示出了体现为头戴式耳机或一对入耳式耳机的可穿戴电子装置以及该可穿戴设备的框图。

头戴式耳机101包括头带104，其携带左听筒102和右听筒103，左听筒102和右听筒103也可以被称为耳杯。一对入耳式耳机116包括左听筒115和右听筒117。

听筒包括至少一个扬声器105，例如在每个听筒中的扬声器。头戴式耳机101还包括在听筒中的至少一个麦克风106。如本文所述，在下文中，头戴式耳机或一对入耳式耳机可包括以可选耳机模式配置的处理器，在该模式中，掩蔽被禁用或显著减小。

可穿戴设备的框图示出了麦克风106(布置成拾取声学信号并将该声学信号转换为麦克风信号x)形式的电声输入换能器，扬声器105和处理器107。麦克风信号可以是数字信号，或者可以由处理器转换为数字信号。扬声器105和麦克风105通常被称为电声换能器元件114。可穿戴电子装置的电声换能器元件114可包括在左手侧听筒中的至少一个扬声器和在右手侧听筒中的至少一个扬声器。电声换能器元件114还可包括布置在左手侧听筒和右手侧听筒之一或两者中的一个或多个麦克风。麦克风在右手侧听筒中的布置可能与在左手侧听筒中的布置不同。

处理器107包括输出语音激活信号y(其可以是时域语音激活信号或频时域语音激活信号)的语音激活检测器VAD 108。语音激活信号y由增益级G 110接收，增益级G响应于语音激活信号设置增益因子。增益级可以具有响应于语音激活信号而选择性设置的两个或更多个增益因子(例如多重增益因子)。增益级G 110也可以响应于麦克风信号(例如经由滤波器或根据前馈或反馈配置实现掩蔽信号的自适应增益控制的电路)来控制。掩蔽信号m可以由掩蔽信号发生器109生成。掩蔽信号发生器109也可以由语音激活信号y控制。掩蔽信号m可以经由混合器113提供给扬声器105。混合器113将掩蔽信号m和降噪信号q混合。降噪信号由降噪单元ANC 112提供。降噪单元ANC 112可以从麦克风106接收麦克风信号x和/或从布置在头戴式耳机或入耳式耳机中的与麦克风106不同的位置的另一个麦克风接收另一个麦克风信号。掩蔽信号发生器109，语音激活检测器108和增益级110可以由信号处理模块111构成。

因此，处理器107被配置为检测麦克风信号中的语音激活并生成语音激活信号y，该语音激活信号y依次指示语音激活和语音非激活中的至少一个或多个。此外，处理器107被配置为响应于语音激活信号y，根据在语音激活信号y指示语音激活时以第一音量向扬声器105提供掩蔽信号m，而在语音激活信号y指示语音非激活时以第二音量向扬声器105提供掩蔽信号m，控制掩蔽信号m的音量。可以响应于麦克风信号的能量水平或包络或者语音激活信号的能量水平或包络来控制第一音量。可以通过不向扬声器提供掩蔽信号或通过将音量控制为低于麦克风信号约10dB或更低来启用第二音量。

还示出了图表118，其示出了当语音激活信号指示语音激活(va)时增益级G 110的增益因子相对较高，而当语音激活信号指示语音非激活(vi-a)时增益系数相对较低。增益因子可以按照两个或更多阶来控制。

图2示出了用于生成掩蔽信号的模块，该模块包括音频播放器。模块111包括语音激活检测器108和音频播放器201以及增益级G 110。音频播放器201被配置为播放嵌入式音轨202或外部音轨203。音轨202或203可以包括编码的音频样本，并且播放器可以配置有用于从编码的音频样本生成音频信号的解码器。嵌入式音轨202的优点是可穿戴设备可以一次或响应于预定事件而配置有音轨。然后可以播放嵌入式音轨，而无需与远程服务器或其他电子装置建立有线或无线连接；这进而可以节省电池供电的可穿戴设备的电池电力。外部音轨203的优点在于，可以根据偏好或预定义事件来改变音道的内容。语音激活检测器108可以将信号y’发送到播放者201。信号y’可能会在检测到语音激活后传达播放命令，并在检测到语音非激活时传达“停止”或“暂停”命令。

图3示出了用于生成掩蔽信号的模块，该模块包括音频合成器。模块111包括语音激活检测器108，音频合成器301和增益级G 110。合成器301可以根据参数302生成掩蔽信号。参数302可以由硬件或软件定义，并且在一些实施方式中可以根据语音激活信号y来选择。合成器301包括一个或多个耦接到相应的调制器303、304(其可以调制来自音调发生器305、306的信号的动态)的音调发生器305、306。调制器303、304可以根据参数302运行。调制器303、304输出中间掩蔽信号m”和m”’，它们被输入到混频器307，该混频器307将中间掩蔽信号混合以将掩蔽信号m’提供给增益级110。来自音调发生器305、306的信号的动态的调制可以改变来自(一个或多个)音调发生器的信号的包络。

尽管关于增益级G 110描述了音量控制，但是应当注意，可以以其他方式来实现音量控制，例如，通过控制掩蔽信号本身的内容的调制或生成。

图4示出了麦克风信号的频谱图和对应的语音激活信号的频谱图。通常，频谱图是随时间变化的信号的频率的频谱直观表示。沿时间轴(水平)和频率轴(垂直)显示频谱图。作为说明性示例示出的频谱图跨越大约0Hz到8000Hz的频率范围和大约0秒到10秒的时间段。

麦克风信号的频谱图401(左手侧面板)包括第一区域403，在该区域，信号能量分布在很宽的频率范围内，并发生在大约2-3秒。该信号能量的范围最大为0dB，且主要来自键盘上的按键。

第二区域404包含信号能量，该信号能量在大约-20dB以下的范围内分布在较宽的频率范围内，并且发生在大约4-6秒处。该信号能量主要来自无法区分的噪声源，有时也称为背景噪声。

第三区域表示麦克风信号中谈话的存在，并且包括第一部分407，该第一部分407表示谈话的最主要部分处于较低频率，而第二部分405代表在较高频率下在较宽的频率范围内谈话的较不占优势的部分。谈话发生在大约7-8秒。

语音激活检测器(例如，语音激活检测器108)的输出在频谱图402(右手侧面板)中示出。可以看出，语音激活检测器的输出也位于大约7-8秒的时间。语音激活检测器的输出电平与谈话信号的能量电平相对应，在较低频率上具有较大的主导部分408，而在较高频率上具有较宽的频率范围的较小主导部分406。

语音激活检测器的输出因此根据对应的帧表示被示为频谱图。语音激活检测器的输出用于控制掩蔽信号的音量，并根据所需的频谱分布可选地生成掩蔽信号的内容。语音激活检测器的输出可以减少到一维二进制或多级信号时域信号，而无需频谱分解。

图5示出了增益级501，其配置有用于掩蔽信号的振幅调制的触发器。该实施方式是如何基于语音激活信号y来使掩蔽信号适应以获得掩蔽信号m的期望的淡入和/或淡出的示例。

第一触发单元505例如通过阈值检测语音激活的开始，并激活淡入调制特性503。调制器502应用淡入调制特性503来调制中间掩蔽信号m”，以生成另一个中间掩蔽信号m’，该信号被提供给增益级G 110。

第二触发单元506例如通过阈值检测语音激活期间的终止或减弱，并激活淡出调制特性504。调制器502应用淡出调制特性504来调制中间掩蔽信号m”，以生成另一个中间掩蔽信号m’，该信号被提供给增益级G 110。

由此，可以减少掩蔽信号中的伪像。

图6示出了具有头戴式耳机模式和耳机模式的可穿戴设备的框图。在一些方面，该框图对应于上述框图，但是还包括与启用耳机模式有关的耳机模块601所包括的元件。此外，设置了选择器605，用于有选择地启用耳机模式或头戴式耳机模式。选择器605可以将掩蔽信号m或耳机信号f提供给扬声器105。选择器可以接合处理器的其他元件或与其分离。耳机块601可以包括波束形成器602，该波束形成器602从麦克风106接收麦克风信号x，并且从另一个麦克风106’接收另一个麦克风信号x’。波束形成器可以是宽边波束形成器或端射波束形成器或自适应波束形成器。波束成形信号从波束成形器输出，并且被提供给收发器604，该收发器604提供与诸如移动电话或计算机的电子通信设备606的有线或无线通信。

通常，应注意，如本领域中已知的，头戴式耳机或入耳式耳机可包括用于播放音乐的元件。与此相关，可以通过模式选择来实现出于听音乐的目的而播放音乐，该模式禁用上述的语音激活控制的掩蔽。

通常，应当理解，本领域技术人员可以执行实验，调查和测量以获得用于掩蔽信号的适当的音量水平。此外，可能需要进行实验，调查和测量，以避免与掩蔽信号相关的(非线性)信号处理引入可听或干扰的伪影。

Claims

1.一种可穿戴电子装置(101)，包括：

电声输入换能器(106)，布置为用于拾取声学信号并将所述声学信号转换为麦克风信号(x)；

扬声器(105)；以及

处理器(107)，被配置为：

控制掩蔽信号(m)的音量；以及

将所述掩蔽信号(m)提供给所述扬声器(105)；

其特征在于，所述处理器还被配置为：

基于处理至少所述麦克风信号(x)，检测语音激活并生成与所述麦克风信号并存的语音激活信号(y)，所述语音激活信号依次指示以下一项或多项：语音激活和语音非激活；以及

响应于所述语音激活信号(y)，根据在所述语音激活信号(y)指示语音激活时以第一音量向所述扬声器(105)提供所述掩蔽信号(m)，在所述语音激活信号(y)指示语音非激活时以第二音量向所述扬声器(105)提供所述掩蔽信号(m)，控制所述掩蔽信号(m)的音量。

2.根据权利要求1所述的可穿戴电子设备，其中，所述处理器配置有以下一项或两项：

-音频播放器(201)，通过播放音轨生成所述掩蔽信号；以及

-音频合成器(111)，使用一个或多个信号发生器生成所述掩蔽信号。

3.根据以上权利要求中的任一项所述的可穿戴电子设备，其中，所述处理器被配置为包括机器学习部件，以生成所述语音激活信号(y)；其中，所述机器学习部件被配置为指示时间段，在所述时间段中，所述麦克风信号(x)包括：

-代表语音激活的信号分量，或

-代表语音激活的信号分量和代表不同于语音激活的噪声的信号分量。

4.根据以上权利要求中的任一项所述的可穿戴电子设备，其中，机器学习部件被配置为基于所述麦克风信号(x)的时域波形的处理来检测所述语音激活。

5.根据以上权利要求中的任一项所述的可穿戴电子设备，其中，所述处理器被配置为：

在接收到所述麦克风信号的同时：

生成包括所述麦克风信号(x)的波形的频率-时间表示(X)的帧；其中，所述帧包括布置在频率区中的值；

包括被配置为基于处理包括所述麦克风信号(x)的波形的频率-时间表示的所述帧来检测所述语音激活的机器学习部件。

6.根据权利要求4或5所述的可穿戴电子设备，

其中，所述机器学习部件被配置为根据包括布置在帧中的频率区中的值的频率-时间表示生成所述语音激活信号(y)；

其中，所述处理器(107)根据基本上与所述语音激活信号或所述语音激活信号的包络匹配的所述掩蔽信号的所述包络的时间和频率分布，控制根据所述频率-时间表示的所述掩蔽信号(m)。

7.根据以上权利要求中的任一项所述的可穿戴电子设备，其中，所述处理器被配置为：

响应于检测到语音激活频率或密度的增加，随时间逐渐增加所述掩蔽信号(m)的音量。

8.根据以上权利要求中的任一项所述的可穿戴电子设备，其中，所述处理器(107)配置有：

混合器，根据来自多个中间掩蔽信号中的所选定的一个或多个中间掩蔽信号生成所述掩蔽信号；其中，根据基于所述麦克风信号和/或所述语音激活信号的标准来执行所选定的一个或多个中间掩蔽信号的选择。

9.根据以上权利要求中的任一项所述的可穿戴电子设备，其中，所述处理器配置有：

增益级，配置有用于对中间掩蔽信号的增强振幅调制的触发器和用于对所述中间掩蔽信号的衰减振幅调制的触发器；

其中，响应于检测到从语音非激活到语音激活的转变，触发所述增益级以执行中间掩蔽音道的增强振幅调制，以及响应于检测到从语音激活到语音非激活的转变，触发所述增益级以执行所述中间掩蔽音道的衰减振幅调制。

10.根据以上权利要求中的任一项所述的可穿戴电子设备，其中，所述处理器配置有：

有源降噪单元(112)，处理所述麦克风信号(x)，并将有源降噪信号(q)提供给所述扬声器；以及

混合器(113)，将所述有源降噪信号(q)和所述掩蔽信号(m)混合为用于所述扬声器(105)的信号。

11.根据以上权利要求中的任一项所述的可穿戴电子设备，其中，所述处理器(107)被配置为选择性地以第一模式或第二模式操作；

其中，在所述第一模式下，所述处理器(107)控制提供给所述扬声器(105)的所述掩蔽信号(m)的音量；以及

其中，在所述第二模式下，所述处理器(107)：

-与指示语音激活的所述语音激活信号(y)无关地停止以所述第一音量将所述掩蔽信号(m)提供给所述扬声器(105)。

12.根据以上权利要求中的任一项所述的可穿戴电子设备，其中，所述电声输入换能器是输出第一麦克风信号(x)的第一麦克风(106)；并且其中，所述可穿戴设备包括：

-输出第二麦克风信号(x’)的第二麦克风(106’)；以及

-波束形成器，耦接以接收来自第三麦克风的第三麦克风信号或所述第一麦克风信号(x)，以及所述第二麦克风信号(x’)，并生成波束形成信号。

13.一种在可穿戴电子装置(101)处的信号处理方法，所述可穿戴电子装置包括：电声输入换能器(106)，布置为拾取声学信号并将所述声学信号转换为麦克风信号(x)；扬声器(105)；以及执行以下各项的处理器(107)：

控制掩蔽信号的音量(m)；以及

将所述掩蔽信号(m)提供给所述扬声器(105)；

14.一种用于头戴式耳机或入耳式耳机的信号处理模块(111；107)，被配置为执行根据权利要求13所述的方法。

15.一种计算机可读介质，包括在由可穿戴电子装置(101)处的处理器(107)运行时用于执行根据权利要求13所述的方法的指令，所述可穿戴电子装置(101)包括：电声输入换能器(106)，布置为用于拾取声学信号并将所述声学信号转换为麦克风信号(x)；扬声器(105)。