CN111919253A

CN111919253A - 用于头戴式受话器的使用麦克风信号频域表示的声控声音编码

Info

Publication number: CN111919253A
Application number: CN201980022335.4A
Authority: CN
Inventors: 斯特凡·M·阿佩尔奎斯特; 维贾伊·K·季德拉; 埃布尔·格拉德斯通·曼加姆; 罗格·希尔贝格
Original assignee: 3M Innovative Properties Co
Current assignee: 3M Innovative Properties Co
Priority date: 2018-03-29
Filing date: 2019-03-26
Publication date: 2020-11-10
Also published as: AU2019244700B2; WO2019186403A1; EP3776552A1; RU2756385C1; AU2019244700A1; US20210014599A1; IL277606A; US11418866B2

Abstract

本发明公开了一种声控编码方法，所述方法包括基于来自语音麦克风的语音信号的频域表示来确定语音功率参数。所述方法包括基于来自与所述语音麦克风间隔开的至少一个环境麦克风的至少一个环境信号的频域表示来确定环境功率参数。所述方法还包括响应于将功率参数与阈值进行比较来基于所述语音信号启用对音频信号的编码。包括控制器的头戴式受话器可使用所述方法来确定是启用还是禁用对到另一装置的音频信号的编码、传输或两者。

Description

用于头戴式受话器的使用麦克风信号频域表示的声控声音编码

背景技术

噪声环境诸如工作场所、机场、停机坪等可包括有可能损害人的听力的噪声源。在噪声环境中工作的人可经历由急性听觉创伤引起的听力损失或逐渐发展的噪声引起的听力损失。为有助于防止听力受损，在噪声环境中工作的人可佩戴听力保护装置。听力保护装置可为被动的或主动的。被动听力保护装置可使用阻止噪声达到特定的噪声水平的耳塞和耳罩。主动听力保护装置可使用通过电子滤除特定的分贝或频率允许某些类型的噪声传递给人的耳罩。

虽然各种形式的听力保护装置可提供抵抗过度的噪声的足够的保护，但是佩戴此类听力保护装置的人可需要彼此通信。在噪声环境中，由于来自噪声源的噪声和来自听力保护的过滤，在佩戴听力保护装置时彼此通信可以是困难的。在一些情况下，佩戴听力保护装置的人可携带另外的和独立的通信装置，以促进在噪声环境中与其他个人的通信。虽然单独的通信装置可促进此类通信，但可能需要人携带两个单独的装置(听力保护装置和通信装置)。

声控交换机(VOX)已用于促进头戴式受话器之间的语音通信。一般来讲，当检测到语音活动时，VOX便将声音传输到另一个头戴式受话器。然而，现有支持VOX的头戴式受话器中的传统语音活动检测可能在高噪声环境或非静止噪声环境中表现不佳。具体地讲，传统的语音活动检测算法难以将在大声的周围环境中的语音与噪声区分开来，并且即使不存在语音也连续地编码并传输声音。这可能导致两次充电之间的电池寿命缩短，以及与其他人的通信清晰度差，这意味着传统的语音活动检测可能不适合在某些环境下与听力保护头戴式受话器一起使用。

发明内容

本申请的各个方面涉及用于头戴式受话器的使用麦克风信号频域表示的声控声音编码，这可特别适用于听力保护应用。声控声音编码可使用来自至少两个麦克风(诸如语音麦克风和环境麦克风)的信号。麦克风信号可被转换为频域表示，并且在一个或多个所选择的频带中比较这些信号的功率。声控可基于该比较来确定。在高噪声环境或非静止噪声环境中，选择对应于语音的频带并使用信号之间的相对比较可提供稳健的语音活动检测或VOX功能。在听力保护应用中采用这种声控声音编码技术可导致通信头戴式受话器的改善的功率节省以及更理想的性能。

在一个方面，装置可包括语音麦克风，所述语音麦克风被配置为基于在所述语音麦克风处检测到的声音来生成语音信号。所述装置还可包括至少一个环境麦克风，所述至少一个环境麦克风与所述语音麦克风间隔开并且被配置为基于在所述至少一个环境麦克风处检测到的声音来生成至少一个环境信号。所述装置还可包括可操作地耦接到麦克风的控制器。所述控制器可包括通信编码器，所述通信编码器被配置为对音频信号进行编码以用于传输到另一装置。所述控制器可被配置为基于所述语音信号的频域表示来确定语音功率参数。所述控制器还可被配置为基于所述至少一个环境信号的频域表示来确定环境功率参数。所述控制器可被进一步配置为响应于至少部分地基于功率参数和阈值的确定，使用所述通信编码器基于所述语音信号对音频信号进行编码。

在另一方面，控制器可包括输入接口，所述输入接口被配置为接收语音信号和至少一个环境信号。所述控制器还可包括输出接口，所述输出接口被配置为基于所述语音信号来提供音频信号。所述控制器还可包括存储器，所述存储器被配置为存储所述语音信号和所述环境信号的表示。此外，所述控制器可包括处理器，所述处理器可操作地耦接到所述输入接口、所述输出接口和所述存储器。所述处理器可被配置为基于所述语音信号的频域表示来确定语音功率参数。所述处理器还可被配置为基于所述至少一个环境信号的频域表示来确定环境功率参数。所述处理器可被进一步配置为响应于至少部分地基于功率参数和阈值的确定，基于所述语音信号对音频信号进行编码。

在另一方面，方法可包括基于来自语音麦克风的语音信号的频域表示来确定语音功率参数。所述方法还可包括基于来自与所述语音麦克风间隔开的至少一个环境麦克风的至少一个环境信号的频域表示来确定环境功率参数。所述方法还可包括响应于至少部分地基于功率参数和阈值的确定，使用微处理器，基于所述语音信号，对音频信号进行编码。

附图说明

本专利申请的附图可简述如下：

图1是根据本申请的一个实施方案的头戴式受话器的图示。

图2是根据本申请的一个实施方案的用于与图1的头戴式受话器一起使用的声控编码的一种方法的流程图。

图3是根据本申请的一个实施方案的与图1的头戴式受话器一起使用的控制器的示意图。

图4是根据本申请的一个实施方案的存储在图3的控制器中的数据的存储器的示意图。

图5是根据本申请的一个实施方案的用于与图1的头戴式受话器一起使用的声控编码的另一种方法的流程图。

图6是根据本申请的一个实施方案的确定是否检测到与图5的方法一起使用的语音的一种方法的流程图。

图7是根据本申请的一个实施方案的确定是否检测到与图5的方法一起使用的语音的另一种方法的流程图。

图8是根据本申请的一个实施方案的用于与图5的方法一起使用的增强音频的一种方法的流程图。

图9是示出用于语音信号输入的VOX算法的性能的曲线图。

图10是示出用于语音加直升机噪声信号的两种VOX算法的性能的曲线图。

图11是示出用于语音加粉红噪声信号的两种VOX算法的性能的曲线图。

具体实施方式

本申请涉及头戴式受话器。具体地讲，本专利申请涉及用于头戴式受话器的使用麦克风信号频域表示以改善噪声环境中的功率节省和性能的声控声音编码。尽管参考了头戴式受话器，诸如用于听力保护的通信头戴式受话器，但本文所述的声控声音编码技术可与从不同麦克风接收两种不同类型的噪声的任何装置(诸如具有内部麦克风和外部麦克风的移动无线电单元)一起使用。受益于本申请的公开，各种其他应用对于本领域的技术人员而言将变得显而易见。

通过消除携带附加通信设备的需要，可减少用户携带的通信设备的重量，从而改善用户的运动和/或移动范围。在噪声环境中提供对用户语音的准确检测可改善与其他人的通信。此外，准确的语音检测可通过在用户未说话时禁用某些功能而促进改善电池功率的节省和充电间隔时间的延长(例如，更少的再充电和/或停机时间)。此外，尽管麦克风之间的空间有限，但提供准确的语音检测可促进适用于听力保护应用中使用的头戴式受话器的性能。

本申请提供可用于与头戴式受话器之间的通信相关的各种方法、系统和设备中的声控声音编码。在语音通信头戴式受话器中，声控声音编码方法可包括：基于来自语音麦克风的语音信号的频域表示来确定语音功率参数；基于来自与所述语音麦克风间隔开的至少一个环境麦克风的至少一个环境信号的频域表示来确定环境功率参数；以及响应于至少部分地基于功率参数和阈值的确定，基于所述语音信号对音频信号进行编码。可响应于将所述功率参数和禁用阈值进行比较而禁用编码，所述禁用阈值可与所述阈值相同或不同。所述一个或两个阈值可例如使用试误法来确定。具体地讲，在一个或多个所选择的频带中的功率参数之间的所述比较可包括确定所述功率参数之间的比率。一个或多个所选择的频带中功率参数的相对比较可允许使用简单的阈值来对语音活动进行稳健的检测。例如，可将该比率与阈值进行比较。麦克风信号的频域表示也可用于提供增强的音频信号，该增强的音频信号可由头戴式受话器编码和传输。频域表示可用作降噪算法中的输入以产生增强的音频信号。

本文更详细地描述了本申请的附图，这些附图描绘了本申请的公开的一个或多个方面。应当理解，在附图中未描绘或本文未明确描述的其他方面可以在本公开的范围内考虑，例如，当由本领域的普通技术人员考虑时。

图1示出了用于使用通信头戴式受话器102的环境100，该通信头戴式受话器可由人或用户104佩戴以用于听力保护。头戴式受话器102包括一个或多个麦克风。每个麦克风106、108、110可被描述为将声音转换为表示检测到的声音的信号(例如，电信号)的装置。例如，佩戴头戴式受话器102的用户104可以讲话，从而生成由这些麦克风中的一个麦克风接收到的声音。来自麦克风106、108、110中的一个或多个麦克风的信号可用于确定是否检测到用户的语音。

如图所示，头戴式受话器102包括语音麦克风106(例如，吊杆麦克风)、第一环境麦克风108(例如，邻近右耳)和第二环境麦克风110(例如，邻近左耳)。语音麦克风106可被描述为提供语音信号，并且每个环境麦克风108、110可被描述为提供环境信号。每个麦克风106、108、110可在任何方向上与其他麦克风中的至少一个麦克风间隔开。每个麦克风106、108、110可具有指向性和邻近效应，该效应可用于在一个或多个距离处(例如，超过某一距离)滤除低频。例如，语音麦克风106可具有超心形的极性图案，该语音麦克风可在0度取向(例如，指向用户104的嘴部)处给出最大响应。语音麦克风106的频率响应可不同于环境麦克风108、110。环境麦克风108、110可具有不同于语音麦克风106的指向性，例如全向。环境麦克风108、110的频率响应可在所有或基本上所有方向和/或频率上具有基本上相同的量值。

如图所示，头戴式受话器102包括第一听筒114和第二听筒116。听筒114、116可通过在听筒之间延伸的头带118(例如，镫形物)耦接。头带118可由任何刚性或半刚性材料诸如塑料、铝、钢或任何其他合适的材料形成。头带118可用于将头戴式受话器102固定到用户的头部。在一些实施方案中，头带118可用于将第一环境麦克风108和第二环境麦克风110彼此间隔开。

每个听筒114、116可包括或可耦接到环境麦克风108、110中的一者。在例示的实施方案中，第一听筒114包括第一环境麦克风108，并且第二听筒116包括第二环境麦克风110。

麦克风106、108、110中的每个麦克风可通过无线或有线连接(例如，使用互连件)可操作地耦接到控制器112。允许头戴式受话器102的各种部件之间的有线通信的互连件的示例包括由铜、铝、银或其他合适的导电材料形成的一股或多股线。例如，一些互连件可耦接到头带118，以提供听筒114和听筒116之间的连接。

控制器112可用于基于来自麦克风106、108、110中的一个或多个麦克风的信号来确定是否检测到用户的语音。如图所示，控制器112位于第二听筒116中。一般来讲，控制器112中的一些或全部可耦接到第一听筒114、第二听筒116、头带118或它们的任何组合。

头戴式受话器102可包括一个或多个天线诸如天线120，以发射和/或接收从其他装置远程至该头戴式受话器的信号。如图所示，天线120从听筒114延伸。天线120可通过无线或有线连接(例如，使用互连件)可操作地耦接到控制器112。一般来讲，天线120中的一些或全部可耦接到第一听筒114、第二听筒116、头带118或它们的任何组合。

麦克风106可耦接到吊杆122，该吊杆可将语音麦克风106定位成邻近用户的嘴部。如图所示，吊杆122从第二听筒116延伸。一般来讲，吊杆122可耦接到第一听筒114、第二听筒116、头带118或它们的任何组合。在一些实施方案中，吊杆122可用于将语音麦克风106与环境麦克风108、110中的一者或两者隔开。

听筒114、116可被设计成为用户104提供至少一些被动或主动听力保护。每个听筒114、116可包括耦接到听筒的杯状部分126的衬垫124。具体地讲，每个衬垫124和杯状部分126可围绕用户104的每只耳朵形成声屏障。衬垫124可邻接在用户104的耳朵周围。衬垫124可有助于听筒114、116抑制或以其他方式减少来自听筒外部环境的环境声音的能力。衬垫124可由任何能够压缩的材料和/或膨胀材料诸如泡沫、凝胶、空气或任何其他此类合适的材料组成。杯状部分126可由任何刚性或半刚性材料诸如塑料组成，所述塑料在一些情况下可为非导电的电介质塑料。

每个杯状部分126可包括扬声器(未示出)，诸如扩音器，以发射对应于信号(例如，电信号)的声音。具体地讲，每个扬声器杯状部分126可被定位成将声音引导到由该杯状部分形成的杯的内部中。当头戴式受话器102在使用中时，每个杯状部分126的内部可被定位成与用户104的耳朵相邻。每个扬声器可基于由头戴式受话器102的其他部件(诸如控制器112)接收到或生成的信号发出声音。具体地讲，每个扬声器可通过无线或有线连接可操作地耦接到控制器112，例如，使用可耦接到头带118的互连件。每个扬声器可包括将电音频信号转换成声音的一个或多个电声换能器。一些扬声器可包括磁体、音圈、悬架和隔膜结构或膜中的一者或多者。

如本文所述的部件中的一者或多者诸如控制器、麦克风或扬声器，可包括处理器(诸如中央处理单元(CPU))、计算机、逻辑阵列或能够引导数据进入或离开头戴式受话器102的其他装置。控制器可包括具有存储、处理和通信硬件的一个或多个计算装置。控制器可包括用于将控制器的各种部件耦接在一起或与可操作地耦接到该控制器的其他部件耦接的电路。控制器的功能可通过硬件和/或作为非暂态计算机可读存储介质上的计算机指令来执行。

控制器的处理器可包括微处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)和/或等效的分立或集成逻辑电路。在一些示例中，处理器可包括多个部件，诸如一个或多个微处理器、一个或多个控制器、一个或多个DSP、一个或多个ASIC和/或一个或多个FPGA以及其他分立或集成逻辑电路的任何组合。归因于本文的控制器或处理器的功能可体现为软件、固件、硬件或它们的任何组合。虽然在本文中被描述为基于处理器的系统，但另选的控制器可单独地或与基于微处理器的系统组合地利用其他部件诸如继电器和定时器来实现期望的结果。

在一个或多个实施方案中，示例性系统、方法和接口可使用计算设备使用一个或多个计算机程序来实现，该计算设备可包括一个或多个处理器和/或存储器。本文所述的程序代码和/或逻辑可应用于输入数据/信息以执行本文所述的功能并生成所需的输出数据/信息。该输出数据/信息可作为输入应用于如本文所述的一个或多个其他装置和/或方法，或者能够以已知的方式应用。鉴于上述内容，将显而易见的是，如本文所述的控制器功能能够以本领域的技术人员已知的任何方式来实现。

在描述头戴式受话器102的各种部件的情况下，本文将参考图2更详细地描述头戴式受话器的声控编码功能。

图2示出了头戴式受话器102(图1)的声控编码的高级架构方法200的流程图示例。方法200的一个或多个部分可由控制器112(图1)的部件执行。方法200可包括对例如来自语音麦克风106以及来自第一环境麦克风108和第二环境麦克风110中的至少一者的麦克风信号进行模数转换202。一般来讲，麦克风106、108、110提供表示用于信号处理的声音的模拟信号。模数转换202产生每个麦克风信号的数字表示。模数转换202可由任何合适的处理器诸如模数转换器(ADC)执行。每个麦克风106、108、110可以可操作地耦接到一个或多个ADC的不同ADC或不同输入，以执行模数转换202。

麦克风信号可被接收用于输入-输出控制204。然后，麦克风信号可被提供或路由到数据存储器存储装置206。麦克风信号可从存储器(例如，通过处理器诸如中央处理单元或CPU)检索以用于信号处理208。

信号处理208可提供每个麦克风信号的频域表示。该频域表示提供关于一个或多个频率或频带的信号的信息，诸如量值和/或相位信息。

信号处理208可执行数字信号处理和/或模拟信号处理(例如，对没有模数转换202的模拟麦克风信号)以提供麦克风信号的频域表示。例如，可使用模拟滤波器组。

每个麦克风信号可表示声能。信号处理208可基于声能为每个麦克风信号提供功率参数。具体地讲，可基于一个或多个所选择的频带中的相应麦克风信号的频域表示来确定每个功率参数。所选择的频带可对应于语音共有的频率。比较对应于语音的一个或多个所选择的频带中的功率参数可提供语音频率与各种环境噪声频率的稳健隔离，这些环境噪声频率有利地使用靠近用户嘴部的语音麦克风和更远离位置的环境麦克风的定位。

使用由信号处理208提供的信息，语音决策框210可确定是启用还是禁用来自头戴式受话器102的语音编码和/或传输。当语音决策框210启用语音编码和/或传输时，可将基于模拟或数字麦克风信号的音频信号提供给收发器212，以用于传输到例如另一个头戴式受话器或其他通信装置。

一般来讲，基于麦克风信号的音频信号的编码和传输使用比本文所述的各种信号处理208更多的处理资源和/或电池功率。使用信号处理208和语音决策框210可在头戴式受话器102的操作期间节省处理资源和/或电池功率以促进增加充电间隔的时间。

图3示意性地示出了被配置用于声控编码的头戴式受话器102(图1)的控制器300的示例。如图所示，控制器300包括输入接口302，该输入接口可以可操作地耦接到语音麦克风106、第一环境麦克风108和第二环境麦克风110中的一者或多者，并且可被配置为接收一个或多个麦克风信号。控制器300包括输出接口304，该输出接口可以可操作地耦接到收发器212并且可被配置为向该收发器提供音频信号。收发器212可包括向另一装置无线地发射和/或从该另一装置接收通信(诸如音频信号)的各种部件，并且可耦接到或可包括天线120(图1)。在一些实施方案中，收发器212可被认为是控制器300的一部分。

输入接口302和输出接口304可以可操作地耦接到处理器306和/或存储器308。处理器306可执行一个或多个模块。模块可包括硬件(例如，集成电路芯片)和/或软件(例如，存储在存储器308中的指令)。处理器306的模块可包括模数转换器(ADC)310、补偿器312、变压器314、功率计算器316、比率计算器318、比较器320、语音决策器322、增强器324或编码器326。

处理器306可包括ADC 310。如图所示，ADC 310可接收表示由麦克风106、108、110检测到的声音的一个或多个模拟信号，并且将每个模拟信号转换为数字形式(例如，使用十六进制数字)。可使用任何合适的分辨率，例如，32位符号整数级分辨率。

来自ADC 310的所得数字信号可被提供给补偿器312。每个麦克风106、108、110可具有不同的频率响应，尤其是在语音麦克风106与环境麦克风108、110之间。补偿器312可基于麦克风106、108、110的各种频率响应之间的差值来校正数字信号中的一个或多个数字信号。在一些实施方案中，补偿器312基于与语音麦克风106相比的频率响应差值来校正来自环境麦克风108、110中的一者或两者的数字信号。

变压器314可接收一个或多个补偿数字信号并提供每个补偿数字信号的频域表示。可使用用于确定和提供频域表示的任何合适的技术，诸如离散傅里叶变换(例如，快速傅里叶变换)、滤波器组或小波变换。频域表示可仅包括一个或多个所选择的频带，该所选择的频带可对应于通常存在于语音中的一个或多个频率。

功率计算器316可接收频域表示并确定每个麦克风106、108、110的一个或多个功率参数。一般来讲，每个功率参数与麦克风信号在频域中的功率相关。具体地讲，功率参数可仅包括一个或多个所选择的频带，该所选择的频带可对应于通常存在于语音中的一个或多个频率。

一般来讲，功率参数计算可根据以下公式来计算：

其中A为所选择的频带f_i中信号的振幅，N为所选择的频带的总数，i为频格的索引，并且W(A_k)为量值的函数。功率参数是信号在所选择的频带中的量值的函数。

可使用任何合适的函数W来表征信号的量值。例如，功率参数可根据以下公式来计算：

其中A为所选择的频带f_i中信号的振幅，N为所选择的频带的总数，并且i为频格的索引。在该示例中，信号的量值由每个所选择的频带中的信号的振幅的平方除以频带的总数的总和表示。

如本文所述，该一个或多个所选择的频带可对应于存在于典型人类语音中的那些频带。具体地，该一个或多个所选择的频带可包括从约100Hz、200Hz或甚至300Hz至最高约1200Hz、1100Hz或甚至1000Hz的频率。在一个示例中，该一个或多个所选择的频带可在约300Hz至最高1000Hz的范围内。

比率计算器318可接收对应于每个麦克风106、108、110的功率参数，并提供比较功率参数的值。在一些实施方案中，计算两个或更多个功率参数之间的比率。例如，对应于一个环境麦克风108、110的功率参数可与对应于语音麦克风106的功率参数进行比较，例如，通过使用除法来计算两者间的比率。在另一个示例中，对应于环境麦克风108、110的功率参数可被组合(例如，平均)，然后与对应于语音麦克风106的功率参数进行比较，例如，通过使用除法来计算两者间的比率(例如，功率比)。

比较器320可从比率计算器318接收功率比或其他比较值，并将其与阈值进行比较。具体地讲，比较器320可使用阈值比率(例如，阈值功率比)。

语音决策器322可至少部分地基于功率参数和阈值进行确定。具体地讲，语音决策器322可基于功率比是否超过阈值功率比来确定是否已经检测到语音。对应于语音麦克风106的语音功率参数可用于比率的分子中，并且对应于至少一个环境麦克风108、110的环境功率参数可用于该比率的分母中。一般来讲，当对应于语音麦克风106的语音功率参数超过对应于环境麦克风108、110中的一者或两者的功率参数一定量时，即检测到语音。换句话讲，当功率参数的比率(例如，功率比)超过阈值比(例如，阈值功率比)时，语音决策器322可确定检测到语音。

当检测到语音时，语音决策器322可基于来自语音麦克风106的信号来启用对音频信号的编码和/或传输。当未检测到语音时，语音决策器322可禁用编码和/或传输。

处理器306可包括音频增强器324，该音频增强器可接收音频信号并提供增强的音频信号。具体地讲，音频增强器324可增强语音麦克风106的麦克风信号。在一些实施方案中，音频增强器324使用降噪算法来提供增强的音频信号。一般来讲，音频增强器324使用语音信号和至少一个环境信号。例如，音频增强器324可使用频谱减法来从频域中的语音信号中减去环境信号的一个或多个所选择的频带中的量值。在另一个示例中，音频增强器324可使用最小均方误差(MMSE)算法，该算法使用语音信号和至少一个环境信号作为输入。MMSE算法可提供比频谱减法更少的伪影。

MMSE算法可与语音信号和至少一个环境信号的频域表示一起使用，因为例如，在假设语音和噪声的频谱分量具有高斯分布并且在统计上是独立的情况下。该语音的估计振幅可由以下公式提供：

其中

其中I₀和I₁表示零阶和一阶的经修改的贝塞尔函数；其中v_k由

限定，其中

并且

其中λ_k(k)和λ_d(k)分别为语音频谱分量和噪声频谱分量的方差；其中R_k为噪声(语音加噪声)频谱分量的量值；并且其中k为频谱分量的索引。

处理器306可包括通信编码器326，该通信编码器可接收音频信号(例如，增强的音频信号)并且对要传输的音频信号(例如，通过收发器212)进行编码。可使用任何合适的编码技术，诸如频率调制(FM)、振幅调制(AM)、ITU-T G.726、ITU-T G.727或ITU-T G.729进行编码。

处理器306可以可操作地耦接到存储器308，该存储器可用于存储与处理器的该一个或多个模块的执行相关的数据。图4中示意性地示出了能够存储在存储器308中的数据的示例。

在图4中，存储器308可用于以数字形式存储表示语音信号的语音信号数据350。存储器308可用于以数字形式存储表示一个或多个环境信号的环境信号数据352。由处理器306计算的语音功率参数354和环境功率参数356可存储于存储器308中。功率比较358可例如作为功率比存储于存储器308中。存储器308可存储阈值360，该阈值可被检索以例如与功率比进行比较。阈值360可包括一个阈值或不同的阈值。在一些实施方案中，用于启用和禁用编码和/或传输的阈值相同或相等。在其他实施方案中，用于启用和禁用编码和/或传输的阈值不同。可针对正在使用的头戴式受话器的特定硬件来调谐每个阈值360。可使用用于特定硬件的试误法来确定每个阈值360。可被增强的音频信号362可在被传输之前存储于存储器308中。

在描述了头戴式受话器102(图1)的各种部件的情况下，本文描述了涉及声控编码的各种方法，该声控编码可参考图5至图8与该头戴式受话器一起使用。

在图5中，示出了用于声控编码的一种方法400，该方法可使用头戴式受话器102的各种部件来执行。方法400可包括监听麦克风402。基于来自麦克风的信号，方法400可确定是否检测到语音404。如果检测到语音，则方法400可在传输之前增强音频406。如果检测到语音，则方法400可选择性地音频进行编码和/或将该音频传输到另一装置408。该音频可能被增强，或可能不被增强。如果未检测到语音，则方法400可禁用对音频的编码和/或传输。

在图6中，示出了确定是否检测到语音的方法404的一个示例。方法404可包括基于麦克风信号410的频域表示来确定功率参数。可使用至少两个麦克风信号，例如，一个用于语音信号，并且一个用于环境信号。方法404可包括基于功率参数和阈值的比较来启用对音频信号的编码。例如，对功率参数的比较可产生值(例如，比率)，然后可将该值与阈值(例如，阈值比率)进行比较。

在图7中，比图6更详细地示出了确定是否检测到语音的方法404的另一个示例。方法404可包括从吊杆414上的语音麦克风接收语音信号，并且可包括从一个或多个环境麦克风416接收至少一个环境信号。环境麦克风可被定位成接收除用户语音之外的周围声音。如图所示，可基于频率响应418来补偿环境信号中的一个或多个环境信号。使用频率补偿可提供语音信号与环境信号的更准确的比较。

一个或多个麦克风诸如环境麦克风416可以是水平相关的。如本文所用，“水平相关”是指基于周围(例如，环境)声音的水平来调节头戴式受话器的一个或多个麦克风的水平，这可有助于保护用户的听力。水平相关函数(LDF)可用于校准环境麦克风416的水平。

方法404可包括将傅里叶变换(例如，快速傅里叶变换或FFT)应用于语音信号420，并且将傅里叶变换应用于环境信号422中的一个或多个环境信号，以提供语音信号和环境信号的频域表示。

频域表示可用于方法404中以提供语音信号424的功率参数和环境信号426的至少一个功率参数。在方法404中，可通过计算功率参数428中的至少两个功率参数之间的功率比率(例如，语音功率参数与环境功率参数的平均值之间的比率)来比较这些功率参数。具体地讲，语音功率参数可对应于功率比的分子，并且环境功率参数可对应于该功率比的分母。较高的语音功率参数可指示较大声的语音并且可导致较高的功率比。

方法404可包括将功率比与阈值功率比430进行比较，例如，以查看功率比是否超过阈值功率比。方法404可包括基于功率比与阈值功率比的比较来确定432是否检测到语音。当功率比超过阈值功率比时，即检测到语音。

在图8中，示出了增强音频的方法406的一个示例。方法406可包括接收噪声语音440。可例如使用FFT将表示噪声语音的一个或多个信号转换为频域表示442。频域表示可用作降噪算法444(例如，MMSE算法)的输入。降噪算法的输出可例如使用逆FFT转换为时域表示446。时域表示可用于提供增强的音频或语音448，该增强的音频或语音可被编码和/或传输到另一装置。

在描述了用于头戴式受话器的声控声音编码的各种示例和示例性实施方案的情况下，本文描述了各种示例以进一步示出各种技术效应和益处以及可使用的各种组合。

实施例

在以下实施例中使用如图1所示的结合有环境麦克风和语音麦克风的通信头戴式受话器。在封闭的具有扬声器的隔音房中将头戴式受话器放置在

&

公司(丹麦奈鲁姆(

Denmark))的4128C型高频头和躯干模拟器(HATS)上。HATS还具有嘴部模拟器，该嘴部模拟器用于向吊杆麦克风提供语音信号。该扬声器用于将噪声信号引入环境中。表示语音、直升机噪声或粉红噪声的预先记录的信号用于模拟噪声环境中语音和语音的声控编码性能，这可包括直升机噪声或粉红噪声。噪声信号在85dBA SPL和105dBASPL处产生，并且使用连接到个人计算机的声卡与语音信号一起记录。以32kHz的采样速率和16位采样分辨率记录所有信号。使用Adobe Autions软件(加利福尼亚州圣何塞(SanJose,CA))对个人计算机上的数字化记录进行后处理，以同步时序。

表1描述了在现有技术VOX算法A和本公开的示例性VOX算法B中使用的参数和公式，其中MB为吊杆麦克风信号的量值，并且MC为经补偿的环绕麦克风信号的量值。

表1-VOX操作参数

在实施例1中，语音信号用作VOX算法A(例如，传统VOX)的输入，以示出在引入噪声之前VOX算法的预期性能的一个示例。结果在图9的曲线图500中示出，该曲线图示出了在约10秒的时间段内语音信号振幅的表示和VOX算法决策。将沿x轴的采样数据(例如，时间)归一化为0至10的范围。该VOX算法限于二进制值：0表示未检测到语音，并且1表示检测到语音。如在图9中可见，VOX算法首先在约1.5处开始检测语音信号并在约4.2处停止，其次在约7.4处开始检测语音并在10之后的某个时间停止。

在实施例2中，语音信号与直升机噪声信号组合，并且用作VOX算法A(例如，传统VOX)和VOX算法B(例如，新/实现的VOX)的输入。结果在图10的曲线图510中示出，该曲线图示出了在约10秒的时间段内语音加直升机噪声信号的表示以及VOX算法A和VOX算法B的决策。将沿x轴的采样数据(例如，时间)归一化为0至10的范围。这些VOX算法限于二进制值：0表示未检测到语音，并且1表示检测到语音。如在图10中可见，VOX算法A刚好在时间0之后开始检测语音加直升机噪声信号，并且在10之后的某个时间停止，这指示VOX算法A不能识别组合信号中的语音。另一方面，VOX算法B首先在约1.9处开始检测组合的语音加直升机噪声信号中的语音信号，并且在约5.9处停止，其次在约7.3处开始检测语音，并且在10之后的某个时间停止。性能的改善据信是由于使用了来自环境麦克风的附加信息。

在实施例3中，语音信号与粉红噪声信号组合并且用作VOX算法A(例如，传统VOX)和VOX算法B(例如，新/实现的VOX)的输入。结果在图11的曲线图520中示出，该曲线图示出了在约10秒的时间段内语音加粉红噪声信号的表示以及VOX算法A和VOX算法B的决策。将沿x轴的采样数据(例如，时间)归一化为0至10的范围。这些VOX算法限于二进制值：0表示未检测到语音，并且1表示检测到语音。如在图11中可见，VOX算法A刚好在时间0之后开始检测语音，并且在10之后的某个时间停止，这指示VOX算法A不能识别组合的信号中的语音。另一方面，VOX算法B首先在约1.6处开始检测组合的语音加粉红噪声信号中的语音，并且在约4.2处停止，其次在约6.9处开始检测语音，并且在10之后的某个时间停止。性能的改善据信是由于使用了来自环境麦克风的附加信息。

示例性实施方案

在各种示例性实施方案中，装置可包括语音麦克风，所述语音麦克风被配置为基于在所述语音麦克风处检测到的声音来生成语音信号。所述装置还可包括至少一个环境麦克风，所述至少一个环境麦克风与所述语音麦克风间隔开并且被配置为基于在所述至少一个环境麦克风处检测到的声音来生成至少一个环境信号。所述装置还可包括可操作地耦接到麦克风的控制器。所述控制器可包括通信编码器，所述通信编码器被配置为对音频信号进行编码以用于传输到另一装置。所述控制器可被配置为基于所述语音信号的频域表示来确定语音功率参数。所述控制器还可被配置为基于所述至少一个环境信号的频域表示来确定环境功率参数。所述控制器可被进一步配置为响应于至少部分地基于功率参数和阈值的确定，使用所述通信编码器基于所述语音信号对音频信号进行编码。

在各种示例性实施方案中，控制器可包括输入接口，所述输入接口被配置为接收语音信号和至少一个环境信号。所述控制器还可包括输出接口，所述输出接口被配置为基于所述语音信号来提供音频信号。所述控制器还可包括存储器，所述存储器被配置为存储所述语音信号和所述环境信号的表示。此外，所述控制器可包括处理器，所述处理器可操作地耦接到所述输入接口、所述输出接口和所述存储器。所述处理器可被配置为基于所述语音信号的频域表示来确定语音功率参数。所述处理器还可被配置为基于所述至少一个环境信号的频域表示来确定环境功率参数。所述处理器可被进一步配置为响应于至少部分地基于功率参数和阈值的确定，基于所述语音信号对音频信号进行编码。

在各种示例性实施方案中，方法可包括基于来自语音麦克风的语音信号的频域表示来确定语音功率参数。所述方法还可包括基于来自与所述语音麦克风间隔开的至少一个环境麦克风的至少一个环境信号的频域表示来确定环境功率参数。所述方法还可包括响应于至少部分地基于功率参数和阈值的确定，使用微处理器，基于所述语音信号，对音频信号进行编码。

在一个或多个示例性实施方案中，可基于所述功率参数与阈值的所述比较来禁用编码，所述阈值可与用于启用编码的阈值相同或不同。

在一个或多个示例性实施方案中，可分别基于是启用还是禁用编码来启用或禁用传输。

在一个或多个示例性实施方案中，可确定所述功率参数之间的比率。可使用所述功率参数之间的比率来比较所述功率参数。

在一个或多个示例性实施方案中，可将所述功率参数之间的所述比率与作为所述阈值的阈值比率进行比较。

在一个或多个示例性实施方案中，可使用离散傅里叶变换、滤波器组或小波变换中的至少一者来确定对应的频域表示。

在一个或多个示例性实施方案中，可基于在所选择的频带中的量值来确定对应的功率参数。

在一个或多个示例性实施方案中，可在确定所述对应的功率参数之前将所述语音信号和所述至少一个环境信号从模拟的转换为数字的。

在一个或多个示例性实施方案中，可基于所述至少一个环境麦克风和所述语音麦克风的频率响应的差值来补偿所述至少一个环境信号。

在一个或多个示例性实施方案中，可使用降噪算法基于所述语音信号的所述频域表示和所述至少一个环境信号的所述频域表示来提供增强的音频信号作为所述音频信号。

在一个或多个示例性实施方案中，可使用降噪算法基于所述语音信号和所述至少一个环境信号来确定所述音频信号的量值。可基于所确定的量值来提供所述音频信号。

在一个或多个示例性实施方案中，所述至少一个环境麦克风可包括与所述语音麦克风间隔开的第一环境麦克风和第二环境麦克风。

在一个或多个示例性实施方案中，可包括第一听筒和第二听筒。每个听筒可具有扬声器以及所述第一环境麦克风和所述第二环境麦克风中的相应一者。

在一个或多个示例性实施方案中，可包括在所述第一听筒与所述第二听筒之间延伸的头带。

在一个或多个示例性实施方案中，可包括吊杆，所述吊杆从所述第一听筒和所述第二听筒中的一者延伸到所述语音麦克风。

在一个或多个示例性实施方案中，可包括收发器，所述收发器被配置为传输所述经编码的音频信号。

因此，公开了用于头戴式受话器的使用麦克风信号频域表示的声控声音编码的各个方面、示例和实施方案。尽管本文参考了形成本申请的一部分的一组附图，但本领域的至少普通技术人员将会理解，本文所述实施方案的各种改编和修改在本申请的公开的范围内或不脱离本申请的公开的范围。例如，本文所述的实施方案的方面可彼此以多种方式进行组合。因此，应当理解，在所附权利要求的范围内，要求保护的本发明可以不同于本文明确描述的方式来实施。

具体地讲，应当理解，框图的每个框以及这些框的组合可通过执行所示功能的方式来实现。

本文中所引用的所有参考文献及出版物全文以引用方式明确地并入本申请的公开中，但它们可能与本公开直接冲突的内容除外。

除非另外指明，否则本文所使用的所有科学和技术术语具有在本领域中普遍使用的含义。本文提供的定义将有利于理解本文频繁使用的某些术语，并且不意味着限制本申请的公开的范围。

除非另外指出，否则说明书和权利要求中所使用的表达特征尺寸、数量和物理性能的所有数字均可被理解为由术语“精确地”或“约”来修饰。因此，除非有相反的说明，否则在上述说明书和所附权利要求书中列出的数值参数均为近似值，这些近似值可根据本领域的技术人员利用本文所公开的教导内容或例如在实验误差的典型范围内寻求获得的期望特性而变化。

用端值来表述的数值范围包括该范围内所包含的所有数字(如1至5包括1、1.5、2、2.75、3、3.80、4和5)及该范围内的任何范围。本文中，术语“最多至”或“不大于”数量(例如，最多至50)包括该数量(例如，50)，并且术语“不小于”数量(例如，不小于5)包括该数量(例如，5)。

术语“耦接”或“连接”是指两个元件彼此直接地(彼此直接接触)或间接地(具有位于两个元件之间并附接这两个元件的一个或多个元件)附接。任一术语可通过可互换使用的“操作性地”和“可操作地”来修饰，以描述耦接或连接被配置为允许部件交互以执行至少一些功能(例如，可操作地耦接到收发器的控制器可允许控制器使用收发器来传输信号)。

术语“和/或”意指所列元件中的一个或全部元件或者所列元件中的至少两个元件的组合(例如，麦克风和/或扬声器意指麦克风、扬声器或麦克风和扬声器两者)。

Claims

1.一种装置，所述装置包括：

语音麦克风，所述语音麦克风被配置为基于在所述语音麦克风处检测到的声音来生成语音信号；

至少一个环境麦克风，所述至少一个环境麦克风与所述语音麦克风间隔开并且被配置为基于在所述至少一个环境麦克风处检测到的声音来生成至少一个环境信号；和

控制器，所述控制器可操作地耦接到麦克风，所述控制器包括通信编码器，所述通信编码器被配置为对音频信号进行编码以用于传输到另一装置，所述控制器被配置为：

基于所述语音信号的频域表示来确定语音功率参数；

基于所述至少一个环境信号的频域表示来确定环境功率参数；以及

响应于至少部分地基于功率参数和阈值的确定，使用所述通信编码器基于所述语音信号对音频信号进行编码。

2.根据权利要求1所述的装置，其中所述控制器被进一步配置为确定所述功率参数之间的比率，并且将所述比率与作为所述阈值的阈值比率进行比较。

3.根据权利要求1或2所述的装置，其中所述控制器被配置为使用离散傅里叶变换、滤波器组或小波变换中的至少一者来确定对应的频域表示。

4.根据任一前述权利要求所述的装置，其中所述控制器被配置为基于在所选择的频带中的量值来确定对应的功率参数。

5.根据任一前述权利要求所述的装置，其中所述控制器被配置为在确定所述对应的功率参数之前将所述语音信号和所述至少一个环境信号从模拟的转换为数字的。

6.根据任一前述权利要求所述的装置，其中所述控制器被配置为基于所述至少一个环境麦克风和所述语音麦克风的频率响应的差值来补偿所述至少一个环境信号。

7.根据任一前述权利要求所述的装置，其中所述控制器被配置为使用降噪算法基于所述语音信号的所述频域表示以及所述至少一个环境信号的所述频域表示来提供增强的音频信号作为所述音频信号。

8.根据任一前述权利要求所述的装置，其中所述至少一个环境麦克风包括与所述语音麦克风间隔开的第一环境麦克风和第二环境麦克风。

9.根据权利要求8所述的装置，还包括第一听筒和第二听筒，每个听筒包括扬声器以及所述第一环境麦克风和所述第二环境麦克风中的相应一者。

10.根据权利要求9所述的装置，还包括：

头带，所述头带在所述第一听筒与所述第二听筒之间延伸；和

吊杆，所述吊杆从所述第一听筒和所述第二听筒中的一者延伸到所述语音麦克风。

11.一种控制器，所述控制器包括：

输入接口，所述输入接口被配置为接收语音信号和至少一个环境信号；

输出接口，所述输出接口被配置为基于所述语音信号来提供音频信号；

存储器，所述存储器被配置为存储所述语音信号和所述环境信号的表示；和

处理器，所述处理器可操作地耦接到所述输入接口、所述输出接口和所述存储器，所述处理器被配置为：

基于所述语音信号的频域表示来确定语音功率参数；

响应于至少部分地基于功率参数和阈值的确定，基于所述语音信号对音频信号进行编码。

12.根据权利要求11所述的控制器，其中所述处理器被进一步配置为确定所述功率参数之间的比率，并且将所述比率与作为所述阈值的阈值比率进行比较。

13.根据权利要求11或12所述的控制器，其中所述处理器被配置为使用离散傅里叶变换、滤波器组或小波变换中的至少一者来确定对应的频域表示。

14.根据权利要求11至13中任一项所述的控制器，还包括：

通信编码器，所述通信编码器被配置为基于所述语音信号对所述音频信号进行编码；和

收发器，所述收发器被配置为传输所述经编码的音频信号。

15.根据权利要求11至14中任一项所述的控制器，其中所述处理器被配置为在确定所述对应的功率参数之前将所述语音信号和所述至少一个环境信号从模拟的转换为数字的。

16.根据权利要求11至15中任一项所述的控制器，其中所述处理器被配置为基于至少一个环境麦克风和语音麦克风的频率响应的差值来补偿所述至少一个环境信号。

17.根据权利要求11至16中任一项所述的控制器，其中所述处理器被配置为使用降噪算法基于所述语音信号的所述频域表示以及所述至少一个环境信号的所述频域表示来提供增强的音频信号作为所述音频信号。

18.一种方法，所述方法包括：

基于来自语音麦克风的语音信号的频域表示来确定语音功率参数；

基于来自与所述语音麦克风间隔开的至少一个环境麦克风的至少一个环境信号的频域表示来确定环境功率参数；以及

响应于至少部分地基于功率参数和阈值的确定，使用微处理器，基于所述语音信号，对音频信号进行编码。

19.根据权利要求18所述的方法，还包括：

基于在所选择的频带中的量值来确定对应的功率参数；以及

使用所述功率参数之间的比率来比较所述功率参数；以及

将所述比率与作为所述阈值的阈值比率进行比较。

20.根据权利要求18或19所述的方法，还包括：

使用降噪算法基于所述语音信号和所述至少一个环境信号来确定所述音频信号的量值；以及

基于所确定的量值来提供所述音频信号。