CN104025188A

CN104025188A - 声学信号修改

Info

Publication number: CN104025188A
Application number: CN201180076098.3A
Authority: CN
Inventors: D·L·格劳曼
Original assignee: Intel Corp
Current assignee: Intel Corp
Priority date: 2011-12-29
Filing date: 2011-12-29
Publication date: 2014-09-03
Anticipated expiration: 2031-12-29
Also published as: EP2798633A1; EP2798633B1; KR101669866B1; KR20140097530A; CN104025188B; BR112014016264A2; EP2798633A4; JP2015506491A; BR112014016264A8; WO2013101073A1; US20140278396A1

Abstract

用于使用声学传递函数来修改由一个或多个麦克风提供的声学信号的系统和方法。声学传递函数可以部分地基于声学模型并且基于所确定的声学单元的位置来确定。

Description

声学信号修改

技术领域

本发明公开总体上涉及声学信号，并且具体地涉及对声学信号进行修改。

背景技术

语音识别技术可以根据由通过声音启动的麦克风收集的声学信号来生成文本。语音识别可以依赖于语音识别引擎，所述语音识别引擎通过应用已知的算法或模型(例如，隐式马尔科夫模型(HMM))来解析来自一个或多个麦克风的声学信号并且将信号解析为词。这种技术被越来越多地运用于各种用途，这些用途包括电子听写、话音命令识别、以及基于电话的交互式话音应答客户服务引擎。

交通工具环境尤其受益于语音识别技术，因为对于交通工具的驾驶者而言，令人满意的是以免提的方式来提供指令并且控制交通工具以及其他外围设备，例如，借助于使用由语音识别引擎识别的话音命令。因此，在汽车应用中部署语音识别技术可以提供增强的道路安全和改善的驾驶体验。

语音识别技术的性能随着更快的处理器和改善的语音识别方法的部署而得到提高。尤其是，在由语音识别引擎来识别词的准确性方面已经有所改进。换句话说，在针对语音识别的基于准确性的度量(例如，词错误率(WER))方面已经有所改进。

尽管在语音识别技术的性能方面有了提高和进步，但是在某些环境(例如，交通工具环境)中，语音识别的准确性可能仍然是相对容易出错的。例如，语音识别引擎在相对嘈杂的环境或封闭的空间(例如，交通工具驾驶舱)中可能是不理想的或者降低了级别的，在这种环境中，声波可能经由多个路径并且伴随着其他噪音(例如，引擎噪音、路面噪音等)的存在而到达麦克风。

附图说明

现在参考附图，所述附图不一定是按照比例绘制的，并且其中：

图1是示出了根据本发明公开的实施例的与交通工具相关联的用于修改声学信号的示例性方法的简化图。

图2是示出了根据本发明公开的实施例的将修改的声学信号提供给语音识别引擎的示例性方法的流程图。

图3是示出了根据本发明公开的实施例的图1的交通工具的示例性驾驶舱的简化示意性俯视图，其中，可以生成示例性声学模型。

图4是示出了根据本发明公开的实施例的图3的示例性驾驶舱的简化示意性侧视图，其中，可以生成示例性声学模型。

图5是示出了根据本发明公开的实施例的图3的示例性驾驶舱的简化示意性俯视图，其中，示例性音频单元可以生成声音并且产生来自一个或多个麦克风的声学信号。

图6是示出了根据本发明公开的实施例的用于修改声学信号的示例性系统的简化框图。

图7是示出了根据本发明公开的实施例的被追踪以修改声学信号的示例性音频单元的简化示意图。

图8是示出了根据本发明公开的实施例的图3的驾驶舱的简化示意图，其中，示例性的声音路径被从音频单元发送到一个或多个麦克风。

图9是示出了根据本发明公开的实施例的音频传递函数的示例性估计的简化框图。

图10是示出了根据本发明公开的实施例的修改来自一个或多个麦克风中的每一个的音频信号并且将示例性的修改的音频信号提供给语音识别引擎的示意图。

具体实施方式

在下文中参考附图来更充分地描述本发明公开的实施例，附图中示出了本发明公开的实施例。然而，本发明可以以许多不同的形式来具体实现，并且不应该被解释为被限制于本文中所阐述的实施例；相反，提供这些实施例以便使本发明公开是全面的并且完整的，并且将本发明的范围充分地传达给本领域的技术人员。贯穿全文，相同的附图标记指代相同的元件。

本发明公开的实施例可以提供用于修改与在一个或多个麦克风处生成的声音相对应的声学信号的系统、方法、装置。在一个方面中，可以将麦克风提供于封闭的体积或环境中，所述封闭的体积或环境可能易于产生声学回声和/或可能是吵杂的声学环境，例如，交通工具的驾驶舱。可以对已修改的来自一个或多个麦克风的音频信号进行组合并且将其提供给语音识别引擎，以使得能够有改善的语音识别用于各种应用，包括在交通工具中对话音命令的识别或文本输入。与由麦克风生成的未修改的音频信号相比，已修改的音频信号可以较少地被回声或噪音所污染。在一个方面中，提供给语音识别引擎的已修改的音频信号可以导致相对较低的词错误率(WER)。本发明公开的实施例可以进一步要求部分地基于声音产生单元的位置来确定针对一个或多个麦克风中的每一个麦克风的声学传递函数。另外，体积或环境(例如，交通工具的驾驶舱)的声学模型可以被用于确定一个或多个麦克风中的每一个麦克风的声学传递函数。在一个方面中，体积或环境的声学模型可以由第三方(例如，交通工具的制造商或合适的服务提供商)来确定。

现在将参考附图来描述本发明公开的示例性实施例。

现在参考图1，讨论了根据本发明公开的实施例的用于解析交通工具102中的声学信号的示例性方法100。出于本讨论的目的，交通工具102可以包括小汽车、卡车、轻型卡车、重型卡车、皮卡、小型货车、跨界(crossover)车、有篷货车、商务车、私家车、牵引拖车、飞机、喷气式飞机、直升飞机、太空交通工具、水运工具、或任何其他具有相对封闭的驾驶舱的合适的交通工具，但不限于此。然而，应当意识到的是，本发明公开的实施例还可以被应用于提供了相对封闭区域的其他环境中。

在框104处，确定交通工具102的三维(3-D)声学模型。在一个方面中，可以在由最终用户购买交通工具102之前，确定交通工具的声学模型。例如，在交通工具102被提供给交通工具代理商并且随后由最终用户购买之前，交通工具的制造商或服务提供商(例如，代表制造商的服务提供商)可以确定交通工具102的声学模型。因此，在一个方面中，交通工具102的终端客户并不需要确定交通工具102的三维声学模型。交通工具102的三维声学模型可以存储在与交通工具102相关联的电子存储器中。特别地，电子存储器可以被提供于用于修改与交通工具102相关联的音频信号的系统中。

在框106处，三维声学模型可以被用于解析或修改声学信号。可以基于在交通工具102内产生的压缩波或声音来生成声学信号。例如，可以通过由在交通工具内(例如由交通工具102的驾驶员或由交通工具102的驾驶舱中的另一用户)生成的声音启动的麦克风来生成声学信号。因此，本质上，生成并提供了交通工具102的声学模型，其可以被用于某些实施例中，以更正确且精准地解析在交通工具102中生成的声音。在某些方面中，可以由语音识别引擎来解析声学信号，从而提供语音到文本功能。

现在将参考图2来说明使用三维声学模型来解析音频信号的进一步的细节。根据本发明公开的实施例的将修改的声学信号提供给语音识别引擎的方法120可以包括：在框122处，生成至少一个声学模型，例如交通工具的三维声学模型，正如参考图1所描述的。在某些实施例中，可以由交通工具102的制造商来生成声学模型。在其他实施例中，可以由销售交通工具102的代理商来生成声学模型。在另外的实施例中，可以由最终用户(例如，交通工具的所有者或驾驶员)来生成声学模型。在一个方面中，可以针对由交通工具制造商制造的每个交通工具102来生成一个声学模型。在其他方面中，可以针对每种类型的交通工具来提供一个声学模型。例如，在框122处，可以为给特定的制造商、型号、年份、和/或装饰的所有交通工具提供同一个声学模型。

在某些实施例中，声学模型可以包括与体积内的任何数量的相应空间位置相对应的声学传递函数，其中，在所述体积内产生声音并且修改所得到的声学信号。在一个方面中，可以在三维空间中定义空间位置，产生了三维声学模型。可选择地，可以在二维空间中定义空间位置，产生了二维声学模型。作为进一步的选择，可以在单个维度中定义空间位置，产生了一维声学模型。针对本发明公开中的其余内容，我们将考虑三维声学模型；然而，应当注意的是，所描述的系统、方法和装置适用于非三维声学模型。

接下来，在框124处，可以监视感兴趣区域的位置。感兴趣的区域可以包括产生声音的声学单元。在一个方面中，感兴趣的区域可以是人的唇部环状区(lip ring)。唇部环状区是人的嘴唇和嘴周围的面部区域并且包括嘴唇。唇部环状区的位置可以例如由图像传感器(例如，基于电荷耦合器件(CCD)的数字照相机)来进行监视。在另一方面中，可以使用任何各种已知的距离传感器(例如，测距传感器(range sensor))来确定唇部环状区的位置。在某些实施例中，可以使用图像传感器和测距传感器二者来监视感兴趣区域的位置。

在框126处，可以至少部分地基于如在框124处所监视的感兴趣区域的位置，结合如在框122处所生成的交通工具102的至少一个声学模型，来确定针对至少一个麦克风的声学传递函数。例如，声学传递函数可以通过对交通工具102的声学模型中提供的数据进行体积外推(volumetricextrapolation)来确定。作为进一步的示例，声学传递函数可以由以下的任意组合来确定：空中(aerial)外推、线性外推、体积插值、空中插值、线性插值、和/或外推或插值的任何其他已知的方法。用来确定或估计与一个或多个麦克风中的每一个相对应的声学传递函数的数学运算(例如，外推或插值)可以包括线性的、二次的、n次多项式、对数的、指数的、和/或任何其他已知的数学运算。在一个方面中，可以至少部分地基于感兴趣区域的位置(例如，唇部环状区)来生成针对至少一个麦克风中的每一个麦克风的声学传递函数。例如，如果在交通工具102中存在四个麦克风，则可以生成四个不同的传递函数，对应于交通工具102中的四个麦克风中的每一个。可以基于在框124处确定的唇部环状区的位置和在框122处提供的交通工具的声学模型来生成这四个传递函数的每一个。

在框128处，在至少一个麦克风处接收声音，并且由至少一个麦克风来生成与所接收的声波相对应的声学信号。因此，该至少一个麦克风的输出是与该至少一个麦克风中的每一个相对应的未修改的声学信号。在一个方面中，所生成的声学信号的数量可以等于交通工具102中麦克风的数量。

在框130处，基于与在框128处确定的麦克风中的每一个麦克风相对应的相应的声学传递函数来修改声学信号中的每一个。从每一个麦克风输出的未修改的声学信号可以乘以所确定的相对应的声学传递函数的反函数，来生成已修改的声学信号。

在框132处，可以将已修改的声学信号中的每一个提供给语音识别引擎。语音识别引擎进而可以使用已修改的声学信号中的每一个来根据语音生成文本。从语音到文本的功能可以被用于各种用途，包括话音命令、文本消息听写、电子邮件听写等，但不限于此。在某些实施例中，在提供给语音识别引擎之前，可以随意地对已修改的声学信号进行求和。

应当注意的是，可以根据本发明公开的某些实施例来以各种方式修改方法120。例如，在本发明公开的其他实施例中，方法120中的一个或多个操作可以被删除，或被打乱顺序地执行。此外，根据本发明公开的其他实施例，可以向方法120添加其他操作。

生成交通工具102的声学模型的示例性过程可以在交通工具102的驾驶舱150中实现，正如参考图3和图4所描述的。驾驶舱150可以包括驾驶员座位152、仪表板156、以及任何数量的麦克风，例如，麦克风160A、160B、160C、以及160N。可以将扬声器170或其他合适的声音生成设备提供于适当的位置中，在交通工具102工作期间可以在该适当的位置处生成声音。在声学模型生成期间，扬声器170可以发出被图示为波或声音172的声音或脉冲波。驾驶舱150可以进一步包括发射射线175的射线发射器174和/或测距传感器176。驾驶舱150还可以包括图像传感器178。虽然图示出了四个麦克风160A-N，但是可以存在任何数量的麦克风。麦克风可以是任何已知的类型，包括电容式麦克风、电动式麦克风、电容振膜式麦克风、压电式麦克风、光学拾波器式麦克风、或其组合，但不限于此。此外，麦克风160A-N可以具有任何定向性和敏感度。例如，麦克风160A-N可以是全方向的、单方向的、心形曲线的或双方向的。还应当注意的是，麦克风160A-N可以是相同的种类或者是混合的种类。例如，麦克风160A-N中的一些可以是电容式麦克风，而其他的可以是电动式麦克风。

扬声器170可以是可以产生声音172的任何已知的种类。在一个方面中，可以提供给扬声器170电信号来生成声音172。声音172可以是多种音调、量级和韵律。本文中所使用的韵律是一连串的声音和无声。在一个方面中，声音172可以是白噪音，其跨越相对广范围的频率，同时在该频率范围上具有相对一致的量级。可选择地，声音172可以是粉红噪音，其跨越相对广范围的频率，同时在该频率范围上具有量级上的变化。在其他选择中，声音172可以是脉冲函数、声音毛刺、单音调的，或可以具有与有限数量的声音压缩波的频率相对应的有限数量的音调。在一个方面中，脉冲函数声音可以充分地模拟驾驶舱150内的声音的完整频谱。

测距传感器176可以是任何已知的种类，例如，红外线检测器。射线发射器174可以发射红外射线175，其能够被物体反射，并且可以通过测距传感器176来检测所反射的射线，从而确定测距传感器176和物体之间的间距或距离。例如，射线发射器174可以发射红外射线，其可以被正在操控交通工具102并且坐在驾驶员座位152中的驾驶员的脸所反射。然后，可以由测距传感器176来检测所反射的射线，从而确定测距传感器176与驾驶员的脸、或特别是驾驶员脸上的感兴趣区域(例如，驾驶员的唇部环状区)之间的距离。虽然将红外线检测器和射线发射器描述为用于确定与交通工具102的驾驶员的间距，但是可以利用各种各样的其他合适的设备(例如，超声波传感器)来确定与驾驶员的间距。

图像传感器178可以是将光学图像转变为电信号的任何已知的设备。图像传感器178可以是任何已知的种类，包括：电荷耦合器件(CCD)、互补金属氧化物半导体(CMOS)传感器等。图像传感器178可以具有任何的像素数和高宽比。

在生成交通工具102的声学模型的过程期间，扬声器170可以基于提供给扬声器170的电信号来发射声音172。可以由声音172来启动麦克风160A-N中的每一个麦克风，并且可以对与话筒160A-N中的每一个相对应的声学信号进行计算。通过对麦克风160A-N中的每一个麦克风的声学信号与提供给扬声器170的电信号进行比较，可以确定扬声器170与麦克风160A-N中的每一个麦克风之间的物理声学传递函数。因此，可以根据空间中的点(在该点处，声音172被发射到麦克风160A-N中的每一个麦克风的位置)来确定传递函数。在某些实施例中，可以通过将由麦克风160A-N中的每一个麦克风生成的声学信号除以提供给扬声器170的电信号，来确定麦克风160A-N中的每一个麦克风与扬声器170的方位之间的物理声学传递函数。在其他实施例中，可以使用对提供给扬声器170的电信号以及由麦克风160A-N中的每一个麦克风生成的声学信号二者进行的线性数学运算来确定麦克风160A-N中的每一个麦克风与扬声器170的方位之间的物理声学传递函数。在其他实施例中，可以使用对提供给扬声器170的电信号以及由麦克风160A-N中的每一个麦克风生成的声学信号二者进行的非线性数学运算来确定麦克风160A-N中的每一个麦克风与扬声器170的方位之间的物理声学传递函数。

麦克风160A-N中的每一个麦克风与扬声器170的方位之间的所确定的物理声学传递函数可以是三维空间中扬声器170的位置的函数，以及声音172的频率的函数。因此，物理声学传递函数可以在频率域内被表示为频率的函数，例如，由符号H(ω)表示，其中ω是声音172的频率。从物理的观点来看，可以看出传递函数可以是频率的函数，这是因为频率与声波的波长反向相关，并且因此在从一点到另一个与频率相关的点的传送期间，频率可以具有不同的特性。在一个方面中，特定的声音相对于特定的材料或物体的吸收、反射、漫射或其他性质可以是取决于波长的。

可以通过确定从空间中的至少一点到麦克风160A-N中的至少一个麦克风的至少一个物理声学传递函数来生成声学模型。然而，该声学模型可以包括与驾驶舱150内的多个位置相对应并且与麦克风160A-N中的每一个麦克风相对应的任何数量的物理声学传递函数。此外，声学模型可以包括与特定的位置相对应的传递函数的一个或多个非连续的段。例如，要由传递函数表示的全频率范围可能无法通过单个线性段来进行表示，并且可能不得不被划分到多个段中，由此创建了在特定的位置与特定的麦克风160A-N之间的非线性声学传递函数。又进一步地，声学模型可以包括与特定的位置相对应的传递函数的一个或多个非连续的段。

在某些实施例中，可以通过将扬声器170移动到驾驶舱150中的各种位置来从各种位置发射声音172并且确定在所述各种位置中的每一个位置到麦克风160A-N中的每一个麦克风之间的物理声学传递函数，来生成声学模型。换句话说，声学模型可以具有根据驾驶舱150中的一个或多个位置与麦克风160A-N中的每一个麦克风相对应的物理传递函数。

在一个实施例中，扬声器170可以被提供在交通工具102的驾驶舱内的三脚架(未示出)上来生成声学模型。可以运行测试应用来接收扬声器170的位置并且将该位置与在麦克风160A-N中的每一个麦克风处检测到的声学声音相关联。扬声器170可以发射粉红噪音和白噪音。可选择地，扬声器170可以发射脉冲噪音。可以记录在麦克风160A-N的位置处的相关联的脉冲响应，然后对其进行数学运算来生成在扬声器170的特定位置处的特定的物理传递函数。在一个方面中，所述数学运算可以是取反操作。如果将扬声器170从先前的位置移动预定的距离(例如，20厘米(cm))，则重复对物理传递函数进行确定的过程。换句话说，声学模型的生成包含了与扬声器170的多于一个位置相关联的物理传递函数。可以在制造期间执行这个过程一次，并且不需要针对每个特定的驾驶员、或者交通工具102上市之后的配置来执行这个过程。

作为非限制性的示例，考虑在驾驶舱150内有四个麦克风160A-N，并且在生成声学模型的过程期间，扬声器170曾经位于驾驶舱150内三个不同的位置。在这种情况中，可以根据驾驶舱150内三个不同的位置中的每一个位置，生成与麦克风160A-N中的每一个麦克风相对应的四个物理声学传递函数，，总共生成了12个不同的物理声学传递函数。

在某些实施例中，在生成声学模型的过程期间，测距传感器176和图像传感器178可以被用于确定扬声器170的位置，从而将确定的传递函数映射到驾驶舱150内的三维空间中相应的位置。在其他实施例中，可以不使用测距传感器176和图像传感器178，并且可以将扬声器170放置在预定的位置中来生成声学模型。

现在参考图5，描述了用于示例性音频单元(例如，人)的示例性的机制，该示例性音频单元生成了声学信号，所述声学信号被发送到交通工具102中的驾驶舱内的一个或多个麦克风。特别地，驾驶员179可以坐在驾驶员的座位152中，面对着仪表板156以及射线发射器174、测距传感器176和图像传感器178。射线发射器174可以向驾驶员179发射电磁射线，例如红外射线175。射线175可以从驾驶员179的脸上反射，并且可以由测距传感器176来检测该反射。测距传感器176可以基于对从驾驶员179反射的射线进行检测来产生测距传感器信号。另外，图像传感器178可以与对驾驶员179的脸进行成像相对应地来生成图像传感器信号。此外，如果驾驶员179讲话，则可以通过驾驶舱150内提供的麦克风160A-N中的每一个麦克风来捕获所生成的声音。麦克风160A-N中的每一个麦克风可以基于检测到的来自驾驶员179的声音来生成相应的声学信号。

现在参考图6，描述了示例性系统180，其用于从图像传感器178接收图像传感器信号，从测距传感器176接收测距传感器信号，并且从麦克风160A-N中的每一个麦克风接收声学信号，以便生成已修改的声学信号并且将所述信号提供给语音识别引擎186。系统180可以包括一个或多个控制器181。一个或多个控制器181中的每一个都可以包括以通信的方式耦合到任意数量的合适的电子存储器设备184(通常被称为存储器184)的一个或多个处理器182。一个或多个处理器182可以直接地接收传感器信号中的每一个，所述传感器信号包括：图像传感器信号、测距传感器信号、以及未修改的声学信号。电子存储器184其上可以存储有声学模型，带有组成的被映射到驾驶舱150内的特定位置的物理声学传递函数。

一个或多个处理器182可以接受各种传感器信号，并且可以基于图像传感器信号和测距传感器信号来确定感兴趣区域的位置。正如较早前所述的，感兴趣的区域可以包括驾驶员179的唇部环状区。一个或多个处理器182可以进一步使用感兴趣区域的位置连同存储在存储器184中的声学模型来估计针对麦克风160A-N中的每一个麦克风的相应的声学传递函数。在一个方面中，一个或多个处理器182可以实现对于传感器信号以及作为声学模型的一部分的物理传递函数的各种数学运算，来估计针对麦克风160A-N中的每一个麦克风的相应的声学传递函数。正如较早前结合图2所述的，所述数学运算可以要求进行外推或插值中的一个或多个。一旦一个或多个处理器182确定或估计了针对麦克风160A-N中的每一个麦克风的声学传递函数，则可以利用声学传递函数来处理由一个或多个处理器182从麦克风160A-N接收的声学信号。在某些实施例中，从麦克风160A-N中的每一个麦克风接收的一个或多个声学信号可以乘以与麦克风160A-N中的每一个麦克风相对应的相应的声学传递函数的反函数。在其他实施例中，可以先于将一个或多个声学信号乘以与相应的麦克风160A-N相对应的相应的声学传递函数的反函数，在所述一个或多个声学信号上实现基于存储器的滞后。由一个或多个处理器182基于由麦克风160A-N中的每一个麦克风提供的声学信号而生成的已修改的声学信号可以被提供给语音识别引擎186。语音识别引擎186可以使用已修改的声学信号来提供语音到文本功能，例如话音命令。

应当注意的是，可以动态地确定与麦克风160A-N中的每一个麦克风相对应的相应的声学传递函数。换句话说，一个特定麦克风的声学传递函数可以根据时间而不同。更具体地，特定麦克风的声学传递函数可以随着驾驶员179移动他或她的头而不同；另外感兴趣区域(例如，唇部环状区)的位置根据时间而变化。换句话说，如由一个或多个处理器182所确定的与麦克风160A-N中的每一个麦克风相对应的声学传递函数中的每一个都可以根据时间或驾驶员179头部的移动或二者而不同。在一个方面中，可以由一个或多个处理器182来确定与麦克风160A-N中的每一个麦克风相对应的声学传递函数，具有延迟，该延迟小于声音从感兴趣区域或声学单元传送到麦克风160A-N中的每一个麦克风所花费的时间。换句话说，在与麦克风160A-N中的每一个麦克风相对应的所确定的相应的声学传递函数与到达麦克风160A-N的声音之间存在相差。因此，简单地使用针对麦克风160A-N中的每一个麦克风的最近确定的声学传递函数来修改由麦克风160A-N生成的声学信号可能并不能提供期望的结果。因此，可以在由麦克风160A-N中的每一个麦克风生成的声学信号与由一个或多个处理器182生成的接近实时的声学传递函数的流之间实现时间滞后，从而补偿两者之间相对的相差。用于实现两个信号之间的相对的时间滞后的各种机制在本领域中是公知的，因此出于简明的目的，将不在此处对其进行回顾。

处理器182可以包括中央处理单元(CPU)、数字信号处理器(DSP)、精简指令集计算机(RISC)、复杂指令集计算机(CISC)、微处理器、微控制器、现场可编程门阵列(FPGA)、或其任何组合，但不限于此。系统180还可以包括芯片组(未示出)，用于控制处理器182与系统180的其他部件中的一个或多个之间的通信。在一个实施例中，系统180可以基于架构系统，并且处理器182和芯片组可以是来自于处理器和芯片组系列的，例如，处理器系列。处理器182还可以包括一个或多个处理器，所述一个或多个处理器作为用于进行特定的数据处理功能或任务的一个或多个专用集成电路(ASIC)或专用标准产品(ASSP)的一部分。

存储器184可以包括一个或多个易失性和/或非易失性存储器设备，其中包括随机存取存储器(RAM)、动态RAM(DRAM)、静态RAM(SRAM)、同步动态RAM(SDRAM)、双倍速率(DDR)SDRAM(DDR-SDRAM)、RAM-BUS DRAM(RDRAM)、闪存设备、电可擦可编程只读存储器(EEPROM)、非易失性RAM(NVRAM)、通用串行总线(USB)可移除存储器、或其组合，但不限于此。

现在参考图7，描述了由一个或多个处理器182基于与显示在电子显示器192上的图像190相对应的图像传感器178信号对感兴趣的区域进行的示例性分析。可以提供人196(例如，交通工具的用户或驾驶员)的图像。一个或多个处理器182可以分析整个图像190并且识别人196的图像。一个或多个处理器182可以进一步处理人196的图像，以识别感兴趣的区域198，该感兴趣的区域198进一步包含产生声音的声学单元，例如该人的唇部环状区200。在一个方面中，基于图像190中人的唇部环状区200的大小和感兴趣的区域198，一个或多个处理器182能够断定唇部环状区200的位置。在另一方面中，一个或多个处理器182可以使用图像190结合由测距传感器176提供的信息来确定唇部环状区200的位置。换句话说，一个或多个处理器182可以分析由图像传感器178提供的图像190，并且基于感兴趣的区域198的各个方面，一个或多个处理器182可以能够确定声音源(例如，唇部环状区200)的位置，以便后续用于确定或选择与麦克风160A-N中的每一个麦克风相对应的声学传递函数。

现在参考图8，描述了简化示意图，其示出了声音从声学单元(例如，唇部环状区200)到一个或多个麦克风160A-N的示例性发送。出于示出各种声波的相应的路径210、212、214、216、218和220的目的，示出了驾驶舱150内的侧窗224和风挡226。可以看到的是，一些声波可以沿着唇部环状区200和麦克风160A-N中的一个或多个麦克风之间的直接路径210、212、214、216行进。另外，一些声波可以经由间接路径218和220行进，被交通工具102的驾驶舱150中的一个或多个物体反射。例如，如图所示，在路径218上传送的声音被示出为在到达麦克风160A之前，被侧窗224所反射。类似地，在路径220上传送的声音被示出为在到达麦克风160B之前，被风挡226所反射。因此，在麦克风160A处，声音经由路径210和218到达，其中，在从这些路径210和218中的每一条路径到达的声音之间可能存在相对的相差，这是因为在路径210和218之间的路径长度差异。作为结果，麦克风160A可能是以这样一种方式被启动的：产生的未修改的声学信号可能包括任意数量的伪信号(artifact)，例如，回声。在一个方面中，由麦克风160A和160B生成的声音可能是混乱的、难以理解的、或无法了解的，这是因为声音从唇部环状区200通过多条路径210、218、212和220到达。由一个或多个麦克风160A-N生成的未修改的声学信号被提供给一个或多个处理器182。因此，可以看出，在由一个或多个处理器182进行修改之前，未修改的声学信号可能包含各种伪信号和噪音。

参考图9，示出了简化的框图230，其描述了对与麦克风160A-N中的每一个麦克风相对应的声学传递函数进行的确定。在框124处确定的唇部环状区或感兴趣区域的位置252、以及在框122处确定的并且存储在存储器184中的声学模型254被提供给一个或多个处理器182。正如参考图3和图4所讨论的，声学模型254可以包括在驾驶舱150中的具体位置(x₁,y₁,z₁)处被描述为H_Mi(Z)的一个或多个物理声学传递函数。在所使用的符号中，H是离散的频率Z的数学函数，并且Mi是第i个麦克风。例如，麦克风160B可以具有名称M2，其表示麦克风160B作为第二个麦克风，并且(x₁,y₁,z₁)使用笛卡尔坐标在空间中定义了特定的点，在该点处声学模型254提供了针对特定的麦克风Mi的物理传递函数H_Mi(Z)。在空间(例如，交通工具102的驾驶舱150)中的点可以被定义在非笛卡尔坐标系(例如，在本发明的某些实施例中，球形或圆柱形坐标)中。一个或多个处理器182可以基于感兴趣区域的位置252和声学模型254来执行体积插值270，从而确定在特定的位置(x₂，y₂，z₂)处与麦克风Mi相对应的声学传递函数H_Mi,ex(Z)。

现在，作为非限制性的示例，描述了由一个或多个处理器执行的体积插值270。例如，考虑以下的情况：声学模型254提供了在位置(x₁,y₁,z₁)处针对麦克风Mi的物理传递函数H_Mi(x₁，y₁，z₁)、以及在位置(x₂，y₂，z₂)处针对同一麦克风Mi的物理传递函数H_Mi(x₃，y₃，z₃)。进一步考虑以下的情况：感兴趣区域的位置表示在(x₂，y₂，z₂)处的感兴趣区域的位置，其中x₂在x₁和x₃的范围内，y₂在y₁和y₃的范围内，并且z₂在z₁和z₃的范围内。在这种情况中，可以根据下面的公式(1)，由一个或多个处理器182来执行线性体积插值270：

\begin{matrix} H_{Mi, ex} (Z) = \frac{(x_{1} - x_{2})}{(x_{1} - x_{3})} [{H (Z)}_{Mi (x_{1}, y_{1}, z_{1})} - {H (Z)}_{Mi (x_{3}, y_{3}, z_{3})}] + \frac{(y_{1} - y_{2})}{(y_{1} - y_{3})} [{H (Z)}_{Mi (x_{1}, y_{1}, z_{1})} - {H (Z)}_{Mi (x_{3}, y_{3}, z_{3})}] \\ + \frac{(z_{1} - z_{2})}{(z_{1} - z_{3})} [{H (Z)}_{Mi (x_{1}, y_{1}, z_{1})} - {H (Z)}_{Mi (x_{3}, y_{3}, z_{3})}] \end{matrix} - - - (1)

虽然示出了线性体积插值的示例，但是应当注意的是，可以使用任何插值方法，包括二次的、n次多项式、对数的、指数的、或任何其他公知的数学运算，但不限于此。此外，可以通过一个或多个处理器182来使用外推或其他数学技术，从而得出所确定的声学传递函数H_Mi,ex(Z)。

现在参考图10，示出了示意性图280，其示出了一个或多个处理器182将示例性的已修改的声学信号提供给语音识别引擎186。正如所示出的，声学单元(例如，唇部环状区200)将声音提供给麦克风160A-N中的每一个麦克风。从唇部环状区200的位置(x,y,z)通往麦克风160A-N的路径中的每一条路径可以具有与麦克风160A-N相关联的相应的物理声学传递函数282、284、286以及288。使用结合图9描述的过程，一个或多个处理器182可以生成与物理声学传递函数282、284、286以及288相对应的估计的传递函数。一个或多个处理器182可以进一步对所确定的传递函数290、292、294、296中的每一个取反，并且将所确定的传递函数274中的每一个的反函数乘以由相应的麦克风160A-N生成的未修改的声学信号，从而生成已修改的声学信号。已修改的声学信号可以使用求和运算300来进一步进行求和，并且可以将总和提供给语音识别引擎186。

应当注意的是，在某些实施例中，可以不对来自每一个麦克风的已修改的声学信号进行求和。相反，可以对已修改的声学信号的子集进行求和并且将其提供给语音识别引擎186。作为另一个选择，出于语音到文本功能的目的，一个或多个处理器182可以确定已修改的声学信号中的哪一个结合语音识别引擎186最有可能提供最佳性能。作为另一种可能性，可以将已修改的声学信号中的每一个提供给相应的语音识别引擎，并且可以对每一个语音识别引擎的语音到文本的输出进行后处理，从而提供改善的语音到文本功能。

可以使用例如硬件、软件和/或固件来实现本文描述的实施例，从而执行本文描述的方法或操作。本文描述的某些实施例可以被提供为存储机器可执行指令的有形的机器可读介质，所述指令如果由机器执行，则使得该机器执行本文描述的方法和/或操作。有形的机器可读介质可以包括任何类型的盘(包括软盘、光盘、光盘只读存储器(CD-ROM)、可重写光盘(CD-RW)、磁光盘)、半导体器件(例如，只读存储器(ROM)、随机存取存储器(RAM)(例如，动态和静态RAM)、可擦除可编程只读存储器(EPROM)、电可擦除可编程只读存储器(EEPROM)、闪存)、磁卡或光卡、或任何类型的适合于存储电子指令的有形介质，但不限于此。机器可以包括任何合适的处理或计算平台、设备或系统，并且可以使用硬件和/或软件的任何合适的组合来实现所述机器。指令可以包括任何合适类型的代码，并且可以使用任何合适的编程语言来实现所述指令。在其他实施例中，用于执行本文描述的方法和/或操作的机器可执行指令可以被具体实现在固件中。

本文描述了各种特征、方面和实施例。所述特征、方面和实施例能够允许相互组合以及变型和修改，正如本领域的技术人员所能理解的。因此，本发明公开应该被认为包括这样的组合、变型和修改。

本文运用的术语和表达被用作进行描述的术语而非进行限制的术语。在使用这样的术语和表达的过程中，并不是要排除所示出的和所描述的特征(或其部分)的任何等价物，并且应当意识到的是，在权利要求的范围内各种修改都是有可能的。其他修改、变型和备选方案也是可能的。因此，权利要求是要覆盖所有这些等价物。

虽然结合当前被认为是最实用的实施方式来描述了本发明的某些实施例，但是应当理解的是，本发明不是要被限制于所公开的实施例，正相反，本发明是要覆盖包括在权利要求的范围内的各种修改和等价的布置。虽然本文运用了具体的术语，但是这些术语仅是以一般性和描述性的意义来使用的，而不是出于限制的目的。

本书面说明书使用示例来公开本发明的某些实施例，包括最佳模式，并且还使本领域的任何技术人员能够实践本发明的某些实施例，包括制造和使用任何设备或系统以及执行任何并入的方法。本发明的某些实施例的专利范围被限定于权利要求中，并且可以包括本领域的技术人员可以想到的其他示例。如果这些其他示例所具有的结构单元并没有不同于权利要求的字面语言，或者如果它们包括与权利要求的字面语言没有实质上的区别的等价结构单元，则这些其他示例是要落在权利要求的范围内的。

Claims

1.一种方法，包括：

由一个或多个处理器来接收声学模型：

监视至少一个声学单元的位置；

至少部分地基于所述声学模型和所述至少一个声学单元的位置，由所述一个或多个处理器来确定与至少一个麦克风中的每一个麦克风相对应的相应的声学传递函数；

从所述至少一个麦克风中的每一个麦克风接收声学信号；以及

至少部分地基于相对应的声学传递函数，由一个或多个处理器来修改所接收的声学信号中的每一个声学信号。

2.如权利要求1所述的方法，其中，所述声学模型包括至少一个初始传递函数，所述至少一个初始传递函数中的每一个与至少一个预定的位置相对应。

3.如权利要求1所述的方法，其中，所述至少一个声学单元是与个人相关联的唇部环状区。

4.如权利要求1所述的方法，其中，监视所述至少一个声学单元的位置包括：使用图像传感器来对所述至少一个声学单元进行成像。

5.如权利要求1所述的方法，其中，监视所述至少一个声学单元的位置包括：使用测距传感器来确定所述至少一个声学单元与所述测距传感器之间的距离。

6.如权利要求1所述的方法，其中，所述至少一个声学单元的位置被定义为三维空间中的点。

7.如权利要求1所述的方法，其中，确定所述声学传递函数包括以下中的至少一个：(i)体积插值；(ii)体积外推；(iii)二维插值；(iv)二维外推；(v)一维插值；或(vi)一维外推。

8.如权利要求1所述的方法，其中，所述声学信号中的每一个是与由所述至少一个声学单元生成的声音相对应的电信号。

9.如权利要求1所述的方法，其中，修改所述声学信号中的每一个包括：将所述声学信号中的每一个乘以它相对应的声学传递函数的反函数。

10.如权利要求1所述的方法，进一步包括：将所修改的声学信号中的至少一个提供给语音识别引擎。

11.如权利要求1所述的方法，进一步包括：由所述一个或多个处理器来确定所述声学模型。

12.如权利要求11所述的方法，其中，确定所述声学模型包括：确定至少一个物理传递函数，每一个物理传递函数对应于相应的位置。

13.如权利要求12所述的方法，其中，确定所述至少一个物理传递函数进一步包括：根据在所述相应的位置中的每一个位置处提供的声音来确定在所述至少一个麦克风中的每一个麦克风处的声学响应。

14.一种系统，包括：

至少一个传感器，其被配置为提供与用户相关联的感兴趣区域的信息；

至少一个计算机可读介质，其具有存储在其上的声学模型；

一个或多个麦克风，每一个麦克风被配置为基于检测的声音来生成声学信号；以及

至少一个处理器，其以通信的方式耦合到所述至少一个传感器、所述计算机可读介质以及所述一个或多个麦克风，并且被配置为至少部分地基于所述感兴趣区域的信息和所述声学模型，修改所述声学信号中的每一个。

15.如权利要求14所述的系统，其中，所述至少一个传感器包括测距传感器或图像传感器中的至少一个。

16.如权利要求14所述的系统，其中，所述感兴趣区域的信息包括所述用户的唇部环状区的空间位置。

17.如权利要求14所述的系统，其中，所检测的声音是人类的话音。

18.如权利要求14所述的系统，其中，所述声学信号中的每一个都是与所检测的声音相对应的电信号。

19.如权利要求14所述的系统，其中，所述至少一个处理器被配置为通过基于所述感兴趣区域的信息和所述声学模型来确定与所述至少一个麦克风中的每一个麦克风相对应的声学传递函数，而修改所述声学信号中的每一个。

20.如权利要求14所述的系统，进一步包括：接收所修改的声学信号中的每一个中的至少一个的语音识别引擎。

21.至少一个计算机可读介质，包括计算机可执行指令，所述计算机可执行指令当由一个或多个处理器来执行时，执行一种方法，包括：

识别声学模型；

监视至少一个声学单元的位置；

至少部分地基于所述声学模型和所述至少一个声学单元的位置来确定与至少一个麦克风中的每一个麦克风相对应的相应的声学传递函数；

至少部分地基于相对应的声学传递函数来修改所述声学信号中的每一个。

22.如权利要求21所述的计算机可读介质，其中，所述声学模型包括至少一个初始传递函数，所述至少一个初始传递函数中的每一个与位置相对应。

23.如权利要求21所述的计算机可读介质，其中，修改所述声学信号中的每一个包括：将所述声学信号中的每一个乘以它相对应的声学传递函数的反函数。