CN108275159A

CN108275159A - 语音界面和声乐娱乐系统

Info

Publication number: CN108275159A
Application number: CN201810007137.8A
Authority: CN
Inventors: 施瑞亚斯·阿南丹·帕拉杰佩; 菲利普·阿兰·赫瑟林顿; 伦纳德·查尔斯·莱顿
Original assignee: BlackBerry Ltd; 2236008 Ontario Inc
Current assignee: BlackBerry Ltd
Priority date: 2017-01-04
Filing date: 2018-01-03
Publication date: 2018-07-13
Anticipated expiration: 2038-01-03
Also published as: CA2990204A1; CN108281156A; CN108275159B; EP3346466A1; CN108281156B; US20180190307A1; EP3346467A1; US11348595B2; US20180190306A1

Abstract

一种系统和方法，其通过捕获包含回声的一个或多个麦克风信号并通过合成器将一个或多个麦克风信号分解成多个信号路径来增强口头言语并提供娱乐，该合成器对捕获的一个或多个麦克风信号中的一些添加或进行非线性修改。该系统和方法并根据一个或多个麦克风中的每一个估计多个回声路径。该系统和方法通过从捕获的一个或多个麦克风信号中减去多个回声路径中的每一个的回声贡献来响应于估计的多个回声路径来处理捕获的麦克风信号。该系统和方法还提供信号分离和后处理功能，以呈现语音识别游戏应用。

Description

语音界面和声乐娱乐系统

优先权声明

本申请要求于2017年1月4日提交的标题为“Voice Interface and VocalEntertainment System”的美国临时专利申请No.62/442,284的优先权，该申请以引用方式并入本文中。

技术领域

本公开涉及处理音频信号，并且具体涉及语音界面和声乐娱乐系统。

背景技术

为了增加安全性，驾驶员必须保持清醒和警觉。被动娱乐会使驾驶员保持舒适，但电会导致疲劳和无聊，这可能导致注意力不集中。诸如歌唱和互动音频游戏的主动娱乐会使驾驶员在驾驶时保持清醒、娱乐性、并更能参与。

附图说明

参考以下附图和描述可以更好地理解本发明。附图中的部件不一定按比例绘制，而是着重于说明本发明的原理。此外，在附图中，在不同视图中，相同的附图标记表示相应的部分。

图1是车辆内的音频路径的俯视图。

图2是包括语音加强通信系统的车辆的俯视示意图。

图3是执行合成去相关的车内娱乐通信系统的侧视示意图。

图4是执行合成去相关的第二车内娱乐通信系统的方框图。

图5是执行合成去相关的车内娱乐通信过程。

图6是执行合成去相关的第三车内娱乐通信系统的方框图。

图7是执行多区域消除的车内娱乐通信系统的侧视示意图。

图8是执行多区域消除的第二车内娱乐通信系统的方框图。

图9是执行多区域消除的车内娱乐通信过程。

图10是执行多区域消除的第三车内娱乐通信系统的方框图。

图11是执行合成去相关的第三车内娱乐通信系统的方框图。

具体实施方式

现代车辆使用全部同时运行的多个声学和音频信号处理系统。这些技术大部分都是针对减少车辆车厢内噪音或适应噪音条件。声学系统通过捕获讲话者的声音，放大(加强)声音，然后在收听者附近的前部扬声器或后部扬声器(例如，前部换能器或后部换能器)中播放，来适应噪音条件。由于大多数驾驶员和乘客都不想被束缚在车辆上，所以许多车辆使用远场麦克风来捕获声音并将该声音转变成电信号。当远场麦克风有效地记录感兴趣的讲话者的言语时，他们还捕获不期望的声音，诸如噪音、来自其他车内讲话者的语音以及由车辆扬声器产生的其它音频声音(诸如音乐、韵律、提示等)。车辆车厢的小尺寸以及驾驶员和乘客与远场麦克风的物理接近还导致声学耦合。扬声器与麦克风之间的反馈和回声路径会导致振鸣和不受控制的声学反馈。如图1中所示，存在来自很多来源的噪音。

图1的声学处理系统允许即使在嘈杂的条件下也可以在车辆后方听到驾驶员的语音。当发生这种情况时，声音可以通过直接路径和加强路径以不同的等待时间或延迟流动以使收听者同时感知到声音。由于伴随车内环境的反馈和回声，在音频处理器上执行回声和反馈消除，然后进行放大。这里，自适应滤波器建模由音频处理器执行的扬声器到麦克风的脉冲响应，以消除回声和反馈。当在麦克风处接收到的信号是去相关的或统计独立且不同时，可能发生反馈消除和回声消除。

在图2中，音频处理系统是车辆200的一部分，并提供娱乐以及回声和反馈消除。在其它系统中，它是机动车辆的附件或部件，并且在其它系统中是可以被划分成多个区域的房间中使用的音频系统的一部分。在图2的车辆200中，驾驶员和一个或多个副驾驶员(未示出)的麦克风信号被麦克风202A和202B捕获，然后通过扬声器204C和204D在车辆200的后部区域206B中处理和播放。这些扬声器被提供有前到后加强信号208C和208D。同样，如果在车辆200中后排乘客正在交流，一个或多个后部麦克风信号可以被麦克风202C和202D捕获，并且随后通过扬声器204A和204B被处理并转换成车辆200的前部区域206A中的可听见的声音。这些扬声器被提供有前到后加强信号208A和208B。在图2中，为了后部区域206B中的乘客的利益，加强了驾驶员和副驾驶员(未示出)的语音。这被称为前到后加强。而且，如果后排乘客在场，则为了前部区域206A中的驾驶员(在此示为Shree，closet lounge歌手)的利益，将加强后排乘客的语音。这被称为后到前加强。

在前到后和后到前加强中，如果声音反射不受限制，则当麦克风接收到加强信号时，声音反射将被进一步处理。在前到后处理中，例如，当加强信号208C和/或208D从后部扬声器204C和/或204D中播放出来并且被前区麦克风202A和/或202B获取时，处理回声。如果信号不受限制，则回声将通过扬声器204C和/或204D被重新处理和呈现。在这种情况下，回声自身反馈，并且如果不被检查，则会导致振铃或振鸣。

图3是以前到后加强操作的声学处理系统的另一示意图，其可以进一步扩展到区域到区域加强，其中所述区域包括左前(或驾驶员区域或区域1)，右前(副驾驶员区域或区域2)，左后(驾驶员后方的乘客区域或区域3)和右后(副驾驶员后面的乘客区域或区域4)。图3的声学处理系统包括前部/驾驶员麦克风302、两个前门扬声器304A和304B以及两个后部扬声器306A和306B。车辆200内的声学处理系统还包括将数字数据转变成模拟信号的数模转换器或DAC 308、将连续变化的模拟信号转换成数字数据的模数转换器或ADC 310、可以是重塑声音的实时合成器的一个或多个合成器312、回声和反馈消除模块314、后处理器316和信号加法器电路320L和320R。在双向操作中，在后部区域206B中使用一个或多个后部麦克风(未示出)，其允许系统在存在后排乘客的情况下使用以前到后加强来加强驾驶员语音的过程在前部扬声器204A和204B上处理和呈现后排乘客的加强信号。在其它替代配置中，娱乐信号和加强信号可以由附加扬声器(例如，高音扩音器或低音扩音器)来呈现。并且，在其它替代系统中，被示出为双声道源的立体声信息娱乐源318可以包括一个或多个声道。例如，车辆内的一些系统处理六个声道，诸如杜比5.1环绕声中使用的六个声道。

在图3的声学处理系统中，系统建模从J个扬声器到M个麦克风的信号路径。系统通过从扬声器j到麦克风m的脉冲响应来估计路径，其为h_j，m[n]。脉冲响应由声学处理器执行的反馈和回声消除模块进行估计。这里，“n”是样本索引。在反馈和回声消除模块中，存在J*M个回声路径，因此在图3的示例车辆200中，前到后加强中存在四个期望的信号路径，从左前(FL-驾驶员)扬声器开始到前部麦克风(h_1[n])，从右前(FR-副驾驶员)扬声器到前部麦克风(h_2[n])，从左后(RL-驾驶员后方的乘客)扬声器到前部麦克风(h_3[n])，以及从右后(RR-副驾驶员后方的乘客)扬声器到前部麦克风(h_4[n])。在这种由单一声道传送加强信号并且信息娱乐包括立体声音乐的前到后加强中，四个扬声器信号x_1[n]，...，x_4[n]可以表示为：

x1[n]＝FL＝左音乐

x_2[n]＝FR＝右音乐

x_3[n]＝RL＝左音乐+加强信号

x_4[n]＝RR＝右音乐+加强信号

并且前部麦克风处的回声可以表示为：

E[n]＝x_1[n]*h_1[n]+x_2[n]*h_2[n]+x_3[n]*h_3[n]+x_4[n]*h_4[n]

其中‘*’表示时域中的卷积。

在图3中，回声和反馈消除估计脉冲响应路径{h_j[n]；j＝1，...，J}给定参考信道{x_j[n]]；j＝1，...，J}和麦克风信号Y[n]，然后从麦克风信号Y[n]中减去回声E[n]。在图3中，诸如实时声音合成器的合成器312通过对加强信号进行非线性修改和/或通过对每个信道添加不相关信号来区分信号，从而使得每个信号是唯一的。在示例性的使用情况下，合成器312使加强信号去相关，使得在信号由可选的后处理器316进行后处理之前，信号在感知上类似，或者可选地在感知上令人愉快，但是与源自车内讲话者的信号相当不同(在图3中，是源于我们的驾驶员Shree的加强信号)。在图3中，信号加法器电路320L和320R将消除了回声的音频处理后的信号添加到信息娱乐信号。因为信号是唯一的，所以例如在信号由可选的后处理器316进行后处理之前，回声路径由回声和反馈消除模块314最优地建模，该回声和反馈消除模块可以包括自适应滤波器的一个或多个实例。

合成器312产生各种音频效果，其使得加强信号是唯一的，从而允许去除不期望的回声和反馈并添加期望的特性，这将所呈现的信号的感知质量改善为专业和精良的声音。例如，我们很多未经训练的歌手无法在麦克风处产生合理地稳定和一致的声压水平，产生由扬声器放大的波动很大的信号。该问题通过由后处理器316执行的多频带压缩器/扩展器/限制器来解决，该后处理器动态地调整不同频带上的增益以在处理和回放期间保持一致的信号电平。声学处理系统可以经由通过快速傅里叶变换(FFT)将时域信号转换为频域信号，如本文所述处理呈现的频域子带，并通过逆FFT将处理过的频带转换成时域信号而在频域中操作。使用滤波器组、小波、离散余弦变换或相关方法的替代子频带分解方案也可以用来实现这种方式。

合成器312还可以产生其它音频效果，诸如合唱、镶边和音调移位，其通过呈现更丰富、更令人愉快和专业的声音来增强加强的声音。还可以由合成器312添加混响以呈现模拟车内讲话者的声音(例如，语音、歌曲、言语等)的声音，该声音被反射离开大量表面，并模拟大量反射(所述反射建立，并然后衰减)，仿佛声音被大得多和/或不同空间中的表面吸收一样。它可以提供在诸如夜总会、音乐厅或大教堂等较大的声学空间中的演讲、唱歌或表演的幻觉，而不是在车辆车厢的小范围中。这些类型的音频和声音处理效果的高质量版本是动态和时变的，使得合成器312所应用的处理类型，诸如频率相关的增益和延迟，随着时间以音乐和声学上适当的方式变化。另外，或者可替代地，合成器312可以模仿如钢琴、风琴、和声、长笛、吉他、声乐、诸如例如达斯·维达的电影角色(例如“卢克，我是你的父亲…”)等的乐器；以及如海浪、风、雨等的自然声音；或者产生新的电子音色。这些效果的时变性质使加强信号去相关，从而使得信号是唯一的，并且在某些情况下在感知上相似，但也更容易与原始本地讲话者的信号区分。

合成器312可以执行各种方法来产生或变形声音。在一些系统中，可以实时地使用减法合成和/或加法合成来基于车辆车厢内可能发生的改变的音频环境来动态地重塑声音。其它声学处理系统执行分谐波合成、波表合成、调频合成、粒子合成、物理建模合成、相位失真合成和/或基于样本的合成等。

在图3中，在信号被合成并且减去回声和反馈之后，可选的后处理器316可以进一步处理信号以增强声音。例如，后处理器316可以应用均衡化和/或自适应增益。由于或响应于经由车内噪音检测器感测到或在车辆车厢内估计的环境噪音的水平，均衡化可以修改音色或音质，并且自适应增益调整(例如，放大或衰减)由回声和反馈消除模块314处理的加强信号的电平。然后，经调适和均衡化的信号分别通过信号加法器电路320L和320R添加到由立体声信息娱乐源318发出的信号。此后，加强信号由DAC 308转变为模拟信号，并由两个后部扬声器306A和306B发送到后部区域206B中。如图所示，回声和反馈消除模块314包括闭环322以调整其输出。

在另一替代系统或本文所述的系统中，由信息娱乐源318发出的介质水平在加法器320处由加法器应用程序接口或由另一传感器测量。基于所测量的音量水平，相对于所测量的音量水平来增大语音或演唱(例如言语)的加强。在一些系统中，在由例如DC滤波器进行滤波之后，测量是介质信号的瞬时平滑的均方根。滤波器具有上升和下降平滑系数。在该替代系统中，加强信号的增益在一组预定阈值处开始增加，并在另一预定阈值处以最大增益停止。这确保驾驶员、乘员或用户能够在低水平音乐背景下听到言语，并且如果在音乐或娱乐背景下演讲、演唱等，表演者(例如，积极的讲话者或歌手)能够听到他或她自己。例如，最大增益可以被编程到预定水平，诸如5分贝水平。在一些系统中，这是可随表演者或娱乐而变化的动态水平。

图2和图3的声学处理系统及其替代方案自然地处理、加强和增强语音和声音，而不会失真或增加噪音。这些系统的回声和反馈消除模块314执行受控的学习过程，使得即使当信号的期望的和不期望的分量几乎相同并且同时发生时，自适应滤波器学习并处理扬声器到麦克风的脉冲响应信号。例如，在那些使用自动回声消除器(AEC)滤波器的声学处理系统中，当意味着在扬声器上呈现加强信号之前的只有本地讲话者正在讲话时，AEC滤波器可能在短时段内不适应目标回声或加强信号。相反，当本地讲话者不讲话时，AEC滤波器可以在仅呈现加强信号的时段期间适应。然而，在大多数使用情况下，信号的期望的和不期望的分量同时存在(因为它们最终从相同的声音源产生)，然而，由合成器312产生的去相关(例如，产生重塑或被添加到强化信号的声音和音频效果)或另一个微分器改变加强信号，使得不同频率部分具有在不同的时间或频率上发生的不同电平，从而使得信号是可区分的。为了确保正确的定时，一些回声和反馈消除模块314使用相似性检测器诸如相干性检测器或相干性信号处理来处理图3的一个或多个电路之间的信号，以对麦克风信号和加强信号进行采样并适应给定的条件。

图4是执行合成去相关的娱乐车内通信系统的示意图。系统400是用于车辆的示例系统。示例系统配置包括一个或多个麦克风302、两个或更多个音频换能器306、回声和反馈消除处理器314、合成器312、降噪和后处理器316。一个或多个麦克风302可以捕获与音频源108和信息娱乐源318相关联的音频信号，从而创建一个或多个捕获的音频信号402。合成器处理器312产生各种音频效果，使得加强信号是唯一的，从而允许去除不期望的回声和反馈，并将期望的声学特性添加到信号以改善呈现的信号的感知质量。

回声和反馈处理器314通过建模到麦克风的物理路径来消除反馈和回声。回声和反馈处理器314基于这些模型估计车辆环境内的回声，并且从接收自一个或多个麦克风302的信号中减去估计的回声。后处理器316修改经消除的回声的音色和音质以及在声学上加强的信号，并且由后处理器316提供的自适应增益响应于车辆200中检测到的噪音的水平来调整由回声和反馈处理器314呈现的信号的电平。由后处理器316应用的增益和均衡化可以基于任何一个或多个区域内估计的噪音的水平和音色而在该一个或多个区域内进行调整。因此，例如，如果区域1(例如，驾驶员区域)中的噪音大于区域2(例如副驾驶员区域)中的噪音，则源自于另一区域诸如区域4(副驾驶员后方的乘客区域)的信号的增益在区域1中呈现时将比在区域2中呈现时高。然后，经调适和均衡化的信号分别通过信号加法器电路320L和320R添加到由立体声信息娱乐源318发出的信号。此后，增强的回声降低的信号被转变为模拟信号，并由扬声器306发送。

图5是执行合成去相关的车内娱乐通信过程。该过程可以使用本文参考图1至图4和图11描述的系统中的任何一个来实现。该过程在502处经由通过加强路径和信息娱乐信号接收先前加强的信号(来自先前语音帧或段的加强信号)来加强和增强通信。在504处，该过程通过建模从扬声器到麦克风的物理路径来对车辆的声学环境进行建模，并更新每个参考信号和每个麦克风的回声消除器系数。在对立体声信号和加强信号进行建模的前到后加强过程中，示例性过程建模到麦克风的四条路径，其中通过音频合成器对信号去相关。要在506中更新的回声消除器系数可以是每个麦克风和每个扬声器的有限脉冲响应(FIR)或无限脉冲响应(IIR)自适应滤波器系数。在上面图3中描述的示例中，存在四个扬声器和一个麦克风，以及因此在506中更新的四组回声消除器系数。在508处，该过程计算或估计来自每个扬声器的贡献回声，并从在麦克风处接收到的信号中减去该贡献回声。当在可选动作510处应用可选的自适应增益和/或均衡化时，该过程修改音色和音质，并且自适应增益响应于车辆中检测到的噪音的水平来调整由动作508呈现的信号的电平。然后，在512处，经调适和均衡化的信号可以被添加到由信息娱乐源发出的信号。

图6是执行合成去相关的第三车内娱乐通信系统的方框图。该系统包括处理器602、诸如存储器604的非暂时性介质(其内容可由处理器602访问)和I/O接口606。I/O接口606可用于连接诸如例如附加的麦克风、音频换能器或扬声器之类的设备，并且接收来自其它本地或远程源的外部输入608。存储器604可以存储当由处理器602执行时使得系统呈现如本文所述的与车内娱乐通信系统相关联的一些或全部功能的指令。例如，存储器504可以存储当由处理器602执行时使得系统呈现与音频合成312、回声和反馈消除314以及可选的后处理316相关联的功能的指令。另外，数据结构、瞬时变量和其它信息可以将数据存储在存储器504中。

图3至图11中所示的系统和过程的替代方案通过后处理器316或通过后处理510来应用使加强信号成为唯一的混响(和音调移位)和/或各种音频效果。在这些替代系统中，后处理器316和后处理510将来自原始麦克风信号的加强信号去相关，使得只有加强信号通过本公开中所描述的时变和/或频移效果进行“变异”或处理。处理后的信号被添加到信息娱乐内容(如果有)并在扬声器上呈现。替代的系统和过程也作为内部参考信号反馈，诸如图3中所示的到回声和反馈消除的参考信号322。本文描述的合成器效果，例如，诸如添加来自模拟的“空气鼓/空气吉他”的鼓声或吉他声，也通过后处理器316和/或后处理512来应用。

在又一个替代方案中，不是所有的介质都是通过扬声器呈现的。在某些实例中，通过耳机或其它不会将声音泄漏到车辆车厢其它区域的设备来呈现输出。在这些使用情况下，在一些系统中，回声消除和音频合成可能不适用于在这些隔离区域中呈现的内容，而在其它系统中，将合成信号添加到原始麦克风信号以模拟隔离区域中的音频环境。

图7是执行多区域干扰消除的娱乐车内通信系统的车辆的侧视示意图。在多区域干扰消除中，麦克风位于每个发出令人感兴趣的语音的乘员附近。例如，在具有三个乘员的车辆，诸如图7中所示的车辆200，(驾驶员、隐藏的副驾驶员和单个后座乘客)中，将存在三个或更多个麦克风302A到302C，其被放置成使得麦克风302A到302C中的每一个理想地仅捕获单个不同的讲话者。在具有四个乘员的车辆中，存在四个或更多个麦克风(例如，麦克风的数量将等于或大于讲话者的数量)，或者在替代方案中，当系统使用引导每个说话的乘员的拾音模式的一个或多个波束形成麦克风阵列时，麦克风的数量可以更少，并且在一些实例中，进一步拒绝不想要的噪音和回声。在一些系统中，麦克风拒绝所有不期望的讲话者。在其它系统中，麦克风诸如图7的麦克风302A至302C从一些不期望的讲话者那里捕获声音。在图7中，多区域干扰消除使用由自适应滤波器组成的信号分离器702来建模讲话者到麦克风的脉冲响应，其估计不期望的讲话者的信号并且呈现从麦克风信号中减去不期望的讲话者的语音的信号以隔离期望的讲话者的言语。

作为一个示例，假设要保存的期望信号来源于驾驶员(称为期望的讲话者)，并且要消除的不期望的信号来源于其他乘员(称为不期望的讲话者)。在这种使用情况下，干扰信号是来源于除了驾驶员以外的位置(即，副驾驶员和左后乘客)的麦克风信号。这些干扰信号与它们自身的自适应滤波器卷积，针对每个不期望的讲话者呈现分开的模型，这些模型一起产生从驾驶员的复合麦克风信号中减去的所有不期望的信号的估计，这导致隔离驾驶员的信号或者基本上隔离驾驶员的信号。在该示例中，麦克风被定位成使得位于最接近讲话者的一个麦克风或多个麦克风产生该讲话者的最响亮的信号，从而提供用于在给定复合信号中识别每个讲话者的参考信号。因为车辆车厢空间有限，并且所有乘员共享相同的声学环境、期望的信号，所以在这个示例中，驾驶员的语音也可以由其它麦克风302B和302C捕获，使得由另一自适应滤波器处理的加强信号受到驾驶员语音稍微衰减和延迟的版本的危害。如果这些自适应滤波器不适当地适应，系统将会太过分地减去估计的信号，并消除期望的信号；或者备选地，会过于宽松并且允许太多不期望的信号通过到车辆车厢。因此，图7的娱乐车内通信系统执行受控学习过程，使得其自适应滤波器建模讲话者到麦克风或麦克风到麦克风的脉冲响应，而不是建模在图1至图6中描述的前到后加强和后到前加强中所描述的扬声器到麦克风的脉冲响应。即使在信号的期望的和不期望的分量几乎相同并且同时发生时，自适应滤波器也建模麦克风到麦克风的脉冲响应。当使用自适应滤波器，诸如从麦克风304A到麦克风304B的自适应滤波器时，无论何时麦克风304A上的信号比麦克风304B上的信号(每个给定频率信号或频带)大(预定阈值)，并且如果两个麦克风上的信号高于它们相应的估计噪音，自适应滤波器304A到304B都适应。该系统不需要弄清楚谁可能正在讲话，或者什么时候他们停止讲话。在该应用中，即使当两个区域包含语音或讲话时，自适应滤波器(例如，自适应滤波器304A到304B和自适应滤波器304B到304A)都可以适应，因为一个自适应滤波器可以检测低频中的高振幅信号，而另一自适应滤波器可以检测高频中的高振幅信号。为了确保正确的定时，一些信号分离器模块402使用相似性检测器，所述相似性检测器处理在车辆车厢内采样的信号，所述相似性检测器诸如是相干性检测器或相干性信号处理器，其处理信号之间的关系并将关系报告给信号分离器402。相干性检测器或相干性信号处理器可处理从期望的讲话者和不期望的讲话者采样的信号以区分信号，并为自适应滤波器提供定时以适应针对给定条件的其目标信号。此外，通过将期望的讲话者的信号与其自身的呈现期望的讲话者的模型的自适应滤波器进行卷积，可以将每个不期望的讲话者的信号与车辆200中的其它信号区分开。期望的讲话者的模型和先前呈现的不期望的讲话者模型(其不与要被隔离的不期望的信号相关联)产生其它不期望的信号和期望的信号的估计。然后从与要被隔离的不期望的讲话者相关联的复合不期望的麦克风信号(该复合信号具有该不期望的讲话者的最响亮的信号)中减去这些估计的总和，这隔离了不期望的讲话者的信号或基本上隔离它。

在图7中，娱乐后处理系统704可以输送娱乐、服务或基于语法的或基于自然语言的自动语音识别(ASR)。由于车内娱乐通信系统隔离车辆200中输送的语音和/或其它内容，所以通过基于树的ASR结构的并行架构可以在当资源有限时通过一个或多个处理分支(或路径)执行有限词汇大小的语音识别，或通过无限词汇，通过可以包括在一个或多个或全部处理分支或ASR的组合中的词典的自然语言词汇。较大的词汇ASR和/或远程ASR的识别结果可以利用其相应处理分支中的领域特定语法来标准化。基于可能被保存在ASR元数据中的可能性计算、置信度水平或置信度得分(被称为置信度得分)，可以发生词语选择。当最高可能性或置信度得分超过预定或上下文阈值时，ASR内的对准系统可识别口头言语，并将口头言语分类为正确识别。ASR结果和ASR元数据可以在车辆中本地发送或从车辆发送给远程系统、设备或应用。

可以包括数字后处理系统404的基于语法或自然语言的ASR引擎通过实时或在编程延迟之后处理语音输入帧来捕获语音信号。将输入信号的声音部分与词汇进行匹配的声学建模、特征提取和标准化保留在数据存储装置或存储器中。虽然存储器或数据存储装置可能是本地基于语法的ASR引擎的单一部分，但是数据存储装置可以驻留在本地或分布式存储器中、云中或本地或分布式数据库中。

通信地耦合到数字后处理系统404或者是其单一部分的词汇应用程序接口可以提供对识别语音所需的全部数据的访问。在一些系统中，它可以包括一个或多个语言模型、声学模型、词典、演讲者简档等，这些可以由任何ASR引擎通过词汇翻译器来访问。耦合到ASR的控制应用程序接口可以向ASR提供对演讲者特定数据的访问，诸如例如演讲者的地址簿或演讲者简档以及可以被翻译成可用语法的动态演讲者特定数据。通过耦合到ASR的输出翻译器进行的语音到文本(STT)合成可以将基于语法或基于自然语言的ASR引擎的识别输出翻译成可以接口连接本地或远程短消息服务(SMS)系统或应用的文本，该本地或远程短消息服务系统或应用通过数字后处理系统404的输出接口将文本消息从车辆200通过本地或远程无线网络发送给远程无线设备。

除了隔离声音、呈现文本以及使乘员能够同时从车辆200发送文本消息之外，所识别的语音结果也可以由一个或多个游戏系统来处理。例如，数字后处理器404可以执行诸如“提问和回答”过程的游戏应用，该游戏应用呈现诸如游戏展示比赛的问答竞赛。在一个应用中，信息娱乐源318以回答的形式提出问题或线索，其中乘员必须通过语音阐明答案(如果做为问题提出的话)，或者通过语音用短语将其响应表达为问题(如果作为答案提出的话)。娱乐后处理器704通过同时运行的分开的ASR引擎实例处理每个乘员的分开的响应，并确定哪些乘员正确地回答了问题，并且在一些实例中以什么顺序回答了问题。在一些应用中，数字后处理器404将其处理的所有回答转换成文本和/或合成音频，并将视觉回答和/或合成音频发送给车辆200的抬头显示器和/或车辆200中的扬声器304A和304B和/或306A和306B。正确的响应、回答或问题、它们被给出的顺序以及与其相关的其它信息可以通过车辆的车内系统呈现，或者发送给乘员的无线和/或移动设备以及由娱乐后处理器704跟踪和类似地报告的玩家得分。

在又一个应用中，娱乐后处理器704可以执行合成信号处理，该合成信号处理修改来自车辆的多个区域的隔离语音-其中区域包括左前(或驾驶员区域-区域1)、右前(副驾驶员区域或区域2)、左后(驾驶员后方的乘客区域或区域3)和右后(副驾驶员后方的乘客区域-区域4)。在这个应用中，合成信号处理修改来自不同区域或者可替代地来自每个乘员的隔离声音，并在通过选定的扬声器呈现声音之前修改口头言语。该修改可以通过对每个区域的音频进行音调移位，然后将所处理的言语呈现在所选扬声器中的不同区域或区域的组合中来发生。例如，右前区域可以被调高八度音程的一半，并且通过后部扬声器306A被投射到车辆车厢中，左前区域可以被调高八度音程的十分之二，并且通过后部扬声器306B被投射到车辆车厢中，右后区域可以被调高八度音程的十分之八，并且通过前部扬声器304A和304B被投射到车辆车厢中，并且左后区域可以被调高八度音程并且通过前部扬声器304A和304B以及后部扬声器306A和306B被投射到车辆车厢中，以呈现车内和声。

在替代娱乐车内通信系统中，信号分离器402自动地将声乐音轨与信息娱乐内容(诸如要在车辆200内实时或者延迟之后播放的音乐)分离和/或隔离。基于语法和/或基于自然语言的ASR引擎处理声乐音轨，以便自动识别歌词。在可以包括图7中所示的功能的一些车内娱乐通信系统中，语音识别的歌词作为元数据与原始音乐或处理过的音乐(具有和/或不具有原始声乐音轨)一起本地存储在存储器中或存储在基于云的存储装置中，使得只有在音乐音轨或片段播放后才会发生处理需要。当内容被呈现时，可以通过扬声器302A和302B以及306A和306B将原始音乐或没有声乐的音轨呈现在车辆车厢中。歌词可以显示在每个乘员的一个或多个抬头显示器上，或发送给乘员的无线或移动设备。在这些替代方案中，拼车卡拉OK系统被呈现。

图8是执行多区域消除的第二车内娱乐通信系统的方框图。系统800是用于车辆的示例系统。示例系统配置包括一个或多个麦克风302、两个或更多个音频换能器306、信号分离器处理器702、娱乐后处理器704和后处理器316。一个或多个麦克风302可以捕获由音频换能器306A和306B以及信息娱乐源318呈现的音频信号，从而创建一个或多个捕获的音频信号802。信号分离器处理器702建模讲话者到麦克风的脉冲响应路径，其估计不期望的讲话者的信号并呈现从麦克风信号中减去不期望的讲话者的语音的信号以隔离期望的讲话者的言语。在娱乐背景下，信号分离器处理器702建模声乐音轨，其估计表演者的信号并呈现从原始内容中减去表演者的信号的信号以将表演者的内容与剩余内容隔离。娱乐后处理器704输送娱乐、服务和/或基于语法或基于自然语言的自动语音识别。后处理器316修改娱乐后处理器信号的音色和音质，并且自适应增益响应于车辆车厢内检测到的噪音的水平来调整由后处理器316呈现的加强信号的电平。然后，经调适和均衡化的信号分别通过信号加法器电路220L和220R添加到由信息娱乐源318发出的信号。此后，处理过的信号被转变成模拟信号并由扬声器发送。也可以执行上述一个或多个可选的增强。

图9是执行多区信号消除的车内娱乐通信过程。该过程可以使用本文参考图7、图8和图10描述的任何系统来实现。该过程在902处通过接收不期望的讲话者的语音和信息娱乐信号来隔离期望的讲话者的口头言语。在904处，该过程通过建模估计不期望的讲话者信号的讲话者到麦克风的脉冲响应来对车辆的声学环境进行建模，并且根据每个不期望的讲话者和每个麦克风更新自适应滤波器系数。在建模三个乘员到单个麦克风的前到后隔离过程中，示例性过程对先前语音或本地源段的不期望的讲话者到麦克风脉冲响应进行建模。要在906中更新的自适应滤波器系数可以是根据每个麦克风和每个不期望的讲话者信号的有限脉冲响应(FIR)或无限脉冲响应(IIR)自适应滤波器系数。在上述示例中，存在两个不期望的讲话者信号、一个麦克风以及因此在906中更新的三组自适应滤波器系数。在908处，该过程计算或估计来自每个不期望的讲话者源的贡献信号并从麦克风处接收到的信号中减去该贡献信号。在910处，可选的后处理器910修改音色和音质，并且自适应增益响应于车辆200中检测到的噪音的水平来调整由动作908呈现的信号的电平。然后，在912处，经调适和均衡化的信号可以被添加到由信息娱乐源发出的信号。

图10是执行多区域消除的第三车内娱乐通信系统的方框图。该系统包括处理器1002、诸如存储器1004的非暂时性介质(其内容可由处理器1002访问)和I/O接口1006。I/O接口1006可用于连接诸如例如附加的麦克风、音频换能器或扬声器之类的设备，并且接收来自其它本地或远程源的外部输入1008。存储器1004可以存储当由处理器1002执行时使得系统呈现与本文描述的信号隔离相关联的一些或全部功能的指令。例如，存储器1004可以存储当由处理器1002执行时使系统呈现与信号分离和隔离702、娱乐和语音识别后处理704、可选的后处理316相关联的功能的指令。另外，数据结构、瞬时变量和其它信息可以将数据存储在存储器1004中。

图11是以多个阶段执行合成去相关的第三车内娱乐通信系统的方框图。示例配置包括位于分离区域中的多个麦克风202A至202D、回声和反馈消除模块314、多个后处理器316A和316B、基于语法和/或基于自然语言的ASR 1106、可以通过乘以0和1之间的因子来调整信号的自动增益调整器1108A至1108D(1108C和1108D未示出)、信号加法器1110A’至1110D’(1110C’和1110D’未示出)，信号加法器1112和换能器204A至204D，每个换能器都位于分离区域中。

在图11中，信号进入和离开区域，其中区域包括车辆的左前(或驾驶员区域-区域1)、右前(副驾驶员区域或区域2)、左后(驾驶员后方的乘客区域或区域3)和右后(副驾驶员后方的乘客区域-区域4)。进入区域的信号是从添加到信息娱乐和车内介质的区域出来的信号的复合(例如，区域1＝区域2+区域3+区域4+信息娱乐/车内介质，其可以或可以不被平移、消退或以其它方式空间化)。在图11中，存在两个加法方框；第一方框是第一后处理器316A或后处理器实例以及通过信号加法器1110A’、1110B’、1110C’和1110D’(1110C’和1110D’未示出)发生的呈现区域的第一总和(例如，Z1＝Z2+Z3+Z4)的加和。第二方框是第一总和之后发生的处理。第二方框是由第一方框呈现的复合信号经历后处理器316B或第二后处理器实例和输入信号加法器1112的情况，其通过信号加法器1112将后处理信号A”到D”添加到信息娱乐或车内介质。

在图11中，可以在第一总和之前和/或之后执行本公开中描述的后处理器或后处理的任何组合。如果在第一总和之前执行，则系统可以执行可以针对一个或多个区域的特定乘员或一组乘员的处理(例如，通过语音变形、用压缩器标准化、自动语音识别1106等)，并且如果在第一总和之后执行，则系统可以为了一个或多个特定区域中的一个或多个收听者的利益而处理复合信号A’到D’(例如，执行取决于噪音的均衡化和/或增益调整，举例来说)。类似地，一些系统可以在第一总和之前或之后静音一个或多个区域，这意味着系统可以静音来自一个或多个特定区域的贡献，阻挡全部区域，或者不产生一个或多个将被发送到一个或多个特定区域中的加强信号。当预定事件发生时，诸如当私人呼叫被接收或放置在一个或多个区域中时，可以发生这种过程。

处理器312至316、602和/或1002可以包括可以设置在单个芯片上，多个设备上或分布在多于一个系统上的单个处理器或多个处理器。处理器312至316、602和/或1002可以是执行计算机可执行指令或计算机代码的硬件，该计算机可执行指令或计算机代码具体实施在存储器604和/或1004中或其它存储器中以执行本文所述的系统的一个或多个特征。处理器312至316、602和/或1002可以包括中央处理单元(CPU)、图形处理单元(GPU)、专用集成电路(ASIC)、数字信号处理器(DSP)、现场可编程门阵列(FPGA)、数字电路、模拟电路、微控制器、任何其它类型的处理器或其任何组合。

所公开的存储器604和/或1004或存储装置可以保留用于实现上述功能的可执行指令的有序列表。机器可读介质可以选择性地但不限于电子的、磁性的、光学的、电磁的、红外的或半导体介质。机器可读介质的非穷尽示例列表包括：便携式磁盘或光盘、易失性存储器，诸如随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或闪存)，或数据库管理系统。存储器604和/或1004可以包括可以设置在一个或多个专用存储器设备上或在处理器或其它类似设备上的单个设备或多个设备。当功能或步骤被说成是“响应”或“响应于”功能或过程发生时，由于功能或消息，设备功能或步骤必然发生。功能或动作仅仅跟随或发生在另一个之后是不够的。此外，当功能指示回声消除时，通过从被发送或接收的信号中减去估计的回声来消除回声。

如本文所述，存储器604和/或1004还可以存储可由合成处理器312、回声和反馈消除处理器314、后处理器316、信号分离器处理器702、娱乐后处理器704执行的计算机代码。计算机代码可以包括可用处理器312至316、602和/或1002执行的指令。计算机代码可以用任何计算机语言写入，诸如C、C++、汇编语言、通道程序代码和/或计算机语言的任何组合。存储器604和/或1004可以将信息存储在数据结构中，该数据结构包括例如呈现或估计回声信号电平的反馈和/或回声消除器系数。

图中所示或所描述的功能、动作或任务也可以响应于存储在非暂时性计算机可读介质中或其上的一组或多组逻辑或指令来执行。功能、动作或任务无关于特定类型的指令集、存储介质、处理器或处理策略，并且可以由单独操作或组合操作的软件、硬件、集成电路、固件、微代码等来执行。在一个实施例中，指令被存储在可移动介质设备上以供本地或远程系统读取。在其它实施例中，逻辑或指令被存储在远程位置以通过计算机网络或通过无线或有形电话或通信线路进行传送。在另外其它实施例中，逻辑或指令可以被存储在给定的计算机内，诸如例如CPU。

该系统和过程加强了语音并增强了它，而不会在车辆中产生失真或增加噪音。车辆可以包括但不限于：汽车、公共汽车、货车、拖拉机、摩托车、自行车、三轮车、四轮车或其它自行车、船舶、潜水艇、船或其它船只、直升机、无人机、飞机或其它飞行器、火车、有轨电车或其它有轨车辆、航天飞机或其它航天器，以及不管是当前存在还是本公开之后产生的任何其它类型的车辆。换句话说，它包括用于运送人或物的设备或结构。

该系统和过程是完全自动化的，使得加强量连续适应实际回声和在车辆车厢内估计的噪音水平，并且信号隔离适应车辆中的实际讲话者。因此，随着经历不同的噪音条件，加强、隔离和娱乐被立即且平滑地调整，并且乘员根本不需要操作任何控制。该系统消除了振鸣和不愉快的可感知的回声效应，并在车内提供主动信号增强和娱乐，并发送给本地或远程无线设备或移动电话。它以低延迟操作。该系统可以在其它汽车系统(诸如信息娱乐处理器和数字信号处理器或DSP)上或其内实现，并与其它系统软件共存和通信。该系统是容易的并快速适应不同的车辆和车厢类型以及不同的声学环境配置。

在查阅附图和详细描述之后，其它系统、方法、特征和优点对于本领域技术人员而言将是或将变得显而易见。所有这些附加的系统、方法、特征和优点旨在被包括在该描述内，在本公开的范围内，并且由以下权利要求保护。

Claims

1.一种通过加强来增强语音的方法，包括：

捕获包含来自由一个或多个换能器再现的信号的回声的一个或多个麦克风信号；

根据所述一个或多个麦克风中的每一个估计多个回声路径；

通过合成器将所述捕获的一个或多个麦克风分解成多个信号路径，所述合成器对所述捕获的一个或多个麦克风信号中的一些添加或进行非线性修改；以及

通过从所述捕获的一个或多个麦克风信号中减去所述多个回声路径中的每一个的回声贡献来响应于所述估计的多个回声路径而处理所述捕获的一个或多个麦克风信号。

2.根据权利要求1所述的方法，其中所述多个回声路径是线性独立的。

3.根据权利要求1所述的方法，其中减去回声路径的所述回声贡献由多个回声消除器实例执行，所述多个回声消除器实例执行在所述多个回声路径中的每一个之间不同的多个自适应规则。

4.根据权利要求1所述的方法，其中所述非线性修改包括动态地调整所述捕获的一个或多个麦克风信号中的一些的增益。

5.根据权利要求4所述的方法，还包括将所述捕获的一个或多个麦克风信号转换成频域。

6.根据权利要求1所述的方法，其中所述非线性修改包括将不相关的信号添加到所述捕获的一个或多个麦克风信号中的一些。

7.一种用机器可执行指令编码的非暂时性机器可读介质，其中所述机器可执行指令的执行用于：

根据所述一个或多个麦克风中的每一个估计多个回声路径；

通过合成器将所述一个或多个麦克风信号分解成多个信号路径，所述合成器对所述捕获的一个或多个麦克风信号中的一些添加或进行非线性修改；以及

通过从由所述一个或多个换能器再现的信号中减去所述回声路径中的每一个的回声贡献来响应于所述估计的回声路径而处理所述捕获的一个或多个麦克风信号。

8.根据权利要求7所述的非暂时性机器可读介质，其中减去所述多个回声路径中的每一个的所述回声贡献由多个回声消除器执行，所述多个回声消除器执行在所述多个回声路径中的每一个之间不同的多个自适应规则。

9.根据权利要求7所述的非暂时性机器可读介质，其中所述合成器被编程以呈现混响和延迟，使得其以减小的增益而重复。

10.根据权利要求7所述的非暂时性机器可读介质，其中所述合成器被编程以呈现合成语音。

11.根据权利要求7所述的非暂时性机器可读介质，其中所述非线性修改包括动态地调整所述捕获的一个或多个麦克风信号中的一些的增益。

12.根据权利要求11所述的非暂时性机器可读介质，还包括将所述捕获的一个或多个麦克风信号转换成频域。

13.根据权利要求7所述的非暂时性机器可读介质，其中所述非线性修改包括对所述捕获的一个或多个麦克风信号中的一些添加音调移位。

14.根据权利要求7所述的非暂时性机器可读介质，其中所述非线性修改包括对所述捕获的一个或多个麦克风信号中的一些添加混响。

15.一种增强车辆中的口头言语的系统，包括：

多个麦克风，其捕获包含来自由一个或多个换能器再现的换能器信号的回声的一个或多个麦克风信号；

处理器，其被编程以根据所述一个或多个麦克风中的每一个估计多个回声路径；

所述处理器进一步被编程以通过合成器将所述捕获的扬声器信号分解成多个信号路径，所述合成器对所述捕获的一个或多个麦克风信号中的一些添加或进行非线性修改；以及

所述处理器被进一步编程以通过从所述捕获的麦克风信号中减去所述多个回声路径中的每一个的回声贡献来响应于所述估计的多个回声路径而处理所述捕获的麦克风信号。

16.根据权利要求15所述的系统，还包括后处理器，其被编程以响应于监测所述车辆的车厢中的噪音的传感器而应用自适应增益。

17.根据权利要求15所述的系统，还包括后处理器，其被编程以响应于监测所述车辆的车厢中的噪音的传感器而应用均衡化。

18.根据权利要求15所述的系统，其中所述非线性修改包括动态地调整所述捕获的一个或多个麦克风信号中的一些的增益。

19.根据权利要求15所述的系统，其中所述处理器进一步被编程以将所述捕获的一个或多个麦克风信号转换成频域。

20.根据权利要求19所述的系统，其中所述转换成频域通过滤波器细发生。