CN105513592A

CN105513592A - 声学脉冲响应模拟

Info

Publication number: CN105513592A
Application number: CN201510649762.9A
Authority: CN
Inventors: 迈克·艾伦·布洛默; 斯科特·安德鲁·安曼; 布丽奇特·弗朗西丝·莫拉·理查森; 弗朗索瓦·沙雷特; 马克·爱德华·波特; 吉恩特·普什科留斯; 安东尼·德韦恩·库普里德
Original assignee: Ford Global Technologies LLC
Current assignee: Ford Global Technologies LLC
Priority date: 2014-10-13
Filing date: 2015-10-09
Publication date: 2016-04-20
Anticipated expiration: 2035-10-09
Also published as: US20160104479A1; CN105513592B; DE102015116989A1; US9761223B2; MX2015014413A; RU2015141805A

Abstract

至少一个话音和存储的车辆声学脉冲响应可以提供到计算装置。计算装置编程为至少部分地根据话音和车辆声学脉冲响应来提供至少一个语音文件。

Description

声学脉冲响应模拟

背景技术

在汽车车厢中可以设置语音识别系统和/或免提呼叫系统。然而，由于车辆环境的极其嘈杂性质，在车辆中实现良好的语音识别和/或良好的免提电话通话质量可能是有问题的。噪音源包括由风、机械和结构部件、轮胎、乘客、发动机、排气装置、暖通空调(HVAC)空气压力等产生的声音。车厢音响效果也影响语音识别和免提通话质量。车辆内部材料、几何形状等，将对用户的声音到负责语音识别和/或免提电话呼叫任务的免提麦克风的传播有影响。

语音识别引擎的训练和评估或者免提通话质量的评估的传统的方法包括在各种测试条件下在各种路面上驾驶车辆。在免提麦克风的输出端录制嵌入在各种车辆背景声音中的人的话音。这些录制然后用于随后的语音识别或用于免提电话通话评估。这种传统的方法是非常耗费时间、逻辑困难、昂贵的，并且充满实验可变性。

附图说明

图1是用于生成车辆语音文件的第一示例性系统的框图；

图2是用于生成车辆语音文件的第二示例性系统的框图；

图3是用于生成车辆语音文件的第三示例性系统的框图；

图4是说明用于生成语音文件的示例性程序的程序流程图。

具体实施方式

这里公开了包括生成在语音识别训练和/或评估、免提麦克风评估等中使用的语音文件的车辆车厢声学脉冲响应的有利系统和方法。目前公开的主题有利地消除了对车辆的长期或持续使用的需求，因为车辆仅需要背景噪音条件和车厢脉冲响应的总体上一次性录制。在那之后，车辆是没有必要的。车厢脉冲响应以及通常也录制的背景噪音，可以与话音相结合，话音可以在实验室环境中实时提供，和/或来自预录的数据库。公开的系统和方法也有潜力生成大的语音数据库，大的语音数据库可以用于包括自动语音识别引擎的训练的许多目的。

图1是用于生成车辆语音文件36的第一示例性系统10的框图。系统10包括用于生成车辆背景声音的子系统11。车辆声音数据库12存储从车辆录制的声音。例如，可以根据例如不同的路面、不同的速度、不同的环境条件等这样的各种参数在试车跑道上驾驶车辆。例如使用位于车辆车厢中的一个或多个位置处的具有麦克风的录制装置，可以录制声音文件以用于这样的参数的各种排列，并且声音文件存储在数据库12中。

可以以已知的方式设置房间均衡器14，以根据设置有扬声器16的房间、实验室等的声学特性来调整从声音数据库12中的文件提供的声音。使用均衡器14的目的是使来自扬声器16的声音具有相同或相似的频谱形状，频谱形状是当数据库12中的录制的声音根据录制声音用的参数提供到车辆中的免提麦克风时数据库12中的录制的声音的频率应该具有的频谱形状。例如，可以根据房间的已知特性调节均衡器14，并且仅当房间配置——即房间音响效果——改变时，重新调整均衡器14。可选地，通过监控到麦克风28的输入并且根据这个输入来调整均衡器14以相对于在房间中播放的来自扬声器16的声音在麦克风28处提供平坦的频率响应，可以实时或实质上实时地控制均衡器14。进一步可选地，房间、实验室等的声学脉冲响应可以被测量，并且可以与数据库12中的车辆声音卷积。

扬声器16用于播放来自数据库12的声音。注意，为了便于描述和说明，图1中包括并且在本说明书中涉及一个扬声器16，但是子系统11可以包括位于房间、实验室等中不同位置处的多个扬声器16。此外，应当理解的是，针对房间中不同位置处的不同的扬声器16，可以不同地调整均衡器14。

系统10进一步地包括用于模拟车辆乘员语音——即用于提供一个或多个话音的子系统17。比如已知的，麦克风28接收通过扬声器16以及头部和躯干模拟器(HATS)26播放的声音。子系统17进一步地包括录制的话音数据库18，录制的话音数据库18包括根据在寂静、非混响的环境中的人类说话者的话音录制的一个或多个声音文件。例如，数据库18中的声音文件可以包括到免提电话系统的命令、用于语音识别训练的样本话音等。声音文件从录制的话音数据库18提供到HATS26。提供HATS均衡器20和房间均衡器22以在声音从HATS26输出之前调整来自录制的话音数据库18的声音文件。使用除房间均衡器22之外的HATS均衡器20的目的是当声音从HATS26输出时防止来自数据库18的话音被HATS26频谱地改变。房间均衡器22与房间均衡器14不同，因为房间均衡器22将提供从HATS口到麦克风的平坦的频率响应，而房间均衡器14提供从扬声器16到麦克风的平坦频率响应。

此外，具有处理器和存储器的计算装置可以使用存储的车辆声学脉冲响应24来调整来自录制的话音数据库18的声音。也就是说，脉冲响应24可以与均衡的录制的话音卷积以在麦克风28处生成来自HATS26的具有频谱整形和由于车辆车厢音响效果而将存在的混响的话音。可以以已知的方式测量声学脉冲响应24，并且，如已知的，声学脉冲响应24描述声学空间或隔声罩的声学特性。

如上所述，一旦通过均衡器20、22并且根据车辆脉冲响应24处理来自数据库18的声音，并且也如上所述，当来自车辆声音数据库12的、由均衡器14处理的声音是通过扬声器16播放时，HATS26可以用于向麦克风28提供录制的话音，从而产生包括由扬声器16产生的车辆声音的输出声音30。输出声音30可以提供给计算机32，即具有处理器和存储器的装置，存储由处理器可执行的指令的存储器用于执行包括在这里描述的步骤的各种步骤。计算机32可以使用输出声音30来生成一个或多个语音文件36。

此外，除使通过麦克风28接收的声音简单地数字化为比如WAV(声音资源文件)文件诸如此类的声音文件之外，计算机32可以执行附加处理。例如，当生成语音文件或文件36的目的是评估车辆中的免提麦克风时，在生成语音文件或文件36期间，免提麦克风脉冲响应34可以应用于输出声音30。如上所述，比如麦克风脉冲响应34这样的声学脉冲响应是已知的，而且可以与输出声音30卷积以生成语音文件36。

可以以各种方式使用语音文件36以评估免提通话质量或自动语音识别系统的性能。例如，通过将语音文件36应用于产生蓝牙输出信号诸如此类的免提电话处理系统，可以评估免提通话质量。这个蓝牙输出信号连同来自话音数据库18的语音文件以及输出声音30，为欧洲电信标准协会(ETSI)标准EG202396-3和TS103106的执行提供必要的信号。其他免提通话质量措施也可以与这些信号一起使用。此外，来自蓝牙输出、声音输出30或语音文件36的语音数据可以供应给自动语音识别引擎，以用受车辆背景噪音、车辆音响效果、免提麦克风频率响应和蓝牙处理影响的语音话音来评估语音识别引擎的性能。语音文件也可以用于自动语音识别引擎的训练。

图2是用于生成车辆语音文件36的第二示例性系统10’的框图。代替HATS26，系统10’利用人类测试者38向麦克风28提供话音。因此，系统10’的背景声音模拟子系统11’省略在系统10的子系统11中看到的房间均衡器14和扬声器16。相反，在系统10’中，声音从车辆声音数据库12直接提供到可以由测试者38戴着的耳机40。向耳机40提供车辆声音的目的是应对所谓的伦巴效应(Lombardeffect)，即其中人类可以调整音量和/或语音的音调以补偿背景噪音的现象。

此外，系统10’的语音模拟子系统17’省略录制的话音数据库18连同均衡器20、22，因为话音是由测试者38提供给“近距离”麦克风28，因此不需要来自数据库18的话音。(注意，可以包括从背景声音数据库12提供到耳机40的声音的耳机均衡从而为耳机提供平坦的频率响应。)。与系统10不同，在系统10’中，麦克风28位于足够靠近说话者的位置，因此不需要系统10中包括的均衡器22。相反，根据从测试者38接收到的语音，从麦克风28提供输出声音30。然后，计算机32可以将声音30与车辆脉冲响应34卷积。然后将卷积的话音添加到来自车辆声音数据库12的车辆背景噪音中。其结果然后与免提麦克风响应34卷积以生成一个或多个语音文件36，语音文件36已经被强加免提麦克风、车辆音响效果和车辆背景噪音的影响。

比如关于系统10描述的那些这样的输出信号也可用于系统10’中的免提通话质量和语音识别评估。系统10’的麦克风28输出总体上相当于系统10的话音数据库18中存储的数据。与车辆脉冲响应24外加来自车辆声音数据库12的车辆背景噪音卷积的输出声音30可以提供与来自系统10的输出声音30的那些信号总体上等效的信号。最后，语音文件36到产生蓝牙输出信号诸如此类的免提电话处理系统的应用将为免提通话质量评估提供必要的信号。此外，来自蓝牙输出、输出声音30或语音文件36的语音数据可以供应给自动语音识别引擎，以用受车辆背景噪音、车辆音响效果、免提麦克风频率响应和蓝牙处理影响的语音话音来评估语音识别引擎的性能。语音文件也可以用于自动语音识别引擎的训练。

图3是用于生成车辆语音文件36的第三示例性系统10”的框图。系统10”省略HATS26和人类测试者38两者。以与上面关于系统10’讨论的子系统11’相似的方式提供背景声音模拟子系统11”。然而，在系统10”中，系统17”与其他变体不同之处在于录制的话音18与车辆脉冲响应卷积并且直接提供给计算机32。在计算机32中，将卷积的话音添加到来自车辆声音数据库12的车辆背景噪音中。产生的声音进一步地与免提麦克风脉冲响应卷积。计算机32从而生成一个或多个语音文件36，语音文件36已经被强加免提麦克风、车辆音响效果和车辆背景噪音的影响。比如关于系统10和10’描述的那些这样的输出信号也可用于免提通话质量和语音识别评估。话音数据库18、与具有来自车辆声音12的添加的背景噪音的车辆脉冲响应24卷积的录制的话音，连同语音文件36到产生蓝牙输出信号的免提电话处理系统的应用，可以为免提通话质量评估提供必要的信号。此外，来自蓝牙输出、声音输出30和/或语音文件36的语音数据可以供应给自动语音识别引擎以用受车辆背景噪音、车辆音响效果、免提麦克风频率响应和蓝牙处理影响的语音话音来评估语音识别引擎的性能。语音文件也可以用于自动语音识别引擎的训练。

图4是说明用于生成语音文件36的示例性程序100的程序流程图。如将要理解的，可以用系统10、10’、10”中的一个或多个中的适当的变体实践程序100。

程序100从框105开始，在框105中车辆声音被录制并且存储在数据库12中。如上所述，在车辆车厢中可以放置一个或多个麦克风，并且可以限定测试参数。这样的参数可以包括车辆速度、试车跑道路面(例如，未铺砌的、光滑的、粗糙的和/或潮湿的等)、以及环境条件(例如，干燥、绵绵细雨、暴雨、雪等)、来自收音机的声音的存在、收音机的音量、乘客谈话的存在等中的一个或多个。可以录制声音持续一段时间并且将其存储在数据库12中以用于这些或其他参数中的一个或多个的一个或多个组合。

接着，在框110中，一个或多个话音作为声音输出30提供到计算机32。如上所述，可以使用话音的一个或多个不同的源，取决于是否正在使用系统10、10’或10”。例如，可以从录制的话音的数据库18提供话音，或可以由测试者38说出话音。此外，如上所述，由测试者38说出的话音、或从数据库18提供到HATS26并且由麦克风28接收的话音，可以被均衡和/或与比如车辆脉冲响应24这样的脉冲响应卷积。因此，输出声音30的源可以是麦克风28和/或数据库18。此外，来自数据库12的背景声音可以提供有话音并且经受如关于系统10所描述的均衡或在与免提麦克风脉冲响应34卷积之后直接添加到卷积的话音中。

接着，在框115中，计算机32生成例如如上所述的一个或多个语音文件36。

在框115之后，程序100结束。

如上面所提到的程序100的结果，可以以各种方式有利地使用语音文件36。例如，可以用来自车辆声音数据库12的不同的声音来生成话音以确定车辆声音的各种参数如何影响免提呼叫、语音识别等。在一个简单的示例中，调查可以确定噪音水平的增加(例如，分贝水平)和语音识别之间的关联。此外，语音文件36可以作为训练数据用于语音识别、用于使免提呼叫命令生效等。

结论

比如这里讨论的那些这样的计算装置通常各自包括指令，该指令由如上面确定的那些这样的一个或多个计算装置可执行的并且用于执行在上面描述的程序的框或步骤。例如，在上面讨论的程序框可以具体表现为计算机可执行指令。

计算机可执行指令可以由利用各种程序语言和/或技术创建的计算机程序编译或解释，程序语言和/或技术包括但不限于单独或组合的Java^TM、C、C++、VisualBasic、JavaScript、Perl、HTML等。通常，处理器(例如，微处理器)例如从存储器、计算机可读介质等接收指令并且执行这些指令，从而执行一个或多个程序，包括在此描述的程序中的一个或多个。使用各种计算机可读介质可以储存和传送这样的指令和其他数据。计算装置中的文件通常是储存在比如存储介质、随机存取存储器等这样的计算机可读介质上的数据集。

计算机可读介质包括任何介质，其参与提供计算机可读的数据(例如，指令)。这种介质可采取多种形式，包括，但不限于，非易失性介质、易失性介质等。非易失性介质包括，例如，光盘或磁盘以及其他的永久存储器。易失性介质包括动态随机存取存储器(DRAM)，其典型地构成主存储器。计算机可读介质的一般形式包括，例如，软盘、软性盘、硬盘、磁带、任何其他的磁介质，CD-ROM(光盘只读存储器)、DVD(数字化视频光盘)、任何其他的光学介质，穿孔卡片、纸带、任何其他的具有孔式样的物理介质，RAM(随机存取存储器)、PROM(可编程只读存储器)、EPROM(可擦除可编程只读存储器)、FLASH-EEPROM(闪速电可擦除可编程只读存储器)、任何其他的存储器芯片或盒式磁盘，或任何其他的计算机可读的介质。

在附图中，相同的附图标记表示相同的元件。此外，这些元件中的部分或全部可以改变。关于这里描述的介质、程序、系统、方法等，应该理解的是，虽然这些程序的步骤等已经被描述为按照某个有序序列发生，但是可以在以与此处所述顺序不同的顺序执行所描述的步骤的情况下实施这些程序。应该进一步理解的是，某些步骤能够同时执行，能够加入其他步骤，或者能够省略这里所描述的某些步骤。也就是说，在这里的程序的说明旨在提供用于说明某些实施例的目的，不应以任何方式被解释为限制要求保护的发明。

因此，应该理解的是，上述说明旨在说明并非限制。通过阅读上述说明，除了提供的示例以外的许多实施例和应用对本领域的技术人员来说将是显而易见的。本发明的保护范围应该不应参照上述说明确定，而是应当参照所附权利要求连同这些权利要求所享有的全部等同范围而确定。可以预期和想到的是未来的发展将出现在这里所述的领域中，并且该公开的系统和方法将结合入这些未来的实施例中。总之，应该理解的是，本发明可被修改和变化并且仅由下面的权利要求所限制。

在权利要求中所使用的全部术语，旨在被给予如本领域技术人员所理解的它们的简单且普遍的含义，除非在这做出与此相反的明确指示。特别地，单数冠词的使用，例如，“一”、“这”、“所述”等应该被理解为描述一个或多个指示的元件，除非权利要求描述了与此相反的明确限制。

Claims

1.一种系统，其包含：

至少一个话音源；

存储的车辆声学脉冲响应；以及

编程为至少部分地根据所述话音和所述车辆声学脉冲响应来提供至少一个语音文件的计算装置。

2.如权利要求1所述的系统，其中用于所述至少一个话音的所述源包括录制的话音的数据库。

3.如权利要求2所述的系统，其中所述至少一个话音作为数字声音文件从所述录制的话音的数据库提供到所述计算装置。

4.如权利要求1所述的系统，进一步地包含用于接收所述至少一个话音的麦克风，其中所述至少一个话音被提供到所述麦克风并且被转换为提供到所述计算装置的数字声音文件。

5.如权利要求4所述的系统，进一步地包含设置成向所述麦克风提供所述至少一个话音的头部和躯干模拟器。

6.如权利要求1所述的系统，进一步地包含存储在车辆运行期间录制的声音的车辆声音数据库。

7.如权利要求1所述的系统，进一步地包含用于提供所述录制的车辆声音的扬声器。

8.如权利要求1所述的系统，进一步地包含存储的免提麦克风脉冲响应，其中所述处理器进一步地编程为至少部分地根据所述免提麦克风脉冲响应提供所述至少一个语音文件。

9.如权利要求1所述的系统，包含至少一个设置用于接收和调整所述至少一个话音的均衡器。

10.如权利要求1所述的系统，其中在所述话音提供到所述计算装置之前，所述车辆声学脉冲响应与所述话音卷积。

11.一种方法，其包含：

在计算装置中接收至少一个话音，所述计算装置具有处理器和存储器，所述存储器存储由所述处理器可执行的指令；

在所述计算装置中接收存储的车辆声学脉冲响应；以及

在所述计算装置中执行指令以至少部分地根据所述话音和所述车辆声学脉冲响应来提供至少一个语音文件。

12.如权利要求11所述的方法，其中用于所述至少一个话音的源包括录制的话音的数据库。

13.如权利要求12所述的方法，进一步地包含从所述录制的话音的所述数据库向所述计算装置提供作为数字声音文件的所述至少一个话音。

14.如权利要求11所述的方法，进一步地包含使用用于接收所述至少一个话音的麦克风，其中所述至少一个话音被提供到所述麦克风并且被转换为提供到所述计算装置的数字声音文件。

15.如权利要求14所述的方法，进一步地包含提供头部和躯干模拟器，所述头部和躯干模拟器设置成向所述麦克风提供所述至少一个话音。

16.如权利要求11所述的方法，进一步地包含提供车辆声音数据库，所述车辆声音数据库存储在车辆运行期间录制的声音。

17.如权利要求11所述的方法，进一步地包含提供扬声器，所述扬声器用于提供所述录制的车辆声音。

18.如权利要求11所述的方法，进一步地包含：

提供存储的免提麦克风脉冲响应；以及

至少部分地根据所述免提麦克风脉冲响应来提供所述至少一个语音文件。

19.如权利要求11所述的方法，进一步地包含提供至少一个均衡器，所述均衡器设置成接收和调整所述至少一个话音。

20.如权利要求11所述的方法，其中在所述话音提供到所述计算装置之前，所述车辆声学脉冲响应与所述话音卷积。