CN101336431B

CN101336431B - 检测语音可识别度的方法

Info

Publication number: CN101336431B
Application number: CN200680052047.6A
Authority: CN
Inventors: D·M·希尔兹; P·J·尊斯特
Original assignee: Honeywell International Inc
Current assignee: Honeywell International Inc
Priority date: 2005-12-28
Filing date: 2006-12-21
Publication date: 2013-03-06
Anticipated expiration: 2026-12-21
Also published as: US8103007B2; US20070147625A1; EP1966726A2; CA2635735A1; WO2007078991A3; WO2007078991A2; CN101336431A

Abstract

一种为检测并纠正不可接受水平的语音可识别度，而评测接收到的测试音频的系统和方法，该测试音频在感兴趣的空间或者区域被发送或接收。在语言信号的呈现过程中，通过变更速率、音调、振幅和频带能量来改善可识别度。

Description

检测语音可识别度的方法

技术领域

本发明涉及一种评测在某区域的由个人系统提供的音频输出的质量的系统和方法。更具体而言，在特定区域，评测和处理所提供的音频的可识别度以便改善可识别度。

背景技术

已知由语音公告系统发射或发送到某区域的语音或音频并不仅仅因为其是可听到的就必然是可识别的。在很多场合，例如体育场、机场、建筑物等，发送到某个区域的语音可能足够大到完全可以听到，但是并不可识别。这种顾虑通常适合于语音公告系统以及与消防安全、建筑或者区域监控系统相关的系统。

存在把语音消息发送到依照基于性能的可识别度测量进行监控的区域的需求，在一个标准中提出了这种需求，即，NFPA 72-2002。已知，尽管例如会议室或者办公区域这种感兴趣区域可以提供非常良好的声学效果，一些如上文所述的空间，显示出降低了语音可识别度的声学特性。

此外，被监控的区域可能包括建筑物的一个或多个楼层中的空间，或者显示出动态声学特性的建筑物。建筑物空间受制于随时间发生的改变，例如表面处理和精整的改变，办公室的重新布置，会议室的提供和礼堂的采用等。

2003年12月18日提交的名为“语音公告系统的可识别度测量”并于此转让给受让人的一份美国专利申请No.10/740200，其公开并要求保护了一种方法。在此引入该申请作为参考。

存在以下持续的需求，即测量建筑物空间的某些声学属性以便进行语音信息的纠正。

因此，持续存在以下需求，即一种对经过改善的、更有效的方法和系统的当前需求，该方法和系统不仅测量感兴趣区域的语音可识别度，而且能执行语音信息的纠正以便改善这种可识别度。按以下方式得以引入一些或者全部这种纠正能力是可取的，即利用有意地广泛分布在检测区域的环境条件检测器。优选地，可以把这种语音消息纠正引入到当前安装的检测器中，并且也可以有成本效益的作为升级引入到现有系统的检测器中以及其它类型的模块中。

发明内容

本发明公开了如下实施方案：

方案1.一种检测语音可识别度的方法，包括：

按预定时间间隔感测区域中的环境声音；

分析感测到的环境声音；

重叠环境声音和多个具有预定特性的测试音频信号；

感测被重叠的环境声音；以及

确定区域中的语音可识别度是否降低到超出了可接受的标准。

方案2.如方案1所述的方法，其中，所述确定步骤包括了分析环境声音声压水平。

方案3.如方案1所述的方法，其中，所述确定步骤包括了分析环境频域特性。

方案4.如方案1所述的方法，该方法包括重叠环境声音和被调制噪音。

方案5.如方案4所述的方法，该方法包括调制噪音的振幅。

方案6.如方案5所述的方法，该方法包括按预定时间间隔提供振幅已调制的噪音。

方案7.如方案5所述的方法，该方法包括提供预定周期的振幅已调制的噪音。

方案8.如方案7所述的方法，该方法按预定时间间隔提供振幅已调制的噪音。

方案9.如方案7所述的方法，振幅调制超过信号幅值的50％。

方案10.如方案7所述的方法，振幅调制超过信号幅值的90％。

方案11.如方案7所述的方法，其中，所述确定步骤包括了分析最大可获得声压水平。

方案12.如方案10所述的方法，其中，所述确定步骤包括了分析接收的音频测试信号的下降边特性来测量区域中的衰减时间。

方案13.如方案7所述的方法，其中，采用预定的最大可获得声压水平来发射被重叠的测试信号。

方案14.如方案7所述的方法，采用至少一预定的最小频带宽度来发射被重叠的测试信号。

附图说明

图1是根据本发明的系统的方框图；

图1A是根据本发明的音频输出单元的方框图；

图1B是备选的音频输出单元；

图1C是可用于图1系统的示例公用控制单元的方框图；

图2A是一种可用于图1系统的类型的检测器的方框图；

图2B是可用于图1系统的感测和处理模块的方框图；

图3A，B一起作为根据本发明的方法的流程图；

图4是说明在何处纠正是可能的状态空间图。

具体实施方式

尽管本发明的实施例可以采用多种不同形式，按如下理解在附图中展示了并在此详细地说明了其具体的实施方案，即当前的公开是作为对本发明原理的例示，而并非把本发明限制到所描述的具体实施例。

根据本发明的系统和方法检测并评测源自一个或多个传感器例如扩音器的音频输出用以测量建筑物空间或被监控区域的某些声学属性。分析的结果可以用来确定发送到该区域的语音信息会由于空间的声学属性降低到何种程度以及是否需要对这种语音信息进行纠正。

根据本发明的一方面，广泛布置在一个区域的一个或多个声检测器按预定的时间周期检测并量化输入的预定可听测试信号。例如，可以按特定的时间间隔发射测试信号至该区域。对接收信号以及残留的环境声音的分析可以包括建立频谱分布和环境噪音水平。回响或者衰减时间可由对具体测试信号的结尾因素的分析确定。

根据本发明的另一方面，可以考虑把音频发送至该区域的扬声器和放大器链的特性。可以评测包括最大可获得声压水平(SPL)和已检测音频中呈现的频带的特性。可以作出以下确定，即空间的噪音和回响特性是否会把发射的语音的可识别度降低到其不能被补偿的程度。确定的结果可被系统操作员利用并且可用于手动和/或自动的纠正方法中。

根据本发明的系统和方法提供了一种自适应方法用于随时间监控空间或区域的特性。各放大器和输出传感器组合的性能随后被评测以便确定是否在各自的空间或区域提供了所需水平的语音可识别度。

根据本发明的另一方面，提供了系统和方法，通过以下方式用于改善空间或区域的语音可识别度，即降低语音的速率和/或把放大的语音信号的能量集中到对人的理解来说最重要的频带。这可以包括对于音调(pitch)、节拍、频带和声压水平的独立控制。

在本发明的另一实施例中，评测从输入的环境噪音中提取的频带能量信息用以决定特定频带中对语音可识别度重要的能量水平是否是不希望的。这种基于性能的测量随着可能改变的时间和空间为可识别度特性提供了实时反馈。感兴趣的频带中的能量水平可能是可接受的，这样在一个空间构形中不需要纠正。然而，如果空间发生改变，在那些特定频带中的能量水平可能对于要保证可识别的语音来说是不可接受的。

在本发明的另一方面中，如果所测量的空间的回响特性足够长，可以暂时地把发送到区域的音频语音的呈现伸展一适合于改善可识别度的量。根据本发明的系统中可用的装置可以集成一个或多个数字信号处理器和各自的模块用以在把信号提供给放大器和输出传感器链之前时间上和频谱上调整信号。根据任意允许的系统分区都可以提供分析和纠正。

而且，根据本发明，可以分析存储的先前获得的频带能量数据，先前获得的数据。可以评测对语音可识别度重要的预定频带中的能量水平。如果对于可识别的语音来说是可接受的，发送可接受的可识别度确定给相关的监控系统。

如果预定频带中的能量水平对于可识别的语音来说是不可接受的，采用各自的编程处理器或数字信号处理器用以增强对语音识别重要的频带来改善可识别度，可以在呈现之前调整语音信号中的频谱。

因而，依据此处的系统和方法可以通过以下方式改善语音可识别度，即降低其速度，调整其音调，调整其频谱，和/或调整其声压水平(SPL)。速度、音调、频率和SPL的变化可以动态调整以适合于特定区域的环境声音情况。例如，语音输出系统可能在普通办公环境中展示出一组特性和在人们试图离开空间时反应出空间中的环境噪音水平变化的另一组特性。

此外，本系统和方法寻求动态确定监控空间的声学属性，该监控空间与提供紧急语音公告信息相关而且满足语音可识别度的基于性能的标准。这种监控也可以给那些具有以下声学属性的空间提供反馈，即声学属性是边缘的并且没有对语音信息进行声学纠正时则可能不符合这些标准。

图1说明了对本发明进行实例化的系统10。系统10的至少一些部分位于评测语音可识别度的区域R。可以理解，区域R可以是建筑物的部分或者整个楼层，或者多个楼层。建筑物的类型和/或区域或空间R的大小都并非对本发明的限制。

系统10可以采用多个语音输出单元12-1，12-2...12-n。语音单元12-n的数目或者它们在区域R中的位置都并非对本发明的限制。

语音单元12-1，12-2...12-n可以通过有线或无线媒介16与置换控制单元20进行音频输出和监控系统的双向通信。可以理解，单元20可以是部分的或集成了区域控制和监控系统，该系统可能包括语音公告系统、火警系统、安全系统和/或建筑物控制系统，所有这些都不是限制。应当理解，单元20的确切细节不是对本发明的限制。还应理解，语音输出单元12-1，12-2...12-n可以是连接至上文所述类型的火警系统的语音公告系统的一部分，其可以是监控系统20的一部分。

其它的音频输出单元可以包括通过线缆18连接到单元20的扬声器14。扬声器14也可以被用作扩音系统。

系统10还可以集成包含成员22-1，22-2...22-m的多个音频感测模块。音频感测模块或单元22-1...-m还可以通过有线或无线媒介24与单元20进行双向通信。

如上文所述并且更具体地，音频感测模块22-i对源自一个或多个语音输出单元例如单元12-i，14-i的输入音频作出响应并且至少部分地执行其处理。本领域的技术人员可以有以下理解，即下文描述的处理可以由一些或所有模块22-i完全执行。备选地，模块22-i可以执行处理的初始部分并且通过媒介24把信息发送给系统20以进一步处理。

系统10还可以集成多个环境条件检测器30。多个30的成员，例如30-1，-2...-p可以通过有线或无线媒介32与单元20进行双向通信。应当理解，多个22的成员和多个30的成员可以通过公共媒介进行通信，所有都不加限制。

图1A是多个语音输出单元12的代表性成员12-i的方框图。单元12-i集成了输入/输出(I/O)接口电路40，该接口电路40连接至有线或无线媒介16用以与监控单元20进行双向通信。

单元12-i还集成了控制电路42，该控制电路42可以包括可编程处理器42a和辅助控制软件42b以及数字信号处理器46a。存储单元46b可以连接到那里。

发送到区域R的音频消息或通信经由放大器50连接到音频输出传感器52。音频输出传感器52可以是多种扩音器中的任一或类似的，所有都不加限制

图1B说明了多个14中的代表性成员14-i的细节。单元14-i可包括接线终端元件80，功率级选择跳线82和音频输出传感器84.

图1C是单元20的示例方框图。单元20可集成输入/输出电路93a，b，c和96用以与各自的有线/无线媒介24、32、16和18通信。单元20还可以集成可与非易失性存储器单元90进行通信的控制电路92、数字信号处理器94及可编程处理器98a，b，辅助存储单元98b及控制软件98c。应当理解，对图1C中的单元20的布局说明仅仅是示例性的而不是对本发明的限制。

图2A是多个音频感测模块22的代表性成员22-i的方框图。多个中的每一个成员，例如22-i，包括外壳60，该外壳60带有至少一个可以实现为麦克风的音频输入传感器62-1。此外，外侧的音频输入传感器62-2和62-3可以和传感器62-1集成到控制电路64。控制电路64可以包括可编程处理器64a和相关控制软件64b，如下文所述，用以实现音频数据采集处理以及评测和分析处理以便确定是否需要对传感器62-1接收的语音或音频信号进行纠正。模块22-i与接口电路68双向通信，该接口电路68通过有线或无线媒介24轮流与系统20进行通信。

图2B是多个30的代表性成员30-i的方框图。成员30-i具有外壳70，该外壳70可以带有在其上的可以实现为麦克风的音频输入传感器72-1。其它的不在外壳70上的音频输入传感器72-2和72-3可以和传感器72-1集成到控制电路74。

控制电路74可以被实现为带有和包括可编程处理器74a和相关控制软件74b。检测器30-i还集成了环境条件检测器76，该环境条件检测器76可以检测烟、火焰、温度、气体，所有不限。检测器30-i与接口电路78双向通信，该接口电路78通过有线或无线媒介32轮流与监控系统20进行通信。

如随后讨论，处理器74a及相关控制软件74b不仅可以处理源自检测器76的关于各自的环境条件的信号，还可以处理源自一个或多个传感器72-1，-2或-3的音频相关信号，所有不限。如随后描述，处理可以执行评测和关于以下的确定，即接收到的音频的特性和质量和纠正是否是必须的和/或可行。

图3A是流程图，其说明根据本发明的评测处理100的步骤。响应接收到的音频，处理100可以完全或者部分地在一个或多个模块22-i或检测器30-i上进行。它也可以完全或者部分地在单元20上进行。

图3B说明根据本发明的纠正处理200的步骤。响应处理命令和源于单元20的音频信号，处理200可以完全或者部分地在一个或多个模块12-i上执行。它也可以完全或者部分地在单元20上进行。方法100，200可以连续地或独立地执行，而不背离本发明的精神和范围。

在步骤102，检查选中区域有无先前所加的音频纠正。如果在选中区域中，没有纠正被加在系统呈现的音频上，则可能执行常规方法，该常规方法定量地测量区域的共同可识别度等级(CIS)，这可以被本领域技术人员所理解。如果纠正被加到呈现在选中区域的音频信号中，则在步骤104中，利用动态修正的方法来测量CIS。纠正就被加到系统呈现在选中区域的所有音频信号上，包括语音公告、测试音频信号、被调制噪音信号等，所有不限。测量CIS的动态修正的方法调整用来评测测试音频信号的可识别度的标准以补偿当前所加的纠正。

对任一CIS方法，本领域技术人员可以理解，预定声音序列可以由一个或多个语音输出单元12-1，-2...-n和/或14-1，-2...-n或系统20生成，所有不限。附带声音可以由例如多个22的各自的成员，例如模块22-i或者多个30的成员，例如模块30-i来进行检测。对任一CIS方法，如果测得的CIS值显示选中的区域没有降低语音信息，则不需要进一步的纠正。

本领域技术人员可以理解，各自的模块或检测器22-i，30-i检测源自选中区域的输入音频，并且这种音频信号可能或者由步骤106中的环境音频声压水平(SPL)产生，而没有由语音输出单元12-1，-2...-n和/ 或14-1，-2...-n输出的任何音频产生，或者由步骤108中的源自一个或多个语音输出单元例如单元12-i，14-i的音频信号产生。检测到的环境SPL可以被存储。检测到的音频至少部分由空间或区域R中的地理排列确定，这是关于各自的语音输出单元12-i，14-i的模块和检测器22-i，30-i的地理排列。空间或区域中的声学影响并且可能降低了该输入音频的可识别度，该空间或区域至少延伸至各自的语音输出单元例如12-i，14-i和各自的音频接收模块或检测器例如22-i，30-i之间。

各自的检测器例如61-1或72-1把输入音频连接到处理器例如分析数据，典型接收音频的处理器64a或74a。例如，如步骤108，响应预定声音序列，可以分析选中区域的接收声音的最大SPL，该最大SPL由语音输出单元例如12-i，14-i生成，以及分析步骤112的频域中出现的能量峰值。可以存储输入音频的检测到的最大SPL和峰值频域能量数据。

各自的单个处理器或多个处理器可以为步骤108中生成的预定听觉噪音的呈现分析检测到的声音。例如，所有都不加限制，输入的预定噪音可以是预定字符的100％的振幅被调制噪音，该预定字符具有预定长度和周期。步骤114和116中，各自的空间或区域衰减时间可以随后被确定。

依据以下特性可以确定噪音和回响的特性，即与最大可获得声压水平和频带能量相关的典型语音输出单元12-i，14-i的各自的放大器和输出传感器例如50，52的特性。步骤120中，作出关于以下的确定，即语音的可识别度是否是被降低但是仍然可接受的，不可接受但是可以补偿的，或者不可接受并且不可以补偿的。可以把评测结果通知给监控系统20。

依据以上说明及图3A的说明，在步骤102中检查纠正标志位的状态。如果被设置，则对于多个22，30的一个或多个成员，依据在先引用的美国专利申请号10/740,200，采用步骤104中的适当的共同可识别度等级(CIS)方法确定可识别度测试分数。如果步骤104中确定的CIS分数显示选中区域中的语音信息是可识别的，则处理100结束。

在步骤106中，可以测量环境声压水平，该环境声压水平与输出自选中的一个或多个模块或检测器22，30的测量结果相关。音频噪音例如100％的振幅被调制噪音，可以由至少一个语音输出单元12-i或扬声器14-i产生。在步骤110中，可以测量关于一个或多个选中来源的最大声压水平。在步骤112中，可以测量输入噪音的频域特性。

在步骤114中，突然中断噪音信号。在步骤116中，测量先前突然中断的噪音的回响衰减时间。步骤118中，分析噪音和回响的特性，这对本领域技术人员来说是可以理解的。步骤120中进行如下确定，即关于纠正是否是可行的。如果否，处理终止。如果纠正是可行的，则设置纠正标志位，执行步骤122和纠正处理200，参见图3B。可以理解，可以通过多个22的一些或全部成员以及多个30的一些或全部成员来执行处理100。而且，可取地，部分处理可以由监控单元20执行，所有这些都没有限制。方法100提供了在一段时间监控空间的特性的自适应方法，这样可以进行以下确定，即语音输出单元例如单元12-，14-i提供的覆盖，考虑空间的特性在内，把可识别的语音提供给了区域R内的个人。

图3B是处理200的流程图，该处理200涉及执行可行的纠正。

在步骤202中确定最优纠正。如果在步骤204中确定的当前和最优纠正不一致，则执行纠正。在步骤206中，设置确定的最优SPL纠正。步骤208中，随后执行确定的最优频率均衡纠正。在步骤210中，还可以设置确定的最优速度纠正。在步骤212中，还可以设置确定的最优音调纠正。在步骤214中，可以存储确定的最优纠正设置。随后，处理200可以在步骤216终止。

可以理解，响应源自系统20的输入音频或者其它音频输入源，可以通过一些或全部模块12来执行方法200的处理，而不背离本发明的精神和范围。此外，也可以在监控单元20的备选实施例中执行该处理。

本领域技术人员会理解，调整输出音频信号的命令或信息可以连接到各自的语音输出单元例如单元12-i，或者单元20可能使得音频输出信号适合于语音输出单元例如14-i。那些单元将依次把调整后的语音信号提供给各自的放大器和输出传感器组合50，52。

本领域技术人员应理解，当影响可识别度的可设置值可以被设置为导致语音公告的改善可识别度的值时，选中区域中的纠正是可能的，该可识别度是源自语音输出单元12-i或扬声器14-i的语音公告的可识别度。图4描述了在处理100中测得的参数组下的典型状态空间，在其中纠正是可能的。本领域技术人员还应理解，对于被选中进行可能的纠正的不同区域，描述的空间可能改变。还可以理解，处理100和200可以被初始化并在没有任何人为干预的情况下自动地充分地执行。

从前文所述，可以得知，大量变更和修改可能是有效果的而不背离本发明的精神和范围。应当理解，关于在此说明的具体的装置不应理解或推断认为是限制。所附的权利要求覆盖了所有落在权利要求要求范围的这种修改。

Claims

1.一种检测语音可识别度的方法，包括：

按预定时间间隔感测区域中的环境声音；

分析感测到的环境声音；

重叠环境声音和多个具有预定特性的测试音频信号；

感测被重叠的环境声音；以及

2.如权利要求1所述的方法，其中，所述确定步骤包括了分析环境声音声压水平。

3.如权利要求1所述的方法，其中，所述确定步骤包括了分析环境频域特性。

4.如权利要求1所述的方法，该方法包括重叠环境声音和被调制噪音。

5.如权利要求4所述的方法，该方法包括调制噪音的振幅。

6.如权利要求5所述的方法，该方法包括按预定时间间隔提供振幅已调制的噪音。

7.如权利要求5所述的方法，该方法包括提供预定周期的振幅已调制的噪音。

8.如权利要求7所述的方法，该方法按预定时间间隔提供振幅已调制的噪音。

9.如权利要求7所述的方法，振幅调制超过信号幅值的50％。

10.如权利要求7所述的方法，振幅调制超过信号幅值的90％。

11.如权利要求7所述的方法，其中，所述确定步骤包括了分析最大可获得声压水平。

12.如权利要求10所述的方法，其中，所述确定步骤包括了分析接收的音频测试信号的下降边特性来测量区域中的衰减时间。

13.如权利要求7所述的方法，其中，采用预定的最大可获得声压水平来发射被重叠的测试信号。

14.如权利要求7所述的方法，采用至少一预定的最小频带宽度来发射被重叠的测试信号。