CN1178596A

CN1178596A - 严酷环境中的声音识别方法及实现的装置

Info

Publication number: CN1178596A
Application number: CN 97190039
Authority: CN
Inventors: 克里斯蒂安·格利; 多米尼克·帕斯托尔; 热拉尔·雷诺
Original assignee: Thales Avionics SAS
Current assignee: Thales Avionics SAS
Priority date: 1996-01-26
Filing date: 1997-01-24
Publication date: 1998-04-08

Abstract

本发明的系统的特征在于,它包括一个链接在声波语音解码装置(11)及声音识别装置(3)上的采集装置(5),(11)本身链接在一个识别监控装置(6)上,(3)本身链接在词典(12)、识别监控器(6)及句法描述装置(7)上,(7)又链接在对话存储装置(8)上,后者又链接在监控器(6)上。

Description

严酷环境中的声音识别方法及实现的装置

本发明涉及在“严酷”环境中的声音识别方法及声音命令系统，这便是说声音不仅受到噪声还受到可能作用在用户身上的各种物理的与生理的因素严重干扰。

在诸如军用飞机的坐舱中经常发生的严酷环境中，用于声音捕捉、复原及处理的装置不是最好的，甚至大多数是粗劣地实现的。机组人员与其它说话者之间的无线通信质量低劣。用户与若干其它说话者(其它的飞机、地面台、机组其它成员、再次返回的他们自己的声音)通信。这些通信是单声道的、受干扰影响的、相当不清晰的并且不分层次的。再者，各种物理与生理因素可能干扰用户的能力。这些因素中特别要注意的是飞机的负载系数、氧气面罩、高呼吸压力、飞行员紧张状态。这些低劣通信加上环境噪声明显地增加机组人员的疲劳，甚至损害他们的健康。他们所带的头盔很难防止这些噪声。他们力图使通信在一定程度上更清晰的唯一可利用的措施只有调节声级的控制，这是远远不能满足的。实现这些声音通信的各种装置是不一样的并且它们的特征不总是完全兼容的。再者，机载系统不断增长的复杂性必然带来操作员的超负荷工作、引起紧张、注意力不能集中并最终丧失效率，这对于在最佳状态下执行任务特别有害。在这一上下文中，带有高识别率的声音命令装置特别有利，因为这使得不转移操作员的全部注意力而以相对直接与自然的方式控制复杂的系统成为可能，这远不是使用触摸表面、键盘、多位置按钮时的情况的事情。

本发明的主题为声音命令系统，尤其是对于噪杂环境，能用数百字数量级的词汇表及可包含10个字以上的短语达到高识别率(通常95％)。

本发明的方法的特征在于包含执行粗识别，然后在与存储的声音参照比较之后，提出识别出的N条最佳短语，通过将它们与可能的对话模型比较及执行声波语音解码，从这N条最佳短语中选出最可能的短语。

按照本发明的声音识别系统包括链接在声波语音解码装置以及声音识别装置上的采集装置，该解码装置本身又链接在识别监控装置上，声音识别装置本身又链接在词典、识别监控器及句法识别装置上，后者又链接到对话存储装置上，对话存储装置链接在监控器上。

在阅读了用非限制性示例方式所取的及用附图所例示的实施例的详细描述之后，将更好地理解本发明，附图中：

单一的图是按照本发明的声音命令系统的方框图。

下面参照飞机电话机系统描述本发明，尤其是对于战斗机，但当然不限于这一应用并且在其它类型的交通工具(陆上或海上)及固定的装置中也能实现得一样好，尤其是在诸如冶金工厂等非常噪杂的环境中。在本例中，这一系统的用户为战斗机的飞行员，但当然可以同时有若干用户，特别是在民用运输机的情况中，可按对应的数目提供各用户专用的装置。

声音识别系统1由用名词“声音命令开/关按钮”表示的按钮2操作。需要这一按钮2来区分通信信号(机上内部通信、无线电通信)与用户发布的语音命令。按压这一开/关触发声音识别装置3的算法程序。这一装置3连续地接收麦克风样本帧(其通过可能是总线的导线4而源自麦克风电路(未示出))并将它们贮存在存储器5的缓冲区中(能存储诸如150ms说话)，从而该电路能搜索按压按钮2之前的发音的起点。

装置3链接在识别监控器装置6上并经由句法识别装置7到用于存储与检验对话模型的装置8上，后者本身又链接在装置6上。装置6通过接口9并通过总线10链接在未示出的管理处理器上。装置1还包含将存储器5连接在监控器6上的声波语音解码装置11、链接在装置3上的声音参照词典12以及将监控器6链接在总线4上的用于基于正文合成的装置13。词典12通过总线4链接在接口14上，后者有利地与存储有关于拥有本卡的说话人的参数的定制存储器卡15合作，以便优化词典12的声音参照。当然，读卡器与卡可用任何等效装置替代(插接ROM、远程加载等)。

装置3将在它从存储器5接收的样本的基础上识别出的一条或多条短语提供给监控电路6。装置3以传统方式含三部分；采集、参数化与模式识别。对于16位宽的字，源自总线4的声音信号的采集是有利地在12KHz的抽样频率上进行的。

参数化进行声音信号的特征化/压缩：从一帧256个16位样本，提供8个8位对数倒频谱系数。用活动检测与噪声抑制方法，在噪杂环境中有利地补充与改进了这一阶段。该检测允许精确定位话音的起始与结束，以便克服发音与开/关的按/放之间的同步问题。算法是基于发音(搜索谐波结构)及不发出的声音(不严格地称作摩擦音)的检测的，并通过一个评价阶段来增强，使之有可能来定义发音的结构；母音核及这一母音核前面与后面的摩擦音部分。在下述两级上包含噪声抑制：在检测阶段中，以带除滤波(白化)的形式来提高检测的锐度，在“传统的”参数化链中，以频率滤波的形式(例如WIENER滤波)来提高严酷环境中的参数化质量。噪声抑制采用双噪声建模：用自适应滤波或线性预测的自回归建模，为频率滤波估计平均噪声频谱的二次瞬时。应尽可能在发音的局部搜索噪声帧，以便保存作为对噪声的固定性假设的第一近似。无论选择哪种会话模式，按钮2的使用允许实现选择噪声帧的算法，该算法是与声音识别与麦克风噪声抑制一致的。

模式识别执行从参数化中产生的频谱与操作员在学习阶段建立的并在飞行前加载进存储器中(单一说话者声音识别)的“参照”频谱之间的动态比较(距离计算)。取决于这些计算的结果，有可能采用由识别监控模块分类的若干种解，而不是单一的解(模式识别算法意义上的识别出的“最佳”短语)。再者，用来建立声音命令语言的句法可包含带有复杂性较小的树结构的嵌套的子句法：在受损害的条件下，从而能以高性能识别保持“声音命令”功能性，消除了由过份大的分支因数引起的误差。因此，飞行员能根据其任务的类型与变化来选择工作句法，这一句法变化也能根据例如链接在监控器上的传感器(惯性装置、冲角探测器等)在负载系数下变化中的状态自动作出。

装置8的工作为计及发出的命令及飞行员/机器交互作用的“操作前后关系”(最近给出的命令、飞机的配置、在战斗机情况中的任务方案等)，以便以确定性的方式加权字之间的句法弧线。这一加权计及各种因素，诸如：飞机的导航与武器系统的配置、飞机的物理传感器的状态(惯性装置、负载系数等)、对话的历史、词典12的内容、对话与任务的建模、在语音规则基础上进行第一次排除的声波语音解码、识别出的各种短语等。这些操作是由监控器6监控的。从而，本发明有可能在上面定义的“严酷”环境中优化声音识别。从而，本电路执行“智能的”上下文动态处理，以便消除识别二义性，相对于其它发音优选或排斥某些发音(例如，它避免负载系数下确定的选择频率，即当飞行员没有他的习惯发音时)。

声波语音解码是与信号的传统参数化/识别并行执行的。目的为确定声音信号的语音学成份，及分配给各信号段一个音素的标记，或者至少从一类音素的标记开始：radar包含[r][a][d][a][r](发流音、发音、发爆破音、发音、发流音)。从而将另一条信息提供给监控器，使之能排除从距离计算观点识别为类似的但在语音上是不相容的某些短语(例如“arto”与“stop”)。

监控器装置6负责将确认的命令提供给接口9。这一命令应是识别出的最佳短语，识别考虑到了来自飞机传感器(惯性装置、负载系数传感器、冲角传感器等)的信息、对话模型(8)及声波语音解码(11)。

基于正文的合成装置13用声音合成生成识别出的命令，以便通过总线4将其送至飞行员的收听反馈电路。有利地，这一电路并不使用存储在存储器中的需要时恢复的数字化字，而是与之相反，在拼字法组成的基础上重建识别出的发音的声波语音成分。

概括地说，系统1的各种识别装置的作用如下：装置3在存储在5中的发音的基础上用本质上已知的方法(例如用信号参数化及模式识别)执行粗略识别，然后在与存储在12中的声音参照比较之后，提供属于给定的句法的(在7中核实的)识别出的N个最佳短语。

声波语音解码装置11进行本质上已知类型的分析(例如通过实现一组滤波器及搜索特征语音特点)，然后提供刚发音的字的或多或少地更详细的语音结构。这一语音结构的检测可以例如只简单地包含区别发声区与不发声区。

装置8使更新句法库成为可能，在该库中进行对识别出的短语的搜索，这便是说收窄或加宽这一库。更新是作为下述参数中至少一个函数进行的：运载工具的参数(如果这一工具为飞机，则为冲角、负载系数等)，正在进行的任务的类型与阶段(如果这是战斗机：巡航、攻击、起飞、接近等)、前面执行的声音命令的历史(并从而已成功地识别的)以及有可能取决于装置装置11的可能性发音的语音结构。有利地，装置8能在识别错误或操作员出现错误后允许重新使用口声命令而无须完全重复该命令，(例如，如果识别出的短语为：“在左显示器上显示发动机页面”，操作员可以下述方式纠正：“不，雷达页面”或“不，右显示器”)。

装置6负责在装置3、11与8提供的信息的基础上作出关于识别的短语的决定(该短语将成为一条口述命令)。这一装置6将识别的短语编码成装置9与13能理解的一串符号。接口装置9负责将对应的命令转发给与发布的口述命令相关的设备。装置13在例如没有与要持行的动作关联的视觉检验时，有利地负责用声音复述对应于该命令的行动的确认。再者，装置6通知装置8它所作出的决定，用于更新所发布的命令的历史。

上述装置所执行的声音识别，例如能归结如下：操作员按下开/关2，说出一句短语，在5中采集(存储)该短语。在3与11中处理与识别得出的信号。将分析结果提交给监控器6。用7选择N条最佳短语(最像装置3的识别结果的短语)。装置6在11提供的关于语音结构(发音、摩擦音)的信息的协助下，在这N条最佳短语的基础上作出决定。监控器6更新命令历史，补充8的内容。后者还执行活跃的句法的加权：例如，在选择无线电台的情况中，在下一条命令的发音中优选对应的命令。在本例中，将监控器6所选择的命令转送给接口9而不是给装置13，由于结果是能用视觉检验的(例如，显示所选择的无线电信道)。

Claims

1、严酷环境中的声音识别方法，其特征在于包括执行粗略识别，然后与存储的声音参照比较之后提供识别出的N条最佳短语，通过将它们与可能的对话模型比较及通过执行声波语音解码，从这N条最佳短语中选择最可能的短语。

2、按照权利要求1的方法，其特征在于对话模型是在识别的操作前后关系的基础上选择的。

3、按照权利要求2的方法，其特征在于对话模型是通过加权这些字之间的句法弧线而选择的，加权除了考虑到环境噪声之外，还有以下因素中至少一种：关于周围条件的物理量的传感器状态、对话的历史、声音参照词典的内容、对话及对话涉及的任务的建模、在语音规则基础上执行第一次排除的声波语音解码、已经识别出的各种短语。

4、按照权利要求3的方法，应用在战斗机上，其特征在于涉及周围条件的物理量包括飞机的导航与武器系统的特征，以及诸如其惯性装置与负载系数等飞机的传感器的状态。

5、严酷环境中的声音命令系统，用于按照权利要求1的方法实现，其特征在于它包括一个链接在声波语音解码装置(11)及声音识别装置(3)上的采集装置(5)，声波语音解码装置(11)链接在识别监控装置(6)上，声音识别装置本身又链接在词典(12)、识别监控器(6)及句法识别装置(7)上，后者又链接到一个对话存储装置(8)上，对话存储装置又链接到监控器(6)上。

6、按照权利要求5的系统，其特征在于它链接在与定制的存储器卡(15)合作的存储器卡接口(14)上，各存储器卡中存储有关于对应的说话人的参数。

7、按照权利要求5或6的系统，其特征在于该声音识别装置(3)是模式识别与信号参数化装置。

8、按照权利要求5至7中一项的系统，其特征在于该声波语音解码器装置为具有滤波器组的分析装置。