CN1288224A

CN1288224A - 语音识别装置和方法

Info

Publication number: CN1288224A
Application number: CN00123500A
Authority: CN
Inventors: 恩斯特·F·施罗德
Original assignee: Deutsche Thomson Brandt GmbH
Current assignee: Deutsche Thomson Brandt GmbH
Priority date: 1999-09-15
Filing date: 2000-08-18
Publication date: 2001-03-21
Also published as: JP2001134291A; ZA200004442B; EP1091347A2; DE19944325A1; KR20010030122A; EP1091347A3

Abstract

已知的语音识别系统的缺点是,用户必须先激活语音识别,例如,用户必须按压遥控器上的按钮。按照本发明,首先完成简单语音识别处理,然后,完成一个或多个复杂语音识别处理。简单语音识别处理不受方言和讲话者的影响,但只有小量的词汇,并不能够识别词序,然而,至少多个复杂语音识别处理之一依赖于方言和讲话者,并具有大量的词汇和/或能够识别次序。简单语音识别处理被用于接通复杂语音识别处理之一。

Description

语音识别装置和方法

本发明涉及语音控制装置和方法，特别是用于控制属于消费类电子产品的装置。

语音控制系统被使用在多种技术领域。在这个例子中，口语字首先被检测为声音信号，通常由一个或多个麦克风检测，然后，声音信号被馈送到语音识别系统。在这个例子中，通常，语音识别是基于声音模型和语音模型。声音模型采用大量的语音图形、所用的数学算法指明声学上与口语字最匹配的字。而语音模型是基于分析，该分析使用多个文档样本确定在上下文中某些字是如何经常被使用。这样的语音识别系统不仅识别单个的字并且能够高识别率的识别连续口语句子。然而，当不可忽视的背景噪声呈现时，识别率急剧下降。

有关这些声学干扰影响的强度可由各种不同的方式增加。因此，在计算机的专用系统中，耳机上的麦克风直接紧扣在讲话者嘴的前面。在这些系统中，真实的不变信号和在某些情况中的可感知的识别率只在直接邻近嘴的位置获得。同样，已知通过将声音操作指令输入到集成在遥控装置中的麦克风来控制电视机。然而，这种遥控装置必须放置在用户的嘴的前面。

然而，已知的语音识别系统的缺点是，用户必须先激活语音识别，例如，为此目的，用户必须按压遥控器上的按钮。

本发明的目的是提供一种语音控制的方法，其可以控制来自相对远距离的语音输入，而不需要用户事先激活控制装置。本发明目的可由下面描述的方法获得。

本发明的另一目的是提供实现本发明方法的装置，本发明目的可由下面描述的另一装置获得。

原则上，在语音识别方法中，由语音识别设备把对应语音指令的声音信号被转换成为电信号，该电信号被转换成为操作指令，其原理是，首先进行简单语音识别处理，然后，进行一次或多次较复杂的语音识别处理。

简单语音识别处理不受方言和讲话者的影响，但只有小量的词汇，并不能够识别词序，但至少多个复杂语音识别处理之一依赖于方言和讲话者，并具有大量的词汇和/或能够识别次序。

简单语音识别处理可以便利地用于接通复杂语音识别处理之一。

同样，如果语音识别处理用于识别讲话者，它也是很方便的。

最后，简单语音识别处理可以方便地减弱或降低音频再现的音量。

参考附图论述本发明的实施例。附图显示了本发明方法的示意性顺序。

图1以流程图的形式显示了本发明方法的顺序。首先，在步骤1，由一个或多个麦克风把声音信号转换成为电信号，该信号呈现为模拟语音信号。然后，在步骤2，由模/数转换器将该模拟信号转换位数字语音信号。在步骤3进行检查，并确定语音识别是否由简单语音识别单元事先完成。如果已经完成，进行步骤4a、4b、5b、6，否则进行步骤4a、5a、6。尽可能典型的语音的单个声音和相对与干扰和发音中变化强度的特点由各自的信号处理和分析4a、4b从数字化声学信号所获得。在所示的实施例中，这个特征的提取分别由各种不同的语音识别单元完成，也可由组合单元完成。实际的语音识别在步骤5a和5b中完成。由各自的信号处理和分析4a获得的信号被馈送到基本语音处理单元5a，其检查相对于一个或多个预定指令的信号。因此，这个语音单元只要求少量的词汇，并在很大程度上不受方言和讲话者的影响。如果只检测到预定的语音指令，例如，“电视，你好”或“开机”，那么，这些话被记录下来，以便由信号处理、分析4a和语音识别单元5b进行下一步的处理。后者具有大量的词汇，并也能够识别词序，但只在简单语音识别单元5a识别了指令之后，识别才成为有效的。相对于识别指令和/或工作顺序，在步骤6确定对应的指令，并用于控制语音控制系统，例如，菜单控制或搜索。

语音识别单元的数量没有局限于两个，使用超过两个语音识别单元的分层配置是可能的。例如，第一个语音识别单元只用于激活语音识别处理，该语音单元只有少量的词汇。具有大量词汇的第二个语音识别单元被用于驱动或选择不同菜单项。然后，语音识别单元由各自的菜单项激活。第三个语音识别单元具有大量的按顺序的词汇，以这种方式，能够进行任何要求的输入，例如，所要求传输的名称或网络电视的互联网地址的输入。

同样，第一语音识别单元可以附加地或专有地用于减弱设备的再现的声音，例如，电视机，或降低音量。此外，分层配置的语音识别单元之一可以被用于识别讲话者。例如，这对接通控制是非常有益的，特别对家长锁住电器非常有益，例如，对电子节目导视的基本设置，可以选择设置参数。最后，第一语音识别单元仅对预先确定的接通指令反应是可能的，而且可适用较宽的语言变化。然后以取决于所检测的语言的方式，激活不同的第二个或更多的语音识别单元。

不同的语音识别单元或语音识别处理的不同阶段可以使用不同的算法或不同的硬件完成。然而，通过选择不同的参数使用单个语音识别器也能够完成此结果。

对于检测语音信号，可以使用单个麦克风或由两个或多个麦克风组成的阵列完成。例如，麦克风阵列可以集成在电视接收机内。麦克风把检测到的声音信号转换成为电信号，并由放大器放大，该放大的电信号由A/D转换器转换成为数字信号，然后，该数字信号被馈送到信号处理单元。然后，由检测到声音信号的不同之或处理确定各自用户所在位置。此外，麦克风信号也由有关的扩音器输出的声音信号校正。然后，以这种方式处理的信号被馈送到本发明的语音识别单元，如上所述，识别单元把电信号转换成为词。最后，对应这些词的指令被馈送到系统管理器，以控制系统。

本发明可以适用属于消费类电子产品的各种电器的语音激励遥控装置，例如，电视机、录像机、DVD播放机、卫星接收机、电视/视频组合、音频装置或完整的音频系统，同样，适用于个人计算机或家用电器。

Claims

1．一种用于多级语音识别的方法，对应语音指令的声音信号被转换成为电信号，由语音识别装置将该电信号转换成为操作指令，其特征在于首先执行简单语音识别处理，然后，执行一个或多个复杂语音识别处理。

2．按权利要求1所述的方法，其特征在于简单语音识别处理不受方言和讲话者的影响，而且只有小量的词汇，并且不能够识别词序，以及至少多个复杂语音识别处理之一依赖于方言和讲话者，而且具有大量的词汇和/或能够识别次序。

3．按权利要求1或2所述的方法，其特征在于简单语音识别处理被用于接通复杂语音识别处理之一。

4．按前述权利要求之一所述的方法，其特征在于简单语音识别处理用于识别讲话者。

5．按前述权利要求之一所述的方法，其特征在于简单语音识别用于减弱或降低音频再现的音量。

6．完成前述权利要求之一的方法的装置。