CN1298173A

CN1298173A - 语音识别设备与方法

Info

Publication number: CN1298173A
Application number: CN 00133130
Authority: CN
Inventors: 逸见英身
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Holdings Corp
Priority date: 1999-09-13
Filing date: 2000-09-13
Publication date: 2001-06-06
Anticipated expiration: 2020-09-13
Also published as: EP1085500B1; DE60032982T2; DE60032982D1; EP1085500A3; EP1085500A2; CN1173331C

Abstract

一种语音识别设备VR1,通过用户说出的命令,控制目标设备800;语音识别设备被提供有语音接收器100,用于接收语音;一个控制器200,根据检测到的命令,控制目标设备800;和一个激活装置300,通过语音接收器100,检测语音Sv中的关键字,并在检测后,在一个预设命令输入周期内,激活控制器200控制目标设备800。通过这样的语音识别装置,命令只被限于在预设周期内接收,这样,设备不会将用户的命令与环境噪音和其他声音相混淆。

Description

语音识别设备与方法

本发明涉及用于语音控制设备的语音识别设备和方法，更特别的是，关于语音识别设备和方法，它在用于控制声音输出设备，例如电视机时，可以工作得很好。

通过设备和遥控器上提供的按键来控制设备目前已经得到普遍使用。最近，随着语音识别技术的进步，通过语音进行的设备控制开始普遍应用于例如移动电话和汽车导航系统中。

参考图11的方块图，下面描述的是传统语音识别设备的结构，它被连接到用于控制的目标设备上。

如图11所示，语音识别设备VRC包括语音接收器100和控制器200。控制器200连接到目标设备800上，并控制其操作。控制器200包括命令检测器210和设备控制器220。命令检测器210被提供有模式比较器211和命令语音模式存储器212。下面描述的是语音识别设备VRC的操作。

一旦用户说出预设命令来控制目标设备800，命令语音被语音接收器100转换成语音信号Sv。语音信号Sv然后被传输至命令检测器210，语音信号Sv中的命令在那里被检测。更特别的是，命令语音模式存储器212被预先提供有一组样本命令语音模式，用于控制目标设备800。模式比较器211将其与语音信号Sv中的声音模式相比较，如果有任何匹配，相应于检测到的命令的命令信号Scm从此输出。根据命令信号Scm所指示的命令，控制器220产生控制信号Sc，用于控制目标设备800。

但是，这样传统的语音识别设备总是处于语音命令的待机状态。这样，甚至当用户说出的不是命令时，设备会错误地识别周围的环境噪音，例如是将对话作为用户的命令，并产生不必要的不正常工作。假设用于控制的目标设备是电视，它可以持续发出声音，语音识别设备更倾向于将它发出的声音，与用户的命令相混淆。

为了避免这一问题，在日本专利公开文献61-225996(86-225996)公开的是一种用按动开关控制语音识别过程的方法。用这种方法，当用户只在开关打开时说出她或他的命令，语音识别过程才被执行，并由此，错误识别的可能性被减少。

但是，用这种方法，用户必须打开开关来给出她或他的命令。如果她或他不能够随手碰到开关，或手正忙着而无法打开开关，这样，用户发现这不方便，而且可借鉴地，当目标设备是持续发出声音的电视的情况时，这种方法并不那么有效。如上所述，这是因为如果开关打开，从电视中发出的声音与用户的命令一起被输入，这样导致错误识别。

这样本发明的一个目标是，提供一种语音识别设备和方法，通过简单操作使用语音控制设备，防止设备周围的环境噪音或相似产生的错误识别。本发明的另一个目标是，提供一种语音识别设备和方法，用语音控制如电视那样的声音输出设备，减少由声音输出设备的声音产生的错误识别。

本发明具有以下的特点来实现上述目标。

本发明的一个用命令控制目标设备的语音识别设备的方案，包括：一个语音接收器，用于接收语音；一个控制器，用于从语音接收器提供的语音中检测命令，并根据检测到的命令控制目标设备；和一个激活装置，用于从语音接收器提供的语音中检测预设关键字，并在预设命令输入周期，激活控制器控制目标设备。

如上所述，在上述的方案中，命令只在关键字被输入后，预设的时间长度内被接收。这样，错误识别可以被避免。而且，当用户说出关键字时，不必要按动按键或采取相似措施来控制设备，其中，甚至当用户的手正忙着时，设备控制也能够实现。

本发明的这些和其它目标、特点、方案和优点，从后面本发明的具体描述中，与后面的附图相结合，变得更明显。

图1是方块图，画出了根据本发明优选实施例的语音识别设备的结构；

图2是流程图，用于首选实施例中激活装置300的操作；

图3是方块图，画出了根据本发明第二实施例的语音识别设备的结构；

图4是流程图，用于第二实施例中激活装置301的操作；

图5是方块图，画出了根据本发明第三实施例的语音识别设备的结构；

图6是流程图，用于第三实施例中激活装置300和音量控制器400的操作。

图7是方块图，画出了根据本发明第四实施例的语音识别设备的结构；

图8是流程图，用于第四实施例中激活装置300和声音输出部分抑制器500的操作；

图9是方块图，画出了根据本发明第五实施例的语音识别设备的结构；

图10是流程图，用于第五实施例中激活装置301、音量控制器400和声音输出部分抑制器500的操作；

图11是方块图，画出了传统语音识别设备的结构。

参考所附的图中的实施例方式在下面描述的是本发明的由语音控制的语音识别设备，能够减少错误识别。(第一实施例)

参考图1的方块图，下面描述的是第一实施例的语音识别设备的结构，连接到用于控制的目标设备，并且通过只在接收关键字后的预设周期接收命令，防止错误识别。这里，在图11中发现的任何要素由同样的参考数字代表。

如图1所示，第一实施例的语音识别设备VR1包括语音接收器100、控制器200和激活装置300。控制器200连接到语音接收器100和激活装置300上，并产生控制信号Sc用于控制目标设备800。控制器200包括命令检测器210和设备控制器220。命令检测器210由模式比较器211和命令语音模式存储器212组成。激活装置300包括关键字检测器310、计时器320和比较激活装置330。

下面描述的是语音识别设备VR1的操作。

语音接收器100将输入的语音转换成语音信号Sv。语音信号Sv应用于控制器200和激活装置300。在控制器200中，命令检测器210检测语音信号Sv中的命令。更特别的是，命令语音模式存储器212被预先提供一组样本命令语音模式，用于控制目标设备800。模式比较器211用这些与语音信号Sv的声音模式相比较，如果有任何一致，相应于检测到的命令的命令信号Scm从此输出。根据命令信号Scm，设备控制器220产生控制信号Sc来控制目标设备800。注意这里，控制器200只在命令输入周期可以控制目标设备800，这一周期由激活装置300决定。下面描述的是激活装置300的操作。

关键字检测器310从语音接收器100提供的语音信号Sv中检测关键字，然后输出一个开始信号Ss。这个关键字被预设为输入命令的提示，并在命令前说出。对开始信号Ss响应，计时器320开始计数时间的预设长度。计时器320然后输出一个时间信号St，指示计时器320是否在它的计数周期内。根据时间信号St，比较激活装置330持续输出一个激活信号Se，用于在计时器320的计数周期，来激活模式比较器211的操作。如此，计时器320的计数周期是上述的命令输入周期。在第一实施例中，关键字检测器310因其功能可以由命令检测器210替换。具体地，命令语音模式存储器212，除了样本命令语音模式，还可以被提供关键字的语音模式。根据这些，模式比较器211可以从语音信号Sv中检测关键字，然后输出开始信号Ss至计时器320。

参考图2的流程图，描述了激活装置300的操作，这是本发明的特点所在。尽管这一实施例中的部分可以用硬件实现，现在可被借鉴地假定由软件实现。由此，图2的流程图所示的是CPU的操作，CPU未被画出。

一旦语音识别过程开始，语音接收器100将输入语音转换成语音信号Sv。在激活装置300中，计时器320被初始化(S11)，为输入关键字准备好(S12)。当关键字在语音信号Sv中被检测到后，命令输入周期开始计数，并且模式比较器211的命令比较操作被激活(S13)。当命令计数周期被计数(S14)，目标设备800被置于控制器200的控制之下。一旦命令输入周期被计时器320完全计数，模式比较器211的命令比较操作被禁止(S15)，并且计时器320被初始化(S11)，再为关键字准备好(S12)。

由上面所知，第一实施例的语音识别设备，直到关键字在语音信号Sv中被检测到才接收命令。这样，对于设备控制，用户需要首先说出关键字，然后在命令输入周期说出命令。如果用户没有在命令输入周期说出命令，命令不被接受，除非再说一遍。

这里，如果关键字在日常生活中是普通的，语音识别设备将关键字与周围的对话相混淆，这样设备错误地开始接受命令。通过考虑这一点，关键字最好是魔法咒语或昵名，在普通生活中是不普通的或首创的。

如前面的描述，在第一实施例中，用户必须首先说出关键字，然后说出设备控制的命令。在这种方式中，甚至在用户说出的不是命令时，语音识别设备被防止错误地将周围的对话、从目标设备发出的声音等，识别为用户命令。(第二实施例)

参考图3的方块图，下面描述的是第二实施例的语音识别设备VR2的构造，连接到用于控制的目标设备上，使用户省去在每一次命令输入周期结束时，说同样的关键字的麻烦。语音识别设备VR2几乎与首选实施例相同，区别是通信对应检测器340是新提供的。这样，相同的部分具有相同的参考数字，不再重复描述。激活装置301提供有关键字检测器310，计时器320和比较激活装置330，如第一实施例，并新提供有通信对应检测器340。通信对应检测器340连接到模式比较器211和计时器320。

下面描述的只是语音识别设备VR2与第一实施例设备中不同部分的操作。

在与第一实施例相似的方式中，一旦关键字检测器310检测到关键字，计时器320开始计数命令输入周期，使模式比较器211的操作被激活。比较结果由命令信号Scm传送到设备控制器220和通信对应检测器340。根据命令信号Scm，设备控制器220控制目标设备800。通信对应检测器340输出相应于命令信号Scm的刷新信号Sr，然后刷新计时器320。其后，计时器320从0开始计数时间。

参考图4的流程图，现在描述激活装置301的操作。这里，在图2的流程图中的任何相同步骤，被提供相同的步骤号，并不再重复描述。

与计时器320的计数周期相等的命令输入周期在第一实施例中是常数。但是在第二实施例中，当计时器320计数时间时(S14)，语音识别设备接受命令(S21)，如果任何命令在其间被检测到，计时器320通过刷新信号Sr(S22)，产生从0重新开始计数时间。换句话说，每次命令在命令输入周期被检测到，计时器320开始从0计数时间。以这样定长的命令输入周期，用户不再需要在每次命令输入周期结束时，说相同的关键字。

这里，通信对应检测器340的构造为从模式比较器211接收命令信号Scm，并输出刷新信号Sr到计时器320。如此构造是不受限制的，就其功能可以替换，并且当模式比较器211检测到任何命令时，可以通过输出刷新信号到计时器320。

如前面的描述，在第二实施例中，命令输入周期对每个命令自动定长。这样，命令输入周期直到用户成功地完成说出一组命令才结束。在此方式中，用户可以免除在每次命令输入周期结束时，说出相同的关键字的麻烦。(第三实施例)

参考图5的方块图，下面描述的是根据第三实施例的语音识别设备VR3的结构，连接到包括声音输出部分的目标设备，并在命令输入周期内检测到关键字后，通过降低从它发出声音的音量，有效地减少错误识别。语音识别设备VR3几乎与首选实施例中相同，除了音量控制器400是被新提供的。连接其上的目标设备900被附加提供了声音输出部分910。这里，任何相同部分具有相同的参考数字，并不再重复描述。音量控制器400被连接到计时器320和目标设备900的声音输出部分910。

下面描述的只是与第一实施例不同的语音识别设备VR3的部分的操作。

在与第一实施例相似的方式中，一旦关键字检测器310检测到关键字，计时器320开始计数命令输入周期，使模式比较器211的操作被激活。从计时器320输出的时间信号St，也被应用于音量控制器400上。据此，音量控制器400输出音量控制信号Svc，并只在命令输入周期，减小声音输出部分910的音量。

参考图6的流程图，激活装置300和音量控制器400的操作被描述。这里，与图2的流程图相同的任何步骤具有相同的步骤编号，并不再重复描述。

在第三实施例中，一旦计时器320开始计数，并且命令比较操作在模式比较器211中被激活(S13)，声音输出部分910的音量通过音量控制信号Svc被减小(S31)。声音输出部分910的音量，在计时器320结束计数后(S32)被恢复。换句话说，声音输出部分910的音量，只在命令输入周期内被减小。

这里，从声音输出部分910输出的音量，只在命令输入周期内被减小，且可以被关掉。如果减小，用户可以在命令输入周期内，听着从声音输出部分910输出的声音说出命令，如果关掉，用户的命令可以以更高的精度被识别，由此错误识别可以被减少。

如前面所描述的，声音输出部分910的音量，只在命令输入周期内被减小。由此，在命令输入周期内，从那里输出的音量不会被语音识别设备混淆，并且这样，模式比较器211的命令比较操作可以以较高的精度被执行。这在从声音输出部分910输出的声音包括语音的情况下，是有效的。这样，第二实施例中语音识别设备，在控制如电视那样的声音输出设备时是有效的。(第四实施例)

参考图7的方块图，下面描述的是根据第四实施例的语音识别设备VR4，连接到包括声音输出部分的目标设备上，并通过从混合有输入语音的目标设备中，减小声音输出部分，在很大程度上有效地减小错误识别。语音识别设备VR4与第一实施例几乎相同，除了声音输出部分抑制器500是新提供的。连接其上的目标设备900提供有声音输出部分910，如同在第三实施例中。这样，任何相同部分具有同样的参考数字，并不再重复描述。声音输出部分抑制器500被提供在语音接收器100后，并连接到目标设备900上。

下面描述的只是与第一实施例中设备任何不同的语音识别设备VR4的部分的操作。

声音输出部分抑制器500减小声音输出部分910的声音输出成分，它混合有语音接收器100提供的语音信号Sv。然后，抑制声音输出部分的语音信号Sv′被应用于关键字检测器310和模式比较器211。更特别地，声音输出部分抑制器500接收语音接收器100的语音信号Sv和声音输出信号Sa，它被输入到声音输出部分910，然后将此输出作为声音输出。声音输出部分抑制器500传送这些信号到预设操作过程，来减小混合有语音信号Sv的声音输出部分。此操作过程可以从简单操作到复杂操作变化，简单操作是从语音信号Sv中，对声音输出信号Sa在百分比上的简单减少，复杂操作是被考虑的传输衰减，这一方式没有在此叙述。

语音信号Sv′被应用于关键字检测器310和模式比较器211，由此，过程以与第一实施例相似的方式执行。

参考图8的流程图，声音输出部分抑制器500和激活装置300的操作被描述。这里，任何与图2的流程图相同的步骤具有相同步骤编号，并不再重复描述。

在第四实施例中，混合有语音信号Sv的声音输出部分被减小(S41)，并根据减小的声音输出部分的语音信号Sv′，过程以与第一实施例相似的方式执行。这一用于在声音输出信号中，减小声音输出部分的过程，被持续执行而不考虑命令输入周期。

如此，在第四实施例中，关键字检测器310和命令比较器210从语音信号Sv′中，各自检测关键字和命令。由此，甚至当从声音输出部分910输出的声音进入到语音接收器100中时，关键字检测器310和模式比较器211，可以各自保持它们对关键字检测和模式比较的精度。特别是从声音输出部分910输出的声音，包括语音的情况下，语音识别设备不会将这一语音和用户的语音相混淆。这样，第四实施例的语音识别设备，在控制如电视那样的声音设备时可以工作得很好。而且，命令识别可以在命令输入周期以高精度实现，而不用减小从声音输出部分910输出的声音，这样，用户可以在听着目标设备900发出的声音时，说出她或他的命令。这对控制目标设备900音量的命令特别有效，因为用户可以实时检查音量。(第五实施例)

图9描述的是根据第五实施例的语音识别设备VR5的构造，连接到包括声音输出部分的目标设备，并提供第一到第四实施例中的每个有特点的部分。

如图9所示，与第一实施例中的设备相比较，语音识别设备VR5被附加提供通信对应检测器340、音量控制器400和声音输出部分抑制器500。下面描述的是第五实施例中语音识别设备VR5的操作。

这里，由语音接收器100提供的语音信号Sv被转换成声音输出部分抑制器500的声音信号Sv′。这根据从目标设备900的声音输出信号Sa实现。根据语音信号Sv′，关键字检测器310和模式比较器211每个各自检测关键字和命令。一旦关键字检测器310检测到关键字，并且命令开始被接收，音量控制器400通过音量控制信号Svc减小声音输出部分910的音量。通信对应检测器340从模式比较器211接收到命令信号Scm，然后输出刷新信号Sr到计时器320。对此响应，计时器320重新开始从0计数命令输入周期。一旦计时器320完成计数，音量控制器400输出音量控制信号Svc，来恢复声音输出部分910的音量。

图10的流程图描述的是激活装置310、音量控制器400和声音输出部分抑制器500的操作。这里，与图2、4、6或8的流程图相同的任何步骤具有相同的步骤编号。在图10流程图中发现的操作已经在前面很好地描述了，这里不再重复描述。

从上所知，在第五实施例中，声音输出部分910的声音输出，在关键字输入周期既不被减小也不被关掉，也就是在不包括命令输入周期的周期中，只混合有语音信号Sv的声音输出部分被减小。在此方式中，甚至如果声音输出部分910的声音是在正常的音量下，关键字可以以很高的精度被检测到。另一方案，在命令输入周期，从声音输出部分910的声音输出被减小或关掉，混合有语音信号Sv的声音输出部分也被减小。由此，在命令输入周期中的命令识别在精度上被提高，极大程度地减少了由目标设备的声音引起的错误识别。

这里，关键字可以是魔法咒语或昵名，在日常生活中不普通的或首创的。但是，命令是在日常生活中为人们所习用的。这样，由于例如电视中的声音，命令比关键字更易于被错误地识别。在这一方案，如在本实施例中实现的，当语音信号Sv在声音输出部分中被减小时，从声音输出部分910发出的声音最好被减小或被关掉。这样，第五实施例中的语音识别设备，在控制电视这样持续输出声音，特别是人类语音的设备时可以工作得很好，并且确定地防止错误识别。

注意这里，第五实施例中的语音识别设备是包括第二到第四实施例的每个特点部分，即通信对应检测器340、音量控制器400和声音输出部分抑制器500。但是从上面的描述可以明显地看出，从上面选择任何两个部分，加到首选实施例中的结构上，可以构成语音识别设备。

当本发明被具体描述，前面的描述在所有方案是说明性的，不是限制性的。应该理解，各种其它的修改和变化可以被设计出来，但是均没有脱离本发明的范围。

Claims

1．一种语音识别设备，通过用户说出的命令控制目标设备，包括：

语音接收装置，用于接收语音；

控制装置，通过所述语音接收装置，检测在语音中的所述命令，并根据所述检测到的命令，控制所述目标设备；和

激活装置，通过所述语音接收装置，检测语音中的预设关键字，并只在预设的命令输入周期中，激活所述控制装置控制所述目标设备。

2．根据权利要求1的语音识别设备，其中所述激活装置还包括：

关键字检测装置，通过所述语音接收装置，检测语音中的所述预设关键字；

计时器装置，当所述关键字检测装置检测到所述关键字时，用于开始计数所述命令输入周期；和

比较激活装置，只在所述计时器装置在计数所述命令输入周期时，用于激活所述控制装置检测所述命令。

3．根据权利要求1的语音识别设备，其中：

所述激活装置还包括通信对应检测装置，每次所述控制装置在命令输入周期检测到命令时，用于将所述命令输入周期定长。

4．根据权利要求1的语音识别设备，还包括音量控制装置，在所述命令输入周期，用于减小或关掉所述目标设备的声音输出。

5．根据权利要求1的语音识别设备，还包括声音输出部分减小装置，通过相应于所述目标设备的声音输出的部分，所述语音接收装置用于抑制语音。

6．一种语音识别方法，通过用户说出的命令用于目标设备控制，包括：

一个接收语音的步骤；

一个在所述接收到的语音中，检测所述命令的步骤；和

一个在所述接收到的语音中，检测预设关键字的步骤，用于在一个预设命令输入周期内，激活所述目标设备的控制。

7．一种记录在计算机可读的记录媒介上的可在计算机上执行的程序，通过用户说出的命令用于目标设备的控制，程序包括：

一个接收语音的步骤；

一个在所述接收到的语音中，检测所述命令的步骤；和