CN1787073A

CN1787073A - 自动控制输入等级的语音识别系统及语音识别方法

Info

Publication number: CN1787073A
Application number: CN200510124900.8A
Authority: CN
Inventors: 郑明基; 沈贤植; 李钟昌; 金光春
Original assignee: Samsung Electronics Co Ltd
Current assignee: Samsung Electronics Co Ltd
Priority date: 2004-12-07
Filing date: 2005-11-22
Publication date: 2006-06-14
Also published as: US20060122831A1; KR100705563B1; JP2006163392A; EP1669978A1; KR20060063437A

Abstract

一种语音识别系统，包括：语音拾取元件，用于拾取来自外部演讲者语音；语音等级控制器，用于以语音识别器所提供的语音输入等级来接收所拾取的语音，并且将所接收的语音输出到语音识别器；语音检测器，用于从来自语音接收机的语音输出中检测语音识别所需的语音信号周期；语音饱和检测器，用于基于阈值确定所检测到的语音信号周期中的语音信号是否饱和；输入等级确定器，用于当语音信号周期中的语音信号饱和时，确定新语音输入等级，并且将关于新语音输入等级的信息输出到语音接收机，由此语音接收机以不饱和状态接收语音。一种语音识别方法包括与上述系统的功能相对应的步骤。

Description

自动控制输入等级的语音识别系统及语音识别方法

技术领域

本发明涉及一种语音识别系统，更具体地，涉及一种能够根据是否检测到输入语音的语音信号周期以及语音信号周期中的语音信号是否饱和来控制语音的输入等级的语音识别系统和语音识别方法。

背景技术

一般来说，语音识别系统或方法通过使用频率分析方案的各种分析方法来产生输入语音的特征向量，并且利用所产生的特征向量来识别语音。这种语音识别系统或方法使用多种使用输入语音信号的能量的语音识别方案之一。

在这种使用输入语音信号的能量的语音识别系统或方法中，为了识别语音，对输入语音信号的能量进行归一化，以最小化其中的偏差。在这一点上，不在特定的时刻单独检验输入语音信号的能量等级(或信号等级)。

在现有的语音识别系统或方法中，存在这样的问题：当由于语音信号的输入等级太低而导致语音检测失败时，或者当由于语音输入等级太高而导致某段时间内语音输入等级偏离语音输入分辨率时，语音识别率可能下降。然而，在这种情形中语音识别系统或方法不会补偿恶化的语音识别。

这种语音识别系统或方法不会根据输入语音的等级来将语音输入等级控制在可用范围之内。因此，这种语音识别系统或方法会由于低输入等级而导致语音检测失败，或者会由于高语音输入等级而导致语音周期中输入信号饱和，这降低了语音识别率。

因为语音识别系统或方法的用户从某一时刻开始多次连续使用这种系统或方法，而不是以确定的间隔周期性地使用，所以根据最初识别得到的输入等级校正可能会影响随后识别的概率较高。另外，当多个用户使用单个语音识别系统或方法时，可能在许多情形中语音音量和输入特性(例如，麦克风与演讲者之间的距离)参差不同。在这种情形中，应该在用户改变时实时控制语音识别系统或方法的语音输入等级。然而，在上述语音识别系统或方法中，每个单独用户必须手动控制语音输入等级。

发明内容

本发明的目的是提供一种语音识别系统以及使用这种系统的语音识别方法，该系统和方法能够通过分析用户所发出的语音(例如，将语音识别为语音识别周期中的语音)来自动且主动地控制语音输入等级。

本发明的另一目的是提供一种能够通过自适应地改变语音音量并改变讲话方式来提高输入语音的检测率和识别率的语音识别系统和方法。

根据本发明的实施例，提供了一种语音识别系统，包括：语音接收机，用于以所设置的语音输入等级来拾取并接收语音，并且输出所接收的语音；和语音识别器，用于确定所述语音输入等级并且将其输出到所述语音接收机，该决定基于所接收的语音的语音信号周期中的语音信号是否饱和来做出，其中语音信号是否饱和基于阈值来确定。

优选地，所述语音接收机包括：语音拾取元件，用于拾取来自外部演讲者的语音；和语音等级控制器，用于以所述语音识别器所提供的语音输入等级来接收所拾取的语音，并且将所接收的语音输出到所述语音识别器。

优选地，所述语音识别器包括：语音检测器，用于从所述语音接收机接收到的语音中检测所述语音信号周期；语音饱和检测器，用于基于所述阈值确定所检测到的语音信号周期中的语音信号是否饱和；和输入等级确定器，用于在所述语音信号周期中的语音信号饱和时，确定新语音输入等级，并且将关于所述新语音输入等级的信息输出到所述语音接收机，由此所述语音接收机以不饱和状态接收语音。

在一个实施例中，该系统还包括语音校正器，用于在确定所检测到的语音信号周期中的语音信号未饱和时，对所述语音检测器检测到的所述语音信号周期中的语音信号执行语音识别处理。

所述语音检测器通过使用所述语音接收机接收到的语音信号的能量值以及过零率中的至少一个来检测所述语音信号周期。

所述语音饱和检测器计算所述语音信号周期的平均能量值，并且如果所计算的平均能量值大于特定阈值，确定所述语音信号周期中的语音信号饱和。

所述语音饱和检测器将所述语音信号周期划分为几个或几十个短周期，并且如果每个短周期中的语音信号的值大于语音输入分辨率，确定所述语音信号周期中的语音信号饱和。

所述输入等级确定器在所述语音检测器不能检测所述语音信号周期时确定新语音输入等级。

所述输入等级确定器在所述语音检测器不能检测所述语音信号周期时，确定所述新语音输入等级Mic_NEW为所设置的当前语音输入等级Mic_OLD与最大允许语音输入等级值Mic_MAX之间的中间值。

所述输入等级确定器在所述语音饱和检测器确定所述语音信号周期中的语音信号饱和时，确定所述新语音输入等级Mic_NEW为所设置的当前语音输入等级Mic_OLD与最小允许语音输入等级值Mic_MIN之间的中间值。

同时，根据本发明另一实施例，提供了一种使用语音识别系统的语音识别方法，该方法包括如下步骤：以所设置的语音输入等级拾取、接收并输出语音；从所输出的语音中检测语音识别所需的语音信号周期；基于阈值，确定所检测到的语音信号周期中的语音信号是否饱和；当所述语音信号周期中的语音信号饱和时，确定新语音输入等级，以便以不饱和状态接收语音；以及以所述新语音输入等级拾取并接收语音。

优选地，检测所述语音信号周期的步骤包括使用语音信号的能量值和过零率来检测所述语音信号周期。

确定语音信号是否饱和的步骤包括：计算所述语音信号周期的平均能量值，并且如果所计算的平均能量值大于特定阈值，确定所述语音信号周期中的语音信号饱和。

确定语音信号是否饱和的步骤包括：将所述语音信号周期划分为几个或几十个短周期，并且如果每个短周期中的语音信号的值大于语音输入分辨率，确定所述语音信号周期中的语音信号饱和。

在所述语音信号周期的检测失败时执行确定所述新语音输入等级的步骤。

确定所述新语音输入等级的步骤包括：在检测所述语音信号周期的步骤不能检测所述语音信号周期时，确定所述新语音输入等级Mic_NEW为所设置的当前语音输入等级Mic_OLD与最大允许语音输入等级值Mic_MAX之间的中间值。

确定所述新语音输入等级的步骤包括：在确定语音信号是否饱和的步骤确定所述语音信号周期中的语音信号饱和时，确定所述新语音输入等级Mic_NEW为所设置的当前语音输入等级Mic_OLD与最小允许语音输入等级值Mic_MIN之间的中间值。

根据本发明，通过根据是否从输入语音信号中检测到语音信号周期以及检测到的语音信号周期中的语音信号是否饱和来控制语音输入等级，可以减小从输入语音信号中检测语音的失败率以及由于语音信号饱和而引起的语音识别率的降低。另外，当语音信号周期检测失败或检测到的语音信号饱和时，通过主动控制语音输入等级而不是由用户直接控制语音输入等级来自适应地改变各个演讲者的语音音量并改变讲话方式(麦克风与演讲者的距离)，可以减小语音检测失败率以及语音识别率的降低。

附图说明

结合附图，参考下面的详细描述，对本发明的更彻底的认识以及本发明所带有的许多优点将变得更加清楚，并且变得更好理解，在附图中相似的标号表示相同或相似的部件，其中：

图1图示了在语音识别系统不能检测语音时的结果的示例；

图2图示了在语音识别系统不能检测语音时的结果的另一示例；

图3是根据本发明优选实施例、自动控制语音输入等级的语音识别系统的方框图；

图4A和4B图示了在图3的语音检测器中通过使用语音信号的能量和过零率来检测语音信号周期的原理；以及

图5是示出了使用根据本发明优选实施例的语音识别系统的语音识别方法的流程图。

具体实施方式

图1图示了在语音识别系统不能检测语音时的结果的示例。

参考图1，当由于输入语音的信号等级低于设置为语音识别周期的范围而不能进行语音检测时，得到数据10。

图2图示了在语音识别系统不能检测语音时的结果的另一示例。

参考图2，当由于输入语音的信号等级高于设置为语音识别周期的范围(饱和)而不能进行语音识别时，得到数据20。

如图1和2所示，在语音识别失败时，语音识别系统允许用户基于语音识别失败的原因来直接控制语音输入等级。例如，用户控制接收语音输入的麦克风与演讲者之间的距离，或者用户控制输入设备的麦克风增益，由此控制输入等级。

现在将参考附图更全面地描述本发明，在附图中示出了本发明的优选实施例。然而，可以以不同形式来实现本发明，并且不应将本发明解释为局限于这里所述的实施例。更确切地说，提供这些实施例，从而使本公开变得彻底并且完整，并且将本发明的概念完全传递给本领域的技术人员。

图3是根据本发明优选实施例、自动控制语音输入等级的语音识别系统的方框图。

参考图3，只示出了语音识别系统的主要元件，并且省略了与本发明无关的元件。该语音识别系统可以实现为单个系统，或者可以与客户端/服务器类型网络结构一起实现。

如图3所示，语音识别系统具有语音接收机200和语音识别器300。

语音接收机200拾取演讲者100发出的语音，并且将所拾取的语音输出到语音识别器300。

语音接收机200具有麦克风220和接收等级控制器240。

麦克风220拾取演讲者100发出的语音，并且接收等级控制器240以由输入等级信息所确定的等级来接收麦克风220所拾取的语音。

语音识别器300确定从语音接收机200输入的语音信号的语音周期是否饱和，基于该结果确定接收等级控制器240的语音输入等级，对语音周期中的语音执行校正，将校正后的语音识别为实际要使用的语音，并且将校正后的语音输出到相关模块。

语音识别器300具有语音检测器或终点检测器(EPD)310、语音校正器330、语音饱和检测器350、以及输入等级确定器370。语音饱和检测器350和输入等级确定器370被配置为包括在语音识别器300中，从而单个系统直接控制语音接收机200。语音饱和检测器350和输入等级确定器370可以实现在与网络连接的客户端或服务器中。

语音检测器310从自语音接收机200输入的语音信号中检测语音识别所需的语音信号周期。语音检测器310在从输入语音信号中检测语音识别所需的实际语音信号周期时使用语音信号的能量和过零率(zero crossing rate)。

语音校正器330减少由语音检测器310检测到的语音信号周期中的语音中所包含的噪声，然后识别得到的校正后语音，并作为实际要使用的语音输出。

语音饱和检测器350确定语音检测器310所检测到的语音信号周期内的语音信号是否饱和。下面将讨论一种用于确定语音信号是否饱和的方法，这种方法基于用于确定语音饱和检测器350中的输入等级控制的标准。

语音饱和检测器350计算输入语音信号的平均能量，并且如果所计算的平均能量大于特定的阈值，则确定语音信号饱和。另外，语音饱和检测器350将语音周期划分为几个或几十个短周期，并且如果每个周期中的语音信号的值大于语音输入分辨率，则可以确定语音信号饱和。

输入等级确定器370通过参考由语音检测器310检测到的语音信号周期以及由语音饱和检测器350检测到的语音饱和状态，确定接收等级控制器240中的输入等级的控制程度。

当语音检测器310在检测语音信号周期时不能检测到语音的终点时或者语音饱和检测器350确定语音信号饱和时，输入等级确定器370确定将要由语音接收机200的接收等级控制器240控制的语音的输入等级。在这一点上，输入等级确定器370将所确定的输入等级信息发送到语音输入单元200的接收等级控制器240。

因此，接收等级控制器240以与输入等级确定器370所提供的输入等级信息相对应的等级来接收由麦克风220拾取的演讲者110的语音。

图4A和4B图示了在图3的语音检测器中利用语音信号的能量和过零率来检测语音信号周期的原理。

一旦接收到输入语音信号，语音检测器310就测量输入语音信号的能量和过零率。

图4A是代表语音检测器310针对多个样本测量到的语音信号的能量值的图表。

当能量值大于上限阈值Thr.U时，语音检测器310确定语音已经开始，并且确定语音周期从语音实际开始之前特定样本周期的时刻已经开始。当其中能量值降到低于下限阈值Thr.L的样本周期持续了预定时间长度时，语音检测器310还确定语音周期已经结束。

图4B是代表语音检测器310针对每个样本计算出的过零率值的图表。

语音检测器310基于语音信号的能量值(如图4A所示)以及过零率(如图4B所示)来检测语音周期。过零率指示语音信号等级与零相交的频率。语音检测器310基于当前语音信号样本值与前一语音信号样本值相乘得到正的还是负的结果，确定语音信号值与零相交。该标准是可用的，因为语音信号必然在相应周期中包含周期性信号周期，并且因为该周期性信号周期中的过零率远小于没有语音的周期中的过零率。

如图4B所示，可以看到，没有语音的周期中的过零率表现为大于阈值Thr.ZCR。相反，可以看到，在语音周期中没有过零率出现。

当语音检测成功时，语音检测器310向语音饱和检测器350发送检测到的语音信号。

语音接收机200中的接收等级控制器240以设置的输入等级接收用户的语音，并且将接收到的语音输出到语音识别器300(S110)。语音识别器300中的语音检测器310从输入语音中检测实际的语音信号周期(S130)。在该实施例中，语音检测器310使用语音信号的能量和过零率来检测语音信号周期。

当语音周期检测成功时(S150)，语音饱和检测器350分析检测到的语音信号，以确定语音是否饱和(S170)。这里，语音饱和检测器350可以使用语音能量和语音数据值来确定语音是否饱和。具体地说，语音饱和检测器350将语音周期划分为大约10至40毫秒的短周期。将语音周期划分为短周期是因为时变语音信号在短周期内表现出固定特征。如果使用语音信号的能量来检测语音饱和，则语音饱和检测器350使用公式1来计算短语音周期中语音数据的能量。

公式1

E_{j}, \frac{1}{N} Σ_{n = 1}^{N - 1} x_{j}^{2} [n],

其中，E_j是第j个周期中的平均能量，N是短语音周期中的数据数目(样本数目)，并且x_j ²[n]是第j个周期中的语音数据。

语音饱和检测器350将计算的语音周期中的能量值与可以将信号确定为饱和的能量阈值相比较。如果能量值大于阈值，则语音饱和检测器350确定输入语音信号饱和(S190)。

在这种情形中，可以根据语音输入分辨率来确定能量阈值(超过该阈值，则语音信号就饱和)。例如，如果语音信号具有16位的分辨率，则语音数据的范围是216，这样可以使用该值来计算阈值。

如果使用语音信号的数据值来确定语音是否饱和，则在划分后的语音周期中几个连续语音数据值等于由分辨率所允许的最大值M_MAX时，语音饱和确定器350确定输入语音信号饱和，其中最大值M_MAX由公式2表示：

公式2

{x_{j} {[n]}^{*} &Exists; X_{MA X}}_{*}, n = t, t + 1, . . ., t + L,

其中M_MAX是根据输入信号的分辨率(例如，16位)设置的最大值，t是第j个语音周期中每个语音数据的位置，并且L是连续饱和语音数据的设置数目。

同时，如果语音检测器310在S150中不能检测语音，或者如果语音饱和检测器350在S190中确定语音信号饱和，则输入等级确定器370确定在语音接收机200接收语音时将要应用的新的输入等级(S210)。

确定输入等级的示例包括两种情形，如下面的公式3所示。第一，当语音检测器310不能检测语音时，输入等级确定器370确定新的语音输入等级Mic_NEW为当前语音输入等级Mic_OLD与最大语音输入等级值Mic_MAX之间的中间值。第二，当语音饱和检测器350确定语音饱和时，输入等级确定器370确定新的语音输入等级Mic_NEW为当前语音输入等级Mic_OLD与最小语音输入等级值Mic_MIN之间的中间值。

公式3

Mic_NEW＝Mic_OLD+(Mic_MAX-Mic_OLD)/2：输入等级增加，

Mic_NEW＝Mic_OLD-(Mic_OLD-Mic_MIN)/2：输入等级减小，

其中，Mic_NEW是新的语音输入等级，Mic_OLD是现有语音输入等级，Mic_MAX是输入等级最大值，并且Mic_MIN是输入等级最小值。

在确定新的语音输入等级Mic_NEW之后，输入等级确定器370将关于新的语音输入等级的信息提供给接收等级控制器240。作为响应，接收等级控制器240以新的语音输入等级来接收麦克风220所拾取的语音，并且将接收到的语音输出端语音检测器310。

同时，如果在S190中确定语音信号不处于饱和状态，则语音校正器330减少由语音检测器310检测到的语音信号周期中的噪声，并且执行正常的语音识别处理操作(S230)。

根据本发明，通过根据是否从输入语音信号中检测到语音信号周期以及检测到的语音信号周期中的语音信号是否饱和来控制语音输入等级，可以减小从输入语音信号中检测语音的失败率以及由于语音信号饱和而引起的语音识别率的降低。

另外，当语音信号周期检测失败或检测到的语音信号饱和时，通过主动控制语音输入等级而不是由用户直接控制语音输入等级来自适应地改变各个演讲者的语音音量并改变讲话方式(麦克风与演讲者的距离)，可以减小语音检测失败率以及语音识别率的降低。

虽然参考本发明的示例性实施例具体图示并描述了本发明，但是本领域的普通技术人员应该理解，在不脱离所附权利要求及其等同物所限定的本发明的精神和范围的前提之下可以对这些实施例做出形式和细节上的各种改变。

Claims

1、一种语音识别系统，包括：

语音接收机，用于以所设置的语音输入等级来拾取并接收语音，并且输出所接收的语音；和

语音识别器，用于确定所述语音输入等级并且将其输出到所述语音接收机，该决定基于所接收的语音的语音信号周期中的语音信号是否饱和来做出，其中语音信号是否饱和基于阈值来确定。

2、根据权利要求1所述的系统，其中所述语音接收机包括：

语音拾取元件，用于拾取来自外部演讲者的语音；和

语音等级控制器，用于以所述语音识别器所提供的语音输入等级来接收所拾取的语音，并且将所接收的语音输出到所述语音识别器。

3、根据权利要求1所述的系统，其中所述语音识别器包括：

语音检测器，用于从所述语音接收机的语音输出中检测所述语音信号周期；

语音饱和检测器，用于基于所述阈值确定所检测到的语音信号周期中的语音信号是否饱和；和

输入等级确定器，用于在所述语音信号周期中的语音信号饱和时，确定新语音输入等级，并且将关于所述新语音输入等级的信息输出到所述语音接收机，由此所述语音接收机以不饱和状态接收语音。

4、根据权利要求3所述的系统，所述语音识别器还包括语音校正器，用于在确定所检测到的语音信号周期中的语音信号未饱和时，对所述语音检测器检测到的所述语音信号周期中的语音信号执行语音识别处理。

5、根据权利要求3所述的系统，其中所述语音检测器通过使用所述语音接收机接收到的语音信号的能量值以及过零率中的至少一个来检测所述语音信号周期。

6、根据权利要求3所述的系统，其中所述语音饱和检测器计算所述语音信号周期的平均能量值，并且当所计算的平均能量值大于特定阈值时，确定所述语音信号周期中的语音信号饱和。

7、根据权利要求3所述的系统，其中所述语音饱和检测器将所述语音信号周期划分为多个周期，并且当每个周期中的语音信号的值大于语音输入分辨率时，确定所述语音信号周期中的语音信号饱和。

8、根据权利要求3所述的系统，其中所述输入等级确定器在所述语音检测器不能检测所述语音信号周期时确定新语音输入等级。

9、根据权利要求8所述的系统，其中所述输入等级确定器在所述语音检测器不能检测所述语音信号周期时，确定所述新语音输入等级Mic_NEW为所设置的当前语音输入等级Mic_OLD与最大允许语音输入等级值Mic_MAX之间的中间值。

10、根据权利要求8所述的系统，其中所述输入等级确定器在所述语音饱和检测器确定所述语音信号周期中的语音信号饱和时，确定所述新语音输入等级Mic_NEW为所设置的当前语音输入等级Mic_OLD与最小允许语音输入等级值Mic_MIN之间的中间值。

11、一种语音识别方法，包括如下步骤：

以所设置的语音输入等级拾取、接收并输出语音；

从所输出的语音中检测语音识别所需的语音信号周期；

基于阈值，确定所检测到的语音信号周期中的语音信号是否饱和；

当确定所述语音信号周期中的语音信号饱和时，确定新语音输入等级，以便以不饱和状态接收语音；以及

以所述新语音输入等级拾取并接收语音。

12、根据权利要求11所述的方法，还包括如下步骤：当确定所检测到的语音信号周期中的语音信号未饱和时，对所检测到的语音信号周期中的语音信号执行语音识别处理。

13、根据权利要求11所述的方法，其中检测所述语音信号周期的步骤包括使用语音信号的能量值和过零率来检测所述语音信号周期。

14、根据权利要求11所述的方法，其中确定语音信号是否饱和的步骤包括：计算所述语音信号周期的平均能量值，并且当所计算的平均能量值大于阈值时，确定所述语音信号周期中的语音信号饱和。

15、根据权利要求11所述的方法，其中确定语音信号是否饱和的步骤包括：将所述语音信号周期划分为多个周期，并且当每个周期中的语音信号的值大于语音输入分辨率时，确定所述语音信号周期中的语音信号饱和。

16、根据权利要求11所述的方法，其中在所述语音信号周期的检测失败时执行确定所述新语音输入等级的步骤。

17、根据权利要求16所述的方法，其中确定所述新语音输入等级的步骤包括：在检测所述语音信号周期的步骤不能检测所述语音信号周期时，确定所述新语音输入等级Mic_NEW为所设置的当前语音输入等级Mic_OLD与最大允许语音输入等级值Mic_MAX之间的中间值。

18、根据权利要求16所述的方法，其中确定所述新语音输入等级的步骤包括：在确定语音信号是否饱和的步骤确定所述语音信号周期中的语音信号饱和时，确定所述新语音输入等级Mic_NEW为所设置的当前语音输入等级Mic_OLD与最小允许语音输入等级值Mic_MIN之间的中间值。