CN1787073A - 自动控制输入等级的语音识别系统及语音识别方法 - Google Patents

自动控制输入等级的语音识别系统及语音识别方法 Download PDF

Info

Publication number
CN1787073A
CN1787073A CN200510124900.8A CN200510124900A CN1787073A CN 1787073 A CN1787073 A CN 1787073A CN 200510124900 A CN200510124900 A CN 200510124900A CN 1787073 A CN1787073 A CN 1787073A
Authority
CN
China
Prior art keywords
voice signal
voice
speech
cycle
saturated
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN200510124900.8A
Other languages
English (en)
Inventor
郑明基
沈贤植
李钟昌
金光春
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Samsung Electronics Co Ltd
Original Assignee
Samsung Electronics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Samsung Electronics Co Ltd filed Critical Samsung Electronics Co Ltd
Publication of CN1787073A publication Critical patent/CN1787073A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03GCONTROL OF AMPLIFICATION
    • H03G3/00Gain control in amplifiers or frequency changers
    • H03G3/20Automatic control
    • H03G3/30Automatic control in amplifiers having semiconductor devices
    • H03G3/32Automatic control in amplifiers having semiconductor devices the control being dependent upon ambient noise level or sound level
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L2025/783Detection of presence or absence of voice signals based on threshold decision
    • G10L2025/786Adaptive threshold

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Telephone Function (AREA)
  • Telephonic Communication Services (AREA)

Abstract

一种语音识别系统,包括:语音拾取元件,用于拾取来自外部演讲者语音;语音等级控制器,用于以语音识别器所提供的语音输入等级来接收所拾取的语音,并且将所接收的语音输出到语音识别器;语音检测器,用于从来自语音接收机的语音输出中检测语音识别所需的语音信号周期;语音饱和检测器,用于基于阈值确定所检测到的语音信号周期中的语音信号是否饱和;输入等级确定器,用于当语音信号周期中的语音信号饱和时,确定新语音输入等级,并且将关于新语音输入等级的信息输出到语音接收机,由此语音接收机以不饱和状态接收语音。一种语音识别方法包括与上述系统的功能相对应的步骤。

Description

自动控制输入等级的语音识别系统及语音识别方法
技术领域
本发明涉及一种语音识别系统,更具体地,涉及一种能够根据是否检测到输入语音的语音信号周期以及语音信号周期中的语音信号是否饱和来控制语音的输入等级的语音识别系统和语音识别方法。
背景技术
一般来说,语音识别系统或方法通过使用频率分析方案的各种分析方法来产生输入语音的特征向量,并且利用所产生的特征向量来识别语音。这种语音识别系统或方法使用多种使用输入语音信号的能量的语音识别方案之一。
在这种使用输入语音信号的能量的语音识别系统或方法中,为了识别语音,对输入语音信号的能量进行归一化,以最小化其中的偏差。在这一点上,不在特定的时刻单独检验输入语音信号的能量等级(或信号等级)。
在现有的语音识别系统或方法中,存在这样的问题:当由于语音信号的输入等级太低而导致语音检测失败时,或者当由于语音输入等级太高而导致某段时间内语音输入等级偏离语音输入分辨率时,语音识别率可能下降。然而,在这种情形中语音识别系统或方法不会补偿恶化的语音识别。
这种语音识别系统或方法不会根据输入语音的等级来将语音输入等级控制在可用范围之内。因此,这种语音识别系统或方法会由于低输入等级而导致语音检测失败,或者会由于高语音输入等级而导致语音周期中输入信号饱和,这降低了语音识别率。
因为语音识别系统或方法的用户从某一时刻开始多次连续使用这种系统或方法,而不是以确定的间隔周期性地使用,所以根据最初识别得到的输入等级校正可能会影响随后识别的概率较高。另外,当多个用户使用单个语音识别系统或方法时,可能在许多情形中语音音量和输入特性(例如,麦克风与演讲者之间的距离)参差不同。在这种情形中,应该在用户改变时实时控制语音识别系统或方法的语音输入等级。然而,在上述语音识别系统或方法中,每个单独用户必须手动控制语音输入等级。
发明内容
本发明的目的是提供一种语音识别系统以及使用这种系统的语音识别方法,该系统和方法能够通过分析用户所发出的语音(例如,将语音识别为语音识别周期中的语音)来自动且主动地控制语音输入等级。
本发明的另一目的是提供一种能够通过自适应地改变语音音量并改变讲话方式来提高输入语音的检测率和识别率的语音识别系统和方法。
根据本发明的实施例,提供了一种语音识别系统,包括:语音接收机,用于以所设置的语音输入等级来拾取并接收语音,并且输出所接收的语音;和语音识别器,用于确定所述语音输入等级并且将其输出到所述语音接收机,该决定基于所接收的语音的语音信号周期中的语音信号是否饱和来做出,其中语音信号是否饱和基于阈值来确定。
优选地,所述语音接收机包括:语音拾取元件,用于拾取来自外部演讲者的语音;和语音等级控制器,用于以所述语音识别器所提供的语音输入等级来接收所拾取的语音,并且将所接收的语音输出到所述语音识别器。
优选地,所述语音识别器包括:语音检测器,用于从所述语音接收机接收到的语音中检测所述语音信号周期;语音饱和检测器,用于基于所述阈值确定所检测到的语音信号周期中的语音信号是否饱和;和输入等级确定器,用于在所述语音信号周期中的语音信号饱和时,确定新语音输入等级,并且将关于所述新语音输入等级的信息输出到所述语音接收机,由此所述语音接收机以不饱和状态接收语音。
在一个实施例中,该系统还包括语音校正器,用于在确定所检测到的语音信号周期中的语音信号未饱和时,对所述语音检测器检测到的所述语音信号周期中的语音信号执行语音识别处理。
所述语音检测器通过使用所述语音接收机接收到的语音信号的能量值以及过零率中的至少一个来检测所述语音信号周期。
所述语音饱和检测器计算所述语音信号周期的平均能量值,并且如果所计算的平均能量值大于特定阈值,确定所述语音信号周期中的语音信号饱和。
所述语音饱和检测器将所述语音信号周期划分为几个或几十个短周期,并且如果每个短周期中的语音信号的值大于语音输入分辨率,确定所述语音信号周期中的语音信号饱和。
所述输入等级确定器在所述语音检测器不能检测所述语音信号周期时确定新语音输入等级。
所述输入等级确定器在所述语音检测器不能检测所述语音信号周期时,确定所述新语音输入等级MicNEW为所设置的当前语音输入等级MicOLD与最大允许语音输入等级值MicMAX之间的中间值。
所述输入等级确定器在所述语音饱和检测器确定所述语音信号周期中的语音信号饱和时,确定所述新语音输入等级MicNEW为所设置的当前语音输入等级MicOLD与最小允许语音输入等级值MicMIN之间的中间值。
同时,根据本发明另一实施例,提供了一种使用语音识别系统的语音识别方法,该方法包括如下步骤:以所设置的语音输入等级拾取、接收并输出语音;从所输出的语音中检测语音识别所需的语音信号周期;基于阈值,确定所检测到的语音信号周期中的语音信号是否饱和;当所述语音信号周期中的语音信号饱和时,确定新语音输入等级,以便以不饱和状态接收语音;以及以所述新语音输入等级拾取并接收语音。
优选地,检测所述语音信号周期的步骤包括使用语音信号的能量值和过零率来检测所述语音信号周期。
确定语音信号是否饱和的步骤包括:计算所述语音信号周期的平均能量值,并且如果所计算的平均能量值大于特定阈值,确定所述语音信号周期中的语音信号饱和。
确定语音信号是否饱和的步骤包括:将所述语音信号周期划分为几个或几十个短周期,并且如果每个短周期中的语音信号的值大于语音输入分辨率,确定所述语音信号周期中的语音信号饱和。
在所述语音信号周期的检测失败时执行确定所述新语音输入等级的步骤。
确定所述新语音输入等级的步骤包括:在检测所述语音信号周期的步骤不能检测所述语音信号周期时,确定所述新语音输入等级MicNEW为所设置的当前语音输入等级MicOLD与最大允许语音输入等级值MicMAX之间的中间值。
确定所述新语音输入等级的步骤包括:在确定语音信号是否饱和的步骤确定所述语音信号周期中的语音信号饱和时,确定所述新语音输入等级MicNEW为所设置的当前语音输入等级MicOLD与最小允许语音输入等级值MicMIN之间的中间值。
根据本发明,通过根据是否从输入语音信号中检测到语音信号周期以及检测到的语音信号周期中的语音信号是否饱和来控制语音输入等级,可以减小从输入语音信号中检测语音的失败率以及由于语音信号饱和而引起的语音识别率的降低。另外,当语音信号周期检测失败或检测到的语音信号饱和时,通过主动控制语音输入等级而不是由用户直接控制语音输入等级来自适应地改变各个演讲者的语音音量并改变讲话方式(麦克风与演讲者的距离),可以减小语音检测失败率以及语音识别率的降低。
附图说明
结合附图,参考下面的详细描述,对本发明的更彻底的认识以及本发明所带有的许多优点将变得更加清楚,并且变得更好理解,在附图中相似的标号表示相同或相似的部件,其中:
图1图示了在语音识别系统不能检测语音时的结果的示例;
图2图示了在语音识别系统不能检测语音时的结果的另一示例;
图3是根据本发明优选实施例、自动控制语音输入等级的语音识别系统的方框图;
图4A和4B图示了在图3的语音检测器中通过使用语音信号的能量和过零率来检测语音信号周期的原理;以及
图5是示出了使用根据本发明优选实施例的语音识别系统的语音识别方法的流程图。
具体实施方式
图1图示了在语音识别系统不能检测语音时的结果的示例。
参考图1,当由于输入语音的信号等级低于设置为语音识别周期的范围而不能进行语音检测时,得到数据10。
图2图示了在语音识别系统不能检测语音时的结果的另一示例。
参考图2,当由于输入语音的信号等级高于设置为语音识别周期的范围(饱和)而不能进行语音识别时,得到数据20。
如图1和2所示,在语音识别失败时,语音识别系统允许用户基于语音识别失败的原因来直接控制语音输入等级。例如,用户控制接收语音输入的麦克风与演讲者之间的距离,或者用户控制输入设备的麦克风增益,由此控制输入等级。
现在将参考附图更全面地描述本发明,在附图中示出了本发明的优选实施例。然而,可以以不同形式来实现本发明,并且不应将本发明解释为局限于这里所述的实施例。更确切地说,提供这些实施例,从而使本公开变得彻底并且完整,并且将本发明的概念完全传递给本领域的技术人员。
图3是根据本发明优选实施例、自动控制语音输入等级的语音识别系统的方框图。
参考图3,只示出了语音识别系统的主要元件,并且省略了与本发明无关的元件。该语音识别系统可以实现为单个系统,或者可以与客户端/服务器类型网络结构一起实现。
如图3所示,语音识别系统具有语音接收机200和语音识别器300。
语音接收机200拾取演讲者100发出的语音,并且将所拾取的语音输出到语音识别器300。
语音接收机200具有麦克风220和接收等级控制器240。
麦克风220拾取演讲者100发出的语音,并且接收等级控制器240以由输入等级信息所确定的等级来接收麦克风220所拾取的语音。
语音识别器300确定从语音接收机200输入的语音信号的语音周期是否饱和,基于该结果确定接收等级控制器240的语音输入等级,对语音周期中的语音执行校正,将校正后的语音识别为实际要使用的语音,并且将校正后的语音输出到相关模块。
语音识别器300具有语音检测器或终点检测器(EPD)310、语音校正器330、语音饱和检测器350、以及输入等级确定器370。语音饱和检测器350和输入等级确定器370被配置为包括在语音识别器300中,从而单个系统直接控制语音接收机200。语音饱和检测器350和输入等级确定器370可以实现在与网络连接的客户端或服务器中。
语音检测器310从自语音接收机200输入的语音信号中检测语音识别所需的语音信号周期。语音检测器310在从输入语音信号中检测语音识别所需的实际语音信号周期时使用语音信号的能量和过零率(zero crossing rate)。
语音校正器330减少由语音检测器310检测到的语音信号周期中的语音中所包含的噪声,然后识别得到的校正后语音,并作为实际要使用的语音输出。
语音饱和检测器350确定语音检测器310所检测到的语音信号周期内的语音信号是否饱和。下面将讨论一种用于确定语音信号是否饱和的方法,这种方法基于用于确定语音饱和检测器350中的输入等级控制的标准。
语音饱和检测器350计算输入语音信号的平均能量,并且如果所计算的平均能量大于特定的阈值,则确定语音信号饱和。另外,语音饱和检测器350将语音周期划分为几个或几十个短周期,并且如果每个周期中的语音信号的值大于语音输入分辨率,则可以确定语音信号饱和。
输入等级确定器370通过参考由语音检测器310检测到的语音信号周期以及由语音饱和检测器350检测到的语音饱和状态,确定接收等级控制器240中的输入等级的控制程度。
当语音检测器310在检测语音信号周期时不能检测到语音的终点时或者语音饱和检测器350确定语音信号饱和时,输入等级确定器370确定将要由语音接收机200的接收等级控制器240控制的语音的输入等级。在这一点上,输入等级确定器370将所确定的输入等级信息发送到语音输入单元200的接收等级控制器240。
因此,接收等级控制器240以与输入等级确定器370所提供的输入等级信息相对应的等级来接收由麦克风220拾取的演讲者110的语音。
图4A和4B图示了在图3的语音检测器中利用语音信号的能量和过零率来检测语音信号周期的原理。
一旦接收到输入语音信号,语音检测器310就测量输入语音信号的能量和过零率。
图4A是代表语音检测器310针对多个样本测量到的语音信号的能量值的图表。
当能量值大于上限阈值Thr.U时,语音检测器310确定语音已经开始,并且确定语音周期从语音实际开始之前特定样本周期的时刻已经开始。当其中能量值降到低于下限阈值Thr.L的样本周期持续了预定时间长度时,语音检测器310还确定语音周期已经结束。
图4B是代表语音检测器310针对每个样本计算出的过零率值的图表。
语音检测器310基于语音信号的能量值(如图4A所示)以及过零率(如图4B所示)来检测语音周期。过零率指示语音信号等级与零相交的频率。语音检测器310基于当前语音信号样本值与前一语音信号样本值相乘得到正的还是负的结果,确定语音信号值与零相交。该标准是可用的,因为语音信号必然在相应周期中包含周期性信号周期,并且因为该周期性信号周期中的过零率远小于没有语音的周期中的过零率。
如图4B所示,可以看到,没有语音的周期中的过零率表现为大于阈值Thr.ZCR。相反,可以看到,在语音周期中没有过零率出现。
当语音检测成功时,语音检测器310向语音饱和检测器350发送检测到的语音信号。
图5是示出了使用根据本发明优选实施例的语音识别系统的语音识别方法的流程图。
语音接收机200中的接收等级控制器240以设置的输入等级接收用户的语音,并且将接收到的语音输出到语音识别器300(S110)。语音识别器300中的语音检测器310从输入语音中检测实际的语音信号周期(S130)。在该实施例中,语音检测器310使用语音信号的能量和过零率来检测语音信号周期。
当语音周期检测成功时(S150),语音饱和检测器350分析检测到的语音信号,以确定语音是否饱和(S170)。这里,语音饱和检测器350可以使用语音能量和语音数据值来确定语音是否饱和。具体地说,语音饱和检测器350将语音周期划分为大约10至40毫秒的短周期。将语音周期划分为短周期是因为时变语音信号在短周期内表现出固定特征。如果使用语音信号的能量来检测语音饱和,则语音饱和检测器350使用公式1来计算短语音周期中语音数据的能量。
公式1
E j , 1 N Σ n = 1 N - 1 x j 2 [ n ] ,
其中,Ej是第j个周期中的平均能量,N是短语音周期中的数据数目(样本数目),并且xj 2[n]是第j个周期中的语音数据。
语音饱和检测器350将计算的语音周期中的能量值与可以将信号确定为饱和的能量阈值相比较。如果能量值大于阈值,则语音饱和检测器350确定输入语音信号饱和(S190)。
在这种情形中,可以根据语音输入分辨率来确定能量阈值(超过该阈值,则语音信号就饱和)。例如,如果语音信号具有16位的分辨率,则语音数据的范围是216,这样可以使用该值来计算阈值。
如果使用语音信号的数据值来确定语音是否饱和,则在划分后的语音周期中几个连续语音数据值等于由分辨率所允许的最大值MMAX时,语音饱和确定器350确定输入语音信号饱和,其中最大值MMAX由公式2表示:
公式2
x j [ n ] * ∃ X MA X * , n = t , t + 1 , . . . , t + L ,
其中MMAX是根据输入信号的分辨率(例如,16位)设置的最大值,t是第j个语音周期中每个语音数据的位置,并且L是连续饱和语音数据的设置数目。
同时,如果语音检测器310在S150中不能检测语音,或者如果语音饱和检测器350在S190中确定语音信号饱和,则输入等级确定器370确定在语音接收机200接收语音时将要应用的新的输入等级(S210)。
确定输入等级的示例包括两种情形,如下面的公式3所示。第一,当语音检测器310不能检测语音时,输入等级确定器370确定新的语音输入等级MicNEW为当前语音输入等级MicOLD与最大语音输入等级值MicMAX之间的中间值。第二,当语音饱和检测器350确定语音饱和时,输入等级确定器370确定新的语音输入等级MicNEW为当前语音输入等级MicOLD与最小语音输入等级值MicMIN之间的中间值。
公式3
MicNEW=MicOLD+(MicMAX-MicOLD)/2:输入等级增加,
MicNEW=MicOLD-(MicOLD-MicMIN)/2:输入等级减小,
其中,MicNEW是新的语音输入等级,MicOLD是现有语音输入等级,MicMAX是输入等级最大值,并且MicMIN是输入等级最小值。
在确定新的语音输入等级MicNEW之后,输入等级确定器370将关于新的语音输入等级的信息提供给接收等级控制器240。作为响应,接收等级控制器240以新的语音输入等级来接收麦克风220所拾取的语音,并且将接收到的语音输出端语音检测器310。
同时,如果在S190中确定语音信号不处于饱和状态,则语音校正器330减少由语音检测器310检测到的语音信号周期中的噪声,并且执行正常的语音识别处理操作(S230)。
根据本发明,通过根据是否从输入语音信号中检测到语音信号周期以及检测到的语音信号周期中的语音信号是否饱和来控制语音输入等级,可以减小从输入语音信号中检测语音的失败率以及由于语音信号饱和而引起的语音识别率的降低。
另外,当语音信号周期检测失败或检测到的语音信号饱和时,通过主动控制语音输入等级而不是由用户直接控制语音输入等级来自适应地改变各个演讲者的语音音量并改变讲话方式(麦克风与演讲者的距离),可以减小语音检测失败率以及语音识别率的降低。
虽然参考本发明的示例性实施例具体图示并描述了本发明,但是本领域的普通技术人员应该理解,在不脱离所附权利要求及其等同物所限定的本发明的精神和范围的前提之下可以对这些实施例做出形式和细节上的各种改变。

Claims (18)

1、一种语音识别系统,包括:
语音接收机,用于以所设置的语音输入等级来拾取并接收语音,并且输出所接收的语音;和
语音识别器,用于确定所述语音输入等级并且将其输出到所述语音接收机,该决定基于所接收的语音的语音信号周期中的语音信号是否饱和来做出,其中语音信号是否饱和基于阈值来确定。
2、根据权利要求1所述的系统,其中所述语音接收机包括:
语音拾取元件,用于拾取来自外部演讲者的语音;和
语音等级控制器,用于以所述语音识别器所提供的语音输入等级来接收所拾取的语音,并且将所接收的语音输出到所述语音识别器。
3、根据权利要求1所述的系统,其中所述语音识别器包括:
语音检测器,用于从所述语音接收机的语音输出中检测所述语音信号周期;
语音饱和检测器,用于基于所述阈值确定所检测到的语音信号周期中的语音信号是否饱和;和
输入等级确定器,用于在所述语音信号周期中的语音信号饱和时,确定新语音输入等级,并且将关于所述新语音输入等级的信息输出到所述语音接收机,由此所述语音接收机以不饱和状态接收语音。
4、根据权利要求3所述的系统,所述语音识别器还包括语音校正器,用于在确定所检测到的语音信号周期中的语音信号未饱和时,对所述语音检测器检测到的所述语音信号周期中的语音信号执行语音识别处理。
5、根据权利要求3所述的系统,其中所述语音检测器通过使用所述语音接收机接收到的语音信号的能量值以及过零率中的至少一个来检测所述语音信号周期。
6、根据权利要求3所述的系统,其中所述语音饱和检测器计算所述语音信号周期的平均能量值,并且当所计算的平均能量值大于特定阈值时,确定所述语音信号周期中的语音信号饱和。
7、根据权利要求3所述的系统,其中所述语音饱和检测器将所述语音信号周期划分为多个周期,并且当每个周期中的语音信号的值大于语音输入分辨率时,确定所述语音信号周期中的语音信号饱和。
8、根据权利要求3所述的系统,其中所述输入等级确定器在所述语音检测器不能检测所述语音信号周期时确定新语音输入等级。
9、根据权利要求8所述的系统,其中所述输入等级确定器在所述语音检测器不能检测所述语音信号周期时,确定所述新语音输入等级MicNEW为所设置的当前语音输入等级MicOLD与最大允许语音输入等级值MicMAX之间的中间值。
10、根据权利要求8所述的系统,其中所述输入等级确定器在所述语音饱和检测器确定所述语音信号周期中的语音信号饱和时,确定所述新语音输入等级MicNEW为所设置的当前语音输入等级MicOLD与最小允许语音输入等级值MicMIN之间的中间值。
11、一种语音识别方法,包括如下步骤:
以所设置的语音输入等级拾取、接收并输出语音;
从所输出的语音中检测语音识别所需的语音信号周期;
基于阈值,确定所检测到的语音信号周期中的语音信号是否饱和;
当确定所述语音信号周期中的语音信号饱和时,确定新语音输入等级,以便以不饱和状态接收语音;以及
以所述新语音输入等级拾取并接收语音。
12、根据权利要求11所述的方法,还包括如下步骤:当确定所检测到的语音信号周期中的语音信号未饱和时,对所检测到的语音信号周期中的语音信号执行语音识别处理。
13、根据权利要求11所述的方法,其中检测所述语音信号周期的步骤包括使用语音信号的能量值和过零率来检测所述语音信号周期。
14、根据权利要求11所述的方法,其中确定语音信号是否饱和的步骤包括:计算所述语音信号周期的平均能量值,并且当所计算的平均能量值大于阈值时,确定所述语音信号周期中的语音信号饱和。
15、根据权利要求11所述的方法,其中确定语音信号是否饱和的步骤包括:将所述语音信号周期划分为多个周期,并且当每个周期中的语音信号的值大于语音输入分辨率时,确定所述语音信号周期中的语音信号饱和。
16、根据权利要求11所述的方法,其中在所述语音信号周期的检测失败时执行确定所述新语音输入等级的步骤。
17、根据权利要求16所述的方法,其中确定所述新语音输入等级的步骤包括:在检测所述语音信号周期的步骤不能检测所述语音信号周期时,确定所述新语音输入等级MicNEW为所设置的当前语音输入等级MicOLD与最大允许语音输入等级值MicMAX之间的中间值。
18、根据权利要求16所述的方法,其中确定所述新语音输入等级的步骤包括:在确定语音信号是否饱和的步骤确定所述语音信号周期中的语音信号饱和时,确定所述新语音输入等级MicNEW为所设置的当前语音输入等级MicOLD与最小允许语音输入等级值MicMIN之间的中间值。
CN200510124900.8A 2004-12-07 2005-11-22 自动控制输入等级的语音识别系统及语音识别方法 Pending CN1787073A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020040102613 2004-12-07
KR1020040102613A KR100705563B1 (ko) 2004-12-07 2004-12-07 입력 레벨 자동 조절을 위한 음성 인식 시스템 및 이를이용한 음성 인식 방법

Publications (1)

Publication Number Publication Date
CN1787073A true CN1787073A (zh) 2006-06-14

Family

ID=35911210

Family Applications (1)

Application Number Title Priority Date Filing Date
CN200510124900.8A Pending CN1787073A (zh) 2004-12-07 2005-11-22 自动控制输入等级的语音识别系统及语音识别方法

Country Status (5)

Country Link
US (1) US20060122831A1 (zh)
EP (1) EP1669978A1 (zh)
JP (1) JP2006163392A (zh)
KR (1) KR100705563B1 (zh)
CN (1) CN1787073A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111354358A (zh) * 2018-12-20 2020-06-30 丰田自动车株式会社 控制方法、语音交互装置、语音识别服务器、存储介质和控制系统

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100834679B1 (ko) * 2006-10-31 2008-06-02 삼성전자주식회사 음성 인식 오류 통보 장치 및 방법
JP5239594B2 (ja) * 2008-07-30 2013-07-17 富士通株式会社 クリップ検出装置及び方法
KR20110010939A (ko) * 2009-07-27 2011-02-08 삼성전자주식회사 휴대용 단말기에서 음성 인식 성능을 향상시키기 위한 장치 및 방법
US9426592B2 (en) * 2013-02-14 2016-08-23 Google Inc. Audio clipping detection
KR101520938B1 (ko) * 2013-04-26 2015-05-18 미디어젠(주) 음량 크기의 통계적 특성을 이용한 음량측정방법
GB2535766B (en) * 2015-02-27 2019-06-12 Imagination Tech Ltd Low power detection of an activation phrase
JP6841232B2 (ja) * 2015-12-18 2021-03-10 ソニー株式会社 情報処理装置、情報処理方法、及びプログラム
KR102505719B1 (ko) 2016-08-12 2023-03-03 삼성전자주식회사 음성 인식이 가능한 디스플레이 장치 및 방법
CN108320742B (zh) * 2018-01-31 2021-09-14 广东美的制冷设备有限公司 语音交互方法、智能设备及存储介质
TWI672690B (zh) * 2018-03-21 2019-09-21 塞席爾商元鼎音訊股份有限公司 人工智慧語音互動之方法、電腦程式產品及其近端電子裝置
CN114512127B (zh) * 2022-01-29 2023-12-26 深圳市九天睿芯科技有限公司 语音控制方法、装置、设备、介质及智能语音采集系统

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08115098A (ja) * 1994-10-18 1996-05-07 Hitachi Microcomput Syst Ltd 音声編集方法および装置
US5870705A (en) * 1994-10-21 1999-02-09 Microsoft Corporation Method of setting input levels in a voice recognition system
US6766176B1 (en) * 1996-07-23 2004-07-20 Qualcomm Incorporated Method and apparatus for automatically adjusting speaker and microphone gains within a mobile telephone
US5841385A (en) * 1996-09-12 1998-11-24 Advanced Micro Devices, Inc. System and method for performing combined digital/analog automatic gain control for improved clipping suppression
US6012027A (en) * 1997-05-27 2000-01-04 Ameritech Corporation Criteria for usable repetitions of an utterance during speech reference enrollment
KR100240105B1 (ko) * 1997-07-22 2000-01-15 구자홍 잡음환경하에서 음성인식을 위한 음성구간 검출방법
JPH11126093A (ja) 1997-10-24 1999-05-11 Hitachi Eng & Service Co Ltd 音声入力調整方法および音声入力システム
KR100273395B1 (ko) * 1997-12-31 2001-01-15 구자홍 음성인식시스템의음성구간검출방법
US6314396B1 (en) * 1998-11-06 2001-11-06 International Business Machines Corporation Automatic gain control in a speech recognition system
GB2355607B (en) * 1999-10-20 2002-01-16 Motorola Israel Ltd Digital speech processing system
US6651040B1 (en) * 2000-05-31 2003-11-18 International Business Machines Corporation Method for dynamic adjustment of audio input gain in a speech system
JP4880136B2 (ja) * 2000-07-10 2012-02-22 パナソニック株式会社 音声認識装置および音声認識方法
US8019091B2 (en) * 2000-07-19 2011-09-13 Aliphcom, Inc. Voice activity detector (VAD) -based multiple-microphone acoustic noise suppression
US6754623B2 (en) * 2001-01-31 2004-06-22 International Business Machines Corporation Methods and apparatus for ambient noise removal in speech recognition

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111354358A (zh) * 2018-12-20 2020-06-30 丰田自动车株式会社 控制方法、语音交互装置、语音识别服务器、存储介质和控制系统
CN111354358B (zh) * 2018-12-20 2023-04-25 丰田自动车株式会社 控制方法、语音交互装置、语音识别服务器、存储介质和控制系统

Also Published As

Publication number Publication date
US20060122831A1 (en) 2006-06-08
KR100705563B1 (ko) 2007-04-10
JP2006163392A (ja) 2006-06-22
EP1669978A1 (en) 2006-06-14
KR20060063437A (ko) 2006-06-12

Similar Documents

Publication Publication Date Title
CN1787073A (zh) 自动控制输入等级的语音识别系统及语音识别方法
CN110428810B (zh) 一种语音唤醒的识别方法、装置及电子设备
CN1120470C (zh) 利用快速和精细匹配在人群中识别讲话者的方法和装置
CN1805008A (zh) 语音检测装置、自动图像拾取装置和语音检测方法
CN1132149C (zh) 游戏装置,声音选择装置和声音反应装置
CN1119795C (zh) 语音识别装置和识别方法以及语音学习装置和学习方法
CN100348034C (zh) 传送节目的方法和传送节目的发射机
CN1205800C (zh) 为后续的离线语音识别记录语音信息的记录设备
CN1783787A (zh) 监视控制系统和方法
CN1623182A (zh) 用于语音识别系统的话音活动的视听检测
CN109474359B (zh) 一种扫频方法、终端设备及存储介质
CN1950882A (zh) 语音识别系统中的语音结束检测
CN1764945A (zh) 分布式语音识别系统
CN1356688A (zh) 语音识别系统、语音识别服务器、语音识别客户机及其控制方法
CN1758331A (zh) 基于基音频率的快速音频分割方法
CN105405441B (zh) 一种语音信息的反馈方法及装置
CN1141696C (zh) 基于语音识别专用芯片的非特定人语音识别、语音提示方法
CN1949364A (zh) 检测输入语音信号可识别度的系统与方法
CN1773605A (zh) 一种应用于语音识别系统的语音端点检测方法
CN1447963A (zh) 语音编码中噪音鲁棒分类方法
CN1764946A (zh) 分布式语音识别方法
CN102714034A (zh) 信号处理的方法、装置和系统
CN1112672C (zh) 多脉冲分析语言处理系统及其方法
CN1046366C (zh) 静态和非静态信号的鉴别
CN1592092A (zh) 声音信号放大装置及音响装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication