CN1708782A - 用于操作语音识别系统的方法 - Google Patents

用于操作语音识别系统的方法 Download PDF

Info

Publication number
CN1708782A
CN1708782A CNA2003801025294A CN200380102529A CN1708782A CN 1708782 A CN1708782 A CN 1708782A CN A2003801025294 A CNA2003801025294 A CN A2003801025294A CN 200380102529 A CN200380102529 A CN 200380102529A CN 1708782 A CN1708782 A CN 1708782A
Authority
CN
China
Prior art keywords
quality
noise
reception
speech recognition
recognition system
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CNA2003801025294A
Other languages
English (en)
Other versions
CN100524458C (zh
Inventor
A·库伊曼
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nuance Communications Inc
Original Assignee
Koninklijke Philips Electronics NV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Koninklijke Philips Electronics NV filed Critical Koninklijke Philips Electronics NV
Publication of CN1708782A publication Critical patent/CN1708782A/zh
Application granted granted Critical
Publication of CN100524458C publication Critical patent/CN100524458C/zh
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/225Feedback of the input speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics

Landscapes

  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Telephonic Communication Services (AREA)
  • Monitoring And Testing Of Transmission In General (AREA)
  • Telephone Function (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Selective Calling Equipment (AREA)
  • Machine Translation (AREA)

Abstract

描述一种用于操作语音识别系统的方法,在该方法中检测和分析用户的语音信号(SI),以识别包含在该语音信号(SI)中的语音信息。该语音识别系统确定代表当前接收质量的接收质量值(SQ)或者噪声值。当接收质量值(SQ)降到接收质量阈值以下时或者当噪声值超过噪声阈值时,该语音识别系统(1)转换到对噪声不太敏感和/或向用户输出报警信号(SW)的操作模式。还描述了一种合适的语音识别系统。

Description

用于操作语音识别系统的方法
技术领域
本发明涉及一种用于操作语音识别系统的方法,在该方法中,检测和分析用户的语音信号,以识别在该语音信号中包含的语音信息。本发明还涉及一种语音识别系统,该系统包括用于检测用户的语音信号的装置以及用于分析检测的语音信号以识别包含在语音信号中的语音信息的语音识别装置。
背景技术
语音识别系统被日益用于许多应用领域中,以便能够在用户与相关应用之间进行语音通信,例如设备控制或自动信息服务。这样的语音-用户接口具有许多优点。一方面,一般来说,它们使设备的免提操作成为可能。另一方面,它们还特别适合作为用户接口用于部分视力或其它身体障碍的人,这些人不能阅读光显示器和/或操作输入装置如键盘或鼠标,并因此只得依赖语音作为通信手段。此外,这种类型的接口被日益用于自动语音对话系统中。这样的语音对话系统的示例是目前特别被某些大公司和公共服务使用的自动应答和信息系统,以便向主叫者尽可能快速地和尽可能舒适地提供期望信息或者把主叫者连接到负责该主叫者的特定请求的台站。这方面的进一步实例是自动电话信息系统、导航系统、具有一般议程主题或电影和戏剧节目的信息服务以及各种信息系统的任意组合。
根据其中使用了语音识别系统的相关应用,以不同方式或经由不同设备从用户传送语音信号给语音识别系统。在固定对话系统的情况下,例如在如火车站、机场、博物馆等的公共场所的信息终端中,语音识别系统包括连接适当的麦克风、耳机或类似物的一个或多个接收信道,以使用户能够与终端或者语音识别系统通信。然而,通过使用用户的适当终端,经由通信网如电话网或者因特网,通常可以接入上述的自动语音对话系统。因此,在此情况下,用户的语音信号首先被终端检测,在此之后将其转换成电信号,并经由通信网的语音和/或数据信道将其施加到语音对话系统的终端。
特别地用户借助于通信终端从任意环境可以联络的语音识别系统的固有特性是:其中用于接收语音信号的接收质量可以强烈地改变,即,甚至在会话内强烈变化。随后,一方面利用传输信道如电话链路的质量,以及另一方面利用其本身依赖于用户在相关时刻所在的环境的背景噪声电平,将接收质量确定到一个实质范围。显然,当接收质量较低时,语音识别系统的操作条件也将不太有利,因为传输信道的次噪声或者短暂干扰或中断易于破坏识别结果。当接收质量进一步恶化时,语音识别系统迟早(这取决于语音识别系统的灵敏度)将几乎不可能传送在某一程度令人满意的识别结果。对用户的发声尽可能快速地和自然地进行响应并因而对于用户来说本身是非常舒适的语音识别系统对干扰的反应非常敏感,这正是其缺点。另一方面,例如允许用户仅仅在给定的确切定义的时刻输入语音发声的语音识别系统在语音输入期间需要给定的相当高的音量,并且对发声响应相当慢,从而在接收质量恶化方面更加强烈。
发明内容
本发明的目的是以这样的方式改善上述类型的用于操作语音识别系统的方法或者语音识别系统,即,在接收质量恶化的情况中,也以尽可能高的质量继续操作,并且仍然给用户提供最大可能的舒适。
本发明的目的是这样实现的:确定代表当前接收质量的接收质量值或者噪声值,并且当接收质量值落到给定接收质量阈值以下时,或者当噪声值超过噪声阈值时,该语音识别系统转换到对噪声不太敏感和/或向用户输出报警信号的操作模式。
由于除了使用倒数值以及限制条件的相应颠倒之外,在接收质量值降低到给定的接收质量阈值以下方面监视接收质量值等同于在噪声值(例如背景噪声信号的电平)超出给定的噪声阈值方面监视噪声值,因此为了简便起见,在一般情况下,下面将只根据第一形式来描述本发明,然而,这不以任何方式限制本发明。在下面的说明中,这两个形式的相应术语总是可以进行互换。
本发明使语音识别系统本身和/或用户能够对接收质量恶化进行适当响应,所以用户总可以在当前接收条件下被提供最大可行的舒适,而另一方面,保证在接收条件变得更坏时,识别结果的质量不会过分被降级。
对于语音识别系统本身的响应,可安排:语音识别系统转换到更鲁棒的操作模式,其中接收质量较少影响语音识别的质量。例如,首先检测输入语音信号的话音活动检测器可以被切换到不太敏感模式,或者在语音识别系统的响应发生之前经过的等待周期可以被延长,以便语音识别系统完全不再对任何次噪声如此快速响应。作为选择或者另外,报警信号被输出给用户,所述报警信号最好是由语音识别系统输出的语音信号形式的更精心制作的告警消息,以便用户自己还可以对接收质量的恶化进行响应,并且例如移动到更寂静环境,或者当使用移动无线电设备时,通过搜索适当位置来改善移动无线连接。
两种响应方法的各种组合是可行的。例如,可以仅仅向用户发出报警信号或者可以仅仅执行自动转换到不太敏感操作模式。然而,可以随着转换到更鲁棒的操作模式,可以同时向用户输出报警信号,所述报警信号最好包含操作模式已经被转换的指示。此外,也有可能最初仅仅向用户输出报警信号,并且例如当接收质量未改善或者甚至恶化时,在给定时间周期之后,转换到不太敏感操作模式。
随后也可以将接收质量阈值定义为取决于相关应用的给定参数例如依赖于语音信号的不正确识别的可能结果而是可变的。尤其也有可能定义多个不同的接收质量阈值,并且逐步地激活不同的操作模式和/或每次依赖于所述接收质量阈值向用户输出报警信号。
在特别有利的实施例中,当接收质量值再次超过接收质量阈值时,语音识别系统被自动复位到前一操作模式。这意味着:语音识别系统例如自动地再次变得更为敏感,以便只要用户为了响应报警信号而已经成功地创建更好的接收质量,或者当接收质量因其它原因而再次变得较好时,该语音识别系统对用户更舒适地响应。
在特别有利的实施例中,只要接收质量降低到接收质量阈值以下,就断开语音识别系统的所谓插嘴(barge-in)操作模式。这意味着,语音识别系统从其中用户对语音识别系统的语音输出具有插嘴(所谓的提示)可能性的操作模式切换到“替换”操作模式,在“替换”模式中,在用户可以对语音识别系统的提示做出反应之前,用户必需首先等待提示的完整输出。此类插嘴语音识别系统一方面与用户的“替换”系统相比提供优点,即它们实质上更自然地响应,即类似于“真实”谈话者。另一方面,有经验的用户可以更快地操作这样的语音识别系统,因为用户通常已经知道待输出的提示,所以用户可以通过过早的响应来中断提示的输出,因而实际上减少了整个对话的持续时间。
接收质量值可以以各种方式来确定。
利用话音活动检测器来确定接收质量值是特别简单的,一般来说,所述语音活动检测器已经用在语音识别系统的输入端上,用于首先检测所有的输入语音信号,并将其传送给实际的语音识别装置。随后,例如根据在用户的语音暂停中接收的背景信号,可以确定接收质量值。这意味着,例如在语音暂停期间,在输入端上测量噪声电平或者基本信号能量,以便用作接收质量的度量。例如,因而可以确定用户是位于寂静环境中还是位于喧闹环境中。此外,还可以根据对于识别结果获得的信用值或者根据其它参数,利用实际的语音识别装置自身来确定识别质量值,所述其它参数依赖于例如识别结果的质量或者为了识别而进行的努力。
然后,能够以各种方式进行语音识别系统内接收质量值的实际处理。
另一方面,话音活动检测器可以把接收质量值本身应用于例如对话控制装置。在此情况下,例如,遵从相关应用配置对话控制装置的相关应用的程序设计者可以根据接收质量阈值指定语音识别系统应当以什么方式进行反应或者什么提示将输出给用户。
作为选择或者另外地,当接收质量值落到接收质量阈值以下时,话音活动检测器还有可能向对话控制装置和/或系统的其它部件输出接收恶化指示信号。随后,对话控制装置可以相应地响应接收恶化指示信号,并向用户输出例如适当提示。而且,操作模式可以经由对话控制装置和/或其它系统部件来改变。
在特别舒适的系统中,根据引起接收质量值低于接收质量阈值的干扰的类型,更详细地分析输入信号。在此情况下,以包含相关信息的提示的形式向用户提供报警信号。这意味着,执行例如有关是否涉及用户的通信终端与语音识别系统之间的不良连接的分析,或者执行有关用户附近的背景噪声是否太响的分析。当用户接收到相应信息时,对于用户来说将更容易作出正确反应,以改善接收质量。尤其可以利用话音活动检测器和/或实际的语音识别装置来执行该分析。
为了执行根据本发明的方法,本发明的语音识别系统一方面应当包括用于确定相应接收质量值或者噪声值的适当质量控制装置。另一方面,该语音识别系统应当包括比较器,用于将接收质量值与给定的接收质量阈值进行比较,或者用于将噪声值与给定的噪声阈值进行比较。最后,此类型的语音识别系统需要适当的控制装置,例如转换装置或合适编程的对话控制装置,用于在接收质量值降低到给定接收质量阈值以下时,或者在噪声值超过噪声阈值时,将语音识别系统转换到对噪声不太敏感和/或向用户输出报警信号的操作模式。比较器还可以被集成在该系统的其它部件中,例如被集成在话音活动检测器中或者被集成在对话控制装置中。
根据本发明的语音识别系统最好借助于适当软件在一个计算机上或在设备的语音控制中高度实施。例如可以全部以软件模块的形式实现语音识别装置和对话控制装置。借助于适当软件还可以实现用于生成适当提示的装置,例如所谓的TTS转换器(文本-语音转换器)。作为选择,还有可能使用提示播放器,为用户重放给定的预先记录的提示。当然,该系统必需包括用于语音输入和语音输出的设施;这样的设施将以硬件形式来实现,例如,麦克风和扬声器或用于连接到通信网的接口,利用终端经由该接口可以访问该语音识别系统。
特别地,语音识别系统的各个部件能够位于经由适当网络彼此连接的不同位置中,而不是在单个设备内例如在单个服务器上实现语音识别系统。根据本发明的语音识别系统可以与所有类型的应用结合使用。特别地,它还可同时用于多个应用,也就是,作为例如时间共享系统形式的服务系统,以便它构成用于各种应用的相应用户接口。
附图说明
下面将根据两个实施例并结合附图详细说明本发明。其中:
图1显示根据本发明的语音识别系统的第一实施例的方框图;和
图2显示根据本发明的语音识别系统的第二实施例的方框图。
具体实施方式
两个附图中所示的实施例都是所谓的插嘴型的语音识别系统1。
麦克风2连接到每个语音识别系统1,以便输入语音信号SI。为了给用户输出声音信号或者语音输出(提示),相应的扬声器3连接到语音识别系统1。作为选择,麦克风2和扬声器3还可以存在于远离语音识别系统1并且经由合适的接口例如电话网等连接到语音识别系统1的终端中。
来自两个语音识别系统1的麦克风2的输入信号首先到达回声滤波器4(还称之为回声消除器)。在用户说话的情况下,即使语音识别系统1自身仍然在输出提示S0,该回声滤波器4也用于除去提示S0的回声,该回声自输入信号以衰减形式被叠加到语音信号SI上。
语音信号SI随后被施加到话音活动检测器5上,该检测器5测量信号能量,并因而测量用户的话音活动。该话音活动检测器5一方面用于检测语音信号的开始和结束以及用户发声中的语音暂停。另一方面,该话音检测器输出插嘴信号SBI,该信号SBI被施加到文本-语音转换器8(以下称之为TTS转换器8)和对话控制装置10,以便在用户与仍然在输出的提示相撞的情况下,阻止TTS转换器8进一步输出提示。
在此情况下,插嘴转换单元9被插入在用于话音活动检测器5的插嘴信号SBI的输出引线中。系统1实际上专门在插嘴转换单元9处于闭合状态时适合于插嘴。然而,当转换器打开时(图1所示的状态),语音识别系统1在提示输出期间对用户的语音输入不作出反应。
语音信号SI从话音活动检测器5施加到自动语音识别装置7,在装置7中执行对语音信号SI的实际分析,以识别其中包含的语音信息。识别结果随后以文本格式或者以机器可读格式被施加给对话控制装置10。
最后,对话控制装置10以预定方式(也就是,根据给定的对话协议)响应识别结果,并且例如从存储器12中选择用户预期的信息或者在其中存储用户输入的数据。而且,对话控制装置驱动TTS转换器8并向该转换器提供将输出给用户的提示的数据。这些提示随后从TTS转换器8经由回声滤波器4施加给扬声器3,经由该扬声器输出这些提示。对话控制装置10的精确结构一般来说取决于相关应用。
根据本发明,除了插嘴转换单元9之外,附图所示的两个实施例还包括构成话音活动检测器5的一部分的质量控制装置6。在所述质量控制装置6中确定接收质量值SQ。该信号可以是例如在发声之前和/或在用户的语音暂停中由话音活动检测器5测量的背景噪声电平的倒数值。
接收质量值SQ被施加给对话控制装置10,在比较器11比较接收质量值SQ与预定接收质量阈值,该比较器11例如以软件模块形式来实现。只要接收质量值SQ低于预定阈值,对话控制装置10就把插嘴停用(deactivation)信号SBA提供给插嘴转换单元9,其中转换器被设置到图1所示的位置。这意味着:语音识别系统1从其中允许插嘴的操作模式转换到其中不允许插嘴的操作模式。这提供了这样的优点:在提示输出期间在背景噪声阈值过高的情况下,语音识别系统1将不会被连续中断,因为背景噪声不与用户相关联并且不应导致提示中断。这意味着:语音识别装置1转换到必然导致略微不太自然并因而对于用户来说不太舒适类型的对话类型的操作模式,但是该操作模式更鲁棒并且实际上更适合于在相关时刻出现的接收条件。
此外,只要接收质量值SQ落到预定接收质量阈值以下,对话控制单元10确保TTS生成器8生成并输出相关的报警信号,该报警信号的形式为适合的报警提示SW的形式,例如,类型为“背景噪声太大。请在应答之前等待提示输出的完成”的消息。
对话控制装置10被以这样的方式进行安排:当接收质量值SQ再次增加到超过预定接收质量阈值时,自动取消插嘴停用信号SBA,由此再次闭合插嘴转换单元9的转换器。
原则上,由对话控制装置10的程序设计员来定义停用插嘴状态和/或向用户发出报警信号的任意接收质量阈值,以便在需要时用户可以尽可能地查找较寂静环境。
图2显示根据本发明的语音识别系统1的一个略微不同的实施例。
在该实施例中,在质量控制装置6中直接将接收质量值SQ与接收质量阈值进行比较;这意味着:比较器11被集成在质量控制装置6中。当质量控制值落到预定接收质量阈值以下时,质量控制装置6输出同时停用插嘴转换单元9的接收恶化指示信号SEB,并将其施加给对话控制装置10,以确保:取决于程序设计,开始经由TTS转换器8输出适当的报警提示SW
请再次注意,图中所示的语音识别系统1仅是本发明的特定实施例,并且本领域熟练技术人员将能够以各种方式修改语音识别系统1或者用于操作语音识别系统1的方法而不背离本发明的范围。
例如,对于质量控制单元6构成对话控制装置10的一部分是特别有可能的。此外,插嘴转换装置9还能够构成话音活动检测器5或对话控制装置10的一部分,以及被构成为例如纯软件转换器。此外,质量控制单元6还可以被构成为独立的纯软件模块。而且,语音识别系统可以包括附加部件或者其它功能;例如,它可以执行智能的基于语法的插嘴方法。在此情况下,插嘴信号不是由话音活动检测器生成,而是仅由语音识别装置生成,该语音识别装置首先检查输入信号是否实际上具有有意义的并因而被认为是插嘴事件的内容。进一步的变化可以包括例如说话者标识或者语音识别系统的其它精心制作。

Claims (10)

1.一种用于操作语音识别系统(1)的方法,在该方法中,检测和分析用户的语音信号(SI),以识别包含在该语音信号(SI)中的语音信息,其特征在于,确定代表当前接收质量的接收质量值(SQ)或噪声值,并且当接收质量值(SQ)落到给定的接收质量阈值以下时,或者当噪声值超过噪声阈值时,该语音识别系统(1)转换到对噪声不太敏感和/或向用户输出报警信号(SW)的操作模式。
2.根据权利要求1所述的方法,其特征在于,当接收质量值(SQ)再次超过接收质量阈值,或者当噪声值再次落到噪声阈值以下时,该语音识别系统被自动复位到前一操作模式。
3.根据权利要求1或2所述的方法,其特征在于,当接收质量值落到接收质量阈值以下或者噪声值超过噪声阈值时,停用该语音识别系统(1)的插嘴操作模式。
4.根据权利要求1至3之一所述的方法,其特征在于,利用话音活动检测器(5)来确定接收质量值(SQ)或者噪声值。
5.根据权利要求1至4之一所述的方法,其特征在于,根据在用户的发声开始之前和/或在语音暂停中接收的背景信号,确定接收质量值(SQ)或者噪声值。
6.根据权利要求4或5所述的方法,其特征在于,该话音活动检测器(5)将接收质量值(SQ)或噪声值本身施加给对话控制装置(10),和/或当接收质量值落到接收质量阈值以下时或当噪声值超过噪声阈值时,将接收恶化指示信号(SEB)施加给对话控制装置(10)。
7.根据权利要求1至6之一所述的方法,其特征在于,当接收到接收恶化指示信号(SEB)和/或当接收到的接收质量值(SQ)降低到接收质量阈值以下或噪声值超过噪声阈值时,该对话控制装置(10)开始向用户输出提示(SW),由此给予该用户接收条件差的信息。
8.根据权利要求1至7之一所述的方法,其特征在于,根据引起接收质量值(SQ)低于接收质量阈值或者噪声值高于噪声阈值的干扰类型,分析输入信号,并且向用户输出包含此信息的提示(SW)。
9.一种语音识别系统(1),包括用于检测用户的语音信号(SI)的装置(5)和用于分析检测的语音信号(SI)以识别包含在该语音信号中的语音信息的语音识别装置(7),其特征在于,该语音识别系统包括:
质量控制装置(6),用于确定代表当前接收质量的接收质量值(SQ)或噪声值,
比较器,用于将接收质量值(SQ)与预定接收质量阈值进行比较,或者用于将噪声值与给定噪声阈值进行比较,和
控制装置(9,10),所述控制装置被以这样的方式构成,即,当接收质量值降到接收质量阈值以下时或者当噪声值超过噪声阈值时,该语音识别系统(1)转换到对噪声不太敏感和/或向用户输出报警信号(SW)的操作模式。
10.一种计算机程序,包括程序代码装置,用于当在计算机上运行该程序时执行权利要求1至8之一所述的方法的所有步骤。
CNB2003801025294A 2002-11-02 2003-10-24 用于操作语音识别系统的方法 Expired - Fee Related CN100524458C (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
DE10251113A DE10251113A1 (de) 2002-11-02 2002-11-02 Verfahren zum Betrieb eines Spracherkennungssystems
DE10251113.6 2002-11-02

Publications (2)

Publication Number Publication Date
CN1708782A true CN1708782A (zh) 2005-12-14
CN100524458C CN100524458C (zh) 2009-08-05

Family

ID=32115143

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB2003801025294A Expired - Fee Related CN100524458C (zh) 2002-11-02 2003-10-24 用于操作语音识别系统的方法

Country Status (8)

Country Link
US (1) US8781826B2 (zh)
EP (1) EP1561203B1 (zh)
JP (2) JP2006505003A (zh)
CN (1) CN100524458C (zh)
AT (1) ATE421139T1 (zh)
AU (1) AU2003269418A1 (zh)
DE (2) DE10251113A1 (zh)
WO (1) WO2004042698A1 (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014114048A1 (zh) * 2013-01-24 2014-07-31 华为终端有限公司 一种语音识别的方法、装置
WO2014114049A1 (zh) * 2013-01-24 2014-07-31 华为终端有限公司 一种语音识别的方法、装置
CN104205010A (zh) * 2012-03-30 2014-12-10 英特尔公司 语音启用的触摸屏用户界面
CN104767652A (zh) * 2014-01-08 2015-07-08 杜比实验室特许公司 监视数字传输环境性能的方法和确定服务潜在质量的系统
CN107147972A (zh) * 2016-03-01 2017-09-08 卡讯电子股份有限公司 音频讯号输出控制方法及系统
CN108986796A (zh) * 2018-06-21 2018-12-11 广东小天才科技有限公司 一种语音搜索方法及装置
CN109791762A (zh) * 2016-10-03 2019-05-21 谷歌有限责任公司 语音接口设备的噪声降低
CN111508515A (zh) * 2013-12-18 2020-08-07 思睿逻辑国际半导体有限公司 话音命令触发的语音增强

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE10224816A1 (de) * 2002-06-05 2003-12-24 Philips Intellectual Property Eine mobile Einheit und ein Verfahren zur Steuerung einer mobilen Einheit
DE112004000782T5 (de) * 2003-05-08 2008-03-06 Voice Signal Technologies Inc., Woburn Signal-zu-Rausch-Verhältnis vermittelter Spracherkennungs-Algorithmus
US7406422B2 (en) * 2004-07-20 2008-07-29 Hewlett-Packard Development Company, L.P. Techniques for improving collaboration effectiveness
WO2007138741A1 (ja) * 2006-05-26 2007-12-06 Nec Corporation 音声入力システム、対話型ロボット、音声入力方法、および、音声入力プログラム
EP2107553B1 (en) * 2008-03-31 2011-05-18 Harman Becker Automotive Systems GmbH Method for determining barge-in
EP2148325B1 (en) * 2008-07-22 2014-10-01 Nuance Communications, Inc. Method for determining the presence of a wanted signal component
JP5156043B2 (ja) * 2010-03-26 2013-03-06 株式会社東芝 音声判別装置
DE102010055297A1 (de) * 2010-12-21 2012-06-21 Brose Fahrzeugteile Gmbh & Co. Kommanditgesellschaft, Hallstadt Verfahren zur Erzeugung einer Bedienmeldung beim Auftreten eines Bedienereignisses
KR101987255B1 (ko) * 2012-08-20 2019-06-11 엘지이노텍 주식회사 음성 인식 장치 및 이의 음성 인식 방법
US20140358535A1 (en) * 2013-05-28 2014-12-04 Samsung Electronics Co., Ltd. Method of executing voice recognition of electronic device and electronic device using the same
US9293135B2 (en) * 2013-07-02 2016-03-22 Volkswagen Ag Countermeasures for voice recognition deterioration due to exterior noise from passing vehicles
US9613619B2 (en) 2013-10-30 2017-04-04 Genesys Telecommunications Laboratories, Inc. Predicting recognition quality of a phrase in automatic speech recognition systems
US9516165B1 (en) * 2014-03-26 2016-12-06 West Corporation IVR engagements and upfront background noise
US9953646B2 (en) 2014-09-02 2018-04-24 Belleau Technologies Method and system for dynamic speech recognition and tracking of prewritten script
US10923101B2 (en) * 2017-12-26 2021-02-16 International Business Machines Corporation Pausing synthesized speech output from a voice-controlled device
JP7388006B2 (ja) * 2019-06-03 2023-11-29 コニカミノルタ株式会社 画像処理装置及びプログラム
KR20190084912A (ko) * 2019-06-28 2019-07-17 엘지전자 주식회사 사용자의 액션에 따라 제어 가능한 인공 지능 장치 및 그의 동작 방법
US11037571B2 (en) * 2019-10-04 2021-06-15 Motorola Solutions, Inc. Speech-based two-way radio assistant

Family Cites Families (37)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4720802A (en) * 1983-07-26 1988-01-19 Lear Siegler Noise compensation arrangement
JP2589468B2 (ja) * 1986-02-18 1997-03-12 松下電器産業株式会社 音声認識装置
GB8608289D0 (en) * 1986-04-04 1986-05-08 Pa Consulting Services Noise compensation in speech recognition
US5033088A (en) * 1988-06-06 1991-07-16 Voice Processing Corp. Method and apparatus for effectively receiving voice input to a voice recognition system
JPH0675588A (ja) * 1992-08-27 1994-03-18 Fujitsu Ltd 音声認識装置
US5870705A (en) * 1994-10-21 1999-02-09 Microsoft Corporation Method of setting input levels in a voice recognition system
US5978763A (en) * 1995-02-15 1999-11-02 British Telecommunications Public Limited Company Voice activity detection using echo return loss to adapt the detection threshold
FI100840B (fi) * 1995-12-12 1998-02-27 Nokia Mobile Phones Ltd Kohinanvaimennin ja menetelmä taustakohinan vaimentamiseksi kohinaises ta puheesta sekä matkaviestin
US5765130A (en) * 1996-05-21 1998-06-09 Applied Language Technologies, Inc. Method and apparatus for facilitating speech barge-in in connection with voice recognition systems
EP1021804A4 (en) * 1997-05-06 2002-03-20 Speechworks Int Inc SYSTEM AND METHOD FOR DEVELOPING INTERACTIVE LANGUAGE APPLICATIONS
US5956675A (en) * 1997-07-31 1999-09-21 Lucent Technologies Inc. Method and apparatus for word counting in continuous speech recognition useful for reliable barge-in and early end of speech detection
US5970446A (en) * 1997-11-25 1999-10-19 At&T Corp Selective noise/channel/coding models and recognizers for automatic speech recognition
JPH11352995A (ja) * 1998-06-08 1999-12-24 Toshiba Tec Corp 音声認識装置
JP3893763B2 (ja) * 1998-08-17 2007-03-14 富士ゼロックス株式会社 音声検出装置
US6246986B1 (en) * 1998-12-31 2001-06-12 At&T Corp. User barge-in enablement in large vocabulary speech recognition systems
US6574601B1 (en) * 1999-01-13 2003-06-03 Lucent Technologies Inc. Acoustic speech recognizer system and method
US6336091B1 (en) * 1999-01-22 2002-01-01 Motorola, Inc. Communication device for screening speech recognizer input
US6381570B2 (en) * 1999-02-12 2002-04-30 Telogy Networks, Inc. Adaptive two-threshold method for discriminating noise from speech in a communication signal
US6505155B1 (en) * 1999-05-06 2003-01-07 International Business Machines Corporation Method and system for automatically adjusting prompt feedback based on predicted recognition accuracy
NL1012148C2 (nl) * 1999-05-25 2000-11-28 Koninkl Kpn Nv Spraakverwerkend systeem.
JP3969908B2 (ja) * 1999-09-14 2007-09-05 キヤノン株式会社 音声入力端末器、音声認識装置、音声通信システム及び音声通信方法
US6724864B1 (en) * 2000-01-20 2004-04-20 Comverse, Inc. Active prompts
ATE489702T1 (de) * 2000-01-27 2010-12-15 Nuance Comm Austria Gmbh Sprachdetektiongsgerät mit zwei abschaltkriterien
US6466654B1 (en) * 2000-03-06 2002-10-15 Avaya Technology Corp. Personal virtual assistant with semantic tagging
JP3903410B2 (ja) * 2000-06-01 2007-04-11 三菱電機株式会社 音声入力制御システム
CN1205800C (zh) * 2000-06-29 2005-06-08 皇家菲利浦电子有限公司 为后续的离线语音识别记录语音信息的记录设备
GB2367467B (en) * 2000-09-30 2004-12-15 Mitel Corp Noise level calculator for echo canceller
US7117442B1 (en) 2001-02-01 2006-10-03 International Business Machines Corporation Efficient presentation of database query results through audio user interfaces
JP2002244696A (ja) * 2001-02-20 2002-08-30 Kenwood Corp 音声認識による制御装置
US6754310B1 (en) * 2001-03-08 2004-06-22 3Com Corporation Telephony interface device for providing diagnostic information to a telephone
JP2002297186A (ja) 2001-03-30 2002-10-11 Kddi Corp 音声認識装置
CN1266625C (zh) 2001-05-04 2006-07-26 微软公司 用于web启用的识别的服务器
US20030046069A1 (en) * 2001-08-28 2003-03-06 Vergin Julien Rivarol Noise reduction system and method
US7069221B2 (en) * 2001-10-26 2006-06-27 Speechworks International, Inc. Non-target barge-in detection
US7295982B1 (en) * 2001-11-19 2007-11-13 At&T Corp. System and method for automatic verification of the understandability of speech
US7103542B2 (en) * 2001-12-14 2006-09-05 Ben Franklin Patent Holding Llc Automatically improving a voice recognition system
JP3984526B2 (ja) * 2002-10-21 2007-10-03 富士通株式会社 音声対話システム及び方法

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104205010A (zh) * 2012-03-30 2014-12-10 英特尔公司 语音启用的触摸屏用户界面
WO2014114048A1 (zh) * 2013-01-24 2014-07-31 华为终端有限公司 一种语音识别的方法、装置
WO2014114049A1 (zh) * 2013-01-24 2014-07-31 华为终端有限公司 一种语音识别的方法、装置
CN103971680A (zh) * 2013-01-24 2014-08-06 华为终端有限公司 一种语音识别的方法、装置
US9607619B2 (en) 2013-01-24 2017-03-28 Huawei Device Co., Ltd. Voice identification method and apparatus
US9666186B2 (en) 2013-01-24 2017-05-30 Huawei Device Co., Ltd. Voice identification method and apparatus
CN111508515A (zh) * 2013-12-18 2020-08-07 思睿逻辑国际半导体有限公司 话音命令触发的语音增强
CN104767652A (zh) * 2014-01-08 2015-07-08 杜比实验室特许公司 监视数字传输环境性能的方法和确定服务潜在质量的系统
CN107147972A (zh) * 2016-03-01 2017-09-08 卡讯电子股份有限公司 音频讯号输出控制方法及系统
CN109791762A (zh) * 2016-10-03 2019-05-21 谷歌有限责任公司 语音接口设备的噪声降低
CN109791762B (zh) * 2016-10-03 2023-09-05 谷歌有限责任公司 语音接口设备的噪声降低
CN108986796A (zh) * 2018-06-21 2018-12-11 广东小天才科技有限公司 一种语音搜索方法及装置

Also Published As

Publication number Publication date
EP1561203A1 (en) 2005-08-10
DE10251113A1 (de) 2004-05-19
DE60325881D1 (de) 2009-03-05
JP2011022600A (ja) 2011-02-03
AU2003269418A1 (en) 2004-06-07
EP1561203B1 (en) 2009-01-14
US8781826B2 (en) 2014-07-15
US20060200345A1 (en) 2006-09-07
WO2004042698A1 (en) 2004-05-21
ATE421139T1 (de) 2009-01-15
JP2006505003A (ja) 2006-02-09
WO2004042698A8 (en) 2005-05-19
CN100524458C (zh) 2009-08-05

Similar Documents

Publication Publication Date Title
CN100524458C (zh) 用于操作语音识别系统的方法
US11626116B2 (en) Contingent device actions during loss of network connectivity
CN101903948B (zh) 用于基于多麦克风的语音增强的系统、方法及设备
EP2539887B1 (en) Voice activity detection based on plural voice activity detectors
US9293133B2 (en) Improving voice communication over a network
CN107799126A (zh) 基于有监督机器学习的语音端点检测方法及装置
CN101313483A (zh) 回音消除的配置
JP2014045507A (ja) 複数のマイクからの信号間で知的に選択することによって音質を改善すること
JP2004511823A (ja) 動的再構成可能音声認識システムとその方法
KR20020071851A (ko) 로컬 인터럽트 검출을 기반으로한 음성인식 기술
CN106098078B (zh) 一种可过滤扬声器噪音的语音识别方法及其系统
US7167544B1 (en) Telecommunication system with error messages corresponding to speech recognition errors
RU2735363C1 (ru) Способ и устройство для обработки звука и носитель информации
CN110277095B (zh) 语音服务控制装置及其方法
EP3792918A1 (en) Digital automatic gain control method and apparatus
US20070118380A1 (en) Method and device for controlling a speech dialog system
CN113362828B (zh) 用于识别语音的方法和装置
EP2540133B1 (en) Switching off dtx for music
CN111326159B (zh) 一种语音识别方法、装置、系统
CN112235462A (zh) 语音调节方法、系统、电子设备及计算机可读存储介质
EP1185976B1 (en) Speech recognition device with reference transformation means
JP2003241788A (ja) 音声認識装置及び音声認識システム
US20190304457A1 (en) Interaction device and program
WO2020223304A1 (en) Speech dialog system aware of ongoing conversations
US11641592B1 (en) Device management using stored network metrics

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
ASS Succession or assignment of patent right

Owner name: NUANCE COMMUNICATION INC.

Free format text: FORMER OWNER: KONINKLIKE PHILIPS ELECTRONICS N.V.

Effective date: 20121227

C41 Transfer of patent application or patent right or utility model
TR01 Transfer of patent right

Effective date of registration: 20121227

Address after: Massachusetts

Patentee after: Nuance Communications, Inc.

Address before: Holland Ian Deho Finn

Patentee before: Koninklijke Philips Electronics N.V.

CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20090805

CF01 Termination of patent right due to non-payment of annual fee