CN1856821A - 允许声音打断的系统与方法 - Google Patents

允许声音打断的系统与方法 Download PDF

Info

Publication number
CN1856821A
CN1856821A CNA2004800279616A CN200480027961A CN1856821A CN 1856821 A CN1856821 A CN 1856821A CN A2004800279616 A CNA2004800279616 A CN A2004800279616A CN 200480027961 A CN200480027961 A CN 200480027961A CN 1856821 A CN1856821 A CN 1856821A
Authority
CN
China
Prior art keywords
model
speech recognition
auditory tone
tone cues
vocabulary
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CNA2004800279616A
Other languages
English (en)
Other versions
CN100583238C (zh
Inventor
J·荣卡维特施
R·布吕克纳
K·赖因哈德
S·多布勒
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Telefonaktiebolaget LM Ericsson AB
Original Assignee
Telefonaktiebolaget LM Ericsson AB
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Telefonaktiebolaget LM Ericsson AB filed Critical Telefonaktiebolaget LM Ericsson AB
Publication of CN1856821A publication Critical patent/CN1856821A/zh
Application granted granted Critical
Publication of CN100583238C publication Critical patent/CN100583238C/zh
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L2021/02082Noise filtering the noise being echo, reverberation of the speech

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Telephonic Communication Services (AREA)
  • Document Processing Apparatus (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

一种在通信系统中的语音提示期间允许声音打断的系统和方法。一种声音提示模型经训练而代表使用所述提示的具体语音信号的系统提示。所述声音提示模型在一种语音识别器中与该识别器的有效词汇表的单词一起使用,以抑制所述识别器内的提示的回声。所述语音识别器也可采用静音模型和例如噪声模型和词汇表外单词模型之类的传统杂音模型来减小将用户话语中的噪声和词汇表外单词错误地映射到有效词汇表中的单词的可能性。

Description

允许声音打断的系统与方法
技术领域
本发明涉及通信系统。更具体地说,本发明针对(但不构成限制)一种系统和方法,该系统和方法允许通信装置用户在系统语音通知或提示期间中断,或打断所述提示,以在所述提示结束之前启动想要的功能。
背景技术
在通信网络中,系统运行人员常常发现,实现自动的系统语音通知或“提示(prompt)”来通知用户某些特定的现有特征,或用户必须采取的、以启动某些具体特征的特定行动是较为方便的。对许多用户而言,当他们头几次听到提示时,该信息是有用的,但是在聆听该提示几次以后,用户们可能希望在所述的系统声音提示期间中断或打断所述提示,因为他们已经知道所述提示的内容和他们应当采取的行动。在现有的通信网络中,一般通过在语音提示期间运行标准的语音识别器来实现所述打断功能。为避免由于用户的语音和从装置扬声器发出的提示声音(回声)的同时输入而引起的语音识别器的错误输出,一般采用声音消除技术来抑制提示回声(promptecho)到所述识别器的反馈。
随着下一代通信装置的开发成功,拥有允许以免提方式操作所述装置的、用户界面友好的人机界面(MMI)变得越来越重要。需要多模式的MMI和智能的语音驱动的对话框界面,它们易于为用户所接受,并提供了与系统的灵活交互。将需要得到改进的打断功能,以允许用户在播放提示时简单地说话便能中断系统提示。
在现有的提供打断功能的方法中,存在三个主要的缺点。首先,传统的回声消除算法只能非常弱地衰减提示回声。例如,可能仅衰减回声10dB或更少。这将导致语音识别器发生误认的严重问题,因为所述语音识别器是由所述提示回声触发的。第二,标准的自适应回声消除方法需要语音输入通道和语音输出通道之间存在固定的时间相关。然而,在分布式系统中,得到这种时间相关通常过于昂贵,甚至不可能得到这种相关,尤其是在识别服务器和播放提示的服务器之间存在一定距离时。第三,标准的自适应回声消除方法要求相当多的处理能力。对具有限制性的硬件约束的嵌入式系统或在其中需要对尽可能多的通道进行并行处理的多通道应用而言,这是一个重大的挑战。
由于传统的回声消除方法存在上述缺点,因而需要另外的方法来允许免提通信装置的用户在系统提示期间打断提示。
发明内容
一方面,本发明针对一种在语音识别系统中抑制语音识别错误的方法,在该系统中,输入信号包括与用户输入语音合并的系统声音提示的回声。所述方法包括以下步骤:生成系统声音提示的声音模型,该模型用数学的方式表示了系统声音提示;将所述输入信号提供给具有目标词汇表的声音模型的语音识别器,所述模型用数学方式表示至少一个命令单词;以及将所述输入信号与所述声音提示模型和声音目标词汇标模型进行比较。然后,在比较步骤期间,该方法确定所述声音提示模型还是声音目标词汇表模型为所述输入信号提供了最佳匹配。如果声音目标词汇表模型提供了所述最佳匹配,则接受该最佳匹配。如果是声音提示模型提供了最佳匹配,则忽略该最佳匹配。该语音识别器也可以使用静音模型或噪声模型和词汇表外的单词模型之类的传统杂音模型来减小将用户话语中的噪声和词汇表外的单词错误地映射到有效词汇表的单词的可能性。
另一方面,本发明针对在语音识别系统中抑制语音识别错误和提高单词精度的方法,该方法允许通信装置的用户用命令单词中断系统声音提示,所述命令单词停止所述语音提示,并启动了想要的动作。所述方法包括以下步骤:产生系统声音提示的声音模型,该模型用数学方式表示系统声音提示;将所述声音提示模型存储在语音识别器中;并将包括多个命令单词的模型的目标词汇表模型存储在所述语音识别器中。本方法还包括:将输入信号提供给所述语音识别器中的比较器;将所述输入信号与所述声音目标词汇表模型和声音提示模型进行比较,以识别哪个模型为所述输入信号提供了最佳匹配;如果是声音提示模型提供了最佳匹配,则忽略该最佳匹配;以及如果声音目标词汇表模型提供了最佳匹配,则接受该最佳匹配。该方法还包括将任何与声音目标词汇表模型提供的最佳匹配相对应的命令单词提供给动作表;从动作表中识别与提供的命令单词对应的动作;停止系统声音提示;以及启动识别的动作。
又一方面,本发明针对用于识别输入的命令单词并抑制语音识别错误的语音识别器,其中,输入到语音识别器的信号包括来自与用户输入语音合并的系统声音提示的回声。所述语音识别器包括:用数学方式表示至少一个命令单词的声音词汇表模型;用数学方式表示系统声音提示的声音提示模型;和比较器,该比较器接收输入信号,并将所述输入信号与声音词汇表模型和声音提示模型进行比较,以确定哪个模型为所述输入信号提供了最佳匹配。如果声音目标词汇表模型提供了最佳匹配,则该比较器接受该最佳匹配,而如果声音提示模型提供了最佳匹配,则比较器忽略该最佳匹配。所述语音识别器也使用静音模型以及噪声模型和词汇表外的单词模型之类的传统杂音模型来减小将用户话语中的噪声和词汇表外的单词错误地映射到有效词汇表的单词的可能性。
再一方面,本发明针对用于抑制语音识别错误和提高单词精度的语音识别系统。该系统允许通信装置的用户用命令单词中断系统声音提示,所述单词停止语音提示,并启动想要的动作。该系统包括:用于产生以数学方式表示系统声音提示的系统声音提示的声音模型的装置;包含多个命令单词的数学模型的声音词汇表模型;以及比较器,该比较器接收包括用户语音和系统声音提示的输入信号,并将该输入信号与声音词汇表模型和声音提示模型进行比较,以确定哪个模型为输入信号提供了最佳匹配。如果是声音目标词汇表模型提供了最佳匹配,则该比较器接受该最佳匹配,而如果是声音提示模型提供了最佳匹配,则该比较器忽略该最佳匹配。该系统还包括在所述比较器确定声音目标词汇表模型提供了最佳匹配时接收命令单词的动作表。该动作表将接收的命令单词与对应的动作进行关联,并通知相关的网络启动对应的动作并停止系统声音提示。
附图的简要说明
图1是一种适于与本发明一起使用的自动语音识别(ASR)系统的简化框图。
图2是本发明的优选实施例中的语音识别器的简化框图。
图3是表示本发明方法的优选实施例之步骤的流程图。
图4表示语音识别器的错误接受率与汽车回声的衰减强度的函数关系,它为采用汽车回声传递函数和15dB的汽车回声的示范性方案示出了为训练提示模型而衰减所述提示的效果。
图5表示语音识别器的错误接受率与汽车回声的衰减强度的函数关系,它为采用汽车回声传递函数和15dB的汽车回声的示范性方案比较了当仅存在提示回声时使用和不使用提示模型时的错误接受率。
图6是语音识别器的单词正确率与汽车回声的衰减强度的函数关系图,当在提示回声之外还存在用户输入时,它比较了使用和不使用提示模型时的单词正确率。
图7是语音识别器的单词准确率与汽车回声的衰减强度的函数关系图,当在提示回声之外还存在用户输入时,它比较了使用和不使用提示模型时的单词准确率。
具体实施方式
与采用回声消除算法的传统方法相反,本发明产生了声音提示模型,并将该声音提示模型作为“杂音”模型与语音识别器的有效词汇表单词一起使用,以在识别器内补偿所述的提示回声。从通知中产生专门的声音提示模型,以补偿识别器的错误告警。由于通常用单个讲话者的声音宣布系统提示,因而,最好产生系统提示的依赖于讲话者的声音模型。在这个过程中,使用具体的系统提示的语音信号训练所述声音提示模型,从而表示所述包括提示中出现的语音和任何其他声音(如蜂鸣声等等)的系统提示。另外,可以产生系统提示的不依赖于讲话者的声音模型。在这个过程中,采用所述提示的正字法文本通过连接恰当的语音单元来建立提示模型。
可以通过预先的离线训练或在线生成创建所述提示模型。在第一种情况下,已经得知各种系统提示,且预先对声音提示模型进行训练。该方法适于使用提示的语音信号的不依赖于讲话者的语音训练和依赖于讲话者的训练。为提示服务器提供了系统提示的列表,并为语音识别器提供对应的声音提示模型列表。当要播放提示时,系统控制器指示提示服务器播放,如“n”,并指示语音识别器使用对应的声音提示模型“n”。当采用不依赖于讲话者的语音训练时,从各种系统提示中确定语音单元,并将这些单元存储到识别器能访问的数据库中。当所述控制器通知所述识别器将要采用提示模型时,该控制器将所述提示的正字法文本发送给识别器。然后,该识别器通过连接恰当的语音单元建立提示模型,而所述语音单元是利用所述提示的正字法文本选定的。当使用在线生成方法时,在启动语音识别器之前,立即生成所述声音提示模型。所述系统控制器将提示的语音信号发送到所述识别器,且识别器从所述语音信号中建立提示模型,并开始识别。
在识别期间,允许Viterbi路径在每个状态中离开所述的声音提示模型,以使用户输入能够开始。从而,只要用户说出有效的命令单词,Viterbi路径便离开声音提示模型并进入有效词汇表单词模型。从而,只需对提示模型进行部分识别,直到用户通过其输入中断所述系统为止。
图1是适于与本发明一起使用的自动语音识别(ASR)系统10的简化框图。提示服务器11播放系统声音提示。同时,语音识别器12分析来自用户的语音输入。将用户的语音输入13和背景噪声14通过麦克风15输入。函数H(z)16表示所述麦克风和语音输入通道的特性。在对本发明的试验验证中,没有考虑特殊的麦克风或语音输入通道的特性H(z),因为,认为用户的语音输入暗含了所述麦克风和通道的特性。
除有噪声的用户输入之外,两种类型的回声也到达语音识别器12。函数L(z)17对线路回声的路径建模,而所述回声是由电话装置和电话网络的电反馈引起的。在开发本发明的过程中,尤其在免提环境中,假设线路回声L(z)与所述声音回声相比是微不足道的。函数P(z)18表示所述提示的声音回声的回声传递函数。所述声音传递函数是一种数学描述,它说明了当提示的声波从扬声器到达用户装置的麦克风时,对所述声波进行了何种修改。当系统运行于免提环境中,且其中用户的麦克风设置成较高音量时,考虑这种类型的回声和所述回声传递函数显得尤为重要。当然,所述回声传递函数的特性取决于用户的实际物理环境。
如上所表明的,系统控制器19指示提示服务器11播放选定的系统声音提示,并指示语音识别器12使用与所述选定的语音提示对应的声音提示模型。从而,可以将系统提示数据库11a与提示服务器相关联,并且,当被所述系统控制器指示时,所述服务器可访问所述数据库。所述系统提示数据库可以在提示服务器的内部或外部。同样,可将语音单元数据库12a与语音识别器关联。所述语音单元数据库可以在语音识别器的内部或外部。当离线利用对所述声音提示模型的不依赖于讲话者的语音训练时,系统控制器19为语音识别器提供选定提示的正字法文本。然后,语音识别器12从语音单元数据库12a中取回恰当的语音单元,并将它们连接起来,以建立与选定的系统声音提示对应的声音提示模型。
对于以下讨论的试验,在三组不同的真实世界条件下,进行了声音测量,并定义和利用了三个不同的回声传递函数。所述三组条件是指自助餐厅、会议室和汽车。此外,将两种类型的噪声(多路重合噪声噪声和汽车噪声)加入到输入信号之中。将具有变化的噪声信号衰减强度的噪声输入加入到系统中,使得可以在变化的信噪比(SNR)情况下进行所述试验。
图2是本发明的优选实施例中的语音识别器12的简化框图。该语音识别器通过将一组声音模型21-26与输入的用户话语27进行匹配来进行工作。比较器28接收输入的用户话语,并将该输入与各种模型进行比较。该比较器可以包括简单连接的单词识别语法、任意语法或所谓的“语言模型”,以进行所述比较。目标词汇表声音模型21表示了语音识别器应能识别的单词。这些模型形成了语音识别器的有效词汇表(命令单词)。除这些目标词汇表声音模型以外,所述识别器内使用了其他声音模型,以表示剩余的语音信号。首先,存在“静音”模型22,它是对寂静(即没有用户输入和噪声)的声音表示。此外,存在杂音模型23(该模型包括多路重合噪声或汽车噪声之类的常见噪声24的模型)和/或不属于所述有效词汇表的词汇表外(OOV)单词25的模型。使用这些杂音模型减小了将用户话语中的噪声和OOV单词错误地映射到词汇表单词的可能性。本发明将声音提示模型26作为额外的杂音模型加入到语音识别器之中。该模型减小了将用户话语中包含的系统提示回声错误地映射到词汇表中的单词的可能性。如果任何所述杂音模型在识别过程中给出了最佳匹配,则忽略匹配的噪声、OOV单词和系统提示单词,且没有识别错误发生。
当在识别过程中的最佳匹配是有效词汇表中的单词时,识别器进入动作表29,在该表中,将识别的单词与对应的动作30关联在一起。然后,语音识别器12将所述对应动作发送到网络以待执行。在打断的场合,之后所述网络便发送命令到提示服务器11,以停止系统声音提示。
图3是流程图,它示出了本发明的方法的优选实施例的步骤。在步骤31处,通过将目标词汇表声音模型21、静音模型22、噪声模型24和OOV单词模型25存储到语音识别器12,使得该识别器为识别任务做好准备。在步骤32处,产生或“训练”声音提示模型26。如以上表明的,可以通过预先的离线训练或通过在线生成来创建所述提示模型。在步骤33处,将声音提示模型26作为额外的杂音模型23存储到语音识别器12中,或以其他方式使得识别器可以使用该模型。在步骤34处,将用户输入提供给语音识别器。所述输入信号包括用户的语音输入连同背景噪声,和麦克风以及语音输入通道的特性。在一个系统声音提示正在播放的打断状态,所述输入信号也包括由电话装置和电话网络中的电反馈造成的线路回声和系统声音提示回声。
在步骤35处,语音识别器将输入信号与所述各种声音模型进行比较,以确定最佳匹配。在步骤36处,确定了哪个模型在识别过程中给出了最佳匹配。如果静音、噪声、OOV单词或声音提示模型给出了最佳匹配,则进入步骤37,然后在步骤38处忽略所述匹配,从而没有识别错误发生。然而,如果目标词汇表声音模型给出了最佳匹配,所述方法便转至步骤39,然后,在步骤40处,将识别的单词发送给动作表29。在步骤41处,所述动作表将识别的单词与对应的动作关联,并将对应的动作发送给网络来执行该动作。在步骤42处,通过从所述网络发送停止命令给提示服务器11和在所述网络中执行所述对应动作来结束所述方法。
试验结果
在多种状态(即噪声类型、回声类型、SNR)下进行了大量的试验。对于每个方案,将不具有声音提示模型的基线(baseline)试验与具有声音提示模型的试验进行了比较。并用32位男性和32位女性的几种不同的录音作为所述测试的用户输入。
在所述试验中分析的识别任务对语音受控的电话应用而言是典型的。有效词汇表由五个命令单词组成。此外,使用了一组杂音模型来应对意外的用户输入、背景噪声(即多路重合噪声和汽车噪声)和通知的回声。在试验中,将所有的命令单词、杂音模型和提示模型(当适用时)并行地插入到简单连接的单词识别语法之中。
采用产生自然发声的语音通知的当前技术水平的文本-语音系统生成了用于所述试验的提示。为此目的,选定了其持续时间为1到7秒的14个不同的提示,并用一名男性和一名女性讲话者进行了合成。对电话应用而言常见的情形是,所述提示本身包含词汇表中的命令单词,这些单词是识别器试图从用户的语音输入中听到的东西。例如,“help”是词汇表中的一个单词,而“say help for help”是提示中的一个。从而,本发明的目标是使得当单词“help”包含于提示之中时,识别器拒绝该单词,而当它由讲话者说出来时,便将单词“help”作为命令单词而接受。
基本上,进行了两种类型的试验。首先,不包括用户输入,仅仅将提示回声提供给语音识别器。这种类型的试验测量识别器忽略提示回声以避免错误接受的能力。第二,将提示回声和用户输入同时提供给语音识别器。对用户输入被作了任意的改变,使得它在提示时间范围内的任意时刻启动,以真实地呈现打断情形。这种类型的试验测量识别器在最小化由提示回声内的命令单词造成的错误接受的次数的同时、可靠地接受用户输入的命令单词的能力。
一般对提供给语音识别器的提示回声进行了衰减,并将其与具体的房间脉冲响应(room impulse response)进行了卷积。因此,本发明利用初始提示信号的衰减版本来训练依赖于讲话者的提示模型。这种方法有助于减少提示模型的训练和测试之间的失配,从而改善了识别性能。
图4示出了对用于提示模型训练的提示进行衰减的效果,所述训练用于利用汽车回声传递函数和15dB的汽车噪声的示范性方案。该图示出了当仅存在提示时(即没有用户输入时)语音识别器的错误接受率与回声衰减强度的函数关系图。其每条曲线表示语音识别器的错误接受率,且所述识别器用于处于初始信号的不同衰减强度上的提示模型训练。该图表明,当在20dB的衰减强度上对提示模型进行训练时,得到的结果最佳。其他利用自助餐厅和会议室回声传递函数的试验也表明,平均下来,对于回声衰减的整个范围,在20dB的衰减强度上进行的训练产生了最佳结果。从而,应当将这种方法用于所有实际衰减未知的场合。在以下所有试验中,也采用了在20dB的衰减强度上对提示模型的训练。
图5示出了在仅存在提示回声时(即没有用户输入),比较了不使用提示模型和使用提示模型时的错误接受率的示范性试验所得的结果。该试验利用了汽车回声传递函数和15dB的汽车噪声。其每条曲线表示了语音识别器的错误接受率与所述汽车回声的衰减强度的函数关系。可以看出,使用提示模型在极大程度上改善了错误接受率,基本上在所有衰减强度上消除了错误接受。
图6示出了存在提示回声和用户输入时,比较不使用提示模型和使用提示模型时的单词正确率的示范性试验所得的结果。仅将替换和删除视为错误。图6又一次示出了利用所述的汽车回声传递函数和15dB的汽车噪声的方案。其每条曲线表示了语音识别器的单词正确率与汽车回声的衰减强度的函数关系。我们预期,消除错误接受的折中情况是,所述的单词正确率将有所降低。该试验表明,对于10dB的较低回声衰减强度,当使用提示模型时,单词正确率从93.5%下降到88.9%。然而,对较高的衰减强度而言(如20dB及以上),使用提示模型对单词正确率的影响可以忽略不计。
图7示出了存在提示回声和用户输入时,比较不使用提示模型和使用提示模型时的单词准确率的示范性试验所得的结果。将替代、删除和插入视为错误。图7又一次示出了利用所述的汽车回声传递函数和15dB的汽车噪声的方案。其每条曲线表示了语音识别器的单词准确率与汽车回声的衰减强度的函数关系。当分析提示模型对单词准确率的影响时,本发明的优点变得更为明显。并且,大幅度减少错误接受(即减少插入)(见图5)所得效益超过了提示模型对单词正确率的微小的不利影响(见图6)。总的结果是,采用提示模型时,识别的准确度得到了显著的提升。例如,当回声衰减强度为20dB时,所述识别准确度从83.1%上升到了90.6%。对于较低的衰减强度,所述改善更为显著。
本领域技术人员当会认识到,可以在广泛的应用中对本申请中说明的创新性概念进行修改和变更。因此,授予专利权的主题不应当限于以上所述的任何具体的示范性教导,而应由后续的权利要求书确定。

Claims (22)

1.一种在语音识别系统中抑制语音识别错误的方法,其中,输入信号包括与用户输入语音合并的系统声音提示的回声,所述方法包括以下步骤:
生成所述系统声音提示的声音模型,所述声音提示模型以数学方式代表系统声音提示;
将所述输入信号提供给语音识别器,所述识别器具有目标词汇表的声音模型,所述声音目标词汇表模型以数学方式代表至少一个命令单词;
将所述输入信号与声音提示模型和声音目标词汇表模型进行比较;
在比较步骤中确定所述声音提示模型和所述声音目标词汇表模型中哪一个为所述输入信号提供了最佳匹配;
如果声音目标词汇表模型提供了最佳匹配,则接受该最佳匹配;如果声音提示模型提供了最佳匹配,则忽略该最佳匹配。
2.权利要求1中所述的方法,其中,在比较步骤之前进行生成所述系统声音提示的声音模型的步骤,该步骤包括以下步骤:
确定在所述系统提示中使用的语音单元;
将所述语音单元存储到所述语音识别器可访问的语音单元数据库中;
在播放提示之前,为所述语音识别器提供所述提示的正字法文本;以及
由语音识别器建立提示模型,所述语音识别器基于所述提示的正字法文本选择并连接适当的语音单元。
3.权利要求2中所述的方法,其中,多个系统声音提示存储在可被播放选定提示的提示服务器访问的系统提示数据库中,与所述多个系统声音提示相关联的语音单元存储在语音单元数据库中,且其中,在将输入信号提供给语音识别器之前所述方法还包括以下步骤:
指示所述提示服务器选择并播放选定的系统提示;
通知语音识别器将要播放哪个系统提示;以及
由语音识别器从语音单元数据库检索出语音单元,所述语音单元对于与选定的系统提示对应的声音提示模型而言是适当的。
4.权利要求1中所述的方法,其中,生成所述系统声音提示的声音模型的步骤包括以下步骤:
将系统提示的语音信号发送给语音识别器;以及
在比较步骤之前根据所述语音信号生成声音提示模型。
5.权利要求1中所述的方法,其中,生成所述系统声音提示的声音模型的步骤包括在相对于系统声音提示约20dB的衰减强度上生成声音提示模型。
6.权利要求1中所述的方法,还包括以下步骤:
将输入信号与静音模型、至少一个词汇表外单词模型和至少一个噪声模型进行比较;
确定静音模型、词汇表外单词模型或噪声模型中的哪一个在比较步骤中提供了最佳匹配;以及
如果静音模型、词汇表外单词模型或噪声模型中的一个提供了最佳匹配,则忽略该最佳匹配。
7.权利要求6中所述的方法,其中,将输入信号与静音模型、至少一个词汇表外单词模型和至少一个噪声模型进行比较的步骤中,包含将输入信号与代表背景多路重合噪声的噪声模型进行比较的步骤。
8.权利要求6中所述的方法,其中,将输入信号与静音模型、至少一个词汇表外单词模型和至少一个噪声模型进行比较的步骤中,包含将输入信号与代表背景汽车噪声的噪声模型进行比较的步骤。
9.权利要求1中所述的方法,其中,将输入信号提供给语音识别器的步骤中,包含将输入信号与声音目标词汇表模型和声音提示模型并行地提供给一个简单连接的单词识别语法。
10.一种在语音识别系统中抑制语音识别错误并提高单词准确度的方法,所述系统使得通信装置的用户能用命令单词中断系统声音提示,所述命令单词停止语音提示并启动想要执行的动作,所述方法包括以下步骤:
生成系统声音提示的声音模型,所述声音提示模型以数学方式代表系统声音提示;
将声音提示模型存储在语音识别器中;
将声音目标词汇表模型存储在所述语音识别器中,所述声音目标词汇表模型包含多个命令单词的模型;
将所述输入信号提供给语音识别器中的比较器;
将输入信号与声音目标词汇表模型和声音提示模型进行比较,以确定哪个模型为输入信号提供了最佳匹配;
如果声音提示模型提供了最佳匹配,则忽略该最佳匹配;
如果声音目标词汇表模型提供了最佳匹配,则接受该最佳匹配;
将与声音目标词汇表模型提供的最佳匹配对应的任何命令单词提供给动作表;
从动作表中识别与提供的命令单词对应的动作;
停止系统声音提示;以及
启动所识别的动作。
11.一种用于在抑制语音识别错误的同时识别输入命令单词的语音识别器,其中,输入到语音识别器的信号包括与用户输入语音合并的系统声音提示的回声,所述语音识别器包含:
以数学方式代表至少一个命令单词的声音词汇表模型;
以数学方式代表系统声音提示的声音提示模型;以及
比较器,该比较器接受所述输入信号,并将输入信号与声音词汇表模型和声音提示模型进行比较,以确定哪个模型为输入信号提供了最佳匹配,如果声音目标词汇表模型提供了最佳匹配,则所述比较器接受该最佳匹配,如果声音提示模型提供了最佳匹配,则忽略该最佳匹配。
12.权利要求11中所述的语音识别器,还包括用于从已知文本生成声音提示模型的装置。
13.权利要求11中所述的语音识别器,还包括用于在播放提示前根据系统声音提示的语音信号而生成声音提示模型的装置。
14.权利要求11中所述的语音识别器,还包括用于在相对于系统声音提示约20dB的衰减强度上生成声音提示模型的装置。
15.权利要求11中所述的语音识别器,还包含静音模型、至少一个词汇表外单词模型和至少一个与声音词汇表模型和声音提示模型并行地连接到比较器的噪声模型,其中,所述比较器还确定最佳匹配是否由所述静音模型、所述至少一个词汇表外单词模型或所述至少一个噪声模型提供的,如果是,则忽略该最佳匹配。
16.权利要求15中所述的语音识别器,其中,所述至少一个噪声模型包括代表背景多路重合噪声的噪声模型。
17.权利要求15中所述的语音识别器,其中,所述至少一个噪声模型包括代表背景汽车噪声的噪声模型。
18.权利要求11中所述的语音识别器,其中,所述比较器包括从由以下部分构成的组中选出的比较函数:
任意语法;
简单连接的单词识别语法;以及
语言模型。
19.一种用于抑制语音识别错误并提高单词准确度的语音识别系统,所述系统使得通信装置的用户能用命令单词中断系统声音提示,所述命令单词停止语音提示并启动想要执行的动作,所述系统包括:
生成系统声音提示的声音模型的装置,所述声音提示模型以数学方式代表系统声音提示;
包含多个命令单词的数学模型的声音词汇表模型;
比较器,所述比较器接受输入信号并将所述输入信号与声音词汇表模型和声音提示模型进行比较,以确定哪个模型为输入信号提供了最佳匹配,如果声音目标词汇表模型提供了最佳匹配,则所述比较器接受该最佳匹配,如果声音提示模型提供了最佳匹配,则忽略该最佳匹配;以及
动作表,所述动作表在所述比较器确定声音目标词汇表模型提供了最佳匹配时接收来自比较器的命令单词,所述动作表将接收的命令单词与对应的动作进行关联,通知相关联的网络启动所对应的动作,并停止系统声音提示。
20.权利要求19中所述的语音识别系统,其中,生成声音提示模型的装置包括从已知文本生成声音提示模型的装置。
21.权利要求19中所述的语音识别系统,其中,生成声音提示模型的装置包括在播放提示之前根据系统声音提示的语音信号来生成声音提示模型的装置。
22.权利要求19中所述的语音识别系统,其中,生成声音提示模型的装置包括在相对于系统声音提示约为20dB的衰减强度上生成声音提示模型的装置。
CN200480027961A 2003-07-31 2004-07-02 允许声音打断的系统与方法 Expired - Fee Related CN100583238C (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US10/631,985 US7392188B2 (en) 2003-07-31 2003-07-31 System and method enabling acoustic barge-in
US10/631,985 2003-07-31

Publications (2)

Publication Number Publication Date
CN1856821A true CN1856821A (zh) 2006-11-01
CN100583238C CN100583238C (zh) 2010-01-20

Family

ID=34104240

Family Applications (1)

Application Number Title Priority Date Filing Date
CN200480027961A Expired - Fee Related CN100583238C (zh) 2003-07-31 2004-07-02 允许声音打断的系统与方法

Country Status (4)

Country Link
US (1) US7392188B2 (zh)
EP (1) EP1678706A1 (zh)
CN (1) CN100583238C (zh)
WO (1) WO2005015545A1 (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103077708A (zh) * 2012-12-27 2013-05-01 安徽科大讯飞信息科技股份有限公司 一种语音识别系统中拒识能力提升方法
CN103914344A (zh) * 2013-01-07 2014-07-09 泰为信息科技公司 具有多模式互动机构的计算系统及其操作方法
CN110517697A (zh) * 2019-08-20 2019-11-29 中信银行股份有限公司 用于交互式语音应答的提示音智能打断装置
CN110689882A (zh) * 2018-07-04 2020-01-14 上海博泰悦臻网络技术服务有限公司 车辆及其播放设备和多媒体播放自动控制方法
CN110853662A (zh) * 2018-08-02 2020-02-28 深圳市优必选科技有限公司 语音交互方法、装置及机器人
CN111292732A (zh) * 2018-12-06 2020-06-16 深圳市广和通无线股份有限公司 音频信息处理方法、装置、计算机设备和存储介质
CN111580775A (zh) * 2020-04-28 2020-08-25 北京小米松果电子有限公司 信息控制方法及装置、存储介质

Families Citing this family (57)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3826032B2 (ja) * 2001-12-28 2006-09-27 株式会社東芝 音声認識装置、音声認識方法及び音声認識プログラム
US8229744B2 (en) * 2003-08-26 2012-07-24 Nuance Communications, Inc. Class detection scheme and time mediated averaging of class dependent models
GB2422279A (en) * 2004-09-29 2006-07-19 Fluency Voice Technology Ltd Determining Pattern End-Point in an Input Signal
US8185400B1 (en) * 2005-10-07 2012-05-22 At&T Intellectual Property Ii, L.P. System and method for isolating and processing common dialog cues
US8065146B2 (en) * 2006-07-12 2011-11-22 Microsoft Corporation Detecting an answering machine using speech recognition
KR100834679B1 (ko) * 2006-10-31 2008-06-02 삼성전자주식회사 음성 인식 오류 통보 장치 및 방법
US8226416B2 (en) * 2006-12-08 2012-07-24 Sri International Method and apparatus for reading education
US9794348B2 (en) 2007-06-04 2017-10-17 Todd R. Smith Using voice commands from a mobile device to remotely access and control a computer
US8046221B2 (en) 2007-10-31 2011-10-25 At&T Intellectual Property Ii, L.P. Multi-state barge-in models for spoken dialog systems
US8370148B2 (en) 2008-04-14 2013-02-05 At&T Intellectual Property I, L.P. System and method for answering a communication notification
JP5200712B2 (ja) * 2008-07-10 2013-06-05 富士通株式会社 音声認識装置、音声認識方法及びコンピュータプログラム
EP2148325B1 (en) * 2008-07-22 2014-10-01 Nuance Communications, Inc. Method for determining the presence of a wanted signal component
US8347103B2 (en) * 2009-01-13 2013-01-01 Nic, Inc. System and method for authenticating a user using a graphical password
US8639513B2 (en) * 2009-08-05 2014-01-28 Verizon Patent And Licensing Inc. Automated communication integrator
EP2339576B1 (en) * 2009-12-23 2019-08-07 Google LLC Multi-modal input on an electronic device
US11416214B2 (en) 2009-12-23 2022-08-16 Google Llc Multi-modal input on an electronic device
US8660842B2 (en) * 2010-03-09 2014-02-25 Honda Motor Co., Ltd. Enhancing speech recognition using visual information
US8265928B2 (en) * 2010-04-14 2012-09-11 Google Inc. Geotagged environmental audio for enhanced speech recognition accuracy
US8468012B2 (en) 2010-05-26 2013-06-18 Google Inc. Acoustic model adaptation using geographic information
US8352245B1 (en) 2010-12-30 2013-01-08 Google Inc. Adjusting language models
US8296142B2 (en) 2011-01-21 2012-10-23 Google Inc. Speech recognition using dock context
CN103165131A (zh) * 2011-12-17 2013-06-19 富泰华工业(深圳)有限公司 语音处理系统及语音处理方法
US8615221B1 (en) 2012-12-06 2013-12-24 Google Inc. System and method for selection of notification techniques in an electronic device
US9620115B2 (en) * 2013-01-03 2017-04-11 Telenav, Inc. Content delivery system with barge-in mechanism and method of operation thereof
US8731912B1 (en) 2013-01-16 2014-05-20 Google Inc. Delaying audio notifications
DE102013000897B4 (de) 2013-01-18 2023-07-06 Volkswagen Aktiengesellschaft Verfahren und Vorrichtung zur Spracherkennung in einem Kraftfahrzeug mittels Garbage-Grammatiken
US9734819B2 (en) 2013-02-21 2017-08-15 Google Technology Holdings LLC Recognizing accented speech
US20140278393A1 (en) 2013-03-12 2014-09-18 Motorola Mobility Llc Apparatus and Method for Power Efficient Signal Conditioning for a Voice Recognition System
US9237225B2 (en) 2013-03-12 2016-01-12 Google Technology Holdings LLC Apparatus with dynamic audio signal pre-conditioning and methods therefor
US20140270249A1 (en) 2013-03-12 2014-09-18 Motorola Mobility Llc Method and Apparatus for Estimating Variability of Background Noise for Noise Suppression
US20160004502A1 (en) * 2013-07-16 2016-01-07 Cloudcar, Inc. System and method for correcting speech input
US20150161999A1 (en) * 2013-12-09 2015-06-11 Ravi Kalluri Media content consumption with individualized acoustic speech recognition
US10055190B2 (en) * 2013-12-16 2018-08-21 Amazon Technologies, Inc. Attribute-based audio channel arbitration
US9037455B1 (en) * 2014-01-08 2015-05-19 Google Inc. Limiting notification interruptions
US9842592B2 (en) 2014-02-12 2017-12-12 Google Inc. Language models using non-linguistic context
US9318112B2 (en) 2014-02-14 2016-04-19 Google Inc. Recognizing speech in the presence of additional audio
US9240183B2 (en) 2014-02-14 2016-01-19 Google Inc. Reference signal suppression in speech recognition
US9412365B2 (en) 2014-03-24 2016-08-09 Google Inc. Enhanced maximum entropy models
US9569405B2 (en) 2014-04-30 2017-02-14 Google Inc. Generating correlation scores
US10102195B2 (en) 2014-06-25 2018-10-16 Amazon Technologies, Inc. Attribute fill using text extraction
WO2016039751A1 (en) * 2014-09-11 2016-03-17 Nuance Communications, Inc. Method for scoring in an automatic speech recognition system
JP6052814B2 (ja) * 2014-09-24 2016-12-27 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation 音声認識モデルの構築方法、音声認識方法、コンピュータ・システム、音声認識装置、プログラムおよび記録媒体
DE112014007287B4 (de) * 2014-12-24 2019-10-31 Mitsubishi Electric Corporation Spracherkennungsvorrichtung und Spracherkennungsverfahren
US10134394B2 (en) 2015-03-20 2018-11-20 Google Llc Speech recognition using log-linear model
US10083697B2 (en) * 2015-05-27 2018-09-25 Google Llc Local persisting of data for selectively offline capable voice action in a voice-enabled electronic device
US9966073B2 (en) * 2015-05-27 2018-05-08 Google Llc Context-sensitive dynamic update of voice to text model in a voice-enabled electronic device
US9870196B2 (en) * 2015-05-27 2018-01-16 Google Llc Selective aborting of online processing of voice inputs in a voice-enabled electronic device
US9691378B1 (en) * 2015-11-05 2017-06-27 Amazon Technologies, Inc. Methods and devices for selectively ignoring captured audio data
CN105427870B (zh) * 2015-12-23 2019-08-30 北京奇虎科技有限公司 一种针对停顿的语音识别方法和装置
US10475447B2 (en) * 2016-01-25 2019-11-12 Ford Global Technologies, Llc Acoustic and domain based speech recognition for vehicles
EP3206204A1 (en) * 2016-02-09 2017-08-16 Nxp B.V. System for processing audio
US9978367B2 (en) 2016-03-16 2018-05-22 Google Llc Determining dialog states for language models
GB2552723A (en) * 2016-08-03 2018-02-07 Cirrus Logic Int Semiconductor Ltd Speaker recognition
US10832664B2 (en) 2016-08-19 2020-11-10 Google Llc Automated speech recognition using language models that selectively use domain-specific model components
US10311860B2 (en) 2017-02-14 2019-06-04 Google Llc Language model biasing system
CN109903758B (zh) 2017-12-08 2023-06-23 阿里巴巴集团控股有限公司 音频处理方法、装置及终端设备
US11282512B2 (en) * 2018-10-27 2022-03-22 Qualcomm Incorporated Automatic grammar augmentation for robust voice command recognition

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE69612480T2 (de) * 1995-02-15 2001-10-11 British Telecommunications P.L.C., London Detektion von sprechaktivität
IL129893A0 (en) * 1996-11-28 2000-02-29 British Telecomm Interactive apparatus
US6107935A (en) * 1998-02-11 2000-08-22 International Business Machines Corporation Systems and methods for access filtering employing relaxed recognition constraints
US6246986B1 (en) * 1998-12-31 2001-06-12 At&T Corp. User barge-in enablement in large vocabulary speech recognition systems
ATE320650T1 (de) * 1999-06-30 2006-04-15 Ibm Verfahren zur erweiterung des wortschatzes eines spracherkennungssystems
EP1074973B1 (en) * 1999-06-30 2006-03-15 International Business Machines Corporation Method of expanding a vocabulary of a speech system
US6574595B1 (en) * 2000-07-11 2003-06-03 Lucent Technologies Inc. Method and apparatus for recognition-based barge-in detection in the context of subword-based automatic speech recognition
US6606595B1 (en) * 2000-08-31 2003-08-12 Lucent Technologies Inc. HMM-based echo model for noise cancellation avoiding the problem of false triggers
DE10158583A1 (de) * 2001-11-29 2003-06-12 Philips Intellectual Property Verfahren zum Betrieb eines Barge-In-Dialogsystems
US7493259B2 (en) * 2002-01-04 2009-02-17 Siebel Systems, Inc. Method for accessing data via voice
US7970606B2 (en) * 2002-11-13 2011-06-28 Digital Voice Systems, Inc. Interoperable vocoder
US7366777B2 (en) * 2003-05-15 2008-04-29 Sap Aktiengesellschaft Web application router

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103077708A (zh) * 2012-12-27 2013-05-01 安徽科大讯飞信息科技股份有限公司 一种语音识别系统中拒识能力提升方法
CN103077708B (zh) * 2012-12-27 2015-04-01 安徽科大讯飞信息科技股份有限公司 一种语音识别系统中拒识能力提升方法
CN103914344A (zh) * 2013-01-07 2014-07-09 泰为信息科技公司 具有多模式互动机构的计算系统及其操作方法
CN103914344B (zh) * 2013-01-07 2019-05-03 泰为信息科技公司 具有多模式互动机构的计算系统及其操作方法
CN110689882A (zh) * 2018-07-04 2020-01-14 上海博泰悦臻网络技术服务有限公司 车辆及其播放设备和多媒体播放自动控制方法
CN110853662A (zh) * 2018-08-02 2020-02-28 深圳市优必选科技有限公司 语音交互方法、装置及机器人
CN111292732A (zh) * 2018-12-06 2020-06-16 深圳市广和通无线股份有限公司 音频信息处理方法、装置、计算机设备和存储介质
CN111292732B (zh) * 2018-12-06 2023-07-21 深圳市广和通无线股份有限公司 音频信息处理方法、装置、计算机设备和存储介质
CN110517697A (zh) * 2019-08-20 2019-11-29 中信银行股份有限公司 用于交互式语音应答的提示音智能打断装置
CN111580775A (zh) * 2020-04-28 2020-08-25 北京小米松果电子有限公司 信息控制方法及装置、存储介质
CN111580775B (zh) * 2020-04-28 2024-03-05 北京小米松果电子有限公司 信息控制方法及装置、存储介质

Also Published As

Publication number Publication date
CN100583238C (zh) 2010-01-20
WO2005015545A1 (en) 2005-02-17
US20050027527A1 (en) 2005-02-03
US7392188B2 (en) 2008-06-24
EP1678706A1 (en) 2006-07-12

Similar Documents

Publication Publication Date Title
CN100583238C (zh) 允许声音打断的系统与方法
US7228275B1 (en) Speech recognition system having multiple speech recognizers
US9502024B2 (en) Methods, apparatus and computer programs for automatic speech recognition
US6925154B2 (en) Methods and apparatus for conversational name dialing systems
US6785647B2 (en) Speech recognition system with network accessible speech processing resources
US8190430B2 (en) Method and system for using input signal quality in speech recognition
US20080249779A1 (en) Speech dialog system
US20160358601A1 (en) Rapid speech recognition adaptation using acoustic input
USH2187H1 (en) System and method for gender identification in a speech application environment
CN1708783A (zh) 用于语音识别的方法和系统
JPH0876785A (ja) 音声認識装置
US6243677B1 (en) Method of out of vocabulary word rejection
EP1494208A1 (en) Method for controlling a speech dialog system and speech dialog system
US6606595B1 (en) HMM-based echo model for noise cancellation avoiding the problem of false triggers
US6473734B1 (en) Methodology for the use of verbal proxies for dynamic vocabulary additions in speech interfaces
Gupta et al. Speech feature extraction and recognition using genetic algorithm
US7162422B1 (en) Apparatus and method for using user context information to improve N-best processing in the presence of speech recognition uncertainty
Sirikongtham et al. Improving speech recognition using dynamic multi-pipeline API
WO2000018100A2 (en) Interactive voice dialog application platform and methods for using the same
Kellner et al. A voice-controlled automatic telephone switchboard and directory information system
López-Cózar et al. Evaluation of a Dialogue System Based on a Generic Model that Combines Robust Speech Understanding and Mixed-initiative Control.
EP3776174A1 (en) System and method for generating an improved voice assist algorithm signal input
Arslan et al. Likelihood decision boundary estimation between HMM pairs in speech recognition
López-Cózar et al. A new technique based on augmented language models to improve the performance of spoken dialogue systems.
Chan et al. Speech recognition enhancement using beamforming and a genetic algorithm

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20100120

Termination date: 20190702

CF01 Termination of patent right due to non-payment of annual fee