CN1965218A - 交互式语音识别系统的性能预测 - Google Patents
交互式语音识别系统的性能预测 Download PDFInfo
- Publication number
- CN1965218A CN1965218A CNA2005800183020A CN200580018302A CN1965218A CN 1965218 A CN1965218 A CN 1965218A CN A2005800183020 A CNA2005800183020 A CN A2005800183020A CN 200580018302 A CN200580018302 A CN 200580018302A CN 1965218 A CN1965218 A CN 1965218A
- Authority
- CN
- China
- Prior art keywords
- speech recognition
- noise
- performance level
- recognition system
- user
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/01—Assessment or evaluation of speech recognition systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
Abstract
本发明提供了一种交互式语音识别系统以及一种相应的方法,该方法用于根据记录的背景噪声来确定一种语音识别过程的性能水平。本发明系统有效地利用了用户输入需要进行语音识别的语音之前发生的语音停顿。优选地,本发明的性能预测有效利用了经过训练的噪声分类模型。此外,为了给出一个关于所述语音识别过程的性能的可靠反馈,向用户指示了预测的性能水平。通过这种方式,本发明的语音识别系统能够对不适合用于生成可靠语音识别的噪声条件作出反应。
Description
本发明涉及到交互式语音识别领域。
自动语音识别系统(ASR)的性能与可靠性强烈地依赖于背景噪声的特征和水平。存在几种提高系统性能以及对付各种不同的噪声条件的方法。一般的构想是基于噪声消减和噪声抑制方法来提高语音和噪声之间的信噪比(SNR)。主要地,这可以通过适当的噪声滤波器来实现。
其它方法关注于针对特定背景噪声场景的噪声分类模型。这种噪声分类模型可以被合并到用于自动语音识别的声学模型或语言模型中并且需要在特定噪声条件下进行训练。因此,利用噪声分类模型,一种语音识别过程可以自适应到不同的预定义的噪声场景。此外,可以应用显式噪声鲁棒声学建模方法,该方法将先验知识合并到分类模型。
然而,所有这些方法要么试图提高语音质量,要么试图匹配各种噪声条件,因为这些噪声条件可能会在典型的应用场景中出现。不考虑这些噪声分类模型的种类和质量,则不可能通过合理的噪声消减和/或噪声匹配努力来覆盖很大量的不可预测的噪声以及干扰场景。
因此,向自动语音识别系统的用户指示瞬间噪声水平是有实际用途的,这样,用户就能够获悉到可能会导致错误的语音识别的一种有问题的录音环境。最典型地,噪声指示器显示了麦克风输入的瞬间能量水平,并且用户自己能够评估所指示的水平是否处于一种允许足够的语音识别质量的适当区域。
例如,WO 02/095726 A1公布了这样一种语音质量指示器。这里,一个接收到的语音信号被提供给一个语音质量评估器,该评估器对该信号的语音质量进行量化。结果语音质量测量被提供给一个指示器驱动器,该驱动器生成了一个当前接收到的语音质量的适当指示。借助一个指示器,使得这种指示变成对话音通信设备的用户是明显的。所述语音质量评估器能够以各种方式来量化语音质量。可以使用的语音质量测量的两个简单例子是:(i)语音信号水平(ii)语音信噪比。
显示给用户的语音信号和信噪比水平可以被自适应来指示一种有问题的录音环境,但是基本上未被直接地关联到所述自动语音识别系统的语音识别性能。例如当能够充分地过滤掉一个特定的噪声信号时,低信噪比不一定与所述语音识别系统的低性能相关联。另外,现有技术中已知的解决方案被典型地自适应来生成指示信号,该指示信号基于当前接收到的语音质量。这通常意味着一部分接收到的语音已经接受了一个语音识别过程。因此,一个语音质量测量的生成典型地基于已经接受一个语音识别过程的记录的语音和/或语音信号。在两种情形中,在用户有机会改善录音条件或降低噪声水平之前至少一部分语音已经被处理。
本发明提供了一种用于识别用户语音的交互式语音识别系统。本发明的语音识别系统包括:用于接收声音信号的装置,所述声音信号包括一个背景噪声;用于根据接收到的声音信号来选择一个噪声模型的装置;用于根据所选择的噪声模型来预测一个语音识别过程的性能水平的装置;以及用于向用户指示所预测的性能水平的装置。特别地,所述用于接收声音信号的装置被设计优选地用于在用户向所述交互式语音识别系统提供任何语音信号之前记录噪声水平。通过这种方式,甚至在生成将要接受语音识别过程的语音信号之前就获得了指示背景噪声的声音信号。特别在对话系统中,适当语音停顿在某些预定的时间点上发生,并且可以被有效地利用来记录噪声特定的声音信号。
本发明的交互式语音识别系统进而被自适应来利用噪声分类模型,所述模型在所述语音识别系统的特定应用条件下被训练。优选地,所述语音识别系统能够访问各种噪声分类模型,其中每种模型指示了一种特定噪声条件。典型地,对一个噪声模型的选择指的是对所接受到的声音信号的分析以及与先前存储的经训练的噪声模型作比较。于是选择那个与所接收到并分析的声音信号最匹配的特定噪声模型。
根据这个选择的噪声模型,预测了所述语音识别过程的一个性能水平。因此,用于预测性能水平的该装置甚至在实际语音识别开始之前就提供了所述语音识别过程的质量测量的一种估计。这提供了一种在一系列语音识别步骤中尽可能早地估计并识别一个特定噪声水平的有效手段。一旦预测出语音识别过程的一个性能水平,用于指示的该装置被自适应来向用户通知所预测的性能水平。
特别地通过向用户指示一个关于语音识别过程的估计的质量测量,用户可能会被尽早地告知不足的语音识别条件。通过这种方式,甚至在用户实际使用语音识别系统之前,他能够对不足的语音识别条件作出反应。这种功能在一个对话系统中特别有利,在那里用户使用声音来输入控制命令或请求。因此,本发明的语音识别系统被优选地实现成这样一种自动对话系统,该系统被自适应来处理用户的语音输入并且提供所请求的信息,诸如例如一个公共交通时间表信息系统。
按照本发明的又一个优选实施例,用于预测性能水平的该装置被进一步自适应来根据噪声参数预测性能水平,所述噪声参数是根据所接收到的声音信号确定的。这些噪声参数例如指示了一种语音录制水平或一种信噪比水平,并且可被进一步利用来预测所述语音识别过程的性能水平。本发明以这种方式提供了一种有效的手段,用于将噪声分类模型的应用与一般的噪声特定的参数组合成单个参数,即一个直接指示所述语音识别系统的语音识别性能的性能水平。
备选地,用于预测性能水平的该装置能够分开地使用噪声模型或噪声参数。然而,通过结合分开生成的噪声参数来评估所选择的噪声模型,可以预期一种更加可靠的性能水平。因此,用于预测性能水平的该装置可以普遍地使用多个噪声指示输入信号来提供一个真实的性能水平,该性能水平直接地指示了一个语音识别过程的特定错误率。
按照本发明的又一个优选实施例,所述交互式语音识别系统进而被自适应来根据所预测的性能水平而调整至少一个所述语音识别过程的语音识别参数。以这种方式,所预测的性能水平不仅被用于向用户提供适当的性能信息,而且还被用来主动地改进所述语音识别过程。例如,一个典型的语音识别参数是修剪水平,它指定了用于一个语言识别过程的相关音素序列的有效范围,所述语言识别过程典型地基于使用例如隐式马尔可夫模型(HMM)的统计过程。
典型地,提高修剪水平导致错误率降低但需要明显地更高的计算能力,这反过来减缓了语音识别过程。例如,错误率可以指字错误率(WER)或概念错误率(CER)。通过根据预测的性能水平调整语音识别参数,作为对期望的性能的响应,可以普遍地修改所述语音识别过程。
按照又一个优选实施例,所述交互式语音识别系统进而包括一种用于根据预测的性能水平切换一个预定义的交互模式的装置。特别在对话系统中,存在一个语音识别和/或对话系统的多种交互和通信模式。特别地,语音识别系统和/或对话系统可以被自适应来重现识别的语音并且向用户提供识别的语音,用户进而必须确认或拒绝所述语音识别过程的结果。
这种验证提示的触发可以通过预测的性能水平来有效地进行监控。例如,在坏的性能水平的情况下,验证提示可能被非常频繁地触发,而在高性能水平的情况下,这种验证提示可能极少被插入到对话中。其它交互模式可能包括完全拒绝接收到的语音序列。这在极坏的噪声条件下特别合理。在这种情况中,可能会简单地指导用户来降低背景噪声水平或重复一个语音序列。备选地,当本能地切换到一个需要更多计算时间的较高的修剪水平来补偿一个增长的噪声水平时,可以简单地通知用户所述语音识别系统的相应延迟或降低的性能水平。
按照本发明的又一个优选实施例,用于接收声音信号的该装置进而被自适应来记录背景噪声,以作为对接收到一个激活信号的响应,所述激活信号是由一个激活模块生成的。由所述激活模块生成的所述激活信号触发该用于接收声音信号的装置。由于该用于接收声音信号的装置被优选地自适应来记录用户开始说话之前的背景噪声,当预计到没有语音的时候,所述激活模块试图选择性地触发用于接收声音信号的装置。
这可以由用户按下一个激活按钮并结合一个就绪指示器来有效地实现。通过按下所述激活按钮,用户将所述语音识别系统切换到出席状态并且经过一个短暂的延迟后,所述语音识别系统指示其就绪。在这个延迟中,可以假定用户仍然还没有说话。因此,按下激活按钮和指示系统就绪之间的延迟可以被有效地用于测量并记录瞬间背景噪声。
备选地,也可以根据声音控制来执行按下激活按钮。在这样一个实施例中,所述语音识别系统处于一个连续侦听模式,所述侦听模式基于一种单独的鲁棒语音识别器,所述语音识别器被专门地自适应来捕获特定的激活短语。另外,这里系统被自适应以使其不会向一个识别的激活短语立即作出反应,而是利用预定义延迟来收集背景噪声信息。
另外,当实现成一个对话系统时,典型地会在对话系统的欢迎消息之后出现一个语音停顿。因此,本发明的语音识别系统有效地利用定义良好的或人工生成的语音停顿来充分地确定所述基础背景噪声。优选地,背景噪声的确定通过利用自然语言停顿或语音停顿而被合并,所述语音停顿对于语音识别和/或对话系统是典型的,这样,用户就不会感觉到背景噪声记录阶段。
按照本发明的又一个实施例,用于向用户指示所预测的性能的该装置被自适应来生成一个可听和/或可视信号,所述信号指示了预测的性能水平。例如,所述预测的性能水平可以通过色彩编码的例如LED的闪烁或闪光而向用户显示。诸如绿、黄、红等不同颜色可以指示好、中或差的性能水平。此外,可以将多个光点排成一条直线,然后由同时闪烁的光点的数量来指示性能水平。另外,可以由一个蜂鸣音来指示性能水平,并且在更加成熟的环境中,所述语音识别系统可以通过预定义语音序列来以听觉方式指导用户,所述预定义语音序列可以被所述语音识别系统重现。后者被优选地实现成只能通过例如电话访问的基于语音识别的对话系统。这里,在预测的性能水平较低的情况下,所述交互式语音识别系统可以指导用户降低噪声水平和/或重复所说的词。
在另一方面,本发明提供了一种交互式语音识别方法,该方法包括:接收声音信号的步骤,所述声音信号包括背景噪声;根据接收到的声音信号从多个训练的噪声模型中选择一个噪声模型;根据所选择的噪声模型来预测一个语音识别过程的性能水平;以及向用户指示所预测的性能水平。
按照本发明的又一个优选实施例,每个经训练的噪声模型指示了一种特定噪声并且它是利用第一训练过程生成的,所述第一训练过程是在一个相应的噪声条件下执行的。这需要一个专门的训练过程来生成多个噪声模型。例如,如果将本发明的语音识别系统自适应到一个自动环境,那么必须在自动条件或至少模拟的自动条件下训练出一个相应的噪声模型。
按照本发明的又一个优选实施例,所述语音识别系统的性能水平的预测是基于一个第二训练过程的。所述第二训练过程训练根据所选择的噪声条件和所选择的噪声模型来预测性能水平。因此,所述第二训练过程被自适应以使其对于每个与特定噪声模型相对应的噪声条件监视所述语音识别过程的性能,所述特定噪声模型是利用第一训练过程生成的。因此,所述第二训练过程用来提供经训练的数据,所述经训练的数据表示所述语音识别过程的一个特定错误率,例如WER或CER,该错误率是在特定噪声条件下测量的,其中所述语音识别利用一个相应的噪声模型。
在另一方面,本发明提供了一个用于交互式语音识别系统的计算机程序产品。本发明的计算机程序产品包括计算机程序装置,所述计算机程序装置被自适应用于:接收包括背景噪声的声音信号、根据接收到的声音信号选择一个噪声模型、根据所选择的噪声模型计算一个语音识别过程的性能水平、以及向用户指示所预测的性能水平。
在又一方面,本发明提供了一个对话系统,所述对话系统用于通过处理由用户生成的语音输入而向该用户提供一项服务。所述对话系统包括一个发明的交互式语音识别系统。因此,本发明的交互式语音识别系统作为一个集成部分被合并到一个对话系统,诸如提供公共交通信息的自动时间表信息系统。
此外,应当注意到权利要求书中的任何参考符号都不能被理解为是限制本发明的范围。
下面将参考附图详细地描述本发明的优选实施例中,其中:
图1显示了所述语音识别系统的一个框图,
图2显示了所述语音识别系统的一个详细框图,
图3显示了用于预测所述语音识别系统的性能水平的流程图,
图4显示了一个流程图,其中性能水平预测被合并到语音识别过程。
图1显示了本发明的语音识别系统100的一个框图。所述语音识别系统具有一个语音识别模块102、一个噪声记录模块104、一个噪声分类模块106、一个性能预测模块108、以及一个指示模块110。一个用户112可以通过提供由语音识别系统100识别的语音以及通过指示模块110接收指示语音识别的性能的反馈来与所述语音识别系统100进行交互。
单个模块102...110被设计用于实现所述语音识别系统100的一个性能预测功能。另外,所述语音识别系统100包括那些在现有技术中熟知但没有显式地显示的标准语音识别部件。
由用户112提供的语音通过某种诸如麦克风的录音设备而被输入到语音识别系统100,所述录音设备将一个声音信号转换成一个相应的可以由语音识别系统100处理的电信号。语音识别模块102表示语音识别系统100的中央部件并且提供对所录制音素的分析以及执行到字序列或短语的映射,所述字序列或短语是由一个语言模型提供的。实际上,任何语音识别技术都可以被用于本发明。此外,由用户112输入的语音被直接提供给语音识别模块102以用于语音识别。
噪声记录和噪声分类模块104、106以及性能预测模块108被设计用于预测语音识别过程的性能,所述语音识别过程是由语音识别模块102仅仅根据记录的背景噪声执行的。噪声记录模块104被设计用于记录背景噪声以及向噪声分类模块106提供记录的噪声信号。例如,噪声记录模块104在语音识别系统100的一个延迟期间记录一个噪声信号。典型地,用户112激活语音识别系统100并且在经过一个预定义的延迟间隔后,所述语音识别系统向用户112指示它的就绪。在这个延迟期间,可以假定用户112简单地等待所述语音识别系统的就绪状态并且因此不会产生任何语音。因此,期望在所述延迟间隔期间,所记录的声音信号排他地表示背景噪声。
当通过噪声记录模块104记录噪声之后,所述噪声分类模块用来识别所记录的噪声信号。优选地,噪声分类模块106使用存储在语音识别系统100中的噪声分类模型,并且所述模型对于不同的背景噪声场景是不同的。典型地,这些噪声分类模型是在相应的噪声条件下被训练的。例如,一个特定的噪声分类模型可以指示自动背景噪声。当用户112在一个自动环境中使用语音识别系统100时,一个记录的噪声信号极有可能被噪声分类模块106识别为自动噪声并且可以选择相应的自动噪声分类模型。特定噪声分类模型的选择也是利用噪声分类模块106执行的。噪声分类模块106可以进而被自适应来提取并指定各种噪声参数,诸如噪声信号水平或信噪比。
一般地,所选择的噪声分类模型以及由噪声分类模块106确定并选择的其它噪声特定参数被提供给了性能预测模块108。性能预测模块108进而可以从噪声记录模块104中接收所记录的未改变的噪声信号。接着性能预测模块108根据所提供的噪声信号、噪声特定参数或所选择的噪声分类模型中的任何一个计算出语音识别模块102的一个期望的性能。此外,性能预测模块108被自适应以便通过使用各种提供的噪声特定输入来确定一个性能预测。例如,为了确定所述语音识别系统的一个可靠的性能预测,性能预测模块108有效地组合了一个所选择的噪声分类模块和一个噪声特定参数。结果是,性能预测模块108生成了一个提供给指示模块110和语音识别模块102的性能水平。
通过向指示模块110提供所述语音识别过程的一个确定的性能水平,能够向用户112有效地告知所述语音识别系统的所期望的性能和可靠性。指示模块110能够以多种方式实现。它可以产生一个必须由用户112解释的闪烁的、色彩编码的输出。在一个更加成熟的实施例中,为了向用户112生成一个可听的输出,还可以向指示模块110提供语音合成装置,为了提高语音质量和/或降低背景噪声,所述可听的输出甚至会指导用户112执行一些动作。
语音识别模块102进而被自适应来直接从用户112接收输入信号、从噪声记录模块104接收记录的噪声信号、从噪声分类模块106接收噪声参数和所选择的噪声分类模型、以及从性能预测模块108接收预测的性能水平。通过向语音识别模块102提供任何生成的参数,不仅可以确定所述语音识别过程的期望的性能,而且语音识别过程本身可以被有效地自适应于当前的噪声情景。
特别地,通过由噪声分类模块106向语音识别模块102提供所选择的噪声模型以及相关的噪声参数,基础的语音识别过程能够有效地利用所选择的噪声模型。此外,通过由性能预测模块108向语音识别模块102提供期望的性能水平,所述语音识别过程能够被适当地调整。例如当确定性能预测模块108有相对较高的错误率时,为了提高所述语音识别过程的可靠性,可以自适应地对所述语音识别过程的修剪水平进行调整。由于使修剪水平向较高的值偏移需要可观的额外计算时间,所述基础语音识别过程的整体效率可能会显著降低。结果是以速度减缓为代价,整个语音识别过程变得更加可靠。在这个案例中,使用指示模块110向用户112指示这种较低的性能是合理的。
图2示例了本发明的语音识别系统100的一个更加成熟的实施例。与图1所示的实施例相比,图2示例了交互式语音识别系统100的额外部件。这里,语音识别系统100进而包括一个交互模块114、一个噪声模块116、一个激活模块118以及一个控制模块120。优选地,语音识别模块102被连接到不同的模块104...108,如图1所示。控制模块120被自适应来控制交互作用以及协调交互式语音识别系统100的各种模块的功能。
交互模块114被自适应以便从性能预测模块108接收预测的性能水平并且控制指示模块110。优选地,为了与用户112进行通信,交互模块114提供了各种可以应用的交互策略。例如,交互模块114被自适应以便触发验证提示,所述验证提示由指示模块110提供给用户112。这种验证提示可以包括用户112的识别的语音的重现。接着用户112必须根据重现的语音是否真正表示该用户原始语音的语义含义来确认或丢弃重现的语音。
优选地,交互模块114是由所述语音识别过程的预测的性能水平控制的。根据预测的性能的水平,可以相应地自适应验证提示的触发。在性能水平指示出不可能有可靠的语音识别的极端的情况下,交互模块114甚至可以触发指示模块110生成一个适当的用户指令,例如指令用户112降低背景噪声。
噪声模型模块116被用作为各种噪声分类模型的存储器。优选地,由相应的训练过程在各个噪声条件下生成了多个不同的噪声分类模型。特别地,为了选择一个特定的噪声模型,噪声分类模块106访问噪声模型模块116。备选地,还可以利用噪声模型模块116来实现噪声模型的选择。在这种情况中,噪声模型模块116从噪声记录模块104接收记录的噪声信号,将所接收的噪声信号的一部分与各种存储的噪声分类模块进行比较,并且确定至少其中一种与部分所记录的噪声相匹配的噪声分类模型。接着,最匹配的噪声分类模型被提供给可以生成更多噪声特定参数的噪声分类模块106。
激活模块118被用作为一个供噪声记录模块104使用的触发器。优选地,激活模块118被实现成一个专门设计的语音识别器,所述语音识别器被自适应以便捕获某些由用户说出的激活短语。作为对接收到一个激活短语以及相应地识别出该激活短语的响应,激活模块118激活噪声记录模块104。另外,为了向用户112指示就绪状态,激活模块118还通过控制模块120触发指示模块110。优选地,在噪声记录模块104已经被激活之后才执行就绪状态指示。在这个延迟期间,可以假定用户112不说话而是等待所述语音识别系统100就绪。因此,这个延迟间隔非常适用于记录纯粹指示实际背景噪声的声音信号。
除了利用单独的语音识别模块来实现激活模块118,也可以由某种其它类型的激活装置来实现激活模块。例如,激活模块118可以提供一个激活按钮,为了激活语音识别系统,用户112必须按下该按钮。这里也可以相应地实现一个记录背景噪声所需的延迟。特别当所述交互式语音识别系统118被实现成一个基于电话的对话系统时,激活模块118可以被自适应以便在向用户112已经提供某种类型的对话系统的消息之后激活噪声记录。最典型地,在向用户112提供了一个欢迎消息之后,出现了一个可被用于背景噪声记录的适当停顿。
图3示例了一个流程图,用于预测本发明的交互式语音识别系统的性能水平。在第一步骤200中接收到一个激活信号。该激活信号可以指:当实现成为一个基于电话的对话系统时通过接收到一个用户说出的激活短语或者向用户112提供一个欢迎消息之后,由用户112按下一个按钮。作为对步骤200中接收到激活信号的响应,在后续步骤202中记录了一个噪声信号。由于激活信号指示了一个无语音期间的开始,所记录的信号极有可能唯一地表示背景噪声。在步骤202中记录了背景噪声之后,在后面的步骤204中,通过噪声分类模块106对所记录的噪声信号进行了评估。噪声信号的评估指在步骤206中选择一个特定的噪声模型以及在步骤208中生成噪声参数。利用步骤206、208,就可以确定一个特定的噪声模型和相关的噪声参数。
基于所选择的噪声模型以及所生成的噪声参数,在后面的步骤210中,利用性能预测模块108对所述语音识别过程的性能水平进行了预测。所预测的性能水平接着在步骤212中通过利用指示模块110向用户进行指示。此后或同时,在步骤214中处理语音识别。由于性能水平的预测是基于语音输入之前的噪声输入,原则上,甚至可以在用户开始说话之前就向用户112显示所预测的性能水平。
此外,可以根据额外的训练过程来生成所预测的性能水平,所述训练过程提供了各种噪声模型和噪声参数以及测量的错误率之间的一种关系。因此,所预测的性能水平关注一个语音识别过程的期望输出。优选地,预测的和期望的性能水平不仅指示给用户,而且由所述语音识别过程用于降低错误率。
图4示例了在一个语音识别过程中使用预测的性能水平的一个流程图。步骤300到308对应于已经在图3中所示的步骤200到208。在步骤300中接收到激活信号,在步骤302中记录了一个噪声信号,之后在步骤304中评估了所记录的噪声信号。噪声信号的评估指步骤306和308,其中选择了一个特定的噪声分类模型以及生成了相应的噪声参数。一旦在步骤308中生成了噪声特定参数,所生成的参数被用于在步骤318中调整所述语音识别过程的识别参数。当在步骤318中已经调整好诸如修剪水平的语音识别参数之后,在步骤320中处理所述语音识别过程,并且当实现成一个对话系统时,在步骤320中还执行了相应的对话。一般地,步骤318和步骤320代表利用噪声特定参数来提高语音识别过程的一种现有技术解决方案。相反地,步骤310到步骤316代表本发明的基于背景噪声评估的所述语音识别过程的性能预测。
当在步骤306中选择所述噪声模型之后,步骤310检查所执行的选择是否成功。在无法选择特定的噪声模型的情况下,该方法继续步骤318,其中使用所确定的噪声参数来调整所述语音识别过程的识别参数。当在步骤310中已经确认成功选择了特定噪声分类模型的情况下,该方法继续步骤312,其中根据所选择的噪声模型预测了所述语音识别过程的性能水平。另外,性能水平的预测也可能会包括利用步骤308中确定的噪声特定参数。当在步骤312中已经预测了性能水平之后,步骤314到318被同时或交替执行。
在步骤314中,针对所预测的性能水平对用于交互模块114的交互参数进行了调整。这些交互参数指定了一个时间间隔,在该时间间隔之后,在对话系统中必须触发验证提示。备选地,交互参数可以指定所述交互式语音识别系统和用户之间的各种交互场景。例如,一个交互参数可以控制用户必须在可执行语音识别过程之前降低背景噪声。在步骤316中,利用指示模块110向用户指示了所确定的性能水平。以这种方式,用户112能够有效地获悉性能程度以及因而获悉所述语音识别过程的可靠性。另外,在步骤318中执行的识别参数的调整能够有效地利用在步骤312中预测的性能水平。
步骤314、316、318可以同时地、顺序地或选择性地执行。选择的执行指这种情况:其中步骤314、316、318中的仅仅一个或两个被指定。然而,当执行步骤314、316、318中的任何一个之后,在步骤320中执行所述语音识别过程。
因此,本发明提供了一种用于根据所记录的背景噪声来估计一个语音识别过程的性能水平的有效装置。优选地,甚至在语音被输入到所述识别系统之前,本发明的交互式语音识别系统被自适应以便向用户112提供一个适当的性能反馈。由于能够以多种不同的方式来实现所预测的性能水平的利用,本发明的性能预测可以在各种现有的语音识别系统中普遍地实现。特别地,本发明的性能预测可以与现有的噪声消减和/或噪声水平指示系统普遍地相结合。
参考数字列表
100语音识别系统
102语音识别模块
104噪声记录模块
106噪声分类模块
108性能预测模块
110指示模块
112用户
114交互模块
116噪声模型模块
118激活模块
120控制模块
Claims (12)
1.一种用于识别用户(112)语音的交互式语音识别系统(100),所述语音识别系统包括:
-用于接收包括一个背景噪声的声音信号的装置,
-用于根据所接收到的声音信号选择一个噪声模型的装置(106),
-用于根据所选择的噪声模型预测一个语音识别过程的性能水平的装置(108),
-用于向用户指示(110)所预测的性能水平的装置(110)。
2.按照权利要求1所述的交互式语音识别系统(100),其中用于预测性能水平的装置(108)进而被自适应以便根据噪声参数来预测性能水平,所述噪声参数是根据所接收到的声音信号确定的。
3.按照权利要求1所述的交互式语音识别系统(100),还被自适应以便根据所预测的性能水平调整所述语音识别过程的至少一个语音识别参数。
4.按照权利要求1所述的交互式语音识别系统(100),还包括用于根据所预测的性能水平切换到一个预定义的交互模式的装置(114)。
5.按照权利要求1所述的交互式语音识别系统(100),其中用于预测性能水平的装置(108)被自适应以便在执行所述语音识别过程之前就预测性能水平。
6.按照权利要求1所述的交互式语音识别系统(100),其中作为对接收到由激活模块(118)生成的激活信号的响应,用于接收声音信号的装置还被自适应以便记录背景噪声。
7.按照权利要求1所述的交互式语音识别系统(100),其中用于向用户(112)指示所预测的性能的装置(110)被自适应以便生成一个指示所预测的性能水平的听觉和/或视觉信号。
8.一种交互式语音识别方法,包括如下步骤:
-接收包括背景噪声的声音信号,
-根据所接收到的声音信号选择多个训练的噪声模型中的一个噪声模型,
-根据所选择的噪声模型预测一个语音识别过程的性能水平,
-向用户指示所预测的性能水平。
9.按照权利要求8所述的方法,还包括利用第一选练过程在相应的噪声条件下生成每个噪声模型。
10.按照权利要求8所述的方法,其中所述语音识别过程的性能水平的预测是基于一个第二训练过程的,所述第二训练过程被自适应以便对于每个噪声条件都监视所述语音识别过程的性能。
11.一种用于交互式语音识别系统的计算机程序产品,所述产品包括计算机程序装置,所述计算机程序装置被自适应以便:
-接收包括背景噪声的声音信号,
-根据所接收的声音信号来选择一个噪声模型,
-根据所选择的噪声模型来计算一个语音识别过程的性能水平,
-向用户指示所预测的性能水平。
12.一种自动对话系统,包括按照权利要求1所述的一个交互式语音识别系统。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP04102513.1 | 2004-06-04 | ||
EP04102513 | 2004-06-04 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN1965218A true CN1965218A (zh) | 2007-05-16 |
Family
ID=34968483
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CNA2005800183020A Pending CN1965218A (zh) | 2004-06-04 | 2005-05-24 | 交互式语音识别系统的性能预测 |
Country Status (5)
Country | Link |
---|---|
US (1) | US20090187402A1 (zh) |
EP (1) | EP1756539A1 (zh) |
JP (1) | JP2008501991A (zh) |
CN (1) | CN1965218A (zh) |
WO (1) | WO2005119193A1 (zh) |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2011044848A1 (zh) * | 2009-10-15 | 2011-04-21 | 华为技术有限公司 | 信号处理的方法、装置和系统 |
CN103077708A (zh) * | 2012-12-27 | 2013-05-01 | 安徽科大讯飞信息科技股份有限公司 | 一种语音识别系统中拒识能力提升方法 |
CN104078040A (zh) * | 2014-06-26 | 2014-10-01 | 美的集团股份有限公司 | 语音识别方法及系统 |
WO2014161299A1 (zh) * | 2013-08-15 | 2014-10-09 | 中兴通讯股份有限公司 | 一种语音质量处理的方法及装置 |
CN104347081A (zh) * | 2013-08-07 | 2015-02-11 | 腾讯科技(深圳)有限公司 | 一种测试场景说法覆盖度的方法和装置 |
CN109087659A (zh) * | 2018-08-03 | 2018-12-25 | 三星电子(中国)研发中心 | 音频优化方法及设备 |
CN110197670A (zh) * | 2019-06-04 | 2019-09-03 | 大众问问(北京)信息科技有限公司 | 音频降噪方法、装置及电子设备 |
CN110603901A (zh) * | 2017-05-08 | 2019-12-20 | 昕诺飞控股有限公司 | 话音控制 |
CN111508515A (zh) * | 2013-12-18 | 2020-08-07 | 思睿逻辑国际半导体有限公司 | 话音命令触发的语音增强 |
CN112369044A (zh) * | 2018-07-03 | 2021-02-12 | 三星电子株式会社 | 用于输出声音的设备及其方法 |
WO2023050301A1 (zh) * | 2021-09-30 | 2023-04-06 | 华为技术有限公司 | 语音质量评估、语音识别质量预测与提高的方法及装置 |
Families Citing this family (192)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8645137B2 (en) | 2000-03-16 | 2014-02-04 | Apple Inc. | Fast, language-independent method for user authentication by voice |
US7949533B2 (en) | 2005-02-04 | 2011-05-24 | Vococollect, Inc. | Methods and systems for assessing and improving the performance of a speech recognition system |
US8200495B2 (en) | 2005-02-04 | 2012-06-12 | Vocollect, Inc. | Methods and systems for considering information about an expected response when performing speech recognition |
US7827032B2 (en) | 2005-02-04 | 2010-11-02 | Vocollect, Inc. | Methods and systems for adapting a model for a speech recognition system |
US7865362B2 (en) | 2005-02-04 | 2011-01-04 | Vocollect, Inc. | Method and system for considering information about an expected response when performing speech recognition |
US7895039B2 (en) | 2005-02-04 | 2011-02-22 | Vocollect, Inc. | Methods and systems for optimizing model adaptation for a speech recognition system |
US8677377B2 (en) | 2005-09-08 | 2014-03-18 | Apple Inc. | Method and apparatus for building an intelligent automated assistant |
JP5426363B2 (ja) * | 2006-04-03 | 2014-02-26 | ヴォコレクト・インコーポレーテッド | 音声認識システムのパフォーマンスを評価および改善するための方法およびシステム |
DE102006041453A1 (de) * | 2006-09-04 | 2008-03-20 | Siemens Ag | Verfahren zur Spracherkennung |
US9318108B2 (en) | 2010-01-18 | 2016-04-19 | Apple Inc. | Intelligent automated assistant |
KR20080035754A (ko) * | 2006-10-20 | 2008-04-24 | 현대자동차주식회사 | 운전자의 능동적 음성인식률 향상을 위한 음성인식가능상태표시장치 및 방법 |
US8977255B2 (en) | 2007-04-03 | 2015-03-10 | Apple Inc. | Method and system for operating a multi-function portable electronic device using voice-activation |
US10002189B2 (en) | 2007-12-20 | 2018-06-19 | Apple Inc. | Method and apparatus for searching using an active ontology |
US9330720B2 (en) | 2008-01-03 | 2016-05-03 | Apple Inc. | Methods and apparatus for altering audio output signals |
US8996376B2 (en) | 2008-04-05 | 2015-03-31 | Apple Inc. | Intelligent text-to-speech conversion |
US10496753B2 (en) | 2010-01-18 | 2019-12-03 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
DE102008024258A1 (de) * | 2008-05-20 | 2009-11-26 | Siemens Aktiengesellschaft | Verfahren zur Klassifizierung und Entfernung unerwünschter Anteile aus einer Äußerung bei einer Spracherkennung |
US20100030549A1 (en) | 2008-07-31 | 2010-02-04 | Lee Michael M | Mobile device having human language translation capability with positional feedback |
US8676904B2 (en) | 2008-10-02 | 2014-03-18 | Apple Inc. | Electronic devices with voice command and contextual data processing capabilities |
FR2944640A1 (fr) * | 2009-04-17 | 2010-10-22 | France Telecom | Procede et dispositif d'evaluation objective de la qualite vocale d'un signal de parole prenant en compte la classification du bruit de fond contenu dans le signal. |
US10706373B2 (en) | 2011-06-03 | 2020-07-07 | Apple Inc. | Performing actions associated with task items that represent tasks to perform |
US10241644B2 (en) | 2011-06-03 | 2019-03-26 | Apple Inc. | Actionable reminder entries |
US10241752B2 (en) | 2011-09-30 | 2019-03-26 | Apple Inc. | Interface for a virtual digital assistant |
US9858925B2 (en) | 2009-06-05 | 2018-01-02 | Apple Inc. | Using context information to facilitate processing of commands in a virtual assistant |
US9431006B2 (en) | 2009-07-02 | 2016-08-30 | Apple Inc. | Methods and apparatuses for automatic speech recognition |
US8600743B2 (en) | 2010-01-06 | 2013-12-03 | Apple Inc. | Noise profile determination for voice-related feature |
US10705794B2 (en) | 2010-01-18 | 2020-07-07 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US10553209B2 (en) | 2010-01-18 | 2020-02-04 | Apple Inc. | Systems and methods for hands-free notification summaries |
US10276170B2 (en) | 2010-01-18 | 2019-04-30 | Apple Inc. | Intelligent automated assistant |
US10679605B2 (en) | 2010-01-18 | 2020-06-09 | Apple Inc. | Hands-free list-reading by intelligent automated assistant |
US8682667B2 (en) | 2010-02-25 | 2014-03-25 | Apple Inc. | User profiling for selecting user specific voice input processing information |
US9262612B2 (en) | 2011-03-21 | 2016-02-16 | Apple Inc. | Device access using voice authentication |
US9244984B2 (en) * | 2011-03-31 | 2016-01-26 | Microsoft Technology Licensing, Llc | Location based conversational understanding |
US10642934B2 (en) | 2011-03-31 | 2020-05-05 | Microsoft Technology Licensing, Llc | Augmented conversational understanding architecture |
US9760566B2 (en) | 2011-03-31 | 2017-09-12 | Microsoft Technology Licensing, Llc | Augmented conversational understanding agent to identify conversation context between two humans and taking an agent action thereof |
US9842168B2 (en) | 2011-03-31 | 2017-12-12 | Microsoft Technology Licensing, Llc | Task driven user intents |
US9064006B2 (en) | 2012-08-23 | 2015-06-23 | Microsoft Technology Licensing, Llc | Translating natural language utterances to keyword search queries |
US8914290B2 (en) | 2011-05-20 | 2014-12-16 | Vocollect, Inc. | Systems and methods for dynamically improving user intelligibility of synthesized speech in a work environment |
US10057736B2 (en) | 2011-06-03 | 2018-08-21 | Apple Inc. | Active transport based notifications |
US8994660B2 (en) | 2011-08-29 | 2015-03-31 | Apple Inc. | Text correction processing |
US8972256B2 (en) * | 2011-10-17 | 2015-03-03 | Nuance Communications, Inc. | System and method for dynamic noise adaptation for robust automatic speech recognition |
US10134385B2 (en) | 2012-03-02 | 2018-11-20 | Apple Inc. | Systems and methods for name pronunciation |
US9483461B2 (en) | 2012-03-06 | 2016-11-01 | Apple Inc. | Handling speech synthesis of content for multiple languages |
US9280610B2 (en) | 2012-05-14 | 2016-03-08 | Apple Inc. | Crowd sourcing information to fulfill user requests |
US10417037B2 (en) | 2012-05-15 | 2019-09-17 | Apple Inc. | Systems and methods for integrating third party services with a digital assistant |
US9721563B2 (en) | 2012-06-08 | 2017-08-01 | Apple Inc. | Name recognition system |
US9495129B2 (en) | 2012-06-29 | 2016-11-15 | Apple Inc. | Device, method, and user interface for voice-activated navigation and browsing of a document |
US10019983B2 (en) * | 2012-08-30 | 2018-07-10 | Aravind Ganapathiraju | Method and system for predicting speech recognition performance using accuracy scores |
US9547647B2 (en) | 2012-09-19 | 2017-01-17 | Apple Inc. | Voice-based media searching |
US9691377B2 (en) * | 2013-07-23 | 2017-06-27 | Google Technology Holdings LLC | Method and device for voice recognition training |
JP2016508007A (ja) | 2013-02-07 | 2016-03-10 | アップル インコーポレイテッド | デジタルアシスタントのためのボイストリガ |
US20140278395A1 (en) * | 2013-03-12 | 2014-09-18 | Motorola Mobility Llc | Method and Apparatus for Determining a Motion Environment Profile to Adapt Voice Recognition Processing |
US9275638B2 (en) * | 2013-03-12 | 2016-03-01 | Google Technology Holdings LLC | Method and apparatus for training a voice recognition model database |
US9978395B2 (en) | 2013-03-15 | 2018-05-22 | Vocollect, Inc. | Method and system for mitigating delay in receiving audio stream during production of sound from audio stream |
EP2816554A3 (en) * | 2013-05-28 | 2015-03-25 | Samsung Electronics Co., Ltd | Method of executing voice recognition of electronic device and electronic device using the same |
WO2014197334A2 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for user-specified pronunciation of words for speech synthesis and recognition |
WO2014197336A1 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for detecting errors in interactions with a voice-based digital assistant |
US9582608B2 (en) | 2013-06-07 | 2017-02-28 | Apple Inc. | Unified ranking with entropy-weighted information for phrase-based semantic auto-completion |
WO2014197335A1 (en) | 2013-06-08 | 2014-12-11 | Apple Inc. | Interpreting and acting upon commands that involve sharing information with remote devices |
CN110442699A (zh) | 2013-06-09 | 2019-11-12 | 苹果公司 | 操作数字助理的方法、计算机可读介质、电子设备和系统 |
US10176167B2 (en) | 2013-06-09 | 2019-01-08 | Apple Inc. | System and method for inferring user intent from speech inputs |
US9548047B2 (en) | 2013-07-31 | 2017-01-17 | Google Technology Holdings LLC | Method and apparatus for evaluating trigger phrase enrollment |
US20150149169A1 (en) * | 2013-11-27 | 2015-05-28 | At&T Intellectual Property I, L.P. | Method and apparatus for providing mobile multimodal speech hearing aid |
US10296160B2 (en) | 2013-12-06 | 2019-05-21 | Apple Inc. | Method for extracting salient dialog usage from live data |
US20150161999A1 (en) * | 2013-12-09 | 2015-06-11 | Ravi Kalluri | Media content consumption with individualized acoustic speech recognition |
US9516165B1 (en) * | 2014-03-26 | 2016-12-06 | West Corporation | IVR engagements and upfront background noise |
US9715875B2 (en) | 2014-05-30 | 2017-07-25 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
US9785630B2 (en) | 2014-05-30 | 2017-10-10 | Apple Inc. | Text prediction using combined word N-gram and unigram language models |
US9760559B2 (en) | 2014-05-30 | 2017-09-12 | Apple Inc. | Predictive text input |
US10170123B2 (en) | 2014-05-30 | 2019-01-01 | Apple Inc. | Intelligent assistant for home automation |
US9430463B2 (en) | 2014-05-30 | 2016-08-30 | Apple Inc. | Exemplar-based natural language processing |
US10078631B2 (en) | 2014-05-30 | 2018-09-18 | Apple Inc. | Entropy-guided text prediction using combined word and character n-gram language models |
US9842101B2 (en) | 2014-05-30 | 2017-12-12 | Apple Inc. | Predictive conversion of language input |
US9966065B2 (en) | 2014-05-30 | 2018-05-08 | Apple Inc. | Multi-command single utterance input method |
US9633004B2 (en) | 2014-05-30 | 2017-04-25 | Apple Inc. | Better resolution when referencing to concepts |
US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US10659851B2 (en) | 2014-06-30 | 2020-05-19 | Apple Inc. | Real-time digital assistant knowledge updates |
US10446141B2 (en) | 2014-08-28 | 2019-10-15 | Apple Inc. | Automatic speech recognition based on user feedback |
US9818400B2 (en) | 2014-09-11 | 2017-11-14 | Apple Inc. | Method and apparatus for discovering trending terms in speech requests |
US10789041B2 (en) | 2014-09-12 | 2020-09-29 | Apple Inc. | Dynamic thresholds for always listening speech trigger |
US10074360B2 (en) | 2014-09-30 | 2018-09-11 | Apple Inc. | Providing an indication of the suitability of speech recognition |
US9668121B2 (en) | 2014-09-30 | 2017-05-30 | Apple Inc. | Social reminders |
US10127911B2 (en) | 2014-09-30 | 2018-11-13 | Apple Inc. | Speaker identification and unsupervised speaker adaptation techniques |
US9646609B2 (en) | 2014-09-30 | 2017-05-09 | Apple Inc. | Caching apparatus for serving phonetic pronunciations |
US9886432B2 (en) | 2014-09-30 | 2018-02-06 | Apple Inc. | Parsimonious handling of word inflection via categorical stem + suffix N-gram language models |
US10552013B2 (en) | 2014-12-02 | 2020-02-04 | Apple Inc. | Data detection |
US10152299B2 (en) | 2015-03-06 | 2018-12-11 | Apple Inc. | Reducing response latency of intelligent automated assistants |
US9865280B2 (en) | 2015-03-06 | 2018-01-09 | Apple Inc. | Structured dictation using intelligent automated assistants |
US9886953B2 (en) | 2015-03-08 | 2018-02-06 | Apple Inc. | Virtual assistant activation |
US10567477B2 (en) | 2015-03-08 | 2020-02-18 | Apple Inc. | Virtual assistant continuity |
US9721566B2 (en) | 2015-03-08 | 2017-08-01 | Apple Inc. | Competing devices responding to voice triggers |
US9899019B2 (en) | 2015-03-18 | 2018-02-20 | Apple Inc. | Systems and methods for structured stem and suffix language models |
JP6466762B2 (ja) * | 2015-04-01 | 2019-02-06 | 日本電信電話株式会社 | 音声認識装置、音声認識方法、およびプログラム |
US9842105B2 (en) | 2015-04-16 | 2017-12-12 | Apple Inc. | Parsimonious continuous-space phrase representations for natural language processing |
US10460227B2 (en) | 2015-05-15 | 2019-10-29 | Apple Inc. | Virtual assistant in a communication session |
US10083688B2 (en) | 2015-05-27 | 2018-09-25 | Apple Inc. | Device voice control for selecting a displayed affordance |
US10127220B2 (en) | 2015-06-04 | 2018-11-13 | Apple Inc. | Language identification from short strings |
US9578173B2 (en) | 2015-06-05 | 2017-02-21 | Apple Inc. | Virtual assistant aided communication with 3rd party service in a communication session |
US10101822B2 (en) | 2015-06-05 | 2018-10-16 | Apple Inc. | Language input correction |
US10186254B2 (en) | 2015-06-07 | 2019-01-22 | Apple Inc. | Context-based endpoint detection |
US10255907B2 (en) | 2015-06-07 | 2019-04-09 | Apple Inc. | Automatic accent detection using acoustic models |
US11025565B2 (en) | 2015-06-07 | 2021-06-01 | Apple Inc. | Personalized prediction of responses for instant messaging |
US20160378747A1 (en) | 2015-06-29 | 2016-12-29 | Apple Inc. | Virtual assistant for media playback |
US10671428B2 (en) | 2015-09-08 | 2020-06-02 | Apple Inc. | Distributed personal assistant |
US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
US9697820B2 (en) | 2015-09-24 | 2017-07-04 | Apple Inc. | Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks |
US11010550B2 (en) | 2015-09-29 | 2021-05-18 | Apple Inc. | Unified language modeling framework for word prediction, auto-completion and auto-correction |
US10366158B2 (en) | 2015-09-29 | 2019-07-30 | Apple Inc. | Efficient word encoding for recurrent neural network language models |
US11587559B2 (en) | 2015-09-30 | 2023-02-21 | Apple Inc. | Intelligent device identification |
US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
US10049668B2 (en) | 2015-12-02 | 2018-08-14 | Apple Inc. | Applying neural network language models to weighted finite state transducers for automatic speech recognition |
US10223066B2 (en) | 2015-12-23 | 2019-03-05 | Apple Inc. | Proactive assistance based on dialog communication between devices |
US10446143B2 (en) | 2016-03-14 | 2019-10-15 | Apple Inc. | Identification of voice inputs providing credentials |
US9934775B2 (en) | 2016-05-26 | 2018-04-03 | Apple Inc. | Unit-selection text-to-speech synthesis based on predicted concatenation parameters |
US9972304B2 (en) | 2016-06-03 | 2018-05-15 | Apple Inc. | Privacy preserving distributed evaluation framework for embedded personalized systems |
US10249300B2 (en) | 2016-06-06 | 2019-04-02 | Apple Inc. | Intelligent list reading |
US11227589B2 (en) | 2016-06-06 | 2022-01-18 | Apple Inc. | Intelligent list reading |
US10049663B2 (en) | 2016-06-08 | 2018-08-14 | Apple, Inc. | Intelligent automated assistant for media exploration |
DK179309B1 (en) | 2016-06-09 | 2018-04-23 | Apple Inc | Intelligent automated assistant in a home environment |
US10586535B2 (en) | 2016-06-10 | 2020-03-10 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
US10067938B2 (en) | 2016-06-10 | 2018-09-04 | Apple Inc. | Multilingual word prediction |
US10490187B2 (en) | 2016-06-10 | 2019-11-26 | Apple Inc. | Digital assistant providing automated status report |
US10509862B2 (en) | 2016-06-10 | 2019-12-17 | Apple Inc. | Dynamic phrase expansion of language input |
US10192552B2 (en) | 2016-06-10 | 2019-01-29 | Apple Inc. | Digital assistant providing whispered speech |
DK201670540A1 (en) | 2016-06-11 | 2018-01-08 | Apple Inc | Application integration with a digital assistant |
DK179415B1 (en) | 2016-06-11 | 2018-06-14 | Apple Inc | Intelligent device arbitration and control |
DK179343B1 (en) | 2016-06-11 | 2018-05-14 | Apple Inc | Intelligent task discovery |
DK179049B1 (en) | 2016-06-11 | 2017-09-18 | Apple Inc | Data driven natural language event detection and classification |
US10714121B2 (en) | 2016-07-27 | 2020-07-14 | Vocollect, Inc. | Distinguishing user speech from background speech in speech-dense environments |
US10474753B2 (en) | 2016-09-07 | 2019-11-12 | Apple Inc. | Language identification using recurrent neural networks |
US10043516B2 (en) | 2016-09-23 | 2018-08-07 | Apple Inc. | Intelligent automated assistant |
US10147423B2 (en) * | 2016-09-29 | 2018-12-04 | Intel IP Corporation | Context-aware query recognition for electronic devices |
US11281993B2 (en) | 2016-12-05 | 2022-03-22 | Apple Inc. | Model and ensemble compression for metric learning |
US10593346B2 (en) | 2016-12-22 | 2020-03-17 | Apple Inc. | Rank-reduced token representation for automatic speech recognition |
US11204787B2 (en) | 2017-01-09 | 2021-12-21 | Apple Inc. | Application integration with a digital assistant |
DK201770383A1 (en) | 2017-05-09 | 2018-12-14 | Apple Inc. | USER INTERFACE FOR CORRECTING RECOGNITION ERRORS |
US10417266B2 (en) | 2017-05-09 | 2019-09-17 | Apple Inc. | Context-aware ranking of intelligent response suggestions |
US10395654B2 (en) | 2017-05-11 | 2019-08-27 | Apple Inc. | Text normalization based on a data-driven learning network |
DK201770439A1 (en) | 2017-05-11 | 2018-12-13 | Apple Inc. | Offline personal assistant |
US10726832B2 (en) | 2017-05-11 | 2020-07-28 | Apple Inc. | Maintaining privacy of personal information |
DK179745B1 (en) | 2017-05-12 | 2019-05-01 | Apple Inc. | SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT |
DK201770429A1 (en) | 2017-05-12 | 2018-12-14 | Apple Inc. | LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT |
DK179496B1 (en) | 2017-05-12 | 2019-01-15 | Apple Inc. | USER-SPECIFIC Acoustic Models |
US11301477B2 (en) | 2017-05-12 | 2022-04-12 | Apple Inc. | Feedback analysis of a digital assistant |
DK201770431A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | Optimizing dialogue policy decisions for digital assistants using implicit feedback |
DK201770432A1 (en) | 2017-05-15 | 2018-12-21 | Apple Inc. | Hierarchical belief states for digital assistants |
US10303715B2 (en) | 2017-05-16 | 2019-05-28 | Apple Inc. | Intelligent automated assistant for media exploration |
DK179549B1 (en) | 2017-05-16 | 2019-02-12 | Apple Inc. | FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES |
US10311144B2 (en) | 2017-05-16 | 2019-06-04 | Apple Inc. | Emoji word sense disambiguation |
US10403278B2 (en) | 2017-05-16 | 2019-09-03 | Apple Inc. | Methods and systems for phonetic matching in digital assistant services |
US10446138B2 (en) * | 2017-05-23 | 2019-10-15 | Verbit Software Ltd. | System and method for assessing audio files for transcription services |
US10657328B2 (en) | 2017-06-02 | 2020-05-19 | Apple Inc. | Multi-task recurrent neural network architecture for efficient morphology handling in neural language modeling |
US10445429B2 (en) | 2017-09-21 | 2019-10-15 | Apple Inc. | Natural language understanding using vocabularies with compressed serialized tries |
US10755051B2 (en) | 2017-09-29 | 2020-08-25 | Apple Inc. | Rule-based natural language processing |
US10636424B2 (en) | 2017-11-30 | 2020-04-28 | Apple Inc. | Multi-turn canned dialog |
US10733982B2 (en) | 2018-01-08 | 2020-08-04 | Apple Inc. | Multi-directional dialog |
US10733375B2 (en) | 2018-01-31 | 2020-08-04 | Apple Inc. | Knowledge-based framework for improving natural language understanding |
US10789959B2 (en) | 2018-03-02 | 2020-09-29 | Apple Inc. | Training speaker recognition models for digital assistants |
US10592604B2 (en) | 2018-03-12 | 2020-03-17 | Apple Inc. | Inverse text normalization for automatic speech recognition |
US10818288B2 (en) | 2018-03-26 | 2020-10-27 | Apple Inc. | Natural assistant interaction |
US10909331B2 (en) | 2018-03-30 | 2021-02-02 | Apple Inc. | Implicit identification of translation payload with neural machine translation |
US10928918B2 (en) | 2018-05-07 | 2021-02-23 | Apple Inc. | Raise to speak |
US11145294B2 (en) | 2018-05-07 | 2021-10-12 | Apple Inc. | Intelligent automated assistant for delivering content from user experiences |
US10984780B2 (en) | 2018-05-21 | 2021-04-20 | Apple Inc. | Global semantic word embeddings using bi-directional recurrent neural networks |
DK201870355A1 (en) | 2018-06-01 | 2019-12-16 | Apple Inc. | VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS |
DK179822B1 (da) | 2018-06-01 | 2019-07-12 | Apple Inc. | Voice interaction at a primary device to access call functionality of a companion device |
US11386266B2 (en) | 2018-06-01 | 2022-07-12 | Apple Inc. | Text correction |
US10892996B2 (en) | 2018-06-01 | 2021-01-12 | Apple Inc. | Variable latency device coordination |
DK180639B1 (en) | 2018-06-01 | 2021-11-04 | Apple Inc | DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT |
US10496705B1 (en) | 2018-06-03 | 2019-12-03 | Apple Inc. | Accelerated task performance |
US10430708B1 (en) | 2018-08-17 | 2019-10-01 | Aivitae LLC | System and method for noise-based training of a prediction model |
US11010561B2 (en) | 2018-09-27 | 2021-05-18 | Apple Inc. | Sentiment prediction from textual data |
US10839159B2 (en) | 2018-09-28 | 2020-11-17 | Apple Inc. | Named entity normalization in a spoken dialog system |
US11170166B2 (en) | 2018-09-28 | 2021-11-09 | Apple Inc. | Neural typographical error modeling via generative adversarial networks |
US11462215B2 (en) | 2018-09-28 | 2022-10-04 | Apple Inc. | Multi-modal inputs for voice commands |
US11475898B2 (en) | 2018-10-26 | 2022-10-18 | Apple Inc. | Low-latency multi-speaker speech recognition |
US11638059B2 (en) | 2019-01-04 | 2023-04-25 | Apple Inc. | Content playback on multiple devices |
US11348573B2 (en) | 2019-03-18 | 2022-05-31 | Apple Inc. | Multimodality in digital assistant systems |
JP2020160144A (ja) * | 2019-03-25 | 2020-10-01 | 株式会社Subaru | 音声認識装置 |
US11475884B2 (en) | 2019-05-06 | 2022-10-18 | Apple Inc. | Reducing digital assistant latency when a language is incorrectly determined |
US11423908B2 (en) | 2019-05-06 | 2022-08-23 | Apple Inc. | Interpreting spoken requests |
US11307752B2 (en) | 2019-05-06 | 2022-04-19 | Apple Inc. | User configurable task triggers |
DK201970509A1 (en) | 2019-05-06 | 2021-01-15 | Apple Inc | Spoken notifications |
US11140099B2 (en) | 2019-05-21 | 2021-10-05 | Apple Inc. | Providing message response suggestions |
DK180129B1 (en) | 2019-05-31 | 2020-06-02 | Apple Inc. | USER ACTIVITY SHORTCUT SUGGESTIONS |
US11289073B2 (en) | 2019-05-31 | 2022-03-29 | Apple Inc. | Device text to speech |
US11496600B2 (en) | 2019-05-31 | 2022-11-08 | Apple Inc. | Remote execution of machine-learned models |
US11360641B2 (en) | 2019-06-01 | 2022-06-14 | Apple Inc. | Increasing the relevance of new available information |
US11488406B2 (en) | 2019-09-25 | 2022-11-01 | Apple Inc. | Text detection using global geometry estimators |
US11157823B2 (en) | 2020-02-04 | 2021-10-26 | Vignet Incorporated | Predicting outcomes of digital therapeutics and other interventions in clinical research |
US11151462B2 (en) | 2020-02-04 | 2021-10-19 | Vignet Incorporated | Systems and methods for using machine learning to improve processes for achieving readiness |
CN117795597A (zh) * | 2021-08-09 | 2024-03-29 | 谷歌有限责任公司 | 用于自动语音辨识的联合声学回声消除、语音增强和话音分离 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6778959B1 (en) * | 1999-10-21 | 2004-08-17 | Sony Corporation | System and method for speech verification using out-of-vocabulary models |
US7451085B2 (en) * | 2000-10-13 | 2008-11-11 | At&T Intellectual Property Ii, L.P. | System and method for providing a compensated speech recognition model for speech recognition |
US20020087306A1 (en) * | 2000-12-29 | 2002-07-04 | Lee Victor Wai Leung | Computer-implemented noise normalization method and system |
US7072834B2 (en) * | 2002-04-05 | 2006-07-04 | Intel Corporation | Adapting to adverse acoustic environment in speech processing using playback training data |
US7047200B2 (en) * | 2002-05-24 | 2006-05-16 | Microsoft, Corporation | Voice recognition status display |
-
2005
- 2005-05-24 US US11/569,709 patent/US20090187402A1/en not_active Abandoned
- 2005-05-24 JP JP2007514272A patent/JP2008501991A/ja active Pending
- 2005-05-24 CN CNA2005800183020A patent/CN1965218A/zh active Pending
- 2005-05-24 EP EP05742503A patent/EP1756539A1/en not_active Withdrawn
- 2005-05-24 WO PCT/IB2005/051687 patent/WO2005119193A1/en not_active Application Discontinuation
Cited By (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2011044848A1 (zh) * | 2009-10-15 | 2011-04-21 | 华为技术有限公司 | 信号处理的方法、装置和系统 |
CN103077708B (zh) * | 2012-12-27 | 2015-04-01 | 安徽科大讯飞信息科技股份有限公司 | 一种语音识别系统中拒识能力提升方法 |
CN103077708A (zh) * | 2012-12-27 | 2013-05-01 | 安徽科大讯飞信息科技股份有限公司 | 一种语音识别系统中拒识能力提升方法 |
CN104347081B (zh) * | 2013-08-07 | 2019-07-02 | 腾讯科技(深圳)有限公司 | 一种测试场景说法覆盖度的方法和装置 |
CN104347081A (zh) * | 2013-08-07 | 2015-02-11 | 腾讯科技(深圳)有限公司 | 一种测试场景说法覆盖度的方法和装置 |
CN104378774A (zh) * | 2013-08-15 | 2015-02-25 | 中兴通讯股份有限公司 | 一种语音质量处理的方法及装置 |
WO2014161299A1 (zh) * | 2013-08-15 | 2014-10-09 | 中兴通讯股份有限公司 | 一种语音质量处理的方法及装置 |
CN111508515A (zh) * | 2013-12-18 | 2020-08-07 | 思睿逻辑国际半导体有限公司 | 话音命令触发的语音增强 |
CN104078040A (zh) * | 2014-06-26 | 2014-10-01 | 美的集团股份有限公司 | 语音识别方法及系统 |
CN110603901B (zh) * | 2017-05-08 | 2022-01-25 | 昕诺飞控股有限公司 | 使用语音识别来控制实用程序的方法和控制系统 |
CN110603901A (zh) * | 2017-05-08 | 2019-12-20 | 昕诺飞控股有限公司 | 话音控制 |
CN112369044A (zh) * | 2018-07-03 | 2021-02-12 | 三星电子株式会社 | 用于输出声音的设备及其方法 |
CN112369044B (zh) * | 2018-07-03 | 2023-05-02 | 三星电子株式会社 | 用于输出声音的设备及其方法 |
US11710495B2 (en) | 2018-07-03 | 2023-07-25 | Samsung Electronics Co., Ltd. | Device for outputting sound and method therefor |
CN109087659A (zh) * | 2018-08-03 | 2018-12-25 | 三星电子(中国)研发中心 | 音频优化方法及设备 |
CN110197670A (zh) * | 2019-06-04 | 2019-09-03 | 大众问问(北京)信息科技有限公司 | 音频降噪方法、装置及电子设备 |
CN110197670B (zh) * | 2019-06-04 | 2022-06-07 | 大众问问(北京)信息科技有限公司 | 音频降噪方法、装置及电子设备 |
WO2023050301A1 (zh) * | 2021-09-30 | 2023-04-06 | 华为技术有限公司 | 语音质量评估、语音识别质量预测与提高的方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
WO2005119193A1 (en) | 2005-12-15 |
EP1756539A1 (en) | 2007-02-28 |
JP2008501991A (ja) | 2008-01-24 |
US20090187402A1 (en) | 2009-07-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN1965218A (zh) | 交互式语音识别系统的性能预测 | |
US7346500B2 (en) | Method of translating a voice signal to a series of discrete tones | |
JP2021086154A (ja) | 音声認識方法、装置、機器及びコンピュータ読み取り可能な記憶媒体 | |
CN110520925A (zh) | 询问结束检测 | |
CN109817219A (zh) | 语音唤醒测试方法及系统 | |
US20110066433A1 (en) | System and method for personalization of acoustic models for automatic speech recognition | |
MX2008016354A (es) | Deteccion de una maquina contestadora utilizando reconocimiento de dialogo. | |
CN107799126A (zh) | 基于有监督机器学习的语音端点检测方法及装置 | |
US9530432B2 (en) | Method for determining the presence of a wanted signal component | |
US8219396B2 (en) | Apparatus and method for evaluating performance of speech recognition | |
US20090132250A1 (en) | Robot apparatus with vocal interactive function and method therefor | |
CN109964270A (zh) | 用于关键短语识别的系统和方法 | |
JP2004502985A (ja) | 以後のオフライン音声認識のための音声情報を記録する記録装置 | |
US20210118464A1 (en) | Method and apparatus for emotion recognition from speech | |
CN109994129B (zh) | 语音处理系统、方法和设备 | |
CN111833902A (zh) | 唤醒模型训练方法、唤醒词识别方法、装置及电子设备 | |
CN116417003A (zh) | 语音交互系统、方法、电子设备和存储介质 | |
KR101145401B1 (ko) | 로봇의 음성인식 성능 평가장치 및 평가 방법 | |
KR20030042286A (ko) | 잡음 환경에서의 음성신호 검출방법 및 그 장치 | |
KR102573186B1 (ko) | 동물의 음성 분석정보를 제공하는 장치, 방법 및 기록매체 | |
US11641592B1 (en) | Device management using stored network metrics | |
JP2007516450A (ja) | デジタル音声信号におけるクリッキングノイズ検出 | |
WO2019142231A1 (ja) | 音声分析装置、音声分析方法、音声分析プログラム及び音声分析システム | |
KR20070022296A (ko) | 대화식 음성 인식 시스템을 위한 성능 예측 | |
CN117636909B (zh) | 一种数据处理方法、装置、设备以及计算机可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C02 | Deemed withdrawal of patent application after publication (patent law 2001) | ||
WD01 | Invention patent application deemed withdrawn after publication |