CN105719647B

CN105719647B - 使用说话者检验的背景语音辨识助理

Info

Publication number: CN105719647B
Application number: CN201610086211.0A
Authority: CN
Inventors: 托德·F·莫泽尔
Original assignee: Sensory Inc
Current assignee: Sensory Inc
Priority date: 2011-09-27
Filing date: 2012-09-20
Publication date: 2019-09-13
Anticipated expiration: 2032-09-20
Also published as: CN103827963A; CN103827963B; US9142219B2; CN105719647A; WO2013048876A1; US8768707B2; US20140257812A1; US20130080167A1

Abstract

本发明涉及使用说话者检验的背景语音辨识助理的方法和系统。在一个实施例中，一种方法包含在语音辨识器处接收声输入信号。基于所述声输入信号而识别正在说话的用户。接着，所述方法确定针对所述用户先前所存储的说话者特定信息且基于所述所辨识声输入信号及针对所述用户的所述说话者特定信息而确定一组响应。确定是否应输出所述响应，且如果确定应输出所述响应，那么输出所述响应。

Description

使用说话者检验的背景语音辨识助理

分案申请的相关信息

本申请是分案申请。该分案申请的母案是申请日为2012年9月20日、申请号为201280047262.2、发明名称为“使用说话者检验的背景语音辨识助理”的发明专利申请案。

相关申请案的交叉参考

本申请案主张2011年12月16日提出申请的针对“使用说话者检验的背景语音辨识助理(Background Speech Recognition Assistant Using Speaker Verification)”的第13/329,017号美国专利申请案的优先权，所述美国专利申请案主张2011年9月27日提出申请的针对“背景语音辨识助理(Background Speech Recognition Assistant)”的第13/246,666号美国专利申请案的优先权，所述美国专利申请案的内容以全文引用的方式并入本文中。

背景技术

特定实施例一般来说涉及语音辨识。

语音辨识试图经由口头查询及命令而使信息存取较容易且较简单。这些查询历史上通过装置(例如智能电话)上的按钮按下而激活。使用口头查询允许用户在不键入查询的情况下做出查询。此在用户忙碌时(例如在用户开车或仅不想键入查询时)使信息存取较容易。在接收到按钮按下之后，语音辨识器倾听查询并试图适当地作出响应。即使使用按钮按下较容易，但有时对于用户来说，使用户按下按钮来激活语音辨识器是不方便的。举例来说，用户可能忙于其它活动，在此情况下，使用其手来执行按钮按下可是不可能的，例如用户可能正在开车。

其它方法用使用激活词来激活语音辨识器的免提方法来代替按钮按下。举例来说，使用触发短语来激活语音辨识器，所述语音辨识器可在接收到触发短语之后接着解读查询并提供适当响应。然而，用户必须总是触发语音辨识器。另外，从用户触发辨识器起，用户通常不容许辨识或响应中的错误。

在所有这些方法中，用户决定何时发出查询或命令。肯定地激活语音辨识器且接着用户预期响应。由于用户预期响应，因此可能不容许语音辨识中的错误。此外，由于语音辨识器在激活之后仅倾听内容，因此语音辨识器将忽略对话中的特定语境及重点。

另外，即使在向用户输出响应时，所述响应也是通用响应。举例来说，语音辨识器可使用所辨识的关键字来执行网络搜索。此关键字搜索将被输出到正在说话的任何用户。

发明内容

在一个实施例中，一种方法包含在语音辨识器处接收声输入信号。基于所述声输入信号而识别正在说话的用户。接着，所述方法确定针对所述用户先前所存储的说话者特定信息且基于所述所辨识声输入信号及针对所述用户的所述说话者特定信息而确定一组响应。确定是否应输出所述响应，且如果确定应输出所述响应，那么输出所述响应。

在一个实施例中，一种方法包含：基于使用第一语音辨识算法辨识声输入信号及将所述声输入信号的部分分类到多个类别中的一类别中而从第一级辨识器接收信号，所述第一级辨识器经配置而以始终接通模式辨识所述声输入信号；由计算装置在接收到所述信号后即刻激活第二级辨识器以辨识所述声输入信号，所述第二级辨识器经配置以使用第二语音辨识算法；基于所述声输入信号而识别正在说话的用户；确定针对所述用户先前所存储的说话者特定信息；基于所述说话者特定信息而确定对所述所辨识声输入信号的响应；基于所述响应的排序而确定是否应输出所述响应；及如果确定应输出所述响应，那么输出所述响应。

在一个实施例中，一种系统包含：第一级辨识器，其经配置而以始终接通模式使用第一语音辨识算法来辨识声输入信号，所述第一级辨识器经配置以：接收声输入信号；基于所述声输入信号而识别正在说话的用户；确定针对所述用户先前所存储的说话者特定信息；使用第一语音辨识算法将所述声输入信号的部分分类到不同类别中；基于对类别的选择而确定应触发第二级辨识器，所述选择是基于正以所述选定类别分类的经分类部分及所述说话者特定信息；及第二级辨识器，其经配置以：从所述第一级辨识器接收用以激活所述第二级辨识器的信号；在接收到所述信号后即刻激活所述第二级辨识器以辨识所述声输入信号，所述第二级辨识器经配置以使用不同于所述第一语音辨识算法的第二语音辨识算法来辨识所述声输入信号；使用所述说话者特定信息来确定对所述所辨识声输入信号的响应；基于所述响应的排序而确定是否应输出所述响应；及如果确定应输出所述响应，那么输出所述响应。

以下详细说明及附图提供对本发明的性质及优点的较好理解。

附图说明

图1A描绘根据一个实施例的语音辨识系统的实例系统。

图1B描绘根据一个实施例的用于提供两级语音辨识器的实例系统。

图2描绘根据一个实施例的级1辨识器的较详细实例。

图3描绘根据一个实施例的级2辨识器的较详细实例。

图4描绘根据一个实施例的用于使用两个级来执行语音辨识的方法的简化流程图。

图5描绘根据一个实施例的用于在级2辨识器处处理声输入信号的方法的简化流程图。

图6描绘根据一个实施例的用于在单个装置中操作级1辨识器及级2辨识器的方法的简化流程图。

图7展示根据一个实施例的包含级1辨识器及级2辨识器两者的装置的实例。

图8展示根据一个实施例的用于使用两个不同装置来执行语音辨识的系统。

具体实施方式

本文中描述背景语音辨识器的技术。出于阐释的目的，在以下说明中，陈述众多实例及特定细节以便提供对本发明的实施例的彻底理解。如由权利要求书所定义，特定实施例可单独地或连同下文所描述的其它特征一起包含这些实例中的特征中的一些或全部特征，且可进一步包含本文中所描述的特征及概念的修改形式及等效物。

图1A描绘根据一个实施例的语音辨识系统的实例系统100。系统100包含“始终接通”且倾听所接收到的声输入信号的语音辨识器101。因此，语音辨识器101在后台中工作。语音辨识器101不倾听用以接通的触发短语。而是，语音辨识器101从日常对话收集真实含义及意图。由于语音辨识器101始终接通及倾听，因此可依据在语音辨识器101必须基于触发而激活的情况下通常不可辨识的短语而确定含义及意图。在另一实施例中，语音辨识器101通过触发短语而接通。倾听将在语音辨识器101被接通时开始。

说话者检验管理器106检验哪一用户正在说话。举例来说，各个用户可能在不同时间说话，例如在家庭中，父亲、母亲、儿子及女儿可一起说话或在不同时间说话。说话者检验管理器106包含用以识别哪一说话者当前正在说话的算法。举例来说，说话者检验管理器106可使用用于确定说话者的文本无关算法。在此算法中，用户可在允许说话者检验管理器106了解每一用户的语音的签名的训练过程中训练说话者检验管理器106。所属领域的技术人员将了解如何训练说话者检验管理器106来辨识用户的语音。在训练之后，当语音辨识器101处于始终接通模式中时，说话者检验管理器106确定谁正在说话。使用文本无关算法允许说话者检验管理器106在以始终接通模式操作时识别谁正在说话，此不需要用户触发语音辨识器101。

另外，文本相关方法可用于检验说话者。举例来说，语音辨识器101并非始终接通，而是由接通语音辨识器101的触发词触发，且语音辨识器101开始倾听。接着可执行检验用户的文本相关方法。举例来说，用户可能已训练语音辨识器101辨识触发词。接着，语音辨识器101可基于针对触发词的先前训练而检验用户。此外，用户可在说出触发短语之后说出额外词，且所述词用于识别说话者。

在另一实施例中，在初始检验之后，可随着发生可为文本无关或文本相关的额外检验。举例来说，随着用户继续说话，说话者检验可正在运行以证实同一用户正在说话。举例来说，接收触发短语且接着周期性地执行说话者检验。当认为必须有较高安全性时(例如在登录网站、账户、资金转移、购物或其它安全情形时)，可执行第二说话者检验。此外，由于代替登录而执行了第二说话者检验，因此在安全情形中可不需要手动登录。

存储装置108包含针对不同用户的说话者特定信息110。举例来说，说话者特定信息110-1与用户#1相关联且说话者特定信息110-n与用户#n相关联。说话者特定信息110可针对任何数目个用户而存储于存储装置108中。每一说话者特定信息110可包含所述用户所特有的信息。在一个实例中，说话者特定信息110基于针对所述用户先前所辨识的语音，例如针对所述用户之前可能已辨识词“英式足球”或“度假”。此外，在另一实例中，信息可包含用户偏好，例如一个用户喜欢滑板运动且另一用户喜欢英式足球。此信息可在确定对所辨识语音的响应时使用。举例来说，如果用户更有可能喜欢英式足球，那么可在辨识语音时输出与英式足球有关的广告。在一个实例中，如果正讨论度假，那么在识别用户且确定用户喜欢英式足球的情况下，可作为对将执行的活动的建议而输出在进行度假时发生的英式足球比赛。然而，如果说话的用户喜欢滑板运动，那么可作为响应输出滑板运动赛事。因此，语音辨识器101可使用说话者特定信息110而提供较个人化响应。

语音辨识器101可在后台中确定可能响应，但可能直到确定适合输出响应才输出所述响应。响应可基于声输入信号的类别及解释而使用各种方法来确定。举例来说，可执行搜索以确定响应，可针对适当响应而搜索数据库等。语音辨识器101可对依据短语的所辨识含义而确定的响应进行排序。响应的排序及类型(例如屏幕上的短暂显示、屏幕上的持久显示、口头响应等)可基于例如说话者特定信息110、相关性、紧迫性及/或重要性的准则。与英式足球相关联的响应可排序较高。当响应接收指示可输出响应的值的排序时，此时语音辨识器101可输出响应。由于用户并没有特定地调用语音辨识器101来寻求响应，因此语音辨识中的错误可不被视为是重大的。举例来说，语音辨识器101可在输出响应之前对所述响应进行评估。如果不认为所述响应是可接受的，那么可不输出所述响应。由于用户并没有寻求响应，因此用户将不知道其中具有错误的响应未被提供。然而，如果用户已寻求特定响应，那么将出现于响应中的错误将是不可接受的。在此情形中，用户并没有寻求响应。

在另一实施例中，可在不具有任何说话者检验的情况下执行分类。在此情形中，确定一般响应。然而，当接收到触发短语时，使用说话者特定信息110来调整响应。在另一实例中，直到接收到触发短语才执行分类。

输出响应的不同方法可基于所确定的排序。举例来说，具有较高排序得分的响应可使用较多侵入性输出方法。举例来说，如果在排序中存在高级紧迫性，那么可使用口头输出。然而，如果紧迫性较低，那么可使用较少侵入性方法，例如在屏幕的拐角中显示图片或广告。显示图片或广告的时间长度可通过重要性而确定。语音辨识器101是助理，其在未被请求的情况下始终接通以提供帮助及解决方案，但足够智能以仅在因紧迫性等而确定为适当时侵入。

输出响应的方法可基于说话者特定信息110而改变。举例来说，一些用户可倾向于在个人计算机上输出响应。其它用户可倾向于发送文本消息。这些偏好在确定输出响应的方法时被纳入考虑。

在一个实例中，第一用户可能正与第二用户讨论是否购置微波炉。所述对话可能正讨论将购置什么瓦数或样式(例如，不锈钢)。语音辨识器101可位于移动装置(例如蜂窝式电话或平板计算机)中且未被第一用户或第二用户触发。语音辨识器101可不立即输出响应。而是，语音辨识器101倾听对话以导出额外含义。当语音辨识器101将所述讨论分类为“购物”讨论时，其可辨识出正期待购买微波炉，语音辨识器101可确定响应是适当的。说话者特定信息110可用于确定用户先前正关于厨房中的其它电器而讨论不锈钢。在此情形中，接着确定用户期待购置期待购买的某一瓦数的不锈钢微波炉。不锈钢微波炉将匹配厨房中的其它电器。可对一些响应进行排序。举例来说，商店的促销可为一个响应。此响应因相关性(促销是针对微波炉的)以及紧迫性(促销是限时优惠及/或语音辨识器101听出讨论中的紧迫感，因为其识别出了现有微波炉已坏掉)而被赋予高得分。因此，可获得商店的促销的侵入性口头输出响应可被输出且提示用户正查找的物项仅促销24小时。

图1B描绘根据一个实施例的用于提供两级语音辨识器的实例系统100。两级语音辨识器可执行语音辨识器101的功能。此外，尽管描述两个级，但两个级的功能可组合到一个级或任何数目个级中。系统100包含级1辨识器102及级2辨识器104。级1辨识器102及级2辨识器104可位于相同装置中或位于不同装置中。举例来说，级1辨识器102及级2辨识器104可位于移动装置中，例如智能电话、平板计算机、膝上型计算机、手持式游戏装置、玩具、车内装置或其它消费型电子器件。另外，级1辨识器102可位于第一装置(例如客户端装置)上，且级2辨识器104可位于第二装置(例如服务器)上。在此实例中，级1辨识器102可经由网络与级2辨识器104通信。

级1辨识器102可为“始终接通”且倾听所接收到的声输入信号的语音辨识装置。始终接通可意指级1辨识器不需要被触发(例如，通过按钮按下或触发短语)以开始语音辨识。始终接通语音辨识器的实例包含于2010年7月6日提出申请的标题为“用于免提语音控制及语音搜索的系统及方法(Systems and Methods for Hands-free Voice Control andVoice Search)”的第12/831,051号美国专利申请案(其主张2009年7月6日提出申请的第61/223,172号美国专利申请案的优先权的权益)中，且包含于2011年8月24日提出申请的标题为“减少语音辨识系统中的主动错误信息(Reducing False Positives in SpeechRecognition Systems)”的第12/831,051号美国专利申请案中，出于所有目的，所有美国专利申请案以全文引用的方式并入。举例来说，可分析级1辨识器102接收到的任何声输入信号。在一个实施例中，级1辨识器102不同于级2辨识器104。举例来说，级1辨识器102可为使用比级2辨识器104少的功率的低功率辨识器。由于级1辨识器102所使用的语音辨识算法可使用较小存储器及较少计算机处理器单元(CPU)循环，因此可使用较低功率。举例来说，级1辨识器102可能够在音频前端(例如，麦克风)接通而CPU处理器正以较低时钟速度运行或接通达短期突发而主要处于休眠的情况下运行。

级1辨识器102的语音辨识算法可将所辨识的关键字分类到预定义类别中。预定义类别可为描述不同所感兴趣领域的主题，例如旅行、购物、娱乐、研究、饮食或电子器件。每一类别可与一组有限关键字相关联。在一个实施例中，级1辨识器102可查找关键字的有限词汇量。如果检测到针对特定类别的一定数目个关键字，那么可确定与正讨论的类别相关联的主题。除若干个关键字之外，还可使用关键字彼此之间的关系，即，搜索文法及/或语言模型。级1辨识器102将所辨识关键字分类到多个类别中，且在一个类别具有以其分类的足够关键字时，此时级1辨识器102可触发级2辨识器104。还可使用下文将描述的其它准则。

级1辨识器102可耦合到说话者检验管理器106及存储装置108以确定说话者特定信息110。说话者特定信息可用于将所辨识的关键字分类到预定义类别中。举例来说，预定义类别可基于用户的偏好针对每一用户而不同。举例来说，一些用户可能喜欢旅行且其它用户可能喜欢电子器件。

此外，可基于说话者特定信息110-1而执行类别的确定。举例来说，类别可与用户相关联。因此，如果类别与说话者特定信息110-1相关联，那么触发接通更有可能较适当。举例来说，如果用户正谈论英式足球，且说话者特定信息110指示用户喜欢英式足球，那么更有可能应触发语音辨识器101以确定响应。然而，如果用户正谈论滑板运动且对滑板运动不感兴趣，那么语音辨识器101可不被触发接通。

与级1辨识器102相比，级2辨识器104可为较准确语音辨识系统。举例来说，级2辨识器104可使用比级1辨识器102多的功率。此外，级2辨识器104使用较准确语音辨识算法。举例来说，级2辨识器104可需要大存储器及CPU循环占用面积以执行语音辨识。在一个实例中，级2辨识器104可使用大词汇量连续语音辨识(LVCSR)技术来描述特定主题(语言模型)的语言且将声输入信号转换成可能词格子，所述可能词格子接着被使用统计剖析器准确地剖析以提取含义。级1辨识器102或级2辨识器104可决定保存来自先前讨论的信息以较好地分类、解决问题及提供帮助。

在一个实施例中，语音辨识算法之间可能存在一些差异。举例来说，级1辨识器102是基于关键字的辨识器，而级2辨识器104可辨识所有词。级1辨识器102可具有不如级2辨识器104复杂的搜索文法，例如较低混乱及较低数目个词。级1辨识器102可具有不如级2辨识器104复杂的语言模型(例如，词的数目，双字母组对三字母组)。级1辨识器102可在搜索中删除比级2辨识器104多的作用状态。级1辨识器102剖析可为较简单的或不存在的，而级2辨识器104具有稳健统计剖析器。级1辨识器102可需要用以存储表示的较少只读存储器(ROM)及用以对照其给输入声评分的较少随机存取存储器(RAM)/每秒百万指令(mips)。级1辨识器102可为不如级2辨识器104准确的辨识器且可使用比级2辨识器104简单的语音特征。级1辨识器102可使用比级2辨识器104小/简单的声模型。

级2辨识器104可输出对所检测含义的响应。举例来说，当依据声输入信号确定含义时，级2辨识器104可确定适当响应。所述响应可包含多种感官互动，包含音频、视觉、触觉或嗅觉响应。在一个实例中，输出可为对用户进行的讨论提供所建议答案的音频响应。还可提供增强用户活动的其它响应，例如在用户正于计算机或电视指南上执行搜索时，可基于依据背景对话的所存储信息或在正进行搜索时当下所说出信息而提供较集中搜索结果。举例来说，在依据文本输入(例如“坏小子电影”)而进行电影的搜索时，用户可能说出像“我认为它是一部翻拍电影，可能是海角什么的或其它…”这样的话。另一实例，如果检测到用户正在讨论旅行，那么可在指南的顶部处显示电视指南上的关于旅行的一些电视节目。

级2辨识器104还可耦合到说话者检验管理器106及存储装置108，其中响应是基于说话者特定信息110而确定。用于确定响应的算法可基于用户而不同。此外，考虑说话者特定信息110而确定的响应将提供较集中搜索结果。

响应的排序及类型还可基于说话者特定信息110。举例来说，排序可基于说话者特定信息110中的用户的偏好而受影响。举例来说，基于用户较喜欢英式足球的偏好，关于英式足球的响应的排序可高于关于滑板运动的响应。

图2描绘根据一个实施例的级1辨识器102的较详细实例。语音辨识器202接收声输入信号。举例来说，声输入信号可为由装置的音频前端检测到的对话。语音辨识器202辨识一些关键字。语音辨识器202所使用的文法可是有限的且少于级2辨识器104所使用的文法。

类别管理器204可将所辨识关键字分类到类别206中。每一类别206可与一个类目或主题相关联。类别206可以是预定义的且可在若干个所辨识关键字满足特定准则时选择类别206。举例来说，语音辨识器202可识别高频率短语。这些短语可唯一地且稳健地识别主题。除时间次序及距离之外，短语的频率也可用于确定是否选择类别206。这些准则可以用用于确定是否触发类别206的类别特定文法而定义。一旦检测到彼此具有预期关系的充分数目个短语，便可确定存在正讨论特定主题的必然性的高可能性并且选择类别206。

类别206可基于说话者特定信息110而确定。举例来说，一旦识别用户，便可从说话者特定信息110检索类别206。每一用户可与不同类别206相关联。在其它实施例中，类别206可基于说话者特定信息110而增强。举例来说，可基于所识别的用户而使用不同类别206或类别206中的关键字。

当选择类别206时，使用级2通知管理器208触发级2辨识器104。图3描绘根据一个实施例的级2辨识器104的较详细实例。在触发级2辨识器104时，语音辨识器302接收声输入信号。用于辨识声输入信号中的术语的语音辨识算法可比级1辨识器102所使用的语音辨识算法准确。

所接收到的类别206也可用于执行语音辨识。举例来说，可选择词的词汇的子集来执行辨识。

可以多种方式确定响应。举例来说，所辨识句子的含义可用于搜索可能响应。还可使用其它较多地基于所感知意图而非实际上所说的内容的方法。还可基于所述类别而缩窄可能响应。举例来说，当类别为旅行时，将所确定的响应缩窄到仅与旅行相关联的响应。对于多级辨识过程，与较多地集中于含义的级2辨识器104相反，分类技术准许级1辨识器102集中于较简单且较容易的分类任务。举例来说，级1处的“分类”可使用嵌入式较低功率始终接通系统，因此较高功率辨识器仅需要在必要时被调用。

响应排序管理器304基于排序算法306而对可能响应进行排序。所述排序可用于确定如何作出响应。举例来说，较高排序可指示响应应为较明显且较具侵入性的，例如输出音频响应。然而，较低排序可指示较微妙响应，例如在接口上的显示器上显示消息。

响应排序管理器304可使用说话者特定信息110来确定响应。举例来说，排序算法306可基于用户的偏好而不同地加权。在一个实例中，包含用户所偏好的内容的一些响应可排序较高。

在一个实施例中，排序算法306可基于例如说话者特定信息110、相关性、紧迫性及/或重要性的准则而对响应进行排序。相关性可为所述响应与所检测含义的相关程度如何。紧迫性为例如在用户确实希望做某事时所需的响应的紧迫程度如何，或为可在响应期满时提供的优惠。重要性可定义所述响应对于用户可是多么重要；举例来说，如果用户之间的对话较长或已依据早期所说的某事而重复请求，那么可确定重要性。还可使用其它准则，例如依据对话所推断出的信息。举例来说，信息的重要性可影响显示大小及时序。

可对多个响应进行排序。在一个实例中，响应管理器308可输出最高排序的响应。在其它实施例中，可同时或按次序输出多个响应。此外，响应可不基于排序而输出，例如在没有响应经确定具有足以被输出的高得分的情况下。由于用户可能尚未触发级1辨识器102或级2辨识器104，因此用户不预期响应，且因此，可仅在确定适当排序时输出响应。

图4描绘根据一个实施例的用于使用两个级来执行语音辨识的方法的简化流程图400。在402处，起始级1辨识器102。级1辨识器102可为始终接通的。

在404处，说话者检验管理器106识别说话者。举例来说，说话者检验管理器106可为始终接通的且倾听语音。在用户说话时，识别不同用户。在一个实例中，可识别多个用户。

在406处，接着查找针对所识别说话者的说话者特定信息110。举例来说，如果识别用户，那么接着使用针对所述用户的说话者特定信息110来对语音进行分类。

在408处，级1辨识器102使用说话者特定信息110来对声输入信号进行分类。举例来说，可对声输入信号中所辨识的不同关键字进行分类。在410处，级1辨识器102确定是否选择类别206。举例来说，如果将若干个关键字分类于类别206中，那么可确定应触发级2辨识器104。如果否，那么过程继续进行以执行408中的分类。在412处，级1辨识器102联系级2辨识器104以接通级2辨识器104。

图5描绘根据一个实施例的用于在级2辨识器104处处理声输入信号的方法的简化流程图500。在502处，级2辨识器104在接收到来自级1辨识器102的触发后即刻接通。级2辨识器104不是始终接通的且仅在由级1辨识器102触发时接通。

在504处，级2辨识器104接收声输入信号。举例来说，如果级2辨识器104与级1辨识器102位于一处，那么在级2辨识器104处可接收声输入信号。然而，如果级2辨识器104位于远处(例如在服务器处)，那么级1辨识器102可将声输入信号发送到级2辨识器104。

在505处，级2辨识器104确定说话者特定信息110。举例来说，级2辨识器104可接收说话者是谁的识别。接着，确定针对所述用户的说话者特定信息110。

在506处，级2辨识器104对响应进行排序。举例来说，使用如上文所描述的准则(例如说话者特定信息110)来对各种响应进行排序。在508处，级2辨识器104确定是否应输出响应。所述确定可基于所述排序。举例来说，当响应接收足够高得分时，此时输出所述响应。如果未确定将输出的响应，那么过程在506处继续，其中响应继续基于所接收声输入信号而排序。

如果确定将输出的响应，那么在510处，级2辨识器104确定响应的方法。举例来说，可基于排序而确定不同响应。当响应具有高排序时，可认为其较重要且因此提供较具侵入性响应，例如音频输出。然而，当响应排序较低时，此时所述响应可为较少侵入性的，例如接口上所显示的消息。在512处，级2辨识器104使用所确定方法来输出响应。

在一个实施例中，级1辨识器102及级2辨识器104可在单个装置中操作。所述装置可由电池供电，其中电池寿命可是重要的。在此类型的装置中，可期望使用级1辨识器102，其使用较少功率但始终接通且触发使用较多功率的较强大级2辨识器104。图6描绘根据一个实施例的用于在单个装置中操作级1辨识器102及级2辨识器104的方法的简化流程图600。在602处，在装置上使级1辨识器102以低功率模式操作。举例来说，装置可处于其中级1辨识器102在后台中操作的待机模式中。由于级1辨识器102可需要较少CPU循环，因此级1辨识器102可在装置待机时操作。待机不同于其中装置可被完全供电的作用模式。举例来说，在待机模式中，将关断屏幕灯且除麦克风前置放大器电路及轻量级处理器(例如较低时钟循环实施方案等)之外，将不启用任何功能。尽管辨识保持继续，但将所有其它功能断电以使功率消耗最小化。可自动确定这些辨识模式及级以节约功率。举例来说，插入式装置可始终接通充当单个辨识器，而电池供电的装置可使用较低功率级1方法。此外，级1辨识器102可在装置不处于待机模式中时操作，但作为后台过程而操作。因此，虽然使用所述装置，但其不使用可使装置的性能降级的显著CPU处理能力。

在604处，级1辨识器102确定何时激活级2辨识器104。举例来说，可选择类别206。在606处，级1辨识器102发送信号以唤醒装置。举例来说，可将装置从待机模式唤醒到作用模式中。

在608处，使级2辨识器104以较高功率模式操作。举例来说，级2辨识器104可需要较多CPU循环来执行语音辨识。另外，可必须在装置处于作用模式中时操作级2辨识器104。

图7展示根据一个实施例的包含级1辨识器102及级2辨识器104两者的装置700的实例。音频输入702接收声输入信号。处理器704及存储器706由级1辨识器102及级2辨识器104使用。如上文所描述，与级2辨识器104相比，级1辨识器102可使用处理器704的较少CPU循环。此外，存储器706可为随机存取存储器(RAM)，其中与级2辨识器104相比，级1辨识器102使用较小量的RAM。

在不同实例中，图8展示根据一个实施例的用于使用两个不同装置来执行语音辨识的系统800。如所展示，第一装置802-1包含级1辨识器102且第二装置802-2包含级2辨识器104。第一装置802-1可为与用户位于一处的移动装置以在音频输入702处接收声输入信号。第一装置802-1可经由网络804与第二装置802-2通信。举例来说，网络804可为广域网络(WAN)或局域网络(LAN)。此外，第二装置802-2可为服务器。

级1辨识器102可使用装置802-1的处理器804-1及存储器806-1，且级2辨识器104可使用第二装置802-2的处理器804-2及存储器806-2。在一个实施例中，第二装置802-2可为较强大计算装置，因此允许将处理卸载到在第一装置802-1上可使用较少功率及电池寿命的较强大装置。

现在将描述各种实例。装置可为在用户的家中所使用的平板计算机。所述平板计算机可处于待机模式中。第一用户可正与第二用户关于这个夏天其想要去哪度假进行对话。级1辨识器102始终接通且识别第一用户及第二用户。级1辨识器102检索说话者特定信息110并确定分别与第一用户及第二用户相关联的英式足球及滑板运动的类别中的关键字。当级1辨识器102辨识关键字时，可选择类别206。举例来说，关键字可辨识为“度假”且接着可辨识确认应确定“旅行”类别的其它关键字，例如“航班”及“旅行”。确定应选择旅行类别及应激活级2辨识器104。

级2辨识器104接收用以激活的触发且还可接收正进行关于“旅行”的类别的对话且其似乎是度假的信息。此时，级2辨识器104可接手倾听对话。级2辨识器104可能够解读整个句子且可能听到句子“也许我们应该在爱尔兰进行一项活动”。“旅行”的类别可用于确定响应的内容。举例来说，针对第一用户在英式足球领域内且针对第二用户在滑板运动领域内搜索旅行度假内容。此时，可确定以下响应：应输出爱尔兰的图片以及在爱尔兰的英式足球比赛的优惠券(或可发现的无论什么地方的高排序交易或特价)及滑板运动事件的通知。可将爱尔兰的图片输出到接口，例如平板计算机屏幕。此外，可在屏幕的拐角中显示可点击的优惠券以提供在爱尔兰的英式足球比赛的特殊一揽子交易。

如果响应具有较高排序，那么输出方法可是不同的。举例来说，可提供将通知用户图片或优惠券的口头输出，或可提供爱尔兰甚至在夏天也有猛烈的暴风雨且或许在荷兰具有较好天气及卓越的自行车道的情况下可以考虑例如荷兰的另一国家的一些其它信息。如果24小时内可获得在爱尔兰的英式足球比赛的特别票，那么装置可确定其是足够相关及紧迫的以口头地打断讨论，并且说“打扰一下，这里有24小时内可获得的在爱尔兰的英式足球比赛的特别优惠，请看屏幕以点击查看详情”。

在另一实例中，用户可正使用计算装置来经由因特网执行搜索。举例来说，用户可正使用旅行网站搜索度假。虽然提供搜索结果，但可使用级2辨识器104的输出来缩窄所述结果。举例来说，可基于说话者特定信息110而缩窄来自搜索查询的结果集合。在一个实例中，可将所返回的网站限制于爱尔兰的英式足球网站或可提供关于荷兰的英式足球的额外网站。在用户搜索期间还可提供其它最优化。

在另一实例中，当查找电影以下载时，级2辨识器104可回忆说话者特定信息110中的不同概念，例如运动、演员名字或情景喜剧。接着，这些节目为移动到指南的顶部的节目。接着，用户可通过针对已展示的特定短语提供较多输入而使选择更加精细化。另外，接着，可执行语音命令。

因此，特定实施例提供使用低功率的始终接通辨识器。所述语音辨识算法可比级2辨识器算法更轻量级。不需要触发来接通级1辨识器102。然而，级1辨识器102执行与类别206相关联的特定关键字的一般语音辨识。

级2辨识器104在不具有来自用户的触发的情况下被激活。而是，触发是来自级1辨识器102。由于用户并没有特定地调用级2辨识器104来寻求响应，因此级2辨识器104中的错误可不被视为是重大的。举例来说，级2辨识器104可在输出响应之前对所述响应进行评估。如果不认为所述响应是可接受的，那么可不输出所述响应。因此，可容许语音辨识中的错误。由于用户并没有寻求响应，因此用户将不知道其中具有错误的响应未被提供。然而，如果用户已寻求特定响应，那么将出现于响应中的错误将是不可接受的。此外，使用用以仅在需要时接通的级2辨识器104使用较少功率且可节省装置的电池寿命。

此外，使用说话者特定信息110的特定实施例可提供所定制且较适当响应，例如广告。安全特征还可允许自动登录到应用，例如社交应用。由于执行说话者检验，因此还提供针对交易的所添加安全性。另外，在始终接通环境中提供特定且非一般性信息。

特定实施例可实施于非暂时性计算机可读存储媒体中以供由指令执行系统、设备、系统或机器使用或连同指令执行系统、设备、系统或机器一起使用。计算机可读存储媒体含有用于控制计算机系统的指令以执行特定实施例所描述的方法。在由一个或一个以上计算机处理器执行时，所述指令可操作以执行特定实施例中所描述的操作。

除非上下文另外明确指出，否则如本文中的说明中及所附权利要求书通篇中所使用，“一(a)”、“一(an)”及“所述(the)”包含复数参考。此外，除非上下文另外明确指出，否则如本文中的说明中及所附权利要求书通篇中所使用，“在…中”的含义包含“在…中”及“在…上”。

以上说明图解说明本发明的各种实施例连同可如何实施本发明的方面的实例。以上实例及实施例不应被认为是唯一的实施例，且经呈现以图解说明如由所附权利要求书定义的本发明的灵活性及优点。基于以上揭示内容及所附权利要求书，可在不背离如由权利要求书定义的本发明的范围的情况下采取其它布置、实施例、实施方案及等效物。

Claims

1.一种用于语音辨识的方法，其包括：

由计算装置在语音辨识器处接收声输入信号；

由所述计算装置基于所述声输入信号而识别正在说话的用户；

由所述计算装置通过所述语音辨识器辨识所述声输入信号中所述用户发出的语音；

由所述计算装置确定针对所述用户先前所存储的说话者特定信息；

由所述计算装置基于所辨识的语音以及针对所述用户的所述说话者特定信息来确定一组潜在的响应；

由所述计算装置基于一个或多个准则以及所述说话者特定信息对所述一组潜在的响应进行排序；

由所述计算装置基于所述响应的排序，针对所述一组潜在的响应中的每一响应，确定是应输出还是不应输出所述响应；及

如果应输出所述响应，则：

由所述计算装置从多个预配置输出方法中选择一个用于向所述用户输出所述响应的输出方法，所述选择基于所述响应的排序；以及

由所述计算装置使用所选择的输出方法向所述用户输出所述响应。

2.根据权利要求1所述的方法，其中所述语音辨识器经配置而以始终接通模式辨识所述声输入信号，且其中在不接触计算装置或说出用以激活所述语音辨识器的触发短语的情况下输出所述响应。

3.根据权利要求1所述的方法，其中在用户说出用以激活所述语音辨识器的触发短语之后输出所述响应。

4.根据权利要求1所述的方法，其中所述语音辨识器以始终接通模式操作，且其中所述语音辨识器在接收到触发短语之后即刻识别所述用户。

5.根据权利要求1所述的方法，其中所述说话者特定信息与来自所述用户的语音的先前语音辨识相关联。

6.根据权利要求1所述的方法，进一步包括：

基于所述说话者特定信息确定一组类别；

将所述声输入信号的部分分类到所述一组类别中的不同类别中；

基于与类别相关联的准则从所述一组类别中选择所述类别；以及

使用所述类别确定所述一组潜在的响应。

7.根据权利要求6所述的方法，其中使用所述说话者特定信息以基于所述用户在所述说话者特定信息中的偏好而修改所述一组类别中的类别。

8.根据权利要求7所述的方法，其中在所述类别中使用与所述说话者特定信息相关联的一组关键字。

9.根据权利要求6所述的方法，其中以始终接通模式执行对所述声输入信号的部分进行分类，且其中在接收到用以激活所述语音辨识器的触发短语之后执行识别正在说话的所述用户。

10.根据权利要求6所述的方法，其中直到接收到用以激活所述语音辨识器的触发短语才执行对所述声输入信号的部分进行分类。

11.根据权利要求1所述的方法，其进一步包括训练所述语音辨识器来辨识不同用户的语音签名。

12.根据权利要求1所述的方法，其进一步包括基于所述响应而存储针对所述用户的说话者特定信息以供在确定额外响应中使用。

13.根据权利要求1所述的方法，其中确定所述一组潜在的响应包括：

确定所述说话者特定信息中的用户偏好；及

使用所述用户偏好及所辨识的所述声输入信号来执行搜索。

14.根据权利要求13所述的方法，其中

基于所述用户偏好而对所述一组潜在的响应进行排序。

15.根据权利要求1所述的方法，其进一步包括如果确定不应输出所述一组潜在的响应中的响应，则：

避免向所述用户的任何输出。

16.根据权利要求9所述的方法，其进一步包括在接收到所述触发短语之后检验谁正在说话以确定正在说话的所述所识别用户是否仍在说话。

17.根据权利要求16所述的方法，其中周期性地执行所述检验。

18.根据权利要求16所述的方法，其中在认为需要较高安全性时执行谁正在说话的第二检验。

19.根据权利要求18所述的方法，其中，如果执行了所述第二检验，则不需要手动登录。

20.一种具有存储于其上的可由处理器执行的程序代码的非易失性计算机可读媒体，所述程序代码包括：

引起所述处理器在语音辨识器处接收声输入信号的代码；

引起所述处理器基于所述声输入信号而识别正在说话的用户的代码；

引起所述处理器通过所述语音辨识器辨识所述声输入信号中所述用户发出的语音的代码；

引起所述处理器确定针对所述用户先前所存储的说话者特定信息的代码；

引起所述处理器基于所辨识的语音以及针对所述用户的所述说话者特定信息来确定一组潜在的响应的代码；

引起所述处理器基于一个或多个准则以及所述说话者特定信息对所述一组潜在的响应进行排序的代码；

引起所述处理器基于所述响应的排序，针对所述一组潜在的响应中的每一响应，确定是应输出还是不应输出所述响应的代码；及

如果应输出所述响应，则：

引起所述处理器从多个预配置输出方法中选择一个用于向所述用户输出所述响应的代码，所述选择基于所述响应的排序；以及

引起所述处理器使用所选择的输出方法向所述用户输出所述响应的代码。

21.一种用于语音辨识的系统，其包括：

处理器；以及

具有存储于其上的程序代码的非易失性计算机可读媒体，当所述处理器执行所述程序代码的时候，引起所述处理器：

在语音辨识器处接收声输入信号；

基于所述声输入信号而识别正在说话的用户；

通过所述语音辨识器辨识所述声输入信号中所述用户发出的语音；

确定针对所述用户先前所存储的说话者特定信息；

基于所辨识的语音以及针对所述用户的所述说话者特定信息来确定一组潜在的响应；

基于一个或多个准则以及所述说话者特定信息对所述一组潜在的响应进行排序；

基于所述响应的排序，针对所述一组潜在的响应中每一响应，确定是应输出还是不应输出所述响应；及

如果应输出所述响应，则：

从多个预配置输出方法中选择一个用于向所述用户输出所述响应，所述选择基于所述响应的排序；以及

使用所选择的输出方法向所述用户输出所述响应的代码。