CN107667399A

CN107667399A - 语音识别服务

Info

Publication number: CN107667399A
Application number: CN201680030173.5A
Authority: CN
Inventors: M·阿萨雅各; M·瓦瑟布拉特; O·佩雷格; S·泰特; A·希瓦可; T·赖德
Original assignee: Intel Corp
Current assignee: Intel Corp
Priority date: 2015-06-25
Filing date: 2016-05-25
Publication date: 2018-02-06
Also published as: US20160379630A1; WO2016209499A1

Abstract

本文描述了用于提供语音识别服务的各种系统和方法。一种用于提供语音识别服务的用户设备包括：语音模块，其用于维护所述用户设备的用户的语音识别模型；用户交互模块，其用于检测所述用户与目标设备之间的交互的发起；以及传输模块，其用于将所述语音识别模型传送给所述目标设备，所述目标设备在所述用户与所述目标设备之间的交互期间使用所述语音识别模型来增强所述目标设备所执行的语音识别过程。

Description

语音识别服务

优先权申请

本申请要求2015年6月25日提交的美国申请S/N.14/750,757的优先权的权益，该申请通过引用整体结合于此。

技术领域

本文描述的各实施例一般涉及语音和话音识别，且具体地涉及一种用于提供语音识别服务的系统。

背景

语音识别也称为自动语音识别(ASR)，是所讲词语到文本的转换。语音识别被广泛用于消费者设备、安全系统、交通工具、电话和各种技术中。例如，在人的双手被另外占用且不能键入时或者在人归因于残疾而不能使用键盘或其他手动输入设备时，语音识别是有用的。

附图简述

在附图中(这些附图不一定是按比例绘制的)，相同的数字可以描述在不同视图中的类似的组件。具有不同的字母后缀的相同的数字可以表示类似组件的不同实例。在附图中的诸个图中通过示例而非限制地示出一些实施例：

图1是示出根据一实施例的解说操作环境的示图；

图2是根据一实施例的解说各操作阶段的框图；

图3是根据一实施例的解说操作期间的控制和数据流的流程图；

图4是根据一实施例的解说用于提供语音识别服务的用户设备的框图；

图5是根据一实施例的解说提供语音识别服务的方法的流程图；以及

图6是根据一示例实施例的解说本文中所讨论的技术(例如，方法)中的任意一种或多种可在其上执行的示例机器的框图。

详细描述

本文描述的系统和方法提供了一种用于语音识别服务的系统。语音识别(SR)也被称为自动语音识别(ASR)，是一种将所讲词语转换成文本的机制。ASR系统通常使用某种训练机制。例如，用户可被请求读出一段词语或声音以训练ASR引擎。ASR引擎随后可以分析用户的具体话音并调整话音模型以更好地拟合用户的语音。另选地，ASR引擎可被配置成随时间持续地调整用户的话音模型，诸如通过用户反馈。例如，在用户向朋友口述电子邮件时，随着文本出现在电子邮件中，用户可手动地更改某一些文本(例如，键入替换或校正)。这些调整可被记录并用来使得用户的话音模型更加准确。

一些ASR不使用训练。这样的系统被称为“讲话者无关”的系统。这些讲话者无关的系统通常不像“讲话者相关”的系统(使用训练的那些系统)一样准确。然而，讲话者无关的系统具有无需训练会话的优点。

本公开讨论了对语音识别系统的操作的改进。ASR系统可初始被用来构建用户的个人模型。个人模型可包括声学和语言模型信息。个人模型随后可被存储在云服务器处或便携式用户设备处。在用户接近配备未经训练的ASR的新系统时，用户可以下载个人模型或提供对个人模型的访问，以使得未经训练的ASR随后可以用与初始(经训练)ASR系统相同或相似的准确度来识别用户的话音。在下文更详细地讨论了其他特征。

图1是示出根据一实施例的解说操作环境100的示图；图1包括用户设备102、可任选云服务104以及目标设备106。用户设备102可以是任何类型的计算设备，包括但不限于车载系统、机顶盒、可穿戴设备、个人计算机(PC)、平板PC、混合平板、个人数字助理(PDA)、移动电话，等等。用户设备102被用来使用各种学习模型或分析110来开发并存储个人模型108。个人模型108包括声学和语言模型信息。声学模型被用在ASR系统中以表示音频信号和组成语音的音素或其他语言单位之间的关系。可以使用音频记录和它们的副本来随时间开发声学模型以创建组成每一词语的声音的统计学表示。语言模型使用概率分布将概率指派给词语序列。语言模型提供用于估计不同短语的概率的实际方式。

学习模型或分析110可包括一个或多个语音识别算法，诸如隐马尔科夫模型(HMM)、动态时间规整(DTW)、神经网络(NN)、或深神经网络(DNN)。学习模型或分析110可为用户产生一个或多个个人模型108。另外，用户设备102可为超过一个用户开发并存储个人模型108。

用户设备102可以确定上下文112并存储许可114。上下文112可以使用各种输入来确定，诸如用户设备102的位置、用户的时间安排、用户设备102的操作模式、本地时间、日期、或天气、或其他上下文数据。许可114可以是用户定义的。许可114可由用户设备102使用来确定可以与谁或哪一些系统共享个人模型108。许可114还可指示对共享特权的限制、共享特权的期满、或者与个人模型108有关的安全性的其他方面。

基于上下文112和许可114，用户设备102可以将个人模型108提供给云服务104或目标设备106。云服务104可被用来存储个人模型108和许可114。在用户想要访问目标设备106时，用户可以引导目标设备106从云服务104获取个人模型108。另选地，一些目标设备106可以与特定云服务104相关联，在这种情形中，用户必须先前已将个人模型108提供给该特定云服务104。

目标设备106可以是用户与其交互的系统的各种类型的设备。目标设备106的示例包括但不限于租用车辆中的车载系统、自动贩卖机、会议室桥系统、家用自动化设备、或家用娱乐设备。这些类型可被检测并用来确定交互的上下文、调整交互中使用的个人模型108、或者设置交互的许可。

在用户和目标设备106之间可以提供各种交互。例如，在用户接近目标设备106(例如，自动贩卖机)时，用户设备102可以检测到目标设备106的存在并认证目标设备106。在用户访问目标设备106时，诸如通过刷他们的访问卡、录入个人标识号(PIN)、或某一其他访问方法，目标设备106可以发起用于获得个人模型108的过程。例如，目标设备106可以在显示器上向用户查询，询问用户是否希望使用语音命令来交互。如果用户肯定地回答，则目标设备106可向用户设备102请求个人模型108。用户设备102可以提示用户以寻求许可来将个人模型108传送给请求方设备(目标设备106)。另选地，基于上下文112和/或许可114，用户设备102可以将个人模型108自动地提供目标设备106。

在个人模型108被加载在目标设备106上之后，目标设备106能够使用该个人模型108初始化其语音识别软件并提供更好的用户体验。目标设备106可任选地在用户交互时修订个人模型108。这样的修订可基于用户偏好而被允许。

用户设备102可以将个人模型108从第一格式转换成第二格式，以将个人模型转换成兼容目标设备106的格式。该转换可以恰在交互之前执行，或可存在存储在用户设备102(或云服务104)处的若干格式以使交互流水线化。

在用户完成与目标设备106的业务之后，个人模型108可被移除。目标设备106在交互完成之后采取的动作可由许可114来确定。如果目标设备106修订了个人模型108，则目标设备106可以将经修订个人模型传送回用户设备102(或云服务104)以更新个人模型108。

目标设备106可任选地从云服务104获得个人模型108。云服务104可以与用户设备102通信以确认个人模型108要被传递给目标设备106。另选地，基于许可114，云服务104可将个人模型108自动地提供给目标设备106。

个人模型108可基于上下文112和/或许可114来定制。例如，在用户与作为目标设备106的自动贩卖机交互时，个人模型108可被约束到包括更可能发生在自动贩卖机事务期间的词语和短语的较小数据集。目标设备106可以将定义普遍使用的词语或短语的词语列表提供给用户设备102(或云服务104)。例如，在自动贩卖机事务中，目标设备106可以提供关键词/短语“选择”、“更改”、“出售”以及从零到一百的数字。作为另一示例，在租车交互中，目标设备106可以提供像“打开收音机”、“接电话”、或“将音乐静音”等短语。

在另一示例使用情形中，用户可能参与国际会议呼叫。为了就该呼叫来辅助参与者，每一讲话者的词语被翻译成读者的母语的文本。在会议之前，参与者可以将个人模型108上传到目标设备106(例如，会议桥系统)以快速训练目标设备106。在会议呼叫结束后，基于每一个人模型108的许可114，各参与者的个人模型108可被保留以供稍后使用或者被删除。

图2是根据一实施例的解说各操作阶段的框图。在阶段0(项202)，训练用户设备。各种应用和工具可被使用来创建ASR模型。用户可以使用录音脚本或使用反馈机制来校正未被用户设备正确地解释的词语来创建ASR模型。也可使用其他机制。

在阶段1(项204)，在用户设备标识目标设备的邻近(例如，使用蓝牙^TM、Wi-Fi、WiDi、近场通信(NFC)、或其他无线通信标准)时，这些设备协商应当共享哪一些模型。这可基于上下文、许可、用户提示，等等。各设备也可确定共享各模型的方式、各模型是否被加密、保持时段、以及通信的其他方面。在模型被存储在云服务中时，用户设备可以向目标设备提供访问密钥或其他机制以使目标设备能从云访问这些模型。

在阶段2(项206)，在设备协商了通信配置之后，用户设备(或云)可以将各模型传送给目标设备。在其中只提供了凭证的情形中，目标设备可以访问云服务以获得各模型。

在阶段3(项208)，目标设备现在能够理解用户，如同目标设备已经训练了自己一样。用户与目标设备交互并且以经训练用户设备的准确度水平来被理解，即使这是用户首次使用目标设备。在一些情形中，目标设备可以基于用户与目标设备的交互来修订该一个或多个模型。经修订模型可被传送回用户设备(或云)以进一步细化和开发这些模型。

在阶段4(项210)，在目标设备识别出交互完成时，例如用户走开、登出、或会议中止，目标设备可删除各模型。该删除可被自动执行。该删除可以通过用户偏好来控制，或者例行地执行而没有不删除该模型的选项。可任选地，删除证书可以从目标设备提供给用户设备以确认目标设备已删除模型。

图3是根据一实施例的解说操作期间的控制和数据流300的流程图。在操作302，在目标设备处检测用户。可以使用各种技术来检测用户，诸如蓝牙^TM、射频标识(RFID)、用户登录或认证、用户刷扫访问卡(例如，银行卡或信用卡以开始事务)时，等等。

在操作304，确定目标设备处是否存在个人模型(也称为“PM”)。在某些情形中，基于用户的偏好，用户的个人模型可以存在。例如，用户定期驾驶的车辆可维护该用户的个人模型。

在个人模型不存在时，则在306，向用户设备请求访问个人模型的许可。用户设备存储个人模型308或提供对个人模型的访问，个人模型是在该交互之前创建的。用户可具有针对个人模型的用户偏好、简档、或其他访问控制310，它包括针对个人模型308的访问许可。目标设备可以与用户设备对接以确定是否要与目标设备共享个人模型308。可以在用户设备上提示用户来进行共享。用户的回答可被存储以供用于与该目标设备的将来交互或只供单次使用。可以提示用户针对特定目标设备使用什么类型的访问模型(例如，多次使用还是单次使用)。例如，在用户期望在定期的基础上使用目标设备时，用户可以指示在目标设备处存储个人模型达某一时间(例如，30天、1年、或直至用户使该时间期满)。

如果许可被授予(决策框312)，则个人模型被下载(操作314)。个人模型中的一些或全部可被下载。例如，个人模型的与该交互的上下文相关的子集可被下载。下载子集代替整个个人模型可减少目标设备的ASR系统中的传输时间和加载时间。如果在312许可未被授予，则该交互可以通过使用个人模型来继续(操作316)。在这一情形中，在没有个性化模型的益处的情况下进行语音识别。

个人模型被使用来增强目标设备的语音识别(操作318)。在交互结束之后(决策框320)，确定是否保持个人模型(决策框322)。取决于偏好，个人模型被删除(操作324)或存储以供稍后使用(操作326)。个人模型可基于用户偏好或其他配置参数而被选择性地删除。个人模型可被自动地删除或可以通过某一用户动作来触发，诸如用户经由用户界面提供的删除个人模型的确认。

图4是根据一实施例的解说用于提供语音识别服务的用户设备400的框图。用户设备400包括语音模块402、用户交互模块404以及传输模块406。语音模块402可被配置成维护用户设备的用户的语音识别模型。在一实施例中，语音识别模型包括声学模型和语言模型。

在一实施例中，为了维护语音识别模型，语音模块402要提示用户读出脚本，识别用户在读出脚本时所讲的词语，以及将用户所讲词语与该脚本中的词语进行相关。

在一实施例中，为了维护语音识别模型，语音模块402要当在用户设备上执行一应用时尝试识别用户所讲词语，合并来自用户的用户反馈以作出对转换用户所讲词语时的错误的校正，以及基于这些校正来修订语音识别模型。

用户交互模块404可被配置成检测用户与目标设备之间的交互的发起。在一实施例中，为了检测交互的发起，用户交互模块要使用无线网络协议检测目标设备，标识用户动作，以及将用户动作与目标设备进行相关以检测交互的发起。在又一实施例中，用户动作包括走向目标设备。在另一实施例中，用户动作包括向目标设备认证。例如，用户可登录到计算机、信息站、或其他计算设备。

传输模块406可被配置成将语音识别模型传送给目标设备，目标设备在用户与目标设备之间的交互期间使用该语音识别模型来增强目标设备所执行的语音识别过程。

在一实施例中，为了将语音识别模型传送给目标设备，传输模块406要加密语音识别模型以产生经加密语音识别模型，以及将经加密语音识别模型传送给目标设备。传输模块406可以使用对称或非对称加密方案。

在一实施例中，为了将语音识别模型传送给目标设备，传输模块406要将凭证传送给目标设备，该凭证用于基于云的服务，其中目标设备使用该凭证来访问基于云的服务并获得语音识别模型。

在一实施例中，为了将语音识别模型传送给目标设备，传输模块406要：标识第二格式，第二格式兼容目标设备，将语音识别模型从第一格式转换成第二格式，以及将第二格式的该语音识别模型传送给目标设备。

在一实施例中，为了将语音识别模型传送给目标设备，传输模块406要确定目标设备的类型，确定与目标设备的类型相对应的语音识别模型子集，以及将语音识别模型子集传送给目标设备。例如，类型可由系统提供者(例如，制造商)、用户或第三方来定义。类型可被概括地定义或由用户定义。示例类型可包括银行柜员机、车载系统、零售机、公共设施，等等。

在一实施例中，为了将语音识别模型传送给目标设备，传输模块406要确定与目标设备的交互的上下文，确定与交互的上下文相对应的语音识别模型子集，以及将语音识别模型子集传送给目标设备。交互的上下文可以是事件，诸如例如使用自动售货机、操作车辆、或参加会议呼叫。上下文可以例如通过分析用户的日历或日程安排、标识用户的位置、使用图像分析并标识用户周围的环境、或通过查询其他邻近设备或传感器来确定。

在一实施例中，传输模块406要将用户偏好传送给目标设备。在又一实施例中，用户偏好包括删除偏好，该删除偏好由目标设备使用来控制目标设备上的该语音识别模型的删除操作。在一实施例中，目标设备要删除语音识别模型。在一实施例中，在用户设备与目标设备之间的交互结束时，目标设备要自动删除语音识别模型。

在一实施例中，用户设备400包括用于接收来自目标设备的访问语音识别模型的请求以及基于许可允许对语音识别模型的访问的许可模块。

在一实施例中，语音模块402要基于目标设备与用户之间的交互来修订语音识别模型。例如，目标设备可以在交互期间或之后更新语音识别模型并将其传递回用户设备400。在一实施例中，为了修订语音识别模型，语音模块402要接收来自目标设备的经修订语音识别模型，以及将该经修订语音识别模型与该语音识别模型整合。

图5是根据一实施例的解说提供语音识别服务的方法500的流程图。在框502，在用户设备处维护用户设备的用户的语音识别模型。在一实施例中，语音识别模型包括声学模型和语言模型。

在一实施例中，维护语音识别模型包括：提示用户读出脚本，识别用户在读出脚本时所讲的词语，以及将用户所讲词语与该脚本中的词语进行相关。

在一实施例中，维护语音识别模型包括：当在用户设备上执行一应用时尝试识别用户所讲词语，合并来自用户的用户反馈以作出对转换用户所讲词语时的错误的校正，以及基于这些校正来修订语音识别模型。

在框504，检测用户与目标设备之间的交互的发起。在一实施例中，检测交互的发起包括：使用无线网络协议检测目标设备，标识用户动作，以及将用户动作与目标设备进行相关以检测交互的发起。在又一实施例中，用户动作包括走向目标设备。在另一实施例中，用户动作包括向目标设备认证。

在框506，语音识别模型被传送给目标设备，目标设备在用户与目标设备之间的交互期间使用该语音识别模型来增强目标设备所执行的语音识别过程。

在一实施例中，将语音识别模型传送给目标设备包括：加密语音识别模型以产生经加密语音识别模型，以及将经加密语音识别模型传送给目标设备。

在一实施例中，将语音识别模型传送给目标设备包括：将凭证传送给目标设备，该凭证用于基于云的服务，其中目标设备使用该凭证来访问基于云的服务并获得语音识别模型。

在一实施例中，将语音识别模型传送给目标设备包括：标识第二格式，第二格式兼容目标设备，将语音识别模型从第一格式转换成第二格式，以及将第二格式的该语音识别模型传送给目标设备。

在一实施例中，将语音识别模型传送给目标设备包括：确定目标设备的类型，确定与目标设备的类型相对应的语音识别模型子集，以及将语音识别模型子集传送给目标设备。

在一实施例中，将语音识别模型传送给目标设备包括：确定与目标设备的交互的上下文，确定与交互的上下文相对应的语音识别模型子集，以及将语音识别模型子集传送给目标设备。

在一实施例中，方法500包括将用户偏好传送给目标设备。在又一实施例中，用户偏好包括删除偏好，该删除偏好由目标设备使用来控制目标设备上的该语音识别模型的删除操作。在一实施例中，目标设备要删除语音识别模型。在一实施例中，在用户设备与目标设备之间的交互结束时，目标设备要自动删除语音识别模型。

在一实施例中，方法500包括接收来自目标设备的访问语音识别模型的请求以及基于许可允许对语音识别模型的访问。

在一实施例中，方法500包括基于目标设备与用户之间的交互来修订语音识别模型。在又一实施例中，修订语音识别模型包括：接收来自目标设备的经修订语音识别模型，以及将该经修订语音识别模型与该语音识别模型整合。

各实施例可在硬件、固件和软件中的一者或组合中实现。实施例也可实现成存储于机器可读存储设备上的指令，该指令可由至少一个处理器读取并执行，以执行本文所描述的操作。机器可读存储设备可包括用于以机器(如，计算机)可读形式存储信息的任何非瞬态机构。例如，机器可读存储设备可包括只读存储器(ROM)、随机存取存储器(RAM)、磁盘存储介质、光存储介质、闪存设备以及其他存储设备和介质。

如本文中所述，示例可以包括逻辑或多个组件、模块或机制，或可在逻辑或多个组件、模块或机制上操作。各模块可以是通信耦合到一个或多个处理器以实现本文描述的操作的硬件、软件或固件。各模块可以是硬件模块，并且如此，各模块可被认为是能够执行指定操作的有形实体且可以按特定方式来配置或布置。在示例中，能以指定方式将电路布置(例如，内部地布置，或者相对于诸如其他电路之类的外部实体)为模块。在示例中，一个或多个计算机系统(例如，独立的客户机或服务器计算机系统)的全部或部分或者一个或多个硬件处理器可由固件或软件(例如，指令、应用部分、或者应用)配置为操作以执行所指定操作的模块。在一个示例中，软件可以驻留在机器可读介质上。在示例中，软件在由模块的底层硬件执行时，使此硬件执行指定的操作。因此，术语硬件模块被理解为涵盖有形实体，该有形实体是物理地构建、具体地配置(例如，硬连线)、或者临时地(例如，瞬态地)配置(例如，编程)从而以所指定的方式操作或者执行本文中所描述的任何操作的部分或全部的实体。考虑到其中临时配置模块的示例，这些模块中的每一个不需要在任何一个时刻进行例示。例如，在模块包括使用软件而配置的通用硬件处理器的情况下，通用硬件处理器可以在不同时间被配置为相应的不同模块。软件可以相应地配置硬件处理器，例如以便在一个时间实例处构成特定的模块，并且在不同的时间实例处构成不同的模块。各模块也可以是软件或固件模块，它们操作来执行本文描述的方法。

图6是以计算机系统600的示例形式示出的机器的框图，根据示例实施例，该机器中有指令集或指令序列，这些指令集或序列能被执行以使该机器执行本文中讨论的方法中的任意一个方法。在替代实施例中，该机器作为独立设备进行操作，或可以被连接(如，联网)到其他机器。在被联网的部署中，该机器可在服务器-客户机网络环境中作为服务器或客户机来进行操作，或者可在对等(或分布式)网络环境中担当对等机。该机器可以是交通工具机载系统、机顶盒、可穿戴设备、个人计算机(PC)、平板PC、混合平板、个人数字助理(PDA)、移动电话、或能够执行指定要由该机器采取的动作的指令(顺序地或以其他方式)的任何机器。此外，虽然只示出单个机器，但是，术语“机器”也应当包括单独或联合地执行一组(或多组)指令以执行本文所讨论的任何一种或更多种方法的机器的任意集合。类似地，术语基于处理器的系统摂应当被认为包括由处理器(例如，计算机)控制或操作以单独地或联合地执行指令来执行本文讨论的方法中的任何一者或多者的任何一组一个或多个机器。

示例计算机系统600包括处理器602(例如，中央处理单元(CPU)及图形处理单元(GPU)中的至少一个或两个、处理器核、计算节点等)、主存储器604及静态存储器606，其均通过链路608(例如，总线)彼此通信。计算机系统600可进一步包括视频显示单元610、字母数字输入设备612(例如，键盘)和用户界面(UI)导航设备614(例如，鼠标)。在一个实施例中，该视频显示单元610、输入设备612及UI导航设备614被结合进触屏显示器中。计算机系统600可以附加包括存储设备616(如：驱动单元)、信号生成设备618(如：扬声器)、网络界面设备620及一个或多个传感器(未示出)，该传感器可以是例如：全球定位系统(GPS)传感器、罗盘、加速度计或其他传感器。

存储设备616包括机器可读介质622，该机器可读介质622上储存有一组或更多组数据结构和指令624(如，软件)，该一组或更多组数据结构和指令624具体化本文所描述的任何一种或多种方法或功能，或为该任何一种或多种方法或功能所用。在计算机系统600执行指令624期间，该指令624也可完全地或至少部分地驻留在主存储器604、静态存储器606和/或处理器602之内，所述主存储器604、静态存储器606和处理器602也构成机器可读介质。

虽然机器可读介质622在示例实施例中示出为单个介质，但术语“机器可读介质”可包括存储一条或多条指令624的单个或多个介质(如，集中式或分布式数据库和/或相关联的缓存及服务器)。术语“机器可读介质”也应当包括任何有形介质，该有形介质能够存储、编码或携带由机器执行的指令并且所述指令使机器执行本公开的任何一种或多种方法；或者该有形介质对为此类指令所用或与此类指令相关联的数据结构进行存储、编码和携带。术语“机器可读介质”应当相应地包括，但不限于：固态存储器以及光和磁介质。机器可读介质的具体示例包括非易失性存储器，作为示例包括但不限于半导体存储器设备(例如，电可编程只读存储器(EPROM)、电可擦可编程只读存储器(EEPROM))和闪存设备；诸如内部硬盘及可移动盘之类的磁盘；磁光盘；以及CD-ROM和DVD-ROM盘。

可使用传输介质，通过网络接口设备620，利用若干熟知的传输协议(如，HTTP)中的任意一种协议，进一步在通信网络626上发送或接收指令624。通信网络的示例包括：局域网(LAN)、广域网(WAN)、因特网、移动电话网络、普通老式电话(POTS)网络及无线数据网络(例如，Wi-Fi、3G及4G LTE/LTE-A或WiMAX网络)。术语“传输介质”应当包括能够存储、编码或携带由机器执行的指令的任何无形的介质，并且包括数字或模拟通信信号或者用于促进此类软件的通信的其他无形的介质。

附加注释和示例

示例1包括用于提供语音识别服务的主题(诸如设备、装备、或机器)，包括：语音模块，其用于维护所述用户设备的用户的语音识别模型；用户交互模块，其用于检测所述用户与目标设备之间的交互的发起；以及传输模块，其用于将所述语音识别模型传送给所述目标设备，所述目标设备在所述用户与所述目标设备之间的交互期间使用所述语音识别模型来增强所述目标设备所执行的语音识别过程。

在示例2中，示例1的主题可包括，其中所述语音识别模型包括声学模型和语言模型。

在示例3中，示例1到2中的任一项的主题可包括，其中为了维护所述语音识别模型，所述语音模块要：提示用户读出脚本；识别所述用户在读出所述脚本时所讲的词语；以及将所述用户所讲词语与所述脚本中的词语进行相关。

在示例4中，示例1到3中的任一项的主题可包括，其中为了维护所述语音识别模型，所述语音模块要：当在所述用户设备上执行一应用时尝试识别所述用户所讲的词语；合并来自所述用户的用户反馈以作出对转换所述用户所讲词语时的错误的校正；以及基于所述校正来修订所述语音识别模型。

在示例5中，示例1到4中的任一项的主题可包括，其中为了检测交互的发起，所述用户交互模块要：使用无线网络协议检测所述目标设备；标识用户动作；以及将所述用户动作与所述目标设备进行相关以检测所述交互的发起。

在示例6中，示例1到5中的任一项的主题可包括，其中所述用户动作包括走向所述目标设备。

在示例7中，示例1到6中的任一项的主题可包括，其中所述用户动作包括向所述目标设备认证。

在示例8中，示例1到7中的任一项的主题可包括，其中为了将语音识别模型传送给目标设备，所述传输模块要：加密所述语音识别模型以产生经加密语音识别模型；以及将所述经加密语音识别模型传送给所述目标设备。

在示例9中，示例1到8中的任一项的主题可包括，其中为了将语音识别模型传送给目标设备，所述传输模块要：将凭证传送给所述目标设备，所述凭证用于基于云的服务，其中所述目标设备使用所述凭证来访问所述基于云的服务并获得所述语音识别模型。

在示例10中，示例1到9中的任一项的主题可包括，其中为了将语音识别模型传送给目标设备，所述传输模块要：标识第二格式，所述第二格式兼容所述目标设备；将所述语音识别模型从第一格式转换成所述第二格式；以及将所述第二格式的所述语音识别模型传送给所述目标设备。

在示例11中，示例1到10中的任一项的主题可包括，其中为了将语音识别模型传送给目标设备，所述传输模块要：确定所述目标设备的类型；确定与所述目标设备的类型相对应的语音识别模型子集；以及将所述语音识别模型子集传送给所述目标设备。

在示例12中，示例1到11中的任一项的主题可包括，其中为了将语音识别模型传送给目标设备，所述传输模块要：确定与所述目标设备的交互的上下文；确定与所述交互的上下文相对应的语音识别模型子集；以及将所述语音识别模型子集传送给所述目标设备。

在示例13中，示例1到12中的任一项的主题可包括，其中所述传输模块要将用户偏好传送给所述目标设备。

在示例14中，示例1到13中的任一项的主题可包括，其中所述用户偏好包括删除偏好，所述删除偏好由所述目标设备使用来控制所述目标设备上的所述语音识别模型的删除操作。

在示例15中，示例1到14中的任一项的主题可包括，其中所述目标设备要删除所述语音识别模型。

在示例16中，示例1到15中的任一项的主题可包括，其中在所述用户设备与所述目标设备之间的交互结束时，所述目标设备要自动删除所述语音识别模型。

在示例17中，示例1到16中的任一项的主题可包括，许可模块，其用于：接收来自所述目标设备的访问所述语音识别模型的请求；以及基于许可来允许访问所述语音识别模型。

在示例18中，示例1到17中的任一项的主题可包括，其中所述语音模块要：基于所述目标设备与所述用户之间的交互来修订所述语音识别模型。

在示例19中，示例1到18中的任一项的主题可包括，其中为了修订所述语音识别模型，所述语音模块要：接收来自所述目标设备的经修订语音识别模型；以及将所述经修订语音识别模型与所述语音识别模型整合。

示例20包括一种用于提供语音识别服务的主题(诸如，方法、用于执行动作的手段、包括在由机器执行时使该机器执行动作的指令的机器可读介质、或者用于执行的装置)，该主题包括：在用户设备处维护所述用户设备的用户的语音识别模型；检测所述用户与目标设备之间的交互的发起；以及将所述语音识别模型传送给所述目标设备，所述目标设备在所述用户与所述目标设备之间的交互期间使用所述语音识别模型来增强所述目标设备所执行的语音识别过程。

在示例21中，示例20的主题可包括，其中所述语音识别模型包括声学模型和语言模型。

在示例22中，示例20到21中的任一项的主题可包括，其中维护所述语音识别模型包括：提示所述用户读出脚本；识别所述用户在读出所述脚本时所讲的词语；以及将用户所讲词语与所述脚本中的词语进行相关。

在示例23中，示例20到22中的任一项的主题可包括，其中维护所述语音识别模型包括：当在所述用户设备上执行一应用时尝试识别所述用户所讲的词语；合并来自所述用户的用户反馈以作出对转换所述用户所讲词语时的错误的校正；以及基于所述校正来修订所述语音识别模型。

在示例24中，示例20到23中的任一项的主题可包括，其中检测所述交互的发起包括：使用无线网络协议检测所述目标设备；标识用户动作；以及将所述用户动作与所述目标设备进行相关以检测所述交互的发起。

在示例25中，示例20到24中的任一项的主题可包括，其中所述用户动作包括走向所述目标设备。

在示例26中，示例20到25中的任一项的主题可包括，其中所述用户动作包括向所述目标设备认证。

在示例27中，示例20到26中的任一项的主题可包括，其中将所述语音识别模型传送给所述目标设备包括：加密所述语音识别模型以产生经加密语音识别模型；以及将所述经加密语音识别模型传送给所述目标设备。

在示例28中，示例20到27中的任一项的主题可包括，其中将所述语音识别模型传送给所述目标设备包括：将凭证传送给所述目标设备，所述凭证用于基于云的服务，其中所述目标设备使用所述凭证来访问所述基于云的服务并获得所述语音识别模型。

在示例29中，示例20到28中的任一项的主题可包括，其中将所述语音识别模型传送给所述目标设备包括：标识第二格式，所述第二格式兼容所述目标设备；将所述语音识别模型从第一格式转换成所述第二格式；以及将所述第二格式的所述语音识别模型传送给所述目标设备。

在示例30中，示例20到29中的任一项的主题可包括，其中将所述语音识别模型传送给所述目标设备包括：确定所述目标设备的类型；确定与所述目标设备的类型相对应的语音识别模型子集；以及将所述语音识别模型子集传送给所述目标设备。

在示例31中，示例20到30中的任一项的主题可包括，其中将所述语音识别模型传送给所述目标设备包括：确定与所述目标设备的交互的上下文；确定与所述交互的上下文相对应的语音识别模型子集；以及将所述语音识别模型子集传送给所述目标设备。

在示例32中，示例20到31中的任一项的主题可包括，将用户偏好传送给所述目标设备。

在示例33中，示例20到32中的任一项的主题可包括，其中所述用户偏好包括删除偏好，所述删除偏好由所述目标设备使用来控制所述目标设备上的所述语音识别模型的删除操作。

在示例34中，示例20到33中的任一项的主题可包括，其中所述目标设备要删除所述语音识别模型。

在示例35中，示例20到34中的任一项的主题可包括，其中在所述用户设备与所述目标设备之间的交互结束时，所述目标设备要自动删除所述语音识别模型。

在示例36中，示例20到35中的任一项的主题可包括，接收来自所述目标设备的访问所述语音识别模型的请求以及基于许可允许对所述语音识别模型的访问。

在示例37中，示例20到36中的任一项的主题可包括，基于所述目标设备与所述用户之间的交互来修订所述语音识别模型。

在示例38中，示例20到37中的任一项的主题可包括，其中修订所述语音识别模型包括：接收来自所述目标设备的经修订语音识别模型；以及将所述经修订语音识别模型与所述语音识别模型整合。

示例39包括包含指令的至少一个机器可读介质，所述指令在被机器执行时致使所述机器执行如示例20-38中的任一项的操作。

示例40包括一种包括用于执行示例20-38中的任一个的装置的设备。

示例41包括用于提供语音识别服务的主题(诸如设备、装备、或机器)，包括：用于在用户设备处维护所述用户设备的用户的语音识别模型的装置；用于检测所述用户与目标设备之间的交互的发起的装置；以及用于将所述语音识别模型传送给所述目标设备的装置，所述目标设备在所述用户与所述目标设备之间的交互期间使用所述语音识别模型来增强所述目标设备所执行的语音识别过程。

在示例42中，示例41的主题可包括，其中所述语音识别模型包括声学模型和语言模型。

在示例43中，示例41到42中的任一项的主题可包括，其中用于维护所述语音识别模型的装置包括：用于提示所述用户读出脚本的装置；用于识别所述用户在读出所述脚本时所讲的词语的装置；以及用于将用户所讲词语与所述脚本中的词语进行相关的装置。

在示例44中，示例41到43中的任一项的主题可包括，其中用于维护所述语音识别模型的装置包括：用于当在所述用户设备上执行一应用时尝试识别所述用户所讲的词语的装置；用于合并来自所述用户的用户反馈以作出对转换所述用户所讲词语时的错误的校正的装置；以及用于基于所述校正来修订所述语音识别模型的装置。

在示例45中，示例41到44中的任一项的主题可包括，其中用于检测所述交互的发起的装置包括：用于使用无线网络协议检测所述目标设备的装置；用于标识用户动作的装置；以及用于将所述用户动作与所述目标设备进行相关以检测所述交互的发起的装置。

在示例46中，示例41到45中的任一项的主题可包括，其中所述用户动作包括走向所述目标设备。

在示例47中，示例41到46中的任一项的主题可包括，其中所述用户动作包括向所述目标设备认证。

在示例48中，示例41到47中的任一项的主题可包括，其中用于将所述语音识别模型传送给所述目标设备的装置包括：用于加密所述语音识别模型以产生经加密语音识别模型的装置；以及用于将所述经加密语音识别模型传送给所述目标设备的装置。

在示例49中，示例41到48中的任一项的主题可包括，其中用于将所述语音识别模型传送给所述目标设备的装置包括：用于将凭证传送给所述目标设备的装置，所述凭证用于基于云的服务，其中所述目标设备使用所述凭证来访问所述基于云的服务并获得所述语音识别模型。

在示例50中，示例41到49中的任一项的主题可包括，其中用于将所述语音识别模型传送给所述目标设备的装置包括：用于标识第二格式的装置，所述第二格式兼容所述目标设备；用于将所述语音识别模型从第一格式转换成所述第二格式的装置；以及用于将所述第二格式的所述语音识别模型传送给所述目标设备的装置。

在示例51中，示例41到50中的任一项的主题可包括，其中用于将所述语音识别模型传送给所述目标设备的装置包括：用于确定所述目标设备的类型的装置；用于确定与所述目标设备的类型相对应的语音识别模型子集的装置；以及用于将所述语音识别模型子集传送给所述目标设备的装置。

在示例52中，示例41到51中的任一项的主题可包括，其中用于将所述语音识别模型传送给所述目标设备的装置包括：用于确定与所述目标设备的交互的上下文的装置；用于确定与所述交互的上下文相对应的语音识别模型子集的装置；以及用于将所述语音识别模型子集传送给所述目标设备的装置。

在示例53中，示例41到52中的任一项的主题可包括，用于将用户偏好传送给所述目标设备的装置。

在示例54中，示例41到53中的任一项的主题可包括，其中所述用户偏好包括删除偏好，所述删除偏好由所述目标设备使用来控制所述目标设备上的所述语音识别模型的删除操作。

在示例55中，示例41到54中的任一项的主题可包括，其中所述目标设备要删除所述语音识别模型。

在示例56中，示例41到55中的任一项的主题可包括，其中在所述用户设备与所述目标设备之间的交互结束时，所述目标设备要自动删除所述语音识别模型。

在示例57中，示例41到56中的任一项的主题可包括，用于接收来自所述目标设备的访问所述语音识别模型的请求的装置；以及用于基于许可允许对所述语音识别模型的访问的装置。

在示例58中，示例41到57中的任一项的主题可包括，用于基于所述目标设备与所述用户之间的交互来修订所述语音识别模型的装置。

在示例59中，示例41到58中的任一项的主题可包括，其中用于修订所述语音识别模型的装置包括：用于接收来自所述目标设备的经修订语音识别模型的装置；以及用于将所述经修订语音识别模型与所述语音识别模型整合的装置。

以上具体实施方式包括对附图的引用，附图形成具体实施方式的部分。附图通过说明来示出可实践的特定实施例。这些实施例在本文中也称为“示例”。此类示例可以包括除所示或所述的那些元件以外的元件。然而，还构想了包括所示或所述元件的示例。此外，还构想出的是使用所示或所述的那些元件的任何组合或排列的示例，或参照本文中示出或描述的特定示例(或其一个或多个方面)，或参照本文中示出或描述的其他示例(或其一个或多个方面)。

在此文档中引用的出版物、专利和专利文档通过引用被整体结合在本文中，就好像通过引用单独地被结合那样。在本文档与通引用结合在的那些文档之间不一致的用法的情况下，所结合的(诸)引用文档中的用法是对此文档的用法的补充；对于不可调和的不一致性，此文档中的用法占主导。

在此文档中，如在专利文档中常见的那样，使用术语“一”(“a”或“an”)以包括一个或多于一个，这独立于“至少一个”或“一个或多个”的任何其他实例或用法。在此文档中，使用术语“或”来指非排他性的“或”，使得“A或B”包括“A但非B”、“B但非A”以及“A和B”，除非另外指示。在所附权利要求书中，术语“包括(including)”和“其中(in which)”被用作相应的术语“包括(comprising)”和“其中(wherein)”的普通英语等价词。此外，在所附权利要求书中，术语“包括”和“包含”是开放式的，也就是说，在权利要求中除此类术语之后列举的那些元件之外的元件的系统、设备、制品或过程仍被视为落在那项权利要求的范围内。此外，在所附权利要求书中，术语“第一”、“第二”和“第三”等仅被用作标记，并且不旨在表明对它们的对象的数字顺序。

以上描述旨在是说明性的，而非限制性的。例如，可结合其他实施例来使用以上描述的示例(或者其一个或多个方面)。可诸如由本领域普通技术人员在审阅以上描述之后来使用其他实施例。摘要允许读者快速地确定本技术公开的性质。提交该摘要，并且理解该摘要将不用于解释或限制权利要求的范围或含义。此外，在以上具体实施方式中，各种特征可以共同成组以使本公开流畅。然而，权利要求可以不陈述本文中公开的每一特征，因为实施例可以表征所述特征的子集。此外，实施例可以包括比特定示例中公开的特征更少的特征。因此，所附权利要求书由此被结合到具体实施方式中，一项权利要求作为单独的实施例而独立存在。本文中公开的实施例的范围应当参照所附权利要求书以及此类权利要求所赋予权利的等价方案的完整范围来确定。

Claims

1.一种用于提供语音识别服务的用户设备，所述用户设备包括：

语音模块，其用于维护所述用户设备的用户的语音识别模型；

用户交互模块，其用于检测所述用户与目标设备之间的交互的发起；以及

传输模块，其用于将所述语音识别模型传送给所述目标设备，所述目标设备在所述用户与所述目标设备之间的交互期间使用所述语音识别模型来增强所述目标设备所执行的语音识别过程。

2.如权利要求1所述的用户设备，其特征在于，所述语音识别模型包括声学模型和语言模型。

3.如权利要求1或2所述的用户设备，其特征在于，为了维护所述语音识别模型，所述语音模块要：

提示所述用户读出脚本；

识别所述用户在读出所述脚本时所讲的词语；以及

将所述用户所讲词语与所述脚本中的词语进行相关。

4.如权利要求1或2所述的用户设备，其特征在于，为了维护所述语音识别模型，所述语音模块要：

当在所述用户设备上执行一应用时尝试识别所述用户所讲的词语；

合并来自所述用户的用户反馈以作出对转换所述用户所讲词语时的错误的校正；以及

基于所述校正来修订所述语音识别模型。

5.如权利要求1或2所述的用户设备，其特征在于，为了检测所述交互的发起，所述用户交互模块要：

使用无线网络协议检测所述目标设备；

标识用户动作；以及

将所述用户动作与所述目标设备进行相关以检测所述交互的发起。

6.如权利要求5所述的用户设备，其特征在于，所述用户动作包括走向所述目标设备。

7.如权利要求5所述的用户设备，其特征在于，所述用户动作包括向所述目标设备认证。

8.如权利要求1所述的用户设备，其特征在于，为了将所述语音识别模型传送给所述目标设备，所述传输模块要：

加密所述语音识别模型以产生经加密语音识别模型；以及

将所述经加密语音识别模型传送给所述目标设备。

9.如权利要求1或8所述的用户设备，其特征在于，为了将所述语音识别模型传送给所述目标设备，所述传输模块要：

将凭证传送给所述目标设备，所述凭证用于基于云的服务，其中所述目标设备使用所述凭证来访问所述基于云的服务并获得所述语音识别模型。

10.如权利要求1所述的用户设备，其特征在于，为了将所述语音识别模型传送给所述目标设备，所述传输模块要：

标识第二格式，所述第二格式兼容所述目标设备；

将所述语音识别模型从第一格式转换成所述第二格式；以及

将所述第二格式的所述语音识别模型传送给所述目标设备。

11.一种提供语音识别服务的方法，所述方法包括：

在用户设备处维护所述用户设备的用户的语音识别模型；

检测所述用户与目标设备之间的交互的发起；以及

将所述语音识别模型传送给所述目标设备，所述目标设备在所述用户与所述目标设备之间的交互期间使用所述语音识别模型来增强所述目标设备所执行的语音识别过程。

12.如权利要求11所述的方法，其特征在于，所述语音识别模型包括声学模型和语言模型。

13.如权利要求11所述的方法，其特征在于，维护所述语音识别模型包括：

提示所述用户读出脚本；

识别所述用户在读出所述脚本时所讲的词语；以及

将用户所讲词语与所述脚本中的词语进行相关。

14.如权利要求11所述的方法，其特征在于，维护所述语音识别模型包括：

基于所述校正来修订所述语音识别模型。

15.如权利要求11所述的方法，其特征在于，检测所述交互的发起包括：

使用无线网络协议检测所述目标设备；

标识用户动作；以及

16.如权利要求15所述的方法，其特征在于，所述用户动作包括走向所述目标设备。

17.如权利要求15所述的方法，其特征在于，所述用户动作包括向所述目标设备认证。

18.如权利要求11所述的方法，其特征在于，将所述语音识别模型传送给所述目标设备包括：

加密所述语音识别模型以产生经加密语音识别模型；以及

将所述经加密语音识别模型传送给所述目标设备。

19.如权利要求11所述的方法，其特征在于，将所述语音识别模型传送给所述目标设备包括：

20.如权利要求11所述的方法，其特征在于，将所述语音识别模型传送给所述目标设备包括：

标识第二格式，所述第二格式兼容所述目标设备；

将所述语音识别模型从第一格式转换成所述第二格式；以及

将所述第二格式的所述语音识别模型传送给所述目标设备。

21.如权利要求11所述的方法，其特征在于，将所述语音识别模型传送给所述目标设备包括：

确定所述目标设备的类型；

确定与所述目标设备的类型相对应的语音识别模型子集；以及

将所述语音识别模型子集传送给所述目标设备。

22.如权利要求11所述的方法，其特征在于，将所述语音识别模型传送给所述目标设备包括：

确定与所述目标设备的交互的上下文；

确定与所述交互的上下文相对应的语音识别模型子集；以及

将所述语音识别模型子集传送给所述目标设备。

23.如权利要求11所述的方法，其特征在于，还包括将用户偏好传送给所述目标设备。

24.包括指令的至少一个机器可读介质，所述指令在被机器执行时致使所述机器执行如权利要求11-23中的任一项所述的方法的操作。

25.一种包括用于执行权利要求11-23中的任一项所述的方法的装置的设备。