CN111357048A

CN111357048A - 用于控制家庭助手装置的方法和系统

Info

Publication number: CN111357048A
Application number: CN201880074304.9A
Authority: CN
Inventors: 李宝洁; 潘映彬; 顾海松
Original assignee: Midea Group Co Ltd
Current assignee: Midea Group Co Ltd
Priority date: 2017-12-31
Filing date: 2018-11-20
Publication date: 2020-06-30
Also published as: EP3692522A4; WO2019128550A1; JP2021508848A; JP7044415B2; EP3692522A1; US10796702B2; US20190206412A1

Abstract

用于控制家庭助手装置的方法包括：接收音频输入(502)；对所述音频输入执行说话者识别(504)；根据确定所述音频输入包括来自被授权控制所述家庭助手装置的第一用户的语音输入：对所述音频输入执行语音到文本的转换，以获得文本字符串(506)；以及在所述文本字符串中搜索用于激活所述家庭助手装置的预先定义的触发词；以及根据确定所述音频输入包括来自所述家庭助手装置的语音输入：停止对所述音频输入执行语音到文本的转换；以及停止搜索预先定义的触发词(508)。

Description

用于控制家庭助手装置的方法和系统

相关申请的交叉引用

本申请要求于2017年12月30日提交的美国专利申请No.62/612,551的优先权，该美国专利申请的公开内容通过参引全部合并到本文中。

技术领域

本发明总体上涉及数字助手，更具体地，涉及一种使用基于语音的命令来控制数字助手的方法和系统。

背景技术

近来，基于语音的数字助手，如苹果的SIRI(苹果智能语音助手)，亚马逊的Echo(亚马逊智能音箱)，谷歌的Google Assistant(谷歌助手)以及微软的Cortana(微软小娜)，已经被引入到市场来处理各种各样的任务，例如家用电器控制、网络搜索、日程、提醒等。这种基于语音的数字助手的优势在于用户可以以解放双手的方式与装置交互而不需要触摸甚至不需要看着该装置。用户可以按键或者在触摸屏上选择一个图标或者说出触发短语(例如，预设的唤醒命令)来启动基于语音的助手。

使用语音输入来激活基于语音的助手，需要监控音频通道以检测语音输入。当在音频通道检测到语音输入时，进行语音识别，在识别的语音文本中搜索触发短语。如果在识别的语音文本中发现有该触发短语，则激活基于语音的助手。然而，语音到文本的处理过程计算量大，而且会消耗大量的处理能源并降低手持设备电池的寿命。进一步地，语音识别容易产生噪音和错误，导致识别准确率降低，这进一步导致在需要唤醒助手时却没能唤醒语音助手，或者当用户不需要唤醒助手时却意外地唤醒了助手。

因此，提供一种可用于在装置上启动基于语音和/或基于语音的服务的、有效提升语音触发的效率及效能的方式会是有益的。

发明内容

因此，需要一种可以提供“一直听取”的语音触发功能的方法，该方法无需过多地消耗有限的能源并减少由于不准确的语音识别或语音到文本处理导致的误报触发(falsepositive triggering)和触发失败。此外，有时语音助手使用语音输出来响应用户命令。当语音助手正在输出语音时如果音频输入通道保持打开，语音助手提供的语音输出有可能包含有触发短语，那么语音助手可能会响应于包含在语音助手自己的输出中的触发短语而错误地中断自己。对这个问题有多种解决方案：一种解决方案是当语音助手正在产生语音输出时禁用(disable)音频输入通道。这种解决方案的缺点是即使用户想要中断也不允许用户中断语音助手。另一种解决方案是，预先过滤语音助手的语音输出来确认(identify)触发短语的出现，只有如果语音助手的语音输出包括触发短语才禁用音频输入通道。在一些实施例中，会在包含有触发短语的语音助手语音输出的整个过程中禁用音频输入通道。在一些实施例中，只有在当语音助手正在输出触发短语时的期间禁用音频输入通道。在一些实施例中，要执行说话者识别，如果语音输入被确认是语音助手的音频输出，则无论语音助手的语音输出是否包括触发短语，跳过语音识别。在一些实施例中，一个家庭包括多个成员，且每个成员的语音不同。如果语音识别执行的不好，有些家庭成员可能不能成功地使用触发短语来触发语音助手，导致用户失望。进一步地，在一些实施例中，可以允许每个用户为同一语音助手定义他/她自己的触发短语。在这些情况下，需要说话者识别以使得语音助手不会被意外地触发。进一步地，说话者识别比语音识别需要更少的资源，如果接收到未被授权的用户的语音输入，则可以跳过语音识别。

以下描述的实施例提供了在电子装置中用于使用语音触发来对基于语音的助手进行启动和控制的方法和系统。

在一些实施例中，一种用于对基于语音的助手进行控制的方法包括：接收音频输入；对所述音频输入执行说话者识别；根据确定所述音频输入包括来自被授权控制家庭助手装置的第一用户的语音输入：对所述音频输入执行语音到文本的转换，以获得文本字符串；以及在所述文本字符串中搜索用于激活所述家庭助手装置的预先定义的触发词；以及根据确定所述音频输入包括来自所述家庭助手装置的语音输入：停止(foregoing)对所述音频输入执行语音到文本的转换；以及停止搜索预先定义的触发词。

根据一些实施例，提供一种计算机可读存储介质(例如，非瞬态计算机可读存储介质)，所述计算机可读存储介质存储用于给电子装置中的一个或多个处理器执行的一个或多个程序，所述一个或多个程序包括用于执行本文中描述的任意方法的指令。

根据一些实施例，提供一种包括用于执行本文中描述的任意方法的部件的电子装置(例如，便携式电子装置)。

根据一些实施例，提供一种包括一个或多个处理器和存储器的电子装置(例如，便携式电子装置)，所述存储器存储用于给所述一个或多个处理器执行的一个或多个程序，该一个或多个程序包括用于执行本文中描述的任意方法的指令。

根据一些实施例，提供一种用于电子装置中的信息处理设备，所述信息处理设备包括用于执行本文中描述的任意方法的部件。

附图说明

为了更好的理解所描述的各实施例，应结合以下附图参考以下的具体实施方式，其中，在所有附图中类似的附图标号指代对应的部分。

图1是示出根据一些实施例的数字助手操作的环境的框图。

图2是示出根据一些实施例的数字助手客户端系统的框图。

图3A是示出根据一些实施例的独立数字助手系统或数字助手服务器系统的框图。

图3B是示出根据一些实施例的图3A中所示的数字助手功能的框图。

图4A-4B是示出根据一些实施例的数字助手系统的说话者注册阶段和操作阶段的框图。

图5是示出根据一些实施例的用于控制和操作数字助手系统的方法的流程图。

类似的参考数字是指附图中对应的部分。

具体实施方式

下面描述的实施例提供了在电子装置中使用语音触发来对基于语音的助手进行启动的系统和方法。同基于语音的数字助手(或者其它基于语音的服务，例如语音到文本转录服务)进行交互通常开始于当用户在装置上按下功能可供性(affordance)(例如，按键或者图标)以激活数字助手装置时，随后该装置向用户提供数字助手已激活并在听取的某种指示，如光，声音(例如，哔哔)，或者发声输出(例如，“有什么可以为您效劳？”)。如本文中描述的，还可以实现语音触发，如此响应于特定的预先确定的词、短语或声音而激活语音触发且不需要用户进行物理交互。例如，用户可以通过背诵预先定义的触发短语“嗨，助手！”来激活语音助手。作为响应，该装置输出哔哔声、声音、或者语音输出(例如，“有什么可以为您效劳？”)向用户表明听取模式已激活。因此，用户不需要物理碰触提供数字助手功能的装置就可以启动和该数字助手的交互。数字助手可以被耦合到一个或多个其它装置中(例如，家用电器，智能家居装置等)来控制这些装置的功能。

一种使用语音触发器启动基于语音的服务的技术是，让基于语音的服务连续不断地听取预先确定的触发词、短语、或声音(在本文中可以将其中任一种称做“触发声音”)。然而，连续不断地操作该基于语音的服务(例如，基于语音的数字助手)需要大量的音频处理和电池电量。在一些实施例中，触发器声音检测器被配置为检测多种不同的触发声音，如一组单词、短语、声音，和/或其组合。在一些实施例中，不同的用户可以预先定义不同的触发词来使用，或者向数字助手给出不同的名字。例如，数字助手会响应由一个用户说出的短语“Hey，ALEX(嗨，亚历克斯)”，以及由另一个用户说出的“Wake up，Nora(醒醒，诺拉)”，只要这些是用户为数字助手限定的触发短语。

图1是根据一些实施例的数字家庭助手的操作环境100的框图。术语“家庭助手”、“数字助手”、“虚拟助手”、“智能自动化助手”、“基于语音的数字助手”、“语音助手”、或者“自动化数字助手”，是指理解以语音和/或文本格式输入的自然语言来推断用户意图并基于所推断的用户意图来执行动作(例如，执行与所述确认的任务类型对应的任务)的任意信息处理系统(例如，确认与该自然语言输入对应的任务类型)。例如，为了按照所推断的用户意图来行动，系统可以执行以下动作中的一个或多个：识别任务流，该任务流含有为了实现所推断的用户意图而设计的步骤和参数(例如，识别任务类型)；将来自所推断的用户意图的特定的需求输入到任务流中，通过调用程序、方法、服务、API、或者类似的(例如，发送请求到服务提供商)来执行该任务流；以听得见的(例如，语音)和/或看得见的形式生成输出响应给用户。

特别地，一旦启动，家庭助手系统就能够接受用户请求，该用户请求至少部分是以自然语言命令、请求、陈述、叙述、和/或询问的形式。通常，用户请求寻求信息性回答、或由数字装置对任务的执行。令人满意的对用户请求的响应通常是提供所请求的信息性回答，对所请求任务的执行，或二者的结合。例如，用户可以问数字装置系统一个问题，如“现在房间内的温度是多少？”。基于用户现在的位置和周围环境的温度，数字装置可能回答“室内温度是80度。”。用户还可以请求执行任务，例如，通过陈述“请打开空调”。作为响应，家庭助手可能通过生成语音输出“好的，马上”来告知已收到该请求，然后继续通过空调中预先限制的控制API(应用接口)来打开房间内的空调。还有许多其它和家庭助手交互的方式来请求信息或者请求执行各种任务。此外为了提供口头的响应以及采取程序化的行动，家庭助手还能提供其它视觉或音频形式的响应(例如，文本、提示信号、音乐、视频、动画等)。

如图1所示，在一些实施例中，数字助手系统可以按照客户端-服务器模型来实现。数字助手系统包括在用户装置(例如，104a和104b)上执行的客户端侧部分(例如，102a和102b)(以下“数字助手(DA)客户端102”)，以及在服务器系统108上执行的服务器侧部分106(以下“数字助手(DA)服务器106”)。DA客户端102通过一个或多个网络110与DA服务器106通信。DA客户端102提供客户端侧功能，如面向用户的输入和输出处理，以及和DA客户端106通信。DA服务器106提供用于任意数量的DA客户端102的服务器侧功能，每个DA客户端102位于对应的用户装置104(也叫做客户端装置或电子装置)上。

在一些实施例中，DA服务器106包括面向客户端的I/O(输入/输出)接口112、一个或多个处理模块114、数据和模型116、以及到外部服务的I/O接口118。面向客户端的I/O接口为数字助手服务器106的面向客户端的输入和输出处理提供了便利。一个或多个处理模块114利用数据和模型116基于自然语言输入来确定用户意图，以及基于所推断的用户意图执行任务。在一些实施例中，DA服务器106通过一个(多个)网络110与多个外部服务120(例如，一个(多个)导航服务、一个(多个)消息传递服务、一个(多个)信息服务、一个(多个)日历服务、一个(多个)家电控制服务等)通信，以完成任务或获取信息。与外部服务118的I/O接口为这种通信提供了便利。

用户装置104的例子包括但不限于：家庭控制中心装置、手持计算机、个人数字助手(PDA)、平板计算机、膝上型计算机、桌面计算机、蜂窝电话、智能电话、增强型通用无线分组业务(EGPRS)移动电话、媒体播放器、导航装置、游戏机、电视机、远程控制器，或者任意两个或更多个这些数据处理装置或者任意其它适当的数据处理装置的组合。参考图2所示的示例性用户装置104来提供关于用户装置104的更多细节。

一个(多个)通信网络110的例子包括本地局域网(LAN)和广域网(WAN)，例如，因特网。一个(多个)通信网络110可以使用任意已知的网络协议来实现，包括各种有线或无线协议，如以太网、通用串行总线(USB)、火线(FIREWIRE)、全球移动通信系统(GSM)、增强型数据GSM环境(EDGE)、码分多址(CDMA)、时分多址(TDMA)、蓝牙、Wi-Fi、互联网协议电话(VoIP)、Wi-MAX、或者任意其它合适的通信协议。

服务器系统108能在至少一个数据处理设备和/或计算机分布式网络上实施。在一些实施例中，服务器系统108还采用第三方服务供应商(例如，第三方云服务供应商)的各式的虚拟装置和/或服务来提供服务器系统108的底层计算资源和/或基础架构资源。

虽然图1所示的数字助手系统包括客户端侧部分(例如，DA客户端102)和服务器侧部分(例如，DA服务器106)两者，但是在一些实施例中，数字助手系统仅指服务器侧部分(例如，DA服务器106)。在一些实施例中，数字助手的功能可以作为安装在用户装置上的独立应用来实现。此外，数字助手的客户端部分和服务器端部分的功能划分在不同的实施例中可能不同。例如，在一些实施例中，DA客户端102是瘦客户端，只提供面向用户的输入和输出处理功能，并将数字助手的所有其他功能委派给DA服务器106。在一些其他实施例中，DA客户端102被配置为执行或辅助DA服务器106的一个或多个功能。

图2是根据一些实施例的用户装置104的框图。用户装置104包括存储器接口202、一个或多个处理器204、和外围设备接口206。用户装置104中的各组件由一个或多个通信总线或信号线耦合。用户装置104包括各种传感器、子系统、以及和外围设备接口206耦合的外围装置。传感器、子系统，以及外围装置收集信息和/或为用户装置104的各种功能提供便利。

在一些实施例中，用户装置104包括一个或多个提供通信功能的有线和/或无线通信子系统224。通信子系统224通常包括各种通信端口、射频接收器和发送器、和/或光学的(例如，红外)接收器和发送器。

在一些实施例中，用户装置104包括音频子系统226来促进语音使能功能(例如，语音识别、语音复制、数字录音，以及电话功能)，该音频子系统耦合到一个或多个扬声器228和一个或多个麦克风230。在一些实施例中，音频子系统226被耦合到语音触发系统216。在一些实施例中，语音触发系统216和/或音频子系统226包括用于接收和/或分析声音输入的低功率音频电路和/或程序(即包括硬件和/软件)，包括例如一个或多个模数转换器、数字信号处理(DSP)、声音检测器、内存缓冲区、编码解码器等类似的。在一些实施例中，低功率音频电路(单独的低功率音频电路，或除用户装置104其它组件外还包括低功率音频电路)给用户装置104的一个或多个方面提供语音(或声音)触发功能，例如，基于语音的数字助手或者其它基于语音的服务。在一些实施例中，低功率音频电甚至在用户装置104的其它组件(如一个(多个)处理器204、I/O子系统240、存储器250等类似的)处于关机和/或待机模式时仍提供语音触发功能。在一些实施例中，语音触发系统216与说话者识别系统交互或包括说话者识别系统，说话者识别系统助于数字助手的说话者特定的语音触发功能。

在一些实施例中，I/O子系统240还耦合到外围设备接口206。I/O子系统206包括用于各种输入和输出装置(例如，触屏显示器、触摸板、键盘、红外端口、USB端口、和/或指针装置如铁笔)的输入和输出控制器。

存储器接口202被耦合到存储器250。在一些实施例中，存储器250包括非瞬态计算机可读介质，例如高速随机存取存储器和/或非易失性存储器(例如，一个或多个磁盘存储装置、一个或多个闪存装置、一个或多个光学存储装置、和/或其它非易失性固态存储装置)。

在一些实施例中，存储器250存储操作系统252、通信模块254、图形化用户界面模块256、传感器处理模块258、语音输入处理模块260、应用262，以及其子集或超集。操作系统252包括用于处理基础系统服务和执行硬件相关任务的指令。通信模块254有助于和一个或多个附加装置、一个或多个计算机和/或一个或多个服务器进行通信。图形化用户接口模块256有助于图形化用户接口处理。传感器处理模块258有助于传感器相关的处理和功能(例如，处理用一个或多个麦克风228接收到的语音输入)。语音输入处理模块260有助于语音输入处理的过程和功能。应用模块262有利于用户应用的各种功能，例如电子讯息、网页浏览、媒体处理、导航、家用电器控制和/或其他处理和功能。在一些实施例中，用户装置104在存储器250中存储一个或多个软件应用，每个软件应用分别和多个外部服务供应商中的至少一个外所服务提供商相关联。

如上所述，在一些实施例中，存储器250还储存客户端侧数字助手指令(例如，在数字助手客户端模块264中)和各种用户数据266(例如，用户语音样本、用户语音打印、用户特定的词汇数据、偏好数据、和/或其他数据，其他数据如用户的电子地址薄或联系人列表、待办列表、采购列表、用户对家用电器的偏好等)来提供数字助手的客户端侧功能。

在各种实施例中，数字助手客户端模块264能通过用户装置104的各种用户接口(例如，I/O子系统244)来接受语音输入、文本输入、触摸输入、和/或手势输入。数字助手客户端模块264还能提供音频的、视觉的、和/或触觉的形式的输出。例如，所提供的输出可以是如语音、声音、提示信号、文本消息、菜单、图形、视频、动画、振动、和/或以上两种或更多种的组合。在操作期间，数字助手客户端模块264使用通信子系统224来和数字助手服务器(例如，图1，数字助手服务器106)通信。

在一些实施例中，数字助手客户端模块264利用各种传感器、子系统和外围装置来从用户装置104周围环境中收集额外的信息，以建立和用户输入相关联的上下文。在一些实施例中，数字助手客户端模块264向数字助手服务器(例如，图1，数字助手服务器106)提供和用户输入相关联的上下文信息或者其子集来帮助推断用户的意图。

在一些实施例中，存储器250可以包括额外的指令或者更少的指令。进一步地，用户装置104的各种功能可以在硬件和/或固件中实现，包括在一个或多个信号处理和/或应用特定集成电路中实现，因此，用户装置104不需要包括图2中所示的所有模块和应用。

图3A是根据一些实施例的示例性家庭助手系统300(也称为数字助手)的框图。在一些实施例中，家庭助手系统300在独立的计算机系统上实现。在一些实施例中，家庭助手系统300分布到多个计算机上。在一些实施例中，例如，如图1所示，家庭助手的一些模块和功能被划分为服务器部分和客户端部分，其中客户端部分位于用户装置上(例如，用户装置104)并通过一个或多个网络和服务器部分(例如，服务器系统108)通信。在一些实施例中，家庭助手系统300是图1所示的服务器系统108(和/或家庭助手服务器106)的实施例。在一些实施例中，家庭助手系统300在用户装置(例如，图1，用户装置104)中实现，从而消除对客户端-服务器系统的需求。应该注意的是，家庭助手系统300只是家庭助手系统的一个例子，并且家庭助手系统300可以有比所示的组件更多或更少的组件，或者可以结合两个或更多个的组件，或者可以有不同的组件配置或设置。图3A所示的各种组件可以在硬件、软件、固件中实现，包括一个或多个信号处理和/或应用特定的集成电路、或其任意组合。

家庭助手装置300包括存储器302、一个或多个处理器304、输入/输出(I/O)接口306、以及网络通信接口308。这些组件通过一个或多个通信总线或信号线310互相通信。

在一些实施例中，存储器302包括非瞬态计算机可读介质，例如高速随机存取存储器和/或非易失性计算机可读存储介质(例如，一个或多个磁盘存储装置、一个或多个闪存装置、一个或多个光学存储装置、和/或其它非易失性固态存储装置)。

I/O接口306将家庭助手系统300的输入/输出装置316(例如，显示器、键盘、触摸屏、麦克风)耦合到用户接口模块322。I/O接口306，连同用户接口模块322一起接收用户输入(例如，语音输入，键盘输入，触摸输入等)并对应地处理它们。在一些实施例中，当家庭助手在独立的用户装置上实现时，家庭助手系统300包括关于图2中的用户装置104所描述的组件和I/O和通信接口(例如，一个或多个麦克风230)中的任意组件。在一些实施例中，家庭助手系统300表示家庭助手实现方式中的服务器部分，以及通过位于用户装置(例如，图2中所示用户装置104)上的客户端侧部分来和用户交互。

在一些实施例中，网络通信接口308包括一个(多个)有线通信端口312和/或无线发射和接收电路314。一个(多个)有线通信端口通过一个或多个有线接口(例如，以太网、通用串行总线(USB)、火线等)来接收和发送通信信号。无线电路314通常从通信网络和其它通信装置接收射频信号和/或光学信号，以及将射频信号和/或光学信号发送至通信网络和其它通信装置。无线通信可以使用任意多个通信标准、协议和技术，例如GSM、EDGE、CDMA、TDMA、蓝牙、Wi-Fi、VoIP、Wi-MAX、或任意其它适当的通信协议。网络通信接口308使数字助手系统300能够与网络(例如，因特网、内联网和/或无线网，如蜂窝电话网、本地无线局域网(LAN)和/或城域网(MAN))和其它装置进行通信。

在一些实施例中，存储器302的非瞬态计算机可读存储介质存储程序、模块、指令和数据结构，包括以下各项中的所有或其子集：操作系统324、通信模块320、用户接口模块322、一个或多个应用324、数字助手模块326。一个或多个处理器304执行这些程序、模块、指令以及从数据结构中读取/向数据结构中写入。

操作系统318(例如，Darwin、RTXC、LINUX、UNIX、OS X、iOS、WINDOWS、或嵌入式操作系统如VxWorks)包括用于控制和管理一般系统任务(例如，存储器管理、存储装置控制、电源管理等)的各种软件组件和/或驱动，并有助于各种硬件、固件和软件组件之间的通信。

通信模块320有助于家庭助手系统300和其它装置之间通过网络通信接口308进行的通信。例如，通信模块320可以和图2所示的装置104的通信模块254进行通信。通信模块320还包括用于对无线电路314和/或有线通信端口312接收的数据进行处理的各种软件组件。

在一些实施例中，用户接口模块322通过I/O接口306接收来自用户(例如，来自键盘、触摸屏和/或麦克风)的命令和/或输入，并在显示器上提供用户接口对象。

应用324包括被配置为由一个或多个处理器304执行的程序和/或模块。例如，如果数字助手系统是在独立的用户装置上实现的，那么应用324可以包括用户应用，如家庭控制中心、游戏、日历应用、导航应用或电子邮件应用。例如，如果家庭助手系统300是在服务器场上实现的，则应用324可以包括例如资源管理应用、诊断应用或调度应用。

存储器302还存储家庭助手模块(或家庭助手的服务器部分)326。在一些实施例中，家庭助手模块326包括以下子模块，或以下子模块的子集或超集：输入/输出处理模块328、语音到文本(STT)处理模块330、自然语言处理模块332、对话流处理模块334、任务流处理模块336、服务处理模块338、和说话者识别模块340。这些处理模块中的每个处理模块都可以访问家庭助手326的一个或多个以下数据和模型，或以下数据和模型的子集或超集：本体(ontology)360、词汇表索引344、用户数据348、任务流模型354、服务模型356、说话者语音模型358。

在一些实施例中，使用处理模块(例如，输入/输出处理模块328、说话者识别模块340、STT处理模块330、自然语言处理模块332、对话流处理模块334、任务流处理模块336、和/或服务处理模块338)、数据、在数字助手模块326中实现的模型，家庭助手系统300执行至少以下中的一些：识别接收自用户以自然语言输入中表达的用户意图；(例如，通过消除单词、名称、意图的歧义等)积极地引出和获取用于充分推断用户意图所需的信息；确定用于实现所推断的意图的任务流；以及执行该任务流来实现所推断的意图。在一些实施例中，当由于各种原因没有或不能向用户提供满意的响应时，家庭助手还会采取适当的行动。

如图3B所示，在一些实施例中，I/O处理模块328通过图3A中的I/O装置316与用户交互或通过图3A中的网络通信接口308与用户装置(例如，图1中的用户装置104)交互，以获取用户输入(例如，语音输入)以及提供对用户输入的响应。可选地，在接收到用户输入的同时或不久后，I/O处理模块328从用户装置获取与用户输入相关联的上下文信息。上下文信息包括用户特定的数据、词汇和/或与用户输入相关的偏好。在一些实施例中，上下文信息还包括装置(例如，图1中的用户装置104)在接收到用户请求时的软件和硬件状态，和/或在接收到用户请求时与用户周围环境相关的信息。在一些实施例中，I/O处理模块328还向用户发送关于用户请求的后续问题，以及从用户那接收关于用户请求的回答。在一些实施例中，当在I/O处理模块328接收到用户请求且该用户请求包含语音输入，I/O处理模块328将语音输入转发给说话者识别模块340用于说话者识别，并随后转发给语音到文本(STT)处理模块330用以语音到文本的转换。在一些实施例中，选择人特定的语音到文本模型以基于说话者识别结果来执行语音到文本的转换。

在一些实施例中，语音到文本处理模块330通过I/O处理模块328或说话者识别模块340接收语音输入(例如，在语音记录中捕获的用户语音)。在一些实施例中，语音到文本处理模块330使用各种声学和语言模型将语音输入识别为音素序列，并最终识别为用一种或多种语言编写的单词或标记(token)序列。语音到文本处理模块330使用任何合适的语音识别技术、声学模型和语言模型(如隐马尔科夫模型、基于动态时间扭曲(DTW)的语音识别以及其他统计和/或分析技术)来实现。在一些实施例中，语音到文本的处理至少部分可由第三方服务执行或在用户的装置上执行。一旦语音到文本处理模块330获得语音到文本处理的结果(例如，单词或标识序列)，它就将结果传递给自然语言处理模块332进行意图推断。

家庭助手326的自然语言处理模块332(“自然语言处理器”)拿取由语音到文本处理模块330生成的单词或标记的序列(“标记序列”)，并试图把标记序列与数字助手识别的一个或多个“可操作意图”相关联。这里使用的“可操作意图”表示可以由数字助手326和/或数字助手系统300(图3A)执行的任务，以及具有在任务流模型354中实现的相关联的任务流。该相关联的任务流是数字助手系统300为了执行任务而采取的一系列程序化操作和步骤。数字助手系统能力的范围取决于已经实现并存储在任务流模型354中的任务流的数量和种类，或者换句话说，取决于数字助手系统300所识别的“可操作意图”的数量和种类。然而，数字助手系统300的有效性还取决于数字助手系统从用自然语言表达的用户请求中推断出正确的“可操作意图”的能力。

在一些实施例中，除了从语音到文本处理模块330获得的单词或标记的序列外，自然语言处理器332还(例如，从I/O处理模块328)接收与用户请求相关联的上下文信息。可选地，自然语言处理器332使用上下文信息来澄清、补充和/或进一步限定从语音到文本处理模块330接收到的标记序列中包含的信息。例如，该上下文信息包括，用户偏好、用户装置的硬件和/或软件状态、在用户请求之前、期间或之后不久收集的传感器信息、数字助手和用户之间的优先交互(例如，对话)等等。

在一些实施例中，自然语言处理是基于本体360。本体360是包含多个节点的层级结构(hierarchical structure)，每个节点代表一个“可操作意图”、或与“可操作意图”中的一个或多个“可操作意图”相关的“属性”、或其他“属性”。如上所述，“可操作意图”表示数字助手系统300能够执行的任务(例如，“可操作”的任务或可以操作的任务)。“属性”表示与可操作意图或另一个属性的子方面相关联的参数。在本体360中，可操作意图节点和属性节点之间的链接限定了属性节点表示的参数如何与可操作意图节点表示的任务相关联。

在一些实施例中，本体360由可操作意图节点和属性节点组成。在本体360中，每个可操作意图节点都直接或通过一个或多个中间属性节点链接到一个或多个属性节点。同样地，每个属性节点都直接或通过一个或多个中间属性节点链接到一个或多个可操作意图节点。

一个可操作意图节点，连同其所链接的概念节点，可以被描述为“域”。在目前的讨论中，每个域都与各自的可操作意图相关联，并指的是与特定的可操作意图相关联的节点组(以及节点之间的关系)。

在一些实施例中，本体360包括数字助手能够理解并采取行动的所有域(因此也包括可操作意图)。在一些实施例中，本体360可以被修改，例如通过添加或去除域或节点来修改本体，或者通过修改本体360内节点之间的关系来修改本。

在一些实施例中，与多个相关的可操作意图关联的节点可以聚集在本体360中的“超域”下。例如，“旅行”超域可以包括属性节点和与旅行相关的可操作意图节点的集群。与旅行相关的可操作意图节点可以包括“航线预订”、“酒店预订”、“汽车租赁”、“获取方向”、“查找景点”等等。同一个超域(例如，“旅行”超域)下的可操作节点可以有许多共同的属性节点。例如，“航线预订”、“酒店预订”、“汽车租赁”、“获取方向”、“查找景点”等可操作意图节点可以共享以下属性节点中的一个或多个属性节点：“起始位置”、“目的地”、“出发日期/时间”、“到达日期/时间”和“派对规模”。

在一些实施例中，本体360中的每个节点都与一组单词和/或短语相关联，该组单词和/或短语与由节点所表示的属性或可操作意图相关。与每个节点相关联的对应单词和/或短语组是与该节点相关联的所谓“词汇表”。与每个节点相关联的对应单词和/或短语组可以存储在词汇索引344(图3B)中，该词汇表索引与由节点所代表的属性或可操作意图相关联。例如，回到图3B，与属性“餐馆”的节点相关联的词汇可以包括“食物”、“饮品”、“菜系”、“饥饿”、“吃”、“披萨”、“快餐”、“餐”等单词。再例如，与可操作意图“发起一个电话”的节点相关联的词汇可以包括“呼叫”、“电话”、“拨号”、“响铃”、“拨打这个号码”、“打个电话给”等单词和短语。可选地，词汇表索引344包括不同语言的单词和短语。

在一些实施例中，图3B所示的自然语言处理器332接收来自语音到文本处理模块330的标记序列(例如，文本字符串)，并确定标记序列中的单词涉及什么节点。在一些实施例中，如果发现标记序列中的单词或短语与本体360中的一个或多个节点相关联(通过词汇表索引344)，则该单词或短语将“触发”或“激活”这些节点。当多个节点被“触发”时，根据被激活节点的数量和/或相对重要性，自然语言处理器332将选择可操作意图之一作为用户希望数字助手执行的任务(或任务类型)。在一些实施例中，选择具有最多“被触发的”节点的域。在一些实施例中，(例如，基于其各个触发节点的相对重要性)选择具有最高置信度值的域。在一些实施例中，基于所触发的节点的数量和重要性的组合来选择域。在一些实施例中，在选择节点时还考虑了其他因素，例如家庭助手系统300先前是否正确地解释了来自用户的相似请求。

在一些实施例中，数字助手系统300还存储词汇表索引344中特定实体的名称，如此当在用户请求中检测到这些名称中的一个时，自然语言处理器332就能够识别该名称指的是本体中属性或子属性的特定实例。在一些实施例中，特定实体是企业、餐馆、人员、电影等的名称。在一些实施例中，数字助手系统300可以搜索和识别来自其他数据源(例如，用户的地址簿或联系人列表、电影数据库、音乐数据库和/或餐馆数据库)的特定实体名称。在一些实施例中，当自然语言处理器332识别到标记序列中的单词是一个特定实体的名称(例如，在用户的地址簿或联系人列表中的名称)，则在本体中为用户请求选择可操作意图时给这个单词赋予额外的意义。在一些实施例中，数字助手的触发短语存储为被命名的实体，如此当它存在于用户的语音输入时可以被识别并赋予额外的意义。

用户数据348包括用户特定的信息，如用户特定的词汇表、用户偏好、用户地址、用户的默认语言和第二语言、用户的联系人列表，以及每个用户的其他短期或长期信息。自然语言处理器332可以使用用户特定的信息来补充用户输入中包含的信息，从而进一步限定用户意图。例如，对于一个用户请求“邀请我的朋友来我的生日派对”，自然语言处理器332能够访问用户数据348年来确定谁是“朋友”以及“生日派对”将在何时何地举行，而不是要求用户在他/她的请求中明确地提供此类信息。在一些实施例中，用户数据还包括用于说话者识别训练的用户的特定声纹或语音样本。

一旦自然语言处理器332基于用户请求识别到可操作意图(或域)，自然语言处理器332就会生成结构化查询来表示所识别的可操作意图。在一些实施例中，结构化查询包括可操作意图的域中一个或多个节点的参数，并且所述参数中的至少一些参数是用用户请求中指定的特定信息和需求填充的。例如，用户可能会说，“帮我预定7点在寿司店的晚餐”，在这种情况下，自然语言处理器332可以能够基于用户输入来正确地识别到可操作意图是“餐厅预订”。根据本体，“餐厅预订”域的结构化查询可以包括如{菜系}、{时间}、{日期}、{派对规模}等参数。基于用户语音中包含的信息，自然语言处理器332可以为餐厅预订域生成部分结构化查询，其中部分结构化查询包括参数{菜系＝“寿司”}和{时间＝“下午7点”}。但是，在本例中，用户的语音包含的信息不足以完成与域相关联的结构化查询。因此，基于当前可用的信息不能在结构化查询中指定其它必要的参数，如{派对规模}和{日期}。在一些实施例中，自然语言处理器332使用接收到的上下文信息填充结构化查询的一些参数。例如，如果用户请求“在我附近”的寿司餐厅，那么自然语言处理器332可以使用来自用户装置104的GPS坐标在结构化查询中填充一个{位置}参数。

在一些实施例中，自然语言处理器332将结构化查询(包括任何已完成的参数)传递给任务流处理模块336(“任务流处理器”)。任务流处理器336被配置为执行以下任务中的一个或多个任务：从自然语言处理器332接收结构化查询，完成结构化查询，以及执行“完成”用户最终请求所需的动作。在一些实施例中，在任务流模型354中提供完成这些任务所需的各种程序。在一些实施例中，任务流模型354包括用于从用户获取额外信息的程序，以及用于执行与可操作意图相关联的操作的任务流。

如上所述，为了完成结构化查询，任务流处理器336可能需要启动与用户的额外对话，以获取额外信息，和/或消除潜在的歧义语音。当需要这样的交互时，任务流处理器336调用对话处理模块334(“对话处理器”)来与用户进行对话。在一些实施例中，对话处理模块334确定如何(和/或何时)向用户询问额外信息，以及接收和处理用户响应。在一些实施例中，通过I/O处理模块328向用户提供问题以及接收用户的回答。例如，对话处理模块334通过音频和/或视觉输出向用户呈现对话输出，并通过语音或物理(如触摸手势)响应来接收用户的输入。继续上面的示例，当任务流处理器336调用对话处理器334来确定用于与“餐厅预订”域相关联的结构化查询的“聚会规模”和“日期”信息时，对话处理器334生成如“为多少人服务？”和“哪一天？”的问题来传递给用户。一旦从用户处接收到回答，对话处理模块334将缺少的信息填充到结构化查询中，或者将信息传递给任务流处理器336来使结构化查询中缺失的信息完整。

一旦任务流处理器336完成了可操作意图的结构化查询，任务流处理器336继续执行与可操作意图相关联的最终任务。因此，任务流处理器336根据结构化查询中包含的特定参数来执行任务流模型中的步骤和指令。例如，“餐馆预订”的可操作意图的任务流模型可以包括用于联系餐馆的步骤和指令，以及在特定时间为特定的派对规模实际请求预订的步骤和指令。例如，使用结构化查询如：{餐厅预订，餐厅＝ABC咖啡馆，日期＝2012.3.12，时间＝下午7点，规模＝5人}，任务流处理器336可以如下步骤：(1)登录到餐厅预订系统或ABC咖啡馆的服务器，该餐厅预定系统配置为接受针对如ABC咖啡馆的多个餐厅的预订，(2)在网站的表格上录入日期、时间、和派对规模信息，(3)提交表格，以及(4)在用户的日历中做一个该预定的日程表条目。在下面更详细描述的另一个示例中，响应于语音输入，任务流处理器336(例如，结合照片模块132)执行与标记或搜索数字照片相关联的步骤和指令。

在一些实施例中，任务流处理器336使用服务处理模块338(“服务处理器”)的辅助来完成用户输入中请求的任务或提供用户输入中请求的信息性回答。例如，服务处理器338可以代表任务流处理器336将命令发送到家用电器、打个电话、设置一个日程表条目、调用地图搜索、调用安装在用户装置上的其他用户应用或与安装在用户装置上的其他用户应用交互，以及调用第三方服务或与第三方服务(例如，餐厅预订门户、社交网站或服务、银行门户等)交互。在一些实施例中，每个服务所需的协议和应用编程接口(API)可以由服务模型356中的对应服务模型指定。服务处理器338访问服务的适当服务模型，并根据由服务根据服务模型所需要的协议和API来生成针对该服务的请求。

在一些实施例中，自然语言处理器332、对话处理器334和任务流处理器336共同并反复地用于推断和限定用户的意图、获取信息以进一步阐明和完善用户意图，最后生成响应(例如，向用户提供输出，或完成任务)来实现用户的意图。

在一些实施例中，在执行了用于实现用户请求所需的所有任务之后，数字助手326制定确认响应，并通过I/O处理模块328将响应发回给用户。如果用户请求寻求信息性回答，则确认响应向用户显示所请求的信息。在一些实施例中，数字助手还请求用户表明用户对数字助手326所产生的响应是否满意。

图4A-4B是示出根据一些实施例的基于说话者识别来对家庭助手进行控制的方法和系统的框图。

在一些实施例中，预设触发词包括为激活或唤醒家庭助手并处理语音命令而预先定义的单个词或短语。触发词也被称为唤醒词。当家庭助手装置接收到来自用户的语音输入时。自动语音识别(ASR)模块使用语音到文本转换模型将语音输入转录成文本字符串。如果家庭助手装置检测到该文本字符串包含预设的唤醒词，那么唤醒装置，并准备接收接下来的语音命令和/或处理该语音输入以确定该语音输入是否已经包含语音命令。

用于处理语音输入的传统机制存在以下问题。首先，由于周围环境噪声、说话者的口音和语音质量，如果用于识别触发词的置信度阈值设置得低以提高对触发词的敏感度，则装置常常会被相似声响的语音或背景噪声误激活。然后，如果将用于识别触发词的置信阈值设置得高以降低设备对触发词的敏感度以及提高识别准确度，则装置经常无法被用户说出的触发词唤醒。默认的语音到文本转换模型容纳了很多人的语音和语音模式，因此，选择最适当的置信度阈值来识别触发词是很困难的。一些研究人员建议使用单个用户的语音样本来训练用户特定的语音到文本模型。然而，让每个用户提供足够多的语音样本来构建完全使用用户自己的语音样本的语音到文本转换模型是不现实的。在使用过程中逐步再训练语音到文本模型也不是很理想。家庭助手通常由同一家庭的多个用户使用；收集所有语音输入并将其添加到训练语料库中，而不区分说出这些语音输入的不同用户并不会提高语音到文本转换模型的准确度。相反，由于语音到文本转换模型中输入的训练材料相互冲突，这种再培训可能会降低家庭中语音到文本模型的准确度。因此，没有最适当的语音到文本转换模型以及增加用户语音输入来不断训练语音到文本转换模型，没有对语音输入先执行说话者识别，然后为每个家庭成员偏置一个默认的语音到文本模型，而去调整置信度值在实际应用中效果不佳。家庭助手与个人手持装置上的数字助手表现略有不同，因为家庭助手装置接收来自多个家庭成员的语音输入，且单个语音到文本模型并不适用于所有家庭成员。此外，再训练语音到文本转换模型不同于简单地偏置默认的语音到文本转换模型的平均值。相比起简单地偏置基于对应用户的少量语音样本的语音到文本转换模型的声学模型，该少量的语音样本用于生成该用户特定的语音到文本转换模型，再训练更耗时，并需要更多的训练样本。

使用触发词来激活始终保持音频输入通道打开并搜索触发词的家庭助手的另一个常见问题是，家庭助手可以被自己的声音激活。有问题的场景是，当家庭助手已经被激活，在使用系统语音(例如，预设的模拟人的声音)输出一些语音输出的过程中，而系统的语音输出包括触发词。解决这个问题的一种方法是在系统生成语音输出时关闭音频输入通道，然而，这意味着当家庭助手正在生成语音输出时，家庭助手将不能响应用户的命令来中断家庭助手。

传统家庭助手的另一个问题是，同一个家庭中有多个用户被授权控制家庭助手。然而，可能不希望同一家庭的不同成员都能同样访问通过家庭助手所控制的所有功能和装置。例如，家庭里的小孩应该能够使用家庭助手来调节房间里的空调，但不能改变房子的安全系统。另一个例子中，办公室的清洁人员应该能够使用家庭助手来关掉办公楼里所有的灯，但不能操作打印机。一种可能的解决方案是建立说话者识别，在完成语音到文本转换并对用户输入的文本版本执行意图推断以确定用户的意图之后，禁止家庭助手执行所请求的任务。然而，使用家庭助手的整个意图推断能力来推断用户的意图，然后才确定用户的意图是被禁止执行的任务，这是一种浪费。因此，更好的方法是确认说话者，只使用意图推断功能的子集来推断该用户被允许的意图。换句话说，如果用户不被允许通过数字助手操作打印机，数字助手在对用户语音输入的文本版本执行意图推断时，将不会激活与打印机操作相关的域。数字助手接收到未被授权的命令时，将像是不理解未被授权的命令那样作出响应。例如，数字助手会说:“对不起，我不能那样做”或“对不起，我不明白您的命令”。这样，意图推断就会更快，对用户输入的解析也会更快。

在本发明中，特别是在有多个家庭成员使用家庭助手的情况下，说话者识别技术被集成到数字助手系统中以解决上述问题。在确定语音输入的说话者之后，数字助手系统可以采取适当的用户特定的操作。

在一些实施例中，数字助手使用的自动语音识别模型适用于使用预先为每个用户所记录的样本语音输入的家庭的注册用户。例如，在注册过程中，数字助手的每个被授权用户需要说出多个样本语音输入，该样本语音输入用于为每个个人用户偏置语音到文本转换模型的声学模型，以及为个人用户生成用户特定的语音到文本转换模型。这些语音样本还被用来训练说话者识别模型，该说话者识别模型可以区分家庭中不同用户的语音输入，并区分家庭用户和访客用户。在一些实施例中，对数字助手系统的语音进行预存储和处理，以便也可以使用说话者识别模型来识别数字助手的语音。在一些实施例中，每个家庭成员可以为数字助手选择一个独有的模拟语音，数字助手的每个模拟语音被存储并用于识别数字助手的语音。如果数字助手收到的语音输入和家庭成员给数字助手选择的任意一个模拟语音相匹配，那么数字助手忽略在语音输入中识别的触发词，并且不激活该语音输入的意图推理或随后收到的紧随该语音输入的语音输入。在一些实施例中，一个房子中可能有多个数字助手彼此接近，每个数字助手的模拟语音已被存储，如果一个数字助手的音频通道中接收到的语音输入被确定为和家庭中数字助手之一的模拟语音相匹配，则该语音输入不会激活任何数字助手，也不会触发意图推理。在一些实施例中，每个数字助手的每个模拟语音都具有对应的用户特定和助手特定的声学模型，以用于检测触发词，该触发词是通过使用不同模拟语音中的来自不同数字助手的一小组语音样本来生成的。在一些实施例中，数字助手或其服务器维护用于唤醒词检测的系统语音的黑名单。这有助于避免数字系统的意图推断过程被数字助手自身的语音输出或相邻数字助手的语音输出触发。

在一些实施例中，在接收到语音输入后，首先执行说话者识别过程。如果说话者被识别为家庭的注册用户之一，那么数字助手或其服务器使用用于被识别的说话者的与说话者相关的语音到文本模型来进行语音识别。这将有助于提高识别准确度。在自动语音识别过程中，随着识别准确度更高，创建更多用于检测唤醒词的置信度值的空间。

在一些实施例中，当检测到音频输入时，对音频输入进行说话者识别，并且如果音频输入与家庭中已注册的说话者中的任何说话者都不匹配，则将音频输入视为背景噪声并丢弃。在一些实施例中，当使用用户特定的声学模型时，识别背景噪声与语音的阈值比整个家庭都使用通用或默认的声学模型时要高。

在一些实施例中，数字助手系统引用查找表来确定是否允许说出语音输入的被识别用户去操作或访问数字助手能够执行的所有功能。根据确定用户只被允许访问所有功能的子集，该数字助手识别该用户被允许访问的域，并只使用用户被允许访问的域来对用户语音输入的文本版本执行意图推断。

在一些实施例中，数字助手系统能记住每个用户的个性化设置，并且当用户通过数字助手打开某些家电设备时恢复其默认/上次的设置。

在一些实施例中，数字助手系统还可以基于被识别的用户过去的使用数据向他/她提出一些建议。

参考图4A，在一些实施例中，在注册阶段期间，为数字助手创建查找表。该查表包括通过数字助手可控制的装置(例如，X装置、Y装置等)。对于家庭助手，能通过数字助手控制的装置可以包括不同房间的空调、房间里的音频系统、家庭安全系统、厨房电器、房间里的灯等。注册过程能继续进行，随着时间的推移，可以添加新的装置到查找表中。在一些实施例中，默认给予已经在表中注册的现有用户对每个新装置的权限，特别地，用户注册新设备可以请求数字助手将表中的针对特定用户的许可从允许改成不允许。在一些实施例中，可以通过用户注册过程将新用户添加到查找表中。无论用户是否被允许能访问查找表中的所有装置，查找表中的所有用户都是被授权控制数字助手的用户。查找表用作对数字助手具有控制权的授权用户的白名单。由于数字助手不被包括在查找表中，模拟语音不能激活数字助手并启动意图推断过程。

在一些实施例中，创建用户黑名单来指出哪些用户的语音不能被用来通过使用预先定义的唤醒词来触发意图推断过程。例如，数字助手可以被包括在用户黑名单中，客人或孩子的语音可以被包括在黑名单中。使用黑名单是一种有力的措施，当用户或系统被包括在黑名单中时，不仅在音频语音输入中出现触发词时不会触发意图推断，在一些实施例中，还跳过了语音到文本的转换。

在一些实施例中，在注册过程中，数字助手或其服务器请求正在注册的每个用户说出一些样本语音输入，该样本语音输入由数字助手或其服务器记录和存储。数字助手或其服务器使用所记录的语音样本输入，使自动语音识别声学模型适用于每个注册用户，并为每个注册用户生成对应的用于语音识别的用户特定的声学模型组。

在一些实施例中，使语音识别模型的默认声学模型适应于单个注册用户的一种简单方式是，首先为注册用户计算所记录的短语的声学特征的平均值。然后，确定声学模型中说话者特定平均值(speaker-specific means)与不依赖于说话者(speaker-specificmeans)的平均值之间的差。在一些实施例中，声学模型的不依赖于说话者的平均值可以由数字助手系统预先准备。在对每个单个注册用户说出的语音输入进行语音识别的过程中，会考虑该单个注册用户的说话者特定的差异。

在一些实施例中，可以使用更复杂的方法，如使用最大似然线性回归(MLLR)、最大后验(MAP)和特征语音(Eigenvoice)方法。关于这些方法的参考信息可以在如https://www.inf.ed.ac.uk/teaching/courses/asr/2008-9/asr-adapt-1x2.pdf，https://wiki.inf.ed.ac.uk/pub/CSTR/ListenSemester1_2007_8/kuhn-junqua-eigenvoice-icslp1998.pdf中找到。

在一些实施例中，从所有注册用户接收的所记录的短语被用于训练说话者识别模型。该说话者识别模型相对来说易于训练并且是轻量级的，使得可以在说话者的位置本地(例如，在家庭助手装置客户端侧)执行说话者识别，而不需要服务器参与。在一些实施例中，一旦识别到说话者，就可以将说话者身份连同语音输入一起发送到服务器。

在一些实施例中，要求用户多次说出触发词，并且说话者识别是一个依赖文本的说话者识别过程。当用户向数字助手系统说出唤醒词时，数字助手系统将触发词的输入语音与预先录制的触发词集进行比较，并确定最佳匹配的用户。

在一些实施例中，在依赖文本的说话者识别过程中使用全部的语音。例如，可以在https://en.wikipedia.org/wiki/Speaker_recognition上找到依赖文本的说话者识别的参考信息。

参考图4B，在一些实施例中，在数字助手系统的操作阶段，输入语音分别被发送到语音识别模块和说话者识别模块。在一些实施例中，语音输入不会被发送到语音识别模块，直到语音识别模块已经将该说话者识别为被授权控制数字助手的注册用户为止。

在一些实施例中，在说话者被识别后，如果用户被识别到是在用户白名单中的注册用户之一而不在用户黑名单中，则数字助手被激活并准备执行意图推断。在一些实施例中，如果用户没有被识别到是白名单中的注册用户之一，或者被识别到是在用户黑名单中，则跳过意图推断和/或语音到文本的转换。

在一些实施例中，如果用户对其打算访问的由助手控制的装置没有访问权限，则数字助手不采取任何操作来执行所请求的。如果数字助手确定用户拥有对助手所控制的装置的权限，则数字助手将根据用户的命令在指定的装置上进行操作，和/或恢复该用户的默认/上次设置。

在一些实施例中，基于已识别的用户过去的使用数据，数字助手向用户提供关于用户请求访问的装置的建议或提醒。

根据一些实施例，图5是表示通过语音触发词来操作数字助手如家庭助手的方法的流程图。可选地，该方法由存储在计算机存储器或非瞬态计算机可读存储介质(例如，客户端装置104的存储器250，与数字助手系统300相关联的存储器302)中且由数字助手系统的一个或多个计算机系统中的一个或多个处理器来执行的指令来支配，一个或多个计算机系统包括但不限于服务器系统108，和/或用户装置104-a。所述计算机可读存储介质可以包括磁盘或光盘存储装置、固态存储装置(如闪存)或一个或多个其他非易失性存储装置。存储在计算机可读存储介质上的计算机可读指令可以包括如下中的一个或多个：源代码、汇编语言代码、目标代码或其他由一个或多个处理器解释的指令格式。在各种实施例中，可以组合每个方法中的一些操作，和/或一些操作的顺序可以相对于附图中所示的顺序有所改变。同样，在一些实施例中，在各单独的附图中示出的操作和/或与各单独的方法相关联地讨论的操作可以组合以形成其它方法，而在同一附图中示出的操作和/或与同一方法相关联地讨论的操作可以被分成多个不同的方法。此外，在一些实施例中，方法中的一个或多个操作是由数字助手系统300和/或电子装置(例如，用户装置104)的模块来执行的，模块包括例如自然语言处理模块332、对话流处理模块334、音频子系统226、和/或其任何子模块。

图5示出了根据一些实施例的对数字助手系统进行操作的方法500。在一些实施例中，在电子装置上执行方法500，电子装置包括一个或多个处理器和存储器，存储器存储用于由一个或多个处理器(例如，电子装置104)执行的指令。该方法包括：接收(502)音频输入；对所述音频输入执行(504)说话者识别；根据确定所述音频输入包括来自被授权控制所述家庭助手装置(506)的第一用户的语音输入：对所述音频输入执行语音到文本的转换，以获得文本字符串；以及在所述文本字符串中搜索用于激活所述家庭助手装置的预先定义的触发词(例如，对下一个音频输入或紧随该音频输入的音频输入开始意图推断)；以及根据确定所述音频输入包括来自所述家庭助手装置的语音输入(508)：停止对所述音频输入执行语音到文本的转换；以及停止搜索预先定义的触发词。

在一些实施例中，在所述文本字符串中搜索预先定义的触发词包括：从多个预设的触发词中选择与所述第一用户对应的触发词，其中，所述多个预设的触发词与包括所述第一用户在内的多个用户中的不同用户对应；以及使用与所述第一用户对应的触发词作为要搜索的预先定义的触发词。

在一些实施例中，所述方法包括：根据确定所述音频输入包括来自被授权控制所述家庭助手装置的所述第一用户的语音输入：从所述家庭助手装置的多个任务域中选择一个或多个第一任务域来对所述文本字符串执行意图推断，其中，所述第一用户被授权控制所述一个或多个第一任务域；停止使用所述多个任务域中的一个或多个第二任务域处理所述文本输入，其中，所述第一用户未被授权控制所述一个或多个第二任务域。

在一些实施例中，所述方法包括：获得与所述家庭助手装置对应的默认的语音到文本模型；以及根据确定由所述第一用户提供的所记录的多个语音样本是可用的，根据由所述第一用户提供的多个语音样本来调整所述默认的语音到文本模型，以生成针对所述第一用户的第一用户特定的语音到文本模型，其中，对所述音频输入执行语音到文本的转换来获得所述文本字符串包括：使用针对所述第一用户的所述第一用户特定的语音到文本模型来对所述音频输入执行语音到文本的转换。在一些实施例中，根据确定由所述第一用户提供的所记录的多个语音样本是不可用的，使用所述默认的语音到文本模型来对所述音频输入执行所述语音到文本的转换。在一些实施例中，根据确定由所述第一用户提供的所记录的多个语音样本是可用的，当使用所述第一用户特定的语音到文本模型来对所述音频输入进行所述语音到文本的转换时，设置用于识别所述音频输入中的所述触发词的第一置信度阈值；以及根据确定由所述第一用户提供的所记录的多个语音样本是不可用的，当使用所述默认的语音到文本模型来对所述音频输入执行所述语音到文本的转换时，设置用于识别所述音频输入中的所述触发词的第二置信度阈值。在一些实施例中，用于所述第一用户特定的语音到文本模型的所述第一置信度阈值高于用于所述默认的语音到文本模型的所述第二置信度阈值。

为了便于解释，上述描述是参照具体实施例来描述的。然而，上述的说明性讨论并不是详尽无遗的，也不是为了将所公开的实施例限定为所公开的精确形式。鉴于以上的教导，是可能有许多修改和变化的。所选择和描述的实施例是为了最好地解释所公开的想法的原理和实际应用，从而使本领域的其他技术人员能够通过各种修改来充分地利用它们以适用于其所设想的特定用途。

需要理解的是，在本文中尽管“第一”、“第二”等术语可以用于描述各种元素，但这些元素不应受这些术语的限制。这些术语只是用来将一个元素和另一个元素区分开。

本文中使用的术语仅用于描述特定实施例，并不用于限制权利要求。如在实施例的描述和所附权利要求中所使用的单数形式“一、一个和该”(a、an、the)也旨在于包括多数形式，除非上下文中清除表明了其他情况。还应理解，本文中使用的术语“和/或”指的是包含多个相关联的所列项目中的一个或多个的任何和所有可能的组合。进一步地还应理解，术语“包括”和/或“包含”在用于本申请文件中时，列举说明的特征、整数、步骤、操作、元素、和/或组件的存在，但不排除存在或增加一个或多个其他特征、整数、步骤、操作、元素、组件和/或其组合。

取决于上下文，本文中使用的术语“如果”一词可以被解释为“当”或“一旦”或“响应于确定”或“根据确定”或“响应于检测到”所陈述的条件为真时。同样，取决于上下文，短语“如果确定[所陈述的条件为真]”或“如果[所陈述的条件为真]”或“当[所陈述的条件为真]时”可以被解释为“一经确定”或“一经确定就”或“响应于确定”或“根据确定”或“一经检测到”或“响应于检测到”所陈述的条件为真时。

Claims

1.一种控制家庭助手装置的方法，包括：

在一个具有一个或多个处理器和存储器的计算系统上：

接收音频输入；

对所述音频输入执行说话者识别；

根据确定所述音频输入包括来自被授权控制所述家庭助手装置的第一用户的语音输入：

对所述音频输入执行语音到文本的转换，以获得文本字符串；以及

在所述文本字符串中搜索用于激活所述家庭助手装置的预先定义的触发词；以及

根据确定所述音频输入包括来自所述家庭助手装置的语音输入：

停止对所述音频输入执行语音到文本的转换；以及

停止搜索所述预先定义的触发词。

2.根据权利要求1所述的方法，其中，在所述文本字符串中搜索预先定义的触发词包括：

从多个预设的触发词中选择与所述第一用户对应的触发词，其中，所述多个预设的触发词与包括所述第一用户在内的多个用户中的不同用户对应；以及

使用与所述第一用户对应的所述触发词作为要搜索的预先定义的触发词。

3.根据权利要求1所述的方法，包括：

根据确定所述音频输入包括来自被授权控制所述家庭助手装置的所述第一用户的语音输入：

从所述家庭助手装置的多个任务域中选择一个或多个第一任务域来对所述文本字符串执行意图推断，其中，所述第一用户被授权控制所述一个或多个第一任务域；

停止使用所述多个任务域中的一个或多个第二任务域来处理所述文本输入，其中，所述第一用户未被授权控制所述一个或多个第二任务域。

4.根据权利要求1所述的方法，包括：

获得与所述家庭助手装置对应的默认的语音到文本模型；以及

根据确定由所述第一用户提供的所记录的多个语音样本是可用的，根据由所述第一用户提供的多个语音样本来调整所述默认的语音到文本模型，以生成针对所述第一用户的第一用户特定的语音到文本模型，其中，对所述音频输入执行语音到文本的转换来获得所述文本字符串包括：使用针对所述第一用户的所述第一用户特定的语音到文本模型来对所述音频输入执行语音到文本的转换。

5.根据权利要求4所述的方法，包括：

根据确定由所述第一用户提供的所记录的多个语音样本是不可用的，使用所述默认的语音到文本模型来对所述音频输入执行所述语音到文本的转换。

6.根据权利要求5所述的方法，包括：

根据确定由所述第一用户提供的所记录的多个语音样本是可用的，当使用所述第一用户特定的语音到文本模型来对所述音频输入进行所述语音到文本的转换时，设置用于识别所述音频输入中的所述触发词的第一置信度阈值；以及

根据确定由所述第一用户提供的所记录的多个语音样本是不可用的，当使用所述默认的语音到文本模型来对所述音频输入执行所述语音到文本的转换时，设置用于识别所述音频输入中的所述触发词的第二置信度阈值。

7.根据权利要求6所述的方法，其中，用于所述第一用户特定的语音到文本模型的所述第一置信度阈值高于用于所述默认的语音到文本模型的所述第二置信度阈值。

8.一种用于控制家庭助手装置的系统，包括：

一个或多个处理器；以及

存储指令的存储器，当由所述处理器执行所述指令时，所述指令使所述处理器执行操作，所述操作包括：

接收音频输入；

对所述音频输入执行说话者识别；

根据确定所述音频输入包括来自所述家庭助手装置的音频输入：

停止对所述音频输入执行语音到文本的转换；以及

停止搜索所述预先定义的触发词。

9.根据权利要求8所述的系统，其中，在所述文本字符串中搜索所述预先定义的触发词包括：

使用与所述第一用户对应的触发词作为要搜索的所述预先定义的触发词。

10.根据权利要求8所述的系统，其中，所述操作包括：

停止使用所述多个任务域中的一个或多个第二任务域来处理所述文本输入，所述第一用户未被授权控制所述一个或多个第二任务域。

11.根据权利要求8所述的系统，其中，所述操作包括：

根据确定由所述第一用户提供的所记录的多个语音样本是可用的，根据由所述第一用户提供的所述多个语音样本来调整所述默认的语音到文本模型，以生成针对所述第一用户的第一用户特定的语音到文本模型，其中，对所述音频输入执行语音到文本的转换来获得所述文本字符串包括：使用针对所述第一用户的所述第一用户特定的语音到文本模型来对所述音频输入执行语音到文本的转换。

12.根据权利要求11所述的系统，其中，所述操作包括：

13.根据权利要求12所述的系统，其中，所述操作包括：

根据确定由所述第一用户提供的所记录的多个语音样本是可用的，当使用所述第一用户特定的语音到文本模型来对所述音频输入进行所述语音到文本转换时，设置用于识别所述音频输入中的所述触发词的第一置信度阈值；以及

14.根据权利要求13所述的系统，其中，用于所述第一用户特定的语音到文本模型的所述第一置信度阈值高于用于所述默认的语音到文本模型的所述第二置信度阈值。

15.一种存储指令的非瞬态计算机可读存储介质，当由一个或多个处理器执行所述指令时，所述指令使所述处理器执行操作，所述操作包括：

接收音频输入；

对所述音频输入执行说话者识别；

根据确定所述音频输入包括来自被授权控制家庭助手装置的第一用户的语音输入：

停止对所述音频输入执行语音到文本的转换；以及

停止搜索所述预先定义的触发词。

16.根据权利要求15所述的计算机可读存储介质，其中，在所述文本字符串中搜索所述预先定义的触发词包括：

使用与所述第一用户对应的所述触发词作为要搜索的所述预先定义的触发词。

17.根据权利要求15所述的计算机可读存储介质，其中，所述操作包括：

从所述家庭助手装置的多个任务域中选择一个或多个第一任务域来对所述文本字符串执行意图推断，其中，所述第一用户被授权控制所述一个或多个第一任务域；以及

停止使用所述多个任务域中的一个或多个第二任务域来处理文本输入，其中，所述第一用户未被授权控制所述一个或多个第二任务域。

18.根据权利要求15所述的计算机可读存储介质，其中，所述操作包括：

19.根据权利要求18所述的计算机可读存储介质，其中，所述操作包括：

20.根据权利要求19所述的计算机可读存储介质，其中，所述操作包括：