CN109661704A

CN109661704A - 用于电子设备的上下文感知查询识别

Info

Publication number: CN109661704A
Application number: CN201780053332.8A
Authority: CN
Inventors: M·N·A·乔治斯; G·施特默尔; J·霍费尔
Original assignee: Intel IP Corp
Current assignee: Intel Corp
Priority date: 2016-09-29
Filing date: 2017-08-25
Publication date: 2019-04-19
Also published as: WO2018063619A1; US10147423B2; US20180090140A1; EP3520103A4; US20190348036A1; EP3520103A1

Abstract

用于电子设备中的上下文感知查询识别的方法包括从输入设备接收用户语音。从用户语音生成语音信号。确定语音信号是否包括要被执行的动作以及电子设备是否是用户语音的预期接收者。如果已识别的语音信号包括动作并且用户语音的预期接收者是电子设备，则生成用于电子设备执行动作的命令。

Description

用于电子设备的上下文感知查询识别

本申请要求2016年9月29日提交的美国申请序列号15/280,809的优先权的权益，所述美国申请通过引用以其全部内容结合在此。

技术领域

本文所描述的实施例一般涉及语音查询的识别和理解，尤其涉及提供电子设备的上下文感知查询。

背景

口语理解(SLU)是语音信号被解释为提供人/计算机界面的过程。由用户来明确定义查询的接收者。例如，当用户与计算机通话时，用户按下按钮或用计算机已知的专用短语(例如，你好计算机)开始查询。按钮或专用短语通知计算机假定下一个语句被引导到计算机以进行识别和解释。这些是任何人/计算机界面的重要约束和设计限制。

附图说明

图1示出了根据各个实施例的用于识别和解释语音信号的电子设备的示例。

图2示出了根据各个实施例的用于电子设备中的上下文感知查询识别的方法的流程图。

图3示出了根据各个实施例的用于意图识别的方法的流程图。

图4示出了根据各个实施例的用于接收者识别的方法的流程图。

图5示出了根据各个实施例的用于接收者检测和意图检测的方法的流程图。

具体实施方式

传统的人/计算机界面使用某种形式向计算机指示以下会话实际上是针对计算机的查询。在一个示例中，用户可以在实际查询之前说出专用的唤醒短语。在另一个示例中，用户可能必须按下按钮，从而发信号到计算机：当按下该按钮时正在发生的对话是用于计算机识别和解释的查询。这种人/计算机界面限制了在启动计算机查询之前必须按下按钮或记得说出唤醒短语的用户。

所公开的实施例提供了一种用户在没有专用的唤醒短语或信号按钮的情况下查询电子设备的方式。使用对话语音或文本中的查询的语音检测和上下文感知理解，电子设备可以从语音音频信号或文本信号确定用户的意图并作用于查询。这种方法使用户能够以更自然的对话方式与电子设备说话。在以下实施例中，唤醒短语可以被定义为计算机用于确定该语音之后的所有内容都是要由计算机识别的查询的任何语音或语音信号。

如本文所使用的，“计算机”可以是具有以下能力的任何电子设备：接收表示用户对话的信号(例如，音频信号)，使用语音识别确定在对话中说出的内容，并解释该对话以确定它是否是针对该设备的。这样的电子设备可以是服务器、计算机(例如，具有中央处理单元(CPU)、存储器、输入/输出)、具有电子控制器的厨房电器、车辆中的控制系统、个人电子设备、家用控制器/安全系统，或具有这种能力的任何其他电子系统。

图1示出了根据各个实施例的用于识别和解释语音信号的电子设备的示例。电子设备100还可以被称为计算机或控制器，以执行本文公开的任何方法。该框图仅出于说明的目的，因为其他电子设备可具有不同的架构并且仍能够实现本文公开的上下文感知查询识别方法。

如本文所述，示例可以包括逻辑或多个组件、模块或机制，或可以在逻辑或多个组件、模块或机制上操作。模块是能够执行指定操作的有形实体(例如，硬件)，并且可以以某种方式配置或布置。在示例中，电路可以以指定方式被安排(例如，内部地或关于外部实体(诸如其他电路))为模块。在示例中，一个或多个计算机系统(例如，独立的、客户端或服务器计算机系统)或一个或多个硬件处理器102的至少一部分可以由固件或软件(例如，指令、应用部分或应用)配置作为操作以执行指定操作的模块。在示例中，软件可以驻留在瞬态或非瞬态计算机可读介质上。在示例中，软件在由模块的底层硬件执行时使硬件执行指定的操作。

电子设备100可以包括硬件处理器102(例如，中央处理单元(CPU)、图形处理单元(GPU)、硬件处理器核或其任何组合)，以及存储器104。计算机的各种元件可以通过互连链路(即，总线)108彼此通信。

电子设备100可以进一步包括耦合到互连链路108的显示单元110和输入设备112(例如，小键盘、键盘、麦克风)。在示例中，显示单元110和输入设备112一起可以是触摸屏显示器。触摸屏显示器可以包含在平板计算机、智能手机设备、厨房电器、个人电子设备或其他这样的电子设备中。

电子设备100可以附加地包括存储设备(例如，闪存、随机存取存储器(RAM)、只读存储器(ROM)、磁盘驱动器、光盘驱动器)116、信号发生设备118(例如，扬声器)、传感器和网络接口设备120，以及一个或多个传感器121。传感器121可以包括成像传感器，用于确定用户相对于电子设备的位置或由用户执行的任何移动或手势。传感器121可以进一步包括用于确定用户的身份的生物统计传感器(例如，指纹、视网膜数据、语音识别)。如果传感器通过无线信道耦合到电子设备，则传感器和网络接口设备120可以包括与传感器通信的必要的(多个)无线电设备。

存储器104可包括至少一个瞬态或非瞬态计算机可读介质，其上存储有一组或多组数据结构或指令124(例如，软件)，所述一组或多组数据结构或指令体现本文中所描述的技术、方法或功能中的任何一项或多项或者由本文中所描述的技术、方法或功能中的任何一项或多项来利用。指令124还可以至少部分地驻留在附加的计算机可读存储器中(诸如在由系统100执行期间在硬件处理器102内)。在示例中，硬件处理器102、存储器104或大容量存储设备116中的一个或任何组合可以构成非瞬态计算机可读介质。

网络接口设备120还可以是传感器接口，并且包括任何有线或无线接口，诸如无线电，用于通过无线信道读取传感器。无线电可以使用IEEE 802.11标准或用于通过无线信道从传感器读取数据的任何其他标准来操作。网络可以是对等网络、局域网(LAN)或包括因特网的广域网(WAN)。

图2示出了根据各个实施例的用于电子设备中的上下文感知查询识别的方法的流程图。该方法的各个框的执行可以全部由分布在多个电子设备当中的电子设备来执行、由分布在一个或多个电子设备当中的电子设备和通过互联网连接的一个或多个服务器来执行，或者整个执行可以由通过互联网连接的该一个或多个服务器来执行。

由于用于上下文感知查询识别的方法监视来自用户的所有语音，因此通过互联网发送会话可能导致隐私问题。一种避免这种问题的方法是，接收用户语音200的电子设备在通过互联网连接传输之前对语音的传输进行加密。加密可以内置到图2的框200、202、203、204、206中的任何一个中，这取决于在电子设备中执行该方法的哪个部分以及哪个部分由互联网服务器执行。

语音识别202用于标识用户的对话200中的单词。用户的对话可以由如图1的电子设备中所示的麦克风112接收。语音识别可以是说话者相关的(例如，需要对用户的语音进行训练)或说话者无关的(例如，不需要对用户的语音进行训练)。用户语音不需要包括用于操作用于上下文感知查询识别的方法的唤醒短语。

语音识别202可以在上下文窗口上执行，该上下文窗口定义特定时间段，在此特定时间段内，语音识别202假定用户的查询仍在发生。上下文窗口可以由用户正在讲话的特定时间段(例如，5秒)或者当用户在语音信号被接收之后静音特定时间段(例如，1秒)来定义。

语音识别202可以在基于统计的语音识别算法中使用声学建模和/或语言建模，以响应于用户语音200生成被识别的语音信号。例如，可以使用隐马尔可夫模型(HMM)作为用于语音识别202的算法。HMM只是语音识别算法202的一个例子。其他实施例可以使用其他方式来执行语音识别。被识别的语音信号不需要包括用于操作用于上下文感知查询识别的方法的唤醒短语。

HMM是统计模型，该统计模型输出符号的序列或量的序列来作为分段静止信号或短时静止信号。在短时间尺度(例如，10毫秒)中，语音可以近似为静止过程。在语音识别中，HMM每10毫秒输出n维实值向量序列(其中n是相对小的整数，例如40)。向量可以由倒谱系数组成，倒谱系数是通过对用户的语音200的短时间窗口进行傅里叶变换并使用余弦变换对频谱进行去相关，然后使用第一(最重要)系数而获得。这些特征向量中的几个可以组合在一起以便获得更长的时间上下文，例如，通过估算导数(差量(deltas)和差量-差量)或通过简单地将特征堆叠在一起。通常，可以以这种方式组合5到50帧的特征向量以形成超级向量(super vector)。HMM趋向于在每个状态中具有统计分布，该统计分布可以通过高斯混合模型(GMM)、深度神经网络(DNN)、递归神经网络(RNN)、长短期记忆网络(LSTM)或用于每个观察到的超级矢量的任何其他类型的统计方法来建模。

如本文所用，“单词”可以由数字向量表示。单词序列(例如，句子)可以以图形方式表示(例如，作为格子)。每个单词或对于更一般的语音识别系统，每个音素或每个子语音单位(可以取决于或不取决于周围音素的上下文)，可以具有不同的输出分布。用于单词序列或音素序列的HMM是通过将单独的单词和音素的各个经训练的HMM级联(concatenate)而作出的。在一些实施例中，级联HMM可以由图表表示，例如经加权的有限状态换能器(WFST)。不同单词序列的概率可以通过语法或统计语言模型来建模。统计语言模型可以由单词n元语法(n-grams)或递归神经网络(RNN)表示。

语音信号(例如，来自语音识别202过程的有声的音频信号、单词和/或音素)被输入到意图识别203和接收者识别204的并行处理中。为了减少等待时间并因此减少电子设备作用于查询所需的时间，意图识别203和接收者识别204基本上同时(例如，并行地)执行。

意图识别203基于语音信号的单词和/或音素来确定用户的意图。这可以是单词序列和/或音素序列，但也可以是格子、n-最佳列表或其他合适的数据结构。它还可以包括其他功能，如单词置信度或单词计时信息。图3中示出了用于执行意图识别203的示例方法。

图3示出了根据各个实施例的用于意图识别的方法的流程图。在框301中，意图识别203从语音识别算法202接收已识别的语音信号。在框303中，意图识别203处理已识别的语音信号的单词和/或音素以确定用户想要完成什么。

例如，意图识别203可以处理单词和/或音素以在框305中确定单词或声音是否暗示某种动作(例如，制作、开、关、打开、关闭、移动、搜索、回复、增加、减少)。意图识别203可以查找某些关键词以及句子中这些词之间的关系。这可以通过机器学习给定训练数据来完成，其中单词和/或音素由某些意图进行注释。因此，意图识别203使用单词和/或音素来确定用户的语音是否请求执行某种动作。机器学习算法(例如，条件随机场、隐马尔可夫模型、深度神经网络、递归神经网络)。机器学习算法的输入可以是表示单词和单词在输入句子中的位置的向量。机器学习的输出是句子所表示的意图。例如，如果用户说“这里太温暖”，则句子的意图是“减小”或“关闭”加热。

如本文所使用的，“动作”可以被定义为一个动作或多个动作。例如，“冲泡咖啡并将牛奶放入咖啡中”可以被定义为“动作”。

在框309中，如果已识别的语音信号包括某些意图，则输出要由意图执行的动作。在框307中，如果已识别的语音信号不包含任何意图，则输出否定指示以向接收者和意图检测206指示用户不打算采取任何动作。

再次参见图2，接收者识别204确定用户的语音200的预期接收者是谁或是什么。换句话说，接收者识别204确定用户是否正在与电子设备说话或者用户是否正在与房间中的另一个人说话。

图4示出了根据各个实施例的用于接收者识别的方法的流程图。在框401中，接收者识别204从捕获的语音信号接收语音特征(例如，梅尔频率倒谱系数(Mel FrequencyCepstral Coefficient；MFCC))、单词和/或音素。在框403中，接收者识别204处理特征、单词和/或音素，以在框405中确定通常与电子设备相关联的任何特征、单词或声音是否在语音信号中。例如，“语音唤醒”技术可用于检测特殊触发单词或单词序列。在给定音频信号的情况下，可以应用机器学习来学习它。可以计算一些特征(例如MFCC特征)并将这些特征用于计算(例如，使用神经网络的音素概率)。高斯混合模型可用于表示和分类语音的接收者。这些计算步骤中的一些可以跨模块(例如，与语音识别202一起)共享。

例如，如果电子设备是咖啡机，则咖啡机控制器处理单词和/或音素以确定“咖啡”、“杯子”、“制作”的单词或声音或与制作咖啡相关联的任何其他直接或间接相关的单词或声音是否存在于已识别的语音信号中。例如，直接关系可以是用户陈述“制作一杯咖啡”，而间接关系可以是用户陈述“要是获得一杯咖啡会很好”。在另一示例中，如果电子设备是家用自动化控制器，则家用控制器处理单词和/或音素以确定是否存在与家用控制器能够控制的事物(例如，灯、窗户、门、警报)相关联的任何单词或声音。

在框409中，如果在经处理的语音信号中识别出与电子设备相关联的单词、声音或意图，则接收者识别204输出用户的意图是已识别的语音要由电子设备使用的肯定指示。在框407中，如果用户的意图是语音信号要由除电子设备之外的某物或某人使用，则接收者识别204输出否定指示或不指示。否定指示可以包括一组概率(例如，概率指示)，即语音信号要被除电子设备之外的某物或某人使用的概率(例如，P(接收者|语音信号))。

图5示出了根据各个实施例的用于接收者和意图检测206的方法的流程图。在框501中，接收者和意图检测206接收意图识别203和接收者识别204的结果。在框503中，确定意图识别203是否指示要执行的某种动作。如果未指示动作，则在框505中忽略已识别的语音。

如果意图识别203指示要被执行的动作，则框507基于接收者识别204的输出确定电子设备是否是用户语音的预期接收者。如果基于接收到否定指示(参见图4的框407)，预期接收者不打算是电子设备，则在框505中忽略已识别的语音。如果基于接收到肯定指示(参见图4的框409)，电子设备是用户语音的预期接收者，则在框509中生成执行动作的命令。

例如，如果电子设备是咖啡机并且意图识别203确定用户的语音指示想要制作一杯咖啡并且接收者识别204确定用户正在与电子设备通话，则接收者和意图检测206输出制作一杯咖啡的指令。在另一示例中，如果电子设备是家用自动化控制器并且意图识别203确定用户的语音指示要关闭灯并且接收者识别204确定用户正在与电子设备通话，则接收者和意图检测206输出关闭灯的指令。

意图识别203、接收者识别204和/或接收者和意图检测206中的一个或多个可以可选地包括来自外部传感器210的输入(例如，成像、生物统计、键盘、小键盘、触摸屏、说话位置和/或说话方向)。这使得电子设备能够将文本、图像或生物统计传感器数据输入到该方法中。因此，如果该方法确定用户正朝向电子设备移动或朝向电子设备做手势，则这可以是用户意图的指示。

再次参考图2，从接收者和意图检测206输出的命令或指令被输入到对话引擎、数据库查找例程、万维网(WWW)搜索引擎或第三方应用程序接口(API)208(例如，电机控制或一些其他机器类型的动作)中的一个或多个。例如，如果确定用户查询已经在询问电子设备的问题，则电子设备可以确定该问题并将该问题传递给数据库查找例程。数据库查找例程可以访问电子设备内的数据库或位于互联网连接上的数据库。另一个实施例可以计算命令或指令以确定接收者并且接收者重新处理音频/特征/信号以供他们自己使用(例如，计算一些专用类)，或者可以在云中处理命令/指令以包含其他知识源。

如果电子设备不包含期望的信息，则可以通过互联网连接将命令或指令传递到万维网(WWW)搜索引擎、对话搜索引擎或聊天机器人。然后，万维网(WWW)搜索引擎可以执行搜索并将搜索结果返回给电子设备以使用合成语音显示或读取给用户。电子设备还可以响应用户动作的澄清请求。当接收者/意图组合被理解但由于某些已知情况而无法被处理时，电子设备还可响应对用户方的附加信息或动作的请求。例如，电子设备可以回答：“知道了，如果你想要咖啡，请给咖啡机授权！”换句话说，设备识别了意图/接收者，但也识别出，无论什么原因，咖啡机停止服务而没有响应的事实。

如果已识别的语音信号包含对执行动作的请求，则可以将命令或指令传递给负责执行该任务的第三方API。例如，如果识别出的语音信号要求制作一杯咖啡，则第三方API可以是来自电子设备控制器的接口，以及控制水流入咖啡机的机构，以及用户可选择的泡制时间。

附加说明和示例：

示例1是用于执行上下文感知查询识别的电子设备，该设备包括：输入设备，用于接收用户语音；存储器，用于存储用于执行上下文感知查询的指令；以及控制器，耦合到存储器和输入设备，用于响应于用户语音而生成语音信号，确定语音信号是否包括要被执行的动作，确定用户语音的预期接收者，以及如果语音信号包括动作并且用户语音的预期接收者是电子设备，则生成用于电子设备执行动作的命令，其中用户语音和语音信号不包括唤醒短语。

在示例2中，示例1的主题可选地包括耦合到控制器的传感器，用于生成到控制器的传感器输入。

在示例3中，示例2的主题可选地包括：其中，传感器包括以下中的至少一个：用于生成图像数据的图像传感器、用于接收用户语音的音频传感器或用于生成生物统计传感器数据的生物统计传感器。

在示例4中，示例3的主题可选地包括，其中控制器进一步用于基于图像数据或生物统计传感器数据中的至少一个来确定预期接收者。

在示例5中，示例3-4中的任何一个或多个的主题可选地包括：其中，控制器进一步用于基于图像数据或生物统计传感器数据中的至少一个来确定语音信号是否包括要被执行的动作。

在示例6中，示例1-5中的任何一个或多个的主题可选地包括，其中，控制器进一步用于基于该命令来执行数据库搜索。

在示例7中，示例1-6中的任何一个或多个的主题可选地包括：其中，控制器进一步用于执行基于命令的万维网搜索、将命令输入到对话引擎，或将命令输入聊天机器人中的至少一个。

在示例8中，示例1-7中的任何一个或多个的主题可选地包括：其中，控制器进一步用于将命令传递到应用程序接口以供执行。

在示例9中，示例1-8中的任何一个或多个的主题可选地包括，其中，电子设备是厨房电器、计算机、车辆中的控制系统、个人电子设备或家用控制器。

示例10是一种用于电子设备中的上下文感知查询识别的计算机实现的方法，该方法包括：从输入设备接收用户语音；响应于用户语音产生语音信号，其中用户语音和语音信号不包括唤醒短语；确定语音信号是否包括要被执行的动作；确定用户语音的预期接收者；以及如果语音信号包括动作并且用户语音的预期接收者是电子设备，则生成用于电子设备执行动作的命令。

在示例11中，示例10的主题可选地包括接收包括图像、音频或生物统计数据的传感器输入。

在示例12中，示例11的主题可选地包括基于传感器输入来确定语音信号是否包括动作。

在示例13中，示例11-12中的任何一个或多个的主题可选地包括基于传感器输入来确定用户语音的预期接收者。

在示例14中，示例10-13中的任何一个或多个的主题可选地包括：其中，确定语音信号是否包括要被执行的动作包括：从语音信号接收单词或音素中的至少一个；确定单词或音素是否是动作单词或动作声音；以及如果单词或音素包括要被执行的动作，则输出要被执行的动作。

在示例15中，示例14的主题可选地包括：如果单词或音素不包括要被执行的动作，则输出否定指示或概率指示。

在示例16中，示例10-15中的任何一个或多个的主题可选地包括：其中确定用户语音的预期接收者包括：从语音信号接收单词或音素中的至少一个；确定单词或音素是否与电子设备相关联；以及如果单词或音素与电子设备相关联，则输出用户语音的预期接收者是电子设备的肯定指示。

在示例17中，示例16的主题可选地包括：如果单词或音素不与电子设备相关联，则输出否定指示。

示例18是至少一种计算机可读介质，包括用于执行上下文感知查询识别的指令，所述指令在由计算机执行时，使计算机执行方法示例10-17中的任何一项。

示例19是一种设备，包括用于执行示例10-17的方法中的任一项的装置。

示例20是一种用于电子设备中的上下文感知查询识别的计算机实现的方法，该方法包括：从输入设备接收用户语音；响应于用户语音生成语音信号，其中用户语音和语音信号不包括唤醒短语；以及如果用户语音包括指示用户语音是针对电子设备并且语音信号包括动作的单词或音素中的至少一个，则基于该动作来生成命令。

在示例21中，示例20的主题可选地包括：将命令转发到应用编程接口以在厨房电器、计算机、车辆中的控制系统、个人电子设备或家用控制器中的一者中执行命令。

在示例22中，示例20-21中的任何一个或多个的主题可选地包括通过互联网连接将命令发送到服务器以执行数据库搜索或万维网搜索。

示例23是至少一种计算机可读介质，包括用于执行上下文感知查询识别的指令，所述指令在由计算机执行时，使计算机执行方法示例20-22中的任何一项。

示例24是一种设备，包括用于执行示例20-22的方法中的任何一项的装置。

示例25是至少一种计算机可读介质，包括用于在电子设备中执行上下文感知查询识别的指令，所述指令在由计算机执行时，使计算机：从输入设备接收用户语音；响应于用户语音生成语音信号，其中用户语音和语音信号不包括唤醒短语；确定语音信号是否包括要被执行的动作；确定用户语音的预期接收者；以及如果语音信号包括动作并且用户语音的预期接收者是电子设备，则生成用于电子设备执行动作的命令。

在示例26中，示例25的主题可选地包括，其中，当指令使计算机确定语音信号是否包括要被执行的动作时，指令使计算机：从语音信号接收单词或音素中的至少一个；确定单词或音素是否是动作单词或动作声音；以及如果单词或音素包括要被执行的动作，则输出要被执行的动作。

在示例27中，示例25-26中的任何一个或多个的主题可选地包括，其中，当指令使计算机确定用户语音的预期接收者时，指令使计算机：从语音信号接收单词或音素中的至少一个；确定单词或音素是否是与电子设备相关联的单词或声音；以及如果单词或音素与电子设备相关联，则输出用户语音的预期接收者是电子设备的肯定指示。

在示例28中，示例27的主题可选地包括，其中，指令进一步使计算机基于传感器输入来确定用户语音的预期接收者。

在示例29中，示例28的主题可选地包括，其中，指令进一步使计算机基于来自传感器输入的图像来确定用户语音的预期接收者。

示例30是用于执行上下文感知查询识别的电子设备，该设备包括：用于从输入设备接收用户语音的装置；用于响应于用户语音生成语音信号的装置，其中用户语音和语音信号不包括唤醒短语；用于确定语音信号是否包括要被执行的动作的装置；用于确定用户语音的预期接收者的装置；以及用于在语音信号包括动作并且用户语音的预期接收者是电子设备时，生成用于电子设备执行动作的命令的装置。

在示例31中，示例30的主题可选地包括用于接收包括图像或生物统计数据的传感器输入的装置。

在示例32中，示例31的主题可选地包括用于基于传感器输入来确定语音信号是否包括动作的装置。

在示例33中，示例31-32中的任何一个或多个的主题可选地包括用于基于传感器输入来确定用户语音的预期接收者的装置。

在示例34中，示例30-33中的任何一个或多个的主题可选地包括：其中，用于确定语音信号是否包括要被执行的动作的装置包括：用于从语音信号接收单词或音素中的至少一个的装置；用于解析动作单词或动作声音的单词或音素的装置；以及用于在单词或音素包括要被执行的动作的情况下输出要被执行的动作的装置。

在示例35中，示例34的主题可选地包括：用于在单词或音素不包括要被执行的动作的情况下输出否定指示的装置。

在示例36中，示例30-35中的任何一个或多个的主题可选地包括：其中用于确定用户语音的预期接收者的装置包括：用于从语音信号接收单词或音素中的至少一个的装置；用于解析与电子设备相关联的单词或声音的单词或音素的装置；以及用于在单词或音素与电子设备相关联时输出用户语音的预期接收者是电子设备的肯定指示的装置。

在示例37中，示例36的主题可选地包括：用于在单词或音素不与电子设备相关联时输出否定指示的装置。

示例38是用于执行上下文感知查询识别的电子设备，该设备包括：用于从输入设备接收用户语音的装置；用于响应于用户语音生成语音信号的装置，其中用户语音和语音信号不包括唤醒短语；以及用于在用户语音包括指示用户语音是针对电子设备并且语音信号包括动作的单词或音素中的至少一者时基于动作生成命令的装置。

在示例39中，示例38的主题可选地包括：用于将命令转发到应用编程接口以在厨房电器、计算机、车辆中的控制系统、个人电子设备或家用控制器中的一者中执行命令的装置。

在示例40中，示例38-39中的任何一个或多个的主题可选地包括用于通过互联网连接将命令发送到服务器以执行数据库搜索或万维网搜索的装置。

以上的详细描述包括对附图的参照，这些附图形成了详细描述的一部分。所述附图以图示的方式示出了可以被实践的具体实施例。这些实施例在此也被称为“示例”。这类示例可以包括除了所示出或所描述的那些要素之外的要素。然而，还设想了包括所示出或所描述的要素的示例。此外，或者针对本文中所示出或所描述的具体示例(或者其一个或多个方面)，或者针对本文中所示出或所描述的其他示例(或者其一个或多个方面)，还考虑到使用所示出或所描述的那些要素的任何组合或排列(或者其一个或多个方面)的示例。

在本文档中提及的出版物、专利和专利文献通过引用而全部内容结合在此，如同通过引用而单独合并。在本文档与通过引用并于此的那些文档之间的不一致的使用的情况下，在并入的(多个)参考文献中的使用是对本文档的使用的补充；对于不可协调的不一致，以本文档中的用法为准。

在本文档中，如在专利文档中是普遍的，术语“一个(a)”或“一个(an)”被用于包括一个或多个，独立于“至少一个”或者“一个或多个”的任何其他实例或用法。在本文中，除非另外指明，否则术语“或”被用来指非排他性的“或”，使得“A或B”包括“A但非B”、“B但非A”以及“A和B”。在所附权利要求中，术语“包括(including)”和“其中(in which)”被用作相应的术语“包括(comprising)”和“其中(wherein)”的简明英语对等词。此外，在以下权利要求书中，术语“包括(including)”和“包括(comprising)”是开放式的，即，除在权利要求中列在此类术语之后的那些元素外还包括元素的系统、设备、物品或过程仍被视为落入该权利要求的范围内。此外，在所附权利要求中，术语“第一”、“第二”和“第三”等仅用作标记，并且不旨在对其对象强加数字要求。

以上说明旨在是说明性而非限制性的。例如，以上所描述的示例(或者其一个或多个方面)可以互相结合使用。如本领域的普通技术人员在审阅上述说明后可以使用其他实施例。本摘要用于允许读者快速确定本技术公开的性质。提交该摘要，并且理解该摘要将不用于解释或限制权利要求书的范围或含义。而且，在以上具体实施方式中，可以将各个特征分组在一起以便精简本公开。然而，权利要求书可以不对本文中公开的每一个特征进行阐述，并且实施例就可以表征所述特征的子集。进一步地，实施例可以包括相比在特定示例中公开的那些特征更少的特征。因此，据此将权利要求书结合到具体实施方式中，权利要求独立地代表单独的实施例。本文中所公开的实施例的范围应当参考所附权利要求书、连同这样的权利要求书有权获得的等效物的全部范围来确定。

Claims

1.一种用于执行上下文感知查询识别的电子设备，所述设备包括：

输入设备，用于接收用户语音；

存储器，用于存储用于执行上下文感知查询的指令；以及

控制器，耦合到所述存储器和所述输入设备，用于响应于所述用户语音而生成语音信号，确定所述语音信号是否包括要被执行的动作，确定所述用户语音的预期接收者，以及如果所述语音信号包括动作并且所述用户语音的所述预期接收者是所述电子设备，则生成用于所述电子设备执行动作的命令，其中所述用户语音和所述语音信号不包括唤醒短语。

2.如权利要求1所述的设备，进一步包括耦合到所述控制器的传感器，用于生成到所述控制器的传感器输入。

3.如权利要求2所述的设备，其特征在于，所述传感器包括以下中的至少一个：用于生成图像数据的图像传感器、用于接收所述用户语音的音频传感器或用于生成生物统计传感器数据的生物统计传感器。

4.如权利要求3所述的设备，其特征在于，所述控制器进一步用于基于所述图像数据或所述生物统计传感器数据中的至少一个来确定所述预期接收者。

5.如权利要求3所述的设备，其特征在于，所述控制器进一步用于基于所述图像数据或所述生物统计传感器数据中的至少一个来确定所述语音信号是否包括要被执行的动作。

6.如权利要求1所述的设备，其特征在于，所述控制器进一步用于基于所述命令来执行数据库搜索。

7.如权利要求1所述的设备，其特征在于，所述控制器进一步用于执行基于所述命令的万维网搜索、将所述命令输入到对话引擎、或者将所述命令输入到聊天机器人中的至少一个。

8.如权利要求1所述的设备，其特征在于，所述控制器进一步用于将所述命令传递到应用程序接口以供执行。

9.一种用于电子设备中的上下文感知查询识别的计算机实现的方法，所述方法包括：

从输入设备接收用户语音；

响应于所述用户语音生成语音信号，其中所述用户语音和所述语音信号不包括唤醒短语；

确定所述语音信号是否包括要被执行的动作；

确定所述用户语音的预期接收者；以及

如果所述语音信号包括所述动作并且所述用户语音的预期接收者是电子设备，则生成用于所述电子设备执行所述动作的命令。

10.如权利要求9所述的方法，进一步包括接收包括图像、音频或生物统计数据的传感器输入。

11.如权利要求10所述的方法，进一步包括：

基于所述传感器输入来确定所述语音信号是否包括所述动作。

12.如权利要求11所述的方法，进一步包括：

基于所述传感器输入来确定所述用户语音的所述预期接收者。

13.如权利要求9所述的方法，其特征在于，确定所述语音信号是否包括要被执行的动作包括：

从所述语音信号接收单词或音素中的至少一个；

确定所述单词或所述音素是否是动作单词或动作声音；以及

如果所述单词或所述音素包括要被执行的所述动作，则输出要被执行的所述动作。

14.如权利要求13所述的方法，进一步包括：如果所述单词或所述音素不包括要被执行的所述动作，则输出否定或概率指示。

15.如权利要求9所述的方法，其特征在于，确定所述用户语音的预期接收者包括：

从所述语音信号接收单词或音素中的至少一个；

确定所述单词或所述音素是否与所述电子设备相关联；以及

如果所述单词或音素与所述电子设备相关联，则输出所述用户语音的所述预期接收者是所述电子设备的肯定指示。

16.如权利要求15所述的方法，进一步包括：

如果所述单词或音素不与所述电子设备相关联，则输出否定指示。

17.至少一种计算机可读介质，包括用于执行上下文感知查询识别的指令，所述指令在由计算机执行时，使所述计算机执行权利要求9-16中任一项所述的方法。

18.一种设备，包括用于执行权利要求9-16所述的方法中的任一项的装置。

19.一种用于执行上下文感知查询识别的电子设备，所述设备包括：

用于从输入设备接收用户语音的装置；

用于响应于所述用户语音生成语音信号的装置，其中所述用户语音和所述语音信号不包括唤醒短语；

用于确定所述语音信号是否包括要被执行的动作的装置；

用于确定所述用户语音的预期接收者的装置；以及

用于在所述语音信号包括所述动作并且所述用户语音的所述预期接收者是所述电子设备时，生成用于所述电子设备执行所述动作的命令的装置。

20.如权利要求19所述的设备，进一步包括用于接收包括图像或生物统计数据的传感器输入的装置。

21.如权利要求20所述的设备，进一步包括：

用于基于所述传感器输入来确定所述语音信号是否包括所述动作的装置。

22.如权利要求20所述的设备，进一步包括：

用于基于所述传感器输入来确定所述用户语音的所述预期接收者的装置。

23.如权利要求19所述的设备，其特征在于，用于确定所述语音信号是否包括要被执行的动作的装置包括：

用于从所述语音信号接收单词或音素中的至少一个的装置；

用于解析动作单词或动作声音的所述单词或所述音素的装置；以及

用于在所述单词或所述音素包括要被执行的所述动作的情况下输出要被执行的所述动作的装置。

24.如权利要求23所述的设备，进一步包括：用于在所述单词或所述音素不包括要被执行的所述动作的情况下输出否定指示的装置。

25.如权利要求19所述的设备，其特征在于，用于确定所述用户语音的预期接收者的装置包括：

用于从所述语音信号接收单词或音素中的至少一个的装置；

用于解析与所述电子设备相关联的单词或声音的所述单词或所述音素的装置；以及

用于在所述单词或音素与所述电子设备相关联时输出所述用户语音的所述预期接收者是所述电子设备的肯定指示的装置。