CN106415719B

CN106415719B - 使用说话者识别的语音信号的稳健端点指示

Info

Publication number: CN106415719B
Application number: CN201580028707.6A
Authority: CN
Inventors: D·K·奈克; S·S·卡加雷卡
Original assignee: Apple Inc
Current assignee: Apple Inc
Priority date: 2014-06-19
Filing date: 2015-05-06
Publication date: 2019-10-18
Anticipated expiration: 2035-05-06
Also published as: AU2015277773B2; EP3158561A1; US10186282B2; CN106415719A; US20150371665A1; WO2015195215A1; EP3158561B1; AU2015277773A1

Abstract

本发明提供了一种使用说话者识别的语音信号的稳健端点指示的系统和过程。在一个示例性过程中，可接收具有口头用户请求的音频流。可确定该音频流包括用户语音的第一可能性。可确定该音频流包括由授权用户说出的用户语音的第二可能性。可至少部分地基于第一可能性和第二可能性来确定口头用户请求的起点或终点。

Description

使用说话者识别的语音信号的稳健端点指示

相关申请的交叉引用

本专利申请要求于2014年6月19日提交的标题为“ROBUST END-POINTING OFSPEECH SIGNALS USING SPEAKER RECOGNITION”的美国临时申请序列号62/014,571，以及于2015年4月30日提交的标题为“ROBUST END-POINTING OF SPEECH SIGNALS USINGSPEAKER RECOGNITION”的美国非临时申请序列号14/701,147的优先权，上述专利申请据此其全文以引用方式并入本文以用于所有目的。

技术领域

本发明整体涉及语音处理，并且更具体地涉及使用说话者识别的对语音信号的起点或终点检测。

背景技术

智能自动化助理(或虚拟助理)在人类用户与电子设备之间提供有利的界面。此类助理允许用户使用口头和/或文本形式的自然语言来与设备或系统进行交互。例如，用户可通过向与电子设备相关联的虚拟助理提供口头用户请求来访问电子设备的服务。该虚拟助理可根据口头用户请求来解释用户意图，并将用户意图实践为任务。然后可通过执行电子设备的一个或多个服务来执行任务，并且可按自然语言的形式来将相关输出返回给用户。

通常，口头用户请求混有各种背景噪声。该背景噪声可包括例如杂散对话、音乐、机械噪声和环境噪声。为了解释口头用户请求，虚拟助理可确定所接收的音频输入内的用户语音的起始与终止。检测用户语音的起始与终止分别称为起点指示和终点指示。起点指示和终点指示可用于识别包含口头用户请求的音频输入的一部分。另外，终点指示还可用于确定何时停止接收音频输入。为了使虚拟助理能够快速准确地解释和处理音频输入，期望得到稳健的起点指示和终点指示。

传统的终点指示算法依赖能量特征(诸如，短时能量和过零率)，以区分音频输入中的用户语音与背景噪声。然而，当用户语音与杂散背景对话重叠时，起点指示和终点指示可受到显著影响。杂散背景对话还可被称为多路重合噪声。该多路重合噪声可与用户语音共享相同的频谱，并因此可产生同信道干扰，从而使得难以确定音频输入内的用户语音何时开始或结束。没有准确的起点指示和终点指示，虚拟助理可能难以准确处理音频输入，这可导致输出错误、执行不正确的动作和/或出现澄清用户意图的繁冗请求。

发明内容

本发明提供了一种使用说话者识别的语音信号的稳健端点指示的系统和过程。在一个示例性过程中，可接收具有口头用户请求的音频流。可确定音频流包括用户语音的第一可能性。第一可能性可至少部分地基于音频流的能量水平。可确定该音频流包括由授权用户说出的用户语音的第二可能性。可至少部分地基于第一可能性和第二可能性来确定口头用户请求的起点或终点。

附图说明

图1示出了根据各种示例的使用说话者识别的语音信号的稳健端点指示的示例性过程。

图2A示出了根据各种示例的表示时域中的示例性音频流的波形。

图2B示出了根据各种示例的表示音频流包括用户语音的示例性第一可能性的波形。

图2C示出了根据各种示例的表示音频流包括由授权用户说出的用户语音的示例性第二可能性的波形。

图2D示出了根据各种示例的表示音频流包括用户语音的示例性组合可能性的波形。

图3示出了根据各种示例的用于执行使用说话者识别的语音信号的稳健端点指示的各个方面的示例性系统和环境。

图4示出了根据各种示例的使用说话者识别的语音信号的稳健端点指示的各个方面的示例用户设备。

图5示出了根据各种示例的示例性电子设备的功能框图。

具体实施方式

在以下对示例的描述中将引用附图，在附图中以例示的方式示出了可被实施的特定示例。应当理解，在不脱离各个示例的范围的情况下，可使用其他示例并且可作出结构性变更。

本发明涉及一种使用说话者识别的语音信号的稳健端点指示的系统和过程。在一个示例性过程中，可接收带有口头用户请求的音频流。可确定音频流包括用户语音的第一可能性。第一可能性可至少部分地基于音频流的能量水平。可确定音频流包括授权用户说出的用户语音的第二可能性。在一些示例中，可通过对音频流执行说话者认证来确定第二可能性，以将授权用户的用户语音与其他人类语音区分开。说话者认证可至少部分地基于一个或多个语音模型。可至少部分地基于第一可能性和第二可能性来确定口头用户请求的起点或终点。

在一些示例中，确定第一可能性可包括将音频流划分为音频帧，并分析用户语音的每个音频帧。每个音频帧的帧宽度可以是5ms-40ms，从而使得分析的分辨率更高并精确识别起点或终点。然而，如上所述，第一可能性的准确度可由于音频流中存在多路重合噪声而下降。因此，在普遍存在多路重合噪声的应用中(例如，个人移动设备，诸如，蜂窝电话、平板电脑、便携式媒体播放器或可穿戴数字设备)，仅利用第一可能性来识别起点或终点可能是不可取的。

在一些示例中，确定第二可能性可包括将音频流划分为音频段，并分析授权用户说出的用户语音的每个音频段。每个音频段的段宽可为100ms-300ms，以便在分析中实现足够高的置信度。然而，100ms-300ms的段宽可对识别口头用户请求的起点或终点的分辨率和精度产生不利影响。因此，在需要精确稳健地确定起点或终点的应用中，仅基于第二可能性来识别起点或终点可能是不可取的。

在识别起点或终点时，同时利用第一可能性和第二可能性两者能获得更大的知识库。第一可能性可用于精确识别起点和终点，而第二可能性可用于将授权用户的语音与其他人类语音(例如，多路重合噪声)区分开。因此，至少部分地基于第一可能性和第二可能性来识别起点或终点可得到更高的准确性和稳健性。

1.语音信号的稳健起点指示或终点指示过程

图1示出了使用说话者识别的语音信号的稳健端点指示的示例性过程100。图2A-图2D示出了表示使用本文所描述的说话者识别的语音信号的稳健端点指示过程的各个方面的波形。同时参见图1和图2A-图2D描述过程100。

在过程100的框102处可接收音频流。音频流还可以称为音频输入。音频流可作为原声波、音频文件或者以代表性音频信号(模拟或数字)的形式被接收。在一些示例中，可在用户设备(例如，下文描述的用户设备302)处接收音频流。在其他示例中，可在远程系统诸如服务器(例如，下文描述的服务器系统310或虚拟助理服务器314)处接收音频流。音频流可包括用户语音，诸如，口头用户请求。用户语音可包括授权用户的口头用户请求。在一个示例中，授权用户可以是与接收音频流的用户设备密切相关联的用户(例如，用户设备的所有者或主要使用者)。在另一个示例中，授权用户可以是与语音模型相关联的用户，该语音模型在过程100的框106处用于确定第二可能性。在另一个示例中，授权用户可以是共享用户设备的一组有限的注册用户中的一者。音频流可还包括背景噪声，诸如，音乐、机械噪声、环境噪声和多路重合噪声。背景噪声可至少部分地与用户语音重叠。

图2A示出了波形202，该波形表示可在过程100的框102处接收到的时域中的示例性音频流。在该示例中，音频流包括第一部分206、第二部分204和第三部分208。如波形202所示，从时间220到时间218的音频流第一部分206可既不包括用户语音，也不包括多路重合噪声。从时间218到时间222的第一部分206的其余部分可包括多路重合噪声。多路重合噪声可与用户语音享有相同的频谱。

如波形202所示，从时间222到时间224的音频流第二部分204可包括用户语音。具体地讲，用户语音可包括来自用户设备授权用户的口头用户请求。在一些情况下，第二部分204可包括与用户语音重叠的多路重合噪声。在该示例中，第一部分206的多路重合噪声和第二部分204的用户语音或多路重合噪声可以是连续的。在音频流第三部分208，多路重合噪声可在时间224到时间214时最小，并且可在时间214到时间226变得较为显着。在时间226，多路重合噪声可结束，并且第三部分208的剩余部分可既不包括多路重合噪声，也不包括用户语音。

在过程100的框104处，可确定音频流包括用户语音的第一可能性。在一些示例中，第一可能性可由用户设备(例如，下文描述的用户设备302)确定。在其他示例中，第一可能性可由远程系统来确定，该远程系统为诸如服务器(例如，下文描述的服务器系统310或虚拟助理服务器314)。第一可能性可表示音频流包括用户语音的概率或确定性。第一可能性的范围可在上限(例如，一)和下限(例如，零)之间。上限可表示音频流肯定包括用户语音，而下限可表示音频流肯定不包括用户语音。

可至少部分地基于音频流的一个或多个特征诸如时域和/或频域特征来确定第一可能性。时域特征可包括例如过零率、短时能量、频谱能量、频谱平坦度和自相关。频域特征可包括例如梅尔频率倒谱系数、线性预测倒谱系数和梅尔频率离散小波系数。

在一些示例中，可至少部分地基于音频流的能量水平来确定第一可能性。在一个示例中，可基于能量水平小于或等于下限阈值能量水平来确定第一可能性等于下限。相似地，基于能量水平大于或等于上限阈值能量水平，可确定第一可能性等于上限。对介于上限阈值能量水平和下限阈值能量水平之间的能量水平，可确定第一可能性介于上限和下限之间，其中针对较高能量水平所确定的第一可能性较高。在一些情况下，能量水平可指预先确定的频率范围内的能量水平(例如，频谱能量)。预先确定的频率范围可包括例如人类语音的频率范围(例如，50-500Hz)。

确定第一可能性可包括将音频流的一个或多个特征与一个或多个预先确定的模型进行比较。例如，第一可能性可至少部分地基于预先确定的静音/背景模型和人类语音模型。具有更加类似于人类语音模型的特征的音频流部分，可被确定为包括用户语音的第一可能性更高。相反地，具有更加类似于静音/背景模型模型的特征的音频流部分，可被确定为包括用户语音的第一可能性更低。人类语音模型可至少部分地基于一个或多个先前接收到的人类语音样本。在一个示例中，人类语音模型可至少部分地基于先前接收到的用户语音样本。具体地讲，人类语音模型可以是使用从人类语音的一个或多个音频样本提取的特征来构建的高斯混合模型。静音/背景模型可至少部分地基于一个或多个先前接收到的背景噪声的音频样本。在一个示例中，静音/背景模型可至少部分地基于不包含用户语音的音频流的第一部分(例如，音频流的前5ms-20ms)。具体地讲，静音/背景模型可以是使用从一个或多个静音和/或背景噪声的音频样本提取的特征来构建的高斯混合模型。在一些示例中，第一可能性可以是基于一个或多个预先确定的模型的输出的对数似然比。

如上所述，确定第一可能性可包括对音频流执行短时频谱分析。例如，至少一部分音频流可被划分为音频帧，其中每个音频帧都具有预先确定的帧宽度。帧宽度是指每帧音频的持续时间。在一个示例中，每个音频帧预先确定的帧宽度可以是5ms-40ms。该持续时间内的帧宽度在提供更大分析分辨率方面可以是有利的，从而使得端点检测精度更高。音频帧可按预先确定的量移位，从而使得相邻的音频帧彼此重叠。在一个示例中，音频帧可移位约5ms-15ms，并且相邻的音频帧可彼此重叠约15ms-25ms。可至少部分地基于一个或多个时域或频域特征来分析用户语音的每帧音频。因此，确定第一可能性可包括针对音频流的每个音频帧确定该音频帧包括用户语音的可能性。在特定示例中，确定第一可能性可包括确定多个音频帧中的音频帧包括用户语音的可能性。

图2B示出了表示可在过程100的框104处确定的示例性第一可能性的波形210。第一可能性可以是由波形202表示的音频流包括用户语音的可能性。在该示例中，第一可能性可至少部分地基于在人类语音频率范围内的音频流的能量水平。

在本示例中，第一阈值L1 212可以是基于第一可能性来确定音频流是否包括用户语音的预先确定的阈值。例如，第一可能性大于或等于第一阈值L1 212长于阈值持续时间的音频流部分可被确定为包括用户语音。

如波形210所示，当音频流能量水平由于用户语音和多路重合噪声两者都不存在而为最小时，第一可能性可被确定为明显低于时间220到时间218的第一阈值L1 212。在时间218，由于存在多路重合噪声，第一可能性可增大并超过第一阈值L1 212。对于第一部分206的剩余部分，多路重合噪声可继续存在，因此在整个该时间段内第一可能性可保持高于第一阈值L1 212。如上所述，多路重合噪声与用户语音可包含类似的频谱能量，因此该时间段内的多路重合噪声可被错误地确定为用户语音。另外，如果起点指示仅基于第一可能性，则第一可能性在时间218从低于第一阈值L1 212过渡到高于该第一阈值的情况可被错误地识别为起点。

在从时间222到时间224的音频流的第二部分204，由于音频流中存在用户语音，第一可能性可被确定为超过第一阈值L1 212。因为第二部分204的用户语音与第一部分206的多路重合噪声是连续的，所以从时间218到时间222第一可能性没有明显变化。因此，仅基于第一可能性，可能难以在时间222准确识别实际起点。

如波形210所示，从时间224到时间214，当用户语音结束并且多路重合噪声最小时，第一可能性可略低于第一阈值L1 212。由于第一可能性的下降是短暂且不明显的，因此可能难以确定该下降是用户语音中的自然停顿还是用户语音的终点。因此，仅基于第一可能性，可能难以识别在时间224的实际终点。

在时间214到时间226，由于音频流中存在大量的多路重合噪声，第一可能性可超过第一阈值L1 212。如上所述，多路重合噪声与用户语音可具有类似的频谱能量，因此该时间段内的多路重合噪声可被错误地确定为用户语音。在时间226，当多路重合噪声结束并且不存在用户语音时，第一可能性可降低至明显低于第一阈值L1 212的值，并在第三部分208的其余部分保持在较低值。如果终点指示仅基于第一可能性，则第一可能性在时间226从高于第一阈值L1 212过渡到低于该第一阈值的情况可被错误地识别为终点。

虽然在该示例中，第一可能性可与第一阈值L1 212进行比较来确定音频流是否包括用户语音，但是应当认识到，在其他示例中，可对第一可能性应用任何预先确定的规则或逻辑条件来确定音频流是否包括用户语音。

此外，在一些示例中，可仅针对音频流的一部分或多个部分而确定第一可能性。在一个此类示例中，可利用音频流的第一部分来确定音频流的基线能量水平。第一部分可包括音频流中存在用户语音的可能性原本较低的一部分。例如，第一部分可包括音频流的首个5ms-20ms。因此，可仅针对音频流第一部分之后的第二部分而确定第一可能性。在一些情况下，可利用基线能量水平来生成静音/背景模型。

在过程100的框106处，可确定音频流包括授权用户说出的用户语音的第二可能性。在一些示例中，第二可能性可由用户设备(例如，如下所述的用户设备302)来确定。在其他示例中，第二可能性可由远程系统来确定，该远程系统为诸如服务器(例如，如下所述的服务器系统310或虚拟助理服务器314)。第二可能性可表示音频流包括授权用户说出的用户语音的概率或确定性。如上所述，授权用户可以是与用于确定第二可能性的语音模型相关联的用户。在一些示例中，授权用户可以是与接收音频流的用户设备密切相关联的用户(例如，用户设备的所有者或主要使用者)。在其他示例中，授权用户可以是共享用户设备的一组有限的注册用户中的一者。在某些情况下，该组有限的注册用户少于10个用户。在其他情况下，该组有限的注册用户少于5个用户。

第二可能性可通过执行语音认证来确定。例如，确定第二可能性可包括将音频流的特征与一个或多个语音模型(例如，高斯混合模型、隐马尔可夫模型或神经网络)的特征进行比较。在一个示例中，第二可能性可至少部分地基于预先确定的通用背景模型和预先确定的授权用户语音模型。对于更加类似于语音模型的音频流部分，可确定较高的第二可能性。相反地，对于更加类似于通用背景模型的音频流部分，可确定较低的第二可能性。通用背景模型可表示一般的人类语音特征，并且可至少部分地基于各种人类语音。语音模型可表示授权用户的个体语音特征，并且可至少部分地基于授权用户的语音。具体地讲，语音模型可至少部分地基于在接收到音频流之前接收到的授权用户的语音。在一些示例中，第二可能性可以是对数似然比或线性逻辑回归，其基于通用背景模型和语音模型之间的可能性比较。

如上所述，确定第二可能性可包括将音频流划分为具有预先确定的片段宽度的音频片段。段宽度是指每个音频片段的持续时间。相邻片段可按预先确定的量重叠，以便能够在整个音频流进行连续采样。在一些示例中，可分析每个音频段来确定该音频段包括授权用户说出的用户语音的可能性。在这些示例中，可通过将音频段的特征与一个或多个语音模型的特征进行比较，来分析授权用户说出的用户语音的每个音频段的特征。每个音频段的特征可为时域特征或频域特征。因此，确定第二可能性可包括针对每个音频段确定该音频段包括授权用户说出的用户语音的可能性。具体地讲，确定第二可能性可包括确定多个音频段中的音频段包括用户语音的可能性。

在其他示例中，每段音频可包括多个音频帧。在这些示例中，可分析每个音频段内的每个音频帧，以确定该音频帧包括授权用户说出的用户语音的可能性。然后可基于所确定的每个音频段内的音频帧的可能性来确定音频段包括授权用户说出的用户语音的可能性。在一个此类示例中，可通过对音频段内音频帧所确定的可能性求平均数来确定音频段包括授权用户说出的用户语音的可能性。

段宽度可影响所确定的第二可能性的置信度以及起点指示或终点指示的精度。小于50ms的段宽度可导致每个音频段中出现显著噪声，并因此导致所确定的第二可能性的置信度较低。然而，大于500ms的段宽度可导致分析分辨率差，从而导致起点指示或终点指示的不确定性更大。在一个示例中，用于确定第二可能性的预先确定的段宽度可比用于确定第一可能性的预先确定的帧宽度至少大五倍。在另一个示例中，每段音频预先确定的段宽度可为100ms-300ms。

图2C示出了表示可在过程100的框106处确定的示例性第二可能性的波形230。波形230所示的第二可能性可以是由波形202表示的音频流包括授权用户说出的用户语音的可能性。在该示例中，第二可能性可至少部分地基于一个或多个语音模型，诸如预先确定的通用背景模型和预先确定的授权用户语音模型。

在本示例中，第二阈值L2 216可以是基于第二可能性来确定音频流是否包括授权用户说出的用户语音的预先确定的阈值。例如，第二可能性大于或等于第二阈值L2 216长于阈值持续时间的音频流部分可被确定为包括授权用户说出的用户语音。

如波形230所示，在从时间220到时间222的音频流第一部分206的大部分中，第二可能性可明显低于第二阈值L2 216。要注意的是，与第一可能性不同，尽管在时间218至时间222之间音频流中存在多路重合噪声，但第二可能性仍然可保持为明显低于第二阈值L2216。如先前所述，多路重合噪声的语音特征可与授权用户的语音特征完全不同。因此，由于音频流中的多路重合噪声与授权用户的语音模型匹配不佳，故而在该时间段第二可能性可较低。

在时间222，由于多路重合噪声停止而用户语音开始出现，因此第二可能性可增大并超过第二阈值L2 216。用户语音的语音特征可与授权用户语音模型的语音特征十分匹配。因此，如波形230所示，当音频流包括授权人的用户语音时，第二可能性可在时间222至时间224保持高于第二阈值L2 216。

如波形230所示，当用户语音结束时，第二可能性在时间224处降低至明显低于第二阈值L2 216。要注意的是，与第一可能性不同，即使多路重合噪声很大，第二可能性也可在时间214至时间226保持在较低程度。如先前所述，多路重合噪声的语音特征可与授权用户的语音特征完全不同。因此，由于音频流中的多路重合噪声与授权用户的语音模型匹配不佳，故而在该时间段第二可能性可较低。

虽然在该示例中，第二可能性可与第二阈值L1 212进行比较来确定音频流是否包括授权用户说出的用户语音，但是应当认识到，在其他示例中，可对第二可能性应用任何预先确定的规则或逻辑条件来确定音频流是否包括授权用户说出的用户语音。

此外，在一些示例中，可仅针对音频流的一部分或多个部分而确定第二可能性。可至少部分地基于第一可能性来选择音频流中要确定第二可能性的一部分或多个部分。在一个示例中，可确定第一可能性超过上限阈值长于从第一时间开始的阈值持续时间。在这样的示例中，可仅针对音频流中第一时间之后的部分而确定第二可能性。在另一个示例中，可仅在音频流中的某些部分中确定第二可能性，其中第一可能性针对所述部分被确定为超过上限阈值长于阈值持续时间。

在一些示例中，可在独立的时间开始确定第一可能性和第二可能性。在一个此类示例中，可在确定音频流一部分的第一可能性之后开始确定第二可能性。具体地讲，只有在确定音频帧包括用户语音的第一可能性之后，才可确定任何音频段包括授权用户说出的用户语音的第二可能性。

在其他示例中，仅当满足预先确定的条件时才可确定第二可能性。在一个此类示例中，可响应于音频流能量水平超过阈值能量水平长于阈值持续时间限制来确定第二可能性。在另一个示例中，可响应于第一可能性超过上限阈值水平长于阈值持续时间来确定第二可能性。在又一个示例中，可响应于音频流能量水平超过阈值能量水平长于阈值持续时间而对音频流执行说话者认证。执行说话者认证可包括确定音频流包括授权用户说出的用户语音的第二可能性。

在过程100的框108处，可至少部分地基于第一可能性和第二可能性来识别口头用户请求的起点或终点。在一些示例中，框108可由用户设备(例如，如下所述的用户设备302)来执行。在其他示例中，框108可由远程系统来执行，该远程系统为诸如服务器(例如，如下所述的服务器系统310或虚拟助理服务器314)。如先前所述，第一可能性和第二可能性可提供更大的知识库，因此可更加准确稳健地识别起点或终点。

在一些示例中，可至少部分地基于第一可能性和第二可能性来确定组合可能性。组合可能性可表示音频流包括授权用户说出的用户语音的概率或确定性。在组合可能性是第一可能性和第二可能性的函数的情况下，组合可能性可以是第一可能性和第二可能性的数学组合。在一些示例中，组合可能性可以是第一可能性和第二可能性的加权平均值。在计算加权平均值时，应用于第一可能性的权重可不同于应用于第二可能性的权重。作为另外一种选择，应用于第一可能性的权重可等于应用于第二可能性的权重。应用于第一可能性和第二可能性的权重可根据用于执行过程100的设备而变化。

在一些示例中，在确定组合可能性时应用于第一可能性和第二可能性的权重可基于第一可能性和第二可能性的相对值而变化。例如，当第二可能性与第一可能性正相关时，与第二可能性相比，可对第一可能性应用更大的权重。第二可能性与第一可能性正相关的一个示例是，在第一可能性跨第一阈值转变之前或之后，第二可能性在预先确定的持续时间(例如，100ms-800ms)内跨第二阈值转变。由于第一可能性更加精确的性质，因此对第一可能性应用更大的权重可使组合可能性更精确。在另一个示例中，当第二可能性与第一可能性负相关时，与第一可能性相比，可对第二可能性应用更大的权重。与第一可能性负相关的第二可能性的一个示例是，在第一可能性跨第一阈值转变之前或之后，第二可能性在预先确定的持续时间(例如，100ms-800ms)内不跨第二阈值转变。由于第二可能性更准确的性质，对第二可能性应用更大的权重可使组合可能性更准确。

可基于组合可能性来识别口头用户请求的起点或终点。在一个示例中，可部分地基于将组合可能性与预先确定的阈值进行比较来识别起点或终点。例如，可基于组合可能性从低于预先确定的阈值转变到高于预先确定的阈值、并保持高于预先确定的阈值长于预先确定的持续时间的时间来确定起点。相似地，可基于组合可能性从高于预先确定的阈值转变到低于预先确定的阈值、并保持低于预先确定的阈值长于预先确定的持续时间的时间来确定终点。在另一个示例中，可部分地基于组合可能性的变化的速率来识别起点或终点。例如，可基于组合可能性在预先确定的持续时间内增大超过预先确定的量的时间来识别起点。相似地，可基于组合可能性在预先确定的持续时间内降低超过预先确定的量的时间来识别终点。应当理解，可对组合可能性应用任何合适的预先确定的规则或逻辑条件，以识别口头用户请求的起点或终点。

参见图2D，波形232可表示第一可能性(图2B)和第二可能性(图2C)的组合可能性。在过程100的框108处，识别起点或终点可至少部分地基于波形232所示的组合可能性。在该示例中，可基于比较组合可能性与第三阈值L3 234来识别起点或终点。例如，如上所述，可基于组合可能性从低于第三阈值L3 234转变到高于第三阈值、并保持高于第三阈值L3 234长于预先确定的持续时间的时间来识别起点。相似地，可基于组合可能性从高于第三阈值L3 234转变到低于第三阈值、并保持低于第三阈值L3 234长于预先确定的持续时间的时间来识别终点。

可同时参见图2B-图2D来描述波形232。从时间220到时间218，第一可能性(波形210)和第二可能性(波形230)可分别明显低于第一阈值L1 212和第二阈值L2 216。初始权重可应用于第一可能性和第二可能性，以确定组合可能性。应用于第一可能性的初始权重可等于或不同于应用于第二可能性的权重。如波形232所示，基于第一可能性和第二可能性，可确定组合可能性在时间220到时间218明显低于第三阈值L3 234。

在时间218，当多路重合噪声开始出现时，第一可能性可从低于第一阈值L1 212转变到高于第一阈值，并在时间218到时间222期间保持高于第一阈值L1 212。在此期间，由于多路重合噪声与授权用户的语音模型之间匹配不佳，因此第二可能性可保持为明显低于第二阈值L2 216。因此，第二可能性可与第一可能性负相关，其中第二可能性在时间218之前或之后的预先确定的持续时间内不从低于第二阈值L2 216转变为高于该第二阈值。因此，在时间218或在时间218之前50ms-500ms开始确定组合可能性时，相比于第一可能性可对第二可能性应用更大的权重。因此，尽管在此期间第一可能性超过第一阈值L1 212，但可确定组合可能性在时间218到时间222期间保持为明显低于第三阈值L3 234。

在时间222，当用户语音开始出现时，由于用户语音与授权用户的语音模型十分匹配，因此第二可能性可从低于第二阈值L2 216转变为高于该第二阈值。由于对第二可能性应用了较大的权重，因此可确定组合可能性在时间222从低于第三阈值L3 234增大到高于该第三阈值。如波形232所示，基于在此期间第一可能性和第二可能性分别高于第一阈值L1212和第二可能性，组合可能性在第二部分204可保持高于第三阈值L3 234。基于组合可能性在时间222从低于第三阈值L3 234转变到高于该第三阈值、并保持高于第三阈值L3 234长于预先确定的持续时间，可将音频流中的口头用户请求的起点准确地识别为时间222。

在时间224，当用户语音结束时，第一可能性可略微下降，从而使得其从高于第一阈值L1 212转变到低于该第一阈值。第二可能性与第一可能性正相关，其中第二可能性在时间224之前或之后的预先确定的持续时间内从低于第二阈值L2 216转变到高于该第二阈值。因此，在时间224或在时间224之前50ms-500ms开始确定组合可能性时，相比于第二可能性可对第一可能性应用更大的权重。这对更高精度的实现起点或终点检测可能是可取的。如波形232所示，可确定组合可能性在时间224从高于第三阈值L3 234转变到低于该第三阈值，并在时间224到时间214期间保持低于第三阈值L3 234。因此，基于组合可能性在时间224从高于第三阈值L3 234转变到低于该第三阈值、并保持低于第三阈值L3 234长于预先确定的持续时间，可将音频流中的口头用户请求的终点准确地识别为时间224。

在时间214，由于存在多路重合噪声，第一可能性可从低于第一阈值L1 212转变到高于该第一阈值。相比之下，由于多路重合噪声与授权用户的语音模型之间匹配不佳，因此第二可能性在时间214可保持为明显低于第二阈值L2 216。因此，第二可能性与第一可能性负相关，其中第二可能性在时间214之前或之后的预先确定的持续时间内不从低于第二阈值L2 216转变为高于该第二阈值。因此，在时间214或在时间214之前50ms-500ms开始确定组合可能性时，相比于第一可能性可对第二可能性应用更大的权重。这对实现更高准确度的起点或终点检测可能是可取的。因此，尽管在此期间第一可能性超过第一阈值L1 212，但可确定组合可能性在时间214到时间226期间保持为明显低于第三阈值L3 234。

在时间226，当多路重合噪声结束时，第一可能性可从高于第一阈值L1 212转变到低于该第一阈值，并且在部分208的其余部分保持低于第一阈值L1 212。第二可能性在第三部分208中保持为明显低于第二阈值L2 216。如波形232所示，基于第一可能性和第二可能性在从时间226到时间228分别明显低于第一阈值L1 212和第二阈值L2 216，可确定组合可能性在此期间保持为明显低于第三阈值L3 234。

虽然在上述示例中，基于第二可能性与第一可能性是正相关还是负相关，应用于确定组合可能性的第一可能性与第二可能性的权重可在整个音频流上变化，但是应当认识到，在其他示例中，权重可基于优化起点和终点检测准确度和精度所需的各种其他因素。在一些示例中，应用于第一可能性和第二可能性的权重可在整个音频流上恒定不变。另外，应当认识到，可利用各种其他合适的定义来确定第二可能性与第一可能性是正相关还是负相关。

此外，应当认识到，当口头用户请求由授权用户说出时，至少部分地基于第一可能性和第二可能性来识别起点或终点可能更有利。当口头用户请求由未经授权的用户说出时，至少部分地基于第一可能性和第二可能性来识别起点和终点所产生的结果可能不太理想。这可能是因为第二可能性将授权用户说出的语音与其他人类语音进行了区分，从而导致未经授权的用户的口头用户请求的第二可能性低，从而导致组合可能性也低。因此，至少部分地基于第一可能性和第二可能性来识别起点或终点，对具有大量通用用户的设备可能不太适合，而对其中与设备(例如，个人移动设备)密切相关联的授权用户数目有限的设备更加适用。

虽然在图1中以特定顺序示出了过程100的框102、104、106和108，但应当理解，这些框可按任何顺序执行。例如，在一些示例中，可在框104之前执行框106。此外，虽然上文参见框102、104、106和108描述了过程100，但应当理解，在一些情况下，过程100的一个或多个框可以是可选的，并且还可执行附加的框。例如，在一些示例中，过程100可包括接收开始记录音频流的信号。在一个示例中，可响应于接收到开始记录音频流的信号而在框102处执行音频流的接收。在特定示例中，可响应于用户设备接收到开始记录音频流的信号，而由用户设备在框102处执行音频流的接收。

在其他示例中，过程100可包括在框102处接收停止记录音频流的信号。在一个示例中，在框102处，可响应于接收到停止记录的信号而停止接收音频流。在特定示例中，在框102处，响应于用户设备接收到停止记录的信号，该用户设备可停止接收音频流。在一个示例中，可响应于识别口头用户请求的终点而接收停止记录的信号。在另一个示例中，可响应于框102处的音频流超过预先确定的持续时间而接收停止记录的信号。音频流可以指用户设备在从接收到开始记录的信号至接收到停止记录的信号的时间内所接收的音频输入。

另外，过程100可包括基于音频流第一部分的能量水平来确定音频流的基线能量水平。例如，当存在用户语音可能性原本较低时，可基于音频流前5ms-20ms的能量水平来确定基线能量水平。在一些示例中，在框104处，可基于音频流第二部分的能量水平来确定第一可能性。第二部分可以是音频流第一部分之后的音频流的一部分。

在一些示例中，过程100可还包括响应于基线能量水平超过阈值能量水平，从而对音频流第二部分执行说话者认证。可执行说话者认证来确定音频流包括授权用户说出的语音的第二可能性。在一些情况下，说话者认证可包括确定音频流包括授权用户说出的语音的第二可能性。

如上所述，参见过程100的框106，第二可能性可至少部分地基于一个或多个语音模型，诸如通用背景模型和授权用户的语音模型。在一些情况下，过程100可包括至少部分地基于音频流的一部分来更新语音模型。例如，可至少部分地基于第一可能性和第二可能性来识别口头用户请求的起点或终点。然后可至少部分地基于口头用户请求来更新授权用户的语音模型。

2.系统和环境

图3示出了根据各种示例的示例性系统300，该系统用于执行为有效的语音和音乐识别而分析音频输入的各个方面。系统300可能够实现使用说话者识别的语音信号的稳健起点指示或终点指示。具体地讲，系统300能够识别音频流中的口头用户请求的起点或终点。例如，系统300可实现能够执行上述过程100的虚拟助理。术语“虚拟助理”、“数字助理”、“智能自动化助理”或“自动数字助理”可以是指可解释口头和/或文本形式的自然语言输入以推断用户意图，并基于推断出的用户意图来执行动作的任何信息处理系统(例如，系统300)。

虚拟助理能够分析包括口头用户请求的音频流。具体地讲，虚拟助理可识别口头用户请求的起点或终点，并对口头用户请求执行语音识别，以便获得口头用户请求的文本表示。可分析文本表示来推断用户意图。然后，虚拟助理可对推断出的用户意图进行操作，该操作通过执行以下内容中的一个或多个：通过设计用以实现所推断出的用户意图的步骤和参数来识别任务流，将来自推断出的用户意图的具体要求输入到任务流中；通过调用程序、方法、服务、API等来执行任务流；以及生成对用户的听觉(例如，语音)和/或视觉形式的输出响应。

在申请人于2011年1月10日提交的标题为“Intelligent Automated Assistant”的美国实用新型申请序列号12/987,982中描述了虚拟助理的一个示例，该专利的全部公开内容以引用方式并入本文。

如图3所示，在一些示例中，虚拟助理可根据客户端-服务器模型来实施。虚拟助理可包括在用户设备302上执行的客户端侧部分，以及在服务器系统310上执行的服务器侧部分。用户设备302可包括任何电子设备，诸如，移动电话、平板电脑、便携式媒体播放器、台式计算机、膝上型计算机、PDA、电视、电视机顶盒、可穿戴电子设备等，并且可通过一个或多个网络308与服务器系统310通信，该服务器系统可包括因特网、内联网或任何其他有线或无线公共或专用网络。下文参见图4提供了用户设备302的详细描述。在用户设备302上执行的客户端侧部分可提供客户端侧功能，诸如，面向用户的输入和输出处理以及与服务器系统310的通信。服务器系统310可为任意数量的客户端提供服务器侧功能，所述任意数量的客户端各自位于相应的用户设备302上。

服务器系统310可包括一个或多个虚拟助理服务器314。如图3所示，虚拟助理服务器314包括存储器328、一个或多个处理器326、面向客户端的I/O接口322和到外部服务的I/O接口316。虚拟助理服务器314的各种部件可通过一个或多个通信总线或信号线耦接在一起。存储器328或存储器328的计算机可读存储介质可包括一个或多个处理模块318及数据和模型存储器320。一个或多个处理模块318可包括各种程序和指令。一个或多个处理器326可执行一个或多个处理模块328的程序和指令，并且向/从数据和模型存储器320读出/写入。在本文的上下文中，“非暂态计算机可读存储介质”可以是可包含或存储程序以供指令执行系统、装置和设备使用或与其结合的任何介质。

在一些示例中，一个或多个处理模块318可包括用于执行上述过程100的各个方面的各种程序和指令。具体地讲，一个或多个处理模块318可包括音频预处理模块、语音转文本处理模块、自然语言处理模块、任务流处理模块和服务处理模块。音频预处理模块可包括用于执行上述过程100的各个方面的指令。语音转文本处理模块可包括用于转录音频输入中的语音话语的指令，并且自然语言处理模块可包括用于从转录的语音话语中推断用户意图的指令。任务流处理模块和服务处理模块可包括指令，该指令用于识别完成推断出的用户意图的任务流、将来自推断出的用户意图的特定要求输入任务流中、执行任务流并生成与语音话语相关的输出响应。数据和模型320可包括在执行过程100的多个方面时可访问或参考的各种用户数据和模型(例如，人类语音模型、授权用户的语音模型、静音/背景模型、通用背景模型、任务流模型和服务模型)。

在一些示例中，虚拟助理服务器314可通过用于完成任务或获取信息的网络308而与外部服务324通信，该外部服务为诸如电话服务、日历服务、信息服务、消息服务、导航服务等。到外部服务的I/O接口316可促成此类通信。服务器系统310可在一个或多个独立式数据处理设备或计算机的分布式网络上实施。在一些示例中，服务器系统310可采用第三方服务提供方(例如，第三方云服务提供方)的各种虚拟设备和/或服务来提供服务器系统310的潜在计算资源和/或基础结构资源。

尽管在该示例中，系统300被描述为能够通过虚拟助理来执行过程100的各个方面，但是应当认识到，在其他示例中，系统300可实现能够执行过程100的各个方面的各种其他语音处理应用。

此外，虽然在图3中示出虚拟助理的功能既包括客户端侧部分，也包括服务器侧部分，但在一些示例中，助理的功能(包括上述过程100的功能)可作为安装在用户设备上的独立应用而实现。此外，虚拟助理的客户端部分与服务器部分之间的功能划分在不同的示例中可变化。例如，在一些示例中，一个或多个处理模块318以及数据和模型320可被存储在用户设备302的存储器中，以使得用户设备302能够执行与虚拟助理相关联的更大比例的功能或所有的功能(以及过程100)。在其他示例中，在用户设备302上执行的客户端可为仅提供面向用户的输入和输出处理功能，且将虚拟助理(和过程100)的所有其他功能委派给后端服务器的瘦客户端。

3.用户设备

图4为根据各种示例的用户设备302的功能框图。如图所示，用户设备302可包括存储器接口402、一个或多个处理器404、以及外围设备接口406。用户设备302中的各种部件可由一条或多条通信总线或信号线耦接到一起。用户设备302可还包括各种传感器、子系统、以及耦接至外围设备接口406的外围设备。传感器、子系统、以及外围设备采集信息并且/或者促成用户设备302的各种功能。

例如，用户设备302可包括运动传感器410、光传感器412、以及接近传感器414，该接近传感器耦接至外围设备接口406以方便取向、照明和接近感测功能。一个或多个其他传感器416，诸如定位系统(例如，GPS接收器)、温度传感器、生物计量传感器、陀螺仪、指南针、加速度计等，也连接至外围设备接口406，以促成相关功能。

在一些示例中，照相机子系统420和光学传感器422可用于促成相机功能，诸如拍摄照片和记录视频剪辑。可通过一个或多个有线和/或无线通信子系统424来促进通信功能，该无线通信子系统可包括各种通信端口、射频接收器和发射器、和/或光学(例如，红外)接收器和发射器。可将音频子系统426耦接到扬声器428和麦克风430以方便启用音频的功能，诸如语音识别、音乐识别、语音复制、数字记录和电话功能。例如，在过程100的框102处，用户设备302可经由麦克风430接收音频流。麦克风430可将音频流转换为代表性音频信号(数字或模拟)。在经音频分析或处理之前，代表性音频信号可被临时存储在存储缓冲器中。存储缓冲器可包括存储器450，或者可包括音频子系统426的独立存储器。

在一些示例中，用户设备302可还包括耦接到外围设备接口406的I/O子系统440。I/O子系统440可包括触摸屏控制器442和/或其他输入控制器444。触摸屏控制器442可耦接至触摸屏446。触摸屏446和触摸屏控制器442例如可使用多种触摸灵敏度技术中的任一种来检测接触和移动或它们的间断，所述多种触摸灵敏度技术诸如电容技术、电阻技术、红外技术、表面声波技术、接近传感器阵列等。可将其他输入控制器444耦接到其他输入/控制设备448，例如一个或多个按钮、摇臂开关、拇指滚轮、红外端口、USB端口和/或指针设备(如触笔)。在一些示例中，用户设备402可经由到触摸屏446(例如，虚拟按钮)或其他输入/控制设备448的输入来接收开始或停止接收音频输入的信号。

在一些示例中，用户设备302可还包括耦接到存储器450的存储器接口402。存储器450可包括任一种电子、磁性、光学、电磁、红外或半导体系统、装置或设备，便携式计算机磁盘(磁性)、随机存取存储器(RAM)(磁性)、只读存储器(ROM)(磁性)、可擦除可编程只读存储器(EPROM)(磁性)、便携式光盘诸如CD、CD-R、CD-RW、DVD、DVD-R或DVD-RW，或闪存存储器诸如紧凑型闪存卡、安全数字卡、USB存储设备、记忆棒等。在一些示例中，存储器450的非暂态计算机可读存储介质可用于存储指令(例如，用于执行上述过程100)，以供指令执行系统、装置或设备诸如基于计算机的系统、包含处理器的系统或可从指令执行系统、装置或设备获取指令并执行指令的其他系统使用或与其结合。在其他示例中，指令(例如，用于执行上述过程100的指令)可存储在服务器系统310的非暂态计算机可读存储介质上，或者被分开存储在存储器450的非暂态计算机可读存储介质和服务器系统310的非暂态计算机可读存储介质上。

在一些示例中，存储器450可存储操作系统452、通信模块454、图形用户界面模块456、传感器处理模块458、电话模块460和应用程序462。操作系统452可包括用于处理基础系统服务以及用于执行硬件相关任务的指令。通信模块454可促成与一个或多个附加设备、一个或多个计算机和/或一个或多个服务器的通信。图形用户界面模块456可促成图形用户界面的处理。传感器处理模块458可促成与传感器相关的处理和功能。电话模块460可促成与电话相关的过程和功能。应用程序模块462可促成用户应用程序的各种功能，诸如电子消息传送、网页浏览、媒体处理、导航、成像和/或其他过程和功能。

如本文所述，存储器450可还存储客户端侧虚拟助理指令(例如，在虚拟助理客户端模块464中)和各种用户数据和模型466，以提供虚拟助理的客户端侧功能。用户数据和模型466可包括特定于用户的词汇数据、偏好数据和/或其他数据，诸如，用户的电子通讯录、待办事项列表、购物清单等。另外，用户数据和模型466可包括人类语音模型、用户设备302的授权用户的语音模型、静音/背景模型、通用背景模型、任务流模型和服务模型。虚拟助理客户端模块464可包括用于执行上述过程100各个方面的模块、指令和程序。在一些情况下，用于执行过程100各个方面的指令可存储在存储器450中的独立模块中。例如，应用程序模块可包括利用语音处理的程序。此类程序可包括执行过程100各个方面的指令。

在各种示例中，虚拟助理客户端模块464可包括指令，该指令用于通过用户设备104的各种用户界面(例如，I/O子系统440、音频子系统426等)接受音频输入(例如，语音和/音乐输入)、文本输入、触摸输入和/或手势输入。虚拟助理客户端模块464可还包括用于提供音频(例如，语音和/音乐输出)、视觉和/或触觉形式的输出的指令。例如，可将输出提供为语音、音乐、声音、警报、文本消息、菜单、图形、视频、动画、振动、和/或以上两者或更多者的组合。在操作期间，用户设备302可使用通信子系统424与虚拟助理服务器通信，以执行与虚拟助理相关联的功能。

在各种示例中，存储器450可包括另外的指令或更少的指令。此外，可在硬件和/或固件中包括在一个或多个信号处理和/或专用集成电路中执行用户设备302的各种功能。

4.电子设备

图5示出了根据各种所述示例的原理进行配置的电子设备500的功能框图。该设备的功能块可任选地由执行各种所述示例的原理的硬件、软件、或硬件和软件的组合来实现。本领域的技术人员应当理解，图5中所述的功能块可任选地被组合或被分离为子块，以便实现各种所述示例的原理。因此，本文的描述任选地支持本文所述的功能块的任何可能的组合或分离或进一步限定。

如图5所示，电子设备500可包括被配置为显示用户界面和接收触摸输入的触摸屏显示单元502，以及被配置为接收音频输入的音频接收单元504。在一些示例中，电子设备500可包括被配置为生成声音的扬声器单元506，以及被配置为接收用户输入并响应于接收到用户输入而生成信号的输入单元507。例如，信号可以是使用音频接收单元504开始记录音频输入的信号。电子设备500可还包括耦接到触摸屏显示单元502和音频接收单元504(并且可选地耦接到扬声器单元506和输入单元507)的处理单元508。在一些示例中，处理单元508可包括接收单元510、第一可能性确定单元512、第二可能性确定单元514和起点或终点识别单元516。在一些示例中，处理单元508可还包括语音模型更新单元518、信号接收单元520和基线能量确定单元522。

处理单元508可被配置为接收包括口头用户请求(例如，来自音频接收单元504并使用接收单元510)的音频流。处理单元508可被配置为(例如，使用第一可能性确定单元512)确定音频流包括用户语音的第一可能性。处理单元508可被配置为(例如，使用第二可能性确定单元514)确定音频流包括电子设备500的授权用户说出的用户语音的第二可能性。处理单元508可还被配置为(例如，使用起点或终点识别单元516)至少部分地基于第一可能性和第二可能性来识别口头用户请求的起点或终点。

在一些示例中，音频流可包括多个音频帧。在这些示例中，处理单元508可被配置为(例如，使用第一可能性确定单元512)确定多个音频帧中的音频帧包括用户语音的可能性。此外，音频流可包括多个音频段。在这些示例中，处理单元508可被配置为(例如，使用第二可能性确定单元514)确定多个音频段中的音频段包括授权用户说出的用户语音的可能性。在一些示例中，音频段的持续时间可长于音频帧的持续时间。在一个此类示例中，音频段的持续时间可比音频帧的持续时间长至少五倍。

在一些示例中，确定音频帧包括用户语音的可能性可在确定多个音频段中的任何音频段包括授权用户说出的用户语音的可能性之前执行。

在一些示例中，第一可能性可至少部分地基于音频流的能量水平。

在一些示例中，第二可能性可至少部分地基于授权用户的语音模型。语音模型可至少部分地基于在接收到音频流之前接收到的授权用户的语音。在一些示例中，处理单元508可被配置为(例如，使用语音模型更新单元518)至少部分地基于音频流的一部分来更新语音模型。

在一些示例中，授权用户可以是电子设备500的若干授权用户中的一个授权用户。

在一些示例中，处理单元508可被配置为(例如，使用第一可能性确定单元512)至少部分地基于音频流的能量水平来确定音频流包括用户语音的第一可能性。响应于能量水平超过阈值能量水平长于阈值持续时间，处理单元508可被配置为(例如，使用第二可能性确定单元514)对音频流执行说话者认证来确定音频流包括电子设备的授权用户说出的语音的第二可能性。处理单元508可被配置为(例如，使用起点或终点识别单元516)至少部分地基于第一可能性和第二可能性来识别口头用户请求的起点或终点。

在一些示例中，处理单元508可被配置为(例如，由输入单元507产生并使用信号接收单元520)接收开始记录包括口头用户请求的音频输入或音频流的信号。处理单元508可被配置为(例如，使用基线能量确定单元522)基于音频输入的第一部分的能量水平来确定音频输入的基线能量水平。处理单元508可被配置为(例如，使用第一可能性确定单元512)基于音频输入的第二部分的能量水平来确定音频输入包括用户语音的第一可能性。响应于基线能量水平超过阈值能量水平，处理单元508可被配置为(例如，使用第二可能性确定单元514)对音频输入的第二部分执行说话者认证来确定音频输入包括电子设备的授权用户说出的语音的第二可能性。处理单元508可被配置为(例如，使用起点或终点识别单元516)至少部分地基于第一可能性和第二可能性来识别口头用户请求的起点或终点。

虽然参照附图对示例进行了全面的描述，但应注意，各种变化和修改对于本领域内的技术人员而言将变得显而易见。应当理解，此类变化和修改被认为包括在由所附权利要求所限定的各种示例的范围内。

在一些情况下，上述系统、过程和设备可包括采集和使用得自各种来源的数据，以改进向用户递送其可能感兴趣的启发内容或任何其他内容。本公开预期，在一些实例中，这些所采集的数据可包括唯一地识别或可用于联系或定位特定人员的个人信息数据。此类个人信息数据可包括人口数据、基于位置的数据、电话号码、电子邮件地址、家庭地址或任何其他识别信息。

本公开认识到结合上述系统、过程和设备使用此类个人信息数据可用于使用户受益。例如，该个人信息数据可用于递送用户较感兴趣的目标内容。因此，使用此类个人信息数据使得能够对所递送的内容进行有计划的控制。此外，本公开还预期个人信息数据有益于用户的其他用途。

本公开还预期负责此类个人信息数据的收集、分析、公开、传输、存储或其他用途的实体将遵守已确立的隐私政策和/或隐私实践。具体地，此类实体应当实行并坚持使用被公认为满足或超出对维护个人信息数据的隐私性和安全性的行业或政府要求的隐私政策和实践。例如，来自用户的个人信息应当被收集用于实体的合法且合理的用途，并且不在这些合法使用之外共享或出售。另外，此类收集应当仅在用户知情同意之后进行。另外，此类实体应采取任何所需的步骤，以保障和保护对此类个人信息数据的访问，并且确保能够访问个人信息数据的其他人遵守他们的隐私政策和程序。另外，这种实体可使其本身经受第三方评估以证明其遵守广泛接受的隐私政策和实践。

不管上述情况如何，本公开还预期用户选择性地阻止使用或访问个人信息数据的示例。即本公开预期可提供硬件元件和/或软件元件，以防止或阻止对此类个人信息数据的访问。例如，就广告递送服务而言，上述系统和设备可被配置为在注册服务期间允许用户选择“加入”或“退出”参与对个人信息数据的收集。又如，用户可选择不为目标内容递送服务提供位置信息。再如，用户可选择不提供精确的位置信息，但准许传输位置区域信息。

因此，虽然本公开广泛地覆盖了使用个人信息数据来实现一个或多个各种所公开的示例，但本公开还预期各种示例也可在无需访问此类个人信息数据的情况下被实现。即，本文所公开的各种示例不会由于缺少此类个人信息数据的全部或一部分而无法正常进行。例如，可通过基于非个人信息数据或绝对最低限度的个人信息，诸如与用户相关联的设备所请求的内容、对内容传送服务可用的其他非个人信息或公开可用信息来推断偏好来选择内容并传送给用户。

Claims

1.一种用于识别口头用户请求的起点或终点的方法，所述方法包括：

在电子设备处：

接收包括所述口头用户请求的音频流；

确定所述音频流包括用户语音的第一可能性；

确定所述音频流包括由所述电子设备的授权用户说出的用户语音的第二可能性；

对所述第一可能性和所述第二可能性进行加权，包括：

根据在所述第一可能性跨第一阈值转变之前或之后所述第二可能性在第一预先确定的持续时间内跨第二阈值转变，对所述第一可能性应用比所述第二可能性更大的权重；以及

至少部分地基于加权的所述第一可能性和加权的所述第二可能性来识别所述口头用户请求的所述起点或所述终点。

2.根据权利要求1所述的方法，其中：

所述音频流包括多个音频帧；

确定所述第一可能性包括确定所述多个音频帧中的音频帧包括用户语音的可能性；

所述音频流包括多个音频段；

确定所述第二可能性包括确定所述多个音频段中的音频段包括由所述授权用户说出的用户语音的可能性；并且

所述音频段的持续时间长于所述音频帧的持续时间。

3.根据权利要求2所述的方法，其中所述音频段的所述持续时间可比所述音频帧的所述持续时间长至少五倍。

4.根据权利要求1所述的方法，其中：

所述音频流包括多个音频帧；

所述音频流包括多个音频段；

确定所述音频帧包括用户语音的所述可能性在确定所述多个音频段中的任何音频段包括由所述授权用户说出的用户语音的所述可能性之前执行。

5.根据权利要求1所述的方法，其中所述第一可能性至少部分地基于所述音频流的能量水平。

6.根据权利要求1所述的方法，其中所述第二可能性至少部分地基于所述授权用户的语音模型，并且其中所述语音模型至少部分地基于在接收到所述音频流之前接收到的所述授权用户的语音。

7.根据权利要求6所述的方法，还包括至少部分地基于所述音频流的一部分来更新所述语音模型。

8.根据权利要求1所述的方法，其中所述授权用户是所述电子设备的多个授权用户中的一个授权用户。

9.一种电子设备，包括：

用于接收包括口头用户请求的音频流的装置；

用于确定所述音频流包括用户语音的第一可能性的装置；

用于确定所述音频流包括由授权用户说出的用户语音的第二可能性的装置；

用于对所述第一可能性和所述第二可能性进行加权的装置，包括：

用于根据在所述第一可能性跨第一阈值转变之前或之后所述第二可能性在第一预先确定的持续时间内跨第二阈值转变，对所述第一可能性应用比所述第二可能性更大的权重的装置；以及

用于至少部分地基于加权的所述第一可能性和加权的所述第二可能性来识别所述口头用户请求的起点或终点的装置。

10.根据权利要求9所述的设备，其中所述第一可能性至少部分地基于所述音频流的能量水平。

11.根据权利要求9所述的设备，其中所述第二可能性至少部分地基于所述授权用户的语音模型，并且其中所述语音模型至少部分地基于在接收到所述音频流之前接收到的所述授权用户的语音。

12.根据权利要求11所述的设备，还包括至少部分地用于基于所述音频流的一部分来更新所述语音模型的装置。

13.一种电子设备，包括：

音频接收单元，所述音频接收单元被配置为接收音频输入；和

耦接到所述音频接收单元的处理单元，所述处理单元被配置为：

经由所述音频接收单元来接收音频流，所述音频流包括口头用户请求；

确定所述音频流包括用户语音的第一可能性；

确定所述音频流包括由授权用户说出的用户语音的第二可能性；

对所述第一可能性和所述第二可能性进行加权，包括：

至少部分地基于加权的所述第一可能性和加权的所述第二可能性来识别所述口头用户请求的起点或终点。

14.根据权利要求13所述的设备，其中：

所述音频流包括多个音频帧；

所述音频流包括多个音频段；

所述音频段的持续时间长于所述音频帧的持续时间。

15.根据权利要求14所述的设备，其中所述音频段的所述持续时间可比所述音频帧的所述持续时间长至少五倍。

16.根据权利要求13所述的设备，其中；

所述音频流包括多个音频帧；

所述音频流包括多个音频段；

17.根据权利要求13所述的设备，其中所述第一可能性至少部分地基于所述音频流的能量水平。

18.根据权利要求13所述的设备，其中所述第二可能性至少部分地基于所述授权用户的语音模型，并且其中所述语音模型至少部分地基于在接收到所述音频流之前接收到的所述授权用户的语音。

19.根据权利要求18所述的设备，其中所述处理单元还被配置为至少部分地基于所述音频流的一部分来更新所述语音模型。

20.根据权利要求13所述的设备，其中所述授权用户是所述电子设备的多个授权用户中的一个授权用户。