CN109313902A

CN109313902A - 语音用户接口

Info

Publication number: CN109313902A
Application number: CN201680086430.7A
Authority: CN
Inventors: C·巴克罗阿维莱斯-卡斯柯; M·加西亚戈马尔; D·马丁内斯冈萨雷斯
Original assignee: Wolfson Microelectronics PLC
Current assignee: Cirrus Logic International UK Ltd; Cirrus Logic International Semiconductor Ltd
Priority date: 2016-06-06
Filing date: 2016-06-29
Publication date: 2019-02-05
Also published as: GB2551209A; US10877727B2; US10379810B2; KR20190016536A; GB2551209B; WO2017212206A1; GB2583988B; GB2583988A; US20190324719A1; GB201915186D0; GB201611323D0; US20170351487A1

Abstract

接收信号表示用户的话音。对该接收信号的第一部分执行第一说话人识别过程，以获得第一输出结果。对该接收信号的第二部分执行第二说话人识别过程，以获得第二输出结果，该第二部分与该接收信号的该第一部分不同。该第二说话人识别过程与该第一说话人识别过程不同。将该第一输出结果和第二输出结果组合，以获得指示该用户是注册用户的似然性的组合输出结果。

Description

语音用户接口

技术领域

本文所描述的实施方案涉及用于在语音用户接口(voice user interface)中使用(例如，用于允许用户使用话音(speech)来控制设备的操作)的方法和系统。

背景技术

提供语音用户接口以允许用户使用他们的语音与系统交互。此一个优点(例如，在诸如智能手机、平板计算机等的设备中)是它允许用户以免手持方式操作设备。

在一个典型的系统中，用户通过说出触发短语来将语音用户接口从低功率待机模式唤醒。话音识别技术被用来检测已经说出了触发短语，并且分立地，说话人识别过程被用来确认触发短语是由设备的注册用户说出的。

然后，语音用户接口可以向用户提供提示，以确认系统是活动的(active)，然后用户可以说出命令，该命令可以由语音用户接口使用话音识别技术来识别。

然后，语音用户接口可以按照该说出的命令行动。例如，如果该说出的命令要求公开可得的信息，则该说出的命令可以被识别，并且被用来生成对因特网搜索引擎的查询，以能够将该信息供应给用户。

然而，在其他情况下，例如如果该说出的命令涉及个人信息，则由说话人识别过程提供的认证级别可能被认为不足以使语音用户接口按照该命令行动。在这样的情况下，可能要求用户提供附加形式的认证，例如通过经由设备的键盘输入PIN号码或密码，或通过提供附加的生物认证，诸如指纹扫描。

这意味着用户不再能够以免手持方式操作设备。

发明内容

根据本文描述的实施方案，提供了减少或避免上文所提及的缺点中的一个或多个的方法和系统。

根据本发明的第一方面，提供了一种处理表示用户的话音的接收信号的方法，该方法包括：对该接收信号的第一部分执行第一说话人识别过程，以获得第一输出结果；对该接收信号的第二部分执行第二说话人识别过程，以获得第二输出结果，该第二部分与该接收信号的该第一部分不同，其中该第二说话人识别过程与该第一说话人识别过程不同；以及，将该第一输出结果和第二输出结果组合，以获得指示该用户是注册用户的似然性的组合输出结果。

根据本发明的另一方面，提供了一种用于处理表示用户的话音的接收信号、用于执行说话人识别的设备，其中该设备被配置为：对该接收信号的第一部分执行第一说话人识别过程，以获得第一输出结果；对该接收信号的第二部分执行第二说话人识别过程，以获得第二输出结果，该第二部分与该接收信号的该第一部分不同，其中该第二说话人识别过程与该第一说话人识别过程不同；以及，将该第一输出结果和第二输出结果组合，以获得指示该用户是注册用户的似然性的组合输出结果。

根据本发明的另一方面，提供了一种用于处理表示用户的话音的接收信号、用于执行说话人识别的集成电路设备，其中该集成电路设备被配置为：对该接收信号的第一部分执行第一说话人识别过程，以获得第一输出结果；对该接收信号的第二部分执行第二说话人识别过程，以获得第二输出结果，该第二部分与该接收信号的该第一部分不同，其中该第二说话人识别过程与该第一说话人识别过程不同；以及将该第一输出结果和第二输出结果组合，以获得指示该用户是注册用户的似然性的组合输出结果。

根据本发明的另一方面，提供了一种处理表示用户的话音的接收信号的方法，该方法包括：对该接收信号的第一部分执行第一说话人识别过程，以获得第一输出结果；对该接收信号的第二部分执行第二说话人识别过程，以获得第二输出结果；将该第一输出结果和第二输出结果组合，以获得指示该用户是注册用户的似然性的组合输出结果；确定该用户是注册用户的指示似然性是否高于一个阈值；对该接收信号的该第二部分执行话音识别处理，以获得包含在该接收信号的该第二部分中的命令；以及如果该指示似然性高于该阈值，则按照所获得的命令行动。

在另一方面，本发明提供了一种用于处理表示用户的话音的接收信号、用于执行说话人识别的设备，其中该设备被配置为：对该接收信号的第一部分执行第一说话人识别过程，以获得第一输出结果；对该接收信号的第二部分执行第二说话人识别过程，以获得第二输出结果，该第二部分与该接收信号的该第一部分不同，其中该第二说话人识别过程与该第一说话人识别过程不同；以及将该第一输出结果和第二输出结果组合，以获得指示该用户是注册用户的似然性的组合输出结果。

本发明还提供了一种用于处理表示用户的话音的接收信号、用于执行说话人识别的集成电路设备，其中该集成电路设备被配置为：对该接收信号的第一部分执行第一说话人识别过程，以获得第一输出结果；对该接收信号的第二部分执行第二说话人识别过程，以获得第二输出结果，该第二部分与该接收信号的该第一部分不同，其中该第二说话人识别过程与该第一说话人识别过程不同；以及，将该第一输出结果和第二输出结果组合，以获得指示该用户是注册用户的似然性的组合输出结果。

本发明还提供了一种非暂时性计算机可读存储介质，具有存储在其上的计算机可执行的指令，当由处理器电路系统执行所述计算机可执行的指令时，所述计算机可执行的指令导致该处理器电路系统执行上文阐述的方法中的任何一种。

附图说明

为了更好地理解本发明，并且为了更清楚地示出如何有效实施本发明，现在将仅通过实施例的方式参考附图，在附图中：

图1是电子设备的示意性视图；

图2是电子设备的另一示意性图解；

图3是例示一种方法的流程图；

图4是例示该方法中的一个步骤的图表；

图5是例示该方法中的一个步骤的示意性图解；

图6是例示该方法中的一个步骤的图表；

图7是例示该方法中的一个步骤的图表；

图8是例示该方法中的另一步骤的图表；

图9是例示第一种方法的示意性图解；

图10是例示第二种方法的示意性图解。

具体实施方式

为清楚起见，在此将注意到，此描述涉及说话人识别和话音识别，它们意在具有不同的含义。说话人识别是指提供关于说话的人的身份的信息的技术。例如，说话人识别可以从一组先前注册的个体之中确定说话人的身份，或可以提供指示说话人是否是一特定个体的信息，用于识别或认证的目的。话音识别是指用于确定所说的内容和/或所说的内容的含义的技术，而不是识别说话的人。

图1示出了根据本发明的一个方面的设备。该设备可以是任何合适类型的设备，诸如平板计算机、游戏控制台、远程控制设备、包括家用温度或照明控制系统的家用电器、玩具、机器(诸如，机器人)等，但是在此例示性实施例中，该设备是智能手机10。智能手机10可以通过合适的软件被用作用于控制任何其他另外的设备或系统的控制接口。

智能手机10包括用于向用户显示信息的屏幕12、用于允许声音由麦克风检测的声音入口14、以及用于允许附件连接到该设备的插座(jack socket)16或其他端口或容座(receptacle)。

图2是示出了智能手机10的示意性图解。在此实施例中，智能手机10包括麦克风20，该麦克风可以例如靠近图1中示出的声音入口14定位。由麦克风20产生的电子信号被传递到信号处理块22，该信号处理块执行信号的初始信号处理，例如将从麦克风20所接收的模拟信号转换为数字信号。

智能手机10还包括附件接口24，该附件接口可以例如靠近图1中所示出的插座16定位。插座16和接口24可以适合于允许头戴式送受话器(headset)附件与其连接，并且从这样的附件上的麦克风所接收的信号也被传递到信号处理块22，该信号处理块执行信号的初始信号处理。

信号处理块22被连接到处理器26，该处理器基于存储器28中所存储的数据和程序指令来执行如本文所描述的方法。

处理器28被连接到接口30，该接口本身被连接到天线32，以允许信号通过外部网络传输和接收到远程设备。

在其他实施例中，执行本文所描述的过程的设备可以以合适的形式接收所要求的输入信号，而不需要执行任何先验信号检测或信号处理，因此不要求该设备包括信号处理块22。

在一些实施例中，下文所描述的一些处理可以在外部设备上执行，该外部设备经由外部网络与例如远程计算服务器或家庭网络中的服务器通信。在其他实施例中，下文所描述的所有处理可以在单个设备中执行，而不要求该设备包括与任何外部设备或网络的任何接口。

图3是例示了根据一个实施方案的语音用户接口的操作方法的流程图。

如下文更详细描述的，在用户已经向系统注册之后执行图3中所示出的过程，用户向系统注册例如是通过提供可以被用来形成用户的话音的一个或多个模型的一个或多个语音样本集合。典型地，注册或登记过程要求用户提供话音输入，然后使用这些话音输入来形成用户的话音的模型，从在先验开发阶段中定义的特定背景模型开始。因此，该背景模型和话音输入是用来形成用户的话音的模型的登记过程的输入。随后，在验证期间，如下文更详细描述的，将另外的话音输入与用户的话音的模型和背景模型比较，以提供输出。该输出可以例如是这样的数值，该数值指示在验证阶段期间所接收的话音输入是由在登记期间提供所述话音输入的相同用户提供的似然性。指示该似然性的数值可以是例如对数似然比(LLR)或可以是某个更间接的指示，例如话音样本的提取特征与某个一维或多维阈值的距离的度量(metric)。

语音用户接口可以将其大部分时间花费在待机状态，以节省功率。可以提供语音活动检测块，用于确定由麦克风检测到的声音何时表示话音。在一些实施方案中，存储从麦克风所接收的信号。然后，当该语音活动块确定由麦克风检测到的声音表示话音时，分析那些存储的信号，如下文所描述的。

在步骤50中，从一个或多个麦克风接收信号，并且该信号表示第一语音段，也就是说，该信号表示用户的话音的第一部分。

在步骤52中，表示第一语音段的信号被传递到低功率触发短语检测器，该低功率触发短语检测器可以例如被实施在设备内的处理器(诸如，图2中所示出的实施方案中的处理器26)中，或可以被实施在分立的设备(例如，家庭网络或远程网络中的计算服务器)中。

该触发短语检测器使用话音识别技术来确定第一语音段是否含有特定的预定短语，该预定短语在本文中被称为触发短语或通行短语。这是为了充分激活语音用户接口而要求用户说出的短语。

如果在步骤52处触发短语检测器未能识别出该触发短语，则该过程返回到步骤50，在该步骤中，系统继续监视用于语音段的接收信号。

如果在步骤52处确定第一语音段含有该触发短语，则该过程传递到步骤54，在该步骤中，对第一语音段执行说话人识别过程。

对第一语音段执行的说话人识别过程以第一用户模型操作。因为预期用户正在说出预先已知的触发短语，所以第一用户模型可以使用文本约束或文本相关的说话人识别。也就是说，在用户首次激活设备的说话人识别特征时所执行的登记过程期间，要求用户多次说出触发短语。登记过程使用特定背景模型作为其起始点，该背景模型可以例如基于来自大样本的其他用户的语音输入，然后在形成第一用户模型中使用用户的话音输入。更具体地，可以在形成第一用户模型中使用用户的话音的特征，诸如梅尔频率倒频谱系数(MFCC)特征。

步骤54的输出可以例如是数值得分(以似然比的形式、或以距离的形式、或以任何其他形式)。与第一语音段或触发短语相关的此数值得分在此由s_T表示。

在步骤56中，另外的信号从一个或多个麦克风接收，并且此信号表示第二语音段，也就是说，该信号表示用户的话音的第二部分。此第二语音段可以紧跟在第一语音段之后。替代地，系统可以在步骤52处检测到触发短语时向用户提供视觉提示或听得见的提示，然后第二语音段可以在该提示之后发生。

在步骤58中，对第二语音段执行说话人识别过程。

对第二语音段执行的说话人识别过程不同于在步骤54中对第一语音段执行的说话人识别过程。

每个说话人识别过程使用特定的背景模型和用户的话音的模型作为其输入，并且使用指定的验证方法将相关的语音段与这些模型比较，以获得输出。从相关的语音段获得用户的话音的特征(诸如，梅尔频率倒频谱系数(MFCC)特征)，并且将这些特征与背景模型和相关的用户模型的特征比较。因此，可以认为每个说话人识别过程包括所使用的背景模型、用户模型和验证方法或引擎。对第一语音段和第二语音段执行的说话人识别过程可以在该过程的这些环节中的一个或多个中不同。

例如，说话人识别过程可以使用用户话音的相同模型(例如，通过仅使用一个登记会话和技术)，但是对于第一语音段和第二语音段可以使用不同的验证方法。作为一个实施例，背景模型和用户模型可以是隐马尔可夫模型(HMM)，其中背景模型是适于人类话音的通用背景模型(UBM)，并且用户模型适于该特定用户的话音，但是特别不适于任何短语。然后，对触发短语所使用的文本约束方法可以使用强制对齐方法来强制HMM通过由触发短语所指示的路径(如在UBM中所限定的HMM中的固定状态序列)，而对第二或命令短语所使用的文本无关系统可以查找给出最佳对齐的序列，而不强制任何事情。另一实施例是UBM和用户模型是高斯混合模型(GMM)的情况。相同的GMM模型可以在简单的GMM-UBM系统中使用，该GMM-UBM系统将例如对于触发短语是快速和低功率的，然后相同的GMM模型可以在更复杂的GMM系统(例如，纳入因数分析)中使用，该GMM系统对于命令考虑相同的说话人模型和UBM(并且该GMM系统需要更多的计算成本和功率，但是获得更大的准确性)。

替代地，所述方法可以使用用户话音的不同模型(也称为“用户模型”)，这意味着所述方法使用不同的登记会话或过程。

获得不同的用户模型的一种方式是在登记过程期间使不同的引擎在相同的输入音频数据集合上操作。也就是说，输入音频数据被用来在登记过程期间形成用户模型，如上文所描述的。在实践中，这是通过将输入音频数据应用于一个数学方程集合来实现的，所述方程具有某些相关联的参数作为方程中的常数。可以通过使用一个不同的方程集合(包括通过为那些参数设定不同的值或通过采用不同种类的算法)来获得可以例如出于不同目的而被调谐的不同引擎。例如，输入可以是GMM-UBM，该GMM-UBM转到用于获得用户适应的GMM的登记过程，或转到将GMM-UBM变为超向量并且建立支持向量机(SVM)作为用户模型的登记过程。

获得用于对第一语音段和第二语音段执行的说话人识别过程的不同用户模型的另一种方式是在登记过程期间使用不同的输入数据但是使用共同的引擎。获得用于对第一语音段和第二语音段执行的说话人识别过程的不同的用户模型的第三种方式是在登记过程期间使用不同的输入数据以及使用在输入数据上操作的不同引擎。

当期望通过使用不同的输入数据获得用于对第一语音段和第二语音段执行的说话人识别过程的不同的用户模型时，一个可能性是在登记过程期间使用两个不同的音频输入来训练相应的说话人模型。例如，用来形成在对第一语音段执行的说话人识别过程中所使用的用户模型的音频输入可以是用户说出预定触发短语的音频输入，以使得这成为文本约束的说话人识别过程，而用来形成在对第二语音段执行的说话人识别过程中所使用的用户模型的音频输入可以是用户说出(或大声读出)他们的选择的任何短语(或被设计成具有高语音可变性的预定文本或短语集合)的音频输入，以使得这成为与文本无关的说话人识别过程。

第二个可能性是使用不同的背景模型，以形成在对第一语音段和第二语音段执行的说话人识别过程中所使用的不同的用户模型。一个特定的可能性是使用两个不同的高斯混合模型(GMM)作为背景模型，因此在导出的用户模型中，通过在所述模型中使用不同数目的高斯分量。这可能是有用的，因为减少高斯分量的数目使过程更快，而增加高斯分量的数目使过程更准确。

获得用于对第一语音段和第二语音段执行的说话人识别过程的不同的用户模型的第三个可能性是在登记过程期间使用不同的音频输入，并且使用它们来修改相应的不同背景模型。

步骤58的输出可以例如是数值得分(以似然比的形式、或以距离的形式、或以任何其他形式)。与第二语音段(其例如可以是命令)相关的此数值得分在此由s_C表示。

在步骤60中，将对第一语音段和第二语音段执行的说话人识别过程的结果组合，以获得指示用户是登记用户的似然性的组合输出结果。指示该似然性的组合输出结果可以是例如对数似然比(LLR)或可以是某个更间接的指示，例如，话音样本的提取特征与多维话音参数空间中的某个一维或多维阈值或标称点或标称容积的距离的度量。

可以从通过任何合适的方法对第一语音段和第二语音段执行的说话人识别过程的分立结果获得组合输出结果。例如，该组合输出结果可以是对第一语音段和第二语音段执行的说话人识别过程的结果的加权和s_F。也就是说，一般地说：

s_F＝αs_T+βs_C+γ

加权因子α、β和γ可以是恒定的和预先确定的。

替代地，将对第一语音段和第二语音段执行的说话人识别过程的结果组合以获得组合输出结果的步骤可以使用质量量度(quality measure)来确定应如何将所述结果组合，以改善决定的可靠性。也就是说，对于第一语音段和第二语音段获得分立的质量量度，然后将这些质量量度用作将所述结果组合的过程的另外的输入。

这些质量量度可以例如基于第一语音段和第二语音段(例如，触发短语和命令)的属性。某些触发将比其他触发更适合于在语音生物测定中使用，因为它们的持续时间更长，或因为它们含有更多的语音可变性，因此它们提供更多信息来区分说话人。由于同样的原因，某些命令将比其他命令更适合于在语音生物测定中使用。其他方面(诸如，在第一语音段和第二语音段中存在非平稳(non-stationary)噪声)可以使一个语音段比另一语音段更可靠。

在一个实施方案中，限定了一个质量量度集合，即用于触发的质量量度Q_T的集合和用于命令的质量量度Q_C的集合，并且基于质量量度来设定加权因子α、β和γ的值。然后，将获得作为这些质量量度的函数的加权和s_F：

s_F＝α(Q_T，Q_C)s_T+β(Q_T，Q_C)s_C+γ(Q_T，Q_C)

将质量量度Q_T、Q_C映射到加权因子α、β和γ的函数是系统设计的一部分，因此在系统被部署用于用户登记或验证之前，在开发阶段期间被获得和被限定。因为质量量度Q_T、Q_C从样本到样本变化，所以在开发阶段之后由在使用中的这些函数返回的值将从样本到样本变化。

可以在开发阶段期间基于用大量的话音样本锻炼该系统来获得这些函数，所述话音样本被布置为具有一系列不同值的质量量度。

可以在开发阶段之前限定函数的形式，并且可以将系数优化以提供最佳拟合。在一些实施方案中，函数可以不是代数函数，而是可以包括查找表的形式，该查找表含有在质量量度的值的范围上优化的优化系数或应用于质量量度的优化范围的固定值。更一般地，函数可以是一些更复杂的算法的结果，这些更复杂的算法由一些系数表征并且递送取决于质量量度的值。

在一些实施方案中，组合得分可以是得分s_F和s_C的非线性组合，其可以例如以以下形式表示：

s_F＝α(Q_T，Q_C，S_T)s_T+β(Q_T，Q_C，S_c)s_C+Y(Q_T，Q_C)

其中每个加权因子α或β可以连续地或非连续地取决于相应的得分。

更一般地，组合得分可以是从对第一语音段和第二语音段执行的说话人识别过程所获得的得分s_T和s_C和应用于那些语音段的质量量度Q_T和Q_C的任何函数。也就是说：

s_F＝f(s_T，s_C，Q_T，Q_C)

其中f可以是任何函数。

得分s_T和s_C的值以及质量量度Q_T和Q_C的值可以被应用于神经网络，该神经网络然后产生组合得分s_F的值。

当确定将被赋予第一说话人识别过程和第二说话人识别过程的结果的加权时，可以考虑不同的质量量度。

一种合适的质量量度是信噪比(SNR)，信噪比可以例如分立地在输入触发和输入命令中测量到。在非平稳噪声的情况下(其中SNR快速变化)，较高的加权可以被赋予从具有较高的SNR的输入话音段所获得的结果。

另一种合适的质量量度是净话音量度。如结合所例示的实施方案讨论的，可以根据命令中的话音的量来增加赋予从命令所获得的得分的加权。也就是说，例如以时间单位(诸如，秒)，测量命令中实际含有话音的片段(排除非话音段)的总长度，并且这被用来形成相对于应用于触发的加权的、将被应用于命令的加权。

另一种替代的质量量度是饱和量度。这确定饱和的音频输入量，也就是说，其中该输入音频的一部分超出传感器的动态范围且超出在音频到达说话人识别系统之前处理音频的预处理级的动态范围。这通常在输入级别对系统来说太响时发生。饱和度是一种非线性效应，该非线性效应在信号中生成意外的谐波，且显著降低说话人识别准确度，因为从说话人识别的角度来看，受饱和度影响的所有信号是类似的，并且与非饱和信号非常不同。因此，可以测量触发和命令中已经饱和的音频输入的量。然后，较高的加权被赋予音频的较少饱和的部分。可以以几种方式测量饱和度，但是一种典型的测量饱和度的方式是指示含有饱和音频样本的帧的百分比(特定长度(例如，10ms)的窗口的数目)。此百分比通常是在由系统标注为话音的那些帧(也就是说，将由说话人识别系统处理的那些帧)上计算的。

另一种替代类型的质量量度是和输入与模型匹配的程度(也就是说，输入模型和背景模型之间的拟合程度)相关的度量。用于说话人识别的通用背景模型(UBM)典型地是试图模拟从整体说话人预期的整体输入的统计模型。预计UBM是用来描述可以被供给到说话人识别系统的任何输入的良好模型。如果UBM不是输入的接近模型(close model)，则我们预期说话人识别系统的决定不太可靠，因为输入与系统之前看到的任何东西都不类似。

此类型的量度的一个实施例是用于文本相关的和文本无关的UBM的数据的似然性的量度。如果该输入的一个段具有预期的似然值(例如，在大型开发的数据集上观察到的那些)并且另一个段具有在预期的似然值以下的值，则更大的加权被赋予前一个系统，因为它更能够描述它的输入数据。

与输入与模型匹配程度相关的质量量度的另一个实施例涉及隐变量的先验值和后验值之间的分歧。因此，HMM、GMM和因子分析系统使用隐变量或潜在变量来向系统解释输入数据。当以贝叶斯方式处理时，在这些潜在变量上存在先验。考虑到输入数据，可以获得后验。如果该先验和后验之间的分歧很大，这意味着输入数据与模型将预期的内容不类似，且系统输出可能不可靠。在触发和命令二者中所测量的此信息可以被用来调整被赋予从对触发和命令执行的说话人识别过程所获得的结果的加权。

另一种替代类型的质量量度是由与语音生物测定解决方案一起工作的设备的外部模块所提供的量度。

例如，可以获得此类型的量度，其中该设备包括波束形成器。波束形成器可以为输入信号的每个段提供直接反射比(Direct to Reflected Ratio)的量度。如果输入信号的一个段(例如，可能是可能为命令的第二语音段的触发的第一语音段)似乎受到混响或间接反射的影响较小，则该系统可以增加该段的加权。例如，此变化可能例如在用户和设备的相对位置变化时发生。因此，该系统可以根据接收话音的相应部分的方向的量度来赋予话音的一部分更大的加权，以使更直接地从用户接收的信号部分的加权更重。有些类似地，波束形成器可以提供接收信号的信号干扰比的量度。然后，当存在不止一个声音源(例如，期望的说话人和某个方向噪声或其他干扰说话人)时，该系统可以为受干扰较少影响的段赋予更大的加权。

在设备包括接近传感器的情况下，可以获得此类型的另外的量度。例如，接近传感器可以确定用户在说出第一语音段和第二语音段时距离麦克风多远，即接收到接收信号的相应的部分的路程。此信息可以被用来为在从较短距离发出的语音段上所获得的说话人识别结果赋予更大的加权。

在验证阶段期间，在一个实施方案中，该方法可以检测触发和命令的开始和结束，然后使用在登记期间所获得的对应的背景模型和用户模型来提取质量量度和触发的得分和命令的得分，并且这些背景模型和/或用户模型可以用于触发和命令。质量量度被用来基于在开发阶段期间学习的函数来确定加权因子。然后，使用所述加权因子来获得通过分别对触发短语和命令执行第一说话人识别过程和第二说话人识别过程所获得的分立结果的组合结果。

特别地，在一个实施方案中，可以基于所考虑的特定触发短语以及在命令中可得的用户话音的量n_C来确定加权因子α、β和γ。出于此目的，需要一个开发阶段。

在该开发阶段期间，总是考虑相同的触发短语，对于命令中的净话音(也就是说，实际用户话音的量)的不同长度n_C获得加权因子α、β、γ的最佳值。一旦触发被固定，就可以根据特定标准选择对于给定的n_C值最佳的加权因子，也就是说，α(n_C)、β(n_C)、γ(n_C)。例如，线性逻辑回归可以被用来确定加权因子的最佳值。

线性逻辑回归将逻辑回归应用于得分的线性组合，以获得组合得分s_F，因此：

S_F＝α(n_C)S_T+β(n_C)S_C+γ(n_C)

逻辑回归试图通过逻辑函数从得分确定该系统的决定θ应采用的真实值(对于假设H₁，θ＝1，也就是说，匹配，并且对于假设H₂，θ＝0，也就是说不匹配)：

考虑到触发和命令的得分以及命令的净话音长度，逻辑函数的输出可以被解释为输入段与说话人模型匹配的可能性。注意，在贝叶斯框架中，这仅对于扁平先验(flatprior)是真实的，也就是说，P(H₁)＝P(H₂)＝0.5。然而，对于不同的先验，仍然可能在逻辑函数中包括先验信息。

图4示出了当组合得分s_F增加或减少时，此S形函数P(H₁|s_F)(也就是说，P(H₁|s_T，s_C，n_c))如何渐近地接近1或0。

因此：

在极限中，随着(s_F→-∞)，P(H₁|s_F)＝0以及

在极限中，随着(s_F→∞)，P(H₁|s_F)＝1。

缩放或偏置此函数的输入(如更改加权因子将实现)将相应地使该S形成形。具体地，改变加权因子α(n_c)和(β_c)将使函数成形，以使得斜率将或多或少地陡峭，并且改变偏置加权因子γ(n_c)将使函数沿着水平轴线移动。

为了确定加权因子或融合系数(fusion coefficient)的最佳值，开发过程需要文本约束的说话人识别系统和文本无关的说话人识别系统对于一个特定的n_C和触发短语的得分的大量(例如，数千个)样本以及与这些得分相关联的决定作为训练数据。每一个训练样本i是值集合{s_T，s_C，n_C，θ}_i，其中对于匹配，θ＝1，对于不匹配，θ＝0。此集合已经从与VUI交互的实际用户提取。然后，线性逻辑回归确定用P(H₁|s_T，s_C，n_C)最佳预测θ的真实值的最佳系数值集合。

具体地，这通过使输出决定Ρ(θ)(观察到的决定)的真实基础分布(underlyingdistribution)与模型P(H₁|s_T，s_C，n_C)之间的交叉熵最小化来实现。注意，交叉熵最小化过程不在融合加权中设置任何约束，并且因此它们的值不受限制。

对于几个n_C值进行此处理，以使得对于每个n_C获得一个融合系数集合。在实践中，更有用的是聚集具有类似的n_C值的样本，而不是那些具有完全相同的n_C值的样本。出于此目的，可以限定n_C值的K个间隔，并且可以根据输入样本的n_C所落入的间隔来将输入样本预分类。

图5例示了此开发过程。如上文所提及的，存在大量训练样本160，并且这些训练样本被传递到预分类器，在此基于训练样本的n_C值所落入的间隔将所述训练样本分类。因此，限定(K-1)阈值，并且对于小于第一阈值n₁的n_C值，样本被传递到第一线性逻辑回归块164.1；对于小于第一阈值n_k但是大于先前阈值n_k-1的n_C值，样本被传递到第k线性逻辑回归块164.k；并且对于大于最后一个阈值n_k-1的n_C值，样本被传递到第K线性逻辑回归块164.K。

然后，如在166处示出的，执行一个函数，该函数被设计成用于映射每一个n_C值(包括在开发期间看到和未看到的那些值)，以获得对应的融合系数168。最后，执行校准操作170，以使得阈值172被调整到期望的操作点。尽管此步骤可以替代地被包括在线性逻辑回归中，但是此分立的校准使得能够设定对融合加权值的约束，从而便于它们的建模。

可以考虑使用阶梯函数(step function)的简单非线性映射，以使得对于为了预分类而考虑的n_C值的每个间隔，一个融合系数集合被限定如下：

{α(n_C)，β(n_C)，γ(n_C)}＝{α₁，β₁，γ₁} n_C＜n₁

{α(n_c)，β(n_C)，γ(n_c)}＝{α_k，βk，γ_k} n_(k-1)≤n_C＜n_k

{α(n_C)，β(n_C)，γ(n_C)}＝{α_K，β_K，γ_K} n_(K-1)≤n_C

此分段常数映射的一个实施例被呈现在下表中，其中已经限定了六个间隔，注意n_C＝0是一个特殊情况，在此情况下不存在命令。

n<sub>c</sub>	α(n<sub>c</sub>)	β(n<sub>c</sub>)	γ(n<sub>c</sub>)
				0	1.00	0.00	0.00
0＜n<sub>c</sub>＜1	2.89	1.50	8.87
				1＜n<sub>C</sub>＜2	2.83	2.07	10.24
2＜n<sub>c</sub>＜3	2.76	2.45	11.17
				3＜n<sub>c</sub>＜5	2.73	2.62	11.82
5＜n<sub>C</sub>＜10	2.71	2.80	12.38
				10＜n<sub>C</sub>	2.75	3.18	13.85

回归模型也可以被用于该映射。使用回归模型从净话音来估计融合加权更自然，因为净话音是连续变量而不是离散变量。

从逻辑回归所获得的融合加权不具有任何约束，因此回归模型可能不会拟合得非常好。因此，可以以这样的方式缩放和偏置加权，以获得更好的拟合。

图6是上表中的值的图表，示出了对于命令中存在的净话音的值(即，n_C)的六个范围，应用于从文本约束(TC)的说话人识别过程所获得的得分的加权(即，应用于从命令所获得的得分的加权α(n_C))和应用于从文本无关(TI)的说话人识别过程所获得的得分的加权(即，应用于从触发所获得的得分的加权β(n_C))。对于这些范围中的每个，对于实际用来生成这些加权值的特定样本集合，在对于相应的范围中的所有输入的净话音的平均值处示出得分。如将预期的，当命令中所存在的净话音的量增加时，应用于从命令所获得的得分的加权相对于应用于从触发所获得的得分的加权增加。

为了便于在图5的步骤166中建立回归模型的任务，可以对加权设定约束。融合加权中的偏移项γ(n_C)转变成阈值的移动，该阈值的移动被用来区分匹配条件和不匹配条件。由于校准阶段(被示出在图5中的170)被用来设置期望的阈值，因此不需要此偏移项。

此外，只要维持关系α(n_C)/β(n_C)，融合加权α(n_C)、β(n_C)的比例仅对于校准是重要的。因此，忽略α(n_C)和β(n_C)的比例并且忽略偏移项γ(n_C)，可以为加权设定约束，即：

α(n_C)+β(n_C)＝1

图7是来自上表的值的另一图表，示出了在应用α(n_C)+β(n_C)＝1的约束之后，在维持比率α(n_C)/β(n_C)的同时，对于命令中存在的净话音的值(即，n_C)的六个范围，应用于从文本约束(TC)的说话人识别过程所获得的得分的加权(即，α(n_C))和应用于从文本无关(TI)的说话人识别过程所获得的得分的加权(即，β(n_C))。

此约束使α(n_C)和β(n_C)的值更合理，因为一个增加的倾向转变成另一个减小的趋势，以避免n_C的范围增加或减少，这使得难以将这些加权建模。

可以对比率α(n_C)/β(n_C)使用回归模型，而不是分立地对于每个加权使用回归模型。在一个实施方案中，线性回归模型被用来对于任何给定的n_C值估计比率α(n_C)/β(n_C)。实际上，一个具体实施方案使用相对于n_C ^-1为线性的模型，因为对于非常大的n_C值，我们期望渐近行为。因此，获得提供到以下形式的直线的最佳拟合的参数a和b的值：

α(n_C)/β(n_C)＝a.n_C ^-1+b

图8是转换成此回归方程所要求的形式的、来自上表的值的图表。也就是说，对于获得α(n_C)和β(n_C)的值所针对的n_C值的范围中的每个，对照n_C ^-1绘制比率α(n_C)/β(n_C)的平均值，n_C ^-1是相应范围内所有输入的净话音的平均值的倒数。然后，找到最佳拟合直线，该最佳拟合直线在此情况下给出参数a＝0.7289和b＝0.855的值，因此：

α(n_C)/β(n_C)＝0.7289.n_C ^-1+0.855。

在此例示的情况下，获得一个特定的触发集合的值。在一个替代方案中，可以获得每个触发的分立的值，并且可以对于每个触发分立地执行回归，从而对于每个触发导致回归中的不同项。

然后，对于从所接收的语音命令获得的任何未来的n_C输入值，线性模型可以被用来找到比率α(n_C)/β(n_C)的值，然后可以使用α(n_C)+β(n_C)＝1的约束来计算分立的融合加权α(n_C)的值和β(n_C)的值。

作为该线性回归技术的一个替代方案，可以使用非线性回归技术，例如作为到阶梯函数(诸如，先前呈现的阶梯函数)或更复杂的非线性函数的映射。

作为上文所描述的过程的另一个替代方案，n_C的值可以被直接包括在线性逻辑回归过程中，从而避免执行预分类的需要。在此情况下，逻辑函数σ()在将它输入到线性逻辑回归之前应用于n_C，因此σ(c.n_C+d)取0和1之间的值，并且这些值被用来对输入样本进行加权，用于线性逻辑回归。然后逻辑回归的输出模型能够为任何输入值n_C提供融合系数。这被称为在线性逻辑回归中使用“辅助信息”。这也消除了对最终校准阶段的需要，尽管在实践中可能优选的是执行最终校准以获得阈值。

除了确定融合系数之外，在开发期间，可以使用触发短语的相同样本中的一些或全部使文本约束的说话人识别系统适配于触发短语。

附加地或替代地，可以使触发检测系统适配于触发短语。

在登记期间，用户可以提供在开发中所使用的相同的触发短语的样本，以创建用于文本约束的语音生物测定系统的用户声纹(voiceprint)，并且还可以提供创建用于文本无关的语音生物测定系统的用户声纹的文本无关的样本。触发短语的样本也可以被用来使触发检测器适配触发检测器和调谐触发检测器。

到目前为止，已经假设了独立地对第一语音段和第二语音段操作的文本约束的语音生物测定引擎和文本独立的语音生物测定引擎。然而，它们可以共享信息以提供更鲁棒的响应。例如，在一个实施方案(其中对第一语音段和第二语音段操作的引擎是相同的，除了它们使用的背景模型以外)中，对第二语音段操作的文本无关的引擎可以使用来自第一语音段(即，触发)的部分信息或完整信息，以获得更准确的得分。

到目前为止，已经暗示了文本约束的语音生物测定引擎和文本无关的语音生物测定引擎对不重叠的第一语音段和第二语音段操作。然而，在一些实施方案中，可能有利的是，操作对包括第一语音段的一些或全部的第二语音段(即，所分析的两个语音段重叠而非不重叠)的稍后检查。例如，可以使用相对快速且简单的说话人识别引擎来分析第一语音段，而可以使用更复杂但更可靠的说话人识别算法来分析第二语音段，并且可以通过增加所分析的样本的有效长度来使后者的结果甚至更可靠。因此，在一些实施方案中，第一语音段和第二语音段可以不同但重叠。

在一些实施方案中，可以与触发或命令说话人认证并行地执行另外的认证过程，且可以以与上文类似的方式组合对应的认证结果。

此并行认证过程可以是基于话音的不同特征的认证过程，例如基于时域的方法。在一些实施方案中，该并行认证过程可以是对通过回放或直接注入技术(directinjection technique)试图欺骗该系统的频谱或其他特性症状敏感的并行认证过程，即是一种反欺骗技术。

一种示例性反欺骗技术基于计算似然比(LR)。它提取自一个从测试信号计算的特征向量y以及两个高斯模型N(y；μ_(non-)spoof，Σ_(non-)spoof)，一个表示非欺骗数据且另一个表示欺骗数据：

其中μ_spοοf和Σ_spοοf是用于欺骗模型的平均向量和对角协方差矩阵，而μ_non-spοοf和Σ_non-spοοf是用于非欺骗模型的平均向量和对角协方差矩阵，它们通常也是说话人相关的，且通常在登记期间获得它们。

反欺骗特征向量由不同的度量组成，例如通过频谱比、低频率比和特征向量平方马氏距离组成。在此实施例中，N_AS＝3。替代地，也可以包括其他度量，或度量中的一个或两个可以用其他度量替换，或可以被完全省略。

频谱比可以是例如0至2kHz和2kHz至4kHz的信号能量之间的比率。因此，考虑到音频接入x(n)的一个帧l，频谱比可以被计算为：

其中X(f，l)是帧l和音频信号的f频率区间的快速傅里叶变换(FFT)值，而NFFT是FFT的点的数目(例如，256个样本)。

对于所有帧计算方程(2)，可以将频谱比(SR_audio)的平均值计算为调制指数在一个给定阈值(例如，0.75)以上的帧的频谱比的平均值。具有在一个给定阈值以上的调制指数的帧通常对应于话音信号，使得典型地通过计算具有在一个给定阈值以上的调制指数的帧的频谱比的平均值导致计算描述包括话音的音频信号的部分的均值。例如，可以使用20毫秒的窗口长度以10毫秒的移位从音频信号创建帧。

低频率比可以例如被计算为100Hz至300Hz和300Hz至500Hz的信号能量之间的比率。考虑到一个帧l，它可以被计算为：

对于所有帧计算方程(3)，可以将频谱比(LFR_audio)的平均值计算为调制指数在一个给定阈值(例如，0.75)以上的帧的低频率比的平均值。例如，可以使用20毫秒的窗口长度以10毫秒的移位来来创建帧。

最后，可以在从音频接入中所接收的说话人识别测试信号获得的、沿着时间的平均MFCC向量(例如，具有维度N_AS-MFCC)和在登记期间所观察到的平均MFCC向量之间计算特征向量平方马氏距离。通常还要求标准偏差对角矩阵来计算该距离(典型地在登记期间或之后计算该距离)。

可以例如如欧洲专利申请EP-2860706A中所公开的那样计算标准偏差对角矩阵。在此描述了使用反欺骗过程的结果的另一种替代的改善方法。在此实施例中，第一语音段和第二语音段(它们可以是触发和命令，如先前所讨论的)经受分立的反欺骗检测过程(它们可以是相同的或不同的)，以获得两个反欺骗输出得分，触发的得分和命令的得分。

然后可以将这些得分与说话人识别得分整合。

使用反欺骗输出得分的一种方式是将它们用作过滤器。

在此情况下(其中我们具有两个不同的反欺骗得分(触发的得分r_T，命令的得分r_C))，当它们中的一个在一个非常高的阈值之上(r_T＞ε_TH或r_C＞ε_CH)时(表明输入触发或命令很可能是欺骗)，系统可以拒绝用户。如果触发反欺骗得分和命令反欺骗得分都在某个较低的阈值之上，系统也可能拒绝用户(r_T＞∈_T〗L和r_C＞ε_CH，其中ε_TH＞ε_TL以及ε_CH＞ε_CL)。

一个替代方案是将在本申请中所描述的相同的融合方法应用于说话人识别，以融合反欺骗得分，并且如果所得到的得分在某个阈值之上时拒绝用户：

r_F＝α_AS.r_T+β_AS.r_C+Y_AS

注意，在此情况下，融合加权将与对于说话人识别所获得的融合加权不相同，但是可以以与对于说话人识别所解释的相同方式作为质量量度的函数获得它们。

另一种选择是使用反欺骗得分作为先前描述的说话人识别过程中的质量量度。在此情况下，将根据触发的反欺骗输出和命令的反欺骗输出来修改用于说话人识别的融合加权。因此，以与先前描述的实施方案中的净话音类似的方式使用反欺骗得分，或如我们将使用任何其他质量量度。一般，将此方法与使用反欺骗输出得分作为过滤器组合是一个好主意，以使得如果输入明显是欺骗，则直接拒绝而不是仅使用反欺骗得分来修改加权。

第三种选择是使用反欺骗得分作为用于说话人识别任务的附加得分，并且将它们与说话人识别得分融合。如果我们预期说话人识别得分和反欺骗得分之间存在相关性，则此方法是有利的。在此情况下，在融合触发说话人识别得分和命令说话人识别得分之前，我们将触发说话人识别得分和反欺骗得分融合，且我们将作为一个或多个说话人识别系统和一个或多个反欺骗系统的输出而获得的命令说话人识别得分和反欺骗得分融合(为了简单起见，仅考虑一个说话人识别系统和一个用于触发的反欺骗系统和一个说话人识别系统和一个用于命令的反欺骗系统来呈现以下方程)，以使得触发的新的得分和命令的新的得分是：

p_T＝f_T(s_T，r_T)

P_C＝f_C(S_C，r_C)

触发融合函数和命令融合函数可以是相同的或不同的，并且它们可以是线性融合或任何其他融合方法，当假设输入不相关时，线性融合通常是最合理的方法。特别地，可以使用分类器来获得触发和命令融合得分，该分类器能够将可能出现在多个说话人识别得分和反欺骗得分之间的相关性建模。为此，对于每个触发输入或命令输入，可以建立一个向量，建立一个向量使用每个得分作为该向量的一个条目，例如对于触发和具有一个说话人识别和一个反欺骗得分的情况：

对于N个得分，此向量是N维空间中的一个点。使用数千个样本作为开发数据，可以训练分类器以将得分的输入向量恰当地分类为两个感兴趣的类别：用户(因此系统的输出应是匹配)或冒名顶替者/欺骗。此分类器可以是具有两个类别的高斯分类器(这有时被称为高斯后端)，或可以使用更复杂的模型，作为GMM。它也可以是SVM或其他类型的分类器。

通常，该分类器将输出一个新的得分，该新的得分是关于得分的输入向量有多可能属于用户的类别，或最终输入是否匹配。此得分可以再次以似然比的形式、以距离的形式或以其他形式，并且此得分将被直接用作p_T(在触发的情况下)用于触发和命令的稍后融合。

对于命令将应用完全相同的过程，使用作为得分向量并且获得p_C。注意，对于命令所考虑的得分向量可以含有与用于触发的得分向量相同数目的得分，或不同数目的得分(即，反欺骗可以仅被用于触发，或不同数目的说话人识别系统和反欺骗系统可以被用于触发和命令)。

此第三种选择还可以与如上文所描述的使用反欺骗输出得分作为过滤器组合。

使用反欺骗得分作为质量量度也可以与使用反欺骗得分作为用于说话人识别任务的附加得分组合，特别是如果用来获得质量量度的系统不被考虑用于获得分p_T和p_C，反之亦然。

因此，上文已经描述了多个实施方案，用于实现说话人识别的组合结果。

在步骤62中，基于该组合结果确定用户是否被认证。例如，如果作为分立结果的函数所获得的组合结果超过一个阈值，则可以确定用户被认证。

图9是例示了大致如上文所描述的认证过程的第一实施方案的示意性图解。

因此，将用于在文本约束(TC)的说话人识别过程中使用的第一背景模型110和用于在文本无关(TI)说话人识别过程中使用的第二背景模型112作为起始点。在初始登记期间，用户话音样本被用来形成文本约束的用户声纹(也就是说，限定用户模型的系数的集合)114和文本无关的用户声纹116。

触发检测块118检测到已经说出了触发短语，并且基于第一语音段(即，来自该触发短语的用户话音)、第一背景模型110以及文本约束的用户声纹114，执行文本约束的说话人识别过程或语音生物测定过程120，以产生得分s_T。此外，基于第二语音段(即，在该触发短语之后所接收的用户话音，该用户话音被预期是命令)、第二背景模型112以及文本无关的用户声纹116，执行文本无关说话人识别过程或语音生物测定过程122，以产生得分s_C。

从第一语音段获得第一质量量度(Q_T)集合124，并且从第二语音段获得第二质量量度(Q_C)集合126。

将质量量度Q_T、Q_C映射到加权因子α、β和γ的函数已经在开发阶段期间获得并且被存储在128处。因此，质量量度Q_T、Q_C的值被用来获得加权因子α(Q_T，Q_C)、β(Q_T，Q_C)和γ(Q_T，Q_C)的值，如在130处示出的。

加权因数α(Q_T，Q_C)、β(Q_T，Q_C)和γ(Q_T，Q_C)的值然后被用来确定如何融合得分s_T、s_C，如在132处示出的。此融合的得分可以被用来作出关于第一语音段和第二语音段是否是从注册用户获得的决定，如在134处示出的。

图10是例示了大致如上文所描述的认证过程的第二实施方案的示意性图解。与图9中示出的过程的特征相同的特征由相同的附图标记指示。

因此，用于在文本约束(TC)的说话人识别过程中使用的第一背景模型110和用于在文本无关(TI)说话人识别过程中使用的第二背景模型112作为起始点。在初始登记期间，用户话音样本被用来形成文本约束的用户声纹(即，限定用户模型的系数的集合)114和文本无关的用户声纹116。

触发检测块118检测到已经说出了触发短语，并且基于第一语音段(即，来自该触发短语的用户话音)、第一背景模型110以及文本约束的用户声纹114来执行文本约束的说话人识别过程或语音生物测定过程120，以产生得分s_T。此外，基于第二语音段(即，在该触发短语之后所接收的用户话音，该用户话音被预期是命令)、第二背景模型112以及文本无关的用户声纹116来执行文本无关说话人识别过程或语音生物测定过程122，以产生得分s_C。

语音活动检测器140被用来获得包含在第二语音段中的净话音的量度n_C。

质量量度Q_T、Q_C映射到加权因子α、β和γ的函数已经在开发阶段期间获得并且被存储在128处。因此，净话音因数n_C的值被用来获得加权因子α(n_C)、β(n_C)和γ(n_C)的值，如在142处示出的。

加权因子α(n_C)、β(n_C)和γ(n_C)的值然后被用来确定如何融合得分s_T、s_C，如在132处示出的。此融合的得分可以被用来作出关于第一语音段和第二语音段是否是从注册用户获得的决定，如在图10中的134处示出的。

图10中被例示为134的决定等同于图3中示出为62的决定。来自此块62的此认证结果然后可以被用于任何期望的目的。例如，该结果可以被传递到另外的决定块64，将在下文更详细地讨论。更一般地，如果用户被认证，则可以作出接受该用户是设备的注册用户的决定，如步骤74处示出的，并且此决定可以例如向用户提示某个物理反馈，例如听觉反馈、视觉反馈或触觉反馈，或在没有来自用户的另外的语音输入的情况下可能发生的一些其他默认动作，或允许响应来自用户的某个其他输入，例如经由键盘，以执行某个命令。

在图3中示出的实施例中，如果基于组合结果，该用户并非是认证的，则该过程行进到步骤68。在此实施例中，如果认为语音生物测定输入不足以授权用户，则请求第二认证因子。例如，可以要求用户通过设备的键盘输入PIN号码或密码，或提供附加的生物测定认证，例如指纹扫描。

在步骤68中，基于此第二认证因子确定用户是否被认证。然后，此认证结果可以被用于任何期望的目的。例如，该结果可以被传递到另外的决定块70，下文将更详细地讨论。更一般地，如果用户被认证，则可以作出接受该用户是设备的注册用户的决定，如在步骤74处示出的，如上文所讨论的。

在图3中示出的实施例中，如果基于第二认证因子，该用户并非是认证的，则该过程行进到步骤72，并且拒绝该用户。此拒绝所采用的形式取决于用户正在试图执行的操作。

因此，接受或拒绝该用户的决定将具有高程度的可靠性，因为与仅基于触发短语执行认证的系统相比，它考虑了更多的用户的话音。

图3中示出的实施例涉及用户正在试图向设备发送话音命令以控制设备的操作的一个方面的情形。

因此，预期的是，在步骤56中所接收的第二语音段是用户发出的命令。在步骤76中，对第二语音段执行语音识别过程。在一些实施方案中，这可以通过使用设备10的接口30将表示话音的数据传输到远离设备定位(例如，在云中)的话音识别引擎来实现。在其他实施方案中，在设备10中执行该话音识别过程。该话音识别过程获得第二语音段的内容和含义。

在此示例实施方案的步骤78中，确定该命令是否使得它要求认证。可以基于要求认证或不要求认证的命令的预限定列表来作出此确定，或可以基于命令所请求的数据或处理模块来作出此确定。例如，如果说出的命令要求公开可得的信息，则可以在步骤78处确定不要求认证，因此该过程行进到步骤80，在该步骤80中，命令的内容可以被用来生成对互联网搜索引擎的查询，以能够向用户供应该信息。

然而，在其他情况下，例如如果说出的命令涉及个人信息，则可以在步骤78处确定需要认证。在该情况下，该过程行进到步骤64，在该步骤64中，基于说话人识别过程的结果来确定用户是否已经被认证。如果用户尚未被认证，则过程行进到步骤70，在该步骤70中，基于说话人识别过程和第二认证因子的组合来确定用户是否已经被认证，如上文所讨论的。

如果用户尚未被认证，则该过程行进到步骤72，并且拒绝该命令。如果用户已经被认证，则该过程行进到步骤80，并且执行该命令。

执行命令或不执行命令的决定可以被传达给用户，例如通过向用户提供听觉反馈、视觉反馈或触觉反馈。

在图3中示出的实施例中，认证过程和话音识别过程并行执行，以节省时间。

然而，在其他实施例中，这些过程可以按次序执行，其中一个过程的执行可能以另一个过程的结果为条件。

例如，可以在所有情况下执行执行话音识别的过程，其中只有在步骤78中确定该命令是在执行该命令之前要求用户认证的命令时，才启动执行说话人识别的过程。

作为另一个实施例，可以在所有情况下执行说话人识别过程，其中只有在步骤62(或步骤68)中确定是注册用户正在说话时，才启动话音识别过程。

作为另一个实施例，可以将第一说话人识别过程的结果与阈值(可能是相对容易满足的低阈值)比较，其中只有第一说话人识别过程提供了注册用户正在说话的初步决定时，才执行步骤76的话音识别过程。

上文所讨论的实施例涉及一个第一语音段(例如，表示触发短语)和一个第二语音段(例如，表示命令)，其中基于对这两个语音段执行的说话人识别过程来作出认证决定。

在另外的实施方案中，例如，为了在用户和语音用户接口之间存在扩展的交互的情形下使用或为了在用户预期在一个较长的时间周期内说话的情形下使用，可以通过使用更多的用户的话音作为输入来进一步改善认证过程的可靠性。

例如，在触发短语之后，由用户响应于来自语音用户接口的提示而提供的分立的话音输入可以被认为第二语音段、第三语音段、第四语音段等。类似地，较长周期的话音可以分为第二语音段、第三语音段、第四语音段等。

在这样的情况下，可以对第三话音语音段执行第三说话人识别过程，可以对第四语音段执行第四说话人识别过程，等等。

然后可以将这些过程的结果组合。例如，可以通过形成来自分立的过程的结果的加权和来获得组合结果。在该情况下，可以在执行第二说话人识别过程之后输出中间认证结果，其中在执行第三说话人识别过程和第四说话人识别过程之后输出更新的认证结果，等等。

替代地，可以基于第二语音段来获得一个结果，其中一个新结果基于一起考虑的第二语音段和第三语音段，并且一个另外的新结果基于全部一起考虑的第二语音段、第三语音段和第四语音段，等等，其中可能随着过程的继续而丢弃较旧的语音段。

因此，可以连续地执行认证说话人的过程。

因此，技术人员将认识到，上文提及的装置和方法的一些方面(例如，由处理器执行的计算)可以被具体化为处理器控制代码，例如在非易失性载体介质(诸如，磁盘、CD-或DVD-ROM)、编程的存储器(诸如，只读存储器(固件)上，或在数据载体(诸如，光信号载体或电信号载体)上。对于许多应用，本发明的实施方案将在DSP(数字信号处理器)、ASIC(专用集成电路)或FPGA(现场可编程门阵列)上实施。因此，代码可以包括常规的程序代码或微代码，或例如用于设置或控制ASIC或FPGA的代码。代码还可以包括用于动态地配置可重新配置的装置(诸如，可重新编程的逻辑门阵列)的代码。类似地，代码可以包括用于硬件描述语言(诸如，Verilog^TM或VHDL(超高速集成电路硬件描述语言))的代码。如技术人员将理解的，代码可以被分布在彼此通信的多个耦合的部件之间。在适当的情况下，还可以使用在现场可(重新)编程的模拟阵列或类似设备上运行以配置模拟硬件的代码来实现实施方案。

本发明的实施方案可以被布置为音频处理电路(例如，可以被设置在主机设备中的音频电路)的一部分。根据本发明的一个实施方案的电路可以被实施为集成电路。

实施方案可以被实施在主机设备中，例如，该主机设备尤其是便携式的和/或电池供电的主机设备，诸如移动电话、音频播放器、视频播放器、PDA、移动计算平台(诸如，膝上型计算机或平板计算机)和/或游戏设备。本发明的实施方案还可以被全部地或部分地实施在可附接到主机设备的附件中，例如被实施在有源扬声器或头戴式送受话器等中。实施方案可以以其他形式的设备(诸如，远程控制器设备、玩具、机器(诸如，机器人)、家庭自动化控制器等)来实施。

应注意，上文所提及的实施方案例示而不是限制本发明，并且在不脱离所附权利要求的范围的前提下，本领域技术人员将能够设计许多替代实施方案。“包括”一词不排除权利要求中列出的元件或步骤之外的元件或步骤的存在，“一”或“一个”不排除多个，并且单个特征或其他单元可以实现权利要求中所记载的几个单元的功能。权利要求中的任何附图标记不应被解释为限制其范围。

Claims

1.一种处理表示用户的话音的接收信号的方法，该方法包括：

对该接收信号的第一部分执行第一说话人识别过程，以获得第一输出结果；

对该接收信号的第二部分执行第二说话人识别过程，以获得第二输出结果，该第二部分与该接收信号的该第一部分不同，其中该第二说话人识别过程与该第一说话人识别过程不同；以及

将该第一输出结果和第二输出结果组合，以获得指示该用户是注册用户的似然性的组合输出结果。

2.根据权利要求1所述的方法，包括将相应的加权值应用于该第一输出结果和第二输出结果并且将加权结果组合。

3.根据权利要求2所述的方法，包括形成该第一输出结果和第二输出结果的加权和。

4.根据权利要求2或3所述的方法，其中所述加权值是预定加权值。

5.根据权利要求2或3所述的方法，其中所述加权值是可变加权值。

6.根据权利要求5所述的方法，其中基于与相应的样本的质量相关的至少一个量度来确定所述加权值中的至少一个。

7.根据权利要求6所述的方法，其中该加权值被确定为与该相应的样本的质量相关的量度的分段常数函数。

8.根据权利要求6所述的方法，其中该加权值被确定为与该相应的样本的质量相关的量度的连续函数。

9.根据权利要求1所述的方法，包括将该第一输出结果和第二输出结果作为输入应用于神经网络，以及获得组合输出结果作为该神经网络的输出。

10.根据权利要求9所述的方法，还包括将与相应的样本的质量相关的至少一个量度作为输入应用于该神经网络。

11.根据权利要求9或10所述的方法，其中在一个先验的开发阶段中使该神经网络适配。

12.根据权利要求1所述的方法，包括基于与相应的样本的质量相关的至少一个量度来将该第一输出结果和第二输出结果组合。

13.根据权利要求6、10或12中的任一项所述的方法，其中与该相应的样本的质量相关的至少一个量度包括与该接收信号的相应的部分的属性相关的量度。

14.根据权利要求6、10或12中的任一项所述的方法，其中与该相应的样本的质量相关的至少一个量度包括与由该接收信号的相应的部分所表示的该话音的属性相关的量度。

15.根据权利要求14所述的方法，其中与该相应的样本的质量相关的至少一个量度包括由该接收信号的相应的部分所表示的话音的量的量度。

16.根据权利要求14所述的方法，其中与该相应的样本的质量相关的至少一个量度包括该接收信号的相应的部分与相应的说话人识别过程的背景模型的拟合程度的量度。

17.根据权利要求13所述的方法，其中与该相应的样本的质量相关的至少一个量度包括与该接收信号的相应的部分的饱和程度相关的量度。

18.根据权利要求14所述的方法，其中与该相应的样本的质量相关的至少一个量度包括该接收信号的相应的部分的信噪比的量度。

19.根据权利要求14所述的方法，其中与该相应的样本的质量相关的至少一个量度包括该接收信号的相应的部分的信号干扰比的量度。

20.根据权利要求14所述的方法，其中与该相应的样本的质量相关的至少一个量度包括该接收信号的相应的部分的直接反射比的量度。

21.根据权利要求14所述的方法，其中与该相应的样本的质量相关的至少一个量度包括接收该接收信号的相应的部分的方向的量度。

22.根据权利要求14所述的方法，其中与该相应的样本的质量相关的至少一个量度包括接收该接收信号的相应的部分的路程的量度。

23.根据权利要求1-22中的任一项所述的方法，其中该第一说话人识别过程和第二说话人识别过程使用该用户的话音的不同模型。

24.根据权利要求1-23中的任一项所述的方法，其中该第一说话人识别过程和第二说话人识别过程使用不同的背景模型。

25.根据权利要求23和24中的一项所述的方法，其中该用户的话音的模型或背景模型中的至少一个包括隐马尔可夫模型。

26.根据权利要求23-25中的一项所述的方法，其中该用户的话音的模型或背景模型中的至少一个包括高斯混合模型。

27.根据权利要求26所述的方法，其中该高斯混合模型使用因子分析。

28.根据权利要求26或27所述的方法，其中该第一说话人识别过程和第二说话人识别过程使用具有不同数目的高斯函数的高斯混合模型。

29.根据权利要求1-23中的任一项所述的方法，其中该第一说话人识别过程和第二说话人识别过程使用不同的验证方法。

30.根据权利要求1-29中的任一项所述的方法，还包括对该接收信号的该第一部分和第二部分中的至少一个执行反欺骗过程。

31.根据权利要求30所述的方法，其中该反欺骗过程包括基于从该接收信号的相应的部分所获得的特征向量来计算似然比。

32.根据权利要求31所述的方法，其中该特征向量包括从频谱比、低频率比、特征向量平方马氏距离中所选择的一个或多个度量。

33.根据权利要求30所述的方法，包括：对该接收信号的该第一部分和第二部分执行相应的反欺骗过程，以分别获得第一反欺骗得分和第二反欺骗得分。

34.根据权利要求33所述的方法，包括：如果该第一反欺骗得分或第二反欺骗得分超过一个相应的阈值，则确定该用户并非是注册用户。

35.根据权利要求33所述的方法，包括：如果该第一反欺骗得分和第二反欺骗得分的函数都超过一个相应的阈值，则确定该用户并非是注册用户。

36.根据权利要求30-35中的任一项且还根据权利要求6、10或12中的任一项所述的方法，其中与该相应的样本的质量相关的量度包括从该接收信号的相应的部分所获得的相应的反欺骗得分。

37.根据权利要求33-35中的一项所述的方法，包括：将该第一输出结果和第二输出结果以及该第一反欺骗得分和第二反欺骗得分组合，以获得指示该用户是注册用户的似然性的组合输出结果。

38.根据权利要求37所述的方法，包括在分类器中将该第一输出结果和第二输出结果以及该第一反欺骗得分和第二反欺骗得分组合。

39.根据权利要求37所述的方法，包括在神经网络中将该第一输出结果和第二输出结果以及该第一反欺骗得分和第二反欺骗得分组合。

40.根据权利要求1-39中的任一项所述的方法，其中该接收信号的该第一部分包括一个触发短语，并且该接收信号的该第二部分包括一个命令。

41.根据权利要求1-40中的任一项所述的方法，其中该接收信号的该第一部分对应于第一时间窗口，并且该接收信号的该第二部分对应于第二时间窗口，并且其中该第一时间窗口不与该第二时间窗口重叠。

42.根据权利要求1-40中的任一项所述的方法，其中该接收信号的该第一部分对应于第一时间窗口，并且该接收信号的该第二部分对应于第二时间窗口，并且其中该第一时间窗口与该第二时间窗口至少部分地重叠。

43.根据权利要求42所述的方法，其中该第二时间窗口包括该第一时间窗口。

44.根据权利要求1-43中的任一项所述的方法，包括：对该接收信号的至少一个另外的部分执行至少一个另外的说话人识别过程，以获得至少一个相应的另外的输出结果；以及

将该至少一个另外的输出结果与该第一输出结果和第二输出结果组合，以获得指示该用户是注册用户的似然性的组合输出结果。

45.根据权利要求1-44中的任一项所述的方法，还包括：至少对该接收信号的该第一部分执行话音识别。

46.根据权利要求1-44中的任一项所述的方法，还包括基于该组合输出结果向该用户提供反馈。

47.根据权利要求46所述的方法，其中该反馈包括听觉反馈、视觉反馈或触觉反馈。

48.根据权利要求46所述的方法，包括基于该组合输出结果来允许或阻止该用户的进一步动作。

49.一种用于处理表示用户的话音的接收信号、用于执行说话人识别的设备，其中该设备被配置为：

50.根据权利要求49所述的设备，其中该设备包括移动电话、音频播放器、视频播放器、PDA、移动计算平台、游戏设备、远程控制器设备、玩具、机器或家庭自动化控制器。

51.根据权利要求49或50所述的设备，还被配置为用于对该接收信号的至少一部分执行话音识别。

52.根据权利要求49、50或51所述的设备，还被配置为用于将该接收信号的至少一部分转移到远程设备以进行话音识别。

53.根据权利要求52所述的设备，还被配置为用于接收话音识别的结果。

54.一种用于处理表示用户的话音的接收信号、用于执行说话人识别的集成电路设备，其中该集成电路设备被配置为：

55.根据权利要求54所述的集成电路设备，其中该第一说话人识别过程和第二说话人识别过程使用存储在所述设备中的至少一个用户模型或背景模型。

56.根据权利要求54或55所述的集成电路设备，其中该第一说话人识别过程和第二说话人识别过程使用存储在分立的集成电路设备中的至少一个用户模型或背景模型。

57.一种计算机程序产品，包括计算机可读有形介质，以及用于执行根据权利要求1至48中的任一项所述的方法的指令。

58.一种处理表示用户的话音的接收信号的方法，该方法包括：

对该接收信号的第二部分执行第二说话人识别过程，以获得第二输出结果；

将该第一输出结果和第二输出结果组合，以获得指示该用户是注册用户的似然性的组合输出结果；

确定该用户是注册用户的指示似然性是否高于一个阈值；

对该接收信号的该第二部分执行话音识别处理，以获得包含在该接收信号的该第二部分中的命令；以及

如果该指示似然性高于该阈值，则按照所获得的命令行动。

59.根据权利要求58所述的方法，包括将相应的加权值应用于该第一输出结果和第二输出结果，且将所述加权结果组合。

60.根据权利要求59所述的方法，包括形成该第一输出结果和第二输出结果的加权和。

61.根据权利要求59或60所述的方法，其中，所述加权值是预定加权值。

62.根据权利要求59或60的方法，其中所述加权值是可变加权值。

63.根据权利要求62所述的方法，其中基于与相应的样本的质量相关的至少一个量度来确定所述加权值中的至少一个。

64.根据权利要求63所述的方法，其中该加权值被确定为与该相应的样本的质量相关的量度的分段常数函数。

65.根据权利要求63所述的方法，其中该加权值被确定为与该相应的样本的质量相关的量度的连续函数。

66.根据权利要求58所述的方法，包括将该第一输出结果和第二输出结果作为输入应用于神经网络，以及获得组合输出结果作为该神经网络的输出。

67.根据权利要求66所述的方法，还包括将与相应的样本的质量相关的至少一个量度作为输入应用于该神经网络。

68.根据权利要求66或67所述的方法，其中在一个先验的开发阶段中使该神经网络适配。

69.根据权利要求58所述的方法，包括基于与相应的样本的质量相关的至少一个量度来将该第一输出结果和第二输出结果组合。

70.根据权利要求63、67或69中的任一项所述的方法，其中与该相应的样本的质量相关的至少一个量度包括与该接收信号的相应的部分的属性相关的量度。

71.根据权利要求63、67或69中的任一项所述的方法，其中与该相应的样本的质量相关的至少一个量度包括与由该接收信号的相应的部分所表示的该话音的属性相关的量度。

72.根据权利要求71所述的方法，其中与该相应的样本的质量相关的至少一个量度包括由该接收信号的相应的部分所表示的话音的量的量度。

73.根据权利要求71所述的方法，其中与该相应的样本的质量相关的至少一个量度包括该接收信号的相应的部分与相应的说话人识别过程的背景模型的拟合程度的量度。

74.根据权利要求70所述的方法，其中与该相应的样本的质量相关的至少一个量度包括与该接收信号的相应的部分的饱和程度相关的量度。

75.根据权利要求71所述的方法，其中与该相应的样本的质量相关的至少一个量度包括该接收信号的相应的部分的信噪比的量度。

76.根据权利要求71所述的方法，其中与该相应的样本的质量相关的至少一个量度包括该接收信号的相应的部分的信号干扰比的量度。

77.根据权利要求71所述的方法，其中与该相应的样本的质量相关的至少一个量度包括该接收信号的相应的部分的直接反射比的量度。

78.根据权利要求71所述的方法，其中与该相应的样本的质量相关的至少一个量度包括接收该接收信号的相应的部分的方向的量度。

79.根据权利要求71所述的方法，其中与该相应的样本的质量相关的至少一个量度包括接收该接收信号的相应的部分的路程的量度。

80.根据权利要求58-79中的任一项的方法，其中该第一说话人识别过程和第二说话人识别过程是不同的。

81.根据权利要求80的方法，其中该第一说话人识别过程和第二说话人识别过程使用该用户的话音的不同模型。

82.根据权利要求80或81所述的方法，其中该第一说话人识别过程和第二说话人识别过程使用不同的背景模型。

83.根据权利要求81和82中的一项所述的方法，其中该用户的话音的模型或背景模型中的至少一个包括隐马尔可夫模型。

84.根据权利要求81-83之一所述的方法，其中该用户的话音的模型或背景模型中的至少一个包括高斯混合模型。

85.根据权利要求84的方法，其中该高斯混合模型使用因子分析。

86.根据权利要求84或85所述的方法，其中该第一说话人识别过程和第二说话人识别过程使用具有不同数目的高斯函数的高斯混合模型。

87.根据权利要求80-82中的任一项所述的方法，其中该第一说话人识别过程和第二说话人识别过程使用不同的验证方法。

88.根据权利要求58-87中的任一项所述的方法，还包括对该接收信号的该第一部分和第二部分中的至少一个执行反欺骗过程。

89.根据权利要求88所述的方法，其中该反欺骗过程包括基于从该接收信号的相应的部分所获得的特征向量来计算似然比。

90.根据权利要求89所述的方法，其中该特征向量包括从频谱比、低频率比、特征向量平方马氏距离中所选择的一个或多个度量。

91.根据权利要求90所述的方法，包括：对该接收信号的该第一部分和第二部分执行相应的反欺骗过程，以分别获得第一反欺骗得分和第二反欺骗得分。

92.根据权利要求91所述的方法，包括：如果该第一反欺骗得分或第二反欺骗得分超过一个相应的阈值，则确定该用户并非是注册用户。

93.根据权利要求91所述的方法，包括：如果该第一反欺骗得分和第二反欺骗得分的函数超过一个相应的阈值，则确定该用户并非是注册用户。

94.根据权利要求88-93中的一项且还根据权利要求58、62或64中的任一项所述的方法，其中与该相应的样本的质量相关的量度包括从该接收信号的相应的部分所获得的相应的反欺骗得分。

95.根据权利要求91-93中的一项所述的方法，包括：将该第一输出结果和第二输出结果以及该第一反欺骗得分和第二反欺骗得分组合，以获得指示该用户是注册用户的似然性的组合输出结果。

96.根据权利要求95所述的方法，包括在分类器中将该第一输出结果和第二输出结果以及该第一反欺骗得分和第二反欺骗得分组合。

97.根据权利要求95所述的方法，包括在神经网络中将该第一输出结果和第二输出结果以及该第一反欺骗得分和第二反欺骗得分组合。

98.根据权利要求58-97中的任一项所述的方法，其中该接收信号的该第一部分包括一个触发短语，并且该接收信号的该第二部分包括一个命令。

99.根据权利要求58-98中的任一项所述的方法，其中该接收信号的该第一部分对应于第一时间窗口，并且该接收信号的该第二部分对应于第二时间窗口，并且其中该第一时间窗口不与该第二时间窗口重叠。

100.根据权利要求58-98中的任一项所述的方法，其中该接收信号的该第一部分对应于第一时间窗口，并且该接收信号的该第二部分对应于第二时间窗口，并且其中该第一时间窗口与该第二时间窗口至少部分地重叠。

101.根据权利要求100的方法，其中该第二时间窗口包括该第一时间窗口。

102.根据权利要求58-101中的任一项所述的方法，包括：对该接收信号的至少一个另外的部分执行至少一个另外的说话人识别过程，以获得至少一个相应的另外的输出结果；以及

103.根据权利要求58-102中的任一项所述的方法，还包括：至少对该接收信号的该第一部分执行话音识别。

104.根据权利要求58-103中的任一项所述的方法，还包括基于该组合输出结果向该用户提供反馈。

105.根据权利要求104所述的方法，其中该反馈包括听觉反馈、视觉反馈或触觉反馈。

106.根据权利要求104所述的方法，包括基于该组合输出结果来允许或阻止该用户的进一步动作。

107.一种用于处理表示用户的话音的接收信号、用于执行说话人识别的设备，其中该设备被配置为：

108.根据权利要求107所述的设备，其中该设备包括移动电话、音频播放器、视频播放器、PDA、移动计算平台、游戏设备、远程控制器设备、玩具、机器或家庭自动化控制器。

109.根据权利要求107或108所述的设备，还被配置为用于对该接收信号的至少一部分执行话音识别。

110.根据权利要求107、108或109所述的设备，还被配置为用于将该接收信号的至少一部分转移到远程设备以进行话音识别。

111.根据权利要求110所述的设备，还被配置为用于接收话音识别的结果。

112.一种用于处理表示用户的话音的接收信号、用于执行说话人识别的集成电路设备，其中该集成电路设备被配置为：

113.根据权利要求112所述的集成电路设备，其中该第一说话人识别过程和第二说话人识别过程使用存储在该设备中的至少一个用户模型或背景模型。

114.根据权利要求112或113所述的集成电路设备，其中该第一说话人识别过程和第二说话人识别过程使用存储在分立的集成电路设备中的至少一个用户模型或背景模型。

115.一种计算机程序产品，包括计算机可读有形介质，以及用于执行根据权利要求58至106中的任一项所述的方法的指令。

116.一种非暂时性计算机可读存储介质，具有存储在其上的计算机可执行的指令，当由处理器电路系统执行所述计算机可执行的指令时，所述计算机可执行的指令导致该处理器电路系统执行根据权利要求1至48中的任一项所述的方法。

117.一种非暂时性计算机可读存储介质，具有存储在其上的计算机可执行的指令，当由处理器电路系统执行所述计算机可执行的指令时，所述计算机可执行的指令导致该处理器电路系统执行根据权利要求58至106中的任一项所述的方法。