CN111566729A

CN111566729A - 用于远场和近场声音辅助应用的利用超短语音分段进行的说话者标识

Info

Publication number: CN111566729A
Application number: CN201880083790.0A
Authority: CN
Inventors: Z.沈; F.翁; G.贝; P.安基迪特拉库尔
Original assignee: Robert Bosch GmbH
Current assignee: Robert Bosch GmbH
Priority date: 2017-12-26
Filing date: 2018-12-14
Publication date: 2020-08-21
Anticipated expiration: 2038-12-14
Also published as: DE112018002857T5; WO2019129511A1; CN111566729B; US20200152206A1; US11295748B2

Abstract

一种说话者识别设备包括存储器和处理器。存储器存储对应于由登记用户对关键短语的发声的所登记关键短语数据，以及登记用户的文本相关和文本无关声学说话者模型。处理器操作性地连接到存储器，并且执行指令以将说话者认证为登记用户，这包括检测对应于由说话者说出的关键短语的输入关键短语数据，使用登记用户的语音模型计算说话者的文本相关和文本无关分数，计算置信度分数，以及基于置信度分数是否指示输入关键短语数据对应于来自登记用户的语音而将说话者认证为登记用户或拒绝说话者作为登记用户。

Description

用于远场和近场声音辅助应用的利用超短语音分段进行的说话者标识

相关申请

本公开要求题为“SPEAKER IDENTIFICATION WITH ULTRA-SHORT SPEECH SEGMENTSFOR FAR AND NEAR FIELD VOICE ASSISTANCE APPLICATIONS”并且于2017年12月26日提交的美国临时申请No.62/610,337的优先权权益，该美国临时申请的公开内容以其整体并入本文。

技术领域

本公开总体上涉及说话者识别，并且更特别地，涉及使用超短语音分段进行的说话者识别。

背景技术

会话对话系统已经在包括家庭、移动和其它场景的广泛应用中获得了越来越多的认可。在会话过程期间通过使用这样的系统来对人进行标识可以促进个性化的用户体验，同时保持对系统的不同水平的访问的控制。

“说话者识别”是基于说话的人（即“说话者”）的声音对他们进行的标识。典型的说话者识别系统通常需要来自所登记说话者的大量声音样本，以便提取表示说话者独特的声音特性的足够统计量。声学信号的这些特定于说话者的特性被存储为说话者的声学模型或声纹。当一个人说话时，说话者识别系统通常会将这个人的声音特征与所登记的说话者模型和表示一般人类声音的背景模型进行比较，并且然后基于该比较来决定是否将这个人认证为登记用户。

常规系统在要仅利用有限量的可用声音样本来执行认证时具有一些缺点。当有限量的声音样本可用时，针对说话者标识和授权进行优化的语音识别系统将是有益的。

发明内容

为了减少在对用户进行登记时所需的语音样本的长度和数量，本公开提出了一种系统，该系统在利用说话者识别系统将说话者认证为登记用户时，组合了人类语音的文本相关和文本无关模型。

将说话者认证为登记用户的示例性方法包括利用处理器检测对应于由说话者说出的关键短语的输入关键短语数据。处理器参照输入关键短语数据和存储在操作性地连接到处理器的存储器中的来自登记用户的语音的文本相关声学说话者模型来计算文本相关分数。处理器进一步参照输入关键短语数据以及存储在存储器中的来自登记用户的语音的文本无关声学说话者模型来计算文本无关分数。处理器附加地参照文本相关分数和文本无关分数计算针对将说话者认证为登记用户的置信度分数。处理器在置信度分数指示输入关键短语数据对应于来自登记用户的语音时，将说话者认证为登记用户，并且在置信度分数指示输入关键短语数据不对应于来自登记用户的语音时，拒绝将说话者认证为登记用户。

将说话者认证为登记用户的另一示例性方法包括利用处理器检测到音频数据包括对应于由说话者对关键短语的发声的关键短语数据。在一些实施例中，处理器参照关键短语数据以及存储在操作性地连接到处理器的存储器中的登记用户的文本相关声学说话者模型，来计算文本相关分数。处理器还参照关键短语数据以及存储在存储器中的登记用户的文本无关声学说话者模型来计算文本无关分数。处理器进一步参照文本相关分数和文本无关分数计算针对将说话者认证为登记用户的置信度分数。处理器在置信度分数指示关键短语是由登记用户说出的时，将说话者认证为登记用户，并且在置信度分数指示关键短语不是由登记用户说出的时，拒绝将说话者认证为登记用户。

将说话者认证为登记用户的另一示例性方法包括利用输入设备接收音频信号，并将音频信号作为音频数据存储在存储器中。操作性地连接到存储器的处理器检测到音频数据包括对应于由说话者对关键短语的发声的关键短语数据。处理器参照关键短语数据以及存储在存储器中的登记用户的文本相关声学说话者模型来计算文本相关分数，并且参照关键短语数据以及存储在存储器中的登记用户的文本无关声学说话者模型来计算文本无关分数。处理器进一步参照文本相关分数和文本无关分数计算针对将说话者认证为登记用户的置信度分数。处理器将置信度分数与存储在存储器中的预定置信度阈值进行比较，并且响应于该比较，在以下各项之间进行选择：当置信度分数处于或高于预定阈值时将说话者认证为登记用户；和当置信度分数低于预定阈值时拒绝将说话者认证为登记用户。

在一些实施例中，处理器使用操作性地连接到处理器的输出设备向说话者输出指示说话者是被认证还是被拒绝的响应。

在一些实施例中，在检测到关键短语数据之前，处理器在待机操作状态下操作。响应于检测到关键短语数据，处理器转变到在活动操作状态下操作。

在一些实施例中，文本相关模型是使用从由登记用户对关键短语的发声中提取的梅尔频率倒谱系数（“MFCC”）的群组形成的隐马尔可夫模型（“HMM”）。每个群组对应于关键短语的个别部分。

在一些实施例中，检测输入音频数据中的关键短语数据包括将音频数据的一部分分离成预定分段。处理器提取指示每个分段内存在的人类语音特征的MFCC。在一些实施例中，计算文本相关分数包括使用HMM生成对应于关键短语的MFCC，以及将维特比算法应用于从音频信号的一部分提取的MFCC和利用HMM生成的MFCC。

在一些实施例中，检测输入音频数据中的输入关键短语数据包括将音频数据的一部分分离成预定分段。处理器提取指示每个分段内存在的人类语音特征的MFCC，并将所提取的MFCC与对应于来自存储在存储器中的通用背景模型（“UBM”）的关键短语的MFCC进行比较。处理器进一步基于该比较确定音频信号的该部分包括关键短语的发声。

在一些实施例中，计算文本相关分数包括使用文本相关模型生成对应于关键短语的MFCC。处理器基于所提取的MFCC和利用文本相关模型生成的MFCC来计算原始文本相关分数，并从原始文本相关分数中减去文本相关模型的特定于说话者的阈值偏差。文本相关模型的特定于说话者的阈值偏差基于对利用文本相关模型生成的MFCC和对应于来自与登记用户性别匹配的UBM的关键短语的MFCC的比较。

在一些实施例中，计算文本无关分数包括使用文本无关模型生成对应于关键短语的MFCC。处理器基于所提取的MFCC和利用文本无关模型生成的MFCC计算原始文本相关分数，并从该原始文本无关分数中减去文本无关模型的特定于说话者的阈值偏差。文本无关模型的特定于说话者的阈值偏差基于对利用文本无关模型生成的MFCC和对应于来自与登记用户性别匹配的UBM的关键短语的MFCC的比较。

在一些实施例中，该方法进一步包括利用处理器将检测到的输入关键短语数据与存储在存储器中的对应于多个登记用户的所登记关键短语数据进行比较。处理器计算针对每个登记用户的可能性分数。每个可能性分数指示检测到的输入关键短语数据与每个登记用户的对应所登记关键短语数据之间的相似度。处理器选择具有与检测到的关键短语数据具有最高相似度的所登记关键短语数据的登记用户作为对说话者的可能标识。

在一些实施例中，处理器对输入音频数据和输入关键短语数据中的一个或多个应用远场增强。

在一些实施例中，置信度分数被计算为文本相关分数和文本无关分数的线性组合。

在一些实施例中，该方法进一步包括对用户进行登记。

在一些实施例中，对用户进行登记包括从用户提供的语音样本中提取进一步输入关键短语数据。所述进一步输入关键短语数据对应于语音样本中由用户说出的关键短语。处理器确定所提取的进一步输入关键短语数据是否满足一组预定质量评估准则。处理器进一步基于是否已经接收到满足预定质量评估准则的预定最小量的进一步输入关键短语数据，以及满足预定质量评估准则的关键短语数据中的语音总持续时间是否处于或高于预定时间段，来确定是否已经接收到用户的足够数量的语音样本。响应于确定还没有接收到足够数量的语音样本，处理器生成用于使用户提供附加的语音样本的提示，并经由输出设备输出该提示。响应于确定已经接收到足够数量的语音样本，处理器为用户形成包括文本相关声学说话者模型和文本无关声学说话者模型的声学说话者模型，以便对用户进行登记。

在一些实施例中，对用户进行登记包括利用处理器和操作性地连接到处理器的输入设备从用户接收包括关键短语的语音样本，并将所述语音样本作为进一步音频数据存储在存储器中。处理器从进一步音频数据中提取对应于来自语音样本的关键短语的关键短语数据。处理器确定所提取的关键短语数据是否满足一组预定质量评估准则，并基于是否已经接收到满足预定质量评估准则的预定最小量的关键短语数据，以及满足预定质量评估准则的关键短语数据中的语音总持续时间是否处于或高于预定时间段，来确定是否已经接收到用户的足够数量的语音样本。响应于确定还没有接收到足够数量的语音样本，处理器生成用于使用户提供附加的语音样本的提示，并经由操作性地连接到处理器的输出设备输出该提示。响应于确定已经接收到足够数量的语音样本，处理器为用户形成包括文本相关模型和文本无关模型的声学说话者模型，以便对用户进行登记。

在一些实施例中，对用户进行登记包括利用处理器从进一步音频数据中提取关键短语数据，所述进一步音频数据包括由用户对关键短语的发声。处理器确定所提取的关键短语数据是否满足一组预定质量评估准则。处理器进一步基于是否已经接收到满足预定质量评估准则的预定最小量的关键短语数据，以及满足预定质量评估准则的关键短语数据中的语音总持续时间是否处于或高于预定时间段，来确定是否已经接收到用户的足够数量的语音样本。响应于确定还没有接收到足够数量的语音样本，处理器生成用于使用户提供附加的语音样本的提示，并经由操作性地连接到处理器的输出设备输出该提示。响应于确定已经接收到足够数量的语音样本，处理器为用户形成包括文本相关声学说话者模型和文本无关声学说话者模型的声学说话者模型，以便对用户进行登记。

在一些实施例中，生成提示包括标识从先前语音样本中提取的进一步输入关键短语数据不满足的一个或多个预定质量评估准则。处理器确定对先前语音样本的修改，该修改将克服未满足的一个或多个预定质量评估准则，并且将指示所确定的修改的指令包括在该提示中。

在一些实施例中，为用户形成声学说话者模型包括训练文本相关模型以及训练文本无关模型。训练文本相关模型包括从提取自用户提供的每个语音样本中的进一步输入关键短语数据中提取MFCC，以及将来自每个语音样本的MFCC分离成群组，每个群组对应于关键短语的个别部分。对于每个语音样本的每个MFCC群组，处理器使用分段来适配通用背景模型（“UBM”）并形成相应的高斯混合模型（“GMM”），并且利用群组的GMM作为初始化状态来训练隐马尔可夫模型，以形成文本相关模型。训练文本无关模型包括利用处理器标识与用户提供的语音样本的包括人类语音的部分相对应的输入音频数据的部分，以及从音频数据的所标识部分中提取MFCC。处理器使用从音频数据的所标识部分中提取的MFCC来适配UBM并形成文本无关模型。

一种说话者识别设备包括：被配置为接收音频信号的输入设备、输出设备、存储器以及操作性地连接到输入设备、输出设备和存储器的处理器。存储器被配置为存储对应于音频信号的音频数据、对应于由登记用户对关键短语的发声的所登记关键短语数据、登记用户的文本相关声学说话者模型、登记用户的文本无关声学说话者模型以及预定置信度阈值。处理器被配置为执行编程指令以将说话者认证为登记用户中的一个。

在一些实施例中，将说话者认证为登记用户包括利用处理器检测对应于由说话者说出的关键短语的输入关键短语数据。处理器参照输入关键短语数据和存储在操作性地连接到处理器的存储器中的来自登记用户的语音的文本相关声学说话者模型，来计算文本相关分数。处理器进一步参照输入关键短语数据以及存储在存储器中的来自登记用户的语音的文本无关声学说话者模型来计算文本无关分数。处理器附加地参照文本相关分数和文本无关分数计算针对将说话者认证为登记用户的置信度分数。处理器在置信度分数指示输入关键短语数据对应于来自登记用户的语音时，将说话者认证为登记用户，并且在置信度分数指示输入关键短语数据不对应于来自登记用户的语音时，拒绝将说话者认证为登记用户。

在一些实施例中，将说话者认证为登记用户中的一个包括利用输入设备接收音频信号，并将音频信号作为音频数据存储在存储器中。处理器检测到音频数据包括对应于由说话者对关键短语的发声的关键短语数据。处理器参照关键短语数据和登记用户的文本相关声学说话者模型来计算文本相关分数，并参照关键短语数据和登记用户的文本无关声学说话者模型来计算文本无关分数。处理器进一步参照文本相关分数和文本无关分数计算针对将说话者认证为登记用户的置信度分数。处理器将置信度分数与预定置信度阈值进行比较，并且响应于该比较，在以下各项之间进行选择：当置信度分数处于或高于预定阈值时将说话者认证为登记用户；和当置信度分数低于预定阈值时拒绝将说话者认证为登记用户。

在一些实施例中，对说话者进行认证包括利用处理器检测到音频数据包括对应于由说话者对关键短语的发声的关键短语数据。在一些实施例中，处理器参照关键短语数据以及存储在操作性地连接到处理器的存储器中的登记用户的文本相关声学说话者模型来计算文本相关分数。处理器还参照关键短语数据以及存储在存储器中的登记用户的文本无关声学说话者模型来计算文本无关分数。处理器进一步参照文本相关分数和文本无关分数计算针对将说话者认证为登记用户的置信度分数。处理器在置信度分数指示关键短语是由登记用户说出的时，将说话者认证为登记用户，并且在置信度分数指示关键短语不是由登记用户说出的时，拒绝将说话者认证为登记用户。

在一些实施例中，处理器进一步被配置为执行编程指令来对用户进行登记。

在一些实施例中，对用户进行登记包括利用处理器和操作性地连接到处理器的输入设备来从用户接收包括关键短语的语音样本，并且将该语音样本作为进一步音频数据存储在存储器中。处理器从进一步音频数据中提取对应于来自语音样本的关键短语的关键短语数据。处理器确定所提取的关键短语数据是否满足一组预定质量评估准则，并基于是否已经接收到满足预定质量评估准则的预定最小量的关键短语数据，以及满足预定质量评估准则的关键短语数据中的语音总持续时间是否处于或高于预定时间段，来确定是否已经接收到用户的足够数量的语音样本。响应于确定还没有接收到足够数量的语音样本，处理器生成用于使用户提供附加的语音样本的提示，并经由操作性地连接到处理器的输出设备输出该提示。响应于确定已经接收到足够数量的语音样本，处理器为用户形成包括文本相关模型和文本无关模型的声学说话者模型，以便对用户进行登记。

在一些实施例中，处理器进一步被配置为对输入音频数据、输入关键短语数据和进一步输入关键短语数据中的一个或多个应用远场增强。

附图说明

结合附图，在以下描述中解释了本公开的前述方面和其它特征。

图1是语音识别系统的示例性实施例的示意图。

图2是用于操作图1的系统的功能组件的框图。

图3A是描绘用于使用图1的系统来检测音频数据内的关键短语数据的过程的示例性实施例的流程图。

图3B图示了使用图1的系统处理的音频数据。

图4是描绘用于利用图1的系统对用户进行登记的过程的示例性实施例的流程图。

图5A是描绘用于利用图1的系统来训练文本相关说话者模型的过程的示例性实施例的流程图。

图5B图示了使用图1的系统处理的关键短语数据。

图6是描绘用于利用图1的系统来训练文本无关说话者模型的过程的示例性实施例的流程图。

图7是描绘用于利用图1的系统为用户的声学说话者模型确定说话者相关阈值偏差的过程的示例性实施例的流程图。

图8是描绘用于利用图1的系统将未标识的说话者认证为登记用户的过程的示例性实施例的流程图。

具体实施方式

为了促进对本文中描述的实施例的原理的理解的目的，现在参考以下书面说明书中的附图和描述。参考并非旨在限制主题的范围。本公开还包括对所说明实施例的任何变更和修改，并且包括如与本文档相关领域的技术人员通常将想到的对所描述实施例原理的进一步应用。

本公开针对利用超短语音分段的说话者标识技术，以及针对近场和远场会话辅助应用而优化的技术。这样的技术使用户登记所需的数据量最小化，并且能够基于非常短量的申请者语音做出接受/拒绝决定。

如图1中所示，系统100包括说话者识别设备102和远程计算设备104。说话者识别设备102包括处理器108，其操作性地连接到存储器120、输入设备150和输出设备154。在一些实施例中，系统100被配置为基于说话者的语音将说话者登记为用户。如下面更详细描述的，当在登记模式下操作时，系统100通过为用户形成说话者声学模型来将说话者登记为用户。在一些实施例中，系统100被配置为基于说话者的语音将说话者识别和/或认证为登记用户。如下面更详细描述的，当在认证模式下操作时，系统100被配置为标识说话者是否是登记用户，并基于该标识执行操作，诸如授权或拒绝对系统100的预定义控制和/或访问。在一些实施例中，系统100不包括远程计算设备。

在说话者识别设备102中，处理器108包括实现中央处理单元（CPU）112的功能性的一个或多个集成电路。在操作期间，CPU 112被配置为执行从存储器120中检索的所存储的程序指令132。所存储的程序指令132包括软件，该软件控制CPU 112的操作，以基于说话者的语音将说话者登记和/或认证为用户。

在一些实施例中，处理器108是片上系统。在一些实施例中，包括例如存储器120、网络设备和定位系统的其它组件被集成到单个集成设备中。在一些实施例中，CPU 112和其它组件经由任何合适的外围数据连接彼此连接。在一些实施例中，CPU 112是商业可获得的中央处理设备，其实现指令集，诸如x86、ARM、Power或MIPS指令集家族中的一种。在一些实施例中，处理器108执行包括驱动程序和其它软件指令的软件程序。在一些实施例中，处理器108位于服务器中，并且远程计算设备104充当客户端设备。附加地，除了CPU 112之外或作为CPU 112的替代，处理器108的替换实施例可以包括微控制器、专用集成电路（ASIC）、现场可编程门阵列（FPGA）、数字信号处理器（DSP）或任何其它合适的数字逻辑设备。

在说话者识别设备102中，存储器120包括非易失性存储器设备和易失性存储器设备两者。非易失性存储器包括固态存储器，诸如NAND闪速存储器、磁和光存储介质，或者当系统100被去激活或失去电力时保留数据的任何其它合适的数据存储设备。易失性存储器包括静态和动态随机存取存储器（RAM），其在系统100的操作期间被配置为存储程序指令132、输出数据142和系统数据134。存储器120以任何合适的格式存储数据。如下面更详细讨论的，在各种实施例中，存储器120中的系统数据134包括音频数据136、用户数据138、语音模型数据140和其它数据（未示出）中的一种或多种。

输入设备150包括使得系统100能够接收程序指令132、系统数据134和输出数据142的任何设备。示例包括人机接口输入，诸如键盘、鼠标、触摸屏、声音输入设备、相机、传感器等。输入设备150的一个非限制性示例包括一个或多个麦克风或麦克风阵列。在一些实施例中，输入设备150包括近场麦克风或麦克风阵列和远场麦克风或麦克风阵列。在一些实施例中，输入设备150仅包括近场麦克风或麦克风阵列。附加地，在一些实施例中，输入设备150是网络适配器或外围互连设备，其经由数据网络连接144从另一计算机或外部数据存储设备（诸如远程计算设备104）接收数据。

输出设备154包括使得系统100能够输出输出数据142的任何设备。示例包括扬声器；诸如LED或其它指示器的视觉显示设备；诸如电子显示屏、投影仪或打印机的图形显示设备。在一些实施例中，系统100包括多个输出设备154，并且输出数据142的不同部分显示在不同的输出设备154上。

在一些实施例中，处理器108生成作为一个或多个数据文件的输出数据142，并且处理器108经由数据网络连接144（诸如互联网或任何其它可接受的数据连接）将输出数据142传输到远程计算设备104。远程计算设备104被配置为将输出数据142输出为例如音频信号、视觉信号等。在一个非限制性示例中，处理器108在服务器计算设备中实现，所述服务器计算设备执行所存储的程序指令132以实现web服务器，该web服务器经由数据网络连接144将输出数据142传输到远程计算设备104中的web浏览器。远程计算设备104作为客户端设备，其实现web浏览器或其它合适的输出软件，以使用集成到远程计算设备104中的输出设备154输出从服务器接收的输出数据142。

在系统100的操作中，处理器108结合系统100的其它组件执行所存储的程序指令132。图2是描绘用于系统100的操作的功能组件的示例性实施例的框图200。如本文中使用的“功能组件”是包括硬件或者硬件和软件的组合的组件或模块，其由处理器108参照程序指令132来实现，以便执行一个或多个功能。在下面的描述中，处理器108使用上面讨论的系统100的元件来执行被描述为由功能组件执行或利用功能组件执行的动作。此外，虽然在下面的实施例中动作被描述为由特定的功能组件执行，但是在其它实施例中，这样的动作由其它组件或各种组件的组合来执行。

如图2中所示，系统100包括前端语音模块202、自动语音识别（“ASR”）模块204、语言管理器模块206、登记模块208、认证模块210和语音模型模块212。前端语音模块204使用输入设备150接收输入声学信号205，并将该声学信号作为音频数据136存储在存储器120中。在一些实施例中，前端语音模块204对音频数据136应用滤波器，以降低声学信号中的背景噪声和/或环境混响。

音频数据136包括例如对应于语音样本的数据、关键短语数据、梅尔频率倒谱系数（“MFCC”）、信噪比（“SNR”）以及描述声学信号的其它数据。语音样本是包括人类语音的声学信号。任何可接受的文件格式都可用于存储音频数据，诸如例如，未压缩格式（如WAV、AIFF），原始无损压缩格式（诸如FLAC、TTA、MPEG-4），以及其它格式（如MP3和AAC）。

“关键短语”是人类语言的预定可听短语。如本文中所使用的，术语“关键短语”指代说话者在语音样本或语音样本的一部分内实际发声的预定可听短语。关键短语数据指代可用于标识语音样本内的预定可听短语的特性信息和数据，诸如对应于预定可听短语的MFCC。

MFCC是指示在离散时间分段期间音频信号中存在的人类声音频率的系数的特征向量。用于语音识别的“分段”通常近似为15ms至35ms，尽管其它间隔也是可用的。音频信号的MFCC指示该音频信号中人类语音的声音特征。人类语音的示例性特征包括文本内容、用户的年龄和性别、音调、音高、节奏、速度以及至少部分指示说话者身份的其它方面。

ASR模块204通过检测对应于声学信号的音频数据中的关键短语数据，来标识所接收的声学信号205中的关键短语的发声。响应于检测到声学信号205中的关键短语的发声，ASR模块204被配置为使得系统100执行操作，诸如在用户和说话者识别设备102之间的会话或交互期间唤起系统100的特定行为，将关键短语数据存储在存储器120中，和/或通过将说话者识别设备102从待机操作状态转变到活动操作状态来“唤醒”说话者识别设备102。

语言管理器模块206执行关于处理包括人类语音的音频数据的各种操作。在该实施例中，语言管理器模块206包括（i）自然语言理解模块，其被配置为识别音频数据中的人类语音的上下文，（ii）对话管理器，其被配置为构造音频提示和用户与人类语音的交互，（iii）语言生成器，其被配置为基于音频数据中的人类语音的上下文或系统100的操作状态来生成文本内容，（iv）文本到语音合成器，其被配置为将文本内容转换成所合成的人类语音的音频数据，（v）知识管理器，用以确定人类语音的上下文和用户信息之间的对应关系，以及（vi）应用管理器，其被配置为调度用于由处理器108执行的模块。在一些实施例中，系统100不包括语言管理器模块。

登记模块208利用系统100对用户进行登记，认证模块210将说话者认证为登记用户，并且语音模型模块212基于包括人类语音的音频数据形成和训练声学说话者模型，如下面进一步详细讨论的。

在下面描述的过程中，为了说明的目的，描述了结合来自图1和图2的元件和组件来执行的各种动作。

图3A是描绘用于检测所接收的输入声学信号205中的预定关键短语的过程300的示例性实施例的流程图，并且图3B图示了包括对应于预定关键短语的关键短语数据320的音频数据136。在框302（图3A）处，前端模块202使用输入设备150接收声学信号205。在框304处，ASR模块204将音频信号205分离成预定分段314，并将分段314作为音频数据136（图3B）存储在存储器120中。在框306处，ASR模块204从分段314的部分316中提取MFCC。

在框308处，ASR模块204使用语音模型模块212来将从部分316中提取的MFCC与对应于来自存储在存储器120中的通用背景模型（“UBM”）的关键短语的MFCC进行比较，并基于该比较来计算ASR置信度分数。用于从音频数据中提取MFCC的任何可接受的技术都是可用的。

ASR置信度分数是指示分段的特定部分包含关键短语的可能性的分数，并且UBM是使用来自多个说话者的样本形成的声学说话者模型，并且因此是针对人类语音样本的可用的一般参考点。声学说话者模型是从多个语音样本中提取的特征向量的集合，并且其在与人类语音的其它样本相比较时，可用作针对人类语音的参考。

任何可接受的评分技术都可用于确定ASR置信度分数。在一些实施例中，通过确定从分段的特定部分中提取的MFCC和来自UBM的关键短语的MFCC之间的比率，并使用比率的平均值作为ASR置信度分数，来计算ASR置信度分数。在一些实施例中，维特比算法用于使用样本和关键短语数据的MFCC来计算ASR置信度分数。

在框310处，ASR模块204确定ASR置信度分数是否指示部分316包含关键短语。在一些实施例中，将ASR置信度分数与预定ASR置信度分数阈值进行比较。在该示例中，ASR模块204确定ASR置信度分数不指示部分316包括关键短语。

在一些实施例中，针对分段的不同部分重复框308和310，直到已经考虑了音频数据136的分段整体，或者检测到具有高于预定阈值的ASR分数的部分。在该示例中，在对框308的重复中，ASR模块204使用语音模型模块212来将从分段314的部分318中提取的MFCC与对应于来自UBM的关键短语的MFCC进行比较，并基于该比较来计算ASR置信度分数。在对框310的重复中，ASR模块204确定部分316的ASR分数指示部分316包括关键短语。

在框312处，响应于确定ASR分数指示间隔的该部分包含关键短语，ASR模块204提取与分段的该部分相对应的音频数据136的部分作为关键短语数据320。换句话说，ASR模块204提取音频数据136的、被确定为可能包括关键短语发声的部分320。在一些实施例中，响应于检测和提取关键短语数据320，ASR模块204被配置为进行如下各项中的一个或多个：（i）将关键短语数据320和/或对应的MFCC存储在存储器120中，（ii）向另一模块（诸如语言管理器模块206的应用管理器）传输信号以便指示已经接收到关键短语，以及（iii）使得说话者识别设备102从待机操作状态转变到活动操作状态。

在一些实施例中，当在框304处将间隔存储在存储器120中时，ASR模块204被配置为在存储器120中流式传输间隔的存储，即限制在存储器120中缓冲的间隔的总数，并以先进先出的方式从存储器120中清除间隔。例如，在一些实施例中，ASR模块204被配置为最多存储对应于5秒的音频信号205的间隔数量。在一些实施例中，用于限制间隔总数的时间范围是基于关键短语的长度来设置的。

在一些实施例中，说话者识别设备102被配置为在待机操作状态下操作，直到被ASR模块204、另一模块或响应于指令而转变到活动操作状态。在一些实施例中，当在待机操作状态下操作时，处理器108被配置为相对于处理器108在活动操作状态下的执行来限制或停止除前端模块202和ASR模块204之外的模块的执行。

当在活动操作状态下操作时，说话者识别设备102可使用登记模块208而在登记模式下以及使用认证模块210而在认证模式下操作。登记模块208被配置为利用系统100对用户进行登记，并为用户形成说话者声学模型。认证模块210被配置为认证说话者是否是登记用户，并基于该认证授权或拒绝对系统100的预定义控制和/或访问。

在一些实施例中，说话者识别设备102默认在认证模式下操作，并且响应于来自认证模块210的指令在登记模式下操作。例如，在各种实施例中，认证模块210被配置为响应于ASR模块204检测到关键短语数据，或者响应于经由输入设备150从用户或远程计算设备104接收到指令，而发出指令以将说话者识别设备102转变到登记模式。在一个示例性实施例中，远程计算设备104是便携式设备（诸如在存储器120中被标识为信任设备的移动电话），并且由此可操作来指令说话者识别设备102转变到登记模式以便对用户进行登记。

图4是描绘在登记模式下操作时由处理器108使用登记模块208执行的登记过程400的示例性实施例的流程图。在框402处，前端模块202接收包括来自说话者的语音样本的声学信号205，并将声学信号205作为音频数据136存储在存储器120中。将说话者登记为用户基于来自说话者的包括关键短语发声的语音样本。

在框404处，ASR模块204从音频数据136中提取关键短语数据，并从语音样本中计算关键短语数据的ASR置信度分数。在框406处，登记模块208确定所接收的语音样本是否满足一组预定质量评估准则。在一些实施例中，登记模块208被配置为拒绝不满足准则的语音样本。由于在登记过程中接收的语音样本被用于形成用户的声学说话者模型，所以当试图认证用户时，低质量样本可能影响系统100的准确性。通过拒绝不满足要求的语音样本，登记模块208不仅增加了系统100的准确性，而且还减少了准确地登记用户所需的语音样本量。预定质量评估准则包括确定（i）语音样本的平均语音能量，即平均幅度（dB）在预定范围内，即高于预定最小dB值并且低于预定最大dB值；（ii）语音样本的ASR置信度分数指示语音样本中关键短语的存在；以及（iii）语音样本的信噪比（“SNR”）高于预定最小值。用于确定音频样本的SNR的任何可接受的技术都是可用的。

在框408处，登记模块208基于（i）是否已经接收到满足预定质量评估准则的预定最小量的语音样本，以及（ii）满足要求的语音样本的总持续时间是否满足预定时间段，来确定是否已经接收到足够的语音样本。基于音量、说话者的位置、周围环境、语音的上下文、说话者的音调和其它因素，用户的声音可能具有不同的特性。对于语音样本的预定量的要求使得系统100能够计及各个用户的声音的较大变化量。满足要求的语音样本的总持续时间与能够从用户的语音中提取的MFCC的总数量相关，并且因此，对满足要求的语音样本总持续时间的预定时间段进行要求有益于形成用户语音的综合模型。

在框410处，响应于在框408中确定还没有接收到足够的语音样本，登记模块208使用输出设备154来提示用户提供附加的语音样本，并重复框402-408直到已经接收到足够的语音样本为止。在一些实施例中，提示包括文本内容，该文本内容具有针对用户的关于提供附加语音样本的指令。

在一些实施例中，诸如经由语言管理器模块206的对话管理器和/或语言生成器，参照早前语音样本的预定质量评估准则中的一个或多个来生成提示的文本内容。换句话说，在一些实施例中，说话者识别设备102被配置为参照预定质量评估准则来标识为何先前语音样本不满足要求的潜在原因，并且经由输出设备154向用户提供指令，如果遵循该指令，则该指令可能改进后续语音样本的质量。以这种方式，登记模块208被配置为在登记过程期间向用户提供即时（on-the-fly）反馈。换句话说，登记模块208被配置为经由提示与用户以会话方式接洽，以便响应性地将用户引导成提供针对系统100优化的语音样本。

在一个示例中，在框406的执行期间，登记模块208确定语音样本的平均语音能量低于预定最大dB值，并拒绝该语音样本。在框408处，登记模块208确定还没有接收到足够数量的语音样本。在框410处，登记模块208生成针对附加语音样本的提示。基于在框406期间确定平均语音能量太低，登记模块208为提示生成文本内容，该提示指示用户应当在后续语音样本中增大他们的说话音量。

在一些实施例中，诸如经由语言管理器模块206的对话管理器和/或语言生成器来生成提示的文本内容，以便包括针对用户的用以使后续语音样本的特性变化的指令。要变化的特性包括语音的特性，诸如音量、音高、音调，以及诸如说话者的定位、位置和活动的其它特性。在聚集的样本中提供更广泛的变化可以使得用户的声学说话者模型更鲁棒，以在更广泛的状况下准确地标识用户。

在框412处，响应于在框408中确定已经接收到足够的语音样本，登记模块208指令语音模型模块212为用户形成声学说话者模型，并将声学说话者模型作为模型数据140存储在存储器120中。通常通过将模式识别技术（诸如使用高斯混合模型（“GMM”）或隐马尔可夫模型（“HMM”））应用于用户的语音样本来形成声学说话者模型，如下面进一步详细讨论的。在框414处，响应于框412中登记模块208的指令，语音模型模块212为用户训练文本相关说话者模型，并将文本相关模型作为模型数据140存储在存储器120中。

文本相关说话者模型是一类可用作参考的声学说话者模型，该参考具有包含与模型相同的文本内容的样本。换句话说，文本相关说话者模型由音频数据形成，该音频数据来自由个体说出的包括特定关键短语的大量语音样本，并且文本相关说话者模型可用于基于由说话者对该特定关键短语的发声来标识说话者是否是该个体。

训练文本相关说话者模型（框414）的任何可接受的方法都是可用的。图5A是描绘用于训练文本相关说话者模型的过程500的示例性实施例的流程图，并且图5B图示了经由过程500使用关键短语数据320来训练文本相关说话者模型360。在框502处，ASR模块204从提取自经由前端模块202接收的语音样本中的每个关键短语的关键短语数据中提取MFCC。虽然图5B中的关键短语数据320是一个特定语音样本的关键短语数据，但是应当理解，在过程500期间，图5B中所图示的使用类似地应用于每个语音样本的关键短语数据。所提取的MFCC以及用于从每个关键短语中提取MFCC的分段318的部分被存储在存储器120中。

在框504处，语音模型模块212将每个关键短语320的分段318的每个部分分离成多个群组350a-c。在一些实施例中，语音模块212被配置为使得所得到的群组各自具有固定数量的MFCC。在一些实施例中，语音模块212被配置为使得所得到的群组具有基于关键短语中词或音素数量的MFCC数量。在其它实施例中使用对于关键短语的MFCC的其它划分。

在框506处，对于每个群组，语音模块212使用该群组的MFCC来适配UBM，并为该群组形成相应的特定于说话者的GMM 355a-c。在框508处，语音模块212使用GMM 355a-c作为初始化状态来将HMM训练为用户的文本相关模型360。由于初始化状态包括每个语音样本的每个群组的相应GMM，而不是每个语音样本只有一个，所以相对少量的语音样本可以导致足够大量的GMM。作为结果，相对于常规训练技术，语音模块212能够利用相对低量的语音样本来训练HMM 360。

返回图4，在框416处，响应于框412中登记模块208的指令，语音模型模块212为用户训练文本无关说话者模型，并将文本无关模型作为模型数据140存储在存储器120中。文本无关说话者模型是一类可用作参考的声学说话者模型，该参考具有包含任意文本内容的样本。换句话说，文本无关说话者模型是由音频数据形成的，该音频数据来自由个体说出的包括任意人类语音的大量语音样本，并且文本无关说话者模型可用于基于说话者的任意发声来标识说话者是否是该个体。

训练文本无关说话者模型（框416）的任何可接受的方法都是可用的。图6是描绘用于训练文本无关说话者模型的过程600的示例性实施例的流程图。在框602处，登记模块208将声音活动检测（“VAD”）过程应用于所接收的样本。VAD过程检测语音样本包括人类语音的部分，并丢弃非语音或低能量语音的部分。在框604处， ASR模块204从在框602中被标识为具有人类语音的语音样本的部分中提取MFCC。在框606处，语音模块212使用所提取的MFCC来适配UBM并为用户形成特定于说话者的文本无关模型。

返回图4，在框418处，语音模型模块212基于经训练的文本相关和文本无关模型，确定用户的声学说话者模型的说话者相关阈值偏差，并且在框420处，利用系统100对用户进行登记。

图7是描绘过程700的示例性实施例的流程图，该过程700用于基于经训练的文本相关和文本无关模型来确定用户的声学说话者模型的说话者相关阈值偏差。在框702处，语音模块212使用用户的文本相关模型来生成针对关键短语数据320的MFCC。在一些实施例中，语音模块212附加地使用语言管理器模块206的语言生成器和/或文本到语音合成器以及ASR模块204来生成这些MFCC。在框704处，语音模块212计算一组可能性分数，其中每个分数被计算为使用文本相关模型生成的MFCC和性别相关UBM中来自相应的人的MFCC之间的比率。

在一些实施例中，语音模块212使用诸如用户信息和/或历史用户数据之类的系统数据134，来确定用户的性别，并选择由该性别的人提供的样本形成的UBM。在一些实施例中，语音模块212使用由男人提供的样本形成的第一UBM来计算第一组可能性分数，使用由女人提供的样本形成的第二UBM来计算第二组可能性分数，计算第一组的第一平均值和第二组的第二平均值，并选择具有更高平均值的一组可能性分数。在框706处，语音模块212计算文本相关模型的该组可能性分数的平均值和方差。

在708处，重复框702-706，但是为此，代替于在框702中使用文本相关模型来生成针对关键短语320的MFCC，使用文本无关模型在其位置生成针对关键短语320的MFCC，以便为文本无关模型的该组可能性分数计算平均值和方差。在710处，语音模块212将文本相关和文本无关模型的平均值和方差一起存储为用户的说话者相关阈值偏差。

一旦用户已经诸如以上面讨论的方式登记在系统100中，系统100就被配置为授权对系统100的使用预定义控制和/或访问。然而，确定特定说话者是应得这样的控制和/或访问的登记用户需要将该说话者认证为登记用户。图8是描绘用于将说话者认证为登记用户的过程800的示例性实施例的流程图。在框802处，认证模块210诸如经由上面讨论的过程300使用ASR模块204来检测音频数据136内的关键短语320。在框804处，认证模块210通过如下方式将从说话者输入的关键短语数据320与利用系统100登记的用户的所登记关键短语数据进行比较：计算一组可能性分数，其中每个分数指示说话者的输入关键短语320与相应登记用户的所登记关键短语数据之间的相似度。在一些实施例中，每个分数被计算为来自在框802中检测到的输入关键短语数据320的MFCC和从登记用户的说话者声学模型中的相应一个生成的所登记关键短语数据的MFCC之间的比率。在框806处，认证模块210选择与指示输入关键短语数据320和所登记关键短语数据之间的最高相似度的可能性相对应的登记用户，作为说话者的可能标识。

在框808处，认证模块210参照被选择作为说话者的可能标识的登记用户的文本相关模型来计算说话者的原始文本相关分数。用于进行文本相关评分的任何可接受的评分方法都是可用的。在一些实施例中，文本相关模型由HMM形成，并且认证模块210将维特比算法应用于来自在框802中检测到的关键短语数据320的HMM和MFCC，以计算原始文本相关分数。在框810处，认证模块210从原始分数中减去所选择的登记用户的文本相关模型的特定于说话者的阈值偏差，以计算无偏的文本相关分数。

在框812处，认证模块210参照所选择的登记用户的文本无关模型来计算说话者的原始文本无关分数。用于进行文本无关评分的任何可接受的评分方法都是可用的。在一些实施例中，文本无关模型由GMM形成，并且认证模块210将概率密度函数应用于来自在框802中检测到的关键短语数据320的GMM和MFCC，以计算原始文本无关分数。在框814处，认证模块210从原始分数中减去所选择的登记用户的文本无关模型的特定于说话者的阈值偏差，以计算无偏的文本无关分数。

由于分数是以无偏形式的，所以可以比照公共阈值对分数进行评价，由此文本相关分数和文本无关分数各自表示二维空间的独立维度。在框816处，认证模块210计算无偏的文本相关分数和文本无关分数的线性组合，以使用以下公式形成对于将说话者认证为所选择的登记用户的置信度分数：

置信度分数=权重1×文本相关分数+权重2×文本无关分数

其中权重1和权重2是应用于各个分数的权重。在各种实施例中，基于关键短语的长度、特定于说话者的阈值偏差、UBM和其它准则中的一个或多个来设置权重值。

在框818处，认证模块210确定所计算的置信度分数是否指示说话者是所选择的登记用户。在一些实施例中，该确定包括将所计算的置信度分数与预定置信度阈值进行比较。在一些实施例中，预定置信度阈值是基于系统准则来确定的，该系统准则诸如错误警报的风险和错误拒绝的风险之间的权衡。

在框820处，认证模块210基于关于置信度分数的确定做出认证确定，由此认证模块210在置信度分数指示说话者是登记用户时将说话者认证为登记用户，并且在置信度分数指示说话者不是登记用户时拒绝说话者。换句话说，该确定基于置信度分数是否指示关键短语数据320对应于来自登记用户的语音。一旦说话者已经被认证为登记用户，该说话者然后就被酌情授权或拒绝对系统100的访问和/或控制。

在一些实例中，说话者可以结合系统100的指令说出关键短语，诸如短语“对不起，播放一些音乐”，其中短语“对不起”是关键短语，并且短语“播放一些音乐”是指令。在一些实施例中，关键短语本身可以包括或指示用于系统的指令。在一些实施例中，系统100进一步被配置为接收除了关键短语之外的语音样本，并且在说话者已经被系统100认证之后解析附加的语音样本。在一些实施例中，解析附加语音包括确定语音的上下文和/或内容。在一些实施例中，解析语音包括确定语音中的指令并根据该指令执行操作。

在一些实例中，当系统100正在待机操作状态下操作时，说话者说出关键短语。由于系统100被配置为不仅使用关键短语唤醒并转变到活动操作状态，而且还使用关键短语将说话者认证为登记用户，所以在一些实施例中，系统100被配置为处理由用户对关键短语的发声和/或用户的附加指令，而不要求附加提示或与用户的交互。换句话说，说话者可以说出关键短语或者关键短语和命令，并且使系统100感知为在单个步骤中进行响应，并且没有来自说话者的对于唤醒、认证和指令的单独步骤的要求。

在一些实施例中，系统100被配置为检测多个关键短语，每个关键短语具有其自己的相关联的关键短语数据，由此每个关键短语与对系统100的不同水平的访问和/或控制、用于系统100的不同指令或操作、以及不同的登记用户中的一个或多个相对应。

在使用系统100的示例性实施例中，远程计算设备104是音频回放设备，并且一个人期望在设备104上播放音乐。说话者识别设备102正在待机模式下操作。在说话者识别设备102存在的情况下，这个人说“播放音乐”。说话者识别设备102捕获包括人的发声的音频信号，并且检测到音频数据包括预定关键短语“播放”，并且转变到活动操作状态、并且更特别地转变到认证模式。说话者识别设备102然后提取音频数据的对应于检测到的关键短语的一部分，并将所提取的关键短语与由登记用户对该关键短语的发声进行比较。基于该比较，说话者识别设备102选择一登记用户作为这个人的可能标识，并计算由这个人说出的关键短语的原始文本相关分数和文本无关分数。说话者识别设备102然后从原始分数中减去特定于说话者的偏差，并计算针对将这个人标识为所选择的登记用户的置信度分数。说话者识别设备102然后确定置信度分数高于预定阈值，并且将这个人认证为所选择的登记用户。作为认证的结果，说话者识别设备102确定特定关键词“播放”对应于关于远程计算设备104采取动作。附加地，说话者识别设备102继续处理音频数据，并确定由用户请求的动作对应于在远程计算设备104上输出音乐。作为结果，说话者识别设备102向远程计算设备104传输指令，从而使得远程计算设备104播放与登记用户相关联的音乐。

在使用系统100的另一示例性实施例中，远程计算设备104是安装在门上的电子锁，并且一个人期望对该锁进行解锁以便打开门。说话者识别设备102正在待机模式下操作。在说话者识别设备102存在的情况下，这个人说“将门解锁”。说话者识别设备102捕获包括人的发声的音频信号，并且检测到音频数据包括预定关键短语“解锁”，并且转变到活动操作状态、并且更特别地转变到认证模式。说话者识别设备102然后提取音频数据的对应于检测到的关键短语的一部分，并将所提取的关键短语与由登记用户对该关键短语的发声进行比较。基于该比较，说话者识别设备102选择一登记用户作为这个人的可能标识，并计算由这个人说出的关键短语的原始文本相关分数和文本无关分数。说话者识别设备102然后从原始分数中减去特定于说话者的偏差，并计算针对将这个人标识为所选择的登记用户的置信度分数。说话者识别设备102然后确定置信度分数低于预定阈值，并且拒绝将这个人认证为所选择的登记用户。作为拒绝的结果，说话者识别设备不继续处理音频数据，并且因此不按照这个人的请求对锁进行解锁。

在使用系统100的附加示例性实施例中，远程计算设备104是安装在门上的电子锁，并且一个人期望对该锁进行解锁以便打开门。说话者识别设备102正在待机模式下操作。在说话者识别设备102存在的情况下，这个人说“你记得要将门解锁吗

”。说话者识别设备102然后继续基于这个人对关键短语“解锁”的发声来将这个人认证为登记用户，并继续处理这个人的发声的剩余部分。说话者识别设备102将发声的上下文确定为不是用于系统100的指令，并且不对锁进行解锁。

在使用系统100的进一步示例性实施例中，说话者识别设备102正在待机模式下操作。在说话者识别设备102存在的情况下，第一人说“对不起，添加新用户”。说话者识别设备102捕获包括第一人的发声的音频信号，并且检测到音频数据包括预定关键短语“对不起”，并且转变到活动操作状态、并且更特别地转变到认证模式。说话者识别设备102然后继续将第一人认证为利用系统100登记的第一用户，并且然后处理音频数据的包括短语“添加新用户”的剩余部分，以确定合期望地添加新用户。作为结果，说话者识别设备102提示第二人讲出他们的名字以及关键短语“对不起”。说话者识别设备102然后确定第二人的发声是否足够响亮，以及第二人的发声是否可能包含所要求的关键短语。说话者识别设备102然后提示第二人“请重复一遍，并且这次更响亮一点”。说话者识别设备102然后确定第二人的发声满足相关准则，并使用第二人的发声来形成第二人的文本相关和文本无关模型。说话者识别设备102然后使用模型和UBM来计算第二人的特定于说话者的阈值偏差，并利用系统100对第二人进行登记。

在使用系统100的附加示例性实施例中，说话者识别设备102正在待机模式下操作。一个人正在使用由系统100认证的远程计算设备104。利用设备104，这个人指令系统100这个人期望利用系统100对其声音进行登记。远程设备104传输指令，该指令使得说话者识别设备102转变到活动操作状态、并且特别是登记模式。说话者识别设备然后继续利用系统100对这个人进行登记。

将领会的是，上述及其它特征和功能的变型、或者其替换物可以合期望地组合到许多其它不同的系统、应用或方法中。本领域技术人员随后可以做出各种目前未预见或未预料到的替换物、修改、变型或改进，这些也旨在被本公开所涵盖。

Claims

1.一种将说话者认证为登记用户的方法，包括：

利用处理器检测对应于由说话者说出的关键短语的输入关键短语数据；

利用处理器，参照输入关键短语数据和存储在操作性地连接到处理器的存储器中的来自登记用户的语音的文本相关声学说话者模型，计算文本相关分数；

利用处理器，参照输入关键短语数据以及存储在存储器中的来自登记用户的语音的文本无关声学说话者模型，计算文本无关分数；

利用处理器，参照文本相关分数和文本无关分数，计算针对将说话者认证为登记用户的置信度分数；

当置信度分数指示输入关键短语数据对应于来自登记用户的语音时，将说话者认证为登记用户；以及

当置信度分数指示输入关键短语数据不对应于来自登记用户的语音时，拒绝将说话者认证为登记用户。

2.根据权利要求1所述的方法，其中文本相关模型是使用梅尔频率倒谱系数（“MFCC”）的群组形成的隐马尔可夫模型（“HMM”），所述梅尔频率倒谱系数从与由登记用户对关键短语的发声相对应的所登记关键短语数据中提取，每个群组对应于如登记用户讲出的关键短语的个别部分。

3.根据权利要求2所述的方法，其中：

检测输入关键短语数据包括：

将输入音频数据的一部分分离成预定分段；

利用处理器提取指示每个分段内存在的人类语音特征的MFCC；并且

计算文本相关分数包括：

使用HMM生成对应于关键短语的MFCC；以及

将维特比算法应用于从输入音频数据的所述部分中提取的MFCC和利用HMM生成的MFCC。

4.根据权利要求1所述的方法，其中检测输入关键短语数据包括：

将输入音频数据的一部分分离成预定分段；

利用处理器提取指示每个分段内存在的人类语音特征的梅尔频率倒谱系数（“MFCC”）；

将所提取的MFCC与对应于来自存储在存储器中的通用背景模型（“UBM”）的关键短语的MFCC进行比较；以及

基于所述比较来确定输入音频数据的所述部分包括关键短语的发声。

5.根据权利要求4所述的方法，其中计算文本相关分数包括：

使用文本相关模型来生成对应于关键短语的MFCC；

基于所提取的MFCC和利用文本相关模型生成的MFCC计算原始文本相关分数；以及

从原始文本相关分数中减去文本相关模型的特定于说话者的阈值偏差，其中文本相关模型的特定于说话者的阈值偏差基于对利用文本相关模型生成的MFCC和对应于来自与登记用户性别匹配的UBM的关键短语的MFCC的比较。

6.根据权利要求5所述的方法，其中计算文本无关分数包括：

使用文本无关模型生成对应于关键短语的MFCC；

基于所提取的MFCC和利用文本无关模型生成的MFCC计算原始文本无关分数；以及

从原始文本无关分数中减去文本无关模型的特定于说话者的阈值偏差，其中文本无关模型的特定于说话者的阈值偏差基于对利用文本无关模型生成的MFCC和对应于来自与登记用户性别匹配的UBM的关键短语的MFCC的比较。

7.根据权利要求4所述的方法，进一步包括：

利用处理器对输入音频数据应用远场增强。

8.根据权利要求1所述的方法，进一步包括：

利用处理器将检测到的输入关键短语数据与存储在存储器中的对应于多个登记用户的所登记关键短语数据进行比较；

计算每个登记用户的可能性分数，每个可能性分数指示检测到的输入关键短语数据与每个登记用户的对应所登记关键短语数据之间的相似度；以及

选择具有与检测到的输入关键短语数据具有最高相似度的所登记关键短语数据的登记用户，作为说话者的可能标识。

9.根据权利要求1所述的方法，其中置信度分数被计算为文本相关分数和文本无关分数的线性组合。

10.根据权利要求1所述的方法，进一步包括：

通过以下方式对用户进行登记：

利用处理器从对应于由用户提供的语音样本的进一步音频数据中提取进一步输入关键短语数据，所述进一步输入关键短语数据对应于语音样本中由用户说出的关键短语；

利用处理器确定所提取的进一步输入关键短语数据是否满足一组预定质量评估准则；

利用处理器基于是否已经接收到满足预定质量评估准则的预定最小量的进一步输入关键短语数据，以及满足预定质量评估准则的关键短语数据中的语音总持续时间是否处于或高于预定时间段，来确定是否已经接收到用户的足够数量的语音样本；

响应于确定还没有接收到足够数量的语音样本，利用处理器生成用于使用户提供附加的语音样本的提示，并经由操作性地连接到处理器的输出设备输出所述提示；以及

响应于确定已经接收到足够数量的语音样本，利用处理器为用户形成包括文本相关声学说话者模型和文本无关声学说话者模型的声学说话者模型，以便对用户进行登记。

11.根据权利要求10所述的方法，其中生成所述提示包括：

标识从先前语音样本中提取的进一步输入关键短语数据不满足的一个或多个预定质量评估准则；

确定对先前语音样本的修改，所述修改将克服未满足的一个或多个预定质量评估准则；以及

将指示所确定的修改的指令包括在所述提示中。

12.根据权利要求10所述的方法，其中为用户形成声学说话者模型包括：

通过以下方式训练文本相关模型：

从满足该组预定质量评估准则的每个语音样本的进一步输入关键短语数据中提取梅尔频率倒谱系数（“MFCC”）；

将来自每个语音样本的MFCC分离成群组，每个群组对应于关键短语的个别部分；

对于每个语音样本的每个MFCC群组，使用所述群组来适配通用背景模型（“UBM”）并形成相应的高斯混合模型（“GMM”）；

利用群组的GMM作为初始化状态来训练隐马尔可夫模型，以形成文本相关模型；并且

通过以下方式训练文本无关模型：

利用处理器标识与用户提供的语音样本的包括人类语音的部分相对应的进一步音频数据的部分；

利用处理器从进一步音频数据的所标识部分中提取MFCC；以及

使用从进一步音频数据的所标识部分中提取的MFCC来适配UBM并形成文本无关模型。

13.一种说话者识别系统，包括：

存储器，被配置为存储：

对应于由登记用户对关键短语的发声的所登记关键短语数据；

登记用户的文本相关声学说话者模型；以及

登记用户的文本无关声学说话者模型；

处理器，其操作性地连接到存储器，并且被配置为执行编程指令以将说话者认证为登记用户，其中将说话者认证为登记用户包括：

检测到对应于由说话者说出的关键短语的输入关键短语数据；

参照输入关键短语数据和来自登记用户的语音的文本相关声学说话者模型来计算文本相关分数；

参照输入关键短语数据以及来自登记用户的语音的文本无关声学说话者模型来计算文本无关分数；

参照文本相关分数和文本无关分数，计算针对将说话者认证为登记用户的置信度分数；

14.根据权利要求13所述的说话者识别设备，其中：

处理器进一步被配置为执行编程指令以对用户进行登记；并且

对用户进行登记包括：

从用户提供的语音样本中提取进一步输入关键短语数据，所述进一步输入关键短语数据对应于语音样本中由用户说出的关键短语；

确定所提取的进一步输入关键短语数据是否满足一组预定质量评估准则；

基于是否已经接收到满足预定质量评估准则的预定最小量的进一步输入关键短语数据，以及满足预定质量评估准则的关键短语数据中的语音总持续时间是否处于或高于预定时间段，来确定是否已经接收到用户的足够数量的语音样本；

响应于确定还没有接收到足够数量的语音样本，生成用于使用户提供附加的语音样本的提示，并经由操作性地连接到处理器的输出设备输出所述提示；以及

响应于确定已经接收到足够数量的语音样本，为用户形成包括文本相关声学说话者模型和文本无关声学说话者模型的声学说话者模型，以便对用户进行登记。

15.根据权利要求13所述的说话者识别设备，其中处理器被进一步配置为对输入关键短语数据应用远场增强。