CN101385074B

CN101385074B - 说话者验证

Info

Publication number: CN101385074B
Application number: CN200780005880XA
Authority: CN
Inventors: Z·张; M·刘
Original assignee: Microsoft Corp
Current assignee: Microsoft Technology Licensing LLC
Priority date: 2006-02-20
Filing date: 2007-02-13
Publication date: 2012-08-15
Anticipated expiration: 2027-02-13
Also published as: CN101385074A; EP2410514A3; NO20083580L; CA2861876A1; KR101323061B1; US20070198257A1; EP1989701B1; CN102646416B; EP2410514B1; EP1989701A1; CA2643481A1; RU2008134112A; CA2643481C; JP2009527798A; EP1989701A4; AU2007217884A1; MX2008010478A; CA2861876C; WO2007098039A1; KR20080102373A

Abstract

说话者验证通过确定测试发言和存储的训练发言的相似性得分来执行。计算相似性得分涉及确定一组函数之和，其中每个函数包括混合成分的先验概率与适应均值和背景均值间差值之积。适应均值是基于背景均值和测试发言形成的。由该说话者提供的用于验证的语音内容可以是独立于文本(即，他们想说的任何内容)或者依赖于文本(即，用于训练的特定短语)。

Description

说话者验证

背景

说话者验证是基于语音信号检验说话者声明身份的过程。验证通常使用已经为使用系统的每个人进行过训练的语音模型来执行。

通常存在有两类说话者验证，即独立于文本和依赖于文本。在独立于文本的说话者验证中，说话者提供他们想要提供的任何语音内容。在依赖于文本的说话者验证中，说话者在模型训练和验证系统使用期间朗读一特定短语。通过重复相同短语，就可以构造用于文本依赖说话者验证系统的语音单位和这些语音单位之间过渡的强模型。而在文本独立说话者验证系统中则不是这样，因为许多语音单位和语音单位之间的许多过渡将不会在训练期间被观察到，于是将不会在模型中良好表示。

以上讨论仅提供一般背景信息，并不旨在帮助确定权利要求的主题的范围。

概述

说话者验证通过确定测试发言和存储的训练发言的相似性得分来执行。计算相似性得分涉及确定一组函数之和，其中每个函数包括混合成分的后验概率与适应均值和背景均值间差异之积。适应均值是基于背景均值和测试发言形成的。

提供本概述以便以简化形式介绍将在以下详细描述中进一步描述的一些概念。本概述不旨在标识所要求保护的主题的关键特征或必要特征，也不旨在用于帮助确定所要求保护的主题的范围。所要求保护的主题不限于解决任何或所有在背景中提及缺点的实现。

附图简述

图1是可在其中实践一些实施例的一个计算环境的框图。

图2是可在其中实践一些实施例的可选计算环境的框图。

图3是一种训练文本独立验证系统的方法的流程图。

图4是用于训练文本独立验证系统的各元素的框图。

图5是一种用于在训练期间设置阈值的方法的流程图。

图6是一种标识测试发言的模型参数的流程图。

图7是在图6和图8方法中使用的各元素的框图。

图8是一种确定测试发言阈值的方法的流程图。

图9是一种验证测试发言的方法的流程图。

图10是用于验证测试发言的各元素的框图。

图11是一种训练用于文本依赖验证系统的隐马尔科夫模型的方法的流程图。

图12是用于训练隐马尔科夫模型的各元素的框图。

图13是一种使用隐马尔科夫模型验证测试发言的方法的流程图。

图14是一种使用隐马尔科夫模型验证测试发言的各元素的框图。

详细描述

图1示出了可在其上实现各实施例的合适计算系统环境100的示例。计算系统100仅为合适的操作环境的一个示例，并非对所要求保护的主题的使用范围或功能提出任何局限。也不应该把计算环境100解释为对示例性操作环境100中示出的任一组件或其组合有任何依赖性或要求。

各实施例可用各种其它通用或专用计算系统环境或配置来操作。适合在各实施例中使用的公知的计算系统、环境和/或配置的示例包括，但不限于，个人计算机、服务器计算机、手持或膝上型设备、多处理器系统、基于微处理器的系统、机顶盒、可编程消费者电子产品、网络PC、小型机、大型机、包含上述系统或设备中的任一个的分布式计算机环境等。

各实施例可在诸如由计算机执行的程序模块等计算机可执行指令的通用上下文中描述。一般而言，程序模块包括例程、程序、对象、组件、数据结构等，它们执行特定任务或实现特定抽象数据类型。一些实施例被设计为在分布式计算环境中实施，在分布式计算环境中任务是由通过通信网络链接的远程处理设备来执行的。在分布式计算环境中，程序模块位于包括记忆存储设备的本地和远程计算机存储介质上。

参考图1，用于实现一些实施例的一个示例性系统包括计算机110形式的通用计算设备。计算机110的组件可以包括，但不限于：处理单元120、系统存储器130和将包括系统存储器在内的各种系统组件耦合至处理单元120的系统总线121。系统总线121可以是若干种总线结构中的任一种，包括存储器总线或存储器控制器、外围总线以及使用各类总线体系结构中的任一种的局部总线。作为示例而非局限，这类体系结构包括工业标准体系结构(ISA)总线、微通道体系结构(MCA)总线、增强型ISA(EISA)总线、视频电子技术标准协会(VESA)局部总线、以及外围部件互连(PCI)总线(也称为小背板(Mezzanine)总线)。

计算机110通常包括各种计算机可读介质。计算机可读介质可以是可由计算机110访问的任何可用介质，且包括易失性和非易失性介质、可移动和不可移动介质。作为示例，而非限制，计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以任何方法或技术实现的用于存储诸如计算机可读指令、数据结构、程序模块或其它数据等信息的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括，但不限于，RAM、ROM、EEPROM、闪存或其它存储器技术、CD-ROM、数字多功能盘(DVD)或其它光盘存储、磁带盒、磁带、磁盘存储或其它磁性存储设备、或能用于存储所需信息且可以由计算机110访问的任何其它介质。通信介质通常具体化为诸如载波或其它传输机制等已调制数据信号中的计算机可读指令、数据结构、程序模块或其它数据，且包含任何信息传递介质。术语“已调制数据信号”指的是这样一种信号，其一个或多个特征以在信号中编码信息的方式被设定或更改。作为示例，而非限制，通信介质包括有线介质，诸如有线网络或直接线连接，以及无线介质，诸如声学、RF、红外线和其它无线介质。上述的任意组合应该包含在计算机可读介质的范围内。

系统存储器130包括易失性和/或非易失性存储器形式的计算机存储介质，如只读存储器(ROM)131和随机存取存储器(RAM)132。基本输入/输出系统133(BIOS)包含有助于诸如启动时在计算机110中元件之间传递信息的基本例程，它通常被存储在ROM 131中。RAM 132通常包含处理单元120可以立即访问和/或目前正在操作的数据和/或程序模块。作为示例而非局限，图1示出了操作系统134、应用程序135、其它程序模块136和程序数据137。

计算机110还可以包括其他可移动/不可移动、易失性/非易失性计算机存储介质。仅作为示例，图1示出了从不可移动、非易失性磁介质中读取或向其写入的硬盘驱动器141，从可移动、非易失性磁盘152中读取或向其写入的磁盘驱动器151，以及从诸如CD ROM或其它光学介质等可移动、非易失性光盘156中读取或向其写入的光盘驱动器155。可以在示例性操作环境中使用的其它可移动/不可移动、易失性/非易失性计算机存储介质包括，但不限于，盒式磁带、闪存卡、数字多功能盘、数字录像带、固态RAM、固态ROM等。硬盘驱动器141通常由不可移动存储器接口，诸如接口140连接至系统总线121，磁盘驱动器151和光盘驱动器155通常由可移动存储器接口，诸如接口150连接至系统总线121。

上面讨论并在图1中说明的驱动器和它们的相关计算机存储介质为计算机110提供了对计算机可读指令、数据结构、程序模块和其它数据的存储。例如，在图1中，硬盘驱动器141被示为存储操作系统144、应用程序145、其它程序模块146和程序数据147。注意，这些组件可以与操作系统134、应用程序135、其它程序模块136和程序数据137相同或不同。操作系统144、应用程序145、其它程序模块146和程序数据147在这里被标注了不同的标号是为了说明至少它们是不同的副本。

用户可以通过例如是键盘162、麦克风163和定点设备161的输入设备将命令和信息输入至计算机110中，定点设备161例如是鼠标、轨迹球或触摸板。其他输入设备(未图示)可以包括操纵杆、游戏垫、卫星天碟、扫描仪等。这些和其它输入设备通常由耦合至系统总线的用户输入接口160连接至处理单元120，但也可以由其它接口或总线结构，诸如并行端口、游戏端口或通用串行总线(USB)连接。监视器191或其它类型的显示设备也经由诸如视频接口190等接口连接到系统总线121。除监视器以外，计算机也可以包括其它外围输出设备，诸如扬声器197和打印机196，它们可以通过输出外围接口195连接。

计算机110使用到例如是远程计算机180的一个或多个远程计算机的逻辑连接在连网环境中运行。远程计算机180可以是个人计算机、手持设备、服务器、路由器、网络PC、对等设备或其他通用网络节点，且典型地包括以上关于计算机110描述的许多或所有的要素。图1中所示的逻辑连接包括局域网(LAN)171和广域网(WAN)173，但也可以包括其它网络。这样的联网环境在办公室、企业范围计算机网络、内联网和因特网中是常见的。

当在LAN联网环境中使用时，计算机110通过网络接口或适配器170连接至LAN 171。当在WAN联网环境中使用时，计算机110通常包括调制解调器172或用于通过诸如因特网等WAN 173建立通信的其它装置。调制解调器172可以是内置或外置的，它可以通过用户输入接口160或其它合适的机制连接至系统总线121。在网络化环境中，相对于计算机110所描述的程序模块或其部分可以存储在远程存储器存储设备中。作为示例，而非限定，图1示出了远程应用程序185驻留在远程计算机180上。可以理解，示出的网络连接是示例性的，并且可以使用在计算机之间建立通信链路的其它手段。

图2是移动设备200的框图，其是示例性的计算环境。移动设备200包括微处理器202、存储器204、输入/输出(I/O)组件206和用于与远程计算机或其他移动设备通信的通信接口208。在一实施例中，前面提到的组件在合适总线210上耦合以便相互通信。

存储器204用电池备份模块(未图示)实现为诸如随机存取存储器(RAM)等的非易失性电子存储器，以使存储在存储器204中的信息在对移动设备200的总电源关闭时不会丢失。存储器204的一部分优选地被分配为用于程序执行的可寻址存储器，而存储器204的另一部分优选地被用于存储，例如模拟硬盘驱动器上的存储。

存储器204包括操作系统212、应用程序214以及对象存储216。在运行期间，操作系统212优选地由处理器202从存储器204执行。操作系统212在一优选实施例中是可从微软公司购得的

CE操作系统。操作系统212优选地为移动设备设计，并且实现数据库特征，该数据库特征能被应用程序214通过一组曝露的应用程序编程接口和方法来利用。在对象存储216中的对象由应用程序214和操作系统212至少部分地响应对曝露的应用程序编程接口和方法的调用来维护。

通信接口208代表多种允许移动设备200发送和接收信息的设备和技术。仅举数例，这些设备包括有线和无线调制解调器、卫星接收机和广播调谐器。移动设备200还可以直接连接到计算机以与其交换数据。在此类情形中，通信接口208可以是红外收发机或者串行或并行通信连接，所有的这些都能传输流信息。

输入/输出组件206包括例如是触敏屏、按钮、滚轮、和麦克风等的各种输入设备，以及包括音频发生器、振动设备和显示器等的输出设备。以上列出的设备是作为示例且不需要都出现在移动设备200上。此外，还可以用其他输入/输出设备附连至移动设备200或在其中找到。

独立于文本的说话者检验

在本发明的一个实施例中，提供了一种独立于文本的说话者验证系统，该系统通过形成基于自适应用户训练语音的模型和自适应测试语音信号的模型的相似性测度来验证测试语音信号。更具体地，相似性测度使用两个自适应模型和背景模型之间的差异。

在一个实施例中，背景模型是如下定义的高斯混合模型：

P (x_{t} | λ_{0}) = Σ_{i = 1}^{M} w_{i} P_{i} (x_{t} | λ_{0}) = Σ_{i = 1}^{M} w_{i} N (x_{t} : m_{i}, Σ_{i})

式1

其中M是模型中混合分量的个数，w_i是第i个混合分量的权重，m_i是第i个混合分量的均值，而∑_i是第i个分量的协方差矩阵。符号λ₀表示背景模型的一组参数(每个分量的权重、均值和协方差)。

背景模型适于使用如下等式训练语音：

\hat{γ} (i | {\hat{x}}_{t}) = \frac{w_{i} P_{i} ({\hat{x}}_{t} | λ_{0})}{Σ_{j = 1}^{M} w_{j} P_{j} ({\hat{x}}_{t} | λ_{0})}

式2

\hat{γ} (i) = Σ_{t = 1}^{T} \hat{γ} (i | {\hat{x}}_{t})

式3

{\tilde{m}}_{i} = \frac{1}{\hat{γ} (i)} Σ_{t = 1}^{T} \hat{γ} (i | {\hat{x}}_{t}) {\hat{x}}_{t}

式4

{\hat{m}}_{i} = m_{i} + \frac{\hat{γ} (i)}{\hat{γ} (i) + α} ({\tilde{m}}_{i} - m_{i})

式5

{\hat{Σ}}_{i} = Σ_{i}

式6

其中

是来自一特定说话者的训练特征向量，

是给定来自说话者的特征向量的第i个混合分量的后验概率，T是来自该特定说话者的训练发言中的帧数，

是来自该特定说话者的整个训练发言中属于第i个混合分量的帧的软计数，而α是在训练发言中的第i个混合分量只有很少几个观察帧的情况下引起自适应模型的均值

选用背景模型的均值的平滑因子。注意到在上述实施例中，适应模型的协方差等于背景模型的协方差。

在一个实施例中，相似性测度被定义为：

LLR (x_{1}^{T}) \leq \frac{Σ_{i = 1}^{M} γ (i) \frac{\hat{γ} (i)}{\hat{γ} (i) + α} {\hat{δ}}_{i} Σ_{i}^{- 1} (δ_{i} - \frac{\hat{γ} (i)}{\hat{γ} (i) + α} \frac{{\hat{δ}}_{i}}{2})}{Σ_{i = 1}^{M} γ (i)}

式7

其中

δ_i＝m_i-m_i 式8

{\hat{δ}}_{i} = {\hat{m}}_{i} - m_{i}

式9

γ (i) = Σ_{t = 1}^{T} γ (i | x_{t})

式10

其中x_t是测试发言的特征向量，T是测试发言的帧数，而m_i是如下定义的测试发言的样本均值：

{\overset{&OverBar;}{m}}_{i} = \frac{1}{γ (i)} Σ_{t = 1}^{T} γ (i | x_{t}) x_{t}

式11

于是，在式7的相似性测度中，积由测试发言的后验概率γ_i、测试说话者的适应均值和背景均值之差以及测试发言的样本均值和背景均值之差δ_i形成。

在一个实施例中，式7的相似性测度简化为：

{LLR}_{0} = \frac{Σ_{i = 1}^{M} γ (i) \hat{γ} (i) {\hat{δ}}_{i} Σ_{i}^{- 1} δ_{i}}{Σ_{i = 1}^{M} γ (i) \hat{γ} (i)}

式12

在又一个实施例中，为了降低式12中LLR₀的数据依赖性，通过小心选择阈值来执行归一化。在一个实施例中，阈值通过首先从已经适应多个说话者发言的模型参数集合或池中选择一组适应模型参数子集来构造。一组适应模型参数子集通过标识由参数池中与训练发言最为相似的参数代表的发言而被选择。第二组适应模型参数子集通过标识由参数池中与训练发言最为相似的模型参数代表的发言而被选择。在一个实施例中，使用上式12做出相似性判定。

例如，当相似发言定位至训练发言时，从模型参数池中取出的一发言的模型参数被作为式12中测试发言的模型参数来应用，而训练发言的模型参数则直接用于式12。当定位类似于测试发言的发言时，从模型参数池中提取的发言模型参数被用作训练发言模型参数，并且测试发言模型参数被直接用于式12。

一旦经已知为组群(cohort)说话者集合的一组相似发言子集被选作训练发言和测试发言两者，则阈值可被设置为：

{\hat{t}}_{i}^{0} = \frac{1}{N_{cohort}} Σ_{k = 1}^{N_{cohort}} {\hat{δ}}_{i} Σ_{i}^{- 1} δ_{i}^{k}

式13

t_{i}^{0} = \frac{1}{N_{cohort}} Σ_{s = 1}^{N_{cohort}} δ_{i} Σ_{i}^{- 1} δ_{i}^{s}

式14

其中

是第i个混合分量处训练发言的阈值，t_i ⁰是第i个混合分量处测试发言的阈值，N_cohort是从说话者池中选择的用以形成阈值的多个适应模型，

是如式9中定义的训练发言第i个分量的调节，δ_i是如式8中定义的测试发言第i个分量的调节，δ_i ^k是选作训练发言的组群说话者k的第i个分量的调节，而δ_i ^s是选作测试发言中的组群说话者s的第i个分量的调节，其中：

δ_{i}^{k} = m^{k} - m

式15

δ_{i}^{s} = m^{s} - m

式16

其中m^k是第m个组群发言的均值，而m^s是第s个组群发言的均值。

使用这些阈值，归一化的LLR₀为：

{LLR}_{1} = \frac{Σ_{i = 1}^{M} γ (i) \hat{γ} (i) [{\hat{δ}}_{i} Σ_{i}^{- 1} δ_{i} - ({\hat{t}}_{i}^{0} + t_{i}^{0}) / 2]}{Σ_{i = 1}^{M} γ (i) \hat{γ} (i)}

式17

式17的相似性测度可直接用于相对于训练发言验证测试发言。在某些实施例中，迭代使用这一相似性测度来选择新的组群说话者集合作为训练发言和测试发言两者。这一新的组群说话者集合随后用于建立新阈值。注意到因为式17的相似性测试与式12的相似性测试不同，所以使用式17选择的组群集合将会与使用式12选择的组群集合不同。使用这一新的组群集合，新阈值就被定义为：

{\hat{t}}_{i}^{1} = \frac{1}{N_{cohort}} Σ_{k = 1}^{Ncohort} [{\hat{δ}}_{i} Σ_{i}^{- 1} δ_{i}^{k} - ({\hat{t}}_{i}^{0} - t_{i}^{0}) / 2]

式18

t_{i}^{1} = \frac{1}{N_{cohort}} Σ_{s = 1}^{Ncohort} [{\hat{δ}}_{i} Σ_{i}^{- 1} δ_{i}^{s} - ({\hat{t}}_{i}^{0} - t_{i}^{0}) / 2]

式19

新的相似性测度于是可被定义为：

{LLR}_{2} = \frac{Σ_{i = 1}^{M} γ (i) \hat{γ} (i) [{\hat{δ}}_{i} Σ_{i}^{- 1} δ_{i} - ({\hat{t}}_{i}^{o} + t_{i}^{o}) / 2 - ({\hat{t}}_{i}^{1} + t_{i}^{1}) / 2]}{Σ_{i = 1}^{M} γ (i) \hat{γ} (i)}

式20

其中从相似性测试选择组群，从组群定义新阈值，并从新阈值定义新相似性测度的这类迭代可以按需重复多次，而每个新的相似性测试通过从前一相似性测度分子中的前一阈值的平均数减去两个新阈值的平均数来定义。

图3在本发明的一个实施例中提供了一种用于训练在说话者验证中使用的模型参数的方法的流程图。图4提供了用于构造这些模型参数的元素的框图。

在步骤300，接收来自说话者池400中多个说话者的发言。这些发言由模数转换器402转换成一数字值的序列并由帧构造器404分组成帧。数字值的帧随后由特征提取器406转换成特征向量。在一个实施例中，特征提取器是用δ系数形成美尔频率倒谱系数(MFCC)特征向量的MFCC特征提取器。这类MFCC特征提取单元在本领域内周知。这样就生成了特征向量408的说话者池。

在步骤302，说话者池特征向量应用于高斯混合模型训练器410，该训练器410使用特征向量定义通用背景模型(UBM)412，而后者在一个实施例中采用高斯混合模型的形式。这些训练包括将特征向量分组成混合分量并为每个混合分量标识高斯分布参数。更具体地，为每个混合分量确定均值和协方差矩阵。

在步骤304，UBM适应单元414使用上述式2和3为说话者池400中每个说话者的每个混合分量确定说话者池后验概率416。在步骤306，UBM适应单元414使用上述式4至6用后验概率为说话者池400中每个说话者确定说话者池适应高斯混合模型418。在式2-6，特定说话者的发言被组合形成单个发言，该发言形式一特征向量序列其中T是该说话者所有发言的总帧数。

在步骤308，接收来自系统将来用户的训练发言420并使用模数转换器402、帧构造器404和特征提取器406将该训练发言420转换成用户训练特征向量422。在步骤310，UBM适应单元414使用上式2和3标识用户后验概率424并使用上式4至6形成用户适应的高斯混合模型426。注意到为将使用该检验系统的每个人重复步骤308、310和312。

在步骤314，训练相似性阈值。训练这些阈值的方法在图5的流程图中示出。图5所示方法是不仅为检验系统的每个用户还为说话者池中的每个说话者设置阈值的迭代方法。

在图5的步骤500，选择来自说话者池的说话者或是系统用户的说话者。在步骤501，所选说话者的高斯混合模型参数和后验概率被检索作为所选说话者模型参数433。

在步骤502，由组群选择单元430使用相似性测试440来从说话者池400中选择组群说话者。在此步骤期间，与说话者池中每个说话者相关联的模型参数(γ(i)，m)连同用于当前所选说话者的模型参数

433被分别应用于相似性测试。从说话者池中选择针对当前所选说话者生成最高相似性测度的说话者子集作为导致一组组群模型参数432集合的组群。在一个实施例中，式12的相似性测试在初始迭代期间用作相似性测试440。

在步骤504，阈值构造单元434使用组群模型参数432和所选说话者的模型参数433来构造针对所选说话者的阈值436。在一个实施例中，式13被使用以便由用于定义调整值

的来自所选说话者的模型参数433的均值以及用于为每个组群定义δ_i ^k的组群模型参数432的均值来计算阈值。

在步骤506，图5的方法确定说话者池或者系统用户组中是否还有说话者。如果还有说话者，则返回步骤500选择下一个说话者，并再次使用相似性测试440来为新说话者标识组群。随后为新说话者确定阈值。重复步骤500、502、504和506直到已经为说话者池中的每个说话者和系统的每个用户确定了阈值。

当不再有说话者时，相似性测试构造单元438在步骤508构造新的相似性测试440。在一个实施例中，相似性测度被定义为上式17。

在步骤510，本方法确定相似性测试是否已收敛。如果测试尚未收敛，则过程返回步骤500，其中从说话者池或从系统的用户组中选择说话者。步骤502随后用于选择组群说话者，这一次使用由相似性测试构造单元438设置的新相似性测试440。新阈值436随后可以步骤504处使用新选择的组群来确定。例如，在某些实施例中，式18用于在第二次迭代期间在步骤504处确定新阈值。为说话者池中的每个说话者和系统的每个用户重复步骤500、502、504和506。在已经为每个说话者确定新阈值之后，在步骤508定义新的相似性测试。例如，在第二次迭代期间，新的相似性测试可以像式20中那样定义。

使用相似性测试确定组群、从组群定义阈值、基于新阈值重新定义相似性测试的迭代被反复迭代直到相似性测试在步骤510处收敛，使得相似性测试中的变化不改变所选组群说话者集合。在训练期间设置阈值的步骤随后在步骤512处结束。

一旦模型已适应并且为说话者池中的每个说话者和系统的每个用户设置阈值，该系统就可用于验证用户。验证通过为测试发言设置模型参数开始，如图6的流程图和图7的框图所示。在图6的步骤600中，接收图7的测试发言700。测试发言由模数转换器702转换成一数字值的序列并由帧构造单元704分组成帧。数字值的帧应用于特征提取器706，后者执行与图4的特征提取器406相同的特征提取以生成测试发言特征向量708。

在步骤602，适应单元710用上式2和3基于通用背景模型412形成测试特定的后验概率712。在步骤604，通用背景模型由适应单元710使用上式4至6进行适应以形成测试适应的GMM 714，而测试发言则被用作

在步骤606，为测试发言确定相似性阈值724。一种确定相似性阈值的方法在图8的流程图中更为详细地示出。

在图8的步骤800处，相似性测试716由组群选择单元718用来从说话者池中找出与测试说话者最为相似的那些说话者。在此步骤期间，与说话者池中每个说话者相关联的模型参数(γ(i)，m)连同用于测试发言的模型参数

712、714被分别应用于相似性测试。从说话者池中选择针对当前所选说话者生成最高相似性测度的说话者子集作为导致一组组群模型参数720集合的组群。在一个实施例中，式12的相似性测试在初始迭代期间用作相似性测试716。

在步骤802，阈值构造单元722使用组群模型参数720和测试适应的GMM714来形成测试发言阈值724。在一个实施例中，式14被使用以便由用于定义调整值δ_i的来自所述测试适应的GMM 714的均值以及用于为每个组群定义δ_i ^s的组群模型参数720的均值来计算阈值。

在步骤804，新的相似性测试716由相似性测试构造单元726使用在步骤802设置的测试发言阈值724以及在图5方法中设置的说话者池阈值436来形成。在一个实施例中，式17的相似性测试用作新的相似性测试716。在步骤806，方法确定是否已经达到与图5流程图中执行相同的迭代次数。如果尚未执行相同次数的迭代，则通过返回步骤800来使用该新的相似性测试以选择一组新的组群。新的组群720由阈值构造单元722用于形成新的测试发言阈值，后者则被添加到测试说话者阈值724。新的阈值由相似性测试构造单元726在步骤804中用来形成新的相似性测试，诸如式20的相似性测试。重复步骤800、802、804和806直到在图8的方法中已经执行了与图5的方法中执行次数相同的迭代，从而得到其阈值数与通过图5流程图形成的最终相似性测试440相同的最终相似性测试716。当已经到达相同迭代次数时，用来为测试发言计算相似性阈值的过程就在步骤808结束。

说话者验证使用图10框图中的元素继续图9所示过程。在步骤900，接收名义用户标识1000。使用名义用户标识，就在步骤902检索针对该名义用户的适应高斯混合模型1002、后验概率1004和阈值1006。这些参数可以在图3的流程图中从名义用户的训练发言确定。

在步骤904，检索图7的测试发言适应高斯混合模型714、测试发言后验概率712和测试发言阈值724。

在步骤906，最终相似性测试716由相似性记分模块1010用来形成测试发言模型参数712、714、724和名义用户模型参数1002、1004、1006之间的相似性得分1012。在一个实施例中，最终相似性测试716是式20的相似性测试。在步骤908，相似性得分1012由说话者验证单元1014用来做出有关测试发言是否来自名义用户ID 1000所标识用户的判定。

依赖于文本的说话者验证

在本发明的又一个实施例中，提供了一种依赖于文本的说话者验证系统，在其中构造隐马尔科夫模型并用其执行说话者验证。图11提供了一种用于训练这一隐马尔科夫模型的方法，而图12则提供用于训练隐马尔科夫模型的元素的框图。

在图11的步骤1100，训练独立于文本的通用背景模型。在一个实施例中，通用背景模型是通过收集来自说话者池1200的许多不同说话者的文本独立语音来训练的高斯混合模型。说话者池1200中的每一发言由模数转换器1202转换成一序列的数字值并由帧构造单元1204分组成帧。对于每一帧，特征提取单元1206提取特征向量，后者在一个实施例中是带有δ向量的美尔频率倒谱系数。提取的特征向量1208应用于高斯混合模型训练器1210以形成通用背景模型1212。高斯混合模型训练器在本领域内已知，并且通过将特征向量分组为混合分量并标识用于描述被分配给每个分量的特征向量的分布的高斯参数来形成高斯混合模型。

在步骤1101，接收训练发言1216并由模数转换器1218将其转换成数字值并由帧构造单元1220分组成帧。对于每个帧，特征提取单元1222提取特征向量，藉此形成训练特征向量1224，后者与说话者池特征向量1208是同一类型的向量。在一个实施例中，训练发言1216由单个说话者重复单词或短语来形成。

在步骤1102，通用背景模型1212用于定义基线隐马尔科夫模型状态概率参数1213。在一个实施例中，这通过将每个混合分量的均值和协方差设置为对应的隐马尔科夫模型状态的均值和协方差来实现。

在步骤1103，通用背景模型1212由适应单元1226适应于特定说话者并被转换成HMM状态概率参数1214。更具体地，将训练特征向量1224提供给高斯混合模型适应单元1226，而后者还接收通用背景模型1212。高斯混合模型适应单元1226使用上式2至6同时使用训练特征向量作为

来适应通用背景模型。针对每个混合分量的所得均值和协方差作为针对相应的HMM状态概率分布的模型参数而被存储。于是，每个混合分量代表一独立的HMM状态。

在步骤1104，训练特征向量1224应用于隐马尔科夫模型解码器1228，后者解码一特征向量的序列以标识给定特征向量的序列1224的最有可能的一HMM状态的序列1230。为了执行这一解码，HMM解码器1228利用HMM状态概率参数1214和一组HMM过渡概率参数1232的初始集合。在一个实施例中，HMM过渡概率最初被设置为统一值，使得两状态之间的转换概率对所有状态相同。

在步骤1106，解码的状态序列1230由转换概率计算器1234用来训练HMM转换概率参数1232。这一计算涉及计数各状态间的转换次数以及基于计数将概率分配给每个转换。在步骤1108，训练特征向量1224再次由HMM解码器1228解码，这次使用新的HMM转换概率参数1232和HMM状态概率参数1214。这形成了新的解码状态序列1230。在步骤1110，本方法确定解码的状态序列是否已收敛。如果尚未收敛，则新的状态序列通过返回步骤1106用于重新训练该HMM转换概率参数1232。使用新的转换概率参数在步骤1108处再次解码训练特征向量1224。重复步骤1106、1108和1110直到输出的HMM状态序列稳定，在此就得以在步骤1112完成HMM训练。

一旦隐马尔科夫模型已被训练，该模型就可用于执行如图13的流程图和图14框图所示的说话者验证。在图13的步骤1300处，接收名义用户标识1400并由HMM检索单元1402用来在步骤1302选择隐马尔科夫模型状态概率参数1404和隐马尔科夫模型转换概率参数。

在步骤1304，接收测试发言1408。测试发言由模数转换器1410转换成一数字值的序列并且这一数字值的序列被帧构造单元1412分组成帧。对于每一帧，特征提取器1414提取特征向量来形成一特征向量序列1416。

在步骤1306，测试发言特征向量1406被应用于隐马尔科夫模型解码器1418，后者使用由从通用背景模型1420生成的基线隐马尔科夫模型状态概率参数1213和使用图11方法训练的HMM转换概率参数1406组成的基线隐马尔科夫模型来解码特征向量。HMM解码器1418在给定的基线隐马尔科夫模型状态概率参数1213和HMM转换概率参数1406下生成针对最大概率状态序列的基线概率1422。

在步骤1308，HMM解码器1418使用从名义用户标识中标识的隐马尔科夫模型状态概率参数1404和HMM转换概率参数1406来解码特征向量1416。这一解码得到名义用户概率1424，后者提供给定概率参数1404和HMM转换概率参数1406下标识的针对最大可能HMM状态序列的概率。

在步骤1310，将名义用户概率1424与基线概率1422之比通过记分模块1428应用于对数函数，以确定对数似然比得分1426。在步骤1312，由验证模块1430将这一得分与阈值相比较以确定测试发言是否来自于由名义用户标识所标识的说话者。

尽管用对结构特征和/或方法动作专用的语言描述了本主题，但可以理解，所附权利要求书中定义的主题不必限于上述具体特征或动作。相反，上述具体特征和动作作为实现权利要求的示例形式公开的。

Claims

1.一种用于独立于文本的说话者验证的方法，包括：

接收(600)语音信号(700)；

通过基于所述语音信号(700)适应背景模型(412)来形成(604)针对适应模型中多个混合分量中每一分量的均值(714)，其中所述背景模型是包括针对所述背景模型中的多个混合分量中每一分量的均值的高斯混合模型；

通过确定为所述多个混合分量确定的函数之和来确定(906)相似性得分(1012)，其中每个函数包括基于所述语音信号的混合分量后验概率与适应模型中混合分量的均值(714)和背景模型中混合分量的均值(412)之差的积。

2.如权利要求1所述的方法，其特征在于，还包括基于来自用户的训练语音信号(420)通过适应(312)所述背景模型来形成(312)针对所述多个混合分量中每一分量的训练均值。

3.如权利要求2所述的方法，其特征在于，每个函数还包括基于所述训练语音信号的混合分量后验概率与训练均值和背景模型中混合分量的均值之差的积。

4.如权利要求3所述的方法，其特征在于，还包括接收(900)名义用户标识(1000)并且基于所述名义用户标识选择(902)供所述函数使用的训练均值(1002)。

5.如权利要求1所述的方法，其特征在于，还包括为说话者池(400)内多个说话者中的每个说话者形成(306)说话者池均值(418)，针对一说话者的所述说话者池均值是基于来自所述说话者的语音通过适应背景模型而形成的。

6.如权利要求5所述的方法，其特征在于，每个函数还包括相应的阈值，其中每个阈值(722)是基于针对所述说话者池中一说话者子集的说话者池均值(720)。

7.如权利要求6所述的方法，其特征在于，还包括基于由所述说话者池均值(418)和所述适应模型中混合分量的均值(714)确定的相似性得分来从所述说话者池中选择(800)所述说话者子集。

8.如权利要求7所述的方法，其特征在于，还包括：

基于来自用户的训练语音信号(420)通过适应(312)所述背景模型来形成(312)针对所述多个混合分量中每一分量的训练均值(426)；以及

基于针对所述说话者池中所述说话者的第二子集的说话者池均值来确定(314)名义用户阈值(436)，所述第二子集是基于由所述说话者池均值和所述训练均值确定的相似性得分从所述说话者池中选择(502)的。

9.如权利要求8所述的方法，其特征在于，每个函数还包括第二阈值，其中所述第二阈值是基于所述说话者池中的第二子集的说话者池均值的。