CN108780645B

CN108780645B - 对通用背景模型和登记说话者模型进行文本转录适配的说话者验证计算机系统

Info

Publication number: CN108780645B
Application number: CN201680083933.9A
Authority: CN
Inventors: 沃洛佳·格兰恰诺夫; 西德格尔·思维里森; 厄兰多·卡尔森; 哈拉尔德·波布洛斯
Original assignee: Telefonaktiebolaget LM Ericsson AB
Current assignee: Telefonaktiebolaget LM Ericsson AB
Priority date: 2016-03-23
Filing date: 2016-03-23
Publication date: 2022-10-28
Anticipated expiration: 2036-03-23
Also published as: WO2017162281A1; US20190080697A1; US10418037B2; EP3433856A1; EP3433856B1; CN108780645A

Abstract

采样语音数据序列包含说话者所说的单词。产生表征采样语音数据的频谱分布的特征向量序列。获得说话者所说的单词的文本转录。响应于文本转录适配高斯混合模型的通用背景模型(UBM‑GMM)和登记说话者高斯混合模型(ENR‑GMM)的数据结构，以分别产生适配的UBM‑GMM和适配的ENR‑GMM。基于特征向量序列和适配的ENR‑GMM产生登记说话者概率，并且基于特征向量序列和适配的UBM‑GMM产生通用说话者概率。通过将登记说话者概率与通用说话者概率进行比较来产生说话者是否是登记说话者的说话者验证指示。

Description

对通用背景模型和登记说话者模型进行文本转录适配的说话者验证计算机系统

技术领域

本发明涉及语音处理，更具体地涉及说话者的自动验证。

背景技术

说话者验证系统的目标是确定具有未知或可疑身份的说话者是否说出测试话语(即，确定未知语音是否来自特定的登记说话者)。通常通过定义2级假设测试来将问题正式化：

H₀：测试的说话者是目标说话者， (1)

H₁：测试的说话者不是目标说话者。

令x^enr表示可用于离线训练的登记(enr)说话者的总特征空间(大量D维特征向量)。然后，一种方法是通过表示为λ^enr的模型来表示H₀，该模型表征假设的说话者(特征空间x^enr的统计数据)。备选假设H₁由捕获冒名顶替的说话者的空间的统计数据的模型λ^ubm表示。

令x＝[x₁，x₂，…，x_N]是从测试话语中提取的N个D维特征向量的序列。为了执行验证，使用从测试话语中提取的特征序列x来测试H₀和H₁(测试数据与模型匹配以计算验证分数)。这是通过计算x的对数似然值来完成的，给定模型λ来构造如下等式：

Λ(x)＝log(p(x|λ^enr))-log(p(x|λ^ubm)) (2)

其中，λ^enr是表征假设的登记说话者的模型，λ^ubm是表征所有登记说话者的通用背景模型(UBM)。对数似然距离Λ测量对于测试话语而言与UBM相比登记说话者模型得分更好多少。可以基于以下关系来解假设测试：

如果Λ(x)＞θ接受H₀， (3)

如果Λ(x)≤θ接受H₁

其中，θ是离线优化的阈值级别。

高斯混合模型(GMM)是在独立于文本的说话者验证应用中对特征空间的分布进行建模的主要方法。因此，λ表示具有K个分量的GMM的权重、平均向量和协方差矩阵参数，

换句话说，基于以下等式将概率分布建模为K个分量(高斯密度)Φ_k具有权重u_k的叠加：

其中，关于n求和累加来自测试序列x中的各个特征向量x_n的贡献。分量Φ_k是基于以下等式通过均值μ_k和协方差∑_k的集合来确定的：

在更一般的意义上，针对登记说话者的λ^enr GMM可以被认为是对表征人的语音的底层广泛语声进行建模，而针对冒名顶替说话者的空间的大得多的λ^ubm GMM捕获语音中的底层的声音类别。登记说话者λ^enr仅就对于每个特定说话者来说均可用的音频数据进行训练。通过汇集来自大量登记说话者的语音以构建单个模型UBM来训练λ^ubm，这得到针对冒名顶替空间的一个复杂模型。与针对登记GMM的大约64个分量相比，λ^ubm GMM可以具有大量分量，通常为K＞1024。

可以区分两类主要的说话者验证系统：1)依赖于文本的系统，该系统假定被识别的人正在说出先前定义的文本串；以及2)独立于文本的说话者验证，其不知道要被识别的人正在说什么文本串。

依赖于文本的系统更精确，但它们的使用通常仅限于安全应用，因为说话者必须发出来自允许的集合中的一个或多个单词或短语。独立于文本的说话者验证系统已经在更多类型的应用中使用，但是不太精确，因为它们必须针对各种可能的音素和上下文来对说话者进行建模。这意味着独立于上下文的模型可以具有向测试话语中不存在的特征子空间分配的相对高的概率，这可以抵消该特定话语的说话者验证，并且导致不正确的验证。在当前测试话语的特征空间被UBM和说话者模型不一样好地建模的情况下，该问题变得特别明显。

发明内容

本发明的一些实施例涉及一种由说话者验证计算机系统执行的用于验证说话者的方法，所述方法由说话者验证计算机系统的至少一个处理器执行。所述方法包括获得包含由说话者所说的单词序列在内的采样语音数据序列。产生表征采样语音数据的频谱分布的特征向量序列。获得说话者所说的单词序列的文本转录。响应于文本转录适配高斯混合模型的通用背景模型(UBM-GMM)和登记说话者高斯混合模型(ENR-GMM)的数据结构，以分别产生适配的UBM-GMM和适配的ENR-GMM。基于特征向量序列和适配的ENR-GMM的组合产生登记说话者概率，并且基于特征向量序列和适配的UBM-GMM的组合产生通用说话者概率。基于登记说话者概率与通用说话者概率的比较，产生说话者是否是登记说话者的说话者验证指示。所述方法然后基于说话者验证指示是否满足定义的规则来选择性地传送登记说话者的指示。

这种方法的潜在优点是说话者验证计算机系统作为独立于文本的系统操作，因为说话者不限于说出定义的库中的可用于验证目的的单词。响应于文本转录来适配UBM-GMM和ENR-GMM的数据结构以分别产生适配的UBM-GMM和适配的ENR-GMM，可以实现接近依赖于文本的说话者验证计算机系统的精确度的改进的验证精确度。由此，可以提供改进的说话者验证精确度，而不限制在验证操作期间说话者可以说出的特定单词。

本发明的一些其它实施例涉及一种用于验证说话者的说话者验证计算机系统。所述系统包括至少一个处理器和耦接到至少一个处理器的至少一个存储器。至少一个存储器实现有计算机可读程序代码，该计算机可读程序代码在由至少一个处理器执行时使该至少一个处理器执行操作。所述操作包括获得包含由说话者所说的单词序列在内的采样语音数据序列。产生表征采样语音数据的频谱分布的特征向量序列。获得说话者所说的单词序列的文本转录。响应于文本转录适配高斯混合模型的通用背景模型(UBM-GMM)和登记说话者高斯混合模型(ENR-GMM)的数据结构，以分别产生适配的UBM-GMM和适配的ENR-GMM。基于特征向量序列和适配的ENR-GMM的组合产生登记说话者概率，并且基于特征向量序列和适配的UBM-GMM的组合产生通用说话者概率。基于登记说话者概率与通用说话者概率的比较，产生说话者是否是登记说话者的说话者验证指示。所述操作然后基于说话者验证指示是否满足定义的规则来选择性地传送登记说话者的指示。

在查看以下的图和详细描述之后，对于本领域技术人员，根据本发明实施例的其它方法和系统将是显而易见的，或变得显而易见。预期将所有这样的附加方法和系统包括在本描述中，包括在本发明的范围中，以及由所附权利要求来保护。此外，意图是本文公开的所有实施例可以单独实现或以任何方式和/或组合实现。

附图说明

附图示出了本发明的某些非限制性实施例，该附图被包括以提供对本公开的进一步理解，并且被并入并构成本申请的一部分。附图中：

图1是包括广播和/或流媒体内容服务器的系统的框图，该广播和/或流媒体内容服务器具有根据本公开的一些实施例配置的说话者验证计算机系统；

图2是根据本公开的一些实施例配置的图1的说话者验证模块的组件的框图，说话者验证模块用于使用基于测试语音的文本转录(textual transcript)适配的ENR-GMM和UBM-GMM来确定说话者是否是登记说话者；

图3是根据本公开的一些实施例的图2的ENR-GMM和UBM-GMM适配模块的其它组件的框图，ENR-GMM和UBM-GMM适配模块基于测试语音的文本转录产生适配的ENR-GMM

和适配的UBM-GMM

图4至图8是根据本公开的一些实施例的图1的说话者验证计算机系统执行的用于产生语音段的说话者是否是候选说话者的说话者验证指示的操作和方法的流程图；以及

图9是根据一些实施例配置的图1的说话者验证计算机系统。

具体实施方式

在以下详细描述中，阐述了大量的特定细节，以提供对本发明的透彻理解。然而，本领域技术人员将理解的是，可以在没有这些特定细节的情况下实践本发明。在其它实例中，未对公知的方法、过程、组件和电路进行详细描述，以免模糊本发明。

参考图1的框图，广播和/或流媒体内容服务器100包括根据本公开的一些实施例配置的说话者验证计算机系统102。内容服务器100可以包含或通信地连接到音频视频储存库110，音频视频储存库110存储音频和视频内容，并且还存储隐藏字幕文本串。隐藏字幕文本串提供可以流传输、广播或以其它方式提供给客户端计算机设备150a、150b等的节目(例如，电影、电视节目、用户发布的视频等)的音频内容的文本转录。

说话者验证计算机系统102包含说话者验证模块130，说话者验证模块130被配置为使用隐藏字幕文本串来验证音频内容的一个或多个说话者是否是登记说话者，以提高说话者验证精确度。说话者验证计算机系统102还可以包括模块132，模块132将针对一个或多个说话者的标识符添加到说话者识别元数据，该说话者识别元数据与隐藏字幕文本串中与所识别的说话者正在说话的位置相对应的定义位置具有逻辑关联，和/或模块132将针对一个或多个说话者的标识符添加到说话者识别元数据，该说话者识别元数据与音频内容中与所识别的说话者正在说话的位置相对应的定义位置具有逻辑关联。音频和视频内容160(包括说话者识别元数据并且可能还包括隐藏字幕文本串)可以通过数据网络170(比如，公共广域网，例如互联网和/或专用广域网)广播、流传输和/或以其它方式提供给客户端计算机设备150a、150b等。客户端计算机150a、150b等可以在通过客户端计算机150a、150b等的对应显示屏幕播放视频内容期间将识别的说话者的标识符显示为字幕。说话者标识符可以与通过客户端计算机150a、150b等的扬声器播放的音频内容中存在说话者的语音在时间上同步地显示在显示屏幕上。

说话者验证计算机系统102可以附加地或备选地允许客户端计算机搜索添加到音频视频储存库110的说话者识别元数据以识别一个或多个说话者。在图1的示例中，客户端计算机150b通过数据网络170向可以在说话者验证计算机系统102中的说话者搜索模块140传送说话者查询消息152。说话者搜索模块140搜索说话者识别元数据以识别由说话者查询消息152标识的所查询的说话者是否包含在储存库110的音频内容中。说话者搜索模块140向客户端计算机150b传送说话者响应消息154。说话者响应消息154可以标识所查询的说话者是否包含在音频内容中，并且可以提供标识音频内容中和/或视频内容中的所查询的说话者正在说话的位置的信息。说话者搜索模块140可以控制音频和视频内容从储存库110到客户端计算机150b的流传输，使得仅向客户端计算机150b提供音频内容中包含所查询的说话者的语音在内的限定时间部分。

本公开的实施例可以通过使用所说内容的文本转录来提供说话者验证的精确度改进。文本元数据至少包含文本转录中已经被定义的(例如，由人类收听者输入的)或根据对语音的计算机处理(例如，通过语音到文本的识别操作)而确定的部分。本文在使用隐藏字幕文本串或已经针对由广播和/或流内容服务器提供的音频和视频内容定义的其它文本转录来执行说话者验证的上下文中说明了一些实施例。

现在在图1的上下文中并参考图2和图3的框图以及图4至图8的流程图来说明可以被执行以用于识别说话者的各种操作和方法。图2是根据本公开的一些实施例配置的图1的说话者验证模块130的组件的框图，说话者验证模块130用于使用登记说话者高斯混合模型(ENR-GMM)和使用高斯混合模型的通用背景模型(UBM-GMM)来确定说话者是否是登记说话者，其中ENR-GMM和UBM-GMM两者均是基于测试语音的文本转录来适配的。图3是根据本公开的一些实施例的图2的ENR-GMM和UBM-GMM适配模块的其它组件的框图，ENR-GMM和UBM-GMM适配模块基于测试语音的文本转录来适配ENR-GMM和UBM-GMM。图4至图8是根据本公开的一些实施例的说话者验证计算机系统130执行的用于产生语音段的说话者是否是候选说话者的指示的操作和方法的流程图。

说话者验证计算机系统102包含UBM-GMM和ENR-GMM的数据结构的储存库120、音素的储存库122、以及包含将音素映射到UBM-GMM和ENR-GMM中的高斯分量的信息在内的储存库124。储存库120中的UBM-GMM和ENR-GMM的数据结构基于测试语音的文本转录来适配。响应于文本转录来适配UBM-GMM和ENR-GMM的数据结构以分别产生适配的UBM-GMM和适配的ENR-GMM，可以实现接近依赖于文本的说话者验证计算机系统的精确度的改进的验证精确度。由此，可以提供改进的说话者验证精确度，而不限制在验证操作期间说话者可以说出的特定单词。

参考图2、图4和图6，数字化语音由语音源提供，语音源可以包括连接的音频数字转换器以用于从麦克风接收模拟信号，或者可以包括先前已经记录在存储器中的数字化语音数据。例如，直接从音频数字转换器获得包含由说话者所说的单词序列在内的采样语音数据序列(S)(图4的块400)。采样语音数据序列可以包含至少3秒的语音，以便捕获说话者所说的至少几个单词，并且将这些单词的对应的转录提供给说话者验证模块130。多于7秒的语音可能无法在说话者验证操作中提供足够的改进，以证明这种附加的采样语音数据序列将需要的附加计算机处理和存储器要求的合理性。说话者验证模块130产生(图2的块200、图4的块402)表征采样语音数据序列的频谱分布的特征向量序列。特征向量可以与x＝[x₁，x₂，…，x_N]相对应，x＝[x₁，x₂，…，x_N]是表征语音段数据的频谱分布的N个D维特征向量的序列。

说话者验证模块130使用与语音段数据相对应的音频转录来改进说话者验证的精确度。说话者验证模块130获得(块404)说话者所说的单词序列(W₁...W_NW)的文本转录(T)。可以通过解析音频视频储存库110中包含的隐藏字幕文本串来获得文本转录，所述隐藏字幕文本串与沿着数字音频记录间隔开的定时指示符时间对准以产生音频转录段。

说话者验证模块130响应于文本转录来适配(图2的块210、图4的块406)(例如图1的储存库120中的)高斯混合模型的通用背景模型(UBM-GMM)(λ^enr)和登记说话者高斯混合模型(λ^enr)，以分别产生适配的UBM-GMM

和适配的ENR-GMM

稍后将关于图3所示的实施例来说明用于产生适配的UBM-GMM

和适配的ENR-GMM

的操作。

说话者验证模块130基于特征向量序列和适配的ENR-GMM

的组合，产生(图2的块220、图4的块408)登记说话者概率P(X|λ^enr)。说话者验证模块130还基于特征向量序列和UBM-GMM

的组合，产生(图2的块220、图4的块408)通用说话者概率P(X|λ^ubm)。

登记说话者概率P(X|λ^enr)可以被产生为

可以基于表征在训练(例如，登记)阶段期间说话的候选说话者的语音的频谱分布的特征向量而训练的K个高斯密度分量Φ_k1具有权重

的建模叠加而产生。可以基于以下等式产生登记说话者概率：

其中，关于n的求和累加来自序列x中的各个特征向量x_n的贡献。分量Φ_k是基于以下等式通过均值μ_k1和协方差∑_k1的集合来确定的：

通用说话者概率

可以被产生为

可以基于表征在训练(例如，登记)阶段期间一组说话的候选说话者中的多个候选说话者或全部候选说话者的语音的频谱分布的特征向量的组合而训练的K个高斯密度分量Φ_k2具有权重

的的建模叠加而产生。可以基于以下等式产生通用说话者概率：

其中，关于n求和累加来自序列x中的各个特征向量x_n的贡献。分量Φ_k2是通过均值μ_k2和协方差∑_k2的集合来确定的：

说话者验证模块130基于登记说话者概率

与通用说话者概率

的比较，产生(图2的块230、图4的块410)说话者是否是登记说话者的说话者验证指示。说话者验证指示可以通过计算x的对数似然值之间的差来产生，给定模型

和

以用于构造：

对数似然距离Λ测量对于采样语音而言与转录适配的通用背景模型

相比转录适配的登记说话者模型

得分更好多少。然后，假设测试可以被解析为：

如果Λ(x)＞θ接受H₀， (11)

如果Λ(x)≤θ接受H₁

其中，H₀指代说话者被确定为登记说话者，而H₁说话者未被确定为登记说话者。

基于说话者验证指示是否满足定义的规则，选择性地传送(图4的块412)登记说话者的指示。定义的规则可以控制说话者验证模块130通过如下操作来响应确定Λ(x)＞θ：将针对登记说话者的标识符添加到说话者识别元数据，该说话者识别元数据与隐藏字幕文本串中与所识别的说话者正在说话的位置相对应的定义位置具有逻辑关联；和/或将针对登记说话者的标识符添加到说话者识别元数据，该说话者识别元数据与音频内容中与所识别的说话者正在说话的位置相对应的定义位置具有逻辑关联。音频和视频内容160(包括说话者识别元数据并且可能还包括隐藏字幕文本串)可以例如通过数据网络170广播、流传输和/或以其它方式提供给客户端计算机设备150a、150b等。客户端计算机150a、150b等可以在通过客户端计算机150a、150b等的对应显示屏幕显示视频内容的同时例如实时地将说话者标识符显示为字幕。说话者标识符可以与通过客户端计算机150a、150b等的扬声器播放的音频内容中存在说话者的语音在时间上同步地显示在显示屏幕上。

图3是根据本公开的一些实施例的图2的ENR-GMM和UBM-GMM适配模块210的其它组件的框图，ENR-GMM和UBM-GMM适配模块210基于测试语音的文本转录产生适配的ENR-GMM

和适配的UBM-GMM

图5是可以由说话者验证模块130执行的操作中所包括的用于响应于文本转录适配(图2的块210、图4的块406)UBM-GMM

和ENR-GMM

的数据结构以分别产生适配的UBM-GMM

和适配的ENR-GMM

的相关联操作的流程图。

参考图3和图5，说话者验证模块130基于说话者所说的单词序列的文本转录，从驻留在音素储存库122中的候选音素集合之中选择(块300、块500)候选音素序列(P)。说话者验证模块130使用将音素映射到UBM-GMM(λ^ubm)中的高斯分量的储存库124来选择(块320、块502)UBM-GMM(λ^ubm)中的与候选音素序列相对应的高斯分量，以产生UBM高斯序列(Gubm)。说话者验证模块130使用将音素映射到ENR-GMM(λ^enr)中的高斯分量的储存库124来选择(块320、块504)ENR-GMM(λ^enr)中的与候选音素序列相对应的高斯分量，以产生登记高斯序列(Genr)。然后，说话者验证模块130使用UBM高斯序列(Gubm)来适配(块340、块506)UBM-GMM(λ^ubm)的数据结构，以产生适配的UBM-GMM

说话者验证模块130还使用登记高斯序列(Genr)来适配(块340、块508)ENR-GMM

的数据结构，以产生适配的ENR-GMM

概率语言模型350(在给定针对定义的语言的转录(T)的情况下，对于给定的转录T，概率语言模型350标识因素序列(P)中的候选音素的出现的概率)可以在对UBM-GMM(λ^ubm)的数据结果进行适配以产生适配的UBM-GMM

期间、以及在对ENR-GMM(λ^enr)的数据结构进行适配以产生适配的ENR-GMM

的期间使用。

尽管图4和图5示出了各种操作是以定义的连续顺序执行的，但是一些单独的操作可以并行或以其它顺序执行。在图2和图3中可以看到不同操作之间的操作依赖性。例如，块400至块402的操作可以与块404至块406的操作并行或在块404至块406的操作之后执行，而块408的操作必须在块410的操作之前执行。块502和506的操作可以与块504和508的操作并行执行，或在块504和508的操作之前执行。

再次参考图1，在一些应用中，期望针对登记说话者集合中的每个说话者产生说话者验证指示，使得可以比较说话者验证指示以标识哪个登记说话者最可能与从其获取采样语音的说话者相对应。参考图6，对于登记说话者集合中的每个登记说话者，说话者验证模块130重复(块600)适配(图2的块210、图4的406)UBM-GMM和ENR-GMM的数据结构、产生(块220、块408)登记说话者概率和通用说话者概率以及产生(块230、块410)说话者验证。然后，基于说话者验证指示是否满足定义的规则选择性地传送(块412)登记说话者的指示的操作包括：识别(块602)登记说话者集合中的哪个登记说话者与说话者验证指示中最满足定义的规则的一个说话者验证指示相对应，以及传送(块604)针对登记说话者中的所识别(块602)的一个说话者的标识符。

继续参考图1并参考图7，可以从通过说话者验证计算机系统102的网络接口从客户端计算机150b接收的说话者查询消息(图1的152)获得(块700)针对登记说话者的标识符。然后，说话者验证模块130基于说话者验证指示是否满足定义的规则，通过经由网络接口向客户端计算机150b传送(块702)包含登记说话者的标识在内的响应消息(图1的154)，来选择性地传送(图4的块412)登记说话者的标识。

继续参考图1并参考图8，可以从音频视频储存库110内的隐藏字幕文本串获得转录(T)。说话者验证模块130可以通过从音频视频储存库110中的音轨读取(块800)采样语音数据序列的间隔，来获得(图4的块400)包含说话者所说的单词序列在内的采样语音数据序列。说话者所说的单词序列的文本转录可以通过解析(块802)音频视频储存库110内的隐藏字幕文本串来获得，其中隐藏字幕文本串与沿着音轨的定时指示符在时间上对准，以获得与采样语音数据序列的间隔在时间上对准的文本转录。

对于登记说话者集合中的每个登记说话者，说话者验证模块130可以重复(块804)适配(图2的块210、图4的块406)UBM-GMM和ENR-GMM的数据结构、产生(块220、块408)登记说话者概率和通用说话者概率以及产生(块230、块410)说话者验证。说话者验证模块130基于说话者验证指示是否满足定义的规则来选择性地传送(块412)登记说话者的指示可以包括：识别(块806)登记说话者集合中的哪个登记说话者与说话者验证指示中最满足定义的规则的一个说话者验证指示相对应；以及，将针对所识别的一个登记说话者的标识符添加(块808)添加到说话者识别元数据，该说话者识别元数据与音频视频储存库110内的隐藏字幕文本串中的定义位置具有逻辑关联，或者与音频视频储存库110内的音轨中的定义的位置具有逻辑关联。

因此，可以通过适配上述等式(1)至(5)来执行本公开的各种实施例。这些实施例可以基于包括以下项的步骤：

1)提取与测试话语相对应的音频转录；

2)根据音频转录，使用发音词典创建可能音素的空间；

3)选择说话者GMM和UBM模型中与获得的音素相对应的高斯分量集合；

4)使用所选择的分量来创建上下文适配的说话者模型

和

(具有显著减少的分量)；以及

5)使用

和

来计算等式(2)，从而执行说话者验证系统的内容规范化/适配。

对于步骤3)，GMM和UBM模型可以是预先存储的查找表，其将来自发音词典的每个音素链接到GMM和UBM模型中的一个或若干个数据结构。这些查找表是通过将每个音素的参数表示聚类到UBM空间中并且对于GMM说话者模型也类似处理来离线计算的。当在先前的等式(2)中计算验证分数时，将新的说话者模型

和UBM模型

适配于所获得的语音段中的内容，这使得分数主要受到语音特性的差异的影响，从而改善了系统的性能。在实践中，等式(4)中定义的对数似然值计算从log(p(x|λ))修改为log(p(x|λ_*))，即GMM

被替代为

其中Π^*是当前获得的语音段中的音素序列借助于查找表而选择的Π＝{1，2，...，K}中的GMM分量的子集。

因此，所选择的Π^*分量与语音段的内容相关，这影响特征序列x。权重

是u_k的重新归一化版本，其在有限分量集中总和为1。

在音频转录不可用的情况下，可以使用计算机语音识别操作来产生可以从其解析文本元数据的文本转录。在一个实施例中，说话者验证模块130使用音素识别算法直接从上述操作的步骤2)找到可能音素的空间。因此，在一个实施例中，说话者验证模块130的至少一个处理器在包括语音段数据在内的语音数据的时间间隔上执行语音识别算法，以输出识别的单词。识别出的单词被解析为所说音素集合。

示例说话者验证计算机系统

图9是说话者验证计算机系统102的框图，其被配置为执行根据本文公开的一个或多个实施例的操作。说话者验证计算机系统102包括至少一个处理器电路900、包含计算机可读程序代码912的至少一个存储器电路910、以及网络接口920。说话者验证计算机系统102还可以包括或通信地连接到至少一个非易失性大容量存储器设备930(例如，联网数据服务器计算机)，以存储包含UBM-GMM并且包含ENR-GMM的储存库120。非易失性大容量存储器设备930可以包含音素储存库122、将音素映射到UBM-GMM和ENR-GMM中的高斯分量的信息的储存库124、以及说话者验证模块130。

网络接口920被配置为与音频视频储存库110和客户端计算机150a、150b等通信。处理器900可以包括一个或多个数据处理电路，例如通用和/或专用处理器(例如，微处理器和/或数字信号处理器)。处理器电路900被配置为执行存储器电路910中的计算机可读程序代码912，以执行本文描述的如由说话者验证计算机系统执行的至少一些操作。系统102可以包括麦克风940，麦克风940感测说话者的语音，并且将模拟或数字麦克风信号提供给将采样语音数据序列(S)提供给图2中的模块200的组件。

缩略语解释

ENR 已产生GMM的登记说话者

GMM 高斯混合模型

UBM 通用背景模型

K 混合分量的数量

Π 混合索引集合

N 特征序列中的向量的数量

其它定义和实施例

在对本发明的各种实施例的以上描述中，要理解的是本文中使用的术语仅被用于描述特定实施例的目的，并且不意味着限制本发明。除非另外定义，否则本文中使用的所有术语(包括技术和科学术语)具有本发明所属领域的普通技术人员通常所理解的相同含义。将理解，诸如在通用词典中定义的术语应被解释为与它们在本说明书的上下文和相关技术中的含义相一致，而不被解释为理想或过于正式的含义，除非本文有这样的明确定义。

当一个节点被称为相对于另一节点进行“连接”、“耦接”、“响应”或其变型时，它可以直接连接、耦接到或者响应于该另一节点，或者可以存在中间节点。相反，当节点被称为相对于另一节点“直接连接”、“直接耦接”、“直接响应”或其变型时，不存在中间节点。贯穿附图，类似标记表示类似的节点。此外，本文使用的“耦接”、“连接”、“响应”或其变型可以包括无线耦接、连接或响应。如本文中使用的，单数形式“一”、“一个”和“所述”意在还包括复数形式，除非上下文明确地给出相反的指示。为了简洁和/或清楚，可以不对公知的功能或结构进行详细描述。术语“和/或”包括关联列出项目中的一个或多个项目的任意和所有组合。

本文使用的术语“包括”、“包含”、“含有”、“涵盖”、“由......构成”、“计入”、“有”、“拥有”、“具有”或其变型是开放式的，并且包括一个或多个所记载的特征、整数、节点、步骤、组件、或功能，但是不排除存在或添加一个或多个其它特征、整数、节点、步骤、组件、功能或其组合。此外，如本文的使用，常用缩写“e.g.(例如)”源自拉丁短语“exempligratia”，其可以用于介绍或指定之前提到的项目的一般示例，而不意在作为该项目的限制。常用缩写“i.e(即)”源自拉丁短语“id est”，可以用于指定更一般引述的特定项目。

本文中参考计算机实现的方法、装置(系统和/或设备)和/或计算机程序产品的方框图和/或流程图图示描述了示例实施例。应该理解的是可以通过由一个或多个计算机电路执行的计算机程序指令来实现方框图和/或流程图图示的框以及方框图和/或流程图图示的框组合。可以将这些计算机程序指令提供给通用计算机电路、专用计算机电路和/或其他可编程数据处理电路的处理器电路来产生机器，使得经由计算机和/或其他可编程数据处理设备的处理器执行的指令转换和控制晶体管、存储器位置中存储的值、以及这种电路内的其他硬件组件，以实现框图和/或流程图框中指定的功能/动作，并由此创建用于实现框图和/或流程图框中指定的功能/动作的装置(功能体)和/或结构。

这些计算机程序指令也可以存储在有形计算机可读介质中，所述有形计算机可读介质可以指导计算机或其它可编程数据处理装置按照特定方式作用，使得计算机可读介质中存储的指令产生制造物品，所述制造物品包括实现所述方框图和/或流程图块中指定的功能/动作的指令。

有形非暂时性计算机可读介质可以包括电子、磁性、光学、电磁或者半导体数据存储系统、装置或设备。计算机可读介质的更具体的示例将包括以下各项：便携式计算机磁盘、随机存取存储器(RAM)电路、只读存储器(ROM)电路、可擦除可编程只读存储器(EPROM或闪存)电路、便携式紧凑盘只读存储器(CD-ROM)、以及便携式数字视频盘只读存储器(DVD/蓝光)。

计算机程序指令也可以加载到计算机和/或其它可编程数据处理装置，以使得在计算机和/或其它可编程装置上执行一系列操作步骤，以产生计算机实现的处理，使得在计算机或其它可编程装置上执行的指令提供用于实现在框图和/或流程块中指定的功能/动作的步骤。因此，可以以硬件和/或处理器(例如，数字信号处理器)上运行的软件(包括固件、驻留软件、微代码等等)来实现本发明的实施例，该硬件和/或软件可以被统称为“电路”、“模块”或其变型。

还应当注意的是，在一些备选实现中，在块中标记的功能/动作可以不按照流程图中标记的顺序发生。例如，连续示出的两个块实际上可以是实质上同时执行的，或者所述块在某些时候可以以相反的顺序执行，这取决于所涉及到的功能/动作。此外，可以将流程图和/或框图中的给定块的功能分离成多个块，和/或流程图和/或框图中的两个或更多块的功能可以至少部分地集成。最后，可以在所示的块之间添加/插入其它块。此外，尽管一些图包括关于通信路径的箭头来指示通信的主要方向，但是应当理解的是，通信可以以与所指示的箭头相反的方向发生。

结合以上描述和附图，这里公开了许多不同实施例。将理解的是，逐字地描述和说明这些实施例的每个组合和子组合将会过分冗余和混淆。因此，包括附图在内的本说明书将被解释为构成实施例的各种示例组合和子组合以及制造和使用它们的方法和处理的完整书面描述，并且应支持主张任意这种组合或子组合的权益。

在实质上不脱离本发明原则的情况下，可以对实施例做出许多改变和修改。所有此类改变和修改旨在被包括在本发明的范围内。

Claims

1.一种由说话者验证计算机系统(102)执行的用于验证说话者的方法，所述方法包括：

由所述说话者验证计算机系统(102)的至少一个处理器执行以下操作：

获得(400)包含由所述说话者所说的单词序列在内的采样语音数据序列；

产生(200，402)表征所述采样语音数据序列的频谱分布的特征向量序列；

获得(404)由所述说话者所说的单词序列的文本转录；

响应于所述文本转录，适配(210，406)高斯混合模型的通用背景模型UBM-GMM和登记说话者高斯混合模型ENR-GMM的数据结构，以分别产生适配的UBM-GMM和适配的ENR-GMM；

基于所述特征向量序列和所述适配的ENR-GMM的组合产生(220，408)登记说话者概率，并且基于所述特征向量序列和所述适配的UBM-GMM的组合产生通用说话者概率；

基于所述登记说话者概率与所述通用说话者概率的比较，产生(230，410)所述说话者是否是登记说话者的说话者验证指示；以及

基于所述说话者验证指示是否满足定义的规则，选择性地传送(412)所述登记说话者的指示。

2.根据权利要求1所述的方法，其中，所述响应于所述文本转录适配(210，406)UBM-GMM和ENR-GMM的数据结构以分别产生适配的UBM-GMM和适配的ENR-GMM包括：

基于由所述说话者所说的单词序列的文本转录，从驻留在音素储存库(122)中的候选音素集合之中选择(300，500)候选音素序列；

使用将音素映射到所述UBM-GMM中的高斯分量的储存库(124)来选择(320，502)所述UBM-GMM中与所述候选音素序列相对应的高斯分量，以产生UBM高斯序列G_ubm；

使用将音素映射到所述ENR-GMM中的高斯分量的储存库(124)来选择(320，504)所述ENR-GMM中与所述候选音素序列相对应的高斯分量，以产生登记高斯序列G_enr；

使用所述UBM高斯序列G_ubm适配(340，506)所述UBM-GMM的数据结构以产生适配的UBM-GMM；以及

使用所述登记高斯序列G_enr适配(340，508)所述ENR-GMM的数据结构以产生适配的ENR-GMM。

3.根据权利要求1至2中的任一项所述的方法，还包括：

对于登记说话者集合中的每个登记说话者，重复(600)适配(210，406)UBM-GMM和ENR-GMM的数据结构、产生(220，408)登记说话者概率和通用说话者概率以及产生(230，410)说话者验证；

其中，所述基于所述说话者验证指示是否满足定义的规则来选择性地传送(412)所述登记说话者的指示包括：

识别(602)所述登记说话者集合中的哪个说话者与所述说话者验证指示中最满足所述定义的规则的一个说话者验证指示相对应；以及

传送(604)针对所识别(602)的一个登记说话者的标识符。

4.根据权利要求1至2中的任一项所述的方法，还包括：

从通过所述说话者验证计算机系统(102)的网络接口从客户端计算机(150b)接收的说话者查询消息(152)获得(700)针对所述登记说话者的标识符；以及

所述基于所述说话者验证指示是否满足定义的规则选择性地传送(412)所述登记说话者的指示包括：

通过所述网络接口向所述客户端计算机(150b)传送(702)包含所述登记说话者的指示在内的响应消息(154)。

5.根据权利要求1至2中任一项所述的方法，其中：

所述获得(400)包含由所述说话者所说的单词序列在内的采样语音数据序列包括：从音频视频储存库(110)内的音轨读取(800)所述采样语音数据序列的间隔；以及

所述获得(404)由所述说话者所说的单词序列的文本转录包括：解析(802)所述音频视频储存库(110)内的隐藏字幕文本串，其中所述隐藏字幕文本串与沿着所述音轨的定时指示符在时间上对准，以获得与所述采样语音数据序列的间隔在时间上对准的文本转录。

6.根据权利要求5所述的方法，还包括：

对于登记说话者集合中的每个登记说话者，重复(804)适配(210，406)UBM-GMM和ENR-GMM的数据结构、产生(220，408)登记说话者概率和通用说话者概率以及产生(230，410)说话者验证；

识别(806)所述登记说话者集合中的哪个说话者与所述说话者验证指示中最满足所述定义的规则的一个说话者验证指示相对应；以及

向说话者识别元数据添加(808)针对所识别的一个登记说话者的标识符，所述说话者识别元数据与所述音频视频储存库(110)内所述隐藏字幕文本串中的定义的位置具有逻辑关联，和/或与所述音频视频储存库(110)内所述音轨中的定义的位置具有逻辑关联。

7.根据权利要求1至2中任一项所述的方法，其中，所述基于所述特征向量序列和所述适配的ENR-GMM的组合产生(220，408)登记说话者概率并且基于所述特征向量序列和所述适配的UBM-GMM的组合产生通用说话者概率包括：

基于所述特征向量序列与ENR-GMM的K个高斯密度分量Φ_k1乘以权重

的建模叠加，来产生所述登记说话者概率。

8.根据权利要求7所述的方法，其中，所述登记说话者概率被产生(220，408)为基于以下等式确定的

其中，

是所述适配的ENR-GMM，x＝[x₁,x₂,…,x_N]是包含所述特征向量序列在内的N×D维矩阵，关于n的求和累加来自序列x中包含的各个特征向量x_n的贡献，并且分量Φ_k1是基于以下等式通过所述适配的ENR-GMM的均值μ_k1和协方差Σ_k1的集合来确定的：

9.根据权利要求7所述的方法，其中，所述基于所述特征向量序列和所述适配的ENR-GMM的组合产生(220，408)登记说话者概率并且基于所述特征向量序列和所述适配的UBM-GMM的组合产生通用说话者概率包括：

基于所述特征向量序列与UBM-GMM的K个高斯密度分量Φ_k2乘以权重

的建模叠加，来产生所述通用说话者概率。

10.根据权利要求9所述的方法，其中，所述通用说话者概率被产生(220，408)为基于以下等式确定的

其中，

是所述适配的UBM-GMM，x＝[x₁,x₂,…,x_N]是包含所述特征向量序列在内的N×D维矩阵，关于n的求和累加来自序列x中包含的各个特征向量x_n的贡献，分量Φ_k2是基于以下等式通过所述适配的UBM-GMM的均值μ_k2和协方差Σ_k2的集合来确定的：

11.一种用于验证说话者的说话者验证计算机系统(102)，包括：

至少一个处理器；以及

至少一个存储器，耦接到所述至少一个处理器，并且包括实现在所述至少一个存储器中的计算机可读程序代码，所述计算机可读程序代码在由所述至少一个处理器执行时，使得所述至少一个处理器执行包括以下的操作：

获得(404)由所述说话者所说的单词序列的文本转录；

12.根据权利要求11所述的说话者验证计算机系统(102)，其中，所述响应于所述文本转录适配(210，406)UBM-GMM和ENR-GMM的数据结构以分别产生适配的UBM-GMM和适配的ENR-GMM包括：

基于由所述说话者所说的单词序列的所述文本转录，从驻留在音素储存库(122)中的候选音素集合之中选择(300，500)候选音素序列；

使用将音素映射到所述ENR-GMM中的高斯分量的所述储存库(124)来选择(320，504)所述ENR-GMM中与所述候选音素序列相对应的高斯分量，以产生登记高斯序列G_enr；

13.根据权利要求11至12中任一项所述的说话者验证计算机系统(102)，所述操作还包括：

传送(604)针对所识别(602)的一个登记说话者的标识符。

14.根据权利要求11至12中任一项所述的说话者验证计算机系统(102)，所述操作还包括：

15.根据权利要求11至12中任一项所述的说话者验证计算机系统(102)，其中：

所述获得(400)包含由所述说话者所说的单词序列在内的采样语音数据序列包括：

从音频视频储存库(110)内的音轨读取(800)所述采样语音数据序列的间隔；以及

所述获得(404)由所述说话者所说的单词序列的文本转录包括：

解析(802)所述音频视频储存库(110)内的隐藏字幕文本串，其中所述隐藏字幕文本串与沿着所述音轨的定时指示符在时间上对准，以获得与所述采样语音数据序列的所述间隔在时间上对准的文本转录。

16.根据权利要求15所述的说话者验证计算机系统(102)，所述操作还包括：

17.根据权利要求11至12中任一项所述的说话者验证计算机系统(102)，其中，所述基于所述特征向量序列和所述适配的ENR-GMM的组合产生(220，408)登记说话者概率并且基于所述特征向量序列和所述适配的UBM-GMM的组合产生通用说话者概率包括：

的建模叠加，来产生所述登记说话者概率。

18.根据权利要求17所述的说话者验证计算机系统(102)，其中，所述登记说话者概率被产生(220，408)为基于以下等式确定的

其中，

19.根据权利要求17所述的说话者验证计算机系统(102)，其中，所述基于所述特征向量序列和所述适配的ENR-GMM的组合产生(220，408)登记说话者概率并且基于所述特征向量序列和所述适配的UBM-GMM的组合产生通用说话者概率包括：

的建模叠加，来产生所述通用说话者概率。

20.根据权利要求19所述的说话者验证计算机系统(102)，其中，所述通用说话者概率被产生(220，408)为基于以下等式确定的

其中，

21.一种用于验证说话者的说话者验证计算机系统(102)，被配置为：

获得(404)由所述说话者所说的单词序列的文本转录；

22.一种计算机可读介质，其上存储有计算机可读代码单元，所述计算机可读代码单元当在装置上运行时，使所述装置执行根据权利要求1至10中任一项所述的方法。