CN103221996A

CN103221996A - 用于验证说话人的口令建模的设备和方法、以及说话人验证系统

Info

Publication number: CN103221996A
Application number: CN2010800703238A
Authority: CN
Inventors: 马龙; 沈海峰; 张丙奇
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Intellectual Property Corp of America
Priority date: 2010-12-10
Filing date: 2010-12-10
Publication date: 2013-07-24
Anticipated expiration: 2030-12-10
Also published as: US20130238334A1; JP5853029B2; WO2012075641A1; US9257121B2; JP2014502375A; CN103221996B

Abstract

提供用于验证说话人的口令建模的设备和方法、以及说话人验证系统。设备包括：前端，从目标说话人获得登记语音；以及模板生成单元，基于登记语音利用普通说话人模型生成口令模板。在设备、方法、以及系统中，通过考虑普通说话人模型中包含的丰富的变异，即使在登记数据不充分的情况下，或者来自目标说话人的可利用的口令仅有一个时，也能可靠地进行鲁棒的口令建模。

Description

用于验证说话人的口令建模的设备和方法、以及说话人验证系统

技术领域

本公开涉及语音（音频）处理技术，具体而言，涉及说话人识别（speakerrecognition）以及说话人验证（speaker verification）的技术。

背景技术

说话人识别技术在人机交互（Human-Machine Interactive）中是有用的。能够使许多应用和产品与说话人识别技术相对应，例如（1）对某种设备（家电产品、汽车、PC终端等）的现场访问控制，或者（2）通过电话线路、移动电话线路、或者计算机的数据线路对数据库、网站、甚至是银行交易的安全的远程访问等，或者能够具备说话人识别技术以实现功能强化。

在现实的系统中，在使用说话人识别系统之前，需要先进行对目标说话人的登记或注册（registration）过程。在说话人登记过程中，从目标说话人收集样本语音，使用该样本语音生成特定说话人的统计模板。所生成的统计模板的质量对说话人识别系统的性能具有较大的影响。

图1表示用于对说话人验证系统的口令建模的以往设备的图。用户在登记过程中希望登记自己的口令时，通过说话人验证系统的前端101请求来自目标用户的口令的发声。用户的发声每次不一定完全相同，因而为了在建模单元103中得到鲁棒的统计模板模型，需要反复3至5次口令。所生成的模板模型为了随后进行确认，存储在数据库105内。

发明内容

发明要解决的问题

以往方法的两个主要缺点在于：（1）在可利用的登记数据少、或者存在较大的说话人内变动的情况下，不能保证登记的效果；以及（2）用户喜欢简单的登记过程，因而在需要多次重复时，用户体验并不好。

解决问题的方案

在本公开的一个方式中，实现用于验证说话人的口令建模设备，该设备包括：前端，从目标说话人获得登记语音；以及模板生成单元，基于登记语音利用普通说话人模型生成口令模板。

在本公开的另一形式中，提供用于验证说话人的口令建模方法，该方法包括：从目标说话人获得登记语音的步骤；以及基于登记语音利用普通说话人模型生成口令模板的步骤。

在本公开的又一形式中，实现说话人验证系统，该系统包括：前端，从目标说话人获得登记语音和/或测试语音；模板生成单元，基于登记语音利用普通说话人模型生成口令模板；以及动态验证单元，将来自目标说话人的测试语音与从口令模板中选择出的数据进行比较，其中，在比较结果为阈值以上的情况下，目标说话人被作为申报说话人受理。

在本公开的设备、方法、以及系统中，通过考虑普通说话人模型中包含的丰富的变异，即使在登记数据不充分的情况下，或者来自目标说话人的可利用的口令仅有一个时，也能够可靠地进行鲁棒的口令建模。

上述为概要内容，因此当然进行了简化、一般化，并且省略了详细情况，因此本领域技术人员可以理解，概要内容仅为例示，并不意图以任何形式进行限制。本说明书中记载的设备和/或过程和/或其他主题的其他方式、特征、以及优点通过本说明书中描述的示教而变得明确。本“发明内容”用于导入以下的“具体实施方式”中进一步说明的一些概念的简化形式。本“发明内容”并不意图明示权利要求的主题的关键特征或本质特征，也并不意图用于辅助决定权利要求的主题的范围。

通过参考附图，利用以下的说明以及附属的权利要求可以使本公开的上述特征以及其他特征完全明确。这些附图仅表示基于本公开的多个实施方式，因此应当理解，不应将其认为是限制本公开的范围的内容，使用附图更具体地、详细地说明本公开。

附图说明

图1是用于对说话人验证的口令建模的以往设备的图。

图2是基于本公开的一实施方式的用于对说话人验证的口令建模的设备的图。

图3是对于登记语音的各帧的、从普通说话人模型中选择出的从高到低的N个高斯分量（分布）的略图。

图4是表示将登记语音分割为多个段（segment）的图。

图5是合并为一个或多个GMM（高斯混合模型）的、登记语音的一个段内的高斯分量的图。

图6是包括合并后的GMM的HMM网的图。

图7是对说话人验证的口令建模的方法的流程图。

图8是基于本公开的一实施方式的说话人验证系统的图。

图9是基于本公开的另一实施方式的用于对说话人验证的口令建模的设备的图。

具体实施方式

在下面的详细说明中参考附图，这些附图构成详细说明的一部分。图中类似的标号典型地标识类似的成分，除非在上下文中另行说明。详细的说明、附图、以及权利要求中说明的例示的实施方式并不意图进行限定。也能够利用其他实施方式，另外在不脱离本说明书提出的主题的精神和范围的情况下，可以增加其他变形。容易理解的是，在本说明书中进行一般性地说明并在图中例示的本公开的方式可以通过各种不同结构进行配置、置换、组合、以及设计，它们均被明确地考察并构成本公开的一部分。

本公开尤其涉及关于对说话人验证的口令建模的设备、方法、以及系统。

图2表示基于本公开的一实施方式的用于对说话人验证的口令建模的设备的图。

如图2所示，基于本公开的一实施方式的用于对说话人验证的口令建模的设备200包括前端201、模板生成单元203、自适应单元207、口令数据库205、以及说话人模型数据库213。在上述结构中，模板生成单元203分别连接于前端201、自适应单元207、口令数据库205、以及说话人模型数据库213。根据本公开的一实施方式，设备200可以仅包括模板生成单元203，该模板生成单元203作为外部单元或设备连接在前端201、自适应单元207、口令数据库205、以及说话人模型数据库213等其他单元上。

基于一实施方式的用于对说话人验证的口令建模的设备200包括：前端201，从目标说话人获得登记语音；以及模板生成单元203，基于登记语音利用普通说话人模型生成口令模板。

以下说明基于本公开的一实施方式的设备200的上述各个单元的操作。

具体而言，设备200需要进行本质上是具有M（例如M＝1024）个高斯分量的混合模型的、普通说话人模型（HMM(隐马尔可夫模型)或GMM-UBM(通用背景模型)）的学习。这种高斯分量从来自多个说话人的语音数据的集合中提取出来，上述多个说话人代表说话人验证时预测的说话人的总体。预想普通说话人模型包含例如以下所示的、由说话人之间以及说话人内差异引起的丰富的变异。

[w_j,θ_j(μ_j,Σ_j)]1≤j≤M (1)

w_j>0和

{&Sum;}_{j = 1}^{m} w_{j} = 1

在此，w_j、μ_j、以及∑_j分别是UBM的第j个混合分量的权重、均值、以及协方差。

即，普通说话人模型包括多个高斯分量，这些高斯分量表示从说话人验证时预测的多个说话人收集的语音数据。已学习的普通说话人模型预先存储在说话人模型数据库213内。

图3表示对于登记语音的各帧的、从普通说话人模型中选择出的从高到低的N个高斯分量的略图。

根据本公开的一实施方式，前端201从目标说话人获得登记语音，将该登记语音分割为多个帧，从多个帧的每一个中提取表示声学特性和/或内容的特征参数。

具体而言，在前端201中，来自目标说话人的登记语音分割为各个帧，各帧例如为10ms，并且各帧与LPCC（线性预测倒谱系数）或MFCC（梅尔尺度频率倒谱系数）等特征参数一起被提取。基于本公开的一实施方式的参数提取的详细过程不作限定，说明如下。例如，在前端201中，对每帧提取MFCC参数。关于登记语音的各帧，以0.97等系数执行预加重处理，使语音数据的采样频率为16kHz，使汉明窗为20ms，通过512点FFT每10ms计算功率谱。使用DCT（离散余弦变换）变换，将24个梅尔尺度三角滤波器组的对数能量转换为12个倒谱次数。此外，还计算各帧的对数能量，与倒谱组合以形成13维向量。接着，计算原来的静态特征向量的一阶导数和二阶导数。使用包括倒谱均值相减（CMS）以及方差归一化在内的特征标准化，减少不同状态下记录的信号之间的不匹配。据此，获得目标说话人的登记语音的各帧的MFCC参数等特征参数。基于本公开的特征提取并不限定于上述过程，可以使用其他的已知方法获得特征参数。

根据本公开的一实施方式，模板生成单元203使用各帧的特征参数计算普通说话人模型的高斯分量的各似然性得分，对于各帧选择具有最高的似然性得分的N个高斯分量。在此，N为自然数。

具体而言，模板生成单元203从前端201获得各帧的特征参数，基于特征参数计算从说话人模型数据库213获得的普通说话人模型的高斯分量的似然性得分，提取对于登记语音的各帧的、从高到低的N个高斯分量列表。在此，N为自然数，可以通过某种距离测量进行判断。

在模板生成单元203中，将各帧的MFCC参数适用于普通说话人模型的各个高斯分量的情况下，各帧的从高到低的N个高斯分量列表可用下式求出。

φ_{j} (X_{t}, θ_{j}) = w_{j} \cdot \frac{1}{{(2 π)}^{d / 2} | Σ_{j} |^{1 / 2}} \exp {- \frac{1}{2} {(X_{t} - μ_{j})}^{t} {Σ_{j}}^{- 1} (X_{t} - μ_{j})} 1 \leq j \leq M - - - (2)

φ (X_{t}, θ) = Σ_{j = 1}^{M} φ_{j} (X_{t}, θ_{j}) - - - (3)

在此，参数X_t是在时刻t提取的MFCC参数等特征参数，参数w_j、μ_j、以及∑_j分别是普通说话人模型的第j个混合分量的权重、均值、以及协方差，

是分量j的似然性得分，

是各帧(t)的普通说话人模型的全部似然性得分。

各帧的高斯分量的似然性得分可以进行排序，可以选择各帧的具有最高似然性得分的从高到低的N个高斯分量。时刻t的从高到低的N个高斯分量的列表可以表示为：

j_t，s(1≤s≤N，0≤t≤T)。

在此，N是已定义的值，或者可以以包含具有最高的后验概率的高斯分量的方式，按照高斯分量的后验概率（下式(4)的p_t,s）进行设定。在此，帧的高斯分量的似然性得分越高，则高斯分量越接近登记语音的帧的声学特性和/或内容。

如图3所示，参考编号b_t1、b_t2、b_t3、b_t4、…分别表示登记语音的各帧，参考编号1、2、3、4、5表示各帧的提取出的5个高斯分量。在此，N为5。在参考编号b_t1、b_t2、b_t3、b_t4、…以及参考编号1、2、3、4、5的连接点处配置的所有点形成从普通说话人模型中选择出的从高到低的N个高斯分量的列表。

图4是表示将登记语音分割为多个段（segment）的图。根据本公开的一实施方式，模板生成单元203将登记语音分割为大小相等或者大小不等的多个段，各段包含多个帧。

具体而言，在模板生成单元203中，将登记语音沿着时间轴分割为若干个段，每个段包含若干个（多个）帧。如图4所示，可以有两个选项。选项1将登记语音平均分割为K个段，各段的持续时间（期间）应超过固定的阈值，即，如图4的(a)所示，L_K≥L_min。在选项2中，这些段的个数以及边界由动态的从高到低的N个高斯分量列表决定。如图4的(b)所示，

动态的段分割中使用的详细算法如下所述，但并不限定于此。

（1）利用下式(4)，计算时刻t时从高到低的N个列表内的各高斯分量的后验概率。

p_{t, s} = \frac{φ_{t, s} (X_{t}, θ_{t, s})}{φ (X_{t}, θ)}, 1 \leq s \leq N - - - (4)

（2）找到在时刻t-1以及t两个相邻帧之间具有相等的分量索引的高斯分量的对。接着，基于从高到低的N个高斯分量的后验概率，计算相邻的两个帧之间的类似度。

sim (t - 1, t) = \underset{i, i^{'}}{Σ} p_{t - 1, i} \cdot p_{t, i^{'}}, j_{t - 1, i} = j_{t, i^{'}}, 1 \leq i, i^{'} \leq N - - - (5)

作为代替，也可以如式(6)所示基于高斯分量对的阶数的积，计算类似度距离。

sim (t - 1, t) = \underset{i, i^{'}}{Σ} i \cdot i^{'}, j_{t - 1, i} = j_{t, i^{'}}, 1 \leq 1, i^{'} \leq N - - - (6)

（3）通过比较具有已定义的阈值的相邻帧之间的距离，将登记语音分割为若干个段。

在此，在式(5)以及(6)中，j_t,i是在时刻t选择的、排序后的从高到低的N个高斯分量的列表内的第i个高斯分量。这些段的边界可以表示为b_k，1≤k≤K。其结果是，登记语音能够按照上述的类似度定义式(5)或(6)分割为K个段。

根据本公开的一实施方式，模板生成单元203对各段内的所有帧的提取出的高斯分量进行排序，并进行合并，从而获得隐马尔可夫模型网作为口令模板。上述进行排序以及合并是指如下动作，即：模板生成单元203对具有不同分量索引的各段内的所有帧的高斯分量进行排序，累计其后验概率，找到后验概率的距离测量中最近的高斯分量并进行合并。

具体而言，在模板生成单元203中，对于每个段，可以将从高到低的N个高斯分量的列表中存在的高斯分量合并为一个GMM，或者聚类为K个类，合并为K个GMM。可以按照分量出现频率、从高到低的N个分量中的分量阶数、各分量的后验概率的总和等若干规则，在进行合并以及聚类之前除去高斯分量的一部分。

图5是表示合并为一个或多个GMM的、登记语音的一个段内的高斯分量的图。

下面说明合并对应的段的从高到低的N个高斯分量列表内的高斯分量的过程。如图5所示，b_t-1至b_t的期间表示登记语音的一个段，它包括由b_t1、b_t2、b_t3、b_t4、…表示的多个帧。在图5所示的段中，选择具有不同分量索引的高斯分量，通过下式累计对应的后验概率。

sump (I_{q}) = Σ_{b_{k - 1} < t \leq b_{k}}^{j_{t, s} = I_{q}} p_{t, s - - - (7)}

在此，I_q是高斯分量的索引。（7）的目标是对各段内的从高到低的N个高斯分量列表内出现的I_q的后验概率计算总和。累计的后验概率低于已定义阈值的节点502等若干高斯分量被除去。

通过使用K-means（K-均值）法或者凝聚型聚类等以模型为基础的聚类法，将所选择的高斯分量反复地聚类为K个GMM。根据本公开的一实施方式，合并的过程以如下所述的方式执行。

(a)以上述步骤中选择出的各高斯分量，对各高斯集群进行初始化，将集群编号设定为C，

(b)如式(8)所示，找到马氏距离（Mahalanobis distance）等若干距离测量的意义上最近的分量。

d (i, j) = \frac{1}{2} \cdot [{(μ_{i} - μ_{j})}^{T} Σ_{i}^{- 1} (μ_{i} - μ_{j}) + {(μ_{j} - μ_{i})}^{T} Σ_{j}^{- 1} (μ_{j} - μ_{i})] - - - (8)

或者，也可以使用巴特查里亚距离（Bhattacharyya distance）以及KL散度。

(c)用下式(9)对两个最近的高斯[w₁,θ₁(μ₁,∑₁)]、[w₂,θ₂(μ₂,∑₂)]进行合并。

w=w₁+w₂

μ = \frac{N_{1}}{N_{1} + N_{2}} \cdot μ_{1} + \frac{N_{2}}{N_{1} + N_{2}} \cdot μ_{2}

Σ = \frac{N_{1}}{N_{1} + N_{2}} \cdot Σ_{1} + \frac{N_{2}}{N_{1} + N_{2}} \cdot Σ_{2} + N_{1} \cdot N_{2} \cdot (μ_{1} - μ_{2}) \cdot {(μ_{1} - μ_{2})}^{T} - - - (9)

N₁=w₁·p₁,N₂=w₂·p₂其中，p₁=sump₁,p₂=sump₂

P1以及P2也可以简单地设定为1.0。在式(8)以及式(9)中，w_j、μ_j、以及∑_j分别是普通说话人模型的第j个混合分量的权重、均值、以及协方差。

(d)C=C-1，若C≤K则停止，否则转至(b)。

如图5所示，由参考编号504表示的高斯分量合并为一个GMM，由参考编号505表示的高斯分量合并为一个GMM，由参考编号506表示的高斯分量合并为一个GMM。例如，最终在b_t-1至b_t的段中得到三个GMM。由参考编号502表示的高斯分量由于具有与已定义的阈值相比相对较低的累计的后验概率，所以被除去。

对于登记语音的所有段反复执行上述过程，为了建立HMM网而在模板生成单元203内使用所有从高到低的N个高斯分量列表内存在的高斯分量。HMM网的各节点是由从普通说话人模型中提取的高斯分量生成的聚类的GMM。

图6是包括合并后的GMM的HMM网的图。

在合并过程之后，在合并后的GMM之间进行连接，形成HMM网。如图6所示，HMM网的状态包括通过上述高斯合并过程得到的GMM。从相同的段（b_t-1至b_t等期间）得到的GMM在HMM网内处于并列状态，连续的段之间的GMM完全链接。可将各状态对之间的初始迁移概率分配为1/L，L是HMM网内的当前状态的扇出弧（fan-out arcs）的总数。

据此，基于一实施方式，为了验证说话人而生成HMM网，该HMM网作为目标说话人的口令模板存储在口令数据库205中。每个GMM能够充分表示目标说话人的登记语音的声学特性和/或内容。

根据本公开的另一实施方式，HMM网通过MA和MLLR等自适应方法按照登记语音进行自适应，进行了自适应的HMM网络作为口令模板存储在数据库205中。

在自适应单元207中，使用Baum-Welch算法，利用说话人的登记语音对HMM网进行基于MLLR（最大似然线性回归）/MAP（最大后验概率）的自适应，能够生成依赖于说话人的口令模式，代替未进行自适应的HMM网而将进行了自适应的HMM网作为目标说话人的口令的模板存储在口令数据库205内。由于自适应技术是常见手段，所以其详细内容不在下面进行说明。

图7表示基于本公开的一实施方式的对说话人验证的口令建模的方法的流程图。

如图7所示，基于本公开的一实施方式的用于验证说话人的口令建模方法包含以下步骤。在步骤S701中，从目标说话人获得登记语音。在步骤S702中，基于登记语音利用普通说话人模型生成口令模板。

根据本公开的一实施方式，上述步骤S701可以由前端201执行，上述步骤S702可以由模板生成单元203执行。

根据本公开的另一实施方式，口令建模方法还包括将该登记语音分割为多个帧的步骤，以及从多个帧的每一个中提取表示声学特性和/或内容的特征参数的步骤。上述步骤可以由前端201执行。在本公开中，普通说话人模型包括多个高斯分量，这些高斯分量表示从说话人验证时预测的多个说话人收集的语音数据。

根据本公开的另一实施方式，口令建模方法还包括使用各帧的特征参数计算高斯分量的各似然性得分的步骤，以及对于各帧选择具有最高的似然性得分的N个高斯分量的步骤，其中N为自然数。上述步骤可以由模板生成单元203执行。

根据本公开的另一实施方式，口令建模方法还包括将登记语音分割为大小相等或者大小不等的多个段的步骤，其中各段包含多个帧。上述步骤可以由前端201或者模板生成单元203执行。

根据本公开的另一实施方式，口令建模方法还包括对各段内的所有帧的高斯分量进行排序的步骤，以及对排序的高斯分量进行合并以获得隐马尔可夫模型网作为口令模板的步骤。上述步骤可以由模板生成单元203执行。

根据本公开的另一实施方式，口令建模方法还包括对具有不同分量索引的各段内的所有帧的高斯分量进行排序的步骤、对排序的高斯分量的后验概率进行累计的步骤、以及合并在后验概率的距离测量中最近的高斯分量的步骤。上述步骤可以由模板生成单元203执行。

根据本公开的另一实施方式，口令建模方法还包括通过MA和MLLR等自适应方法按照登记语音对口令模板进行自适应的步骤。上述步骤可以由自适应单元207执行。

该方法的上述步骤的执行并不限定于上述顺序，这些步骤可以逐一执行和/或并列执行。还有可能无须执行图示的所有步骤。

图8是基于本公开的一实施方式的说话人验证系统的图。

整个说话人验证系统包括两个阶段，一个是登记阶段，另一个是测试阶段。登记阶段的结构与参考图2说明的相同，因此以下省略其详细说明。测试阶段包括前端801以及动态验证单元804。前端801从目标说话人获得测试语音，将该测试语音转换为特征参数，并将这些特征参数发送至动态验证单元804。前端801以及前端201可以仅作为一个单元实现，并不限定于上述结构。动态验证单元804从前端801获得特征参数，对从口令数据库205存储的HMM网中选择的数据（GMM）适用特征参数，由此计算目标说话人的测试语音的似然性得分。接着，动态验证单元804将计算出的似然性得分与已定义阈值进行比较。在计算出的似然性得分为已定义的阈值以上的情况下，提供了测试语音的目标说话人被作为申报说话人（claimed speaker）受理。在计算出的似然性得分小于已定义的阈值的情况下，拒绝测试语音，不将目标说话人视为申报说话人。

据此，基于本公开的一实施方式的说话人验证系统包括：前端201和/或801，从目标说话人获得登记语音和/或测试语音；模板生成单元203，基于登记语音利用普通说话人模型生成口令模板；以及动态验证单元804，将来自目标说话人的测试语音与从口令模板中选择出的数据进行比较，在比较结果为阈值以上的情况下，目标说话人被受理为申报说话人。

根据本公开的另一实施方式，在说话人验证系统中，前端801从还从目标说话人获得说话人识别，动态验证单元804基于说话人识别，从口令数据库205中选择用于比较的口令模板。

具体而言，在动态验证单元804将测试语音与从口令数据库205中选择的数据进行比较之前，前端801能够从说话人获得说话人识别信息。另一方面，已定义的说话人识别信息可以预先存储在口令数据库205内。前端801从口令数据库205中加载对应的说话人识别信息，将其与从前端801获得的说话人识别信息进行比较。在从口令模板数据库205加载的说话人识别信息与从前端801获得的说话人识别信息一致的情况下，动态验证单元804基于说话人识别信息从口令数据库205中选择用于测试语音的验证操作的数据，如上所述执行验证操作。在从口令数据库205加载的说话人识别信息与从前端801获得的说话人识别信息不一致的情况下，动态验证单元804不执行测试语音的验证操作。

即，在测试阶段中，具有申报识别的测试语音由动态验证单元804在具有申报识别的来自说话人的测试语音与口令模板（即HMM网）之间进行验证。可以按照验证得分以及已定义的阈值进行申报识别是否被验证的判断。测试阶段并不是本公开的主要部分，是该技术领域中通常使用的手段，因而省略其详细说明。

根据本公开的一实施方式，系统的前端201将该登记语音分割为多个帧，从多个帧的每一个中提取表示声学特性和/或内容的特征参数。

根据本公开的一实施方式，普通说话人模型包括多个高斯分量，这些高斯分量表示从说话人验证时预测的多个说话人收集到的语音数据。

根据本公开的一实施方式，系统的模板生成单元203使用各帧的特征参数计算高斯分量的各似然性得分，对于各帧选择具有最高的似然性得分的N个高斯分量，其中N为自然数。

根据本公开的一实施方式，系统的前端201或模板单元203将登记语音分割为大小相等或者大小不等的多个段，各段包含多个帧。

根据本公开的一实施方式，系统的模板生成单元203对各段内的所有帧的高斯分量进行排序，并对排序的高斯分量进行合并，获得隐马尔可夫模型网作为口令模板。

根据本公开的一实施方式，系统的模板生成单元203对具有不同分量索引的各段内的所有帧的高斯分量进行排序，对排序的高斯分量的后验概率进行累计，并且合并在后验概率的距离测量中最近的高斯分量。

根据本公开的一实施方式，通过MA和MLLR等自适应方法按照登记语音对口令模板进行自适应。

如图9所示，基于本公开的另一实施方式的用于对说话人验证的口令建模的设备900包括前端201、模板生成单元903、自适应单元907、口令数据库905、说话人模型数据库913、以及自适应说话人模型数据库914。根据本公开的一实施方式，设备900可以仅包括模板生成单元903，该模板生成单元903作为外部单元或设备连接在前端201、自适应单元907、口令数据库905、以及自适应说话人模型数据库914等其他单元上。

如图9所示，为了基于MA和MLLR等自适应方法按照登记语音在目标说话人模型内对普通说话人模型进行自适应，能够在自适应单元907中最初使用MAP自适应，自适应目标说话人模型存储在自适应说话人模型数据库914内。可以由模板生成单元203基于自适应目标说话人模型生成HMM网即口令模板。

具体而言，设备900需要利用来自代表说话人验证时预测的说话人总体的多个说话人的语音数据的集合，进行普通说话人模型（HMM或GMM-UBM）的学习。预想普通说话人模型包含由说话人间以及说话人内差异引起的丰富的变异。已学习的普通说话人模型存储在说话人模型数据库913内。

前端201从目标说话人获得登记语音，并将该登记语音转换为特征参数。自适应单元907获得特征参数，为了进行自适应，对说话人模型数据库913中存储的普通说话人模型的各个高斯分量适用特征参数，自适应普通说话人模型存储在自适应说话人模型数据库914内。

模板生成单元903从前端201获得特征参数，基于特征参数计算从自适应说话人模型数据库914获得的自适应普通说话人模型的高斯分量的似然性得分，提取对于登记语音的各帧的、从高到低的N个高斯分量列表。模板生成单元903为了建立HMM网，使用从高到低的N个高斯分量列表内存在的高斯分量。

所建立的HMM网作为目标说话人的口令模板存储在口令数据库905中。

根据另一实施方式，本公开的口令建模方法还包括通过MA和MLLR等自适应方法按照登记语音对普通说话人模型进行自适应的步骤，以及利用自适应普通说话人模型生成口令模板的步骤。上述步骤分别可以由自适应单元907和模板生成单元903执行。

为了确认本公开的效果，进行若干预备性评价。第一实验在以往的依赖于文本的说话人验证系统中评价登记发声数的效果。在此，使用10个日本的年轻成年人的发声（男性5人和女性5人）的数据集合，各说话人对于包含数字字符串、住址、姓名、以及电子邮件地址等的15个模式中的所有发声反复进行10次。在该实验中，在登记阶段使用来自各说话人的若干发声，建立了口令模板。在测试阶段使用来自相同说话人的剩余发声以及来自其他说话人的所有发声。如表1所示，通过调整登记阶段中使用的发声的数量，能够观察登记发声数的效果。

[表1]

登记发声的数量	FAR	FRR
			1	1.29%	1.33%
2	1.06%	1.00%
			3	0.79%	0.78%

在表1中，表示出随着登记发声数的增加，系统性能也得到改善。在登记时仅能够利用一次发声的情况下，性能相对降低约60%。

第二实验评价本公开的效果。使用超过400人的以日语为母语的说话人的大规模学习体（corpus），利用1024个高斯分量的UBM，建立普通说话人模型。各说话人进行约10分钟的连续发声。此时，在登记阶段仅使用一个来自目标说话人的发声，在测试阶段使用与上述实验相同的发声。评价自适应单元207以及由模块207提取的高斯分量的数量的效果。该实验结果即本公开的效果（自适应以及从高到低的N个高斯分量的提取）汇总在下表2中。

[表2]

结构	FAR	FRR	从高到低的N个高斯
				无自适应	1.10%	1.05%	5
有自适应	1.28%	1.39%	1
				有自适应	0.89%	0.82%	5
有自适应	0.84%	0.79%	10

从实验结果可知，基于本公开，即使在登记时仅使用一个发声的说话人验证系统中，也能够得到与反复三次的以往的说话人验证系统相似的结果。并且，自适应单元能够带来进一步的改善效果。

上述详细说明通过使用方框图、流程图和/或实施例，描述了设备和/或过程的各种实施方式。本领域技术人员应当理解，只要这种方框图、流程图和/或实施例包含一个或多个功能和/或运算，这种方框图、流程图或实施例内的各功能和/或运算可以通过各种硬件、软件、固件、或者它们的实质上的任意组合，单独和/或集成地实现。在一实施方式中，本说明书中记载的主题的若干部分可以通过专用集成电路（Application Specific Integrated Circuits,ASIC）、场可编程门阵列（Field Programmable Gate Arrays,FPGA）、数字信号处理器（Digital Signal Processor,DSP）、或者其他集成电路方式实现。但是，本领域技术人员应当理解，本说明书中公开的实施方式的若干形式的全部或者部分可以作为在一个或多个计算机上执行的一个或多个计算机程序（例如，作为在一个或多个计算机系统上执行的一个或多个程序）、作为在一个或多个处理器上执行的一个或多个程序（例如，作为在一个或多个微处理器上执行的一个或多个程序）、作为固件、或者作为它们的实质上的任意组合，在集成电路内以等价的结构实现，并且根据本公开，本领域技术人员应当能够为软件和/或固件设计电路和/或编写代码。此外，本领域技术人员应当理解，本说明书中记载的主题的机制可以作为各种形式的程序产品分发，另外本说明书中记载的主题的例示的一实施方式的应用与用于实际执行分发的特定种类的信号传播介质无关。作为信号传播介质的例子，可举出且不限于如下介质：软盘、硬盘驱动器、紧凑式光盘（CD）、数字视频光盘（DVD）、数字磁带、计算机存储器等可记录型介质，以及数字和/或模拟通信介质等发送型介质（例如光导纤维电缆、波导管、有线通信链路、无线通信链路等）。

本说明书中记载的主题有时例示收容于其他组件内或者连接于其他组件的组件。应当理解的是，所示出的这种结构仅为例示，实际上可以实现具有相同功能的多种其他结构。在概念意义上，为了实现相同功能，无论以任何方式配置组件，都是为了实现期望功能而实际进行“关联”。因此，为了实现特定功能而组合的本说明书的任意两个组件可以视为与结构或中间组件无关，为了实现期望功能而相互“关联”。同样，以此方式关联的任意两个组件还可以视为为了实现期望功能而相互“可动作地连接”或者“可动作地结合”，另外，能够以此方式关联的任意两个组件还可以视为为了实现期望功能而相互“能够可动作地连接”。作为能够可动作地结合的特定例子，可举出且不限于如下例子：物理上可啮合、和/或物理上相互作用的组件、和/或能够以无线方式相互作用、和/或能够以无线方式相互作用的组件、和/或逻辑上相互作用、和/或逻辑上能够相互作用的组件。

关于本说明书中的实质上的复数形和/或单数形的用语的使用，本领域技术人员能够根据背景情况和/或用途，适当地将复数形改变为单数形、和/或将单数形改变为复数形。关于各种单数形/复数形的置换，在本说明书中为了易于理解有时明确进行描述。

本领域技术人员应当理解的是，一般而言，本说明书中使用的、尤其是附属的权利要求书（例如附属的权利要求书的正文）中使用的说法一般是“非限定性的”说法（例如，说法“包括有”应解释为“包括有但不限于”，说法“具有”应解释为“至少具有”，说法“包括”应解释为“包括但不限于”，等等）。此外，本领域技术人员应当理解，在意图指所导入的权利要求列举的特定数量的情况下，该意图在权利要求内会明确记载，在没有这种列举的情况下，不存在这种意图。例如，为了便于理解，在以下的附属的权利要求中，可以加入导入句“至少一个”以及“一个或多个”以导入权利要求列举。但是，即使使用了这种语句，通过基于不定冠词“a”或者“an”的权利要求列举的导入，即使该权利要求包含导入句“一个或多个”或“至少一个”，以及“a”或“an”等不定冠词，包含这种导入的权利要求列举的特定权利要求也不应解释为限定于仅包含一个这种列举的公开（例如，“a”和/或“an”典型地应解释为指“至少一个”或“一个或多个”），关于用于导入权利要求列举的定冠词的使用，这一点也成立。此外，本领域技术人员应当理解，即使明确记载了特定数量的导入的权利要求列举，这种列举典型地也应该理解为指至少记载的数量（例如，不加其他修饰语的“两个列举”这一不加修饰的列举典型地指至少两个列举，或者两个以上列举）。在使用类似于“A、B、或C等中至少一者”的惯用说法的情况下，一般而言，该结构是指本领域技术人员对该惯用说法所理解的意义（例如，“具有A、B、或C中至少一者的系统”包括但不限于仅具有A、仅具有B、仅具有C、具有A及B、具有A及C、具有B及C、和/或具有A、B及C等的系统）。此外，本领域技术人员应当理解，不管是说明书、权利要求书、还是附图中，表示两个以上代替词语的实质上的任意分离词语和/或语句，都应当理解为有可能包含多个词语中之一、多个词语中的任一者、或者词语双方。例如，语句“A或B”应理解为包含“A”或“B”、或者“A及B”的可能性。

本说明书中公开了各种形式以及实施方式，但本领域技术人员应当显而易见地想到其他形式以及实施方式。本说明书中公开的各种形式以及实施方式旨在进行例示，并不意图进行限定，真正的范围和精神由权利要求书示出。

Claims

1.用于验证说话人的口令建模设备，包括：

前端，从目标说话人获得登记语音；和

模板生成单元，基于所述登记语音利用普通说话人模型生成口令模板。

2.如权利要求1所述的口令建模设备，

所述前端将所述登记语音分割为多个帧，从所述多个帧的每一个中提取表示声学特性和/或内容的特征参数。

3.如权利要求1所述的口令建模设备，

所述普通说话人模型包括多个高斯分量，所述高斯分量表示从所述验证说话人时预测的多个说话人收集到的语音数据。

4.如权利要求3所述的口令建模设备，

所述模板生成单元使用各帧的所述特征参数计算所述高斯分量的各似然性得分，对于各帧选择具有最高的似然性得分的N个高斯分量，其中N为自然数。

5.如权利要求4所述的口令建模设备，

所述前端或所述模板生成单元将所述登记语音分割为大小相等或者大小不等的多个段，各段包含多个帧。

6.如权利要求5所述的口令建模设备，

所述模板生成单元对各段内的所有帧的所述高斯分量进行排序，并对经过了所述排序的高斯分量进行合并，获得隐马尔可夫模型网作为所述口令模板。

7.如权利要求6所述的口令建模设备，

所述模板生成单元对具有不同分量索引的各段内的所有帧的所述高斯分量进行排序，对所述排序的高斯分量的后验概率进行累计，并且合并在所述后验概率的距离测量中最近的高斯分量。

8.如权利要求1或6所述的口令建模设备，

所述口令模板通过MAP和MLLR等自适应方法按照所述登记语音进行自适应。

9.如权利要求1所述的口令建模设备，

所述普通说话人模型通过MAP和MLLR等自适应方法按照所述登记语音进行自适应，所述模板生成单元利用所述自适应普通说话人模型生成所述口令模板。

10.用于验证说话人的口令建模方法，包括：

从目标说话人获得登记语音的步骤；和

基于所述登记语音利用普通说话人模型生成口令模板的步骤。

11.如权利要求10所述的口令建模方法，还包括：

将所述登记语音分割为多个帧的步骤；和

从所述多个帧的每一个中提取表示声学特性和/或内容的特征参数的步骤。

12.如权利要求10或11所述的口令建模方法，

13.如权利要求12所述的口令建模方法，还包括：

使用各帧的所述特征参数计算所述高斯分量的各似然性得分的步骤；和

对于各帧选择具有最高的似然性得分的N个高斯分量的步骤，N为自然数。

14.如权利要求13所述的口令建模方法，还包括：

将所述登记语音分割为大小相等或者大小不等的多个段的步骤，各段包含多个帧。

15.如权利要求14所述的口令建模方法，还包括：

对各段内的所有帧的所述高斯分量进行排序的步骤；和

合并经过了所述排序的高斯分量，作为所述口令模板获得隐马尔可夫模型网的步骤。

16.如权利要求15所述的口令建模方法，还包括：

对具有不同分量索引的各段内的所有帧的所述高斯分量进行排序的步骤；

对经过了所述排序的高斯分量的后验概率进行累计的步骤；和

合并所述后验概率的距离测量中最近的高斯分量的步骤。

17.如权利要求10或15所述的口令建模方法，还包括：

通过MAP和MLLR等自适应方法按照所述登记语音对所述口令模板进行自适应的步骤。

18.如权利要求10所述的口令建模方法，还包括：

通过MAP和MLLR等自适应方法按照所述登记语音对所述普通说话人模型进行自适应的步骤；和

利用所述自适应普通说话人模型生成所述口令模板的步骤。

19.说话人验证系统，包括：

前端，从目标说话人获得登记语音和/或测试语音；

模板生成单元，基于所述登记语音利用普通说话人模型生成口令模板；以及

动态验证单元，将来自所述目标说话人的所述测试语音与从所述口令模板中选择的数据进行比较，其中，

在比较结果为阈值以上的情况下，所述目标说话人被作为申报说话人受理。

20.如权利要求19所述的说话人验证系统，

所述前端还从所述目标说话人获得说话人识别信息，所述动态验证单元基于所述说话人识别信息，从所述口令模板中选择用于比较的所述数据。

21.如权利要求20所述的说话人验证系统，

22.如权利要求21所述的说话人验证系统，

23.如权利要求22所述的说话人验证系统，

所述模板生成单元使用各帧的所述特征参数计算所述高斯分量的各似然性得分，对于各帧选择具有最高的似然性得分的N个高斯分量，N为自然数。

24.如权利要求23所述的说话人验证系统，

25.如权利要求24所述的说话人验证系统，

26.如权利要求25所述的说话人验证系统，

所述模板生成单元对具有不同分量索引的各段内的所有帧的所述高斯分量进行排序，对经过了所述排序的高斯分量的后验概率进行累计，并且合并在所述后验概率的距离测量中最近的高斯分量。

27.如权利要求19或25所述的说话人验证系统，

所述口令模板通过MA和MLLR等自适应方法按照所述登记语音进行自适应。

28.如权利要求19所述的说话人验证系统，

所述普通说话人模型通过MAP和MLLR等自适应方法按照所述登记语音进行自适应，所述模板生成单元利用所述自适应普通说话人模型来生成所述口令模板。