CN1236423C

CN1236423C - 说话人声音的后台学习

Info

Publication number: CN1236423C
Application number: CNB028015983A
Authority: CN
Inventors: C·－S·黄; Y·－C·楚; W·－H·蔡; J·－M·程
Original assignee: Koninklijke Philips Electronics NV
Current assignee: Koninklijke Philips NV
Priority date: 2001-05-10
Filing date: 2002-04-25
Publication date: 2006-01-11
Anticipated expiration: 2022-04-25
Also published as: ATE335195T1; JP4369132B2; CN1462366A; EP1395803B1; DE60213595T2; WO2002090915A1; JP2004528595A; EP1395803A1; DE60213595D1; US20030088414A1; US7171360B2

Abstract

一个说话人识别系统，含有一个说话人模型生成器(110)用于产生大量的说话人模型。为此，该生成器在没有谁说出各自训练话语的说话人先验知识的情况下，在后台接收大量说话人的训练话语。该生成器根据预定义的准则盲聚类训练话语。为每一个群集训练一个对应的说话人模型。一个说话人识别器(130)识别说话人，对于从说话人接收的话语确定说话人模型中最可能的一个。认定与最可能的说话人模型关联的说话人为测试话语的说话人。

Description

说话人声音的后台学习

技术领域

本发明涉及说话人的自动识别，通过接收测试话语；确定大量说话人模型中对于测试话语来说最可能的一个；将与最可能的语音模型关联的说话人确定为测试话语的说话人。

背景技术

说话人识别正变得越来越重要。传统的说话人识别用于安全的目的，例如根据声音特征核实说话人的身份。随着为CE设备发展了越来越多的声控应用，说话人识别也能够在将来简化与CE设备的交互中起重要的作用。

在传统说话人识别(说话人ID)的任务中，使用客户的注册数据训练特定说话人的模型。通常使用隐式马尔可夫模型(HMM)来模型化子词单元，例如音素或双音素。为了获得好的性能，可靠的系统需要大量的注册数据来描述说话人的声音特征。特别是因为说话人的声音特征从一段时间到另一段时间会发生显著的改变，所以需要有许多不同时期的数据。每个说话人训练自己的模型。因而说话人在实际训练开始之前必须在系统中注册。

一旦训练了模型，将待识别或核实的说话人话语与所有说话人模型进行比较。通过定位对于该话语可能性最高的模型并获取与模型关联的说话人身份来确定说话人的身份。

因为用户讨厌花费很多时间来训练系统，所以需要将对说话人的要求和训练数据数量降到最小。实质上已经提出了各种方法，目的是在只有少量的注册数据可用时得到较好的说话人模型的参数估计。然而这些系统仍然需要用户注册并训练系统。对于CE系统来说，这可能仍然是对用户的太高障碍并妨碍接受系统。它也使系统难于作用于对注册不熟悉的临时用户。

发明内容

本发明的一个目标是提供一种方法和系统，能够在不需要用户通过显式训练系统来注册的情况下自动识别说话人。

为了达到本发明的目标，通过下列措施在后台产生大量的说话人模型：

●在后台接收大量说话人的训练话语，不需要知道说出各自训练话语的说话人；

●根据预定义准则盲聚类训练话语；以及

●为每个群集训练一个对应的说话人模型；每个模型表示一个说话人。

在根据本发明的方法中，能够在不依赖注册数据、而是使用离线采集的说话人语音的情况下训练特定说话人的模型。为了达到这个目标，设计的系统要具有在工作中没有人类干涉的情况下采集、分类和学习不同说话人声音的能力。因为学习是一个后台或隐藏的过程，所以称作后台学习。在描述中后台学习集中在批量学习。每当已经在后台采集了所有要识别的说话人的足够语音数据时执行批量学习。后台学习便于在声控系统中使用。大多数现有技术水平的与说话人无关的声控系统能够在不必首先训练系统的情况下由用户使用。在用户使用声控系统的同时，记录用户发出的命令并用于根据本发明的后台学习。对于其它特定的应用，甚至能够在用户获得一个配置有根据本发明的后台学习的新系统时，系统自动开始采集用户的话语，例如通过记录所有通过话筒接收的语音。为此系统可以装配软件来区分语音和其它声响。系统可以在没有任何用户干涉的情况下或在用户激活之后开始记录。在任一种情况下，都没有在初始时为系统提供关于实际是谁说出话语的信息。对于本发明，也不要求用户说预定义的词组，例如密码。假定每个采集到的话语包含单个说话人的语音段。换句话说，可以惟一判定每个话语的属性只来自一个说话人。

一旦系统已经根据预定义准则采集了足够的数据，批量学习包括根据由预定义准则定义的说话人特性进行语音数据的盲聚类。该步骤之后可选择性的使用自标记数据训练特定说话人的模型。这种批量学习技术在系统需要以无人管理的方式开始时使用。此外能够以“增量学习”的形式使用根据本发明的后台学习技术。这包括增加新用户到当前系统或采集新语音数据来修改以前的说话人模型。系统执行预验证，确定新采集数据是否属于已经识别的说话人。如果是，则选择性的使用数据来修改以前的说话人模型。否则对数据进行盲聚类，从而产生新的说话人模型。

以这种方式避开了麻烦的准确性/注册的折衷，因此减少了用户的工作。

应该提到的是，US5,862,519描述了一种说话人识别/验证系统使用的语音盲聚类方法。在该系统中，使用盲聚类自动将话语，典型是密码，分成子词单元。在已知的系统中，使用盲分割将未知的密码词组根据一致性属性分成子词单元，其中分割边界是未知的。密码词组来自用户说话人。这意味着说话人对系统来说是已知的，实际上是在训练系统。在根据本发明的系统中，使用盲聚类将同一说话人的话语聚集在一起，其中话语是几个说话人话语池的一部分。收集的话语盲分割成几个与说话人相关的群集。在聚类期间没有关于说话人的先验知识。

根据本发明的一个实施例，在后台为每个接收的话语创建一个模型。还将每个话语与所有这样的模型比较。这得到每个话语的似然向量。通过使用基于似然性的等级替换似然性来增加辨别力。因为人们发现等级向量涉及相同说话人的话语时等级向量之间的距离小于等级向量涉及不同说话人话语时的距离，所以等级向量之间的距离构成了区分不同说话人话语的一般准则。根据这个准则来聚类话语。为每个群集创建一个模型。假定该模型是一个说话人特有的。可以看出，当等级是高似然性赋给高等级值时，相同的说话人话语具有最小的等级向量距离。合适的似然向量元素等级形成良好的辨别力。

根据本发明的另一个实施例，在基于每个群集的预期话语数量的等级中使用一个阈值。这有助于聚类过程。

根据本发明的又一个实施例，用户能够使用他/她的声音进行注册。自动确定最可能的模型并存储该模型的用户标识，使注册快速而简单。

根据本发明的再一个实施例，在注册期间测试是否已经充分训练了模型。如果没有，接收一些其它的话语，使部分完成的模型适应新的话语。这样注册与必须从零开始相比也是快的。

根据本发明的再一个实施例，如果在能够以足够的置信度识别说话人的意义上充分训练了模型，则停止盲聚类。

根据本发明的再一个实施例，一旦已经充分训练了模型，就自动请求说话人明确说明其身份，因此从那时起能够自动识别说话人。以这种方式，说话人甚至不需要主动注册。

如本发明的再一个实施例中所定义的，说话人识别导致自动获取与CE设备交互的个人配置文件。这使得能够以极其用户友好的方式个性化使用CE设备。

附图说明

本发明的这些和其它方面将会参考附图进行说明。

图1显示了根据本发明的说话人识别系统的框图；

图2说明了似然向量的辨别力；

图3显示了盲聚类的框图；

图4说明了话语聚类效率；

图5显示了系统的说话人识别性能；以及

图6显示了说话人识别在语音控制系统中的使用。

具体实施方式

图1显示了根据本发明的说话人识别系统的框图。系统包括在时间上连续执行的三个主要单元：后台学习110、说话人注册120和说话人识别130。后台学习包括语音数据采集112，然后是根据说话人特征对语音话语的盲聚类。盲话语聚类的目标是在没有关于说话人身份或甚至没有关于说话人群体大小的初始信息可用时将未知话语分组。下面将描述该部分的细节。一旦产生群集，说话人模型116确保了这些群集中每一个中的话语用于训练各自属于一个可能说话人的模型。模型最好使用传统的高斯混合模型(GMM)技术训练，其中一组M个的群集由GMM的{λ₁ ^c，λ₂₁ ^c，...，λ_M ^c}表示。熟悉该领域的人会意识到还可以使用在语音处理领域中通常已知的其它模型。因为这种模型通常是已知的，所以就不给出特定模型的细节了。用于实现本发明的硬件在本质上是传统的，例如微处理器或装载了合适软件的DSP，可以选用获取语音的A/D转换器和麦克风。软件可以是嵌入式的，例如存储在ROM中，或从例如硬盘或CD-ROM等后台存储器或通过因特网等网络载入。

因为后台学习是以无人管理方式完成的，所以不存在哪个模型与哪个说话人相关的信息。为了执行后面实际识别实际说话人的说话人识别，希望为每个模型标记其对应的说话人身份，如单元122中所示。这可以在说话人进行正式的注册时完成。在这个阶段，系统要求每个说话人提供少量的注册数据，例如只提供一个任意的话语y。系统根据这个注册话语分配最适当模型给说话人。换句话说，说话人通过他/她的声音“选定”一个说话人模型。为了达到这一点，最好是使用最大似然判定规则，从而选择最可能的说话人模型。系统判定说话人S_i的模型要满足

λ_{i}^{S} = \arg \max_{1 \leq j \leq M} p (y | λ_{j}^{C}) - - - (1)

要意识到对于某些应用，不必知道说话人的正确身份。能够区分说话人就足够了。因而单元120是可选的。如果没有进行注册，只通过一个与每个各自的说话人模型关联的数字就能识别说话人。

在单元130显示的识别中，单元132中的系统将未知的测试话语作为输入，产生的输出是假定说话人的身份，满足

\hat{S} = \arg \max_{1 \leq k \leq Q} p (z | λ_{k}^{S}) - - - (2)

其中Q是用户数量。这意味着获得了与最可能的说话人模型关联的说话人身份。

话语聚类提示

令{x₁，x₂，...，x_N}表示P个周围说话人{S₁，S₂，...，S_P}的一组N个语音话语，其中N＞P，P可以是预先未知的。话语聚类的目标是将话语划分成一组M个群集，使得一个群集中的所有话语最好是只来自一个说话人。理想情况是M＝P，使得能够将特定群集中的所有话语分到一个群集中。为此，先决条件是识别各个话语都具有的说话人特征的有关方面，从而得到一些在同一说话人的话语之间差别小、在不同说话人的话语之间差别大的度量。根据高斯混合分类器在与文本无关的说话人识别中的成功执行，发明者已经认识到也能够使用由话语形成的高斯混合模型(GMM)来描述与说话人身份对应的声学间隔的特征，而不是口语信息的特征。为了提高这样做的效率，首先将语音话语从数字波形表示转换成特征向量流，将这些话语中的每一个依次按高斯混合密度建模。这种建模是众所周知的，这里就不详细描述了。令{λ₁ ^U，λ₂₁ ^U，...，λ_N ^U}表示由N个话语形成的GMM的参数集合。接下来，按照

L_{ij} = \log p (x_{i} | λ_{j}^{U}),

1≤i，j≤N计算每个话语x_i对于各个模型λ_j ^U的似然性。实验表明当话语和测试模型与同一个说话人关联时似然性通常较大，否则较小，即

如果S(x_i)＝S(x_j)且S(x_i)≠S(x_k)，则L_ij＞L_ik (3)

其中S(x_i)是x_i的说话人属性。但是该准则不是始终有效的。为了获得更为可靠的划分语音话语的提示，最好是使用如下另外定义的等级机制。

令L_i＝[L_i1 L_i2...L_iN]^T表示N维向量。人们已经发现，当x_i和x_j属于同一个说话人时，L_i和L_j在某种意义上是非常“相似的”，否则是“不相似的”。为了说明这一点，图2中显示了模型似然性的灰度级表示，其中分析了来自三个说话人的九句话语(每个说话人三句话语)。九句话语是垂直显示的，九个模型是水平显示的。可以看出，来自同一个说话人的话语比来自不同说话人的话语具有更为相似的“似然图案”。因此可以使用似然向量之间的“相异”度量作为聚类期间的准则。理想情况下，如果随机模型λ能够捕捉到说话人声音最重要的特征，则L_ij的值在x_i和x_j与同一个说话人相关时大，否则为小。但是实际上很难对所有Speaker(x_i)＝Speaker(x_j)且SPeaker(x_i)≠Speaker(x_k)保证L_ij＞L_ik。举图2中显示的例子来说，x₁和x₂是由同一个说话人产生的，而x₈来自另一个说话人；不幸的是，在这种情况下L₁₈＞L₁₂。因此，只根据单一模型似然性确定两个话语是否属于同一个说话人是不可靠的。为了减轻这个问题，要通过考虑成对话语而不是单个模型似然性来度量两个话语之间的相似性。基本原则根据似然图案的目视检查来构造。

如图2所示，一般的特性是，当话语x_i和x_j属于同一种口语时两个向量L_i和L_j在某种意义上比较“相似”，否则是“相异的”。但是问题是如何描述这种目视特性的特征。由于似然性的动态范围非常大这一事实，直接使用两个L向量的欧式距离来度量话语对距离是不恰当的。例如，假设话语y₁和y₂由同一个说话人说出，y₃是另一个说话人的。得到的L向量可能如下(使用对数似然)：

L₁＝[L₁₁ L₁₂ L₁₃]^T＝[-1000 -1111 -3222]^T

L₂＝[L₂₁ L₂₂ L₂₃]^T＝[-5111 -4000 -8222]^T

L₃＝[L₃₁ L₃₂ L₃₃]^T＝[-900 -800 -300]^T

虽然L₁₂＞L₁₃且L₂₁＞L₂₃，但||L₁-L₂||＞||L₁-L₃||。

下面更为详细描述的聚类语音话语的首选方法克服了这些问题。

话语聚类过程

首先，对于每个话语x_i，根据较大的等级值分配较高的优先权的原则将其模型似然性L_ij分级，1≤j≤N。似然性L_ij的等级是相对于似然向量L_i其它元素的似然性的。因此用于训练话语x_i的似然向量L_i得到对应的等级向量F_i。在优选实施方案中，计算中间等级向量R_i，其中向量元素值R_ij是根据相对于似然向量L_i其它元素似然性的似然性L_ij从整数1到N中选择的。在优选实施方案中，当

k = \arg \max_{j} L_{ij}

时R_ik＝1，当

k = \arg \min_{j} L_{ij}

时R_ik＝N。正常情况下每个等级值只使用一次，是从1到N分配的。根据这个中间等级向量，每个话语x_i的实际等级向量F_i＝[F_i1，F_i2...，F_iN]^T定义为F_ij＝1/R_ij。

通过增加辨别力能达到更大的提高：

其中η是表示每个群集预期话语数量的整数。

以这种方式进行，可以得到区分不同说话人话语的一般准则，

如果S(x_i)＝S(x_j)且S(x_i)≠S(x_k)，则D(F_i，F_j)＜D(F_i，F_k)

(5)

其中D(F_i，F_j)是适合F_i和F_j的距离度量。

参照上面给出的例子，对应的等级向量是：

F₁＝[1 1/2 1/3]^T

F₂＝[1/2 1 1/3]^T

F₃＝[1/3 1/2 1]^T

在该例中，η＝3。这使得||F₁-F₂||＝0.5、||F₁-F₃||＝0.89、||F₂-F₃||＝0.72。显然y₁和y₂是最接近的一对。

使用阀值说明的事实是只有较大的模型似然性对于阐明具有相同的真正说话人身份的一句话语及其匹配话语之间的关系是有用的。图2显示的例子用来说明这一点。该例的中间等级矩阵R_ij是

x₁	1	4	2	9	6	8	7	3	5
x₁	1	4	2	9	6	8	7	3	5	x₂	2	1	3	9	8	6	7	4	5
x₃	2	4	1	9	7	8	6	3	5	x₂	2	1	3	9	8	6	7	4	5
x₃	2	4	1	9	7	8	6	3	5	x₄	5	9	8	1	3	2	7	4	6
x₅	5	9	6	4	1	2	8	3	7	x₄	5	9	8	1	3	2	7	4	6
x₅	5	9	6	4	1	2	8	3	7	x₆	5	9	8	3	2	1	7	4	6
x₇	4	8	5	9	6	7	1	3	2	x₆	5	9	8	3	2	1	7	4	6
x₇	4	8	5	9	6	7	1	3	2	x₈	4	8	5	9	6	7	3	1	2
x₉	4	8	5	9	6	7	2	3	1	x₈	4	8	5	9	6	7	3	1	2

创建等级矩阵F_ij(η＝3)，得到

x₁	1	1/2	0	0	0	1/3	0
x₁	1	1/2	0	0	0	1/3	0	x₂	1/2	1	1/3	0	0	0	0	0	0
x₃	1/2	1	0	0	0	1/3	0	x₂	1/2	1	1/3	0	0	0	0	0	0
x₃	1/2	1	0	0	0	1/3	0	x₄	0	0	0	1	1/3	1/2	0	0	0
x₅	0	0	1	1/2	0	1/3	0	x₄	0	0	0	1	1/3	1/2	0	0	0
x₅	0	0	1	1/2	0	1/3	0	x₆	0	0	0	1/3	1/2	1	0	0	0
x₇	0	0	0	0	1	1/3	1/2	x₆	0	0	0	1/3	1/2	1	0	0	0
x₇	0	0	0	0	1	1/3	1/2	x₈	0	0	0	0	0	0	1/3	1	1/2
x₉	0	0	0	0	1/2	1/3	1	x₈	0	0	0	0	0	0	1/3	1	1/2

计算两两距离||F_i-F_j||，得到：

	x₁	x₂	x₃	x₄	x₅	x₆	x₇	x₈	x₉
	x₁	x₂	x₃	x₄	x₅	x₆	x₇	x₈	x₉	x₁	1.39	0.5	2.72	2.5	2.72	2.5	3.05	2.58
x₂			1.56	2.72	2.61	2.72	2.72	2.72	2.72	x₁	1.39	0.5	2.72	2.5	2.72	2.5	3.05	2.58
x₂			1.56	2.72	2.61	2.72	2.72	2.72	2.72	x₃			2.72	2.61	2.72	2.61	2.05	2.5
x₄					1.56	2.72	2.72	2.72	2.72	x₃			2.72	2.61	2.72	2.61	2.05	2.5
x₄					1.56	2.72	2.72	2.72	2.72	x₅					0.72	2.5	2.05	2.5
x₆							2.72	2.72	2.72	x₅					0.72	2.5	2.05	2.5
x₆							2.72	2.72	2.72	x₇							0.89	0.5
x₈									0.72	x₇							0.89	0.5
x₈									0.72	x₉

这再次清楚的说明了当Speaker(x_i)＝Speaker(x_j)且Speaker(x_i)≠Speaker(x_k)时||F_i-F_j||＜||F_i-F_k||的属性。η的实际值根据采集数据的数量凭经验确定。

根据等级向量之间距离的准则，说话人话语的盲聚类可以作为传统的向量聚类问题来计算。熟悉本领域的人可以使用所有适合的聚类算法。例如，可以使用很完善的k均值聚类算法来计算。但是为了防止在该应用中可能发生的空分类这一让人为难的情况，最好是使用按如下修改的k均值算法：

步骤1：初始化。设聚类数量k＝2。任意选择一个向量，如F_i，代表群集C₁。然后(根据所选择的距离度量，例如欧式距离)选择距离F_i最远的向量代表群集C₂。

步骤2：搜索最近邻域。对于每个向量F_j，在各个群集的代表中查找一个距离F_j最近的，然后将F_j分配给与最近的代表关联的对应群集。

步骤3：分割。对于所有群集，查找与所属群集的代表最远的向量。然后该向量成为一个新群集的代表。设k＝k+1。

步骤4：迭代步骤2和3直到k＝M。

图3显示了根据本发明的盲话语聚类的框图。在单元310、312、......、318中，为每个话语x_i创建对应的模型λ_i ^U。在单元320中，为每个话语x_i计算各个模型的话语的似然性。这得到每个话语一个似然向量L_i＝[L_i1 L_i2...L_iN]^T。在单元332到338中，根据各个话语x_i的似然向量L_i的元素相对似然性计算其各自的等级向量F_i＝{F_i1，F_i2...，F_iN]^T。在单元340中，根据话语等级向量之间的距离准则聚类话语x_i。

试验结果

语音数据库

用于测试根据本发明的系统的数据库包括由100个说话人(50个男性和50个女性)说出的5000句话语。每个说话人说50句话语，分三段时间记录。这些话语持续时间的范围从2到5秒。全部100个说话人作为用户，即P＝Q＝100。将数据库进一步划分成三个子集，分别表示为DB-1、DB-2和DB-3。第一个字集DB-1包括每个说话人的20句话语(大约对应于80秒的总持续时间)，作为离线采集的数据。第二个子集DB-2包括没有包括在DB-1中语音段的截然不同的10句话语。DB-2中的每句话语用作用户的注册数据。第三个子集DB-3包括剩余的20句话语，作为说话人ID试验的测试集合。所有的话语是在相对安静的环境中记录的，采样频率22.05kHz，精度为16位。然后为每一个带有10ms帧偏移的20ms汉明窗帧提取包括21个MFCC(没有使用第0个系数)的语音特征。

群集评估

由于说话人识别(ID)系统的效率严重依赖于离线采集的话语聚类有多好，所以有必要在执行说话人ID试验之前评估话语聚类方法的效率。分类质量使用群集纯度来度量。纯度是描述一个群集中的所有话语来自同一个说话人的程度的量。对于群集m，纯度定义为：

p_{m} = \frac{1}{n_{m}^{2}} Σ_{k = 1}^{n_{m}} n_{mk}^{2} - - - (6)

其中n_m是群集m中的话语数量，n_mk是群集m中由说话人S_k所讲的话语数量。计算这个度量需要知道每个话语的真正属性。聚类方法的总效率通过平均纯度来评估

\overset{&OverBar;}{p} = \frac{1}{N} Σ_{k = 1}^{P} p_{m} n_{m} - - - (7)

对DB-1进行计算机模拟来检查盲话语聚类。运行中每个话语的高斯混合数量从2变化到8，参数η在整个试验过程中设置为(N/M)。图4显示了平均纯度与使用的群集数的关系曲线。当群集数等于说话人群体大小(M＝P＝100)时，得到平均纯度0.86。纯度随着群集数的增加而增加。当使用了700个群集时能够最佳的分割来自不同说话人的话语。该结果也说明对所使用的每话语混合数量是不敏感的。后来聚类结果是通过使用每话语4个混合来执行说话人ID试验而得到的。

说话人ID试验

首先，评估以传统的有人监督方式工作的初始系统来用于性能比较。这里进行了两组试验，观察相对于不同训练数据量的系统性能。在第一组试验中，使用DB-1中的每说话人20句话语连同真正的说话人属性一起训练特定说话人的模型。随后依次使用DB-3中的每说话人20句话语测试系统，然后按所有测试话语中正确识别的话语的百分比来计算说话人ID准确度。另外相对于从2到32变化的不同的每说话人模型的高斯混合密度来计算说话人ID准确度。在第二组试验中，使用从DB-2中选择的一句话语训练各个说话人模型。

该试验设置可以看作是在使用稀疏数据训练说话人模型。此外，为了获得统计上有效的结果，DB-2中每个不同的话语只选择一次，相同的试验进行十次。最后计算平均说话人ID准确度。下表给出了使用了两组试验结果的说话人ID准确度。可以看出，基于GMM有人监督训练的传统说话人ID系统在使用了大量注册数据时执行的非常好，而在只使用了稀疏注册数据时性能大幅下降。表中的数据还说明了基于我们提出的无人监督学习的说话人ID的上限和下限性能。

训练数据	混合数量
训练数据	混合数量						2	4	8	16	32
每说话人20句话语	94.1％	97.6％	99.4％	99.9％	99.8％		2	4	8	16	32
每说话人20句话语	94.1％	97.6％	99.4％	99.9％	99.8％	每说话人一句话语	55.6％	57.1％	51.4％	43.3％	40.1％

接下来进行试验测试根据本发明的说话人ID系统的有效性。将后台学习应用到说话人ID问题的第一步是确定标识不同说话人所需的适当群集数。如前面提到的，使用的群集数越高，得到的纯度就越高。但是大量群集的缺点是要在训练说话人模型中使用稀疏数据。因为这个原因，要进行下面的试验观察关于使用的群集数和每说话人模型的混合数对说话人ID性能的影响。此外，为了获得在统计上有效的结果，进行十次使用从DB2中选择的每个说话人截然不同的注册话语的试验，然后计算平均说话人ID准确度。图5总结了说话人ID结果。使用150个群集以及每个说话人模型4次混合达到最好的说话人ID准确度95.6％。当增加群集数时，说话人ID准确度逐渐减少。结果表明可以选择适当的群集数来轻微增大说话人的群体大小(如果预先已知的话)。最好是同一个说话人的话语占用一个以上的群集，而不是不同说话人的话语分到相同的群集中。与上面表格中的结果相比，显然通过说话人声音的后台学习能够大大提高使用稀疏注册数据的说话人ID的性能。结果还说明所提出的无人监督学习能够比得上传统的说话人ID的有人监督学习。

后台学习方法简化了对说话人识别的使用，因此为在更多CE系统中使用说话人识别开辟了道路。与传统说话人ID不同，根据本发明的后台学习方法不依靠于用户显式注册和训练系统来构造特定说话人模型，而是试图通过以无人监督的方式对离线采集的语音信号进行聚类和参数模型化来学习说话人的声音。这消除了对注册大量用户语音数据的需要。如上所述，为了准备要使用的系统，需要下列两个步骤：

根据描述的算法执行离线语音话语的盲聚类

如上面对图1单元122描述的一样执行说话人标记。在下面给出的例子中，对用户使用个人方法。因此需要用户的个人信息，例如用户的名字。对于某些应用它足以区分不同用户，从而不需要增加个人信息。

除用于说话人识别的传统注册之外，根据本发明的系统允许两种新的注册方式，取决于采集到的采集说话人数据的数量。第一个是由系统产生的自动注册过程。这可以称作“老朋友问候式的注册”。情形如下：

当系统已经运行了一段时间时(例如使用说话人无关的声控或只在后台采集说话人数据)，系统自动采集用户的话语，使用描述的后台学习方法构造说话人模型。

如果在某一时刻说话人中的一个通过置信度量(即一句话语(例如用于控制系统的声音命令)的似然性与模型之一相比已经超过了预定义的阀值)，系统就提供自动注册。这可以采取老朋友问候的形式，其中系统可以使用预先录制的信息或语音合成，说“嗨，我亲爱的朋友。我再次听到了你熟悉的声音，你能告诉我你的名字吗？”

在注册之后，系统能够通过他/她的声音识别说话人。

系统能够以适当的形式存储与标识说话人的语音模型关联的个人信息。例如，说话人可以通过说出他/她的名字来提供个人信息。系统可以以描述语音的形式存储这个名字。下次同一个说话人对系统说话时，系统可以重建所记录的语音，如果需要的话可以使用语音合成技术，使记录的名字听起来在某种意义上对于系统是标准的。系统还可以使用语音识别技术来识别名字，并以文本等形式存储识别出的描述。系统还可以要求用户键入名字并存储该文本描述。

如果在首次需要说话人识别的时候没有足够的训练数据可用时则执行第二种形式的注册。系统将要求用户说出更多的话语。需要的输入话语数量取决于已经采集的数据。一旦已经达到足够的置信等级，就可以使用任何合适的模型适应算法来执行说话人模型适应。这种形式的注册可以看作是“通过适应的轻松注册”。用户只需要说出一些适应数据来构造说话人模型。与传统方法相比这种形式的注册花费的时间更少。

个人化和交互式声控系统

在传统声控系统中，个人化和交互式特征没有很好的与声控功能性结合。正常情况下，用户能够通过声控设备，而同一时刻用户可能忙于作其它事情。例如，通过声音命令“ON”能够打开电视。在传统声控系统中没有提供在打开设备时自动将电视机调整到个人默认的节目或其它个人设置。对于有效的个人用户界面，希望能自动识别说话人。根据本发明的说话人识别技术能够有效的用于这一目的，因此使声控系统具有新特征。例如，当父亲大卫打开电视时，默认将频道转到“体育”，根据其配置文件这是其喜欢的频道。当2岁大的孩子汤姆通过声音打开电视时，可以自动选择“迪斯尼”频道。这个特性使设备更加友好。特别是对于非常小的儿童，这还使得能够在无人帮助的情况下控制设备。最好是父亲能够改变孩子的配置文件。结合说话人识别技术，声控系统能够以不同的方式响应不同的用户。图6显示了组合语音/说话人识别系统的框图。语音输入610发送到语音识别算法620和说话人识别算法630，语音识别算法620可以对要识别的声音命令进行优化。识别算法最好并行运行，但顺序运行也可以接受。识别算法产生输出640，是识别出的内容(例如声音命令)和说话人的身份。根据本发明，使用相同的话语来识别声音命令和识别说话人。然后以说话人相关的方式执行识别出的命令。

说话人识别也能够方便的用于验证是否允许一个人操作设备(例如使用移动电话)或执行某些操作，如观看成人频道。在个人化和交互式声控系统中，通过分析声控设备的程序记录能够自动建立个人配置文件和内容。配置文件描述用户关于声控系统的习惯。系统能够使用配置文件提供默认的用户节目/设置或象一个知道用户习惯的朋友一样提供有益的建议。

如上描述的说话人识别的应用能够用来与根据本发明的识别系统的后台训练结合，使系统对用户更加友好。要理解的是，如果识别系统是以不同方式训练的，也能够使用同一个应用。

Claims

1.一种自动识别说话人的方法，该方法包括：

识别说话人，通过：

接收说话人的测试话语；

确定大量说话人模型中对于测试话语最可能的一个；以及

认定与最可能的说话人模型关联的说话人为测试话语的说话人；

其中该方法包括在后台产生大量说话人模型，通过：

在没有说出各自训练话语的说话人先验知识的情况下，在后台接收大量说话人的训练话语；

根据预定义的准则对训练话语进行盲聚类；以及

为每一个群集训练一个对应的说话人模型；每个模型表示一个说话人。

2.如权利要求1中要求的方法，其中根据预定义准则对训练话语x_i，其中i＜N，进行盲聚类的步骤包括：

按照对应的模型λj模型化每一个相应的训练话语x_i；

为每一个训练话语x_i计算一个相应的似然向量L_i，其中每个向量元素L_ij表示训练话语x_i对于各个模型λ_j的似然性，其中1≤j≤N；

为每个训练话语x_i计算对应的等级向量F_i，其中为等级向量F_i中的每一个元素F_ij分配一个等级值，该等级值表示对应似然性L_ij与似然向量L_i中其它元素相比的等级，这样较高的等级值F_ij反映较高的似然值L_ij；

聚类训练话语x_i，依据的准则是F_i和F_j之间的距离度量最小表示训练话语x_i和x_j来自同一个说话人。

3.如权利要求2中要求的方法，其中等级是这样的，似然向量L_i的似然值最小的η个元素L_ij由等级向量F_i的对应元素F_ij的截然不同的值表示，并且似然向量L_i的剩余N-η个元素由等级向量F_i的对应元素F_ij的相同预定义等级值表示，其中η表示每个群集希望的训练话语数量，并且预定义的等级值低于η个截然不同的等级值中的任一个。

4.如权利要求1中要求的方法，其中方法包括：

接收说话人的注册话语；

确定大量说话人模型中对于注册话语最可能的一个；

接收说话人的识别信息；以及

存储与最可能的说话人模型关联的识别信息。

5.如权利要求4中要求的方法，其中方法包括：

验证最可能的说话人模型的似然性是否高于预定义阈值；以及

如果似然性低于预定义阈值，就请求说话人添加话语，并且重复地

接收添加话语；

使用添加话语适应最可能的说话人模型；以及

确定适应后的说话人模型的似然性；

直到似然性高于预定义阈值。

6.如权利要求1中要求的方法，其中重复执行记录训练话语、盲聚类话语和训练说话人模型的步骤，直到已经达到预定义的置信等级。

7.如权利要求6中要求的方法，其中作为对达到预定义置信等级的响应，自动请求说话人提供识别说话人的信息，随后接收识别信息并与最可能的说话人模型相关联来存储识别信息。

8.如权利要求1中要求的方法，其中该方法包括自动获取与CE设备交互的个人配置文件，以作为对已经识别出说话人的响应。

9.如权利要求1中要求的方法，其中该方法包括识别用于标识说话人的测试话语，以作为声音命令；以及以说话人相关的方式执行识别出的声音命令。

10.一种自动识别说话人的系统，该系统包括：

一个说话人识别器，用于识别说话人，通过：

接收说话人的测试话语；

确定大量说话人模型中对于测试话语最可能的一个；以及

认定与最可能的说话人模型关联的说话人为测试话语的说话人；以及

一个说话人模型生成器，用于生成大量说话人模型，

其中说话人模型生成器用于在后台生成大量说话人模型，通过：

根据预定义的准则盲聚类训练话语；以及