CN100377209C

CN100377209C - 说话者识别系统

Info

Publication number: CN100377209C
Application number: CNB02816220XA
Authority: CN
Inventors: 安德鲁·托马斯·萨佩利克
Original assignee: SECURIVOX Ltd
Current assignee: SECURIVOX Ltd
Priority date: 2001-06-19
Filing date: 2002-06-13
Publication date: 2008-03-26
Anticipated expiration: 2022-06-13
Also published as: US20040236573A1; EP1399915B1; CA2451401A1; AU2002311452B2; EP1399915A2; CN1543641A; WO2002103680A3; ATE426234T1; DE60231617D1; WO2002103680A2

Abstract

说话者识别(验证和/或辨别)方法和系统，其中登记说话者的语音模型由表示多个帧中每一个的平滑频谱的特征矢量集合组成并且将聚类算法用于帧的特征矢量以得到表示原始语音采样的减小的数据集合，且其中相邻帧至少重叠80%。这种类型的语音模型将语音采样的静态分量建模并显示出时间独立性。使用了其中进行建模和分类处理选择的辨别者策略以给出实质上等于零的误拒绝率。每一个登记的说话者与其他预定个数的登记说话者的群组相关并且测试采样始终或者与要求的身份或者与其相关群组之一匹配。这使得系统的整个错误率只取决于由群组大小确定的误接受率。使用多并行建模和/或分类处理进一步减小了错误率。在分类之前利用源自或者测试语音采样或者登记说话者采样之一(最优选地是要求身份的登记采样)的归一化模型对语音模型进行归一化。

Description

说话者识别系统

技术领域

本发明涉及一种用于执行说话者识别的系统、方法以及装置。

背景技术

说话者识别包括说话者验证和说话者辨别的相关领域。其主要目的是从他/她的话音确认说话者要求的身份，这叫做验证，或者是从他/她的话音识别说话者，这叫做辨别。这两种均使用了人的语音作为生物测定测量并推测话音和产生该话音的人之间的唯一关系。这种唯一关系使得验证和辨别成为可能。说话者识别技术分析测试话音并将其与已知的模板或模型进行比较以用于被辨别或验证的人。该系统的效率取决于处理中使用算法的质量。

说话者识别系统有多种应用。根据本发明的另一个方面，对于每一个浏览或编辑内容的人，可以将说话者识别系统用于利用生物测定印刷对电子文件进行永久性标记。这样就生成了识别每一个用户及其进入和修改时间的审查痕迹。由于用户标记是生物测定的，因此很难怀疑用户标记的真实性。

另一些生物测定测量法提供了可能的识别系统的基础，诸如虹膜扫描、指纹印刷以及面部特征。尽管可以利用诸如电话线之类任意进行或使用标准的没有进行改进的多媒体个人计算机进行语音输入说话者识别，但这些措施均需要附加用于记录的硬件。为了提高安全性，这些技术可以与其他安全措施和其他生物测定法结合使用。从用户的角度出发，系统的操作应该非常简单。

例如，当需要在线文件时，要求请求文件的人给出其语音采样。这可以通过客户软件的简单提示“please say this phrase......”或类似来进行。接着将话音短语经任意诸如因特网之类的数据网络发送到数据库服务器或语音识别服务器以使其与文件关联，并作为在特殊时刻激活文件的钥匙存储。由此可以生成用于文件的永久记录，并随着时间流逝而提供用于该文件的审查痕迹。说话者鉴定服务器可以保留用于所有当前登记的人和先前登记人的历史记录的模板(模型)集合。

说话者识别系统依赖于从个人语音中提取的某些独特特征。这依赖于轮流使用声音道和鼻音道产生的人类说话方式。出于实际目的，可以将声音束和鼻音束看作是两个可以用与乐器类似的方式共鸣的相连管道。产生的共鸣取决于管道的直径和长度。在人类的语音产生机制中，可以利用话音器官来改进管道截面的直径并延长其长度，典型的位置为舌、颔、唇和软腭(膜)。将这些频谱的共鸣称作共振频率。通常在典型的语音谱中有四种共振频率。

当使用乐器时，只有当振动或湍流产生气流压缩时才会产生声音。在人类说话时，当声门(声带)产生压缩时产生主要的振动。当发生这种情况时就产生了语音，典型地听起来为类元音。当口腔中有舌或牙齿引起的压缩时，就产生了湍流(嘶嘶型声音)，且将产生的语音称为摩擦音，以“s”、“sh”以及“th”等为代表。从工程的角度出发，这与加到具有声音道和鼻音道的通常特性(即相同的共鸣)且结果输出信号为语声的滤波器的源信号(压缩的结果)相类似。真实的语音由动态变化的发声器官位置产生。

所有现有的说话者识别系统执行类似的计算步骤。通过为登记的说话者创建模板或模型来进行操作。利用两个应用于语音采样的主要步骤来创建该模型，即谱分析和统计分析。利用与说话者登记时期相同的方式对输入采样(测试话音)建模以及输入模型与登记说话者数据库的模式/分类匹配来执行对输入语音采样随后的识别。当执行所有这些步骤或其中某些步骤时，现有系统的方法会有所不同。在传统(工业标准)系统中，谱分析为线性预测编码(LPC)/倒谱分析(“LPCC”)或FFT/子带。这之后为统计分析技术，通常为隐马尔可夫模型(HMM)技术，并且其分类步骤是将对要求说话者模型和对“冒充者群组”或“世界模型”(worldmodel)(即其他说话者集合)的匹配相结合。

为了使语音采样的处理更有效率，所有的说话者识别系统均使用被称为帧的时间片断，其中将话音分为若干帧并依次对各帧进行处理。各个帧的大小可以相等或不相等，且可以重叠或不重叠。附图的图1所示为被分为帧的语音话音的典型时域信号表示的例子。图2所示为框图形式的一种普通的说话者识别系统，该系统表示了在产生关于说话者身份(辨别)或说话者要求身份的真实性(验证)的决策之前，将测试话音经输入滤波器10、谱分析(LPCC)级12和统计分析(HMM)级14，随后经分数归一化及说话者分类16、设置阈值和使用说话者模型数据库18(被登记说话者数据集合)进行处理。

这种系统有很多缺点和局限。首先，传统的谱分析生成了有限且不完整的特征集合并因此造成低水平的建模。其次，HMM技术是一种“黑盒子”技术，这种技术将优良性能与相对易于使用相结合，但却以牺牲透明度为代价。该技术提取的相对重要特征对于设计者来说是不可见的。第三，HMM模型本质上不允许有效地进行模型与模型的比较。因此，不能有效地分析并使用包含于登记说话者数据集合中的重要结构细节以提高系统的性能。第四，HMM技术采用时间性信息构造模型，因此易受通过暂时改变音调等来模仿他人语音的伪装者攻击。第五，要求的说话者不能容易地出于测试话音的目的优化系统使用的世界模型/冒充群组。

说话者识别系统的性能依赖于当为用户产生分数的模型测试真实的说话者话音时，其分数低于用相同模型测试冒充者话音时产生的分数这一事实。这允许设置接受/拒绝阈值。对真正说话者进行连续测试不会产生相同的分数。而是这些分数会构成一个统计分布。不过，真实说话者分布的均值会相当程度地低于用相同模型测试的冒充者分布的均值。如图3所示，其中画出了用于八个说话者中每一个的25个分数，说话者1为真正的说话者。从图3中可以看出某些说话者的分数与其他人相比接近于真正的说话者，这会产生问题。

发明内容

本发明涉及一种改进的说话者识别方法和系统，该方法和系统与传统系统相比提供了改进的性能。在不同方面，本发明提供的改进包括但不限于：改进的谱分析、统计分析的透明化、改进的建模、允许分析和使用数据集合结构以提高系统性能的比较模型、改进的分类方法以及使用统计独立/部分独立并行处理以提高系统性能。

本发明进一步包括用于实现本发明方法和系统的计算机程序、利用这种程序编码的数据载体以及存储介质、用于执行该方法和系统的数据处理装置和系统以及采用了该方法和系统的数据处理系统和装置。

具体地，根据本发明第一方面，提供了一种使用群组的说话者识别方法，所述群组包括多个说话者中的每一个的登记模型所述方法包括：捕获步骤，捕获来自要求成为登记的说话者之一的说话者的测试语音采样；建模步骤，建模测试采样，以便提供测试模型；以及分类步骤，通过将测试模型始终与群组的登记模型之一匹配来分类测试模型，从而由群组的大小决定测试采样的误接受率；其中，通过执行建模和/或分类步骤使测试采样的误拒绝率为零。

根据本发明第二方面，提供了一种使用群组的说话者识别系统，所述群组包括多个说话者中的每个的登记模型，所述系统包括：捕获装置，用于捕获来自要求成为登记的说话者之一的说话者的测试语音采样；建模装置，用于建模测试采样，以便提供测试模型；以及分类装置，用于通过将测试模型始终与群组的登记模型之一匹配来分类测试模型，从而由群组的大小决定测试模型的误接受率；其中，利用建模装置和/或分类装置使测试采样的误拒绝率为零。

附图说明

现在参考附图，仅以例子的方式对本发明的实施例进行说明，其中：

图1所示为被分为帧的语音话音例子的时域信号表示；

图2所示为一种普通的现有技术说话者识别系统框图；

图3所示为与其中一个说话者相比的多个被测试说话者的说话者识别分数分布图，该图通过传统的说话者识别系统得到；

图4所示为本发明第一实施例的示意框图；

图5所示为本发明第二实施例的示意框图；

图6所示为本发明第三实施例的示意框图；

图7所示为根据本发明说话者识别系统的另一个实施例示意框图；

图8(a)所示为被分为帧的语音话音例子的时域信号表示以及图8(b)所示为其中一帧对应的频谱和平滑频谱；

图9所示为两个未对准的帧之间频谱之差；

图10所示为与其出现频率相对的累积帧分数的分布；

图11(a)所示为与图3中相同的累积分数分布，用于与表示使用根据本发明说话者识别系统得到的对应累积分数分布的图11(b)进行比较；

图12所示为利用根据本发明系统得到的模型相对于作为实际测试分数的模型比较的结果；

图13所示为根据本发明的系统使用的说话者模型在多维数据空间中的二维表示中的分布；

图14所示为将冒充群组用于根据本发明系统时的使用；

图15所示为根据本发明一个方面的归一化处理的框图；

图16所示为根据本发明宽区域用户鉴定系统的例子框图；

图17所示为在说话者识别系统的输入信道中各种噪声源和信道特性造成的语音信号中断示意框图；

图18和19所示为在说话者识别系统中噪声和信道特性对测试话音和登记模型的影响；以及

图20所示为一种根据本发明一个方面的信道归一化方法。

具体实施方式

为了提供改进的说话者识别(验证和/或辨别)系统，本发明包括可以各种方式结合的多个方面和特征。其中某些方面关系到在说话者登记期间和随后的输入语音采样识别期间语音采样建模的方式。为了实现有关说话者身份的决策，其他方面关系到了输入语音模型的分类方式。还有一方面关系到输入到说话者识别系统的语音信号的归一化(信道归一化)。还有一方面关系到说话者识别系统的应用。

现在参考图4至图6对包含本发明不同方面的系统使用的基本结构进行说明。可以理解输入到此处所述本发明实施例的均为包括语音采样的数字信号，之前已经由适当装置(图中未示出)数字化处理过，且所有涉及的滤波器和其他模块均为数字的。

在图4中，经信道归一化模块200和滤波器24将一语音采样输入到系统中。如下所述，可以不使用这种“前端”归一化或此外，在语音采样处理的后一级再次执行信道归一化。在采样被输入滤波器24之前或特征提取之前的其他位置，将采样分为帧序列。如下所述，在某些实施例中，可以将噪声信号206加到被滤波的信号(或是在滤波器24之前加入)中。将采样数据输入建模(特征提取)模块202，该模块包括谱分析模块26和(至少在处于登记目的处理语音采样数据的情况下)统计分析模块28。从建模模块202输出的模型(特征集合)包括表示输入语音信号平滑频谱的系数集合。在说话者登记期间，将该模型加入说话者登记数据库中(图中未示出)。在输入语音采样识别期间，将模型(特征集合)输入到将该模型(特征集合)与选自说话者登记数据库的模型进行比较的分类模块110中。基于这种比较，在204实现决策以辨别说话者或验证说话者要求的身份。如下更详细所述，输入采样的信道归一化以及噪声信号206的加入包括本发明的方面且为本发明所有实现中的优选特征。在某些实施例中，可以在谱分析26之后或分类过程中应用信道归一化，而不是如图4至6所示在处理之前将其应用于输入语音采样。根据本发明其他方面的建模和分类处理的新颖方面也将在下文中进行详细说明。

本发明的其他方面包括各种类型的用于登记和/或识别的语音采样处理并行机制。

在图5中，如下详细所述，将建模模块202的输出输入多个并行分类处理110a、110b......110n并将多个分类处理的输出相结合以实现最终的决策，除此之外，系统的其他基本操作与图4所示相同。在图6中，如下详细所述，可以经多个滤波器24a、24b......24n(在这种情况下，将噪声信号206表示为加到滤波器24a、24b......24n的输入数据上游中)将输入采样由多并行处理202a、202b......202n(如下所述，典型地提供略有不同的特征提取/建模)进行处理，将多个建模处理的输出输入到分类模块110，除此之外，系统的其他基本操作与图4所示相同。优选地，将这些多并行建模处理应用于采样数据登记和采样数据测试。

还可以将多并行建模处理与多并行分类处理相结合；例如，图5中各个平行分类处理110a-n的输入可以是图6所示多并行建模处理的输出。

现在参考图4至6所示的建模、分类和归一化处理对本发明的不同方面进行更为详细地说明。

建模

谱分析模块26、26a-n使用了与那些传统说话者识别系统中使用的方法相同的谱分析方法。优选地，用于采样数据各个帧的模块26a-n使用的谱分析是一种提取表示此帧平滑频谱特征矢量(系数)集合类型的方法。优选地这种方法包括LPC/倒谱(LPCC)建模、产生以优质谱细节作为模型的增强特征集，还可能包括诸如倒谱增量(delta)或基于加权方案的选择系数加重/去加重之类的各种变化。由诸如快速傅立叶变换(FFT)之类的其他方法或使用滤波器组可以交替得到相似的系数。

对于采样的每一帧来说，用由一行系数组成的矩阵来表示完整的采样。出于本发明优选实施例的目的，这些矩阵各自的阶数大小为1000(帧)×24(系数)。在传统系统中，诸如HMM之类统计分析的目标为表示完整原始信号的该类型单一第一矩阵。

如本领域技术人员所理解的，LP变换可以有效地生成表示各个测试话音帧平滑频谱的滤波器系数集合。LP滤波器系数与Z平面极点相关。倒谱变换具有压缩平滑谱动态范围、利用将LP极点移至靠近Z平面原点位置(远离Z＝e^jω的实频率轴)以去加重LP极点的效果。倒谱变换使用了对数函数(log function)用于此目的。为了得到平滑频谱并使其极点去加重，将其他类似或等效技术用于语音采样的谱分析是可以理解的。这种去加重生成了系数集合，当将此系数变换回时域时，其动态特性更小且平衡性更好(倒谱系数和时间信号或带有去加重极点的LP滤波器的脉冲响应类似)。该对数函数也将乘性处理变换为加性处理。

可以将由语音采样得到的模型看作是基于采样信号频率内容特征矢量的集合。当从信号中提取出基于频率内容的特征矢量时，矢量的阶数是非常重要的。如果阶数过低，则不能将某些重要的信息建到模型中。为了避免此问题，可以选择特征矢量的阶数(例如LP滤波器的极点数)大于期望的阶数。不过这本身会引起问题。与信号中共振相匹配的极点给出了优良的结果，同时特征矢量的其他结果系数会将信号的伪部分建模。因此，当此矢量与另一个模型或参考相比时，那些信号伪部分建模系数值会过度地影响计算距离的测量。因此这种返回的距离测量(分数)是不正确的，可能会给实际上为优良匹配的帧一个糟糕的分数。

根据本发明的一方面，利用在将信号输入建模处理之前将具有已知特性的噪声n(t)(图4-6中的206)加入语音信号s(t)(即输入信号＝s(t)+n(t))可以减缓或减轻此问题。在说话者登记期间以及随后系统的使用中可以使用相同的噪声信号。已知噪声信号的加入具有加入“额外”系数(在实际需要个数之上)以建立已知功能模型的效果，并因此在矢量建模/测试比较期间给出问题较少的稳定结果。这与语音采样数据“静音”期间的噪声(信道噪声合其他噪声)影响抑制特别相关。此问题也可以作为下述采样帧大量重叠使用的结果而提出。

如上所述，为了有效地处理语音采样，所有的说话者识别系统均采用了被称为帧的时间片断，这样将话音分为一系列帧并依次对各个帧进行处理。这些帧的大小可以相同或不同，并且可以重叠。则说话者识别系统产生的模型包括多个表示多个帧的特征集合(对应系数集合的矢量)。当在传统的说话者识别系统中进行模型比较时，有必要对各个模型的对应帧进行校准。即使说话者是同一个人，给出短语的不同话音也不会严格地具有相同长度。因此，正确地校准用于比较的帧存在着困难。

如图8(a)(表示被分为帧的时间信号)和8(b)(表示图8(a)中一个帧对应的频谱和平滑频谱)所示，传统系统将帧转换为谱或平滑谱等效物。该系统随后执行进一步的变换和分析(诸如倒谱变换、矢量量化、隐马尔可夫建模(HMM)以及动态时间规整DTW(Dynamic TimeWarping)(DTW)以得到希望的结果。可以用多种方式划分帧的边界，不过通常从估计为有用语音信号起始点的任意起始点开始测量。为了补偿这种任意的起始点，也为了补偿相似声音长度的自然变化，当比较两个或更多话音时，诸如建立模型时或将模型与测试话音进行比较时，使用了诸如HMM和DTW之类的技术。通常在系统中谱分析之后的位置使用任何用于表示帧内容的系数集合进行HMM/DTW补偿，而无需参考原始的时间信号。因此这种校准的精度受到了帧大小的限制。此外，这些技术假设特定帧的校准在位于所希望位置的几个帧之内的话音的固定区域内。由于当前帧的校准估计依赖于前一帧的校准，并且随后帧的校准依赖于当前帧的校准，这就给系统带来了时间性因素。在实际中，这意味着通常只将例如在话音中持续200毫秒的特定帧与模型的或其他用于构造模型话音的200毫秒区域中的其他帧进行比较。这种方法来源于语音识别方法(例如语音-文本转换)，其中将其用于从帧序列中估计语音序列。本申请相信由于下述原因该方法不适用于说话者识别。

A最重要地，传统方法只提供了帧的粗略校准。起始点的任意分配意味着通常不可能得到两个帧各自起始点的准确校准，这样如图9所示，甚至给出“最佳匹配”的两个帧的谱特性也有着明显区别。

B其次，传统方法依赖于帧的时间序列并且使说话者验证以源自时间上相邻帧的谱特性为基础。

根据本发明的另一方面，本登记建模处理包括使用类似于卷积的非常大地帧重叠以避免出现于模型之间帧校准的问题(如上述A所述)并提高获得的模型质量。为了获得模型，在说话者登记期间使用该技术，优选地基于登记短语的重复话音。利用帧大量重叠，结果模型有效地成为所有可能校准的模型中相邻帧之间差别相对较小的，由此提供了优良的模式模型。优选地，选择的帧重叠至少为80％，更优选地为80％至90％的范围内，并且可以高到95％。

如上所述，利用LPCC变换将帧变换为有代表性的系数，由此可以用一矩阵来表示登记处理生成的参考模型使用的各个话音(如前所述，典型地具有1000帧乘24个系数阶数的大小)。典型地可以用10个这样的矩阵表示10个话音。因此可以将诸如矢量量化(下文将进一步讨论)之类的聚类或平均技术用于减少数据以产生用于说话者的参考模型。这种模型不依赖于提出上述B中问题的时间帧顺序。

本发明的优选实施例将上述帧大量重叠与矢量量化或下述类似相结合。这提供了一种与传统HMM/DTW区别很大的操作模式。在这种传统系统中，认为所有帧同样有效，并通常利用通过比较和匹配单独帧得到的累积分数，将所有帧用于得到最终“分数”用于设置是/否决策的阈值。帧校准的准确性限制了得到分数的有效性。

根据本发明的此方面，参考(登记)模型表示了大量可能的帧校准。此模型允许将测试话音的所有帧与参考模型的各个帧进行比较和评分，给出帧分数值出现频率的统计分布，“好的”帧匹配会得到低分数，而“差的”帧匹配会得到高分数(或相反，这取决于评分方案)，这种模型要好于将测试话音单独帧与参考模型的单独帧进行进行匹配并得出每一对匹配帧的分数。被测试的测试话音相对于大量参考模型的结果将获得如图10所示的正常分布。大多数帧的分数位于靠近均值的位置且标准方差较小。由于参考模型中帧大量重叠，因此包括“最佳匹配”的分数分布在精确校准的测试话音对应帧和参考模型之间。当用于特定说话者的参考模型与来自该说话者的测试话音进行比对测试时，则分布包括非常低得分的较高的发生率。由于可以容易地将某些部分话音识别为源自真正说话者而将明显来自真正说话者可能性较低的其他部分分类为来自普通人群，这最终导致了始终低的“真正说话者”得分。冒充者帧分数不会产生低分数，并且会将其分类为来自普通人群。

根据本发明的一方面，即参考模型包括源自多个大量重叠帧的系数集合，并且通过将所有测试话音帧与所有相关参考模型帧进行比较并分析从中得到帧分数的分布以进行测试话音的测试。

在随后的说话者识别过程中，还可以将用于登记目的语音采样的大量帧重叠用于输入话音，不过这不是必要的。

登记采样数据中大量重叠的使用还有益于处理在采样数据静音周期出现的噪声问题。对于文本独立说话者识别系统来说，这种问题尤其明显。对于单独模型或验证尝试来说静音的存在不一定会引起问题，但是静音的存在会引起整个系统性能的退化。所以问题在于我们如何彻底地去除此问题或使其负面影响最小。本发明大量帧重叠的使用包含了其固有的解决方案。考虑到说明帧平均谱的方程(下文中将进行详细说明)，

\overset{&OverBar;}{s (ω)} = \frac{1}{N} \underset{n}{Σ} s_{n} (ω) = \frac{1}{N} \underset{n}{Σ} ({ss}_{n} (ω) \times {sd}_{n} (ω))

= \frac{1}{N} ({ss}_{1} (ω) \times {sd}_{1} (ω)) + ({ss}_{2} (ω) \times {sd}_{2} (ω)) + \cdot \cdot \cdot \cdot \cdot \cdot ({ss}_{N} (ω) \times {sd}_{N} (ω))

= ss (ω) \frac{1}{N} ({sd}_{1} (ω) + {sd}_{2} (ω) + \cdot \cdot \cdot \cdot \cdot \cdot + {sd}_{N} (ω))

可以看出静态部分(ss)的平均为ss(ω)且单独帧的谱为ss_n(ω)×sd_n(ω)。考虑还是两个帧的谱相加，

(ss₁(ω)×sd₁(ω))+(ss₂(ω)×sd₂(ω))＝ss(ω)×(sd₁(ω)+sd₂(ω))

我们使静态部分与新谱sd₁(ω)sd₂(ω)相乘。但由于平均计算使其值减小，所以本质上还是动态或可变的，新的谱表现为严格与随机抽取帧相同的方式。这暗示着可以随机地将帧加在一起而对性能影响最小。由于我们能够使加到静音帧中的有效语音帧的最终结果为有效语音帧，因此此看法不是完全正确的。当我们不再将不需要的静音包含在模型中时，这一事实导致了性能的提高。

如果带有某些微小静音问题的典型信号使得时间帧随机相加，则可以消除静音但信号会出现恶化。不过使用大量重叠帧的本发明仍然具有功能。令人感兴趣的是，这暗示着不会有信道回波的影响并可以忽略。还应强调的事实是本发明的优选操作模式提取谱的静态部分范围大于传统的验证者(下文将进一步说明)。如上所述，以这种方式相加的帧实质上与加入有色噪声具有相同效果以避免不需要的模型。

根据另一方面，本发明利用模块28、28a-n以不同于传统说话者识别系统使用的统计分析技术的方式使用了诸如矢量量化之类的聚类或平均技术。

优选地，本发明系统在谱分析模块26、26a-n输出的采样数据登记过程中使用了矢量量化(VQ)技术。与许多现有有技术系统中使用的诸如HMM之类统计分析技术相比，此技术是一种简化技术，结果使得以在后续分类级允许模型-模型比较方式提供模型的建模过程透明。此外，本发明使用的VQ未使用时间性信息，这使得系统对于冒充者具有抵抗性。

通过对数据点簇的识别、确定各个簇均值以及放弃明显不属于任意簇的数据，VQ处理可以有效地压缩LPCC输出的数据。结果得到表示第一矩阵集合LPCC数据的第二系数的第二矩阵集合，但减小了大小(典型地，与1000×24相比为64×24)。

现在对本发明使用LPCC谱分析和聚类/平均的效果进行说明。

基本模型假设谱的幅度有用的而相位是无关的。已知这应用于人类听觉，并且如果没有将其应用于验证者，则系统会显示出不希望的相位相关问题，诸如对话筒与说话者之间距离敏感之类。进一步假设可以将语音采样的谱信息看作是由静态部分ss(ω)和动态部分sd(ω)两部分组成，并且处理是乘性的。还假设动态部分明显地大于静态部分。

s(ω)＝ss(ω)×sd(ω)

根据定义，由于静态部分是固定的，则由于生物测定与声音道的静态特性相关，静态部分更有用。与语音动态相关的sd(ω)相反，这使测量与某些固定的物理特性相关。

ss(ω)的完全提取会给出显示出物理生物测定属性的生物测定，即不会随意变化且不会随着时间的流逝而退化。可选地，sd(ω)的完全使用会给出显示出行为生物测定属性的生物测定，即会随意变化且会随着时间的流逝而退化。这两个的混合显示出中间属性，但由于sd(ω)远大于ss(ω)，则其结合更有可能显示出sd(ω)的属性，即行为。

由于对于所有信号的频率表示来说，假设从-∞持续到+∞的时间信号在物理上明显是不可能的，所以在实际中所有信号的谱估计都被加了持续有限时间周期的窗。该窗可以为矩形或函数形状(诸如海明窗)。

矩形窗的使用在感兴趣的区域内简单地提取信号片断并假设在其他区域为零。在将信号片断称为帧的语音处理中，这种技术是非常普通的；图1表示时间信号帧。

可以使用交替窗来确定帧的形状。令人感兴趣的是，加窗的主要效果是将特定频率的特性延展到其邻域，即一种谱平均。这是由主瓣引起的；此外，旁瓣还在频谱中产生了周期性的谱振荡。本系统随后提取具有加强谱平滑效果的所有极点线性预测系数，而不用将加窗引起的谱平滑和额外平滑看作是主要问题。不过，如果不注意地改变了窗的大小，则周期性旁瓣影响可能会成为麻烦。不过这可以通过优良的保养和维护来避免。

假设我们将时间信号分为帧，则可以将帧1至帧N的谱特性表示为：

s₁(ω)＝ss₁(ω)×sd₁(ω)；s₂(ω)＝ss₂(ω)×sd₂(ω)；···

·······

s_n(ω)＝ss_n(ω)×sd_n(ω)；····

s_N(ω)＝ss_N(ω)×sd_N(ω)

利用定义

ss(ω)＝ss₁(ω)＝ss₂(ω)＝ss₃(ω)···＝ss_N(ω)

根据第一印象利用平均处理提取出ss(ω)是可能的，

\overset{&OverBar;}{s (ω)} = \frac{1}{N} \underset{n}{Σ} s_{n} (ω) = \frac{1}{N} \underset{n}{Σ} ({ss}_{n} (ω) \times {sd}_{n} (ω))

= \frac{1}{N} ({ss}_{1} (ω) \times {sd}_{1} (ω)) + ({ss}_{2} (ω) \times {sd}_{2} (ω)) + \cdot \cdot \cdot \cdot \cdot \cdot ({ss}_{N} (ω) \times {sd}_{N} (ω))

= ss (ω) \times \frac{1}{N} ({sd}_{1} (ω) + {sd}_{2} (ω) + \cdot \cdot \cdot \cdot \cdot \cdot + {sd}_{N} (ω)) = ss (ω) \times U (ω)

其中，

U (ω) = \frac{1}{N} ({sd}_{1} (ω) + {sd}_{2} (ω) + \cdot \cdot \cdot \cdot \cdot \cdot + {sd}_{N} (ω))

如果帧具有独立的谱特性(各自由随机过程产生)，则U(ω)趋向于白噪声，即具有平坦的频谱，则可以利用频谱平滑提取出

。如果N非常大→∞，则这种可能性很大。假定时域-频域-时域变化的线性本质，则在时域对类似分析进行说明。

与实际条件相符，在帧具有独立谱特性的意义下，不能假设N非常大。重要的是，记住在两种条件下需要N很大：

1.在创建模型期间

2.在验证事件期间

如果在上述任一过程中没有遵循会潜在地造成系统故障(错误)，不过由于直到更新之前1中保留了潜在的误差源，所以1中的故障更加严重，而2中的问题为单一的偶发(instance)事件。

如果不能保证U(ω)收敛为白噪声，如何处理这种情况呢？

首先考虑：

1.U(ω)的个数可变

2.当交叉平滑频谱时，理想地，频谱为平坦的，即平滑形式U_sm(ω)＝1

3.U(ω)为截平的语音帧总和，理想地，其个数趋向于无穷。

考虑到方程

\overset{&OverBar;}{s (ω)} = ss (ω) \times \frac{1}{N} \underset{n}{Σ} {sd}_{n} (ω)

趋向于平坦频谱的总和部分不是理想的性能度量，如果我们返回基于等效意义的帧：

\overset{&OverBar;}{s (ω)} = \frac{1}{N} \underset{n}{Σ} ({ss}_{n} (ω) \times {sd}_{n} (ω))

如果对这些帧取对数：

\frac{1}{N} \underset{n}{Σ} \log (({ss}_{n} (ω) \times {sd}_{n} (ω)) = \frac{1}{N} \underset{n}{Σ} [\log ({ss}_{n} (ω)) + \log ({sd}_{n} (ω))]

= \log (ss (ω)) + \frac{1}{N} \underset{n}{Σ} \log ({sd}_{n} (ω))

= lss (ω) + lsd (ω)

现在可以看出静态和动态部分之间的关系是加性的。因为时域和频域之间的关系是线性的，则从频域到时域的变换给出：

lss(ω)+lsd(ω)→cs(τ)+cd(τ)＝c(τ)

如前所述，在信号处理中，已知c(τ)为s(t)的倒谱变换。

通常的倒谱分析包括时域→频域→对数谱→时域(time_domain→frequency_domain→log(spectrum)→ time_domain)。以多种形式将倒谱变换用于语音分析中。

如上所述，在我们的当前用法中，我们创建了倒谱系数用于帧并提取出静态部分，

\frac{1}{N} \underset{n}{Σ} c_{n} (τ) = \frac{1}{N} \underset{n}{Σ} ({cs}_{n} (τ) + {cd}_{n} (τ)) = cs (τ) + \frac{1}{N} \underset{n}{Σ} {cd}_{n} (τ)

理想地，语音信号的长度应足够长，因此动态部分为完全随机，则其均值趋向于零。这就将静态部分cs(t)留作我们的生物测定测量。但是我们需要克服若干问题：

1.我们如何处理总和为零(sum-to-zero)的非理想本质

2.信道变化

3.终点

4.加性噪声

参考总和为零的非理想本质，倒谱系数的本质在于会随着时间延长而衰减，且表现出用于稳定系统脉冲响应的特点。这意味着各个系数的动态范围是不同的，且其通常为降序。

可以看出测试采样的平均系数之间的差别以及真正说话者模型的帧系数值和冒充者模型帧系数值之间的差别并不大，所以用传统方式很难将所有话音帧简单求和产生的距离分数进行取阈值。

如果我们同时考虑到与此方法相关的两个困难问题而不是分别考虑，则揭示了问题的答案。为了再次强调。两点困难在于，

1.话音不可能足够长以使动态范围的均值收敛为零

2.真正说话者和冒充者之间的差别很小并且难于进行取阈值。

考虑到两个说话者，模型基于

\overset{&OverBar;}{c (τ)} = \frac{1}{N} \underset{n}{Σ} c_{n} (τ) = \frac{1}{N} \underset{n}{Σ} ({cs}_{n} (τ) + {cd}_{n} (τ)) = cs (τ) + \frac{1}{N} \underset{n}{Σ} {cd}_{n} (τ)

因此模型为m1(τ)和m2(τ)，其中，

m 1 (τ) = \overset{&OverBar;}{c 1 (τ)} = \frac{1}{N} \underset{n}{Σ} {c 1}_{n} (τ) = \frac{1}{N} \underset{n}{Σ} ({cs 1}_{n} (τ) + {cd 1}_{n} (τ)) = cs 1 (τ) + \frac{1}{N} \underset{n}{Σ} {cd 1}_{n} (τ)

= cs 1 (τ) + e 1 (τ);

其中e1(τ)为误差

矢量模式的模型为

m 1 = [\begin{matrix} {cs 1}_{1} + {e 1}_{1} \\ {cs 1}_{2} + {e 1}_{2} \\ \cdot \\ \cdot \\ {cs 1}_{p} + {el}_{p} \end{matrix}]

且

m 2 = [\begin{matrix} {cs 2}_{1} + {e 2}_{1} \\ {cs 2}_{2} + {e 2}_{2} \\ \cdot \\ \cdot \\ {cs 2}_{p} + {e 2}_{p} \end{matrix}]

可以以同样形式将来自说话者1的测试话音表示为

T 1 = [\begin{matrix} {cs 1}_{1} + {Te 1}_{1} \\ {cs 1}_{2} + {Te 1}_{2} \\ \cdot \\ \cdot \\ {cs 1}_{p} + {Te 1}_{p} \end{matrix}]

使用简单距离测量，则真正说话者的距离为

d 1 = | m 1 - T 1 | = | [\begin{matrix} {cs 1}_{1} + {e 1}_{1} \\ {cs 1}_{2} + {e 1}_{2} \\ \cdot \\ \cdot \\ {cs 1}_{p} + {e 1}_{p} \end{matrix}] [\begin{matrix} {cs 1}_{1} + {Te 1}_{1} \\ {cs 1}_{2} + {Te 1}_{2} \\ \cdot \\ \cdot \\ {cs 1}_{p} + {Te 1}_{p} \end{matrix}] | = | e 1 - Te 1 |

冒充者的距离为

d 2 = | m 2 - T 1 | = | [\begin{matrix} {cs 2}_{1} + {e 2}_{1} \\ {cs 2}_{2} + {e 2}_{2} \\ \cdot \\ \cdot \\ {cs 2}_{p} + {e 2}_{p} \end{matrix}] - [\begin{matrix} {cs 1}_{1} + {Te 1}_{1} \\ {cs 1}_{2} + {Te 1}_{2} \\ \cdot \\ \cdot \\ {cs 1}_{p} + {Te 1}_{p} \end{matrix}] | = | cs 2 - cs 1 + e 2 - Te 1 |

假设模型动态部分的收敛性优良(即相对于静态矢量，误差矢量很小)，则通常d1＜d2。这简单地表示建立的模型表示了登记的说话者(在登记期间使用当时有效的数据可以容易检查的条件)。令人感兴趣的是，如果与测试信号误差Te1相比，e1和e2很小，则距离独立于e1和e2。当与模型误差相比测试误差很大的情况出现在文本独立测试情况期间。这表明如果在登记模型中使登记语音采样的动态分量最小化，则这种模型能够为文本独立说话者识别提供优良的基础。

上述误差e1和e2为平均模型构造误差；实际误差以连续帧为基础并且为具有均值的分布。可以通过很多方式对这种分布进行建模，其中最简单的是使用诸如k均值之类标准聚类技术。还可以认为k均值聚类的使用是另一种形式的矢量量化(VQ)并且是为自组织映射(SOM)Kohonen人工神经网络的主要部分。

该系统只说明了将测试话音应用于两个模型且最接近的选择为识别变量。在上述情况下，如果任意登记的说话者，说话者1或说话者2要求成为其自身并且被测试，测试结果永远为真，则误拒绝率FRR＝0。如果未知说话者要求其为说话者1或说话者2，将他分类到一类或另一类，所以成功的机会为1/2，因此误接受率FAR＝50％。如果执行相等个数的真正说话者测试和随机冒充者测试，则我们可以计算出整个错误率为(FRR+FAR)/2＝(0+0.5)/2＝25％。

很明显模型(群)相对被测试的测试话音的个数会对FAR产生影响并且FAR会随着群的增加而减小。可以看出在这种条件下，由于FRR＝0，随着群组大小(cohort size)的增加，识别的准确率逼近100％，而准确率为

更一般地，此项逼近于100-FRR。

从这一点看出FRR和FAR之间在很大程度上是去耦的：FRR由产生模型的个数固定而FAR由群组的大小固定，这是值得的。还可以看出为了使错误率减半，我们需要使群组的大小加倍，例如为了99％的准确率，群组为50，而为了99.5％的准确率，群组为100，99.75％的准确率，群组为200。当群组的增加时，计算负荷随之加大且实际上每使错误率减半，计算负荷为原来的两倍。当群组增加到非常大的数量，会打破FRR和FAR之间的去耦且FRR开始增大。

为了试图将FAR减小到最小，需要另一种方法，而不是连续地增大群组大小。根据本发明的一方面，该方法使用了并行处理(也在本发明其他说明中进行讨论)，该方法稍微显示出了不同的冒充者特性且部分统计地独立于有关的辨别者策略。其想法为取出显示出零或近似零的FRR的核心辨别且该辨别的FAR由群组大小设置。接着将该核心辨别的前端处理进行稍微调整以将群组成员模型到真正说话者模型的距离进行重新排序。做该操作的同时保持FRR～0，并且可以通过更换谱整型滤波器24a-24n(参见图7)或诸如使用倒谱增量(delta-ceps)等更换变换系数。

当登记的说话者使用系统时，将测试信号并行加到所有处理，而且各个处理的FRR～0并且该说话者可以通过。当未知冒充者使用系统时，他通过各个单独处理的概率为1/(群组大小)。不过我们为并行处理引入条件概率。即在冒充者通过处理1时，他通过调整后处理2等的似然。尽管冒充者通过所有处理的概率并不是以下情况下得到的统计独立概率statistically_independent result＝process_prob^{no_of_processes}

不过，该值仍然会随着处理的增多而减小。可以看出为了给定处理FAR值，系统的整体准确性随着处理数而增大。

以这种方式使用了多并行处理，用于匹配对要求身份的测试采样的方案需要各个处理成功匹配或需要预定比例的成功匹配。

根据本发明，在创建登记模型中将大量采样帧重叠与矢量量化(或等同物)相结合提供了特殊的优点。

在构造模型时使用大量重叠，尽管还可以在测试话音时使用。该技术包括使用大量帧重叠，典型地80％-90％，以产生大量可能的校准；接着利用LPCC变换将校准产生的帧变换为有代表性的系数以产生所有校准的系数表示矩阵。这避免了帧校准的传统问题。典型地，矩阵大小为帧数乘LPCC阶数，例如1000×24。为所有构造模型的话音重复此过程，典型地为10，给出10个1000×24的矩阵。接着使用矢量量化减少数据以产生用于说话者的模型。如上所述，这具有平均帧以明显减少采样语音数据动态分量的效果。结果模型不会认定测试话音中的帧位置，因此实质上不是时间性的。这处理了时间依赖的问题。

VQ和大量帧重叠结合使用产生了与传统基于HMM/DTW不同的操作模式。在HMM/DTW中，认为所有帧同样有效且用于形成取是/否决策阈值的最终分数。在本发明中，为了要求的说话者和相关的冒充者群组，将测试采样数据的每一行(帧)与登记模型数据的每一行进行测试。对于测试采样数据的每一行，产生用于测试采样对每一个相关登记模型的测试分数，可以找到与一行登记数据的最佳匹配。测试采样与给出最佳分数的登记模型相匹配。如果与要求的身份匹配，则接受该测试说话者。如果与冒充者匹配，则拒绝该说话者。

接着，本系统使用了LPCC和VQ建模(或类似/等同的谱分析和聚类技术)结合采样帧大量重叠以产生存储于数据库中的用于各个登记说话者的参考模型。在本系统使用中，用类似的谱分析处理输入的测试话音以得到可以对登记说话者数据集合进行测试的输入测试模型。优势在于使用这种方法可以得到非常低的误拒绝率(FRR)，实质上等于零。下文将进一步讨论这一点的意义。

并行建模

如上所述，可以利用多并行处理产生模型提高根据本发明说话者识别系统的性能。

现在参考附图7，使用了根据本发明一方面并行处理的说话者识别系统的一个优选实施例包括输入信道100，用于将表示语音采样的信号输入到系统；如其他部分所述的信道归一化处理200、多个并行信号处理信道102a、102b......102n；分类模块110；以及输出信道112。该系统进一步包括登记说话者数据集合114；即来自向系统登记的说话者的语音模型数据库。各个处理信道102a-n并行对语音采样数据进行处理，将各个处理信道的输出输入到与登记说话者数据进行通话的分类模块110，并经输出信道112输出对测试话音源身份的决策。

如其他部分所述，各个处理信道102a-n包括串联的谱整型滤波器24a-n、(可选的)加性噪声输入206a-n、谱分析模块26a-n以及统计分析模块28a-n。将各个统计分析模块28a-n的输出输入到分类模块110。

谱整型滤波器24a-n包括共同将话音信号分为多个重叠频带的滤波器组，接着利用后续模块26a-n和28a-n并行地将各个频带进行处理。，由于更多信道可以为后续输入数据的分析提供更多细节，因此处理信道数和频带数可以不同。优选地，至少使用两个信道，更优选地，至少为四个信道。优选地，滤波器24a-n组成了低通或带通或高通滤波器组。选择基础滤波器24a的带宽以使由后续第一信道102a输出分析产生的误拒绝率(FRR)为零或尽可能地接近零。后续滤波器24b-n具有增加通过更多来自输入信道100信号的增加而增大的带宽。这样就保持各个信道102a-n输出的FRR接近于零，同时不同信道的输出具有略微不同的误接受(FA)特性。信道102a-n组合输出的分析产生全面减小的FA率(如果接受了所有信道的输出，则只接收要求的身份)而FRR接近于零。将进一步说明这种方式的意义。

多频带的使用对传统单信道谱分析进行了改进，增大了后续统计分析中感兴趣的特征矢量个数。

为了提供输入语音采样和/或类似方面可选模型的多特征集合建模差异(相关或不相关)部分，可以理解的是在建模处理中可以使用不同类型的并行处理。可以使用加入或取代了低通滤波器的其他类型滤波器组。可以在并行处理信道中使用不同类型或各种谱和/或统计分析。并行统计分析可以包括将不同权值应用于特征系数集合以得到略有偏离的模型。

可以理解的是图7所示的结构可以用于得到存储于数据库14中登记模型以及用于处理测试语音采样以与登记模型进行测试。各个登记模型可以包括用于多个登记话音中每一个的数据集合。为了各个登记话音，有一个表示各个并行建模处理输出的数据的矩阵。这些矩阵中的每一个均表示了被聚类/被平均的谱特征矢量。将测试采样数据进行相同的并行谱分析处理，但是没有进行聚类/平均，因此测试模型数据包括代表用于各个并行建模处理的谱分析数据的矩阵。当将测试模型与登记模型进行测试时，将表示特定建模过程的测试矩阵与相同建模处理产生的登记矩阵进行测试。

分类

上述建模技术得到的参考模型的实质在于其有助于直接进行模型对模型的比较。这使得系统可以使用各个登记模型与冒充者群组相关联的辨识者策略。即对于各个登记说话者(“对象”)的参考模型来说，存在着包括预定个数的其他登记说话者参考模型的冒充者群组，特别是对象和与对象的参考模型具有已知以及可预测关系的。这种可预测关系能够提高系统的性能。图11(a)所示为与图3类似的传统说话者识别系统得到的一个测试的输入话音与八个说话者的参考数据进行比较得分的结果。说话者1为真正的说话者，但是其他某些说话者的分数十分接近，明显减小了系统辨别出正确说话者的可信度。图11(b)所示为使用根据本发明系统得到的等同结果。可以看出说话者1的结果与其他所有说话者2至8结果的差别非常明显。

本发明优选实施例中使用的说话者建模方法本质上比诸如HMM之类的传统技术以及诸如高斯混合模型之类可选技术简单(严格的数学术语为更粗糙)。不过，本申请确信传统使用的“紧(tight)”统计方法本质上有缺陷并且导致了差的“真实世界”性能，而且令人吃惊的是，本发明相对简单的统计方法在实际中更为有效。如前所述，HMM的时间性本质使其容易受到模仿者的影响，而这正是本发明所避免的。此外，理想地，本发明的模型利用模型对模型测试，适用于分析登记说话者数据集合的结构。

利用本说话者模型执行模型对模型比较的能力提供了两个优点。首先，这提供了在登记说话者数据集合中辨别最相关冒充者(即那些接近于并一致围绕特定模型分布的人)并产生有效和可预测说话者归一化机制的能力。VQ建模包括选择模型的大小；即选择系数的个数(“中心(centres)”)。当这完成之后，可以四处移动中心的位置，直到其给出了最适合于所有登记数据矢量的位置。这意味着有效地配置登记矢量的聚类中心，则模型中各个中心表示了一类关于说话者身份的重要信息。

模型对模型测试使得可以预测一登记说话者或要求的身份如何在广义意义上以及局域(在系统数据空间)执行要求身份的数据库对比。图12所示为用于说话者2-8的测试参考模型对用于说话者1测试参考模型的结果。椭圆表示模型对模型的结果，同时星形表示被测试的说话者话音对模型1的实际分数。可以看出可以将模型对模型测试用于预测特定说话者对特定参考模型的实际性能。模型对模型的结果趋向于落在实际分数分布的底部并由此表示出特定冒充者执行对模型1的比对。已知这种使用模型比对模型测试以预测实际性能的基本方法就是这样。如下文进一步所述，根据本发明一方面可以将这种方法进行扩展以使用单独选择的统计可变分组保护特定模型抵御冒充者。

模型比对模型测试的第二个优点在于能够预测测试话音比对某些或必要的话，所有登记说话者模型的性能。这使得实质上不用限制用于确认身份测试模型的个数，而这在传统系统中是不可能的。

此外，利用各个参考模型，可以将模型比对模型测试结果用于组合特定的使用的冒充者群组。这允许准确的分数归一化，还允许利用为各个登记说话者选择的统计可变分组有效地“提防”冒充者。这如图13所示。可以将各个参考模型看作是多维数据空间的点，这样就可以计算模型之间的“距离”。清楚起见，图13以二维形式表示了这种观点，其中每个星号表示一模型，并且二维距离表示模型之间的距离。

可以看出说话者模型的分布并不一致，因此基于归一化技术的世界模型不能平等地操作所有说话者模型。还可以看出某些说话者模型距离彼此之间相当地接近，这暗示着有潜在的冒充者成功模仿登记说话者。对于各个说话者模型而言，通过在对象模型周围创建特定的冒充者群组能够解决这些问题。这简化了归一化并创建了提防冒充者保护。这如图1 4所示，图14以与图13类似的形式表示了用圆代表的对象模型，冒充者群组的成员用星表示，而要求成为对象的冒充者的分数用“x”表示。冒充者分数接近于对象模型，足以引起识别问题。不过由于说话者数据集合能够预测真正说话者如何执行与冒充者群组模型的比对，可以通过将冒充者与其群组成员模型以及真正对象模型进行比对而将此信息用于区分冒充者x和真正的对象。即就是说，可以看出冒充者话音x与希望的真正对象相比，距离某些群组成员更近并且与希望的相比，距离其他成员更远。这表明一冒充者事件并导致拒绝了与真正对象匹配的冒充者话音。

这提供了两级识别处理的基础，首先拒绝明显不是要求说话者的冒充者，接着，必要时，将足够接近要求说话者的话音进行更详细处理。

在某些说话者验证系统的应用中，使“误拒绝”的可能性最小是重要的；即将用户要求的身份被认为假而不正确地拒绝的情况。根据本发明的一方面，使用了提供非常低误拒绝的“辨别者策略”，同时还提供了可预测的系统性能并使接受或拒绝要求身份中阈值使用相关问题最小化。

根据此策略，将登记说话者数据库(“说话者空间”)进行了分割；例如，将系统中登记的各个说话者分到如上所述包括固定登记说话者个数N的群组中。系统的说话者分类模块(例如图4中系统的模块110)进行操作，将输入测试话音与所有说话者要求身份相关联的群组成员进行比较，并将测试话音分类到对应提高最佳匹配的群组成员中。即测试话音永远与群组中成员之一匹配且不会认定其不与群组中任一成员匹配。如果与话音匹配的群组成员对应着要求的身份，则将要求的身份作为真接受。如果话音与群组中其他任意成员匹配，则将要求的身份作为假拒绝。

可以将建模和分类处理进行调整以使误拒绝的比例有效地为零(FR＝0％)(如上所述)；即说话者被错误地辨别为群组成员而不是要求身份的概率充分为零。这可以通过使用模型对模型比较方便实现，其中匹配不仅简单地基于被匹配测试话音与单一最接近模型的对比，而且基于其与群组其他成员之间的关系。当群组为固定大小N时，误接受的最大可能比例为FA＝100/N％，并且总平均错误率＝(FA+FR)/2＝50/N％。如果群组大小为20，则错误率为2.5％，准确率为97.5％。如果群组的大小固定，当保持固定和可预测错误率时，系统对于任意个数的人群组是可升级的。即就是说，系统的准确度基于群组的大小并独立于通常的人群组个数，这使得系统对于非常大人群组而言是可升级的。通过增加群组大小可以提高准确度而不会明显地增大误拒绝率。

该策略不是依赖于使用阈值确定结果，而是仍然将阈值用于减小误接受；即当利用前述策略，一旦测试话音与要求身份匹配，则将阈值用于确定该匹配是否足够接近而被最终接受。

如上文所指出的，与特定登记模型关联的冒充者群组的选择包括使用算法以使冒充者群组成员与被所述的登记模型具有特定的关系。原则上，这在分类处理中提供了一种最优化的程度。不过，可以发现对于大多数实际应用目的而言，随机选择的冒充者群组一样执行正常。最重要的一点在于为了给出可预测的性能，应当预定群组的大小。可以在登记时或测试测试话音时选择用于特定登记模型的冒充者群组。

并行分类

通过使用多个并行分类处理可以提高根据本发明说话者识别系统的性能。总的来说，这种处理是统计独立或部分独立的。如图5所示，该方法提供了能够相结合以得到最终结果的多分类结果。

在一例子中使用如上所述的辨别者策略，可以将相同的测试话音与多个不同群组，或不同登记短语，或其结合进行比对测试。当使用多个群组时，各个群组会给出同上文一样的实质为零的误拒绝率(FR＝0％)和误接受率FA＝100/N。用于n个相同大小群组的整个误接受率为

FA＝100*M/Nn％且平均错误率＝50*M/Nn％，这里的M为值大于1的系数，并且表示不是完全统计独立处理的影响。即就是说当2个群组且各个群组大小为20时，与前述单个群组2.5％的平均错误率相比，平均错误率为0.125*M％。如前所属，可以将阈值用于进一步提高准确度。

如前所述，可以在建模处理中使用其他类型的部分统计独立处理、分类处理或二者。除了前面给出的例子，还可以将单一话音分为几部分并分别进行处理。

归一化

传统说话者识别系统进一步遇到的问题在于系统性能会受到用于初始登记的语音采样系统和随后识别系统之间差异的影响。此类差别是由不同的传感器(麦克风)、声卡等导致的。根据本发明的另一方面，可以通过基于某种归一化特征的语音采样的归一化来消除或减轻这些困难，每个采样系统(或者，可能的，采样系统的每一种类型)都获取并存储一个上述的归一化特征，用来把语音采样输入到识别系统中去。可选地(更合适地)，当一个语音采样正在被输入到系统中时，归一化特征可以被认为是“参与的”。于是归一化特征就可以应用到所有的输入语音采样，以至于参考模型和测试分数独立于特定采样系统的特征。可选地(或者附加地)，根据本发明的另一方面归一化过程可以被适用在测试采样数据和登记采样数据的比对测试的时刻。

一个归一化特征从效果上看就是采样系统的一个传输函数，并可以被推导出来，例如，通过输入一个已知的参考信号到采样系统，并通过采样识别系统处理经采样的参考信号。来自识别系统的结果输出就可以被存储起来，并被随后用来对来自同一个或同一类型采样系统的语音采样输入进行归一化。

可选地，如图15所示，可以利用将调整的语音信号C(f)*S(f)输入到估计模块302以及归一化模块304以归一化由输入信道300的传递函数C(f)调整的语音信号S(f)，该估计模块302用于估计信道300的传递函数，并将估计的传递函数的逆1/C(f)应用于归一化模块，因此归一化模块的输出严密地近似于输入信号S(f)。估计模块302创建了具有信道300谱特性的数字滤波器，并且将此滤波器的逆用于信号的归一化。例如，通过确定表示采样帧谱质量的全极点滤波器可以计算该逆滤波器。接着在帧上平滑滤波器系数以去除尽可能多的信号，留下信道1的频谱(C(f))。接着将信道频谱的估计用于产生逆滤波器1/C(f)。可以加强这种基本方法以平滑为帧得到的滤波器的极点位置，利用极点的合理取消以除去那些被认为是信道特性不相关的极点。

依据传递函数/归一化特性的本质，可以在说话者识别系统处理之前将归一化处理应用于语音采样，或谱数据，或系统产生的模型。

根据本发明一方面，在进行测试采样比对登记模型测试时，将信道归一化的优选方法应用于测试模型数据或相关的登记模型。

可以将信道特性对语音信号的全部影响描述为

\hat{s} (ω) = ss (ω) \times sd (ω) \times cc (ω)

其中

为说话者特性的估计，cc(ω)为信道特性或适当变化的信道特性，并且如前所述，将语音信号看作包括静态部分和动态部分。理想地，可以估计不希望的信道特性并将其去除。在实际中，可以在时域、频域或二者结合实现该去除。这些实现的效果相同，即利用某些形式的逆滤波器或谱除法估计cc(ω)并将其去除。如果为不希望信道的频谱估计，则我们可以计算

\frac{\hat{s} (ω)}{\hat{c} c (ω)} = ss (ω) \times sd (ω) \times \frac{cc (ω)}{\hat{c} c (ω)} \approx s (ω)

如果信道特性的估计为优，则

\frac{cc (ω)}{\hat{c} c (ω)} \approx 1

且我们的语音估计为优，且去除了不希望的谱型。这通常利用基于FFT的算法实现。

与大多数全极点形式相似，一种可选的实现是将信道特性建模为滤波器，

h (z) = \frac{z^{N}}{z^{N} + a_{N - 1} z^{N - 1} + \cdot \cdot \cdot \cdot \cdot \cdot a_{0}}

这是ARMA的最基本形式并通常可以使用线性预测将其直接从时间信号中提取出来。

基于倒谱表示可以实现类似的归一化。

在倒谱域，语音信号被表示为

c(τ)＝cs(τ)+cd(τ)

并且被不希望的信道特性调整的语音信号为

\hat{c} (τ) = cs (τ) + cd (τ) + cc (τ)

可以看出在这种情况下，我们使用相加处理而不是相乘。不过还应该记住cs和cc均为静态的，我们需要去除一cc而不去除其他的。

考虑到我们需要去除信号cc及其不同条件(登记模型、源自群组的数据库以及测试说话者等等)的前后关系是重要的。

图16所示为说话者识别系统中的各种语音采样中断源。环境背景噪声b(t)、记录装置带宽r(t)、电噪声和信道串扰t(t)以及传输信道带宽c(t)改变了输入语音信号s(t)，因此输入到识别系统的信号为改变的信号v(t)。在频域系统进行分析是容易的，并且在验证器的信号为：

v(ω)＝((s(ω)+b(ω)).r(ω)+t(ω)).c(ω) eq1

在验证器我们可以定义两种条件，即当该人正在说话或当其未说话。导致了两个方程，

v(ω)＝((s(ω)+b(ω)).r(ω)+t(ω)).c(ω)

和

v(ω)＝((0+b(ω))r(ω)+t(ω)).c(ω)

当将第一个应用到根据本发明的系统中时，考虑到简化问题；假设b(t)＝t(t)＝0

v(ω)＝s(ω).r(ω).c(ω)＝s(ω).h(ω)

这里的h(ω)为组合的信道谱特性，

h(ω)＝r(ω).c(ω)

v(ω)＝s(ω).h(ω)＝ss(ω).sd(ω).h(ω)

利用同一信道(b)从记录说话者的数据库中选择群组模型，并利用不同的信道(a)记录真正的说话者模型。测试的说话者或者为真正说话者，或者为冒充者，并且可以利用第三信道(c)将其记录。图17所示为此示意。图18所示为使用倒谱系数表达同一情况的可选形式。应当记住图17和18所示信号分量的值为对应着采样帧数据总和的平均值。

考虑到要求的身份模型，此模型由下式创建，

v₁(τ)＝cs₁(τ)+cd₁(τ)+h_a(τ) eq2

并且群组模型由下式创建，

v_m(τ)＝cs_m(τ)+cd_m(τ)+h_b(τ) eq3

验证器的问题在于在辨别器中使用了两种不同的信道，如果我们假设其差异为

hd(τ)＝h_a(τ)-h_b(τ)

或

h_a(τ)＝h_b(τ)+hd(τ)

则参考了群组模型(b)的要求身份模型为

v₁(τ)＝cs₁(τ)+cd₁(τ)+h_a(τ)＝cs₁(τ)+cd₁(τ)+h_b(τ)+hd(τ)

且v₁(τ)＝(cs₁(τ)+hd(τ)+cd₁(τ)+h_b(τ)

可以看出要求身份模型静态部分的均值偏移了信道之间的差，并且如果利用信道b测试真正说话者，如果不纠正这种情况则会引起错误。利用信道a也会出现类似误接受的问题。

一种解决该问题的方法是从要求的身份模型中去掉均值，但是简单去掉均值首先会产生，

v₁(τ)＝cd₁(τ)

此时也去掉了说话者模型的静态部分。不过，查看方程1(系统模型包括加性噪声)

v(ω)＝((s(ω)+b(ω)).r(ω)+t(ω)).c(ω)

如果我们考虑到说话者暂停的情况，s(ω)＝0

则v(ω)＝(b(ω).r(ω)+t(ω)).c(ω)

且v(ω)＝n(ω).c(ω)

这里的n(ω)为噪声信号。

在倒谱形式下，可以表示为

v(τ)＝n(τ)+c(τ)＝sn(τ)+dn(τ)+c(τ)

这里如上所述sn为噪声的静态部分，dn为动态部分求和的结果。

则由此构造模型的平均为

sn(τ)+c(τ)

这里sn为诸如接口音调之类的稳定状态噪声，c为信道。

再一次考虑方程1(要求身份模型创建条件)

v₁(τ)＝cs₁(τ)+cd₁(τ)+h_a(τ)

这是没有噪声的情况，加入稳定状态噪声给出，

v₁(τ)＝cs₁(τ)+cd₁(τ)+h_a(τ)+sn(τ)

如果我们为这种情况构造说话者暂停模型，我们得到

sn(τ)+h_a(τ)

由此去掉均值，结果为

v₁(τ)＝cs₁(τ)+cd₁(τ)

这给了我们一个不会被信道失真的模型。可以将类似的处理应用于各个模型，由此其自身的静音模型就去掉了信道失真。可以类似地处理测试说话者，即将其静音模型用于去除信道影响。

如上所述利用静音模型去掉(减小)信道特性需要合适的信道噪声和对话音静音部分的理想检测。由于无法保证这些，需要将其减轻(例如，如果静音包括某些语音，我们会包括部分要求身份说话者的静态语音并不注意地将其去掉)。幸运地是，可以用对处理的一简单调整来处理此事：所有的群组模型可以参考同一静音模型。

即就是说，如果我们再次将要求身份模型的静音平均值加入群组中所有模型(包括要求的身份模型)中。这样所有模型参考了同一均值sn(τ)+h_a(τ)。还可以将此归一化应用于测试模型，由此所有的模型和测试话音参照了同一参考点。有效地，我们选择一参考信道和噪声条件参考并使所有其他的参照它。

图19示意地表示了这一处理，其中表示了测试话音的倒谱系数和要求身份模型以及输入到分类器110的群组模型1至m。将源自要求身份登记数据的“静音模型”或“归一化模型400”用于在将这些数据输入到分类器之前进行归一化，因此实际输入到分类器的为归一化的测试话音、归一化的要求身份模型以及归一化的群组模型，理想地，归一化模型400基于来自如上所述要求身份登记采样静音期间的数据，不过其可以源自完全要求身份登记的采样。在实际过程中，归一化模型包括单行倒谱系数，各个倒谱系数为来自要求身份模型一列(或从一列中选择的成员)倒谱系数的均值。将这些均值用于代替各个输入数据集合的均值。即以测试话音为例，从各个列单独成员中减去各列测试话音倒谱系数的均值，并将来自归一化模型的对应均值加到该列的各个单独成员上。将类似的操作应用于要求身份模型和各个群组模型。

可以理解的是该归一化模型可以源自要求身份模型或测试话音或任意群组模型。对于模型来说，优选的是源自要求身份模型或测试话音模型，最优选的是源自要求身份模型。该归一化模型可以源自“粗”登记采样倒谱系数或矢量量化后的最终模型。即就是说，在登记并连同登记模型一起被存储时得到该模型，或者当必要时作为验证处理的一部分被计算得到。通常对于每一个登记说话者而言，优选的是在登记并作为登记说话者数据库的一部分被存储时计算归一化模型。

可以将这些归一化技术用于不同类型的说话者识别系统，但与本发明的说话者识别系统相结合具有优势。

由于多个理由，根据本发明的说话者识别系统提供了提高的实际性能。首先，使用的建模技术明显改善了真正说话者和冒充者之间的分离。这种改进的建模使得系统对诸如声音系统(语音采样系统)变化和说话者特性变化(例如由感冒等引起的)之类实际问题不敏感。其次，该建模技术为本质上非时间性的，因此不易受到时间性语音变化的影响，由此提供了更长持续的说话者模型。第三，滤波器预处理的使用允许模型用于可变的带宽条件；例如，利用诸如多媒体PC之类高保真度采样系统创建的模型可以对经诸如电话系统之类带宽减小输入信道接收的输入起作用。

可以理解的是根据本发明的优选方法实质上适合用于文本独立说话者识别系统以及文本依赖系统。

系统

这样，本发明提供了用于在局域或广域操作并使用不同通信/输入信道的灵活、可靠以及简单语音识别系统的基础。图16所示为在局域网并经因特网操作的广域系统的例子，对数据库系统服务器400的用户进行鉴别，该数据库系统服务器与诸如以太网之类的局域网402相连并经路由器404与因特网406相连。出于鉴别数据库400用户的目的，实现根据本发明说话者识别系统的说话者鉴别系统服务器408与局域网相连。可以明显地将系统的用户直接与局域网402相连。更一般地，位于诸如410和412位置的用户可以经配备有话筒并与其他依次与因特网406相连的局域网相连的台式或笔记本计算机414、416接入系统。其他诸如418、420和422之类的用户可以经公众交换电话网424和因特网服务提供商426利用拨号调制解调器接入系统。

实现

通过使用诸如C或C++之类的任意适当编程语言可以将根据本发明说话者识别系统使用的算法作为计算机程序实现，并且可执行程序可以是任意需要的形式，包括任意硬件/操作系统平台的孤立应用程序、DSP芯片等的嵌入式代码(硬件/固件实现)，或被并入操作系统中(例如MS视窗DLL)。可以用各种形式相似地实现用户接口(出于系统登记和随后系统访问的目的)，包括基于客户服务器系统的网络接口以及基于网络浏览器的接口，其中可以使用例如ActiveX/Java控件或类似来实现语音采样情况。

除了台式和笔记本计算机之外，系统还可以应用于其他的终端装置，包括经电缆和/或无线数据/无线通信网络的掌上型装置、可使用WAP的移动电话等。

应用

本发明提供的具有灵活度和可靠度的说话者识别系统有多种应用。根据本发明的另一方面，一个特定的例子是提供用户访问和/或改变诸如文件或数据库记录之类数字化信息的审计痕迹。与现有技术相同，可以记录这些处理事务以提供有关日期/时间和用户身份的信息。不过，传统系统不能正常地验证或鉴别用户的身份。

优选地，当需要时，可以将使用根据本发明说话者识别系统的说话者识别用于用户身份的验证；例如，当打开和/或编辑和/或保存数字文件、数据库记录或类似时。用与说话者验证过程相关的数据对文件或记录本身进行标记，或将这些数据记录于单独的审计痕迹中，以提供访问或改变被保护文件、记录等的验证记录。被系统辨别为未授权的用户会被拒绝访问或阻止其执行由系统监视的动作。

可以采用如附属权利要求确定的没有脱离本发明范围的改进和改变。

Claims

1.一种使用群组的说话者识别方法，所述群组包括用于多个说话者中的每一个的登记模型，其特征在于所述方法包括：

捕获步骤，捕获来自要求成为登记的说话者之一的说话者的测试语音采样；

建模步骤，建模测试采样，以便提供测试模型；以及

分类步骤，通过将测试模型始终与群组的登记模型之一匹配来分类测试模型，从而由群组的大小决定测试采样的误接受率；

其中，通过执行建模和/或分类步骤使测试采样的误拒绝率为零。

2.根据权利要求1所述的方法，其特征在于所述方法还包括：

为每一个说话者提供群组的多个登记模型，每个登记模型是利用多个并行建模处理中的一个确定的；

将多个并行建模处理应用到测试采样，从而提供相对应的多个测试模型；以及

通过将每个测试模型与群组的登记模型中的一个匹配，对每个测试模型进行分类。

3.根据权利要求2所述的方法，其特征在于并行建模处理包括：

将以下三者中的至少一个应用到语音采样：不同的频带处理、不同的频谱建模处理和不同的聚类处理。

4.根据权利要求2所述的方法，其特征在于并行建模处理包括：将不同的频带处理中的至少一个、不同的频谱建模处理中的至少一个和不同的聚类处理中的至少一个应用到语音采样。

5.根据前述任一权利要求所述的方法，其特征在于分类步骤包括将多个并行分类处理应用到测试模型。

6.根据权利要求5所述的方法，其特征在于包括提供不同的登记说话者群组，其中所述并行分类处理包括：将测试模型与不同的登记说话者群组进行比对测试。

7.根据权利要求1至3之一所述的方法，其特征在于所述方法还包括：将已知噪音信号添加到测试语音采样以便产生修改的测试采样，其中根据修改的测试采样执行建模步骤。

8.根据权利要求5所述的方法，其特征在于所述方法还包括：将已知噪音信号添加到测试语音采样以便产生修改的测试采样，其中根据修改的测试采样执行建模步骤。

9.根据权利要求6所述的方法，其特征在于所述方法还包括：将已知噪音信号添加到测试语音采样以便产生修改的测试采样，其中根据修改的测试采样执行建模步骤。

10.一种使用群组的说话者识别系统，其中所述群组包括用于多个说话者中的每一个的登记模型，其特征在于所述系统包括：

捕获装置，用于捕获来自要求成为登记的说话者之一的说话者的测试语音采样；

建模装置，用于建模测试采样，以便提供测试模型；以及

分类装置，用于通过将测试模型始终与群组的登记模型之一匹配来分类测试模型，从而由群组的大小决定测试模型的误接受率；

其中，利用建模装置和/或分类装置使测试采样的误拒绝率为零。

11.根据权利要求10所述的系统，其特征在于：

群组中的每一个说话者具有多个登记模型，每一个登记模型是利用多个并行建模处理中的一个确定的；以及

提供一装置，用于将多个并行建模处理应用到测试采样，从而提供对应的多个测试模型；并通过将每个测试模型与群组的登记模型中的一个匹配，对每个测试模型进行分类。

12.根据权利要求11所述的系统，其特征在于并行建模处理用于将以下三者中的至少一个应用到语音采样：不同的频带处理、不同的频谱建模处理和不同的聚类处理。

13.根据权利要求11所述的系统，其特征在于并行建模处理用于将不同的频带处理中的至少一个、不同的频谱建模处理中的至少一个和不同的聚类处理中的至少一个应用到语音采样。

14.根据权利要求10至12之一所述的系统，其特征在于分类装置用于将多个并行分类处理应用到测试模型。

15.根据权利要求13所述的系统，其特征在于包括提供不同的登记说话者群组，其中执行所述并行分类处理用于将测试模型与不同的登记说话者群组进行比对测试。

16.根据权利要求11至12之一所述的系统，其特征在于还包括：将已知噪音信号添加到测试语音采样以便产生修改的测试采样的装置，其中建模装置根据修改的测试采样进行操作。

17.根据权利要求13所述的系统，其特征在于还包括：将已知噪音信号添加到测试语音采样以便产生修改的测试采样的装置，其中建模装置根据修改的测试采样进行操作。

18.根据权利要求14所述的系统，其特征在于还包括：将已知噪音信号添加到测试语音采样以便产生修改的测试采样的装置，其中建模装置根据修改的测试采样进行操作。