CN1963918A

CN1963918A - 说话人模板的压缩、合并装置和方法，以及说话人认证

Info

Publication number: CN1963918A
Application number: CNA2005101153005A
Authority: CN
Inventors: 栾剑; 郝杰
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2005-11-11
Filing date: 2005-11-11
Publication date: 2007-05-16
Also published as: JP2007133413A; US20070129944A1

Abstract

本发明提供了说话人模板的压缩方法和装置、将多个说话人模板合并的方法和装置、说话人认证的注册方法和装置、说话人认证的验证方法和装置、以及说话人认证系统。该说话人模板包含多个特征向量。本发明的说话人模板的压缩方法包括：根据一个码本，为说话人模板中的每个上述特征向量指定一个码字，其中上述码本包含多个码字以及每个码字对应的特征向量；以及将上述说话人模板中相邻且被指定的码字相同的多个特征向量用一个特征向量代替。

Description

说话人模板的压缩、合并装置和方法，以及说话人认证

技术领域

本发明涉及信息处理技术，具体地涉及说话人模板(speaker template)的压缩、合并以及说话人认证(speaker authentification)的技术。

背景技术

利用每个人说话时的发音特点可以识别出不同的说话人，从而可以进行说话人的认证。在K.Yu，J.Mason，J.Oglesby发表的文章“Speakerrecognition using hidden Markov models，dynamic time warping andvector quantisation”(Vision，Image and Signal Processing，IEEProceedings，Vol.142，Oct.1995，pp.313-18)中介绍了常见的三种说话人识别引擎技术：HMM，DTW和VQ。

通常，说话人认证的过程包括注册(enrollment)和验证(evaluation)两个阶段。在注册阶段，根据说话人(用户)本人朗读的包含密码的语音，生成该说话人的说话人模板；在验证阶段，根据说话人模板判断测试语音是否为该说话人本人说出的相同密码的语音。因此，说话人模板的质量对于整个认证过程非常重要。

已知为了提高说话人模板的质量，可以采用多个训练语音来构建一个说话人模板。首先选定一个训练语音作为初始模板，然后用DTW的方法将第二个训练语音与之时间对齐，并用两段语音中相对应的特征向量的平均来生成一个新的模板，然后再将第三个训练语音与新模板时间对齐，如此循环直到所有的训练语音都结合到一个独立的模板中，即所谓的模板合并。详细内容可以参考W.H.Abdulla、D.Chow和G.Sin发表的文章“Cross-words reference template for DTW-based speech recognitionsystems”(IEEE TENCON 2003，pp.1576-1579)。

另一方面，如果需要进行模板压缩以节约存储空间，通常会对模板中的特征向量序列进行简单的降采样。详细内容可以参考X.Wen和R.Liu发表的文章“Enhancing the stability of speaker verification withcompressed templates”(ISCSLP 2002，pp.111-114)。但是，采用这种方式压缩模板时会对模板的质量产生影响，并最终导致验证错误的增加。

进而，当仅有少量的训练语音时，往往所有的模板共用一个先验阈值。这样，由于阈值的针对性差，也会导致验证错误率提高的问题。

发明内容

为了解决上述现有技术中存在的问题，本发明提供了说话人模板的压缩方法和装置、将多个说话人模板合并的方法和装置、说话人认证的注册方法和装置、说话人认证的验证方法和装置、以及说话人认证系统。

根据本发明的一个方面，提供了一种说话人模板的压缩方法，其中，该说话人模板包含多个特征向量，该方法包括：根据一个码本，为说话人模板中的每个上述特征向量指定一个码字，其中上述码本包含多个码字以及每个码字对应的特征向量；以及将上述说话人模板中相邻且被指定的码字相同的多个特征向量用一个特征向量代替。

进而，还可以将压缩后的上述说话人模板中的特征向量对应的码字序列保存为背景模板。

根据本发明的另一个方面，提供了一种将多个说话人模板合并的方法，包括：利用前面所述的说话人模板的压缩方法，分别对上述多个说话人模板进行压缩；以及对上述压缩后的多个说话人模板进行DTW合并。

根据本发明的另一个方面，提供了一种将多个说话人模板合并的方法，包括：对上述多个说话人模板进行DTW合并，形成一个单独模板；以及利用前面所述的说话人模板的压缩方法，对上述合并后的说话人模板进行压缩。

根据本发明的另一个方面，提供了一种将多个说话人模板合并的方法，包括：利用前面所述的说话人模板的压缩方法，对上述多个说话人模板中的至少一个说话人模板进行压缩；以及将上述压缩后的至少一个说话人模板与其它的说话人模板DTW合并。

根据本发明的另一个方面，提供了一种说话人认证的注册方法，包括：根据说话人输入的多个语音生成多个说话人模板；以及利用前面所述的将多个说话人模板合并的方法，将上述生成的多个说话人模板合并。

根据本发明的另一个方面，提供了一种说话人认证的验证方法，包括：输入语音；以及根据说话人模板，判断该输入的语音是否为说话人本人说出的注册密码语音，其中，上述说话人模板是利用前面所述的说话人模板的压缩方法生成的。

根据本发明的另一个方面，提供了一种说话人认证的验证方法，包括：输入语音；以及根据说话人模板和背景模板，判断该输入的语音是否为说话人本人说出的注册密码语音，其中，上述说话人模板和背景模板是利用前面所述的说话人模板的压缩方法生成的。

根据本发明的另一个方面，提供了一种说话人模板的压缩装置，其中，该说话人模板包含多个特征向量，包括：码字指定单元(code designatingunit)，其根据一个码本为说话人模板中的每个上述特征向量指定一个码字，其中上述码本包含多个码字以及每个码字对应的特征向量；以及向量合并单元(vector merging unit)，其将上述说话人模板中相邻且被指定的码字相同的多个特征向量用一个特征向量代替。

根据本发明的另一个方面，提供了一种将多个说话人模板合并的装置，包括：前面所述的说话人模板的压缩装置；以及DTW合并装置(DTWmerging unit)，用于对两个说话人模板进行DTW合并。

根据本发明的另一个方面，提供了一种说话人认证的注册装置，包括：模板生成装置(template generator)，用于根据说话人输入的语音生成说话人模板；以及前面所述的将多个说话人模板合并的装置，将由上述模板生成装置生成的多个说话人模板合并。

根据本发明的另一个方面，提供了一种说话人认证的验证装置，包括：语音输入单元(utterance input unit)，用于输入语音；声学特征提取单元(acoustic feature extractor)，用于从上述输入的语音提取声学特征；以及匹配得分计算单元(matching score calculator)，用于计算上述提取出的声学特征与相应的说话人模板的DTW匹配得分，其中，上述说话人模板是利用前面所述的说话人模板的压缩方法生成的；其中，通过比较上述计算出的DTW匹配得分和预先设定的分辨阈值，判断输入的语音是否为说话人本人说出的注册密码语音。

根据本发明的另一个方面，提供了一种说话人认证的验证装置，包括：语音输入单元(utterance input unit)，用于输入语音；声学特征提取单元(acoustic feature extractor)，用于从上述输入的语音提取声学特征；匹配得分计算单元(matching score calculator)，计算上述提取出的声学特征与说话人模板的DTW匹配得分，以及计算上述提取出的声学特征与背景模板的DTW匹配得分，其中上述说话人模板和背景模板是利用前面所述的说话人模板的压缩方法生成的；以及归一化单元(normalizing unit)，其利用上述提取出的声学特征与上述背景模板的DTW匹配得分，对上述提取出的声学特征与上述说话人模板的DTW匹配得分进行归一化；其中，比较上述归一化后的DTW匹配得分和一个阈值，判断输入的语音是否为说话人本人说出的注册密码语音。

根据本发明的另一个方面，提供了一种说话人认证的验证装置，包括：语音输入单元(utterance input unit)，用于输入语音；声学特征提取单元(acoustic feature extractor)，用于从上述输入的语音提取声学特征；匹配得分计算单元(matching score calculator)，用于计算上述提取出的声学特征与说话人模板的DTW匹配得分，以及计算上述说话人模板与背景模板的DTW匹配得分；其中上述说话人模板和背景模板是利用前面所述的说话人模板的压缩方法生成的；以及归一化单元(normalizing unit)，其利用上述说话人模板与上述背景模板的DTW匹配得分，对上述提取出的声学特征与上述说话人模板的DTW匹配得分进行归一化；其中，比较上述归一化后的DTW匹配得分和一个阈值，判断输入的语音是否为说话人本人说出的注册密码语音。

根据本发明的另一个方面，提供了一种说话人认证系统，包括：前面所述的说话人认证的注册装置；以及前面所述的说话人认证的验证装置。

附图说明

相信通过以下结合附图对本发明具体实施方式的说明，能够使人们更好地了解本发明上述的特点、优点和目的。

图1是根据本发明一个实施例的说话人模板的压缩方法的流程图；

图2是根据本发明另一个实施例的说话人模板的压缩方法的流程图；

图3A～3C是根据本发明的三个实施例的将多个说话人模板合并的方法的流程图；

图4是根据本发明的一个实施例的说话人认证的验证方法的流程图；

图5是根据本发明的另一个实施例的说话人认证的验证方法的流程图；

图6是根据本发明的再另一个实施例的说话人认证的验证方法的流程图；

图7是根据本发明一个实施例的说话人模板的压缩装置的方框图；

图8是根据本发明一个实施例的将多个说话人模板合并的装置的方框图；

图9是根据本发明一个实施例的说话人认证的注册装置的方框图；

图10是根据本发明一个实施例的说话人认证的验证装置的方框图；

图11是根据本发明另一个实施例的说话人认证的验证装置的方框图；以及

图12是根据本发明一个实施例的说话人认证系统的方框图。

具体实施方式

下面就结合附图对本发明的各个优选实施例进行详细的说明。

图1是根据本发明一个实施例的说话人模板的压缩方法的流程图。如图1所示，首先在步骤101，在码本中为需要压缩的说话人模板中的每个特征向量查找与之最接近的特征向量。在本实施例中使用的码本是在整个应用的声学空间中训练出的码本，例如，对于中文语言应用环境来说，该码本需要能够涵盖中文语音的声学空间；对于英文语言应用环境来说，该码本则需要能够涵盖英文语音的声学空间。当然，对于一些特殊用途的应用环境，也可以相应的改变码本所涵盖的声学空间。

本实施例的码本包含多个码字以及每个码字对应的特征向量。码字的数量取决于声学空间的大小、希望的压缩比例和希望的压缩质量。声学空间越大需要的码字的数量越大。在同样的声学空间的条件下，码字的数量越小，压缩比例越高；码字的数量越大，压缩的模板质量越高。根据本发明的一个优选实施例，在普通中文语音的声学空间下，码字的数量优选为256至512。当然，根据不同需要，可以适当调节码本的码字数量和涵盖的声学空间。

在本步骤中，可以通过计算说话人模板中的特征向量和码本中每个特征向量的距离(例如，欧氏距离)，来找出最接近的特征向量。

接着，在步骤105，将码本中与该最接近的特征向量对应的码字指定给说话人模板中对应的特征向量。

然后，将说话人模板中相邻且被指定的码字相同的多个特征向量用一个特征向量代替。具体地，根据本实施例，首先，计算上述相邻且码字相同的一组特征向量的平均向量，然后，用计算的平均向量代替上述相邻且码字相同的一组特征向量。

如果在说话人模板中存在有多组这样的相邻且码字相同的多个特征向量，则可以按照上述方式逐一地进行替换。这样，逐一地将多个特征向量替换为一个特征向量，说话人模板中的特征向量的数量就减少了，模板也就被压缩了。

通过以上描述可知，如果采用本实施例的说话人模板的压缩方法，可以对说话人模板进行压缩，在本优选实施例的情况下可以将说话人模板压缩到原长度的约三分之一，大大节省了系统所需的存储空间。并且，由于不是采用单纯的降采样，而是将接近的连续特征向量(相邻且码字相同的多个特征向量)用它们的平均代替，系统的性能还得到了提高。

在此需要指出，在本优选实施例中虽然采用MFCC(Mel FrequencyCepstrum Coefficient，Mel频率倒谱系数)的方式来表示语音的声学特征。但是，本发明对此并没有特别的限制，也可以采用已知的和未来的其它方式来表示语音的声学特征，例如，LPCC(Linear Predictive CepstrumCoefficient，线性预测倒谱系数)或者其它基于能量、基音频率或小波分析等得到的各种系数等，只要是能够表现说话人的个人语音特点即可。

另外，根据本实施例的一个变形例，不是将接近的连续特征向量(相邻且码字相同的多个特征向量)用它们的平均代替，而是，从相邻且码字相同的一组特征向量中随机选择一个代表向量，用这个代表向量代替这些相邻且码字相同的多个特征向量。

可替代地，也可以从相邻且码字相同的多个特征向量中选择与码本中该码字对应的特征向量最接近的特征向量作为代表向量，用这个代表向量代替这些相邻且码字相同的多个特征向量。

另外，可替代地，也可以用码本中与该码字对应的特征向量代替这些相邻且码字相同的多个特征向量。

另外，可替代地，也可以计算相邻且被指定的码字相同的多个特征向量的每一个和上述码本中与该码字对应的特征向量的距离；然后，从这些相邻且码字相同的多个特征向量中除去一个或多个距离最远的特征向量，计算剩余的特征向量的平均向量；最后用计算出的平均向量代替上述相邻且码字相同的多个特征向量。

图2是根据本发明另一个实施例的说话人模板的压缩方法的流程图。下面就结合该图，对本实施例进行描述。对于那些与前面实施例相同的部分，适当省略其说明。

如图2所示，本实施例的说话人模板的压缩方法的步骤101至110与图1所示的实施例相同，在此不再重复。

在用一个特征向量代替模板中相邻且码字相同的多个特征向量(步骤110)之后，在步骤215，将压缩后的说话人模板中的特征向量对应的码字序列保存为背景模板。具体地，经过前面步骤101至110将说话人模板压缩之后，模板中包含有相对于原始模板数量减少了的特征向量，这些特征向量构成了一个特征向量序列，并且，每个特征向量都被指定了一个码字，于是，这个特征向量序列也就对应了一个码字序列。在本步骤中，就是将这个码字序列保存作为背景模板。

这样，本实施例的说话人模板的压缩方法不仅可以生成一个压缩了的说话人模板，而且还生成了一个背景模板。这个背景模板将被后面描述的说话人认证的验证方法和装置用来对匹配得分进行归一化，从而提高验证的准确性。

在同一发明构思下，图3A～3C是根据本发明的三个实施例的将多个说话人模板合并的方法的流程图。下面就结合图3，对这些实施例进行描述。对于那些与前面实施例相同的部分，适当省略其说明。

如图3A所示，该实施例的将多个说话人模板合并的方法，首先在步骤3101，利用前面所述实施例的说话人模板的压缩方法，分别对要合并的多个说话人模板进行压缩。

然后，在步骤3105，逐一地对压缩后的多个说话人模板进行DTW合并。具体地，可以采用现有的模板合并方法，如前面引用的W.H.Abdulla、D.Chow和G.Sin发表的文章“Cross-words reference template forDTW-based speech recognition systems”(IEEE TENCON 2003，pp.1576-1579)中所描述的那样，首先选定一个模板作为初始模板，然后用DTW的方法将第二个模板与之时间对齐，并用两个模板中相对应的特征向量的平均来生成一个新的模板，然后再将第三个模板与新模板时间对齐，如此循环直到所有的训练语音都结合到一个单独的模板中。在本申请中，将这种模板合并方法称为DTW合并。

通过上面描述可知，如果采用本实施例的将多个说话人模板合并的方法，由于每一个说话人模板在DTW合并之前已经用前面实施例的模板压缩方法进行了压缩，因此，合并后的说话人模板的长度大大减小，从而可以节省存储空间。

如图3B所示，该实施例的将多个说话人模板合并的方法，首先在步骤3201，逐一地对多个说话人模板进行DTW合并，形成一个单独的模板。

然后，在步骤3205，利用前面所述实施例的说话人模板的压缩方法，对DTW合并后的单独说话人模板进行压缩。

如果采用本实施例的将多个说话人模板合并的方法，由于在DTW合并后，又用前面实施例的模板压缩方法对说话人模板进行了压缩，因此，合并后的说话人模板的长度大大减小，从而可以节省存储空间。

如图3C所示，该实施例的将多个说话人模板合并的方法，首先在步骤3301，利用前面所述实施例的说话人模板的压缩方法，对要合并的多个说话人模板中的一个模板进行压缩。

然后，在步骤3305，逐一地将压缩后的说话人模板与剩下的模板进行DTW合并。在此需要指出，在步骤3305的DTW合并过程中，需要以压缩后的说话人模板为基准模板。因为，DTW合并后的模板中的特征向量的数量是以基准模板为准的，也就是说，在两个模板DTW对齐之后，以基准模板的每个特征向量为单位进行平均和合并。因此，如果以未压缩的模板为基准模板进行DTW合并，那么最后就取得不了减少特征向量的数量的效果。

通过上面描述可知，如果采用本实施例的将多个说话人模板合并的方法，同样可以减小说话人模板的长度，从而可以节省存储空间。

另外，在步骤3301中，也可以利用上书压缩方法，将要合并的多个模板中的一个以上的模板压缩。

在同一发明构思下，根据本发明的一个实施例，还提供了一种说话人认证的注册方法。本实施例的说话人认证的注册方法，首先，根据说话人输入的多个语音生成多个说话人模板。具体地，可以采用以往的生成模板方式，例如，采样提取语音中的声学特征，根据提取出的声学特征形成说话人模板。关于声学特征和模板内容，前面已经进行了说明，在此不再重复。

接着，利用前面所述实施例的将多个说话人模板合并的方法，将生成的多个说话人模板合并。

这样，如果采用本实施例的说话人认证的注册方法，与以往的方法相比，可以减小生成的说话人模板的长度，从而可以节省存储空间。并且，由于不是采用单纯的降采样的方式，所以不会过多地影响说话人模板的质量。

在同一发明构思下，图4是根据本发明的一个实施例的说话人认证的验证方法的流程图。下面就结合该图，对本实施例进行描述。对于那些与前面实施例相同的部分，适当省略其说明。

如图4所示，首先在步骤401，输入测试语音。接着，在步骤405，从上述输入的测试语音提取声学特征。与前面描述的实施例相同，本发明对于声学特征并没有特别的限制，可以采用例如，MFCC、LPCC或者其它基于能量、基音频率或小波分析等得到的各种系数等，只要是能够表现说话人的个人语音特点即可；但是，应当与用户注册时生成的说话人模板中采用的方式相对应。

接着，在步骤410，计算提取出的声学特征与说话人模板中包含的声学特征的DTW匹配距离。在此，本实施例中的说话人模板是利用前面实施例的说话人模板的压缩方法生成的说话人模板。

然后，在步骤415，判断上述DTW匹配距离是否小于预先设定的分辨阈值。如果是，则在步骤420认定是同一说话人说出的相同的密码，验证成功；如果否，则在步骤425认定验证失败。

通过以上描述可知，如果采用本实施例的说话人认证的验证方法，可以利用前面实施例的说话人模板的压缩方法生成的说话人模板，对用户进行语音验证。由于说话人模板的数据量大大减小，因此，验证时可以大大减少运算量和存储空间，可以适用于处理能力和存储能力有限的终端设备。

图5是根据本发明的另一个实施例的说话人认证的验证方法的流程图。下面就结合该图，对本实施例进行描述。对于那些与前面实施例相同的部分，适当省略其说明。

本实施例与图4所示的实施例的区别在于，本实施例不仅使用了由前面实施例的说话人模板的压缩方法生成的说话人模板，而且使用了由前面实施例的说话人模板的压缩方法生成的背景模板来对判决进行归一化。

如图5所示，在步骤401至410，本实施例与前面图4所示的实施例基本相同。接着，在步骤515，计算从测试语音中提取出的声学特征与背景模板的DTW匹配得分。具体地，如前面实施例所述，背景模板包含与压缩后的说话人模板中的特征向量对应的码字序列。在本步骤中，根据码本中与上述码字序列中每个码字对应的特征向量，将背景模板中的码字序列转换为特征向量序列；然后，计算由背景模板转换的特征向量序列与从测试语音中提取出的声学特征的DTW匹配得分。

接着，在步骤520，利用测试语音的声学特征与上述背景模板的DTW匹配得分，对测试语音的声学特征与说话人模板的DTW匹配得分进行归一化。即，测试语音的声学特征与说话人模板的DTW匹配得分减去测试语音的声学特征与上述背景模板的DTW匹配得分。

接着，在步骤525，比较上述归一化后的DTW匹配得分和一个阈值，来判断测试语音是否为说话人本人说出的注册密码语音。

如果归一化后的DTW匹配得分小于阈值，则在步骤530，认定是同一说话人说出的相同的密码，验证成功；如果否，则在步骤535认定验证失败。

通过以上描述可知，如果采用本实施例的说话人认证的验证方法，可以利用前面实施例的说话人模板的压缩方法生成的说话人模板，对用户进行语音验证。由于说话人模板的数据量大大减小，因此，验证时可以大大减少运算量和存储空间，可以适用于处理能力和存储能力有限的终端设备。进而，本实施例也为基于模板匹配的说话人验证系统提供了匹配得分的归一化方法。这样相当于为每一个模板设置了不同的最优阈值，使得系统性能大大提高。也就是说，即使采用统一的阈值，也可以根据不同的说话人模板和背景模板进行适当的判断。

图6是根据本发明的另一个实施例的说话人认证的验证方法的流程图。下面就结合该图，对本实施例进行描述。对于那些与前面实施例相同的部分，适当省略其说明。

本实施例与图5所示的实施例类似，不仅使用了利用前面实施例的说话人模板的压缩方法生成的说话人模板，而且使用了前面实施例的说话人模板的压缩方法生成的背景模板来对判决进行归一化。

如图6所示，在步骤401至410，本实施例与前面图4和图5所示的实施例基本相同。接着，在步骤615，计算背景模板与说话人模板的DTW匹配得分。具体地，如前面实施例所述，背景模板包含与压缩后的说话人模板中的特征向量对应的码字序列。在本步骤中，根据码本中与上述码字序列中每个码字对应的特征向量，将背景模板中的码字序列转换为特征向量序列；然后，计算由背景模板转换的特征向量序列与说话人模板中的声学特征的DTW匹配得分。

接着，在步骤620，利用背景模板与说话人模板的DTW匹配得分，对测试语音的声学特征与说话人模板的DTW匹配得分进行归一化。即，测试语音的声学特征与说话人模板的DTW匹配得分减去背景模板与说话人模板的DTW匹配得分。

接着，在步骤625，比较上述归一化后的DTW匹配得分和一个阈值，来判断测试语音是否为说话人本人说出的注册密码语音。

如果归一化后的DTW匹配得分小于阈值，则在步骤630，认定是同一说话人说出的相同的密码，验证成功；如果否，则在步骤635认定验证失败。

在同一发明构思下，图7是根据本发明一个实施例的说话人模板的压缩装置的方框图。下面就结合该图，对本实施例进行描述。对于那些与前面实施例相同的部分，适当省略其说明。

如图7所示，本实施例的说话人模板的压缩装置700包括：码字指定单元(code designating unit)701，其根据码本为说话人模板中的每个特征向量指定一个码字，关于码本和说话人模板的内容，前面已经进行了描述在此不再重复；向量合并单元(vector merging unit)705，其将说话人模板中相邻且被指定的码字相同的多个特征向量用一个特征向量代替。

进而，说话人模板的压缩装置700还包括：向量距离计算单元(vectordistance calculator)703，用于计算两个向量之间的距离；和码字查找单元(code search unit)704，其利用向量距离计算单元703，在码本中查找与一个给定的特征向量最接近的特征向量及其对应的码字。这样，码字指定单元701可以利用码字查找单元704，为说话人模板中的每个特征向量在码本中找到一个最接近的特征向量，并将其对应的码字指定给模板中的该特征向量。

如图7所示，说话人模板的压缩装置700还包括：平均向量计算单元(average vector calculator)706，用于计算多个特征向量的平均向量。这样，向量合并单元705就可以用平均向量计算单元706计算相邻且码字相同的多个特征向量的平均向量，来代替上述相邻且码字相同的多个特征向量。

另外，根据本实施例的一个变形例，上述向量合并单元705也可以用平均向量计算单元706计算相邻且被指定的码字相同的多个特征向量中除去至少一个距离最远的特征向量剩余的特征向量的平均向量，来代替上述相邻且码字相同的多个特征向量。

可替代地，上述向量合并单元705也可以从相邻且码字相同的多个特征向量中随机选择一个代表向量来代替上述相邻且码字相同的多个特征向量。

可替代地，上述向量合并单元705也可以从相邻且码字相同的多个特征向量中选择与码本中该码字对应的特征向量最接近的特征向量来代替上述相邻且码字相同的多个特征向量。

可替代地，上述向量合并单元705也可以用码本中与该码字对应的特征向量代替上述相邻且码字相同的多个特征向量。

另外，根据本实施例的一个变形例，说话人模板的压缩装置700还可以包括：背景模板生成单元(background template generator)，其将压缩后的说话人模板中的特征向量对应的码字序列保存为背景模板。

本实施例的说话人模板的压缩装置700及其各个组成部分，可以由专用的电路或芯片构成，也可以通过计算机(处理器)执行相应的程序来实现。并且，本实施例的说话人模板的压缩装置700，操作上可以实现前面实施例的说话人模板的压缩方法。

在同一发明构思下，图8是根据本发明一个实施例的将多个说话人模板合并的装置的方框图。下面就结合该图，对本实施例进行描述。对于那些与前面实施例相同的部分，适当省略其说明。

如图8所示，本实施例的将多个说话人模板合并的装置800，包括：说话人模板的压缩装置700，其可以是前面结合图7描述的实施例的说话人模板的压缩装置；以及DTW合并装置(DTW merging unit)801，用于对两个说话人模板进行DTW合并，如前面所述，可以采用现有的DTW合并方法，将两个说话人模板合并。

本实施例的将多个说话人模板合并的装置800及其各个组成部分，可以由专用的电路或芯片构成，也可以通过计算机(处理器)执行相应的程序来实现。并且，本实施例的将多个说话人模板合并的装置800，操作上可以实现前面结合图3A～3C描述的实施例的将多个说话人模板合并的方法。

在同一发明构思下，图9是根据本发明一个实施例的说话人认证的注册装置的方框图。下面就结合该图，对本实施例进行描述。对于那些与前面实施例相同的部分，适当省略其说明。

如图9所示，本实施例的说话人认证的注册装置900，包括：模板生成装置(template generator)901，用于根据说话人输入的语音生成说话人模板，如前面所述，可以采用以往的生成模板方式，例如，采样提取语音中的声学特征，根据提取出的声学特征形成说话人模板；以及说话人模板合并装置800，其可以是前面结合图7描述的实施例的将多个说话人模板合并的装置，用于将由模板生成装置901生成的多个说话人模板合并。

本实施例的说话人认证的注册装置900及其各个组成部分，可以由专用的电路或芯片构成，也可以通过计算机(处理器)执行相应的程序来实现。并且，本实施例的说话人认证的注册装置900，操作上可以实现前面实施例的说话人认证的注册方法。

在同一发明构思下，图10是根据本发明一个实施例的说话人认证的验证装置的方框图。下面就结合该图，对本实施例进行描述。对于那些与前面实施例相同的部分，适当省略其说明。

如图10所示，本实施例的说话人认证的验证装置1000，包括：语音输入单元(utterance input unit)1001，用于输入语音；声学特征提取单元(acoustic feature extractor)1002，用于从上述输入的语音提取声学特征；匹配得分计算单元(matching score calculator)1003，用于计算由声学特征提取单元1002提取出的声学特征与说话人模板1004的DTW匹配得分，其中，说话人模板1004是前面所述实施例的说话人模板的压缩方法生成的。本实施例的说话人认证的验证装置1000通过比较上述计算出的DTW匹配得分和预先设定的分辨阈值，判断输入的语音是否为说话人本人说出的注册密码语音。

本实施例的说话人认证的验证装置1000及其各个组成部分，可以由专用的电路或芯片构成，也可以通过计算机(处理器)执行相应的程序来实现。并且，本实施例的说话人认证的验证装置1000，操作上可以实现前面结合图4说明的实施例的说话人认证的验证方法。

图11是根据本发明的另一个实施例的说话人认证的验证装置的方框图。下面就结合该图，对本实施例进行描述。对于那些与前面实施例相同的部分，适当省略其说明。

如图11所示，与前面实施例相同，本实施例的说话人认证的验证装置1100包括语音输入单元1001和声学特征提取单元1002。与前面实施例的不同之处在于，本实施例除了使用前面实施例的说话人模板的压缩方法生成的说话人模板1004以外，还使用前面所述实施例的说话人模板的压缩方法生成的背景模板1103。

本实施例的说话人认证的验证装置1100还包括：匹配得分计算单元(matching score calculator)1101，计算由声学特征提取单元1002提取出的声学特征与说话人模板1004的DTW匹配得分，并且计算由声学特征提取单元1002提取出的声学特征与背景模板1103的DTW匹配得分；以及归一化单元(normalizing unit)1102，其利用提取出的声学特征与背景模板的DTW匹配得分，对提取出的声学特征与说话人模板的DTW匹配得分进行归一化。这样，本实施例的说话人认证的验证装置1100就可以比较上述归一化后的DTW匹配得分和一个阈值，判断输入的语音是否为说话人本人说出的注册密码语音。

可替代地，根据本实施例的一个变形例，匹配得分计算单元(matchingscore calculator)1101，也可以计算由声学特征提取单元1002提取出的声学特征与说话人模板1004的DTW匹配得分，并且计算说话人模板1004与背景模板1103的DTW匹配得分。归一化单元(normalizing unit)1102，则利用说话人模板1004与背景模板1103的DTW匹配得分，对提取出的声学特征与说话人模板1004的DTW匹配得分进行归一化。这样，本变形例的说话人认证的验证装置1100也可以比较上述归一化后的DTW匹配得分和一个阈值，判断输入的语音是否为说话人本人说出的注册密码语音。

本实施例的说话人认证的验证装置1100及其各个组成部分，可以由专用的电路或芯片构成，也可以通过计算机(处理器)执行相应的程序来实现。并且，本实施例的说话人认证的验证装置1100，操作上可以实现前面结合图5和图6说明的实施例的说话人认证的验证方法。

在同一发明构思下，图12是根据本发明一个实施例的说话人认证系统的方框图。下面就结合该图，对本实施例进行描述。对于那些与前面实施例相同的部分，适当省略其说明。

如图12所示，本实施例的说话人认证系统包括：注册装置900，其可以为前面实施例描述的说话人认证的注册装置；以及验证装置1100，其可以为前面实施例描述的说话人认证的验证装置。由注册装置900生成的说话人模板，通过任意的通信方式，例如，网络、内部信道、磁盘等记录媒体等，传递给验证装置1100。

这样，如果采用本实施例的说话人认证系统，由于说话人模板的数据量大大减小，因此，验证时可以大大减少运算量和存储空间。进而，如果在验证装置1100中使用背景模板进行归一化，还可以进一步提高系统性能

以上虽然通过一些示例性的实施例对本发明的说话人模板的压缩方法和装置、将多个说话人模板合并的方法和装置、说话人认证的注册方法和装置、说话人认证的验证方法和装置、以及说话人认证系统。进行了详细的描述，但是以上这些实施例并不是穷举的，本领域技术人员可以在本发明的精神和范围内实现各种变化和修改。因此，本发明并不限于这些实施例，本发明的范围仅由所附权利要求为准。

Claims

1.一种说话人模板的压缩方法，其中，该说话人模板包含多个特征向量，该方法包括：

根据一个码本，为说话人模板中的每个上述特征向量指定一个码字，其中上述码本包含多个码字以及每个码字对应的特征向量；以及

将上述说话人模板中相邻且被指定的码字相同的多个特征向量用一个特征向量代替。

2.根据权利要求1所述的说话人模板的压缩方法，其中，上述为每个上述特征向量指定一个码字的步骤包括：

为说话人模板中的每个上述特征向量查找码本中与之最接近的特征向量；以及

将上述最接近的特征向量对应的码字指定给上述说话人模板中的该特征向量。

3.根据权利要求1-2的任意一项所述的说话人模板的压缩方法，其中，上述将相邻且被指定的码字相同的多个特征向量用一个特征向量代替的步骤包括：

计算上述相邻且码字相同的多个特征向量的平均向量；以及

用上述计算的平均向量代替上述相邻且码字相同的多个特征向量。

4.根据权利要求1-2的任意一项所述的说话人模板的压缩方法，其中，上述将相邻且被指定的码字相同的多个特征向量用一个特征向量代替的步骤包括：

从上述相邻且码字相同的多个特征向量中随机选择一个代表向量；以及

用上述代表向量代替上述相邻且码字相同的多个特征向量。

5.根据权利要求1-2的任意一项所述的说话人模板的压缩方法，其中，上述将相邻且被指定的码字相同的多个特征向量用一个特征向量代替的步骤包括：

从上述相邻且码字相同的多个特征向量中选择与码本中该码字对应的特征向量最接近的特征向量作为代表向量；以及

用上述代表向量代替上述相邻且码字相同的多个特征向量。

6.根据权利要求1-2的任意一项所述的说话人模板的压缩方法，其中，上述将相邻且被指定的码字相同的多个特征向量用一个特征向量代替的步骤包括：

用上述码本中与该码字对应的特征向量代替上述相邻且码字相同的多个特征向量。

7.根据权利要求1-2的任意一项所述的说话人模板的压缩方法，其中，上述将相邻且被指定的码字相同的多个特征向量用一个特征向量代替的步骤包括：

计算上述相邻且被指定的码字相同的多个特征向量的每一个和上述码本中与该码字对应的特征向量的距离；

计算上述相邻且码字相同的多个特征向量中除去至少一个上述计算出的距离最远的特征向量剩余的特征向量的平均向量；以及

8.根据前面任意一项权利要求所述的说话人模板的压缩方法，进一步包括：

将压缩后的上述说话人模板中的特征向量对应的码字序列保存为背景模板。

9.一种将多个说话人模板合并的方法，包括：

利用权利要求1～8任意一项所述的说话人模板的压缩方法，分别对上述多个说话人模板进行压缩；以及

对上述压缩后的多个说话人模板进行DTW合并。

10.一种将多个说话人模板合并的方法，包括：

对上述多个说话人模板进行DTW合并，形成一个单独模板；以及

利用权利要求1～8任意一项所述的说话人模板的压缩方法，对上述合并后的说话人模板进行压缩。

11.一种将多个说话人模板合并的方法，包括：

利用权利要求1～8任意一项所述的说话人模板的压缩方法，对上述多个说话人模板中的至少一个说话人模板进行压缩；以及

将上述压缩后的至少一个说话人模板与其它的说话人模板DTW合并。

12.一种说话人认证的注册方法，包括：

根据说话人输入的多个语音生成多个说话人模板；以及

利用权利要求9～11任意一项所述的将多个说话人模板合并的方法，将上述生成的多个说话人模板合并。

13.一种说话人认证的验证方法，包括：

输入语音；以及

根据说话人模板，判断该输入的语音是否为说话人本人说出的注册密码语音，其中，上述说话人模板是利用权利要求1～8任意一项所述的说话人模板的压缩方法生成的。

14.根据权利要求13所述的说话人认证的验证方法，其中，判断该输入的语音是否为说话人本人说出的注册密码语音的步骤包括：

从上述输入的语音提取声学特征；

计算上述提取出的声学特征与上述说话人模板的DTW匹配得分；以及

比较上述计算出的DTW匹配得分和一个阈值，判断输入的语音是否为说话人本人说出的注册密码语音。

15.一种说话人认证的验证方法，包括：

输入语音；以及

根据说话人模板和背景模板，判断该输入的语音是否为说话人本人说出的注册密码语音，其中，上述说话人模板和背景模板是利用权利要求8所述的说话人模板的压缩方法生成的。

16.根据权利要求15所述的说话人认证的验证方法，其中，判断该输入的语音是否为说话人本人说出的注册密码语音的步骤包括：

从上述输入的语音提取声学特征；

计算上述提取出的声学特征与上述说话人模板的DTW匹配得分；

计算上述提取出的声学特征与上述背景模板的DTW匹配得分；

利用上述提取出的声学特征与上述背景模板的DTW匹配得分，对上述提取出的声学特征与上述说话人模板的DTW匹配得分进行归一化；以及

比较上述归一化后的DTW匹配得分和一个阈值，判断输入的语音是否为说话人本人说出的注册密码语音。

17.根据权利要求15所述的说话人认证的验证方法，其中，判断该输入的语音是否为说话人本人说出的注册密码语音的步骤包括：

从上述输入的语音提取声学特征；

计算上述说话人模板与上述背景模板的DTW匹配得分；

利用上述说话人模板与上述背景模板的DTW匹配得分，对上述提取出的声学特征与上述说话人模板的DTW匹配得分进行归一化；以及

18.一种说话人模板的压缩装置，其中，该说话人模板包含多个特征向量，包括：

码字指定单元(code designating unit)，其根据一个码本为说话人模板中的每个上述特征向量指定一个码字，其中上述码本包含多个码字以及每个码字对应的特征向量；以及

向量合并单元(vector merging unit)，其将上述说话人模板中相邻且被指定的码字相同的多个特征向量用一个特征向量代替。

19.根据权利要求18所述的说话人模板的压缩装置，进一步包括：

向量距离计算单元(vector distance calculator)，用于计算两个向量之间的距离；以及

码字查找单元(code search unit)，其利用上述向量距离计算单元，在码本中查找与一个给定的特征向量最接近的特征向量及其对应的码字。

20.根据权利要求18-19的任意一项所述的说话人模板的压缩装置，进一步包括：

平均向量计算单元(average vector calculator)，用于计算多个特征向量的平均向量。

21.根据权利要求20所述的说话人模板的压缩装置，其中，上述向量合并单元，用上述平均向量计算单元计算的上述相邻且码字相同的多个特征向量的平均向量代替上述相邻且码字相同的多个特征向量。

22.根据权利要求20所述的说话人模板的压缩装置，上述向量合并单元，用上述平均向量计算单元计算的上述相邻且被指定的码字相同的多个特征向量中除去至少一个距离最远的特征向量剩余的特征向量的平均向量代替上述相邻且码字相同的多个特征向量。

23.根据权利要求18-19的任意一项所述的说话人模板的压缩装置，其中，上述向量合并单元，从上述相邻且码字相同的多个特征向量中随机选择一个代表向量来代替上述相邻且码字相同的多个特征向量。

24.根据权利要求18-19的任意一项所述的说话人模板的压缩装置，其中，上述向量合并单元，从上述相邻且码字相同的多个特征向量中选择与码本中该码字对应的特征向量最接近的特征向量来代替上述相邻且码字相同的多个特征向量。

25.根据权利要求18-19的任意一项所述的说话人模板的压缩装置，其中，上述向量合并单元，用上述码本中与该码字对应的特征向量代替上述相邻且码字相同的多个特征向量。

26.根据权利要求18-25的任意一项所述的说话人模板的压缩装置，进一步包括：

背景模板生成单元(background template generator)，其将压缩后的上述说话人模板中的特征向量对应的码字序列保存为背景模板。

27.一种将多个说话人模板合并的装置，包括：

根据权利要求18～26的任意一项所述的说话人模板的压缩装置；以及

DTW合并装置(DTW merging unit)，用于对两个说话人模板进行DTW合并。

28.一种说话人认证的注册装置，包括：

模板生成装置(template generator)，用于根据说话人输入的语音生成说话人模板；以及

根据权利要求27所述的将多个说话人模板合并的装置，将由上述模板生成装置生成的多个说话人模板合并。

29.一种说话人认证的验证装置，包括：

语音输入单元(utterance input unit)，用于输入语音；

声学特征提取单元(acoustic feature extractor)，用于从上述输入的语音提取声学特征；以及

匹配得分计算单元(matching score calculator)，用于计算上述提取出的声学特征与相应的说话人模板的DTW匹配得分，其中，上述说话人模板是利用权利要求1～8的任意一项所述的说话人模板的压缩方法生成的；

其中，通过比较上述计算出的DTW匹配得分和预先设定的分辨阈值，判断输入的语音是否为说话人本人说出的注册密码语音。

30.一种说话人认证的验证装置，包括：

语音输入单元(utterance input unit)，用于输入语音；

声学特征提取单元(acoustic feature extractor)，用于从上述输入的语音提取声学特征；

匹配得分计算单元(matching score calculator)，计算上述提取出的声学特征与说话人模板的DTW匹配得分，以及计算上述提取出的声学特征与背景模板的DTW匹配得分，其中上述说话人模板和背景模板是利用权利要求8所述的说话人模板的压缩方法生成的；以及

归一化单元(normalizing unit)，其利用上述提取出的声学特征与上述背景模板的DTW匹配得分，对上述提取出的声学特征与上述说话人模板的DTW匹配得分进行归一化；

其中，比较上述归一化后的DTW匹配得分和一个阈值，判断输入的语音是否为说话人本人说出的注册密码语音。

31.一种说话人认证的验证装置，包括：

语音输入单元(utterance input unit)，用于输入语音；

匹配得分计算单元(matching score calculator)，用于计算上述提取出的声学特征与说话人模板的DTW匹配得分，以及计算上述说话人模板与背景模板的DTW匹配得分；其中上述说话人模板和背景模板是利用权利要求8所述的说话人模板的压缩方法生成的；以及

归一化单元(normalizing unit)，其利用上述说话人模板与上述背景模板的DTW匹配得分，对上述提取出的声学特征与上述说话人模板的DTW匹配得分进行归一化；

32.一种说话人认证系统，包括：

根据权利要求28所述的说话人认证的注册装置；以及

根据权利要求29～31的任意一项所述的说话人认证的验证装置。