CN1174374C

CN1174374C - 并发进行语音识别、说话者分段和分类的方法

Info

Publication number: CN1174374C
Application number: CNB001183885A
Authority: CN
Inventors: ��¡�Ī��¡��; 赫马永·萨德·莫哈马德·贝吉; ¶; 阿兰·查尔斯·露易斯·特里西勒; ��ά˹��ɽ; 马赫西·维斯瓦纳山
Original assignee: International Business Machines Corp
Current assignee: Nuance Communications Inc
Priority date: 1999-06-30
Filing date: 2000-06-14
Publication date: 2004-11-03
Anticipated expiration: 2020-06-14
Also published as: JP2001060098A; JP4132590B2; CN1279462A

Abstract

说明了一种方法和装置，用于从音频-视频源自动转换声音信息及并发地辨识说话者。所说明的声音转换和说话者分类系统包括一个语音识别系统、一个说话者分段系统和一个说话者辨识系统。一个公共前端处理器计算特征矢量，这些特征矢量由语音识别系统、说话者分段系统和说话者分类系统在一个多线程环境中沿平行分支进行处理，例如使用一个共享存储器结构，它以类似于服务器的方式工作，把计算出的特征矢量分配给与每个平行分支对应的通道。

Description

并发进行语音识别、说话者分段和分类的方法

本申请是序列号为09/288,724的美国专利申请(1999年4月9日提交，它被授予本发明的受让人并包括在这里作为参考)的部分继续。

一般而言，本发明涉及声音信息分类系统，更具体而言，涉及转换声音信息和在声音文件中标识说话者的方法和装置。

许多组织，如广播新闻组织和信息检索(retrieve)服务部分，为了存储和检索(retrieve)的目的，必须处理大量声音信息。常常是这些声音信息必须按主题或说话者名字或按二者进行分类。为了按主题对声音信息分类，语音识别系统首先把声音信息转换成文本供自动分类或编索引。然后，该索引能被用于完成询问报告匹配(query-document matching)以向使用者返回相关报告。

这样，对声音信息的分类过程已基本上成为完全自动的。然而，按说话者对声音信息进行分类的过程往往留下需要大量人力的任务，特别是对于实时应用，如广播新闻。尽管已提出了若干需要大量计算的离线(off-line)技术。利用说话者登录信息根据声音源自动识别说话者，但说话者分类过程最经常的是由操作人员定成，他辨识每次说话者变化并提供相应的说话者辨识结果。

本发明的父申请说明了基于声音内容(主题)检索(retrieve)声音信息以及辨识说话者的方法和装置。一个编索引系统对声音信息进行转换和编索引以创建有时间标记的内容索引文件和说话者索引文件。所产生的内容索引和说话者索引在其后能用于根据声音内容和说话者标识完成询问报告匹配。需要一种方法和装置，它能实时地从声音源自动转换声音信息并同时辨认说话者。还需要一种装置和方法，它提供改进的说话者分段和基于贝叶斯信息判据(BIC)的集群。

一般而言，说明了一种方法和装置，用于从音频-视频源自动转换声音信息同时并发地辨识说话者。所说明的声音转换和说话者分类系统包括一个语音识别系统、一个说话者分段系统和一个说话者辨识系统。根据本发明的一个方面，声音信息在一个多线程环境中由语音识别系统、说话者分段系统和说话者辨识系统沿平行分支进行处理。

语音识别系统产生一个抄本(transcript)，对抄本中的每个词按时间对位。说话者分段系统分开各说话者并识别出存在非同一语音部分之间段边界的所有可能帧(frame)。然后说话者辩识系统使用登录的说话者数据库对每个识别出的段落赋予一个说话者。

本发明利用公共前端处理来计算特征矢量，这些特征矢量由语音识别系统、说话者分段系统和说话者辨识系统在一多线程环境中沿平行分支进行处理。一般而言，这些特征矢量可以分配给这三个多重处理线程，例如使用类似于服务器方式工作的共享存储器结构把计算出的特征矢量分配到每个通道(对应于每个处理线程)。

根据本发明的另一方面，来自音频-视频源的声音信息同时地被转换和分段以识别出段边界。一旦由分段系统识别出语音段，说话者辨识系统便把一个说话者标签赋予转换后文本的每个部分。

所说明的分段过程，在与转换引擎同样的通过声音数据的路径上识别出存在与说话者变化相对应的段边界的所有可能帧。一帧代表给定时间段上的语音特征。分段过程使用比较两模型的模型选择判据，确定在一给定帧i是否存在一个段边界。第一模型使用单个满协方差高斯分布，假定在一个样本窗(x₁，…，x_n)内不存在段边界。第二模型使用两个满协方差高斯分布，以(x₁，…，x_i)取自第一高斯分布，而(x_i+1，…，x_n)取自第二高斯分布，假定在样本窗(x₁，…x_n)内存在段边界。

所说明的说话者辨识系统使用登录的说话者的数据库，对每个识别出的段赋予一个说话者标签。说话者辨识过程接收由分段过程识别出的转折点，以及由共享前端产生的特征矢量。通常，说话者辨识系统把这段的语调(utlerance)与登录的说话者的数据库进行比较，并找出“最接近的”说话者。为说话者识别系统提供了基于模型方案和基于帧方案。

本发明的结果能直接输出给使用者，例如提供每段的转换后文本加上赋予的说话者标签。此外，本发明的结果还能记录在一个或多个数据库中和由声音检索系统使用，例如在父申请中说明的声音检索系统，它把内容和说话者查询方法的结果结合起来，以提供基于声音内容及说话者标识对声音信息(和间接地对视频)的访问。

通过参考下面的详细描述和图件将能得到对本发明的更完整的理解和本发明的其他特点和优点。

附图简述

图1是根据本发明构成的声音转换和说话者分类系统的框图；

图2是取自图1的有时间标记的词数据库的表；

图3是取自图1的说话者转折点数据库的表；

图4说明根据本发明的有代表性的说话者登录过程；

图5是流程图，描述由图1的声音转换和说话者分类系统完成的并发转换、分段和说话者辨识过程的示例；

图6是流程图，描述由图1的声音转换和说话者分类系统完成的分段过程的示例；以及

图7是流程图，描述由图1的声音转换和说话者分类系统完成的说话者辨识过程的示例。

图1显示根据本发明构成的声音转换和说话者辨识系统100，它自动转换来自音频-视频源的声音信息同时并发地辩识说话者。音频-视频源文件可以是例如声音记录或来自例如广播新闻节目的实况馈送。音频-视频源首先被转换同时并发地被处理以识别出所有可能的帧，其中存在指示说话者变化的段边界。

声音转换和说话者分类系统100包括语音识别系统、说话者分段系统和说话者分类系统。语音识别系统产生抄本，对抄本中的每个词按时间对位。说话者分段系统分开各说话者并识别出存在段边界的所有可能帧。段是与一给定说话者相关联的声音源连续部分。然后说话者辨识系统对每段赋一个说话者标签。

图1的框图显示根据本发明的一个声音转换和说话者分类系统示例100的结构。声音转换和说话者分类系统100可以作为一个通用计算系统来实现，如图1所示的通用计算系统。声音转换和说话者辨识系统100包括处理器110和相关的存储器，如数据存储装置120，它可以是分布式的或本地的。处理器110可以作为单个处理器实现，或作为平行操作的多个本地或分布式处理器实现。数据存储装置120和/或只读存储器(ROM)可操作以存储一个或多个指令，处理器110可操作以检索、解释和执行这些指令。

数据存储装置120最好包括声音大全(corpus)数据库150，用于存储一个或多个预先记录的或实况的音频或视频文件(或二者)，它们能根据本发明被实时处理。数据存储装置120还存有带时间标记的词数据库200，下文中将结合图2作进一步讨论，它由语音识别系统产生，包括一组带时间标记的词。说话者转折点数据库300，下文中将结合图3作进一步讨论，是由说话者辨识系统结合说话者分段系统一起产生的，它指出每段的起始时间，以及一个或多个相应的建议的说话者标签。说话者数据库420由说话者登录过程410产生，下文中将结合图4讨论，它包括每个登录的说话者的条目。应该指出，一种在线实现可能不需要图1所示实施例中显示的所产生的数据库200和300，在这个在线实现中，本发明的结果实时地显示给使用者，不需要用于其后的访问。

此外，如将结合图5和图6进一步讨论的那样，数据存储装置120包括一个并发转换、分段和说话者辨识过程500，转换引擎515，分段过程600和说话者辩识过程700。并发转换、分段和说话者辩识过程500协调转换引擎515、分段过程600及说话者辩识过程700的执行。并发转换、分段和说话者辩识过程500分析声音大全数据库150中的一个或多个声音文件并实时产生该声音信息的转换，它指出与每段相关段的说话者。分段过程600分开各说话者并识别出存在段边界的所有可能帧。说话者辩识过程700使用登录的使用者的数据库对每段赋予一个说话者标签。

图2显示一个带时间标记的词的数据库示例200，它由语音识别系统产生并包括一组带时间标记的词。这个带时间标记的词的数据库200保持多个记录，如记录211至214，每个与所示实施例中的一个不同的词相关联。对于在字段220中标识的每个词，带标记的词的数据库200在字段230中指出该词的起始时间。

图3显示说话者转折点数据库示例300，它由说话者辨识系统结合说话者分段系统一起产生，它指出每段的起始时间，以及一个或多个相应的建议的说话者标签。说话者转折点数据库300保持多个记录，如记录305至308，每个与所示实施例中的一个不同段相关联。对于由字段320中的段号标识的每段，说话者转折点数据库300在字段330中指出该段的相对于声音源文件起始时间的起始时间。此外，说话者转折点数据库300在字段340中标识出与每段本关联的说话者，在字段350中为相应的说话者得分(score)。在一个实现中，说话者转折点数据库300还在字段360中标识出与每段相关联的一个或多个可替代的说话者(次最好的猜想)，并在字段370中给出相应的可替代的说话者得分。

说话者登录过程

图4显示已知的用于登录或注册说话者的过程。如图4所示，对于每个登录的说话者，说话者的名字与一说话者训练文件，如脉冲编码调制(PCM)文件，一起提供给说话者登录过程410。说话者登录过程410分析说话者训练文件，并在说话者数据库420中为每个说话者建立一个条目。把说话者的声音样本添加到说话者数据库420的过程称作登录。这种登录过程是离线进行的，说话者辨识系统假定对所有感兴趣的说话者都存在这样的数据库。一般需要从来自包括多种声音条件的多通道和送话器的第弟说话者得到大约1分钟有用声音。登录的说话者的训练数据或数据库被用一个分层结构存储，从而使访问模型最佳化以利于有效地识别和检索。

过程

如前面指出的那样，图5所示的并发转换、分段和说话者辩识过程500协调转换引擎515、分段过程600(图6)和说话者辩识过程700(图7)的执行。并发转换、分段和说话者辩识过程500分析声音大全数据库150中的一个或多个声音文件并实时产生声音信息的转换结果，它指出与每个段相关联的说话者。如图5中所示，并发转换、分段和说话者辩识过程500在步骤510中以已知的方式从声音文件中取出倒谱(cepstral)特征。一般地说，步骤510把声音信号的域从时间域改变成频率域，分析各频段的信号能量，再应用另一种变换把信号域改变成倒谱域。

如图5中所示，步骤510为转换引擎515、分段过程600(图6)和说话者辩识过程700(图7)提供公共前端处理。一般而言，在步骤510中计算出的特征矢量可分配给与转换引擎515、分段过程600(图6)和说话者辩识过程700(图7)相对应的三个多重处理线程。这些特征矢量可以分配给这三个多重处理线程，例如使用类似于服务器方式工作的共享存储器结构把计算出的特征矢量分配到每个通道(对应于每个处理线程)。

在步骤510中产生的特征矢量在多线程环境中沿平行分支进行处理。如图5所示和下文讨论的那样，用多线程将所产生的特征矢量应用于(i)在步骤515中的转换引擎；(ii)在步骤530中的说话者分段过程600，下文中将结合图6讨论；以及(iii)在步骤560中的说话者辩识过程700，下文中将结合图7讨论。

在步骤515中，所产生的特征矢量应用于转换引擎，后者例如市场上可从IBM公司，Armonk，NY得到的via Voice^TM语音识别系统，以产生带有时间标记的词的转换后文件。其后，在步骤520中这些带时间标记的词可任选地收集到一个带时间标记词数据库200中。此外，在步骤540，这些带时间标记的词应用于一个交叉存取器(interleaver)，这将在下文中讨论。

在步骤530中，所产生的特征矢量应用于分段过程600，下文中将结合图6进一步讨论。一般而言，分段过程600把各说话者分开，并识别出所有可能的存在非同一语言部分之间分段边界的帧。存在段边界的每个帧称作转折点(turn)，每个同一段应对应于单一说话者的语音。一旦由分段过程600划定界限，每个段便能被分类为是由一特定说话者说过的(假定该段满足说话者识别系统所要求的最小段长度要求)。

在步骤560中，由分段过程600识别出的转折点与步骤510中产生的特征矢量一起应用于说话者辩识过程700，下文中将结合图7进一步讨论，以使用登录的说话者数据库420把一说话者标签赋予每个段。一般而言，说话者辩识系统把该段语调与说话者数据库420(图4)进行比较，并找出“最接近”的说话者。由说话者辩识过程700产生的赋予的说话者标签应用于步骤550，这将在下文中讨论。

由转换引擎在步骤515中产生的带时间标记的词与分段过程600在步骤530中识别出的说话者转折点一起在步骤540中加到交叉存取器，以把转折点与带时间标记词交叉，产生被隔离的语音段。然后，这被隔离的语音段和说话者辩识系统在步骤560中产生的说话者标识在步骤550中显示给使用者。

在一个实施例中，被隔离语音段是在它们由交叉存取器在步骤540中产生的时候实时显示的。此外，在所示实施例中，说话者辨识系统所要求的最小段长度是8秒。这样，通常在被隔离语音段的开头首次出现之后大约8秒钟，说话者标识标签将附加在转换后的文本之后。应该指出，如果被隔离语音段比说话者要求的最小段长度短，可对该段赋予一个如“无结论”的说话者标签。

贝叶斯信息判据(BIC)背景

如前面指出的，图6所示分段过程600分开各说话者，并识别出所有可能的存在非同一语言部分之间分段边界的帧。存在段边界的每个帧称作转折点，每个同一段应对应于单一说话者的语音。一旦由分段过程600划定界限，每个段便能被分类为是由一特定说话者说过的(假定该段满足说话者识别系统所要求的最小段长度要求)。分段过程是基于贝叶斯信息判据(BIC)模型选择判据。BIC是一种渐近最佳贝叶斯模型选择判据，用于决定p个参数模型中哪一个能最好地代表n个数据样本x₁，…，x_n，x_i∈R^d。每个模型M_j的参数个数为K_j。样本x_i假定为独立的。

对于BIC理论的详细讨论，请见例如G.Schwarz的“估计模型维数”一文，The Annals of Statistics(统计学年刊)，Vol.6，461-464(1978)，这里纳入作为参考。根据BIC理论，对于足够大的n，该数据的最好模型是使

BIC_j＝log L_j(x₁，…，x_n)-1/2λ K_j logn 式(1)

达到极大的那一个模型，这里λ1，L_j是在模型M_j下数据的最大似然值(换句话说，是对于M_j的K_j个参数具有最大似然值的数据的似然值)。当只有两个模型时，一个简单的测试用于模型选择。具体地说，如果ΔBIC＝BIC₁-BIC₂是正值，则选择模型M₁而不是模型M₂。类似地，如果ΔBIC＝BIC₁-BIC₂是负值，则选择模型M₂而不选模型M₁。

说话者分段

图6所示分段过程600识别出存在段边界的所有可能帧。不失一般性，考虑一个连续数据样本窗口(x₁，…x_n)，其中最多有一个段边界。

在帧i是否存在一个段边界的基本问题可以归结为在以下两个模型之间的模型选择问题：模型M₁，这里(x₁，…x_n)是从单个满协方差高斯分布中取出的，模型M₂，这里(x₁，…x_n)是从两个满协方差高斯分布中取出的，其中，(x₁，…x_i)取自第一高斯分布，((x_i+1，…x_n)取自第二高斯分布。

由于x_i∈R^d，模型M₁有K₁＝d+d(d+1)/2个参数，而模型M₂的参数个数为其2倍(K₂＝2K₁)。可以看出，如果表达式

Δ {BIC}_{j} = - \frac{n}{2} \log | Σ_{w} | + \frac{i}{2} \log | Σ_{f} | + \frac{n - i}{2} \log | Σ_{s} |

+ \frac{1}{2} λ (d + \frac{d (d + 1)}{2}) \log n

为负值，由第i帧是一个段边界的好的候选对象，这里|∑w|是整个窗口(即全部n帧)的协方差的行列式，|∑f|是该窗口的第一子段的协方差的行列式，|∑s|是该窗口第二子段的协方差的行列式。

这样，在步骤610，由连续数据样本窗口(x₁，…x_n)建立了两个子段(x₁，…x_i)和(x_i+1，…x_n)。分段过程600在步骤615至628中进行若干测试以去掉窗口中一些BIC测试，如果这些测试对应的位置极不可能检测到边界的话。具体地说，在步骤615使变量α的值初始化为n/r-1，这里r是检测分辩率(按帧计算)。然后在步骤620进行一个测试确定α值是否超过一最大值α_max。如果在步骤620确定α值超过一最大值α_max，则在步骤624将计数器i置为值(α-α_max+1)r。然而，如果在步骤620确定α值不超过最大值α_max，则在步骤628将计数器i置为值r。其后，在步骤630使用前文中提出的等式计算BIC值之差。

在步骤640进行一个测试以确定i值是否等于n-r。换句话说，是否窗口中的所有可能样本都已评价过。如果在步骤640中确定i值尚未等于n-r，则在步骤650中i值增加r，以在步骤630继续处理下一个样本。然而，如果在步骤640中确定i值等于n-r，则在步骤660进行进一步测试以确定BIC值的最小差(ΔBIC_i0)是否为负值。如果在步骤660中确定BIC值的最小差非负值，则在返回步骤610以上述方式考虑新窗口之前，在步骤665中增大窗口大小。这样，只有当对一个窗口中的所有i值已计算了ΔBIC值而且其中没有一个导致负ΔBIC值时，窗口大小n才被增大。

然而，如果在步骤660中确定BIC值的最小差为负值，则在步骤670中把i0选作段边界。其后，在程序控制返回步骤610以前述方式考虑新窗口之前，在步骤675中将新窗口起点移到i0+1，并把窗口大小设为No。

这样，对所有可能的i值进行了BIC差值测试，并提i0选为具有最负ΔBIC_i的那个i值。如果ΔBIC_i0＜0，则可在该窗口中帧i处检测到一个段边界，于是X_i0对应于一个段边界。如果测试失败，则在步骤660按下述方式把更多的数据样本加到当前窗口(通过增大参数n)，然后过程将以这新的数据样本窗口重复进行，直至所有特征矢量均已被分段为止。通常，窗口大小是按特征矢量个数扩展的，而从一个窗口扩展到另一个窗口扩展时它本身在增大。然而，窗口按特征矢量个数扩展时，其扩展值决不会大于某一最大值。当在步骤670中发现一段边界时，窗口扩展值取其最小值(N₀)。

可变窗口方案

根据本发明的又一特征，提出了一个新的窗口选择方案，它改善了总体准确性，特别是在小段上。对于在其上进行分段过程600的窗口大小的选择是很重要的。如果所选窗口包含太多矢量，则某些边界可能会漏掉。另一方面，如果所选窗口太小，则信息不足将造成高斯分布对数据的代表性差。

已经提议，如果没有发现段边界，则把固定数量的数据加到当前窗口。这种方案没有利用“上下文关系”信息来改善准确性：即不论是否刚刚发现了一个段边界还是长时间一直未发现段边界，都加上相同数量的数据。

本发明的改进的分段过程考虑在很可能发生新边界的区域中较少量的数据，而当不大可能发生边界时更大方地增大窗口大小。开始时，考虑一个小的矢量窗口(通常100帧语音)、如果在当前窗口上没发现段边界，则窗口的大小增加ΔNi帧。如果在这新窗口中没发现边界，则帧数增加ΔN_i+1，其ΔN_i＝ΔN_i+1+δ_i，这里δ_i＝2δ_i+1，直至发现了段边界，或窗口扩展已达到一最大值为止(以避免出现边界时出现准确性问题)。这保证当窗口仍小时窗口增大得相当慢，而当窗口变大时窗口增大加速。当在一个窗口中发现段边界时，下一个窗口从被检测到的边界之后开始，使用最小窗口大小。

改善BIC测试效率

根据本发明的另一特征，通过更好地选择进行BIC测试的位置，能改善总处理时间。当该窗口中的某些BIC测试所对应的位置很不可能检测到边界时，这些BIC测试可被随意去掉。首先，在每个窗口的边界处不进行BIC测试，因为它们必定代表有极少数据的高斯分布(这是在段检测过程中显然的小增益在重复，而且实际上没有可忽略的性能影响)。

再有，当当前窗大时，如果进行所有的BIC测试，则在窗开始部分的BIC计算将要进行多次，每次加入一些新信息。例如，如果在一个10秒窗中的头5秒内没有发现段边界，那么相当不可能假定把当前10秒窗扩展后会在头5秒内发现边界。这样，通过忽略当前窗口开始部分中的BIC计算(当前窗口是在一窗口扩展之后)，能减少BIC计算次数。事实上，现在BIC计算最多次数是可调节的参数，由所需要的速度/准确性(图3中的α_max)决定。

这样，分段过程600允许在对分段信息有某种反馈之前知道它要用的最大时间。因为即使尚未发现边界，如果窗口足够大，则知道在头一些帧中不存在段。这一信息可用于对这一部分语音信号进行其他处理。

BIC补偿权重

BIC公式利用一补偿权重参数λ，以补偿理论与认判据实践应用之间的差异。已经发现，在漏失率和误报率之间给出好的折衷的最佳λ值是1.3。关于λ对广播新闻转换分段准确性影响的更深入研究见A.Tritschler的硕士论文“利用BIC允许进行分段的语音识别应用”，Institut Eurecom(法国，1998)，这里纳入作为参考。

尽管在原则上因子λ是依赖任务的，而且对每个新任务得要重新调优，但在实践中该算法已应用于不同数据类型，而且使用相同的λ值在性能方面没有明显的改变。

说话者辩识过程

如前文指出的那样，并发转换、分段和说话者辩识过程500在步骤560中执行图7所示的说话者辩识过程700，以使用登录的说话者数据库420对每个段赋予一个说话者标签。如图7所示，说话者辩识过程700接收由分段过程600识别出的转折点以及由公共前端处理器在步骤510中产生的特征矢量。一般而言，说话者辨识系统把段语调与说话者数据库420(图4)进行比较并找出“最接近的”说话者。

在步骤710处理转折点和特征矢量，以形成段语调，包含由单一说话者造成的大量语音。在步骤720，段语调应用于说话者辩识系统。对于说话者辨识系统的讨论，请见例如H.S.M.Beigi等的“IBM基于模型和逐帧的说话者识别”(说话者识别及其在商业和法庭上的应用论文集，Avignon，法国，1998)。一般而言，说话者辨识系统把段语调与说话者数据库420(图4)行比较并找出“最接近的”说话者。

说话者辨识系统有两种不同的实现途径，一是基于模型的途径，另一个是基于帧的途径，各伴有长处的短处。引擎是不依赖于文本和语言二者的，以利于诸如广播新闻之类材料的实况声音编索引。

说话者辩识-基于模型的途径

为了给数据库中的大量说话者建立一套训练模型，根据M帧语音序列对第i个说话者计算出具有d维特征矢量

{{\overset{&RightArrow;}{f}}_{m}}_{m = 1, . . ., M}

的模型M_i。当选择高斯分布时，这些模型是利用其统计参数来存储的，例如

{{\overset{&RightArrow;}{U}}_{i, j,} Σ_{i, j,} {\overset{&RightArrow;}{C}}_{i, j}}_{j} = 1 . . . n_{i}

它由均值矢量、协方差矩阵和计数构成。每个说话者i可以以包含n_i分布的模型结束。

使用H.S.M.Beigi等在分布集合之间的距离测定及其对说话者识别的应用(ICASSP98论文集，Seattle，WA，1998)中建议的距离测量来比较这样两个模型的，建立一个分层结构，以设计出具有多种不同能力的说话者辨识系统，这些能力包括说话者辩识(发表一声明)、说话者分类(赋予一说话者)、说话者确认(通过把标签与其特征和加标签说话者的特征相匹配的“一群”说话者加以比较，以第二轮确认其分类)、以及说话者集群。

为说话者辩识设计的距离测定允许计算具有不同分布数n_i的两个模型之间的可接受距离。只根据其模型的参数表示来比较两个说话者免去了把那些特征带来带来的需要，使比较两说话者的任务的计算量大大减少。然而，辩识阶段的这一距离测定的短处在于得要使用整个语音段去构建测试个体(申请者)模型，然后才能开始比较计算。逐帧途径缓解了这一问题。

说话者辩识-逐帧途径

设M_i为对应于第i个登录的说话者的模型。M_i完全由参数集

{{\overset{&RightArrow;}{U}}_{i, j,} Σ_{i, j,} {\overset{&RightArrow;}{P}}_{i, j}}_{j} = 1 . . . n_{i}

定义，其中包括均值失量、协方差矩阵、以及说话者的高斯混合模型(GMM)的n_i个分量每一个的混合权重。这些模型是使用包含M帧语音序列的训练数据创建的，如前一段所述，它具有d维特征矢量

{{\overset{&RightArrow;}{f}}_{m}}_{m = 1, . . ., M} .

如果说话者群体的大小为N_p，那么模型总体集合是{M_i}_{i＝1，...，Np}。基本目标是找出i，使M_i最好地解释测试，表示为N帧序色

{{\overset{&RightArrow;}{f}}_{n}}_{n = 1, . . ., N}

的测试数据，或作出这些模型中没有一个能适当地描述数据的决定。下述基于帧的加权似然距离测量值d_i，n用于作出这一决定。

d_{i, n} = - \log [Σ_{j = 1}^{n_{i}} p_{i, j} p (f_{n} | j^{th} \overset{&RightArrow;}{component} of M_{i})]

这里使用正态分布表达式

p ({\overset{&RightArrow;}{f}}_{n} | \cdot) = \frac{1}{{(2 π)}^{d / 2} {| Σ_{i, j} |}^{1 / 2}} e^{\frac{1}{2} {({\overset{&RightArrow;}{f}}_{n} - \overset{&RightArrow;}{μ_{i, j}})}^{j} Σ_{i, j}^{- 1} ({\overset{&RightArrow;}{f}}_{m} - \overset{&RightArrow;}{μ_{i, j}})}

然后，模型M_i距测试数据的总距离D_i取为对测试帧总数的所有距离之和。

为了分类，选取与该语音段距离最小的模型。通过把最小距离与一背景模型的距离进行比较，能提供一种方法指出原始模型中没有一个能很好地匹配。另一种作法是可以使用投票技术来计算总距离。

为了确认，将构成被标签说话者“同伙”的预先确定的一组成员用各种背景模型增强。使用这一组作为模型整体，通过测试是否申请者模型有最小距离来确认测试数据；否则它被拒绝。

这一距离测定不用于训练之中，因为各语音帧得保留用于计算各说话者之间的距离。所以，使用前述基于模型的技术进行训练。

在步骤720中产生的被赋的说话者标签能可选地临时提供给块550(图5)供输出给使用者，其提供方式如下述。在步骤730通过对说话者分类结果进行第二轮检验来确认所赋予的说话者标签。如果在步骤730中确认了说话者辩识结果，则把说话者标签提供给块550(图5)供输出给使用者。再有，在步骤740中能可选地在说话者转折点数据库300中建立一个条目，指出其最佳选择，以及所赋予的指出从原始登录的说话者模型到声音测试段的距离的评分，如果希望的话还加上其他选择。

应该理解，这里所显示和描述的实施例和变体只用于说明本发明的原理，本领域技术人员可实现各种修改而不离开本发明的范围和实质。

Claims

1.从一个或多个声音源转换声音信息的方法，所述方法包含以下步骤：

转换所述声音源以建立该声音源的文本版本；

与所述转换步骤并发地在所述声音源中辩识可能的段边界；以及

对每个识别出的段赋予一个说话者标签。

2.权利要求1的方法，这里所述转换步骤产生所述声音源中每个词的有时间对位的转换副本。

3.权利要求1的方法，这里所述辩识步骤辩识存在非同一语音部分之间的段边界的所有可能帧。

4.权利要求1的方法，这里所述赋予步骤利用登录的说话者数据库将说话者标签赋予每个识别出的段。

5.权利要求1的方法，这里所述赋予步骤还包含赋予一评分的步骤，所述评分指出对所述赋予的说话者标签的置信度。

6.权利要求1的方法，这里所述赋予步骤还包含对所述赋予的说话者标签再赋予至少一个另一种选择的步骤。

7.权利要求1的方法，这里所述转换、辩识和赋予步骤在一个多线程环境中的平行处理分支上进行。

8.权利要求1的方法，这里所述辩识步骤使用贝叶斯信息判据模型选择判据以辩识段边界。

9.权利要求1的方法，其中，与所述转换、辩识和赋予步骤同时地提交所述文本版本和所述赋予的说话者标签。

10.从一个或多个声音源转换声音信息的方法，所述方法包含以下步骤：

由所述声音信息计算特征矢量；以及

把所述特征矢量应用于三个平行处理分支，以：

转换所述声音源以建立该声音源的文本版本；

在所述声音源中辩识可能的段边界；以及

对每个识别出的段赋予一个说话者标签。

11.权利要求10的方法，这里将所述特征矢量应用于使用共享存储器结构的所述平行分支。

12.权利要求11的方法，这里所述共享存储器结构把计算出的特征矢量分配给与所述平行处理分支中每一个相对应的一个通道。

13.权利要求10的方法，这里所述转换步骤产生所述声音源中每个词的有时间对位的转换副本。

14.权利要求10的方法，这里所述辩识步骤辩识存在非同一语音部分之间的段边界的所有可能帧。

15.权利要求10的方法，这里所述赋予步骤利用登录的说话者数据库将说话者标签赋予每个识别出的段。

16.权利要求10的方法，这里所述赋予步骤还包含赋予一评分的步骤，该评分指出对所述赋予的说话者标签的置信度。

17.权利要求10的方法，这里所述赋予步骤还包含对所述赋予的说话者标签再赋予至少一个另一种选择的步骤。

18.权利要求10的方法，这里所述辩识步聚使用贝叶斯信息判据模型选择判据以辩识段边界。

19.权利要求10的方法，其中，与所述转换、辩识和赋予步骤同时地提交所述文本版本和所述赋予的说话者标签。