CN1761997A

CN1761997A - 用于连续视听语音识别的耦合隐马尔可夫模型(chmm)

Info

Publication number: CN1761997A
Application number: CN200480007461.6A
Authority: CN
Inventors: 阿拉·内夫安; 刘晓星; 皮小波; 梁路宏; 赵义宝
Original assignee: Intel Corp
Current assignee: Intel Corp
Priority date: 2003-03-19
Filing date: 2004-02-26
Publication date: 2006-04-19
Also published as: GB0513410D0; WO2004095421A1; US7454342B2; GB2411507A; US20040186718A1

Abstract

这里描述了用于使用耦合隐马尔可夫模型(CHMM)的视听连续语音识别(AVCSR)系统的方法和装置。在一个方面，一个示例性的过程包括接收音频数据流和视频数据流，并且使用多个隐马尔可夫模型(HMM)，基于所述音频数据流和视频数据流来执行连续语音识别，在某一时隙处HMM中每一个的节点都受到前一时隙处相关HMM的一个或多个节点的影响。还描述了其他方法和装置。

Description

用于连续视听语音识别的耦合隐马尔可夫模型(CHMM)

技术领域

本发明的实施方案涉及语音识别系统领域；且更具体地说，涉及用于评估视听材料的耦合隐马尔可夫模型技术。

背景技术

当前可以获得的语音识别系统的成功被局限在相对受控的环境以及被很好定义的应用中，例如基于口头指令或者小到中型词汇集语音的控制命令(例如免提拨号等)。近年来，与对几种声学降噪技术的研究一道，对组合听觉和视觉特征的系统的研究逐渐成为在较少约束的环境下实现语音识别的一种有吸引力的解决方案。已经提出了许多技术来解决视听集成问题，它们大致可被分为特征融合(fusion)方法和决策融合方法。

然而，特征融合方法可能受到过度适配(over-fitting)问题的困扰，而决策融合方法无法完整地捕获听觉特征和视觉特征之间的相依性(dependency)。在一个视听特征融合系统中，通过连接听觉观测向量和视觉观测向量，接着再进行降维变换，从而获得观测向量。然后使用一种隐马尔可夫模型(HMM)为产生的观测向量建模。然而，这种方法无法为听觉特征和视觉特征之间的天然异步性建模。另一方面，决策融合系统相互独立地为听觉序列和视觉序列建模，并且只在模型边界上实施听觉特征和视觉特征的同步。这些系统没有完整地捕获视觉特征和听觉特征之间的相依性。使用多流式HMM的特征融合系统假定听觉特征和视觉特征是状态同步的，但是允许听觉分量和视觉分量对整体观测似然率(likelihood)有不同的贡献。

附图说明

参考以下描述和附图，可以最好地理解本发明，其中附图被用来图示说明本发明的实施方案。在附图中：

图1A是图示了视听连续语音识别(AVCSR)系统的示例性实施方案的框图。

图1B是图示了视听连续语音识别(AVCSR)系统的嘴部检测和跟踪模块的示例性实施方案的框图。

图2是图示了单词网络的示例性实施方案的框图。

图3是图示了耦合隐马尔可夫模型(CHMM)的示例性实施方案的状态表示的框图。

图4是图示了CHMM的示例性实施方案的框图。

图5是图示了根据一个实施方案的示例性错词率(WER)的图。

图6是图示了AVCSR系统使用CHMM的过程的示例性实施方案的流程图。

图7是图示了用于训练CHMM参数的过程的示例性实施方案的流程图。

图8是可以与一个实施方案一起使用的示例性计算机系统的框图。

具体实施方式

这里将描述用于连续视听语音识别的耦合隐马尔可夫模型(CHMM)。在以下描述中，阐述了很多具体的细节。然而，可以理解，没有这些具体的细节也可以实现本发明的实施方案。此外，没有详细地示出公知的电路、结构和技术，以免模糊了对这一部分的理解。

下面利用对计算机存储器内数据位进行操作的算法和符号表示来给出一部分具体实施方式。这些算法描述和表示被数据处理领域内的技术人员用来向本领域内的其他技术人员最有效地表述他们工作的实质内容。算法在这里并且在通常意义上都被认为是导致预期结果的自相一致的操作序列。操作是指需要对物理量进行物理操纵的步骤。这些量一般但不一定采用能够被存储、传输、合并、比较以及其他方式操纵的电信号或磁信号的形式。主要出于通用的原因，用位、值、元素、符号、字符、术语、数字等来指代这些信号一般来说是很方便的。

然而应当记住的是，所有这些以及类似的术语都是和适当的物理量相关，都仅仅是应用于这些量的方便标签。在以下讨论中除非特别指出，否则很清楚的知道，在整篇说明书中，使用诸如“处理”或“计算”或“运算”或“确定”或“显示”等术语的讨论都是指计算机系统或类似数据处理设备的动作和过程，所述系统或设备将计算机系统的寄存器和存储器内表示为物理(例如，电子学的)量的数据操纵并且变换为在计算机系统的存储器或寄存器内或其他这样的信息存储、传输或显示设备内被类似地表示为物理量的其他数据。

本发明的实施方案还涉及用于执行这里所述的操作的装置。可以出于需要的目的专门来构建装置，或者装置可以包括通用计算机，它可以被存储在自身内的计算机程序有选择地激活或重新配置。这样的计算机程序可以被存储在计算机可读存储介质中，例如但不限于包括软盘、光盘、CD-ROM和磁光盘在内的任何类型的盘，只读存储器(ROM)，随机访问存储器(RAM)，例如动态RAM(DRAM)、EPROM、EEPROM、磁卡或光卡，或者适于存储电子指令的任何类型介质，并且以上每种存储元件都耦合到计算机系统总线。

这里给出的算法和显示不是固有地与任何具体的计算机或其他装置有关。各种通用系统可以与根据这里教导的程序一同使用，或者构建更专用的装置来实现各种方法可能是方便的。各种系统的结构可以从以下描述中看出来。另外，没有参考具体的编程语言来描述本发明的实施方案。将认识到，可以使用多种编程语言来实现这里所描述的本发明实施方案的教导。

机器可读介质包括用于以机器(例如计算机)可读的形式来存储或传输信息的机构。例如，机器可读介质包括只读存储器(“ROM”)；随机访问存储器(“RAM”)；磁盘存储介质；光存储介质；闪存器件；电、光、声或其他形式的传播信号(例如载波、红外信号、数字信号等)；诸如此类。

图1A是图示了视听连续语音识别(AVCSR)系统的实施方案的框图。在一个实施方案中，系统100包括面部检测模块102、嘴部检测模块103、嘴部跟踪模块104、视觉特征提取模块105、声学特征提取模块106和视听模型模块107。

如参考图1A所示，视听语音识别系统100能够实现在基于计算机的视听记录和处理系统上。可以提供单独的或集成的照相机和声音系统，用于实时地或以先记录随后再进行语音处理的方式来视听记录面部特征以及一个或多个讲话者的语音，但是它们都和本发明的实施方案无关。视听信息可以用模拟格式来记录并存储，或者优选地，可以被转换为适当的数字形式，包括但不限于MPEG-2、MPEG-4、JPEG、运动JPEG或者其他常用于数字图像存储的可顺序表示的转换编码图像。可以使用低成本、低分辨率的基于CCD(耦合电荷器件)或CMOS的摄像机系统，尽管对于某些应用而言，支持更高帧率和分辨率的摄像机可能是有用的。声音数据可以通过低成本的麦克风系统采集，并且可以接受各种声音处理技术的处理，以去除间歇式的突发(burst)噪音、环境噪音、静电噪音、在正常语音频率范围之外记录的声音、或者任何其他非语音数据信号。

根据一个实施方案，被捕获(所存储的或实时的)视听数据101经由声学特征处理模块106，使用本领域公知的技术来单独进行声音处理，所述公知技术例如是MFCC(Mel倒谱系数)特征提取。此外，所捕获的视听数据可以接受视觉特征提取，例如面部检测、嘴部检测、嘴部跟踪和视觉特征提取，这些处理可以分别由面部检测模块102、嘴部检测模块103、嘴部跟踪模块104和视觉特征提取模块105来完成。使用视听融合模型，例如A/V模型105将两个或更多的数据流合并到一起，并且训练网络和语音识别模块108被用来产生预期的文本数据流，该数据流反映了所捕获的语音。可以在足够强大的计算系统上以接近实时的方式来处理数据流。可替换地，可以在一定延迟后或者按批处理模式来处理数据流，或者可以在多个计算机系统或并行处理的计算机上处理数据流，或者使用可用于数字信号处理的任何其他适当的机制来处理数据流。

实现适当的过程、系统和方法的软件可以被存储在计算机系统的存储器中，作为一组将被执行的指令。另外，执行上述过程的指令可以被另外存储在其他形式的机器可读介质中，包括磁盘和光盘。例如，实现方法的指令可以被存储在机器可读介质上，例如磁盘或光盘，可以通过盘驱动器(或者计算机可读介质驱动器)对其进行访问。此外，指令可以通过数据网络，以编译并且链接后的形式被下载到计算机设备中。可替换地，所述逻辑可以实现在附加的计算机和/或机器可读介质中，例如分立硬件元件，如大规模集成电路(LSI)、专用集成电路(ASIC)，或者诸如电可擦除可编程只读存储器(EEPROM)的固件。

图1B是图示了嘴部检测和跟踪模块的示例性实施方案的框图，所述模块可被用作嘴部检测模块103和嘴部跟踪模块104。参考图1B，嘴部检测和跟踪模块130包括在视频序列中对讲话者面部的面部检测132。在一个实施方案中，面部检测可以由单独的模块完成，例如图1A中的面部检测模块102。嘴部检测和跟踪模块130还可以包括线性SVM(支持向量机)分类器模块133、嘴部分类器134、嘴部/胡须分类器135、最大匹配分数选择模块136、嘴部跟踪器137和嘴部跟踪器平滑模块138。

多种面部检测过程或算法都适用于面部检测132，包括但不限于模式匹配、形状相关、基于光流的技术或者分层分段。在一个实施方案中，一种适当的面部检测过程需要使用高斯混合模型来为面部区域的颜色分布建模。所生成的颜色区分面部模板，连同用于使所述模板变形以基于预定的目标函数最优地与面部适配的背景区对数搜索，可被用来识别在视觉场景中的一张或多张脸。在另一个实施方案中，基于神经网络的技术可用于面部检测。

在检测到面部后，可能需要嘴部区域的鉴别，因为脸上的其他部分通常与语音不太相关或相关度很低。由于对嘴部的搜索范围可以利用面部检测的结果大大减小，所以一个级联的支持向量机(SVM)分类器133可被用来在面部的下部区域中定位嘴部。SVM级联(使用两个或更多的标准SVM分类器)在计算上是有效率的，并且有利于实现嘴部识别的准确实时系统操作。典型地，第一SVM分类器寻找嘴部的大致区域。在这个阶段训练分类器时所使用的子图像的典型大小是16×16像素。通过对嘴部训练集合的下采样(downsampling)，获得子图像。由分类器将除嘴部区域之外的其余大多数区域都去除。然而，有几个“假警报”可能被当作嘴部的真实位置而通过。第二SVM分类器(在大小为32×32像素的嘴部区域上被训练)的作用就是查看被第一SVM归类为嘴部的区域，并且进一步去除所有的虚假警报。通常，第一SVM分类器更快，而第二SVM分类器更精确。

为了适应比例变化，以恒定因子对源图像重复进行再抽样，从而实现在估计范围内的多比例搜索。预处理步骤经由直方图均衡和梯度照度校正，相对于照度的方差(variation)来归一化源图像。接着，具有线性内核的、大小为16×14像素的SVM滤波器可以应用于面部的下部区域，以确定嘴部的大致位置。最后，两个具有大小为32×28像素的高斯内核的SVM分类器被应用于图像平面中的每个测试图案及其旋转后的图案，其中所述两个SVM分类器在带和/或不带面部胡须的嘴部区域的样本上进行训练。在所有旋转图案中的最高嘴部分类分数以及SVM分类器被用来确定嘴部的精细位置。用于SVM分类器训练的正例子由一个手动标记的嘴部图像集合和一个负例子集合(例如除嘴部区域以外的面部区域)组成。使用在正集合中的标记点，包括角落、上部和下部点、以及嘴部的中心，就用在图像平面中的几种几何变化(例如缩放、水平镜像映射和旋转)而言增强了训练集合的大小。由比例归一化、直方图均衡和照度校正组成的预处理操作可以应用于训练集合中的正例子和负例子。在一个实施方案中，经由以下自举过程来训练高斯内核SVM滤波器：

1.使用正训练集合和负训练集合来训练SVM滤波器，

2.在验证集合上运行SVM滤波器，并且增强具有未检测嘴部区域的正集合以及具有虚假警报的负集合，并且

3.重复操作1和2，直到嘴部检测器达到期望的性能。

在一个试验中，在自举过程后获得的训练集合由分别大约为8000个非嘴部采样，9000个嘴部采样和6000个嘴部和胡须采样组成。嘴部采样是通过对250幅和800幅分别带胡须和不带胡须的用户图像进行镜像映射、旋转和重新缩放而获得的。

在对面部和嘴部进行检测并由SVM模块和嘴部或嘴部/胡须分类器134和135进行分类后，由嘴部跟踪模块137在连续多帧上对嘴部位置进行跟踪。由前一帧来估计嘴部的中心，并且将嘴部检测算法应用于在嘴部的估计中心附近的缩小范围内。如果在搜索范围内的所有测试图案都未能被指定给嘴部区域，则系统重新初始化面部和嘴部检测算法，或者估计新的嘴部中心并且嘴部跟踪继续。使用嘴部平滑模块138来进一步平滑嘴部跟踪。模块138可以使用紧跟有高斯滤波器的中位数滤波器。所述方法曾在代表从95名讲话者记录而来的190段序列的数据库上进行测试。嘴部检测和跟踪系统的总体准确率为95.26％，其中对于长胡须的人的30段序列是86.67％，对于其余的序列是96.85％。

在嘴部跟踪模块130的成功操作之后，嘴部的视觉特征被提取出来，以由用于视觉特征提取模块142的软件或硬件模块使用主分量分析(PCA)来处理。在一个实施方案中，使用级联算法从以嘴部为中心的64×64像素的区域中提取出一个视觉观测向量的集合。在一个操作中，使用主分量分析(PCA)机制将嘴部区域中的灰度级像素映射到一个32维特征空间中。PCA分解是从一个从嘴部跟踪模块130获得的大约200,000幅嘴部区域图像中计算出来的。所得到的大小为32的向量被上采样(upsampled)，以匹配听觉特征的频率(例如，约100Hz)，并且使用特征均值归一化或其他常规技术来标准化。接着，多块N个视觉观测向量被级连在一起，并被投影到13类别的线性判别空间上，以获得一个新的大小为13的视觉观测向量的集合。在线性判别分析中使用的类别信息对应于13个英文视素(viseme)(英语讲话者所使用的公共嘴部位置，声学音素在视觉上的相似物)。利用具有三个状态，每个状态12个高斯分量的隐马尔可夫模型以及对角线协方差矩阵来为这些视素建模。

在面部检测，处理，并将数据上采样到音频数据率(如果必要的话)之后，可以使用适当的融合模型将所生成的视频数据与音频数据融合起来。在一个实施方案中，所采用的是耦合隐马尔可夫模型(CHMM)。CHMM是适合于将两个或更多的数据流合并到一起的大规模多媒体应用的广义HMM。CHMM可以被视为一组HMM，一个HMM用于一个数据流，其中每个HMM在t时刻的离散节点以所有相关HMM在t₁时刻的离散节点为条件。下面将进一步描述CHMM。

图2是图示了连续语音识别过程的单词网络的框图。在一个实施方案中，单词网络的节点λi是CHMM。在一个实施方案中，网络200包括入口节点201和出口节点203。入口节点和出口节点也被称为非发射节点，它们与观测无关。

当在入口节点201接收到分段的视听数据流时，所述数据基于将在下面详细描述的一种或多种算法来与一个或多个CHMM进行匹配。数据然后被传递给出口节点203，出口节点203接着又将数据(例如经由路径204)传递到另一个模型的入口节点。一旦在给定所有模型(例如CHMM)的情况下数据的所有似然率都被计算出来，就获得了模型的最大可能序列。在一个实施方案中，经由反向跟踪机制，例如维特比算法来获得模型的最大可能序列。最大可能序列代表了识别出的语音。

图3是图示了根据一个实施方案的CHMM的状态表示的框图。在这个实施方案中，参考图3，CHMM300是一个双流CHMM，包括音频流304和视频流303。在一个实施方案中，CHMM300包括入口节点301和出口节点302，它们也被称为非发射节点。在这个实施方案中，CHMM300包括在入口节点301和出口节点302之间用三个圆圈表示的三种状态。可以理解的是，在CHMM300中可以包括多于或少于三种的状态。

与在传统方法中用于视听数据的独立隐马尔可夫模型(HMM)不同，CHMM可以通过状态之间的转移概率来捕获音频流和视频流之间的交互。根据一个实施方案，CHMM的每种状态可以受前面状态(包括视频状态和音频状态)的条件的影响。例如，视频流303中的状态307受相关的前面状态的影响，例如视频流303的节点305和音频流304的节点306。

根据一个实施方案中，视听CHMM允许异步状态的音频和视频状态，例如状态305到307，同时保持它们的自然相依性。

入口节点301和出口节点302在连续语音识别中允许模型级联，并且在模型的边界强制音频状态和视频状态同步。除CHMM之外，可以独立地计算出视频和音频观测似然率，与传统方法所采用的需要级联音频和视频观测结果的那些模型相比，这大大减小了参数空间以及模型的复杂性。

图4是可以与一个实施方案一起使用的连续混合双流CHMM的时间表示的动态贝叶斯表示。框图400图示了用在视听语音识别系统中的连续混合双流耦合HMM。诸如403-405的方框代表了隐藏离散节点，而圆圈描述了连续可观测节点。隐藏节点可以在时间上被条件化为耦合节点，并且对于其余隐藏节点可被条件化为混合节点。

参考图4，CHMM400包括视频流401和音频流402。每个流都包括一个或多个观测节点以及一个或多个隐藏节点。方框代表隐藏离散节点，而圆圈描述了连续的可观测节点。隐藏节点可以在时间上被条件化为耦合节点，并且对于其余隐藏节点可被条件化为混合节点。

根据一个实施方案，CHMM400通过节点之间的转移概率来捕获音频流和视频流之间的交互。根据一个实施方案，在某一时刻上CHMM的每个节点都可能受到在前面某一时刻上所有相关节点(包括音频节点和视频节点)的条件的影响。例如，视频流401中在某一时隙(例如t＝1)上的节点405受到前面某一时隙(例如t＝0)上的相关节点的影响，所述相关节点例如是视频流401的节点403和音频流402的节点404。

在数学上，根据一个实施方案，CHMM的元素可以被定义为：

π_{o}^{c} (i) = P (q_{o}^{c} = i)

(公式1)

b_{t}^{c} (i) = P (O_{t}^{c} | q_{t}^{c} = i)

(公式2)

a_{i | j, k}^{c} = P (q_{t}^{c} = i | q_{t - 1}^{0} = j, q_{t - 1}^{1} = k)

(公式3)

其中q_t ^c是在t时刻在第c流中的耦合节点的状态。π_o ^c(i)代表在第c流上的初始条件。b_t ^c(i)代表在条件

q_{t}^{c} = i

的条件下，在第c流上在t时刻给定观测结果O_t ^c的观测概率。

代表在给定

q_{t - 1}^{0} = j

并且

q_{t - 1}^{1} = k

的条件下，从状态时刻t-1转移到t的转移概率。

在与高斯分量的连续混合中，所观测节点的概率可以表示为：

b_{t}^{c} (i) = Σ_{m = 1}^{M_{i}^{C}} w_{i, m}^{c} N (O_{t}^{c}, μ_{i, m}^{c}, U_{i, m}^{c})

(公式4)

其中μ_i，m ^c和U_i，m ^c是一个耦合节点的第i状态的平均和协方差矩阵以及在第c信道中的关联混合节点的第m分量。M_i ^c是与第c流中的耦合节点的第i状态相对应的混合数量，并且权重w_i，m ^c代表条件概率

P (s_{t}^{c} = m | q_{t}^{c} = i),

其中s_t ^c是在t时刻在第c流中的混合节点的分量。与在传统方法中所使用的隔离单词视听语音识别不同，在传统方法中，一个CHMM被用来为每个视听单词建模，而在视听连续语音识别中，每个CHMM为可能的音素-视素对之一建模。

CHMM需要被训练来识别音素-视素对。可以利用动态贝叶斯网络的最大似然率(ML)训练过程来训练CHMM。由隐马尔可夫链约束的任何离散时间和空间动态系统都发射一个序列的可观测输出，其中在这些状态的轨迹中每个状态有一个输出(例如，观测结果)。根据可观测的序列或输出，可以计算出最有可能的动态系统。结果是用于底层处理过程的一个模型。可替换地，给定一个输出序列，可以确定最大可能的状态序列。在视听连续语音识别任务中，可以生成音素-视素对的数据库，连同用于每一对的单独训练集合。

不幸的是，对参数的迭代最大似然率估计仅仅收敛到一个局部最优，使得模型初始参数的选择成为一个很棘手的问题。为了获得满意的结果，需要一种用于ML初始化的有效方法。一种这样的方法是基于维特比算法，该算法为音频流和视频流的耦合节点确定最优状态序列，该序列使观测似然率最大化。

根据一个实施方案，用于AVCSR的CHMM参数的训练分两个阶段来完成，并且可被认为是在只有音频的连续语音识别中所使用的训练的扩展。在第一阶段中，为隔离的音素-视素对估计CHMM参数。在这个阶段中，使用只有音频的语音识别系统以及音素-视素对应关系表来标记训练序列，例如在由Final Workshop 2000 Report于2000年出版，C.Neti等所著的名为“视听语音识别(Audio Visual Speech Recognition)”中所定义的那些。一开始可以使用基于维特比的初始化过程来估计隔离音素-视素CHMM的参数，例如在声学、语音和信号处理的国际会议(2002)上，由A.V.Nefian等人发表的名为“用于视听语音识别的耦合隐马尔可夫模型”中所描述的那些，特别将这篇文章按参考的方式包括进来。

紧随所述过程之后可以是本领域中公知的估计-最大化(EM)算法，例如由英国伦敦的UCL出版公司于1998年出版的、由Finn V.Jensen等人编著的名为“贝叶斯网络介绍”中所描述的那些。为了解决连续语音识别系统的需求，根据一个实施方案，训练两个附加的CHMM，以为连续单词和句子之间的沉寂期建模。

在第二阶段中，通过对来自连续视听语音的所有CHMM的嵌入式训练，来精炼在第一阶段中个别估计的CHMM的参数。在这个阶段中，训练序列的标签仅在音素-视素的序列上存在，所有的边界信息都被忽略了。在一个实施方案中，处理过程可类似于用于HMM的嵌入式训练方法，如英国剑桥的Entropic Cambridge Research Laboratory出版的、由S.Young等人所著的名为“The HTK Book”中所定义的，在第一阶段中获得的模型中的每一个都被扩展为具有一个入口和一个出口的非发射状态。非发射状态的使用也在模型边界上强制实现了音素-视素同步。

嵌入式训练跟在用于连续视听语音的EM算法的操作之后，并且可以包括两个子阶段。在第一子阶段中，前向概率

α_{t} (i, j) = P (O_{l}, . . ., O_{t}, q_{t}^{0} = i, q_{t}^{1} = j)

和后向概率

β_{t} (i, j) = P (O_{t} + 1, . . ., O_{T} | q_{t}^{0} = i, q_{t}^{1} = j)

被计算出来。从初始条件开始，例如：

α_{1} (i, j) = π_{1}^{0} (i) π_{1}^{1} (j) b_{1}^{0} (i) b_{1}^{1} (j),

(公式5)

从以下公式6中递归地计算出前向概率

α_{t} (i, j) = b_{t - 1}^{0} (j) b_{t - 1}^{1} (j) \underset{l, k}{Σ} a_{i, j | l, k} a_{t - 1} (l, k)

(公式6)

其中t＝2，3，...，T。类似地，从初始条件

β_T(i，j)＝1

出发，从以下公式7中递归地计算出后向概率

β_{t} (i, j) = \underset{l, k}{Σ} b_{t + 1}^{0} (l) b_{t + 1}^{1} (k) a_{l, k | i, j >} β_{t - 1} (l, k)

(公式7)

其中t＝T-1，T-2，...，1，i和j分别是音频链和视频链的状态，并且a_i，j|k，l＝a_i|k，1a_j|k，l是视听状态i，j和k，l的集合之间的转移概率。第r观测序列

O^{r} = [O_{1}^{r}, . . . O_{T}^{r}]

的概率被计算为：

P_r＝α_T(N，M)＝β₁(1，1)

其中，N，M分别是音频链和视频链中的状态数，T_r是观测序列O^r的长度。

在第二子阶段中，在第一阶段中获得的前向概率和后向概率被用来重新估计状态参数，如下所示：

{\overset{&OverBar;}{μ}}_{i, m}^{c} = \frac{Σ_{r} Σ_{t} γ_{t}^{r, c} (i, m) O_{t}^{r}}{Σ_{r} Σ_{t} γ_{t}^{r, c} (i, m)}

(公式8)

{\overset{&OverBar;}{U}}_{i, m}^{c} = \frac{Σ_{r} Σ_{t} γ_{t}^{r, c} (i, m) (O_{t}^{r} - μ_{i, m}^{c}) {(O_{t}^{r} - μ_{i, m}^{c})}^{1}}{Σ_{r} Σ_{t} γ_{t}^{r, c} (i, m)}

(公式9)

{\overset{&OverBar;}{W}}_{i, m}^{c} = \frac{Σ_{r} Σ_{t} γ_{t}^{r, c} (i, m)}{Σ_{r} Σ_{t} Σ_{m} γ_{t}^{r, c} (i, m)}

(公式10)

其中

γ_{t}^{r, c} (i, m) = \frac{Σ_{j} \frac{1}{P_{r}} α_{t}^{r} (i, j) β_{t}^{r} (i, j)}{Σ_{i, j} \frac{1}{P_{r}} α_{t} (i, j) β_{t} (i, j)}

\frac{W_{i, m}^{c} N (O_{t}^{r}, μ_{i, m}^{c}, U_{i, m}^{c})}{Σ_{m} w_{i, m}^{c} N (O_{t}^{r}, μ_{i, m}^{c}, U_{i, m}^{c})}

(公式11)

可以使用以下公式来估计状态转移概率：

{\overset{&OverBar;}{a}}_{i | k, l}^{0,1} = \frac{Σ_{r} \frac{1}{P_{r}} Σ_{t} α_{t}^{r} (k, l) a_{i | k, l} b_{t}^{0,1} (i) Σ_{j} β_{t + 1}^{r} (i, j) b_{t}^{1,0} (j)}{Σ_{r} \frac{1}{P_{r}} Σ_{t} α_{t}^{r} (k, l) β_{t}^{r} (k, l)}

(公式12)

假设

a_{i | k, l}^{0,1} = P (q_{t}^{0,1} = i | q_{t}^{0,1} = k) P (q_{t}^{0,1} = i | q_{t}^{1,0} = 1),

可以简化对转移概率的重新估计。例如，

P (q_{t}^{0} = i | q_{t}^{1} = k)

可以被估计为

P (q_{t}^{0} = i | q_{t}^{1} = k) = \frac{Σ_{r} \frac{1}{P_{r}} Σ_{t} Σ_{j} Σ_{l} α_{t}^{r} (k, l) a_{i, j | k, l} b_{t}^{0} (i) b_{t}^{1} (k) β_{t + 1}^{r} (i, j)}{Σ_{r} \frac{1}{P_{r}} Σ_{t} Σ_{j} Σ_{l} α_{t}^{r} (k, l) β_{t}^{r} (k, l)}

(公式13)

从一个非发射入口状态i向任意一对视听状态(k，l)的转移由下式给出：

a_{i | k, l} = \frac{1}{R} \underset{r}{Σ} \frac{1}{P_{r}} α_{1}^{r} (k, l) β_{1}^{r} (k, l)

(公式14)

并且从状态对(k，l)向离开的非发射出口状态0的转移由下式给出：

a_{k, l | o} = \frac{Σ_{r} \frac{1}{P_{r}} α_{T}^{r} (k, l) β_{T}^{r} (k, l)}{Σ_{r} \frac{1}{P_{r}} Σ_{t} α_{t}^{r} (k, l) β_{t}^{r} (k, l)}

(公式15)

根据一个实施方案，可以经由应用于单词网络的图解码器来实现视听连续语音识别，所述单词网络例如是在图2中所示的单词网络200，它由词典中的全部单词组成。单词网络中的每个单词都可以被存储为一序列的音素-视素CHMM，并且可以通过应用于视听数据的令牌传递(token passing)算法的扩展来获得单词的最佳序列。可以从S.Young等人所著的“HTK Book”中所定义的那些算法中选择所述令牌传递算法。可替换地，可以从M.Oerder等人所著的“词图：在连续语音识别和语言理解之间的有效接口”中所定义的算法中选择所述令牌传递算法，上文是由IEEE声学、语音和处理信号国际会议出版的，第2卷，1993。

为了处理音频信道中不同级别的噪声，音频和视频观测概率被修改以满足：

\tilde{b_{t}^{0,1}} (i) = {[b_{t}^{0,1} (i)]}^{α_{0,1}}

其中α₀+α₁＝1并且α₀，α₁＞＝0分别是音频流和视频流的指数。对应于特定声学SNR(信噪比)级的α₀和α₁值通过实验获得，以使平均误词率最小。

已经在一些周知的数据库上对视听连续语音识别系统进行实验，例如J.Luettin等人的名称为“用于XM2FDB数据库的估值协议”，在IDIAP-COM 98-05(1998)中所给出的XM2VTS数据库。在这些实验中，从约200名讲话者捕获而来的一组约1450个数字枚举序列被用于训练，而从其他的约95名讲话者捕获而来的一组约700个序列被用于解码。以“干净的”音频(例如SNR约为30dB)来记录训练序列。用几种级别的噪声(例如白噪声)来破坏实验序列的音频数据，从而能够在较少约束的声学条件下研究AVSR。

在一个实施方案中，声学观测向量包括13个MFCC系数，这是从约25.6毫秒(ms)的窗口中提取的，有约15.6ms的交叠，利用它们的第一和第二阶时间导数。视觉特征是使用上述方法之一，从嘴部区域中获得的，具体地说，它们可以经由级联算法获得，例如A.V.Nefian等人所著的名称为“与讲话者无关的视听连续语音识别”中所定义的那些算法，该文收录于在多媒体国际会议和展览会，2002中，这里通过参考被明确地包含进来。

视觉特征的提取是从基于神经网络的面部检测系统开始，紧接着使用一组支持向量机分类器来对嘴部区域进行检测和跟踪。使用主分量分析将嘴部区域中的像素映射到32维特征空间。然后，约15个视觉观测向量的块被连接在一起，并被投影到13类别(13-class)的线性判别空间上，例如在由John Wiley Sons公司，纽约，NY，2000出版的，R.O.Duda等人所著的“模式分类”中所定义的那些。所得到的大小为13的向量以及它们的第一和第二阶时间导数被用作视觉观测序列。如上所述，使用在不带后向转移的音频链和视频链中具有三个状态，每个状态32个混合的CHMM以及对角线协方差矩阵来合并听觉特征和视觉特征。

下面描述实验视听语音识别系统针对几种SNR级的误词率(WER)：

SNR(db)	0	5	10	15
SNR(db)	0	5	10	15	WER(％)	24.62	15.71	9.47	5.13
SNR(db)	20	25	30	干净的	WER(％)	24.62	15.71	9.47	5.13
SNR(db)	20	25	30	干净的	WER(％)	2.95	1.86	1.59	1.14

表1

图5示出了只有音频的、只有视频的以及视听语音识别系统在不同SNR级下的误词率。表1和图5将当前AVSR系统的WER与只有音频的语音识别系统进行比较。为了公平比较，在只有音频的语音识别系统中，所有的音素都使用与在视听CHMM中的音频HMM具有相似特征的HMM来建模。

图6是图示了使用一个或多个CHMM进行连续视听语音识别的过程的示例性实施方案的流程图。该过程可以由硬件(例如电路、专用逻辑等)、软件(例如运行在通用计算机或专用机器上的程序)、或者两者的组合来实现。在一个实施方案中，示例性的过程600包括接收音频数据流和视频数据流，并且使用耦合隐马尔可夫模型(CHMM)，基于所述音频和视频数据流来执行连续语音识别。

参考图6，在框601，接收到视听数据流。视听信息可以用模拟格式来收集并存储，或者优选地，可以被转换为适当的数字形式，包括但不限于MPEG-2、MPEG-4、JPEG、运动JPEG或通常用于数字图像存储的其他可顺序表示的变换编码图像。可以使用低成本、低分辨率的基于CCD(耦合电荷器件)或CMOS的摄像系统，尽管对于某些应用而言，支持更高帧率和分辨率的摄像机可能是有用的。音频数据可以由低成本的麦克风系统采集，并且可受到各种音频处理技术的处理，以去除间歇式的突发噪音、环境噪音、静电噪音、在正常语音频率范围之外记录的声音、或者任何其他非语音数据信号。

在框602，使用MFCC提取过程将声学特征提取出来，并且从视听数据中提取出视觉特征。在一个实施方案中，使用上述技术之一，使用来自嘴部区域的LDA或/和PCA(主分量分析)系数来提取视觉特征。在框603，计算出在给定每一个音素-视素模型(例如CHMM)的情况下，视听数据流的每一段的似然率。在框604，如上所述，通过维特比算法选择出最佳序列的模型(例如CHMM)。如果还有更多的数据段(框605)，则重复以上处理，直到处理了所有的数据段。

图7是图示了在连续语音识别系统中用于训练一个或多个CHMM的参数的过程的示例性实施方案的流程图。该过程可以由硬件(例如电路、专用逻辑等)、软件(例如运行在通用计算机或专用机器上的程序)、或者两者的组合来实现。在一个实施方案中，示例性的过程700包括使用维特比算法，逐个地基于一个训练序列的隔离音素-视素对来估计耦合隐马尔可夫模型(CHMM)的参数，并且使用维特比算法，对来自连续视听语音的所述CHMM的参数进行训练。

参考图7，在框701，使用只有音频的语音识别机制以及音素-视素对应表来标记一个训练序列的隔离音素-视素对。在框702，使用维特比训练算法来初始化隔离音素-视素对的参数。在框703，对隔离音素-视素对的所述参数执行估计-最大化(EM)算法。在框704，使用一个或多个CHMM来为连续单词和句子之间的沉寂期建模。在框705，和音素-视素对的边界有关的标记被去除。在框706，对每个音素-视素对计算前向概率和后向概率。在框707，基于前向概率和后向概率来重新估计CHMM的状态参数。

图8示出了可以与本发明的实施方案一起使用的示例性计算机的框图。例如，在图8中所示的系统800可以包括硬件、软件或两者的组合，用以执行在图6和7中所示出的上述过程。注意，虽然图8示出了计算机系统的各种组件，但这并不是要代表互连组件的任何具体体系结构或方式，因为这些细节都和本发明关系不大。同样可以理解的是，网络计算机、手持计算机、蜂窝电话以及具有更少组件或者更多组件的其他数据处理系统也可以和本发明一起使用。

如图8所示，计算机系统800是一种形式的数据处理系统，它包括与微处理器803、ROM807、易失性RAM805和非易失性存储器806耦合的总线802。微处理器803可以是英特尔公司生产的奔腾处理器，它被耦合到在图8的实施例中所示的缓存存储器804。总线802将这些不同的组件互连在一起，还将这些组件803、807、805和806连接到显示控制器和显示设备808以及输入/输出(I/O)设备810，所述输入/输出设备810可以是鼠标、键盘、调制解调器、网络接口、打印机以及本领域中公知的其他设备。一般，输入/输出设备810通过输入/输出控制器809被耦合到系统。易失性RAM805被典型地实现为动态RAM(DRAM)，它需要连续供电，以刷新或保持存储器中的数据。非易失性存储器806典型地是磁硬盘驱动器、磁光盘驱动器、光盘驱动器、或者DVD RAM或其他类型的存储器系统，这些存储器系统即使在去除电源之后也能保持数据。典型地，非易失性存储器也将是随机访问存储器，虽然这不是必要的。虽然图8示出非易失性存储器是直接耦合到数据处理系统中的其余组件的本地设备，但是将会理解，本发明也可以使用位于本系统远程的非易失性存储器，例如通过诸如调制解调器或以太网接口的网络接口耦合到所述数据处理系统的网络存储设备。总线802可以包括通过本领域中公知的各种桥、控制器和/或适配器彼此连接的一条或多条总线。在一个实施方案中，I/O控制器809包括用于控制USB(通用串行总线)外设的USB适配器。

这样就描述了用于视听连续语音识别的耦合HMM。将会理解，准确的视听数据到文本的处理可被用来实现多种应用，包括提供用于人机交互和机器人系统的鲁棒性框架。在高噪声环境中的准确语音识别实现了在非受控环境下的连续语音识别、诸如免提电话的语音命令和控制设备、以及其他移动设备。此外，耦合HMM可以应用于大量多媒体应用中，其中包括两个或更多的相关数据流，例如语音、一种或两种手势和面部表情。此外，耦合HMM可以被很容易地配置来发挥并行计算的优势，不同的处理器控制不同的建模/训练数据流。

在以上说明书中，参考本发明特定的示例性实施方案描述了本发明。很显然，在不偏离如权利要求书中所阐述的本发明的更广精神和范围的情况下，可以对这些实施方案进行各种修改。因此，说明书和附图应被视为示意性的而非限制性的。

Claims

1.一种方法，包括：

接收音频数据流和视频数据流；以及

使用多个隐马尔可夫模型(HMM)，基于所述音频数据流和视频数据流来执行连续语音识别，在某一时隙处所述HMM中每一个的节点都受到前一时隙处相关HMM的一个或多个节点的影响。

2.如权利要求1所述的方法，其中所述音频和视频数据流具有异步状态。

3.如权利要求1所述的方法，还包括并行处理所述音频和视频数据流。

4.如权利要求1所述的方法，其中所述多个HMM为所述音频和视频数据流的音素-视素对建模。

5.如权利要求1所述的方法，还包括共同地基于所述音频和视频数据流的至少一部分来计算某一节点的转移概率。

6.如权利要求1所述的方法，还包括独立地为所述音频和视频数据流计算观测似然率。

7.如权利要求1所述的方法，还包括使用维特比算法来训练所述多个HMM。

8.如权利要求1所述的方法，还包括从所述视频数据流中执行视觉特征提取。

9.一种方法，包括：

使用维特比算法，基于一个训练序列的隔离音素-视素对逐个地估计多个隐马尔可夫模型(HMM)的参数，在某一时隙处所述HMM中每一个的节点都受到前一时隙处相关HMM的一个或多个节点的影响；以及

使用维特比算法，对来自连续视听语音的所述HMM的参数进行训练。

10.如权利要求9所述的方法，其中所述的估计参数的操作包括使用只有音频的语音识别机制以及音素-视素对应关系表来标记所述训练序列。

11.如权利要求9所述的方法，其中所述的估计参数包括对所述隔离音素-视素对的参数执行基于维特比的初始化过程。

12.如权利要求11所述的方法，其中所述的估计参数还包括对所述隔离音素-视素对的参数执行估计-最大化(EM)操作。

13.如权利要求9所述的方法，其中所述的估计操作还包括使用一个或多个HMM为连续单词和句子之间的沉寂期建模。

14.如权利要求9所述的方法，其中执行训练包括去除和所述训练序列的音素-视素对的边界有关的标记。

15.如权利要求9所述的方法，其中执行训练包括在HMM的边界同步所述音素-视素对。

16.如权利要求15所述的方法，其中同步所述音素-视素对包括将所述HMM中的每一个和一个入口非发射状态和一个出口非发射状态关联起来。

17.如权利要求9所述的方法，其中执行训练包括关于所述训练序列递归地为每一个音素-视素对计算前向和后向概率。

18.如权利要求17所述的方法，其中所述前向和后向概率是基于各个音素-视素对的一组音频和视频状态而计算出来的。

19.如权利要求17所述的方法，还包括基于所述前向和后向概率来估计所述HMM的状态参数。

20.一种具有可执行代码的机器可读介质，所述可执行代码使得机器执行一种方法，所述方法包括：

接收音频数据流和视频数据流；以及

21.如权利要求20所述的机器可读介质，其中所述方法还包括共同地基于音频和视频数据流的至少一部分来计算某一节点的转移概率。

22.如权利要求20所述的机器可读介质，其中所述方法还包括独立地为所述音频和视频数据流计算观测似然率。

23.一种具有可执行代码的机器可读介质，所述可执行代码使得机器执行一种方法，所述方法包括：

24.如权利要求23所述的机器可读介质，其中所述的估计参数包括对所述隔离音素-视素对的参数执行基于维特比的初始化过程。

25.如权利要求23所述的机器可读介质，其中执行训练包括在HMM的边界同步所述音素-视素对。

26.一种系统，包括：

处理器；以及

耦合到所述处理器的存储器，所述存储器存储指令，所述指令在被所述处理器执行时使得所述处理器执行以下操作：

接收音频数据流和视频数据流；以及

27.如权利要求26所述的系统，其中所述操作还包括共同地基于所述音频和视频数据流的至少一部分来计算某一节点的转移概率。

28.一种系统，包括：

处理器；以及

29.如权利要求28所述的系统，其中所述的估计参数包括对所述隔离音素-视素对的参数执行基于维特比的初始化过程。

30.如权利要求28所述的系统，其中执行训练包括在HMM的边界同步所述音素-视素对。