CN102682273A

CN102682273A - 嘴唇运动检测设备和方法

Info

Publication number: CN102682273A
Application number: CN2011100774831A
Authority: CN
Inventors: 严望
Original assignee: Sharp Corp
Current assignee: Sharp Corp
Priority date: 2011-03-18
Filing date: 2011-03-18
Publication date: 2012-09-19
Also published as: WO2012128382A1

Abstract

本发明提供了一种基于视频的嘴唇运动检测设备，包括：脸部查找单元，从输入的视频帧中查找脸部；嘴部区域提取单元，从找到的脸部中提取嘴部区域；视觉特征提取单元，针对时空窗中每个像素提取时空平面的梯度和时空平面的局部二元模式LBP码中至少一种，然后基于该提取结果提取嘴部区域的视觉特征；以及检测单元，基于所提取的嘴部区域的视觉特征来检测嘴唇运动。本发明还提供了一种基于视频的嘴唇运动检测方法。本发明无需针对特定用户进行再训练或适配，提高了检测的准确性。

Description

嘴唇运动检测设备和方法

技术领域

本发明涉及视频处理领域，具体涉及一种基于视频的嘴唇运动检测设备和方法。

背景技术

在有噪声的环境中，难以仅仅根据音频信号来精确地检测语音片段。语音片段有时会被不正确地截取和/或附加有噪声。结果，语音识别的精度会下降。

已知的是，嘴唇运动能够较好地指示语音。US7343289B2公开了一种用于音频/视频讲话者检测的系统和方法。该方法用于根据视觉信息和音频信息来检测讲话者(即嘴唇运动的主体)。具体地，该文档中所公开的方法包括如下步骤：从视频帧中查找脸部；查找并提取嘴部区域；利用LDA(线性判别分析)提取嘴部张开程度作为视觉特征；提取与视频帧相对应的音频信号的能量作为音频特征；以及将上述两个特征输入经过训练的TDNN(时间延迟神经网络)，并根据TDNN的输出来检测嘴唇运动。

然而，该方法从每一个帧中单独地提取视觉特征。由于该视觉特征包括关于主体身份的丰富信息，因而其在一定程度上是与个体相关的。因此，如果使用该方法来检测未包括在TDNN的训练集中的主体的嘴唇运动，检测率将会极大程度地降低。

发明内容

为了解决上述技术问题，本发明的一个方面提供了一种基于视频的嘴唇运动检测设备，包括：脸部查找单元，从输入的视频帧中查找脸部；嘴部区域提取单元，从找到的脸部中提取嘴部区域；视觉特征提取单元，针对时空窗中每个像素提取时空平面的梯度和时空平面的局部二元模式LBP码中至少一种，然后基于该提取结果提取嘴部区域的视觉特征；以及检测单元，基于所提取的嘴部区域的视觉特征来检测嘴唇运动。

优选地，利用所提取的嘴部区域的视觉特征对检测单元预先进行训练。

优选地，基于视频的嘴唇运动检测设备还包括：平滑单元，对检测单元的检测结果进行平滑。

优选地，基于视频的嘴唇运动检测设备还包括：音频特征提取单元，提取与输入的视频帧相对应的音频特征。检测单元基于视觉特征提取单元提取的视觉特征和音频特征提取单元提取的音频特征来检测嘴唇运动。

优选地，利用所提取的视觉特征和音频特征对检测单元预先进行训练。

优选地，视觉特征包括基于三正交平面上的局部二元模式LBP-TOP的视觉特征。

优选地，嘴部区域是矩形，所述矩形的中心位于两个嘴角的连线的中点，并且所述矩形的长边与两个嘴角的连线平行。

优选地，检测单元包括支持向量机SVM。

优选地，平滑单元包括中值滤波器。

优选地，脸部查找单元包括Viola-Jones脸部检测器。

优选地，嘴部区域提取单元使用ASM从找到的脸部中提取嘴部区域。

优选地，视觉特征提取单元还针对时空窗中每个像素提取图像平面的梯度和图像平面的局部二元模式LBP码中至少一种，然后基于总的提取结果提取嘴部区域的视觉特征。

本发明的另一个方面提供了一种基于视频的嘴唇运动检测方法，包括以下步骤：从输入的视频帧中查找脸部；从找到的脸部中提取嘴部区域；针对时空窗中每个像素提取时空平面的梯度和时空平面的局部二元模式LBP码中至少一种，然后基于该提取结果提取嘴部区域的视觉特征；以及基于所提取的嘴部区域的视觉特征来检测嘴唇运动。

优选地，在检测嘴唇运动之前，利用所提取的嘴部区域的视觉特征预先进行训练。

优选地，基于视频的嘴唇运动检测方法还包括：对检测结果进行平滑。

优选地，基于视频的嘴唇运动检测方法还包括：提取与输入的视频帧相对应的音频特征。基于所提取的视觉特征和音频特征来检测嘴唇运动。

优选地，在检测嘴唇运动之前，利用所提取的视觉特征和音频特征预先进行训练。

优选地，使用支持向量机SVM来检测嘴唇运动。

优选地，使用中值滤波器对检测结果进行平滑。

优选地，使用Viola-Jones脸部检测器从输入的视频帧中查找脸部。

优选地，使用ASM从找到的脸部中提取嘴部区域。

优选地，还针对时空窗中每个像素提取图像平面的梯度和图像平面的局部二元模式LBP码中至少一种，然后基于总的提取结果提取嘴部区域的视觉特征。

本发明的另一个方面提供了一种语音识别系统，包括：麦克风，用于捕获音频信号；摄像机，用于捕获视频信号；嘴唇运动检测设备，根据摄像机捕获的视频信号来检测嘴唇运动，以获取嘴唇运动的开始和结束时间；语音片段检测器，根据麦克风捕获的音频信号以及嘴唇运动的开始和结束时间来提取语音片段；特征提取器，从所提取的语音片段中提取音频特征；以及语音识别器，根据所提取的音频特征来识别语音。

本发明的另一个方面提供了一种视频会议系统，包括：麦克风，用于捕获音频信号；摄像机，用于捕获视频信号；嘴唇运动检测设备，根据摄像机捕获的视频信号来检测嘴唇运动，以获取嘴唇运动的开始和结束时间；以及发送器。在嘴唇运动的开始时间，嘴唇运动检测设备控制发送器发送麦克风捕获的音频信号和摄像机捕获的视频信号；在嘴唇运动的结束时间，嘴唇运动检测设备控制发送器仅发送摄像机捕获的视频信号。

优选地，视频会议系统，还包括：视频帧截取器，从摄像机捕获的视频信号中截取视频。在嘴唇运动的开始时间，嘴唇运动检测设备开启视频帧截取器，并控制发送器发送麦克风捕获的音频信号和视频帧截取器所截取的视频；在嘴唇运动的结束时间，嘴唇运动检测设备关闭视频帧截取器，并控制发送器仅发送摄像机捕获的视频信号。

优选地，视频帧截取器通过变焦而截取正在讲话的讲话者的特写。

本发明能够针对具有有限数目的主体的训练集而实现与主体无关的嘴唇运动检测。与现有技术相比，本发明对于训练集中未包括的主体具有更高的检测率。采用本发明，无需为了提高检测率而针对不同用户进行再训练或适配，从而提高了可用性。

附图说明

通过下文结合附图的详细描述，本发明的上述和其它特征将会变得更加明显，其中：

图1示出了根据本发明一个实施例的基于视频的嘴唇运动检测设备的框图；

图2示出了根据本发明一个实施例的LBP码计算的一个示例；

图3示出了根据本发明一个实施例的提取基于LBP-TOP的特征的一个示例；

图4示出了根据本发明另一个实施例的基于视频的嘴唇运动检测设备的框图；

图5示出了根据本发明另一个实施例的基于视频的嘴唇运动检测设备的框图；

图6示出了根据本发明一个实施例的基于视频的嘴唇运动检测方法的流程图；

图7示出了具有根据本发明一个实施例的嘴唇运动检测设备的视频辅助语音识别系统的框图；

图8(a)-(c)示出了图7的语音识别系统中的信号；以及

图9示出了具有根据本发明一个实施例的嘴唇运动检测设备的视频会议系统的框图。

具体实施方式

下面，通过结合附图对本发明的具体实施例的描述，本发明的原理和实现将会变得明显。应当注意的是，本发明不应局限于下文所述的具体实施例。另外，为了简便起见，省略了与本发明无关的公知技术的详细描述。

图1示出了根据本发明一个实施例的基于视频的嘴唇运动检测设备10的框图。如图1所示，嘴唇运动检测设备10包括：脸部查找单元110，从输入的视频帧中查找脸部；嘴部区域提取单元120，从找到的脸部中提取嘴部区域；视觉特征提取单元130，提取嘴部区域的视觉特征；以及检测单元140，基于所提取的嘴部区域的视觉特征来检测嘴唇运动。下面，对嘴唇运动检测设备10中所包括的各个组件的具体操作进行详细描述。

脸部查找单元110在每一个输入的视频帧中查找脸部。如果找到任何脸部，则将脸部的位置传递给嘴部区域提取单元120作为输入信息。对于没有从中找到脸部的视频帧，不会对其进行进一步的处理。可以使用各种已知的脸部检测和跟踪技术来实现脸部查找单元110，例如但不限于：Viola-Jones脸部检测器、Rowley脸部检测器、均值漂移(meanshift)跟踪器和粒子滤波跟踪器，等等。

嘴部区域提取单元120从脸部查找单元110找到的脸部中查找嘴部区域，并从脸部中提取出该嘴部区域。具体地，对于每一个找到的脸部，首先查找两个嘴角。然后，根据找到的两个嘴角来确定嘴部区域。可以使用已知的ASM(主动形状模型)来定位两个嘴角的位置。备选地，还可以使用AAM(主动外观模型)和Snakes(也被称为主动轮廓模型)来定位两个嘴角的位置。在确定两个嘴角的位置后，可确定一个矩形区域，该矩形区域的中心位于两个嘴角的连线的中点，并且该矩形区域的长边与两个嘴角的连线平行。然后，将该矩形区域作为嘴部区域。优选地，矩形区域的纵横比是3∶2。然而，其他的纵横比也是可以应用的。

备选地，嘴部区域还可以具有其他形状，例如椭圆，其只要包含整个嘴唇外轮廓即可。另外，这些形状不一定是对称的，它们的中心也不一定要和嘴角连线中心重合。进一步地，与嘴唇外轮廓有较大交集的任意形状也可以作为嘴部区域。

视觉特征提取单元130根据时空窗来提取视觉特征，该时空窗包括一个或多个连续的嘴部区域。在本发明的一个实施例中，采用三正交平面上的局部二元模式(Local Binary Pattern on Three OrthogonalPlanes，LBP-TOP)特征来描述视觉特征，该特征是已知的局部二元模式LBP特征的时空扩展。

具体地，对于给定像素(x_c，y_c)，通过插值来提取中心位于(x_c，y_c)且半径为R的圆上的P个均匀间隔的近邻像素的值。该像素的LBP码由下式给出：

{LBP}_{P, R} = Σ_{p = 0}^{P - 1} s (g_{p} - g_{c}) 2^{p},

其中，

g_c是像素(x_c，y_c)的值，g_p是第p个近邻像素的值。图2示出了根据本发明一个实施例的LBP码计算的一个示例，其中P＝8且g_c＝70。中心像素和在其周围单位圆上均匀分布的近邻像素的值如图2(a)所示。首先，将中心像素与近邻像素逐一比较，如前者的值不小于后者，则将该近邻像素表示为1，反之为0。比较结果如图2(b)所示。然后，从左侧水平方向近邻像素开始，按照逆时针顺序将比较结果排列成为一个二进制数，该数值即为中心像素的LBP码，如图2(c)所示。当然，其他顺序和起始像素也是可行的。

除了基本形式之外，存在多种LBP码的已知变体，例如均匀LBP(Uniform LBP)、旋转不变LBP以及两者的组合。优选地，使用基本的LBP码，其中P＝8，R＝1。然而，同样可以使用其他的LBP码变体，并且P和R的其他取值也是可能的。

LBP-TOP特征是从包括一个或多个连续的嘴部区域的时空窗中提取的。图3示出了该提取过程的一个示例。如图3所示，窗口(a)首先被分为一个或若干个时空块。对于每一个块(b)中的每一个像素，针对其位于XY、XT和/或YT平面上的近邻像素，分别提取LBP码。对于每一个块，分别提取每一个平面的LBP码直方图，然后把来自一个或多个特定平面的直方图连接以形成块的LBP-TOP特征。来自XY平面的直方图包括更多关于主体身份的信息；而来自XT和YT平面的直方图包括更多关于运动的信息，该信息与个体的相关性较低。最后，把来自所有块的LBP-TOP特征进行连接，以形成时空窗的LBP-TOP特征。

在本实施例中，所采用的时空窗包括五个连续的嘴部区域，并且被均匀地分为重叠部分为50％的6×4×1(分别对应于X、Y和T轴)个块，并且仅使用来自XT和YT平面的LBP直方图。通过合并来自XT和YT平面的与个体的相关性较低的信息，本发明对于训练集以外的主体也能够良好地工作。然而，还可以应用其他数量的嘴部区域、其他种类的窗口划分以及来自不同平面的LBP直方图的其他组合。

本领域的技术人员可以理解，也可以对直方图进行后处理或者以其他方式提取基于LBP码的特征。例如，在提取每个时空块每个平面的直方图后，可对直方图进行归一化。归一化时，既可以每个块每个平面单独归一化，也可以是时空上相邻块的同一平面的直方图一起归一化，也可以是同一块的不同平面一起归一化，还可以是时空上相邻块的不同平面一起归一化。归一化的准则可以是使得归一化后的向量元素之和为1，也可以是使得归一化后的向量元素的平方和为1。第一次归一化后，可以将直方图中超过某一阈值的值改为该阈值，然后再次归一化。最后，把归一化后的直方图进行连接，形成时空窗的特征。另外，在计算每个像素的LBP码之后，也可以不提取直方图，而将每个块的所有像素的在某一平面或多个平面上LBP码看作一个特征向量并直接用子空间分析方法例如主成分分析或线性判别分析将其降维，降维后的向量作为这个块或平面的特征。最后，把所有块和/或所有平面的LBP-TOP特征进行连接，形成时空窗的特征。

本领域的技术人员可以理解，也可以采用其他的特征来描述视觉特征，例如但不限于：梯度类特征的时空扩展。传统的梯度类特征在图像平面XY上计算梯度，并基于此提取特征。梯度类特征的时空扩展则在XY、XT和/或YT平面上分别计算梯度。此后，可以提取各时空块中各平面梯度方向直方图，并且按照LBP-TOP中任一种归一化方法归一化并提取特征。也可以将每个时空块中所有像素在一个或多个平面上的梯度看作一个特征向量，并直接用子空间分析方法例如主成分分析或线性判别分析将其降维，降维后的向量作为这个块或平面的特征。最后，把来自所有块和/或所有平面的梯度特征进行连接，形成时空窗的特征，从而获得嘴部区域的视觉特征。

检测单元140基于所提取的嘴部区域的视觉特征来检测嘴唇运动。例如，检测单元140可以是分类器，该分类器能够区分两种类别的嘴部区域，即具有嘴唇运动的嘴部区域和不具有嘴唇运动的嘴部区域。存在多种已知的分类器。在优选实施例中，使用SVM(支持向量机)。然而，也可以使用其他的分类器，例如但不限于：k近邻(k-NearestNeighbor)分类器、AdaBoost分类器、神经网络分类器和高斯过程分类器、利用特征相似性的阈值分类器，等等。

优选地，在检测单元140检测嘴唇运动之前，可以利用所提取的嘴部区域的视觉特征预先对该检测单元140进行训练。在一个实施例中，该训练可以通过如下方式来完成：向每一个提取的视觉特征分配标记。例如，如果与视觉特征相对应的嘴部区域中存在嘴唇运动，则将该特征分配+1，否则分配-1。然后，可以使用已知的多种训练方法来训练检测单元140。

图4示出了根据本发明另一个实施例的基于视频的嘴唇运动检测设备40的框图。如图4所示，嘴唇运动检测设备40包括：脸部查找单元410、嘴部区域提取单元420、视觉特征提取单元430、检测单元440以及音频特征提取单元450。由于图4中所示的脸部查找单元410、嘴部区域提取单元420、视觉特征提取单元430和检测单元440与图1中所示的脸部查找单元110、嘴部区域提取单元120、视觉特征提取单元130和检测单元140是相似的，为了简洁起见，下文仅对音频特征提取单元450进行详细的描述。

在本实施例中，音频特征提取单元450提取与输入的视频帧相对应的音频特征。所提取的音频特征连同视觉特征提取单元430提取的视觉特征一同提供给检测单元440。具体地，如果视频中的主体正在讲话并且同步音频可用，那么音频特征提取单元450可以使用已知的基于音频的讲话结束点检测方法来检测讲话部分和非讲话部分。如果帧落入讲话部分，则该帧中的嘴部区域中存在嘴唇运动的概率就很大。通过结合音频特征来检测嘴唇运动，检测单元440的检测正确率会提高。

优选地，在检测单元440检测嘴唇运动之前，利用视觉特征提取单元430提取的嘴部区域的视觉特征以及音频特征提取单元450提取的音频特征预先对检测单元440进行训练。可以使用已知的多种训练方法来训练检测单元440。

图5示出了根据本发明另一个实施例的基于视频的嘴唇运动检测设备50的框图。如图5所示，嘴唇运动检测设备50包括：脸部查找单元510、嘴部区域提取单元520、视觉特征提取单元530、检测单元540以及平滑单元550。图5中所示的脸部查找单元510、嘴部区域提取单元520、视觉特征提取单元530和检测单元540与图1中所示的脸部查找单元110、嘴部区域提取单元120、视觉特征提取单元130和检测单元140相似。

平滑单元550在时间上对检测单元540的检测结果进行平滑。平滑利用了嘴唇运动状态不能在短时间内反复改变的先验知识，可以提高检测结果的正确率。例如，平滑单元550可以通过中值滤波器来实现。优选地，可以使用5点中值滤波。备选地，也可以采用具有其他窗长度的中值滤波或其他滤波。

应当理解的是，作为另一种实现，可以将图4中所示的音频特征提取单元和图5中所示的平滑单元一同合并至图1所示的基于视频的嘴唇运动检测设备中。

图6示出了根据本发明一个实施例的基于视频的嘴唇运动检测方法60的流程图。方法60在步骤S610处开始。

在步骤S620，从输入的视频帧中查找脸部。如果找到任何脸部，则将脸部的位置传递给下一步骤作为输入信息。对于没有从中找到脸部的视频帧，不会对其进行进一步的处理。优选地，可以使用Viola-Jones脸部检测、Rowley脸部检测、均值漂移(meanshift)跟踪和粒子滤波跟踪等方法来查找脸部。

在步骤S630，从找到的脸部中提取嘴部区域。对于每一个找到的脸部，首先查找两个嘴角。然后，根据找到的两个嘴角来确定嘴部区域。可以使用已知的ASM(主动形状模型)来定位两个嘴角的位置。备选地，还可以使用AAM(主动外观模型)和Snakes(也被称为主动轮廓模型)来定位两个嘴角的位置。在确定两个嘴角的位置后，可确定一个矩形区域，该矩形区域的中心位于两个嘴角的连线的中点，并且该矩形区域的长边与两个嘴角的连线平行。然后，将该矩形区域作为嘴部区域。优选地，矩形区域的纵横比是3∶2。然而，其他的纵横比也是可以应用的。

备选地，嘴部区域还可以具有其他形状，例如可以采用椭圆，其只要包含整个嘴唇外轮廓即可。另外，这些形状不一定是对称的，它们的中心也不一定要和嘴角连线中心重合。进一步地，与嘴唇外轮廓有较大交集的任意形状也可以作为嘴部区域。

在步骤S640，根据时空窗提取嘴部区域的视觉特征，该时空窗包括一个或多个连续的嘴部区域。在本发明的一个实施例中，采用LBP-TOP特征来描述视觉特征。然而，本领域的技术人员可以理解，也可以采用其他的特征来描述视觉特征，例如但不限于上文提到的梯度类特征的时空扩展。该步骤S640可以由图1中所示的视觉特征提取单元130来执行。

接下来，在步骤S650，基于所提取的嘴部区域的视觉特征来检测嘴唇运动。在一个实施例中，使用分类器来区分两种类别的嘴部区域，即具有嘴唇运动的嘴部区域和不具有嘴唇运动的嘴部区域，从而获得检测结果。这些分类器可以包括但不限于：SVM(支持向量机)、k近邻分类器、AdaBoost分类器、神经网络分类器、高斯过程分类器，利用特征相似性的阈值分类器，等等。

最后，方法60在步骤S660处结束。

优选地，尽管图6中未示出，在检测嘴唇运动的步骤S650之前，可以利用步骤S640中提取的嘴部区域的视觉特征预先进行训练。在一个实施例中，该训练可以通过如下方式来完成：向每一个提取的视觉特征分配标记。例如，如果与视觉特征相对应的嘴部区域中存在嘴唇运动，则将该特征分配+1，否则分配-1。然后，可以使用已知的多种训练方法来进行训练。

另外，尽管图6中未示出，还可以从输入的视频帧中提取音频特征。所提取的音频特征连同提取的视觉特征一同提供给步骤S650以用于检测嘴唇运动。具体地，如果视频中的主体正在讲话并且同步音频可用，那么可以使用已知的基于音频的讲话结束点检测方法来检测讲话部分和非讲话部分。如果帧落入讲话部分，则该帧中的嘴部区域中存在嘴唇运动的概率就很大。通过结合音频特征来检测嘴唇运动，检测正确率会提高。相应地，在检测嘴唇运动之前，可以利用视觉特征以及音频特征预先进行训练。

另外，尽管图6中未示出，该方法还可以对步骤S650获得的检测结果进行平滑。平滑利用了嘴唇运动状态不能在短时间内反复改变的先验知识，可以提高检测结果的正确率。例如，平滑可以通过中值滤波来实现。优选地，可以使用5点中值滤波。备选地，也可以采用具有其他窗长度的中值滤波或其他滤波。

图7示出了具有根据本发明一个实施例的嘴唇运动检测设备的视频辅助语音识别系统70的框图。在该语音识别系统70中，可以基于视频来检测语音片段，从而提高有噪声的环境中语音识别的精度。

具体地，图7所示的语音识别系统70包括：麦克风710、摄像机720、嘴唇运动检测设备730、语音片段检测器740、特征提取器750和语音识别器760。麦克风710和摄像机720分别实时地捕获视频和音频信号。讲话者在讲话时面对摄像机720。捕获的视频被发送至嘴唇运动检测设备730，捕获的音频被发送至语音片段检测器740。其中，嘴唇运动检测设备730可以由图1中所示的嘴唇运动检测设备10、图4中所示的嘴唇运动检测设备40或图5中所示的嘴唇运动检测设备50来实现。

如果嘴唇运动检测设备730检测到嘴唇运动，则将嘴唇运动的开始和结束时间发送至语音片段检测器740。之后，语音片段检测器740根据接收到的嘴唇运动的开始和结束时间来提取语音片段。图8(a)示出了麦克风710接收到的音频信号，图8(b)示出了嘴唇运动检测结果。可以清楚地看出，语音结束点和嘴唇运动信号结束点彼此很好地匹配。图8(c)示出了根据嘴唇运动信号提取的语音片段。

然后，将所提取的语音片段发送至特征提取器750，在特征提取器750中提取音频特征，并且将该特征发送至语音识别器760，该语音识别器760识别语音并输出识别结果。

图9示出了具有根据本发明一个实施例的嘴唇运动检测设备的视频会议系统90的框图。该系统90能够自动开启和关闭麦克风，而且还能够在存在多个主体的情况下为当前的讲话者提供特写。

具体地，视频会议系统90包括：麦克风910、摄像机920、嘴唇运动检测设备930、视频帧截取器940和发送器950。麦克风910实时地捕获音频信号，摄像机920实时地捕获视频。讲话者在向会议的另一方讲话时面对摄像机920。捕获的视频被发送至嘴唇运动检测设备930和视频帧截取器940。其中，嘴唇运动检测设备930可以由图1中所示的嘴唇运动检测设备10、图4中所示的嘴唇运动检测设备40或图5中所示的嘴唇运动检测设备50来实现。

在嘴唇运动的开始时刻，嘴唇运动检测设备930开启视频帧截取器940，并将讲话者的位置发送至视频帧截取器940。如果存在多个主体(讲话者)，则视频帧截取器940对视频帧进行截取并重新调整尺寸(通过变焦)，以便为当前的讲话者提供特写。截取的视频和来自麦克风910的音频被发送至发送器950以进行发送。在嘴唇运动的结束时刻，嘴唇运动检测设备930关闭视频帧截取器940以停止截取视频。此时，发送器950仅发送摄像机920捕获的视频。

尽管以上已经结合本发明的优选实施例示出了本发明，但是本领域的技术人员将会理解，在不脱离本发明的精神和范围的情况下，可以对本发明进行各种修改、替换和改变。因此，本发明不应由上述实施例来限定，而应由所附权利要求及其等价物来限定。

Claims

1.一种基于视频的嘴唇运动检测设备，包括：

脸部查找单元，从输入的视频帧中查找脸部；

嘴部区域提取单元，从找到的脸部中提取嘴部区域；

视觉特征提取单元，针对时空窗中每个像素提取时空平面的梯度和时空平面的局部二元模式LBP码中至少一种，然后基于该提取结果提取嘴部区域的视觉特征；以及

检测单元，基于所提取的嘴部区域的视觉特征来检测嘴唇运动。

2.如权利要求1所述的基于视频的嘴唇运动检测设备，其中，利用所提取的嘴部区域的视觉特征对检测单元预先进行训练。

3.如权利要求1所述的基于视频的嘴唇运动检测设备，还包括：

平滑单元，对检测单元的检测结果进行平滑。

4.如权利要求1所述的基于视频的嘴唇运动检测设备，还包括：

音频特征提取单元，提取与输入的视频帧相对应的音频特征；

其中，检测单元基于视觉特征提取单元提取的视觉特征和音频特征提取单元提取的音频特征来检测嘴唇运动。

5.如权利要求4所述的基于视频的嘴唇运动检测设备，其中，利用所提取的视觉特征和音频特征对检测单元预先进行训练。

6.如权利要求1所述的基于视频的嘴唇运动检测设备，其中，所述视觉特征包括基于三正交平面上的局部二元模式LBP-TOP的视觉特征。

7.如权利要求1所述的基于视频的嘴唇运动检测设备，其中，所述嘴部区域是矩形，所述矩形的中心位于两个嘴角的连线的中点，并且所述矩形的长边与两个嘴角的连线平行。

8.如权利要求1所述的基于视频的嘴唇运动检测设备，其中，所述检测单元包括支持向量机SVM。

9.如权利要求3所述的基于视频的嘴唇运动检测设备，其中，所述平滑单元包括中值滤波器。

10.如权利要求1所述的基于视频的嘴唇运动检测设备，其中，所述脸部查找单元包括Viola-Jones脸部检测器。

11.如权利要求1所述的基于视频的嘴唇运动检测设备，其中，所述嘴部区域提取单元使用主动形状模型ASM从找到的脸部中提取嘴部区域。

12.如权利要求1所述的基于视频的嘴唇运动检测设备，其中，所述视觉特征提取单元还针对时空窗中每个像素提取图像平面的梯度和图像平面的局部二元模式LBP码中至少一种，然后基于总的提取结果提取嘴部区域的视觉特征。

13.一种基于视频的嘴唇运动检测方法，包括以下步骤：

从输入的视频帧中查找脸部；

从找到的脸部中提取嘴部区域；

针对时空窗中每个像素提取时空平面的梯度和时空平面的局部二元模式LBP码中至少一种，然后基于该提取结果提取嘴部区域的视觉特征；以及

基于所提取的嘴部区域的视觉特征来检测嘴唇运动。

14.如权利要求13所述的基于视频的嘴唇运动检测方法，其中，在检测嘴唇运动之前，利用所提取的嘴部区域的视觉特征预先进行训练。

15.如权利要求13所述的基于视频的嘴唇运动检测方法，还包括：

对检测结果进行平滑。

16.如权利要求13所述的基于视频的嘴唇运动检测方法，还包括：

提取与输入的视频帧相对应的音频特征；

其中，基于所提取的视觉特征和音频特征来检测嘴唇运动。

17.如权利要求16所述的基于视频的嘴唇运动检测方法，其中，在检测嘴唇运动之前，利用所提取的视觉特征和音频特征预先进行训练。

18.如权利要求13所述的基于视频的嘴唇运动检测方法，其中，所述视觉特征包括基于三正交平面上的局部二元模式LBP-TOP的视觉特征。

19.如权利要求13所述的基于视频的嘴唇运动检测方法，其中，所述嘴部区域是矩形，所述矩形的中心位于两个嘴角的连线的中点，并且所述矩形的长边与两个嘴角的连线平行。

20.如权利要求13所述的基于视频的嘴唇运动检测方法，其中，使用支持向量机SVM来检测嘴唇运动。

21.如权利要求15所述的基于视频的嘴唇运动检测方法，其中，使用中值滤波器对检测结果进行平滑。

22.如权利要求13所述的基于视频的嘴唇运动检测方法，其中，使用Viola-Jones脸部检测器从输入的视频帧中查找脸部。

23.如权利要求13所述的基于视频的嘴唇运动检测方法，其中，使用主动形状模型ASM从找到的脸部中提取嘴部区域。

24.如权利要求13所述的基于视频的嘴唇运动检测方法，其中，还针对时空窗中每个像素提取图像平面的梯度和图像平面的局部二元模式LBP码中至少一种，然后基于总的提取结果提取嘴部区域的视觉特征。

25.一种语音识别系统，包括：

麦克风，用于捕获音频信号；

摄像机，用于捕获视频信号；

如权利要求1-12中任意一项所述的嘴唇运动检测设备，根据摄像机捕获的视频信号来检测嘴唇运动，以获取嘴唇运动的开始和结束时间；

语音片段检测器，根据麦克风捕获的音频信号以及嘴唇运动的开始和结束时间来提取语音片段；

特征提取器，从所提取的语音片段中提取音频特征；以及

语音识别器，根据所提取的音频特征来识别语音。

26.一种视频会议系统，包括：

麦克风，用于捕获音频信号；

摄像机，用于捕获视频信号；

如权利要求1-12中任意一项所述的嘴唇运动检测设备，根据摄像机捕获的视频信号来检测嘴唇运动，以获取嘴唇运动的开始和结束时间；以及

发送器；

其中，在嘴唇运动的开始时间，嘴唇运动检测设备控制发送器发送麦克风捕获的音频信号和摄像机捕获的视频信号；在嘴唇运动的结束时间，嘴唇运动检测设备控制发送器仅发送摄像机捕获的视频信号。

27.根据权利要求26所述的视频会议系统，还包括：

视频帧截取器，从摄像机捕获的视频信号中截取视频；

其中，在嘴唇运动的开始时间，嘴唇运动检测设备开启视频帧截取器，并控制发送器发送麦克风捕获的音频信号和视频帧截取器所截取的视频；在嘴唇运动的结束时间，嘴唇运动检测设备关闭视频帧截取器，并控制发送器仅发送摄像机捕获的视频信号。

28.根据权利要求27所述的视频会议系统，其中，视频帧截取器通过变焦而截取正在讲话的讲话者的特写。