CN102682273A - 嘴唇运动检测设备和方法 - Google Patents

嘴唇运动检测设备和方法 Download PDF

Info

Publication number
CN102682273A
CN102682273A CN2011100774831A CN201110077483A CN102682273A CN 102682273 A CN102682273 A CN 102682273A CN 2011100774831 A CN2011100774831 A CN 2011100774831A CN 201110077483 A CN201110077483 A CN 201110077483A CN 102682273 A CN102682273 A CN 102682273A
Authority
CN
China
Prior art keywords
video
lip motion
lip
extracted
mouth region
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2011100774831A
Other languages
English (en)
Inventor
严望
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sharp Corp
Original Assignee
Sharp Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sharp Corp filed Critical Sharp Corp
Priority to CN2011100774831A priority Critical patent/CN102682273A/zh
Priority to PCT/JP2012/057677 priority patent/WO2012128382A1/en
Publication of CN102682273A publication Critical patent/CN102682273A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/24Speech recognition using non-acoustical features
    • G10L15/25Speech recognition using non-acoustical features using position of the lips, movement of the lips or face analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/467Encoded features or binary features, e.g. local binary patterns [LBP]

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Acoustics & Sound (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供了一种基于视频的嘴唇运动检测设备,包括:脸部查找单元,从输入的视频帧中查找脸部;嘴部区域提取单元,从找到的脸部中提取嘴部区域;视觉特征提取单元,针对时空窗中每个像素提取时空平面的梯度和时空平面的局部二元模式LBP码中至少一种,然后基于该提取结果提取嘴部区域的视觉特征;以及检测单元,基于所提取的嘴部区域的视觉特征来检测嘴唇运动。本发明还提供了一种基于视频的嘴唇运动检测方法。本发明无需针对特定用户进行再训练或适配,提高了检测的准确性。

Description

嘴唇运动检测设备和方法
技术领域
本发明涉及视频处理领域,具体涉及一种基于视频的嘴唇运动检测设备和方法。
背景技术
在有噪声的环境中,难以仅仅根据音频信号来精确地检测语音片段。语音片段有时会被不正确地截取和/或附加有噪声。结果,语音识别的精度会下降。
已知的是,嘴唇运动能够较好地指示语音。US7343289B2公开了一种用于音频/视频讲话者检测的系统和方法。该方法用于根据视觉信息和音频信息来检测讲话者(即嘴唇运动的主体)。具体地,该文档中所公开的方法包括如下步骤:从视频帧中查找脸部;查找并提取嘴部区域;利用LDA(线性判别分析)提取嘴部张开程度作为视觉特征;提取与视频帧相对应的音频信号的能量作为音频特征;以及将上述两个特征输入经过训练的TDNN(时间延迟神经网络),并根据TDNN的输出来检测嘴唇运动。
然而,该方法从每一个帧中单独地提取视觉特征。由于该视觉特征包括关于主体身份的丰富信息,因而其在一定程度上是与个体相关的。因此,如果使用该方法来检测未包括在TDNN的训练集中的主体的嘴唇运动,检测率将会极大程度地降低。
发明内容
为了解决上述技术问题,本发明的一个方面提供了一种基于视频的嘴唇运动检测设备,包括:脸部查找单元,从输入的视频帧中查找脸部;嘴部区域提取单元,从找到的脸部中提取嘴部区域;视觉特征提取单元,针对时空窗中每个像素提取时空平面的梯度和时空平面的局部二元模式LBP码中至少一种,然后基于该提取结果提取嘴部区域的视觉特征;以及检测单元,基于所提取的嘴部区域的视觉特征来检测嘴唇运动。
优选地,利用所提取的嘴部区域的视觉特征对检测单元预先进行训练。
优选地,基于视频的嘴唇运动检测设备还包括:平滑单元,对检测单元的检测结果进行平滑。
优选地,基于视频的嘴唇运动检测设备还包括:音频特征提取单元,提取与输入的视频帧相对应的音频特征。检测单元基于视觉特征提取单元提取的视觉特征和音频特征提取单元提取的音频特征来检测嘴唇运动。
优选地,利用所提取的视觉特征和音频特征对检测单元预先进行训练。
优选地,视觉特征包括基于三正交平面上的局部二元模式LBP-TOP的视觉特征。
优选地,嘴部区域是矩形,所述矩形的中心位于两个嘴角的连线的中点,并且所述矩形的长边与两个嘴角的连线平行。
优选地,检测单元包括支持向量机SVM。
优选地,平滑单元包括中值滤波器。
优选地,脸部查找单元包括Viola-Jones脸部检测器。
优选地,嘴部区域提取单元使用ASM从找到的脸部中提取嘴部区域。
优选地,视觉特征提取单元还针对时空窗中每个像素提取图像平面的梯度和图像平面的局部二元模式LBP码中至少一种,然后基于总的提取结果提取嘴部区域的视觉特征。
本发明的另一个方面提供了一种基于视频的嘴唇运动检测方法,包括以下步骤:从输入的视频帧中查找脸部;从找到的脸部中提取嘴部区域;针对时空窗中每个像素提取时空平面的梯度和时空平面的局部二元模式LBP码中至少一种,然后基于该提取结果提取嘴部区域的视觉特征;以及基于所提取的嘴部区域的视觉特征来检测嘴唇运动。
优选地,在检测嘴唇运动之前,利用所提取的嘴部区域的视觉特征预先进行训练。
优选地,基于视频的嘴唇运动检测方法还包括:对检测结果进行平滑。
优选地,基于视频的嘴唇运动检测方法还包括:提取与输入的视频帧相对应的音频特征。基于所提取的视觉特征和音频特征来检测嘴唇运动。
优选地,在检测嘴唇运动之前,利用所提取的视觉特征和音频特征预先进行训练。
优选地,视觉特征包括基于三正交平面上的局部二元模式LBP-TOP的视觉特征。
优选地,嘴部区域是矩形,所述矩形的中心位于两个嘴角的连线的中点,并且所述矩形的长边与两个嘴角的连线平行。
优选地,使用支持向量机SVM来检测嘴唇运动。
优选地,使用中值滤波器对检测结果进行平滑。
优选地,使用Viola-Jones脸部检测器从输入的视频帧中查找脸部。
优选地,使用ASM从找到的脸部中提取嘴部区域。
优选地,还针对时空窗中每个像素提取图像平面的梯度和图像平面的局部二元模式LBP码中至少一种,然后基于总的提取结果提取嘴部区域的视觉特征。
本发明的另一个方面提供了一种语音识别系统,包括:麦克风,用于捕获音频信号;摄像机,用于捕获视频信号;嘴唇运动检测设备,根据摄像机捕获的视频信号来检测嘴唇运动,以获取嘴唇运动的开始和结束时间;语音片段检测器,根据麦克风捕获的音频信号以及嘴唇运动的开始和结束时间来提取语音片段;特征提取器,从所提取的语音片段中提取音频特征;以及语音识别器,根据所提取的音频特征来识别语音。
本发明的另一个方面提供了一种视频会议系统,包括:麦克风,用于捕获音频信号;摄像机,用于捕获视频信号;嘴唇运动检测设备,根据摄像机捕获的视频信号来检测嘴唇运动,以获取嘴唇运动的开始和结束时间;以及发送器。在嘴唇运动的开始时间,嘴唇运动检测设备控制发送器发送麦克风捕获的音频信号和摄像机捕获的视频信号;在嘴唇运动的结束时间,嘴唇运动检测设备控制发送器仅发送摄像机捕获的视频信号。
优选地,视频会议系统,还包括:视频帧截取器,从摄像机捕获的视频信号中截取视频。在嘴唇运动的开始时间,嘴唇运动检测设备开启视频帧截取器,并控制发送器发送麦克风捕获的音频信号和视频帧截取器所截取的视频;在嘴唇运动的结束时间,嘴唇运动检测设备关闭视频帧截取器,并控制发送器仅发送摄像机捕获的视频信号。
优选地,视频帧截取器通过变焦而截取正在讲话的讲话者的特写。
本发明能够针对具有有限数目的主体的训练集而实现与主体无关的嘴唇运动检测。与现有技术相比,本发明对于训练集中未包括的主体具有更高的检测率。采用本发明,无需为了提高检测率而针对不同用户进行再训练或适配,从而提高了可用性。
附图说明
通过下文结合附图的详细描述,本发明的上述和其它特征将会变得更加明显,其中:
图1示出了根据本发明一个实施例的基于视频的嘴唇运动检测设备的框图;
图2示出了根据本发明一个实施例的LBP码计算的一个示例;
图3示出了根据本发明一个实施例的提取基于LBP-TOP的特征的一个示例;
图4示出了根据本发明另一个实施例的基于视频的嘴唇运动检测设备的框图;
图5示出了根据本发明另一个实施例的基于视频的嘴唇运动检测设备的框图;
图6示出了根据本发明一个实施例的基于视频的嘴唇运动检测方法的流程图;
图7示出了具有根据本发明一个实施例的嘴唇运动检测设备的视频辅助语音识别系统的框图;
图8(a)-(c)示出了图7的语音识别系统中的信号;以及
图9示出了具有根据本发明一个实施例的嘴唇运动检测设备的视频会议系统的框图。
具体实施方式
下面,通过结合附图对本发明的具体实施例的描述,本发明的原理和实现将会变得明显。应当注意的是,本发明不应局限于下文所述的具体实施例。另外,为了简便起见,省略了与本发明无关的公知技术的详细描述。
图1示出了根据本发明一个实施例的基于视频的嘴唇运动检测设备10的框图。如图1所示,嘴唇运动检测设备10包括:脸部查找单元110,从输入的视频帧中查找脸部;嘴部区域提取单元120,从找到的脸部中提取嘴部区域;视觉特征提取单元130,提取嘴部区域的视觉特征;以及检测单元140,基于所提取的嘴部区域的视觉特征来检测嘴唇运动。下面,对嘴唇运动检测设备10中所包括的各个组件的具体操作进行详细描述。
脸部查找单元110在每一个输入的视频帧中查找脸部。如果找到任何脸部,则将脸部的位置传递给嘴部区域提取单元120作为输入信息。对于没有从中找到脸部的视频帧,不会对其进行进一步的处理。可以使用各种已知的脸部检测和跟踪技术来实现脸部查找单元110,例如但不限于:Viola-Jones脸部检测器、Rowley脸部检测器、均值漂移(meanshift)跟踪器和粒子滤波跟踪器,等等。
嘴部区域提取单元120从脸部查找单元110找到的脸部中查找嘴部区域,并从脸部中提取出该嘴部区域。具体地,对于每一个找到的脸部,首先查找两个嘴角。然后,根据找到的两个嘴角来确定嘴部区域。可以使用已知的ASM(主动形状模型)来定位两个嘴角的位置。备选地,还可以使用AAM(主动外观模型)和Snakes(也被称为主动轮廓模型)来定位两个嘴角的位置。在确定两个嘴角的位置后,可确定一个矩形区域,该矩形区域的中心位于两个嘴角的连线的中点,并且该矩形区域的长边与两个嘴角的连线平行。然后,将该矩形区域作为嘴部区域。优选地,矩形区域的纵横比是3∶2。然而,其他的纵横比也是可以应用的。
备选地,嘴部区域还可以具有其他形状,例如椭圆,其只要包含整个嘴唇外轮廓即可。另外,这些形状不一定是对称的,它们的中心也不一定要和嘴角连线中心重合。进一步地,与嘴唇外轮廓有较大交集的任意形状也可以作为嘴部区域。
视觉特征提取单元130根据时空窗来提取视觉特征,该时空窗包括一个或多个连续的嘴部区域。在本发明的一个实施例中,采用三正交平面上的局部二元模式(Local Binary Pattern on Three OrthogonalPlanes,LBP-TOP)特征来描述视觉特征,该特征是已知的局部二元模式LBP特征的时空扩展。
具体地,对于给定像素(xc,yc),通过插值来提取中心位于(xc,yc)且半径为R的圆上的P个均匀间隔的近邻像素的值。该像素的LBP码由下式给出:
LBP P , R = Σ p = 0 P - 1 s ( g p - g c ) 2 p ,
其中,
Figure BSA00000462945300062
gc是像素(xc,yc)的值,gp是第p个近邻像素的值。图2示出了根据本发明一个实施例的LBP码计算的一个示例,其中P=8且gc=70。中心像素和在其周围单位圆上均匀分布的近邻像素的值如图2(a)所示。首先,将中心像素与近邻像素逐一比较,如前者的值不小于后者,则将该近邻像素表示为1,反之为0。比较结果如图2(b)所示。然后,从左侧水平方向近邻像素开始,按照逆时针顺序将比较结果排列成为一个二进制数,该数值即为中心像素的LBP码,如图2(c)所示。当然,其他顺序和起始像素也是可行的。
除了基本形式之外,存在多种LBP码的已知变体,例如均匀LBP(Uniform LBP)、旋转不变LBP以及两者的组合。优选地,使用基本的LBP码,其中P=8,R=1。然而,同样可以使用其他的LBP码变体,并且P和R的其他取值也是可能的。
LBP-TOP特征是从包括一个或多个连续的嘴部区域的时空窗中提取的。图3示出了该提取过程的一个示例。如图3所示,窗口(a)首先被分为一个或若干个时空块。对于每一个块(b)中的每一个像素,针对其位于XY、XT和/或YT平面上的近邻像素,分别提取LBP码。对于每一个块,分别提取每一个平面的LBP码直方图,然后把来自一个或多个特定平面的直方图连接以形成块的LBP-TOP特征。来自XY平面的直方图包括更多关于主体身份的信息;而来自XT和YT平面的直方图包括更多关于运动的信息,该信息与个体的相关性较低。最后,把来自所有块的LBP-TOP特征进行连接,以形成时空窗的LBP-TOP特征。
在本实施例中,所采用的时空窗包括五个连续的嘴部区域,并且被均匀地分为重叠部分为50%的6×4×1(分别对应于X、Y和T轴)个块,并且仅使用来自XT和YT平面的LBP直方图。通过合并来自XT和YT平面的与个体的相关性较低的信息,本发明对于训练集以外的主体也能够良好地工作。然而,还可以应用其他数量的嘴部区域、其他种类的窗口划分以及来自不同平面的LBP直方图的其他组合。
本领域的技术人员可以理解,也可以对直方图进行后处理或者以其他方式提取基于LBP码的特征。例如,在提取每个时空块每个平面的直方图后,可对直方图进行归一化。归一化时,既可以每个块每个平面单独归一化,也可以是时空上相邻块的同一平面的直方图一起归一化,也可以是同一块的不同平面一起归一化,还可以是时空上相邻块的不同平面一起归一化。归一化的准则可以是使得归一化后的向量元素之和为1,也可以是使得归一化后的向量元素的平方和为1。第一次归一化后,可以将直方图中超过某一阈值的值改为该阈值,然后再次归一化。最后,把归一化后的直方图进行连接,形成时空窗的特征。另外,在计算每个像素的LBP码之后,也可以不提取直方图,而将每个块的所有像素的在某一平面或多个平面上LBP码看作一个特征向量并直接用子空间分析方法例如主成分分析或线性判别分析将其降维,降维后的向量作为这个块或平面的特征。最后,把所有块和/或所有平面的LBP-TOP特征进行连接,形成时空窗的特征。
本领域的技术人员可以理解,也可以采用其他的特征来描述视觉特征,例如但不限于:梯度类特征的时空扩展。传统的梯度类特征在图像平面XY上计算梯度,并基于此提取特征。梯度类特征的时空扩展则在XY、XT和/或YT平面上分别计算梯度。此后,可以提取各时空块中各平面梯度方向直方图,并且按照LBP-TOP中任一种归一化方法归一化并提取特征。也可以将每个时空块中所有像素在一个或多个平面上的梯度看作一个特征向量,并直接用子空间分析方法例如主成分分析或线性判别分析将其降维,降维后的向量作为这个块或平面的特征。最后,把来自所有块和/或所有平面的梯度特征进行连接,形成时空窗的特征,从而获得嘴部区域的视觉特征。
检测单元140基于所提取的嘴部区域的视觉特征来检测嘴唇运动。例如,检测单元140可以是分类器,该分类器能够区分两种类别的嘴部区域,即具有嘴唇运动的嘴部区域和不具有嘴唇运动的嘴部区域。存在多种已知的分类器。在优选实施例中,使用SVM(支持向量机)。然而,也可以使用其他的分类器,例如但不限于:k近邻(k-NearestNeighbor)分类器、AdaBoost分类器、神经网络分类器和高斯过程分类器、利用特征相似性的阈值分类器,等等。
优选地,在检测单元140检测嘴唇运动之前,可以利用所提取的嘴部区域的视觉特征预先对该检测单元140进行训练。在一个实施例中,该训练可以通过如下方式来完成:向每一个提取的视觉特征分配标记。例如,如果与视觉特征相对应的嘴部区域中存在嘴唇运动,则将该特征分配+1,否则分配-1。然后,可以使用已知的多种训练方法来训练检测单元140。
图4示出了根据本发明另一个实施例的基于视频的嘴唇运动检测设备40的框图。如图4所示,嘴唇运动检测设备40包括:脸部查找单元410、嘴部区域提取单元420、视觉特征提取单元430、检测单元440以及音频特征提取单元450。由于图4中所示的脸部查找单元410、嘴部区域提取单元420、视觉特征提取单元430和检测单元440与图1中所示的脸部查找单元110、嘴部区域提取单元120、视觉特征提取单元130和检测单元140是相似的,为了简洁起见,下文仅对音频特征提取单元450进行详细的描述。
在本实施例中,音频特征提取单元450提取与输入的视频帧相对应的音频特征。所提取的音频特征连同视觉特征提取单元430提取的视觉特征一同提供给检测单元440。具体地,如果视频中的主体正在讲话并且同步音频可用,那么音频特征提取单元450可以使用已知的基于音频的讲话结束点检测方法来检测讲话部分和非讲话部分。如果帧落入讲话部分,则该帧中的嘴部区域中存在嘴唇运动的概率就很大。通过结合音频特征来检测嘴唇运动,检测单元440的检测正确率会提高。
优选地,在检测单元440检测嘴唇运动之前,利用视觉特征提取单元430提取的嘴部区域的视觉特征以及音频特征提取单元450提取的音频特征预先对检测单元440进行训练。可以使用已知的多种训练方法来训练检测单元440。
图5示出了根据本发明另一个实施例的基于视频的嘴唇运动检测设备50的框图。如图5所示,嘴唇运动检测设备50包括:脸部查找单元510、嘴部区域提取单元520、视觉特征提取单元530、检测单元540以及平滑单元550。图5中所示的脸部查找单元510、嘴部区域提取单元520、视觉特征提取单元530和检测单元540与图1中所示的脸部查找单元110、嘴部区域提取单元120、视觉特征提取单元130和检测单元140相似。
平滑单元550在时间上对检测单元540的检测结果进行平滑。平滑利用了嘴唇运动状态不能在短时间内反复改变的先验知识,可以提高检测结果的正确率。例如,平滑单元550可以通过中值滤波器来实现。优选地,可以使用5点中值滤波。备选地,也可以采用具有其他窗长度的中值滤波或其他滤波。
应当理解的是,作为另一种实现,可以将图4中所示的音频特征提取单元和图5中所示的平滑单元一同合并至图1所示的基于视频的嘴唇运动检测设备中。
图6示出了根据本发明一个实施例的基于视频的嘴唇运动检测方法60的流程图。方法60在步骤S610处开始。
在步骤S620,从输入的视频帧中查找脸部。如果找到任何脸部,则将脸部的位置传递给下一步骤作为输入信息。对于没有从中找到脸部的视频帧,不会对其进行进一步的处理。优选地,可以使用Viola-Jones脸部检测、Rowley脸部检测、均值漂移(meanshift)跟踪和粒子滤波跟踪等方法来查找脸部。
在步骤S630,从找到的脸部中提取嘴部区域。对于每一个找到的脸部,首先查找两个嘴角。然后,根据找到的两个嘴角来确定嘴部区域。可以使用已知的ASM(主动形状模型)来定位两个嘴角的位置。备选地,还可以使用AAM(主动外观模型)和Snakes(也被称为主动轮廓模型)来定位两个嘴角的位置。在确定两个嘴角的位置后,可确定一个矩形区域,该矩形区域的中心位于两个嘴角的连线的中点,并且该矩形区域的长边与两个嘴角的连线平行。然后,将该矩形区域作为嘴部区域。优选地,矩形区域的纵横比是3∶2。然而,其他的纵横比也是可以应用的。
备选地,嘴部区域还可以具有其他形状,例如可以采用椭圆,其只要包含整个嘴唇外轮廓即可。另外,这些形状不一定是对称的,它们的中心也不一定要和嘴角连线中心重合。进一步地,与嘴唇外轮廓有较大交集的任意形状也可以作为嘴部区域。
在步骤S640,根据时空窗提取嘴部区域的视觉特征,该时空窗包括一个或多个连续的嘴部区域。在本发明的一个实施例中,采用LBP-TOP特征来描述视觉特征。然而,本领域的技术人员可以理解,也可以采用其他的特征来描述视觉特征,例如但不限于上文提到的梯度类特征的时空扩展。该步骤S640可以由图1中所示的视觉特征提取单元130来执行。
接下来,在步骤S650,基于所提取的嘴部区域的视觉特征来检测嘴唇运动。在一个实施例中,使用分类器来区分两种类别的嘴部区域,即具有嘴唇运动的嘴部区域和不具有嘴唇运动的嘴部区域,从而获得检测结果。这些分类器可以包括但不限于:SVM(支持向量机)、k近邻分类器、AdaBoost分类器、神经网络分类器、高斯过程分类器,利用特征相似性的阈值分类器,等等。
最后,方法60在步骤S660处结束。
优选地,尽管图6中未示出,在检测嘴唇运动的步骤S650之前,可以利用步骤S640中提取的嘴部区域的视觉特征预先进行训练。在一个实施例中,该训练可以通过如下方式来完成:向每一个提取的视觉特征分配标记。例如,如果与视觉特征相对应的嘴部区域中存在嘴唇运动,则将该特征分配+1,否则分配-1。然后,可以使用已知的多种训练方法来进行训练。
另外,尽管图6中未示出,还可以从输入的视频帧中提取音频特征。所提取的音频特征连同提取的视觉特征一同提供给步骤S650以用于检测嘴唇运动。具体地,如果视频中的主体正在讲话并且同步音频可用,那么可以使用已知的基于音频的讲话结束点检测方法来检测讲话部分和非讲话部分。如果帧落入讲话部分,则该帧中的嘴部区域中存在嘴唇运动的概率就很大。通过结合音频特征来检测嘴唇运动,检测正确率会提高。相应地,在检测嘴唇运动之前,可以利用视觉特征以及音频特征预先进行训练。
另外,尽管图6中未示出,该方法还可以对步骤S650获得的检测结果进行平滑。平滑利用了嘴唇运动状态不能在短时间内反复改变的先验知识,可以提高检测结果的正确率。例如,平滑可以通过中值滤波来实现。优选地,可以使用5点中值滤波。备选地,也可以采用具有其他窗长度的中值滤波或其他滤波。
图7示出了具有根据本发明一个实施例的嘴唇运动检测设备的视频辅助语音识别系统70的框图。在该语音识别系统70中,可以基于视频来检测语音片段,从而提高有噪声的环境中语音识别的精度。
具体地,图7所示的语音识别系统70包括:麦克风710、摄像机720、嘴唇运动检测设备730、语音片段检测器740、特征提取器750和语音识别器760。麦克风710和摄像机720分别实时地捕获视频和音频信号。讲话者在讲话时面对摄像机720。捕获的视频被发送至嘴唇运动检测设备730,捕获的音频被发送至语音片段检测器740。其中,嘴唇运动检测设备730可以由图1中所示的嘴唇运动检测设备10、图4中所示的嘴唇运动检测设备40或图5中所示的嘴唇运动检测设备50来实现。
如果嘴唇运动检测设备730检测到嘴唇运动,则将嘴唇运动的开始和结束时间发送至语音片段检测器740。之后,语音片段检测器740根据接收到的嘴唇运动的开始和结束时间来提取语音片段。图8(a)示出了麦克风710接收到的音频信号,图8(b)示出了嘴唇运动检测结果。可以清楚地看出,语音结束点和嘴唇运动信号结束点彼此很好地匹配。图8(c)示出了根据嘴唇运动信号提取的语音片段。
然后,将所提取的语音片段发送至特征提取器750,在特征提取器750中提取音频特征,并且将该特征发送至语音识别器760,该语音识别器760识别语音并输出识别结果。
图9示出了具有根据本发明一个实施例的嘴唇运动检测设备的视频会议系统90的框图。该系统90能够自动开启和关闭麦克风,而且还能够在存在多个主体的情况下为当前的讲话者提供特写。
具体地,视频会议系统90包括:麦克风910、摄像机920、嘴唇运动检测设备930、视频帧截取器940和发送器950。麦克风910实时地捕获音频信号,摄像机920实时地捕获视频。讲话者在向会议的另一方讲话时面对摄像机920。捕获的视频被发送至嘴唇运动检测设备930和视频帧截取器940。其中,嘴唇运动检测设备930可以由图1中所示的嘴唇运动检测设备10、图4中所示的嘴唇运动检测设备40或图5中所示的嘴唇运动检测设备50来实现。
在嘴唇运动的开始时刻,嘴唇运动检测设备930开启视频帧截取器940,并将讲话者的位置发送至视频帧截取器940。如果存在多个主体(讲话者),则视频帧截取器940对视频帧进行截取并重新调整尺寸(通过变焦),以便为当前的讲话者提供特写。截取的视频和来自麦克风910的音频被发送至发送器950以进行发送。在嘴唇运动的结束时刻,嘴唇运动检测设备930关闭视频帧截取器940以停止截取视频。此时,发送器950仅发送摄像机920捕获的视频。
本发明能够针对具有有限数目的主体的训练集而实现与主体无关的嘴唇运动检测。与现有技术相比,本发明对于训练集中未包括的主体具有更高的检测率。采用本发明,无需为了提高检测率而针对不同用户进行再训练或适配,从而提高了可用性。
尽管以上已经结合本发明的优选实施例示出了本发明,但是本领域的技术人员将会理解,在不脱离本发明的精神和范围的情况下,可以对本发明进行各种修改、替换和改变。因此,本发明不应由上述实施例来限定,而应由所附权利要求及其等价物来限定。

Claims (28)

1.一种基于视频的嘴唇运动检测设备,包括:
脸部查找单元,从输入的视频帧中查找脸部;
嘴部区域提取单元,从找到的脸部中提取嘴部区域;
视觉特征提取单元,针对时空窗中每个像素提取时空平面的梯度和时空平面的局部二元模式LBP码中至少一种,然后基于该提取结果提取嘴部区域的视觉特征;以及
检测单元,基于所提取的嘴部区域的视觉特征来检测嘴唇运动。
2.如权利要求1所述的基于视频的嘴唇运动检测设备,其中,利用所提取的嘴部区域的视觉特征对检测单元预先进行训练。
3.如权利要求1所述的基于视频的嘴唇运动检测设备,还包括:
平滑单元,对检测单元的检测结果进行平滑。
4.如权利要求1所述的基于视频的嘴唇运动检测设备,还包括:
音频特征提取单元,提取与输入的视频帧相对应的音频特征;
其中,检测单元基于视觉特征提取单元提取的视觉特征和音频特征提取单元提取的音频特征来检测嘴唇运动。
5.如权利要求4所述的基于视频的嘴唇运动检测设备,其中,利用所提取的视觉特征和音频特征对检测单元预先进行训练。
6.如权利要求1所述的基于视频的嘴唇运动检测设备,其中,所述视觉特征包括基于三正交平面上的局部二元模式LBP-TOP的视觉特征。
7.如权利要求1所述的基于视频的嘴唇运动检测设备,其中,所述嘴部区域是矩形,所述矩形的中心位于两个嘴角的连线的中点,并且所述矩形的长边与两个嘴角的连线平行。
8.如权利要求1所述的基于视频的嘴唇运动检测设备,其中,所述检测单元包括支持向量机SVM。
9.如权利要求3所述的基于视频的嘴唇运动检测设备,其中,所述平滑单元包括中值滤波器。
10.如权利要求1所述的基于视频的嘴唇运动检测设备,其中,所述脸部查找单元包括Viola-Jones脸部检测器。
11.如权利要求1所述的基于视频的嘴唇运动检测设备,其中,所述嘴部区域提取单元使用主动形状模型ASM从找到的脸部中提取嘴部区域。
12.如权利要求1所述的基于视频的嘴唇运动检测设备,其中,所述视觉特征提取单元还针对时空窗中每个像素提取图像平面的梯度和图像平面的局部二元模式LBP码中至少一种,然后基于总的提取结果提取嘴部区域的视觉特征。
13.一种基于视频的嘴唇运动检测方法,包括以下步骤:
从输入的视频帧中查找脸部;
从找到的脸部中提取嘴部区域;
针对时空窗中每个像素提取时空平面的梯度和时空平面的局部二元模式LBP码中至少一种,然后基于该提取结果提取嘴部区域的视觉特征;以及
基于所提取的嘴部区域的视觉特征来检测嘴唇运动。
14.如权利要求13所述的基于视频的嘴唇运动检测方法,其中,在检测嘴唇运动之前,利用所提取的嘴部区域的视觉特征预先进行训练。
15.如权利要求13所述的基于视频的嘴唇运动检测方法,还包括:
对检测结果进行平滑。
16.如权利要求13所述的基于视频的嘴唇运动检测方法,还包括:
提取与输入的视频帧相对应的音频特征;
其中,基于所提取的视觉特征和音频特征来检测嘴唇运动。
17.如权利要求16所述的基于视频的嘴唇运动检测方法,其中,在检测嘴唇运动之前,利用所提取的视觉特征和音频特征预先进行训练。
18.如权利要求13所述的基于视频的嘴唇运动检测方法,其中,所述视觉特征包括基于三正交平面上的局部二元模式LBP-TOP的视觉特征。
19.如权利要求13所述的基于视频的嘴唇运动检测方法,其中,所述嘴部区域是矩形,所述矩形的中心位于两个嘴角的连线的中点,并且所述矩形的长边与两个嘴角的连线平行。
20.如权利要求13所述的基于视频的嘴唇运动检测方法,其中,使用支持向量机SVM来检测嘴唇运动。
21.如权利要求15所述的基于视频的嘴唇运动检测方法,其中,使用中值滤波器对检测结果进行平滑。
22.如权利要求13所述的基于视频的嘴唇运动检测方法,其中,使用Viola-Jones脸部检测器从输入的视频帧中查找脸部。
23.如权利要求13所述的基于视频的嘴唇运动检测方法,其中,使用主动形状模型ASM从找到的脸部中提取嘴部区域。
24.如权利要求13所述的基于视频的嘴唇运动检测方法,其中,还针对时空窗中每个像素提取图像平面的梯度和图像平面的局部二元模式LBP码中至少一种,然后基于总的提取结果提取嘴部区域的视觉特征。
25.一种语音识别系统,包括:
麦克风,用于捕获音频信号;
摄像机,用于捕获视频信号;
如权利要求1-12中任意一项所述的嘴唇运动检测设备,根据摄像机捕获的视频信号来检测嘴唇运动,以获取嘴唇运动的开始和结束时间;
语音片段检测器,根据麦克风捕获的音频信号以及嘴唇运动的开始和结束时间来提取语音片段;
特征提取器,从所提取的语音片段中提取音频特征;以及
语音识别器,根据所提取的音频特征来识别语音。
26.一种视频会议系统,包括:
麦克风,用于捕获音频信号;
摄像机,用于捕获视频信号;
如权利要求1-12中任意一项所述的嘴唇运动检测设备,根据摄像机捕获的视频信号来检测嘴唇运动,以获取嘴唇运动的开始和结束时间;以及
发送器;
其中,在嘴唇运动的开始时间,嘴唇运动检测设备控制发送器发送麦克风捕获的音频信号和摄像机捕获的视频信号;在嘴唇运动的结束时间,嘴唇运动检测设备控制发送器仅发送摄像机捕获的视频信号。
27.根据权利要求26所述的视频会议系统,还包括:
视频帧截取器,从摄像机捕获的视频信号中截取视频;
其中,在嘴唇运动的开始时间,嘴唇运动检测设备开启视频帧截取器,并控制发送器发送麦克风捕获的音频信号和视频帧截取器所截取的视频;在嘴唇运动的结束时间,嘴唇运动检测设备关闭视频帧截取器,并控制发送器仅发送摄像机捕获的视频信号。
28.根据权利要求27所述的视频会议系统,其中,视频帧截取器通过变焦而截取正在讲话的讲话者的特写。
CN2011100774831A 2011-03-18 2011-03-18 嘴唇运动检测设备和方法 Pending CN102682273A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN2011100774831A CN102682273A (zh) 2011-03-18 2011-03-18 嘴唇运动检测设备和方法
PCT/JP2012/057677 WO2012128382A1 (en) 2011-03-18 2012-03-19 Device and method for lip motion detection

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2011100774831A CN102682273A (zh) 2011-03-18 2011-03-18 嘴唇运动检测设备和方法

Publications (1)

Publication Number Publication Date
CN102682273A true CN102682273A (zh) 2012-09-19

Family

ID=46814174

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2011100774831A Pending CN102682273A (zh) 2011-03-18 2011-03-18 嘴唇运动检测设备和方法

Country Status (2)

Country Link
CN (1) CN102682273A (zh)
WO (1) WO2012128382A1 (zh)

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103745723A (zh) * 2014-01-13 2014-04-23 苏州思必驰信息科技有限公司 一种音频信号识别方法及装置
CN104298961A (zh) * 2014-06-30 2015-01-21 中国传媒大学 基于口型识别的视频编排方法
WO2015117403A1 (zh) * 2014-07-23 2015-08-13 中兴通讯股份有限公司 噪音抑制方法、装置、计算机程序和计算机存储介质
CN104883531A (zh) * 2015-05-14 2015-09-02 无锡华海天和信息科技有限公司 一种视频通话中回音消除的实现方法
CN104951730A (zh) * 2014-03-26 2015-09-30 联想(北京)有限公司 一种唇动检测方法、装置及电子设备
CN105959723A (zh) * 2016-05-16 2016-09-21 浙江大学 一种基于机器视觉和语音信号处理相结合的假唱检测方法
CN105991885A (zh) * 2015-03-18 2016-10-05 卡西欧计算机株式会社 图像处理装置和图像处理方法
CN106331509A (zh) * 2016-10-31 2017-01-11 维沃移动通信有限公司 一种拍照方法及移动终端
CN107203734A (zh) * 2016-03-17 2017-09-26 掌赢信息科技(上海)有限公司 一种获取嘴部状态的方法及电子设备
CN109492506A (zh) * 2017-09-13 2019-03-19 华为技术有限公司 图像处理方法、装置和系统
CN109729484A (zh) * 2017-09-15 2019-05-07 奥迪康有限公司 提供及传输音频信号
CN109817211A (zh) * 2019-02-14 2019-05-28 珠海格力电器股份有限公司 一种电器控制方法、装置、存储介质及电器
CN110544479A (zh) * 2019-08-30 2019-12-06 上海依图信息技术有限公司 一种去噪的语音识别方法及装置
CN111091824A (zh) * 2019-11-30 2020-05-01 华为技术有限公司 一种语音匹配方法及相关设备
CN111918127A (zh) * 2020-07-02 2020-11-10 影石创新科技股份有限公司 一种视频剪辑方法、装置、计算机可读存储介质及相机
WO2021114224A1 (zh) * 2019-12-13 2021-06-17 华为技术有限公司 语音检测方法、预测模型的训练方法、装置、设备及介质
CN113642469A (zh) * 2021-08-16 2021-11-12 北京百度网讯科技有限公司 嘴唇动作的检测方法、装置、设备和存储介质

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103268472B (zh) * 2013-04-17 2017-07-18 哈尔滨工业大学深圳研究生院 基于双色彩空间的嘴唇检测方法
US9406295B2 (en) 2013-11-22 2016-08-02 Intel Corporation Apparatus and method for voice based user enrollment with video assistance
US9215411B2 (en) * 2014-02-03 2015-12-15 Google Inc. Enhancing video conferences
EP3093846A1 (en) * 2015-05-12 2016-11-16 Nxp B.V. Accoustic context recognition using local binary pattern method and apparatus
DE102018206216A1 (de) * 2018-04-23 2019-10-24 Bayerische Motoren Werke Aktiengesellschaft Verfahren, Vorrichtung und Fortbewegungsmittel zur automatischen Zuordnung eines ersten und zweiten Video-Datenstroms zu einem korrespondierenden ersten und zweiten Audio-Datenstrom
EP3575811A1 (en) * 2018-05-28 2019-12-04 Koninklijke Philips N.V. Optical detection of a communication request by a subject being imaged in the magnetic resonance imaging system
CN110750152B (zh) * 2019-09-11 2023-08-29 云知声智能科技股份有限公司 一种基于唇部动作的人机交互方法和系统
US11451742B2 (en) * 2020-12-04 2022-09-20 Blackberry Limited Speech activity detection using dual sensory based learning
CN112241521A (zh) * 2020-12-04 2021-01-19 北京远鉴信息技术有限公司 爆破音的身份验证方法、装置、电子设备及介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07225841A (ja) * 1993-12-13 1995-08-22 Sharp Corp 画像処理装置
JP2004240154A (ja) * 2003-02-06 2004-08-26 Hitachi Ltd 情報認識装置
CN1742322A (zh) * 2003-01-24 2006-03-01 索尼爱立信移动通讯股份有限公司 噪声减小和视听语音活动检测
CN1967564A (zh) * 2005-11-17 2007-05-23 中华电信股份有限公司 应用于设定环境下人脸侦测及辨识之方法与装置

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003195883A (ja) * 2001-12-26 2003-07-09 Toshiba Corp 雑音除去装置およびその装置を備えた通信端末
JP4690190B2 (ja) * 2004-12-22 2011-06-01 富士フイルム株式会社 画像処理方法および装置並びにプログラム
JP2009098901A (ja) * 2007-10-16 2009-05-07 Nippon Telegr & Teleph Corp <Ntt> 表情検出方法及び装置及びプログラム
JP5343631B2 (ja) * 2009-03-04 2013-11-13 日産自動車株式会社 運転支援装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07225841A (ja) * 1993-12-13 1995-08-22 Sharp Corp 画像処理装置
CN1742322A (zh) * 2003-01-24 2006-03-01 索尼爱立信移动通讯股份有限公司 噪声减小和视听语音活动检测
JP2004240154A (ja) * 2003-02-06 2004-08-26 Hitachi Ltd 情報認識装置
CN1967564A (zh) * 2005-11-17 2007-05-23 中华电信股份有限公司 应用于设定环境下人脸侦测及辨识之方法与装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
孔健等: "《基于多频域LBP-TOP的人脸表情识别》", 《计算机工程》 *

Cited By (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103745723A (zh) * 2014-01-13 2014-04-23 苏州思必驰信息科技有限公司 一种音频信号识别方法及装置
CN104951730A (zh) * 2014-03-26 2015-09-30 联想(北京)有限公司 一种唇动检测方法、装置及电子设备
CN104951730B (zh) * 2014-03-26 2018-08-31 联想(北京)有限公司 一种唇动检测方法、装置及电子设备
CN104298961B (zh) * 2014-06-30 2018-02-16 中国传媒大学 基于口型识别的视频编排方法
CN104298961A (zh) * 2014-06-30 2015-01-21 中国传媒大学 基于口型识别的视频编排方法
WO2015117403A1 (zh) * 2014-07-23 2015-08-13 中兴通讯股份有限公司 噪音抑制方法、装置、计算机程序和计算机存储介质
CN105321523A (zh) * 2014-07-23 2016-02-10 中兴通讯股份有限公司 噪音抑制方法和装置
CN105991885A (zh) * 2015-03-18 2016-10-05 卡西欧计算机株式会社 图像处理装置和图像处理方法
CN104883531A (zh) * 2015-05-14 2015-09-02 无锡华海天和信息科技有限公司 一种视频通话中回音消除的实现方法
CN107203734A (zh) * 2016-03-17 2017-09-26 掌赢信息科技(上海)有限公司 一种获取嘴部状态的方法及电子设备
CN105959723B (zh) * 2016-05-16 2018-09-18 浙江大学 一种基于机器视觉和语音信号处理相结合的假唱检测方法
CN105959723A (zh) * 2016-05-16 2016-09-21 浙江大学 一种基于机器视觉和语音信号处理相结合的假唱检测方法
CN106331509A (zh) * 2016-10-31 2017-01-11 维沃移动通信有限公司 一种拍照方法及移动终端
CN106331509B (zh) * 2016-10-31 2019-08-20 维沃移动通信有限公司 一种拍照方法及移动终端
CN109492506A (zh) * 2017-09-13 2019-03-19 华为技术有限公司 图像处理方法、装置和系统
CN109729484A (zh) * 2017-09-15 2019-05-07 奥迪康有限公司 提供及传输音频信号
CN109729484B (zh) * 2017-09-15 2022-01-04 奥迪康有限公司 用于提供及传输输出音频信号的系统和方法
CN109817211B (zh) * 2019-02-14 2021-04-02 珠海格力电器股份有限公司 一种电器控制方法、装置、存储介质及电器
CN109817211A (zh) * 2019-02-14 2019-05-28 珠海格力电器股份有限公司 一种电器控制方法、装置、存储介质及电器
CN110544479A (zh) * 2019-08-30 2019-12-06 上海依图信息技术有限公司 一种去噪的语音识别方法及装置
CN111091824A (zh) * 2019-11-30 2020-05-01 华为技术有限公司 一种语音匹配方法及相关设备
CN111091824B (zh) * 2019-11-30 2022-10-04 华为技术有限公司 一种语音匹配方法及相关设备
WO2021114224A1 (zh) * 2019-12-13 2021-06-17 华为技术有限公司 语音检测方法、预测模型的训练方法、装置、设备及介质
CN111918127A (zh) * 2020-07-02 2020-11-10 影石创新科技股份有限公司 一种视频剪辑方法、装置、计算机可读存储介质及相机
CN113642469A (zh) * 2021-08-16 2021-11-12 北京百度网讯科技有限公司 嘴唇动作的检测方法、装置、设备和存储介质

Also Published As

Publication number Publication date
WO2012128382A1 (en) 2012-09-27

Similar Documents

Publication Publication Date Title
CN102682273A (zh) 嘴唇运动检测设备和方法
US10181325B2 (en) Audio-visual speech recognition with scattering operators
CN109635686B (zh) 结合人脸与外观的两阶段行人搜索方法
Choudhury et al. Multimodal person recognition using unconstrained audio and video
CN101448100B (zh) 一种快速准确的视频字幕提取方法
CN113284168A (zh) 目标跟踪方法、装置、电子设备及存储介质
JP2001092974A (ja) 話者認識方法及びその実行装置並びに音声発生確認方法及び装置
US20030212552A1 (en) Face recognition procedure useful for audiovisual speech recognition
Bendris et al. Lip activity detection for talking faces classification in TV-content
CN110648667B (zh) 多人场景人声匹配方法
CN110750152A (zh) 一种基于唇部动作的人机交互方法和系统
Vajaria et al. Audio segmentation and speaker localization in meeting videos
US10762659B2 (en) Real time multi-object tracking apparatus and method using global motion
CN114519880A (zh) 基于跨模态自监督学习的主动说话人识别方法
Cheng et al. The dku audio-visual wake word spotting system for the 2021 misp challenge
CN111444817A (zh) 一种人物图像识别方法、装置、电子设备和存储介质
Chiţu et al. Comparison between different feature extraction techniques for audio-visual speech recognition
Liu et al. Lip event detection using oriented histograms of regional optical flow and low rank affinity pursuit
CN114282621B (zh) 一种多模态融合的话者角色区分方法与系统
Barquero et al. Long-term face tracking for crowded video-surveillance scenarios
Lee et al. Automatic number recognition for bus route information aid for the visually-impaired
KR20130056171A (ko) 대표 특징을 이용한 실시간 객체 인식 및 추적 방법과 그 장치
Sandula et al. Camera zoom detection and classification based on application of histogram intersection and kullback leibler divergence
Saravi et al. Real-time speaker identification for video conferencing
Yu et al. E-Talk: Accelerating Active Speaker Detection with Audio-Visual Fusion and Edge-Cloud Computing

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20120919