CN104951730A - 一种唇动检测方法、装置及电子设备 - Google Patents

一种唇动检测方法、装置及电子设备 Download PDF

Info

Publication number
CN104951730A
CN104951730A CN201410116765.1A CN201410116765A CN104951730A CN 104951730 A CN104951730 A CN 104951730A CN 201410116765 A CN201410116765 A CN 201410116765A CN 104951730 A CN104951730 A CN 104951730A
Authority
CN
China
Prior art keywords
lip
characteristic point
predetermined characteristic
region
state
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410116765.1A
Other languages
English (en)
Other versions
CN104951730B (zh
Inventor
李志刚
肖曼君
谢晓辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Lenovo Beijing Ltd
Original Assignee
Lenovo Beijing Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Lenovo Beijing Ltd filed Critical Lenovo Beijing Ltd
Priority to CN201410116765.1A priority Critical patent/CN104951730B/zh
Publication of CN104951730A publication Critical patent/CN104951730A/zh
Application granted granted Critical
Publication of CN104951730B publication Critical patent/CN104951730B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Image Analysis (AREA)

Abstract

本发明实施例提供一种唇动检测方法、装置及电子设备,其中方法包括:确定嘴部区域图像的唇部区域的预定特征点的位置,通过所确定的预定特征点的位置确定所述唇部区域的唇形变化状态;通过预先获得的检测嘴部区域张开闭合状态的分类器,确定所述嘴部区域图像对应的唇部开闭状态,所述分类器通过嘴部区域图像的纹理特征训练后获得;结合所述唇形变化状态和所述唇部开闭状态确定唇动状态检测结果。本发明实施例结合唇部形状的变化和唇部的纹理特征对唇动状态进行识别,可提高唇动状态检测的鲁棒性和准确性,不易受环境光照、脸部运动和摄像头距离的影响。

Description

一种唇动检测方法、装置及电子设备
技术领域
本发明涉及唇读识别技术领域,更具体地说,涉及一种唇动检测方法、装置及电子设备。
背景技术
唇读识别技术是基于计算机视觉的,采用计算机再现聋人通过唇动破解语言规律读懂语言的技术;现已被广泛应用于语音识别,身份验证,人机智能接口等领域。唇动检测是唇读识别技术的一个关键和首要部分,唇动检测可通过人脸嘴部区域的图像检测唇部区域的运动状况。
目前的唇动检测方式主要是利用唇色分离算法定位唇形区域,然后用最小二乘等方法拟合出唇形轮廓曲线,从而通过唇形轮廓曲线识别出唇部区域的运动状况。发明人在实现本发明的过程中发现:由于不同人的唇形和唇色存在差异,且唇型的变化易受环境光照、脸部运动和摄像头距离的影响,因此在复杂环境下所拟合出的唇形轮廓曲线并不准确,这使得最终的唇动检测结果并不准确,容易造成错误的唇读识别。
发明内容
有鉴于此,本发明实施例提供一种唇动检测方法、装置及电子设备,以解决现有技术存在的最终唇动检测结果并不准确,容易造成错误的唇读识别的问题。
为实现上述目的,本发明实施例提供如下技术方案:
一种唇动检测方法,包括:
确定嘴部区域图像的唇部区域的预定特征点的位置,通过所确定的预定特征点的位置确定所述唇部区域的唇形变化状态;
通过预先获得的检测嘴部区域张开闭合状态的分类器,确定所述嘴部区域图像对应的唇部开闭状态,所述分类器通过嘴部区域图像的纹理特征训练后获得;
结合所述唇形变化状态和所述唇部开闭状态确定唇动状态检测结果。
其中,所述确定嘴部区域图像的唇部区域的预定特征点的位置包括:
获得预先设置的唇部区域的预定特征点的初始化位置,通过主动形状模型ASM算法计算预定特征点的初始化位置相对于所述嘴部区域图像的唇部区域的局部灰度模型;
根据所述局部灰度模型,对所述嘴部区域图像的唇部区域的预定特征点的初始化位置进行修正,以使修正后的预定特征点的位置所对应的局部灰度模型满足预定条件,所述修正后的预定特征点的位置为所要确定的所述预定特征点的位置;其中,所述预定特征点的位置包括:所述唇部区域的内唇预定特征点的位置,和外唇预定特征点的位置;
所述通过所确定的预定特征点的位置确定所述唇部区域的唇形变化状态包括:
通过所确定的内唇和外唇的预定特征点的位置确定内唇宽度和高度,所述宽度和高度的比值反应所述唇部区域的唇形变化状态。
其中,所述分类器的获得过程包括:
将嘴部张开图像作为第一类样本,提取第一类样本的纹理特征,及将嘴部闭合图像作为第二类样本,提取第二类样本的纹理特征;
通过所提取的第一类样本和第二类样本的纹理特征,对第一类样本和第二类样本进行离线样本训练,得到检测嘴部区域张开闭合状态的分类器。
其中,所述结合所述唇形变化状态和所述唇部开闭状态确定唇动状态检测结果包括:
确定所述唇形变化状态对应的置信度,及所述唇部开闭状态对应的置信度;
将所述唇形变化状态对应的置信度乘以对应的权重,获得第一结果,及将所述唇部开闭状态对应的置信度乘以对应的权重,获得第二结果,将所述第一结果和所述第二结果做加成处理得到所述唇动状态检测结果。
其中,所述方法还包括:
在得到所述唇动状态检测结果后,对所述嘴部区域图像进行预设次数的唇动检测,得到与所述预设次数的数量对应的唇动状态检测结果;
结合所述唇动状态检测结果,和与所述预设次数的数量对应的唇动状态检测结果,将其中符合预设条件的唇动状态检测结果作为最终的唇动状态检测结果。
本发明实施例还提供一种唇动检测装置,包括:
特征点位置确定模块,用于确定嘴部区域图像的唇部区域的预定特征点的位置;
唇形变化确定模块,用于通过所确定的预定特征点的位置确定所述唇部区域的唇形变化状态;
唇部开闭确定模块,用于通过预先获得的检测嘴部区域张开闭合状态的分类器,确定所述嘴部区域图像对应的唇部开闭状态,所述分类器通过嘴部区域图像的纹理特征训练后获得;
结合模块,用于结合所述唇形变化状态和所述唇部开闭状态确定唇动状态检测结果。
其中,所述特征点位置确定模块包括:
局部灰度模型确定单元,用于获得预先设置的唇部区域的预定特征点的初始化位置,通过主动形状模型ASM算法计算预定特征点的初始化位置相对于所述嘴部区域图像的唇部区域的局部灰度模型;
修正单元,用于根据所述局部灰度模型,对所述嘴部区域图像的唇部区域的预定特征点的初始化位置进行修正,以使修正后的预定特征点的位置所对应的局部灰度模型满足预定条件,所述修正后的预定特征点的位置为所要确定的所述预定特征点的位置;其中,所述预定特征点的位置包括:所述唇部区域的内唇预定特征点的位置,和外唇预定特征点的位置;
所述唇形变化确定模块包括:
比值确定单元,用于通过所确定的内唇和外唇的预定特征点的位置确定内唇宽度和高度,所述宽度和高度的比值反应所述唇部区域的唇形变化状态。
其中,所述装置还包括:
分类器获得模块,用于将嘴部张开图像作为第一类样本,提取第一类样本的纹理特征,及将嘴部闭合图像作为第二类样本,提取第二类样本的纹理特征;通过所提取的第一类样本和第二类样本的纹理特征,对第一类样本和第二类样本进行离线样本训练,得到检测嘴部区域张开闭合状态的分类器。
其中,所述结合模块包括:
置信度确定单元,用于确定所述唇形变化状态对应的置信度,及所述唇部开闭状态对应的置信度;
加成处理单元,用于将所述唇形变化状态对应的置信度乘以对应的权重,获得第一结果,及将所述唇部开闭状态对应的置信度乘以对应的权重,获得第二结果,将所述第一结果和所述第二结果做加成处理得到所述唇动状态检测结果。
其中,所述装置还包括:
预设次数检测模块,用于在得到所述唇动状态检测结果后,对所述嘴部区域图像进行预设次数的唇动检测,得到与所述预设次数的数量对应的唇动状态检测结果;
最终检测结果确定模块,用于结合所述唇动状态检测结果,和与所述预设次数的数量对应的唇动状态检测结果,将其中符合预设条件的唇动状态检测结果作为最终的唇动状态检测结果。
本发明实施例还提供一种电子设备,包括上述所述的唇动检测装置。
基于上述技术方案,本发明实施例提供的唇动检测方法采用唇部区域的预定特征点的位置确定所述唇部区域的唇形变化状态,采用通过嘴部区域图像的纹理特征训练后获得的分类器确定所述嘴部区域图像对应的唇部开闭状态,结合所述唇形变化状态和所述唇部开闭状态确定唇动状态检测结果;本发明实施例融合唇部形状的变化和唇部的纹理特征对唇动状态进行识别,可在采用唇部形状的变化判别唇动状态时,由于环境光照变化、摄像头距离较远易造成唇动状态误检时,由唇部的纹理特征判别唇动状态的方式进行校正;同时,采用唇部的纹理特征判别唇动状态的方式在脸部区域运动时输出的置信度较低,可由在脸部区域运动时,具有比较鲁棒的置信度输出的由唇部形状的变化判别唇动状态的方式来提升,避免发生唇动状态漏检的情况。本发明实施例结合唇部形状的变化和唇部的纹理特征对唇动状态进行识别,可提高唇动状态检测的鲁棒性和准确性,不易受环境光照、脸部运动和摄像头距离的影响。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的唇动检测方法的流程图;
图2为本发明实施例提供的确定唇部区域的预定特征点的位置的方法流程图;
图3为本发明实施例提供的分类器的获得方法流程图;
图4为本发明实施例提供的确定唇动状态检测结果的方法流程图;
图5为本发明实施例提供的唇动检测方法的另一流程图;
图6为本发明实施例提供的一个应用例的示意图;
图7为本发明实施例提供的唇动检测装置的结构框图;
图8为本发明实施例提供的特征点位置确定模块的结构框图;
图9为本发明实施例提供的唇形变化确定模块的结构框图;
图10为本发明实施例提供的唇动检测装置的另一结构框图;
图11为本发明实施例提供的结合模块的结构框图;
图12为本发明实施例提供的唇动检测装置的再一结构框图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1为本发明实施例提供的唇动检测方法的流程图,该方法可应用于电子设备,该电子设备可以是智能手机,笔记本等终端设备,参照图1,该方法可以包括:
步骤S100、确定嘴部区域图像的唇部区域的预定特征点的位置;
唇部区域的预定特征点可以是唇部区域内外唇的多个特定关键点,这些多个特定关键点可以表征唇部区域的唇形变化状态。
可选的,本发明实施例可采集用户的包括嘴部区域图像的人脸图像,通过脸部轮廓识别确定出嘴部区域,进而对嘴部区域的唇部区域进行预定特征点的位置定位。可选的,电子设备内也可预置有嘴部区域图像,从而对该预置的嘴部区域图像的唇部区域进行预定特征点的位置定位。
步骤S110、通过所确定的预定特征点的位置确定所述唇部区域的唇形变化状态;
其中,唇形变化状态可以反应唇部的动作变化状态。
步骤S120、通过预先获得的检测嘴部区域张开闭合状态的分类器,确定所述嘴部区域图像对应的唇部开闭状态,所述分类器通过嘴部区域图像的纹理特征训练后获得;
纹理特征是物体表面的固有特征之一,可认为是灰度在空间以一定的形式变化而产生的模式;本发明实施例在进行分类器的训练时,可将代表嘴部张开和闭合状态的嘴部区域图像作为样本,通过提取样本的纹理特征,如提取样本的B-LBP(Block-Local binary patterns,分块局部二值模式)特征,从而根据所提取的样本纹理特征进行离线样本训练,进而获得分类器。通过所获得的分类器对所述嘴部区域图像的唇部开闭状态进行检测,确定出所述嘴部区域图像的唇部开闭情况。
步骤S130、结合所述唇形变化状态和所述唇部开闭状态确定唇动状态检测结果。
本发明实施例中唇动状态的检测结果主要由两方面因素决定:唇形变化状态和唇部开闭状态。在通过步骤S100~步骤S110确定了所述嘴部区域图像的唇部区域的唇形变化状态,及通过步骤S120确定了唇部区域的唇部开闭状态之后,则可结合所述唇形变化状态和所述唇部开闭状态确定唇动状态的检测结果。
值得注意的是,步骤S100~步骤S110为确定唇形变化状态的步骤,步骤S120为确定唇部开闭状态的步骤,本发明实施例在实施时只要包括这两大步骤即可,这两大步骤之间可以没有明显的先后顺序。
本发明实施例提供的唇动检测方法采用唇部区域的预定特征点的位置确定所述唇部区域的唇形变化状态,采用通过嘴部区域图像的纹理特征训练后获得的分类器确定所述嘴部区域图像对应的唇部开闭状态,结合所述唇形变化状态和所述唇部开闭状态确定唇动状态检测结果;本发明实施例融合唇部形状的变化和唇部的纹理特征对唇动状态进行识别,可在采用唇部形状的变化判别唇动状态时,由于环境光照变化、摄像头距离较远易造成唇动状态误检时,由唇部的纹理特征判别唇动状态的方式进行校正;同时,采用唇部的纹理特征判别唇动状态的方式在脸部区域运动时输出的置信度较低,可由在脸部区域运动时,具有比较鲁棒的置信度输出的由唇部形状的变化判别唇动状态的方式来提升,避免发生唇动状态漏检的情况。本发明实施例结合唇部形状的变化和唇部的纹理特征对唇动状态进行识别,可提高唇动状态检测的鲁棒性和准确性,不易受环境光照、脸部运动和摄像头距离的影响。
可选的,图2示出了本发明实施例提供的确定唇部区域的预定特征点的位置的方法流程,该方法主要是结合所述嘴部区域图像的唇部区域的实际唇形情况,对预置的唇部区域的预定特征点的初始化位置进行修正,从而使得修正后的各位置点满足所述嘴部区域图像的唇部区域的实际唇形情况,预定特征点的初始化位置表示的是从众多唇部区域图像中得出的唇部区域平均形状的预定特征点的位置;参照图2,该方法可以包括:
步骤S200、获得预先设置的唇部区域的预定特征点的初始化位置;
唇部区域的预定特征点的初始化位置可以认为是本发明实施例唇部区域平均形状的预定特征点的位置,其表示的是一个标准化唇部区域形状(即唇部区域平均形状)的特定关键点的位置;本发明实施例可通过多个唇部区域形状,确定出唇部区域的平均形状,将该唇部区域的平均形状的特定关键点的位置作为唇部区域的预定特征点的初始化位置。
步骤S210、通过ASM(Active shape models,主动形状模型)算法计算预定特征点的初始化位置相对于所述嘴部区域图像的唇部区域的局部灰度模型;
所述嘴部区域图像的唇部区域为需要确定预定特征点的位置的对象,本发明实施例可根据唇部区域的预定特征点的初始化位置,在所述嘴部区域图像的唇部区域中定位出预定特征点的初始化位置,进而通过ASM算法计算出具有预定特征点的位置为初始化位置的唇部区域的局部灰度模型。
步骤S220、根据所述局部灰度模型,对所述嘴部区域图像的唇部区域的预定特征点的初始化位置进行修正,以使修正后的预定特征点的位置所对应的局部灰度模型满足预定条件,所述修正后的预定特征点的位置为所要确定的所述预定特征点的位置。
本发明实施例可设置,唇部区域的预定特征点的位置所对应的局部灰度模型的预定条件,满足该预定条件的局部灰度模型所对应的唇部区域的预定特征点的位置即为本发明实施例所要确定的所述嘴部区域图像的唇部区域的预定特征点的位置。在通过步骤S210得到预定特征点的初始化位置相对于所述嘴部区域图像的唇部区域的局部灰度模型后,本发明实施例可对所述嘴部区域图像的唇部区域的预定特征点的初始化位置进行修正,以使修正后的预定特征点的位置所对应的局部灰度模型满足预定条件,从而实现所述嘴部区域图像的唇部区域的预定特征点的位置的定位。
可选的,满足预定条件的所述嘴部区域图像的唇部区域的预定特征点的位置所对应的局部灰度模型,可以与平均形状的唇部区域的预定特征点的初始化位置所对应的局部灰度模型相对应。
可选的,所述预定特征点的位置可以包括:所述唇部区域的内唇预定特征点的位置,和外唇预定特征点的位置。本发明实施例在确定了所述嘴部区域图像的唇部区域的预定特征点的位置后,可得到所述嘴部区域图像的唇部区域的内外唇的多个预定特征点的位置,可根据所确定的内唇和外唇的预定特征点的位置确定内唇宽度和高度,从而计算出内唇宽度和高度的比值,该内唇宽度和高度的比值反应的就是所述唇部区域的唇形变化状态。
值得注意的是,获得能够检测嘴部区域张开闭合状态的分类器是本发明实施例的一个重要步骤,下面提供一种分类器的可选获得方式;对应的,图3示出了本发明实施例提供的分类器的获得方法流程,参照图3,该方法可以包括:
步骤S300、将嘴部张开图像作为第一类样本,提取第一类样本的纹理特征;
可选的,本发明实施例可收集多个嘴部张开图像,对所收集的多个嘴部张开图像作归一化处理,将归一化处理后的嘴部张开图像作为第一类样本;可选的,第一类样本可以是正样本。在得到第一类样本后,本发明实施例可提取第一类样本的纹理特征,如B-LBP特征。
步骤S310、将嘴部闭合图像作为第二类样本,提取第二类样本的纹理特征;
可选的,本发明实施例可收集多个嘴部闭合图像,对所收集的多个嘴部闭合图像作归一化处理,将归一化处理后的嘴部闭合图像作为第二类样本;可选的,第二类样本可以是负样本。在得到第二类样本后,本发明实施例可提取第二类样本的纹理特征,如B-LBP特征。
值得注意的是,步骤S300和步骤S310是对嘴部张开图像和嘴部闭合图像所作的不同处理,两步骤之间可以没有明显的先后顺序。
步骤S320、通过所提取的第一类样本和第二类样本的纹理特征,对第一类样本和第二类样本进行离线样本训练,得到检测嘴部区域张开闭合状态的分类器。
可选的,分类器可以是级联分类器,本发明实施例可通过训练级联分类器的方法对第一类样本和第二类样本进行离线样本训练,从而得到能够检测嘴部区域张开闭合状态的级联分类器。
可选的,本发明实施例在得到所述嘴部区域图像的唇部区域的唇形变化状态,和所述嘴部区域图像对应的唇部开闭状态之后,可结合所得到的唇形变化状态和唇部开闭状态确定出唇动状态检测结果。对应的,图4示出了一种可选的确定唇动状态检测结果的方法流程,参照图4,该方法可以包括:
步骤S400、确定所述唇形变化状态对应的置信度;
步骤S410、将所述唇形变化状态对应的置信度乘以对应的权重,获得第一结果;
步骤S420、确定所述唇部开闭状态对应的置信度;
步骤S430、将所述唇部开闭状态对应的置信度乘以对应的权重,获得第二结果;
值得注意的是,步骤S400~步骤S410为针对所述唇形变化状态确定第一结果的过程,步骤S420~步骤S430为针对所述唇部开闭状态确定第二结果的过程,这两大过程为分别针对所述唇形变化状态和所述唇部开闭状态所作的处理,因此原则上这两大过程可以没有明显的先后顺序。
步骤S440、将所述第一结果和所述第二结果做加成处理得到所述唇动状态检测结果。
可选的,本发明实施例在得到所述唇形变化状态和所述唇部开闭状态后,可通过两个检测器分别检测所述唇形变化状态对应的唇形开闭的概率(置信度)p1,及所述唇部开闭状态对应的唇形开闭的概率(置信度)p2,a1为p1的权重,a2为p2的权重,则最终输出的所述唇动状态检测结果可以为R=a1*p1+a2*p2;此处的重点在于如何确定两个检测器的输出概率融合阈值T,本发明实施例可通过机器学习的方法,事先标记好进行离线训练的第一类样本和第二类样本,每个样本中均包含p1,p2参数;从而将问题转换为一个半监督学习问题,通过设计一个线性分类器求出权重a1,a2和分类阈值T。
可选的,本发明实施例可对所述嘴部区域图像的唇部区域进行连续的多帧验证,从而将输出概率最大(即具有最多的一致检测结果)的唇动状态检测结果作为最终的唇动状态检测结果;具体的,在通过图1所示方法得到所述唇动状态检测结果后,本发明实施例可对所述嘴部区域图像进行预设次数的唇动检测,得到与所述预设次数的数量对应的唇动状态检测结果;从而结合所述唇动状态检测结果,和与所述预设次数的数量对应的唇动状态检测结果,将其中符合预设条件(如输出概率最大)的唇动状态检测结果作为最终的唇动状态检测结果。
可选的,图5示出了本发明实施例提供的唇动检测方法的另一流程,参照图5,该方法可以包括:
步骤S500、获得预先设置的唇部区域的预定特征点的初始化位置,通过主动形状模型ASM算法计算预定特征点的初始化位置相对于嘴部区域图像的唇部区域的局部灰度模型;
步骤S510、根据所述局部灰度模型,对所述嘴部区域图像的唇部区域的预定特征点的初始化位置进行修正,以使修正后的预定特征点的位置所对应的局部灰度模型满足预定条件,所述修正后的预定特征点的位置为嘴部区域图像的唇部区域的预定特征点的位置,所述预定特征点的位置包括:所述唇部区域的内唇预定特征点的位置,和外唇预定特征点的位置;
步骤S520、通过所确定的内唇和外唇的预定特征点的位置确定内唇宽度和高度,所述宽度和高度的比值反应所述唇部区域的唇形变化状态。
步骤S530、通过预先获得的检测嘴部区域张开闭合状态的分类器,确定所述嘴部区域图像对应的唇部开闭状态,所述分类器通过嘴部区域图像的纹理特征训练后获得;
步骤S540、确定所述唇形变化状态对应的置信度,及所述唇部开闭状态对应的置信度;
步骤S550、将所述唇形变化状态对应的置信度乘以对应的权重,获得第一结果,及将所述唇部开闭状态对应的置信度乘以对应的权重,获得第二结果,将所述第一结果和所述第二结果做加成处理得到所述唇动状态检测结果。
步骤S560、重复预设次数上述确定唇动状态检测结果的过程,得到与所述预设次数的数量对应的唇动状态检测结果,将其中符合预设条件的唇动状态检测结果作为最终的唇动状态检测结果。
图6为本发明实施例一个应用例的示意图,参照图6,电子设备10为具有摄像头11的电子设备,用户20在进行说话时,电子设备10的摄像头11可采集用户的嘴部区域图像(如带有嘴部区域图像的人脸图像),从而电子设备10可确定出用户的嘴部区域图像的唇部区域的预定特征点的位置,通过所确定的预定特征点的位置确定所述唇部区域的唇形变化状态,并且通过预先获得的检测嘴部区域张开闭合状态的分类器,确定所述嘴部区域图像对应的唇部开闭状态,所述分类器通过嘴部区域图像的纹理特征训练后获得,进而结合所述唇形变化状态和所述唇部开闭状态确定唇动状态检测结果,实现用户唇动状态的检测,进而实现用户说话时的语音识别。
本发明实施例采用形状描述(对应通过预定特征点的位置确定所述唇部区域的唇形变化状态的方式)和纹理描述(对应通过分类器确定所述嘴部区域图像对应的唇部开闭状态的方式)相结合的方式进行唇动状态的检测,可在采用形状描述判别唇动状态时,由于环境光照变化、摄像头距离较远易造成唇动状态误检时,由纹理描述的方式进行校正;同时,对于采用纹理描述在脸部区域运动时输出的置信度较低的情况,可由在脸部区域运动时,具有比较鲁棒的置信度输出的形状描述方式来提升,避免发生唇动状态漏检的情况。本发明实施例形状描述判别唇动状态的方式,和纹理描述判别唇动状态的方式相辅相成,两者结合可提高唇动状态检测的鲁棒性和准确性。
下面对本发明实施例提供的唇动检测装置进行描述,下文描述的唇动检测装置与上文描述的唇动检测方法可相互对应参照。
图7为本发明实施例提供的唇动检测装置的结构框图,该装置可应用于电子设备,该电子设备可以是智能手机,笔记本等终端设备;参照图7,该装置可以包括:
特征点位置确定模块100,用于确定嘴部区域图像的唇部区域的预定特征点的位置;
唇形变化确定模块200,用于通过所确定的预定特征点的位置确定所述唇部区域的唇形变化状态;
唇部开闭确定模块300,用于通过预先获得的检测嘴部区域张开闭合状态的分类器,确定所述嘴部区域图像对应的唇部开闭状态,所述分类器通过嘴部区域图像的纹理特征训练后获得;
结合模块400,用于结合所述唇形变化状态和所述唇部开闭状态确定唇动状态检测结果。
可选的,图8示出了特征点位置确定模块100的一种可选结构,参照图8,特征点位置确定模块100可以包括:
局部灰度模型确定单元110,用于获得预先设置的唇部区域的预定特征点的初始化位置,通过主动形状模型ASM算法计算预定特征点的初始化位置相对于所述嘴部区域图像的唇部区域的局部灰度模型;
修正单元120,用于根据所述局部灰度模型,对所述嘴部区域图像的唇部区域的预定特征点的初始化位置进行修正,以使修正后的预定特征点的位置所对应的局部灰度模型满足预定条件,所述修正后的预定特征点的位置为所要确定的所述预定特征点的位置;其中,所述预定特征点的位置包括:所述唇部区域的内唇预定特征点的位置,和外唇预定特征点的位置。
可选的,图9示出了本发明实施例提供的唇形变化确定模块200的一种可选结构,参照图9,唇形变化确定模块200可以包括:
比值确定单元210,用于通过所确定的内唇和外唇的预定特征点的位置确定内唇宽度和高度,所述宽度和高度的比值反应所述唇部区域的唇形变化状态。
可选的,图10示出了本发明实施例提供的唇动检测装置的另一结构框图,结合图7和图10,本发明实施例提供的唇动检测装置还可以包括:
分类器获得模块500,用于将嘴部张开图像作为第一类样本,提取第一类样本的纹理特征,及将嘴部闭合图像作为第二类样本,提取第二类样本的纹理特征;通过所提取的第一类样本和第二类样本的纹理特征,对第一类样本和第二类样本进行离线样本训练,得到检测嘴部区域张开闭合状态的分类器。
可选的,图11示出了本发明实施例提供的结合模块400的一种可选结构,参照图11,结合模块400可以包括:
置信度确定单元410,用于确定所述唇形变化状态对应的置信度,及所述唇部开闭状态对应的置信度;
加成处理单元420,用于将所述唇形变化状态对应的置信度乘以对应的权重,获得第一结果,及将所述唇部开闭状态对应的置信度乘以对应的权重,获得第二结果,将所述第一结果和所述第二结果做加成处理得到所述唇动状态检测结果。
可选的,图12示出了本发明实施例提供的唇动检测装置的再一结构框图,结合图7和图12所示,本发明实施例提供的唇动检测装置还可以包括:
预设次数检测模块600,用于在得到所述唇动状态检测结果后,对所述嘴部区域图像进行预设次数的唇动检测,得到与所述预设次数的数量对应的唇动状态检测结果;
最终检测结果确定模块700,用于结合所述唇动状态检测结果,和与所述预设次数的数量对应的唇动状态检测结果,将其中符合预设条件的唇动状态检测结果作为最终的唇动状态检测结果。
本发明实施例提供的唇动检测装置采用融合唇部形状的变化和唇部的纹理特征的方式对唇动状态进行识别,可在采用唇部形状的变化判别唇动状态时,由于环境光照变化、摄像头距离较远易造成唇动状态误检时,由唇部的纹理特征判别唇动状态的方式进行校正;同时,对于采用唇部的纹理特征判别唇动状态在脸部区域运动时输出的置信度较低的情况,可由在脸部区域运动时,具有比较鲁棒的置信度输出的唇部形状的变化判别唇动状态的方式来提升,避免发生唇动状态漏检的情况。本发明实施例结合唇部形状的变化和唇部的纹理特征对唇动状态进行识别,可提高唇动状态检测的鲁棒性和准确性,不易受环境光照、脸部运动和摄像头距离的影响。
本发明实施例还提供一种电子设备,该电子设备可以包括上述所述的唇动检测装置,唇动检测装置的具体描述可参见上文对应部分,此处不再赘述。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (11)

1.一种唇动检测方法,其特征在于,包括:
确定嘴部区域图像的唇部区域的预定特征点的位置,通过所确定的预定特征点的位置确定所述唇部区域的唇形变化状态;
通过预先获得的检测嘴部区域张开闭合状态的分类器,确定所述嘴部区域图像对应的唇部开闭状态,所述分类器通过嘴部区域图像的纹理特征训练后获得;
结合所述唇形变化状态和所述唇部开闭状态确定唇动状态检测结果。
2.根据权利要求1所述的方法,其特征在于,所述确定嘴部区域图像的唇部区域的预定特征点的位置包括:
获得预先设置的唇部区域的预定特征点的初始化位置,通过主动形状模型ASM算法计算预定特征点的初始化位置相对于所述嘴部区域图像的唇部区域的局部灰度模型;
根据所述局部灰度模型,对所述嘴部区域图像的唇部区域的预定特征点的初始化位置进行修正,以使修正后的预定特征点的位置所对应的局部灰度模型满足预定条件,所述修正后的预定特征点的位置为所要确定的所述预定特征点的位置;其中,所述预定特征点的位置包括:所述唇部区域的内唇预定特征点的位置,和外唇预定特征点的位置;
所述通过所确定的预定特征点的位置确定所述唇部区域的唇形变化状态包括:
通过所确定的内唇和外唇的预定特征点的位置确定内唇宽度和高度,所述宽度和高度的比值反应所述唇部区域的唇形变化状态。
3.根据权利要求1或2所述的方法,其特征在于,所述分类器的获得过程包括:
将嘴部张开图像作为第一类样本,提取第一类样本的纹理特征,及将嘴部闭合图像作为第二类样本,提取第二类样本的纹理特征;
通过所提取的第一类样本和第二类样本的纹理特征,对第一类样本和第二类样本进行离线样本训练,得到检测嘴部区域张开闭合状态的分类器。
4.根据权利要求1所述的方法,其特征在于,所述结合所述唇形变化状态和所述唇部开闭状态确定唇动状态检测结果包括:
确定所述唇形变化状态对应的置信度,及所述唇部开闭状态对应的置信度;
将所述唇形变化状态对应的置信度乘以对应的权重,获得第一结果,及将所述唇部开闭状态对应的置信度乘以对应的权重,获得第二结果,将所述第一结果和所述第二结果做加成处理得到所述唇动状态检测结果。
5.根据权利要求1所述的方法,其特征在于,所述方法还包括:
在得到所述唇动状态检测结果后,对所述嘴部区域图像进行预设次数的唇动检测,得到与所述预设次数的数量对应的唇动状态检测结果;
结合所述唇动状态检测结果,和与所述预设次数的数量对应的唇动状态检测结果,将其中符合预设条件的唇动状态检测结果作为最终的唇动状态检测结果。
6.一种唇动检测装置,其特征在于,包括:
特征点位置确定模块,用于确定嘴部区域图像的唇部区域的预定特征点的位置;
唇形变化确定模块,用于通过所确定的预定特征点的位置确定所述唇部区域的唇形变化状态;
唇部开闭确定模块,用于通过预先获得的检测嘴部区域张开闭合状态的分类器,确定所述嘴部区域图像对应的唇部开闭状态,所述分类器通过嘴部区域图像的纹理特征训练后获得;
结合模块,用于结合所述唇形变化状态和所述唇部开闭状态确定唇动状态检测结果。
7.根据权利要求6所述的唇动检测装置,其特征在于,所述特征点位置确定模块包括:
局部灰度模型确定单元,用于获得预先设置的唇部区域的预定特征点的初始化位置,通过主动形状模型ASM算法计算预定特征点的初始化位置相对于所述嘴部区域图像的唇部区域的局部灰度模型;
修正单元,用于根据所述局部灰度模型,对所述嘴部区域图像的唇部区域的预定特征点的初始化位置进行修正,以使修正后的预定特征点的位置所对应的局部灰度模型满足预定条件,所述修正后的预定特征点的位置为所要确定的所述预定特征点的位置;其中,所述预定特征点的位置包括:所述唇部区域的内唇预定特征点的位置,和外唇预定特征点的位置;
所述唇形变化确定模块包括:
比值确定单元,用于通过所确定的内唇和外唇的预定特征点的位置确定内唇宽度和高度,所述宽度和高度的比值反应所述唇部区域的唇形变化状态。
8.根据权利要求6或7所述的唇动检测装置,其特征在于,还包括:
分类器获得模块,用于将嘴部张开图像作为第一类样本,提取第一类样本的纹理特征,及将嘴部闭合图像作为第二类样本,提取第二类样本的纹理特征;通过所提取的第一类样本和第二类样本的纹理特征,对第一类样本和第二类样本进行离线样本训练,得到检测嘴部区域张开闭合状态的分类器。
9.根据权利要求6所述的唇动检测装置,其特征在于,所述结合模块包括:
置信度确定单元,用于确定所述唇形变化状态对应的置信度,及所述唇部开闭状态对应的置信度;
加成处理单元,用于将所述唇形变化状态对应的置信度乘以对应的权重,获得第一结果,及将所述唇部开闭状态对应的置信度乘以对应的权重,获得第二结果,将所述第一结果和所述第二结果做加成处理得到所述唇动状态检测结果。
10.根据权利要求6所述的唇动检测装置,其特征在于,还包括:
预设次数检测模块,用于在得到所述唇动状态检测结果后,对所述嘴部区域图像进行预设次数的唇动检测,得到与所述预设次数的数量对应的唇动状态检测结果;
最终检测结果确定模块,用于结合所述唇动状态检测结果,和与所述预设次数的数量对应的唇动状态检测结果,将其中符合预设条件的唇动状态检测结果作为最终的唇动状态检测结果。
11.一种电子设备,其特征在于,包括权利要求6-10任一项所述的唇动检测装置。
CN201410116765.1A 2014-03-26 2014-03-26 一种唇动检测方法、装置及电子设备 Active CN104951730B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410116765.1A CN104951730B (zh) 2014-03-26 2014-03-26 一种唇动检测方法、装置及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410116765.1A CN104951730B (zh) 2014-03-26 2014-03-26 一种唇动检测方法、装置及电子设备

Publications (2)

Publication Number Publication Date
CN104951730A true CN104951730A (zh) 2015-09-30
CN104951730B CN104951730B (zh) 2018-08-31

Family

ID=54166376

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410116765.1A Active CN104951730B (zh) 2014-03-26 2014-03-26 一种唇动检测方法、装置及电子设备

Country Status (1)

Country Link
CN (1) CN104951730B (zh)

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104966053A (zh) * 2015-06-11 2015-10-07 腾讯科技(深圳)有限公司 人脸识别方法及识别系统
CN106373128A (zh) * 2016-09-18 2017-02-01 上海斐讯数据通信技术有限公司 一种嘴唇精确定位的方法和系统
CN106778450A (zh) * 2015-11-25 2017-05-31 腾讯科技(深圳)有限公司 一种面部识别方法和装置
CN107358153A (zh) * 2017-06-02 2017-11-17 广州视源电子科技股份有限公司 一种嘴部运动检测方法和装置及活体识别方法和系统
CN107358152A (zh) * 2017-06-02 2017-11-17 广州视源电子科技股份有限公司 一种活体识别方法和系统
CN107633205A (zh) * 2017-08-17 2018-01-26 平安科技(深圳)有限公司 嘴唇动作分析方法、装置及存储介质
CN107679449A (zh) * 2017-08-17 2018-02-09 平安科技(深圳)有限公司 嘴唇动作捕捉方法、装置及存储介质
CN107679506A (zh) * 2017-10-12 2018-02-09 Tcl通力电子(惠州)有限公司 智能产品的唤醒方法、智能产品及计算机可读存储介质
CN108664842A (zh) * 2017-03-27 2018-10-16 Tcl集团股份有限公司 一种唇动识别模型的构建方法及系统
CN109325468A (zh) * 2018-10-18 2019-02-12 广州智颜科技有限公司 一种图像处理方法、装置、计算机设备和存储介质
CN110544270A (zh) * 2019-08-30 2019-12-06 上海依图信息技术有限公司 结合语音识别且实时预测人脸追踪轨迹方法及装置
CN110544491A (zh) * 2019-08-30 2019-12-06 上海依图信息技术有限公司 一种实时关联说话人及其语音识别结果的方法及装置
CN110580336A (zh) * 2018-06-08 2019-12-17 北京得意音通技术有限责任公司 唇语的分词方法、装置、存储介质和电子设备
WO2020052062A1 (zh) * 2018-09-14 2020-03-19 北京字节跳动网络技术有限公司 检测方法和装置
CN111091823A (zh) * 2019-11-28 2020-05-01 广州赛特智能科技有限公司 基于语音及人脸动作的机器人控制系统、方法及电子设备
CN113642469A (zh) * 2021-08-16 2021-11-12 北京百度网讯科技有限公司 嘴唇动作的检测方法、装置、设备和存储介质
CN115880737A (zh) * 2021-09-26 2023-03-31 天翼爱音乐文化科技有限公司 一种基于降噪自学习的字幕生成方法、系统、设备及介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101101752A (zh) * 2007-07-19 2008-01-09 华中科技大学 基于视觉特征的单音节语言唇读识别系统
US20100189305A1 (en) * 2009-01-23 2010-07-29 Eldon Technology Limited Systems and methods for lip reading control of a media device
CN102136077A (zh) * 2011-03-29 2011-07-27 上海大学 基于支持向量机的口唇颜色自动识别的方法
CN102184016A (zh) * 2011-05-13 2011-09-14 大连民族学院 基于视频序列识别的无接触式鼠标控制方法
CN102682273A (zh) * 2011-03-18 2012-09-19 夏普株式会社 嘴唇运动检测设备和方法
CN103218603A (zh) * 2013-04-03 2013-07-24 哈尔滨工业大学深圳研究生院 一种人脸自动标注方法及系统
US8649555B1 (en) * 2009-02-18 2014-02-11 Lucasfilm Entertainment Company Ltd. Visual tracking framework
US20140050392A1 (en) * 2012-08-15 2014-02-20 Samsung Electronics Co., Ltd. Method and apparatus for detecting and tracking lips

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101101752A (zh) * 2007-07-19 2008-01-09 华中科技大学 基于视觉特征的单音节语言唇读识别系统
US20100189305A1 (en) * 2009-01-23 2010-07-29 Eldon Technology Limited Systems and methods for lip reading control of a media device
US8649555B1 (en) * 2009-02-18 2014-02-11 Lucasfilm Entertainment Company Ltd. Visual tracking framework
CN102682273A (zh) * 2011-03-18 2012-09-19 夏普株式会社 嘴唇运动检测设备和方法
CN102136077A (zh) * 2011-03-29 2011-07-27 上海大学 基于支持向量机的口唇颜色自动识别的方法
CN102184016A (zh) * 2011-05-13 2011-09-14 大连民族学院 基于视频序列识别的无接触式鼠标控制方法
US20140050392A1 (en) * 2012-08-15 2014-02-20 Samsung Electronics Co., Ltd. Method and apparatus for detecting and tracking lips
CN103218603A (zh) * 2013-04-03 2013-07-24 哈尔滨工业大学深圳研究生院 一种人脸自动标注方法及系统

Cited By (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104966053A (zh) * 2015-06-11 2015-10-07 腾讯科技(深圳)有限公司 人脸识别方法及识别系统
US10650259B2 (en) 2015-06-11 2020-05-12 Tencent Technology (Shenzhen) Company Limited Human face recognition method and recognition system based on lip movement information and voice information
CN104966053B (zh) * 2015-06-11 2018-12-28 腾讯科技(深圳)有限公司 人脸识别方法及识别系统
CN106778450A (zh) * 2015-11-25 2017-05-31 腾讯科技(深圳)有限公司 一种面部识别方法和装置
CN106778450B (zh) * 2015-11-25 2020-04-24 腾讯科技(深圳)有限公司 一种面部识别方法和装置
CN106373128B (zh) * 2016-09-18 2020-01-14 上海斐讯数据通信技术有限公司 一种嘴唇精确定位的方法和系统
CN106373128A (zh) * 2016-09-18 2017-02-01 上海斐讯数据通信技术有限公司 一种嘴唇精确定位的方法和系统
CN108664842B (zh) * 2017-03-27 2020-12-18 Tcl科技集团股份有限公司 一种唇动识别模型的构建方法及系统
CN108664842A (zh) * 2017-03-27 2018-10-16 Tcl集团股份有限公司 一种唇动识别模型的构建方法及系统
CN107358153A (zh) * 2017-06-02 2017-11-17 广州视源电子科技股份有限公司 一种嘴部运动检测方法和装置及活体识别方法和系统
CN107358152A (zh) * 2017-06-02 2017-11-17 广州视源电子科技股份有限公司 一种活体识别方法和系统
CN107679449A (zh) * 2017-08-17 2018-02-09 平安科技(深圳)有限公司 嘴唇动作捕捉方法、装置及存储介质
CN107633205A (zh) * 2017-08-17 2018-01-26 平安科技(深圳)有限公司 嘴唇动作分析方法、装置及存储介质
CN107679449B (zh) * 2017-08-17 2018-08-03 平安科技(深圳)有限公司 嘴唇动作捕捉方法、装置及存储介质
CN107633205B (zh) * 2017-08-17 2019-01-18 平安科技(深圳)有限公司 嘴唇动作分析方法、装置及存储介质
CN107679506A (zh) * 2017-10-12 2018-02-09 Tcl通力电子(惠州)有限公司 智能产品的唤醒方法、智能产品及计算机可读存储介质
CN110580336A (zh) * 2018-06-08 2019-12-17 北京得意音通技术有限责任公司 唇语的分词方法、装置、存储介质和电子设备
CN110580336B (zh) * 2018-06-08 2022-03-01 北京得意音通技术有限责任公司 唇语的分词方法、装置、存储介质和电子设备
WO2020052062A1 (zh) * 2018-09-14 2020-03-19 北京字节跳动网络技术有限公司 检测方法和装置
CN109325468A (zh) * 2018-10-18 2019-02-12 广州智颜科技有限公司 一种图像处理方法、装置、计算机设备和存储介质
CN110544491A (zh) * 2019-08-30 2019-12-06 上海依图信息技术有限公司 一种实时关联说话人及其语音识别结果的方法及装置
CN110544270A (zh) * 2019-08-30 2019-12-06 上海依图信息技术有限公司 结合语音识别且实时预测人脸追踪轨迹方法及装置
CN111091823A (zh) * 2019-11-28 2020-05-01 广州赛特智能科技有限公司 基于语音及人脸动作的机器人控制系统、方法及电子设备
CN113642469A (zh) * 2021-08-16 2021-11-12 北京百度网讯科技有限公司 嘴唇动作的检测方法、装置、设备和存储介质
CN115880737A (zh) * 2021-09-26 2023-03-31 天翼爱音乐文化科技有限公司 一种基于降噪自学习的字幕生成方法、系统、设备及介质
CN115880737B (zh) * 2021-09-26 2024-04-19 天翼爱音乐文化科技有限公司 一种基于降噪自学习的字幕生成方法、系统、设备及介质

Also Published As

Publication number Publication date
CN104951730B (zh) 2018-08-31

Similar Documents

Publication Publication Date Title
CN104951730A (zh) 一种唇动检测方法、装置及电子设备
CN109657631B (zh) 人体姿态识别方法及装置
JP5303652B2 (ja) 画像内のジェスチャを認識するための装置、方法およびコンピュータ・プログラムと、デバイスを制御するための装置、方法およびコンピュータ・プログラム
JP5010905B2 (ja) 顔認証装置
CN108614999B (zh) 基于深度学习的眼睛睁闭状态检测方法
Oprisescu et al. Automatic static hand gesture recognition using tof cameras
US20140147035A1 (en) Hand gesture recognition system
CN106485191A (zh) 一种驾驶员疲劳状态检测方法及系统
US10489636B2 (en) Lip movement capturing method and device, and storage medium
CN109460704A (zh) 一种基于深度学习的疲劳检测方法、系统和计算机设备
CN102270308A (zh) 一种基于五官相关aam模型的面部特征定位方法
CN101996308A (zh) 人脸认证方法及系统、人脸模型训练方法及系统
CN109740454A (zh) 一种基于yolo-v3的人体体态识别方法
CN110796101A (zh) 一种嵌入式平台的人脸识别方法及系统
CN103793926A (zh) 基于样本重选择的目标跟踪方法
CN107526994A (zh) 一种信息处理方法、装置及移动终端
CN106778574A (zh) 用于人脸图像的检测方法和装置
Oh et al. Using binary decision tree and multiclass SVM for human gesture recognition
CN104091150B (zh) 一种基于回归的人眼状态判断方法
CN111160173B (zh) 一种基于机器人的手势识别方法及机器人
CN106980845B (zh) 基于结构化建模的人脸关键点定位方法
CN107358151A (zh) 一种眼部运动检测方法和装置及活体识别方法和系统
CN107358153A (zh) 一种嘴部运动检测方法和装置及活体识别方法和系统
CN109461220A (zh) 签到方法、装置及系统
CN108596121A (zh) 一种基于上下文和结构建模的人脸关键点检测方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant