CN107045385A - 基于深度图像的唇语交互方法以及唇语交互装置 - Google Patents

基于深度图像的唇语交互方法以及唇语交互装置 Download PDF

Info

Publication number
CN107045385A
CN107045385A CN201611076381.7A CN201611076381A CN107045385A CN 107045385 A CN107045385 A CN 107045385A CN 201611076381 A CN201611076381 A CN 201611076381A CN 107045385 A CN107045385 A CN 107045385A
Authority
CN
China
Prior art keywords
lip
image
target body
body object
deep
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201611076381.7A
Other languages
English (en)
Inventor
黄源浩
刘龙
肖振中
许星
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Orbbec Co Ltd
Original Assignee
Shenzhen Orbbec Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Orbbec Co Ltd filed Critical Shenzhen Orbbec Co Ltd
Publication of CN107045385A publication Critical patent/CN107045385A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Social Psychology (AREA)
  • Psychiatry (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Processing (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于深度图像的唇语交互方法以及交互装置,所述交互方法包括:获取目标人体对象的深度图像信息;从深度图像信息中获取所述目标人体对象的唇部区域图像;从嘴唇区域图像提取唇部特征,根据唇部特征进行唇语识别;将唇语识别的结果转化成对应的操作指令,并根据所述操作指令进行交互。上述通过获取深度图像信息,从深度图像中来提取唇部特征信息的方式,相对于传统直接通过彩色相机获取图像信息的方式,不容易受到环境如光线强弱的影响,能够有效提高图像识别的命中率,进一步提高唇语识别的命中率,最终可有效改善交互的执行率和操作准确率,有利于唇语识别应用于交互技术中的推广。

Description

基于深度图像的唇语交互方法以及唇语交互装置
技术领域
本发明涉及图像处理技术领域,特别是涉及一种基于深度图像的唇语交互方法以及交互装置。
背景技术
在人工智能领域已经图像处理领域,利用目标的图像信息可以实现很多功能比如用来分析用户的表情或动作信息等等。图像获取和识别一直是较为热门的研究话题,涉及到用户日常生活以及科学研究的多个方面。
例如,可通过对用户面部进行识别如唇语进行识别的技术能提高体感交互、语音识别的准确率,从而进一步地带来更加舒适的交互体验。
但是现有技术中,唇语识别一般是基于彩色相机来获取用户的面部信息,这种方式容易受到环境的影响,如光线太强或太弱都会直接影响到图像获取的精度,导致识率很低,最终导致交互的成功率并不高。
发明内容
本发明主要解决的技术问题是提供一种基于深度图像的唇语交互方法以及唇语交互装置,能够有效提高通过唇语识别来进行交互的成功率。
为解决上述技术问题,本发明采用的一个技术方案是:提供一种基于深度图像的唇语交互方法,所述交互方法包括:
获取目标人体对象的深度图像信息;
从所述深度图像信息中获取所述目标人体对象的唇部区域图像;
从所述嘴唇区域图像提取唇部特征,根据所述唇部特征进行唇语识别;
将所述唇语识别的结果转化成对应的操作指令,并根据所述操作指令进行交互。
其中,所述从所述深度图像信息中获取所述目标人体对象的嘴唇区域图像的步骤具体包括:
对所述深度图像信息进行分割得到所述目标人体对象的人脸图像;
从所述人脸图像中获取所述目标人体对象的嘴唇区域图像。
其中,所述对所述图像信息进行分割得到所述目标人体对象的人脸图像的步骤具体包括:
根据深度特征信息判断所述图像信息中是否包括所述目标人体对象的鼻尖;
在所述深度图像信息中包括所述目标人体对象的鼻尖时,检测所述鼻尖两侧是否存在椭圆的人脸轮廓区域;
如果存在所述人脸轮廓区域,获取包括所述鼻尖以及人脸轮廓的区域图像作为所述目标人体对象的人脸图像;
所述从所述人脸图像中获取所述目标人体对象的嘴唇区域图像的步骤包括:
提取所述人脸图像中的所述鼻尖下方的区域作为嘴唇区域图像。
所述提取所述人脸图像中的所述鼻尖下方的区域作为嘴唇区域图像的步骤之后还包括:
通过边缘检测或阈值分割的图像处理方法从所述嘴唇区域图像中获取所述目标人体对象的双唇图像。
其中,所述从所述嘴唇区域图像中提取唇部特征,并对所述唇部特征进行唇语识别的步骤具体包括:
通过外观轮廓提取方法或轮廓特征提取方法中的至少一种从所述嘴唇区域图像中提取唇部特征;
将所述唇部特征与设定识别模型数据库中的识别信息进行比对,得到所述唇部特征对应的唇语识别结果。
其中,所述获取目标人体对象的深度图像信息的步骤具体包括:
通过预先设置的双摄像机同步采集所述目标人体对象的第一图像以及所述目标人体对象的第二图像;
根据所述第一图像和所述第二图像计算得到所述目标人体对象的深度图像信息。
其中,所述获取目标人体对象的深度图像信息的步骤具体包括:
通过红外相机获取所述目标人体对象的结构光红外图像,从所述结构光红外图像中获取所述目标人体对象的深度图像信息。
其中,所述获取目标人体对象的深度图像信息的步骤具体包括:
向所述目标人体图像所在的目标区域投射红外光;
通过红外相机采集所述红外光反射的光线,根据所述光线的传输时间计算得到所述目标人体图像的深度图像信息。
为解决上述技术问题,本发明采用的另一个技术方案是:提供一种基于深度图像的唇语交互装置,
所述唇语交互装置包括:深度图像信息获取模块、唇部区域图像确定模块、唇语识别模块以及交互模块,
所述深度图像信息获取模块用于获取目标人体对象的深度图像信息;
所述唇部区域图像确定模块用于从所述深度图像信息中获取所述目标人体对象的唇部区域图像;
所述唇语识别模块用于从所述嘴唇区域图像提取唇部特征,根据所述唇部特征进行唇语识别;
所述交互模块用于将所述唇语识别的结果转化成对应的操作指令,并根据所述操作指令进行交互。
其中,所述唇部区域图像确定模块具体用于对所述深度图像信息进行分割得到所述目标人体对象的人脸图像;从所述人脸图像中获取所述目标人体对象的嘴唇区域图像。
本发明的有益效果是:区别于现有技术的情况,本实施方式的唇语交互方法首先获取目标人体对象的深度图像信息;从所述深度图像信息中获取所述目标人体对象的唇部区域图像;从所述嘴唇区域图像提取唇部特征,根据所述唇部特征进行唇语识别;将所述唇语识别的结果转化成对应的操作指令,并根据所述操作指令进行交互。上述通过获取深度图像信息,从深度图像中来提取唇部特征信息的方式,相对于传统直接通过彩色相机获取图像信息的方式,不容易受到环境如光线强弱的影响,能够有效提高图像识别的命中率,进一步提高唇语识别的命中率,最终可有效改善交互的执行率和操作准确率,有利于唇语识别应用于交互技术中的推广。
附图说明
图1是本发明基于深度图像的唇语交互方法一实施方式的流程示意图;
图2是本发明基于深度图像的唇语交互方法另一实施方式的流程示意图;
图3是本发明基于深度图像的唇交互方法再一实施方式的流程示意图;
图4是本发明基于深度图像的唇语交互装置一实施方式的结构示意图;
图5是本发明基于深度图像的唇语交互装置另一实施方式的结构示意图;
图6是本发明基于深度图像的唇语交互装置再一实施方式的结构示意图。
具体实施方式
参阅图1,图1是本发明基于深度图像的唇语交互方法一实施方式的流程示意图。如图1所示,本实施方式的唇语交互方法包括如下步骤:
101:获取目标人体对象的深度图像信息。
唇语识别主要是通过对目标人体对象的嘴唇的特征信息进行提取,通过该特征信息以对目标人体对象要表达的指令或语音进行识别的过程。
通过唇语识别来实现交互由于其具有操作简单方便,因此得到了广泛应用。
本实施方式中首先获取目标人体对象的深度图像信息,具体地,该深度图像信息包括深度相片以及视频中的至少一种。
其中,该深度图像信息可通过深度相机来获取,在其他实施方式中,也可以通过其他方法来获取,例如可通过通过双目视觉的方法或基于结构光的方法来获取该深度图像信息,还可以通过基于TOF的方法来获取该深度图像信息等,在此不做限定,只要能够获取或通过计算得到该目标人体图像的深度图像信息的方法都属于本实施方式包含的范围。
具体地,基于双目视觉的方法是以模仿目标人体对象的双眼为原理,按照预先设定的位置放置两台相机,通过该两台相机同步采集该目标人体对象的第一图像以及该目标人体对象的第二图像。再通过预定算法,对该第一图像和第二图像进行处理,根据处理结果计算得到该目标人体对象的深度图像信息。其中,该第一目标图像和第二目标图像为彩色图像。通过本实施方式的获取到的深度图像信息的精度高,但是计算量相对较大。
基于结构光获取深度图像信息的方法是首先确定待获取的目标人体对象所处的目标区域,对目标区域投射结构光图案,其中,该结构光图案为随机排列的散斑图案,再通过红外相机获取该目标区域内的目标对象的结构光红外图像。
在得到目标对象的结构光红外图像后,再从该红外结构光红外图像中采集该目标对象的散斑红外图像,将该目标对象的散斑红外图像与参考散斑图像按照预定算法进行图像数据计算,获取目标对象上散斑红外图像的各个散斑点相对于参考散斑点相对于参考散斑图像的移动距离。最后根据该移动距离、参考散斑图像与红外相机的距离以及用于采集图像的红外相机以及红外摄像机之间的相对间隔值,利用三角法得到散斑红外图像的各个散斑点的深度值,并根据该深度值得到所述目标对象的深度图像。
基于TOF的方法是通过向目标人体对象所处的目标区域投射红外光,再通过红外相机采集该红外光反射的光线,根据该红外光线飞行的时间即红外光传输的时间来计算目标人体对象对应的深度,即得到目标人体对象的深度图像信息。
102:从所述深度图像信息中获取所述目标人体对象的唇部区域图像。
为了从该目标人体对象的的深度图像信息中获取到精准的嘴唇区域图像,进一步地如图2,图2是本发明基于深度图像的唇语交互方法另一实施方式的流程示意图。其中图2是图1的唇语交互方法的细化流程图,在步骤201之后,还包括如下步骤:
202:对所述深度图像信息进行分割得到所述目标人体对象的人脸图像。
为了缩小从图像信息中获取嘴唇区域图像的有效范围,提高获取精度,本实施方式在获取到目标人体对象的深度图像信息后,先对该图像信息进行分割,得到该目标人体对象的人脸图像。
在一个具体的实施方式中,由于在人的人脸图像中,一般情况下,人的鼻尖深度相对是最小的,因此,本实施方式首先根据深度特征信息判断该深度图像信息中是否包括该目标人体对象的鼻尖,如果在该深度图像信息信息中检测到目标人体对象的鼻尖,进一步检测鼻尖两侧是否存在椭圆的人脸轮廓区域。如果存在该人脸轮廓区域,则获取包括该鼻尖以及人脸轮廓的区域图像作为该目标人体对象的人脸图像。
203:从所述人脸图像中获取所述目标人体对象的嘴唇区域图像。
具体地,在获取到该目标人体图像的人脸图像后,进一步地从该人脸图像中来提取该人脸图像中鼻尖下方的区域图像,并将该区域图像作为该嘴唇区域图像。
嘴唇区域一般是指双唇以及双唇中间的区域,在上述实施方式中,有时候人在讲话时,周边的部分可能也会有较大幅度的动作,因此,在上述实施方式中,嘴唇区域包括嘴唇周围的部位,如下巴以及嘴唇两边的脸部。但是在其他实施方式中,考虑到人在说话时可能出现头部倾斜或扭动的情形,从图像信息中不能得到完整的嘴唇的图像。但是由于嘴唇一般具有对称性,在特殊情况下,也可以通过获取半个嘴唇图像或包括半个嘴唇周边范围内人脸的图像作为嘴唇区域。
如果是将双唇以及双唇中间的区域作为嘴唇区域图像,在获取到包括嘴唇周围的部位的嘴唇区域图像后,进一步如图3所示还包括如下步骤304:
通过边缘检测或阈值分割的图像处理方法从所述嘴唇区域图像中获取所述目标人体对象的双唇图像。
步骤204~205以及步骤305~306与步骤103~104相同,具体请参阅下方的实施方式以及相关文字描述。
103:从所述嘴唇区域图像提取唇部特征,根据所述唇部特征进行唇语识别。
在获取到嘴唇区域图像后,进一步地从该嘴唇区域图像中提取唇部特征。具体地,可通过外观轮廓提取方法或轮廓特征提取方法中的至少一种对所述嘴唇区域图像进行唇部特征提取,得到特征提取结果。
例如通过主动形状模型法ASM、主动外观模型法AAM、主成分分析法PCA、离散余弦变换法DCT等等方法对嘴唇区域图像进行唇部特征提取,在此不做限定。
进一步地,根据该特征提取结果与与设定识别模型数据库中的识别信息进行比对,得到该特征提取结果对应的唇语识别结果。该设定识别模型包括隐马尔可夫模型、高斯混合模型等模型中的至少一种。
104:将所述唇语识别的结果转化成对应的操作指令,并根据所述操作指令进行交互。
在对唇部特征进行提取,得到唇部特征对应的识别结果后,进一步地根据实际需求对识别结果进行处理。如将该识别结果转换成用户交互的操作指令,如识别结果进行语言识别或将该操作指令转换为控制远程设备的操作指令,控制体感游戏的操作指令,或控制智能设备如手机的操作指令等,在此不做限定。
在得到该操作指令后,进一步地通过该操作指令对对应的设备进行交互控制,比如根据唇语识别技术控制手机,如通过特定的唇语识别实现手机的翻页或拨打接听电话等,在此不做限定。
在其他实施方式中,还可以直接将通过识别结果判断出该当前唇语的内容,对语音进行识别或通过语音来实现交互等。
区别于现有技术,本实施方式的交互方法首先获取目标人体对象的深度图像信息;从所述深度图像信息中获取所述目标人体对象的唇部区域图像;从所述嘴唇区域图像提取唇部特征,根据所述唇部特征进行唇语识别;将所述唇语识别的结果转化成对应的操作指令,并根据所述操作指令进行交互。上述通过获取深度图像信息,从深度图像中来提取唇部特征信息的方式,相对于传统直接通过彩色相机获取图像信息的方式,不容易受到环境如光线强弱的影响,能够有效提高图像识别的命中率,进一步提高唇语识别的命中率,最终可有效改善交互的执行率和操作准确率,有利于唇语识别应用于交互技术中的推广。
另外,本实施方式根据深度特征信息判断所述图像信息中是否包括所述目标人体对象的鼻尖,在图像信息中包括所述目标人体对象的鼻尖时,检测所述鼻尖两侧是否存在椭圆的人脸轮廓区域,并在存在所述人脸轮廓区域,获取包括所述鼻尖以及人脸轮廓的区域图像作为所述目标人体对象的人脸图像,提取所述人脸图像中的所述鼻尖下方的区域图像作为嘴唇区域图像。上述实施方式不仅能够缩小从图像信息中获取嘴唇区域图像的有效范围,提高获取精度,而且,采用鼻尖深度信息特征的特殊性,能够更加精确的获取到嘴唇区域图像,进一步提高唇语识别的命中率。
参阅图4,图4是本发明基于唇语的交互装置一实施方式的结构示意图。本实施方式的交互装置包括深度图像信息获取模块401、唇部区域图像确定模块402、唇语识别模块403以及交互模块404,
深度图像信息获取模块401用于获取目标人体对象的深度图像信息。
唇语识别主要是通过对目标人体对象的嘴唇的特征信息进行提取,通过该特征信息以对目标人体对象要表达的指令或语音进行识别的过程。
通过唇语识别来实现交互由于其具有操作简单方便,因此得到了广泛应用。
本实施方式中深度图像信息获取模块401首先获取目标人体对象的深度图像信息,具体地,该深度图像信息包括深度相片以及视频中的至少一种。
其中,深度图像信息获取模块401可通过深度相机来获取该深度图像信息,在其他实施方式中,深度图像信息获取模块401也可以通过其他方法来获取,例如可通过通过双目视觉的方法或基于结构光的方法来获取该深度图像信息,还可以通过基于TOF的方法来获取该深度图像信息等,在此不做限定,只要能够获取或通过计算得到该目标人体图像的深度图像信息的方法都属于本实施方式包含的范围。
具体地,基于双目视觉的方法是以模仿目标人体对象的双眼为原理,按照预先设定的位置放置两台相机,深度图像信息获取模块401通过该两台相机同步采集该目标人体对象的第一图像以及该目标人体对象的第二图像。再通过预定算法,对该第一图像和第二图像进行处理,根据处理结果计算得到该目标人体对象的深度图像信息。其中,该第一目标图像和第二目标图像为彩色图像。通过本实施方式的获取到的深度图像信息的精度高,但是计算量相对较大。
基于结构光获取深度图像信息的方法是首先确定待获取的目标人体对象所处的目标区域,对目标区域投射结构光图案,其中,该结构光图案为随机排列的散斑图案,深度图像信息获取模块401通过红外相机获取该目标区域内的目标对象的结构光红外图像。
深度图像信息获取模块401在得到目标对象的结构光红外图像后,再从该红外结构光红外图像中采集该目标对象的散斑红外图像,将该目标对象的散斑红外图像与参考散斑图像按照预定算法进行图像数据计算,获取目标对象上散斑红外图像的各个散斑点相对于参考散斑点相对于参考散斑图像的移动距离。最后根据该移动距离、参考散斑图像与红外相机的距离以及用于采集图像的红外相机以及红外摄像机之间的相对间隔值,利用三角法得到散斑红外图像的各个散斑点的深度值,并根据该深度值得到所述目标对象的深度图像。
基于TOF的方法是通过向目标人体对象所处的目标区域投射红外光,深度图像信息获取模块401再通过红外相机采集该红外光反射的光线,根据该红外光线飞行的时间即红外光传输的时间来计算目标人体对象对应的深度,即得到目标人体对象的深度图像信息。
唇部区域图像确定模块402用于从所述深度图像信息中获取所述目标人体对象的唇部区域图像。
为了从该目标人体对象的的深度图像信息中获取到精准的嘴唇区域图像,进一步如图5所示,嘴唇图像提取模块502包括人脸图像获取模块5021以及嘴唇区域图像获取模块5022。
人脸图像获取模块5021用于对所述深度图像信息进行分割得到所述目标人体对象的人脸图像。
为了缩小从图像信息中获取嘴唇区域图像的有效范围,提高获取精度,本实施方式人脸图像获取模块5021在图像信息获取模块501获取到目标人体对象的深度图像信息后,先对该图像信息进行分割,得到该目标人体对象的人脸图像。
在一个具体的实施方式中,由于在人的人脸图像中,一般情况下,人的鼻尖深度相对是最小的,因此,本实施方式人脸图像获取模块5021首先根据深度特征信息判断该深度图像信息中是否包括该目标人体对象的鼻尖,如果在该深度图像信息信息中检测到目标人体对象的鼻尖,进一步检测鼻尖两侧是否存在椭圆的人脸轮廓区域。如果存在该人脸轮廓区域,则获取包括该鼻尖以及人脸轮廓的区域图像作为该目标人体对象的人脸图像。
嘴唇区域图像获取模块5022用于从所述人脸图像中获取所述目标人体对象的嘴唇区域图像。
具体地,嘴唇区域图像获取模块5022在人脸图像获取模块5021获取到该目标人体图像的人脸图像后,进一步地从该人脸图像中来提取该人脸图像中鼻尖下方的区域图像,并将该区域图像作为该嘴唇区域图像。
嘴唇区域一般是指双唇以及双唇中间的区域,在上述实施方式中,有时候人在讲话时,周边的部分可能也会有较大幅度的动作,因此,在上述实施方式中,嘴唇区域包括嘴唇周围的部位,如下巴以及嘴唇两边的脸部。但是在其他实施方式中,考虑到人在说话时可能出现头部倾斜或扭动的情形,从图像信息中不能得到完整的嘴唇的图像。但是由于嘴唇一般具有对称性,在特殊情况下,也可以通过获取半个嘴唇图像或包括半个嘴唇周边范围内人脸的图像作为嘴唇区域。
如果是将双唇以及双唇中间的区域作为嘴唇区域图像,在获取到包括嘴唇周围的部位的嘴唇区域图像后,进一步地如图6所示,本实施方式的唇语识别装置还包括双唇图像提取模块605,该双唇图像提取模块605用于通过边缘检测或阈值分割的图像处理方法从所述嘴唇区域图像中获取所述目标人体对象的双唇图像。
唇语识别模块403用于从所述嘴唇区域图像提取唇部特征,根据所述唇部特征进行唇语识别。
进一步地如图4所示,唇语识别模块403在获取到嘴唇区域图像后,进一步地从该嘴唇区域图像中提取唇部特征。具体地,可通过外观轮廓提取方法或轮廓特征提取方法中的至少一种对所述嘴唇区域图像进行唇部特征提取,得到特征提取结果。
例如通过主动形状模型法ASM、主动外观模型法AAM、主成分分析法PCA、离散余弦变换法DCT等等方法对嘴唇区域图像进行唇部特征提取,在此不做限定。
进一步地,唇语识别模块403根据该特征提取结果与与设定识别模型数据库中的识别信息进行比对,得到该特征提取结果对应的唇语识别结果。该设定识别模型包括隐马尔可夫模型、高斯混合模型等模型中的至少一种。
交互模块404用于将所述唇语识别的结果转化成对应的操作指令,并根据所述操作指令进行交互。
交互模块404在唇语识别模块403对唇部特征进行提取,得到唇部特征对应的识别结果后,进一步地根据实际需求对识别结果进行处理。如将该识别结果转换成用户交互的操作指令,如识别结果进行语言识别或将该操作指令转换为控制远程设备的操作指令,控制体感游戏的操作指令,或控制智能设备如手机的操作指令等,在此不做限定。
交互模块404在得到该操作指令后,进一步地通过该操作指令对对应的设备进行交互控制,比如根据唇语识别技术控制手机,如通过特定的唇语识别实现手机的翻页或拨打接听电话等,在此不做限定。
在其他实施方式中,还可以直接将通过识别结果判断出该当前唇语的内容,对语音进行识别或通过语音来实现交互等。
区别于现有技术,本实施方式的唇语交互装置的深度图像信息获取模块首先获取目标人体对象的深度图像信息;从所述深度图像信息中获取所述目标人体对象的唇部区域图像;唇部区域图像确定模块从所述嘴唇区域图像提取唇部特征,唇语识别模块根据所述唇部特征进行唇语识别;交互模块将所述唇语识别的结果转化成对应的操作指令,并根据所述操作指令进行交互。上述通过获取深度图像信息,从深度图像中来提取唇部特征信息的方式,相对于传统直接通过彩色相机获取图像信息的方式,不容易受到环境如光线强弱的影响,能够有效提高图像识别的命中率,进一步提高唇语识别的命中率,最终可有效改善交互的执行率和操作准确率,有利于唇语识别应用于交互技术中的推广。
另外,本实施方式唇部区域图像确定模块通过人脸图像获取模块根据深度特征信息判断所述图像信息中是否包括所述目标人体对象的鼻尖,在图像信息中包括所述目标人体对象的鼻尖时,检测所述鼻尖两侧是否存在椭圆的人脸轮廓区域,并在存在所述人脸轮廓区域,获取包括所述鼻尖以及人脸轮廓的区域图像作为所述目标人体对象的人脸图像,通过嘴唇区域图像获取模块提取所述人脸图像中的所述鼻尖下方的区域图像作为嘴唇区域图像。上述实施方式不仅能够缩小从图像信息中获取嘴唇区域图像的有效范围,提高获取精度,而且,采用鼻尖深度信息特征的特殊性,能够更加精确的获取到嘴唇区域图像,进一步提高唇语识别的命中率。
以上所述仅为本发明的实施方式,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (10)

1.一种基于深度图像的唇语交互方法,其特征在于,所述唇语交互方法包括:
获取目标人体对象的深度图像信息;
从所述深度图像信息中获取所述目标人体对象的唇部区域图像;
从所述嘴唇区域图像提取唇部特征,根据所述唇部特征进行唇语识别;
将所述唇语识别的结果转化成对应的操作指令,并根据所述操作指令进行交互。
2.根据权利要求1所述的唇语交互方法,其特征在于,所述从所述深度图像信息中获取所述目标人体对象的嘴唇区域图像的步骤具体包括:
对所述深度图像信息进行分割得到所述目标人体对象的人脸图像;
从所述人脸图像中获取所述目标人体对象的嘴唇区域图像。
3.根据权利要求2所述的唇语交互方法,其特征在于,所述对所述深度图像信息进行分割得到所述目标人体对象的人脸图像的步骤具体包括:
根据深度特征信息判断所述深度图像信息中是否包括所述目标人体对象的鼻尖;
在所述深度图像信息中包括所述目标人体对象的鼻尖时,检测所述鼻尖两侧是否存在椭圆的人脸轮廓区域;
如果存在所述人脸轮廓区域,获取包括所述鼻尖以及人脸轮廓的区域图像作为所述目标人体对象的人脸图像;
所述从所述人脸图像中获取所述目标人体对象的嘴唇区域图像的步骤包括:
提取所述人脸图像中的所述鼻尖下方的区域作为嘴唇区域图像。
4.根据权利要求3所述的唇语交互方法,其特征在于,所述提取所述人脸图像中的所述鼻尖下方的区域作为嘴唇区域图像的步骤之后还包括:
通过边缘检测或阈值分割的图像处理方法从所述嘴唇区域图像中获取所述目标人体对象的双唇图像。
5.根据权利要求3所述的唇语交互方法,其特征在于,所述从所述嘴唇区域图像中提取唇部特征,并对所述唇部特征进行唇语识别的步骤具体包括:
通过外观轮廓提取方法或轮廓特征提取方法中的至少一种从所述嘴唇区域图像中提取唇部特征;
将所述唇部特征与设定识别模型数据库中的识别信息进行比对,得到所述唇部特征对应的唇语识别结果。
6.根据权利要求1所述的唇语交互方法,其特征在于,所述获取目标人体对象的深度图像信息的步骤具体包括:
通过预先设置的双摄像机同步采集所述目标人体对象的第一图像以及所述目标人体对象的第二图像;
根据所述第一图像和所述第二图像计算得到所述目标人体对象的深度图像信息。
7.根据权利要求1所述的唇语交互方法,其特征在于,所述获取目标人体对象的深度图像信息的步骤具体包括:
通过红外相机获取所述目标人体对象的结构光红外图像,从所述结构光红外图像中获取所述目标人体对象的深度图像信息。
8.根据权利要求1所述的唇语交互方法,其特征在于,所述获取目标人体对象的深度图像信息的步骤具体包括:
向所述目标人体图像所在的目标区域投射红外光;
通过红外相机采集所述红外光反射的光线,根据所述光线的传输时间计算得到所述目标人体图像的深度图像信息。
9.一种基于深度图像的唇语交互装置,其特征在于,所述唇语交互装置包括:深度图像信息获取模块、唇部区域图像确定模块、唇语识别模块以及交互模块,
所述深度图像信息获取模块用于获取目标人体对象的深度图像信息;
所述唇部区域图像确定模块用于从所述深度图像信息中获取所述目标人体对象的唇部区域图像;
所述唇语识别模块用于从所述嘴唇区域图像提取唇部特征,根据所述唇部特征进行唇语识别;
所述交互模块用于将所述唇语识别的结果转化成对应的操作指令,并根据所述操作指令进行交互。
10.根据权利要求9所述的唇语交互装置,其特征在于,所述唇部区域图像确定模块具体用于对所述深度图像信息进行分割得到所述目标人体对象的人脸图像;从所述人脸图像中获取所述目标人体对象的嘴唇区域图像。
CN201611076381.7A 2016-08-01 2016-11-29 基于深度图像的唇语交互方法以及唇语交互装置 Pending CN107045385A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201610621450 2016-08-01
CN2016106214501 2016-08-01

Publications (1)

Publication Number Publication Date
CN107045385A true CN107045385A (zh) 2017-08-15

Family

ID=59542722

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611076381.7A Pending CN107045385A (zh) 2016-08-01 2016-11-29 基于深度图像的唇语交互方法以及唇语交互装置

Country Status (1)

Country Link
CN (1) CN107045385A (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109241907A (zh) * 2018-09-03 2019-01-18 北京旷视科技有限公司 标注方法、装置及电子设备
CN109637521A (zh) * 2018-10-29 2019-04-16 深圳壹账通智能科技有限公司 一种基于深度学习的唇语识别方法及装置
CN109961021A (zh) * 2019-03-05 2019-07-02 北京超维度计算科技有限公司 一种深度图像中人脸检测方法
CN110895678A (zh) * 2018-09-12 2020-03-20 耐能智慧股份有限公司 脸部识别模块及方法
CN112528766A (zh) * 2020-11-25 2021-03-19 维沃移动通信有限公司 唇语识别方法、装置及电子设备
CN112669817A (zh) * 2020-12-25 2021-04-16 维沃移动通信有限公司 语言识别方法、装置及电子设备
CN113691857A (zh) * 2021-08-27 2021-11-23 贵州东冠科技有限公司 基于增强现实的唇语屏蔽系统及方法
CN114842846A (zh) * 2022-04-21 2022-08-02 歌尔股份有限公司 头戴设备的控制方法、装置及计算机可读存储介质
CN116431005A (zh) * 2023-06-07 2023-07-14 安徽大学 一种基于改进移动端唇语识别的无人机控制方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101101752A (zh) * 2007-07-19 2008-01-09 华中科技大学 基于视觉特征的单音节语言唇读识别系统
US20130235033A1 (en) * 2012-03-09 2013-09-12 Korea Institute Of Science And Technology Three dimensional montage generation system and method based on two dimensional single image
CN104091162A (zh) * 2014-07-17 2014-10-08 东南大学 基于特征点的三维人脸识别方法
CN104915981A (zh) * 2015-05-08 2015-09-16 寇懿 基于体感传感器的三维立体发型设计方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101101752A (zh) * 2007-07-19 2008-01-09 华中科技大学 基于视觉特征的单音节语言唇读识别系统
US20130235033A1 (en) * 2012-03-09 2013-09-12 Korea Institute Of Science And Technology Three dimensional montage generation system and method based on two dimensional single image
CN104091162A (zh) * 2014-07-17 2014-10-08 东南大学 基于特征点的三维人脸识别方法
CN104915981A (zh) * 2015-05-08 2015-09-16 寇懿 基于体感传感器的三维立体发型设计方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
张毅: "《移动机器人技术基础与制作》", 31 January 2013, 哈尔滨工业大学出版社 *
谢剑斌 等: "《视觉感知与智能视频监控》", 31 March 2012, 国防科技大学出版社 *
郭隆德: "《风洞非接触测量技术》", 30 November 2013, 国防工业出版社 *

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109241907A (zh) * 2018-09-03 2019-01-18 北京旷视科技有限公司 标注方法、装置及电子设备
CN110895678A (zh) * 2018-09-12 2020-03-20 耐能智慧股份有限公司 脸部识别模块及方法
CN109637521A (zh) * 2018-10-29 2019-04-16 深圳壹账通智能科技有限公司 一种基于深度学习的唇语识别方法及装置
CN109961021A (zh) * 2019-03-05 2019-07-02 北京超维度计算科技有限公司 一种深度图像中人脸检测方法
CN112528766A (zh) * 2020-11-25 2021-03-19 维沃移动通信有限公司 唇语识别方法、装置及电子设备
CN112669817A (zh) * 2020-12-25 2021-04-16 维沃移动通信有限公司 语言识别方法、装置及电子设备
CN113691857A (zh) * 2021-08-27 2021-11-23 贵州东冠科技有限公司 基于增强现实的唇语屏蔽系统及方法
CN114842846A (zh) * 2022-04-21 2022-08-02 歌尔股份有限公司 头戴设备的控制方法、装置及计算机可读存储介质
CN116431005A (zh) * 2023-06-07 2023-07-14 安徽大学 一种基于改进移动端唇语识别的无人机控制方法及系统
CN116431005B (zh) * 2023-06-07 2023-09-12 安徽大学 一种基于改进移动端唇语识别的无人机控制方法及系统

Similar Documents

Publication Publication Date Title
CN107045385A (zh) 基于深度图像的唇语交互方法以及唇语交互装置
CN106774856B (zh) 基于唇语的交互方法以及交互装置
CN106504751A (zh) 自适应唇语交互方法以及交互装置
CN106529502B (zh) 唇语识别方法以及装置
CN105554385B (zh) 一种远距离多模态生物特征识别方法及其系统
CN109190522B (zh) 一种基于红外相机的活体检测方法
CN103491307B (zh) 一种后置摄像头的智能自拍方法
US10235897B2 (en) Providing drawing assistance using feature detection and semantic labeling
CN101561710B (zh) 一种基于人脸姿态估计的人机交互方法
CN104813258B (zh) 数据输入装置
CN105100625B (zh) 一种基于图像美学的人物图像辅助拍摄方法和系统
CN107122789B (zh) 基于深度摄像头的多模态信息融合的学习专注度分析方法
CN109829442A (zh) 一种基于摄像头的人体动作评分的方法及系统
CN105787442B (zh) 一种基于视觉交互面向视障人群的穿戴式辅助系统及其使用方法
CN104123549B (zh) 一种用于疲劳驾驶实时监测的眼睛定位方法
EP1271394A3 (en) Method for automatically locating eyes in an image
CN105447480A (zh) 人脸识别游戏交互系统
CN103902958A (zh) 人脸识别的方法
CN103412643B (zh) 终端及其遥控的方法
CN104157001A (zh) 一种头部漫画的绘制方法及装置
CN104599297A (zh) 一种对人脸自动上腮红的图像处理方法
CN111047511A (zh) 一种图像处理方法及电子设备
CN107392844A (zh) 一种修正人像视线的方法和设备
CN102592115A (zh) 一种人手定位方法及系统
CN106909871A (zh) 手势指令识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20170815

RJ01 Rejection of invention patent application after publication