CN106774856A

CN106774856A - 基于唇语的交互方法以及交互装置

Info

Publication number: CN106774856A
Application number: CN201611076396.3A
Authority: CN
Inventors: 黄源浩; 刘龙; 肖振中; 许星
Original assignee: Shenzhen Orbbec Co Ltd
Current assignee: Orbbec Inc
Priority date: 2016-08-01
Filing date: 2016-11-29
Publication date: 2017-05-31
Anticipated expiration: 2036-11-29
Also published as: CN106774856B

Abstract

本发明公开了一种基于唇语的交互方法以及交互装置，所述交互方法包括：获取目标人体对象的深度图像、红外图像以及彩色图像；分别从深度图像、红外图像以及彩色图像中获取目标人体对象的唇部区域图像；从唇部区域图像提取唇部特征，并将从深度图像、红外图像以及所述彩色图像中提取的唇部特征融合处理后进行唇语识别；将唇语识别的结果转化成对应的操作指令，并根据操作指令进行交互。通过上述方式，相对于传统直接通过彩色相机获取图像信息的方式，不容易受到环境如光线强弱的影响，能够有效提高图像识别的命中率，提高唇语识别的命中率，进一步地提高了唇语识别的命中率，最终可有效改善交互的执行率和操作准确率。

Description

基于唇语的交互方法以及交互装置

技术领域

本发明涉及图像处理技术领域，特别是涉及一种基于唇语的交互方法以及交互装置。

背景技术

在人工智能领域已经图像处理领域，利用目标的图像信息可以实现很多功能比如用来分析用户的表情或动作信息等等。图像获取和识别一直是较为热门的研究话题，涉及到用户日常生活以及科学研究的多个方面。

例如，可通过对用户面部进行识别如唇语进行识别的技术能提高体感交互、语音识别的准确率，从而进一步地带来更加舒适的交互体验。

但是现有技术中，唇语识别一般是基于彩色相机来获取用户的面部信息，这种方式容易受到环境的影响，如光线太强或太弱都会直接影响到图像获取的精度，导致识率很低，最终导致交互的成功率并不高。

发明内容

本发明主要解决的技术问题是提供一种基于唇语的交互方法以及交互装置，能够有效提高通过唇语识别来进行交互的成功率。

为解决上述技术问题，本发明采用的一个技术方案是：提供一种基于唇语的交互方法，所述交互方法包括：

获取目标人体对象的深度图像、红外图像以及彩色图像；

分别从所述深度图像、红外图像以及彩色图像中获取所述目标人体对象的唇部区域图像；

从所述唇部区域图像提取唇部特征，并将从所述深度图像、所述红外图像以及所述彩色图像中提取的所述唇部特征融合处理后进行唇语识别；

将所述唇语识别的结果转化成对应的操作指令，并根据所述操作指令进行交互。

其中，所述分别从所述深度图像、红外图像以及彩色图像中获取所述目标人体对象的唇部区域图像的步骤包括：

对所述深度图像进行分割得到所述深度图像中所述目标人体对象的人脸图像；

根据所述深度图像与所述红外图像的位置对应关系，提取所述红外图像与所述深度图像中人脸图像对应位置的区域图像，作为所述红外图像中所述目标人体对象的人脸图像；

根据所述深度图像与所述彩色图像的位置对应关系，提取所述彩色图像与所述深度图像中人脸图像对应位置的区域图像，作为所述彩色图像中所述目标人体对象的人脸图像；

从三种所述人脸图像中分别获取所述目标人体对象的唇部区域图像。

其中，所述对所述深度图像进行分割得到所述深度图像中所述目标人体对象的人脸图像的步骤具体包括：

根据深度特征信息判断所述深度图像信息中是否包括所述目标人体对象的鼻尖；

在所述深度图像信息中包括所述目标人体对象的鼻尖时，检测所述鼻尖两侧是否存在椭圆的人脸轮廓区域；

如果存在所述人脸轮廓区域，获取包括所述鼻尖以及人脸轮廓的区域图像作为所述深度图像中所述目标人体对象的人脸图像。

从所述红外图像中提取所述目标人体对象的人脸图像，或从所述彩色图像中提取所述目标人体对象的人脸图像；

根据从所述红外图像中提取的人脸图像以及所述红外图像与所述深度图像以及所述彩色图像的位置对应关系，获取所述深度图像以及所述彩色图像中所述目标人体对象的人脸图像；或根据从所述彩色图像中提取的人脸图像以及所述彩色图像与所述深度图像以及所述红外图像的位置对应关系，获取所述深度图像以及所述红外图像中所述目标人体对象的人脸图像；

其中，所述从三种所述人脸图像中分别获取所述目标人体对象的唇部区域图像的步骤包括：

提取所述人脸图像中的所述鼻尖下方的区域作为唇部区域图像。

其中，所述从所述唇部区域图像提取唇部特征，并将从所述深度图像、所述红外图像以及所述彩色图像中提取的所述唇部特征融合处理后进行唇语识别的步骤具体包括：

通过外观轮廓提取方法或轮廓特征提取方法中的至少一种从所述深度图像、所述红外图像以及所述彩色图像的唇部区域图像中提取唇部特征；

将分别从所述深度图像、所述红外图像以及所述彩色图像中获取到的唇部区域图像中提取到唇部特征进行融合处理；

将处理后的唇部特征与设定识别模型数据库中的识别信息进行比对，得到所述唇部特征对应的唇语识别结果。

其中，所述将分别从所述深度图像、所述红外图像以及所述彩色图像中获取到的唇部区域图像中提取到唇部特征进行融合处理的步骤具体包括：

将从所述深度图像、所述红外图像以及所述彩色图像中获取到的唇部区域图像中提取到唇部特征直接组合，或将所述提取到的唇部特征按照预设权重进行加权处理后进行组合，以进行融合处理；

所述从所述唇部区域图像提取唇部特征，并将从所述深度图像、所述红外图像以及所述彩色图像中提取的所述唇部特征融合处理后进行唇语识别的步骤之后还包括：

通过边缘检测或阈值分割的图像处理方法从所述唇部区域图像中获取所述目标人体对象的双唇图像。

其中，所述获取目标人体对象的深度图像、红外图像以及彩色图像的步骤具体包括：

通过红外相机获取所述目标人体对象的结构光红外图像；

对所述结构光红外图像进行处理，从处理后的结构光红外图像中获取所述目标人体对象的深度图像以及红外图像；

通过彩色相机获取所述目标人体对象的彩色图像。

向所述目标人体图像所在的目标区域投射红外光；

通过红外相机采集所述红外光反射的光线，根据所述光线获取目标人体图像的红外图像，并所述根据所述光线的传输时间计算得到所述目标人体图像的深度图像；

通过彩色相机获取所述目标人体对象的彩色图像。

为解决上述技术问题，本发明采用的另一个技术方案是：提供一种基于唇语的交互装置，

所述交互装置包括：图像获取模块、唇部区域图像确定模块、唇语识别模块以及交互模块，

所述图像获取模块用于获取目标人体对象的深度图像、红外图像以及彩色图像；

所述唇部区域图像确定模块用于分别从所述深度图像、红外图像以及彩色图像中获取所述目标人体对象的唇部区域图像；

所述唇语识别模块用于从所述唇部区域图像提取唇部特征，并将从所述深度图像、所述红外图像以及所述彩色图像中提取的所述唇部特征融合处理后进行唇语识别；

所述交互模块用于将所述唇语识别的结果转化成对应的操作指令，并根据所述操作指令进行交互。

本发明的有益效果是：区别于现有技术的情况，本实施方式的交互方法首先获取目标人体对象的深度图像、红外图像以及彩色图像；再分别从所述深度图像、红外图像以及彩色图像中获取所述目标人体对象的唇部区域图像；从所述唇部区域图像提取唇部特征，并将从所述深度图像、所述红外图像以及所述彩色图像中提取的所述唇部特征融合处理后进行唇语识别；将所述唇语识别的结果转化成对应的操作指令，并根据所述操作指令进行交互。上述通过获取深度图像、彩色图像以及红外图像的方式，相对于传统直接通过彩色相机获取图像信息的方式，不容易受到环境如光线强弱的影响，能够有效提高图像识别的命中率，提高唇语识别的命中率，且通过将彩色图像中的唇部特征与红外图像以及彩色图像中的唇部特征进行融合的方式进行唇语识别，进一步地提高了唇语识别的命中率，最终可有效改善交互的执行率和操作准确率，有利于唇语识别应用于交互技术中的推广。

附图说明

图1是本发明基于唇语的交互方法一实施方式的流程示意图；

图2是本发明基于唇语的交互方法另一实施方式的流程示意图；

图3是本发明基于唇语的交互方法再一实施方式的流程示意图；

图4是本发明基于唇语的交互装置一实施方式的结构示意图；

图5是本发明基于唇语的交互装置另一实施方式的结构示意图。

具体实施方式

参阅图1，图1是本发明基于唇语的交互方法一实施方式的流程示意图。如图1所示，本实施方式的交互方法包括如下步骤：

101：获取目标人体对象的深度图像、红外图像以及彩色图像。

唇语识别主要是通过对目标人体对象的嘴唇的特征信息进行提取，通过该特征信息以对目标人体对象要表达的指令或语音进行识别的过程。

通过唇语识别来实现交互由于其具有操作简单方便，因此得到了广泛应用。

由于目标人体对象的深度图像包含更加准确且丰富的目标人体对象的图像信息，且受光线影响较小，因此，本实施方式中首先获取目标人体对象的深度图像、红外图像以及彩色图像。

其中，该深度图像包括深度相片以及视频中的至少一种。

其中，该深度图像可通过深度相机来获取，彩色图像可通过彩色相机直接获取，红外图像可通过红外相机来直接获取。在其他实施方式中，也可以通过其他方法来获取，例如可通过通过双目视觉的方法或基于结构光的方法来获取该深度图像以及彩色图像，还可以通过基于TOF的方法来获取该深度图像和红外图像等，在此不做限定，只要能够获取或通过计算得到该目标人体图像的深度图像、彩色图像以及红外图像的方法都属于本实施方式包含的范围，在此不做限定。

具体地，基于双目视觉的方法是以模仿目标人体对象的双眼为原理，按照预先设定的位置放置两台相机，通过该两台相机同步采集该目标人体对象的第一图像以及该目标人体对象的第二图像。再通过预定算法，对该第一图像和第二图像进行处理，根据处理结果计算得到该目标人体对象的深度图像信息。其中，该第一目标图像和第二目标图像为彩色图像。因此，也可以直接采集该目标人体对象的彩色图像。通过本实施方式的获取到的深度图像信息的精度高，但是计算量相对较大。

另外，红外图像可通过红外光源和红外相机相结合的方式来获取。

基于结构光获取深度图像以及红外图像的方法是首先确定待获取的目标人体对象所处的目标区域，对目标区域投射结构光图案，其中，该结构光图案为随机排列的散斑图案，再通过红外相机获取该目标区域内的目标对象的结构光红外图像。

在得到目标对象的结构光红外图像后，再从该红外结构光红外图像中采集该目标对象的散斑红外图像，将该目标对象的散斑红外图像与参考散斑图像按照预定算法进行图像数据计算，获取目标对象上散斑红外图像的各个散斑点相对于参考散斑点相对于参考散斑图像的移动距离。最后根据该移动距离、参考散斑图像与红外相机的距离以及用于采集图像的红外相机以及红外摄像机之间的相对间隔值，利用三角法得到散斑红外图像的各个散斑点的深度值，并根据该深度值得到所述目标对象的深度图像。

再将该结构光红外图像进行滤波处理，就可以得到该目标人体对象的纯净的红外图像。

彩色图像则需要通过添加彩色相机来获取。

基于TOF的方法是通过向目标人体对象所处的目标区域投射红外光，再通过红外相机采集该红外光反射的光线，根据该红外光线飞行的时间即红外光传输的时间来计算目标人体对象对应的深度，即得到目标人体对象的深度图像信息。

在本方法中，由于投射和采集的光线都是红外光，因此，也可以直接获取到该目标人体对象的红外图像。

彩色图像可通过配置彩色相机来获取，在此不做限定。

102：分别从所述深度图像、红外图像以及彩色图像中获取所述目标人体对象的唇部区域图像。

由于本实施方式中，获取到的图像包括目标人体对象的深度图像、红外图像以及彩色图像，因此，要分别获取深度图像、彩色图像以及红外图像中的唇部区域图像。

在其中的具体的一个实施方式中，先获取目标人体对象的深度图像中的唇部区域图像，再根据该深度图像中唇部区域图像获取彩色图像以及红外图像中唇部区域图像。

具体地，如图2所示，图2是本发明基于唇语的交互方法另一实施方式的流程示意图。其中图2是图1的交互方法的细化流程图，在步骤201之后，还包括如下步骤：

202：对所述深度图像信息进行分割得到所述目标人体对象的人脸图像。

为了缩小从图像信息中获取唇部区域图像的有效范围，提高获取精度，本实施方式在获取到目标人体对象的深度图像后，先对该图像信息进行分割，得到该目标人体对象的人脸图像。

在一个具体的实施方式中，由于在人的人脸图像中，一般情况下，人的鼻尖深度相对是最小的，因此，本实施方式首先根据深度特征信息判断该深度图像信息中是否包括该目标人体对象的鼻尖，如果在该深度图像信息信息中检测到目标人体对象的鼻尖，进一步检测鼻尖两侧是否存在椭圆的人脸轮廓区域。如果存在该人脸轮廓区域，则获取包括该鼻尖以及人脸轮廓的区域图像作为该目标人体对象的人脸图像。

203：根据所述深度图像与所述红外图像的位置对应关系，提取所述红外图像与所述深度图像中人脸图像对应位置的区域图像，作为所述红外图像中所述目标人体对象的人脸图像。

204：根据所述深度图像与所述彩色图像的位置对应关系，提取所述彩色图像与所述深度图像中人脸图像对应位置的区域图像，作为所述彩色图像中所述目标人体对象的人脸图像。

虽然采集到的深度图像与红外图像以及彩色图像为目标人体对象不同类型的图像，但是不同类型的图像中的目标人体对象相同的部位存在位置对应关系，因此，在获取到深度图像中人脸图像后，可直接根据深度图像与红外图像以及彩色图像的位置对应关系，提取彩色图像以及红外图像与深度图像中人脸图像对应位置的区域图像，并将该区域图像作为红外图像或彩色图像中目标人体对象的人脸图像。

205：从三种所述人脸图像中分别获取所述目标人体对象的唇部区域图像。

具体地，在获取到该目标人体图像的人脸图像后，进一步地从该人脸图像中来提取该人脸图像中鼻尖下方的区域图像，并将该区域图像作为该唇部区域图像。其中，该人脸图像包括深度图像中的人脸图像，还包括红外图像中的人脸图像以及彩色图像中的人脸图像。

嘴唇区域一般是指双唇以及双唇中间的区域，在上述实施方式中，有时候人在讲话时，周边的部分可能也会有较大幅度的动作，因此，在上述实施方式中，嘴唇区域包括嘴唇周围的部位，如下巴以及嘴唇两边的脸部。但是在其他实施方式中，考虑到人在说话时可能出现头部倾斜或扭动的情形，从图像信息中不能得到完整的嘴唇的图像。但是由于嘴唇一般具有对称性，在特殊情况下，也可以通过获取半个嘴唇图像或包括半个嘴唇周边范围内人脸的图像作为嘴唇区域。

如果是将双唇以及双唇中间的区域作为唇部区域图像，在获取到包括嘴唇周围的部位的唇部区域图像后，通过边缘检测或阈值分割的图像处理方法从所述唇部区域图像中获取所述目标人体对象的双唇图像。

在另一个具体的一个实施方式中，先获取目标人体对象的红外图像以及彩色图像中的唇部区域图像，再根据红外图像或彩色图像中的唇部区域图像获取深度图像中的唇部区域图像。具体地，如图3所示，图3是本发明基于唇语的交互方法再一实施方式的流程示意图。其中图3是图1的交互方法的细化流程图，在步骤301之后，还包括如下步骤：

302：从所述红外图像中提取所述目标人体对象的人脸图像，或从所述彩色图像中提取所述目标人体对象的人脸图像。

在本实施方式中，可通过基于2D图像的人脸检测方法，如Viola-Jones人脸检测算法，直接从获取到的红外图像或彩色图像中检测目标人体对象的人脸图像。在其他实施方式中，也可以通过其他方法来获取该红外图像以及彩色图像中检测目标人体对象的人脸图像，在此不做限定。

303：根据从所述红外图像中提取的人脸图像以及所述红外图像与所述深度图像以及所述彩色图像的位置对应关系，获取所述深度图像以及所述彩色图像中所述目标人体对象的人脸图像；或根据从所述彩色图像中提取的人脸图像以及所述彩色图像与所述深度图像以及所述红外图像的位置对应关系，获取所述深度图像以及所述红外图像中所述目标人体对象的人脸图像。

虽然采集到的深度图像与红外图像以及彩色图像为目标人体对象不同类型的图像，但是不同类型的图像中的目标人体对象相同的部位存在位置对应关系，因此，在获取到红外图像人脸图像后，可直接根据红外图像与深度图像以及彩色图像的位置对应关系，提取深度图像以及彩色图像中人脸图像对应位置的区域图像，并将对应区域图像作为深度图像以及彩色图像中目标人体对象的人脸图像。在获取到彩色图像中人脸图像后，可直接根据彩色图像与深度图像以及红外图像的位置对应关系，提取深度图像以及红外图像中人脸图像对应位置的区域图像，并将对应区域图像作为深度图像以及红外图像中目标人体对象的人脸图像。

304：从三种所述人脸图像中分别获取所述目标人体对象的唇部区域图像。

如果是将双唇以及双唇中间的区域作为唇部区域图像，在获取到包括嘴唇周围的部位的唇部区域图像后，进一步通过边缘检测或阈值分割的图像处理方法从所述唇部区域图像中获取所述目标人体对象的双唇图像。

步骤206～207以及步骤305～306与步骤103～104相同，具体请参阅下方的实施方式以及相关文字描述。

103：从所述唇部区域图像提取唇部特征，并将从所述深度图像、所述红外图像以及所述彩色图像中提取的所述唇部特征融合处理后进行唇语识别。

在获取到唇部区域图像后，进一步地从该唇部区域图像中提取唇部特征。具体地，可通过外观轮廓提取方法或轮廓特征提取方法中的至少一种对深度图像、彩色图像以及红外图像中的所述唇部区域图像进行唇部特征提取，得到特征提取结果。

例如通过主动形状模型法ASM、主动外观模型法AAM、主成分分析法PCA、离散余弦变换法DCT等等方法对唇部区域图像进行唇部特征提取，在此不做限定。

再将分别从所述深度图像的唇部区域图像中提取到唇部特征、红外图像以及所述彩色图像的唇部区域图像中提取到唇部特征进行融合处理。

这里指的融合处理可以是将深度、红外以及彩色图像中提取出的特征直接组合，也可以是将不同图像中相同的特征进行权重设定后组合，也可以有其他融合方式，最终是将融合后的特征用于下一步的唇语识别中。

进一步地，将融合处理后的唇部特征与设定识别模型数据库中的识别信息进行比对，得到该特征提取结果对应的唇语识别结果。该设定识别模型包括隐马尔可夫模型、高斯混合模型等模型中的至少一种。

104：将所述唇语识别的结果转化成对应的操作指令，并根据所述操作指令进行交互。

在对唇部特征进行提取，得到唇部特征对应的识别结果后，进一步地根据实际需求对识别结果进行处理。如将该识别结果转换成用户交互的操作指令，如识别结果进行语言识别或将该操作指令转换为控制远程设备的操作指令，控制体感游戏的操作指令，或控制智能设备如手机的操作指令等，在此不做限定。

在得到该操作指令后，进一步地通过该操作指令对对应的设备进行交互控制，比如根据唇语识别技术控制手机，如通过特定的唇语识别实现手机的翻页或拨打接听电话等，在此不做限定。

在其他实施方式中，还可以直接将通过识别结果判断出该当前唇语的内容，对语音进行识别或通过语音来实现交互等。

区别于现有技术，本实施方式的交互方法首先获取目标人体对象的深度图像、红外图像以及彩色图像；再分别从所述深度图像、红外图像以及彩色图像中获取所述目标人体对象的唇部区域图像；从所述唇部区域图像提取唇部特征，并将从所述深度图像、所述红外图像以及所述彩色图像中提取的所述唇部特征融合处理后进行唇语识别；将所述唇语识别的结果转化成对应的操作指令，并根据所述操作指令进行交互。上述通过获取深度图像、彩色图像以及红外图像的方式，相对于传统直接通过彩色相机获取图像信息的方式，不容易受到环境如光线强弱的影响，能够有效提高图像识别的命中率，提高唇语识别的命中率，且通过将彩色图像中的唇部特征与红外图像以及彩色图像中的唇部特征进行融合的方式进行唇语识别，进一步地提高了唇语识别的命中率，最终可有效改善交互的执行率和操作准确率，有利于唇语识别应用于交互技术中的推广。

另外，本实施方式根据深度特征信息判断所述图像信息中是否包括所述目标人体对象的鼻尖，在图像信息中包括所述目标人体对象的鼻尖时，检测所述鼻尖两侧是否存在椭圆的人脸轮廓区域，并在存在所述人脸轮廓区域，获取包括所述鼻尖以及人脸轮廓的区域图像作为所述目标人体对象的人脸图像，提取所述人脸图像中的所述鼻尖下方的区域图像作为唇部区域图像。上述实施方式不仅能够缩小从图像信息中获取唇部区域图像的有效范围，提高获取精度，而且，采用鼻尖深度信息特征的特殊性，能够更加精确的获取到唇部区域图像，进一步提高唇语识别的命中率。

参阅图4，图4是本发明基于唇语的交互装置一实施方式的结构示意图。本实施方式的交互装置包括图像获取模块401、唇部区域图像确定模块402、唇语识别模块403以及交互模块404，

图像获取模块401用于获取目标人体对象的深度图像、红外图像以及彩色图像。

由于目标人体对象的深度图像包含更加准确且丰富的目标人体对象的图像信息，且受光线影响较小，因此，本实施方式中图像获取模块401首先获取目标人体对象的深度图像、红外图像以及彩色图像。

其中，该深度图像包括深度相片以及视频中的至少一种。

其中，该深度图像可通过深度相机来获取，彩色图像可通过彩色相机直接获取，红外图像可通过红外相机来直接获取。在其他实施方式中，图像获取模块401也可以通过其他方法来获取，例如可通过通过双目视觉的方法或基于结构光的方法来获取该深度图像以及彩色图像，还可以通过基于TOF的方法来获取该深度图像和红外图像等，在此不做限定，只要能够获取或通过计算得到该目标人体图像的深度图像、彩色图像以及红外图像的方法都属于本实施方式包含的范围，在此不做限定。

具体地，基于双目视觉的方法是以模仿目标人体对象的双眼为原理，按照预先设定的位置放置两台相机，图像获取模块401通过该两台相机同步采集该目标人体对象的第一图像以及该目标人体对象的第二图像。再通过预定算法，对该第一图像和第二图像进行处理，根据处理结果计算得到该目标人体对象的深度图像信息。其中，该第一目标图像和第二目标图像为彩色图像。因此，也可以直接采集该目标人体对象的彩色图像。通过本实施方式的获取到的深度图像信息的精度高，但是计算量相对较大。

另外，图像获取模块401可通过红外光源和红外相机相结合的方式来获取红外图像。

基于结构光获取深度图像信息的方法是首先确定待获取的目标人体对象所处的目标区域，对目标区域投射结构光图案，其中，该结构光图案为随机排列的散斑图案，图像获取模块401通过红外相机获取该目标区域内的目标对象的结构光红外图像。

图像获取模块401在得到目标对象的结构光红外图像后，再从该红外结构光红外图像中采集该目标对象的散斑红外图像，将该目标对象的散斑红外图像与参考散斑图像按照预定算法进行图像数据计算，获取目标对象上散斑红外图像的各个散斑点相对于参考散斑点相对于参考散斑图像的移动距离。最后根据该移动距离、参考散斑图像与红外相机的距离以及用于采集图像的红外相机以及红外摄像机之间的相对间隔值，利用三角法得到散斑红外图像的各个散斑点的深度值，并根据该深度值得到所述目标对象的深度图像。

图像获取模块401再将该结构光红外图像进行滤波处理，就可以得到该目标人体对象的纯净的红外图像。

图像获取模块401可通过添加彩色相机来获取彩色图像。

基于TOF的方法是通过向目标人体对象所处的目标区域投射红外光，图像获取模块401再通过红外相机采集该红外光反射的光线，根据该红外光线飞行的时间即红外光传输的时间来计算目标人体对象对应的深度，即得到目标人体对象的深度图像信息。

由于本实施方式中投射和采集的光线都是红外光，因此，图像获取模块401也可以直接获取到该目标人体对象的红外图像。

图像获取模块401通过彩色相机来获取彩色图像，在此不做限定。

唇部区域图像确定模块402用于分别从所述深度图像、红外图像以及彩色图像中获取所述目标人体对象的唇部区域图像。

由于本实施方式中，获取到的图像包括目标人体对象的深度图像、红外图像以及彩色图像，因此，唇部区域图像确定模块402要分别获取深度图像、彩色图像以及红外图像中的唇部区域图像。

在其中的具体的一个实施方式中，唇部区域图像确定模块402先获取目标人体对象的深度图像中的唇部区域图像，再根据该深度图像中唇部区域图像获取彩色图像以及红外图像中唇部区域图像。

具体地，如图5所示，唇部区域图像确定模块502包括人脸图像获取模块5021以及唇部区域图像获取模块5022。

人脸图像获取模块5021用于对所述深度图像信息进行分割得到所述目标人体对象的人脸图像。

为了缩小从图像信息中获取唇部区域图像的有效范围，提高获取精度，本实施方式人脸图像获取模块5021在图像信息获取模块501获取到目标人体对象的深度图像信息后，先对该图像信息进行分割，得到该目标人体对象的人脸图像。

在一个具体的实施方式中，由于在人的人脸图像中，一般情况下，人的鼻尖深度相对是最小的，因此，本实施方式人脸图像获取模块5021首先根据深度特征信息判断该深度图像信息中是否包括该目标人体对象的鼻尖，如果在该深度图像信息信息中检测到目标人体对象的鼻尖，进一步检测鼻尖两侧是否存在椭圆的人脸轮廓区域。如果存在该人脸轮廓区域，则获取包括该鼻尖以及人脸轮廓的区域图像作为该目标人体对象的人脸图像。

人脸图像获取模块5021还用于根据所述深度图像与所述红外图像的位置对应关系，提取所述红外图像与所述深度图像中人脸图像对应位置的区域图像，作为所述红外图像中所述目标人体对象的人脸图像。

人脸图像获取模块5021还用于根据所述深度图像与所述彩色图像的位置对应关系，提取所述彩色图像与所述深度图像中人脸图像对应位置的区域图像，作为所述彩色图像中所述目标人体对象的人脸图像。

虽然图像采集模块5021采集到的深度图像与红外图像以及彩色图像为目标人体对象不同类型的图像，但是不同类型的图像中的目标人体对象相同的部位存在位置对应关系，因此，人脸图像获取模块5021在获取到深度图像中人脸图像后，可直接根据深度图像与红外图像以及彩色图像的位置对应关系，提取彩色图像以及红外图像与深度图像中人脸图像对应位置的区域图像，并将该区域图像作为红外图像或彩色图像中目标人体对象的人脸图像。

唇部区域图像获取模块5022用于从三种所述人脸图像中分别获取所述目标人体对象的唇部区域图像。

具体地，唇部区域图像获取模块5022在人脸图像获取模块5021获取到该目标人体图像的人脸图像后，进一步地从该人脸图像中来提取该人脸图像中鼻尖下方的区域图像，并将该区域图像作为该唇部区域图像。其中，该人脸图像包括深度图像中的人脸图像，还包括红外图像中的人脸图像以及彩色图像中的人脸图像。

在另一个具体的一个实施方式中，唇部区域图像确定模块402先获取目标人体对象的红外图像以及彩色图像中的唇部区域图像，再根据红外图像或彩色图像中的唇部区域图像获取深度图像中的唇部区域图像。

进一步地如图5所示，本实施方式的人脸图像获取模块5021用于从所述红外图像中提取所述目标人体对象的人脸图像，或从所述彩色图像中提取所述目标人体对象的人脸图像。

在本实施方式中，人脸图像获取模块5021可通过基于2D图像的人脸检测方法，如Viola-Jones人脸检测算法，直接从获取到的红外图像以及彩色图像中检测目标人体对象的人脸图像。在其他实施方式中，也可以通过其他方法来获取该红外图像以及彩色图像中检测目标人体对象的人脸图像，在此不做限定。

人脸图像获取模块5021还用于根据从所述红外图像中提取的人脸图像以及所述红外图像与所述深度图像以及所述彩色图像的位置对应关系，获取所述深度图像以及所述彩色图像中所述目标人体对象的人脸图像；或根据从所述彩色图像中提取的人脸图像以及所述彩色图像与所述深度图像以及所述红外图像的位置对应关系，获取所述深度图像以及所述红外图像中所述目标人体对象的人脸图像。

虽然采集到的深度图像与红外图像以及彩色图像为目标人体对象不同类型的图像，但是不同类型的图像中的目标人体对象相同的部位存在位置对应关系，因此，人脸图像获取模块5021在获取到红外图像中人脸图像后，可直接红外图像与深度图像以及彩色图像的位置对应关系，提取深度图像以及彩色图像中人脸图像对应位置的区域图像，并将对应区域图像作为深度图像以及彩色图像中目标人体对象的人脸图像。在获取到彩色图像中人脸图像后，可直接根据彩色图像与深度图像以及红外图像的位置对应关系，提取深度图像以及红外图像中人脸图像对应位置的区域图像，并将对应区域图像作为深度图像以及红外图像中目标人体对象的人脸图像。

唇语识别模块403用于所述唇语识别模块用于从所述唇部区域图像提取唇部特征，并将从所述深度图像、所述红外图像以及所述彩色图像中提取的所述唇部特征融合处理后进行唇语识别。

进一步地如图4所示，唇语识别模块403在获取到唇部区域图像后，进一步地从该唇部区域图像中提取唇部特征。具体地，可通过外观轮廓提取方法或轮廓特征提取方法中的至少一种对深度图像、彩色图像以及红外图像中的所述唇部区域图像进行唇部特征提取，得到特征提取结果。

进一步地，唇语识别模块403将融合处理后的唇部特征与设定识别模型数据库中的识别信息进行比对，得到该特征提取结果对应的唇语识别结果。该设定识别模型包括隐马尔可夫模型、高斯混合模型等模型中的至少一种。

交互模块404用于将所述唇语识别的结果转化成对应的操作指令，并根据所述操作指令进行交互。

交互模块404在唇语识别模块403对唇部特征进行提取，得到唇部特征对应的识别结果后，进一步地根据实际需求对识别结果进行处理。如将该识别结果转换成用户交互的操作指令，如识别结果进行语言识别或将该操作指令转换为控制远程设备的操作指令，控制体感游戏的操作指令，或控制智能设备如手机的操作指令等，在此不做限定。

交互模块404在得到该操作指令后，进一步地通过该操作指令对对应的设备进行交互控制，比如根据唇语识别技术控制手机，如通过特定的唇语识别实现手机的翻页或拨打接听电话等，在此不做限定。

区别于现有技术，本实施方式的交互装置的图像获取模块首先获取目标人体对象的深度图像、红外图像以及彩色图像；唇部区域图像确定模块再分别从所述深度图像、红外图像以及彩色图像中获取所述目标人体对象的唇部区域图像；唇语识别模块从所述唇部区域图像提取唇部特征，并将从所述深度图像、所述红外图像以及所述彩色图像中提取的所述唇部特征融合处理后进行唇语识别；交互模块将所述唇语识别的结果转化成对应的操作指令，并根据所述操作指令进行交互。上述通过获取深度图像、彩色图像以及红外图像的方式，相对于传统直接通过彩色相机获取图像信息的方式，不容易受到环境如光线强弱的影响，能够有效提高图像识别的命中率，提高唇语识别的命中率，且通过将彩色图像中的唇部特征与红外图像以及彩色图像中的唇部特征进行融合的方式进行唇语识别，进一步地提高了唇语识别的命中率，最终可有效改善交互的执行率和操作准确率，有利于唇语识别应用于交互技术中的推广。

另外，本实施方式唇部区域图像确定模块通过人脸图像获取模块根据深度特征信息判断所述图像信息中是否包括所述目标人体对象的鼻尖，在图像信息中包括所述目标人体对象的鼻尖时，检测所述鼻尖两侧是否存在椭圆的人脸轮廓区域，并在存在所述人脸轮廓区域，获取包括所述鼻尖以及人脸轮廓的区域图像作为所述目标人体对象的人脸图像，通过唇部区域图像获取模块提取所述人脸图像中的所述鼻尖下方的区域图像作为唇部区域图像。上述实施方式不仅能够缩小从图像信息中获取唇部区域图像的有效范围，提高获取精度，而且，采用鼻尖深度信息特征的特殊性，能够更加精确的获取到唇部区域图像，进一步提高唇语识别的命中率。

以上所述仅为本发明的实施方式，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种基于唇语的交互方法，其特征在于，所述交互方法包括：

获取目标人体对象的深度图像、红外图像以及彩色图像；

2.根据权利要求1所述的交互方法，其特征在于，所述分别从所述深度图像、红外图像以及彩色图像中获取所述目标人体对象的唇部区域图像的步骤包括：

3.根据权利要求2所述的交互方法，其特征在于，所述对所述深度图像进行分割得到所述深度图像中所述目标人体对象的人脸图像的步骤具体包括：

4.根据权利要求1所述的交互方法，其特征在于，所述分别从所述深度图像、红外图像以及彩色图像中获取所述目标人体对象的唇部区域图像的步骤包括：

5.根据权利要求2或4所述的交互方法，其特征在于，所述从三种所述人脸图像中分别获取所述目标人体对象的唇部区域图像的步骤包括：

6.根据权利要求1所述的交互方法，其特征在于，所述从所述唇部区域图像提取唇部特征，并将从所述深度图像、所述红外图像以及所述彩色图像中提取的所述唇部特征融合处理后进行唇语识别的步骤具体包括：

7.根据权利要求6所述的交互方法，其特征在于，

所述将分别从所述深度图像、所述红外图像以及所述彩色图像中获取到的唇部区域图像中提取到唇部特征进行融合处理的步骤具体包括：

8.根据权利要求1所述的交互方法，其特征在于，所述获取目标人体对象的深度图像、红外图像以及彩色图像的步骤具体包括：

通过红外相机获取所述目标人体对象的结构光红外图像；

通过彩色相机获取所述目标人体对象的彩色图像。

9.根据权利要求1所述的交互方法，其特征在于，所述获取目标人体对象的深度图像、红外图像以及彩色图像的步骤具体包括：

向所述目标人体图像所在的目标区域投射红外光；

通过彩色相机获取所述目标人体对象的彩色图像。

10.一种基于唇语的交互装置，其特征在于，所述交互装置包括：图像获取模块、唇部区域图像确定模块、唇语识别模块以及交互模块，