CN107045385A

CN107045385A - 基于深度图像的唇语交互方法以及唇语交互装置

Info

Publication number: CN107045385A
Application number: CN201611076381.7A
Authority: CN
Inventors: 黄源浩; 刘龙; 肖振中; 许星
Original assignee: Shenzhen Orbbec Co Ltd
Current assignee: Shenzhen Orbbec Co Ltd
Priority date: 2016-08-01
Filing date: 2016-11-29
Publication date: 2017-08-15

Abstract

本发明公开了一种基于深度图像的唇语交互方法以及交互装置，所述交互方法包括：获取目标人体对象的深度图像信息；从深度图像信息中获取所述目标人体对象的唇部区域图像；从嘴唇区域图像提取唇部特征，根据唇部特征进行唇语识别；将唇语识别的结果转化成对应的操作指令，并根据所述操作指令进行交互。上述通过获取深度图像信息，从深度图像中来提取唇部特征信息的方式，相对于传统直接通过彩色相机获取图像信息的方式，不容易受到环境如光线强弱的影响，能够有效提高图像识别的命中率，进一步提高唇语识别的命中率，最终可有效改善交互的执行率和操作准确率，有利于唇语识别应用于交互技术中的推广。

Description

基于深度图像的唇语交互方法以及唇语交互装置

技术领域

本发明涉及图像处理技术领域，特别是涉及一种基于深度图像的唇语交互方法以及交互装置。

背景技术

在人工智能领域已经图像处理领域，利用目标的图像信息可以实现很多功能比如用来分析用户的表情或动作信息等等。图像获取和识别一直是较为热门的研究话题，涉及到用户日常生活以及科学研究的多个方面。

例如，可通过对用户面部进行识别如唇语进行识别的技术能提高体感交互、语音识别的准确率，从而进一步地带来更加舒适的交互体验。

但是现有技术中，唇语识别一般是基于彩色相机来获取用户的面部信息，这种方式容易受到环境的影响，如光线太强或太弱都会直接影响到图像获取的精度，导致识率很低，最终导致交互的成功率并不高。

发明内容

本发明主要解决的技术问题是提供一种基于深度图像的唇语交互方法以及唇语交互装置，能够有效提高通过唇语识别来进行交互的成功率。

为解决上述技术问题，本发明采用的一个技术方案是：提供一种基于深度图像的唇语交互方法，所述交互方法包括：

获取目标人体对象的深度图像信息；

从所述深度图像信息中获取所述目标人体对象的唇部区域图像；

从所述嘴唇区域图像提取唇部特征，根据所述唇部特征进行唇语识别；

将所述唇语识别的结果转化成对应的操作指令，并根据所述操作指令进行交互。

其中，所述从所述深度图像信息中获取所述目标人体对象的嘴唇区域图像的步骤具体包括：

对所述深度图像信息进行分割得到所述目标人体对象的人脸图像；

从所述人脸图像中获取所述目标人体对象的嘴唇区域图像。

其中，所述对所述图像信息进行分割得到所述目标人体对象的人脸图像的步骤具体包括：

根据深度特征信息判断所述图像信息中是否包括所述目标人体对象的鼻尖；

在所述深度图像信息中包括所述目标人体对象的鼻尖时，检测所述鼻尖两侧是否存在椭圆的人脸轮廓区域；

如果存在所述人脸轮廓区域，获取包括所述鼻尖以及人脸轮廓的区域图像作为所述目标人体对象的人脸图像；

所述从所述人脸图像中获取所述目标人体对象的嘴唇区域图像的步骤包括：

提取所述人脸图像中的所述鼻尖下方的区域作为嘴唇区域图像。

所述提取所述人脸图像中的所述鼻尖下方的区域作为嘴唇区域图像的步骤之后还包括：

通过边缘检测或阈值分割的图像处理方法从所述嘴唇区域图像中获取所述目标人体对象的双唇图像。

其中，所述从所述嘴唇区域图像中提取唇部特征，并对所述唇部特征进行唇语识别的步骤具体包括：

通过外观轮廓提取方法或轮廓特征提取方法中的至少一种从所述嘴唇区域图像中提取唇部特征；

将所述唇部特征与设定识别模型数据库中的识别信息进行比对，得到所述唇部特征对应的唇语识别结果。

其中，所述获取目标人体对象的深度图像信息的步骤具体包括：

通过预先设置的双摄像机同步采集所述目标人体对象的第一图像以及所述目标人体对象的第二图像；

根据所述第一图像和所述第二图像计算得到所述目标人体对象的深度图像信息。

通过红外相机获取所述目标人体对象的结构光红外图像，从所述结构光红外图像中获取所述目标人体对象的深度图像信息。

向所述目标人体图像所在的目标区域投射红外光；

通过红外相机采集所述红外光反射的光线，根据所述光线的传输时间计算得到所述目标人体图像的深度图像信息。

为解决上述技术问题，本发明采用的另一个技术方案是：提供一种基于深度图像的唇语交互装置，

所述唇语交互装置包括：深度图像信息获取模块、唇部区域图像确定模块、唇语识别模块以及交互模块，

所述深度图像信息获取模块用于获取目标人体对象的深度图像信息；

所述唇部区域图像确定模块用于从所述深度图像信息中获取所述目标人体对象的唇部区域图像；

所述唇语识别模块用于从所述嘴唇区域图像提取唇部特征，根据所述唇部特征进行唇语识别；

所述交互模块用于将所述唇语识别的结果转化成对应的操作指令，并根据所述操作指令进行交互。

其中，所述唇部区域图像确定模块具体用于对所述深度图像信息进行分割得到所述目标人体对象的人脸图像；从所述人脸图像中获取所述目标人体对象的嘴唇区域图像。

本发明的有益效果是：区别于现有技术的情况，本实施方式的唇语交互方法首先获取目标人体对象的深度图像信息；从所述深度图像信息中获取所述目标人体对象的唇部区域图像；从所述嘴唇区域图像提取唇部特征，根据所述唇部特征进行唇语识别；将所述唇语识别的结果转化成对应的操作指令，并根据所述操作指令进行交互。上述通过获取深度图像信息，从深度图像中来提取唇部特征信息的方式，相对于传统直接通过彩色相机获取图像信息的方式，不容易受到环境如光线强弱的影响，能够有效提高图像识别的命中率，进一步提高唇语识别的命中率，最终可有效改善交互的执行率和操作准确率，有利于唇语识别应用于交互技术中的推广。

附图说明

图1是本发明基于深度图像的唇语交互方法一实施方式的流程示意图；

图2是本发明基于深度图像的唇语交互方法另一实施方式的流程示意图；

图3是本发明基于深度图像的唇交互方法再一实施方式的流程示意图；

图4是本发明基于深度图像的唇语交互装置一实施方式的结构示意图；

图5是本发明基于深度图像的唇语交互装置另一实施方式的结构示意图；

图6是本发明基于深度图像的唇语交互装置再一实施方式的结构示意图。

具体实施方式

参阅图1，图1是本发明基于深度图像的唇语交互方法一实施方式的流程示意图。如图1所示，本实施方式的唇语交互方法包括如下步骤：

101：获取目标人体对象的深度图像信息。

唇语识别主要是通过对目标人体对象的嘴唇的特征信息进行提取，通过该特征信息以对目标人体对象要表达的指令或语音进行识别的过程。

通过唇语识别来实现交互由于其具有操作简单方便，因此得到了广泛应用。

本实施方式中首先获取目标人体对象的深度图像信息，具体地，该深度图像信息包括深度相片以及视频中的至少一种。

其中，该深度图像信息可通过深度相机来获取，在其他实施方式中，也可以通过其他方法来获取，例如可通过通过双目视觉的方法或基于结构光的方法来获取该深度图像信息，还可以通过基于TOF的方法来获取该深度图像信息等，在此不做限定，只要能够获取或通过计算得到该目标人体图像的深度图像信息的方法都属于本实施方式包含的范围。

具体地，基于双目视觉的方法是以模仿目标人体对象的双眼为原理，按照预先设定的位置放置两台相机，通过该两台相机同步采集该目标人体对象的第一图像以及该目标人体对象的第二图像。再通过预定算法，对该第一图像和第二图像进行处理，根据处理结果计算得到该目标人体对象的深度图像信息。其中，该第一目标图像和第二目标图像为彩色图像。通过本实施方式的获取到的深度图像信息的精度高，但是计算量相对较大。

基于结构光获取深度图像信息的方法是首先确定待获取的目标人体对象所处的目标区域，对目标区域投射结构光图案，其中，该结构光图案为随机排列的散斑图案，再通过红外相机获取该目标区域内的目标对象的结构光红外图像。

在得到目标对象的结构光红外图像后，再从该红外结构光红外图像中采集该目标对象的散斑红外图像，将该目标对象的散斑红外图像与参考散斑图像按照预定算法进行图像数据计算，获取目标对象上散斑红外图像的各个散斑点相对于参考散斑点相对于参考散斑图像的移动距离。最后根据该移动距离、参考散斑图像与红外相机的距离以及用于采集图像的红外相机以及红外摄像机之间的相对间隔值，利用三角法得到散斑红外图像的各个散斑点的深度值，并根据该深度值得到所述目标对象的深度图像。

基于TOF的方法是通过向目标人体对象所处的目标区域投射红外光，再通过红外相机采集该红外光反射的光线，根据该红外光线飞行的时间即红外光传输的时间来计算目标人体对象对应的深度，即得到目标人体对象的深度图像信息。

102：从所述深度图像信息中获取所述目标人体对象的唇部区域图像。

为了从该目标人体对象的的深度图像信息中获取到精准的嘴唇区域图像，进一步地如图2，图2是本发明基于深度图像的唇语交互方法另一实施方式的流程示意图。其中图2是图1的唇语交互方法的细化流程图，在步骤201之后，还包括如下步骤：

202：对所述深度图像信息进行分割得到所述目标人体对象的人脸图像。

为了缩小从图像信息中获取嘴唇区域图像的有效范围，提高获取精度，本实施方式在获取到目标人体对象的深度图像信息后，先对该图像信息进行分割，得到该目标人体对象的人脸图像。

在一个具体的实施方式中，由于在人的人脸图像中，一般情况下，人的鼻尖深度相对是最小的，因此，本实施方式首先根据深度特征信息判断该深度图像信息中是否包括该目标人体对象的鼻尖，如果在该深度图像信息信息中检测到目标人体对象的鼻尖，进一步检测鼻尖两侧是否存在椭圆的人脸轮廓区域。如果存在该人脸轮廓区域，则获取包括该鼻尖以及人脸轮廓的区域图像作为该目标人体对象的人脸图像。

203：从所述人脸图像中获取所述目标人体对象的嘴唇区域图像。

具体地，在获取到该目标人体图像的人脸图像后，进一步地从该人脸图像中来提取该人脸图像中鼻尖下方的区域图像，并将该区域图像作为该嘴唇区域图像。

嘴唇区域一般是指双唇以及双唇中间的区域，在上述实施方式中，有时候人在讲话时，周边的部分可能也会有较大幅度的动作，因此，在上述实施方式中，嘴唇区域包括嘴唇周围的部位，如下巴以及嘴唇两边的脸部。但是在其他实施方式中，考虑到人在说话时可能出现头部倾斜或扭动的情形，从图像信息中不能得到完整的嘴唇的图像。但是由于嘴唇一般具有对称性，在特殊情况下，也可以通过获取半个嘴唇图像或包括半个嘴唇周边范围内人脸的图像作为嘴唇区域。

如果是将双唇以及双唇中间的区域作为嘴唇区域图像，在获取到包括嘴唇周围的部位的嘴唇区域图像后，进一步如图3所示还包括如下步骤304：

步骤204～205以及步骤305～306与步骤103～104相同，具体请参阅下方的实施方式以及相关文字描述。

103：从所述嘴唇区域图像提取唇部特征，根据所述唇部特征进行唇语识别。

在获取到嘴唇区域图像后，进一步地从该嘴唇区域图像中提取唇部特征。具体地，可通过外观轮廓提取方法或轮廓特征提取方法中的至少一种对所述嘴唇区域图像进行唇部特征提取，得到特征提取结果。

例如通过主动形状模型法ASM、主动外观模型法AAM、主成分分析法PCA、离散余弦变换法DCT等等方法对嘴唇区域图像进行唇部特征提取，在此不做限定。

进一步地，根据该特征提取结果与与设定识别模型数据库中的识别信息进行比对，得到该特征提取结果对应的唇语识别结果。该设定识别模型包括隐马尔可夫模型、高斯混合模型等模型中的至少一种。

104：将所述唇语识别的结果转化成对应的操作指令，并根据所述操作指令进行交互。

在对唇部特征进行提取，得到唇部特征对应的识别结果后，进一步地根据实际需求对识别结果进行处理。如将该识别结果转换成用户交互的操作指令，如识别结果进行语言识别或将该操作指令转换为控制远程设备的操作指令，控制体感游戏的操作指令，或控制智能设备如手机的操作指令等，在此不做限定。

在得到该操作指令后，进一步地通过该操作指令对对应的设备进行交互控制，比如根据唇语识别技术控制手机，如通过特定的唇语识别实现手机的翻页或拨打接听电话等，在此不做限定。

在其他实施方式中，还可以直接将通过识别结果判断出该当前唇语的内容，对语音进行识别或通过语音来实现交互等。

区别于现有技术，本实施方式的交互方法首先获取目标人体对象的深度图像信息；从所述深度图像信息中获取所述目标人体对象的唇部区域图像；从所述嘴唇区域图像提取唇部特征，根据所述唇部特征进行唇语识别；将所述唇语识别的结果转化成对应的操作指令，并根据所述操作指令进行交互。上述通过获取深度图像信息，从深度图像中来提取唇部特征信息的方式，相对于传统直接通过彩色相机获取图像信息的方式，不容易受到环境如光线强弱的影响，能够有效提高图像识别的命中率，进一步提高唇语识别的命中率，最终可有效改善交互的执行率和操作准确率，有利于唇语识别应用于交互技术中的推广。

另外，本实施方式根据深度特征信息判断所述图像信息中是否包括所述目标人体对象的鼻尖，在图像信息中包括所述目标人体对象的鼻尖时，检测所述鼻尖两侧是否存在椭圆的人脸轮廓区域，并在存在所述人脸轮廓区域，获取包括所述鼻尖以及人脸轮廓的区域图像作为所述目标人体对象的人脸图像，提取所述人脸图像中的所述鼻尖下方的区域图像作为嘴唇区域图像。上述实施方式不仅能够缩小从图像信息中获取嘴唇区域图像的有效范围，提高获取精度，而且，采用鼻尖深度信息特征的特殊性，能够更加精确的获取到嘴唇区域图像，进一步提高唇语识别的命中率。

参阅图4，图4是本发明基于唇语的交互装置一实施方式的结构示意图。本实施方式的交互装置包括深度图像信息获取模块401、唇部区域图像确定模块402、唇语识别模块403以及交互模块404，

深度图像信息获取模块401用于获取目标人体对象的深度图像信息。

本实施方式中深度图像信息获取模块401首先获取目标人体对象的深度图像信息，具体地，该深度图像信息包括深度相片以及视频中的至少一种。

其中，深度图像信息获取模块401可通过深度相机来获取该深度图像信息，在其他实施方式中，深度图像信息获取模块401也可以通过其他方法来获取，例如可通过通过双目视觉的方法或基于结构光的方法来获取该深度图像信息，还可以通过基于TOF的方法来获取该深度图像信息等，在此不做限定，只要能够获取或通过计算得到该目标人体图像的深度图像信息的方法都属于本实施方式包含的范围。

具体地，基于双目视觉的方法是以模仿目标人体对象的双眼为原理，按照预先设定的位置放置两台相机，深度图像信息获取模块401通过该两台相机同步采集该目标人体对象的第一图像以及该目标人体对象的第二图像。再通过预定算法，对该第一图像和第二图像进行处理，根据处理结果计算得到该目标人体对象的深度图像信息。其中，该第一目标图像和第二目标图像为彩色图像。通过本实施方式的获取到的深度图像信息的精度高，但是计算量相对较大。

基于结构光获取深度图像信息的方法是首先确定待获取的目标人体对象所处的目标区域，对目标区域投射结构光图案，其中，该结构光图案为随机排列的散斑图案，深度图像信息获取模块401通过红外相机获取该目标区域内的目标对象的结构光红外图像。

深度图像信息获取模块401在得到目标对象的结构光红外图像后，再从该红外结构光红外图像中采集该目标对象的散斑红外图像，将该目标对象的散斑红外图像与参考散斑图像按照预定算法进行图像数据计算，获取目标对象上散斑红外图像的各个散斑点相对于参考散斑点相对于参考散斑图像的移动距离。最后根据该移动距离、参考散斑图像与红外相机的距离以及用于采集图像的红外相机以及红外摄像机之间的相对间隔值，利用三角法得到散斑红外图像的各个散斑点的深度值，并根据该深度值得到所述目标对象的深度图像。

基于TOF的方法是通过向目标人体对象所处的目标区域投射红外光，深度图像信息获取模块401再通过红外相机采集该红外光反射的光线，根据该红外光线飞行的时间即红外光传输的时间来计算目标人体对象对应的深度，即得到目标人体对象的深度图像信息。

唇部区域图像确定模块402用于从所述深度图像信息中获取所述目标人体对象的唇部区域图像。

为了从该目标人体对象的的深度图像信息中获取到精准的嘴唇区域图像，进一步如图5所示，嘴唇图像提取模块502包括人脸图像获取模块5021以及嘴唇区域图像获取模块5022。

人脸图像获取模块5021用于对所述深度图像信息进行分割得到所述目标人体对象的人脸图像。

为了缩小从图像信息中获取嘴唇区域图像的有效范围，提高获取精度，本实施方式人脸图像获取模块5021在图像信息获取模块501获取到目标人体对象的深度图像信息后，先对该图像信息进行分割，得到该目标人体对象的人脸图像。

在一个具体的实施方式中，由于在人的人脸图像中，一般情况下，人的鼻尖深度相对是最小的，因此，本实施方式人脸图像获取模块5021首先根据深度特征信息判断该深度图像信息中是否包括该目标人体对象的鼻尖，如果在该深度图像信息信息中检测到目标人体对象的鼻尖，进一步检测鼻尖两侧是否存在椭圆的人脸轮廓区域。如果存在该人脸轮廓区域，则获取包括该鼻尖以及人脸轮廓的区域图像作为该目标人体对象的人脸图像。

嘴唇区域图像获取模块5022用于从所述人脸图像中获取所述目标人体对象的嘴唇区域图像。

具体地，嘴唇区域图像获取模块5022在人脸图像获取模块5021获取到该目标人体图像的人脸图像后，进一步地从该人脸图像中来提取该人脸图像中鼻尖下方的区域图像，并将该区域图像作为该嘴唇区域图像。

如果是将双唇以及双唇中间的区域作为嘴唇区域图像，在获取到包括嘴唇周围的部位的嘴唇区域图像后，进一步地如图6所示，本实施方式的唇语识别装置还包括双唇图像提取模块605，该双唇图像提取模块605用于通过边缘检测或阈值分割的图像处理方法从所述嘴唇区域图像中获取所述目标人体对象的双唇图像。

唇语识别模块403用于从所述嘴唇区域图像提取唇部特征，根据所述唇部特征进行唇语识别。

进一步地如图4所示，唇语识别模块403在获取到嘴唇区域图像后，进一步地从该嘴唇区域图像中提取唇部特征。具体地，可通过外观轮廓提取方法或轮廓特征提取方法中的至少一种对所述嘴唇区域图像进行唇部特征提取，得到特征提取结果。

进一步地，唇语识别模块403根据该特征提取结果与与设定识别模型数据库中的识别信息进行比对，得到该特征提取结果对应的唇语识别结果。该设定识别模型包括隐马尔可夫模型、高斯混合模型等模型中的至少一种。

交互模块404用于将所述唇语识别的结果转化成对应的操作指令，并根据所述操作指令进行交互。

交互模块404在唇语识别模块403对唇部特征进行提取，得到唇部特征对应的识别结果后，进一步地根据实际需求对识别结果进行处理。如将该识别结果转换成用户交互的操作指令，如识别结果进行语言识别或将该操作指令转换为控制远程设备的操作指令，控制体感游戏的操作指令，或控制智能设备如手机的操作指令等，在此不做限定。

交互模块404在得到该操作指令后，进一步地通过该操作指令对对应的设备进行交互控制，比如根据唇语识别技术控制手机，如通过特定的唇语识别实现手机的翻页或拨打接听电话等，在此不做限定。

区别于现有技术，本实施方式的唇语交互装置的深度图像信息获取模块首先获取目标人体对象的深度图像信息；从所述深度图像信息中获取所述目标人体对象的唇部区域图像；唇部区域图像确定模块从所述嘴唇区域图像提取唇部特征，唇语识别模块根据所述唇部特征进行唇语识别；交互模块将所述唇语识别的结果转化成对应的操作指令，并根据所述操作指令进行交互。上述通过获取深度图像信息，从深度图像中来提取唇部特征信息的方式，相对于传统直接通过彩色相机获取图像信息的方式，不容易受到环境如光线强弱的影响，能够有效提高图像识别的命中率，进一步提高唇语识别的命中率，最终可有效改善交互的执行率和操作准确率，有利于唇语识别应用于交互技术中的推广。

另外，本实施方式唇部区域图像确定模块通过人脸图像获取模块根据深度特征信息判断所述图像信息中是否包括所述目标人体对象的鼻尖，在图像信息中包括所述目标人体对象的鼻尖时，检测所述鼻尖两侧是否存在椭圆的人脸轮廓区域，并在存在所述人脸轮廓区域，获取包括所述鼻尖以及人脸轮廓的区域图像作为所述目标人体对象的人脸图像，通过嘴唇区域图像获取模块提取所述人脸图像中的所述鼻尖下方的区域图像作为嘴唇区域图像。上述实施方式不仅能够缩小从图像信息中获取嘴唇区域图像的有效范围，提高获取精度，而且，采用鼻尖深度信息特征的特殊性，能够更加精确的获取到嘴唇区域图像，进一步提高唇语识别的命中率。

以上所述仅为本发明的实施方式，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种基于深度图像的唇语交互方法，其特征在于，所述唇语交互方法包括：

获取目标人体对象的深度图像信息；

2.根据权利要求1所述的唇语交互方法，其特征在于，所述从所述深度图像信息中获取所述目标人体对象的嘴唇区域图像的步骤具体包括：

从所述人脸图像中获取所述目标人体对象的嘴唇区域图像。

3.根据权利要求2所述的唇语交互方法，其特征在于，所述对所述深度图像信息进行分割得到所述目标人体对象的人脸图像的步骤具体包括：

根据深度特征信息判断所述深度图像信息中是否包括所述目标人体对象的鼻尖；

4.根据权利要求3所述的唇语交互方法，其特征在于，所述提取所述人脸图像中的所述鼻尖下方的区域作为嘴唇区域图像的步骤之后还包括：

5.根据权利要求3所述的唇语交互方法，其特征在于，所述从所述嘴唇区域图像中提取唇部特征，并对所述唇部特征进行唇语识别的步骤具体包括：

6.根据权利要求1所述的唇语交互方法，其特征在于，所述获取目标人体对象的深度图像信息的步骤具体包括：

7.根据权利要求1所述的唇语交互方法，其特征在于，所述获取目标人体对象的深度图像信息的步骤具体包括：

8.根据权利要求1所述的唇语交互方法，其特征在于，所述获取目标人体对象的深度图像信息的步骤具体包括：

向所述目标人体图像所在的目标区域投射红外光；

9.一种基于深度图像的唇语交互装置，其特征在于，所述唇语交互装置包括：深度图像信息获取模块、唇部区域图像确定模块、唇语识别模块以及交互模块，

10.根据权利要求9所述的唇语交互装置，其特征在于，所述唇部区域图像确定模块具体用于对所述深度图像信息进行分割得到所述目标人体对象的人脸图像；从所述人脸图像中获取所述目标人体对象的嘴唇区域图像。