CN106529502B

CN106529502B - 唇语识别方法以及装置

Info

Publication number: CN106529502B
Application number: CN201611075466.3A
Authority: CN
Inventors: 黄源浩; 刘龙; 肖振中; 许星
Original assignee: Shenzhen Orbbec Co Ltd
Current assignee: Orbbec Inc
Priority date: 2016-08-01
Filing date: 2016-11-29
Publication date: 2019-09-24
Anticipated expiration: 2036-11-29
Also published as: CN106529502A

Abstract

本发明公开了一种唇语识别方法以及装置，所述唇语识别方法包括：获取目标人体对象的图像信息；从所述图像信息中获取所述目标人体对象的嘴唇区域图像；从所述嘴唇区域图像中提取唇部特征，并对所述唇部特征进行唇语识别。不仅能够有效提高图像识别的命中率，而且不容易受到环境影响，进一步提高唇语识别的命中率。

Description

唇语识别方法以及装置

技术领域

本发明涉及图像处理技术领域，特别是涉及一种唇语识别方法以及装置。

背景技术

在人工智能领域已经图像处理领域，利用目标的图像信息可以实现很多功能比如用来分析用户的表情或动作信息等等。图像获取和识别一直是较为热门的研究话题，涉及到用户日常生活以及科学研究的多个方面。

例如，可通过对用户面部进行识别如唇语进行识别的技术能提高体感交互、语音识别的准确率，从而进一步地带来更加舒适的交互体验。

尽管现有的唇语识别技术得到了广泛的应用，但是现有的唇语识别技术容易受环境影响，识别命中率并不高。

发明内容

本发明主要解决的技术问题是提供一种唇语识别方法以及装置，能够有效提高唇语识别命中率。

为解决上述技术问题，本发明采用的一个技术方案是：提供一种唇语识别方法，所述唇语识别方法包括：

通过深度相机或深度相机与红外相机、彩色相机中的至少一个相结合的方式获取所述目标人体对象的图像信息；

根据所述深度相机获取到的所述目标人体对象的深度信息，和所述红外相机获取到的红外图像或/和所述彩色相机获取到的彩色图像的位置对应关系，提取所述彩色图像或/和所述红外图像与所述深度图像中人脸图像对应位置的区域的图像确定为所述人脸图像；

或，从所述红外相机获取到的红外图像或/和所述彩色相机获取到的彩色图像中提取人脸图像；根据所述红外图像或/和所述彩色图像与所述深度相机获取到的所述目标人体对象的深度图像的位置对应关系，获取所述深度图像中所述目标人体对象的人脸图像；

根据深度特征信息判断所述图像信息中是否包括所述目标人体对象的鼻尖；在所述图像信息中包括所述目标人体对象的鼻尖时，检测所述鼻尖两侧是否存在椭圆的人脸轮廓区域；如果存在所述人脸轮廓区域，获取包括所述鼻尖以及人脸轮廓的区域图像作为所述目标人体对象的人脸图像；

提取所述人脸图像中的所述鼻尖下方的区域图像作为嘴唇区域图像；

从所述嘴唇区域图像中提取唇部特征，并对所述唇部特征进行唇语识别。

其中，所述提取所述人脸图像中的所述鼻尖下方的区域图像作为嘴唇区域图像的步骤之后还包括:

通过边缘检测或阈值分割的图像处理方法从所述嘴唇区域图像中获取所述目标人体对象的双唇图像。

其中，所述从所述嘴唇区域图像中提取唇部特征，并对所述唇部特征进行唇语识别的步骤具体包括：

通过轮廓特征提取方法对所述嘴唇区域图像进行唇部特征提取，得到特征提取结果；

将所述特征提取结果与设定识别模型数据库中的识别信息进行比对，得到所述特征提取结果对应的唇语识别结果。

为解决上述技术问题，本发明采用的另一个技术方案是：提供一种唇语识别装置，所述唇语识别装置包括图像信息获取模块、嘴唇图像提取模块以及唇语识别模块，

所述图像信息获取模块通过深度相机或深度相机与红外相机、彩色相机中的至少一个相结合的方式获取目标人体对象的图像信息；

或，从所述红外相机获取到的红外图像或/和所述彩色相机获取到的彩色图像中提取人脸图像，根据所述红外图像或/和所述彩色图像与所述深度相机获取到的所述目标人体对象的深度图像的位置对应关系，获取所述深度图像中所述目标人体对象的人脸图像；

所述嘴唇图像提取模块用于根据深度特征信息判断所述图像信息中是否包括所述目标人体对象的鼻尖；在所述图像信息中包括所述目标人体对象的鼻尖时，检测所述鼻尖两侧是否存在椭圆的人脸轮廓区域；如果存在所述人脸轮廓区域，获取包括所述鼻尖以及人脸轮廓的区域图像作为所述目标人体对象的人脸图像；

所述唇语识别模块用于从所述嘴唇区域图像中提取唇部特征，并对所述唇部特征进行唇语识别。

本发明的有益效果是：区别于现有技术的情况，本实施方式获取目标人体对象的图像信息，从所述图像信息中获取所述目标人体对象的嘴唇区域图像；从所述嘴唇区域图像中提取唇部特征，并对所述唇部特征进行唇语识别。通过上述方式，不仅能够有效提高图像识别的命中率，而且不容易受到环境影响，进一步提高唇语识别的命中率。

附图说明

图1是本发明唇语识别方法一实施方式的流程示意图；

图2是图1唇语识别方法一实施方式的具体步骤细化流程示意图；

图3是本发明唇语识别装置一实施方式的结构示意图；

图4是本发明唇语识别装置另一实施方式的结构示意图；

图5是本发明唇语识别装置再一实施方式的结构示意图。

具体实施方式

参阅图1，图1是本发明唇语识别方法一实施方式的流程示意图。如图1所示，本实施方式的唇语识别方法包括如下步骤：

101：获取目标人体对象的图像信息。

唇语识别主要是通过对目标人体对象的嘴唇的特征信息进行提取，通过该特征信息以对目标人体对象要表达的指令或语音进行识别的过程。

本实施方式中，首先获取目标人体对象对应的图像信息。其中，该图像信息可为深度图像信息，也可以为深度图像信息与红外图像以及彩色图像中中的至少一个的组合图像。

具体地，当该图像信息为深度图像信息时，可直接通过深度相机来获取。在其他实施方式中，也可以通过其他方法来获取，如通过双目视觉的方法、基于结构光的方法，还可以通过基于TOF的方法等。

基于双目视觉的方法是以模仿目标人体对象的双眼为原理，按照预先设定的位置放置两台相机，通过该两台相机同步获取图像信息的第一目标图像以及第二目标图像。再通过预定算法，对该第一目标图像和第二目标图像进行处理后，得到目标人体对象的深度图像信息。其中，该第一目标图像和第二目标图像为彩色图像。通过本实施方式的获取到的深度图像信息的精度高，但是计算量相对较大。

在本实施方式中，由于采集到的第一目标图像和第二目标图像均为彩色图像，因此，可以直接得到目标人体对象的彩色图像。还可以通过添加红外光源和红外相机的方式来获取目标人体对象的红外图像。

基于结构光获取深度图像信息的方法是首先确定待获取的目标人体对象所处的目标区域，对目标区域投射结构光图案，其中，该结构光图案为随机排列的散斑图案，再通过红外相机获取该目标区域内的目标对象的结构光红外图像。再从该红外结构光红外图像中采集该目标对象的散斑红外图像，将该目标对象的散斑红外图像与参考散斑图像按照预定算法进行图像数据计算，获取目标对象上散斑红外图像的各个散斑点相对于参考散斑点相对于参考散斑图像的移动距离。最后根据该移动距离、参考散斑图像与红外相机的距离以及用于采集图像的红外相机以及红外摄像机之间的相对间隔值，利用三角法得到散斑红外图像的各个散斑点的深度值，并根据该深度值得到所述目标对象的深度图像。

在本实施方式中，由于结构光红外图像中本身包括目标人体对象的红外图像，只需将该结构光红外图像进行滤波处理，就可以得到该图像信息的纯红外图像，在此不做限定。彩色图像则需要通过添加彩色相机来获取。

基于TOF的方法是通过向目标人体对象所处的目标区域投射红外光，再通过红外相机采集返回的红外光线，根据该红外光线飞行的时间即红外光传输的时间来计算目标人体对象对应的深度，即得到目标人体对象的深度图像信息。

在本实施方式中，不仅可以得到上述深度图像信息，由于投射和采集的都是红外光，因此，也可以直接获取到该目标人体对象的红外图像。而彩色图像则需要通过配置彩色相机来获取，在此不做限定。

在上述任一实施方式中，当获取到的目标人体对象的图像信息为深度图像信息与红外图像以及彩色图像中中的至少一个的组合图像时，均需要对获取到的深度图像信息与红外图像或/和彩色图像进行计算、处理融合得到图像信息，以提高获取到图像的精度，在此不做限定。

102：从所述图像信息中获取所述目标人体对象的嘴唇区域图像。

为了获取到精准的嘴唇区域图像，进一步参阅图2，图2是获取嘴唇区域图像的细化流程图，如图2所示，在获取到目标人体对象的图像信息后，主要包括：

201：对所述图像信息进行分割得到所述目标人体对象的人脸图像。

为了缩小从图像信息中获取嘴唇区域图像的有效范围，提高获取精度，本实施方式在获取到目标人体对象的图像信息后首先对该图像信息进行分割，得到该目标人体对象的人脸图像。

在一个具体的实施方式中，由于在人的人脸图像中，一般情况下，人的鼻尖深度相对是最小的，因此，本实施方式首先根据深度特征信息判断该图像信息中是否包括该目标人体对象的鼻尖，如果在该图像信息信息中检测到目标人体对象的鼻尖，进一步检测鼻尖两侧是否存在椭圆的人脸轮廓区域。如果存在该人脸轮廓区域，则获取包括该鼻尖以及人脸轮廓的区域图像作为该目标人体对象的人脸图像。

在另一个实施方式中，当通过深度相机与红外相机、彩色相机中的至少一个相结合的方式获取所述目标人体对象的图像信息时，根据所述深度相机获取到的所述目标人体对象的深度信息，和所述红外相机获取到的红外图像或/和所述彩色相机获取到的彩色图像的位置对应关系，提取所述彩色图像或/和所述红外图像与所述深度图像中人脸图像对应位置的区域的图像确定为所述人脸图像。

在另一个实施方式中，当通过深度相机与红外相机、彩色相机中的至少一个相结合的方式获取所述目标人体对象的图像信息时，从所述红外相机获取到的红外图像或/和所述彩色相机获取到的彩色图像中提取人脸图像；根据所述红外图像或/和所述彩色图像与所述深度相机获取到的所述目标人体对象的深度图像的位置对应关系，获取所述深度图像中所述目标人体对象的人脸图像。

202：从所述人脸图像中获取所述目标人体对象的嘴唇区域图像。

具体地，在获取到该目标人体图像的人脸图像后，进一步地从该人脸图像中提取该人脸图像中该鼻尖下方的区域图像作为该嘴唇区域图像。

嘴唇区域一般是指双唇以及双唇中间的区域，在上述实施方式中，有时候人在讲话时，周边的部分可能也会有较大幅度的动作，因此，在上述实施方式中，嘴唇区域包括嘴唇周围的部位，如下巴以及嘴唇两边的脸部。但是在其他实施方式中，考虑到人在说话时可能出现头部倾斜或扭动的情形，从图像信息中不能得到完整的嘴唇的图像。但是由于嘴唇一般具有对称性，在特殊情况下，也可以通过获取半个嘴唇图像或包括半个嘴唇周边范围内人脸的图像作为嘴唇区域。

如果是将双唇以及双唇中间的区域作为嘴唇区域图像，在获取到包括嘴唇周围的部位的嘴唇区域图像后，进一步的可通过边缘检测或阈值分割的图像处理方法从所述嘴唇区域图像中获取所述目标人体对象的双唇图像。

103：从所述嘴唇区域图像中提取唇部特征，并对所述唇部特征进行唇语识别。

在获取到嘴唇区域图像后，进一步地从该嘴唇区域图像中提取唇部特征。具体地，可通过轮廓特征提取方法所述嘴唇区域图像进行唇部特征提取，得到特征提取结果。

例如通过主动形状模型法ASM、主动外观模型法AAM、主成分分析法PCA、离散余弦变换法DCT等等方法对嘴唇区域图像进行唇部特征提取，在此不做限定。

进一步地，根据该特征提取结果与与设定识别模型数据库中的识别信息进行比对，得到该特征提取结果对应的唇语识别结果。该设定识别模型包括隐马尔可夫模型、高斯混合模型等模型中的至少一种。

区别于现有技术，本实施方式获取目标人体对象的图像信息，从所述图像信息中获取所述目标人体对象的嘴唇区域图像；从所述嘴唇区域图像中提取唇部特征，并对所述唇部特征进行唇语识别。通过上述方式，不仅能够有效提高图像识别的命中率，而且不容易受到环境影响，进一步提高唇语识别的命中率。

另外，本实施方式根据深度特征信息判断所述图像信息中是否包括所述目标人体对象的鼻尖，在图像信息中包括所述目标人体对象的鼻尖时，检测所述鼻尖两侧是否存在椭圆的人脸轮廓区域，并在存在所述人脸轮廓区域，获取包括所述鼻尖以及人脸轮廓的区域图像作为所述目标人体对象的人脸图像，提取所述人脸图像中的所述鼻尖下方的区域图像作为嘴唇区域图像。上述实施方式不仅能够缩小从图像信息中获取嘴唇区域图像的有效范围，提高获取精度，而且，采用鼻尖深度信息特征的特殊性，能够更加精确的获取到嘴唇区域图像，进一步提高唇语识别的命中率。

参阅图3，图3是本发明唇语识别装置一实施方式的结构示意图。本实施方式的唇语识别装置包括图像信息获取模块301、嘴唇图像提取模块302以及唇语识别模块303。

图像信息获取模块301用于获取目标人体对象的图像信息。

本实施方式中，首先图像信息获取模块301获取目标人体对象对应的图像信息。其中，该图像信息可为深度图像信息，也可以为深度图像信息与红外图像以及彩色图像中中的至少一个的组合图像。

具体地，当该图像信息为深度图像信息时，图像信息获取模块301可直接通过深度相机来获取。在其他实施方式中，图像信息获取模块301也可以通过其他方法来获取，如通过双目视觉的方法、基于结构光的方法，还可以通过基于TOF的方法等。

基于双目视觉的方法是以模仿目标人体对象的双眼为原理，图像信息获取模块301按照预先设定的位置放置两台相机，通过该两台相机同步获取图像信息的第一目标图像以及第二目标图像。再通过预定算法，对该第一目标图像和第二目标图像进行处理后，得到目标人体对象的深度图像信息。其中，该第一目标图像和第二目标图像为彩色图像。通过本实施方式的获取到的深度图像信息的精度高，但是计算量相对较大。

基于结构光获取深度图像信息的方法是图像信息获取模块301首先确定待获取的目标人体对象所处的目标区域，对目标区域投射结构光图案，其中，该结构光图案为随机排列的散斑图案，再通过红外相机获取该目标区域内的目标对象的结构光红外图像。再从该红外结构光红外图像中采集该目标对象的散斑红外图像，将该目标对象的散斑红外图像与参考散斑图像按照预定算法进行图像数据计算，获取目标对象上散斑红外图像的各个散斑点相对于参考散斑点相对于参考散斑图像的移动距离。最后根据该移动距离、参考散斑图像与红外相机的距离以及用于采集图像的红外相机以及红外摄像机之间的相对间隔值，利用三角法得到散斑红外图像的各个散斑点的深度值，并根据该深度值得到所述目标对象的深度图像。

基于TOF的方法是图像信息获取模块301通过向目标人体对象所处的目标区域投射红外光，再通过红外相机采集返回的红外光线，根据该红外光线飞行的时间即红外光传输的时间来计算目标人体对象对应的深度，即得到目标人体对象的深度图像信息。

嘴唇图像提取模块302用于从所述图像信息中获取所述目标人体对象的嘴唇区域图像。

为了获取到精准的嘴唇区域图像，进一步地，如图4所示，嘴唇图像提取模块402包括人脸图像获取模块4021以及嘴唇区域图像获取模块4022。

人脸图像获取模块4021用于对所述图像信息进行分割得到所述目标人体对象的人脸图像。

为了缩小从图像信息中获取嘴唇区域图像的有效范围，提高获取精度，本实施方式人脸图像获取模块4021在图像获取模块401获取到目标人体对象的图像信息后首先对该图像信息进行分割，得到该目标人体对象的人脸图像。

在一个具体的实施方式中，由于在人的人脸图像中，一般情况下，人的鼻尖深度相对是最小的，因此，本实施方式人脸图像获取模块4021首先根据深度特征信息判断该图像信息中是否包括该目标人体对象的鼻尖，如果在该图像信息信息中检测到目标人体对象的鼻尖，进一步检测鼻尖两侧是否存在椭圆的人脸轮廓区域。如果存在该人脸轮廓区域，则获取包括该鼻尖以及人脸轮廓的区域图像作为该目标人体对象的人脸图像。

在另一个实施方式中，当通过深度相机与红外相机、彩色相机中的至少一个相结合的方式获取所述目标人体对象的图像信息时，人脸图像获取模块4021根据所述深度相机获取到的所述目标人体对象的深度信息，和所述红外相机获取到的红外图像或/和所述彩色相机获取到的彩色图像的位置对应关系，提取所述彩色图像或/和所述红外图像与所述深度图像中人脸图像对应位置的区域的图像确定为所述人脸图像。

在另一个实施方式中，当通过深度相机与红外相机、彩色相机中的至少一个相结合的方式获取所述目标人体对象的图像信息时，人脸图像获取模块4021从所述红外相机获取到的红外图像或/和所述彩色相机获取到的彩色图像中提取人脸图像；根据所述红外图像或/和所述彩色图像与所述深度相机获取到的所述目标人体对象的深度图像的位置对应关系，获取所述深度图像中所述目标人体对象的人脸图像。

嘴唇区域图像获取模块4022用于从所述人脸图像中获取所述目标人体对象的嘴唇区域图像。

具体地，嘴唇区域图像获取模块4022在人脸图像获取模块4021获取到该目标人体图像的人脸图像后，进一步地从该人脸图像中提取该人脸图像中该鼻尖下方的区域图像作为该嘴唇区域图像。

如果是将双唇以及双唇中间的区域作为嘴唇区域图像，在获取到包括嘴唇周围的部位的嘴唇区域图像后，进一步地如图5所示，本实施方式的唇语识别装置还包括双唇图像提取模块504，该双唇图像提取模块504用于通过边缘检测或阈值分割的图像处理方法从所述嘴唇区域图像中获取所述目标人体对象的双唇图像。

唇语识别模块303用于从所述嘴唇区域图像中提取唇部特征，并对所述唇部特征进行唇语识别。

进一步地如图3所示，唇语识别模块303在嘴唇图像提取模块302获取到嘴唇区域图像后，进一步地从该嘴唇区域图像中提取唇部特征。具体地，可通过轮廓特征提取方法对所述嘴唇区域图像进行唇部特征提取，得到特征提取结果。

进一步地，唇语识别模块303根据该特征提取结果与与设定识别模型数据库中的识别信息进行比对，得到该特征提取结果对应的唇语识别结果。该设定识别模型包括隐马尔可夫模型、高斯混合模型等模型中的至少一种。

区别于现有技术，本实施方式的图像信息获取模块获取目标人体对象的图像信息，从所述图像信息中获取所述目标人体对象的嘴唇区域图像；嘴唇图像提取模块从所述嘴唇区域图像中提取唇部特征，唇语识别模块并对所述唇部特征进行唇语识别。通过上述方式，不仅能够有效提高图像识别的命中率，而且不容易受到环境影响，进一步提高唇语识别的命中率。

另外，本实施方式嘴唇图像提取模块根据深度特征信息判断所述图像信息中是否包括所述目标人体对象的鼻尖，在图像信息中包括所述目标人体对象的鼻尖时，检测所述鼻尖两侧是否存在椭圆的人脸轮廓区域，并在存在所述人脸轮廓区域，获取包括所述鼻尖以及人脸轮廓的区域图像作为所述目标人体对象的人脸图像，提取所述人脸图像中的所述鼻尖下方的区域图像作为嘴唇区域图像。上述实施方式不仅能够缩小从图像信息中获取嘴唇区域图像的有效范围，提高获取精度，而且，采用鼻尖深度信息特征的特殊性，能够更加精确的获取到嘴唇区域图像，进一步提高唇语识别的命中率。

以上所述仅为本发明的实施方式，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种唇语识别方法，其特征在于，所述唇语识别方法包括：

通过深度相机与红外相机、彩色相机中的至少一个相结合的方式获取目标人体对象的图像信息；

根据所述深度相机获取到的所述目标人体对象的深度图像，和所述红外相机获取到的红外图像或/和所述彩色相机获取到的彩色图像的位置对应关系，提取所述彩色图像或/和所述红外图像与所述深度图像中人脸图像对应位置的区域的图像确定为所述人脸图像；

2.根据权利要求1所述的唇语识别方法，其特征在于，所述提取所述人脸图像中的所述鼻尖下方的区域图像作为嘴唇区域图像的步骤之后还包括:

3.根据权利要求1所述的唇语识别方法，其特征在于，所述从所述嘴唇区域图像中提取唇部特征，并对所述唇部特征进行唇语识别的步骤具体包括：

4.一种唇语识别装置，其特征在于，所述唇语识别装置包括图像信息获取模块、嘴唇图像提取模块以及唇语识别模块，

所述图像信息获取模块通过深度相机与红外相机、彩色相机中的至少一个相结合的方式获取目标人体对象的图像信息；

所述嘴唇图像提取模块用于根据深度特征信息判断所述图像信息中是否包括所述目标人体对象的鼻尖；在所述图像信息中包括所述目标人体对象的鼻尖时，检测所述鼻尖两侧是否存在椭圆的人脸轮廓区域；如果存在所述人脸轮廓区域，获取包括所述鼻尖以及人脸轮廓的区域图像作为所述目标人体对象的人脸图像；提取所述人脸图像中的所述鼻尖下方的区域图像作为嘴唇区域图像；