CN114241594A

CN114241594A - 唇语识别方法及电子装置

Info

Publication number: CN114241594A
Application number: CN202010763311.9A
Authority: CN
Inventors: 刘东林
Original assignee: Nanning Fulian Fugui Precision Industrial Co Ltd
Current assignee: Nanning Fulian Fugui Precision Industrial Co Ltd
Priority date: 2020-07-31
Filing date: 2020-07-31
Publication date: 2022-03-25

Abstract

一种唇语识别方法，其特征在于，所述方法包括：透过摄像模块每隔既定时间截取对应于用户的脸部图像；透过处理模块于每张所述脸部图像中截取对应于唇部的多个抛物线，并计算每张所述脸部图像中所述抛物线之间的面积；及透过所述处理模块根据多张所述脸部图像中对应于每个所述抛物线的轨迹变化及对应于所述面积的面积变化自字形库中选择多个字形之一者，其中所述字形库中的每个所述字形具有各自对应的所述轨迹变化及所述面积变化。本发明还提供一种电子装置。本发明可有效地降低因环境光照所造成的图像信息损失的问题，亦可降低唇语字形识别的运算量，进而减少处理模块的运算负担。

Description

唇语识别方法及电子装置

技术领域

本发明是关于一种唇语识别方法及电子装置，尤其关于一种根据唇部的轨迹变化及面积变化来判断字形的唇语识别方法及电子装置。

背景技术

语言为目前人类在沟通及交流上最方便表达的一种方式，而目前语言至少包括了语音语言、手势语、唇语等。而在大部分的场合中，人类通常使用语音语言及手势语来进行交流，但在某些特殊情况下，例如在极度吵杂的环境或对于听力障碍者而言，唇语的识别则较语音语言及手势语来得重要。于现有技术中，通常透过一般彩色相机来获取用户的脸部图像，再从中获取对应于唇部的特征信息，但由于可见光图像容易受到环境的影响，进而导致图像特征获取的精度降低，造成识别准确率不佳，因此如何提升唇语识别的准确率并避免过于复杂的运算流程为目前所需解决的问题。

发明内容

有鉴于此，需要一种能将广告信息精准推送给用户的唇语识别方法及电子装置。

本发明提供一种唇语识别方法，其特征在于，所述方法包括：透过摄像模块每隔既定时间截取对应于用户的脸部图像；透过处理模块于每张所述脸部图像中截取对应于唇部的多个抛物线，并计算每张所述脸部图像中所述抛物线之间的面积；及透过所述处理模块根据多张所述脸部图像中对应于每个所述抛物线的轨迹变化及对应于所述面积的面积变化自字形库中选择多个字形之一者，其中所述字形库中的每个所述字形具有各自对应的所述轨迹变化及所述面积变化。

本发明还提供一种电子装置，其特征在于，所述电子装置包括摄像模块及处理模块。所述摄像模块用以每隔既定时间截取对应于用户的脸部图像。所述处理模块用以于每张所述脸部图像中截取对应于唇部的多个抛物线，计算每张所述脸部图像中所述抛物线之间的面积，及根据多张所述脸部图像中对应于每个所述抛物线的轨迹变化及对应于所述面积的面积变化自字形库中选择多个字形之一者。其中，所述字形库中的每个所述字形具有各自对应的所述轨迹变化及所述面积变化。

根据本发明一实施例，其中所述处理模块更根据被选择的所述字形产生多个预测字形，截取对应于新的脸部图像的所述抛物线及所述面积，及自多个所述预测字形中选择下一字形。

根据本发明另一实施例，其中所述处理模块藉由隐性马可夫链根据所述字形产生多个所述预测字形。

根据本发明另一实施例，其中所述抛物线包括对应于上唇的第一抛物线、对应于下唇的第二抛物线及对应于嘴型的第三抛物线。

根据本发明另一实施例，其中所述面积为所述第一抛物线及所述第二抛物线之间的面积。

根据本发明另一实施例，其中所述摄像模块为红外摄像模块，及所述脸部图像为红外图像。

附图说明

图1为根据本发明一实施例所述的电子装置的方块图。

图2为根据本发明一实施例所述的根据特征点取得对应于唇部的抛物线的示意图。

图3为根据本发明一实施例所述的唇语识别方法的流程图。

主要元件符号说明

电子装置 100

摄像模块 110

处理模块 120

显示模块 130

唇部特征点 P1、P2、P3、P4

唇部面积 A1

抛物线 y1、y2、y3

步骤流程 S201至S206

具体实施方式

有关本发明之系统及方法适用之其他范围将于接下来所提供的详述中清楚易见。必须了解的是下列的详述以及具体的实施例，当提出有关唇语识别方法及电子装置的示范实施例时，仅作为描述的目的以及并非用以限制本发明的范围。

图1为根据本发明一实施例所述的电子装置100的方块图。电子装置100至少包括摄像模块110、处理模块120、显示模块130及存储模块140。摄像模块110可为任意摄像头，用以每隔既定时间截取对应于用户脸部的脸部图像。值得注意的是，由于一般可见光图像容易受到环境光线变化的影响，因此在进行光照预处理后可见光图像可能会损失一部分的图像信息。然而，由于近红外人脸成像并不受环境光照的影响，并可提供高质量的人脸图像，包括图像亮度合适、均匀、对比度合适、不存在过曝光等的方法，故于本发明的实施例中，摄像模块110较佳的为使用红外摄像头来取得对应于用户的红外图像。

处理模块120用以根据多个不同字形所对应的多张连续唇部图像的抛物线的轨迹变化及面积变化建立字形库，并于自摄像模块110接收到脸部图像后，自脸部图像中截取对应于唇部的多个特征点，根据特征点进一步地取得对应于唇部的抛物线及面积，再根据连续多张脸部图像的抛物线的变化及面积变化自字形库中搜寻对应的字形。其中，处理模块120可为例如以专用硬体电路或者通用硬体(例如，单一处理器、具平行处理能力之多处理器、图形处理器或者其它具有运算能力之处理器)，且于执行程式码或者软体时，提供之后所描述的功能。显示模块130可为显示面板(例如薄膜液晶显示面板、有机发光二极体面板或者其它具显示能力的面板)，用以显示处理模块120所判断出来的字形，以提供给用户观看。储存模块140用以储存执行前述过程中所需要的演算法及字形库等。其中，用户透过录制多张对应于多个字形的脸部图像，计算每个字形所对应的多张脸部图像的抛物线的轨迹变化及面积变化，并透过深度学习演算法建立字形库，以供处理模块120作为比对用户唇形变化的依据。值得注意的是，前述有关摄像模块、处理模块、显示模块及存储模块的说明仅为一些示例，但本发明并不以此为限。

根据本发明一实施例，处理模块120自摄像模块110取得脸部图像后，可先透过例如将脸部分割为三分之一来取得对应于唇部的图像，以减少处理模块120的运算负担。接着，处理模块120截取对应于唇部的多个特征点以取得对应于唇部轮廓的多个抛物线。举例来说，如图3所示，特征点可至少包括对应于右嘴角的第一特征点P1、对应于左嘴角的第二特征点P2、对应于上唇最高点的第三特征点P3及对应于下唇最低点的第四特征点P4。接着，处理模块120即可根据对应于左右嘴角的第一特征点P1、第二特征点P2与对应于上唇最高点的第三特征点P3来取得对应于上唇的抛物线y1，根据对应于左右嘴角的第一特征点P1、第二特征点P2与对应于下唇最低点的第四特征点P4来取得对应于下唇的抛物线y2，及透过判断唇缝或齿缝来取得对应于中间嘴型的抛物线y3。值得注意的是，前述取得特征点及抛物线的示例仅为本发明的简单说明，为了更精准地取得抛物线y1-y3，处理模块120亦可透过例如对脸部图像进行二值化或边缘侦测等方法来取得更多对应于唇部的特征点，再根据该些特征点来计算抛物线y1-y3，在此不加以描述以精简说明。

接着，于取得对应于上唇及下唇的抛物线后，处理模块120更计算位于抛物线y1及抛物线y2之间的面积A1(即唇部面积)，以更准确地判断唇型的变化。最后，每当取得新的脸部图像时，处理模块120立即计算前后两张脸部图像中对应于抛物线y1、抛物线y2及抛物线y3的轨迹变化及面积A1的面积变化，并观察多张脸部图像所对应的连续轨迹变化及面积变化的趋势。若轨迹变化及面积变化的趋势与字形库中已事先存储的任意字形所对应的轨迹变化及面积变化既有既定百分比的相似度(例如相似度达70％)，处理模块120即判断该用户刚说出对应于该字形的拼音，并将对应的字形及口型变化等信息透过显示模块130显示。

此外，根据本发明另一实施例，为了缩短运算时间，每当处理模块120取得用户说出的拼音的字形后，更可进一步地透过隐性马可夫链推算后续可能出现的字形，以供处理模块120以预测字形作为判断下一字形的依据，藉此以减少处理模块120的运算量。举例来说，若处理模块120判断出当前字形为”我”后，可透过隐性马可夫链预测可能会出现在”我”之后的其它字形，而处理模块120则仅根据该些字形所对应的轨迹变化及面积变化来作为判断下一个字形的基准，藉此以加快识别唇语的速度。值得注意的是，当用户发现处理模块120的判断结果有误时，更可输入正确的字形以校正及更新字形库的内容，以提高唇语识别的正确性。

图3为根据本发明一实施例所述的唇语识别方法的流程图。首先，于步骤S301，摄像模块110每隔既定时间截取对应于用户的脸部图像。于步骤S302，处理模块120于接收到摄像模块110所输出的脸部图像后，从中截取对应于唇部的多个特征点，并根据多个特征点取得对应于唇部轮廓的多个抛物线及对应于唇部的唇部面积。于步骤S303，处理模块120根据多张脸部图像中对应于每个抛物线的轨迹变化及面积变化自字形库中选择近似的字形，并显示于显示模块130上。于步骤S304，处理模块120根据选择的字形透过隐性马可夫链产生多个预测字形。于步骤S305，处理模块120根据新的脸部图像的抛物线及面积持续计算对应于每个抛物线的轨迹变化及面积变化，并根据新的轨迹变化及面积变化的趋势自多个预测字形中选择下一字形。最后，回到步骤S304，处理模块120再次根据选择的字形来产生预测字形，并重复步骤S304及S305直到用户停止说话为止。

值得注意的是，尽管上述方法已在使用一系列步骤或方框之流程图的基础上描述，但本发明不局限于这些步骤的顺序，并且一些步骤可不同于其余步骤的顺序执行或其余步骤可同时进行。此外，本领域技术人员将可理解在流程图中所示的步骤并非唯一的，其可包括流程图的其它步骤，或者一或多个步骤可被删除而不会影响本发明的范围。

综上所述，根据本发明一些实施例所提出的唇语识别方法及电子装置，透过多张用户脸部图像中对应于唇部轮廓的抛物线的轨迹变化及唇部面积的面积变化，将可准确地判断用户欲表达的字形。再者，藉由采用红外图像作为采集唇部轮廓的根据，将可避免因环境光变化的影响所造成的图像信息的损失，以提供更清楚地人脸图像信息。此外，透过于判断当前字形后，藉由隐性马可夫链事先预测可能出现的字形，藉此以减少字形比对的次数，将可有效地减少处理模块的运算量，并加快判断字形的速度。

值得注意的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或等同替换，而不脱离本发明技术方案的精神和范围。

Claims

1.一种唇语识别方法，其特征在于，所述方法包括：

透过摄像模块每隔既定时间截取对应于用户的脸部图像；

透过处理模块于每张所述脸部图像中截取对应于唇部的多个抛物线，并计算每张所述脸部图像中所述抛物线之间的面积；及

透过所述处理模块根据多张所述脸部图像中对应于每个所述抛物线的轨迹变化及对应于所述面积的面积变化自字形库中选择多个字形之一者；

其中，所述字形库中的每个所述字形具有各自对应的所述轨迹变化及所述面积变化。

2.如权利要求1所述的唇语识别方法，其特征在于，所述方法更包括：

透过所述处理模块根据被选择的所述字形产生多个预测字形；

透过所述处理模块截取对应于新的脸部图像的所述抛物线及所述面积；及

透过所述处理单元自多个所述预测字形中选择下一字形。

3.如权利要求2所述的唇语识别方法，其特征在于，其中透过所述处理模块根据被选择的所述字形产生多个所述预测字形的步骤更包括：

透过所述处理模块藉由隐性马可夫链根据所述字形产生多个所述预测字形。

4.如权利要求1所述的唇语识别方法，其特征在于，其中所述抛物线包括对应于上唇的第一抛物线、对应于下唇的第二抛物线及对应于嘴型的第三抛物线。

5.如权利要求4所述的唇语识别方法，其特征在于，其中所述面积为所述第一抛物线及所述第二抛物线之间的面积。

6.如权利要求1所述的唇语识别方法，其特征在于，其中所述摄像模块为红外摄像模块，及所述脸部图像为红外图像。

7.一种电子装置，其特征在于，所述电子装置包括：

摄像模块，用以每隔既定时间截取对应于用户的脸部图像；及

处理模块，用以于每张所述脸部图像中截取对应于唇部的多个抛物线，计算每张所述脸部图像中所述抛物线之间的面积，及根据多张所述脸部图像中对应于每个所述抛物线的轨迹变化及对应于所述面积的面积变化自字形库中选择多个字形之一者；

8.如权利要求7所述的电子装置，其特征在于，其中所述处理模块更根据被选择的所述字形产生多个预测字形，截取对应于新的脸部图像的所述抛物线及所述面积，及自多个所述预测字形中选择下一字形。

9.如权利要求8所述的电子装置，其特征在于，其中所述处理模块藉由隐性马可夫链根据所述字形产生多个所述预测字形。

10.如权利要求7所述的电子装置，其特征在于，其中所述抛物线包括对应于上唇的第一抛物线、对应于下唇的第二抛物线及对应于嘴型的第三抛物线。

11.如权利要求10所述的电子装置，其特征在于，其中所述面积为所述第一抛物线及所述第二抛物线之间的面积。

12.如权利要求6所述的电子装置，其特征在于，其中所述摄像模块为红外摄像模块，及所述脸部图像为红外图像。