CN113435422A

CN113435422A - 辅助聋哑人士唇读的口型识别方法

Info

Publication number: CN113435422A
Application number: CN202110987380.2A
Authority: CN
Inventors: 戴鹏程; 戴鹏飞
Original assignee: Zhijian Technology Jiangsu Co ltd
Current assignee: Zhijian Technology Jiangsu Co ltd
Priority date: 2021-08-26
Filing date: 2021-08-26
Publication date: 2021-09-24

Abstract

本发明属于计算机视觉中的目标检测技术领域，涉及一种辅助聋哑人士唇读的口型识别方法，包括如下步骤：视频收集人脸数据，并对人脸通过深度学习模型进行识别，得到识别结果。识别结果通过处理，提取人脸的唇部关键点。通过唇部关键点进行检测对齐模型，获取唇部关键点的原始数据。根据原始数据得到是否存在唇动，如果存在，则进行后续步骤。根据唇动的数据定位唇动的起始和结束，获取各次唇动的帧序列。对唇动的帧序列关键点进行模型整理。将得出的对应结果与人脸ID绑定，并输出推理结果。检测是否持续的进行口型识别，如果持续则返回前面的步骤，如果不持续则结束。本发明用于辅助聋哑人士唇读，进而达到与正常人士沟通交流的目的。

Description

辅助聋哑人士唇读的口型识别方法

技术领域

本发明涉及一种辅助聋哑人士唇读的口型识别方法，属于计算机视觉中的目标检测技术领域。

背景技术

由于手势的变化可以模拟形象或者音节以构成的一定意思或词语，因此手语是聋哑人士主要的沟通工具。但手语语法与正常的汉语语法并不完全相同，存在宾语前置、定语倒置、状语倒置、介词省略、量词省略等常见现象。当正常人士与聋哑人士沟通时，很容易产生困惑，造成无法有效交流。若聋哑人士通过唇读训练学会利用声音的视觉信息来理解语言并学会与人交流，不但可以提高聋哑人的口头语言表达能力，促进聋哑人士与正常人士交往，而且有利于提高聋哑人的书面表达能力。而目前还没有相关的技术能实现这一目的。

发明内容

发明目的：针对上述现有存在的问题和不足，本发明的目的是提供一种辅助聋哑人士唇读的口型识别方法，通过提取人脸唇部区域关键点，进行唇动检测，在此基础上使用时空卷积神经网络模型进行口型识别。

技术方案：为实现上述发明目的，本发明采用以下技术方案：一种辅助聋哑人士唇读的口型识别方法，其特征在于：包括如下步骤：

步骤1：视频收集人脸数据，并对人脸通过深度学习模型进行识别，得到识别结果；

步骤2：从步骤1中得到的识别结果通过处理，提取人脸的唇部关键点；

步骤3：通过步骤2中的唇部关键点进行检测对齐模型，获取唇部关键点的原始数据；

步骤4：根据步骤3所得的原始数据得到是否存在唇动，如果存在，则进行步骤5，如果不存在，则直接进入步骤8；

步骤5：根据唇动的数据定位唇动的起始和结束，获取各次唇动的帧序列；

步骤6：对步骤5中得到的唇动的帧序列关键点进行模型整理；

步骤7：将步骤6得出的对应结果与人脸ID绑定，并输出推理结果；

步骤8：检测是否持续的进行口型识别，如果持续则进入步骤1，如果不持续则结束。

进一步的，步骤2中对于人脸的唇部关键点的步骤为：将唇部各点进行提取并标准化，之后再对唇部各点进行筛选，得到唇部关键点。

进一步的，步骤3中唇部关键点检测的步骤为：先计算并设置唇动阈值，若帧数超过唇动阈值，则判断唇动开始，并从唇动开始后，帧数低于唇动阈值时，判断此次唇动结束。

进一步的，步骤5中获取唇动的帧序列步骤为：记录开始帧和结束帧，得到每次唇动的序列和对应序列长度，将所有唇动序列进行处理，得到唇动的帧序列。

进一步的，步骤6中的模型整理步骤为：将唇动的帧序列输入深度学习模型进行推理，从中识别唇部动作对应的说话内容，利用时空卷积神经网络刻画唇动帧序列与空间特征，得出对应结果。

进一步的，将唇部各点进行标准化之后，选择左半部分或右半部分的点进行随机均匀分布的方式筛选唇部关键点。

进一步的，对唇动序列进行处理的步骤为：将获得的唇动的帧序列进行分段性插值或删除，得到唇动的帧序列为固定长度。

进一步的，所述步骤1中采用Kmeans聚类方法对人脸进行识别。

有益效果：与现有技术相比，本发明具有以下优点：这是一种新式的辅助聋哑人士唇读的口型识别方法，提供了一种口型识别方法，用于辅助聋哑人士唇读，进而达到与正常人士沟通交流的目的。目前，本发明识别的口型限于汉语常用单词或短语，包括58个汉语拼音。

附图说明

图1是本发明的口型识别主流程图；

图2是本发明的人脸68个关键点定位图。

具体实施方式

下面结合附图和具体实施例，进一步阐明本发明，应理解这些实施例仅用于说明本发明而不用于限制本发明的范围，在阅读了本发明之后，本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。

如图1所示，一种辅助聋哑人士唇读的口型识别方法。具体实施方式如下：

a）人脸检测与识别

利用深度学习模型对输入视频数据逐帧进行人脸检测与识别。

1）人脸检测

目前人脸检测技术已经比较成熟，既有高精度的两阶段方法，如Faster-RCNN模型，也有高效率的一阶段方法，如YOLO系列模型，可根据场景需要自行选择。本阶段输出为每帧图像中每个人脸框左上角和右下角的坐标

，人脸框置信度

，人脸特征向量

，其中

表示帧ID，j表示人脸框ID，

一般为256、512或1024。

2）人脸识别

选用广泛使用的DeepSort模型用于人脸跟踪，模型输入为

和

，输出为人脸ID。该步骤为人脸初识别，为不同视频帧中同一个人的人脸分配相同的ID。将

,

中的人脸框ID替换成人脸ID，下文中默认j表示人脸ID。

由于遮挡等外界因素及算法本身的原因，跟踪模型可能出现人脸跟丢的情形，从而不能保证人脸得到完全正确识别，这里采用聚类方法对人脸再识别。考虑到辅助聋哑人士唇读的应用场景，视频帧中一般不会出现太多张人脸，因此选用简单经典的Kmeans聚类方法。

聚类输入为

，输出为聚类族ID，也即人脸ID。当跟踪算法与聚类算法识别结果不一致时，按如下规则处理：跟踪识别为两张人脸，聚类识别为一张人脸，则按聚类结果进行人脸ID合并；跟踪识别为一张人脸，聚类识别为两张人脸，则按跟踪结果保持原有人脸ID不便。

b）唇部关键点提取

根据步骤a）中获取的人脸检测框坐标从视频帧中截取人脸图像，并利用机器学习公开库 Dlib（Digital Library Service System）中训练好的特征提取器模型，对人脸进行对齐。

1）唇部点提取及标准化

人脸 68 个关键点如图2所示，其中点28-31为鼻部区域点，点37、46为两眼外角点，点49-68 为唇部区域点，记

为这些点的原始坐标。通过最小二乘法求解拟合鼻部点28-31的直线，获得的直线方向作为纵轴方向，且以点

为坐标原点构建直角坐标系。计算两眼外角距离D

，令

，

即为标准化处理后的唇部点坐标，由实际情况可知

取值范围为

。

2）唇部点筛选

通常情况下，人的唇部外形左右基本对称，且说话时唇动也是左右对称。为减少数据运算量，同时避免少数唇部不对称情形对后续模型推理造成干扰，只选择唇部左半部分或者右半部分点。令

，

，通过随机均匀分布方式选择

或

。

c）唇动检测

唇动检测主要是确定说话人唇动的开始进而结束时间。随着语音识别技术的发展，可利用语音检测确定唇动变化的时间。但此方法存在一定程度的不匹配问题，除了录制过程中摄像头与麦克风等硬件设备之间存在一定的延时外，说话时唇部运动的过程和发出声音的过程也并不完全同步。此外，也可以通过光流法计算出相邻帧之间嘴唇的运动信息来，从而确定视频中唇动开始与结束时间，但该方法受光照条件影响较大。本发明基于上述步骤获得的唇部关键点直接检测唇动。

1）唇动判断

令

，设置阈值

。若连续k帧满足

，则判断唇动开始，记第1帧为唇动开始帧

；检测到唇动后若连续k帧满足

，则判断唇动结束，记第1帧为唇动结束帧

。一般k取5，阈值

的设置需能排除人们无意识的唇部运动。且实际操作中，可分别提前和滞后一帧作为唇动的开始和结束帧。

2）唇动帧获取

通过唇动开始和结束帧获取原始的唇动关键点帧序列，帧序列长度为

。由于单词和短语的长度不同，同一内容不同说话人所用的时间也不同，因此原始唇动帧序列长度各不同。进行如下操作，将唇动帧序列变为同一长度：

设置序列基准长度

，将帧序列

中均匀分割成

份。若

，每份随机均匀分布选择一帧进行删除。若

，每份随机均匀分布选择一帧，在该帧与该帧后一帧之间线性插值一帧，若该帧为最后一帧，则在该帧与该帧前一帧之间线性插值一帧。处理后的帧序列记为

。

d）模型推理

本步骤将上述步骤中获得的唇动关键点帧序列

输入深度学习模型进行推理，从而识别唇部动作对应的说话内容。相较于大多数现有的唇语识别模型采用二阶段方式，即先利用CNN网络获取唇部视觉特征信息，再利用RNN（LSTM或GRU）网络刻画视觉特征序列间的时序关系，本发明采用一阶段方式，选用时空卷积神经网络STN同时刻画唇动帧序列时序与空间特征，可显著提升模型的识别效率。

e）推理结果输出

本步骤输出深度学习模型推理结果，并将结果与步骤a）中识别出的人脸ID关联，保证同一说话人的内容归为一类。

Claims

1.一种辅助聋哑人士唇读的口型识别方法，其特征在于：包括如下步骤：

2.根据权利要求1所述的辅助聋哑人士唇读的口型识别方法，其特征在于：步骤2中对于人脸的唇部关键点的步骤为：将唇部各点进行提取并标准化，之后再对唇部各点进行筛选，得到唇部关键点。

3.根据权利要求1所述的辅助聋哑人士唇读的口型识别方法，其特征在于：步骤3中唇部关键点检测的步骤为：先计算并设置唇动阈值，若帧数超过唇动阈值，则判断唇动开始，并从唇动开始后，帧数低于唇动阈值时，判断此次唇动结束。

4.根据权利要求1所述的辅助聋哑人士唇读的口型识别方法，其特征在于：步骤5中获取唇动的帧序列步骤为：记录开始帧和结束帧，得到每次唇动的序列和对应序列长度，将所有唇动序列进行处理，得到唇动的帧序列。

5.根据权利要求1所述的辅助聋哑人士唇读的口型识别方法，其特征在于：步骤6中的模型整理步骤为：将唇动的帧序列输入深度学习模型进行推理，从中识别唇部动作对应的说话内容，利用时空卷积神经网络刻画唇动帧序列与空间特征，得出对应结果。

6.根据权利要求2所述的辅助聋哑人士唇读的口型识别方法，其特征在于：将唇部各点进行标准化之后，选择左半部分或右半部分的点进行随机均匀分布的方式筛选唇部关键点。

7.根据权利要求4所述的辅助聋哑人士唇读的口型识别方法，其特征在于：对唇动序列进行处理的步骤为：将获得的唇动的帧序列进行分段性插值或删除，得到唇动的帧序列为固定长度。

8.根据权利要求1所述的辅助聋哑人士唇读的口型识别方法，其特征在于：所述步骤1中采用Kmeans聚类方法对人脸进行识别。