CN113869153A

CN113869153A - 唇部图像采集装置、唇语识别系统及在线唇语交互系统

Info

Publication number: CN113869153A
Application number: CN202111079589.5A
Authority: CN
Inventors: 罗韬; 杨恒; 史再峰
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2021-09-15
Filing date: 2021-09-15
Publication date: 2021-12-31

Abstract

本发明公开了一种唇部图像采集装置，包括头戴式面罩、摄像头和信号传输系统；摄像头和信号传输系统嵌入在面罩内；面罩内设有使摄像头与佩戴者唇部之间存在间隙的支撑架；摄像头拍摄采集佩戴者唇部视频图像数据，并将采集的唇部视频图像数据通过信号传输系统向外部设备发送。本发明还公开了一种唇语识别系统及在线唇语交互系统。本发明的唇部图像采集装置利用嵌入式摄像头对唇部及附近区域进行摄像采集，相比目前普遍使用的远距离固定位置采集方式，这种面罩具有稳定性高，抗干扰能力强等优点。本发明的唇语识别系统，可解决现有的时序特征提取结构往往具有结构复杂易产生过拟合、位置信息学习效果较差等缺陷。

Description

唇部图像采集装置、唇语识别系统及在线唇语交互系统

技术领域

本发明涉及一种涉及人机交互、深度学习、语音通信、自然语言等领域，特别涉及一种唇部图像采集装置、唇语识别系统及在线唇语交互系统。

背景技术

目前，人与人、人与物之间的交流、交互几乎都是通过发声系统来完成的，而在一些特定场景下，人们无法直接通过空气等介质进行信息交互，因此如何让机器具备人体器官功能识别出人所想表达的意图成为了机器学习、计算机技术等领域的重要研究课题之一。近年来，这一领域采用的方法主要是利用图像和肌电等模态信号进行说话识别，虽然在部分场景下精准度不如音频信号，但是得益于其不发声、不易察觉的特点，缄默通信相关技术被广泛用于医疗康复、助残养老、特种作战等领域，其应用价值非常广阔。而缄默通信技术中最为重要的组成部分就是唇语识别技术，也叫唇读技术。唇语识别是一种利用人嘴唇动作的变化来判断说话人意图的方法，唇语识别技术从早期的手动提取特征并局限于小部分的文本集，逐渐发展成为一个拥有大规模数据集、广泛应用深度学习框架、多模态交叉融合识别的成熟系统。

一个成熟稳定的识别系统离不开大规模的数据，而对大规模数据的拟合则需要一个合理高效的模型，由于近年来深度学习在诸多任务中都展现出良好性能，因此如何在现有的深度学习模型框架下对部分结构进行了改进，从而让唇语识别技术可以有更高效的性能，是本发明要解决的技术问题。

发明内容

本发明为解决公知技术中存在的技术问题而提供一种唇部图像采集装置、唇语识别系统及在线唇语交互系统。

本发明为解决公知技术中存在的技术问题所采取的技术方案是：一种唇部图像采集装置，包括头戴式面罩、摄像头和信号传输系统；摄像头和信号传输系统嵌入在面罩内；面罩内设有使摄像头与佩戴者唇部之间存在间隙的支撑架；摄像头拍摄采集佩戴者唇部视频图像数据，并将采集的唇部视频图像数据通过信号传输系统向外部设备发送。

进一步地，面罩采用遮光材料制作。

进一步地，信号传输系统为无线信号传输系统。

进一步地，支撑架为弧形支撑架。

本发明还提供了一种唇语识别系统，该唇语识别系统包括上述的唇部图像采集装置。

进一步地，该唇语识别系统还包括采用python编程语言、多进程实现库及前端界面框架Tkinter搭建的数据处理系统；数据处理系统，其包括用于识别唇语的深度学习模型，其将唇部图像采集装置采集的唇部视频图像数据，通过深度学习模型进行唇语识别。

进一步地，深度学习模型包括前端网络和后端网络；前端网络包括残差网络；后端网络包括依次连接的双向GRU和Transformer-Decoder；前端网络用于提取唇部图像数据的空域特征；后端网络输入前端网络提取的空域特征，进一步对空域特征进行时序特征的提取，最后通过全连接层输出唇语指令。

进一步地，Transformer-Decoder以单个汉字作为基本单元，统计每两个字之间同时出现的频率，在预测时把统计概率与分类概率进行加和，对预测结果进行修正。

进一步地，数据处理系统还包括图像预处理单元；图像预处理单元将摄像头拍摄采集的每秒50帧～60帧的彩色视频数据，每帧图像大小为360*640～640*720像素点，把图像裁剪为360X360尺寸大小，再将裁剪后的图像通过双线性插值法压缩为88X88尺寸，同时转换为灰度图像。

本发明还提供了一种在线唇语交互系统，该在线唇语交互系统分为客户端和服务端两部分，服务端包括上述的唇语识别系统；服务端采集佩戴面罩者的唇部视频图像数据并识别出其唇语指令；然后通过socket框架把唇语指令传输到客户端，客户端的接收者按照接收到的唇语指令完成相应动作。

本发明具有的优点和积极效果是：

本发明的一种唇部图像采集装置一方面提供了一种头戴式数据采集面罩设备，这种面罩设备利用嵌入式摄像头对唇部及附近区域进行摄像采集，相比目前普遍使用的远距离固定位置采集方式，这种面罩具有稳定性高，抗干扰能力强等优点。使用面罩时，说话人可以随意走动，灵活性也较高。面罩对于外部光源可以进行有效阻挡，从而排除周围环境可能造成的背景干扰；面罩采用头戴式，相比普通摄像头采集到的唇部信息更细致，也不会出现唇部区域缺失的情况。

本发明的一种唇语识别系统，鉴于现有的时序特征提取结构往往具有结构复杂易产生过拟合、位置信息学习效果较差等缺陷，本发明提出的基于BGRU和Transformer-Decoder模型可以有效解决上述问题而且识别性能有明显提升。

本发明的在线唇语交互系统可实现通过采集唇部视频图像并识别为唇语指令，从而实现服务端和客户端的交互。

附图说明

图1是本发明所提供的一种基于循环神经网络和Transformer-Decoder的唇语识别技术示意图。

图2是本发明所提供的唇语识别深度学习模型结构示意图。

图3是数据采集面罩示意图。

具体实施方式

为能进一步了解本发明的发明内容、特点及功效，兹列举以下实施例，并配合附图详细说明如下：

图中及文中英文单词及缩写的中文释义如下：

Python：一种提供了诸多简洁强大而高效数据结构的高级编程语言，常被用于数据分析和处理等。

Tkinter：一种基于python标准设计的UI界面框架接口，本发明主要用于生成数据采集系统前端界面。

Transformer-Decoder：经典时序结构网络transformer的自回归解码器部分，可用于生成本发明中图像数据每个时间节点对应的文本结果。

GRU：循环门限结构单元，主要用于长短时信号的学习，本发明中被用作图像特征的编码器用于提取特征。

BGRU：双向循环门限结构单元，它是一种基于循环神经网络RNN改进而来的记忆循环神经网络。

ReLU：线性整流函数(Rectified Linear Unit,ReLU)，又称修正线性单元，是一种人工神经网络中常用的激活函数(activation function)。

Socket框架：用于在两个基于TCP/IP协议的应用程序之间相互通信的框架。

FC：全连接层。

Softmax：一种回归模型，用于多类别分类。

Conv2D：二维卷积。

ResNet：残差网络。

ResNet18：残差18网络。

BGRU+Decoder：双向GRU网络和Transformer-Decoder网络。

FC+Softmax：全连接层和Softmax层。

请参见图1至图3，一种唇部图像采集装置，包括头戴式面罩、摄像头和信号传输系统；摄像头和信号传输系统嵌入在面罩内；面罩内设有使摄像头与佩戴者唇部之间存在间隙的支撑架；摄像头拍摄采集佩戴者唇部视频图像数据，并将采集的唇部视频图像数据通过信号传输系统向外部设备发送。

优选地，面罩采用遮光材料制作。遮光材料为现有技术中的遮光材料，比如各种遮光布等。

优选地，信号传输系统可为无线信号传输系统。信号传输系统为现有技术中的信号传输系统，无线信号传输系统为现有技术中的无线信号传输系统，比如蓝牙等。

支撑架可采用现有技术中的结构，使摄像头能够实现拍摄采集佩戴者唇部视频图像数据。优选地，支撑架可为弧形支撑架。

优选地，该唇语识别系统还可包括采用python编程语言、多进程实现库及前端界面框架Tkinter搭建的数据处理系统；数据处理系统，其包括用于识别唇语的深度学习模型，其将唇部图像采集装置采集的唇部视频图像数据，通过深度学习模型进行唇语识别。

优选地，深度学习模型可包括前端网络和后端网络；前端网络可包括残差网络；后端网络可包括依次连接的双向GRU和Transformer-Decoder；前端网络可用于提取唇部图像数据的空域特征；后端网络输入前端网络提取的空域特征，进一步对空域特征进行时序特征的提取，最后可通过全连接层输出唇语指令。

优选地，Transformer-Decoder可以单个汉字作为基本单元，可统计每两个字之间同时出现的频率，可在预测时把统计概率与分类概率进行加和，对预测结果进行修正。

优选地，数据处理系统还可包括图像预处理单元；图像预处理单元可将摄像头拍摄采集的每秒50帧～60帧的彩色视频数据，每帧图像大小可为360*640～640*720像素点，可把图像裁剪为360X360尺寸大小，可再将裁剪后的图像通过双线性插值法压缩为88X88尺寸，同时可转换为灰度图像。

本发明还提供了一种在线唇语交互系统实施例，该在线唇语交互系统分为客户端和服务端两部分，服务端包括上述的唇语识别系统；服务端采集佩戴面罩者的唇部视频图像数据并识别出其唇语指令；然后通过socket框架把唇语指令传输到客户端，客户端的接收者按照接收到的唇语指令完成相应动作。

下面以本发明的一个优选实施例来进一步说明本发明的工作原理：

鉴于本领域数据获取及应用场景的现实问题，本发明一方面提供了一种唇部图像采集装置，包括头戴式面罩、摄像头和信号传输系统。这种唇部图像采集装置，利用头戴式面罩嵌入式摄像头，对唇部及附近区域进行摄像采集，相比目前普遍使用的远距离固定位置采集方式，这种头戴式面罩具有稳定性高，抗干扰能力强等优点。使用面罩时，说话人可以随意走动，灵活性也较高。

面罩对于外部光源可以进行有效阻挡，从而排除周围环境可能造成的背景干扰；面罩采用头戴式，相比普通摄像头采集到的唇部信息更细致，也不会出现唇部区域缺失的情况。

本发明的第二个方面是提供了一种唇语识别系统，唇语识别系统是基于公共开源工具进行实现，主要包括编程开发语言python、多进程实现库、前端界面框架Tkinter等，唇语识别系统通过设置指令集文件中的指令来提示被采集人说话的内容，其中采集过程通过子线程完成，采集完成的数据用于深度学习模型的训练，模型训练完成后则用于在线唇语识别。

本发明提出一种高效简洁的用于识别唇语的深度学习模型结构，深度学习模型包括前端网络和后端网络；其中，前端网络包括残差网络；后端网络可包括依次连接的双向GRU和Transformer-Decoder。

前端网络使用残差结构实现对图像数据空域特征的学习和提取。

后端网络鉴于现有的时序特征提取结构往往具有结构复杂易产生过拟合、位置信息学习效果较差等缺陷，后端网络的基于BGRU和Transformer-Decoder网络结构可以有效解决上述问题而且识别性能有明显提升。

通过前端网络得到的特征序列输入到后端基于BGRU和Transformer-Decoder的联合结构中进行时序信息的获取，最后通过全连接层输出识别指令。

不同于训练阶段，本发明通过在识别阶段引入概率统计模型实现对输出结果的优化。概率统计模型是对指令文本集中字符的统计结果得到的，本发明利用这个统计概率与深度学习模型输出概率的加和实现预测结果的优化。

本发明的第三个方面是提供了在线唇语交互系统，在线唇语交互系统可分为客户端和服务端两大部分，服务端通过采集佩戴面罩的指令发出人的指令内容，然后通过socket框架把指令内容传输到接收人的终端即客户端，接收人再通过接收到的指令完成相应动作，整个系统实现了完整的在线唇语交互功能。

本发明的一种唇语识别系统的工作步骤包括：

(1)视频图像的预处理

通过本发明采集到的视频为长度60帧的彩色图像，每帧图像大小为360X640像素点，为使模型更加关注唇部区域动作，需要把图像裁剪为360X360尺寸大小，得到裁剪后的图像再通过双线性插值法压缩为88X88尺寸，同时转换为灰度图像。为减少深度学习模型的梯度消失或梯度爆炸情况，还需要把图像灰度值进行归一化处理，实现方式是让每个像素点的值除以255。

(2)基于BGRU和Transformer-Decoder深度学习模型的训练

本发明所使用的模型结构包括前端网络和后端网络两个部分。前端网络使用空域特征提取器，采用一层2D卷积和ResNet18的组合体，激活函数使用ReLU，通过前端网络得到每帧图像对应的特征长度为512；提取到的特征输入到由BGRU和Transformer-Decoder组合成的后端网络中进行时序特征的学习，最后经过全连接层输出每个时间点的结果。

ResNet18，又称残差18网络，是微软亚研院于2015年最早提出的，后来发展到了ResNet50、ResNet101等深层结构并在当年的竞赛分类中取得了良好效果。虽然理论上模型结构越复杂、网络层数越多，分类和识别的效果就越好；但由于网络层数加深，参数累积效应明显，模型的反向传播极易出现梯度消失情况，而残差连接的结构相当于增加了快捷连接，让梯度传播更加快速，大幅减少了梯度消失或爆炸的情况，让深层网络的训练成为可能。

BGRU也称双向GRU结构，它是一种基于循环神经网络RNN改进而来的记忆循环神经网络，也是长短时记忆网络LSTM的简化版，双向GRU结构在每个时间节点都共享权重参数，其内部结构主要由重置门和更新门实现记忆信号的更新和结果的输出，相比Transformer-Encoder结构，BGRU的特点在于对时序信息的记忆能力更强，模型参数更小，易于训练，因此本发明使用BGRU替代Transformer-Encoder提取视频数据的时序信息。

Transformer-Decoder是一种语言解码模型，通过上一时间步的预测结果和来自前一个模块的输出结果共同预测当前时间步对应的结果，这是一种单向的结构。在Decoder预测阶段，本发明还加入了基于统计概率的模型进行优化。本发明以单个汉字作为基本单元，统计每两个字之间同时出现的频率，在Transformer-Decoder预测时把统计概率与分类概率进行加和，从而实现对预测结果的修正。

(3)模型效果验证和评估

本发明采用了面罩采集的数据进行模型性能的验证评估，主要评估指标包括准确率、精确率、召回率、SCR、WER等。其中准确率、精准率、召回率、SCR越大表示模型的效果越好，识别精度越高；而WER越低表示模型的单词级误识别率越低，模型性能越好。

准确率是指模型对训练集或验证集预测正确的个数对样本总量所占的比值。

精准率是指模型预测为正样本的个数中实际为正样本的个数所占的比值。

召回率是指实际为正样本的集合中被模型预测为正样本的个数所占的比值。

SCR是指预测完全正确的句子占样本集所有语句的比值。

WER是指模型预测出的语句与样本集所有语句之间的最小编辑距离。

以上所述的实施例仅用于说明本发明的技术思想及特点，其目的在于使本领域内的技术人员能够理解本发明的内容并据以实施，不能仅以本实施例来限定本发明的专利范围，即凡本发明所揭示的精神所作的同等变化或修饰，仍落在本发明的专利范围内。

Claims

1.一种唇部图像采集装置，其特征在于，包括头戴式面罩、摄像头和信号传输系统；摄像头和信号传输系统嵌入在面罩内；面罩内设有使摄像头与佩戴者唇部之间存在间隙的支撑架；摄像头拍摄采集佩戴者唇部视频图像数据，并将采集的唇部视频图像数据通过信号传输系统向外部设备发送。

2.根据权利要求1所述的唇部图像采集装置，其特征在于，面罩采用遮光材料制作。

3.根据权利要求1所述的唇部图像采集装置，其特征在于，信号传输系统为无线信号传输系统。

4.根据权利要求1所述的唇部图像采集装置，其特征在于，支撑架为弧形支撑架。

5.一种唇语识别系统，其特征在于，该唇语识别系统包括权利要求1至4任一所述的唇部图像采集装置。

6.根据权利要求5所述的唇语识别系统，其特征在于，该唇语识别系统还包括采用python编程语言、多进程实现库及前端界面框架Tkinter搭建的数据处理系统；数据处理系统，其包括用于识别唇语的深度学习模型，其将唇部图像采集装置采集的唇部视频图像数据，通过深度学习模型进行唇语识别。

7.根据权利要求6所述的唇语识别系统，其特征在于，深度学习模型包括前端网络和后端网络；前端网络包括残差网络；后端网络包括依次连接的双向GRU和Transformer-Decoder；前端网络用于提取唇部图像数据的空域特征；后端网络输入前端网络提取的空域特征，进一步对空域特征进行时序特征的提取，最后通过全连接层输出唇语指令。

8.根据权利要求7所述的唇语识别系统，其特征在于，Transformer-Decoder以单个汉字作为基本单元，统计每两个字之间同时出现的频率，在预测时把统计概率与分类概率进行加和，对预测结果进行修正。

9.根据权利要求6所述的唇语识别系统，其特征在于，数据处理系统还包括图像预处理单元；图像预处理单元将摄像头拍摄采集的每秒50帧～60帧的彩色视频数据，每帧图像大小为360*640～640*720像素点，把图像裁剪为360X360尺寸大小，再将裁剪后的图像通过双线性插值法压缩为88X88尺寸，同时转换为灰度图像。

10.一种在线唇语交互系统，其特征在于，该在线唇语交互系统分为客户端和服务端两部分，服务端包括权利要求5至9任一所述的唇语识别系统；服务端采集佩戴面罩者的唇部视频图像数据并识别出其唇语指令；然后通过socket框架把唇语指令传输到客户端，客户端的接收者按照接收到的唇语指令完成相应动作。