CN113887339A

CN113887339A - 融合表面肌电信号与唇部图像的无声语音识别系统及方法

Info

Publication number: CN113887339A
Application number: CN202111080264.9A
Authority: CN
Inventors: 陶文源; 付麟惠; 许敏鹏; 孟佳圆
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2021-09-15
Filing date: 2021-09-15
Publication date: 2022-01-04

Abstract

本发明公开了一种融合表面肌电信号与唇部图像的无声语音识别系统，包括：依次相连的表面肌电信号采集系统、表面肌电信号预处理系统、表面肌电信号识别模型；依次相连的唇部图像采集系统、唇部图像预处理系统、唇部图像识别模型；以及综合识别模型；综合识别模型的输入端分别与唇部图像识别模型和表面肌电信号识别模型的输出端相连，综合识别模型用于对表面肌电信号识别模型和唇部图像识别模型的预测结果进行融合并输出综合预测。本发明还公开了一种融合表面肌电信号与唇部图像的无声语音识别方法，同步采集表面肌电信号和唇部图像并进行综合预测。本发明相较于肌电信号或者唇部图像单模态信息作为输入的识别方法有着明显的精度提升。

Description

融合表面肌电信号与唇部图像的无声语音识别系统及方法

技术领域

本发明属于人工智能和深度学习领域，特别涉及一种融合表面肌电信号与唇部图像的无声语音识别系统及方法。

背景技术

近年来，随着深度学习技术的发展，基于非声学生物信号的无声语音识别技术已逐渐发展并受到了越来越多的关注。作为有声语音识别的一种替代通信手段，无声语音识别方法能够避免有声语音识别的一些局限性：(1)对嘈杂环境的低适应性；(2)对语言障碍患者的低可用性；(3)低私密性及安全性，尤其是在公共场合。

基于表面肌电信号的语音识别，意味着通过语音过程中从面部和颈部等发声相关肌肉部位所产生的表面肌电信号识别所说的内容。表面肌电信号能够有效地反映出发音与其共振相关活动，有效地模拟生物参数与语音序列之间的映射关系。近年来，深度学习方法被用于基于表面肌电信号的识别，并取得了优异的性能。与传统的方法相比，深度神经网络提供了对说话过程中复杂肌电活动的更深层次的理解。

基于视觉唇部图像的语音识别，即唇语识别，意味着通过说话过程中捕捉唇部的动态变化特征进行语音内容的解码。唇语识别依赖于视频理解技术与图像处理技术，随着深度学习技术与计算机视觉技术的发展，唇语识别技术有了很大的发展。作为人工智能的一个重要领域，唇语识别技术有着广阔的应用前景与价值。

目前，现有的无声语音识别往往只用了一种生物信号作为输入，但是每种生物信号的可靠性是易变的。表面肌电信号本身是微弱的，且容易受到无关动作的干扰；唇部特征容易受光照、说话人身份等因素影响。利用单模态信息的语音识别方法的效果不够好。

发明内容

本发明为解决公知技术中存在的技术问题而提供一种融合表面肌电信号与唇部图像的无声语音识别系统及方法。

本发明为解决公知技术中存在的技术问题所采取的技术方案是：一种融合表面肌电信号与唇部图像的无声语音识别系统，包括：依次相连的表面肌电信号采集系统、表面肌电信号预处理系统、表面肌电信号识别模型；依次相连的唇部图像采集系统、唇部图像预处理系统、唇部图像识别模型；以及综合识别模型；综合识别模型的输入端分别与唇部图像识别模型和表面肌电信号识别模型的输出端相连；

表面肌电信号采集系统用于采集与发声相关的面部及颈部的肌肉收缩时产生的表面肌电信号，表面肌电信号预处理系统用于对采集的表面肌电信号进行预处理，表面肌电信号识别模型用于对预处理后的表面肌电信号进行特征提取并进行无声语音预测；

唇部图像采集系统用于采集唇部动作时的唇部图像，唇部图像预处理系统用于对采集的唇部图像数据进行预处理，唇部图像识别模型用于对预处理后的唇部图像进行特征提取并进行无声语音预测；

综合识别模型用于对表面肌电信号识别模型和唇部图像识别模型的预测结果进行融合并输出综合预测。

进一步地，表面肌电信号识别模型，其包括依次连接的二维卷积神经网络、双向门控循环单元、全连接层及SoftMax层；其二维卷积神经网络用于提取表面肌电信号的时频域特征，其双向门控循环单元用于处理表面肌电信号的特征信息并对时间动态进行建模；其全连接层及SoftMax层用于输出表面肌电信号的无声语音预测。

进一步地，唇部图像识别模型，其包括依次连接的三维卷积神经网络、残差网络、双向门控循环单元、全连接层及SoftMax层；其三维卷积神经网络和残差网络用于提取唇部图像的时间特征和空间特征，其双向门控循环单元用于处理唇部图像的特征信息并对时间动态进行建模；其全连接层及SoftMax层用于输出唇部图像的无声语音预测。

进一步地，表面肌电信号采集系统包括多个信号采集通道，每个采集通道包括一个采集肌肉动作信号的表面电极，多个表面电极分别设置在不同位置。

进一步地，表面肌电信号预处理系统包括信号放大器、滤波器及傅里叶变换器；信号放大器用于对表面电极采集的表面肌电信号进行放大，滤波器用于对放大后的表面肌电信号进行滤波处理，傅里叶变换器用于对滤波处理后的多个通道表面肌电信号同步进行时频域的特征提取。

进一步地，滤波器包括陷波滤波器和巴特沃斯四阶带通滤波器，陷波滤波器用于去除50Hz的工频干扰，巴特沃斯四阶带通滤波器用于对肌电信号的高频和直流偏置进行滤波。

进一步地，唇部图像采集系统包括可穿戴摄像头；唇部图像预处理系统将可穿戴摄像头采集的视频数据转换成视频图像帧，将每帧图像转换为灰度图像；利用均值和方差对每帧图像的数据进行归一化处理。

本发明还提供了一种利用上述的融合表面肌电信号与唇部图像的无声语音识别系统的融合表面肌电信号与唇部图像的无声语音识别方法，其特征在于，包括如下步骤：

步骤1，采集制作训练样本集及测试集；并对表面肌电信号识别模型和唇部图像识别模型分别进行训练和测试；

步骤2，表面肌电信号采集系统与唇部图像采集系统同步采集表面肌电信号和唇部图像；

步骤3，表面肌电信号预处理系统及唇部图像预处理系统对应对采集的表面肌电信号和唇部图像进行预处理；

步骤4，将预处理后的表面肌电信号和唇部图像数据，对应输入训练完成的表面肌电信号识别模型和唇部图像识别模型进行独立预测；由表面肌电信号识别模型得到一组表面肌电信号的单个类别的得分向量，进一步得到一组表面肌电信号的各个类别的概率分布值；由唇部图像识别模型得到一组唇部图像的单个类别的得分向量，进一步得到一组唇部图像的各个类别的概率分布值；

步骤5，将表面肌电信号的各个类别的概率分布值与唇部图像的各个类别的概率分布值同步输入至综合识别模型，综合识别模型对这两种概率分布值进行相乘，输出乘积后的概率矩阵，即为无声语音预测的综合预测结果。

进一步地，步骤1中，制作唇部图像的训练集时，随机选取50％的唇部图像进行中心裁剪和水平翻转。

进一步地，步骤1中，对表面肌电信号识别模型和唇部图像识别模型训练时，均采用交叉熵损失函数作为损失函数计算损失值。

本发明具有的优点和积极效果是：本发明所提出的融合肌电信号与唇部图像的语音识别方法有着出色的识别准确率，并且相较于仅使用单模态信息(肌电信号或者唇部图像)作为输入的识别方法有着明显的精度提升。

附图说明

图1是本发明的一种融合表面肌电信号与唇部图像的无声语音识别系统的结构示意图。

图2是本发明的一种表面肌电信号预处理系统处理后的表面肌电信号时频谱图。

图3是本发明的一种唇部图像预处理系统处理后的灰度唇部图像图。

图4是本发明的一种表面肌电信号识别模型工作流程示意图。

图5是本发明的一种唇部图像识别模型工作流程示意图。

图6是本发明的一种融合表面肌电信号与唇部图像的无声语音识别方法工作流程图。

具体实施方式

为能进一步了解本发明的发明内容、特点及功效，兹列举以下实施例，并配合附图详细说明如下：

文中的英文单词及缩写的中文释义如下：

logits:未归一化的概率,即各个特征的加权之和。logits经过sigmoid或softmax函数变为归一化的概率值。

FC：全连接层。

SoftMax：softmax函数,又称归一化指数函数。它是二分类函数sigmoid在多分类上的推广,目的是将多分类的结果以概率的形式展现出来。

CELoss：交叉熵损失函数。

2D-CNN：二维卷积神经网络。

3D-CNN：三维卷积神经网络。

GRU：门控循环单元。

BiGRU：双向门控循环单元。

Sigmoid：sigmoid函数是一个S型函数，也称为S型生长曲线函数。

Tanh：tanh函数为激活函数，是双曲函数中的一种双曲正切函数。

ResNet：残差网络。

请参见图1至图6，一种融合表面肌电信号与唇部图像的无声语音识别系统，包括：依次相连的表面肌电信号采集系统、表面肌电信号预处理系统、表面肌电信号识别模型；依次相连的唇部图像采集系统、唇部图像预处理系统、唇部图像识别模型；以及综合识别模型；综合识别模型的输入端分别与唇部图像识别模型和表面肌电信号识别模型的输出端相连；

综合识别模型的融合方法可采用对表面肌电信号识别模型和唇部图像识别模型的预测结果分配不同的权重，然后将表面肌电信号识别模型和唇部图像识别模型的预测结果乘以对应权重后相加，得到相加后的各类预测结果作为综合预测。也可以采用将表面肌电信号识别模型的对无声语音的各类预测概率，与唇部图像识别模型的对无声语音的各类预测概率进行对应相乘；得到相乘后的各类预测概率作为综合预测。通过选出各类语音内容预测的最大概率得到最终预测结果，完成语音内容的分类并输出对应的文字。综合识别模型的融合方法还可采用现有技术中的其他综合预测方法。

优选地，表面肌电信号识别模型，其可包括依次连接的二维卷积神经网络、双向门控循环单元、全连接层及SoftMax层；其二维卷积神经网络可用于提取表面肌电信号的时频域特征，其双向门控循环单元可用于处理表面肌电信号的特征信息并对时间动态进行建模；其全连接层及SoftMax层可用于输出表面肌电信号的无声语音预测。

优选地，唇部图像识别模型，其可包括依次连接的三维卷积神经网络、残差网络、双向门控循环单元、全连接层及SoftMax层；其三维卷积神经网络和残差网络可用于提取唇部图像的时间特征和空间特征，其双向门控循环单元可用于处理唇部图像的特征信息并对时间动态进行建模；其全连接层及SoftMax层可用于输出唇部图像的无声语音预测。

优选地，表面肌电信号采集系统可包括多个信号采集通道，每个采集通道可包括一个采集肌肉动作信号的表面电极，多个表面电极可分别设置在不同位置。

优选地，表面肌电信号预处理系统可包括信号放大器、滤波器及傅里叶变换器；信号放大器用于对表面电极采集的表面肌电信号进行放大，滤波器用于对放大后的表面肌电信号进行滤波处理，傅里叶变换器用于对滤波处理后的多个通道表面肌电信号同步进行时频域的特征提取。

优选地，滤波器可包括陷波滤波器和巴特沃斯四阶带通滤波器，陷波滤波器用于去除50Hz的工频干扰，巴特沃斯四阶带通滤波器用于对肌电信号的高频和直流偏置进行滤波。

优选地，唇部图像采集系统可包括可穿戴摄像头；唇部图像预处理系统将可穿戴摄像头采集的视频数据可转换成视频图像帧，可将每帧图像转换为灰度图像；可利用均值和方差对每帧图像的数据进行归一化处理。

优选地，步骤1中，制作唇部图像的训练集时，可随机选取50％的唇部图像进行中心裁剪和水平翻转。

优选地，步骤1中，对表面肌电信号识别模型和唇部图像识别模型训练时，可均采用交叉熵损失函数作为损失函数计算损失值。

下面以本发明的一个优选实施例来进一步说明本发明的工作流程及工作原理：

1、制作数据集。

我们设计了数据采集系统，由硬件(表面电极、信号放大器、路由器、可穿戴摄像头等)和软件(信号同步采集程序)组成，用以同步采集表面肌电信号和唇部图像。我们选择面部和颈部与发声相关且干扰较小的位置作为表面肌电信号采集点放置表面电极，采用6个通道，分别为颏肌、笑肌、上唇提肌、下颚二腹肌前腹、下颌舌骨肌和颈阔肌。6个表面电极分别采集颏肌、笑肌、上唇提肌、下颚二腹肌前腹、下颌舌骨肌和颈阔肌的动作信号。我们利用可穿戴摄像头固定在被试头部，通过手动调整摄像头与唇部距离，保持被试唇部在说话时完全在摄像头画面内，用来正面捕捉被试说话时唇部变化的运动特征。

数据采集实验过程中，被试要求坐在椅子上，根据信号同步采集程序呈现的文字内容默读，期间需要避免不必要的身体动作(摇头、咳嗽、打哈欠、吞咽等)。每次采集实验持续约2个小时，包括实验前期准备、数据采集、以及为防止被试实验中产生疲劳提供给被试充足的休息时间。本方法共采集了20位被试的肌电与唇图数据，一共20137份样本(每份样本包含一条肌电信号记录与一条记录唇部运动的视频。)

2、预处理数据。

表面肌电信号预处理：

通过陷波滤波器去除50Hz的工频干扰，使用巴特沃斯四阶带通滤波器(10～400Hz)对肌电信号的高频和直流偏置进行滤波。

利用短时傅里叶变换将6个通道的肌电信号提取时频域特征，得到6个通道的时频谱特征，如图2所示。

唇部图像预处理：

将原始视频转换成视频图像帧，每条视频能够得到60帧尺寸大小为96x128的图像。将每帧图像裁剪为87x116的固定尺寸。

利用均值和方差对图像数据进行归一化。

将所有帧转换为灰度帧，如图3所示。

预训练肌电语音识别网络和唇语识别网络

将收集到的数据集按照训练集：测试集＝8:2的比例进行划分。为了防止唇部图像识别模型过拟合，在训练集随机选取50％的唇部图像进行中心裁剪和水平翻转。

表面肌电信号识别模型和唇部图像识别模型使用同样的训练方法：采用交叉熵损失函数(CELoss)作为损失函数计算损失值；当损失值逐渐下降时，由输出层至输入层反向计算各层神经元的输出误差，通过梯度下降法调节各层网络参数并进行更新。当损失值不再下降或趋于稳定时，训练结束，得到训练后的表面肌电信号识别模型及唇部图像识别模型。

CE Loss的计算过程：

CE Loss＝-∑_kp(k)log(q(k))。

式中，k为标签类别；p(k)为标签k的标注值；q(k)为标签k的预测概率。

3、预测结果。

首先，将表面肌电信号与唇部图像数据分别输入预训练好的表面肌电信号识别模型和唇部图像识别模型进行独立预测。利用SoftMax激活函数对输出的logits做归一化处理，将单个分类的得分向量转换为各个类别的概率组成的概率分布值。

SoftMax函数公式为：

式中，a_k表示输出层第k个输入信号，分母表示输出层共M个输出信号，并计算所有输出层中的输入信号的指数和。y_k是第k个信号的输出。

为了利用肌电信号与唇部图像的信息，将对由表面肌电信号识别模型和唇部图像识别模型得到的概率进行相乘，得到乘积后的概率矩阵。

融合表面肌电信号识别模型和唇部图像识别模型的预测信息进行决策融合的公式为：

y_i＝y_ie*y_iv

y_i为标签i实际对应的概率值。y_ie为通过表面肌电信号识别模型得到的关于标签i的概率值；y_iv为通过唇部图像识别模型得到的关于标签i的概率值。

通过选出乘积矩阵中的最大概率得到最终预测结果，完成语音内容的分类并输出对应的文字。

表面肌电信号识别模型结构：

肌电语音识别网络结构采用端到端的结构，如图4所示，分为前端网络和后端网络，前端网络包括二维的卷积神经网络(英文缩写2D-CNN)和池化层，后端网络包括双向门控循环单元(英文缩写BiGRU)，原始肌电信号经过预处理后得到时频域特征并作为表面肌电信号识别模型的输入，经过四层卷积综合学习到的肌电信号序列局部特征来获取全局信息，并使用最大池化层来降维，消除部分冗余信息。然后将前端网络提取到的特征向量输入到后端网络BiGRU中。

门控循环单元，英文缩写GRU，是循环神经网络的一种，具有两个输入：上一个传输下来的状态h_t-1和当前节点的输入x_t来获取两个门控状态：重置门r和更新门u。重置门决定如何把新的输入与之前的记忆相结合，更新们决定多少之前的记忆起作用。

更新门：z_u＝σ(W_u*[h_t-1,x_t]+b_u)。

式中，σ是sigmoid函数，sigmoid函数是一个S型函数，也称为S型生长曲线函数。在信息科学中，由于其单增以及反函数单增等性质，sigmoid函数常被用作神经网络的激活函数，将变量映射到0,1之间。通过sigmoid函数将数据变换为[0,1]范围内的数值，用来充当门控信号。W_u是控制更新门的权值矩阵，b_u是更新门的偏置。

重置门：z_r＝σ(W_r*[h_t-1,x_t]+b_r)。

式中，σ是sigmoid函数，通过sigmoid函数将数据变换为[0,1]范围内的数值，用来充当门控信号。W_r是控制重置门的权值矩阵，b_r是重置门的偏置。

通过重置门重置数据，并结合x_t，通过tanh函数将数据放缩到-1～1的范围内，得到包含当前节点信息的

tanh函数为激活函数，是双曲函数中的一种双曲正切函数。

最后，利用更新门对记忆进行更新：

(1-z_u)*h_t-1表示对原本隐藏状态的选择性遗忘，忘记h_t-1维度中一些不重要的信息。

表示对包含当前结点信息的

选择性记忆，即加入当前输入节点的某些维度信息，最后得到h_t。

BiGRU网络结构是由两层GRU组成：一个前向传播的GRU和一个后向传播的GRU。前向传播的GRU对输入向量沿着时间正序处理，后向传播的GRU则沿着时间逆向处理。这种双向的网络结构能够充分利用上下文信息，捕捉到更多的特征信息，有利于进行对时间动态的建模。通过BiGRU获取有效的时间特征和空间特征，并将特征向量传给最后的全连接层(英文缩写FC)和SoftMax层来预测结果。

唇部图像识别模型结构：

唇语识别网络结构采用端到端的结构，如图5所示，分为前端网络和后端网络，前端网络包括三维的卷积神经网络(英文缩写3D-CNN)和残差网络(英文缩写ResNet)，后端网络包括双向门控循环单元(英文缩写BiGRU)，经过预处理的唇部灰度图像灰度作为唇部图像识别模型的输入，使用三维的卷积神经网络和残差网络提取视觉信息的时间特征和空间特征，并将提取后的特征向量传递后端网络中BiGRU处理特征信息以及对时间动态进行建模，最后经过全连接层(英文缩写FC)和SoftMax层来预测结果。

融合网络结构：

融合肌电信息与唇图信息的网络结构如图6所示，肌电信息和唇图数据同时输入表面肌电信号识别模型和唇部图像识别模型，经过网络层和全连接层，对两个网络的各自的SoftMax层独立输出的结果概率进行决策融合，将输出的概率进行相乘得到最后的概率矩阵。

实验测试：

数据集共有100个样本分类，设置了3个对比实验(肌电语音识别实验、唇语识别实验、融合肌电与唇图的语音识别实验)。当预测的结果分类与标签分类一致时，认为预测结果正确。测试结果如表1所示。

实验结果证明，相比于仅使用肌电信息或唇语信息作为输入的语音识别方法，本方法具有更高的识别准确率。请参见表1，表1为实验测试结果。

表1：测试结果

以上所述的实施例仅用于说明本发明的技术思想及特点，其目的在于使本领域内的技术人员能够理解本发明的内容并据以实施，不能仅以本实施例来限定本发明的专利范围，即凡本发明所揭示的精神所作的同等变化或修饰，仍落在本发明的专利范围内。

Claims

1.一种融合表面肌电信号与唇部图像的无声语音识别系统，其特征在于，包括：依次相连的表面肌电信号采集系统、表面肌电信号预处理系统、表面肌电信号识别模型；依次相连的唇部图像采集系统、唇部图像预处理系统、唇部图像识别模型；以及综合识别模型；综合识别模型的输入端分别与唇部图像识别模型和表面肌电信号识别模型的输出端相连；

2.根据权利要求1所述的融合表面肌电信号与唇部图像的无声语音识别系统，其特征在于，表面肌电信号识别模型，其包括依次连接的二维卷积神经网络、双向门控循环单元、全连接层及SoftMax层；其二维卷积神经网络用于提取表面肌电信号的时频域特征，其双向门控循环单元用于处理表面肌电信号的特征信息并对时间动态进行建模；其全连接层及SoftMax层用于输出表面肌电信号的无声语音预测。

3.根据权利要求1所述的融合表面肌电信号与唇部图像的无声语音识别系统，其特征在于，唇部图像识别模型，其包括依次连接的三维卷积神经网络、残差网络、双向门控循环单元、全连接层及SoftMax层；其三维卷积神经网络和残差网络用于提取唇部图像的时间特征和空间特征，其双向门控循环单元用于处理唇部图像的特征信息并对时间动态进行建模；其全连接层及SoftMax层用于输出唇部图像的无声语音预测。

4.根据权利要求1所述的融合表面肌电信号与唇部图像的无声语音识别系统，其特征在于，表面肌电信号采集系统包括多个信号采集通道，每个采集通道包括一个采集肌肉动作信号的表面电极，多个表面电极分别设置在不同位置。

5.根据权利要求4所述的融合表面肌电信号与唇部图像的无声语音识别系统，其特征在于，表面肌电信号预处理系统包括信号放大器、滤波器及傅里叶变换器；信号放大器用于对表面电极采集的表面肌电信号进行放大，滤波器用于对放大后的表面肌电信号进行滤波处理，傅里叶变换器用于对滤波处理后的多个通道表面肌电信号同步进行时频域的特征提取。

6.根据权利要求5所述的融合表面肌电信号与唇部图像的无声语音识别系统，其特征在于，滤波器包括陷波滤波器和巴特沃斯四阶带通滤波器，陷波滤波器用于去除50Hz的工频干扰，巴特沃斯四阶带通滤波器用于对肌电信号的高频和直流偏置进行滤波。

7.根据权利要求1所述的融合表面肌电信号与唇部图像的无声语音识别系统，其特征在于，唇部图像采集系统包括可穿戴摄像头；唇部图像预处理系统将可穿戴摄像头采集的视频数据转换成视频图像帧，将每帧图像转换为灰度图像；利用均值和方差对每帧图像的数据进行归一化处理。

8.一种利用权利要求1至7任一所述的融合表面肌电信号与唇部图像的无声语音识别系统的融合表面肌电信号与唇部图像的无声语音识别方法，其特征在于，包括如下步骤：

9.根据权利要求8所述的融合表面肌电信号与唇部图像的无声语音识别方法，其特征在于，步骤1中，制作唇部图像的训练集时，随机选取50％的唇部图像进行中心裁剪和水平翻转。

10.根据权利要求8所述的融合表面肌电信号与唇部图像的无声语音识别方法，其特征在于，步骤1中，对表面肌电信号识别模型和唇部图像识别模型训练时，均采用交叉熵损失函数作为损失函数计算损失值。