CN112330713B

CN112330713B - 基于唇语识别的重度听障患者言语理解度的改进方法

Info

Publication number: CN112330713B
Application number: CN202011346536.0A
Authority: CN
Inventors: 唐闺臣; 王沛; 梁瑞宇; 王青云; 李克; 邹采荣; 谢跃; 包永强
Original assignee: Nanjing Institute of Technology
Current assignee: Nanjing Institute of Technology
Priority date: 2020-11-26
Filing date: 2020-11-26
Publication date: 2023-12-19
Anticipated expiration: 2040-11-26
Also published as: CN112330713A

Abstract

本发明公开了一种基于唇语识别的重度听障患者言语理解度的改进方法，包括：使用图像采集设备从现实环境中采集唇部运动图像序列，作为深度神经网络的输入特征；构建基于深度学习的视觉模态语音端点检测方法，在低信噪比条件下确认语音段位置；构建基于三维卷积‑残差网络‑双向GRU结构的深度学习模型作为基线模型；在基线模型的基础上构建基于时空信息特征的唇语识别模型；利用交叉熵损失训练网络模型，根据训练后的唇语识别模型识别出说话内容。本发明通过时空信息反馈来捕捉唇语图像的细粒度特征和时域关键帧，从而提高对复杂环境中唇语特征的适应性，提高唇语识别性能，改善了重度听障患者的语言理解能力，具有良好的应用前景。

Description

基于唇语识别的重度听障患者言语理解度的改进方法

技术领域

本发明属于言语理解领域，具体涉及一种基于唇语识别的重度听障患者言语理解度的改进方法。

背景技术

对于重度以上听障患者来说，由于其听觉心理或生理存在严重的损伤，因此几乎无法有效理解其他说话人表达的语言内容，甚至都无法感知声音。虽然助听器可以部分改善患者的听觉感知能力，但是对于重度以上听障患者来说，其实际作用有限。听觉耳蜗虽然可以改善重度以上听障患者的言语感知能力，但是由于听觉耳蜗需要做手术，存在一定的风险。

而且，在复杂实际环境中，语音信号常常伴随各种类型的噪声和瞬时干扰，尤其是在低信噪比条件下，即使正常听力者有时都不能有效感知声音。然而，视觉模态的嘴唇运动信息不会受到声学环境的干扰，且与言语感知任务具有强相关性。因此，基于唇语识别的言语理解方法是改善重度以上听障患者的言语感知能力的有效方法。

早期唇语识别的传统方法流程包括：嘴唇检测、特征提取和分类器分类。其技术核心主要包括用HOG等特征提取算法捕捉嘴唇的几何特征，利用隐藏马尔科夫模型识别特征序列。这类方法在特征提取和时序建模方面的效果都及其有限，在大规模数据集以及现实环境中的表现不佳，不具备实用性。

近年来深度学习算法在唇语识别领域取得了比传统算法更好的识别效果。比如卷积神经网络配合长短时记忆网络，在一定程度上提升了唇语识别的准确率，但是唇语识别任务目前还存在很多难点和挑战：

(1)现有算法难以捕捉唇部的细粒度特征；

(2)不能解决特征的长短时依赖的问题；

(3)不能抑制词语边界划分不精准所带来的冗余信息。

通过上述的描述，建立一种能够高准确率和高鲁棒性的唇语识别模型，从而改善重度听障患者的言语理解方法具有重要研究意义。

发明内容

发明目的：针对现有技术中言语助听方法对重度以上听障患者作用有限的问题，本发明公开了一种基于唇语识别的重度听障患者言语理解度的改进方法，通过引入空间信息反馈模块和时间信息反馈模块来辅助训练，从而捕捉唇部的细粒度特征、解决长短时依赖、抑制词语的冗余信息，提升唇语识别的鲁棒性和准确率，方法巧妙新颖，具有良好的应用前景。

技术方案：本发明采用如下技术方案：一种基于唇语识别的重度听障患者言语理解度的改进方法，其特征在于，包括如下步骤：

步骤A、使用图像采集设备从现实环境中采集唇部运动图像序列；

步骤B、构建基于深度学习的视觉模态语音端点检测方法，使用关键点检测预估唇部的运动状态及其相对位置，确认唇部运动图像序列中语音段的位置；

步骤C、构建基于三维卷积-残差网络-双向GRU结构的深度学习模型作为基线模型，输入语音段位置的唇部运动图像序列，输出语音段位置的唇部运动图像序列所代表的单词；

步骤D、在步骤C中基线模型的基础上分别引入空间信息反馈模块和时间信息反馈模块，构建基于时空信息特征的唇语识别模型；

步骤E、利用交叉熵损失训练唇语识别模型，根据训练后的唇语识别模型，输入步骤B中获取的语音段位置的唇部运动图像序列，识别出对应的说话内容。

优选地，步骤B操作如下：

步骤B1、构建关键点检测模型，关键点检测模型包括依次连接的6层深度可分离卷积网络和3层多尺度卷积网络以及全连接层，输入唇部运动图像序列，输出唇部及其周边的关键点的位置信息序列；

步骤B2、将步骤B1得到的关键点分组，其中每一组包括2个关键点且分别位于唇部的上方和下方，计算所有组关键点的平均L2距离序列，并在时序上求均方差：

其中，N表示关键点分组的数目；为t时刻第n组关键点的坐标，i＝1,2；M_t为t时刻的平均L2距离序列；/>为M_t序列中t时刻向前选取连续T个值的均值；S_t为t时刻的均方差；

步骤B3、对均方差进行时域卷积得到唇部运动系数，根据唇部运动系数确定唇部运动图像序列中语音段的位置：

其中，K为时域卷积的窗口长度，K≤T；C为唇部运动系数；Thresh为判断是否为语音段的阈值；isSpeaking＝True表示上述卷积窗口内对应的唇部运动图像序列是语音段；isSpeaking＝False表示上述卷积窗口内对应的唇部运动图像序列不是语音段。

优选地，步骤C中，基线模型包括依次连接的三维卷积网络、残差网络、双向门控循环单元和第一全连接层；其中，以三维卷积网络和残差网络作为前端，学习唇部运动图像序列的时空特征；以双向门控循环单元和第一全连接层作为后端，对特征的时序关系建模；由第一全连接层将特征映射为输入的唇部运动图像序列所代表的单词。

优选地，步骤D中，构建唇语识别模型操作如下：

步骤D1、引入空间信息反馈模块，用于捕获每一帧图像上的唇部细粒度特征：

空间信息反馈模块包括依次连接的两层1×1卷积层和sigmoid激活函数，空间信息反馈模块的输入端连接残差网络的输出端，将残差网络的输出和复制扩展后的给定的单词标签向量拼接后输入空间信息反馈模块，空间信息反馈模块的输出端连接残差网络的输入端；

步骤D2、引入时间信息反馈模块，用于确定每一帧唇形的重要程度：

在残差网络的输出端额外引入依次连接的一层门控循环单元和自注意力机制，门控循环单元的输入端连接残差网络的输出端，自注意力机制的输出端连接双向门控循环单元的输入端；

时间信息反馈模块包括依次连接的第二全连接层和sigmoid激活函数，时间信息反馈模块的输入端连接第一全连接层的输出端，将复制扩展后的第一全连接层的输出和复制扩展后的给定的单词标签向量拼接后输入时间信息反馈模块，时间信息反馈模块的输出端连接自注意力机制的输入端；

步骤D3、得到唇语识别模型输出为：

其中，为唇语识别模型输出的预测向量，N为标签向量维数，i为分类的类别序号，o_i为第一全连接层对应第i个类别的输出。

优选地，步骤D2中，残差网络的输出为G_t,t＝1,2,…,T′，自注意力机制的输出即自注意力权重向量为α_t,t＝1,2,…,T′，则输入双向门控循环单元的值为维度为T′×Hidden，Hidden为隐藏神经元数量。

优选地，步骤E中，空间信息反馈模块的交叉熵损失函数为：

Loss_(SMI)＝E_F，Y[log SMI]+(1-E_F，Y)[log(1-SMI)]

其中，若空间信息反馈模块中给定的单词标签与真实标签匹配则E_F，Y＝1，否则E_F，Y＝0；SMI为空间信息反馈模块的输出值；

时间信息反馈模块的交叉熵损失函数为：

Loss_(TMI)＝E_O，Y[log TMI]+(1-E_O，Y)[log(1-TMI)]

其中，若时间信息反馈模块中给定的单词标签与真实标签匹配则为E_O，Y＝1，否则E_O，Y＝0；TMI指时间信息反馈模块的输出值；

唇语识别模型的交叉熵损失函数为：

其中，等号右端的三项分别为空间信息反馈模块的交叉熵损失函数、时间信息反馈模块的交叉熵损失函数和唇语识别模型末端的交叉熵损失函数，Y_i为真实标签值，为预测标签值。

有益效果：本发明具有如下有益效果：

本发明的基于唇语识别的重度听障患者言语理解度的改进方法，通过识别说话的嘴唇达到理解说话人内容的目的，在唇语识别模型的前端和后端分别引入了空间信息反馈模块(SMI)和时间信息反馈模块(TMI)以及注意力机制。首先，SMI作为一个辅助网络，可以更好地引导前端的卷积模型捕捉唇语图像中的局部细粒度特征；其次，注意力机制在后端根据特征与最终标签的关联程度将各个时域的特征加权；此外，不同于先前的LSTM等方法，TMI的辅助训练可以增强关键帧的语义表示，避免时域全局平均带来的语义损失。因此，本发明的方法能够提高唇语识别的鲁棒性和准确率，方法巧妙新颖，可用来改善重度以上听障患者的言语理解度，也可以用来改善恶劣环境下的正常人的语言理解，具有良好的应用前景。

附图说明

图1是本发明中基于唇语识别的重度听障患者言语理解度的改进方法的流程图；

图2是本发明所提出模型的完整结构框图；

图3是本发明所提出模型中空间信息反馈模块(SMI)的结构框图；

图4是本发明所提出模型中时间信息反馈模块(TMI)的结构框图。

具体实施方式

下面结合附图对本发明作更进一步的说明。

本发明公开了一种基于唇语识别的重度听障患者言语理解度的改进方法，如图1所示，包括以下步骤：

步骤(A)、使用图像采集设备从现实环境中采集唇部运动图像序列，作为深度神经网络的输入特征。

步骤(B)、构建基于深度学习的视觉模态语音端点检测方法，在低信噪比条件下确认语音段位置，所述端点检测方法为使用关键点检测预估唇部的运动状态及其相对位置，并依此建立模型判断是否为语音段，具体如下：

步骤(B1)、构建基于深度可分离卷积的多尺度神经网络模型作为关键点检测模型，所述关键点检测模型包括依次连接的6层深度可分离卷积网络(Depthwise SeparableConvolution)和3层多尺度卷积网络以及全连接层。通过输入的唇部运动图像序列，准确定位出唇部及其周边的多个关键点的位置信息序列和标签值。

步骤(B2)、步骤(B1)所述关键点检测模型，可以同时确定关键点的位置信息和标签值，其中位置信息表示为(x,y)，即该关键点在图像中的坐标；标签值为从1到68的整数，代表了人脸唇部周围部分的68个位置的特征点。将带有标签和位置信息的唇部周围部分的关键点分组，其中每一组包括2个关键点且分别位于唇部的上方和下方，并在时序上每个时刻计算所有组关键点的平均L2距离M_t，然后在M_t序列中每个时刻向前选取连续T个值，得到该时刻的均方差S，如公式(1)、(2)所示：

其中，N表示关键点分组的数目；为t时刻第n组关键点的坐标，i＝1,2；M_t为t时刻的平均L2距离序列；/>为M_t序列中t时刻向前选取连续T个值的均值；S_t为t时刻的均方差。

步骤(B3)、根据步骤(B2)得到的时序上每个时刻过去T个时间的L2距离的均方差S，可以通过时域卷积得到唇部运动系数C，从而确定唇部运动图像序列中语音段的位置，如公式(3)、(4)所示：

其中，K为时域卷积的窗口长度，K≤T；S_k代表卷积窗口内第k时刻下，S的瞬时值；h_k是时域卷积作用在卷积窗口内不同时间上的权重值，通常可取h_k＝1；Thresh为判断是否正在说话的阈值；isSpeaking＝True表示上述卷积窗口内对应的唇部运动图像序列是语音段；isSpeaking＝False表示上述卷积窗口内对应的唇部运动图像序列不是语音段。

步骤(C)、构建基于三维卷积-残差网络-双向GRU结构的深度学习模型作为基线模型，包括依次连接的三维卷积网络、残差网络、双向门控循环单元和第一全连接层。所述基线模型以1层三维卷积网络(3D-CNN)和残差网络作为前端，学习图像序列的时空特征；以3层双向门控循环单元(Bi-GRU)和第一全连接层作为后端，对特征的时序关系建模；由第一全连接层将特征映射为输入的唇部运动图像序列所代表的单词。

步骤(D)、如图2所示，在基线模型的基础上构建基于时空信息特征的唇语识别模型：在前端和后端末尾分别引入时间和空间信息特征辅助训练，分别是空间信息反馈模块(SMI)和时间信息反馈模块(TMI)。其中空间信息反馈模块用来捕获每一帧图像上的唇部细粒度特征；时间信息反馈模块用来确定每一帧唇形对于最终结果的重要程度，并反馈到后端网络中对不同时间的输入特征加权。

步骤(E)、利用交叉熵损失训练网络模型，根据训练后的唇语识别模型，输入步骤(B)获取的语音段位置的唇部运动图像序列的视觉信息，识别出说话内容。

训练阶段，在基线模型基础上增加了步骤(D)的两路特征反馈机制，分别为空间信息反馈模块和时间信息反馈模块，具体如下：

步骤(E1)、如图3所示，空间信息反馈模块的输入端连接残差网络的输出端，空间信息反馈模块的输出端连接残差网络的输入端；空间信息反馈模块(SMI)的输入为基线模型前端的残差网络输出的特征图，在每个时序上，该特征图维度为H×W×C，其中H和W为特征图的高和宽，C为特征图的通道数。将特征图划分为H×W个特征向量，从而让每一个向量映射到原图像的对应位置的区块。同时将1×N维度的给定的单词标签向量复制扩展为H×W×N，使其可以与特征图拼接在一起，作为空间信息反馈模块的输入向量。空间信息反馈模块由依次连接的两层1×1卷积层和末尾的sigmoid激活函数构成，在每个时序上的输出为H×W个数字，每个数字代表特征图所对应的当前位置与给定的单词标签的关联程度。若特征图中特征向量所对应位置的区块与给定的单词标签为同一样本时，SMI的输出期望应当为1，反之则为零。因此，SMI模块的交叉熵损失函数可以表示为：

Loss_(SMI)＝E_F,Y[log SMI]+(1-E_F,Y)[log(1-SMI)] (5)

其中，F为空间信息反馈模块在所有时序上的输出，维度为T′×H×W，T′为唇语识别模型输入的语音段位置的唇部运动图像序列的图像帧数量，输出向量中每个元素的值位于0到1之间；Y为对应F的真实标签值，维度与F相同；E_F，Y为0或1，若空间信息反馈模块中给定的单词标签与真实标签匹配则E_F，Y＝1，否则E_F，Y＝0；SMI为SMI模块的输出值。

步骤(E2)、时间信息反馈模块(TMI)重点关注时序上各个帧与标签的相关程度。在前端的输出部分额外引入依次连接的一层GRU和自注意力机制，GRU的输入端连接残差网络的输出端，输入前端输出的特征图，自注意力机制的输出端连接Bi-GRU层的输入端，输出得到维度为T′×1的自注意力权重向量α，其中T′为唇语识别模型输入的语音段位置的唇部运动图像序列的图像帧数量。α可以表示为：

α_t＝ReLU(W×GRU(F)_t+b_ias) (6)

其中，W为自注意力机制中的全连接层权重，b_ias为偏置系数，GRU(F)_t为t时刻GRU的输出，t＝1，2，…，T′。

α作为对基线模型的残差网络的输出G加权的权重，通过矩阵点乘反馈到后端的Bi-GRU层，Bi-GRU层的输入可以用公式(7)表示：

Bi-GRU层输出T′×Hidden维特征向量到第一全连接层，其中Hidden为隐藏神经元数量。

如图4所示，TMI模块反馈的梯度反馈网络具体结构与步骤(E1)相同，TMI模块的输入端连接第一全连接层的输出端，输出端连接自注意力机制的输入端；在每个时序上，第一全连接层输出的特征向量维度为1×N，并将特征向量复制扩展成维度为H×W×N，同时将1×N维度的给定的单词标签向量复制扩展成维度为H×W×N，将复制扩展后的单词标签向量与复制扩展后的特征向量拼接在一起，作为TMI模块的输入；TMI模块包括依次连接的第二全连接层和sigmoid激活函数，在每个时序上TMI模块的输出为一个介于0到1直接的预测值，TMI模块作为一个辅助训练网络，将预测值与真实值标签计算交叉熵损失，将其反馈到自注意力机制，加入到整个模型的损失函数之中，即TMI模块的输出不直接输入到唇语识别模型，而是通过损失函数所带来的梯度下降来作用到唇语识别模型。

将复制扩展后的第一全连接层的输出与复制扩展后的单词标签向量拼接，输入TMI模块的第二全连接网络，使用sigmoid激活，损失函数可用公式(8)表示：

Loss_(TMI)＝E_O，Y[log TMI]+(1-E_O，Y)[log(1-TMI)] (8)

其中，E_O，Y为0或1，若时间信息反馈模块中给定的单词标签与真实标签匹配则为E_O，Y＝1，否则E_O，Y＝0；TMI指时间信息反馈模块的输出值。

步骤(E3)、用步骤(E1)和步骤(E2)的方法将SMI和TMI与步骤(C)中构建的基线模型相结合，可以得到新模型的输出为：

其中，为模型预测向量，N为标签向量维数，i为分类的类别序号，o_i为第一全连接层的输出。

最终根据步骤(E1)、步骤(E2)和步骤(E3)的输出，确定整个模型的损失函数：

其中，多项式的三项分别为SMI的损失函数、TMI的损失函数和模型末端的交叉熵损失，Y_i为真实标签值。

步骤(E4)、以步骤(B)获取的语音段位置的唇部运动图像序列的视觉信息为输入，提取出唇部运动图像序列的时空特征，并识别出当前唇语的内容。

为了充分比较本发明所提出的基于唇语识别的重度听障患者言语理解度的改进方法的性能，实验设置在大规模唇语数据集LRW上。LRW已被大多数现有的唇读方法广泛使用，包含采集自电视节目中的音视频数据共500类词语，每个分类有1000个实例。实验以模型在LRW数据集上的测试集准确率作为评价指标。在模型所有的预测结果中，如果最大概率值的类别与样本实际类别相同，则认为预测正确。实验结果表明，本发明中所提出的基线模型准确率为82.16％；在引入了时空信息反馈和注意力机制之后，准确率相比基线模型提升了2.86％。

综上所述，本发明的基于唇语识别的重度听障患者言语理解度的改进方法，在模型的前端和后端分别引入了空间信息反馈模块(SMI)和时间信息反馈模块(TMI)以及注意力机制。首先，SMI作为一个辅助网络，可以更好地引导前端的卷积模型捕捉唇语图像中的局部细粒度特征。其次，注意力机制在后端根据特征与最终标签的关联程度将各个时域的特征加权。此外，不同于先前的LSTM等方法，TMI的辅助训练可以增强关键帧的语义表示，避免时域全局平均带来的语义损失。因此，本发明的方法能够提高唇语识别的鲁棒性和准确率，方法巧妙新颖，具有良好的应用前景。

以上所述仅是本发明的优选实施方式，应当指出：对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种基于唇语识别的重度听障患者言语理解度的改进方法，其特征在于，包括如下步骤：

其中基线模型包括依次连接的三维卷积网络、残差网络、双向门控循环单元和第一全连接层；其中，以三维卷积网络和残差网络作为前端，学习唇部运动图像序列的时空特征；以双向门控循环单元和第一全连接层作为后端，对特征的时序关系建模；由第一全连接层将特征映射为输入的唇部运动图像序列所代表的单词；

构建唇语识别模型操作如下：

步骤D3、得到唇语识别模型输出为：

其中，为唇语识别模型输出的预测向量，N为标签向量维数，i为分类的类别序号，O_i为第一全连接层对应第i个类别的输出；

2.根据权利要求1所述的一种基于唇语识别的重度听障患者言语理解度的改进方法，其特征在于，步骤B操作如下：

3.根据权利要求1所述的一种基于唇语识别的重度听障患者言语理解度的改进方法，其特征在于，步骤D2中，残差网络的输出为G_t，t＝1，2，…，T′，自注意力机制的输出即自注意力权重向量为α_t，t＝1，2，…，T′，则输入双向门控循环单元的值为维度为T′×Hidden，Hidden为隐藏神经元数量。

4.根据权利要求1所述的一种基于唇语识别的重度听障患者言语理解度的改进方法，其特征在于，步骤E中，空间信息反馈模块的交叉熵损失函数为：

Loss_(SMI)＝E_F，Y[log SMI]+(1-E_F，Y)[log(1-SMI)]

时间信息反馈模块的交叉熵损失函数为：

Loss_(TMI)＝E_O，Y[log TMI]+(1-E_O，Y)[log(1-TMI)]

唇语识别模型的交叉熵损失函数为：