CN112330713B - 基于唇语识别的重度听障患者言语理解度的改进方法 - Google Patents
基于唇语识别的重度听障患者言语理解度的改进方法 Download PDFInfo
- Publication number
- CN112330713B CN112330713B CN202011346536.0A CN202011346536A CN112330713B CN 112330713 B CN112330713 B CN 112330713B CN 202011346536 A CN202011346536 A CN 202011346536A CN 112330713 B CN112330713 B CN 112330713B
- Authority
- CN
- China
- Prior art keywords
- lip
- feedback module
- information feedback
- model
- lip language
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 34
- 208000016354 hearing loss disease Diseases 0.000 title claims abstract description 12
- 230000006872 improvement Effects 0.000 title abstract description 5
- 238000001514 detection method Methods 0.000 claims abstract description 13
- 238000012549 training Methods 0.000 claims abstract description 10
- 208000032041 Hearing impaired Diseases 0.000 claims abstract description 9
- 230000000007 visual effect Effects 0.000 claims abstract description 7
- 238000013135 deep learning Methods 0.000 claims abstract description 5
- 238000013136 deep learning model Methods 0.000 claims abstract description 5
- 239000013598 vector Substances 0.000 claims description 28
- 230000006870 function Effects 0.000 claims description 25
- 230000007246 mechanism Effects 0.000 claims description 18
- 230000004913 activation Effects 0.000 claims description 6
- 230000002457 bidirectional effect Effects 0.000 claims description 6
- 210000002569 neuron Anatomy 0.000 claims description 3
- 210000004027 cell Anatomy 0.000 claims description 2
- 230000001771 impaired effect Effects 0.000 claims description 2
- 238000013507 mapping Methods 0.000 claims 1
- 238000013528 artificial neural network Methods 0.000 abstract description 2
- 238000010586 diagram Methods 0.000 description 8
- 230000008447 perception Effects 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 238000012935 Averaging Methods 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 210000003477 cochlea Anatomy 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 230000008713 feedback mechanism Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000002123 temporal effect Effects 0.000 description 2
- 230000003213 activating effect Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 230000035479 physiological effects, processes and functions Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000009528 severe injury Effects 0.000 description 1
- 238000001356 surgical procedure Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/207—Analysis of motion for motion estimation over a hierarchy of resolutions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于唇语识别的重度听障患者言语理解度的改进方法,包括:使用图像采集设备从现实环境中采集唇部运动图像序列,作为深度神经网络的输入特征;构建基于深度学习的视觉模态语音端点检测方法,在低信噪比条件下确认语音段位置;构建基于三维卷积‑残差网络‑双向GRU结构的深度学习模型作为基线模型;在基线模型的基础上构建基于时空信息特征的唇语识别模型;利用交叉熵损失训练网络模型,根据训练后的唇语识别模型识别出说话内容。本发明通过时空信息反馈来捕捉唇语图像的细粒度特征和时域关键帧,从而提高对复杂环境中唇语特征的适应性,提高唇语识别性能,改善了重度听障患者的语言理解能力,具有良好的应用前景。
Description
技术领域
本发明属于言语理解领域,具体涉及一种基于唇语识别的重度听障患者言语理解度的改进方法。
背景技术
对于重度以上听障患者来说,由于其听觉心理或生理存在严重的损伤,因此几乎无法有效理解其他说话人表达的语言内容,甚至都无法感知声音。虽然助听器可以部分改善患者的听觉感知能力,但是对于重度以上听障患者来说,其实际作用有限。听觉耳蜗虽然可以改善重度以上听障患者的言语感知能力,但是由于听觉耳蜗需要做手术,存在一定的风险。
而且,在复杂实际环境中,语音信号常常伴随各种类型的噪声和瞬时干扰,尤其是在低信噪比条件下,即使正常听力者有时都不能有效感知声音。然而,视觉模态的嘴唇运动信息不会受到声学环境的干扰,且与言语感知任务具有强相关性。因此,基于唇语识别的言语理解方法是改善重度以上听障患者的言语感知能力的有效方法。
早期唇语识别的传统方法流程包括:嘴唇检测、特征提取和分类器分类。其技术核心主要包括用HOG等特征提取算法捕捉嘴唇的几何特征,利用隐藏马尔科夫模型识别特征序列。这类方法在特征提取和时序建模方面的效果都及其有限,在大规模数据集以及现实环境中的表现不佳,不具备实用性。
近年来深度学习算法在唇语识别领域取得了比传统算法更好的识别效果。比如卷积神经网络配合长短时记忆网络,在一定程度上提升了唇语识别的准确率,但是唇语识别任务目前还存在很多难点和挑战:
(1)现有算法难以捕捉唇部的细粒度特征;
(2)不能解决特征的长短时依赖的问题;
(3)不能抑制词语边界划分不精准所带来的冗余信息。
通过上述的描述,建立一种能够高准确率和高鲁棒性的唇语识别模型,从而改善重度听障患者的言语理解方法具有重要研究意义。
发明内容
发明目的:针对现有技术中言语助听方法对重度以上听障患者作用有限的问题,本发明公开了一种基于唇语识别的重度听障患者言语理解度的改进方法,通过引入空间信息反馈模块和时间信息反馈模块来辅助训练,从而捕捉唇部的细粒度特征、解决长短时依赖、抑制词语的冗余信息,提升唇语识别的鲁棒性和准确率,方法巧妙新颖,具有良好的应用前景。
技术方案:本发明采用如下技术方案:一种基于唇语识别的重度听障患者言语理解度的改进方法,其特征在于,包括如下步骤:
步骤A、使用图像采集设备从现实环境中采集唇部运动图像序列;
步骤B、构建基于深度学习的视觉模态语音端点检测方法,使用关键点检测预估唇部的运动状态及其相对位置,确认唇部运动图像序列中语音段的位置;
步骤C、构建基于三维卷积-残差网络-双向GRU结构的深度学习模型作为基线模型,输入语音段位置的唇部运动图像序列,输出语音段位置的唇部运动图像序列所代表的单词;
步骤D、在步骤C中基线模型的基础上分别引入空间信息反馈模块和时间信息反馈模块,构建基于时空信息特征的唇语识别模型;
步骤E、利用交叉熵损失训练唇语识别模型,根据训练后的唇语识别模型,输入步骤B中获取的语音段位置的唇部运动图像序列,识别出对应的说话内容。
优选地,步骤B操作如下:
步骤B1、构建关键点检测模型,关键点检测模型包括依次连接的6层深度可分离卷积网络和3层多尺度卷积网络以及全连接层,输入唇部运动图像序列,输出唇部及其周边的关键点的位置信息序列;
步骤B2、将步骤B1得到的关键点分组,其中每一组包括2个关键点且分别位于唇部的上方和下方,计算所有组关键点的平均L2距离序列,并在时序上求均方差:
其中,N表示关键点分组的数目;为t时刻第n组关键点的坐标,i=1,2;Mt为t时刻的平均L2距离序列;/>为Mt序列中t时刻向前选取连续T个值的均值;St为t时刻的均方差;
步骤B3、对均方差进行时域卷积得到唇部运动系数,根据唇部运动系数确定唇部运动图像序列中语音段的位置:
其中,K为时域卷积的窗口长度,K≤T;C为唇部运动系数;Thresh为判断是否为语音段的阈值;isSpeaking=True表示上述卷积窗口内对应的唇部运动图像序列是语音段;isSpeaking=False表示上述卷积窗口内对应的唇部运动图像序列不是语音段。
优选地,步骤C中,基线模型包括依次连接的三维卷积网络、残差网络、双向门控循环单元和第一全连接层;其中,以三维卷积网络和残差网络作为前端,学习唇部运动图像序列的时空特征;以双向门控循环单元和第一全连接层作为后端,对特征的时序关系建模;由第一全连接层将特征映射为输入的唇部运动图像序列所代表的单词。
优选地,步骤D中,构建唇语识别模型操作如下:
步骤D1、引入空间信息反馈模块,用于捕获每一帧图像上的唇部细粒度特征:
空间信息反馈模块包括依次连接的两层1×1卷积层和sigmoid激活函数,空间信息反馈模块的输入端连接残差网络的输出端,将残差网络的输出和复制扩展后的给定的单词标签向量拼接后输入空间信息反馈模块,空间信息反馈模块的输出端连接残差网络的输入端;
步骤D2、引入时间信息反馈模块,用于确定每一帧唇形的重要程度:
在残差网络的输出端额外引入依次连接的一层门控循环单元和自注意力机制,门控循环单元的输入端连接残差网络的输出端,自注意力机制的输出端连接双向门控循环单元的输入端;
时间信息反馈模块包括依次连接的第二全连接层和sigmoid激活函数,时间信息反馈模块的输入端连接第一全连接层的输出端,将复制扩展后的第一全连接层的输出和复制扩展后的给定的单词标签向量拼接后输入时间信息反馈模块,时间信息反馈模块的输出端连接自注意力机制的输入端;
步骤D3、得到唇语识别模型输出为:
其中,为唇语识别模型输出的预测向量,N为标签向量维数,i为分类的类别序号,oi为第一全连接层对应第i个类别的输出。
优选地,步骤D2中,残差网络的输出为Gt,t=1,2,…,T′,自注意力机制的输出即自注意力权重向量为αt,t=1,2,…,T′,则输入双向门控循环单元的值为维度为T′×Hidden,Hidden为隐藏神经元数量。
优选地,步骤E中,空间信息反馈模块的交叉熵损失函数为:
Loss(SMI)=EF,Y[log SMI]+(1-EF,Y)[log(1-SMI)]
其中,若空间信息反馈模块中给定的单词标签与真实标签匹配则EF,Y=1,否则EF,Y=0;SMI为空间信息反馈模块的输出值;
时间信息反馈模块的交叉熵损失函数为:
Loss(TMI)=EO,Y[log TMI]+(1-EO,Y)[log(1-TMI)]
其中,若时间信息反馈模块中给定的单词标签与真实标签匹配则为EO,Y=1,否则EO,Y=0;TMI指时间信息反馈模块的输出值;
唇语识别模型的交叉熵损失函数为:
其中,等号右端的三项分别为空间信息反馈模块的交叉熵损失函数、时间信息反馈模块的交叉熵损失函数和唇语识别模型末端的交叉熵损失函数,Yi为真实标签值,为预测标签值。
有益效果:本发明具有如下有益效果:
本发明的基于唇语识别的重度听障患者言语理解度的改进方法,通过识别说话的嘴唇达到理解说话人内容的目的,在唇语识别模型的前端和后端分别引入了空间信息反馈模块(SMI)和时间信息反馈模块(TMI)以及注意力机制。首先,SMI作为一个辅助网络,可以更好地引导前端的卷积模型捕捉唇语图像中的局部细粒度特征;其次,注意力机制在后端根据特征与最终标签的关联程度将各个时域的特征加权;此外,不同于先前的LSTM等方法,TMI的辅助训练可以增强关键帧的语义表示,避免时域全局平均带来的语义损失。因此,本发明的方法能够提高唇语识别的鲁棒性和准确率,方法巧妙新颖,可用来改善重度以上听障患者的言语理解度,也可以用来改善恶劣环境下的正常人的语言理解,具有良好的应用前景。
附图说明
图1是本发明中基于唇语识别的重度听障患者言语理解度的改进方法的流程图;
图2是本发明所提出模型的完整结构框图;
图3是本发明所提出模型中空间信息反馈模块(SMI)的结构框图;
图4是本发明所提出模型中时间信息反馈模块(TMI)的结构框图。
具体实施方式
下面结合附图对本发明作更进一步的说明。
本发明公开了一种基于唇语识别的重度听障患者言语理解度的改进方法,如图1所示,包括以下步骤:
步骤(A)、使用图像采集设备从现实环境中采集唇部运动图像序列,作为深度神经网络的输入特征。
步骤(B)、构建基于深度学习的视觉模态语音端点检测方法,在低信噪比条件下确认语音段位置,所述端点检测方法为使用关键点检测预估唇部的运动状态及其相对位置,并依此建立模型判断是否为语音段,具体如下:
步骤(B1)、构建基于深度可分离卷积的多尺度神经网络模型作为关键点检测模型,所述关键点检测模型包括依次连接的6层深度可分离卷积网络(Depthwise SeparableConvolution)和3层多尺度卷积网络以及全连接层。通过输入的唇部运动图像序列,准确定位出唇部及其周边的多个关键点的位置信息序列和标签值。
步骤(B2)、步骤(B1)所述关键点检测模型,可以同时确定关键点的位置信息和标签值,其中位置信息表示为(x,y),即该关键点在图像中的坐标;标签值为从1到68的整数,代表了人脸唇部周围部分的68个位置的特征点。将带有标签和位置信息的唇部周围部分的关键点分组,其中每一组包括2个关键点且分别位于唇部的上方和下方,并在时序上每个时刻计算所有组关键点的平均L2距离Mt,然后在Mt序列中每个时刻向前选取连续T个值,得到该时刻的均方差S,如公式(1)、(2)所示:
其中,N表示关键点分组的数目;为t时刻第n组关键点的坐标,i=1,2;Mt为t时刻的平均L2距离序列;/>为Mt序列中t时刻向前选取连续T个值的均值;St为t时刻的均方差。
步骤(B3)、根据步骤(B2)得到的时序上每个时刻过去T个时间的L2距离的均方差S,可以通过时域卷积得到唇部运动系数C,从而确定唇部运动图像序列中语音段的位置,如公式(3)、(4)所示:
其中,K为时域卷积的窗口长度,K≤T;Sk代表卷积窗口内第k时刻下,S的瞬时值;hk是时域卷积作用在卷积窗口内不同时间上的权重值,通常可取hk=1;Thresh为判断是否正在说话的阈值;isSpeaking=True表示上述卷积窗口内对应的唇部运动图像序列是语音段;isSpeaking=False表示上述卷积窗口内对应的唇部运动图像序列不是语音段。
步骤(C)、构建基于三维卷积-残差网络-双向GRU结构的深度学习模型作为基线模型,包括依次连接的三维卷积网络、残差网络、双向门控循环单元和第一全连接层。所述基线模型以1层三维卷积网络(3D-CNN)和残差网络作为前端,学习图像序列的时空特征;以3层双向门控循环单元(Bi-GRU)和第一全连接层作为后端,对特征的时序关系建模;由第一全连接层将特征映射为输入的唇部运动图像序列所代表的单词。
步骤(D)、如图2所示,在基线模型的基础上构建基于时空信息特征的唇语识别模型:在前端和后端末尾分别引入时间和空间信息特征辅助训练,分别是空间信息反馈模块(SMI)和时间信息反馈模块(TMI)。其中空间信息反馈模块用来捕获每一帧图像上的唇部细粒度特征;时间信息反馈模块用来确定每一帧唇形对于最终结果的重要程度,并反馈到后端网络中对不同时间的输入特征加权。
步骤(E)、利用交叉熵损失训练网络模型,根据训练后的唇语识别模型,输入步骤(B)获取的语音段位置的唇部运动图像序列的视觉信息,识别出说话内容。
训练阶段,在基线模型基础上增加了步骤(D)的两路特征反馈机制,分别为空间信息反馈模块和时间信息反馈模块,具体如下:
步骤(E1)、如图3所示,空间信息反馈模块的输入端连接残差网络的输出端,空间信息反馈模块的输出端连接残差网络的输入端;空间信息反馈模块(SMI)的输入为基线模型前端的残差网络输出的特征图,在每个时序上,该特征图维度为H×W×C,其中H和W为特征图的高和宽,C为特征图的通道数。将特征图划分为H×W个特征向量,从而让每一个向量映射到原图像的对应位置的区块。同时将1×N维度的给定的单词标签向量复制扩展为H×W×N,使其可以与特征图拼接在一起,作为空间信息反馈模块的输入向量。空间信息反馈模块由依次连接的两层1×1卷积层和末尾的sigmoid激活函数构成,在每个时序上的输出为H×W个数字,每个数字代表特征图所对应的当前位置与给定的单词标签的关联程度。若特征图中特征向量所对应位置的区块与给定的单词标签为同一样本时,SMI的输出期望应当为1,反之则为零。因此,SMI模块的交叉熵损失函数可以表示为:
Loss(SMI)=EF,Y[log SMI]+(1-EF,Y)[log(1-SMI)] (5)
其中,F为空间信息反馈模块在所有时序上的输出,维度为T′×H×W,T′为唇语识别模型输入的语音段位置的唇部运动图像序列的图像帧数量,输出向量中每个元素的值位于0到1之间;Y为对应F的真实标签值,维度与F相同;EF,Y为0或1,若空间信息反馈模块中给定的单词标签与真实标签匹配则EF,Y=1,否则EF,Y=0;SMI为SMI模块的输出值。
步骤(E2)、时间信息反馈模块(TMI)重点关注时序上各个帧与标签的相关程度。在前端的输出部分额外引入依次连接的一层GRU和自注意力机制,GRU的输入端连接残差网络的输出端,输入前端输出的特征图,自注意力机制的输出端连接Bi-GRU层的输入端,输出得到维度为T′×1的自注意力权重向量α,其中T′为唇语识别模型输入的语音段位置的唇部运动图像序列的图像帧数量。α可以表示为:
αt=ReLU(W×GRU(F)t+bias) (6)
其中,W为自注意力机制中的全连接层权重,bias为偏置系数,GRU(F)t为t时刻GRU的输出,t=1,2,…,T′。
α作为对基线模型的残差网络的输出G加权的权重,通过矩阵点乘反馈到后端的Bi-GRU层,Bi-GRU层的输入可以用公式(7)表示:
Bi-GRU层输出T′×Hidden维特征向量到第一全连接层,其中Hidden为隐藏神经元数量。
如图4所示,TMI模块反馈的梯度反馈网络具体结构与步骤(E1)相同,TMI模块的输入端连接第一全连接层的输出端,输出端连接自注意力机制的输入端;在每个时序上,第一全连接层输出的特征向量维度为1×N,并将特征向量复制扩展成维度为H×W×N,同时将1×N维度的给定的单词标签向量复制扩展成维度为H×W×N,将复制扩展后的单词标签向量与复制扩展后的特征向量拼接在一起,作为TMI模块的输入;TMI模块包括依次连接的第二全连接层和sigmoid激活函数,在每个时序上TMI模块的输出为一个介于0到1直接的预测值,TMI模块作为一个辅助训练网络,将预测值与真实值标签计算交叉熵损失,将其反馈到自注意力机制,加入到整个模型的损失函数之中,即TMI模块的输出不直接输入到唇语识别模型,而是通过损失函数所带来的梯度下降来作用到唇语识别模型。
将复制扩展后的第一全连接层的输出与复制扩展后的单词标签向量拼接,输入TMI模块的第二全连接网络,使用sigmoid激活,损失函数可用公式(8)表示:
Loss(TMI)=EO,Y[log TMI]+(1-EO,Y)[log(1-TMI)] (8)
其中,EO,Y为0或1,若时间信息反馈模块中给定的单词标签与真实标签匹配则为EO,Y=1,否则EO,Y=0;TMI指时间信息反馈模块的输出值。
步骤(E3)、用步骤(E1)和步骤(E2)的方法将SMI和TMI与步骤(C)中构建的基线模型相结合,可以得到新模型的输出为:
其中,为模型预测向量,N为标签向量维数,i为分类的类别序号,oi为第一全连接层的输出。
最终根据步骤(E1)、步骤(E2)和步骤(E3)的输出,确定整个模型的损失函数:
其中,多项式的三项分别为SMI的损失函数、TMI的损失函数和模型末端的交叉熵损失,Yi为真实标签值。
步骤(E4)、以步骤(B)获取的语音段位置的唇部运动图像序列的视觉信息为输入,提取出唇部运动图像序列的时空特征,并识别出当前唇语的内容。
为了充分比较本发明所提出的基于唇语识别的重度听障患者言语理解度的改进方法的性能,实验设置在大规模唇语数据集LRW上。LRW已被大多数现有的唇读方法广泛使用,包含采集自电视节目中的音视频数据共500类词语,每个分类有1000个实例。实验以模型在LRW数据集上的测试集准确率作为评价指标。在模型所有的预测结果中,如果最大概率值的类别与样本实际类别相同,则认为预测正确。实验结果表明,本发明中所提出的基线模型准确率为82.16%;在引入了时空信息反馈和注意力机制之后,准确率相比基线模型提升了2.86%。
综上所述,本发明的基于唇语识别的重度听障患者言语理解度的改进方法,在模型的前端和后端分别引入了空间信息反馈模块(SMI)和时间信息反馈模块(TMI)以及注意力机制。首先,SMI作为一个辅助网络,可以更好地引导前端的卷积模型捕捉唇语图像中的局部细粒度特征。其次,注意力机制在后端根据特征与最终标签的关联程度将各个时域的特征加权。此外,不同于先前的LSTM等方法,TMI的辅助训练可以增强关键帧的语义表示,避免时域全局平均带来的语义损失。因此,本发明的方法能够提高唇语识别的鲁棒性和准确率,方法巧妙新颖,具有良好的应用前景。
以上所述仅是本发明的优选实施方式,应当指出:对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (4)
1.一种基于唇语识别的重度听障患者言语理解度的改进方法,其特征在于,包括如下步骤:
步骤A、使用图像采集设备从现实环境中采集唇部运动图像序列;
步骤B、构建基于深度学习的视觉模态语音端点检测方法,使用关键点检测预估唇部的运动状态及其相对位置,确认唇部运动图像序列中语音段的位置;
步骤C、构建基于三维卷积-残差网络-双向GRU结构的深度学习模型作为基线模型,输入语音段位置的唇部运动图像序列,输出语音段位置的唇部运动图像序列所代表的单词;
其中基线模型包括依次连接的三维卷积网络、残差网络、双向门控循环单元和第一全连接层;其中,以三维卷积网络和残差网络作为前端,学习唇部运动图像序列的时空特征;以双向门控循环单元和第一全连接层作为后端,对特征的时序关系建模;由第一全连接层将特征映射为输入的唇部运动图像序列所代表的单词;
步骤D、在步骤C中基线模型的基础上分别引入空间信息反馈模块和时间信息反馈模块,构建基于时空信息特征的唇语识别模型;
构建唇语识别模型操作如下:
步骤D1、引入空间信息反馈模块,用于捕获每一帧图像上的唇部细粒度特征:
空间信息反馈模块包括依次连接的两层1×1卷积层和sigmoid激活函数,空间信息反馈模块的输入端连接残差网络的输出端,将残差网络的输出和复制扩展后的给定的单词标签向量拼接后输入空间信息反馈模块,空间信息反馈模块的输出端连接残差网络的输入端;
步骤D2、引入时间信息反馈模块,用于确定每一帧唇形的重要程度:
在残差网络的输出端额外引入依次连接的一层门控循环单元和自注意力机制,门控循环单元的输入端连接残差网络的输出端,自注意力机制的输出端连接双向门控循环单元的输入端;
时间信息反馈模块包括依次连接的第二全连接层和sigmoid激活函数,时间信息反馈模块的输入端连接第一全连接层的输出端,将复制扩展后的第一全连接层的输出和复制扩展后的给定的单词标签向量拼接后输入时间信息反馈模块,时间信息反馈模块的输出端连接自注意力机制的输入端;
步骤D3、得到唇语识别模型输出为:
其中,为唇语识别模型输出的预测向量,N为标签向量维数,i为分类的类别序号,Oi为第一全连接层对应第i个类别的输出;
步骤E、利用交叉熵损失训练唇语识别模型,根据训练后的唇语识别模型,输入步骤B中获取的语音段位置的唇部运动图像序列,识别出对应的说话内容。
2.根据权利要求1所述的一种基于唇语识别的重度听障患者言语理解度的改进方法,其特征在于,步骤B操作如下:
步骤B1、构建关键点检测模型,关键点检测模型包括依次连接的6层深度可分离卷积网络和3层多尺度卷积网络以及全连接层,输入唇部运动图像序列,输出唇部及其周边的关键点的位置信息序列;
步骤B2、将步骤B1得到的关键点分组,其中每一组包括2个关键点且分别位于唇部的上方和下方,计算所有组关键点的平均L2距离序列,并在时序上求均方差:
其中,N表示关键点分组的数目;为t时刻第n组关键点的坐标,i=1,2;Mt为t时刻的平均L2距离序列;/>为Mt序列中t时刻向前选取连续T个值的均值;St为t时刻的均方差;
步骤B3、对均方差进行时域卷积得到唇部运动系数,根据唇部运动系数确定唇部运动图像序列中语音段的位置:
其中,K为时域卷积的窗口长度,K≤T;C为唇部运动系数;Thresh为判断是否为语音段的阈值;isSpeaking=True表示上述卷积窗口内对应的唇部运动图像序列是语音段;isSpeaking=False表示上述卷积窗口内对应的唇部运动图像序列不是语音段。
3.根据权利要求1所述的一种基于唇语识别的重度听障患者言语理解度的改进方法,其特征在于,步骤D2中,残差网络的输出为Gt,t=1,2,…,T′,自注意力机制的输出即自注意力权重向量为αt,t=1,2,…,T′,则输入双向门控循环单元的值为维度为T′×Hidden,Hidden为隐藏神经元数量。
4.根据权利要求1所述的一种基于唇语识别的重度听障患者言语理解度的改进方法,其特征在于,步骤E中,空间信息反馈模块的交叉熵损失函数为:
Loss(SMI)=EF,Y[log SMI]+(1-EF,Y)[log(1-SMI)]
其中,若空间信息反馈模块中给定的单词标签与真实标签匹配则EF,Y=1,否则EF,Y=0;SMI为空间信息反馈模块的输出值;
时间信息反馈模块的交叉熵损失函数为:
Loss(TMI)=EO,Y[log TMI]+(1-EO,Y)[log(1-TMI)]
其中,若时间信息反馈模块中给定的单词标签与真实标签匹配则为EO,Y=1,否则EO,Y=0;TMI指时间信息反馈模块的输出值;
唇语识别模型的交叉熵损失函数为:
其中,等号右端的三项分别为空间信息反馈模块的交叉熵损失函数、时间信息反馈模块的交叉熵损失函数和唇语识别模型末端的交叉熵损失函数,Yi为真实标签值,为预测标签值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011346536.0A CN112330713B (zh) | 2020-11-26 | 2020-11-26 | 基于唇语识别的重度听障患者言语理解度的改进方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011346536.0A CN112330713B (zh) | 2020-11-26 | 2020-11-26 | 基于唇语识别的重度听障患者言语理解度的改进方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112330713A CN112330713A (zh) | 2021-02-05 |
CN112330713B true CN112330713B (zh) | 2023-12-19 |
Family
ID=74308982
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011346536.0A Active CN112330713B (zh) | 2020-11-26 | 2020-11-26 | 基于唇语识别的重度听障患者言语理解度的改进方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112330713B (zh) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112949481B (zh) * | 2021-03-01 | 2023-09-22 | 西安邮电大学 | 一种用于说话人无关的唇语识别方法及系统 |
CN113450824B (zh) * | 2021-06-28 | 2022-08-16 | 武汉理工大学 | 一种基于多尺度视频特征融合的语音唇读方法及系统 |
CN113658582B (zh) * | 2021-07-15 | 2024-05-07 | 中国科学院计算技术研究所 | 一种音视协同的唇语识别方法及系统 |
CN113343937B (zh) * | 2021-07-15 | 2022-09-02 | 北华航天工业学院 | 一种基于深度卷积和注意力机制的唇语识别方法 |
CN113435421B (zh) * | 2021-08-26 | 2021-11-05 | 湖南大学 | 一种基于跨模态注意力增强的唇语识别方法及系统 |
CN115886830B (zh) * | 2022-12-09 | 2024-09-24 | 中科南京智能技术研究院 | 一种十二导联心电图的分类方法及系统 |
CN116959060A (zh) * | 2023-04-20 | 2023-10-27 | 湘潭大学 | 一种面向医院环境下语言障碍患者的唇语识别方法 |
CN116759061B (zh) * | 2023-08-17 | 2023-10-27 | 简阳市人民医院 | 一种基于个人需求的体检项目推荐系统 |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6072494A (en) * | 1997-10-15 | 2000-06-06 | Electric Planet, Inc. | Method and apparatus for real-time gesture recognition |
WO2017088432A1 (zh) * | 2015-11-26 | 2017-06-01 | 腾讯科技(深圳)有限公司 | 图像识别方法和装置 |
WO2019033568A1 (zh) * | 2017-08-17 | 2019-02-21 | 平安科技(深圳)有限公司 | 嘴唇动作捕捉方法、装置及存储介质 |
CN109409195A (zh) * | 2018-08-30 | 2019-03-01 | 华侨大学 | 一种基于神经网络的唇语识别方法及系统 |
WO2019134463A1 (en) * | 2018-01-02 | 2019-07-11 | Boe Technology Group Co., Ltd. | Lip language recognition method and mobile terminal |
CN110276259A (zh) * | 2019-05-21 | 2019-09-24 | 平安科技(深圳)有限公司 | 唇语识别方法、装置、计算机设备及存储介质 |
CN110443129A (zh) * | 2019-06-30 | 2019-11-12 | 厦门知晓物联技术服务有限公司 | 基于深度学习的中文唇语识别方法 |
CN110633683A (zh) * | 2019-09-19 | 2019-12-31 | 华侨大学 | 结合DenseNet和resBi-LSTM的中文句子级唇语识别方法 |
CN111223483A (zh) * | 2019-12-10 | 2020-06-02 | 浙江大学 | 一种基于多粒度知识蒸馏的唇语识别方法 |
CN111259785A (zh) * | 2020-01-14 | 2020-06-09 | 电子科技大学 | 基于时间偏移残差网络的唇语识别方法 |
CN111401250A (zh) * | 2020-03-17 | 2020-07-10 | 东北大学 | 一种基于混合卷积神经网络的中文唇语识别方法及装置 |
WO2020192231A1 (zh) * | 2019-03-25 | 2020-10-01 | 中国科学院深圳先进技术研究院 | 一种基于表面肌电唇语识别的辅助沟通系统 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11288575B2 (en) * | 2017-05-18 | 2022-03-29 | Microsoft Technology Licensing, Llc | Asynchronous neural network training |
CN109769099B (zh) * | 2019-01-15 | 2021-01-22 | 三星电子(中国)研发中心 | 通话人物异常的检测方法和装置 |
-
2020
- 2020-11-26 CN CN202011346536.0A patent/CN112330713B/zh active Active
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6072494A (en) * | 1997-10-15 | 2000-06-06 | Electric Planet, Inc. | Method and apparatus for real-time gesture recognition |
WO2017088432A1 (zh) * | 2015-11-26 | 2017-06-01 | 腾讯科技(深圳)有限公司 | 图像识别方法和装置 |
WO2019033568A1 (zh) * | 2017-08-17 | 2019-02-21 | 平安科技(深圳)有限公司 | 嘴唇动作捕捉方法、装置及存储介质 |
WO2019134463A1 (en) * | 2018-01-02 | 2019-07-11 | Boe Technology Group Co., Ltd. | Lip language recognition method and mobile terminal |
CN109409195A (zh) * | 2018-08-30 | 2019-03-01 | 华侨大学 | 一种基于神经网络的唇语识别方法及系统 |
WO2020192231A1 (zh) * | 2019-03-25 | 2020-10-01 | 中国科学院深圳先进技术研究院 | 一种基于表面肌电唇语识别的辅助沟通系统 |
CN110276259A (zh) * | 2019-05-21 | 2019-09-24 | 平安科技(深圳)有限公司 | 唇语识别方法、装置、计算机设备及存储介质 |
CN110443129A (zh) * | 2019-06-30 | 2019-11-12 | 厦门知晓物联技术服务有限公司 | 基于深度学习的中文唇语识别方法 |
CN110633683A (zh) * | 2019-09-19 | 2019-12-31 | 华侨大学 | 结合DenseNet和resBi-LSTM的中文句子级唇语识别方法 |
CN111223483A (zh) * | 2019-12-10 | 2020-06-02 | 浙江大学 | 一种基于多粒度知识蒸馏的唇语识别方法 |
CN111259785A (zh) * | 2020-01-14 | 2020-06-09 | 电子科技大学 | 基于时间偏移残差网络的唇语识别方法 |
CN111401250A (zh) * | 2020-03-17 | 2020-07-10 | 东北大学 | 一种基于混合卷积神经网络的中文唇语识别方法及装置 |
Non-Patent Citations (6)
Title |
---|
Bor-Shing Lin ; Yu-Hsien Yao ; Ching-Feng Liu ; Ching-Feng Lien ; Bor-Shyh Lin.Development of Novel Lip-Reading Recognition Algorithm.《IEEE Access》.2017,全文. * |
Yue Xie ; Cai-Rong Zou ; Rui-Yu Liang ; Hua-Wei Tao.Phoneme Recognition Based on Deep Belief Network.《2016 International Conference on Information System and Artificial Intelligence (ISAI)》.2016,全文. * |
一种基于long short-term memory的唇语识别方法;马宁;田国栋;周曦;;中国科学院大学学报(01) * |
刘大运 ; 房国志 ; 骆天依 ; 魏华杰 ; 王倩.基于BiLSTM-Attention唇语识别的研究.《计算技术与自动化》.2020,全文. * |
唇语识别关键技术研究进展;荣传振;岳振军;贾永兴;王渊;杨宇;;数据采集与处理(S2);全文 * |
谢跃 ; 包永强. 面向语音情感识别的改进长短时记忆网络研究.《 南京工程学院学报(自然科学版)》.2020,全文. * |
Also Published As
Publication number | Publication date |
---|---|
CN112330713A (zh) | 2021-02-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112330713B (zh) | 基于唇语识别的重度听障患者言语理解度的改进方法 | |
CN108648748B (zh) | 医院噪声环境下的声学事件检测方法 | |
Fisher et al. | Speaker association with signal-level audiovisual fusion | |
CN112216271B (zh) | 一种基于卷积块注意机制的视听双模态语音识别方法 | |
Oliver et al. | Layered representations for human activity recognition | |
CN110797021A (zh) | 混合语音识别网络训练方法、混合语音识别方法、装置及存储介质 | |
CN110826466A (zh) | 基于lstm音像融合的情感识别方法、装置及存储介质 | |
CN105739688A (zh) | 一种基于情感体系的人机交互方法、装置和交互系统 | |
CN110097028B (zh) | 基于三维金字塔图像生成网络的人群异常事件检测方法 | |
Estellers et al. | Multi-pose lipreading and audio-visual speech recognition | |
CN113012714B (zh) | 基于像素注意力机制胶囊网络模型的声学事件检测方法 | |
KR102128158B1 (ko) | 시공간 주의 기반 감정 인식 장치 및 방법 | |
CN113869276B (zh) | 基于微表情的谎言识别方法及系统 | |
CN112418166A (zh) | 一种基于多模态信息的情感分布学习方法 | |
CN115527269B (zh) | 一种人体姿态图像智能识别方法及系统 | |
CN116312512A (zh) | 面向多人场景的视听融合唤醒词识别方法及装置 | |
CN115346149A (zh) | 基于时空图卷积网络的跳绳计数方法和系统 | |
Phan et al. | Unifying isolated and overlapping audio event detection with multi-label multi-task convolutional recurrent neural networks | |
CN114694255B (zh) | 基于通道注意力与时间卷积网络的句子级唇语识别方法 | |
CN113159071A (zh) | 一种跨模态图像-文本关联异常检测方法 | |
Saudi et al. | Improved features and dynamic stream weight adaption for robust Audio-Visual Speech Recognition framework | |
CN116311518A (zh) | 一种基于人体交互意图信息的层级人物交互检测方法 | |
Fisher et al. | Signal level fusion for multimodal perceptual user interface | |
CN114120370A (zh) | 基于cnn-lstm的人体跌倒检测实现方法及系统 | |
CN114360058A (zh) | 一种基于行走视角预测的跨视角步态识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |