CN113313056A

CN113313056A - 基于紧致3d卷积的唇语识别方法、系统、设备及存储介质

Info

Publication number: CN113313056A
Application number: CN202110664784.8A
Authority: CN
Inventors: 曾琪峰; 杜俊
Original assignee: University of Science and Technology of China USTC
Current assignee: University of Science and Technology of China USTC
Priority date: 2021-06-16
Filing date: 2021-06-16
Publication date: 2021-08-27

Abstract

本发明公开了一种基于紧致3D卷积的唇语识别方法、系统、设备及存储介质，紧致3D卷积模块综合了异构卷积和逐通道卷积的优点减少了常规3D卷积的运算量和参数量，以直接替换3D卷积神经网络中的基础3D卷积模块应用到不同的任务中，替换后的3D卷积神经网络应用于唇语识别任务时，不仅能在不明显影响模型表现(即，保障了唇语识别效果)的情况下极大的减小运算量和参数量，同时能够通过调整参数来权衡模型复杂度和模型表现。

Description

基于紧致3D卷积的唇语识别方法、系统、设备及存储介质

技术领域

本发明涉及唇语识别技术领域，尤其涉及一种基于紧致3D卷积的唇语识别方法、系统、设备及存储介质。

背景技术

卷积神经网络(convolutional neural networks)是一种有效的用于提取图像特征的技术，其中3D卷积神经网络是一种有效的提取视频输入的时间空间特征的方法。

然而相对于2D卷积而已，3D卷积神经网络带来大量的运算复杂度和存储空间的负担。使得难以基于3D卷积来构建深层神经网络，同时较大的限制了3D卷积在实际应用中的使用。这使得研究者们积极探索了对3D卷积神经网络的优化的压缩方式。

对于3D卷积神经网络的压缩的研究主要分布在两个方面：

一个是针对3D卷积模块的压缩：如文献1(D.Tran,H.Wang,L.Torresani,J.Ray,Y.LeCun,M.Paluri,“A closer look at spatiotemporal convolutions for actionrecognition,”In Internaltional Conference on Computer Vision and PatternRecogintion,2018.)、文献2(Z.Qiu,T.Yao,and T.Mei,“Learning spatio-temporalrepresentation with pseudo-3d residual networks,”In IEEEInternationalConference on Computer Vision,2017.)分别提出了两种类似的简约3D卷积结构。该研究通过将3D卷积拆分为时间部分的1D卷积和空间部分的2D卷积的组合，并根据组合方式的不同提出了不同的结构。这样的拆分方式较大的减少了运算量和参数量，但是这些简约3D结构有着局限性，固定的拆分方式让使用者不能自行根据需求调整简约3D模块的压缩率。

另一个压缩方法是剪枝：文献3(Z.Xu,T.Ajanthan,V.Vineet,and R.Hartley,“RANP:Resource aware neuron pruning at initialization for 3D CNNs,”InInternational Conference on 3D Vision,2020.)根据神经元的重要性来在初始化时对卷积神经进行剪枝，从而降低网络的复杂度和参数量。剪枝的方法需要使用者对任务有着较深的认识，并且对于不同的任务需要进行结构的调整，这些劣势限制了剪枝的应用。

目前3D卷积结构被广泛的应用在需要提出时间-空间特征的任务中，如唇语识别中视频特征的提取，在带来巨大的表现提升的同时带来了较大的运算和储存的负担。

发明内容

本发明的目的是提供一种基于紧致3D卷积的唇语识别方法、系统、设备及存储介质，可以在不导致明显表现损失的前提下大幅减少模型的运算量和参数量。

本发明的目的是通过以下技术方案实现的：

一种基于紧致3D卷积的唇语识别方法，包括：构建即插即用的紧致3D卷积模块，并替换用于唇语识别的卷积神经网络中的卷积结构，利用替换后的卷积神经网络从视频序列中进行唇语特征的提取，进而实现唇语识别；其中：

所述紧致3D卷积模块将输入的原始特征图的通道进行随机化，然后，将随机化后的一半通道的特征图进行逐通道卷积，另一半通道的特征进行逐点卷积，将两部分卷积的输出相加再与原始特征图进行逐点卷积后的特征图进行残差连接，作为紧致3D卷积模块输出的特征图。

一种基于紧致3D卷积的唇语识别系统，用于实现前述的方法，该系统包括：

模块构建单元，用于构建即插即用的紧致3D卷积模块；其中：所述紧致3D卷积模块将输入的原始特征图的通道进行随机化，然后，将随机化后的一半通道的特征图进行逐通道卷积，另一半通道的特征进行逐点卷积，将两部分卷积的输出相加再与原始特征图进行逐点卷积后的特征图进行残差连接，作为紧致3D卷积模块输出的特征图；

网络构建单元，用于利用紧致3D卷积模块替换用于唇语识别的卷积神经网络中的卷积结构；

特征提取与唇语识别单元，用于利用替换后的卷积神经网络从视频序列中进行唇语特征的提取，进而实现唇语识别。

一种处理设备，包括：一个或多个处理器；存储器，用于存储一个或多个程序；

其中，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现前述的方法。

一种可读存储介质，存储有计算机程序，当计算机程序被处理器执行时实现前述的方法。

由上述本发明提供的技术方案可以看出，紧致3D卷积模块综合了异构卷积和逐通道卷积的优点减少了常规3D卷积的运算量和参数量，以直接替换3D卷积神经网络中的基础3D卷积模块应用到不同的任务中，替换后的3D卷积神经网络应用于唇语识别任务时，不仅能在不明显影响模型表现(即，保障了唇语识别效果)的情况下极大的减小运算量和参数量，同时能够通过调整参数来权衡模型复杂度和模型表现。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他附图。

图1为本发明实施例提供的一种基于紧致3D卷积的唇语识别方法的流程图；

图2为本发明实施例提供的紧致3D卷积模块的示意图；

图3为本发明实施例提供的逐通道卷积与逐点卷积模块的示意图；

图4为本发明实施例提供的卷积神经网络的结构示意图；

图5为本发明实施例提供的一种基于紧致3D卷积的唇语识别系统的示意图；

图6为本发明实施例提供的一种处理设备示意图。

具体实施方式

下面结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明的保护范围。

本发明实施例提供一种基于紧致3D卷积的唇语识别方法，如图1所示，其主要包括：

构建即插即用的紧致3D卷积模块，并替换用于唇语识别的卷积神经网络中的卷积结构，利用替换后的卷积神经网络从视频序列中进行唇语特征的提取，进而实现唇语识别其中：

本发明实施例提供的紧致3D卷积模块综合利用了逐通道卷积，异构卷积(P.Singh,V.K.Verma,and P.Rai,“Hetconv:Heterogeneouskernel-based convolutionsfor deep cnns[C],”In CVPR,2019,pp.4835-4844.)和通道随机化(X.Zhang,X.Zhou,andM.Lin,“Shufflenet:An extremely efficient convolutional neural network formobile devices,”In Internaltional Conference on Computer Vision and PatternRecogintion,2018,pp.6848-6856.)等卷积结构的优势，并且通过增加特定的卷积结构和参数来自用的根据应用场景权衡模型的复杂度和模型表现。

如图2所示，为紧致3D卷积模块的示意图，它采用异构卷积形式，辅以逐通道卷积、逐点卷积以及卷积内残差链接构建的3D卷积压缩结构。能有效地压缩3D卷积网络的运算量和参数量；具体来说：

1、通道随机化(Channel Shuffle)。将输入到该卷积核的特征图的通道进行随机打乱，使得特征图中蕴含在不同通道的信息可以充分的流动，避免在压缩过程中损失重要的信息。

2、逐点卷积模块(3D Convolution)。

本发明实施例中，逐点卷积时，使用卷积核大小为1*1*1的3D卷积。卷积核的大小为1能够使用较少的运算量实现对特征图的升维、降维和融合不同通道的信息。

3、逐通道卷积模块(3D Channle-Wise Convolution)。

本发明实施例中，逐通道卷积包括：一次逐通道卷积操作与两次逐点卷积操作。首先，输入特征图先经过一个将特征图变化ω倍的逐点卷积操作，来控制卷积的复杂度；然后，经过一个逐通道卷积操作来提取时间-空间的相关性特征，逐通道卷积操作可以理解为组数量为输入通道数的分组卷积(Group-wise convolution)；最后，再经过一个逐点卷积操作将特征图维度转变为需要的输出特征图数。

逐点卷积模块与逐通道卷积模块的主要结构如图3所示，上半部分为逐点卷积模块结构，下半部分为逐通道卷积模块结构，图3中，将3D卷积表示为矩阵乘法的形式，输入矩阵的每一个元素为一个图片序列，元素间的操作为卷积操作而非乘法。

4、残差链接。压缩过程中部分信息会因为只选取了半数的通道进行卷积而流失，因此，将卷积之后的输出与原始输入特征图进行残差链接，能够以非常小的运算量代价来减小信息的损失，提升简约卷积模块的表现。

到此为止，紧致3D卷积模块已经构建完毕。通过直接将该紧致3D卷积模块插入到卷积网络中需要3D卷积的部分，就能够直接构建压缩的3D卷积网络，而不需要其他更繁琐的操作。更进一步的，可以通过调整参数ω来控制网络的复杂度以适应应用的需求。本发明实施例中，卷积神经网络可以是现有的任意结构的可用于唇语识别的卷积神经网络。

具体来说，上述紧致3D卷积模块可以替换2D卷积以提取更多时间维度的特征。示例性的，将ResNet18中的2D卷积结构替换为本发明提出的紧致3D卷积模块，能够提取更多的时空特征，从而提升模型在需要大量时间维度上信息的任务的表现，例如，后文实验里提到的唇读任务；其中，逐通道卷积的卷积核大小可以为3*3*3，逐点卷积的卷积核大小可以为1*1*1。相比于3*3的2D卷积核，使用3*3*3的StiRes3D卷积核不会带来更大的运算复杂度也不会提升模型大小，但是能够有效地提升模型的表现。当然也可以直接替换3D卷积来压缩网络结构。使用StiRes3D直接对3D卷积进行替换，能够大幅的压缩模型复杂度，同时能够有效地减轻直接使用大量3D卷积可能导致的过拟合现象。

本发明实施例中，替换后卷积网络依然按照其原有的流程进行特征提取以及唇语识别工作，区别主要在于，替换卷积结构为紧致3D卷积模块后，采用图2所示流程执行卷积部分的工作。

本发明实施例中，替换后卷积网络中紧致3D卷积模块的具体数目以及相关的卷积参数可以根据实际情况自行设定，本发明不做限定。图4给出了一种替换后卷积网络中紧致3D卷积模块的结构示例。图4中，中括号内的数字代表卷积核的大小，举例说明：[5,7,7]代表时间维度上卷积核的大小为5，空间维度上长，宽的卷积核大小为7，7；中括号后的数字代表卷积核的数量，即输出的特征图的通道数。[5,7,7],64，代表[5,7,7]的卷积核有64个，输出通道数为64；乘号后的数字代表该卷积层的数量，([3.3.3],64)*4，代表一共使用了4层卷积核大小为[3,3,3]，数量为64个的卷积层。

本发明实施例上述方案主要获得如下有益效果：

传统的3D卷积结构有大量的运算复杂度和参数量，基于传统3D卷积构建的卷积神经网络十分的庞大和繁琐，对于某些任务容易出现过拟合的现象。而之前对3D卷积的压缩方式均使用固定的拆分形式，无法根据应用需求自由的控制模型的复杂度。本发明提出的紧致3D卷积模块能够即插即用的替换现有3D卷积模块，应用与唇语识别任务时，在无明显效果损害的前提下大幅度减小模型复杂度和参数量，同时能够通过简单的调整一个参数ω来根据应用场景的不同自由的控制网络的复杂度。

为了验证本发明所提出方法的有效性，设计了如下实验。

1、实验设置。

本次实验中，使用LRS-BBC2数据集(T.Afouras,J.S.Chung,A.Senior,O.Vinyals,and A.Zisserman,“Deep Audio-Visual Speech Recognition,”IEEE TransactionsonPattern Analysis and Machine Intelligence,2018.)进行唇读实验。该数据集包含约224小时的句子和短语，以及对应的面部视频。这224小时的数据被分成了训练、验证和测试集，其中训练验证集共约223小时，测试集约0.5小时。训练集用于训练模型，验证集用于调整超参数和控制训练进展，测试集用于测试不同模型在该任务上的表现。字错误率(WordError Rate，WER)为模型表现的最终评价指标，模型大小，和浮点运算量(FloatingOperations，FLOPs)为模型复杂度的评价指标。训练时输入为80*80的图片序列截取自视频中央的嘴唇部分，帧长为40ms。网络模型使用PyTorch实现，Adam参数优化器优化，在数据集上训练至模型在验证集上的表现不在优化，之后再继续进行6轮训练，每轮学习率减半，初始学习率为0.0001。

2、实验结果。

不同模型的实验结果如表1所示。基准模型是基于标准3D卷积构建的3D卷积神经网络(All3D)，除了基于本发明提出的紧致3D卷积模块(Stingy Residual 3D，StiRes3D)构建的神经网络外，还列出了使用伪3D模块构建的神经网络(Pseudo 3D，P3D)的表现来验证本发明的优秀表现。

网络名称	字错误率	模型大小(MB)	FLOPs(*10^8)
				All3D	49.7％	155.88	6.6091
P3D	48.5％	88.07	3.4205
				StiRes3D(ω＝2)	46.8％	44.48	2.2286
StiRes3D(ω＝1)	47.3％	40.88	2.0527
				StiRes3D(ω＝0.5)	47.5％	39.12	1.9631

表1不同模型的字错误率和模型复杂度

首先，对比StiRes3D和All3D，可以得出结论：本发明提出的紧致3D卷积模块能够有效地压缩原有的标准3D卷积，在参数量上达到3.5X的压缩率，在浮点运算量上达到了3.0X的压缩率。并且由于StiRes3D引入的更多的归一化层和更简单的结构，减轻了All3D出现的过拟合的现象，在字错误率上的表现也更加优秀。通过StiRes3D和P3D的对比，本发明提出的StiRes3D能够达到更大的压缩率和更好的表现，更重要的，StiRes3D能够可以通过调整ω来控制模型的复杂度，从而适应更多的应用场景，这是P3D类的压缩方式所不能做到的。

本发明另一实施例还提供一种基于紧致3D卷积的唇语识别系统，该系统主要用于实现前述实施例提供的方法，如图5所示，该系主要统包括：

网络构建单元，用于利用紧致3D卷积模块替换卷积神经网络中的卷积结构；

本发明另一实施例还提供一种电子设备，如图6所示，其主要包括：一个或多个处理器；存储器，用于存储一个或多个程序；其中，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现前述实施例提供的方法。

进一步的，所述电子设备还包括至少一个输入设备与至少一个输出设备；在所述电子设备中，处理器、存储器、输入设备、输出设备之间通过总线连接。

本发明实施例中，所述存储器、输入设备与输出设备的具体类型不做限定；例如：

输入设备可以为触摸屏、图像采集设备、物理按键或者鼠标等；

输出设备可以为显示终端；

存储器可以为随机存取存储器(Random Access Memory，RAM)，也可为非不稳定的存储器(non-volatile memory)，例如磁盘存储器。

本发明另一实施例还提供一种可读存储介质，存储有计算机程序，当计算机程序被处理器执行时实现前述实施例提供的方法。

本发明实施例中可读存储介质作为计算机可读存储介质，可以设置于前述电子设备中，例如，作为电子设备中的存储器。此外，所述可读存储介质也可以是U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明披露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求书的保护范围为准。

Claims

1.一种基于紧致3D卷积的唇语识别方法，其特征在于，包括：构建即插即用的紧致3D卷积模块，并替换用于唇语识别的卷积神经网络中的卷积结构，利用替换后的卷积神经网络从视频序列中进行唇语特征的提取，进而实现唇语识别；其中：

2.根据权利要求1所述的一种基于紧致3D卷积的唇语识别方法，其特征在于，逐点卷积时，使用卷积核大小为1*1*1的3D卷积。

3.根据权利要求1所述的一种基于紧致3D卷积的唇语识别方法，其特征在于，所述逐通道卷积包括：一次逐通道卷积操作与两次逐点卷积操作；

首先，输入特征图先经过一个将特征图变化ω倍的逐点卷积操作，来控制卷积的复杂度；然后，经过一个逐通道卷积操作来提取时间-空间的相关性特征；最后，再经过一个逐点卷积操作将特征图维度转变为需要的输出特征图数。

4.一种基于紧致3D卷积的唇语识别系统，其特征在于，用于实现权利要求1～3任一项所述的方法，该系统包括：

5.一种处理设备，其特征在于，包括：一个或多个处理器；存储器，用于存储一个或多个程序；

其中，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如权利要求1～3任一项所述的方法。

6.一种可读存储介质，存储有计算机程序，其特征在于，当计算机程序被处理器执行时实现如权利要求1～3任一项所述的方法。