CN113221900A

CN113221900A - 一种基于密集连接卷积网络的多模态视频中文字幕识别方法

Info

Publication number: CN113221900A
Application number: CN202110473049.9A
Authority: CN
Inventors: 唐震宇; 刘晋
Original assignee: Shanghai Maritime University
Current assignee: Shanghai Maritime University
Priority date: 2021-04-29
Filing date: 2021-04-29
Publication date: 2021-08-06

Abstract

本发明提供了一种基于密集连接卷积网络的多模态视频中文字幕识别方法，利用了多模态数据融合、循环自动编码器、连接式时序分类器等多种技术，并在DenseNet的基础上引入正负双向残差注意力机制。本方法能够保留视频中的音频、文本图像的序列信息，并能够对音频、文本图像这两种维度大小完全不匹配的数据进行有效的融合，减少特征损失。通过融合多模态数据，为文本行分类提供更全面，更详细的特征信息，提高文本识别精度。本发明在密集卷积网络的基础上进行创新，在模型识别准确率略微下降的同时显著减少了模型参数与训练时间，具有更强大的灵活性和适应性。

Description

一种基于密集连接卷积网络的多模态视频中文字幕识别方法

技术领域

本发明涉及文本检测技术，多模态数据融合技术，深度学习技术，尤其涉及一种用于多模态视频中文字幕的文本行检测方法。

背景技术

在当今社会，随着社交网络中短视频的兴起，视频资源的规模大大增加，甚至超过了图像数据的规模。作为一种结合了音频和图像模态的数据，视频所包含的信息比独立的音频和图像数据要多得多，然而面对海量的视频数据，这两种模态的数据的利用变得更加困难。视频字幕识别与单模态文本识别不同，虽然音频序列和文本序列都含有一句话的信息，但音频是以时间序列表达的，文本是以空间序列表达的，两种模态数据表达的特征的维度大小并不匹配。。

综上所述，现有的技术存在的问题是：

(1)传统自动编码器连接不具有局部敏感性，并且自动编码器的中间特征向量的数目不能够超过输入特征，使得特征向量的压缩比率仍然不足,使得两种模态的数据无法进行对齐。

(2)文字的顺序会在图像中按照自左向右的方向进行排列，而音频中对应的语音也存在着相应的时序关系，图像数据与音频数据在以往的特征提取过程中会丢失原有的输入的顺序性。

(3)图像数据与音频数据虽然在某种意义上的都具有时序的特征，但是两种数据的维度大小完全不匹配，不能够进行有效的融合。

发明内容

针对现有技术中的缺陷，本发明的目的在于提供一种基于密集卷积网络的视频中文字幕识别方法。解决了当前用于视频字幕的文本行检测网络中音频、图像无法对齐，特征提取丢失顺序性以及多模态数据无法有效融合的问题。

本发明提供了一种用于视频字幕的文本行检测方法，其特征在于包含以下步骤：

步骤1：制作文本图像数据集，并将数据集分为训练集，验证集和测试集；所述数据集是基于希尔贝壳中文普通话开源语音数据库中的音频数据结合COCO自然场景图像数据集绘制而成；

步骤2：将文本图像数据输入到循环自动编码器进行特征维度的压缩，模型由编码器解码器两部分组成，编码器包含2个密集卷积模块和一个步长为(1，2)的卷积层，两个卷积层中的卷积核大小都为3x3，卷积运算的步长为(1，2)，训练完毕后留下模型中的编码器的模型参数并合并至识别模型中。该模型的形式化定义表述如下：

假设模型输入的待压缩图像为：

G_in＝((g₁₁,g₁₂,…,g_1j),(g₂₁,g₂₂,…,g_2j),…,(g_i1,g_i2,…,g_ij))，

其中,代表图像的长与宽。将图像输入至模型后得到的输出记作：

G_out＝((g₁₁,g₁₂,…,g_1l),(g₂₁,g₂₂,…,g_2l),…,(g_k1,g_k2,…,g_kl))，

其中k,l代表输出图像的长，宽，需要注意的是输出的图像的长宽应该是小于输入图像的，并且输出图像的尺寸随输入变化。循环自动编码器的中编码器部分得到的特征图的长宽尺寸为原输入图像的1/2，图像的压缩比和编码器训练次数有关。已知卷积运算的输出大小的计算公式如下：

其中S_in和S_out分别代表了卷积的输入和输出的大小，f为卷积核尺寸，p为边缘填充的数目，s为卷积运算的步长。代入我们的参数设置后得到新的关系：

从新的关系中我们可以看出每个网络层的输出尺寸为输入尺寸的一半，这种参数的设定使得网络层在产生了一种池化的效果的同时不会忽略输入特征中的任何信息，能够进一步的提高图像压缩的性能。另外，使用步长为2的卷积操作的编码器的计算量较传统的编码器也较小。循环自动编码器的中编码器部分得到的特征图的长宽尺寸为原输入图像的1/4，即图像的压缩比能够达到1:16；

步骤3：分别对输入的两种多模态数据进行特征提取，提取特征所用骨干网络为密集连接卷积神经网络，由于密集连接卷积块中每一层的输入都包含了前面每一层的输出，输入特征的维度会非常的高，为了能够对输入特征进行降维，网络采用了类似于残差网络中的瓶颈层的结构。瓶颈层的实现方式是在输入至3x3的卷积层之前先对输入特征进行一次1x1的卷积进行通道维度上的降维操作，大大的降低了模型结构中的参数量于计算量；

步骤3.1：在文本图像特征提取上，引入了残差注意力模块，通过在使用编码器解码器结构获取特征图中感兴趣的区域的位置并生成掩膜对中间特征进行强化。在沿用了残差注意力机制的同时，为了能够进一步的弱化非目标特征所产生的影响，我们额外增加了一个负向软化掩膜分支，同样通过一个编码器与解码器结构对浅层特征中的非目标信息的语义进行分析，并将非目标区域的特征值进行部分弱化。正负双向软化掩膜的分支的结构大体相同，都由一个基于残差块的编码器解码器组成，不同的是正向分支中得到的掩膜图会对主分支的特征图中的文本区域特征起到增强，而负向分支中的掩模图则是对背景区域的特征起到抑制的作用，从而使得特征图的表达更加清晰。假设注意力机制模块在两层神经网络层中，x表示上一层网络层的特征输入，H_i,c(x)表示注意力机制模块对应两个网络层之间的映射关系，H_i,c(x)表示主干分支的映射关系，PA_i,c(x)与NA_i,c(x)分别表示正负双向软化掩膜分支，则注意力机制模块的定义如下所示：

H_i,c(x)＝F_i,c(x)+PA_i,c(x)*F_i,c(x)-NA_i,c(x)*F_i,c(x) ＝(1+PA_i,c(x)-NA_i,c(x))*F_i,c(x)，

其中i的取值范围的是输入的特征的高与宽的乘积，代表在指定输入特征中的空间坐标值。 c代表在输入特征中的通道位置；

步骤3.2：在音频数据特征提取上，首先将音频格式转化为单声道，并固定音频的采样频率，随后对音频使用滑动窗口并计算短时傅里叶变换(STFT)从而将音频转化为频谱的表达方式，最后再利用步骤3.1所述的残差注意力机制对频谱图像进行特征提取。另外，为了解决深层次卷积层中抽取到的特征中的空间信息被大量丢失的问题，借鉴了HyperNet、FPN的思想，将浅层次的特征进行尺度的缩放后与深层次的特征进行融合，通过将卷积层中的最后三层中得到的特征图进行尺度的缩放后化为统一的尺度并级联拼接从而达到加强语义特征的同时保留形态特征信息；

步骤4：对经过特征提取之后的两种模态的数据进行特征融合，采用灵活的中间融合的方式进行多模态数据的对齐，使不同模态的数据的高维特征在模型浅层处进行融合，充分利用两种模态数据的互补性。通过将特征抽取模块中得到的图像和音频两种模态数据的特征分别输入至自编码器中获得长度相等的特征，然后将两个特征在通道维度上级联拼接，进一步减少了池化操作导致的特征信息损失。基于多模态数据融合的字幕识别任务形式化定义如下：

一张高度为H，宽度为W的图像的灰度化输入为：

F_{in_image}＝{p_x,y,c|x∈[1,W],y∈[1,H]}，

一段时长为T秒，采样率为P音频输入为：

F_{in_audio}＝{p_t|t∈[1,T*P]}；

步骤5：将特征输入值多模态特征分类部分，该模块将所得特征图按列输入至我们的全连接网络中进行单个字符的分类，最后使用连接式时序分类器CTC得到序列的识别结果。我们预期模型最终的输出为一段文本检测结果序列：

F_out＝{C_i|i∈0,l),l∈[1,T*P]},C_i∈D。

附图说明

图1是本发明用于多模态视频中文字幕的文本识别方法的流程示意图，

图2是本发明用于多模态视频中文字幕的文本识别方法的网络结构图。

具体实施方式

下面将结合实施例对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

本发明提供的一种用于多模态视频中文字幕的文本识别方法的整体实施流程如图1所示，具体说明如下：

在图1中，模型分为三个部分:特征压缩提取部分，模态数据融合部分，多模态特征分类部分。其中特征压缩部分又被分为图像特征压缩部分和音频特征提取部分，图像特征压缩部分通过使用循环自动编码器进行特征的低损压缩，音频则通过滑动窗口计算短时傅里叶变换得到相应的频谱特征图，在模态数据融合部分，我们将两者先分别输入至一个带有注意力机制的密集卷积块中，随后将两种特征在通道维度上进行级联拼接，得到中间融合特征，并再次输入新的密集卷积块中进行综合的高维抽象特征的提取，最后将特征输入值多模态特征分类部分，该部分将所得特征图按列输入至全连接网络中进行单个字符的分类，最后使用连接式时序分类器得到序列的识别结果。至此网络描述完毕。总结而言，我们的模型在减少特征损失的前提下，实现了多模态数据在时序和维度上的融合，有着较好的泛化性。

本发明是在Windows 10操作系统上进行，开发语言为Python3.6，集成开发环境为Pycharm，深度学习框架是GPU版本的TensorFlow。硬件配置CPU为Intel(R)Xeon(R)E5-2630 v3，其主频2.40GHz，内存为64.0GB，GPU为Nvidia Tesla K40c。

网络结构图如图2所示。具体说明如下：

循环自动编码器如图2中的三角形部分，提出了一种新的基于卷积神经网络的循环自动编码器。模型由编码器解码器两部分组成，编码器包含2个密集卷积模块和一个步长为(1，2) 的卷积层，两个卷积层中的卷积核大小都为3x3，卷积运算的步长为(1，2)，训练完毕后留下模型中的编码器的模型参数并合并至识别模型中。该模型的形式化定义表述如下。假设模型输入的待压缩图像为：

G_in＝((g₁₁,g₁₂,…,g_1j),(g₂₁,g₂₂,…,g_2j),…,(g_i1,g_i2,…,g_ij))， (1) 其中i,j代表图像的长与宽。将图像输入至模型后得到的输出记作：

G_out＝((g₁₁,g₁₂,…,g_1l),(g₂₁,g₂₂,…,g_2l),…,(g_k1,g_k2,…,g_kl)) (2)

其中S_in和S_out分别代表了卷积的输入和输出的大小，f为卷积核尺寸，p为边缘填充的数目， s为卷积运算的步长。代入我们的参数设置后得到新的关系：

从新的关系中我们可以看出每个网络层的输出尺寸为输入尺寸的一半，这种参数的设定使得网络层在产生了一种池化的效果的同时不会忽略输入特征中的任何信息，能够进一步的提高图像压缩的性能。另外，使用步长为2的卷积操作的编码器的计算量较传统的编码器也较小。循环自动编码器的中编码器部分得到的特征图的长宽尺寸为原输入图像的1/4，即图像的压缩比能够达到1:16。另外，每一层卷积层的卷积核数目为本轮设定卷积核数目与上一轮卷积核数目的总和。即假设当初处于第i轮的训练中，预设的单轮卷积核数目为k，则当前编码器卷积层中的卷积核数目为i*k。然而并非所有的卷积核参数都需要进行训练，这是由于在先前i-1个轮次中训练得到的卷积核参数已经足以表达部分的图像模式信息，而该轮次的训练目的在于补足先前的训练所遗漏的特征信息。因此在第i轮的训练中实际能够进行修改的卷积核仅有k个。为了能够使训练在适当的时候停止，我们为模型的训练设置了一个终止条件，即当模型在验证集中达到的准确率达到98％以上后停止训练。由于我们的最终目标是能够将图像的特征进行稳定的压缩，而不需要将压缩后的数据在进行还原，所以在训练完毕后，只需要留下模型中的编码器的模型参数并合并至识别模型中，而解码器部分的模型将不再需要。

注意力机制如图2中带有标注a的，为了能够使模型能够对于特征提取器中的浅层特征中的目标语义信息具有一定的敏感性。我们引入了一种新的注意力机制强化图像中的感兴趣的区域并弱化不感兴趣的区域使我们能够在不进一步的增加模型的深度的情况下提升模型提取文字区域特征的性能。在原有的图像特征前向传播的主干分支的基础上新增两个软化掩膜分支：正向软化掩膜分支与反向软化掩膜分支。主分支可以简化的看作是一个基础的残差卷积块，其中包含有t层残差卷积单元。在不考虑两个软化掩膜分支的影响的情况下，该模块能够直接实现最为普通的图像特征提取的功能。正负双向软化掩膜的分支的结构大体相同，都由一个基于残差块的编码器解码器组成，不同的是正向分支中得到的掩膜图会对主分支的特征图中的文本区域特征起到增强，而负向分支中的掩模图则是对背景区域的特征起到抑制的作用，从而使得特征图的表达更加清晰。本模块中一共包含有2个超参数能够进行选择和设定，p代表了注意力模块的前后的起到缓冲作用的残差块的个数，t代表主分支中所需要进行特征提取的残差块的个数。假设注意力机制模块在两层神经网络层中，x表示上一层网络层的特征输入，H_i,c(x) 表示注意力机制模块对应两个网络层之间的映射关系，F_i,c(x)表示主干分支的映射关系， PA_i,c(x)与NA_i,c(x)分别表示正负双向软化掩膜分支，则注意力机制模块的定义如下所示：

H_i,c(x)＝F_i,c(x)+PA_i,c(x)*F_i,c(x)-NA_i,c(x)*F_i,c(x) ＝(1+PA_i,c(x)-NA_i,c(x))*F_i,c(x) (5)

其中i的取值范围的是输入的特征的高与宽的乘积，代表在指定输入特征中的空间坐标值。 c代表在输入特征中的通道位置。

双向的残差注意力模块通常加入在两个邻接的卷积神经网络层的中间，即该模块所接受的特征输入与该模块所提供的特征输出在长度和宽度两个维度上应当是具有完全相同的尺寸的。

特征提取部分，在图像特征提取模块中引入了残差注意力模块，通过在使用编码器解码器结构获取特征图中感兴趣的区域的位置并生成掩膜对中间特征进行强化。在沿用了残差注意力机制的同时，为了能够进一步的弱化非目标特征所产生的影响，我们额外增加了一个负向软化掩膜分支，同样通过一个编码器与解码器结构对浅层特征中的非目标信息的语义进行分析，并将非目标区域的特征值进行部分弱化。另外，为了解决深层次卷积层中抽取到的特征中的空间信息被大量丢失的问题，借鉴了HyperNet、FPN与我们先前的研究MSFCN的思想，将浅层次的特征进行尺度的缩放后与深层次的特征进行融合，通过将卷积层中的最后三层中得到的特征图进行尺度的缩放后化为统一的尺度并级联拼接从而达到加强语义特征的同时保留形态特征信息。对于音频数据特征提取上，通过滑动窗口计算短时傅里叶变换，得到相应的频谱特征图作为卷积层的输入。

密集连接卷积神经网络如图2中带有标注d的部分，DenseNet使用的模型架构为了确保网络层之间的最大信息流，将所有层直接彼此连接。为了保持前馈特性，每一层都将从前面的所有层中获得额外的输入，并将自己的特征映射传递给后面的所有层，由于这种卷积层之间具有密集连接的特性，密集连接卷积神经网络因此得名。得益于密集连接的特性，这种网络结构通过接受前层网络层的额外输入获得浅层的图像形态特征而不需要学习冗余的特征图。利用密集连接网络结构解决VGG16模型存在的特征学习冗余的问题的，同时解决了残差神经网络中将浅层特征直接通过求和进行组合所导致的特征不能够得到很好的表达的问题。由于密集连接卷积块中每一层的输入都包含了前面每一层的输出，输入特征的维度会非常的高，为了能够对输入特征进行降维，网络采用了类似于残差网络中的瓶颈层的结构(Bottleneck layer)。瓶颈层的实现方式是在输入至3x3的卷积层之前先对输入特征进行一次1x1的卷积进行通道维度上的降维操作，大大的降低了模型结构中的参数量于计算量。

多模态特征融合部分，采用灵活的中间融合的方式进行多模态数据的对齐，使不同模态的数据的高维特征在模型浅层处进行融合，充分利用两种模态数据的互补性。本模型接受的两种模态输入分别是文本行图像和对应的语音音频，图像和音频两者在数据维度上没有任何的相似性所代表的意义也完全不同，但是文本行图像的特点是文字的顺序会在图像中按照自左向右的方向进行排列，而音频中对应的语音也存在着相应的时序关系。得益于循环卷积自动编码器与全卷积分类网络，模型中多模态数据融合模块所接受的图像与音频输入可以是任意尺寸的，仅对两种数据的维度大小有所要求。通过引入基于卷积神经网络的自编码器使得模型能够非等比例地压缩原图特征且不丢失任何特征信息的同时保证压缩后的特征仍具有时序特征。通过将特征抽取模块中得到的图像和音频两种模态数据的特征分别输入至自编码器中获得长度相等的特征，然后将两个特征在通道维度上级联拼接，这种方法也进一步减少了池化操作导致的特征信息损失。

连接式时序分类器(CTC)，采用连接式时序分类器作为最后序列结果对齐的方法，输入图像文本真值为“举办运动会强身健体”，CTC会将输出“举举办运运运动会强身健体”这一序列结果进行对齐，最终结果为“举办运动会强身健体”。该方法在2016年首次被提出后，在序列分类相关的任务中产生了巨大的影响并被广泛应用。然而，由于模型中采用递归神经网络对序列进行预测，不可避免的需要解决递归神经网络所带来的问题：模型无法并行训练，训练过程容易产生梯度消失与梯度爆炸的问题。提出了基于全卷积网络的文本行序列识别模型，通过将原有得递归神经网络替换为卷积神经网络层，在消除了问题的同时，保持原有的预测性能不变。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内，因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种用于多模态视频中文字幕识别方法，其特征在于包含以下步骤：

步骤2：将文本图像数据输入到循环自动编码器进行特征维度的压缩，该模型的形式化定义表述如下：

假设模型输入的待压缩图像为：

其中i,j代表图像的长与宽，将图像输入至模型后得到的输出记作：

其中k,l代表输出图像的长，宽，需要注意的是输出的图像的长宽应该是小于输入图像的，并且输出图像的尺寸随输入变化，循环自动编码器的中编码器部分得到的特征图的长宽尺寸为原输入图像的1/2，图像的压缩比和编码器训练次数有关，已知卷积运算的输出大小的计算公式如下：

其中S_in和S_out分别代表了卷积的输入和输出的大小，f为卷积核尺寸，p为边缘填充的数目，s为卷积运算的步长，代入我们的参数设置后得到新的关系：

步骤3：分别对输入的两种多模态数据进行特征提取，提取特征所用骨干网络为密集连接卷积神经网络；

步骤3.1：在文本图像特征提取上，引入了残差注意力模块，通过在使用编码器解码器结构获取特征图中感兴趣的区域的位置并生成掩膜对中间特征进行强化，假设注意力机制模块在两层神经网络层中，x表示上一层网络层的特征输入，H_i,c(x)表示注意力机制模块对应两个网络层之间的映射关系，H_i,c(x)表示主干分支的映射关系，PA_i,c(x)与NA_i,c(x)分别表示正负双向软化掩膜分支，则注意力机制模块的定义如下所示：

H_i,c(x)＝F_i,c(x)+PA_i,c(x)*F_i,c(x)-NA_i,c(x)*F_i,c(x)

＝(1+PA_i,c(x)-NA_i,c(x))*F_i,c(x)，

其中i的取值范围的是输入的特征的高与宽的乘积，代表在指定输入特征中的空间坐标值，c代表在输入特征中的通道位置；

步骤3.2：在音频数据特征提取上，首先将音频格式转化为单声道，并固定音频的采样频率，随后对音频使用滑动窗口并计算短时傅里叶变换(STFT)从而将音频转化为频谱的表达方式，最后再利用步骤3.1所述的残差注意力机制对频谱图像进行特征提取；

步骤4：对经过特征提取之后的两种模态的数据进行特征融合，通过将特征抽取模块中得到的图像和音频两种模态数据的特征分别输入至自编码器中获得长度相等的特征，然后将两个特征在通道维度上级联拼接，进一步减少了池化操作导致的特征信息损失，基于多模态数据融合的字幕识别任务形式化定义如下：

一张高度为H，宽度为W的图像的灰度化输入为：

F_{in_image}＝{p_x,y,c|x∈[1,W],y∈[1,H]}，

一段时长为T秒，采样率为P音频输入为：

F_{in_audio}＝{p_t|t∈[1,T*P]}；

步骤5：将特征输入值多模态特征分类部分，该模块将所得特征图按列输入至我们的全连接网络中进行单个字符的分类，最后使用连接式时序分类器得到序列的识别结果，预期模型最终的输出为一段文本检测结果序列：

F_out＝{C_i|i∈0,l),l∈[1,T*P]},C_i∈D。