CN113221900A - 一种基于密集连接卷积网络的多模态视频中文字幕识别方法 - Google Patents

一种基于密集连接卷积网络的多模态视频中文字幕识别方法 Download PDF

Info

Publication number
CN113221900A
CN113221900A CN202110473049.9A CN202110473049A CN113221900A CN 113221900 A CN113221900 A CN 113221900A CN 202110473049 A CN202110473049 A CN 202110473049A CN 113221900 A CN113221900 A CN 113221900A
Authority
CN
China
Prior art keywords
image
feature
input
audio
features
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN202110473049.9A
Other languages
English (en)
Inventor
唐震宇
刘晋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Maritime University
Original Assignee
Shanghai Maritime University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Maritime University filed Critical Shanghai Maritime University
Priority to CN202110473049.9A priority Critical patent/CN113221900A/zh
Publication of CN113221900A publication Critical patent/CN113221900A/zh
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/153Segmentation of character regions using recognition of characters or words
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Abstract

本发明提供了一种基于密集连接卷积网络的多模态视频中文字幕识别方法,利用了多模态数据融合、循环自动编码器、连接式时序分类器等多种技术,并在DenseNet的基础上引入正负双向残差注意力机制。本方法能够保留视频中的音频、文本图像的序列信息,并能够对音频、文本图像这两种维度大小完全不匹配的数据进行有效的融合,减少特征损失。通过融合多模态数据,为文本行分类提供更全面,更详细的特征信息,提高文本识别精度。本发明在密集卷积网络的基础上进行创新,在模型识别准确率略微下降的同时显著减少了模型参数与训练时间,具有更强大的灵活性和适应性。

Description

一种基于密集连接卷积网络的多模态视频中文字幕识别方法
技术领域
本发明涉及文本检测技术,多模态数据融合技术,深度学习技术,尤其涉及一种用于多模 态视频中文字幕的文本行检测方法。
背景技术
在当今社会,随着社交网络中短视频的兴起,视频资源的规模大大增加,甚至超过了图像 数据的规模。作为一种结合了音频和图像模态的数据,视频所包含的信息比独立的音频和图像 数据要多得多,然而面对海量的视频数据,这两种模态的数据的利用变得更加困难。视频字幕 识别与单模态文本识别不同,虽然音频序列和文本序列都含有一句话的信息,但音频是以时间 序列表达的,文本是以空间序列表达的,两种模态数据表达的特征的维度大小并不匹配。。
综上所述,现有的技术存在的问题是:
(1)传统自动编码器连接不具有局部敏感性,并且自动编码器的中间特征向量的数目不 能够超过输入特征,使得特征向量的压缩比率仍然不足,使得两种模态的数据无法进行对齐。
(2)文字的顺序会在图像中按照自左向右的方向进行排列,而音频中对应的语音也存在 着相应的时序关系,图像数据与音频数据在以往的特征提取过程中会丢失原有的输 入的顺序性。
(3)图像数据与音频数据虽然在某种意义上的都具有时序的特征,但是两种数据的维度 大小完全不匹配,不能够进行有效的融合。
发明内容
针对现有技术中的缺陷,本发明的目的在于提供一种基于密集卷积网络的视频中文字幕识 别方法。解决了当前用于视频字幕的文本行检测网络中音频、图像无法对齐,特征提取丢失顺 序性以及多模态数据无法有效融合的问题。
本发明提供了一种用于视频字幕的文本行检测方法,其特征在于包含以下步骤:
步骤1:制作文本图像数据集,并将数据集分为训练集,验证集和测试集;所述数据集是 基于希尔贝壳中文普通话开源语音数据库中的音频数据结合COCO自然场景图像数据集绘制而 成;
步骤2:将文本图像数据输入到循环自动编码器进行特征维度的压缩,模型由编码器解码 器两部分组成,编码器包含2个密集卷积模块和一个步长为(1,2)的卷积层,两个卷积层中 的卷积核大小都为3x3,卷积运算的步长为(1,2),训练完毕后留下模型中的编码器的模型 参数并合并至识别模型中。该模型的形式化定义表述如下:
假设模型输入的待压缩图像为:
Gin=((g11,g12,…,g1j),(g21,g22,…,g2j),…,(gi1,gi2,…,gij)),
其中,代表图像的长与宽。将图像输入至模型后得到的输出记作:
Gout=((g11,g12,…,g1l),(g21,g22,…,g2l),…,(gk1,gk2,…,gkl)),
其中k,l代表输出图像的长,宽,需要注意的是输出的图像的长宽应该是小于输入图像 的,并且输出图像的尺寸随输入变化。循环自动编码器的中编码器部分得到的特征图的长宽尺 寸为原输入图像的1/2,图像的压缩比和编码器训练次数有关。已知卷积运算的输出大小的计 算公式如下:
Figure BDA0003046253970000021
其中Sin和Sout分别代表了卷积的输入和输出的大小,f为卷积核尺寸,p为边缘填充的数 目,s为卷积运算的步长。代入我们的参数设置后得到新的关系:
Figure BDA0003046253970000022
从新的关系中我们可以看出每个网络层的输出尺寸为输入尺寸的一半,这种参数的设定使 得网络层在产生了一种池化的效果的同时不会忽略输入特征中的任何信息,能够进一步的提高 图像压缩的性能。另外,使用步长为2的卷积操作的编码器的计算量较传统的编码器也较小。 循环自动编码器的中编码器部分得到的特征图的长宽尺寸为原输入图像的1/4,即图像的压缩 比能够达到1:16;
步骤3:分别对输入的两种多模态数据进行特征提取,提取特征所用骨干网络为密集连接 卷积神经网络,由于密集连接卷积块中每一层的输入都包含了前面每一层的输出,输入特征的 维度会非常的高,为了能够对输入特征进行降维,网络采用了类似于残差网络中的瓶颈层的结 构。瓶颈层的实现方式是在输入至3x3的卷积层之前先对输入特征进行一次1x1的卷积进行通 道维度上的降维操作,大大的降低了模型结构中的参数量于计算量;
步骤3.1:在文本图像特征提取上,引入了残差注意力模块,通过在使用编码器解码器结 构获取特征图中感兴趣的区域的位置并生成掩膜对中间特征进行强化。在沿用了残差注意力机 制的同时,为了能够进一步的弱化非目标特征所产生的影响,我们额外增加了一个负向软化掩 膜分支,同样通过一个编码器与解码器结构对浅层特征中的非目标信息的语义进行分析,并将 非目标区域的特征值进行部分弱化。正负双向软化掩膜的分支的结构大体相同,都由一个基于 残差块的编码器解码器组成,不同的是正向分支中得到的掩膜图会对主分支的特征图中的文本 区域特征起到增强,而负向分支中的掩模图则是对背景区域的特征起到抑制的作用,从而使得 特征图的表达更加清晰。假设注意力机制模块在两层神经网络层中,x表示上一层网络层的特 征输入,Hi,c(x)表示注意力机制模块对应两个网络层之间的映射关系,Hi,c(x)表示主干分支的 映射关系,PAi,c(x)与NAi,c(x)分别表示正负双向软化掩膜分支,则注意力机制模块的定义如下 所示:
Hi,c(x)=Fi,c(x)+PAi,c(x)*Fi,c(x)-NAi,c(x)*Fi,c(x) =(1+PAi,c(x)-NAi,c(x))*Fi,c(x),
其中i的取值范围的是输入的特征的高与宽的乘积,代表在指定输入特征中的空间坐标值。 c代表在输入特征中的通道位置;
步骤3.2:在音频数据特征提取上,首先将音频格式转化为单声道,并固定音频的采样频 率,随后对音频使用滑动窗口并计算短时傅里叶变换(STFT)从而将音频转化为频谱的表达方 式,最后再利用步骤3.1所述的残差注意力机制对频谱图像进行特征提取。另外,为了解决深 层次卷积层中抽取到的特征中的空间信息被大量丢失的问题,借鉴了HyperNet、FPN的思想, 将浅层次的特征进行尺度的缩放后与深层次的特征进行融合,通过将卷积层中的最后三层中得 到的特征图进行尺度的缩放后化为统一的尺度并级联拼接从而达到加强语义特征的同时保留 形态特征信息;
步骤4:对经过特征提取之后的两种模态的数据进行特征融合,采用灵活的中间融合的方 式进行多模态数据的对齐,使不同模态的数据的高维特征在模型浅层处进行融合,充分利用两 种模态数据的互补性。通过将特征抽取模块中得到的图像和音频两种模态数据的特征分别输入 至自编码器中获得长度相等的特征,然后将两个特征在通道维度上级联拼接,进一步减少了池 化操作导致的特征信息损失。基于多模态数据融合的字幕识别任务形式化定义如下:
一张高度为H,宽度为W的图像的灰度化输入为:
Fin_image={px,y,c|x∈[1,W],y∈[1,H]},
一段时长为T秒,采样率为P音频输入为:
Fin_audio={pt|t∈[1,T*P]};
步骤5:将特征输入值多模态特征分类部分,该模块将所得特征图按列输入至我们的全连 接网络中进行单个字符的分类,最后使用连接式时序分类器CTC得到序列的识别结果。我们预 期模型最终的输出为一段文本检测结果序列:
Fout={Ci|i∈0,l),l∈[1,T*P]},Ci∈D。
附图说明
图1是本发明用于多模态视频中文字幕的文本识别方法的流程示意图,
图2是本发明用于多模态视频中文字幕的文本识别方法的网络结构图。
具体实施方式
下面将结合实施例对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例仅 仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人 员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
本发明提供的一种用于多模态视频中文字幕的文本识别方法的整体实施流程如图1所示, 具体说明如下:
在图1中,模型分为三个部分:特征压缩提取部分,模态数据融合部分,多模态特征分类部 分。其中特征压缩部分又被分为图像特征压缩部分和音频特征提取部分,图像特征压缩部分通 过使用循环自动编码器进行特征的低损压缩,音频则通过滑动窗口计算短时傅里叶变换得到相 应的频谱特征图,在模态数据融合部分,我们将两者先分别输入至一个带有注意力机制的密集 卷积块中,随后将两种特征在通道维度上进行级联拼接,得到中间融合特征,并再次输入新的 密集卷积块中进行综合的高维抽象特征的提取,最后将特征输入值多模态特征分类部分,该部 分将所得特征图按列输入至全连接网络中进行单个字符的分类,最后使用连接式时序分类器得 到序列的识别结果。至此网络描述完毕。总结而言,我们的模型在减少特征损失的前提下,实 现了多模态数据在时序和维度上的融合,有着较好的泛化性。
本发明是在Windows 10操作系统上进行,开发语言为Python3.6,集成开发环境为Pycharm, 深度学习框架是GPU版本的TensorFlow。硬件配置CPU为Intel(R)Xeon(R)E5-2630 v3,其 主频2.40GHz,内存为64.0GB,GPU为Nvidia Tesla K40c。
网络结构图如图2所示。具体说明如下:
循环自动编码器如图2中的三角形部分,提出了一种新的基于卷积神经网络的循环自动编 码器。模型由编码器解码器两部分组成,编码器包含2个密集卷积模块和一个步长为(1,2) 的卷积层,两个卷积层中的卷积核大小都为3x3,卷积运算的步长为(1,2),训练完毕后留 下模型中的编码器的模型参数并合并至识别模型中。该模型的形式化定义表述如下。假设模型 输入的待压缩图像为:
Gin=((g11,g12,…,g1j),(g21,g22,…,g2j),…,(gi1,gi2,…,gij)), (1) 其中i,j代表图像的长与宽。将图像输入至模型后得到的输出记作:
Gout=((g11,g12,…,g1l),(g21,g22,…,g2l),…,(gk1,gk2,…,gkl)) (2)
其中k,l代表输出图像的长,宽,需要注意的是输出的图像的长宽应该是小于输入图像的,并 且输出图像的尺寸随输入变化。循环自动编码器的中编码器部分得到的特征图的长宽尺寸为原 输入图像的1/2,图像的压缩比和编码器训练次数有关。已知卷积运算的输出大小的计算公式 如下:
Figure BDA0003046253970000051
其中Sin和Sout分别代表了卷积的输入和输出的大小,f为卷积核尺寸,p为边缘填充的数目, s为卷积运算的步长。代入我们的参数设置后得到新的关系:
Figure BDA0003046253970000052
从新的关系中我们可以看出每个网络层的输出尺寸为输入尺寸的一半,这种参数的设定使 得网络层在产生了一种池化的效果的同时不会忽略输入特征中的任何信息,能够进一步的提高 图像压缩的性能。另外,使用步长为2的卷积操作的编码器的计算量较传统的编码器也较小。 循环自动编码器的中编码器部分得到的特征图的长宽尺寸为原输入图像的1/4,即图像的压缩 比能够达到1:16。另外,每一层卷积层的卷积核数目为本轮设定卷积核数目与上一轮卷积核数 目的总和。即假设当初处于第i轮的训练中,预设的单轮卷积核数目为k,则当前编码器卷积 层中的卷积核数目为i*k。然而并非所有的卷积核参数都需要进行训练,这是由于在先前i-1个 轮次中训练得到的卷积核参数已经足以表达部分的图像模式信息,而该轮次的训练目的在于补 足先前的训练所遗漏的特征信息。因此在第i轮的训练中实际能够进行修改的卷积核仅有k个。 为了能够使训练在适当的时候停止,我们为模型的训练设置了一个终止条件,即当模型在验证 集中达到的准确率达到98%以上后停止训练。由于我们的最终目标是能够将图像的特征进行 稳定的压缩,而不需要将压缩后的数据在进行还原,所以在训练完毕后,只需要留下模型中的 编码器的模型参数并合并至识别模型中,而解码器部分的模型将不再需要。
注意力机制如图2中带有标注a的,为了能够使模型能够对于特征提取器中的浅层特征中 的目标语义信息具有一定的敏感性。我们引入了一种新的注意力机制强化图像中的感兴趣的区 域并弱化不感兴趣的区域使我们能够在不进一步的增加模型的深度的情况下提升模型提取文 字区域特征的性能。在原有的图像特征前向传播的主干分支的基础上新增两个软化掩膜分支: 正向软化掩膜分支与反向软化掩膜分支。主分支可以简化的看作是一个基础的残差卷积块,其 中包含有t层残差卷积单元。在不考虑两个软化掩膜分支的影响的情况下,该模块能够直接实 现最为普通的图像特征提取的功能。正负双向软化掩膜的分支的结构大体相同,都由一个基于 残差块的编码器解码器组成,不同的是正向分支中得到的掩膜图会对主分支的特征图中的文本 区域特征起到增强,而负向分支中的掩模图则是对背景区域的特征起到抑制的作用,从而使得 特征图的表达更加清晰。本模块中一共包含有2个超参数能够进行选择和设定,p代表了注意 力模块的前后的起到缓冲作用的残差块的个数,t代表主分支中所需要进行特征提取的残差块 的个数。假设注意力机制模块在两层神经网络层中,x表示上一层网络层的特征输入,Hi,c(x) 表示注意力机制模块对应两个网络层之间的映射关系,Fi,c(x)表示主干分支的映射关系, PAi,c(x)与NAi,c(x)分别表示正负双向软化掩膜分支,则注意力机制模块的定义如下所示:
Hi,c(x)=Fi,c(x)+PAi,c(x)*Fi,c(x)-NAi,c(x)*Fi,c(x) =(1+PAi,c(x)-NAi,c(x))*Fi,c(x) (5)
其中i的取值范围的是输入的特征的高与宽的乘积,代表在指定输入特征中的空间坐标值。 c代表在输入特征中的通道位置。
双向的残差注意力模块通常加入在两个邻接的卷积神经网络层的中间,即该模块所接受的 特征输入与该模块所提供的特征输出在长度和宽度两个维度上应当是具有完全相同的尺寸的。
特征提取部分,在图像特征提取模块中引入了残差注意力模块,通过在使用编码器解码器 结构获取特征图中感兴趣的区域的位置并生成掩膜对中间特征进行强化。在沿用了残差注意力 机制的同时,为了能够进一步的弱化非目标特征所产生的影响,我们额外增加了一个负向软化 掩膜分支,同样通过一个编码器与解码器结构对浅层特征中的非目标信息的语义进行分析,并 将非目标区域的特征值进行部分弱化。另外,为了解决深层次卷积层中抽取到的特征中的空间 信息被大量丢失的问题,借鉴了HyperNet、FPN与我们先前的研究MSFCN的思想,将浅层次 的特征进行尺度的缩放后与深层次的特征进行融合,通过将卷积层中的最后三层中得到的特征 图进行尺度的缩放后化为统一的尺度并级联拼接从而达到加强语义特征的同时保留形态特征 信息。对于音频数据特征提取上,通过滑动窗口计算短时傅里叶变换,得到相应的频谱特征图 作为卷积层的输入。
密集连接卷积神经网络如图2中带有标注d的部分,DenseNet使用的模型架构为了确保网 络层之间的最大信息流,将所有层直接彼此连接。为了保持前馈特性,每一层都将从前面的所 有层中获得额外的输入,并将自己的特征映射传递给后面的所有层,由于这种卷积层之间具有 密集连接的特性,密集连接卷积神经网络因此得名。得益于密集连接的特性,这种网络结构通 过接受前层网络层的额外输入获得浅层的图像形态特征而不需要学习冗余的特征图。利用密集 连接网络结构解决VGG16模型存在的特征学习冗余的问题的,同时解决了残差神经网络中将 浅层特征直接通过求和进行组合所导致的特征不能够得到很好的表达的问题。由于密集连接卷 积块中每一层的输入都包含了前面每一层的输出,输入特征的维度会非常的高,为了能够对输 入特征进行降维,网络采用了类似于残差网络中的瓶颈层的结构(Bottleneck layer)。瓶颈层 的实现方式是在输入至3x3的卷积层之前先对输入特征进行一次1x1的卷积进行通道维度上 的降维操作,大大的降低了模型结构中的参数量于计算量。
多模态特征融合部分,采用灵活的中间融合的方式进行多模态数据的对齐,使不同模态的 数据的高维特征在模型浅层处进行融合,充分利用两种模态数据的互补性。本模型接受的两种 模态输入分别是文本行图像和对应的语音音频,图像和音频两者在数据维度上没有任何的相似 性所代表的意义也完全不同,但是文本行图像的特点是文字的顺序会在图像中按照自左向右的 方向进行排列,而音频中对应的语音也存在着相应的时序关系。得益于循环卷积自动编码器与 全卷积分类网络,模型中多模态数据融合模块所接受的图像与音频输入可以是任意尺寸的,仅 对两种数据的维度大小有所要求。通过引入基于卷积神经网络的自编码器使得模型能够非等比 例地压缩原图特征且不丢失任何特征信息的同时保证压缩后的特征仍具有时序特征。通过将特 征抽取模块中得到的图像和音频两种模态数据的特征分别输入至自编码器中获得长度相等的 特征,然后将两个特征在通道维度上级联拼接,这种方法也进一步减少了池化操作导致的特征 信息损失。
连接式时序分类器(CTC),采用连接式时序分类器作为最后序列结果对齐的方法,输入图像 文本真值为“举办运动会强身健体”,CTC会将输出“举举办运运运动会强身健体”这一序 列结果进行对齐,最终结果为“举办运动会强身健体”。该方法在2016年首次被提出后,在 序列分类相关的任务中产生了巨大的影响并被广泛应用。然而,由于模型中采用递归神经网络 对序列进行预测,不可避免的需要解决递归神经网络所带来的问题:模型无法并行训练,训练 过程容易产生梯度消失与梯度爆炸的问题。提出了基于全卷积网络的文本行序列识别模型,通 过将原有得递归神经网络替换为卷积神经网络层,在消除了问题的同时,保持原有的预测性能 不变。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本 技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明 的保护范围之内,因此,本发明的保护范围应以所述权利要求的保护范围为准。

Claims (1)

1.一种用于多模态视频中文字幕识别方法,其特征在于包含以下步骤:
步骤1:制作文本图像数据集,并将数据集分为训练集,验证集和测试集;所述数据集是基于希尔贝壳中文普通话开源语音数据库中的音频数据结合COCO自然场景图像数据集绘制而成;
步骤2:将文本图像数据输入到循环自动编码器进行特征维度的压缩,该模型的形式化定义表述如下:
假设模型输入的待压缩图像为:
Gin=((g11,g12,…,g1j),(g21,g22,…,g2j),…,(gi1,gi2,…,gij)),
其中i,j代表图像的长与宽,将图像输入至模型后得到的输出记作:
Gout=((g11,g12,…,g1l),(g21,g22,…,g2l),…,(gk1,gk2,…,gkl)),
其中k,l代表输出图像的长,宽,需要注意的是输出的图像的长宽应该是小于输入图像的,并且输出图像的尺寸随输入变化,循环自动编码器的中编码器部分得到的特征图的长宽尺寸为原输入图像的1/2,图像的压缩比和编码器训练次数有关,已知卷积运算的输出大小的计算公式如下:
Figure FDA0003046253960000011
其中Sin和Sout分别代表了卷积的输入和输出的大小,f为卷积核尺寸,p为边缘填充的数目,s为卷积运算的步长,代入我们的参数设置后得到新的关系:
Figure FDA0003046253960000012
步骤3:分别对输入的两种多模态数据进行特征提取,提取特征所用骨干网络为密集连接卷积神经网络;
步骤3.1:在文本图像特征提取上,引入了残差注意力模块,通过在使用编码器解码器结构获取特征图中感兴趣的区域的位置并生成掩膜对中间特征进行强化,假设注意力机制模块在两层神经网络层中,x表示上一层网络层的特征输入,Hi,c(x)表示注意力机制模块对应两个网络层之间的映射关系,Hi,c(x)表示主干分支的映射关系,PAi,c(x)与NAi,c(x)分别表示正负双向软化掩膜分支,则注意力机制模块的定义如下所示:
Hi,c(x)=Fi,c(x)+PAi,c(x)*Fi,c(x)-NAi,c(x)*Fi,c(x)
=(1+PAi,c(x)-NAi,c(x))*Fi,c(x),
其中i的取值范围的是输入的特征的高与宽的乘积,代表在指定输入特征中的空间坐标值,c代表在输入特征中的通道位置;
步骤3.2:在音频数据特征提取上,首先将音频格式转化为单声道,并固定音频的采样频率,随后对音频使用滑动窗口并计算短时傅里叶变换(STFT)从而将音频转化为频谱的表达方式,最后再利用步骤3.1所述的残差注意力机制对频谱图像进行特征提取;
步骤4:对经过特征提取之后的两种模态的数据进行特征融合,通过将特征抽取模块中得到的图像和音频两种模态数据的特征分别输入至自编码器中获得长度相等的特征,然后将两个特征在通道维度上级联拼接,进一步减少了池化操作导致的特征信息损失,基于多模态数据融合的字幕识别任务形式化定义如下:
一张高度为H,宽度为W的图像的灰度化输入为:
Fin_image={px,y,c|x∈[1,W],y∈[1,H]},
一段时长为T秒,采样率为P音频输入为:
Fin_audio={pt|t∈[1,T*P]};
步骤5:将特征输入值多模态特征分类部分,该模块将所得特征图按列输入至我们的全连接网络中进行单个字符的分类,最后使用连接式时序分类器得到序列的识别结果,预期模型最终的输出为一段文本检测结果序列:
Fout={Ci|i∈0,l),l∈[1,T*P]},Ci∈D。
CN202110473049.9A 2021-04-29 2021-04-29 一种基于密集连接卷积网络的多模态视频中文字幕识别方法 Withdrawn CN113221900A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110473049.9A CN113221900A (zh) 2021-04-29 2021-04-29 一种基于密集连接卷积网络的多模态视频中文字幕识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110473049.9A CN113221900A (zh) 2021-04-29 2021-04-29 一种基于密集连接卷积网络的多模态视频中文字幕识别方法

Publications (1)

Publication Number Publication Date
CN113221900A true CN113221900A (zh) 2021-08-06

Family

ID=77089998

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110473049.9A Withdrawn CN113221900A (zh) 2021-04-29 2021-04-29 一种基于密集连接卷积网络的多模态视频中文字幕识别方法

Country Status (1)

Country Link
CN (1) CN113221900A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116456262A (zh) * 2023-03-30 2023-07-18 青岛城市轨道交通科技有限公司 一种基于多模态感知的双声道音频生成方法
CN116912257A (zh) * 2023-09-14 2023-10-20 东莞理工学院 基于深度学习的混凝土路面裂缝识别方法及存储介质
CN117556208A (zh) * 2023-11-20 2024-02-13 中国地质大学(武汉) 多模态数据的智能卷积通用网络预测方法、设备及介质
CN117556208B (zh) * 2023-11-20 2024-05-14 中国地质大学(武汉) 多模态数据的智能卷积通用网络预测方法、设备及介质

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116456262A (zh) * 2023-03-30 2023-07-18 青岛城市轨道交通科技有限公司 一种基于多模态感知的双声道音频生成方法
CN116456262B (zh) * 2023-03-30 2024-01-23 青岛城市轨道交通科技有限公司 一种基于多模态感知的双声道音频生成方法
CN116912257A (zh) * 2023-09-14 2023-10-20 东莞理工学院 基于深度学习的混凝土路面裂缝识别方法及存储介质
CN116912257B (zh) * 2023-09-14 2023-12-29 东莞理工学院 基于深度学习的混凝土路面裂缝识别方法及存储介质
CN117556208A (zh) * 2023-11-20 2024-02-13 中国地质大学(武汉) 多模态数据的智能卷积通用网络预测方法、设备及介质
CN117556208B (zh) * 2023-11-20 2024-05-14 中国地质大学(武汉) 多模态数据的智能卷积通用网络预测方法、设备及介质

Similar Documents

Publication Publication Date Title
Pang et al. Hierarchical dynamic filtering network for RGB-D salient object detection
US11373390B2 (en) Generating scene graphs from digital images using external knowledge and image reconstruction
US20210383231A1 (en) Target cross-domain detection and understanding method, system and equipment and storage medium
Wu et al. Object-compositional neural implicit surfaces
Yang et al. Spatiotemporal trident networks: detection and localization of object removal tampering in video passive forensics
CN111488487B (zh) 一种面向全媒体数据的广告检测方法及检测系统
CN113221900A (zh) 一种基于密集连接卷积网络的多模态视频中文字幕识别方法
CN110232564A (zh) 一种基于多模态数据的交通事故法律自动决策方法
CN116994021A (zh) 图像检测方法、装置、计算机可读介质及电子设备
Xue et al. LCSNet: End-to-end lipreading with channel-aware feature selection
CN111680684A (zh) 一种基于深度学习的书脊文本识别方法、设备及存储介质
CN116980541B (zh) 视频编辑方法、装置、电子设备以及存储介质
CN114398505A (zh) 目标词语的确定方法、模型的训练方法、装置及电子设备
CN112348001B (zh) 表情识别模型的训练方法、识别方法、装置、设备及介质
CN116682110B (zh) 图像处理方法、装置、设备及介质
CN117237761A (zh) 对象重识别模型的训练方法、对象重识别方法和装置
CN117197569A (zh) 图像审核方法、图像审核模型训练方法、装置和设备
Tang et al. Cyclic Autoencoder for Multimodal Data Alignment Using Custom Datasets.
CN116229531A (zh) 一种协作渐进生成对抗网络的人脸正面图像合成方法
Abraham et al. Challenges and Techniques to Improve Deep Detection and Recognition Methods for Text Spotting
Patil et al. An Attention Augmented Convolution based Improved Residual UNet for Road Extraction
Liu Efficient Fully Convolutional Networks for Dense Prediction Tasks
Xu et al. Video Object Segmentation: Tasks, Datasets, and Methods
Ye et al. GFSCompNet: remote sensing image compression network based on global feature-assisted segmentation
Aiswarya et al. Keyframe Extraction Algorithm for Continuous Sign-Language Videos Using Angular Displacement and Sequence Check Metrics

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication

Application publication date: 20210806

WW01 Invention patent application withdrawn after publication