CN109919025A

CN109919025A - 基于深度学习的视频场景文本检测方法、系统、设备及介质

Info

Publication number: CN109919025A
Application number: CN201910089785.7A
Authority: CN
Inventors: 黄双萍; 伍思航; 杨弈才; 伍冠中
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2019-01-30
Filing date: 2019-01-30
Publication date: 2019-06-21

Abstract

本发明公开了一种基于深度学习的视频场景文本检测方法、系统、设备及介质，所述方法包括：获取静态自然场景文本图像数据；对静态自然场景文本图像数据进行预处理，得到预处理场景文本图像数据；构建基于回归的端到端深度卷积神经网络模型；使用预处理场景文本图像数据对深度卷积神经网络模型进行优化训练；利用训练后的深度卷积神经网络模型进行视频场景文本检测。本发明采用计算机视觉中基于深度学习的检测方法，通过设计高效的基于回归的端到端深度卷积神经网络模型，可以快速并且实时准确地获取视频中的场景文本，能够为后续文字识别等任务提供基础，对视频语义理解、字幕翻译、治安监控安防、无人机飞行、自动驾驶等场景有着重要的应用。

Description

基于深度学习的视频场景文本检测方法、系统、设备及介质

技术领域

本发明涉及一种文本检测方法，尤其是一种基于深度学习的视频场景文本检测方法、系统、设备及介质，属于计算机视觉的目标检测领域。

背景技术

近年来，随着计算机技术、多媒体技术和网络技术的不断发展，手机、摄像机、监控等获取视频的设备快速普及，视频资源日益丰富。快速并且准确地获取视频中的信息越来越重要，而基于深度学习的方法蕴藏着巨大的潜能，在计算机视觉领域的应用发展如火如荼，成为当今及未来的趋势。更进一步，实时准确地检测定位视频中的场景文本，对视频语义理解、字幕翻译、治安监控安防、无人机飞行、自动驾驶等场景有着重要的应用。

静态图像场景文字检测的传统图像处理方法大多基于笔画部件的滑窗检测，代表有Xu-Cheng Yin等人在2014年TPAMI期刊上发表一种使用MSERs算法来产生字符候选区域再构建文本行并使用分类器分类的方法检测文本；Lei Sun,Qiang Huo等人2015年在Pattern Recognition期刊上发表一种基于图像颜色增强对比极值来提取文字区域的方法；Hojin Cho等人在2016年国际会议CPVR上发表一种基于Canny算子计算图像中文字边缘信息的快速检测文本方法。这些传统方法在实际应用场景中检测准确率较低，达不到令人满意的效果。

近年来受益于深度学习的蓬勃发展，静态图像场景文字检测性能有了极大提升。Ankush Gupta等人在2016年国际会议CVPR上提出一种基于回归的全卷积网络，兼顾速率和精度，但是其使用合成数据训练，在真实场景中对文字的召回率较低；Bai等人在2017年的AAAI上提出了一个从检测文本到识别文本的端到端的方法，可以利用带字典的文字识别进行检测结果调整，实验取得良好结果，在图像700*700像素下检测速度达到11帧每秒；Jin等人在2017年的CVPR提出使用任意四边形检测场景文本的方法，包括四边形滑窗，四边形重叠面积的快速计算，四边形点的顺序以及四边形的回归方法，使用了SSD作为基本框架，速度较快；Deng D等人在2018年AAAI上提出一种基于像素分割的文本检测方法，利用卷积神经网络对像素点进行分类和8邻域方向连接预测，通过连通域方法连接成文本，该方法精度高但是速度不到10帧每秒；Ma、Shao等人在2018年的IEEE-TMM中发表一种新型的基于旋转文本的框架，提出旋转区域候选网络(RRPN)，旨在生成具有文本方向角信息的倾斜候选框，用于自然场景图像中任意方向文本检测，虽然精度高但是速度达不到实时应用要求。

发明内容

鉴于此，本发明提供了一种基于深度学习的视频场景文本检测方法、系统、设备及介质，其引入了基于回归的端到端深度卷积神经网络模型，达到较好的文本定位精准性和实时帧率。

本发明的第一个目的在于提供一种基于深度学习的视频场景文本检测方法。

本发明的第二个目的在于提供一种基于深度学习的视频场景文本检测系统。

本发明的第三个目的在于提供一种计算机设备。

本发明的第四个目的在于提供一种存储介质。

本发明的第一个目的可以通过采取如下技术方案达到：

一种基于深度学习的视频场景文本检测方法，所述方法包括：

获取静态自然场景文本图像数据；

对静态自然场景文本图像数据进行预处理，得到预处理场景文本图像数据；

构建基于回归的端到端深度卷积神经网络模型；

使用预处理场景文本图像数据对深度卷积神经网络模型进行优化训练；

利用训练后的深度卷积神经网络模型进行视频场景文本检测。

进一步的，所述获取静态自然场景文本图像数据，具体包括：

获取户外采集的静态自然场景文本图像数据；

获取通过互联网下载的公开静态自然场景文本图像数据集。

进一步的，所述对静态自然场景文本图像数据进行预处理，具体包括：

筛选并弃用成像质量低的静态自然场景文本图像；

筛选并弃用场景文本肉眼难以辨认的静态自然场景文本图像；

筛选并弃用场景文本过于繁多复杂的静态自然场景文本图像；

根据拟定的标准对筛选后保留的静态自然场景文本图像进行标注；其中，所述拟定的标准为：使用水平矩形紧密地包围图片中的场景文本；

随机抽取标注后的静态自然场景文本图像划分为训练集或测试集。

进一步的，所述构建基于回归的端到端深度卷积神经网络模型，具体包括：

构建提取图像特征主干网络；其中，所述提取图像特征主干网络的顶端包括第一卷积层和第二卷积层，第一卷积层和第二卷积层之后顺序级联五个带有残差结构的卷积模块；

根据提取图像特征主干网络，构建多尺度特征融合预测网络。

进一步的，所述残差结构在整个卷积模块在末尾的卷积层输出之外，记为F(t)，还有一个分支将该卷积模块的输入，记为t，直接连到输出上，两者相加得到该卷积模块最终的输出，记为H(t)；

第一个卷积模块包括顺序级联的一组残差结构，每组残差结构包含两个第三卷积层；第一个卷积模块之后顺序级联第四卷积层作为下采样；

第二个卷积模块包括顺序级联的两组残差结构，每组残差结构包含两个第五卷积层；第二个卷积模块之后顺序级联第六卷积层作为下采样；

第三个卷积模块包括顺序级联的八组残差结构，每组残差结构包含两个第七卷积层；第三个卷积模块之后顺序级联第八卷积层作为下采样；

第四个卷积模块包括顺序级联的八组残差结构，每组残差结构包含两个第九卷积层；第四个卷积模块之后顺序级联第十卷积层作为下采样；

第五个卷积模块包括顺序级联的四组残差结构，每组残差结构包含两个第十一卷积层。

进一步的，所述根据提取图像特征主干网络，构建多尺度特征融合预测网络，具体包括：

第一次特征融合：将第五个卷积模块的输出经过压缩模块进行特征压缩，对该特征在长宽维度进行两倍的双线性插值的上采样操作，使之与第四个卷积模块的输出的长宽维度相同，将两者特征在通道数上进行相加融合；

第二次特征融合：将第一次特征融合的输出经过压缩模块进行特征压缩，对该特征在长宽维度进行两倍的双线性插值的上采样操作，使之与第三个卷积模块的输出长宽维度相同，将两者特征在通道数上进行相加融合；

第一次预测：在第五个卷积模块的输出经过压缩模块进行特征压缩后，接上第十二卷积层，输出大小为(width₅,height₅,N*6)的特征向量；其中，N表示特征向量长宽维度上，每个点预测N个文本目标边界框，每个边界框包含该边界框所回归的四个坐标偏移量、置信度以及类别；

第二次预测：在第一次特征融合的输出经过压缩模块进行特征压缩后，接上第十三卷积层，输出大小为(width₄,height₄,N*6)的特征向量；

第三次预测：在第二次特征融合的输出经过压缩模块进行特征压缩后，接上第十四卷积层，输出大小为(width₃,height₃,N*6)的特征向量。

进一步的，所述使用预处理场景文本图像数据对深度卷积神经网络模型进行优化训练，具体包括：

从预处理图像数据训练集中，每次随机抽取多个预处理图像数据构成一个批次，经过深度卷积神经网络模型中的主干网络提取特征后，进入多尺度特征融合预测网络的三次预测，将预测的所有边界框计算所回归的四个坐标偏移量损失、置信度损失以及类别损失，将三者求和得到总误差；

将总误差反向传播到主干网络和多尺度特征融合预测网络，使用随机梯度下降法更新网络的权值，训练直至收敛。

进一步的，所述利用训练后的深度卷积神经网络模型进行视频场景文本检测，具体包括：

对视频进行分帧操作，得到以帧为单位的静态图像；

将静态图像输入训练后的深度卷积神经网络模型得到场景文本检测结果；

将场景文本检测结果按时间顺序组成视频流。

本发明的第二个目的可以通过采取如下技术方案达到：

一种基于深度学习的视频场景文本检测系统，所述系统包括：

获取模块，用于获取静态自然场景文本图像数据；

预处理模块，用于对静态自然场景文本图像数据进行预处理，得到预处理场景文本图像数据；

构建模块，用于构建基于回归的端到端深度卷积神经网络模型；

训练模块，用于使用预处理场景文本图像数据对深度卷积神经网络模型进行优化训练；

检测模块，用于利用训练后的深度卷积神经网络模型进行视频场景文本检测。

本发明的第三个目的可以通过采取如下技术方案达到：

一种计算机设备，包括处理器以及用于存储处理器可执行程序的存储器，所述处理器执行存储器存储的程序时，实现上述的视频场景文本检测方法。

本发明的第四个目的可以通过采取如下技术方案达到：

一种存储介质，存储有程序，所述程序被处理器执行时，实现上述的视频场景文本检测方法。

本发明相对于现有技术具有如下的有益效果：

1、本发明采用计算机视觉中基于深度学习的检测方法，通过设计高效的基于回归的端到端深度卷积神经网络模型，可以快速并且实时准确地获取视频中的场景文本，能够为后续文字识别等任务提供基础，对视频语义理解、字幕翻译、治安监控安防、无人机飞行、自动驾驶等场景有着重要的应用。

2、本发明通过应用计算机视觉中的前沿领域深度学习方法，设计出基于回归的端到端深度卷积神经网络模型，兼顾精度和速度，应用于实时视频场景文本检测中，达到令人满意的效果。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图示出的结构获得其他的附图。

图1为本发明实施例1的基于深度学习的实时视频场景文本检测方法的流程图。

图2为本发明实施例1的深度卷积神经网络模型结构图。

图3是本发明实施例1的压缩模块结构图。

图4a～图4b为本发明实施例1的基于深度学习的实时视频场景文本检测方法在静态图像的检测结果图。

图5a～图5d为本发明实施例1的基于深度学习的实时视频场景文本检测方法在一个视频中的第50、100、150、200帧的检测结果图。

图6为本发明实施例2的基于深度学习的实时视频场景文本检测系统的结构框图。

图7为本发明实施例2的采集模块的结构框图。

图8为本发明实施例2的预处理模块的结构框图。

图9为本发明实施例2的构建模块的结构框图。

图10为本发明实施例2的训练模块的结构框图。

图11为本发明实施例2的检测模块的结构框图。

图12为本发明实施例3的计算机设备的结构框图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明的一部分实施例，而不是全部的实施例，基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例1：

如图1所示，本实施例提供了一种基于深度学习的视频场景文本检测方法，该方法包括以下步骤：

S1、获取静态自然场景文本图像数据。

本实施例的静态自然场景文本图像数据有两部分，一部分是户外采集的静态自然场景文本图像数据，另一部分是通过互联网下载的公开静态自然场景文本图像数据集。

该步骤S1具体包括：

S101、获取户外采集的静态自然场景文本图像数据。

具体地，可以采用配有高清后置摄像头的智能手机、单镜头反光相机等，在户外采集大量包含文本的静态自然场景图像。

S102、获取通过互联网下载的公开静态自然场景文本图像数据集。

具体地，可以通过互联网线上采集(下载)国际文档分析与识别会议(ICDAR)举办比赛的公开数据，其中用于文本定位任务的图像ICDAR2003训练集258张，测试集251张，共509张图像，ICDAR2013训练集229张，测试集233张，共462张图像；此外，还可以通过互联网线上采集2017年华南理工大学公开的SCUT_FORU英文单词级别标注的数据训练集1200张，测试集515张，共1715张图像。

S2、对静态自然场景文本图像数据进行预处理，得到预处理场景文本图像数据。

该步骤S2具体包括：

S201、筛选并弃用成像质量低的静态自然场景文本图像，如模糊失真、曝光反光等图像。

S202、筛选并弃用场景文本肉眼难以辨认的静态自然场景文本图像。

S203、筛选并弃用场景文本过于繁多复杂的静态自然场景文本图像。

步骤S201～S203的静态自然场景文本图像均为户外采集的静态自然场景文本图像数据。

S204、根据拟定的标准对筛选后保留的静态自然场景文本图像进行标注；其中，所述拟定的标准为：使用水平矩形紧密地包围图片中的场景文本，主要是中文、英文、数字。

S205、随机抽取标注后的静态自然场景文本图像划分为训练集或测试集，测试集和训练集比例为1：4。

S3、构建基于回归的端到端深度卷积神经网络模型。

如图2所示，本实施例的深度卷积神经网络模型包括提取图像特征主干网络和多尺度特征融合预测网络。

该步骤S3具体包括：

S301、构建提取图像特征主干网络。

提取图像特征主干网络的顶端包括卷积核步长为1的第一卷积层和卷积核步长为2的第二卷积层，第一卷积层和第二卷积层之后顺序级联五个带有残差结构的卷积模块，五个卷积模块记为res1～res5，将输入图像大小调整到416*416像素。

进一步地，残差结构在整个卷积模块在末尾的卷积层输出之外，记为F(t)，还有一个分支将该卷积模块的输入，记为t，直接连到输出上，两者相加得到该卷积模块最终的输出，记为H(t)，即H(t)为F(t)与t的和。

第一个卷积模块res1包括顺序级联的一组残差结构，每组残差结构包含两个卷积核步长为1的第三卷积层；第一个卷积模块之后顺序级联卷积核步长为2的第四卷积层作为下采样；

第二个卷积模块res2包括顺序级联的两组残差结构，每组残差结构包含两个卷积核步长为1的第五卷积层；第二个卷积模块之后顺序级联卷积核步长为2的第六卷积层作为下采样；

第三个卷积模块res3包括顺序级联的八组残差结构，每组残差结构包含两个卷积核步长为1的第七卷积层；第三个卷积模块之后顺序级联卷积核步长为2的第八卷积层作为下采样；

第四个卷积模块res4包括顺序级联的八组残差结构，每组残差结构包含两个卷积核步长为1的第九卷积层；第四个卷积模块之后顺序级联卷积核步长为2的第十卷积层作为下采样；

第五个卷积模块res5包括顺序级联的四组残差结构，每组残差结构包含两个第十一卷积层；

五个卷积模块的输出记为(width_i,height_i,channel_i)，其中i＝1,2,3,4,5，width表示特征的宽，height表示特征的高，channel表示特征的通道数。具体地，五个卷积模块的输出分别为(208,208,64，(104,104,128，(52,52,256)，(26,26,512)，(13,13,1024)。

S302、根据提取图像特征主干网络，构建多尺度特征融合预测网络。

构建多尺度特征融合预测网络包括两次特征融合操作和三次预测，两次特征融合操作和三次预测具体如下：

第一次特征融合：将第五个卷积模块res5的输出经过压缩模块进行特征压缩，对该特征在长宽维度进行两倍的双线性插值的上采样操作，使之与第四个卷积模块res4的输出的长宽维度相同，将两者特征在通道数上进行相加融合。

第二次特征融合：将第一次特征融合的输出经过压缩模块进行特征压缩，对该特征在长宽维度进行两倍的双线性插值的上采样操作，使之与第三个卷积模块res3的输出长宽维度相同，将两者特征在通道数上进行相加融合。

第一次预测：在第五个卷积模块res5的输出经过压缩模块进行特征压缩后，接上卷积核为1x1的第十二卷积层，输出大小为(width₅,height₅,N*6的特征向量，本实施例的(width₅,height₅,N*6)为(13,13,3*6)；其中，N表示特征向量长宽维度上，每个点预测N个文本目标边界框，每个边界框包含该边界框所回归的四个坐标偏移量、置信度以及类别。

第二次预测：在第一次特征融合的输出经过压缩模块进行特征压缩后，接上卷积核为1x1的第十三卷积层，输出大小为(width₄,height₄，N*6)的特征向量，本实施例的(width₄,height₄,N*6)为(26,26,3*6)。

第三次预测：在第二次特征融合的输出经过压缩模块进行特征压缩后，接上卷积核为1x1的第十四卷积层，输出大小为(width₃,height₃,N*6)的特征向量，本实施例的(width₃,height₃,N*6)为(52,52,3*6)。

如图3所示，本实施例的压缩模块中，顶端为两组卷积层，每组包含卷积核大小为1x1和3x3的卷积层，底端为两个卷积核为1x1的卷积层。

S4、使用预处理场景文本图像数据对深度卷积神经网络模型进行优化训练。

该步骤S4具体包括：

S401、建立四个坐标偏移量损失函数loss_coord，如下：

其中，λ_coord表示坐标损失比例权重系数，一般取数值5，S表示特征向量的长维度值，N表示特征向量长宽维度上，每个点预测N个文本目标边界框，i、j是计数变量,表示布尔值记号，在i、j条件下，当前预测的边界框匹配一个真实边界框obj时为1否则为0，x_i、y_i、w_i、h_i为边界框横坐标、纵坐标、宽度、高度偏移量预测值，为相应的真实值。

S402、建立置信度损失函数loss_con，如下：

其中，λ_con表示置信度损失比例权重系数，一般取数值0.5，表示布尔值记号，在i、j条件下，当前预测的边界框没有匹配一个真实边界框noobj时为1否则为0，c_i表示置信度预测值，为真实值。

S403、建立类别损失函数loss_cls，如下：

其中，p_i表示当前边界框的为文本类别概率。

S404、从预处理图像数据训练集中，每次随机抽取32个预处理图像数据构成一个批次，经过深度卷积神经网络模型中的主干网络提取特征后，进入多尺度特征融合预测网络的三次预测，将预测的所有边界框利用上述式(1)～(3)计算所回归的四个坐标偏移量损失、置信度损失以及类别损失，将三者求和得到总误差。

S405、将总误差反向传播到主干网络和多尺度特征融合预测网络，使用随机梯度下降法更新网络的权值，训练直至收敛。

S5、利用训练后的深度卷积神经网络模型进行视频场景文本检测。

该步骤S5具体包括：

S501、对视频进行分帧操作，得到以帧为单位的静态图像。

S502、将静态图像输入训练后的深度卷积神经网络模型得到场景文本检测结果。

S503、将场景文本检测结果按时间顺序组成视频流。

图4a～图4b为本实施例的视频场景文本检测方法在静态图像的检测结果图。

图5a～图5d为本实施例的视频场景文本检测方法在一个视频中的四帧检测结果图。

本领域技术人员可以理解，实现上述实施例方法中的全部或部分步骤可以通过程序来指令相关的硬件来完成，相应的程序可以存储于计算机可读存储介质中。

应当注意，尽管在附图中以特定顺序描述了上述实施例的方法操作，但是这并非要求或者暗示必须按照该特定顺序来执行这些操作，或是必须执行全部所示的操作才能实现期望的结果。相反，描绘的步骤可以改变执行顺序。附加地或备选地，可以省略某些步骤，将多个步骤合并为一个步骤执行，和/或将一个步骤分解为多个步骤执行。

实施例2：

如图6所示，本实施例提供了一种基于深度学习的视频场景文本检测系统，该系统包括获取模块601、预处理模块602、构建模块603、训练模块604和检测模块605，各个模块的具体功能如下：

所述获取模块601，用于获取静态自然场景文本图像数据。

进一步地，所述获取模块601如图7所示，具体包括：

第一获取单元6011，用于获取户外采集的静态自然场景文本图像数据。

第二获取单元6012，用于获取通过互联网下载的公开静态自然场景文本图像数据集。

所述预处理模块602，用于对静态自然场景文本图像数据进行预处理，得到预处理场景文本图像数据。

进一步地，所述预处理模块602如图8所示，具体包括：

第一筛选单元6021，用于筛选并弃用成像质量低的静态自然场景文本图像。

第二筛选单元6022，用于筛选并弃用场景文本肉眼难以辨认的静态自然场景文本图像。

第三筛选单元6023，用于筛选并弃用场景文本过于繁多复杂的静态自然场景文本图像。

标注单元6024，用于根据拟定的标准对筛选后保留的静态自然场景文本图像进行标注；其中，所述拟定的标准为：使用水平矩形紧密地包围图片中的场景文本。

划分单元6025，用于随机抽取标注后的静态自然场景文本图像划分为训练集或测试集，其中属于同一街道场景的图像归为同一个集合。

所述构建模块603，用于构建基于回归的端到端深度卷积神经网络模型。

进一步地，所述构建模块603如图9所示，具体包括：

第一构建单元6031，用于构建提取图像特征主干网络；其中，所述提取图像特征主干网络的顶端包括第一卷积层和第二卷积层，第一卷积层和第二卷积层之后顺序级联五个带有残差结构的卷积模块；具体地，残差结构在整个卷积模块在末尾的卷积层输出之外，记为F(t)，还有一个分支将该卷积模块的输入，记为t，直接连到输出上，两者相加得到该卷积模块最终的输出，记为H(t)；第一个卷积模块包括顺序级联的一组残差结构，每组残差结构包含两个第三卷积层；第一个卷积模块之后顺序级联第四卷积层作为下采样；第二个卷积模块包括顺序级联的两组残差结构，每组残差结构包含两个第五卷积层；第二个卷积模块之后顺序级联第六卷积层作为下采样；第三个卷积模块包括顺序级联的八组残差结构，每组残差结构包含两个第六卷积层；第三个卷积模块之后顺序级联第八卷积层作为下采样；第四个卷积模块包括顺序级联的八组残差结构，每组残差结构包含两个第九卷积层；第四个卷积模块之后顺序级联第十卷积层作为下采样；第五个卷积模块包括顺序级联的四组残差结构，每组残差结构包含两个第十一卷积层。

第二构建单元6032，用于根据提取图像特征主干网络，构建多尺度特征融合预测网络，该第二构建单元6032具体包括：

第一融合子单元60321，用于第一次特征融合，将第五个卷积模块的输出经过压缩模块进行特征压缩，对该特征在长宽维度进行两倍的双线性插值的上采样操作，使之与第四个卷积模块的输出的长宽维度相同，将两者特征在通道数上进行相加融合。

第二融合子单元60322，用于第二次特征融合，将第一次特征融合的输出经过压缩模块进行特征压缩，对该特征在长宽维度进行两倍的双线性插值的上采样操作，使之与第三个卷积模块的输出长宽维度相同，将两者特征在通道数上进行相加融合。

第一预测子单元60323，用于第一次预测，在第五个卷积模块的输出经过压缩模块进行特征压缩后，接上第十二卷积层，输出大小为(width₅,height₅,N*6)的特征向量；其中，N表示特征向量长宽维度上，每个点预测N个文本目标边界框，每个边界框包含该边界框所回归的四个坐标偏移量、置信度以及类别。

第二预测子单元60324，用于第二次预测，在第一次特征融合的输出经过压缩模块进行特征压缩后，接上第十三卷积层，输出大小为(width₄,height₄,N*6)的特征向量。

第三预测子单元60325，用于第三次预测，在第二次特征融合的输出经过压缩模块进行特征压缩后，接上第十四卷积层，输出大小为(width₃,height₃,N*6)的特征向量。

所述训练模块604，用于使用预处理场景文本图像数据对深度卷积神经网络模型进行优化训练。

进一步地，所述训练模块604如图10所示，具体包括：

训练单元6041，用于从预处理图像数据训练集中，每次随机抽取多个预处理图像数据构成一个批次，经过深度卷积神经网络模型中的主干网络提取特征后，进入多尺度特征融合预测网络的三次预测，将预测的所有边界框计算所回归的四个坐标偏移量损失、置信度损失以及类别损失，将三者求和得到总误差。

权值更新单元6042，用于将总误差反向传播到主干网络和多尺度特征融合预测网络，使用随机梯度下降法更新网络的权值，训练直至收敛。

所述检测模块605，用于利用训练后的深度卷积神经网络模型进行视频场景文本检测。

进一步地，所述检测模块605如图11所示，具体包括：

分帧单元6051，用于对视频进行分帧操作，得到以帧为单位的静态图像。

检测单元6052，用于将静态图像输入训练后的深度卷积神经网络模型得到场景文本检测结果。

组装单元6053，用于将场景文本检测结果按时间顺序组成视频流。

在此需要说明的是，上述实施例提供的系统仅以上述各功能模块的划分进行举例说明，在实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。

可以理解，上述实施例的系统中所使用的术语“第一”、“第二”等可用于描述各种单元，但这些单元不受这些术语限制。这些术语仅用于将第一个单元与另一个单元区分。举例来说，在不脱离本发明的范围的情况下，可以将第一融合单元称为第二融合单元，且类似地，可将第二融合单元称为第一融合单元，第一融合单元和第二融合单元两者都是融合单元，但其不是同一融合单元。

实施例3：

如图12所示，本实施例提供了一种计算机设备，该计算机设备可以是计算机，其包括通过系统总线1201连接的处理器1202、存储器、输入装置1203、显示器1204和网络接口1205。其中，处理器1202用于提供计算和控制能力，存储器包括非易失性存储介质1206和内存储器1207，该非易失性存储介质1206存储有操作系统、计算机程序和数据库，该内存储器1207为非易失性存储介质1206中的操作系统和计算机程序的运行提供环境，计算机程序被处理器1202执行时，实现上述实施例1的视频场景文本检测方法，如下：

获取静态自然场景文本图像数据；

构建基于回归的端到端深度卷积神经网络模型；

本实施例中所述的计算机设备还可以是服务器或其他具有计算功能的终端设备。

实施例4：

本实施例提供了一种存储介质，该存储介质为计算机可读存储介质，其存储有计算机程序，所述程序被处理器执行时，处理器执行存储器存储的计算机程序时，实现上述实施例1的视频场景文本检测方法，如下：

获取静态自然场景文本图像数据；

构建基于回归的端到端深度卷积神经网络模型；

本实施例中所述的存储介质可以是磁盘、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、U盘、移动硬盘等介质。

综上所述，本发明采用计算机视觉中基于深度学习的检测方法，通过设计高效的基于回归的端到端深度卷积神经网络模型，可以快速并且实时准确地获取视频中的场景文本，能够为后续文字识别等任务提供基础，对视频语义理解、字幕翻译、治安监控安防、无人机飞行、自动驾驶等场景有着重要的应用。

以上所述，仅为本发明专利优选的实施例，但本发明专利的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明专利所公开的范围内，根据本发明专利的技术方案及其发明构思加以等同替换或改变，都属于本发明专利的保护范围。

Claims

1.一种基于深度学习的视频场景文本检测方法，其特征在于，所述方法包括：

获取静态自然场景文本图像数据；

构建基于回归的端到端深度卷积神经网络模型；

2.根据权利要求1所述的视频场景文本检测方法，其特征在于，所述对静态自然场景文本图像数据进行预处理，具体包括：

筛选并弃用成像质量低的静态自然场景文本图像；

3.根据权利要求1所述的视频场景文本检测方法，其特征在于，所述构建基于回归的端到端深度卷积神经网络模型，具体包括：

4.根据权利要求3所述的视频场景文本检测方法，其特征在于，所述残差结构在整个卷积模块在末尾的卷积层输出之外，记为F(t)，还有一个分支将该卷积模块的输入，记为t，直接连到输出上，两者相加得到该卷积模块最终的输出，记为H(t)；

5.根据权利要求3所述的视频场景文本检测方法，其特征在于，所述根据提取图像特征主干网络，构建多尺度特征融合预测网络，具体包括：

6.根据权利要求1-5任一项所述的视频场景文本检测方法，其特征在于，所述使用预处理场景文本图像数据对深度卷积神经网络模型进行优化训练，具体包括：

7.根据权利要求1-5任一项所述的视频场景文本检测方法，其特征在于，所述利用训练后的深度卷积神经网络模型进行视频场景文本检测，具体包括：

对视频进行分帧操作，得到以帧为单位的静态图像；

将场景文本检测结果按时间顺序组成视频流。

8.一种基于深度学习的视频场景文本检测系统，其特征在于，所述系统包括：

获取模块，用于获取静态自然场景文本图像数据；

9.一种计算机设备，包括处理器以及用于存储处理器可执行程序的存储器，其特征在于，所述处理器执行存储器存储的程序时，实现权利要求1-7任一项所述的视频场景文本检测方法。

10.一种存储介质，存储有程序，其特征在于，所述程序被处理器执行时，实现权利要求1-7任一项所述的视频场景文本检测方法。