CN109919025A - 基于深度学习的视频场景文本检测方法、系统、设备及介质 - Google Patents

基于深度学习的视频场景文本检测方法、系统、设备及介质 Download PDF

Info

Publication number
CN109919025A
CN109919025A CN201910089785.7A CN201910089785A CN109919025A CN 109919025 A CN109919025 A CN 109919025A CN 201910089785 A CN201910089785 A CN 201910089785A CN 109919025 A CN109919025 A CN 109919025A
Authority
CN
China
Prior art keywords
scene text
module
neural networks
text
image data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910089785.7A
Other languages
English (en)
Inventor
黄双萍
伍思航
杨弈才
伍冠中
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South China University of Technology SCUT
Original Assignee
South China University of Technology SCUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China University of Technology SCUT filed Critical South China University of Technology SCUT
Priority to CN201910089785.7A priority Critical patent/CN109919025A/zh
Publication of CN109919025A publication Critical patent/CN109919025A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Image Analysis (AREA)

Abstract

本发明公开了一种基于深度学习的视频场景文本检测方法、系统、设备及介质,所述方法包括:获取静态自然场景文本图像数据;对静态自然场景文本图像数据进行预处理,得到预处理场景文本图像数据;构建基于回归的端到端深度卷积神经网络模型;使用预处理场景文本图像数据对深度卷积神经网络模型进行优化训练;利用训练后的深度卷积神经网络模型进行视频场景文本检测。本发明采用计算机视觉中基于深度学习的检测方法,通过设计高效的基于回归的端到端深度卷积神经网络模型,可以快速并且实时准确地获取视频中的场景文本,能够为后续文字识别等任务提供基础,对视频语义理解、字幕翻译、治安监控安防、无人机飞行、自动驾驶等场景有着重要的应用。

Description

基于深度学习的视频场景文本检测方法、系统、设备及介质
技术领域
本发明涉及一种文本检测方法,尤其是一种基于深度学习的视频场景文本检测方法、系统、设备及介质,属于计算机视觉的目标检测领域。
背景技术
近年来,随着计算机技术、多媒体技术和网络技术的不断发展,手机、摄像机、监控等获取视频的设备快速普及,视频资源日益丰富。快速并且准确地获取视频中的信息越来越重要,而基于深度学习的方法蕴藏着巨大的潜能,在计算机视觉领域的应用发展如火如荼,成为当今及未来的趋势。更进一步,实时准确地检测定位视频中的场景文本,对视频语义理解、字幕翻译、治安监控安防、无人机飞行、自动驾驶等场景有着重要的应用。
静态图像场景文字检测的传统图像处理方法大多基于笔画部件的滑窗检测,代表有Xu-Cheng Yin等人在2014年TPAMI期刊上发表一种使用MSERs算法来产生字符候选区域再构建文本行并使用分类器分类的方法检测文本;Lei Sun,Qiang Huo等人2015年在Pattern Recognition期刊上发表一种基于图像颜色增强对比极值来提取文字区域的方法;Hojin Cho等人在2016年国际会议CPVR上发表一种基于Canny算子计算图像中文字边缘信息的快速检测文本方法。这些传统方法在实际应用场景中检测准确率较低,达不到令人满意的效果。
近年来受益于深度学习的蓬勃发展,静态图像场景文字检测性能有了极大提升。Ankush Gupta等人在2016年国际会议CVPR上提出一种基于回归的全卷积网络,兼顾速率和精度,但是其使用合成数据训练,在真实场景中对文字的召回率较低;Bai等人在2017年的AAAI上提出了一个从检测文本到识别文本的端到端的方法,可以利用带字典的文字识别进行检测结果调整,实验取得良好结果,在图像700*700像素下检测速度达到11帧每秒;Jin等人在2017年的CVPR提出使用任意四边形检测场景文本的方法,包括四边形滑窗,四边形重叠面积的快速计算,四边形点的顺序以及四边形的回归方法,使用了SSD作为基本框架,速度较快;Deng D等人在2018年AAAI上提出一种基于像素分割的文本检测方法,利用卷积神经网络对像素点进行分类和8邻域方向连接预测,通过连通域方法连接成文本,该方法精度高但是速度不到10帧每秒;Ma、Shao等人在2018年的IEEE-TMM中发表一种新型的基于旋转文本的框架,提出旋转区域候选网络(RRPN),旨在生成具有文本方向角信息的倾斜候选框,用于自然场景图像中任意方向文本检测,虽然精度高但是速度达不到实时应用要求。
发明内容
鉴于此,本发明提供了一种基于深度学习的视频场景文本检测方法、系统、设备及介质,其引入了基于回归的端到端深度卷积神经网络模型,达到较好的文本定位精准性和实时帧率。
本发明的第一个目的在于提供一种基于深度学习的视频场景文本检测方法。
本发明的第二个目的在于提供一种基于深度学习的视频场景文本检测系统。
本发明的第三个目的在于提供一种计算机设备。
本发明的第四个目的在于提供一种存储介质。
本发明的第一个目的可以通过采取如下技术方案达到:
一种基于深度学习的视频场景文本检测方法,所述方法包括:
获取静态自然场景文本图像数据;
对静态自然场景文本图像数据进行预处理,得到预处理场景文本图像数据;
构建基于回归的端到端深度卷积神经网络模型;
使用预处理场景文本图像数据对深度卷积神经网络模型进行优化训练;
利用训练后的深度卷积神经网络模型进行视频场景文本检测。
进一步的,所述获取静态自然场景文本图像数据,具体包括:
获取户外采集的静态自然场景文本图像数据;
获取通过互联网下载的公开静态自然场景文本图像数据集。
进一步的,所述对静态自然场景文本图像数据进行预处理,具体包括:
筛选并弃用成像质量低的静态自然场景文本图像;
筛选并弃用场景文本肉眼难以辨认的静态自然场景文本图像;
筛选并弃用场景文本过于繁多复杂的静态自然场景文本图像;
根据拟定的标准对筛选后保留的静态自然场景文本图像进行标注;其中,所述拟定的标准为:使用水平矩形紧密地包围图片中的场景文本;
随机抽取标注后的静态自然场景文本图像划分为训练集或测试集。
进一步的,所述构建基于回归的端到端深度卷积神经网络模型,具体包括:
构建提取图像特征主干网络;其中,所述提取图像特征主干网络的顶端包括第一卷积层和第二卷积层,第一卷积层和第二卷积层之后顺序级联五个带有残差结构的卷积模块;
根据提取图像特征主干网络,构建多尺度特征融合预测网络。
进一步的,所述残差结构在整个卷积模块在末尾的卷积层输出之外,记为F(t),还有一个分支将该卷积模块的输入,记为t,直接连到输出上,两者相加得到该卷积模块最终的输出,记为H(t);
第一个卷积模块包括顺序级联的一组残差结构,每组残差结构包含两个第三卷积层;第一个卷积模块之后顺序级联第四卷积层作为下采样;
第二个卷积模块包括顺序级联的两组残差结构,每组残差结构包含两个第五卷积层;第二个卷积模块之后顺序级联第六卷积层作为下采样;
第三个卷积模块包括顺序级联的八组残差结构,每组残差结构包含两个第七卷积层;第三个卷积模块之后顺序级联第八卷积层作为下采样;
第四个卷积模块包括顺序级联的八组残差结构,每组残差结构包含两个第九卷积层;第四个卷积模块之后顺序级联第十卷积层作为下采样;
第五个卷积模块包括顺序级联的四组残差结构,每组残差结构包含两个第十一卷积层。
进一步的,所述根据提取图像特征主干网络,构建多尺度特征融合预测网络,具体包括:
第一次特征融合:将第五个卷积模块的输出经过压缩模块进行特征压缩,对该特征在长宽维度进行两倍的双线性插值的上采样操作,使之与第四个卷积模块的输出的长宽维度相同,将两者特征在通道数上进行相加融合;
第二次特征融合:将第一次特征融合的输出经过压缩模块进行特征压缩,对该特征在长宽维度进行两倍的双线性插值的上采样操作,使之与第三个卷积模块的输出长宽维度相同,将两者特征在通道数上进行相加融合;
第一次预测:在第五个卷积模块的输出经过压缩模块进行特征压缩后,接上第十二卷积层,输出大小为(width5,height5,N*6)的特征向量;其中,N表示特征向量长宽维度上,每个点预测N个文本目标边界框,每个边界框包含该边界框所回归的四个坐标偏移量、置信度以及类别;
第二次预测:在第一次特征融合的输出经过压缩模块进行特征压缩后,接上第十三卷积层,输出大小为(width4,height4,N*6)的特征向量;
第三次预测:在第二次特征融合的输出经过压缩模块进行特征压缩后,接上第十四卷积层,输出大小为(width3,height3,N*6)的特征向量。
进一步的,所述使用预处理场景文本图像数据对深度卷积神经网络模型进行优化训练,具体包括:
从预处理图像数据训练集中,每次随机抽取多个预处理图像数据构成一个批次,经过深度卷积神经网络模型中的主干网络提取特征后,进入多尺度特征融合预测网络的三次预测,将预测的所有边界框计算所回归的四个坐标偏移量损失、置信度损失以及类别损失,将三者求和得到总误差;
将总误差反向传播到主干网络和多尺度特征融合预测网络,使用随机梯度下降法更新网络的权值,训练直至收敛。
进一步的,所述利用训练后的深度卷积神经网络模型进行视频场景文本检测,具体包括:
对视频进行分帧操作,得到以帧为单位的静态图像;
将静态图像输入训练后的深度卷积神经网络模型得到场景文本检测结果;
将场景文本检测结果按时间顺序组成视频流。
本发明的第二个目的可以通过采取如下技术方案达到:
一种基于深度学习的视频场景文本检测系统,所述系统包括:
获取模块,用于获取静态自然场景文本图像数据;
预处理模块,用于对静态自然场景文本图像数据进行预处理,得到预处理场景文本图像数据;
构建模块,用于构建基于回归的端到端深度卷积神经网络模型;
训练模块,用于使用预处理场景文本图像数据对深度卷积神经网络模型进行优化训练;
检测模块,用于利用训练后的深度卷积神经网络模型进行视频场景文本检测。
本发明的第三个目的可以通过采取如下技术方案达到:
一种计算机设备,包括处理器以及用于存储处理器可执行程序的存储器,所述处理器执行存储器存储的程序时,实现上述的视频场景文本检测方法。
本发明的第四个目的可以通过采取如下技术方案达到:
一种存储介质,存储有程序,所述程序被处理器执行时,实现上述的视频场景文本检测方法。
本发明相对于现有技术具有如下的有益效果:
1、本发明采用计算机视觉中基于深度学习的检测方法,通过设计高效的基于回归的端到端深度卷积神经网络模型,可以快速并且实时准确地获取视频中的场景文本,能够为后续文字识别等任务提供基础,对视频语义理解、字幕翻译、治安监控安防、无人机飞行、自动驾驶等场景有着重要的应用。
2、本发明通过应用计算机视觉中的前沿领域深度学习方法,设计出基于回归的端到端深度卷积神经网络模型,兼顾精度和速度,应用于实时视频场景文本检测中,达到令人满意的效果。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图示出的结构获得其他的附图。
图1为本发明实施例1的基于深度学习的实时视频场景文本检测方法的流程图。
图2为本发明实施例1的深度卷积神经网络模型结构图。
图3是本发明实施例1的压缩模块结构图。
图4a~图4b为本发明实施例1的基于深度学习的实时视频场景文本检测方法在静态图像的检测结果图。
图5a~图5d为本发明实施例1的基于深度学习的实时视频场景文本检测方法在一个视频中的第50、100、150、200帧的检测结果图。
图6为本发明实施例2的基于深度学习的实时视频场景文本检测系统的结构框图。
图7为本发明实施例2的采集模块的结构框图。
图8为本发明实施例2的预处理模块的结构框图。
图9为本发明实施例2的构建模块的结构框图。
图10为本发明实施例2的训练模块的结构框图。
图11为本发明实施例2的检测模块的结构框图。
图12为本发明实施例3的计算机设备的结构框图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明的一部分实施例,而不是全部的实施例,基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例1:
如图1所示,本实施例提供了一种基于深度学习的视频场景文本检测方法,该方法包括以下步骤:
S1、获取静态自然场景文本图像数据。
本实施例的静态自然场景文本图像数据有两部分,一部分是户外采集的静态自然场景文本图像数据,另一部分是通过互联网下载的公开静态自然场景文本图像数据集。
该步骤S1具体包括:
S101、获取户外采集的静态自然场景文本图像数据。
具体地,可以采用配有高清后置摄像头的智能手机、单镜头反光相机等,在户外采集大量包含文本的静态自然场景图像。
S102、获取通过互联网下载的公开静态自然场景文本图像数据集。
具体地,可以通过互联网线上采集(下载)国际文档分析与识别会议(ICDAR)举办比赛的公开数据,其中用于文本定位任务的图像ICDAR2003训练集258张,测试集251张,共509张图像,ICDAR2013训练集229张,测试集233张,共462张图像;此外,还可以通过互联网线上采集2017年华南理工大学公开的SCUT_FORU英文单词级别标注的数据训练集1200张,测试集515张,共1715张图像。
S2、对静态自然场景文本图像数据进行预处理,得到预处理场景文本图像数据。
该步骤S2具体包括:
S201、筛选并弃用成像质量低的静态自然场景文本图像,如模糊失真、曝光反光等图像。
S202、筛选并弃用场景文本肉眼难以辨认的静态自然场景文本图像。
S203、筛选并弃用场景文本过于繁多复杂的静态自然场景文本图像。
步骤S201~S203的静态自然场景文本图像均为户外采集的静态自然场景文本图像数据。
S204、根据拟定的标准对筛选后保留的静态自然场景文本图像进行标注;其中,所述拟定的标准为:使用水平矩形紧密地包围图片中的场景文本,主要是中文、英文、数字。
S205、随机抽取标注后的静态自然场景文本图像划分为训练集或测试集,测试集和训练集比例为1:4。
S3、构建基于回归的端到端深度卷积神经网络模型。
如图2所示,本实施例的深度卷积神经网络模型包括提取图像特征主干网络和多尺度特征融合预测网络。
该步骤S3具体包括:
S301、构建提取图像特征主干网络。
提取图像特征主干网络的顶端包括卷积核步长为1的第一卷积层和卷积核步长为2的第二卷积层,第一卷积层和第二卷积层之后顺序级联五个带有残差结构的卷积模块,五个卷积模块记为res1~res5,将输入图像大小调整到416*416像素。
进一步地,残差结构在整个卷积模块在末尾的卷积层输出之外,记为F(t),还有一个分支将该卷积模块的输入,记为t,直接连到输出上,两者相加得到该卷积模块最终的输出,记为H(t),即H(t)为F(t)与t的和。
第一个卷积模块res1包括顺序级联的一组残差结构,每组残差结构包含两个卷积核步长为1的第三卷积层;第一个卷积模块之后顺序级联卷积核步长为2的第四卷积层作为下采样;
第二个卷积模块res2包括顺序级联的两组残差结构,每组残差结构包含两个卷积核步长为1的第五卷积层;第二个卷积模块之后顺序级联卷积核步长为2的第六卷积层作为下采样;
第三个卷积模块res3包括顺序级联的八组残差结构,每组残差结构包含两个卷积核步长为1的第七卷积层;第三个卷积模块之后顺序级联卷积核步长为2的第八卷积层作为下采样;
第四个卷积模块res4包括顺序级联的八组残差结构,每组残差结构包含两个卷积核步长为1的第九卷积层;第四个卷积模块之后顺序级联卷积核步长为2的第十卷积层作为下采样;
第五个卷积模块res5包括顺序级联的四组残差结构,每组残差结构包含两个第十一卷积层;
五个卷积模块的输出记为(widthi,heighti,channeli),其中i=1,2,3,4,5,width表示特征的宽,height表示特征的高,channel表示特征的通道数。具体地,五个卷积模块的输出分别为(208,208,64,(104,104,128,(52,52,256),(26,26,512),(13,13,1024)。
S302、根据提取图像特征主干网络,构建多尺度特征融合预测网络。
构建多尺度特征融合预测网络包括两次特征融合操作和三次预测,两次特征融合操作和三次预测具体如下:
第一次特征融合:将第五个卷积模块res5的输出经过压缩模块进行特征压缩,对该特征在长宽维度进行两倍的双线性插值的上采样操作,使之与第四个卷积模块res4的输出的长宽维度相同,将两者特征在通道数上进行相加融合。
第二次特征融合:将第一次特征融合的输出经过压缩模块进行特征压缩,对该特征在长宽维度进行两倍的双线性插值的上采样操作,使之与第三个卷积模块res3的输出长宽维度相同,将两者特征在通道数上进行相加融合。
第一次预测:在第五个卷积模块res5的输出经过压缩模块进行特征压缩后,接上卷积核为1x1的第十二卷积层,输出大小为(width5,height5,N*6的特征向量,本实施例的(width5,height5,N*6)为(13,13,3*6);其中,N表示特征向量长宽维度上,每个点预测N个文本目标边界框,每个边界框包含该边界框所回归的四个坐标偏移量、置信度以及类别。
第二次预测:在第一次特征融合的输出经过压缩模块进行特征压缩后,接上卷积核为1x1的第十三卷积层,输出大小为(width4,height4,N*6)的特征向量,本实施例的(width4,height4,N*6)为(26,26,3*6)。
第三次预测:在第二次特征融合的输出经过压缩模块进行特征压缩后,接上卷积核为1x1的第十四卷积层,输出大小为(width3,height3,N*6)的特征向量,本实施例的(width3,height3,N*6)为(52,52,3*6)。
如图3所示,本实施例的压缩模块中,顶端为两组卷积层,每组包含卷积核大小为1x1和3x3的卷积层,底端为两个卷积核为1x1的卷积层。
S4、使用预处理场景文本图像数据对深度卷积神经网络模型进行优化训练。
该步骤S4具体包括:
S401、建立四个坐标偏移量损失函数losscoord,如下:
其中,λcoord表示坐标损失比例权重系数,一般取数值5,S表示特征向量的长维度值,N表示特征向量长宽维度上,每个点预测N个文本目标边界框,i、j是计数变量,表示布尔值记号,在i、j条件下,当前预测的边界框匹配一个真实边界框obj时为1否则为0,xi、yi、wi、hi为边界框横坐标、纵坐标、宽度、高度偏移量预测值,为相应的真实值。
S402、建立置信度损失函数losscon,如下:
其中,λcon表示置信度损失比例权重系数,一般取数值0.5,表示布尔值记号,在i、j条件下,当前预测的边界框没有匹配一个真实边界框noobj时为1否则为0,ci表示置信度预测值,为真实值。
S403、建立类别损失函数losscls,如下:
其中,pi表示当前边界框的为文本类别概率。
S404、从预处理图像数据训练集中,每次随机抽取32个预处理图像数据构成一个批次,经过深度卷积神经网络模型中的主干网络提取特征后,进入多尺度特征融合预测网络的三次预测,将预测的所有边界框利用上述式(1)~(3)计算所回归的四个坐标偏移量损失、置信度损失以及类别损失,将三者求和得到总误差。
S405、将总误差反向传播到主干网络和多尺度特征融合预测网络,使用随机梯度下降法更新网络的权值,训练直至收敛。
S5、利用训练后的深度卷积神经网络模型进行视频场景文本检测。
该步骤S5具体包括:
S501、对视频进行分帧操作,得到以帧为单位的静态图像。
S502、将静态图像输入训练后的深度卷积神经网络模型得到场景文本检测结果。
S503、将场景文本检测结果按时间顺序组成视频流。
图4a~图4b为本实施例的视频场景文本检测方法在静态图像的检测结果图。
图5a~图5d为本实施例的视频场景文本检测方法在一个视频中的四帧检测结果图。
本领域技术人员可以理解,实现上述实施例方法中的全部或部分步骤可以通过程序来指令相关的硬件来完成,相应的程序可以存储于计算机可读存储介质中。
应当注意,尽管在附图中以特定顺序描述了上述实施例的方法操作,但是这并非要求或者暗示必须按照该特定顺序来执行这些操作,或是必须执行全部所示的操作才能实现期望的结果。相反,描绘的步骤可以改变执行顺序。附加地或备选地,可以省略某些步骤,将多个步骤合并为一个步骤执行,和/或将一个步骤分解为多个步骤执行。
实施例2:
如图6所示,本实施例提供了一种基于深度学习的视频场景文本检测系统,该系统包括获取模块601、预处理模块602、构建模块603、训练模块604和检测模块605,各个模块的具体功能如下:
所述获取模块601,用于获取静态自然场景文本图像数据。
进一步地,所述获取模块601如图7所示,具体包括:
第一获取单元6011,用于获取户外采集的静态自然场景文本图像数据。
第二获取单元6012,用于获取通过互联网下载的公开静态自然场景文本图像数据集。
所述预处理模块602,用于对静态自然场景文本图像数据进行预处理,得到预处理场景文本图像数据。
进一步地,所述预处理模块602如图8所示,具体包括:
第一筛选单元6021,用于筛选并弃用成像质量低的静态自然场景文本图像。
第二筛选单元6022,用于筛选并弃用场景文本肉眼难以辨认的静态自然场景文本图像。
第三筛选单元6023,用于筛选并弃用场景文本过于繁多复杂的静态自然场景文本图像。
标注单元6024,用于根据拟定的标准对筛选后保留的静态自然场景文本图像进行标注;其中,所述拟定的标准为:使用水平矩形紧密地包围图片中的场景文本。
划分单元6025,用于随机抽取标注后的静态自然场景文本图像划分为训练集或测试集,其中属于同一街道场景的图像归为同一个集合。
所述构建模块603,用于构建基于回归的端到端深度卷积神经网络模型。
进一步地,所述构建模块603如图9所示,具体包括:
第一构建单元6031,用于构建提取图像特征主干网络;其中,所述提取图像特征主干网络的顶端包括第一卷积层和第二卷积层,第一卷积层和第二卷积层之后顺序级联五个带有残差结构的卷积模块;具体地,残差结构在整个卷积模块在末尾的卷积层输出之外,记为F(t),还有一个分支将该卷积模块的输入,记为t,直接连到输出上,两者相加得到该卷积模块最终的输出,记为H(t);第一个卷积模块包括顺序级联的一组残差结构,每组残差结构包含两个第三卷积层;第一个卷积模块之后顺序级联第四卷积层作为下采样;第二个卷积模块包括顺序级联的两组残差结构,每组残差结构包含两个第五卷积层;第二个卷积模块之后顺序级联第六卷积层作为下采样;第三个卷积模块包括顺序级联的八组残差结构,每组残差结构包含两个第六卷积层;第三个卷积模块之后顺序级联第八卷积层作为下采样;第四个卷积模块包括顺序级联的八组残差结构,每组残差结构包含两个第九卷积层;第四个卷积模块之后顺序级联第十卷积层作为下采样;第五个卷积模块包括顺序级联的四组残差结构,每组残差结构包含两个第十一卷积层。
第二构建单元6032,用于根据提取图像特征主干网络,构建多尺度特征融合预测网络,该第二构建单元6032具体包括:
第一融合子单元60321,用于第一次特征融合,将第五个卷积模块的输出经过压缩模块进行特征压缩,对该特征在长宽维度进行两倍的双线性插值的上采样操作,使之与第四个卷积模块的输出的长宽维度相同,将两者特征在通道数上进行相加融合。
第二融合子单元60322,用于第二次特征融合,将第一次特征融合的输出经过压缩模块进行特征压缩,对该特征在长宽维度进行两倍的双线性插值的上采样操作,使之与第三个卷积模块的输出长宽维度相同,将两者特征在通道数上进行相加融合。
第一预测子单元60323,用于第一次预测,在第五个卷积模块的输出经过压缩模块进行特征压缩后,接上第十二卷积层,输出大小为(width5,height5,N*6)的特征向量;其中,N表示特征向量长宽维度上,每个点预测N个文本目标边界框,每个边界框包含该边界框所回归的四个坐标偏移量、置信度以及类别。
第二预测子单元60324,用于第二次预测,在第一次特征融合的输出经过压缩模块进行特征压缩后,接上第十三卷积层,输出大小为(width4,height4,N*6)的特征向量。
第三预测子单元60325,用于第三次预测,在第二次特征融合的输出经过压缩模块进行特征压缩后,接上第十四卷积层,输出大小为(width3,height3,N*6)的特征向量。
所述训练模块604,用于使用预处理场景文本图像数据对深度卷积神经网络模型进行优化训练。
进一步地,所述训练模块604如图10所示,具体包括:
训练单元6041,用于从预处理图像数据训练集中,每次随机抽取多个预处理图像数据构成一个批次,经过深度卷积神经网络模型中的主干网络提取特征后,进入多尺度特征融合预测网络的三次预测,将预测的所有边界框计算所回归的四个坐标偏移量损失、置信度损失以及类别损失,将三者求和得到总误差。
权值更新单元6042,用于将总误差反向传播到主干网络和多尺度特征融合预测网络,使用随机梯度下降法更新网络的权值,训练直至收敛。
所述检测模块605,用于利用训练后的深度卷积神经网络模型进行视频场景文本检测。
进一步地,所述检测模块605如图11所示,具体包括:
分帧单元6051,用于对视频进行分帧操作,得到以帧为单位的静态图像。
检测单元6052,用于将静态图像输入训练后的深度卷积神经网络模型得到场景文本检测结果。
组装单元6053,用于将场景文本检测结果按时间顺序组成视频流。
在此需要说明的是,上述实施例提供的系统仅以上述各功能模块的划分进行举例说明,在实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。
可以理解,上述实施例的系统中所使用的术语“第一”、“第二”等可用于描述各种单元,但这些单元不受这些术语限制。这些术语仅用于将第一个单元与另一个单元区分。举例来说,在不脱离本发明的范围的情况下,可以将第一融合单元称为第二融合单元,且类似地,可将第二融合单元称为第一融合单元,第一融合单元和第二融合单元两者都是融合单元,但其不是同一融合单元。
实施例3:
如图12所示,本实施例提供了一种计算机设备,该计算机设备可以是计算机,其包括通过系统总线1201连接的处理器1202、存储器、输入装置1203、显示器1204和网络接口1205。其中,处理器1202用于提供计算和控制能力,存储器包括非易失性存储介质1206和内存储器1207,该非易失性存储介质1206存储有操作系统、计算机程序和数据库,该内存储器1207为非易失性存储介质1206中的操作系统和计算机程序的运行提供环境,计算机程序被处理器1202执行时,实现上述实施例1的视频场景文本检测方法,如下:
获取静态自然场景文本图像数据;
对静态自然场景文本图像数据进行预处理,得到预处理场景文本图像数据;
构建基于回归的端到端深度卷积神经网络模型;
使用预处理场景文本图像数据对深度卷积神经网络模型进行优化训练;
利用训练后的深度卷积神经网络模型进行视频场景文本检测。
本实施例中所述的计算机设备还可以是服务器或其他具有计算功能的终端设备。
实施例4:
本实施例提供了一种存储介质,该存储介质为计算机可读存储介质,其存储有计算机程序,所述程序被处理器执行时,处理器执行存储器存储的计算机程序时,实现上述实施例1的视频场景文本检测方法,如下:
获取静态自然场景文本图像数据;
对静态自然场景文本图像数据进行预处理,得到预处理场景文本图像数据;
构建基于回归的端到端深度卷积神经网络模型;
使用预处理场景文本图像数据对深度卷积神经网络模型进行优化训练;
利用训练后的深度卷积神经网络模型进行视频场景文本检测。
本实施例中所述的存储介质可以是磁盘、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、U盘、移动硬盘等介质。
综上所述,本发明采用计算机视觉中基于深度学习的检测方法,通过设计高效的基于回归的端到端深度卷积神经网络模型,可以快速并且实时准确地获取视频中的场景文本,能够为后续文字识别等任务提供基础,对视频语义理解、字幕翻译、治安监控安防、无人机飞行、自动驾驶等场景有着重要的应用。
以上所述,仅为本发明专利优选的实施例,但本发明专利的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明专利所公开的范围内,根据本发明专利的技术方案及其发明构思加以等同替换或改变,都属于本发明专利的保护范围。

Claims (10)

1.一种基于深度学习的视频场景文本检测方法,其特征在于,所述方法包括:
获取静态自然场景文本图像数据;
对静态自然场景文本图像数据进行预处理,得到预处理场景文本图像数据;
构建基于回归的端到端深度卷积神经网络模型;
使用预处理场景文本图像数据对深度卷积神经网络模型进行优化训练;
利用训练后的深度卷积神经网络模型进行视频场景文本检测。
2.根据权利要求1所述的视频场景文本检测方法,其特征在于,所述对静态自然场景文本图像数据进行预处理,具体包括:
筛选并弃用成像质量低的静态自然场景文本图像;
筛选并弃用场景文本肉眼难以辨认的静态自然场景文本图像;
筛选并弃用场景文本过于繁多复杂的静态自然场景文本图像;
根据拟定的标准对筛选后保留的静态自然场景文本图像进行标注;其中,所述拟定的标准为:使用水平矩形紧密地包围图片中的场景文本;
随机抽取标注后的静态自然场景文本图像划分为训练集或测试集。
3.根据权利要求1所述的视频场景文本检测方法,其特征在于,所述构建基于回归的端到端深度卷积神经网络模型,具体包括:
构建提取图像特征主干网络;其中,所述提取图像特征主干网络的顶端包括第一卷积层和第二卷积层,第一卷积层和第二卷积层之后顺序级联五个带有残差结构的卷积模块;
根据提取图像特征主干网络,构建多尺度特征融合预测网络。
4.根据权利要求3所述的视频场景文本检测方法,其特征在于,所述残差结构在整个卷积模块在末尾的卷积层输出之外,记为F(t),还有一个分支将该卷积模块的输入,记为t,直接连到输出上,两者相加得到该卷积模块最终的输出,记为H(t);
第一个卷积模块包括顺序级联的一组残差结构,每组残差结构包含两个第三卷积层;第一个卷积模块之后顺序级联第四卷积层作为下采样;
第二个卷积模块包括顺序级联的两组残差结构,每组残差结构包含两个第五卷积层;第二个卷积模块之后顺序级联第六卷积层作为下采样;
第三个卷积模块包括顺序级联的八组残差结构,每组残差结构包含两个第七卷积层;第三个卷积模块之后顺序级联第八卷积层作为下采样;
第四个卷积模块包括顺序级联的八组残差结构,每组残差结构包含两个第九卷积层;第四个卷积模块之后顺序级联第十卷积层作为下采样;
第五个卷积模块包括顺序级联的四组残差结构,每组残差结构包含两个第十一卷积层。
5.根据权利要求3所述的视频场景文本检测方法,其特征在于,所述根据提取图像特征主干网络,构建多尺度特征融合预测网络,具体包括:
第一次特征融合:将第五个卷积模块的输出经过压缩模块进行特征压缩,对该特征在长宽维度进行两倍的双线性插值的上采样操作,使之与第四个卷积模块的输出的长宽维度相同,将两者特征在通道数上进行相加融合;
第二次特征融合:将第一次特征融合的输出经过压缩模块进行特征压缩,对该特征在长宽维度进行两倍的双线性插值的上采样操作,使之与第三个卷积模块的输出长宽维度相同,将两者特征在通道数上进行相加融合;
第一次预测:在第五个卷积模块的输出经过压缩模块进行特征压缩后,接上第十二卷积层,输出大小为(width5,height5,N*6)的特征向量;其中,N表示特征向量长宽维度上,每个点预测N个文本目标边界框,每个边界框包含该边界框所回归的四个坐标偏移量、置信度以及类别;
第二次预测:在第一次特征融合的输出经过压缩模块进行特征压缩后,接上第十三卷积层,输出大小为(width4,height4,N*6)的特征向量;
第三次预测:在第二次特征融合的输出经过压缩模块进行特征压缩后,接上第十四卷积层,输出大小为(width3,height3,N*6)的特征向量。
6.根据权利要求1-5任一项所述的视频场景文本检测方法,其特征在于,所述使用预处理场景文本图像数据对深度卷积神经网络模型进行优化训练,具体包括:
从预处理图像数据训练集中,每次随机抽取多个预处理图像数据构成一个批次,经过深度卷积神经网络模型中的主干网络提取特征后,进入多尺度特征融合预测网络的三次预测,将预测的所有边界框计算所回归的四个坐标偏移量损失、置信度损失以及类别损失,将三者求和得到总误差;
将总误差反向传播到主干网络和多尺度特征融合预测网络,使用随机梯度下降法更新网络的权值,训练直至收敛。
7.根据权利要求1-5任一项所述的视频场景文本检测方法,其特征在于,所述利用训练后的深度卷积神经网络模型进行视频场景文本检测,具体包括:
对视频进行分帧操作,得到以帧为单位的静态图像;
将静态图像输入训练后的深度卷积神经网络模型得到场景文本检测结果;
将场景文本检测结果按时间顺序组成视频流。
8.一种基于深度学习的视频场景文本检测系统,其特征在于,所述系统包括:
获取模块,用于获取静态自然场景文本图像数据;
预处理模块,用于对静态自然场景文本图像数据进行预处理,得到预处理场景文本图像数据;
构建模块,用于构建基于回归的端到端深度卷积神经网络模型;
训练模块,用于使用预处理场景文本图像数据对深度卷积神经网络模型进行优化训练;
检测模块,用于利用训练后的深度卷积神经网络模型进行视频场景文本检测。
9.一种计算机设备,包括处理器以及用于存储处理器可执行程序的存储器,其特征在于,所述处理器执行存储器存储的程序时,实现权利要求1-7任一项所述的视频场景文本检测方法。
10.一种存储介质,存储有程序,其特征在于,所述程序被处理器执行时,实现权利要求1-7任一项所述的视频场景文本检测方法。
CN201910089785.7A 2019-01-30 2019-01-30 基于深度学习的视频场景文本检测方法、系统、设备及介质 Pending CN109919025A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910089785.7A CN109919025A (zh) 2019-01-30 2019-01-30 基于深度学习的视频场景文本检测方法、系统、设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910089785.7A CN109919025A (zh) 2019-01-30 2019-01-30 基于深度学习的视频场景文本检测方法、系统、设备及介质

Publications (1)

Publication Number Publication Date
CN109919025A true CN109919025A (zh) 2019-06-21

Family

ID=66961033

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910089785.7A Pending CN109919025A (zh) 2019-01-30 2019-01-30 基于深度学习的视频场景文本检测方法、系统、设备及介质

Country Status (1)

Country Link
CN (1) CN109919025A (zh)

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110428011A (zh) * 2019-08-06 2019-11-08 华南理工大学 一种面向视频传输质量的深度学习图像失真分类方法
CN110929665A (zh) * 2019-11-29 2020-03-27 河海大学 一种自然场景曲线文本检测方法
CN110956088A (zh) * 2019-10-31 2020-04-03 北京易道博识科技有限公司 基于深度学习的交叠文本行定位分割方法及系统
CN110991448A (zh) * 2019-11-27 2020-04-10 云南电网有限责任公司电力科学研究院 电力设备铭牌图像的文本检测方法及装置
CN111161292A (zh) * 2019-11-21 2020-05-15 合肥合工安驰智能科技有限公司 一种矿石尺度测量方法及应用系统
CN111291631A (zh) * 2020-01-17 2020-06-16 北京市商汤科技开发有限公司 视频分析方法及其相关的模型训练方法、设备、装置
CN111368826A (zh) * 2020-02-25 2020-07-03 安徽炬视科技有限公司 一种基于可变卷积核的明火检测算法
CN111832641A (zh) * 2020-07-06 2020-10-27 广东海洋大学 一种基于级联下采样卷积神经网络的图像识别方法
CN111898608A (zh) * 2020-07-04 2020-11-06 西北工业大学 一种基于边界预测的自然场景多语言文字检测方法
CN111950554A (zh) * 2020-08-17 2020-11-17 深圳市丰巢网络技术有限公司 一种身份证识别方法、装置、设备及存储介质
CN112287931A (zh) * 2020-12-30 2021-01-29 浙江万里学院 一种场景文本检测方法及系统
CN112560734A (zh) * 2020-12-23 2021-03-26 华南农业大学 基于深度学习的重获取视频检测方法、系统、设备及介质
CN112949574A (zh) * 2021-03-29 2021-06-11 中国科学院合肥物质科学研究院 一种基于深度学习的级联式文本关键字段检测方法
CN113076814A (zh) * 2021-03-15 2021-07-06 腾讯科技(深圳)有限公司 文本区域的确定方法、装置、设备及可读存储介质
CN113095279A (zh) * 2021-04-28 2021-07-09 华南农业大学 果树花量智能视觉识别方法、装置、系统及存储介质
WO2022042638A1 (en) * 2020-08-27 2022-03-03 International Business Machines Corporation Deterministic learning video scene detection
CN114882485A (zh) * 2022-04-25 2022-08-09 华南理工大学 一种面向细长文本的自然场景文字检测方法、系统及介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030043172A1 (en) * 2001-08-24 2003-03-06 Huiping Li Extraction of textual and graphic overlays from video
CN107169421A (zh) * 2017-04-20 2017-09-15 华南理工大学 一种基于深度卷积神经网络的汽车驾驶场景目标检测方法
CN107688808A (zh) * 2017-08-07 2018-02-13 电子科技大学 一种快速的自然场景文本检测方法
CN108961235A (zh) * 2018-06-29 2018-12-07 山东大学 一种基于YOLOv3网络和粒子滤波算法的缺陷绝缘子识别方法
CN109064461A (zh) * 2018-08-06 2018-12-21 长沙理工大学 一种基于深度学习网络的钢轨表面缺陷检测方法
CN109117794A (zh) * 2018-08-16 2019-01-01 广东工业大学 一种运动目标行为跟踪方法、装置、设备及可读存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030043172A1 (en) * 2001-08-24 2003-03-06 Huiping Li Extraction of textual and graphic overlays from video
CN107169421A (zh) * 2017-04-20 2017-09-15 华南理工大学 一种基于深度卷积神经网络的汽车驾驶场景目标检测方法
CN107688808A (zh) * 2017-08-07 2018-02-13 电子科技大学 一种快速的自然场景文本检测方法
CN108961235A (zh) * 2018-06-29 2018-12-07 山东大学 一种基于YOLOv3网络和粒子滤波算法的缺陷绝缘子识别方法
CN109064461A (zh) * 2018-08-06 2018-12-21 长沙理工大学 一种基于深度学习网络的钢轨表面缺陷检测方法
CN109117794A (zh) * 2018-08-16 2019-01-01 广东工业大学 一种运动目标行为跟踪方法、装置、设备及可读存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
王润民等: "自然场景图像中的文本检测综述", 《自动化学报》 *

Cited By (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110428011A (zh) * 2019-08-06 2019-11-08 华南理工大学 一种面向视频传输质量的深度学习图像失真分类方法
CN110956088B (zh) * 2019-10-31 2023-06-30 北京易道博识科技有限公司 基于深度学习的交叠文本行定位分割方法及系统
CN110956088A (zh) * 2019-10-31 2020-04-03 北京易道博识科技有限公司 基于深度学习的交叠文本行定位分割方法及系统
CN111161292A (zh) * 2019-11-21 2020-05-15 合肥合工安驰智能科技有限公司 一种矿石尺度测量方法及应用系统
CN111161292B (zh) * 2019-11-21 2023-09-05 合肥合工安驰智能科技有限公司 一种矿石尺度测量方法及应用系统
CN110991448A (zh) * 2019-11-27 2020-04-10 云南电网有限责任公司电力科学研究院 电力设备铭牌图像的文本检测方法及装置
CN110929665A (zh) * 2019-11-29 2020-03-27 河海大学 一种自然场景曲线文本检测方法
CN110929665B (zh) * 2019-11-29 2022-08-26 河海大学 一种自然场景曲线文本检测方法
CN111291631A (zh) * 2020-01-17 2020-06-16 北京市商汤科技开发有限公司 视频分析方法及其相关的模型训练方法、设备、装置
CN111291631B (zh) * 2020-01-17 2023-11-07 北京市商汤科技开发有限公司 视频分析方法及其相关的模型训练方法、设备、装置
CN111368826A (zh) * 2020-02-25 2020-07-03 安徽炬视科技有限公司 一种基于可变卷积核的明火检测算法
CN111368826B (zh) * 2020-02-25 2023-05-05 安徽炬视科技有限公司 一种基于可变卷积核的明火检测算法
CN111898608A (zh) * 2020-07-04 2020-11-06 西北工业大学 一种基于边界预测的自然场景多语言文字检测方法
CN111832641B (zh) * 2020-07-06 2021-08-27 广东海洋大学 一种基于级联下采样卷积神经网络的图像识别方法
CN111832641A (zh) * 2020-07-06 2020-10-27 广东海洋大学 一种基于级联下采样卷积神经网络的图像识别方法
CN111950554A (zh) * 2020-08-17 2020-11-17 深圳市丰巢网络技术有限公司 一种身份证识别方法、装置、设备及存储介质
US11450111B2 (en) 2020-08-27 2022-09-20 International Business Machines Corporation Deterministic learning video scene detection
GB2613742A (en) * 2020-08-27 2023-06-14 Ibm Deterministic learning video scene detection
WO2022042638A1 (en) * 2020-08-27 2022-03-03 International Business Machines Corporation Deterministic learning video scene detection
CN112560734B (zh) * 2020-12-23 2023-10-10 华南农业大学 基于深度学习的重获取视频检测方法、系统、设备及介质
CN112560734A (zh) * 2020-12-23 2021-03-26 华南农业大学 基于深度学习的重获取视频检测方法、系统、设备及介质
CN112287931B (zh) * 2020-12-30 2021-03-19 浙江万里学院 一种场景文本检测方法及系统
CN112287931A (zh) * 2020-12-30 2021-01-29 浙江万里学院 一种场景文本检测方法及系统
CN113076814A (zh) * 2021-03-15 2021-07-06 腾讯科技(深圳)有限公司 文本区域的确定方法、装置、设备及可读存储介质
CN113076814B (zh) * 2021-03-15 2022-02-25 腾讯科技(深圳)有限公司 文本区域的确定方法、装置、设备及可读存储介质
CN112949574A (zh) * 2021-03-29 2021-06-11 中国科学院合肥物质科学研究院 一种基于深度学习的级联式文本关键字段检测方法
CN113095279A (zh) * 2021-04-28 2021-07-09 华南农业大学 果树花量智能视觉识别方法、装置、系统及存储介质
CN113095279B (zh) * 2021-04-28 2023-10-24 华南农业大学 果树花量智能视觉识别方法、装置、系统及存储介质
CN114882485A (zh) * 2022-04-25 2022-08-09 华南理工大学 一种面向细长文本的自然场景文字检测方法、系统及介质
CN114882485B (zh) * 2022-04-25 2024-05-24 华南理工大学 一种面向细长文本的自然场景文字检测方法、系统及介质

Similar Documents

Publication Publication Date Title
CN109919025A (zh) 基于深度学习的视频场景文本检测方法、系统、设备及介质
Huang et al. Building extraction from multi-source remote sensing images via deep deconvolution neural networks
CN111862126B (zh) 深度学习与几何算法结合的非合作目标相对位姿估计方法
Chen et al. MANet: A multi-level aggregation network for semantic segmentation of high-resolution remote sensing images
Turker et al. Building‐based damage detection due to earthquake using the watershed segmentation of the post‐event aerial images
Workman et al. A unified model for near and remote sensing
CN110020676A (zh) 基于多感受野深度特征的文本检测方法、系统、设备及介质
CN108596108B (zh) 基于三元组语义关系学习的航拍遥感图像变化检测方法
CN110163213B (zh) 基于视差图和多尺度深度网络模型的遥感图像分割方法
CN112183414A (zh) 一种基于混合空洞卷积的弱监督遥感目标检测方法
CN106295613A (zh) 一种无人机目标定位方法及系统
Tian et al. Multiscale building extraction with refined attention pyramid networks
CN114758337B (zh) 一种语义实例重建方法、装置、设备及介质
CN113822383B (zh) 一种基于多域注意力机制的无人机检测方法及系统
CN113379771B (zh) 带有边缘约束的层次化人体解析语义分割方法
US10755146B2 (en) Network architecture for generating a labeled overhead image
CN111640116B (zh) 基于深层卷积残差网络的航拍图建筑物分割方法及装置
CN113569788B (zh) 一种建筑物语义分割网络模型训练方法、系统及应用方法
CN111783514A (zh) 面部解析方法、装置及计算机可读存储介质
CN107506792A (zh) 一种半监督的显著对象检测方法
CN113903022A (zh) 基于特征金字塔与注意力融合的文本检测方法及系统
Song et al. PSTNet: Progressive sampling transformer network for remote sensing image change detection
CN109657082A (zh) 基于全卷积神经网络的遥感图像多标签检索方法及系统
Jiang et al. Arbitrary-shaped building boundary-aware detection with pixel aggregation network
CN114639020A (zh) 一种图像的目标物的分割网络、分割系统及其分割装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20190621

RJ01 Rejection of invention patent application after publication