CN110766003A

CN110766003A - 一种基于卷积神经网络的片段和链接的场景文字的检测方法

Info

Publication number: CN110766003A
Application number: CN201910993784.5A
Authority: CN
Inventors: 严灵毓; 夏慧玲; 王春枝; 董新华; 叶志伟; 李敏
Original assignee: Hubei University of Technology
Current assignee: Hubei University of Technology
Priority date: 2019-10-18
Filing date: 2019-10-18
Publication date: 2020-02-07

Abstract

本发明公开发明了一种基于卷积神经网络的片段和链接的场景文字的检测方法。本发明中构建的片段链接模型包括若干个依次连接的卷积特征层和卷积预测器，由于该发明能够在前向传导的过程中同时在多个尺度上密集地检测片段和链接，因此检测效率非常高。链接类型具体分为同层链接和跨层链接两种，同层链接连接同一个特征层中检测到的片段，而跨层链接可以连接不同层上的片段。基于此，使用跨层链接和同层链接可以组合相同或者不同尺度上的片段，很好的避免了漏检和重复检查的问题。

Description

一种基于卷积神经网络的片段和链接的场景文字的检测方法

技术领域

本发明属于数字图像处理的应用领域，具体涉及一种基于卷积神经网络的片段和链接的场景文字的检测方法。

背景技术

理解图像是计算机视觉的主要目标。对图像的理解分为不同的层级，例如物体的边缘检测是底层的图像理解；对物体的语义分割是中层的理解等等。而对图像中所携带的文字的理解，则是高层语义信息(high level semantics)的理解，这些信息和人类的符号系统兼容，可以直接被用于高层的语义、逻辑分析。由于文字的普遍存在和文字信息的重要性，理解图片中的文字在计算机视觉中一直处于重要的位置。从图像中识别文字的技术通常被称作光学字符识别(OCR)，它是计算机视觉最早的应用之一，受到技术水平和硬件条件的限制，传统的OCR方法只针对文档文字设计。自然图片中的文字通常被称作场景文字，场景文字检测识别是传统OCR在自然图片上的延续和升级，其应用及其广泛。

深层神经网络是深度学习的核心，它是一种灵活且学习能力极强的机器学习模型。从数学角度来看，深层神经网络是一种高度非线性、高度参数化的通用拟合函数，通过大量的样本训练后可以达到良好的预测准确率及泛化性能。深度神经网络是解决场景文字识别问题的有效手段。

检测场景文字需要克服自然图像丰富变化带来的干扰，在方法上和传统的文档文字分析有很大的不同。在过去一段时间有许多针对自然图像文字或视频文字的算法被提出。早期方法大多基于纹理和连通域的分析，通过分析图像中较为底层的视觉特征来检测场景文字。但是由于场景文字和一般物体在形状上存在差别，所以一般物体的检测方法并不是理想的解决方案。首先，一般物体检测方法受其候选区域提取算法的限制，输出包围盒的长宽比往往只能在小范围内变化。因此难以被用于检测如中文、日文等非拉丁文字，因为这些文字的词与词之间并没有间隔，检测目标常是宽高比极端的细长包围盒；其次，一般物体检测方法只能输出水平包围盒，不能检测非水平方向的文字。

发明内容

为了解决现有技术中存在的上述文本，本发明在此提出一种基于卷积神经网络的片段和链接的场景文字的检测方法。

本发明采用的技术方案包括如下步骤：

步骤1，获得大小为w_I*h_I的文字图片I；

步骤2，构建片段链接模型，其中片段链接模型包括若干个依次连接的卷积特征层和卷积预测器，其中卷积特征层和卷积预测器均用L进行编号索引；每个卷积特征层对应的特征图上的位置都对应一个参考盒，对于特征卷积层L，设定特征图大小为w_L*h_L，特征图的位置(i,j)对应一个正方形的参考盒，其中心点(x_a,y_a)通过以下公式计算：

上式中，设定参考盒的宽度和高度均为常量a_L；

步骤3，将图片I输入到构建的片段链接模型中，获得卷积预测器的结果输出，包括以下子步骤；

步骤3.1，通过片段链接模型将图片I中的文字划分为片段，获得片段的得分和片段的集合坐标；

步骤3.2，检测片段的相邻片段实现同层链接；

步骤3.3，检测片段的跨层近邻片段实现跨层链接；

步骤4，利用无向图将卷积预测器的结果进行片段组合得到整词；

步骤5，输出整词的检测结果。

进一步的，步骤2中片段链接模型包括6个卷积特征层和卷积预测器，卷积特征层分别是conv4_3、conv7_3、conv8_2、conv9_2、conv10_2、con11，其中conv4_3的卷积核有1024个，卷积核大小为3，卷积步长为1；conv7_3卷积核有256个，卷积核大小为1，卷积步长为1；conv8_2卷积核有128个，卷积核大小为1，卷积步长为1；con9_2卷积核有128个，卷积核大小为1，卷积步长为1；conv10_2卷积核有128个，卷积核大小为3，卷积步长为2；卷积预测器的卷积核大小为3。

进一步的，步骤3.1中片段的得分直接通过卷积预测器获得，片段的集合坐标由卷积特征层对应的参考盒的坐标和卷积预测器预测的偏移量计算得到，具体实现方式如下，

假设片段的矩形框表示为s＝(x_s,y_s,ω_s,h_s,q_s)，其中x_s,y_s表示矩形框中心的位置，w_s,h_s表示矩形框的长宽，qs表示矩形框相对水平方向的旋转角度，则片段的集合坐标的具体计算公式如下所示：

x_s＝a_LΔx_s+x_a

y_s＝a_LΔy_s+y_a

w_s＝a_Lexp(Δw_s)

h_s＝a_Lexp(Δh_s)

θ_s＝Δθ_s

其中，偏移量(Δx_s,Δy_s,Δw_s,Δh_s,Δq_s)和参考盒中心坐标(x_a,y_a)由片段连接模型得到，参考盒的宽高a_L控制了输出片段的尺寸。

进一步的，步骤3.2中相邻片段被定义在特征图上8-邻域位置上检测到的片段，假设用特征图的序号L以及特征图上的位置(i,j)来索引片段，即片段由s^(i,j,L)表示，定义相邻片段

为该片段s^(i,j,L)在特征图上的属于同一连通域的片段，数学表示为：

进一步的，步骤3.3中跨层近邻片段定义为连续两个特征层上的符合一定空间约束关系的片段对，数学表示为：

本发明的有益效果是：提出一种基于卷积神经网络的片段和链接的场景文字的检测方法。该方法基于“片段链接”的思想，将文字行拆分成片段和链接两种元素，片段是单词或文字行的一小段，链接将属于同一单词或文字行的相邻片段相连。片段和链接通过一个全卷积网络在多个尺度上密集地检测，并根据几何规则组合得到整词。

附图说明

图1为本发明实施例的流程图；

图2为本发明实施例待检测的源图像，(a)为实施例1待检测的源图像；(b)为对实施例1(a)划分片段之后的源图像；(c)为对实施例1(b)进行同层链接后的图像；(d)为对实施例1(b)进行跨层链接后的图像；(e)为对实施例1(d)进行片段链接后的图像；(f)为对实施例1(e)的片段进行组合后的图像。

图3为本发明实施片段链接模型的网络结构图，其中灰色块的内容表示卷积层输出；灰色细箭表示卷积预测器；卷积层的配置用卷积核个数、卷积核大小(k)、卷积步长(s)表示。

具体实施方式

为了便于本领域普通技术人员理解和实施本发明，下面结合附图及实施例对本发明作进一步的详细描述，应当理解，此处所描述的实施示例仅用于说明和解释本发明，并不用于限定本发明。

请见图1，本发明所采用的技术方案是：一种基于卷积神经网络的片段和链接的场景文字的检测方法，其特征在于，包括以下步骤：

步骤1：输入大小为w_I*h_I图片I中的文字，其中w_I和h_I分别表示图片的宽和长；

步骤2：构建片段链接模型，其中片段链接模型的网络结构图见图3，该模型包括6个特征层，分别是conv4_3、conv7_3、conv8_2、conv9_2、conv10_2、con11，其中conv4_3的卷积核有1024个，卷积核大小为3，卷积步长为1；conv7_3卷积核有256个，卷积核大小为1，卷积步长为1；conv8_2卷积核有128个，卷积核大小为1，卷积步长为1；con9_2卷积核有128个，卷积核大小为1，卷积步长为1；conv10_2卷积核有128个，卷积核大小为3，卷积步长为2；它们提供了不同尺度、不同深度的特征，其中conv4_3的深度最浅，尺度也最小；con11深度最深，尺度最大；6个特征层上各自连接了一个卷积预测器，其卷积核大小为3*3，被用于预测片段和链接的得分，特征层和卷积预测器都由L＝1......6来编号索引。

每个特征层对应的特征图上的位置都对应一个参考盒，参考盒的置信度和偏移量由其对应的特征估计得到。片段和整词都由带角度的矩形框表示，假设表示整词的矩形框为b＝(x_b,y_b,ω_b,h_b,q_b)，表示片段的矩形框为s＝(x_s,y_s,ω_s,h_s,q_s)；其中x_b,y_b和x_s,y_s分别表示矩形框中心的位置，w_b,h_b和w_s,h_s分别表示矩形框的长宽，q_b和q_s表示矩形框相对水平方向的旋转角度。

对于特征层L，设定特征图大小为w_L*h_L，特征图的位置(i,j)对应一个正方形的参考盒，其中心点(x_a,y_a)通过以下公式计算：

上式中，设定参考盒的宽度和高度均为常量a_L，其中相同层的参考盒的宽高盒相同，不同层的则不同。

步骤3：将图片I输入到构建的片段链接模型中，获得卷积预测器的结果输出；

卷积预测器在特征图上的每个位置预测参考盒的置信度和偏移量，得到了一个7通道的得分图。针对其中2个通道进一步进行softmax归一化，得到(0,1)中的片段分数，片段分数越高说明片段的检测精度越高，另外的5个通道对应了几个偏移量(Δx_s,Δy_s,Δw_s,Δh_s,Δq_s)，片段的集合坐标由参考盒的坐标和偏移量计算得到，具体公式如下所示：

x_s＝a_LΔx_s+x_a

y_s＝a_LΔy_s+y_a

w_s＝a_Lexp(Δw_s)

h_s＝a_Lexp(Δh_s)

θ_s＝Δθ_s

由此可以看出，参考盒的宽高a_L控制了输出片段的尺寸。a_L的选取应该考虑到和L层的感受域大小，而该发明选取a_L的值为

γ＝1.5。

步骤3.2，检测片段的相邻片段实现同层链接；

链接用于将两个相邻片段相连，指示两个片段是否属于同一个单词，链接既可以将相同单词的片段相连，也可以帮助分离不同单词的片段。比如：即使两个单词距离很近，它们的片段之间的链接也会被预测为负，从而让两个不同单词不被组合在一起。

由于片段的局部性，特征图上相邻的片段在图片上位置也相近。因此，链接可以由局部的特征检测。与片段一样，链接也通过一个卷积预测器预测，卷积预测器会输出16通道的预测得分图，对应每个特征图位置上的片段和它的8近邻之间的连接关系。其中，每个链接的预测都由两个通道组成，每2个通道均进行softmax归一化以获取链接得分，链接得分越高说明片段链接的准确性越高。

相邻片段被定义在特征图上8-邻域位置上检测到的片段。由于每个特征位置上只检测一个片段，用特征图的序号以及特征图上的位置(i,j)来索引片段，即片段由s^(i,j,L)表示，定义一个片段的相邻片段为它在特征图上的属于同一连通域的片段，数学表示为：

步骤3.3，检测片段的跨层近邻片段实现跨层链接；

跨层链接连接处于不同特征层的片段即跨层近邻，故针对跨层链接，定义跨层近邻片段为连续两个特征层上的符合一定空间约束关系的片段对，数学表示为:

步骤4：将卷积预测器的结果进行片段组合得到整词；

对片段进行组合，首先需建立一个无向图表示片段的链接关系，每个节点代表一个片段，每一条边代表一个链接，并连接两个片段；然后，使用深度优先搜索在无向图上找到所有的连通组，属于同一连通组的片段，两两之间都存在链接组成的通路。

步骤5：输出整词的检测结果。

本发明通过利用一种基于卷积神经网络的片段和链接的场景文字的检测方法，该方法可用于场景文字检测处理相关领域中。

以下是发明人提供的实施例，以对本发明的技术方案作进一步解释说明。遵循本发明的技术方案，该实施例进行场景文字检测，待检测的源图像为图2(a)，大小均为512*512像素。片段和链接的置信度阈值分别设置为0.9和0.7，表1列出并比较了片段链接和其他方法的性能表现。其中，部分方法的结果从光放竞赛网站的排行榜获得。F一分数是确率和平均率的几何平均，它用于衡量检测的整体性能，表1如下所示：

表1片段链接结果客观指标对比结果

由表1可以看出，片段链接的F-分数大幅领先于其他方法，并超出第二名10％以上。考虑到一些方法比片段链接具有接近甚至更高的准确率，可以认为片段链接的性能提升主要来自召回率的提升。

应当理解的是，本说明书未详细阐述的部分均属于现有技术。

应当理解的是，上述针对较佳实施例的描述较为详细，并不能因此而认为是对本发明专利保护范围的限制，本领域的普通技术人员在本发明的启示下，在不脱离本发明权利要求所保护的范围情况下，还可以做出替换或变形，均落入本发明的保护范围之内，本发明的请求保护范围应以所附权利要求为准。

Claims

1.一种基于卷积神经网络的片段和链接的场景文字的检测方法，其特征在于，包括如下步骤：

步骤1，获得大小为w_I*h_I的文字图片I；

上式中，设定参考盒的宽度和高度均为常量a_L；

步骤3.2，检测片段的相邻片段实现同层链接；

步骤3.3，检测片段的跨层近邻片段实现跨层链接；

步骤5，输出整词的检测结果。

2.如权利要求1所述的一种基于卷积神经网络的片段和链接的场景文字的检测方法，其特征在于：步骤2中片段链接模型包括6个卷积特征层和卷积预测器，卷积特征层分别是conv4_3、conv7_3、conv8_2、conv9_2、conv10_2、con11，其中conv4_3的卷积核有1024个，卷积核大小为3，卷积步长为1；conv7_3卷积核有256个，卷积核大小为1，卷积步长为1；conv8_2卷积核有128个，卷积核大小为1，卷积步长为1；con9_2卷积核有128个，卷积核大小为1，卷积步长为1；conv10_2卷积核有128个，卷积核大小为3，卷积步长为2；卷积预测器的卷积核大小为3。

3.如权利要求1所述的一种基于卷积神经网络的片段和链接的场景文字的检测方法，其特征在于：步骤3.1中片段的得分直接通过卷积预测器获得，片段的集合坐标由卷积特征层对应的参考盒的坐标和卷积预测器预测的偏移量计算得到，具体实现方式如下，

假设片段的矩形框表示为s＝(x_s,y_s,ω_s,h_s,q_s)，其中x_s,y_s表示矩形框中心的位置，w_s,h_s表示矩形框的长宽，q_s表示矩形框相对水平方向的旋转角度，则片段的集合坐标的具体计算公式如下所示：

x_s＝a_LΔx_s+x_a

y_s＝a_LΔy_s+y_a

w_s＝a_Lexp(Δw_s)

h_s＝a_Lexp(Δh_s)

θ_s＝Δθ_s

4.如权利要求3所述的一种基于卷积神经网络的片段和链接的场景文字的检测方法，其特征在于：步骤3.2中相邻片段被定义在特征图上8-邻域位置上检测到的片段，假设用特征图的序号L以及特征图上的位置(i,j)来索引片段，即片段由s^(i,j,L)表示，定义相邻片段

5.如权利要求4所述的一种基于卷积神经网络的片段和链接的场景文字的检测方法，其特征在于：步骤3.3中跨层近邻片段定义为连续两个特征层上的符合一定空间约束关系的片段对，数学表示为：